ES2914124T3 - Focalización multimedia - Google Patents

Focalización multimedia Download PDF

Info

Publication number
ES2914124T3
ES2914124T3 ES18760070T ES18760070T ES2914124T3 ES 2914124 T3 ES2914124 T3 ES 2914124T3 ES 18760070 T ES18760070 T ES 18760070T ES 18760070 T ES18760070 T ES 18760070T ES 2914124 T3 ES2914124 T3 ES 2914124T3
Authority
ES
Spain
Prior art keywords
image
digital content
content
images
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES18760070T
Other languages
English (en)
Inventor
Eunsook An
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OpenTV Inc
Original Assignee
OpenTV Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OpenTV Inc filed Critical OpenTV Inc
Application granted granted Critical
Publication of ES2914124T3 publication Critical patent/ES2914124T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/74Browsing; Visualisation therefor
    • G06F16/743Browsing; Visualisation therefor a collection of video files or sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • G06F16/7335Graphical querying, e.g. query-by-region, query-by-sketch, query-by-trajectory, GUIs for designating a person/face/object as a query predicate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/434Query formulation using image data, e.g. images, photos, pictures taken by a user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04812Interaction techniques based on cursor appearance or behaviour, e.g. being affected by the presence of displayed objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/169Holistic features and representations, i.e. based on the facial image taken as a whole
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/179Human faces, e.g. facial parts, sketches or expressions metadata assisted face recognition

Abstract

Un método que comprende: recibir (310) metadatos para una pieza de contenido digital, donde los metadatos comprenden una imagen primaria y un texto que se utiliza para describir la pieza de contenido digital; analizar (320) la imagen primaria para detectar uno o más objetos; seleccionar (330) una o más imágenes secundarias correspondientes a uno o más objetos detectados, identificando un conjunto de coordenadas de imágenes secundarias de la imagen primaria para uno o más objetos detectados; y generar (350) una estructura de datos para la pieza de contenido digital que comprende las coordenadas de imagen secundaria de la imagen primaria para la una o más imágenes secundarias donde, en respuesta a una solicitud del usuario (510), la pieza de contenido digital es descrita en un menú (540) por una imagen secundaria de preferencia determinada (530) en base a al menos una preferencia del usuario y presentada en base a las coordenadas de la imagen secundaria para la imagen secundaria de preferencia en la estructura de datos generada.

Description

DESCRIPCIÓN
Focalización multimedia
CAMPO TÉCNICO
La presente divulgación se refiere en general al control multimedia, y está más específicamente relacionada con el análisis de imágenes para la focalización multimedia de control condicional.
ANTECEDENTES
Históricamente, los espectadores pasaban por un ciclo de canales para descubrir qué contenido de difusión estaba disponible. Los contenidos multimedia digitales modernos incluyen metadatos para describir cada elemento de contenido disponible, como un título y una breve descripción. Los usuarios (por ejemplo, los espectadores potenciales) generalmente navegan por una cuadrícula de texto o una serie de menús que pueden incluir la presentación para descubrir o navegar por el contenido disponible. Por lo general, los usuarios revisan elementos detallados de la presentación que representan el género o la línea de la historia asociada con el elemento de contenido. Los proveedores de contenidos, como los productores de películas o los creadores de programas de televisión, compiten por el interés del espectador durante la etapa de selección de contenidos, utilizando la presentación para comunicar el tema del contenido y persuadir al espectador para que seleccione el contenido.
Convencionalmente, los administradores o productores pasan innumerables horas editando y construyendo una pieza de presentación para captar la atención del espectador potencial. Por ejemplo, un productor de cine puede desarrollar una pequeña biblioteca de diferentes piezas de presentación para comercializar el contenido y persuadir a los espectadores para que vean su película. Los sistemas de arte relacionados utilizan diseños creativos y grupos de discusión para crear imágenes de imagen de presentación que comuniquen múltiples aspectos relativos al tema del contenido con el fin de atraer la atención de un amplio grupo de espectadores potenciales. Por ejemplo, una película puede tener múltiples carteles diferentes producidos con el fin de atraer a grandes segmentos de un público objetivo. Por ejemplo, una pieza de presentación puede estar diseñada para comunicar el género del contenido digital, otra pieza de presentación puede estar diseñada para comunicar el reparto o el actor principal que aparece en el contenido digital, y otra pieza de presentación está diseñada para comunicar la información de la programación (por ejemplo, la fecha y la hora del visionado o los equipos deportivos que aparecen).
Los estudios de arte relacionados han demostrado que la lectura de texto sobre el contenido digital es ineficaz para provocar una decisión de los espectadores potenciales. Las investigaciones relacionadas demuestran que las imágenes influyen de forma contundente en la elección del espectador a la hora de seleccionar los contenidos digitales. Por ejemplo, la investigación relacionada indica que los espectadores suelen dedicar de uno a dos segundos a considerar cada título cuando navegan por una biblioteca de medios de transmisión, y la mayor parte del tiempo lo dedican a acceder a la presentación. Además, la investigación ha demostrado que las personas son capaces de reconocer imágenes de rostros sustancialmente más rápido que los objetos.
Los sistemas de navegación de contenidos artísticos relacionados pueden ofrecer directamente la presentación proporcionado por el proveedor de contenidos. En los sistemas artísticos relacionados, los científicos de datos analizan las estadísticas de los usuarios para hacer un seguimiento de las reacciones a las imágenes y los equipos creativos modifican los colores, las imágenes y las palabras que se utilizan como la presentación. Además, la visualización de imágenes con texto mejora el proceso de toma de decisiones del espectador. Sin embargo, las imágenes (por ejemplo, de presentación) se han vuelto más complejas para atraer a más segmentos de un espectador potencial. Dado que las imágenes son más complejas, los espectadores requieren un tiempo adicional para analizar la imagen para localizar los objetos que son de interés que ayudan a tomar una determinación sobre si ver o no el elemento el contenido.
En el arte relacionado, la detección del punto focal se utiliza en las cámaras para ajustar la configuración de la captura de imágenes. En otras artes relacionadas, los sistemas de reconocimiento facial son cables de identificación o verificación de la identidad de una persona a partir de una imagen digital o un fotograma de vídeo de una fuente de vídeo.
Con el crecimiento explosivo de las bibliotecas digitales en línea y los servicios de entrega de medios digitales en streaming, los espectadores tienen acceso a una cantidad abrumadora de contenido digital para navegar. En consecuencia, se necesitan herramientas para mejorar la navegación del usuario y la interacción con la navegación basada en imágenes de los contenidos digitales.
El documento US2006/064716 divulga un método de extracción de miniaturas personalizadas a partir de contenidos multimedia mediante el análisis de imágenes para su presentación a los usuarios en menús.
RESUMEN
La presente invención proporciona un método y un sistema como se define en las reivindicaciones adjuntas.
BREVE DESCRIPCIÓN DE LOS DIBUJOS
La presente divulgación se ilustra a modo de ejemplos, y no a modo de limitación, y puede entenderse más plenamente con referencias a la siguiente descripción detallada cuando se considera en relación con las figuras, en las que:
La figura 1 ilustra un diagrama de bloques de un sistema de focalización de acuerdo con un ejemplo de implementación. La figura 2 ilustra un ejemplo de motor de focalización de acuerdo con un ejemplo de implementación.
La figura 3 ilustra un diagrama de flujo para generar una estructura de datos de punto de interés de acuerdo con un ejemplo de implementación.
Las figuras 4A-B ilustran un diagrama de bloques y un diagrama de flujo para generar imágenes focales de acuerdo con una implementación de ejemplo.
La figura 5 ilustra un diagrama de flujo para el control de la interfaz de acuerdo con una implementación de ejemplo. Las figuras 6A-C ilustran un ejemplo de interfaz focalizada de acuerdo con implementaciones de ejemplo.
Las figuras 7A-F ilustran ejemplos de interfaces individualizadas de acuerdo con implementaciones de ejemplo.
Las figuras 8A-C ilustran ejemplos de opciones de control de interfaz de acuerdo con implementaciones de ejemplo. La figura 9 ilustra un ejemplo de entorno informático de servidor con un ejemplo de dispositivo informático adecuado para su uso en implementaciones de ejemplo.
DESCRIPCIÓN DETALLADA
La presente divulgación se dirige a la identificación de múltiples imágenes secundarias para describir una pieza de contenido digital (por ejemplo, vídeo, audio, texto, etc.) que pueden utilizarse para proporcionar menús individualizados basados en la información del usuario.
Una imagen de presentación (por ejemplo, una imagen primaria) se refiere a una imagen utilizada para describir una pieza de contenido, por ejemplo, como un póster de película o una portada de DVD. En el caso de la navegación por contenidos digitales, los proveedores de contenidos ofrecen una imagen de presentación para describir una pieza de contenido digital disponible para mostrarla en los menús o submenús a los espectadores potenciales. Los espectadores potenciales pueden navegar a través de menús basados en texto o en imágenes y ver las imágenes de la muestra para ayudar a determinar si se selecciona una pieza. Dado que los proveedores de contenidos determinan convencionalmente la imagen de presentación de una película o programa de televisión, se utiliza la misma imagen común para todos los espectadores potenciales. Las interfaces de navegación (por ejemplo, los menús) para grandes colecciones en línea de contenido digital utilizan convencionalmente imágenes comunes para permitir a los espectadores potenciales navegar por el contenido digital disponible.
Como se describe en el presente documento, los sistemas y métodos proporcionan un procesamiento de imágenes mejorado de las imágenes de exposición (por ejemplo, imágenes primarias) mediante el análisis de cada imagen de exposición para identificar múltiples sub-imágenes (por ejemplo, imágenes secundarias) dentro de la imagen primaria. Una sub-imagen preferida (por ejemplo, una imagen secundaria preferida) puede ser presentada a un espectador potencial basada en una afinidad o preferencia del espectador potencial. En una implementación de ejemplo, una interfaz de navegación presenta a los espectadores potenciales una sub-imagen preferida de la imagen común de presentación basada en su información de usuario en lugar de la imagen común de presentación. Por ejemplo, una imagen de presentación de siete personas seleccionadas por el proveedor de contenidos puede ser reemplazada o redimensionada para presentar o resaltar una sub-imagen preferida de una de las actrices representadas en la imagen de presentación común. El espectador potencial puede reconocer a la actriz en la sub-imagen preferida en menos tiempo que escaneando la imagen común de la presentación. Por ejemplo, la imagen común de la presentación requiere que el espectador potencial escanee las siete personas representadas para determinar si alguna de ellas es reconocible, mientras que la sub-imagen preferida de una de las personas requiere menos tiempo para que el espectador potencial la procese.
En el ejemplo de implementación, la sub-imagen preferida se selecciona en base a la información asociada con el espectador potencial. Por ejemplo, la sub-imagen de la actriz puede ser seleccionada de entre múltiples sub-imágenes dentro de la imagen de presentación (por ejemplo, una sub-imagen para cada una de las siete personas) usando información sobre el espectador potencial (por ejemplo, basada en el historial de visualización del espectador potencial). Es más probable que el espectador potencial reconozca, o reconozca más rápidamente, la sub-imagen preferida que se corresponde con su información de usuario que la imagen de presentación común que fue preseleccionada por el proveedor o productor de contenidos.
Para navegar a través de piezas de contenido digital, se puede presentar una interfaz de navegación con una sub­ imagen preferida para cada pieza de contenido digital que se selecciona en base a la información del usuario (por ejemplo, una imagen secundaria preferida). Un menú de imágenes secundarias preferidas en lugar de las imágenes comunes de la presentación puede disminuir el tiempo de reconocimiento del usuario y el tiempo de navegación del usuario. Así, el menú de imágenes secundarias preferidas describe mejor el contenido de la colección que las imágenes comunes de la presentación.
En las realizaciones de la invención, un menú de imágenes secundarias basado en imágenes incluye una sub-imagen de una imagen primaria presentada basada en coordenadas de la imagen primaria o, en implementaciones alternativas no pertenecientes a la presente invención, una imagen suplementaria de una base de datos. Por ejemplo, se puede presentar la imagen del rostro de una actriz de una base de datos (por ejemplo, una imagen suplementaria) en lugar de la imagen de la actriz de la imagen de presentación. En otro ejemplo, el espectador potencial puede ver una imagen suplementaria (por ejemplo, una imagen secundaria) que describe una pieza de contenido digital basada en su información de usuario en lugar de la imagen común de la presentación. Por ejemplo, se puede presentar la foto de la cabeza de una actriz de una base de datos (por ejemplo, una imagen suplementaria) para describir una película en lugar de la imagen común de la presentación con un gran barco. Un menú basado en imágenes secundarias (por ejemplo, una sub-imagen de la imagen común de la presentación o una imagen suplementaria para reemplazar la imagen común de la presentación) puede disminuir el tiempo de navegación del usuario y mejorar su participación.
Tal y como se utiliza aquí, la focalización se refiere a la determinación de uno o más puntos de interés en el contenido digital (o dentro de una biblioteca digital) para dirigir la atención del espectador. En un ejemplo de implementación, los uno o más puntos de interés en una imagen pueden ser puntos focales. Por ejemplo, una imagen con múltiples rostros puede ser focalizada para detectar los múltiples rostros y determinar uno de los rostros para dirigir la atención del espectador. En una implementación de ejemplo, la atención se dirige a un punto de interés mediante el redimensionamiento (por ejemplo, zoom, recorte, recorte, etc.), desenfoque, filtrado, encuadre, etc.
En otro ejemplo de implementación, los uno o más puntos de interés en un vídeo pueden ser un conjunto de fotogramas. Por ejemplo, un video largo con múltiples escenas (por ejemplo, tomas de cámara, fondos, etc.) puede ser focalizado para detectar las múltiples escenas y determinar una de las escenas para dirigir la atención del espectador.
En un aspecto de ejemplo de la presente divulgación, un motor de focalización detecta uno o más puntos de interés en una imagen común de la presentación (por ejemplo, la imagen primaria) asociada a una pieza de contenido digital (por ejemplo, una película o un programa de televisión), asigna una etiqueta a cada punto de interés, y genera estructuras de datos para identificar cada punto de interés de manera que uno de los puntos de interés pueda ser presentado como una imagen secundaria (por ejemplo, una sub-imagen de la imagen común de la presentación o, según implementaciones no pertenecientes a la presente invención, una imagen suplementaria para reemplazar la sub-imagen de la imagen común de la presentación). Seleccionando un punto de interés de la imagen común de la presentación que se corresponde con la información del usuario, el espectador puede procesar más rápidamente los puntos de interés que la imagen general de la presentación e identificar un aspecto del contenido digital asociado con la imagen secundaria (por ejemplo, una sub-imagen de la imagen común de la presentación o una imagen suplementaria). En un ejemplo de implementación, se presenta un menú de contenido digital disponible para que el espectador navegue (por ejemplo, hojear, desplazarse, hacer clic, deslizar, etc.) a través de imágenes focalizadas (por ejemplo, imágenes secundarias) en lugar de las imágenes comunes de la presentación (por ejemplo, imágenes primarias). Las imágenes secundarias pueden reducir el tiempo de reconocimiento necesario para el procesamiento de imágenes complejas (por ejemplo, las imágenes comunes de la presentación). Un menú basado en imágenes con imágenes secundarias (por ejemplo, una sub-imagen de la imagen común de la presentación o una imagen suplementaria) focaliza la atención del espectador para localizar el contenido digital que corresponde a los intereses del espectador.
El motor de focalización puede realizar una prueba de calidad para detectar que una sub-imagen de la imagen común de la presentación para el punto de interés es demasiado pequeña u oscura para representar el contenido digital en el menú. Si la sub-imagen de la imagen común no pasa la prueba de calidad, el motor de focalización puede acceder a una biblioteca de terceros para recuperar la imagen suplementaria para el punto de interés. Por ejemplo, en respuesta a la detección de la presentación de la sub-imagen pixelada (por ejemplo, ampliando la imagen más allá de un umbral de resolución), el motor de focalización puede recuperar una imagen suplementaria de mayor calidad para el punto de interés. El motor de focalización puede evitar que la sub-imagen se amplíe tanto que los píxeles individuales que forman la imagen sean visibles y evitar la reducción de la velocidad de reconocimiento de la imagen secundaria.
Aspectos de la presente divulgación pueden incluir un sistema y un método para la navegación y el control multimedia individualizados que incluyen la recepción de metadatos para una pieza de contenido digital, donde los metadatos comprenden una imagen primaria y un texto que se utiliza para describir el contenido digital; el análisis de la imagen primaria para detectar uno o más objetos; la selección de una o más imágenes secundarias basadas en cada objeto detectado; y la generación de una estructura de datos para el contenido digital que comprende la una o más imágenes secundarias. Se puede determinar una etiqueta para cada imagen secundaria basándose en los metadatos o en las técnicas de reconocimiento facial para ayudar a seleccionar la imagen secundaria que corresponde a la información del usuario. Entonces, el contenido digital puede ser descrito por una imagen secundaria preferida que corresponde a la información del usuario en lugar de la imagen primaria.
La descripción detallada proporciona más detalles de las figuras y las implementaciones de ejemplo de la presente divulgación. Los números de referencia y las descripciones de elementos redundantes entre las figuras se omiten para mayor claridad. Los términos utilizados a lo largo de la descripción se proporcionan como ejemplos y no pretenden ser limitativos. Por ejemplo, el uso del término "automático" puede implicar implementaciones totalmente automáticas o semiautomáticas que implican el control del usuario o del operador sobre ciertos aspectos de la implementación, dependiendo de la implementación deseada de una persona con conocimientos ordinarios en la materia que practique implementaciones de la presente aplicación.
La figura 1 ilustra una visión general de un sistema 100 para su uso con un motor de focalización 110 según implementaciones de ejemplo. El sistema 100 incluye un motor de focalización 110 configurado para analizar metadatos desde un almacén de datos local 103 o a través de una red 102 desde un proveedor de metadatos 105e o un proveedor de contenido 105f a través de un servicio en la nube 105n. El motor de focalización 110 puede analizar metadatos que describen elementos de contenido de varias fuentes de datos, tales como servicios de transmisión en vivo, repositorios digitales, servicios bajo demanda, etc.
Los dispositivos 105a-105n pueden incluir, por ejemplo, dispositivos informáticos móviles 105a-105b (por ejemplo, teléfonos inteligentes, ordenadores portátiles, tabletas, etc.), sistemas de presentación 105c, dispositivos informáticos 105d (por ejemplo, ordenadores de sobremesa, ordenadores centrales, equipos de red, etc.), bibliotecas de metadatos 105e, repositorios de contenido 105f, proveedores de contenido 105g, así como servicios en la nube 105n (por ejemplo, recursos informáticos propietarios o públicos disponibles de forma remota). Los dispositivos 105a-d pueden incluir dispositivos como lectores de libros electrónicos, asistentes digitales portátiles, teléfonos móviles, teléfonos inteligentes, ordenadores portátiles, reproductores multimedia portátiles, tabletas, cámaras, cámaras de vídeo, netbooks, ordenadores portátiles y similares. Los dispositivos de usuario 105a-d también pueden incluir dispositivos como decodificadores, ordenadores de sobremesa, consolas de juegos, grabadores de vídeo digital (DVR), centros multimedia y similares. Los dispositivos de usuario 105a-d pueden conectarse a la red 102 mediante una red privada, una WAN, una LAN, etc.
Los elementos de contenido pueden incluir contenido de fuentes independientes o de intermediarios. Por ejemplo, un servidor de cabecera del operador puede almacenar contenido de origen (por ejemplo, un proveedor de contenido 105n, un almacén de datos de contenido 105f, etc.) o recibir contenido de origen de uno o más proveedores de fuentes de contenido. En el presente documento, los proveedores de contenido se refieren colectivamente al proveedor de metadatos 105e, a los distribuidores de contenido intermediarios, a las fuentes de contenido, a los estudios de cine, a las empresas de producción, a los revendedores de contenido, etc. Por ejemplo, el contenido de streaming puede provenir de un servidor de cabecera del operador 105d o de un servidor de streaming HTTP (HSS) que accede al contenido disponible en paquetes organizados como flujo de programa MPEG2 (MPG-PS), HTTP Live Streaming (HLS), etc. Por ejemplo, un proveedor de fuente de contenido puede proporcionar contenido digital de un video de un evento deportivo en vivo. Un servidor de cabecera del operador 105d puede incluir máquinas físicas y/o máquinas virtuales alojadas en máquinas físicas (por ejemplo, servidores de montaje en rack, ordenadores de sobremesa u otros dispositivos informáticos).
Los dispositivos 105a-105n también pueden recoger información (por ejemplo, datos del historial de contenidos, datos del perfil del espectador, datos de retroalimentación, etc.) de uno o más de los otros dispositivos 105a105n y proporcionar la información recogida al motor de focalización 110. Por ejemplo, los dispositivos 105a-105n pueden estar conectados comunicativamente con el otro dispositivo mediante WiFi®, Bluetooth®, Zigbee®, Protocolo de Internet versión 6 sobre redes de área inalámbricas de baja potencia (6LowPAN), comunicación por línea de potencia (PLC), Ethernet (por ejemplo, Ethernet de 10 Megabytes (Mb), 100 Mb y/o 1 Gigabyte (Gb)) u otros protocolos de comunicación.
Los dispositivos 105a-d pueden estar asociados e identificados por un identificador único de dispositivo de usuario (por ejemplo, un token, un perfil de derechos digitales, un número de serie de dispositivo, etc.). En una implementación, el dispositivo de usuario 105a-d puede ser un dispositivo a nivel de red con un servicio de seguimiento de actividad utilizado para rastrear los activos, intereses, comportamientos, etc. de un usuario o rastrear la actividad del dispositivo (por ejemplo, cookies, inicios de sesión globales, etc.). El servicio de seguimiento puede identificar un identificador único para cada usuario final (por ejemplo, un token, un perfil de derechos digitales, un número de serie del dispositivo, etc.). Por ejemplo, el servicio de vídeo bajo demanda (VOD) puede transmitir contenidos a través de un descodificador, un ordenador u otro dispositivo, permitiendo su visualización en tiempo real, o descargar contenidos a un dispositivo como un ordenador, una grabadora de vídeo digital u otro reproductor multimedia portátil para su visualización. El servicio de seguimiento puede rastrear el contenido accedido o solicitado, así como otra información demográfica o de marketing sobre los intereses del usuario. Se puede utilizar un identificador de usuario único para autenticar el dispositivo y permitir el streaming VOD, el streaming de pago por visión, la descarga a un DVR, etc. Los dispositivos de usuario 105ad suelen enviar una solicitud de metadatos para describir el contenido disponible (en lo sucesivo, una "solicitud de metadatos") que incluye un identificador para asociar al usuario con la información del mismo.
El motor de focalización 110 puede interactuar con los dispositivos de cliente 105a-105n, el proveedor de metadatos 105e, los servicios en la nube 105n, etc. y analizar los metadatos para el contenido y proporcionar imágenes secundarias basadas en la información del usuario. El motor de focalización 110 puede implementarse en forma de software (por ejemplo, instrucciones en un medio legible por ordenador no transitorio) que se ejecuta en uno o más dispositivos de procesamiento, tales como el uno o más dispositivos 105a-105d, como un servicio en la nube 105n, de forma remota a través de una red 102, u otra configuración conocida por un experto en la materia. Por ejemplo, el motor de focalización 110 puede alojarse a través de los dispositivos cliente 105a-105d, un servicio en la nube 105n, o como parte de la red de entrega de contenidos 102 (por ejemplo, un servicio de cabecera).
El motor de focalización 110 incluye, directa o indirectamente, una memoria como el (los) almacén(es) de datos 103 (por ejemplo, RAM, ROM, y/o almacenamiento interno, magnético, óptico, de estado sólido y/u orgánico), cualquiera de los cuales puede estar acoplado a un mecanismo de comunicación (o bus) para comunicar información. Los términos "ordenador", "plataforma informática", dispositivo de procesamiento y dispositivo pretenden incluir cualquier dispositivo de procesamiento de datos, como un ordenador de escritorio, un ordenador portátil, una tableta, un ordenador central, un servidor, un dispositivo portátil, un procesador de señales digitales (DSP), un procesador integrado o cualquier otro dispositivo capaz de procesar datos. El ordenador/plataforma informática está configurado para incluir uno o más microprocesadores conectados comunicativamente a uno o más medios legibles por ordenador no transitorios y a una o más redes.
En una implementación de ejemplo, el motor de focalización 110 puede ser alojado por un servicio en la nube 105n y conectado comunicativamente a través de la red 102 a los dispositivos 105a-105n con el fin de enviar y recibir datos. El término "conectado comunicativamente" pretende incluir cualquier tipo de conexión, por cable o inalámbrica, en la que los datos pueden ser comunicados. El término "conectado comunicativamente" pretende incluir, pero no se limita a, una conexión entre dispositivos y/o programas dentro de un único ordenador o entre dispositivos y/o ordenadores separados a través de la red 102. El término "red" incluye, entre otros, las redes de conmutación de paquetes, como la red de área local (LAN), la red de área amplia (WAN), TCP/IP, (Internet), y puede utilizar diversos medios de transmisión, como, entre otros, WiFi®, Bluetooth®, Zigbee®, el Protocolo de Internet versión 6 sobre redes de área inalámbricas de baja potencia (6LowPAN), la comunicación por línea eléctrica (PLC), Ethernet (por ejemplo, 10 Megabyte (Mb), 100 Mb y/o 1 Gigabyte (Gb) Ethernet) u otros protocolos de comunicación.
En algunas implementaciones, el almacén de datos 103 almacena copias duplicadas o porciones de metadatos recibidos para el contenido digital. En una implementación alternativa, una estructura de datos para procesar metadatos es generada y almacenada por el motor de focalización 110 en el almacén de datos 103. En otra implementación, el motor de focalización 110 puede almacenar una estructura de datos para procesar metadatos en un servicio de almacenamiento en la nube 105n.
La figura 2 ilustra un sistema de ejemplo 200 que incluye un motor de focalización 210 de acuerdo con una implementación de ejemplo. El motor de focalización 210 incluye una o más interfaces de E/S 212, un módulo de interfaz 215, un módulo de información del usuario 217, un sistema de decisión de punto de interés 230 y un módulo de retroalimentación 260. El motor de focalización 210 está acoplado a uno o más almacenes de datos 203 para almacenar datos (por ejemplo, metadatos 207, estructuras de datos, imágenes, datos de usuario 209, etc.). El motor de focalización 210 puede analizar los metadatos 207 de un elemento de contenido 206 con una imagen para identificar uno o más puntos de interés, analizar una sinopsis del contenido a partir de los metadatos 207, determinar una etiqueta para cada punto de interés basándose en los metadatos 207, y proporcionar una imagen secundaria con uno de los puntos de interés basándose en los datos de usuario 209 en respuesta a una solicitud. Los metadatos 207 asociados con múltiples fuentes de contenido pueden ser analizados para proporcionar interfaces de usuario integradas con menús para navegar eficientemente por el contenido 206, donde los menús se adaptan en base a los intereses del usuario.
En una implementación de ejemplo, la interfaz de E/S 212 incluye una o más interfaces de comunicación conectadas comunicativamente con una red 202 o diferentes tipos de dispositivos 205 (por ejemplo, los dispositivos 105a-105n de la figura 1.) La interfaz de E/S 212 puede recibir los metadatos 207 (por ejemplo, la imagen de presentación, la información del episodio, etc.) asociados al contenido 206 (por ejemplo, los vídeos) desde diferentes fuentes, como un almacén de datos 203, diferentes tipos de dispositivos 205, o a través de una red 202. En una implementación de ejemplo, la interfaz de E/S 212 puede recibir los metadatos 207 sin recibir el contenido 206 a través de la red 202. Las combinaciones enumeradas aquí son ejemplos ilustrativos, y otras combinaciones como sería entendido por los expertos en la materia pueden ser sustituidas por lo tanto.
Los metadatos 207, y/o los datos de usuario 209 pueden ser recibidos por el motor de focalización 210 en tiempo real o recuperados del almacén de datos 203 o de fuentes de datos a través de la red 202. Por ejemplo, los metadatos 207 pueden incluir una imagen común de presentación para representar el contenido 206 a través de una interfaz de selección de contenido del módulo de selección de contenido 215.
Los metadatos 207 pueden incluir un resumen de texto del contenido, por ejemplo, una sinopsis que describa el género, los personajes o los temas de la trama. Las imágenes de los metadatos 207 pueden ser analizadas para extraer puntos de interés, como rostros o puntos de referencia. El texto de los metadatos 207 puede analizarse para extraer etiquetas que se asocien a un punto de interés, como nombres de personajes, actores, actrices, atletas, nombres de equipos deportivos, lugares de rodaje, etc.
Los datos de usuario 209 también pueden incluir información sobre un usuario, como su ubicación, datos demográficos, información de perfil, un historial de visualización de contenidos, comentarios de los usuarios, intereses de los usuarios, etc. El módulo de información de usuario 217 puede procesar los datos de usuario recibidos, así como buscar o solicitar datos adicionales. El módulo de información del usuario 217 puede solicitar información del usuario a los servicios de seguimiento (por ejemplo, seguimiento del compromiso en línea, etc.).
El motor de focalización 210 incluye un módulo de reconocimiento 220 y un módulo presentador 240 para analizar los metadatos 207, identificar puntos de interés a partir de los metadatos 207, y proporcionar imágenes alternativas (por ejemplo, imágenes secundarias) para ayudar a la navegación del usuario y a la selección del contenido 206. El módulo de reconocimiento 220 y el módulo presentador 240 interactúan con el sistema de decisión de puntos de interés 230 (POIDS) de acuerdo con uno o más algoritmos descritos en referencia a las figuras 3-7.
El módulo de reconocimiento 220, a través del sistema de decisión de punto de interés 230, analiza los metadatos 207 de una colección de contenido 206 para identificar las imágenes secundarias que se proporcionarán para la selección de contenido. El módulo de reconocimiento 220 puede identificar imágenes secundarias como sub-imágenes a partir de los metadatos 207 o, de acuerdo con implementaciones no pertenecientes a la presente invención, adquirir imágenes suplementarias de una biblioteca externa para reemplazar una imagen primaria asociada con una pieza de contenido. El módulo de reconocimiento 220 puede interactuar con la interfaz de E/S 212, el módulo de interfaz 215, el sistema de recomendación de secuencias 230 y el módulo de retroalimentación 260 para generar y mantener imágenes secundarias extraídas de los metadatos o estructuras de datos para extraer imágenes secundarias de los metadatos en tiempo real, como se describe en referencia a las figuras 3-7. El módulo de reconocimiento 220 puede identificar múltiples imágenes secundarias a partir de una imagen primaria.
El módulo presentador 240 recibe o intercepta solicitudes para proporcionar metadatos 207 que describen el contenido. El módulo presentador 240 puede interactuar con la interfaz E/S 212, el módulo de interfaz 215, el módulo de información del usuario 217, el POIDS 230 y el módulo de retroalimentación 260 para proporcionar imágenes secundarias basadas en los datos del usuario 209 en un menú de navegación de contenido. El módulo presentador 240 emplea los datos de usuario 209 para personalizar el menú de navegación de contenido con imágenes secundarias que representan el contenido 206 y corresponden a un interés del usuario basado en los datos de usuario 209 asociados con una solicitud de metadatos. Una solicitud de metadatos puede ser una solicitud de metadatos 207 asociada con una o más colecciones de contenido de múltiples fuentes de datos.
Un menú de navegación de contenido personalizado con imágenes secundarias puede ser generado automáticamente o solicitado internamente por el motor de focalización 210. Por ejemplo, en respuesta a una solicitud de metadatos, el motor de focalización 210 a través del módulo de reconocimiento 220, identifica múltiples imágenes secundarias para una pieza de contenido, y el módulo presentador 240 puede seleccionar una de las imágenes secundarias basándose en los datos del usuario 209 para proporcionar un menú de navegación de contenido personalizado para el contenido asociado con los metadatos solicitados.
El POIDS 230 puede incluir un módulo de punto focal 233, un módulo de reconocimiento facial 235, un módulo de etiquetado 237, un módulo de calidad 239, un módulo de localización 243, y/o un módulo de imagen suplementaria 245. El POIDS 230 interactúa con el módulo de reconocimiento 220 y el módulo presentador 240 de acuerdo con uno o más algoritmos descritos en referencia a las figuras 3-7A-F. En una implementación de ejemplo, el POIDS 230 incluye un proceso de análisis para identificar puntos de interés de una imagen común de la presentación de los metadatos 207 a través del módulo de punto focal 233, analizar una sinopsis de los metadatos 207 para determinar una etiqueta para cada punto de interés a través del módulo de reconocimiento facial 235 y el módulo de etiquetado 237.
En una implementación de ejemplo, el POIDS 230 incluye un proceso de presentación para proporcionar imágenes secundarias con puntos de interés que corresponden a los datos del usuario 209. El proceso de presentación puede incluir la comprobación de una calidad de las imágenes secundarias a través del módulo de calidad 239, la selección de un área alrededor de un punto focal para su presentación a través del módulo de localización 243, y/o la determinación de adquirir una imagen suplementaria como imagen secundaria a través del módulo de imagen suplementaria 245.
En una implementación de ejemplo que no pertenece a la presente invención, la imagen secundaria es una imagen suplementaria seleccionada de una base de datos de terceros, donde la imagen suplementaria representa un elemento de los metadatos. Por ejemplo, los metadatos de un contenido televisivo pueden incluir una lista de miembros del reparto o la mención de un cameo de un famoso en un episodio concreto, y el motor de focalización puede acceder a una biblioteca de terceros de retratos de famosos para recuperar una imagen secundaria de un actor/actriz que represente el contenido digital. Por ejemplo, un espectador con una fuerte simpatía hacia una celebridad puede reconocer rápida y fácilmente una imagen de la cara de la celebridad y ayudar a centrar la atención del espectador en el contenido digital. El menú puede presentar imágenes secundarias para el contenido digital disponible para que el espectador navegue (por ejemplo, navegar, desplazarse, hacer clic, hojear, etc.) a través de imágenes focalizadas, donde las sub-imágenes de cada imagen se seleccionan en base a la información del espectador para representar el contenido digital.
El módulo de retroalimentación 260 está configurado para proporcionar información de evaluación al POIDS 230 para refinar y mejorar la funcionalidad del POIDS 230. Por ejemplo, el módulo de retroalimentación 260 puede recoger información del usuario para actualizar el interés del usuario, y/o mejorar la selección de imágenes secundarias. El módulo de retroalimentación 260 puede recoger información de evaluación del usuario para cambiar las imágenes secundarias seleccionadas para describir un elemento de contenido a lo largo del tiempo.
La figura 3 ilustra un diagrama de flujo 300 para generar una estructura de datos de punto de interés de acuerdo con una implementación de ejemplo. El diagrama 300 puede incluir hardware (circuitos, lógica dedicada, etc.), software (como el que opera en un sistema informático de propósito general o en una máquina dedicada), o una combinación de ambos. El diagrama 300 representa elementos y combinaciones de elementos para su uso con el motor de focalización 110 de la figura 1 y 210 de la figura 2.
En el bloque 310, el dispositivo de procesamiento recibe los metadatos de un contenido digital, donde los metadatos incluyen una imagen principal y un texto que se utiliza para describir el contenido digital. Por ejemplo, el contenido digital puede ser un programa de televisión, una película, un podcast, un evento deportivo, etc. En el bloque 320, el dispositivo de procesamiento analiza la imagen primaria para detectar uno o más objetos.
En el bloque 330, el dispositivo de procesamiento selecciona una o más imágenes secundarias basadas en cada objeto detectado. Por ejemplo, la una o más imágenes secundarias pueden incluir la cara de una persona que aparece en el contenido digital. El contenido digital se describe mediante la imagen secundaria preferida como parte de un menú para navegar por una biblioteca de contenido digital.
En el bloque 340, el dispositivo de procesamiento determina una etiqueta para cada imagen secundaria basándose al menos en la información de texto. En una implementación de ejemplo, el dispositivo de procesamiento puede analizar la imagen para detectar uno o más objetos basándose en el reconocimiento facial; y determinar la etiqueta para cada imagen secundaria basándose en la coincidencia del reconocimiento facial con un nombre en la información de texto de los metadatos. Por ejemplo, la determinación de la etiqueta puede incluir el cálculo de una puntuación de confianza para la relación de cada imagen secundaria con una parte del texto a partir de los metadatos y la búsqueda en una biblioteca de imágenes etiquetadas basada en el objeto detectado. En un ejemplo, las imágenes secundarias pueden ordenarse en base al tamaño del objeto en la imagen secundaria en vista de los otros objetos detectados de la imagen, y la determinación de la etiqueta para cada imagen secundaria se basa en la asociación de campos clave en la información de texto en base al orden de las imágenes secundarias.
En el bloque 350, el dispositivo de procesamiento genera una estructura de datos para el contenido digital que incluye la o las imágenes secundarias y las etiquetas, donde el contenido digital se describe mediante una imagen secundaria preferida basada en la etiqueta asociada con la imagen secundaria preferida correspondiente a la información del usuario.
En una implementación de ejemplo, el dispositivo de procesamiento puede seleccionar una o más imágenes secundarias para cada objeto detectado. El dispositivo de procesamiento puede identificar una porción de la imagen para cada objeto detectado y generar la estructura de datos almacenando la porción identificada para cada imagen secundaria.
En las implementaciones, el dispositivo de procesamiento selecciona una o más imágenes secundarias para cada objeto detectado. El dispositivo de procesamiento identifica un conjunto de coordenadas de imagen secundaria de la imagen para cada objeto detectado y genera la estructura de datos. La estructura de datos incluye el conjunto de coordenadas de la imagen secundaria para cada imagen secundaria. El dispositivo de procesamiento puede, en respuesta a la estructura de datos que comprende una etiqueta correspondiente a una preferencia del usuario del conjunto de información del usuario, buscar en la imagen la imagen secundaria de la etiqueta basada en el conjunto de coordenadas de la imagen secundaria, y presentar una porción de la imagen basada en el conjunto de coordenadas de la imagen secundaria para la imagen secundaria de la etiqueta.
En una implementación de ejemplo, el dispositivo de procesamiento puede recibir una solicitud para la pieza de contenido digital y un conjunto de información del usuario. En respuesta a la estructura de datos que incluye una etiqueta correspondiente a una preferencia del usuario del conjunto de información del usuario, el dispositivo de procesamiento presenta la imagen secundaria para la etiqueta como la imagen secundaria preferida. La imagen secundaria describe el contenido digital, como se discute en más detalle en referencia a las figuras 5-8. Por ejemplo, la información del usuario puede incluir la heurística o el seguimiento de la actividad para determinar una preferencia del usuario.
La figura 4A ilustra un diagrama de bloques 400 para generar imágenes focales de acuerdo con implementaciones de ejemplo. En una implementación de ejemplo, los metadatos 407 asociados con una pieza de contenido digital son recibidos por un motor de focalización 410, por ejemplo desde una fuente de contenido 405 o proveedor de metadatos. Los metadatos 407 incluyen una imagen de presentación común 411 y una sinopsis 412 (por ejemplo, reparto, personajes, resumen de la trama, etc.). La imagen de presentación común 411 puede estar en un formato de imagen (por ejemplo, JPEG, JPG, PNG, EPS, PDF, PSD, AI, G iF, TIFF, BIT, etc.) e incluye una imagen, una obra de arte, un logotipo, una imagen, etc. que representa la pieza de contenido digital durante una etapa de selección de contenido.
La imagen de presentación común 411 es típicamente creada por un productor, creador, comercializador, etc. del contenido digital para persuadir a los espectadores a consumir el contenido digital. La imagen común de la presentación 411 puede incluir imágenes complejas, como un collage, con imágenes de personajes, logotipos, puntos de referencia, texto estilizado, efectos visuales, etc. que requiere tiempo para que los usuarios procesen y entiendan un aspecto de qué materia (por ejemplo, actores, género, temas, etc.) está en la pieza de contenido digital.
La sinopsis 412 también puede ser creada por un productor, creador, comercializador, etc. del contenido digital para persuadir a los espectadores a consumir el contenido digital. La sinopsis 412 puede ser texto o enlaces (por ejemplo, localizadores uniformes de recursos) para recuperar el texto que describe uno o más aspectos del contenido digital. La sinopsis 412 se utiliza normalmente para habilitar características de control, como búsquedas basadas en texto, controles parentales, grabaciones programadas, etc. En las implementaciones de ejemplo, la sinopsis 412 se utiliza con la imagen común de la presentación 411 para determinar una imagen secundaria para representar la pieza de contenido digital durante una etapa de selección de contenido que corresponde a la información del usuario, como se describe con mayor detalle en referencia a las figuras 6-8.
En 400, el proceso de generación de imágenes focales se ilustra utilizando un ejemplo de imagen de presentación común 411 con una imagen de seis actores y actrices de pie en una línea frente a un fondo complejo de varias formas y colores (no se muestra) para representar el tema de la pieza de contenido digital.
Dado que los usuarios que navegan a través de grandes bibliotecas de contenido pueden no dedicar el tiempo necesario para analizar cada una de las seis caras, identificar a las actrices, actores, personajes, etc., e interpretar el género de la pieza de contenido digital, el motor de focalización 410 puede extraer múltiples características de la imagen común de presentación común 411 para orientar la representación de la pieza de contenido digital. Por ejemplo, un usuario puede tomarse el tiempo de analizar cada una de las tres primeras caras empezando de izquierda a derecha, determinar que las tres primeras caras no son familiares, dejar de procesar la imagen de presentación común 411 y proceder a otra pieza de contenido digital. Cuando la quinta cara desde la izquierda es el personaje favorito del usuario, la imagen de presentación común 411 no ha representado eficazmente la pieza de contenido digital para comunicar un aspecto del tema que es relevante para el usuario.
El motor de focalización 410 puede analizar la imagen de presentación común 411 para detectar múltiples puntos de interés dentro de la imagen como potenciales imágenes secundarias para representar la pieza de contenido digital para mejorar la capacidad del contenido de la imagen de presentación común 411 para comunicar un aspecto de la materia que es relevante para el usuario en un corto período de tiempo. En una implementación de ejemplo, el motor de focalización 410 emplea un almacén de datos 403 para almacenar los múltiples puntos de interés como sub-imágenes a ser recuperadas en respuesta a un comando durante un proceso de selección de contenido. Por ejemplo, el motor de focalización 410 puede detectar un rasgo facial en la imagen de presentación común 411, recortar la imagen de presentación común 411 para que sea una sub-imagen secundaria 423A-423F almacenada en el almacén de datos 403.
En las realizaciones de la invención, el motor de focalización 410 genera una estructura de datos para almacenar coordenadas de imagen para los puntos de interés. Un conjunto de coordenadas de imagen para cada punto de interés en la imagen de presentación común 411 puede localizar un punto central o de centrado para el punto de interés en la imagen de presentación común 411. La estructura de datos de la imagen de presentación común 411 asociada a una pieza de contenido digital puede almacenar múltiples conjuntos de coordenadas de imagen. Las coordenadas de imagen de la estructura de datos pueden proporcionarse para su uso con la imagen de presentación común 411 para redimensionar la imagen de presentación común 411 (por ejemplo, recortar, ampliar, desenfocar, etc.) para mostrar los puntos de interés sin almacenar una sub-imagen intermedia. La estructura de datos puede almacenarse y entregarse de forma asíncrona desde la imagen de presentación común 411 para permitir la selección descendente (por ejemplo, un dispositivo cliente) de qué punto de interés mostrar durante un proceso de selección de contenido.
Las coordenadas de la imagen para localizar un punto central o de centrado para el punto de interés pueden utilizarse para cambiar el tamaño de la imagen de presentación común 411 para mostrar una región alrededor del punto central o de centrado basándose en los ajustes del dispositivo cliente (por ejemplo, tamaño de la pantalla, resolución, ajustes de color, etc.) y/o los ajustes del menú (por ejemplo, tamaño de la selección del menú principal, tamaño de la selección del sub-menú, tamaño del menú de detalle del contenido, etc.), como se discute con más detalle en referencia a la figura 8
La sub-imagen de punto de interés o estructura de datos puede incluir una etiqueta 427A-427F para cada imagen secundaria de punto de interés. La sinopsis 412 se utiliza para etiquetar cada punto de interés utilizando un algoritmo que evalúa el contexto en la imagen de presentación común 411. En una implementación de ejemplo, el motor de focalización 410 analiza el contexto en la imagen de presentación común 411 utilizando detección facial, reconocimiento facial, detección de objetos, etc. para categorizar y/o clasificar los múltiples puntos de interés, analiza la información disponible de la sinopsis 412 para categorizar y/o clasificar la información de texto, determina si la información de texto se corresponde con un punto de interés de la imagen de presentación común 411, y asigna el texto correspondiente como una etiqueta 427A-427F a la imagen secundaria 423A-423F.
En el contexto de los programas de televisión y las películas, a una o más actrices y actores se les suele asignar papeles principales y a otras actrices y actores se les suele asignar papeles secundarios. La actriz principal suele ser el elemento de mayor tamaño en la imagen de presentación común 411 y los actores secundarios pueden aparecer más pequeños que la actriz principal en el fondo.
En el ejemplo, el motor de focalización 410 puede detectar seis rostros en la imagen de presentación común 411 como múltiples puntos de interés, categorizar y/o clasificar los rostros basándose en el tamaño de cada rostro, analizar la información disponible de la sinopsis 412 para categorizar y/o clasificar la lista de actrices y actores basándose en la importancia del papel o el orden enumerado en la sinopsis 412, determina si el orden enumerado en la sinopsis 412 se corresponde con el orden de tamaño de los rostros detectados o el patrón de secuencia en la imagen de presentación común 411, y asigna el nombre de la actriz o el actor correspondiente como etiqueta 427A-427F a la imagen secundaria 423A-423F.
En el contexto de un evento deportivo, el logotipo de un equipo, una camiseta, un trofeo o un atleta destacado colocados pueden colocarse típicamente en un orden determinado para comunicar la ubicación del evento, un campeonato o un atleta destacado que corresponde a la información disponible de la sinopsis 412 para categorizar la información de texto que corresponde a cada punto de interés.
En algunas implementaciones, el motor de focalización 410 puede emplear recursos externos para ayudar a etiquetar las imágenes secundarias 423A-423F. Por ejemplo, el motor de focalización 410 puede realizar el reconocimiento facial utilizando una biblioteca de fotos de celebridades para seleccionar una lista de candidatos de actores y/o actrices para asociar con una imagen secundaria, para verificar que un elemento de la sinopsis 412 corresponde a la imagen secundaria de la imagen de presentación común 411 (por ejemplo, una imagen primaria), o calcular una puntuación de confianza para la coincidencia entre el elemento de la sinopsis 412 que coincide con la imagen secundaria.
La figura 4B ilustra un diagrama de flujo 440 para generar imágenes focales de acuerdo con implementaciones de ejemplo. En el bloque 450, el dispositivo de procesamiento recibe metadatos con la imagen de presentación común. En el bloque 453, el dispositivo de procesamiento detecta un punto de interés para una cara. En respuesta a la detección de una cara en la imagen de presentación común, en el bloque 455, el dispositivo de procesamiento realiza un reconocimiento facial para determinar una identidad de la cara detectada.
Si el reconocimiento facial en el bloque 455 es capaz de determinar la identidad de la cara detectada, el dispositivo de procesamiento asigna una etiqueta con la identidad en el bloque 457. Si el reconocimiento facial en el bloque 455 no puede determinar la identidad de la cara detectada, el dispositivo de procesamiento asigna una etiqueta basada en una asociación con los metadatos en el bloque 470. Por ejemplo, la cara más grande detectada puede estar asociada con el personaje principal listado en los metadatos. El personaje principal enumerado en la sinopsis también puede utilizarse para localizar una imagen suplementaria del personaje principal de una fuente de terceros (por ejemplo, una biblioteca de fotos de celebridades).
Las características de la imagen suplementaria del personaje principal pueden compararse con las características del rostro detectado para calcular una puntuación de confianza que indique si se debe etiquetar el rostro detectado con el nombre del personaje principal. El proceso de búsqueda de imágenes suplementarias basado en la sinopsis, la comparación de características de la imagen suplementaria con una sub-imagen detectada, y el cálculo de una puntuación de confianza basada en la comparación puede repetirse para múltiples entradas en la sinopsis.
El proceso 440 puede proceder al bloque 475 para extraer un conjunto de coordenadas focales para la cara detectada. En una implementación de ejemplo, en el bloque 480, una estructura de datos POI que incluye las coordenadas focales para la cara detectada y la etiqueta puede almacenarse con un identificador de la imagen de presentación común. La estructura de datos POI puede ser almacenada y/o transmitida para extraer eficientemente (por ejemplo, recortar, redimensionar, hacer zoom, etc.) el POI de la misma imagen de presentación durante un proceso de presentación, como se describe en referencia a la figura 6.
En una implementación alternativa no perteneciente a la presente invención, en el bloque 485, puede almacenarse una sub-imagen de PDI (es decir, una sub-imagen recortada) para la cara y la etiqueta detectadas. La sub-imagen POI almacenada puede ser recuperada y transmitida para presentar eficientemente la imagen secundaria POI durante un proceso de presentación sin acceder a la imagen primaria (por ejemplo, la presentación), como se describe en referencia a la figura 6.
Si no se detecta una cara en el bloque 453, el proceso 440 en 465 puede detectar alternativamente un objeto como punto focal. Por ejemplo, una imagen primaria (por ejemplo, una imagen de presentación) que incluya un punto de referencia detectable, un logotipo, etc. al que se le pueda asignar una etiqueta basada en una asociación con la sinopsis en 470. De lo contrario, el proceso 440 en 467 puede seleccionar alternativamente una región de la imagen primaria (por ejemplo, la imagen de presentación común) o, según implementaciones alternativas no pertenecientes a la presente invención, una imagen suplementaria de una biblioteca como la imagen secundaria.
El proceso 440 procede a almacenar las coordenadas de la imagen secundaria de la imagen primaria para la imagen secundaria o, en implementaciones alternativas no pertenecientes a la presente invención, el objeto o la imagen suplementaria como una estructura de datos POI en el bloque 480 o sub-imagen POI en el bloque 485. En el bloque 490, los bloques 453-485 pueden repetirse para detectar puntos de interés adicionales en la imagen de presentación común para describir una pieza de contenido digital.
La figura 5 ilustra un diagrama de flujo para un proceso 500 de control de interfaz de acuerdo con una implementación de ejemplo. En el bloque 510, el dispositivo de procesamiento recibe una solicitud de un conjunto de contenidos digitales y un identificador de usuario. En el bloque 520, el dispositivo de procesamiento recibe información de usuario asociada con el identificador de usuario y metadatos para describir el contenido digital del conjunto de contenido digital, donde los metadatos incluyen al menos uno de una imagen primaria y texto para describir cada elemento de contenido digital.
En el bloque 530, el dispositivo de procesamiento determina si una imagen secundaria corresponde a la información de usuario para cada elemento de contenido digital, donde la imagen secundaria es una sub-imagen de la imagen primaria o, en implementaciones alternativas no pertenecientes a la presente invención, una imagen suplementaria. En el bloque 540, el dispositivo de procesamiento proporciona un menú con al menos una imagen secundaria para describir el elemento de contenido digital del conjunto de contenido digital basado en la información del usuario.
Las figuras 6A-C ilustran un proceso de ejemplo para presentar una interfaz focalizada (por ejemplo, la pantalla 640) de acuerdo con implementaciones de ejemplo. La figura 6A ilustra un proceso de ejemplo para una interfaz focalizada (por ejemplo, un menú de navegación de contenido) de acuerdo con una implementación de ejemplo. El motor de focalización 610 puede recibir metadatos 607 con una imagen de presentación común 411 y una sinopsis 612 (por ejemplo, reparto, personajes, resumen de la trama, etc.) asociada con una pieza de contenido desde una fuente de contenido 605. El motor de focalización 610 puede incluir un almacén de datos 603 y proporcionar imágenes secundarias 623A-623E a una pantalla 640 basándose en las etiquetas 627A-427E de las imágenes secundarias 623A-623E correspondientes a la información del usuario 609.
Los espectadores tienen dificultades para navegar por el gran y creciente número de opciones para ver contenidos en streaming, así como contenidos grabados y programados (por ejemplo, eventos transmitidos, eventos en directo, etc.). Los usuarios se ven abrumados por la cantidad de información proporcionada y deben dedicar tiempo adicional a revisar la información para identificar el contenido que les interesa. De lo contrario, los usuarios pueden leer el texto sobre el contenido del vídeo para conocer los actores, los argumentos, el género, etc. La información del usuario puede determinarse en función de sus hábitos de visionado, información sobre su ubicación, etc. Dado que cada pieza de contenido digital tiene múltiples facetas con el fin de provocar una conexión con un espectador potencial, los métodos y sistemas descritos en este documento identifican una de las facetas que probablemente atraigan al espectador con el fin de comunicar de manera eficiente el aspecto más atractivo de la pieza de contenido digital. El motor de focalización 610 proporciona una nueva experiencia de usuario con imágenes secundarias que se seleccionan en función de la información o las preferencias del usuario
En una implementación de ejemplo, un dispositivo de red (por ejemplo, un motor de focalización 610) puede generar una biblioteca de sub-imágenes para reemplazar una imagen principal (por ejemplo, una imagen primaria) en la solicitud de respuesta. La información de los menús se proporciona generalmente a los dispositivos cliente desde un proveedor de origen. Típicamente, el dispositivo cliente descarga una colección de datos de menú que comprende una imagen principal y metadatos relativos al contenido disponible. El dispositivo cliente proporciona un menú de navegación de contenidos (por ejemplo, una interfaz focalizada) con un conjunto de opciones a partir de los datos del menú para que los espectadores seleccionen un contenido disponible.
En una implementación de ejemplo, el dispositivo cliente puede incluir lógica (por ejemplo, el motor de focalización 610) para procesar las imágenes maestras con el fin de seleccionar una sub-imagen. En algunas implementaciones de ejemplo, el dispositivo cliente puede recibir coordenadas para seleccionar imágenes secundarias, y procesar una imagen principal utilizando el conjunto de coordenadas para generar una visualización de imágenes secundarias. En algunas implementaciones de ejemplo, un servidor de red realiza el procesamiento de imágenes secundarias antes de la entrega a los dispositivos cliente. El servidor de red que realiza el procesamiento de imágenes secundarias mejora el uso del ancho de banda de los recursos de la red reduciendo el tamaño de los archivos de imagen que se entregan a los dispositivos cliente. La generación de una estructura de datos de coordenadas para las imágenes secundarias puede ser entregada al dispositivo cliente. El dispositivo cliente puede recibir la imagen principal de un proveedor externo y emplear las coordenadas de la imagen secundaria para presentar una visualización personalizada de las imágenes de la presentación basada en las preferencias del usuario.
El motor de focalización 610 proporciona funcionalidad para seleccionar imágenes secundarias utilizando el reconocimiento facial y la detección de objetos. En algunas implementaciones de ejemplo, una imagen secundaria puede ser un conjunto de coordenadas de imagen para ampliar o cambiar el tamaño de una imagen principal. La visualización personalizada de imágenes secundarias incluye rostros u objetos detectados que satisfacen la preferencia del usuario. Al proporcionar porciones de imágenes maestras, los espectadores pueden navegar más rápidamente por múltiples imágenes porque el motor de focalización 610 selecciona la información más relevante de cada imagen principal para ayudar a la selección del usuario.
En algunas implementaciones de ejemplo, una imagen de muestra puede ser una imagen principal redimensionada basada en un punto de interés o sustituida por una imagen recortada de una imagen principal. El motor de focalización 610 puede emplear un proceso de detección facial para inventariar múltiples rostros. En algunas implementaciones de ejemplo, el motor de focalización 610 accede a una base de datos complementaria para hacer coincidir las imágenes de detección facial con metadatos adicionales relativos al sujeto de la imagen. Dado que las imágenes de presentación para contenidos digitales suelen incluir actores y actrices o lugares emblemáticos o imágenes comúnmente reconocidas, como los logotipos. La base de datos complementaria puede incluir una biblioteca o inventario de metadatos para los temas de imágenes populares.
Las imágenes maestras pueden tener diferentes niveles de calidad de imagen. La calidad de una imagen secundaria está relacionada con el nivel de calidad de imagen de la imagen principal. El motor de focalización 610 puede además validar la imagen secundaria utilizando una prueba de calidad de imagen para asegurar que la imagen secundaria tiene la calidad suficiente para ser mostrada.
La pantalla 640 puede incluir un menú de navegación de contenido para describir siete piezas diferentes de contenido digital en diferentes paneles 641-647. En el ejemplo, un panel 642 del menú de navegación de contenido puede describir una pieza de contenido digital (por ejemplo, Agentes de S.H.I.E.L.D) utilizando diferentes imágenes secundarias 623A-F. El menú de navegación de contenido puede seleccionar cuál de las diferentes imágenes secundarias 623A-F presentar en el panel 642 basándose en la información del usuario. Las imágenes mostradas en los paneles 641, 643, 644, 645, 646, 647 también pueden ser seleccionadas para describir las otras piezas de contenido digital basadas en la información del usuario. Por ejemplo, en el panel 645 puede seleccionarse un logotipo que se corresponda con la información del usuario como imagen secundaria para describir un evento deportivo. En otros ejemplos, la imagen secundaria para cada panel puede ser seleccionada basándose en la popularidad, la calidad de la imagen, la región del espectador, el tipo de contenido digital, etc.
El menú de navegación de contenidos está diseñado para ampliar la imagen secundaria para que se ajuste a un panel del menú. Si la imagen secundaria no supera la prueba de calidad, el motor de focalización 610 puede buscar en bases de datos de terceros imágenes alternativas asociadas al tema de la imagen secundaria.
La figura 6B ilustra un proceso de ejemplo para una interfaz focalizada de visualización 640 de acuerdo con una implementación de ejemplo. En una implementación de ejemplo, la pantalla 640 puede incluir múltiples paneles 641-647 para presentar imágenes asociadas con diferentes piezas de contenido digital descritas por diferentes imágenes primarias 611, 629, 650, 660. Cada panel proporciona una imagen principal o imagen primaria 611, 650, 660 y el motor de focalización 610 determina una imagen secundaria 623F, 653A, 653B, 663A-D para cada imagen primaria 611, 650, 660.
Por ejemplo, una pantalla 640 para un menú de contenido deportivo disponible puede proporcionar imágenes para cada evento en cada panel 641-647. Cada imagen puede incluir un atleta destacado, un punto de referencia asociado con la ubicación del evento, un logotipo para uno de los equipos, un objeto de la imagen primaria como un trofeo o logotipo de la liga, etc. que corresponde al evento para el panel. Además, el motor de focalización 610 puede seleccionar la información relevante de los metadatos para superponerla a cada imagen de la pantalla. Por ejemplo, un menú de contenido deportivo disponible puede incluir iconos que indiquen si el evento deportivo está grabado, en directo o programado. El contenido superpuesto puede incluir texto extraído de los metadatos (por ejemplo, el título de una película).
Las figuras 6C representa ejemplos de interfaces focalizadas 680-690 de acuerdo con implementaciones de ejemplo. Las interfaces focalizadas 680, 685, 690 son menús basados en imágenes que describen piezas de contenido digital utilizando imágenes secundarias que corresponden a la información del usuario en lugar de una imagen de presentación común seleccionada por un proveedor o productor de contenido.
En un ejemplo, la interfaz focalizada 680 incluye una imagen secundaria 684 basada en una cara detectada 682 o 683 en una imagen primaria 681 (por ejemplo, una imagen de presentación común). La imagen primaria 681 puede incluir múltiples rostros 682, 683 como puntos de interés y seleccionar un punto de interés que corresponda con la información del usuario. Por ejemplo, si la información del usuario indica que el usuario ve más contenido de Dwayne Johnson que de Vin Diesel, la cara detectada 682 de Dwayne Johnson puede ser seleccionada como la imagen secundaria 684 para presentar al usuario. La identidad de la cara detectada 682 puede determinarse como Dwayne Johnson basándose en los metadatos de la imagen común de la presentación (por ejemplo, la imagen primaria 681) o en técnicas de reconocimiento facial. La imagen primaria 681 puede ser redimensionada para presentar la cara detectada 682 para su presentación como la imagen secundaria 682 en un menú de selección de contenido (por ejemplo, la interfaz focalizada 680).
En otro ejemplo, la interfaz focalizada 685 incluye una imagen secundaria 687 de un perfil detectado de una silueta en una imagen primaria 686. La imagen primaria 686 se redimensiona como una imagen secundaria 687 para su presentación para centrarse en el objeto en un menú de selección de contenido (por ejemplo, la interfaz focalizada 685).
En otro ejemplo, la interfaz focalizada 690 ilustra un menú de selección de contenido para múltiples piezas de contenido digital con un tema común (por ejemplo, un actor común). Por ejemplo, en respuesta a una consulta o término de búsqueda (por ejemplo, el nombre de un actor), las interfaces focalizadas 690 pueden presentar resultados de búsqueda con diferentes piezas de contenido digital mostrando imágenes secundarias que incluyen el término de búsqueda o el actor desde la imagen primaria o una base de datos de imágenes suplementaria. Las interfaces focalizadas 690 presentan un grupo de imágenes secundarias para diferentes piezas de contenido digital, donde cada imagen secundaria corresponde al tema común (por ejemplo, un tema de menú, consulta de búsqueda, etc.) para las múltiples piezas de contenido digital. En la interfaz focalizada 690, el tema común (por ejemplo, un tema de tendencia, una preferencia de usuario, una configuración de menú, una entrada de búsqueda, etc.) incluye un actor que aparece en cada pieza de contenido digital que puede haber sido un actor secundario y la imagen secundaria puede recuperarse de una base de datos suplementaria. En una implementación de ejemplo, un menú que describe diferentes piezas de contenido puede ser configurado para seleccionar localizar las diferentes piezas de contenido digital basado en una imagen secundaria preferida seleccionada para una primera pieza de contenido digital, y describir las diferentes piezas de contenido digital con una imagen secundaria para cada pieza de contenido digital basado en una imagen secundaria preferida para la primera pieza de contenido digital. Por ejemplo, una primera pieza de contenido digital puede mostrar una imagen secundaria preferida de un actor (por ejemplo, una etiqueta) y un comando (por ejemplo, mostrarme más) puede encontrar otras piezas de contenido digital que incluyan una imagen secundaria o metadatos correspondientes a la etiqueta (por ejemplo, actor). El menú de otras piezas de contenido digital puede incluir una imagen secundaria para describir cada pieza de contenido digital que coincida con el actor de la primera pieza de contenido digital. Así, el menú presenta un tema de diferentes contenidos digitales que son descritos por imágenes secundarias con un objeto, etiqueta, persona, equipo, etc., común.
Las figuras 7A-F ilustran ejemplos de interfaces individualizadas de acuerdo con implementaciones de ejemplo. Las interfaces individualizadas de las figuras 7A-F ilustran diferentes imágenes secundarias 723A-723F seleccionadas como parte de una interfaz individualizada basada en la información del usuario. Las figuras 7A-F incluyen un menú de navegación de contenidos 740A-F que describe siete contenidos diferentes. En cada menú de navegación de contenido 740A-F, la imagen secundaria 723 se selecciona en base a la información del usuario. Por ejemplo, el menú de navegación de contenido 740A incluye una imagen secundaria 723A seleccionada en base a la información de usuario de un primer usuario. El menú de navegación de contenido 740B incluye una imagen secundaria 723B seleccionada en base a la información de usuario de un segundo usuario. Las diferentes imágenes secundarias 723A-F son sub­ imágenes de una imagen primaria (por ejemplo, la imagen común de presentación 411 de la figura 4) que describen cada una la misma pieza de contenido digital (por ejemplo, Agentes de S.H.I.E.L.D.). Una imagen secundaria diferente 723A-F puede ser seleccionada para cada usuario basado en la información del usuario (por ejemplo, historia de visualización, demografía, etc.). En este ejemplo, el menú de navegación de contenido 740A-F describe las otras seis piezas diferentes de contenido utilizando una imagen secundaria común (por ejemplo, un hombre de Lego, Lincoln, un logotipo, etc.).
Por ejemplo, las figuras 7A puede ser un menú de navegación de contenido donde 723A describe una pieza de contenido digital. Las figuras 7A-F pueden ser interfaces para que diferentes usuarios naveguen por una colección de contenidos digitales. Cada usuario puede recibir diferentes imágenes secundarias 623A-623E de presentación asociadas con una pieza de contenido digital en respuesta a una etiqueta de la una de las imágenes secundarias 623A-623E correspondiente a la información del usuario para un espectador.
Las figuras 8A-C ilustran ejemplos de opciones de control de la interfaz de acuerdo con implementaciones de ejemplo para el control de una interfaz individualizada. La figura 8A ilustra una interfaz individualizada 810 para la selección de contenidos con un menú de detalles de elementos con una imagen secundaria. La figura 8B ilustra una interfaz individualizada 820 para una pieza diferente de contenido digital utilizando una imagen secundaria para la selección de contenido. La figura 8C ilustra ejemplos de interfaces de selección de contenido 830-860 utilizando el motor de focalización.
La figura 9 ilustra un ejemplo de entorno informático de servidor con un ejemplo de dispositivo informático adecuado para su uso en implementaciones de ejemplo. El dispositivo informático 905 en el entorno informático 900 puede incluir una o más unidades de procesamiento, núcleos o procesadores 910, memoria 915 (por ejemplo, RAM, ROM, y/o similares), almacenamiento interno 920 (por ejemplo, magnético, óptico, almacenamiento de estado sólido, y/o orgánico), y/o interfaz de E/S 925, cualquiera de los cuales puede estar acoplado en un mecanismo de comunicación o bus 930 para comunicar información o incrustado en el dispositivo informático 905.
El dispositivo informático 905 dentro del cual se puede ejecutar un conjunto de instrucciones, para hacer que la máquina realice una o más de las metodologías discutidas en el presente documento. En implementaciones alternativas, la máquina puede estar conectada (por ejemplo, en red) a otras máquinas en una red de área local (LAN), una intranet, una extranet o Internet. La máquina puede funcionar como un servidor o una máquina cliente en un entorno de red clienteservidor, o como una máquina par en un entorno de red entre pares (o distribuido). La máquina puede ser un ordenador personal (PC), una tableta, un descodificador (STB), un asistente digital personal (PDA), un teléfono móvil, un dispositivo web, un servidor, un enrutador de red, un conmutador o un puente, o cualquier máquina capaz de ejecutar un conjunto de instrucciones (secuenciales o de otro tipo) que especifiquen las acciones que debe realizar dicha máquina. Además, aunque sólo se ilustra una única máquina, el término "máquina" también debe incluir cualquier conjunto de máquinas (por ejemplo, ordenadores) que ejecuten individual o conjuntamente un conjunto (o varios conjuntos) de instrucciones para realizar una o varias de las metodologías que se tratan en este documento.
El dispositivo informático 905 puede estar acoplado comunicativamente a la interfaz de entrada/usuario 935 y al dispositivo de salida/interfaz 940. Una o ambas interfaces de entrada/usuario 935 y el dispositivo de salida/interfaz 940 pueden ser una interfaz cableada o inalámbrica y pueden ser desmontables. La interfaz de entrada/usuario 935 puede incluir cualquier dispositivo, componente, sensor o interfaz, físico o virtual, que pueda ser utilizado para proporcionar entrada (por ejemplo, botones, interfaz de pantalla táctil, teclado, un control de puntero/cursor, micrófono, cámara, braille, sensor de movimiento, lector óptico, y/o similares).
El dispositivo/interfaz de salida 940 puede incluir una pantalla, un televisor, un monitor, una impresora, un altavoz, un sistema braille, o similares. En algunas implementaciones de ejemplo, la interfaz de entrada/usuario 935 y el dispositivo/interfaz de salida 940 pueden estar integrados o acoplados físicamente al dispositivo informático 905. En otras implementaciones de ejemplo, otros dispositivos informáticos pueden funcionar como o proporcionar las funciones de la interfaz de entrada/usuario 935 y el dispositivo de salida/interfaz 940 para un dispositivo informático 905.
Los ejemplos de dispositivo informático 905 pueden incluir, pero no están limitados a, dispositivos altamente móviles (por ejemplo, teléfonos inteligentes, dispositivos en vehículos y otras máquinas, dispositivos que llevan los seres humanos y los animales, y similares), dispositivos móviles (por ejemplo, tabletas, portátiles, decodificadores, ordenadores portátiles, televisores portátiles, radios, y similares), y dispositivos no diseñados para la movilidad (por ejemplo, ordenadores de sobremesa, otros ordenadores, puestos de información, televisores con uno o más procesadores integrados en ellos y/o acoplados a ellos, radios, y similares).
El dispositivo informático 905 puede estar acoplado comunicativamente (por ejemplo, a través de la interfaz de E/S 925) al almacenamiento externo 945 y a la red 950 para comunicarse con cualquier número de componentes, dispositivos y sistemas en red, incluyendo uno o más dispositivos informáticos de la misma o diferente configuración. El dispositivo informático 905 o cualquier dispositivo informático conectado puede funcionar como, proporcionar servicios de, o ser referido como un servidor, cliente, servidor delgado, máquina general, máquina de propósito especial, u otra etiqueta.
La interfaz de E/S 925 puede incluir componentes de comunicación inalámbrica (no mostrados) que facilitan la comunicación inalámbrica a través de una red de voz y/o de datos. Los componentes de comunicación inalámbrica pueden incluir un sistema de antena con una o más antenas, un sistema de radio, un sistema de banda base, o cualquier combinación de los mismos. Las señales de radiofrecuencia (RF) pueden ser transmitidas y recibidas por el aire por el sistema de antena bajo la gestión del sistema de radio.
La interfaz de E/S 925 puede incluir, pero no se limita a, interfaces cableadas y/o inalámbricas que utilizan cualquier protocolo o estándar de comunicación o de E/S (por ejemplo, Ethernet, 802.11x, Sistema Universal de Bus, WiMax, módem, un protocolo de red celular, y similares) para comunicar información a y/o desde al menos todos los componentes, dispositivos y red conectados en el entorno informático 900. La red 950 puede ser cualquier red o combinación de redes (por ejemplo, Internet, red de área local, red de área amplia, una red telefónica, una red celular, una red satelital, y similares).
El dispositivo informático 905 puede utilizar y/o comunicarse utilizando medios utilizables o legibles por ordenador, incluyendo medios transitorios y medios no transitorios. Los medios transitorios incluyen medios de transmisión (por ejemplo, cables metálicos, fibra óptica), señales, ondas portadoras y similares. Los medios no transitorios incluyen medios magnéticos (por ejemplo, discos y cintas), medios ópticos (por ejemplo, CD ROM, discos de vídeo digital, discos Blu-ray), medios de estado sólido (por ejemplo, RAM, ROM, memoria flash, almacenamiento de estado sólido), y otro almacenamiento o memoria no volátil.
El dispositivo informático 905 puede utilizarse para implementar técnicas, métodos, aplicaciones, procesos o instrucciones ejecutables por ordenador en algunos ejemplos de entornos informáticos. Las instrucciones ejecutables por ordenador pueden recuperarse de medios transitorios, y almacenarse y recuperarse de medios no transitorios. Las instrucciones ejecutables pueden provenir de uno o más de los lenguajes de programación, scripting y de máquina (por ejemplo, C, C++, C#, Java, Visual Basic, Python, Perl, JavaScript y otros).
El procesador(es) 910 puede ejecutarse bajo cualquier sistema operativo (OS) (no mostrado), en un entorno nativo o virtual. Se pueden desplegar una o más aplicaciones que incluyen la unidad lógica 955, la unidad de interfaz de programación de aplicaciones (API) 960, la unidad de entrada 965, la unidad de salida 970, el motor de focalización 975, el módulo presentador 980, y/o el módulo de reconocimiento 985. Por ejemplo, la unidad de entrada 965, el motor de focalización 975, el módulo presentador 980, y/o el módulo de reconocimiento 985 pueden implementar uno o más procesos mostrados en las figuras 2-8. Las unidades y elementos descritos pueden ser variados en diseño, función, configuración o implementación y no están limitados a las descripciones proporcionadas.
En algunas implementaciones de ejemplo, cuando la información o una instrucción de ejecución es recibida por la unidad API 960, puede ser comunicada a una o más unidades (por ejemplo, la unidad lógica 955, la unidad de salida 970, la unidad de entrada 965, el motor de focalización 975, el módulo presentador 980, y/o el módulo de reconocimiento 985).
La unidad de entrada 965 puede, a través de la unidad API 960, recibir imágenes, metadatos, datos de vídeo, datos de audio, información del usuario, etc. para gestionar los puntos de interés, a través del motor de focalización 975, el módulo presentador 980, y/o el módulo de reconocimiento 985. Mediante la unidad API 960, el módulo de reconocimiento 985 puede analizar la información para determinar uno o más puntos de interés en el contenido digital.
En algunos casos, la unidad lógica 955 puede estar configurada para controlar el flujo de información entre las unidades y dirigir los servicios proporcionados por la unidad API 960, la unidad de entrada 965, la unidad de salida 970, el motor de focalización 975, el módulo presentador 980, y/o el módulo de reconocimiento 985 en algunas implementaciones de ejemplo descritas anteriormente. Por ejemplo, el flujo de uno o más procesos o implementaciones puede ser controlado por la unidad lógica 955 sola o en conjunto con la unidad API 960.
Algunas porciones de la descripción detallada se presentan en términos de algoritmos y representaciones simbólicas de operaciones dentro de un ordenador. Estas descripciones algorítmicas y representaciones simbólicas son los medios utilizados por los expertos en las artes del procesamiento de datos para transmitir la esencia de sus innovaciones a otros expertos en la materia. Un algoritmo es una serie de operaciones definidas que conducen a un estado final o resultado deseado. En las implementaciones de ejemplo, las operaciones realizadas requieren manipulaciones físicas de cantidades tangibles para lograr un resultado tangible.
A menos que se indique específicamente lo contrario, como se desprende de la descripción, se aprecia que a lo largo de la misma, las explicaciones que utilizan términos como "recibir", "detectar", "determinar", "identificar", "analizar", "generar" o similares, pueden incluir las acciones y procesos de un sistema informático u otro dispositivo de procesamiento de información que manipula y transforma datos representados como cantidades físicas (electrónicas) dentro de los registros y memorias del sistema informático en otros datos representados de forma similar como cantidades físicas dentro de las memorias o registros del sistema informático u otros dispositivos de almacenamiento, transmisión o visualización de información.
Los ejemplos de implementación también pueden referirse a un aparato para realizar las operaciones aquí descritas. Este aparato puede estar especialmente construido para los fines requeridos, o puede incluir uno o más ordenadores de propósito general activados o reconfigurados selectivamente por uno o más programas informáticos. Dichos programas informáticos pueden almacenarse en un medio legible por ordenador, como un medio de almacenamiento legible por ordenador o un medio de señalización legible por ordenador.
Un medio de almacenamiento legible por ordenador puede incluir medios tangibles tales como, pero no limitados a discos ópticos, discos magnéticos, memorias de sólo lectura, memorias de acceso aleatorio, dispositivos y unidades de estado sólido, o cualquier otro tipo de medios tangibles o no transitorios adecuados para almacenar información electrónica. Un medio de señal legible por ordenador puede incluir medios como las ondas portadoras. Los algoritmos y visualizaciones que se presentan en este documento no están intrínsecamente relacionados con ningún ordenador u otro aparato en particular. Los programas informáticos pueden incluir implementaciones de software puras que implican instrucciones que realizan las operaciones de la implementación deseada.
Pueden utilizarse diversos sistemas de propósito general con programas y módulos de acuerdo con los ejemplos aquí expuestos, o puede resultar conveniente construir un aparato más especializado para realizar las operaciones del método deseado. Además, las implementaciones de ejemplo no se describen con referencia a ningún lenguaje de programación en particular. Se apreciará que una variedad de lenguajes de programación puede ser utilizada para implementar las enseñanzas de las implementaciones de ejemplo como se describe aquí. Las instrucciones del lenguaje o lenguajes de programación pueden ser ejecutadas por uno o más dispositivos de procesamiento, por ejemplo, unidades centrales de procesamiento (CPU), procesadores o controladores.
Como es conocido en el arte, las operaciones descritas anteriormente pueden ser realizadas por hardware, software, o alguna combinación de software y hardware. Varios aspectos de las implementaciones de ejemplo pueden implementarse utilizando circuitos y dispositivos lógicos (hardware), mientras que otros aspectos pueden implementarse utilizando instrucciones almacenadas en un medio legible por ordenador (software), que si son ejecutadas por un procesador, harían que el procesador realizara un método para llevar a cabo las implementaciones de la presente solicitud.
Además, algunas implementaciones de ejemplo de la presente aplicación pueden realizarse únicamente en hardware, mientras que otras implementaciones de ejemplo pueden realizarse únicamente en software. Además, las diversas funciones descritas pueden realizarse en una sola unidad, o pueden repartirse entre varios componentes de cualquier manera. Cuando se realizan mediante software, los métodos pueden ser ejecutados por un procesador, como un ordenador de propósito general, basado en instrucciones almacenadas en un medio legible por ordenador. Si se desea, las instrucciones pueden almacenarse en el medio en un formato comprimido y/o cifrado.
Las implementaciones de ejemplo pueden tener varias diferencias y ventajas sobre el arte relacionado. Por ejemplo, pero no a modo de limitación, a diferencia de la instrumentación de páginas web con JavaScript como se ha explicado anteriormente con respecto al arte relacionado, el texto y las acciones del mouse (por ejemplo, señalando) pueden ser detectados y analizados en los documentos de vídeo.
Además, otras implementaciones de la presente aplicación serán evidentes para los expertos en la materia a partir de la consideración de la especificación y la práctica de las enseñanzas de la presente aplicación. Varios aspectos y/o componentes de las implementaciones de ejemplo descritas pueden ser utilizados individualmente o en cualquier combinación. Se pretende que la especificación y las implementaciones de ejemplo se consideren sólo como ejemplos, siendo el verdadero alcance de la presente solicitud el indicado por las siguientes reivindicaciones.

Claims (11)

REIVINDICACIONES
1. Un método que comprende:
recibir (310) metadatos para una pieza de contenido digital, donde los metadatos comprenden una imagen primaria y un texto que se utiliza para describir la pieza de contenido digital;
analizar (320) la imagen primaria para detectar uno o más objetos;
seleccionar (330) una o más imágenes secundarias correspondientes a uno o más objetos detectados, identificando un conjunto de coordenadas de imágenes secundarias de la imagen primaria para uno o más objetos detectados; y generar (350) una estructura de datos para la pieza de contenido digital que comprende las coordenadas de imagen secundaria de la imagen primaria para la una o más imágenes secundarias
donde, en respuesta a una solicitud del usuario (510), la pieza de contenido digital es descrita en un menú (540) por una imagen secundaria de preferencia determinada (530) en base a al menos una preferencia del usuario y presentada en base a las coordenadas de la imagen secundaria para la imagen secundaria de preferencia en la estructura de datos generada.
2. El método de la reivindicación 1, que comprende además:
determinar una etiqueta para cada imagen secundaria basándose al menos en la información de texto,
donde la estructura de datos incluye las etiquetas, donde la imagen secundaria preferida se determina basándose al menos en la etiqueta asociada a la imagen secundaria preferida y en una preferencia del usuario.
3. El método de la reivindicación 2, que comprende además:
recibir un conjunto de información del usuario;
donde, en respuesta a la estructura de datos que comprende una etiqueta correspondiente a una preferencia del usuario del conjunto de información del usuario, la imagen secundaria para la etiqueta se presenta como la imagen secundaria preferida para describir la pieza de contenido digital.
4. El método de la reivindicación 2, que comprende además:
recibir un conjunto de información del usuario; y
en respuesta a la estructura de datos que comprende una etiqueta correspondiente a una preferencia del usuario del conjunto de información del usuario, buscar en la imagen primaria la imagen secundaria de la etiqueta basándose en el conjunto de coordenadas de la imagen secundaria;
en donde una porción de la imagen primaria se presenta en base al conjunto de coordenadas de la imagen secundaria de la etiqueta.
5. El método de la reivindicación 2,
en donde el análisis de la imagen primaria para detectar uno o más objetos se basa en el reconocimiento facial; y en donde la determinación de la etiqueta para cada imagen secundaria se basa en la coincidencia del reconocimiento facial con un nombre en la información de texto de los metadatos.
6. El método de la reivindicación 2, en el que la determinación de la etiqueta comprende el cálculo de una puntuación de confianza para la relación de cada imagen secundaria con una parte del texto a partir de los metadatos.
7. El método de la reivindicación 1, en el que las imágenes secundarias se ordenan en función del tamaño del objeto en la imagen secundaria en vista de los otros objetos detectados de la imagen primaria.
8. El método de la reivindicación 1, en el que el contenido digital es al menos uno de un programa de televisión, una película, un podcast, un evento deportivo, la una o más imágenes secundarias incluyen una cara de una persona que aparece en el contenido digital; y el contenido digital es descrito por la imagen secundaria preferida como parte del menú para navegar por una biblioteca de contenido digital.
9. El método de la reivindicación 3 o de la reivindicación 4, en el que la información del usuario comprende una heurística para determinar una preferencia del usuario.
10. Un sistema que comprende:
un procesador; y
una memoria que comprende instrucciones que, cuando son ejecutadas por el procesador, hacen que éste lleve a cabo el método de cualquier reivindicación anterior.
11. Un medio legible por ordenador, que comprende instrucciones que, cuando son ejecutadas por
un procesador, hace que el procesador lleve a cabo el método de cualquiera de las reivindicaciones 1 a 9.
ES18760070T 2017-08-17 2018-07-24 Focalización multimedia Active ES2914124T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/679,673 US10769207B2 (en) 2017-08-17 2017-08-17 Multimedia focalization
PCT/US2018/043395 WO2019036162A1 (en) 2017-08-17 2018-07-24 MULTIMEDIA FOCUS

Publications (1)

Publication Number Publication Date
ES2914124T3 true ES2914124T3 (es) 2022-06-07

Family

ID=63405337

Family Applications (1)

Application Number Title Priority Date Filing Date
ES18760070T Active ES2914124T3 (es) 2017-08-17 2018-07-24 Focalización multimedia

Country Status (7)

Country Link
US (3) US10769207B2 (es)
EP (1) EP3669276B1 (es)
CN (2) CN117909522A (es)
BR (2) BR112020003189B1 (es)
ES (1) ES2914124T3 (es)
TW (1) TWI790270B (es)
WO (1) WO2019036162A1 (es)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10769207B2 (en) 2017-08-17 2020-09-08 Opentv, Inc. Multimedia focalization
KR102467041B1 (ko) * 2017-12-22 2022-11-14 삼성전자주식회사 전자 장치 및 전자 장치에서 방송 콘텐트와 관련된 서비스 정보 제공 방법
CN113661492A (zh) * 2019-04-08 2021-11-16 谷歌有限责任公司 带有产品源链接的媒体注释
TWI729416B (zh) * 2019-06-19 2021-06-01 通寶半導體設計股份有限公司 最佳化列印的方法
TWI718747B (zh) * 2019-11-05 2021-02-11 國立臺灣科技大學 增進影像清晰度的方法
US11782978B1 (en) * 2019-12-06 2023-10-10 Amazon Technologies, Inc. Techniques for storing and analyzing data
CN112004033B (zh) * 2020-09-27 2023-05-26 北京小米松果电子有限公司 视频封面确定方法及装置、存储介质

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060064716A1 (en) * 2000-07-24 2006-03-23 Vivcom, Inc. Techniques for navigating multiple video streams
US20050160458A1 (en) * 2004-01-21 2005-07-21 United Video Properties, Inc. Interactive television system with custom video-on-demand menus based on personal profiles
US7986372B2 (en) * 2004-08-02 2011-07-26 Microsoft Corporation Systems and methods for smart media content thumbnail extraction
US8042140B2 (en) * 2005-07-22 2011-10-18 Kangaroo Media, Inc. Buffering content on a handheld electronic device
US8635521B2 (en) * 2006-09-22 2014-01-21 Microsoft Corporation Customizing applications in a discovery interface
JP4775306B2 (ja) * 2007-04-23 2011-09-21 ソニー株式会社 画像処理装置、撮像装置、および画像表示制御方法、並びにコンピュータ・プログラム
US8862691B2 (en) * 2008-12-22 2014-10-14 Microsoft Corporation Media aggregation and presentation
US8782709B2 (en) * 2009-02-19 2014-07-15 Hulu, LLC Method and apparatus for providing a program guide having search parameter aware thumbnails
WO2011106412A1 (en) * 2010-02-23 2011-09-01 Unity Corporation, Inc. Method and system of managing digital multimedia content
JP2011223565A (ja) * 2010-03-26 2011-11-04 Panasonic Corp 撮像装置
US20120054634A1 (en) * 2010-08-27 2012-03-01 Sony Corporation Apparatus for and method of creating a customized ui based on user preference data
CN102427553A (zh) * 2011-09-23 2012-04-25 Tcl集团股份有限公司 一种电视节目播放方法、系统及电视机和服务器
US9514536B2 (en) * 2012-10-10 2016-12-06 Broadbandtv, Corp. Intelligent video thumbnail selection and generation
US20140149936A1 (en) * 2012-11-26 2014-05-29 Nero Ag System and method for providing a tapestry interface with location services
US10129596B2 (en) * 2013-01-21 2018-11-13 Netflix, Inc. Adaptive row selection
US20140258863A1 (en) * 2013-03-11 2014-09-11 United Video Properties, Inc. Systems and methods for browsing streaming content from the viewer's video library
KR102111148B1 (ko) * 2013-05-02 2020-06-08 삼성전자주식회사 썸네일 이미지 생성 방법 및 그 전자 장치
CN104754010B (zh) * 2013-12-31 2019-01-25 华为技术有限公司 信息处理的方法及业务平台
US9398345B2 (en) * 2014-02-27 2016-07-19 Rovi Guides, Inc. Methods and systems for generating customized collages of media assets based on user criteria
US20150293928A1 (en) * 2014-04-14 2015-10-15 David Mo Chen Systems and Methods for Generating Personalized Video Playlists
US20150319506A1 (en) * 2014-04-30 2015-11-05 Netflix, Inc. Displaying data associated with a program based on automatic recognition
US20150373407A1 (en) * 2014-06-24 2015-12-24 Thomson Licensing User configurable custom channel creation and use
CN104486680A (zh) * 2014-12-19 2015-04-01 珠海全志科技股份有限公司 基于视频的广告推送方法及系统
US9552520B1 (en) * 2015-07-07 2017-01-24 Disney Enterprises, Inc. Systems and methods for automatic key frame extraction and storyboard interface generation for video
US20170068870A1 (en) * 2015-09-03 2017-03-09 Google Inc. Using image similarity to deduplicate video suggestions based on thumbnails
CN105163142B (zh) * 2015-09-09 2018-10-26 聚好看科技股份有限公司 一种用户偏好确定方法、视频推荐方法和系统
US10248864B2 (en) * 2015-09-14 2019-04-02 Disney Enterprises, Inc. Systems and methods for contextual video shot aggregation
US10068616B2 (en) * 2017-01-11 2018-09-04 Disney Enterprises, Inc. Thumbnail generation for video
US10356458B2 (en) * 2017-03-06 2019-07-16 The Directv Group, Inc. Controlling content presentation and display of program information in an electronic program guide
US9892324B1 (en) * 2017-07-21 2018-02-13 Pccw Vuclip (Singapore) Pte. Ltd. Actor/person centric auto thumbnail
US10769207B2 (en) 2017-08-17 2020-09-08 Opentv, Inc. Multimedia focalization
US10455297B1 (en) * 2018-08-29 2019-10-22 Amazon Technologies, Inc. Customized video content summary generation and presentation

Also Published As

Publication number Publication date
US20210073277A1 (en) 2021-03-11
US10769207B2 (en) 2020-09-08
TWI790270B (zh) 2023-01-21
EP3669276B1 (en) 2022-04-06
CN111108494B (zh) 2023-11-28
BR112020003189A2 (pt) 2020-09-15
US20230315784A1 (en) 2023-10-05
CN117909522A (zh) 2024-04-19
US20190057150A1 (en) 2019-02-21
US11630862B2 (en) 2023-04-18
TW201914310A (zh) 2019-04-01
CN111108494A (zh) 2020-05-05
BR122021013788B1 (pt) 2022-09-20
EP3669276A1 (en) 2020-06-24
BR112020003189B1 (pt) 2023-01-17
WO2019036162A1 (en) 2019-02-21

Similar Documents

Publication Publication Date Title
ES2914124T3 (es) Focalización multimedia
US10769438B2 (en) Augmented reality
US8875212B2 (en) Systems and methods for remote control of interactive video
US9357242B2 (en) Method and system for automatic tagging in television using crowd sourcing technique
US8966372B2 (en) Systems and methods for performing geotagging during video playback
US8930992B2 (en) TV social network advertising
US20180047213A1 (en) Method and apparatus for providing augmented reality-based dynamic service
US9881084B1 (en) Image match based video search
US20150082187A1 (en) Methods and systems for presenting direction-specific media assets
WO2015134537A1 (en) Generation of video based on spherical content
US20140331264A1 (en) Content annotation tool
CN107005741A (zh) 沉浸式缩放交互式电视
KR20140044663A (ko) 방송 수신 장치 및 디스플레이 장치와 이를 이용한 검색 방법
US20140372424A1 (en) Method and system for searching video scenes
US11057652B1 (en) Adjacent content classification and targeting
CN106936830B (zh) 一种多媒体数据的播放方法和装置
Serra et al. Multimodal Access to Georeferenced Mobile Video through Shape, Speed and Time
KR102372181B1 (ko) 전자 장치 및 그의 제어 방법
CN110929056B (zh) 多媒体文件的产生方法与播放方法、产生装置与播放装置
JP5822855B2 (ja) 情報処理装置、制御方法、及びプログラム
WO2016106494A1 (zh) 一种实现媒体对象显示的方法、装置及系统
KR20180053208A (ko) 전자 장치 및 그의 제어 방법