BR112020003189A2

BR112020003189A2 - método, sistema, e, mídia legível por computador não transitória

Info

Publication number: BR112020003189A2
Application number: BR112020003189-5A
Authority: BR
Inventors: Eunsook AN
Original assignee: Opentv, Inc.
Priority date: 2017-08-17
Filing date: 2018-07-24
Publication date: 2020-09-15
Also published as: BR122021013788B1; US11630862B2; WO2019036162A1; TWI790270B; US20190057150A1; CN117909522A; US10769207B2; US20230315784A1; US20210073277A1; EP3669276B1; BR112020003189B1; TW201914310A; ES2914124T3; CN111108494A; CN111108494B; EP3669276A1

Abstract

As implementações de exemplo são direcionadas a métodos e a sistemas para navegação e controle de multimídia individualizados, incluindo receber os metadados para uma peça de conteúdo digital, em que os metadados compreendem uma imagem primária e texto que é usado para descrever o conteúdo digital; analisar a imagem primária para detectar um ou mais objetos; selecionar uma ou mais imagens secundárias correspondentes a cada objeto detectado; e gerar uma estrutura de dados para o conteúdo digital que compreende as uma ou mais imagens secundárias, em que o conteúdo digital é descrito por uma imagem secundária preferida.

Description

MÉTODO, SISTEMA, E, MÍDIA LEGÍVEL POR COMPUTADOR NÃO

TRANSITÓRIA Campo Técnico

[001] A presente descrição refere-se, no geral, do controle de multimídia, e é mais especificamente relacionada à análise de imagem para a focalização de multimídia com controle condicional. Fundamentos da Invenção

[002] Historicamente, visualizadores giravam através de um ciclo de canais para descobrir qual conteúdo difundido estava disponível. A moderna distribuição de conteúdo em multimídia digital inclui os metadados para descrever cada item de conteúdo disponível, tais como um título e uma descrição curta. Os usuários (por exemplo, os visualizadores em potencial), no geral, navegam uma grade de texto ou uma série de menus que podem incluir a arte do espetáculo para descobrir ou navegar o conteúdo disponível. Tipicamente, os usuários revisam os itens detalhados da arte do espetáculo que representam o gênero ou linha da estória associados com o item de conteúdo. Os provedores de conteúdo, tais como produtores de filme ou criadores do espetáculo de televisão, competem pelo interesse do visualizador durante o estágio de seleção do conteúdo usando a arte do espetáculo para comunicar o assunto em questão do conteúdo e persuadir o visualizador a selecionar o conteúdo.

[003] Convencionalmente, os administradores ou os produtores gastam incontáveis horas editando e constringindo uma peça da arte do espetáculo para capturar a atenção do visualizador em potencial. Por exemplo, um produtor de filme pode desenvolver uma pequena biblioteca de diferentes peças da arte do espetáculo para comercializar o conteúdo e persuadir os visualizadores a assistir seu filme. Os sistemas da tecnologia relacionada usam desenhos criativos e grupos de foco para criar as imagens da arte do espetáculo que comunicam múltiplos aspectos em relação ao assunto em questão do conteúdo a fim de atrair a atenção de um amplo grupo de visualizadores em potencial. Por exemplo, um filme pode ter múltiplos diferentes pôsteres produzidos a fim de atrair grandes segmentos de uma audiência alvo. Por exemplo, uma peça da arte do espetáculo pode ser desenhada para comunicar o gênero do conteúdo digital, uma outra peça da arte do espetáculo pode ser desenhada para comunicar o elenco ou o ator principal apresentados no conteúdo digital, e uma outra peça da arte do espetáculo é desenhada para comunicar a informação de agenda (por exemplo, data e hora da visualização ou o time esportivo que é apresentado).

[004] Os estudos da tecnologia relacionada mostraram que a leitura de texto sobre o conteúdo digital é ineficaz na obtenção de uma decisão dos visualizadores em potencial. Pesquisa relacionada mostra que imagens influenciam esmagadoramente a escolha de um visualizador ao selecionar conteúdo digital. Por exemplo, a pesquisa relacionada indica que os visualizadores tipicamente gastam de um a dois segundos considerando cada título durante a navegação de uma biblioteca de mídia em transmissão contínua, com a maioria do tempo gasto acessando a arte do espetáculo. Adicionalmente, a pesquisa mostrou que as pessoas podem reconhecer as imagens de rostos substancialmente mais rápido do que objetos.

[005] Os sistemas de navegação de conteúdo da tecnologia relacionada podem prover diretamente a arte do espetáculo provida pelo provedor de conteúdo. Em sistemas da tecnologia relacionada, os cientistas de dados analisam a estatística de usuário para rastrear reações às imagens e os times criativos modificam as cores, as imagens e as palavras que são usadas como a arte do espetáculo. Adicionalmente, a exibição das imagens com texto melhora os processos de tomada de decisão do visualizador. Entretanto, as imagens (por exemplo, a arte do espetáculo) se tornaram mais complexas a fim de apelar a mais segmentos de um visualizador em potencial. Já que as imagens são mais complexas, os visualizadores exigem tempo adicional para analisar a imagem para localizar os objetos que são de interesse que auxiliam a fazer uma determinação sobre se visualiza-se ou não o item do conteúdo.

[006] Na tecnologia relacionada, a detecção de ponto focal é usada em câmeras para ajustar a definição de captura de imagem. Em outra tecnologia relacionada, os sistemas de reconhecimento facial são capazes de identificar ou verificar a identidade de uma pessoa a partir de uma imagem digital ou um quadro de vídeo a partir de uma fonte de vídeo.

[007] Com o crescimento explosivo de bibliotecas digitais on-line e dos serviços de distribuição da mídia digital em transmissão contínua, os visualizadores tem acesso a uma imensa quantidade de conteúdo digital para navegar. Desta maneira, ferramentas são necessárias para melhorar a navegação do usuário e a interação com a navegação com base em imagem do conteúdo digital. Breve Descrição dos Desenhos

[008] A presente descrição é ilustrada a título de exemplo, e não a título de limitação, e pode ser mais completamente entendida com referências à seguinte descrição detalhada quando considerada em conexão com as figuras, nas quais: a figura 1 ilustra um diagrama de blocos de um sistema de focalização de acordo com uma implementação de exemplo.

[009] A figura 2 ilustra um motor de focalização de exemplo de acordo com uma implementação de exemplo.

[0010] A figura 3 ilustra um fluxograma para gerar uma estrutura de dados de ponto de interesse de acordo com uma implementação de exemplo.

[0011] As figuras 4A-B ilustram um diagrama de blocos e um fluxograma para gerar as imagens focais de acordo com as implementações de exemplo.

[0012] A figura 5 ilustra um fluxograma para controle da interface de acordo com uma implementação de exemplo.

[0013] As figuras 6A-C ilustram a interface focalizada de exemplo de acordo com as implementações de exemplo.

[0014] As figuras 7A-F ilustram as interfaces individualizadas de exemplo de acordo com as implementações de exemplo.

[0015] As figuras 8A-C ilustram as opções de controle da interface do exemplo de acordo com as implementações de exemplo.

[0016] A figura 9 ilustra um ambiente de computação do servidor de exemplo com um dispositivo computador de exemplo adequado para uso em implementações de exemplo. Descrição Detalhada

[0017] A presente descrição é direcionada à identificação de múltiplas imagens secundárias para descrever uma peça de conteúdo digital (por exemplo, vídeo, áudio, texto, etc.) que pode ser usada para prover menus individualizados com base em informação do usuário.

[0018] Uma imagem da arte do espetáculo (por exemplo, uma imagem primária) refere-se a uma imagem usada para descrever uma peça de conteúdo, por exemplo, como um pôster de filme ou uma capa de DVD. Para a navegação de conteúdo digital, os provedores de conteúdo distribuem uma imagem da arte do espetáculo para descrever uma peça de conteúdo digital disponível para exibição em menus ou submenus aos visualizadores em potencial. Os visualizadores em potencial podem navegar através de menus com base em texto ou em imagem e visualizar as imagens da arte do espetáculo para auxiliar com a determinação se seleciona-se uma peça. Já que os provedores de conteúdo convencionalmente determinam a imagem da arte do espetáculo para uso que descreve um filme ou um espetáculo de televisão, a mesma imagem da arte do espetáculo comum é usada para todos os visualizadores em potencial. As interfaces de navegação (por exemplo, menus) para grandes coletâneas on-line de conteúdo digital convencionalmente usam imagens da arte do espetáculo comuns para permitir que os visualizadores em potencial naveguem o conteúdo digital disponível.

[0019] Da forma aqui descrita, os sistemas e os métodos proveem melhor processamento de imagem das imagens da arte do espetáculo (por exemplo, imagens primárias) pela análise de imagem da arte do espetáculo para identificar múltiplas subimagens (por exemplo, imagens secundárias) na imagem primária. Uma subimagem preferida (por exemplo, a imagem secundária preferida) pode ser apresentada a um visualizador em potencial com base em uma afinidade ou uma preferência do visualizador em potencial. Em uma implementação de exemplo, um interface de navegação apresenta aos visualizadores em potencial uma subimagem preferida da imagem da arte do espetáculo comum com base em sua informação do usuário em vez da imagem da arte do espetáculo comum. Por exemplo, uma imagem da arte do espetáculo de sete pessoas selecionadas pelo provedor de conteúdo pode ser substituída ou redimensionada para apresentar ou destacar uma subimagem preferida de uma das atrizes representadas na imagem da arte do espetáculo comum. O visualizador em potencial pode reconhecer a atriz na subimagem preferida em menos tempo do que o escaneamento da imagem da arte do espetáculo comum. Por exemplo, a imagem da arte do espetáculo comum exige que o visualizador em potencial escaneie as sete pessoas representadas para determinar se alguma das sete pessoas é reconhecível enquanto a subimagem preferida de uma das pessoas toma menos tempo para que o visualizador em potencial processe.

[0020] Na implementação de exemplo, a subimagem preferida é selecionada com base na informação associada com o visualizador em potencial. Por exemplo, a subimagem da atriz pode ser selecionada a partir de múltiplas subimagens na imagem da arte do espetáculo (por exemplo, uma subimagem para cada uma das sete pessoas) usando a informação sobre o visualizador em potencial (por exemplo, com base no histórico de visualização do visualizador em potencial. É mais provável que o visualizador em potencial reconheça, ou reconheça mais rapidamente, a subimagem preferida que corresponde com sua informação do usuário do que a imagem da arte do espetáculo comum que foi pré-selecionada pelo provedor ou produtor de conteúdo.

[0021] Para navegar através das peças de conteúdo digital, uma interface de navegação pode ser apresentada com subimagens preferidas para cada peça de conteúdo digital que é selecionada com base na informação do usuário (por exemplo, uma imagem secundária preferida). Um menu das imagens secundárias preferidas em vez das imagens da arte do espetáculo comuns pode diminuir o tempo de reconhecimento do usuário e o tempo de navegação do usuário. Assim, o menu das imagens secundárias preferidas descreve melhor o conteúdo da coletânea do que as imagens da arte do espetáculo comuns.

[0022] Em algumas implementações, um menu com base em imagem das imagens secundárias pode incluir uma subimagem de uma imagem primária ou uma imagem complementar provenientes de uma base de dados. Por exemplo, uma fotografia da cabeça da atriz proveniente de uma base de dados (por exemplo, uma imagem complementar) pode ser apresentada, em vez da imagem da atriz proveniente da imagem da arte do espetáculo. Em um outro exemplo, o visualizador em potencial pode visualizar uma imagem complementar (por exemplo, uma imagem secundária) que descreve uma peça de conteúdo digital com base em sua informação do usuário em vez da imagem da arte do espetáculo comum. Por exemplo, uma fotografia da cabeça da atriz proveniente de uma base de dados (por exemplo, uma imagem complementar) pode ser apresentado para descrever um filme em vez da imagem da arte do espetáculo comum que apresenta um grande barco. Um menu com base em imagem das imagens secundárias (por exemplo, uma subimagem da imagem da arte do espetáculo comum ou uma imagem complementar para substituir a imagem da arte do espetáculo comum) pode diminuir tempo de navegação do usuário e melhorar o engajamento do usuário.

[0023] Da forma aqui usada, a focalização refere-se à determinação de um ou mais pontos de interesse no conteúdo digital (ou em uma biblioteca digital) para direcionar uma atenção do visualizador. Em uma implementação de exemplo, os um ou mais pontos de interesse em uma imagem podem ser os pontos focais. Por exemplo, uma figura com múltiplos rostos pode ser focalizada para detectar os múltiplos rostos e determinar um dos rostos para direcionar a atenção do visualizador. Em uma implementação de exemplo, a atenção é direcionada para um ponto de interesse pelo redimensionamento (por exemplo, aproximação, recorte, fragmento, etc.), borragem, filtragem, enquadramento, etc.

[0024] Em uma outra implementação de exemplo, os um ou mais pontos de interesse em um vídeo podem ser um conjunto de quadros. Por exemplo, um vídeo longo com múltiplas cenas (por exemplo, disparos de câmera, planos de fundo, etc.) pode ser focalizado para detectar as múltiplas cenas e determinar uma das cenas para direcionar a atenção do visualizador.

[0025] Em um aspecto de exemplo da presente descrição, um motor de focalização detecta um ou mais pontos de interesse em uma imagem da arte do espetáculo comum (por exemplo, a imagem primária) associada com uma peça de conteúdo digital (por exemplo, um filme ou um espetáculo de televisão), atribui um rótulo a cada ponto de interesse, e gera as estruturas de dados para identificar cada ponto de interesse de forma que um dos pontos de interesse possa ser apresentado como uma imagem secundária (por exemplo, uma subimagem da imagem da arte do espetáculo comum ou uma imagem complementar para substituir a suibimagem da imagem da arte do espetáculo comum). Pela seleção de um ponto de interesse da imagem da arte do espetáculo comum que corresponde com a informação do usuário, o visualizador pode processar mais rapidamente os pontos de interesse do que a imagem da arte do espetáculo geral e identificar um aspecto do conteúdo digital associado com a imagem secundária (por exemplo, uma subimagem da imagem da arte do espetáculo comum ou uma imagem complementar). Em uma implementação de exemplo, um menu para o conteúdo digital disponível é apresentado para o visualizador para navegar (por exemplo, navegar, rolar, clicar através, leve toque, etc.) através das imagens focalizadas (por exemplo, imagens secundárias) em vez das imagens da arte do espetáculo comuns (por exemplo, imagens primárias). As imagens secundárias podem reduzir o tempo de reconhecimento necessário para o processamento de imagens complexas (por exemplo, as imagens da arte do espetáculo comuns). Um menu com base em imagem com imagens secundárias (por exemplo, uma subimagem da imagem da arte do espetáculo comum ou uma imagem complementar) foca a atenção do visualizador para localizar o conteúdo digital que corresponde aos interesses do visualizador.

[0026] O motor de focalização pode realizar um teste de qualidade para detectar que uma subimagem da imagem da arte do espetáculo comum para o ponto de interesse é muito pequena ou obscurecida para representar o conteúdo digital no menu. Se a subimagem da imagem da arte do espetáculo comum falhar no teste de qualidade, o motor de focalização pode acessar uma biblioteca de terceiros para recuperar a imagem complementar para o ponto de interesse. Por exemplo, em resposta à detecção da apresentação dos pixelados da subimagem (por exemplo, ampliação da imagem além de um limite de resolução), o motor de focalização pode recuperar uma imagem complementar de qualidade mais alta para o ponto de interesse. O motor de focalização pode impedir que a subimagem seja ampliada muito distante de forma que os pixels individuais que formam a imagem sejam visualizáveis e evitem a redução da velocidade de reconhecimento da imagem secundária.

[0027] Os aspectos da presente descrição podem incluir um sistema e um método para navegação e controle de multimídia individualizados que inclui receber os metadados para uma peça de conteúdo digital, em que os metadados compreendem uma imagem primária e texto que é usado para descrever o conteúdo digital; analisar a imagem primária para detectar um ou mais objetos; selecionar uma ou mais imagens secundárias com base em cada objeto detectado; e gerar uma estrutura de dados para o conteúdo digital que compreende as uma ou mais imagens secundárias. Um rótulo para cada imagem secundária pode ser determinado com base nos metadados ou em técnicas de reconhecimento facial para auxiliar na seleção da imagem secundária que corresponde à informação do usuário. Então, o conteúdo digital pode ser descrito por uma imagem secundária preferida que corresponde à informação do usuário em vez da imagem primária.

[0028] A descrição detalhada provê detalhes adicionais das figuras e das implementações de exemplo da presente descrição. Os números de referência e as descrições de elementos redundantes entre as figuras são omitidos por clareza. Os termos usados por toda a descrição são providos como exemplos e não pretende-se que sejam limitantes. Por exemplo, o uso do termo “automático” pode envolver as implementações completamente automáticas ou semiautomáticas que envolvem o controle do usuário ou do operador em relação a certos aspectos da implementação, dependendo da implementação desejada dos versados na técnica que praticam as implementações do presente pedido.

[0029] A figura | ilustra uma visão geral de um sistema 100 para uso com um motor de focalização 110 de acordo com as implementações de exemplo. O sistema 100 inclui um motor de focalização 110 configurado para analisar os metadados provenientes de um armazenamento de dados local 103 ou por meio de uma rede 102 a partir de um provedor de metadados 105e ou provedor de conteúdo 105f por meio do serviço em nuvem 105n. O motor de focalização 110 pode analisar os metadados que descrevem os itens de conteúdo provenientes de várias fontes de dados, tais como serviços de transmissão contínua ao vivo, repositórios digitais, serviços sob demanda, etc.

[0030] Os dispositivos 105a-105n podem incluir, por exemplo, dispositivos de computação móveis 105a-105b (por exemplo, telefones inteligentes, laptops, tablets, etc.), sistemas de apresentação 105c, dispositivos de computação 105d (por exemplo, desktops, computadores de grande porte, equipamento de rede, etc.), bibliotecas de metadados 105e, repositórios de conteúdo 105f, provedores de conteúdo 105g, bem como serviços em nuvem 105n (por exemplo, recursos de computação proprietários ou públicos remotamente disponíveis). Os dispositivos 105a-d podem incluir os dispositivos, tais como leitores de livro eletrônico, assistentes digitais portáteis, telefones celulares, telefones inteligentes, computadores tipo laptop, reprodutores de mídia portáteis, computadores tipo tablet, câmeras, câmeras de vídeo, netbooks, notebooks e congêneres. Os dispositivos de usuário 105a- d também podem incluir dispositivos, tais como codificadores/decodificadores integrados, computadores de mesa, consoles de jogos, gravadores de vídeo digital (DVRs), centros de mídia e congêneres. Os dispositivos de usuário 105a-d podem conectar na rede 102 por uma rede privada, uma WAN, uma LAN, etc.

[0031] Os itens de conteúdo podem incluir conteúdo proveniente de fontes independentes ou intermediárias. Por exemplo, um servidor da central de operações do operador pode armazenar o conteúdo da fonte (por exemplo, um provedor de conteúdo 105n, um armazenamento de dados do conteúdo 105f, etc.) ou receber o conteúdo da fonte a partir de um ou mais provedores da fonte de conteúdo. Da forma aqui usada, os provedores de conteúdo se referem coletivamente ao provedor de metadados 105e, aos distribuidores de conteúdo intermediários, às fontes de conteúdo, estúdios de filme, às companhias de produção, aos revendedores de conteúdo, etc. Por exemplo, o conteúdo em transmissão contínua pode chegar a partir de um servidor da central de operações do operador 105d ou um servidor de transmissão contínua HTTP (HSS) que acessa o conteúdo disponível em pacotes organizados como um fluxo contínuo do programa em MPEG2 (MPG-PS), Transmissão Contínua ao Vivo HTTP (HLS), etc. Por exemplo, um provedor da fonte de conteúdo pode prover conteúdo digital de um vídeo de evento esportivo ao vivo. Um servidor da central de operações do operador 105d pode incluir máquinas físicas e/ou máquinas virtuais hospedadas por máquinas físicas (por exemplo, servidores montados em bastidores, computadores de mesa ou outros dispositivos de computação).

[0032] Os dispositivos 105a-105n também podem coletar a informação (por exemplo, dados do histórico de conteúdo, dados do perfil do visualizador, dados de realimentação, etc.) proveniente de um ou mais outros dispositivos 105a-105n e prover a informação coletada para o motor de focalização 110. Por exemplo, os dispositivos 105a-105n podem ser comunicativamente conectados no outro dispositivo usando WIiFIO, BluetoothO, ZigbeeO, Protocolo da Internet versão 6 sobre Redes de Área Sem Fio de Baixa Potência (6LowPAN), comunicação em linha de potência (PLC), Ethernet (por exemplo, Ethernet 10 Megabytes (Mb), 100 Mb e/ou 1 Gigabyte (Gb)) ou outros protocolos de comunicação.

[0033] Os dispositivos 105a-d podem ser associados com e identificáveis por um identificador de dispositivo de usuário exclusivo (por exemplo, um foken, um perfil de direitos digitais, um número serial do dispositivo, etc.). Em uma implementação, o dispositivo de usuário 105a-d pode ser um dispositivo no nível da rede com um serviço de rastreamento de atividade usado para rastrear as ativações, interesses, comportamentos de um usuário, etc. ou rastrear a atividade do dispositivo (por exemplo, cookies, log- ins globais, etc.). Os serviços de rastreamento podem identificar um identificador exclusivo para cada usuário final (por exemplo, um token, um perfil de direitos digitais, um número serial do dispositivo, etc.). Por exemplo, o serviço de Vídeo sob Demanda (VOD) pode transmitir por fluxo contínuo o conteúdo através de um codificador/decodificador integrado, um computador ou outro dispositivo, permitindo a visualização em tempo real, ou transferir o conteúdo para um dispositivo, tais como um computador, um gravador de vídeo digital ou outro reprodutor de mídia portátil para visualização. Os serviços de rastreamento podem rastrear o conteúdo acessado ou solicitado, bem como outra informação demográfica ou de marketing sobre os interesses de um usuário. Um identificador de usuário exclusivo pode ser usado para autenticar o dispositivo e permitir a transmissão contínua de VOD, a transmissão contínua pay-per-view, a transferência para um DVR, etc. Os dispositivos de usuário 105a-d tipicamente enviam uma solicitação para os metadados para descrever o conteúdo disponível (aqui uma “solicitação de metadados”) que inclui um identificador para associar o usuário com a informação do usuário.

[0034] O motor de focalização 110 pode interagir com os dispositivos clientes 105a-105n, o provedor de metadados 105e, os serviços em nuvem 105n, etc. e analisar os metadados para o conteúdo e prover as imagens secundárias com base na informação do usuário. O motor de focalização 110 pode ser implementado na forma de software (por exemplo, instruções em uma mídia legível por computador não transitória) em execução em um ou mais dispositivos de processamento, tais como os um ou mais dispositivos 105a-105d, como um serviço em nuvem 105n, remotamente por meio de uma rede 102, ou outra configuração conhecida pelos versados na técnica. Por exemplo, o motor de focalização 110 pode ser hospedado por meio de dispositivos clientes 105a-105d, um serviço em nuvem 105n, ou como parte da rede de distribuição de conteúdo 102 (por exemplo, um serviço da central de operações).

[0035] O motor de focalização 110 inclui diretamente ou indiretamente a memória, tal(is) como armazenamento(s) de dados 103 (por exemplo, RAM, ROM e/ou armazenamento interno, armazenamento magnético, óptico, em estado sólido e/ou orgânico), qualquer um dos quais pode ser acoplado em um mecanismo (ou barramento) de comunicação para comunicação da informação. Pretende-se que os termos "computador", "plataforma de computador", dispositivo de processamento e dispositivo incluam qualquer dispositivo de processamento de dados, tais como um computador de mesa, um computador tipo laptop, um computador tipo tablet, um computador de grande porte, um servidor, um dispositivo de mão, um processador de sinal digital (DSP), um processador embutido ou qualquer outro dispositivo capaz de processar os dados. O computador/plataforma de computador é configurado para incluir um ou mais microprocessadores comunicativamente conectados em uma ou mais mídias legíveis por computador não transitórias e uma ou mais redes.

[0036] Em uma implementação de exemplo, o motor de focalização 110 pode ser hospedado por um serviço em nuvem 105n e comunicativamente conectado por meio da rede 102 nos dispositivos 105a-105n a fim de enviar e receber os dados. Pretende-se que o termo "comunicativamente conectado” inclui qualquer tipo de conexão, com fios ou sem fio, na qual os dados podem ser comunicados. Pretende-se que o termo "comunicativamente conectado" inclua, mas sem limitações, uma conexão entre os dispositivos e/ou os programas em um único computador ou entre dispositivos e/ou computadores separados sobre a rede 102. Pretende-se que o termo "rede" inclua, mas sem limitações, redes de pacotes comutados, tais como uma rede de área local (LAN), uma rede de área ampla (WAN), TCP/IP, (a Internet), e pode usar vários meios de transmissão, tais como, mas sem limitações, WiFiO, BluetoothO, ZigbeeO, Protocolo da Internet versão 6 sobre Redes de Área Sem Fio de Baixa Potência (6LowPAN), comunicação em linha de potência (PLC), Ethernet (por exemplo, Ethernet 10 Megabytes (Mb), 100 Mb e/ou 1 Gigabyte (Gb)) ou outros protocolos de comunicação.

[0037] Em algumas implementações, o armazenamento de dados 103 armazena cópias duplicadas ou partes dos metadados recebidos para o conteúdo digital. Em uma implementação alternativa, uma estrutura de dados para o processamento de metadados é gerada e armazenada pelo motor de focalização 110 no armazenamento de dados 103. Em uma outra implementação, o motor de focalização 110 pode armazenar uma estrutura de dados para o processamento de metadados em um serviço de armazenamento em nuvem 105n.

[0038] A figura 2 ilustra um exemplo do sistema 200 que inclui um motor de focalização 210 de acordo com uma implementação de exemplo. O motor de focalização 210 inclui uma ou mais interfaces de 1/O 212, um módulo de interface 215, um módulo de informação do usuário 217, um sistema de decisão do ponto de interesse 230, e um módulo de realimentação

260. O motor de focalização 210 é acoplado em um ou mais armazenamento de dados 203 para armazenar os dados (por exemplo, metadados 207, estruturas de dados, imagens, dados de usuário 209, etc.). O motor de focalização 210 pode analisar os metadados 207 por um item de conteúdo 206 com uma imagem para identificar um ou mais pontos de interesse, analisar uma sinopse do conteúdo dos metadados 207, determinar um rótulo para cada ponto de interesse com base nos metadados 207, e prover uma imagem secundária com um dos pontos de interesse com base nos dados de usuário 209 em resposta a uma solicitação. Os metadados 207 associados com múltiplas fontes de conteúdo podem ser analisados para prover as interfaces de usuário integradas com os menus para navegar eficientemente o conteúdo 206, em que os menus são adaptados com base nos interesses do usuário.

[0039] Em uma implementação de exemplo, a interface de 1/O 212 inclui uma ou mais interfaces de comunicação comunicativamente conectadas com uma rede 202 ou diferentes tipos de dispositivos 205 (por exemplo, dispositivos 105a-105n da figura 1). A interface de 1/O 212 pode receber os metadados 207 (por exemplo, a imagem da arte do espetáculo, a informação de episódio, etc.), conteúdo associado 206 (por exemplo, vídeos) proveniente de diferentes fontes, tal como um armazenamento de dados 203, diferentes tipos de dispositivos 205, ou por meio de uma rede 202. Em uma implementação de exemplo, a interface de 1/O 212 pode receber os metadados 207 sem receber o conteúdo 206 por meio da rede 202. As combinações aqui listadas são exemplos ilustrativos, e outras combinações que serão entendidas pelos versados na técnica podem ser substituídas, portanto.

[0040] Os metadados 207 e/ou os dados de usuário 209 podem ser recebidos pelo motor de focalização 210 em tempo real ou recuperados a partir do armazenamento de dados 203 ou fontes de dados por meio da rede

202. Por exemplo, os metadados 207 podem incluir uma imagem da arte do espetáculo comum para representar o conteúdo 206 por meio de uma interface da seleção do conteúdo a partir do módulo de seleção do conteúdo 215.

[0041] Os metadados 207 podem incluir um sumário em texto do conteúdo, por exemplo, uma sinopse que descreve o gênero, personagens, ou temas de enredo. As imagens dos metadados 207 podem ser analisadas para extrair os pontos de interesse, tais como rostos ou monumentos. O texto dos metadados 207 pode ser analisado para extrair os rótulos para associar com um ponto de interesse, tais como nomes de personagens, atores, atrizes, atletas, nomes de time esportivo, locais de filmagem, etc.

[0042] Os dados de usuário 209 também podem incluir a informação sobre um usuário, tais como local, demografia, informação de perfil, um histórico de visualização de conteúdo, realimentação de usuário, interesses do usuário, etc. O módulo de informação do usuário 217 pode processar os dados de usuário recebidos, bem como buscar ou solicitar dados adicionais. O módulo de informação do usuário 217 pode solicitar a informação do usuário a partir dos serviços de rastreamento (por exemplo, rastreamento do engajamento on-line, etc.).

[0043] O motor de focalização 210 inclui um módulo de reconhecimento 220 e um módulo apresentador 240 para analisar os metadados 207, identificar os pontos de interesse dos metadados 207 e prover as imagens alternativas (por exemplo, as imagens secundárias) para auxiliar na navegação do usuário e na seleção de conteúdo 206. O módulo de reconhecimento 220 e o módulo apresentador 240 interagem com o sistema de decisão do ponto de interesse 230 (POIDS) de acordo com os um ou mais algoritmos descritos em referência às figuras 3-7.

[0044] O módulo de reconhecimento 220 por meio do sistema de decisão do ponto de interesse 230 analisa os metadados 207 para uma coletânea de conteúdo 206 para identificar as imagens secundárias que serão providas para a seleção do conteúdo. O módulo de reconhecimento 220 pode identificar as imagens secundárias como as subimagens dos metadados 207 ou adquirir imagens complementares a partir de uma biblioteca externa para substituir uma imagem primária associada com uma peça de conteúdo. O módulo de reconhecimento 220 pode interagir com a interface de 1/O 212, o módulo de interface 215, o sistema de recomendação de sequência 230 e o módulo de realimentação 260 para gerar e manter as subimagens extraídas a partir dos metadados ou as estruturas de dados para extrair as imagens secundárias a partir dos metadados em tempo real, da forma descrita em referência às figuras 3-7. O módulo de reconhecimento 220 pode identificar múltiplas imagens secundárias a partir de uma imagem primária.

[0045] O módulo apresentador 240 recebe ou intercepta solicitações para prover os metadados 207 que descrevem o conteúdo. O módulo apresentador 240 pode interagir com a interface de 1/O 212, o módulo de interface 215, o módulo de informação do usuário 217, o POIDS 230 e o módulo de realimentação 260 para prover as imagens secundárias com base nos dados de usuário 209 em um menu de navegação de conteúdo. O módulo apresentador 240 emprega os dados de usuário 209 para customizar o menu de navegação de conteúdo com as imagens secundárias que representam o conteúdo 206 e correspondem a um interesse do usuário com base nos dados de usuário 209 associados com uma solicitação de metadados. Uma solicitação de metadados pode ser uma solicitação por metadados 207 associados com uma ou mais coletâneas de conteúdo provenientes de múltiplas fontes de dados.

[0046] Um menu de navegação de conteúdo customizado com as imagens secundárias pode ser automaticamente gerado ou internamente solicitado pelo motor de focalização 210. Por exemplo, em resposta a uma solicitação de metadados, o motor de focalização 210, por meio do módulo de reconhecimento 220, identifica as múltiplas imagens secundárias por uma peça de conteúdo, e o módulo apresentador 240 pode selecionar uma das imagens secundárias com base nos dados de usuário 209 para prover um menu de navegação de conteúdo customizado para o conteúdo associado com os metadados solicitados.

[0047] O POIDS 230 pode incluir um módulo de ponto focal 233, um módulo de reconhecimento facial 235, um módulo de rotulação 237, um módulo de qualidade 239, um módulo de localização 243 e/ou um módulo da imagem complementar 245. O POIDS 230 interage com o módulo de reconhecimento 220 e o módulo apresentador 240 de acordo com os um ou mais algoritmos descritos em referência às figuras 3-7A-F. Em uma implementação de exemplo, o POIDS 230 inclui um processo de análise para identificar os pontos de interesse a partir de uma imagem da arte do espetáculo comum dos metadados 207 por meio do módulo de ponto focal 233, analisar uma sinopse proveniente dos metadados 207 para determinar um rótulo para cada ponto de interesse por meio do módulo de reconhecimento facial 235 e do módulo de rotulação 237.

[0048] Em uma implementação de exemplo, o POIDS 230 inclui um processo de apresentação para prover as imagens secundárias com os pontos de interesse que correspondem aos dados de usuário 209. O processo de apresentação pode incluir testar uma qualidade das imagens secundárias por meio do módulo de qualidade 239, selecionar uma área ao redor de um ponto focal para apresentação por meio do módulo de localização 243 e/ou determinar para adquirir uma imagem complementar como uma imagem secundária por meio do módulo da imagem complementar 245.

[0049] Em uma implementação de exemplo, a imagem secundária é uma imagem complementar selecionada a partir de uma base de dados de terceiros, em que a imagem complementar representa um elemento dos metadados. Por exemplo, os metadados para uma peça do conteúdo de televisão podem incluir uma lista dos elementos de elenco ou uma menção de um pequeno papel de celebridade em um episódio em particular, e o motor de focalização pode acessar uma biblioteca de terceiros de imagens da cabeça de celebridade para recuperar uma imagem secundária para um ator/atriz para representar o conteúdo digital. Por exemplo, um visualizador com uma forte afinidade na direção de uma celebridade pode reconhecer de forma rápida e fácil uma imagem do rosto da celebridade e ajuda a focar a atenção do visualizador no conteúdo digital. O menu pode apresentar as imagens secundárias para conteúdo digital disponível para o visualizador para navegar (por exemplo, navegar, rolar, clicar através, leve toque, etc.) através das imagens focalizadas, em que as subimagens de cada imagem são selecionadas com base na informação do visualizador para representar o conteúdo digital.

[0050] O módulo de realimentação 260 é configurado para prover informação de avaliação de volta para o POIDS 230 para refinar e melhorar a funcionalidade do POIDS 230. Por exemplo, o módulo de realimentação 260 pode reunir entrada de usuário para atualizar o interesse do usuário e/ou melhorar a seleção das imagens secundárias. O módulo de realimentação 260 pode coletar a informação de avaliação do usuário para mudar as imagens secundárias selecionadas para descrever um item de conteúdo durante o tempo.

[0051] A figura 3 ilustra um fluxograma 300 para gerar uma estrutura de dados de ponto de interesse de acordo com uma implementação de exemplo. O diagrama 300 pode incluir hardware (sistema de circuitos, lógica dedicada, etc.), software (tais como operações em um sistema de computador de uso geral ou uma máquina dedicada) ou uma combinação de ambos. O diagrama 300 representa os elementos e as combinações de elementos para uso com o motor de focalização 110 da figura 1 e 210 da figura 2.

[0052] No bloco 310, o dispositivo de processamento recebe os metadados para uma peça de conteúdo digital, em que os metadados incluem uma imagem primária e texto que é usado para descrever o conteúdo digital. Por exemplo, o conteúdo digital pode ser um espetáculo de televisão, um filme, um podcast, um evento esportivo, etc. No bloco 320, o dispositivo de processamento analisa a imagem primária para detectar um ou mais objetos.

[0053] No bloco 330, o dispositivo de processamento seleciona uma ou mais imagens secundárias com base em cada objeto detectado. Por exemplo, as uma ou mais imagens secundárias podem incluir um rosto de uma pessoa apresentado no conteúdo digital. O conteúdo digital é descrito pela imagem secundária preferida como parte de um menu para navegar uma biblioteca de conteúdo digital.

[0054] No bloco 340, o dispositivo de processamento determina um rótulo para cada imagem secundária com base pelo menos na informação de texto. Em uma implementação de exemplo, o dispositivo de processamento pode analisar a imagem para detectar um ou mais objetos com base em reconhecimento facial; e determinar o rótulo para cada imagem secundária com base na correspondência do reconhecimento facial com um nome na informação de texto dos metadados. Por exemplo, determinar o rótulo pode incluir calcular um escore de confiança para a relação de cada imagem secundária com uma parte do texto dos metadados e buscar uma biblioteca das imagens rotuladas com base no objeto detectado. Em um exemplo, as imagens secundárias podem ser ordenadas com base no tamanho do objeto na imagem secundária em vista dos outros objetos detectados da imagem, e a determinação do rótulo para cada imagem secundária é com base na associação de campos chaves na informação de texto com base na ordem das imagens secundárias.

[0055] No bloco 350, o dispositivo de processamento gera uma estrutura de dados para o conteúdo digital que inclui as uma ou mais imagens secundárias e rótulos, em que o conteúdo digital é descrito por uma imagem secundária preferida com base no rótulo associado com a imagem secundária preferida correspondente à informação do usuário.

[0056] Em uma implementação de exemplo, o dispositivo de processamento pode selecionar uma ou mais imagens secundárias para cada objeto detectado. O dispositivo de processamento pode identificar uma parte da imagem para cada objeto detectado e gerar a estrutura de dados pelo armazenamento da parte identificada para cada imagem secundária.

[0057] Em uma implementação de exemplo, o dispositivo de processamento pode selecionar uma ou mais imagens secundárias para cada objeto detectado. O dispositivo de processamento pode identificar um conjunto de coordenadas da imagem secundária da imagem para cada objeto detectado e gerar a estrutura de dados. A estrutura de dados inclui o conjunto de coordenadas da imagem secundária para cada imagem secundária. O dispositivo de processamento pode, em resposta à estrutura de dados que compreende um rótulo correspondente a uma preferência de usuário do conjunto de informação do usuário, buscar a imagem para a imagem secundária do rótulo com base no conjunto de coordenadas da imagem secundária, e apresentar uma parte da imagem com base no conjunto de coordenadas da imagem secundária para a imagem secundária do rótulo.

[0058] Em uma implementação de exemplo, o dispositivo de processamento pode receber uma solicitação para a peça de conteúdo digital e um conjunto de informação do usuário. Em resposta à estrutura de dados que inclui um rótulo correspondente a uma preferência de usuário do conjunto de informação do usuário, o dispositivo de processamento apresenta a imagem secundária para o rótulo como a imagem secundária preferida. À imagem secundária descreve o conteúdo digital, da forma discutida com detalhes adicionais em referência às figuras 5-8. Por exemplo, a informação do usuário pode incluir heurísticas ou rastreamento de atividade para determinar uma preferência de usuário.

[0059] A figura 4A ilustra um diagrama de blocos 400 para gerar as imagens focais de acordo com as implementações de exemplo. Em uma implementação de exemplo, os metadados 407 associados com uma peça de conteúdo digital são recebidos por um motor de focalização 410, por exemplo, a partir de uma fonte de conteúdo 405 ou um provedor de metadados. Os metadados 407 incluem uma imagem da arte do espetáculo comum 411 e uma sinopse 412 (por exemplo, elenco, personagens, resumo do enredo, etc.). A imagem da arte do espetáculo comum 411 pode ser em um formato de imagem (por exemplo, JPEG, JPG, PNG, EPS, PDF, PSD, AI, GIF, TIFF, BIT, etc.) e inclui uma imagem, trabalho artístico, logotipo, figura, etc. que representam a peça de conteúdo digital durante um estágio de seleção do conteúdo.

[0060] A imagem da arte do espetáculo comum 411 é tipicamente criada por um produtor, um criador, um profissional de marketing, etc. do conteúdo digital para persuadir os visualizadores a consumir o conteúdo digital. A imagem da arte do espetáculo comum 411 pode incluir imagens complexas, tal como uma colagem, com figuras de personagens, logotipos, monumentos, texto estilizado, efeitos visuais, etc., que exigem tempo para que os usuários processem e entendam um aspecto de qual assunto em questão (por exemplo, atores, gênero, tópicos, etc.) está na peça de conteúdo digital.

[0061] A sinopse 412 também pode ser criada por um produtor, um criador, um profissional de marketing, etc. do conteúdo digital para persuadir os visualizadores a consumir o conteúdo digital. A sinopse 412 pode ser texto ou ligações (por exemplo, localizadores de recurso uniformes) para recuperar o texto que descreve um ou mais aspectos do conteúdo digital. A sinopse 412 é tipicamente usada para habilitar os recursos de controle, tais como buscas com base em texto, controle parental, gravações agendadas, etc. Em implementações de exemplo, a sinopse 412 é usada com a imagem da arte do espetáculo comum 411 para determinar uma imagem secundária para representar a peça de conteúdo digital durante um estágio de seleção do conteúdo que corresponde à informação do usuário, da forma descrita com mais detalhes em referência às figuras 6-8.

[0062] Em 400, o processo para gerar as imagens focais é ilustrado usando um exemplo da imagem da arte do espetáculo comum 411 com uma figura de seis atores e atrizes ficando em uma fila na frente de um plano de fundo complexo de várias formas e cores (não mostradas) para representar o assunto em questão da peça de conteúdo digital.

[0063] Já que os usuários que navegam através de grandes bibliotecas de conteúdo podem não gastar o tempo para analisar cada um dos seis rostos, identificar as atrizes, os atores, os personagens, etc., e interpretar o gênero da peça de conteúdo digital, o motor de focalização 410 pode extrair múltiplos recursos da imagem da arte do espetáculo comum 411 para a representação alvo da peça de conteúdo digital. Por exemplo, um usuário pode tomar o tempo para analisar cada um dos primeiros três rostos começando da esquerda para a direita, determinar que os primeiros três rostos não são familiares, parar o processamento da imagem da arte do espetáculo comum 411 e prosseguir para uma outra peça de conteúdo digital. Quando o quinto rosto a partir da esquerda for o personagem favorito do usuário, a imagem da arte do espetáculo comum 411 falhou em representar efetivamente a peça de conteúdo digital para comunicar um aspecto do assunto em questão que é relevante para o usuário.

[0064] O motor de focalização 410 pode analisar a imagem da arte do espetáculo comum 411 para detectar múltiplos pontos de interesse na figura como potenciais imagens secundárias para representar a peça de conteúdo digital para melhorar a capacidade de o conteúdo da imagem da arte do espetáculo comum 411 comunicar um aspecto do assunto em questão que é relevante para o usuário em uma curta quantidade de tempo. Em uma implementação de exemplo, o motor de focalização 410 emprega um armazenamento de dados 403 para armazenar os múltiplos pontos de interesse como subimagens que serão recuperadas em resposta a um comando durante um processo de seleção do conteúdo. Por exemplo, o motor de focalização 410 pode detectar um recurso facial na imagem da arte do espetáculo comum 411, recortar a imagem da arte do espetáculo comum 411 para ser uma subimagem secundária 423A-423F armazenada no armazenamento de dados

403.

[0065] Em uma implementação de exemplo, o motor de focalização 410 gera uma estrutura de dados para armazenar as coordenadas da imagem para os pontos de interesse. Um conjunto de coordenadas da imagem para cada ponto de interesse na imagem da arte do espetáculo comum 411 pode localizar um ponto central ou de centralização para o ponto de interesse na imagem da arte do espetáculo comum 411. A estrutura de dados para a imagem da arte do espetáculo comum 411 associada com uma peça de conteúdo digital pode armazenar múltiplos conjuntos de coordenadas da imagem. As coordenadas da imagem da estrutura de dados podem ser providas para uso com a imagem da arte do espetáculo comum 411 para redimensionar a imagem da arte do espetáculo comum 411 (por exemplo, recortar, aproximar, borrar, etc.) para exibir os pontos de interesse sem armazenar uma subimagem intermediária. A estrutura de dados pode ser armazenada e distribuída assincronamente a partir da imagem da arte do espetáculo comum 411 para permitir a seleção posterior (por exemplo, um dispositivo cliente) de qual ponto de interesse exibir durante um processo de seleção do conteúdo.

[0066] As coordenadas da imagem para localizar um ponto central ou de centralização para o ponto de interesse podem ser usadas para redimensionar a imagem da arte do espetáculo comum 411 para exibir uma região ao redor do ponto central ou de centralização com base nas definições de dispositivo cliente (por exemplo, tamanho da tela, resolução, definições de cor, etc.) e/ou definições de menu (por exemplo, tamanho da seleção do menu principal, tamanho da seleção do submenu, tamanho do menu de detalhes de conteúdo, etc.), da forma discutida com mais detalhes em referência à figura

8.

[0067] A subimagem ou a estrutura de dados do ponto de interesse podem incluir um rótulo 427 A-427F para cada imagem secundária do ponto de interesse. A sinopse 412 é usada para rotular cada ponto de interesse usando um algoritmo que avalia o contexto na imagem da arte do espetáculo comum 411. Em uma implementação de exemplo, o motor de focalização 410 analisa o contexto na imagem da arte do espetáculo comum 411 usando detecção facial, reconhecimento facial, detecção de objeto, etc. para categorizar e/ou ranquear os múltiplos pontos de interesse, analisar sintaticamente a informação disponível da sinopse 412 para categorizar e/ou ranquear a informação de texto, determinar se a informação de texto corresponde com um ponto de interesse da imagem da arte do espetáculo comum 411, e atribuir o texto correspondente como um rótulo 427A-427F na imagem secundária 423A-423F.

[0068] No contexto de espetáculos de televisão e filmes, um ou mais atrizes e atores são tipicamente atribuídos com papeis principais e atrizes e atores adicionais são tipicamente atribuídos com papeis coadjuvantes. As atrizes principais são tipicamente retratadas como o maior elemento na imagem da arte do espetáculo comum 411 e os atores coadjuvantes podem aparecer menores que a atriz principal no plano de fundo.

[0069] No exemplo, o motor de focalização 410 pode detectar seis rostos na imagem da arte do espetáculo comum 411 como múltiplos pontos de interesse, categorizar e/ou ranquear os rostos com base no tamanho de cada rosto, analisar sintaticamente a informação disponível a partir da sinopse 412 para categorizar e/ou ranquear a lista de atrizes e atores com base na importância do papel ou na ordem listada na sinopse 412, determinar se a ordem listada na sinopse 412 corresponde com o ordenamento de tamanho dos rostos detectados ou do padrão de sequência na imagem da arte do espetáculo comum 411, e atribuir os correspondentes nomes de atriz ou ator como um rótulo 427 A-427F à imagem secundária 423A-423F.

[0070] No contexto de evento esportivo, um logotipo, uma camisa, um troféu de time, ou atleta apresentado colocados podem ser tipicamente colocados em uma certa ordem para comunicar o local do evento, um campeonato ou um atleta apresentado que corresponde à informação disponível a partir da sinopse 412 para categorizar a informação de texto que corresponde a cada ponto de interesse.

[0071] Em algumas implementações, o motor de focalização 410 pode empregar recursos externos para auxiliar com a rotulação das imagens secundárias 423A-423F. Por exemplo, o motor de focalização 410 pode realizar o reconhecimento facial usando uma biblioteca de fotografia da cabeças de celebridade para selecionar uma lista de atores e/ou atrizes candidatos para associar com uma imagem secundária, para verificar se um elemento da sinopse 412 corresponde à imagem secundária da imagem da arte do espetáculo comum 411 (por exemplo, uma imagem primária), ou calcular um escore de confiança para a correspondência entre o elemento da sinopse 412 que corresponde com a imagem secundária.

[0072] A figura 4B ilustra um fluxograma 440 para gerar as imagens focais de acordo com as implementações de exemplo. No bloco 450, o dispositivo de processamento recebe os metadados com a imagem da arte do espetáculo comum. No bloco 453, o dispositivo de processamento detecta um ponto de interesse para um rosto. Em resposta à detecção de um rosto na imagem da arte do espetáculo comum, no bloco 455, o dispositivo de processamento realiza o reconhecimento facial para determinar uma identidade do rosto detectado.

[0073] Se o reconhecimento facial no bloco 455 puder determinar a identidade do rosto detectado, o dispositivo de processamento atribui um rótulo com a identidade no bloco 457. Se o reconhecimento facial no bloco 455 for incapaz de determinar a identidade do rosto detectado, o dispositivo de processamento atribui um rótulo com base em uma associação com os metadados no bloco 470. Por exemplo, o maior rosto detectado pode ser associado com o personagem principal listado nos metadados. O personagem principal listado na sinopse também pode ser usado para localizar uma imagem complementar do personagem principal a partir de uma fonte de terceiros (por exemplo, uma biblioteca de imagem da cabeça de celebridade).

[0074] Os recursos da imagem complementar do personagem principal podem ser comparados com os recursos do rosto detectado para calcular um escore de confiança que indica se rotula-se o rosto detectado com o nome do personagem principal. O processo de busca para as imagens complementares com base na sinopse, comparação dos recursos da imagem complementar com uma subimagem detectada e cálculo de um escore de confiança com base na comparação pode ser repetido para múltiplas entradas na sinopse.

[0075] O processo 440 pode prosseguir para o bloco 475 para extrair um conjunto de coordenadas focais para o rosto detectado. Em uma implementação de exemplo, no bloco 480, uma estrutura de dados de POI que inclui as coordenadas focais para o rosto detectado e o rótulo pode ser armazenada com um identificador da imagem da arte do espetáculo comum. A estrutura de dados de POI pode ser armazenada e/ou transmitida para extrair eficientemente (por exemplo, recortar, redimensionar, aproximar, etc.) o POI da mesma imagem da arte do espetáculo durante um processo de apresentação, da forma descrita em referência à figura 6.

[0076] Em uma implementação de exemplo, no bloco 485, uma subimagem do POI (isto é, uma subimagem recortada) para o rosto detectado e o rótulo podem ser armazenados. A subimagem do POI armazenada pode ser recuperada e transmitida para apresentar eficientemente a imagem secundária do POI durante um processo de apresentação sem acessar a imagem primária (por exemplo, arte do espetáculo), da forma descrita em referência à figura 6.

[0077] Se um rosto não for detectado no bloco 453, o processo 440 em 465 pode detectar alternativamente um objeto como um ponto focal. Por exemplo, uma imagem primária (por exemplo, uma imagem da arte do espetáculo) que inclui um monumento, um logotipo, etc. detectáveis que podem ser atribuídos com um rótulo com base em uma associação com a sinopse em 470. Caso contrário, o processo 440 em 467 pode selecionar alternativamente uma região da imagem primária (por exemplo, a imagem da arte do espetáculo comum) ou uma imagem complementar provenientes de uma biblioteca como a imagem secundária.

[0078] O processo 440 pode prosseguir para armazenar o objeto ou a imagem complementar como uma estrutura de dados de POI no bloco 480 ou uma subimagem do POI no bloco 485. No bloco 490, os blocos 453-485 podem repetir para detectar os pontos de interesse adicionais na imagem da arte do espetáculo comum para descrever uma peça de conteúdo digital.

[0079] A figura 5 ilustra um fluxograma para um processo 500 de controle da interface de acordo com uma implementação de exemplo. No bloco 510, o dispositivo de processamento recebe uma solicitação por um conjunto de conteúdo digital e um identificador de usuário. No bloco 520, o dispositivo de processamento recebe a informação do usuário associada com o identificador de usuário e os metadados para descrever o conteúdo digital do conjunto de conteúdo digital, em que os metadados incluem pelo menos um de uma imagem primária e um texto para descrever cada item do conteúdo digital.

[0080] No bloco 530, o dispositivo de processamento determina se uma imagem secundária corresponde à informação do usuário para cada item do conteúdo digital, em que a imagem secundária é uma subimagem da imagem primária ou uma imagem complementar. No bloco 540, o dispositivo de processamento provê um menu com pelo menos uma imagem secundária para descrever item do conteúdo digital a partir do conjunto de conteúdo digital com base na informação do usuário.

[0081] As figuras 6A-C ilustram um processo de exemplo para apresentar uma interface focalizada (por exemplo, visor 640) de acordo com as implementações de exemplo. A figura 6A ilustra um processo de exemplo para uma interface focalizada (por exemplo, um menu de navegação de conteúdo) de acordo com uma implementação de exemplo. O motor de focalização 610 pode receber os metadados 607 com a imagem da arte do espetáculo comum 411 e uma sinopse 612 (por exemplo, elenco, personagens, resumo do enredo, etc.) associados com uma peça de conteúdo proveniente de uma fonte de conteúdo 605. O motor de focalização 610 pode incluir um armazenamento de dados 603 e prover as imagens secundárias 623A-623E para um visor 640 com base nos rótulos 627A-427E das imagens secundárias 623A-623E correspondentes à informação do usuário 609.

[0082] Os visualizadores têm dificuldade em navegar o grande e crescente número de opções para assistir o conteúdo em transmissão contínua, bem como conteúdo com base gravada e agendada (por exemplo, eventos difundidos, eventos ao vivo, etc.). Os usuários são sobrecarregados com a quantidade de informação provida e devem gastar tempo adicional revisando a informação a fim de identificar o conteúdo que é de interesse. Caso contrário, os usuários podem ler o texto sobre o conteúdo de vídeo para aprender sobre os atores, enredos, gênero, etc. A informação do usuário pode ser determinada com base em hábitos de visualização do usuário, informação de local, etc. Já que cada peça de conteúdo digital tem múltiplas facetas a fim de obter uma conexão com um visualizador em potencial, os métodos e os sistemas aqui descritos identificam uma das facetas que, provavelmente, apelam para o visualizador a fim de comunicar eficientemente o aspecto da peça de conteúdo digital com mais apelo. O motor de focalização 610 provê uma nova experiência de usuário com as imagens secundárias que são selecionadas com base na informação ou nas predileções do usuário.

[0083] Em uma implementação de exemplo, um dispositivo de rede (por exemplo, um motor de focalização 610) pode gerar uma biblioteca de subimagens para substituir uma imagem mestre (por exemplo, uma imagem primária) na solicitação da resposta. A informação de menu é, no geral, provida para os dispositivos clientes a partir de um provedor anterior. Tipicamente, o dispositivo cliente transfere uma coletânea de dados do menu que compreende uma imagem mestre e metadados em relação ao conteúdo disponível. O dispositivo cliente provê um menu de navegação de conteúdo (por exemplo, interface focalizada) com um conjunto de opções proveniente dos dados do menu para que os visualizadores selecionem uma peça de conteúdo disponível.

[0084] Em uma implementação de exemplo, o dispositivo cliente pode incluir lógica (por exemplo, o motor de focalização 610) para o processamento de imagens mestres a fim de selecionar uma subimagem. Em algumas implementações de exemplo, o dispositivo cliente pode receber as coordenadas para selecionar as imagens secundárias, e processar uma imagem mestre usando o conjunto de coordenadas para gerar uma exibição das imagens secundárias. Em algumas implementações de exemplo, um servidor da rede realiza o processamento de imagem secundária antes da distribuição para os dispositivos clientes. O servidor da rede que realiza o processamento de imagem secundária melhora o uso da largura de banda dos recursos de rede pela redução do tamanho dos arquivos de imagem que são distribuídos para os dispositivos clientes. A geração de uma estrutura de dados das coordenadas para as imagens secundárias pode ser distribuída para o dispositivo cliente. O dispositivo cliente pode receber a imagem mestre a partir de um provedor de terceiros e empregar as coordenadas da imagem secundária para apresentar uma exibição customizada das imagens do espetáculo com base na preferência de um usuário.

[0085] O motor de focalização 610 provê a funcionalidade para selecionar as imagens secundárias usando reconhecimento facial e detecção de objeto. Em algumas implementações de exemplo, uma imagem secundária pode ser um conjunto de coordenadas da imagem para aproximação ou redimensionamento de uma imagem mestre. À exibição customizada das imagens secundárias inclui os rostos detectados ou os objetos que satisfazem a preferência de usuário. Pela provisão de partes das imagens mestres, os visualizadores podem navegar mais rapidamente as múltiplas imagens em virtude de o motor de focalização 610 selecionar a informação mais relevante a partir de cada imagem mestre para auxiliar na seleção do usuário.

[0086] Em algumas implementações de exemplo, uma imagem do espetáculo pode ser uma imagem mestre redimensionada com base em um ponto de interesse ou substituída com uma imagem recortada de uma imagem mestre. O motor de focalização 610 pode empregar um processo de detecção facial para inventariar múltiplos rostos. Em algumas implementações de exemplo, o motor de focalização 610 acessa uma base de dados complementar a fim de corresponder as imagens de detecção facial com metadados adicionais em relação ao assunto da imagem. Daí, as imagens da arte do espetáculo para o conteúdo digital, no geral, incluem atores e atrizes ou monumentos ou imagens comumente reconhecidas, tais como logotipos. À base de dados complementar pode incluir uma biblioteca ou um inventário de metadados para os assuntos de imagem populares.

[0087] As imagens mestres podem ter diferentes níveis de qualidade da imagem. A qualidade de uma imagem secundária é relacionada ao nível da qualidade de imagem da imagem mestre. O motor de focalização 610 pode validar adicionalmente a imagem secundária usando um teste de qualidade da imagem para garantir que a imagem secundária seja de qualidade suficiente para ser exibida.

[0088] O visor 640 pode incluir um menu de navegação de conteúdo para descrever sete peças de conteúdo digital diferentes em painéis diferentes 641-647. No exemplo, um painel 642 do menu de navegação de conteúdo pode descrever uma peça de conteúdo digital (por exemplo, Marvel: Agentes da S.H.LE.L.) usando imagens secundárias diferentes 623A-F. O menu de navegação de conteúdo pode selecionar qual das imagens secundárias diferentes 623A-F apresentar no painel 642 com base na informação do usuário. As imagens exibidas nos painéis 641, 643, 644, 645, 646, 647 também podem ser selecionadas para descrever as outras peças de conteúdo digital com base na informação do usuário. Por exemplo, no painel 645, um logotipo que corresponde com a informação do usuário pode ser selecionado como a imagem secundária para descrever um evento esportivo. Em outros exemplos, a imagem secundária para cada painel pode ser selecionada com base na popularidade, na qualidade da imagem, na região do visualizador, no tipo de conteúdo digital, etc.

[0089] O menu de navegação de conteúdo é desenhado para ampliar a imagem secundária para caber em um painel de menu. Em resposta à imagem secundária que falhar no teste de qualidade, o motor de focalização 610 pode buscar bases de dados de terceiros para as imagens alternativas associadas com o assunto da imagem secundária.

[0090] A figura 6B ilustra um processo de exemplo para uma interface focalizada para exibir 640 de acordo com uma implementação de exemplo. Em uma implementação de exemplo, o visor 640 pode incluir múltiplos painéis 641-647 para apresentar imagens associadas com as peças de conteúdo digital diferentes descritas por imagens primárias diferentes 611, 629, 650, 660. Cada painel provê uma imagem mestre ou uma imagem primária 611, 650, 660 e o motor de focalização 610 determina uma imagem secundária 623F, 653A, 653B, 663A-D para cada imagem primária 611, 650,

660.

[0091] Por exemplo, um visor 640 para um menu de conteúdo esportivo disponível pode prover as imagens para cada evento em cada painel 641-647. Cada imagem pode incluir um atleta apresentado, um monumento associado com o local do evento, um logotipo para um dos times, um objeto da imagem primária, tais como um troféu ou logotipo da liga, etc., que corresponde ao evento para o painel. Adicionalmente, o motor de focalização 610 pode selecionar a informação relevante a partir dos metadados para ser sobreposta em cada imagem do visor. Por exemplo, um menu de conteúdo esportivo disponível pode incluir ícones que indicam se o evento esportivo é gravado, ao vivo ou agendado. O conteúdo sobreposto pode incluir texto extraído a partir dos metadados (por exemplo, um título de filme).

[0092] A figura 6C representa exemplos das interfaces focalizadas 680-690 de acordo com as implementações de exemplo. As interfaces focalizadas 680, 685, 690 são menus com base em imagem que descrevem peças de conteúdo digital usando as imagens secundárias que correspondem à informação do usuário em vez de uma imagem da arte do espetáculo comum selecionada por um provedor ou produtor de conteúdo.

[0093] Em um exemplo, a interface focalizada 680 inclui uma imagem secundária 684 com base em um rosto detectado 682 ou 683 em uma imagem primária 681 (por exemplo, uma imagem da arte do espetáculo comum). A imagem primária 681 pode incluir múltiplos rostos 682, 683 como pontos de interesse e selecionar um ponto de interesse que corresponde com a informação do usuário. Por exemplo, se a informação do usuário indicar que o usuário assiste mais conteúdo de Dwayne Johnson do que conteúdo de Vin Diesel, o rosto detectado 682 de Dwayne Johnson pode ser selecionado como a imagem secundária 684 para apresentar para o usuário. À identidade do rosto detectado 682 pode ser determinada como Dwayne Johnson com base nos metadados da imagem da arte do espetáculo comum (por exemplo, a imagem primária 681) ou em técnicas de reconhecimento facial. A imagem primária 681 pode ser redimensionada para apresentar o rosto detectado 682 para a apresentação como a imagem secundária 682 em um menu de seleção do conteúdo (por exemplo, a interface focalizada 680).

[0094] Em um outro exemplo, a interface focalizada 685 inclui uma imagem secundária 687 proveniente de um perfil detectado de uma silhueta em uma imagem primária 686. A imagem primária 686 é redimensionada como uma imagem secundária 687 para a apresentação para focar no objeto em um menu de seleção do conteúdo (por exemplo, a interface focalizada 685).

[0095] Em um outro exemplo, a interface focalizada 690 ilustra um menu de seleção do conteúdo para múltiplas peças de conteúdo digital com um assunto em questão comum (por exemplo, um ator comum). Por exemplo, em resposta a uma consulta ou um termo de busca (por exemplo, o nome de um ator), as interfaces focalizadas 690 podem apresentar os resultados de busca com peças de conteúdo digital diferentes pela exibição das imagens secundárias que incluem o termo de busca ou o ator a partir da imagem primária ou de uma base de dados da imagem complementar. As interfaces focalizadas 690 apresentam um grupo de imagens secundárias para as peças de conteúdo digital diferentes, em que cada imagem secundária corresponde ao assunto em questão comum (por exemplo, um tema do menu, uma consulta de busca, etc.) para as múltiplas peças de conteúdo digital. Na interface focalizada 690, o assunto em questão comum (por exemplo, um tópico de tendência, uma preferência de usuário, uma definição de menu, uma entrada de busca, etc.) inclui um ator apresentado em cada peça de conteúdo digital que pode ter sido um ator coadjuvante e a imagem secundária pode ser recuperada a partir de uma base de dados complementar. Em uma implementação de exemplo, um menu que descreve peças de conteúdo diferentes pode ser configurado para selecionar localizar as peças de conteúdo digital diferentes com base em uma imagem secundária preferida selecionada para uma primeira peça de conteúdo digital, e descrever a peça de conteúdo digital diferente com imagens secundárias para cada peça de conteúdo digital com base em uma imagem secundária preferida para a primeira peça de conteúdo digital. Por exemplo, uma primeira peça de conteúdo digital pode mostrar uma imagem secundária preferida de um ator (por exemplo, um rótulo) e um comando (por exemplo, mostre-me mais) pode encontrar outras peças de conteúdo digital que incluem uma imagem secundária ou metadados correspondentes ao rótulo (por exemplo, ator). O menu de outras peças de conteúdo digital pode incluir uma imagem secundária para descrever cada peça de conteúdo digital que corresponde ao ator da primeira peça de conteúdo digital. Assim, o menu apresenta um tema de conteúdo digital diferente do que é descrito pelas imagens secundárias com um objeto, rótulo, pessoa, time, etc. comuns.

[0096] As figuras 7A-F ilustram as interfaces individualizadas de exemplo de acordo com as implementações de exemplo. As interfaces individualizadas nas figuras 7A-F ilustram as imagens secundárias diferentes 7T23A-723F selecionadas como parte de uma interface individualizada com base na informação do usuário. As figuras 7A-F incluem um menu de navegação de conteúdo 740A-F que descreve sete peças de conteúdo diferentes. Em cada menu de navegação de conteúdo 740A-F, a imagem secundária 723 é selecionada com base na informação do usuário. Por exemplo, o menu de navegação de conteúdo 740A inclui uma imagem secundária 723A selecionada com base na informação do usuário de um primeiro usuário. O menu de navegação de conteúdo 740B inclui uma imagem secundária 723B selecionada com base na informação do usuário de um segundo usuário. As imagens secundárias diferentes 723A-F são subimagens de uma imagem primária (por exemplo, a imagem da arte do espetáculo comum 411 da figura 4) que, cada qual, descrevem a mesma peça de conteúdo digital (por exemplo, Marvel: Agentes da S.H.LE.L.D.). Uma imagem secundária diferente 723A-F pode ser selecionada para cada usuário com base na informação de usuário do usuário (por exemplo, histórico de visualização, demografia, etc.). Neste exemplo, o menu de navegação de conteúdo 740A-F descreve as outras seis peças de conteúdo diferentes usando uma imagem secundária comum (por exemplo, um boneco de Lego, Lincoln, um logotipo, etc.).

[0097] Por exemplo, as figuras 7A podem ser um menu de navegação de conteúdo, em que 723A descreve uma peça de conteúdo digital. As figuras T7A-F podem ser interfaces para diferentes usuários para navegar uma coletânea de conteúdo digital. Cada usuário pode receber imagens secundárias diferentes 623A-623E da arte do espetáculo associadas com uma peça de conteúdo digital em resposta a um rótulo de uma das imagens secundárias 623A-623E correspondentes à informação do usuário para um visualizador.

[0098] As figuras 8A-C ilustram as opções de controle da interface do exemplo de acordo com as implementações de exemplo para o controle de uma interface individualizada. A figura 8A ilustra uma interface individualizada 810 para a seleção do conteúdo com um menu de detalhes de item com uma imagem secundária. A figura 8B ilustra interfaces individualizadas 820 para uma peça de conteúdo digital diferente usando imagens secundárias para a seleção do conteúdo. A figura 8C representa as interfaces de seleção do conteúdo de exemplo 830-860 usando o motor de focalização.

[0099] A figura 9 ilustra um ambiente de computação do servidor de exemplo com um dispositivo computador de exemplo adequado para uso em implementações de exemplo. O dispositivo de computação 905 no ambiente de computação 900 pode incluir uma ou mais unidades de processamento, núcleos ou processadores 910, memória 915 (por exemplo, RAM, ROM e/ou congêneres), armazenamento interno 920 (por exemplo, armazenamento magnético, óptico, em estado sólido e/ou orgânico) e/ou interface de 1/O 925, qualquer um dos quais pode ser acoplado em um mecanismo ou barramento 930 de comunicação para comunicação da informação ou embutido no dispositivo de computação 905.

[00100] O dispositivo de computação 905 no qual um conjunto de instruções, para fazer com que a máquina realize qualquer uma ou mais das metodologias aqui discutidas, pode ser executado. Em implementações alternativas, a máquina pode ser conectada (por exemplo, em rede) em outras máquinas em uma rede de área local (LAN), uma intranet, uma extranet ou a Internet. A máquina pode operar na capacidade de um servidor ou uma máquina cliente em um ambiente de rede cliente-servidor, ou como uma máquina par em um ambiente de rede ponto a ponto (ou distribuído). À máquina pode ser um computador pessoal (PC), um computador tipo tablet, um codificador/decodificador integrado (STB), um Assistente Pessoal Digital (PDA), um telefone celular, um aplicativo da Internet, um servidor, um roteador, comutador ou ponte de rede, ou qualquer máquina capaz de executar um conjunto de instruções (sequencial ou de outra forma) que especifica ações que serão tomadas por esta máquina. Adicionalmente, embora apenas uma única máquina seja ilustrada, o termo “máquina” também deve ser tomado para incluir qualquer coletânea de máquinas (por exemplo, computadores) que executam individualmente ou em conjunto um conjunto (ou múltiplos conjuntos) de instruções para realizar qualquer uma ou mais das metodologias aqui discutidas.

[00101] O dispositivo de computação 905 pode ser comunicativamente acoplado na interface de entrada/usuário 935 e no dispositivo/interface de saída 940. Cada um ou ambos da interface de entrada/usuário 935 e do dispositivo/interface de saída 940 pode ser uma interface com fios ou sem fio e pode ser desanexável. A interface de entrada/usuário 935 pode incluir quaisquer dispositivo, componente, sensor ou interface, físicos ou virtuais, que podem ser usados para prover entrada (por exemplo, botões, interface da tela sensível ao toque, teclado, um controle de apontamento/cursor, microfone, câmera, dispositivo em braile, sensor de movimento, leitor óptico e/ou congêneres).

[00102] O dispositivo/interface de saída 940 pode incluir um visor, uma televisão, um monitor, uma impressora, um alto-falante, dispositivo em braile ou congêneres. Em algumas implementações de exemplo, a interface de entrada/usuário 935 e o dispositivo/interface de saída 940 podem ser embutidos com o ou fisicamente acoplados no dispositivo de computação

905. Em outras implementações de exemplo, outros dispositivos de computação podem funcionar como ou prover as funções da interface de entrada/usuário 935 e do dispositivo/interface de saída 940 para um dispositivo de computação 905.

[00103] Os exemplos do dispositivo de computação 905 podem incluir, mas sem limitações, dispositivos altamente móveis (por exemplo, telefones inteligentes, dispositivos em veículos e outras máquinas, dispositivos conduzidos por humanos e animais e congêneres), dispositivos móveis (por exemplo, tablets, notebooks, codificadores/decodificadores integrados, laptops, computadores pessoais, televisões portáteis, rádios e congêneres), e dispositivos não desenhados para mobilidade (por exemplo, computadores de mesa, outros computadores, quiosques de informação, televisões com um ou mais processadores embutidos nas mesmas e/ou acoplados nas mesmas, rádios e congêneres).

[00104] O dispositivo de computação 905 pode ser comunicativamente acoplado (por exemplo, por meio da interface de 1/O 925) no armazenamento externo 945 e na rede 950 para comunicação com qualquer número de componentes, dispositivos e sistemas em rede, incluindo um ou mais dispositivos de computação da mesma ou diferente configuração. O dispositivo de computação 905 ou qualquer dispositivo de computação conectado pode estar funcionando como, provendo serviços de, ou ser referido como um servidor, cliente, servidor de pequeno porte, máquina geral, máquina de propósito especial, ou um outro rótulo.

[00105] A interface de 1/(O 925 pode incluir componentes de comunicação sem fio (não mostrados) que facilitam a comunicação sem fio através de uma rede de voz e/ou de dados. Os componentes de comunicação sem fio podem incluir um sistema de antenas com uma ou mais antenas, um sistema de rádio, um sistema de banda base, ou qualquer combinação dos mesmos. Os sinais de radiofrequência (RF) podem ser transmitidos e recebidos no ar pelo sistema de antenas sob o gerenciamento do sistema de rádio.

[00106] A interface I/O 925 pode incluir, mas sem limitações, as interfaces com fios e/ou sem fio que usam quaisquer protocolos ou padrões de comunicação ou 1/O (por exemplo, Ethernet, 802.11x, Barramento Serial Universal, WiMax, modem, um protocolo de rede celular e congêneres) para comunicação da informação para e/ou a partir de pelo menos todos os componentes, dispositivos e rede conectados no ambiente de computação 900. A rede 950 pode ser qualquer rede ou combinação de redes (por exemplo, a Internet, a rede de área local, a rede de área ampla, uma rede telefônica, uma rede celular, uma rede de satélites e congêneres).

[00107] O dispositivo de computação 905 pode usar e/ou comunicar usando mídia usável em computador ou legível por computador, incluindo uma mídia transitória e uma mídia não transitória. A mídia transitória inclui a mídia de transmissão (por exemplo, cabos de metal, fibra óptica), sinais, ondas portadoras e congêneres. À mídia não transitória inclui mídia magnética (por exemplo, discos e fitas), mídia óptica (por exemplo, CD ROM, discos de vídeo digital, discos Blu-ray), mídia em estado sólido (por exemplo, RAM, ROM, memória flash, armazenamento em estado sólido), e outros armazenamentos ou memória não voláteis.

[00108] O dispositivo de computação 905 pode ser usado para implementar técnicas, métodos, aplicações, processos ou instruções executáveis por computador em alguns ambientes de computação de exemplo. As instruções executáveis por computador podem ser recuperadas a partir da mídia transitória, e armazenadas na e recuperadas a partir da mídia não transitória. As instruções executáveis podem originar a partir de um ou mais de quaisquer programação, definição de script e linguagens de máquina (por exemplo, C, C++, Ct, Java, Visual Basic, Python, Perl, JavaScript, e ainda outros).

[00109] O(s) processador(es) 910 pode(m) executar em qualquer sistema operacional (OS) (não mostrado), em um ambiente nativo ou virtual. Podem ser implementadas uma ou mais aplicações que incluem uma unidade lógica 955, uma unidade de interface de programação de aplicação (APL) 960, uma unidade de entrada 965, uma unidade de saída 970, um motor de focalização 975, um módulo apresentador 980 e/ou um módulo de reconhecimento 985. Por exemplo, a unidade de entrada 965, o motor de focalização 975, o módulo apresentador 980 e/ou o módulo de reconhecimento 985 podem implementar um ou mais processos mostrados nas figuras 2-8. As unidades e os elementos descritos podem ser variados em desenho, função, configuração ou implementação, e não são limitados às descrições providas.

[00110] Em algumas implementações de exemplo, quando a informação ou uma instrução de execução forem recebidas pela unidade de API 960, a mesma pode ser comunicada para uma ou mais outras unidades (por exemplo, unidade lógica 955, unidade de saída 970, unidade de entrada 965, motor de focalização 975, módulo apresentador 980 e/ou módulo de reconhecimento 985).

[00111] A unidade de entrada 965 pode, por meio da unidade de API 960, receber imagens, metadados, dados de vídeo, dados de áudio, informação do usuário, etc. para gerenciar os pontos de interesse, por meio do motor de focalização 975, do módulo apresentador 980 e/ou do módulo de reconhecimento 985. Usando a unidade de API 960, o módulo de reconhecimento 985 pode analisar a informação para determinar um ou mais pontos de interesse no conteúdo digital.

[00112] Em algumas instâncias, a unidade lógica 955 pode ser configurada para controlar o fluxo de informação entre as unidades e direcionar os serviços providos pela unidade de API 960, pela unidade de entrada 965, pela unidade de saída 970, pelo motor de focalização 975, pelo módulo apresentador 980 e/ou pelo módulo de reconhecimento 985 em algumas implementações de exemplo supradescritas. Por exemplo, o fluxo de um ou mais processos ou implementações pode ser controlado pela unidade lógica 955 sozinha ou em conjunto com a unidade de API 960.

[00113] Algumas partes da descrição detalhada são apresentadas em termos de algoritmos e representações simbólicas das operações em um computador. Estas descrições algorítmicas e representações simbólicas são o meio usado pelos versados na técnica das tecnologias de processamento de dados para conduzir a essência de suas inovações a outros versados na técnica. Um algoritmo é uma série de operações definidas que leva a um estado ou resultado finais desejados. Em implementações de exemplo, as operações realizadas exigem manipulações físicas de quantidades tangíveis para alcançar um resultado tangível.

[00114] A menos que especificamente declarado de outra forma, como fica aparente a partir da discussão, percebe-se que, por toda a descrição, as discussões que utilizam os termos, tais como “receber”, “detectar”, “determinar”, “identificar”, “analisar”, “gerar” ou congêneres, podem incluir as ações e os processos de um sistema de computador ou outro dispositivo de processamento de informação que manipula e transforma os dados representados como quantidades físicas (eletrônicas) nos registros e memórias do sistema de computador em outros dados similarmente representados como quantidades físicas nas memórias ou registros do sistema de computador ou outros dispositivos de armazenamento, transmissão ou exibição de informação.

[00115] As implementações de exemplo também pode se referir a um aparelho para realizar as operações aqui expostas. Este aparelho pode ser especialmente construído para os propósitos exigidos, ou o mesmo pode incluir um ou mais computadores de propósito geral seletivamente ativados ou reconfigurados por um ou mais programas de computador. Tais programas de computador podem ser armazenados em uma mídia legível por computador, tais como uma mídia de armazenamento legível por computador ou uma mídia de sinal legível por computador.

[00116] Uma mídia de armazenamento legível por computador pode envolver mídias tangíveis, tais como, mas sem limitações, discos ópticos, discos magnéticos, memórias exclusivas de leitura, memórias de acesso aleatório, dispositivos e unidades em estado sólido, ou quaisquer outros tipos de mídia tangível ou não transitória adequada para armazenar a informação eletrônica. Uma mídia de sinal legível por computador pode incluir mídias, tais como ondas portadoras. Os algoritmos e as exibições aqui apresentados não são inerentemente relacionados a nenhum computador ou outro aparelho em particular. Os programas de computador podem envolver implementações de software puro que envolvem as instruções que realizam as operações da implementação desejada.

[00117] Vários sistemas de propósito geral podem ser usados com programas e módulos de acordo com os exemplos aqui expostos, ou os mesmos podem se provar convenientes para construir um aparelho mais especializado para realizar as operações do método desejado. Além do mais, as implementações de exemplo não são descritas em relação a nenhuma linguagem de programação em particular. Será percebido que uma variedade de linguagens de programação podem ser usadas para implementar os preceitos das implementações de exemplo, da forma aqui descrita. As instruções da(s) linguagem(ns) de programação podem ser executadas por um ou mais dispositivos de processamento, por exemplo, unidades de processamento central (CPUs), processadores ou controladores.

[00118] Como é conhecido na tecnologia, as operações supradescritas podem ser realizadas por hardware, software ou alguma combinação de software e hardware. Vários aspectos das implementações de exemplo podem ser implementados usando circuitos e dispositivos lógicos (hardware), ao mesmo tempo em que outros aspectos podem ser implementados usando as instruções armazenadas em uma mídia legível por máquina (software), que, se executadas por um processador, farão com que o processador realize um método para realizar as implementações do presente pedido.

[00119] Adicionalmente, algumas implementações de exemplo do presente pedido podem ser realizadas exclusivamente em hardware, enquanto que outras implementações de exemplo podem ser realizadas exclusivamente em software. Além do mais, as várias funções descritas podem ser realizadas em uma única unidade, ou podem ser espalhadas através de inúmeros componentes em qualquer número de maneiras. Quando realizados por software, os métodos podem ser executados por um processador, tal como um computador de uso geral, com base nas instruções armazenadas em uma mídia legível por computador. Se desejado, as instruções podem ser armazenadas na mídia em um formato comprimido e/ou encriptado.

[00120] As implementações de exemplo podem ter várias diferenças e vantagens em relação à tecnologia relacionada. Por exemplo, mas não a título de limitação, em oposição à instrumentação de páginas da Internet com JavaScript, da forma explicada anteriormente em relação à tecnologia relacionada, ações de texto e mouse (por exemplo, apontamento) podem ser detectadas e analisadas em documentos em vídeo.

[00121] Além do mais, outras implementações do presente pedido serão aparentes aos versados na técnica a partir da consideração da especificação e da prática dos preceitos do presente pedido. Vários aspectos e/ou componentes das implementações de exemplo descritas podem ser usados individualmente ou em qualquer combinação. Pretende-se que a especificação e as implementações de exemplo sejam consideradas como exemplos apenas, com os verdadeiros escopo e espírito do presente pedido sendo indicados pelas seguintes reivindicações.

Claims

REIVINDICAÇÕES

1. Método, caracterizado pelo fato de que compreende: receber os metadados para uma peça de conteúdo digital, em que os metadados compreendem uma imagem primária e texto que é usado para descrever a peça de conteúdo digital; analisar a imagem primária para detectar um ou mais objetos; selecionar uma ou mais imagens secundárias correspondentes a cada objeto detectado; e gerar uma estrutura de dados para a peça de conteúdo digital que compreende as uma ou mais imagens secundárias, em que, em resposta a uma solicitação de usuário, a peça de conteúdo digital deve ser descrita por uma imagem secundária preferida.

2. Método de acordo com a reivindicação 1, caracterizado pelo fato de que a imagem secundária preferida deve ser determinada com base em pelo menos uma preferência de usuário.

3. Método de acordo com a reivindicação 1, caracterizado pelo fato de que compreende adicionalmente: determinar um rótulo para cada imagem secundária com base pelo menos na informação de texto, em que a estrutura de dados inclui os rótulos, em que a imagem secundária preferida deve ser determinada com base pelo menos no rótulo associado com a imagem secundária preferida e uma preferência de usuário.

4. Método de acordo com a reivindicação 3, caracterizado pelo fato de que compreende adicionalmente: receber uma solicitação para descrever a peça de conteúdo digital; receber um conjunto de informação do usuário; em resposta à estrutura de dados que compreende um rótulo correspondente a uma preferência de usuário do conjunto de informação do usuário, apresentar a imagem secundária para o rótulo como a imagem secundária preferida para descrever a peça de conteúdo digital.

5. Método de acordo com a reivindicação 1, caracterizado pelo fato de que a seleção de uma ou mais imagens secundárias para cada objeto detectado compreende identificar um conjunto de coordenadas da imagem secundária da imagem para cada objeto detectado; e em que a estrutura de dados armazena o conjunto de coordenadas da imagem secundária para cada imagem secundária.

6. Método de acordo com a reivindicação 3, caracterizado pelo fato de que compreende adicionalmente: receber uma solicitação para descrever a peça de conteúdo digital; receber um conjunto de informação do usuário; em resposta à estrutura de dados que compreende um rótulo correspondente a uma preferência de usuário do conjunto de informação do usuário, buscar a imagem pela imagem secundária do rótulo com base no conjunto de coordenadas da imagem secundária; apresentar uma parte da imagem com base no conjunto de coordenadas da imagem secundária para a imagem secundária do rótulo.

7. Método de acordo com a reivindicação 1, caracterizado pelo fato de que selecionar uma ou mais imagens secundárias para cada objeto detectado compreende identificar uma parte da imagem para cada objeto detectado; e em que gerar a estrutura de dados compreende armazenar a parte identificada para cada imagem secundária.

8. Método de acordo com a reivindicação 3, caracterizado pelo fato de que a análise da imagem para detectar um ou mais objetos é com base em reconhecimento facial; e em que a determinação do rótulo para cada imagem secundária é com base na correspondência do reconhecimento facial com um nome na informação de texto dos metadados.

9. Método de acordo com a reivindicação 3, caracterizado pelo fato de que determinar o rótulo compreende calcular um escore de confiança para a relação de cada imagem secundária com uma parte do texto proveniente dos metadados.

10. Método de acordo com a reivindicação 1, caracterizado pelo fato de que as imagens secundárias são ordenadas com base no tamanho do objeto na imagem secundária em vista dos outros objetos detectados a partir da imagem primária.

11. Método de acordo com a reivindicação 1, caracterizado pelo fato de que o conteúdo digital é pelo menos um de um espetáculo de televisão, um filme, um podcast, um evento esportivo, as uma ou mais imagens secundárias incluem um rosto de uma pessoa apresentado no conteúdo digital; e o conteúdo digital é descrito pela imagem secundária preferida como parte de um menu para navegar uma biblioteca de conteúdo digital.

12. Método de acordo com a reivindicação 1, caracterizado pelo fato de que a informação do usuário compreende heurísticas para determinar uma preferência de usuário.

13. Sistema, caracterizado pelo fato de que compreende: uma memória; um processador acoplado na memória que compreende instruções que, quando executadas, fazem com que o processador: receba uma solicitação para descrever uma peça de conteúdo digital; receba um conjunto de informação do usuário;

receba os metadados para a peça de conteúdo digital, em que os metadados compreendem uma imagem e texto que descreve o conteúdo digital; analise a imagem para detectar um ou mais objetos; selecione uma ou mais imagens secundárias correspondentes a cada objeto detectado; e em resposta a uma solicitação de usuário, apresente uma imagem secundária preferida a ser determinada com base pelo menos em uma preferência de usuário do conjunto de informação do usuário para descrever o conteúdo digital.

14. Sistema de acordo com a reivindicação 13, caracterizado pelo fato de que a imagem secundária preferida é determinada com base em pelo menos uma heurística de usuário.

15. Sistema de acordo com a reivindicação 13, caracterizado pelo fato de que o processador é adicionalmente configurado para: determinar um rótulo para cada imagem secundária com base pelo menos na informação de texto, em que a estrutura de dados inclui os rótulos, em que a imagem secundária preferida é determinada com base pelo menos no rótulo associado com a imagem secundária preferida de uma preferência de usuário.

16. Sistema de acordo com a reivindicação 13, caracterizado pelo fato de que selecionar as uma ou mais imagens secundárias para cada objeto detectado compreende identificar uma parte da imagem para cada objeto detectado; e em que gerar a estrutura de dados compreende armazenar a parte identificada para cada imagem secundária.

17. Sistema de acordo com a reivindicação 15, caracterizado pelo fato de que analisar a imagem para detectar um ou mais objetos é com base em reconhecimento facial; e em que determinar o rótulo para cada imagem secundária é com base na correspondência do reconhecimento facial com um nome na informação de texto dos metadados.

18. Mídia legível por computador não transitória, caracterizada pelo fato de que compreende instruções que, quando executadas por um processador, as instruções para: receber os metadados para uma peça de conteúdo digital, em que os metadados compreendem uma imagem primária e texto que é usado para descrever o conteúdo digital; analisar a imagem primária para detectar um ou mais objetos; selecionar uma ou mais imagens secundárias correspondentes a cada objeto detectado; e gerar uma estrutura de dados para o conteúdo digital que compreende as uma ou mais imagens secundárias, em que, em resposta a uma solicitação de usuário, o conteúdo digital deve ser descrito por uma imagem secundária preferida correspondente à informação do usuário.

19. Mídia legível por computador não transitória de acordo com a reivindicação 18, caracterizada pelo fato de que as instruções são adicionalmente para: selecionar uma ou mais imagens secundárias para cada objeto detectado que compreende identificar um conjunto de coordenadas da imagem secundária da imagem para cada objeto detectado; e gerar a estrutura de dados que compreende o conjunto de coordenadas da imagem secundária para cada imagem secundária.

20. Mídia legível por computador não transitória de acordo com a reivindicação 18, caracterizada pelo fato de que a imagem secundária preferida deve ser determinada com base em pelo menos uma preferência de usuário.