BR112017009528B1

BR112017009528B1 - Aparelho e método para decodificar um sinal de vídeo de hdr integrado a partir de um ou mais sinais da fonte, aparelho para codificar um sinal de vídeo, e método de decodificação de um sinal de vídeo

Info

Publication number: BR112017009528B1
Application number: BR112017009528-9A
Authority: BR
Inventors: Wiebe De Haan; Leon Maria Van De Kerkhof
Original assignee: Koninklijke Philips N.V.
Priority date: 2014-11-10
Filing date: 2015-11-04
Publication date: 2024-07-30

Abstract

APARELHO E MÉTODO PARA DECODIFICAR UM SINAL DE VÍDEO DE HDR INTEGRADO A PARTIR DE UM OU MAIS SINAIS DA FONTE, APARELHO PARA CODIFICAR UM SINAL DE VÍDEO, E MÉTODO DE DECODIFICAÇÃO DE UM SINAL DE VÍDEO. A presente invenção revela que, em um sistema de processamento de vídeo, como, por exemplo, um conversor ou um player de BD, em que um vídeo integrador pode ser integrado a uma ou mais sobreposições, uma indicação de pixel de vídeo/sobreposição (A) é codificada em um ou mais dos bits menos significativos de um ou mais dos componentes de cor no sinal de vídeo. O sinal de vídeo é transmitido ao longo da interface entre VPS e a tela. A tela submete a imagem a uma adaptação. Essa adaptação é feita dependendo da indicação de pixel de vídeo/sobreposição (A).

Description

Campo da invenção

[001] A invenção se refere à codificação de uma imagem de vídeo, em particular, uma imagem de grande faixa dinâmica e que corresponde a sistemas e métodos da técnica para transmitir as informações de imagem codificadas necessárias para um lado receptor e decodificadores para decodificar as imagens codificadas e, por fim, tornar as mesmas disponíveis em uma tela.

Antecedentes da invenção

[002] A tecnologia clássica de imagem/vídeo (começando com sistemas análogos, como NTSC e PAL, e continuando com codecs de vídeo digital, como MPEG 1, MPEG 2, MPEG 4 etc.) utiliza o que atualmente chamamos de codificação de Baixa Faixa Dinâmica (LDR) ou Faixa Dinâmica Padrão (SDR). É amplamente reconhecido no momento que, para trazer uma experiência mais imersiva ao consumidor, a próxima etapa na tecnologia de vídeo precisa ser o melhoramento da faixa dinâmica e brilho de pico do sinal de vídeo. A pesquisa e o desenvolvimento começaram a partir de várias empresas únicas ou em grupo para chegar à próxima geração de codec de vídeo, que é capaz de manusear as assim-chamadas imagens de grande faixa dinâmica (HDR) de cenas HDR. Esses desenvolvimentos têm por base a noção de que sinais de LDR não podem capturar a faixa dinâmica das cenas da vida real, não podem representar a faixa dinâmica do que o sistema visual humano pode ver, e, portanto, não podem transferir a experiência emocional total em uma cena ao consumidor. Em geral, a HDR é vista como um recurso necessário para a televisão de ultra alta definição (UHD), isto é, com uma resolução de tela de 3840x2160 pixels (“4k”), mas HDR é também vista como um recurso convincente por si, por exemplo, em combinação com vídeo de resolução em HD.

[003] As imagens de captura de HDR exigem uma câmera que pode capturar a faixa dinâmica aumentada de ao menos 11 paradas, mas, de preferência, acima de 16 paradas. As câmeras atuais, por exemplo, ARRI, RED e Sony estão chegando a 14 paradas. Algumas câmaras de HDR usam uma exposição lenta e rápida e as combinam em uma imagem de HDR única; outras câmeras usam divisão de feixes em direção a dois ou mais sensores de sensibilidades diferentes.

[004] Enquanto que no imageamento clássico muitas das informações eram descartadas (recortadas, por exemplo, vistas de fora da sala ou carro), os sistemas de imageamento atuais podem capturar todas essas informações, e a questão é o que fazer com elas. Outras telas de faixa dinâmica maior estão sendo desenvolvidas, as quais têm brilho de pico mais alto que o típico 350 nits atual (ou 100 nits para monitores de classificação de referência). As televisões com um brilho de pico de cerca de 1.000 nits estão agora entrando no mercado consumidor, e a SIM2 tem um monitor profissional de 5.000 nits no seu portfólio.

[005] As unidades de exibição que estão sendo desenvolvidas atualmente são capazes de fornecer um nível de brilho alto e um contraste muito alto entre as partes escuras da imagem e as partes de brilho da imagem. Para se explorar totalmente as capacidades de tais telas, as informações de vídeo podem ser melhoradas, fornecendo-se informações de vídeo adaptadas, por exemplo, levando-se em conta a faixa mais alta de brilho e de contraste de HDR. Para se distinguir da HDR, as informações tradicionais de vídeo são chamadas de vídeo de pequena faixa dinâmica [LDR] neste documento. Dessa forma, as informações de vídeo de LDR podem ser exibidas em uma unidade de exibição de HDR em um modo de exibição de HDR para contraste melhorado. Entretanto, uma imagem mais atraente é obtida quando as próprias informações de vídeo são geradas em um formato de vídeo de HDR, por exemplo, explorando a faixa dinâmica aumentada para um efeito visual melhor ou para melhorar a visibilidade das texturas em brilho ou áreas escuras, evitando, ao mesmo tempo, as bandas visuais. Além de aumentar a precisão dos dados de imagem, os diretores de cinema podem melhorar sua experiência localmente, por exemplo, enfatizando as explosões e/ou melhorando a visibilidade em cenas/áreas de brilho escuras.

[006] As organizações de desenvolvimento padrão estão repensando os vários parâmetros de formato de vídeo que determinam a qualidade da imagem. Entre elas está a faixa dinâmica. A faixa dinâmica se torna mais importante com o aumento do brilho de pico da tela. Enquanto a maioria do conteúdo de vídeo ainda tem a classificação de tela de 100 nits (cd/m2), o brilho das telas comerciais modernas é, em geral, muito maior (tipicamente em cerca de 350 nits, mas chegando a até 600 a 800 nits). As telas profissionais com um brilho de cerca de 4.000 nits já estão disponíveis. Essas telas são capazes de fornecer uma experiência de exibição mais similar à vida real.

[007] Em resumo, as imagens HDR estão se tornando cada vez mais importantes. Uma imagem de HDR pode ser uma imagem que codifica as texturas de uma cena de HDR (que pode conter, geralmente, tanto regiões muito brilhantes quanto escuras), com informações suficientes para a codificação de alta qualidade das texturas de cor dos vários objetos capturados na cena, de modo que uma renderização visualmente de boa qualidade da cena de HDR possa ser realizada em uma tela de HDR com brilho de pico elevado como, por exemplo, 5.000 nits. Uma imagem HDR típica compreende partes coloridas com muito brilho ou partes fortemente iluminadas em comparação com a iluminação média. Especialmente para as cenas noturnas, HDR se torna cada vez mais importante.

[008] Em contraste com as cenas diurnas, em que o sol e o céu iluminam cada ponto de modo similar, à noite pode haver apenas algumas fontes de luz que iluminam a cena de modo quadraticamente reduzido. Isso cria regiões de brilho ao redor de uma fonte de luz e regiões mais escuras nos cantos mais distantes. Algumas partes recebem quase nenhuma luz de nenhum lugar, ficando muito escuras. Isto é, em uma cena noturna, pode-se ter, ao mesmo tempo, partes tendo luminâncias na região (ou quando capturadas por uma câmera linear, luminâncias de pixel) acima de 10.000 nits para as próprias lâmpadas, e frações de um nit, por exemplo, 0,001 nit, para as regiões escuras, tornando a faixa dinâmica total de 10 milhões para 1. Sendo essa a faixa teórica do pixel mais brilhante em relação ao mais escuro, a faixa dinâmica útil pode ser, é claro, menor, já que não é necessário representar precisamente algumas lâmpadas pequenas ou um pequeno trecho escuro, mas em cenas de HDR típicas, até a faixa dinâmica útil dos objetos normais de interesse pode estar acima de 10.000:1 (ou 14 paradas). Mapear isso em uma tela de brilho de pico de 2.000 nits significa que “teoricamente” (assumindo que a renderização relativa de pico de branco é suficiente para qualidade visual da renderização de cena) deveria haver um mínimo (visível) de preto de, por exemplo, 0,2 nits.

[009] Apenas recentemente a codificação do vídeo de HDR (ou mesmo imagem parada) começou a ser pesquisada. A crença característica é de que ou é preciso significativamente mais bits para codificar os brilhos acima da faixa de LDR dos objetos em cena (por exemplo, codificações que codificam as luminâncias da cena diretamente) ou precisa-se de alguma abordagem de duas camadas, sendo que, por exemplo, além de uma imagem de refletância do objeto há uma imagem de intensificação da iluminação ou estratégias de decomposição semelhantes. Uma codificação de HDR de duas camadas foi publicada, por exemplo, em US8248486B1 e WO2005/1040035.

[0010] Uma imagem única mais simples é revelada em WO2011/107905 e WO2012/153224. Essa abordagem se baseia na codificação paramétrica. Além de simplesmente codificar uma imagem de HDR única adequada para telas com um brilho de pico em um valor de referência, por exemplo, de 1.500 nits, essa abordagem também inclui telas com outros brilhos de pico e faixas dinâmicas existentes. Como também haverá telas de, por exemplo, 500 ou 100 nits, ao invés de deixar cegamente para o lado de recepção a alteração da imagem de grande faixa dinâmica codificada em alguma imagem razoável por autoconversão, as funções de processamento de cor são co-codificadas como para chegar a uma imagem adequada para as propriedades específicas da tela, começando pela imagem de HDR codificada. Esse processo, então, resulta em uma imagem otimizada para essa tela específica, que um criador de conteúdo poderia concordar.

[0011] Com o termo imagens de “grande faixa dinâmica” (HDR), queremos dizer imagens geralmente conforme as capturadas do lado de captura que têm 1) uma alta razão de contraste de luminância em comparação com a codificação de LDR existente (isto é, razões de contraste de 10.000:1 ou mais); e 2) luminâncias de objeto de não mais que 500, 700 ou tipicamente 1.000 nits. Um sistema de codificação de HDR precisa, então, ser capaz de codificar essa ampla razão de contraste e altas luminâncias de objeto. Um sistema de reprodução de HDR reproduzirá tipicamente pontos mais luminosos acima de 1.000 nits para gerar alguma aparência desejada de, por exemplo, uma lâmpada acesa ou uma área externa ensolarada.

[0012] A imagem de HDR deve ser exibida em uma tela. Como já é o caso com telas comerciais atuais, as futuras telas de HDR terão diferentes níveis de brilho de pico dependendo da tecnologia, escolhas de design, considerações de custo, fatores de mercado etc. O sinal de vídeo recebido pela tela em geral terá classificação para uma tela de referência específica, que pode não corresponder à característica da tela na qual o sinal de vídeo deve ser apresentado. A tela que recebe o sinal de HDR tenta adaptar o sinal de vídeo para corresponder às suas próprias características, incluindo nível de brilho de pico. Se o receptor/a tela não tem conhecimento das características do sinal de vídeo e/ou da classificação que foi aplicada, a imagem resultante pode não estar em linha com a intenção artística ou pode simplesmente ficar ruim. Portanto, os parâmetros/instruções de adaptação da faixa dinâmica podem ser e, de preferência, são, incluídos no vídeo ou, de outro modo, transmitidos à tela para fornecer as informações de processamento para otimizar a qualidade da imagem para o nível de brilho de pico e outras características da tela na qual o sinal é exibido. Os parâmetros de adaptação podem operar na área total da imagem ou podem ser restritos a certas áreas da imagem.

[0013] Alternativamente, a tela de HDR pode, por si, adaptar o sinal de HDR de entrada, por exemplo, se ela souber as características do sinal de entrada, por exemplo, se um padrão foi usado.

[0014] Seja qual for o método, a tela, portanto, adapta o sinal de HDR, por exemplo, de entrada. Para simplificar, o sinal mencionado aqui é o HDR, sendo que o sinal de entrada poderia também ser um sinal de LDR que é, então, exibido no modo de HDR (observe que esse sinal de LDR pode, embora seja, por si só, adequado para exibição direta em uma tela de LDR, implicitamente ser uma codificação de um aspecto de imagem de HDR, porque contém todos os dados de cor de pixel necessários que podem ser funcionalmente mapeados em uma imagem de HDR por funções co-codificadas). Mais especificamente, a tela executa uma adaptação na faixa dinâmica no sinal de entrada para ajustá-lo para suas características (por exemplo, intensidade de pico, nível de preto) antes de exibi-las.

[0015] A tela aplica uma função de mapeamento que mapeia os dados de HDR (ou de LDR) de entrada em um conjunto de dados de HDR que melhor se encaixam da melhor forma (ou ao menos melhor é essa a intenção) nas capacidades da tela, como, por exemplo, nível de preto e nível de brilho de pico da tela. Os dados de HDR assim adaptados são usados para exibir a imagem na tela.

[0016] O mapeamento pode ser uma atualização da imagem em que a faixa dinâmica da imagem exibida é maior que a faixa dinâmica da imagem original bem como a redução da imagem, sendo que a faixa dinâmica é menor que a faixa dinâmica da imagem original.

[0017] O efeito da adaptação da faixa dinâmica (abaixo disso é, às vezes, chamado de “intensificação”, embora quando a redução é executada, a imagem seja diminuída em vez de reduzida na faixa dinâmica) é com frequência mais perceptível em objetos muito brilhantes.

[0018] O sinal de vídeo pode ser fornecido para o ambiente doméstico de várias formas, incluindo através de broadcast, através da internet ou de pacotes de mídia. Pode ser, por exemplo, recebido por um conversor (STB) ou através de um outro sistema de processamento de vídeo, como um fluxo comprimido.

[0019] O conversor decodifica o vídeo e, subsequentemente, o envia como vídeo de banda base ao aparelho de televisão. Em um outro exemplo, o vídeo codificado é armazenado em uma mídia de armazenamento, por exemplo um disco de DVD/Blu-Ray ou um pen drive. Nesse caso, o dispositivo de playback (player de mídia) lê o conteúdo da mídia, decodifica o vídeo comprimido e o envia para o aparelho de televisão. Em ambos os casos, o conversor separado (VPS, sistema de processamento de vídeo) é conectado à TV através de uma interface padronizada (por exemplo, HDMI, porta de exibição ou uma interface de vídeo sem fio).

[0020] Geralmente, os conversores (STB) e os players de mídia (MP) não passam simplesmente o vídeo decodificado, mas, às vezes, integram o vídeo a uma ou mais camadas gráficas. Por exemplo, no caso do disco Blu-Ray (BD), há frequentemente 2 camadas sobrepostas: Gráficos de apresentação (PG) para legendas e plano gráfico da ferramenta java (BD-J), por exemplo, para sobreposições de menu. Além desses planos gráficos, pode haver um plano adicional para a interface de usuário do player.

[0021] Enquanto amplia os sistemas de vídeo existentes para HDR, a alta razão de contraste disponível em dispositivos de exibição avançados é usada para obter imagens de vídeo vívidas e realistas. Entretanto, descobriu- se que, quando os gráficos são sobrepostos nesse modo de exibição de HDR, vários problemas podem ocorrer. Por exemplo, um problema que pode ocorrer com sobreposições de gráficos (semitransparentes) sobre o vídeo de HDR é que algumas cenas em vídeo de HDR podem ser excepcionalmente brilhantes. Isso vai reduzir significativamente a legibilidade dos gráficos, como legendas ou menus, mostrados ao mesmo tempo. Um outro problema que pode ocorrer é que os caracteres das legendas podem ficar tão brilhantes que podem atrapalhar ou cansar o leitor. Legendas ou menus de brilho extremo podem causar efeitos de halo ou ofuscamento e, desse modo, degradar a qualidade percebida do vídeo.

[0022] Problemas podem ocorrer quando a faixa dinâmica é aumentada (de uma LDR ou HDR baixa para uma faixa de HDR maior) assim como quando é reduzida (de uma HDR para uma HDR ou LDR de faixa dinâmica menor). A adaptação da faixa dinâmica pode ser com base nos parâmetros que são enviados juntamente com o vídeo, com base em uma análise da imagem na TV, com base nas informações enviadas juntamente com o sinal de vídeo ou qualquer outro método. A adaptação da faixa dinâmica se aplica ao vídeo subjacente, não para as áreas que contêm as sobreposições de gráfico. A adaptação da faixa dinâmica pode ser alterada em certos casos (por exemplo, quando a cena está mudando), enquanto uma sobreposição de legenda ou menu pode ser fixa durante a mudança. Isso pode resultar, por exemplo, em alterações indesejadas na aparência dos gráficos nos limites da cena.

[0023] No documento US02140125696, uma solução foi descrita em que as sobreposições são ajustadas dependendo do modo de exibição. Antes de integrar (ou enquanto integra) uma sobreposição a um sinal de vídeo (que poderia ser um sinal de LDR ou HDR), a sobreposição é adaptada (ou a integração é adaptada) dependendo do modo de exibição.

[0024] Entretanto, isso exige uma entrada para o modo de exibição e para as instruções de processamento de HDR. Além disso, as telas são diferentes e todas têm suas próprias características. Portanto, a mesma adaptação de uma sobreposição para o mesmo modo de tela pode não ter o mesmo resultado em diferentes telas. Isso exigiria conhecimento das características da tela.

[0025] Dessa forma, uma abordagem melhorada para adaptar o vídeo seria vantajosa e, em particular, uma abordagem possibilitando uma flexibilidade aumentada, adaptação de faixa dinâmica melhorada, qualidade de imagem percebida melhorada, sobreposição e/ou apresentação de imagem de vídeo melhorada (em particular, quando mudando a faixa dinâmica) e/ou desempenho melhorado, seriam vantajosos.

Sumário da invenção

[0026] Consequentemente, a invenção busca, de preferência, mitigar, aliviar ou eliminar uma ou mais das desvantagens mencionadas acima, individualmente ou em qualquer combinação.

[0027] De acordo com um aspecto da invenção, é apresentado um aparelho para decodificar um sinal de vídeo de HDR integrado de um ou mais sinais da fontes, aparelho compreendendo: uma entrada para receber um sinal de vídeo de HDR, um leitor para ler ao menos um ou mais bits significativos para um ou mais componentes de cor do sinal de vídeo de HDR para um pixel e gerar um ou mais valores dos bits menos significativos da leitura, o um ou mais valores indicando uma propriedade de integração do pixel, a propriedade de integração sendo indicativa de uma propriedade de uma integração do sinal de vídeo de HDR para esse pixel de um ou mais sinais de sobreposição a um sinal de imagem de vídeo; e um adaptador para adaptar o sinal de vídeo de HDR, sendo que o adaptador é disposto de modo a adaptar o valor de pixel dependendo do um ou mais valores.

[0028] A invenção pode proporcionar um desempenho aprimorado em muitas modalidades. Em muitos sistemas, a invenção pode proporcionar renderização aprimorada de sequências de imagens e vídeo que compreendem sobreposição em telas com diferentes faixas dinâmicas.

[0029] O aparelho pode ser um decodificador de vídeo e, especificamente, pode ser compreendido em uma tela, como em uma televisão ou monitor. O adaptador pode ser disposto de modo a fazer uma adaptação da faixa dinâmica no pixel dependendo de um ou mais valores.

[0030] O um ou mais sinais da fonte podem incluir o (ou consistir de) um ou mais sinais de sobreposição e sinal de imagem de vídeo. Os sinais da fonte podem ser sinais de vídeo que, no lado da codificação, é combinado em um único sinal de vídeo (o sinal de vídeo de HDR).

[0031] De acordo com um recurso opcional da invenção, o aparelho compreende uma entrada para um sinal incluindo as informações sobre as quais os bits menos significativos devem ser lidos e como convertê-los em um ou mais valores.

[0032] Em algumas modalidades, o aparelho é disposto de modo a receber dados indicativos de uma codificação de um ou mais valores no sinal de vídeo de HDR, e o leitor é disposto de modo a determinar o um ou mais valores em resposta aos dados indicativos da codificação.

[0033] De acordo com um recurso opcional da invenção, o adaptador é disposto de modo a fazer uma adaptação da faixa dinâmica em pixels de imagem do sinal de vídeo de HDR.

[0034] De acordo com um recurso opcional da invenção, o adaptador é disposto de modo a adaptar o mapeamento de uma faixa dinâmica de entrada do sinal de vídeo de HDR para uma faixa dinâmica de saída para o pixel dependendo do um ou mais valores.

[0035] De acordo com um recurso opcional da invenção, o um ou mais valores são indicativos de uma contribuição percentual ao pixel do sinal de imagem de vídeo em relação a uma contribuição percentual de um ou mais sinais de sobreposição; e o adaptador é disposto de modo a aplicar um mapeamento diferente para diferentes contribuições percentuais.

[0036] O termo percentual pode indicar uma porcentagem/proporção/razão para uma contribuição do valor de pixel originado de uma dada fonte.

[0037] De acordo com um recurso opcional da invenção, o aparelho compreende: um estimador para dividir o sinal de vídeo de HDR em uma pluralidade de sinais estimados, com base em uma estimativa de uma contribuição do sinal de imagem de vídeo e um ou mais sinais de sobreposição para pixels do sinal de vídeo de HDR; um misturador (ou mixador) para remixar a pluralidade de sinais estimados após a adaptação, sendo que o adaptador é disposto de modo a adaptar separadamente ao menos um dentre a pluralidade de sinais estimados.

[0038] A(s) contribuição(ões) podem ser indicadas pelo um ou mais valores. A adaptação pode ser diferente de ao menos dois dos sinais estimados.

[0039] De acordo com um recurso opcional da invenção, a propriedade de integração é indicativa de um tipo de integração.

[0040] O tipo de integração pode especificamente indicar se a integração do pixel é uma dentre um grupo de operações possivelmente integradas incluindo ao menos um dentre: a integração inclui uma contribuição apenas do sinal de imagem de vídeo; a integração inclui uma contribuição apenas de um sinal de sobreposição; a integração inclui uma contribuição de ambos a imagem e o sinal de vídeo e de ao menos um sinal de sobreposição.

[0041] De acordo com um recurso opcional da invenção, a propriedade de integração de um pixel é indicativa de uma quantidade de integração do sinal de imagem de vídeo e do um ou mais sinais de sobreposição do dito pixel.

[0042] A quantidade de integração pode refletir um peso de ao menos um dentre o um ou mais sinais de sobreposição em relação a um peso do sinal de imagem de vídeo de entrada. A integração pode ser uma soma ponderada.

[0043] De acordo com um recurso opcional da invenção, o adaptador é disposto de modo a, antes da adaptação, dividir o sinal de vídeo de HDR em mais de um sinal estimado, estimando ao menos alguns do um ou mais sinais de sobreposição e o sinal de imagem de vídeo com base em uma estimativa da contribuição dos ao menos alguns dos um ou mais sinais de sobreposição e do sinal de imagem de vídeo a um valor de pixel do sinal de vídeo de HDR, sendo que ao menos um dos sinais estimados é a cor transformada para adaptar sua luminância e os mais de um sinais estimados são remixados após a adaptação.

[0044] De acordo com um recurso opcional da invenção, a propriedade de integração pode ser indicativa do pixel compreendendo o primeiro conteúdo de sobreposição, o primeiro conteúdo de sobreposição originado do ao menos um dentre um sinal de sobreposição que compreende conteúdo de gráfico gerado localmente ou um sinal de sobreposição compreendendo um segundo sinal de imagem de vídeo que inclui conteúdo de sobreposição integrado.

[0045] De acordo com um recurso opcional da invenção, o adaptador é disposto de modo a adaptar os pixels dentro de uma região para a qual a propriedade de integração é indicativa do pixel que compreende o primeiro conteúdo de sobreposição para ter luminâncias de saída dentro de uma faixa predeterminada.

[0046] A faixa predeterminada pode, por exemplo, para uma tela, ser uma faixa predefinida refletindo a dinâmica da tela. Por exemplo, a faixa pode ter um limite superior de, por exemplo, 10% do brilho de pico e um limite inferior de, por exemplo, o maior de 1% do brilho de pico e 1 nit. Alternativa ou adicionalmente, a faixa predeterminada pode ser determinada pelo espectador etc.

[0047] De acordo com um aspecto da invenção, é apresentado um método para decodificar um sinal de vídeo de HDR integrado de mais de um sinal da fonte, sendo que o método compreende: receber o sinal de vídeo de HDR, ler ao menos um ou mais bits significativos para um ou mais componentes de cor do sinal de vídeo de HDR para um pixel e gerar um ou mais valores dos bits menos significativos da leitura, sendo que o um ou mais valores indicam uma propriedade de integração do pixel, sendo que a propriedade de integração é indicativa de uma propriedade de uma integração do sinal de vídeo de HDR de um ou mais sinais de sobreposição com um sinal de imagem de vídeo para esse pixel; e adaptar um valor de pixel dependendo do um ou mais valores.

[0048] De acordo com um aspecto da invenção, é apresentado um aparelho para codificar um sinal de vídeo, sendo que o aparelho compreende: um integrador para integrar um sinal de imagem de vídeo de HDR de entrada a um ou mais dos sinais de sobreposição para formar um sinal de vídeo integrado, um processador para gerar um ou mais valores indicando para um pixel no sinal de vídeo integrado uma propriedade de integração indicativa de uma propriedade da integração desse pixel; e um codificador para codificar para o dito pixel o dito um ou mais valores em um ou mais bits menos significativos de um ou mais componentes de cor de um valor de pixel para o pixel no sinal de vídeo integrado.

[0049] De acordo com um recurso opcional da invenção, a propriedade de imagem é indicativa de ao menos um tipo de integração para o dito pixel e uma quantidade de integração do sinal de imagem de vídeo de HDR de entrada e o um ou mais sinais de sobreposição.

[0050] De acordo com um recurso opcional da invenção, o codificador é disposto de modo a fornecer ao sinal de vídeo integrado um sinal de informação compreendendo informações sobre uma propriedade da codificação do um ou mais valores no um ou mais bits menos significativos.

[0051] De acordo com um aspecto da invenção, é apresentado um método para codificar um sinal de vídeo, sendo que o método compreende: integrar um sinal de imagem de vídeo de HDR de entrada a um ou mais dos sinais de sobreposição para formar um sinal de vídeo integrado, gerar um ou mais valores indicando a um pixel no sinal de vídeo integrado uma propriedade de integração indicativa de uma propriedade da integração desse pixel; e codificar ao dito pixel o dito um ou mais valores em um ou mais bits menos significativos de um ou mais componentes de cor de um valor de pixel para o pixel no sinal de vídeo integrado.

[0052] Em algumas modalidades, um método de codificação pode compreender adicionar a um sinal de imagem de vídeo um ou mais sinais de sobreposição para formar um sinal de vídeo integrado, gerando um ou mais valores indicando para um pixel um tipo de integração e/ou um ou mais parâmetros de integração no sinal de vídeo integrado e codificando para o dito pixel o dito um ou mais valores em um ou mais bits menos significativos de um ou mais componentes de cor do sinal de vídeo integrado.

[0053] Um processador de vídeo pode compreender um integrador para integrar um sinal de imagem de vídeo e uma ou mais sobreposições, geralmente, sinais de gráfico, para formar um sinal de vídeo integrado e um codificador de imagem para gerar ou receber um ou mais valores indicando o tipo de integração e/ou um ou mais parâmetros de integração a um pixel e para codificar ao dito pixel o dito valor ou valores em um ou mais bits menos significativos de um ou mais componentes de cor do sinal de vídeo integrado.

[0054] Um valor indicando o tipo de integração pode ser considerado um valor indicativo de quais sinais o pixel no sinal de vídeo integrado é composto. Por exemplo, pode indicar se o pixel é vídeo puro, sobreposição pura, uma mixagem de vídeo e sobreposição, ou possivelmente também qual tipo de sobreposição está presente na mixagem. Em alguns exemplos, ao menos um valor codificado em um ou mais LSBs indica o tipo de integração do pixel. Em muitas modalidades, essa informação do tipo de integração é suficiente para indicar o tipo de integração de um pixel, por exemplo, para ser capaz de distinguir entre pixels de vídeo puro e outros pixels. Em alguns exemplos, ao menos um dos valores indica o tipo de integração.

[0055] O um ou mais parâmetros de integração podem fornecer informações sobre a quantidade de integração de sinais, por exemplo, pode indicar a contribuição dos sinais individuais ao sinal integrado para esse pixel. A quantidade de integração indica, por exemplo, para pixels do tipo de integração mista se é, por exemplo, uma mixagem de 50%-50% de vídeo e sobreposição ou uma mixagem de 25%-75% sobreposição e vídeo etc.

[0056] Em alguns exemplos apenas os parâmetros de integração indicativos da razão de mixagem podem ser usados. Por exemplo, se 6 LSBs em um primeiro componente de cor e 3 em um outro componente de cor forem usados, sendo que os 3 LSBs no primeiro componente indicam a porcentagem de vídeo mixada e os outros 3 LSBs no outro componente indicam a quantidade de sobreposição mixada, então, a combinação dos dois tripletes de LSBs fornecem informações sobre tanto o tipo quanto a quantidade integrada. Se os 3 LSB no primeiro componente são todos zero, então, o pixel é pura sobreposição, se os 2 LSBs no segundo componente são todos zero, então, o pixel é puro vídeo. Se ambos os LSBs no primeiro e no segundo componentes são diferentes de zero, então, o pixel é do tipo misto (uma mixagem/integração de vídeo e sobreposição) e a quantidade de integração pode ser lida dos ditos LSBs.

[0057] Um método de decodificação compreende receber um sinal de vídeo, ler um ou mais dos bits menos significativos de um ou mais dos componentes de cor, gerar dos ditos bits menos significativos um ou mais valores e submeter o sinal de imagem de vídeo a uma adaptação antes da exibição, sendo que a adaptação depende do valor ou valores gerados.

[0058] O decodificador de vídeo compreende uma entrada para receber um sinal de vídeo, um leitor para ler ao menos um ou mais bits menos significativos para um ou mais componentes de cor do sinal de vídeo para um pixel e gerar um ou mais valores dos bits menos significativos de leitura e um adaptador para adaptar o vídeo, sendo que o adaptador é disposto de modo a adaptar um valor de pixel dependendo do valor ou valores gerados.

[0059] Em métodos e sistemas conhecidos, a tela que recebe os dados de um VPS (sistema de processamento de vídeo), como um conversor ou um player de disco Blu-Ray, em que o sinal de vídeo foi integrado com sobreposições, não tem meios de distinguir as informações de vídeo (que deveriam, de preferência, ser intensificadas para ajustar as capacidades da tela) das sobreposições, como legendas, ou dos sinais que são uma mixagem do vídeo original e sobreposições, que tipicamente seriam processadas de outro modo. Um conversor e um player de disco Blu-Ray são exemplos de sistemas de processamento de vídeo.

[0060] Frequentemente, o VPS é um dispositivo do lado do consumidor. A abordagem não é restrita a tais dispositivos domésticos. O VPS pode ser um dispositivo ou sistema remoto, isto é, não doméstico.

[0061] Por exemplo, com a TV sob demanda, o VPS poderia ser um conversor ou uma estação de TV fazendo uma mixagem de programa + legendas ou pode ser até uma inserção/recodificação de um intermediário (por exemplo, uma estação a cabo adicionando mais texto interessante de uma empresa comercial “compre este carro”). Da mesma forma que na TV “sob demanda”, o usuário poderia, por exemplo, escolher um idioma para a legenda em que as legendas do idioma fossem integradas não no usuário final (por exemplo, em casa), mas na fonte, isto é, o sinal que é enviado para o usuário em casa é um sinal integrado. O VPS seria, então, um sistema remoto. A abordagem não é restrita ao local físico do integrador ou algoritmo através do qual o vídeo e as sobreposições são integradas, o aspecto importante é que elas são integradas. Além disso, a integração não tem necessariamente que acontecer em um único dispositivo ou etapa de método, por exemplo, um intermediário adicionando texto interessante (“compre este carro”) em uma parte da tela, enquanto a estação de TV fornece as legendas em outra parte da tela. Nesse caso, duas ações de integração aconteceram, ou, de modo equivalente, uma integração distribuída de várias etapas foi executada.

[0062] Em métodos e dispositivos conhecidos, é impossível descobrir a partir dos dados de sinal de vídeo vindos de, por exemplo, um conversor, se um pixel é parte de uma sobreposição ou do vídeo original, muito menos quais são os aspectos detalhados da mixagem, como o valor de cor dos gráficos, cor do pixel do vídeo ou porcentagem da mixagem original. Isso pode ficar com frequência imediatamente aparente para um espectador, mas não para a tela. Na técnica anterior, descrita em US20140125696, as sobreposições são adaptadas antes de se integrarem, mas isso exige entradas no VPS que podem não estar disponíveis. Além disso, o VPS pode não saber as características da tela anexada ou pode até permanecer sem saber qual transformação de cor deve ser aplicada ao vídeo e, portanto, não ter informações essenciais.

[0063] Legendas e outras sobreposições não fazem parte do vídeo de HDR original e com frequência não precisam de intensificação ou ao menos não com a mesma quantidade que o vídeo em si. Os parâmetros de adaptação de faixa dinâmica (e em um sentido mais geral qualquer manipulação ou alteração nos dados de vídeo de HDR para adaptar os dados de vídeo à tela por qualquer que seja a manipulação funcional) em geral se aplicam apenas ao vídeo subjacente, não às áreas que contêm as sobreposições de gráfico. Os parâmetros de adaptação da faixa dinâmica podem ser alterados em certos casos (por exemplo, quando a cena está mudando), enquanto uma sobreposição de legenda ou menu pode ser fixa durante a mudança.

[0064] Em métodos e sistemas conhecidos, a tela vai (e, de fato, não pode fazer diferente) processar cada pixel do vídeo integrado recebido independente de se um pixel forma parte de uma sobreposição ou não. O integrador e o processo de integração é, conforme visto do lado do decodificador, uma caixa preta. Há uma saída, e pode haver ou ter havido alguns sinais integrados, mas se isso aconteceu e como aconteceu é desconhecido, e não pode se tornar conhecido.

[0065] Isso poderia, por exemplo, levar a sobreposições, como legendas que começam a flutuar na intensidade juntamente com a intensificação dinâmica das partes próximas do vídeo, como lâmpadas brilhantes.

[0066] Na abordagem atual, o bit ou bits menos significativos de um componente de sinal de vídeo são usados e, de certa forma, sacrificados (embora em algumas implementações técnicas alguns bits ainda possam estar disponíveis para outras informações de codificação de pixel além dos dados de cor de pixel de vídeo), para fornecer informações sobre se e, em muitos exemplos, em qual quantidade, um pixel é formado por ou parte de uma sobreposição (como uma legenda ou um menu) e/ou pelo vídeo original. Isso possibilita que uma tela receba o sinal de vídeo gerado pelo método ou dispositivo da abordagem atual para tratar, por exemplo, sobreposições ou partes da imagem que são uma mixagem do vídeo original e sobreposições de modo diferente das partes da imagem para não compreender uma sobreposição mas compreender apenas o vídeo original. No lado do decodificador, as informações podem ser obtidas em uma base de pixel a pixel no surgimento que aconteceu no integrador.

[0067] Em uma disposição de baixa complexidade, um bit menos significativo único de um componente é preenchido com um valor indicativo.

[0068] Um bit único pode ser 0 ou 1. Isso possibilita que o vídeo diferencie, em uma base de pixel a pixel, quais pixels pertencem ao vídeo original e quais pixels pertencem a uma sobreposição ou uma mixagem de vídeo e sobreposição. Nessa disposição simples, os problemas acima de, por exemplo, coflutuação de legendas com lâmpadas podem ser mitigados. A tela é dotada de informações que possibilitam diferenciar uma sobreposição, por exemplo, legendas, do vídeo e que adaptam dinamicamente a rendição da imagem do vídeo enquanto mantêm as legendas, por exemplo, fixas ou as adaptem de uma maneira diferente aos pixels de vídeo.

[0069] Em uma modalidade simples, a adaptação da faixa dinâmica pode ser aplicada aos pixels que pertencem ao vídeo original, enquanto nenhuma ou uma adaptação na faixa dinâmica fixa é aplicada aos pixels que pertencem a uma sobreposição.

[0070] Um componente de cor pode ser, por exemplo, um dentre os componentes de RGB do sinal ou, se o sinal estiver no formato YUV, um dos componentes de YUV, por exemplo, a luminância Y do pixel.

[0071] Em modalidades mais detalhadas, mais de um bit menos significativo é preenchido com um valor de indicação.

[0072] Isso possibilita, por exemplo, quando 3 bits são usados, distinguir mais de um estado, por exemplo, quando sobreposições são parcialmente transparentes. Por exemplo, quando três estados são possíveis (por exemplo, vídeo total, sobreposição total e mixagens de vídeo e sobreposição), um grau variado de integração pode ser identificado. A adaptação da faixa dinâmica pode, por exemplo, ser aplicada a pixels que são do vídeo totalmente original, sendo que nenhuma adaptação de faixa dinâmica é aplicada aos pixels que são de sobreposição total e vários graus de adaptação da faixa dinâmica são aplicados a pixels que são parte do vídeo original, parte de sobreposição, dependendo da razão entre o vídeo e a sobreposição.

[0073] O sacrifício dos bits menos significativos tem geralmente efeito menor ou nenhum efeito sobre a imagem. Com frequência, não é sacrifício, já que os LSBs não compreendem informações de imagem altamente visível.

[0074] Mesmo sacrificando os bits menos significativos, em alguns casos, pode teoricamente reduzir até a um certo ponto a rendição de detalhes muito minuciosos, o número de bits usados na maioria dos sinais de vídeo (e especialmente em um sinal de HDR) é em geral suficiente para a rendição da imagem em tais detalhes, que a perda dos bits menos significativos não seria visível.

[0075] Mesmo onde houvesse uma pequena influência negativa, o efeito positivo, de ser capaz de renderizar melhor as sobreposições, excede qualquer efeito negativo.

[0076] Os bits menos significativos (LSBs) a serem usados para transmitir as informações de vídeo/sobreposição podem ser selecionados dentre vários componentes, ao mesmo tempo em que levam em conta a profundidade de bit do vídeo original.

[0077] Com frequência, o número de bits usados por pixel para ao menos um componente de cor na interface (por exemplo, 16 ou 12) é maior que o número de bits no vídeo original (por exemplo, 12 ou 10). Nesse caso, pode não haver nenhum impacto sobre a qualidade de vídeo, se apenas poucas informações sobre a situação de integração precisam ser comunicadas. Em muitos casos, pode-se simplesmente usar a largura de banda adicional do canal de interface.

[0078] Em muitas implementações, não mais que 8 bits, divididos pelo 3 ou mais componentes de um pixel são preenchidos com dados indicativos da contribuição de uma sobreposição para os valores de pixel. Sacrificar mais de 8 bits tipicamente não melhoraria o efeito positivo enquanto começaria a ter um efeito negativo aumentado sobre a rendição da imagem e, conforme declarado anteriormente, se o número de bits usados no sinal integrado for maior que o vídeo original, nenhum bit vai precisar ser sacrificado. Em algumas modalidades, 6 ou 4 bits de indicação podem também comunicar as informações mais úteis. Em algumas modalidades, o número de bits usados no sinal integrado pode exceder o número de bits no sinal de vídeo. A seguir, o acrônimo LSB também será usado para o “bit menos significativo”.

[0079] Em algumas modalidades, o número de LSBs indicando um tipo de integração e/ou um ou mais parâmetros de integração no sinal de vídeo integrado pode ser variável, por exemplo, dependendo do tipo de integração.

[0080] Para tipos de integração simples, por exemplo, “apenas vídeo”, menos LSBs são necessários para transferir informações ao decodificador. Usar menos LSBs para o tipo de integração e as informações de parâmetro de integração fornece mais bits para transferir as informações de cor de pixel de vídeo.

[0081] Um sinal de comprimento de codificação pode ser fornecido de modo que no lado da decodificação, o comprimento da codificação possa ser conhecido. A codificação do comprimento variável pode ser fornecida pela indicação do tipo de integração.

[0082] As informações sobre a codificação dos dados indicativos da propriedade de integração (por exemplo, quais constituintes foram integrados, sendo que “constituintes” podem ser vídeo e uma ou mais sobreposições) podem ser fornecidas em LSBs separados dos LSBs que fornecem informações sobre a quantidade de integração, por exemplo, a transparência das sobreposições ou uma proporção de mixagem.

[0083] Isso possibilita que as informações sobre a codificação sejam escritas e lidas antes de informações mais detalhadas sobre a integração. Isso possibilita o uso de menos LSBs para transferência de informações deixando, assim, mais bits para outras informações, por exemplo, informações de luminância.

[0084] Em algumas modalidades, as informações são fornecidas para ou no sinal, por exemplo, sob a forma de metadados ou marcadores, indicando qual a codificação dos valores é indicativa da propriedade de integração. Por exemplo, pode indicar o LSB ou LSBs que são usados para fornecer informações sobre a integração, como quais sinais foram integrados e ou como eles foram integrados e como eles podem ser lidos.

Breve descrição dos desenhos

[0085] Esses e outros aspectos do método e aparelho de acordo com a invenção ficarão evidentes e serão elucidados com referência às implementações e modalidades doravante descritas neste documento, e com referência aos desenhos anexos, que servem meramente como ilustrações específicas não limitadoras que exemplificam o conceito mais amplo.

[0086] A Figura 1 ilustra um exemplo de um amplificador de sinais de vídeo.

[0087] A Figura 2 ilustra um exemplo de um sistema de processamento de vídeo de acordo com algumas modalidades da invenção.

[0088] A Figura 3 ilustra um exemplo de um sistema de processamento de vídeo de acordo com algumas modalidades da invenção.

[0089] As Figuras 4 a 7 ilustram exemplos de algumas modalidades de uma codificação em um sistema de processamento de vídeo de acordo com algumas modalidades da invenção.

[0090] A Figura 8 ilustra esquematicamente um problema de métodos e sistemas da técnica anterior.

[0091] A Figura 9 ilustra exemplos de um vídeo e sobreposições de integração.

[0092] A Figura 10 ilustra alguns exemplos da adaptação da faixa dinâmica.

[0093] A Figura 11 ilustra um exemplo de um sistema de acordo com algumas modalidades da invenção.

[0094] A Figura 12 ilustra alguns exemplos da adaptação da faixa dinâmica.

[0095] A Figura 13 ilustra exemplos de aspectos de algumas modalidades da invenção.

[0096] A Figura 14 ilustra exemplos de aspectos de algumas modalidades da invenção.

[0097] As Figuras 15 e 16 ilustram exemplos de uma combinação de codificação em um VPS e decodificação em uma TV de acordo com algumas modalidades da invenção.

[0098] A Figura 17 ilustra uma tela compreendendo a funcionalidade de acordo com algumas modalidades da invenção.

[0099] As Figuras 18 e 19 ilustram um exemplo de aspectos de algumas modalidades da invenção.

[00100] As Figuras 20 e 21 ilustram alguns exemplos de geração de indicações de uma operação de integração.

[00101] A Figura 22 ilustra exemplos de possíveis mapeamentos da faixa dinâmica.

Descrição detalhada dos desenhos

[00102] Na Figura 1, é ilustrado um exemplo de um aspecto de uma modalidade exemplificadora da invenção relacionado ao lado de codificação.

[00103] Em um sistema de processamento de vídeo ou processador de vídeo (VPS) 1, um sinal de imagem de vídeo 2 para o vídeo original é integrado com sobreposições 3 e 4 no integrador 5 do VPS 1 para fornecer um sinal de vídeo integrado 6 que compreende uma integração do vídeo original e sobreposições. O integrador 5 fornece informações à parte do codificador 7.

[00104] O sinal de imagem de vídeo de entrada 2 é um sinal de imagem de HDR no sentido de que fornece uma representação de um sinal de HDR. O sinal de imagem de vídeo de entrada 2 pode, por si só, ser uma imagem que se destina a ser apresentada em uma tela de HDR, isto é, a classificação de cor/mapeamento de tonalidade pode ser adaptada para ser diretamente renderizada em uma tela com um brilho máximo de não mais que tipicamente 500 (ou 1.000) nits. Em outras modalidades, o sinal de imagem de vídeo 2 pode proporcionar uma representação de imagem que se destina a ser diretamente exibida em uma tela de LDR, isto é, em uma tela com um brilho máximo abaixo (tipicamente) 500 nits, mas que tem um mapeamento direto (conhecido) ou translação para uma imagem de HDR destinada a ser exibida em uma tela de HDR. Dessa forma, o sinal de imagem de vídeo de entrada 2 pode ser uma representação de imagem LDR mapeada a partir de uma representação de imagem de HDR de uma imagem que usa um mapeamento de HDR para LDR. Essa mensagem ainda é uma imagem de HDR já que a imagem de HDR original pode ser regenerada aplicando o mapeamento inverso (que pode ainda, ser incluído na imagem de HDR).

[00105] De modo similar, as sobreposições podem ser fornecidas como representações de HDR ou podem ser representações de LDR que podem ser combinadas com as representações de HDR ou LDR do sinal de imagem de HDR.

[00106] O sinal de vídeo integrado 6 é, de modo similar, um sinal de imagem de HDR e, de fato, com o sinal de entrada sendo um sinal de imagem (direto ou indireto), uma simples integração dos valores de sobreposição com os valores de entrada resultará na correspondência do sinal de vídeo integrado 6 ao sinal de imagem de vídeo de entrada 2. No exemplo da Figura 1, o sinal de imagem de vídeo original 2 é integrado ao sinal de legenda 3 e/ou ao sinal de menu 4 (por exemplo, um menu de VPS usado para controlar a operação, como, por exemplo, um menu a partir do qual pode-se selecionar o vídeo de origem ou alterar o volume de som ou um menu do disco de BD mostrando as opções disponíveis de como reproduzir o disco, etc.). O VPS compreende um codificador 7 para codificar o sinal de vídeo integrado 6. Para o codificador 7, através do sinal de informações de integração (MIS), as informações de integração são fornecidas pelo integrador 5 sobre a integração (por exemplo, se um pixel é um vídeo ou uma sobreposição e até que ponto) dos pixels. As informações de integração fornecem informações sobre uma propriedade de integração indicativa de uma propriedade da adição do um ou mais sinais de sobreposição 3, 4 ao sinal de imagem de vídeo de entrada 2 para esse pixel. A propriedade de integração pode ser especificamente indicativa da fonte do pixel no sinal de vídeo integrado 6 (isto é, de qual sinais o pixel no sinal de vídeo integrado é composto) e/ou da quantidade de integração de sinais. As informações de integração podem, por exemplo, ser uma indicação do fato de qual sinais são integrados, por exemplo, “esse pixel é vídeo mais legenda” e/ou ser dados transparentes para os componentes diferentes dos sinais integrados, por exemplo, pode ser uma indicação de que uma legenda integrada tem uma transparência de, por exemplo, 50% ou 25%.

[00107] A Figura 1 mostra dois tipos possíveis de sobreposições, legenda 3 e/ou menu 4 sendo integrados ao vídeo no integrador 5. Outros tipos de sobreposições podem ser usadas, é claro, em outras modalidades como, por exemplo, PIP (imagem sobre imagem), um logo ou sobreposições de anúncios etc. Essas sobreposições podem ser adicional ou alternativamente integradas ao vídeo no integrador 5. O versado na técnica entenderá que as modalidades dos métodos/aparelhos descritos podem ser usadas em vários cenários em que há apenas um tipo simples de pixels especiais, por exemplo, legendas simples de apenas algumas possíveis cores opacas ou podem ser usadas em sistemas mais complexos em que vários tipos de mixagens de gráficos ou vídeo podem estar presentes ao mesmo tempo. Nesses exemplos, os diferentes tipos podem, por exemplo, ser discriminados pela situação descrita aqui abaixo caracterizando as codificações.

[00108] Após a operação de integração, os pixels individuais podem, em várias modalidades, ser um dos vários tipos de integração. Por exemplo, pode ser um tipo puro que compreende contribuições de apenas uma fonte, por exemplo, pode ser um vídeo puro ou uma sobreposição pura (sendo que o tipo de sobreposição pode também ser importante, isto é, diferentes tipos de sobreposição podem resultar em diferentes tipos de integração). Os pixels individuais podem alternativamente ser de um tipo misto ou integrado, sendo que o pixel é formado de contribuições de mais de uma fonte, por exemplo, 50% de vídeo e 50% de legendas. O peso pode, por exemplo, ser determinado pela transparência da legenda que está integrada ao vídeo.

[00109] A Figura 2 ilustra a codificação executada pelo codificador 7. O codificador 7 é dotado das informações de integração A' através do sinal MIS em que as informações de integração são indicativas da propriedade de integração que reflete uma propriedade da interação no integrador 5. O codificador gera um valor A para (tipicamente) cada pixel indicando, para um dado pixel no sinal de vídeo integrado, uma propriedade de integração indicativa de uma propriedade da integração de um ou mais sinais de integração 3, 4 para o sinal de imagem de vídeo de entrada 2 para esse pixel. O valor A de pixel pode ser especificamente indicativo do tipo de integração e/ou um ou mais parâmetros de integração desse pixel, conforme determinado a partir das informações recebidas A'.

[00110] Em algumas modalidades, o integrador 5 pode fornecer diretamente o valor A ao codificador 7 e, nesse caso, A'=A. Em outras modalidades, o codificador 7 pode gerar um valor diferente A para codificar de um valor recebido A'.

[00111] No exemplo de complexidade baixa específica da Figura 2, cada pixel da imagem integrado é indicado para ser ou um vídeo ou uma legenda ou menu. Dessa forma, cada pixel é indicado para ser de um dos dois possíveis tipos de integração.

[00112] O codificador 7 preenche um (ou mais) dos bits menos significativos de um dos componentes dos sinais de HDR com o valor A que gerou com base nas informações fornecidas pelo integrador ou que recebeu diretamente do integrador 5.

[00113] No exemplo da Figura 2, o sinal de vídeo integrado 6 é um sinal de vídeo de 3 componentes de cor e é codificado como tal. Especificamente, ele usa os três componentes de cor R, G e B que, no exemplo específico, são indicados como tendo cada um 12 bits, isto é, cada valor de componente de cor é representado por 12 bits. Na Figura 2, o preenchimento é especificamente representado como sendo executado em um codificador separado 7, mas um versado na técnica considerará que isso pode ser feito por outras unidades funcionais e, em particular, o codificador pode formar uma parte do integrador 5 que pode, em algumas modalidades, executar as duas funções simultaneamente.

[00114] No exemplo, cada pixel pode ser apenas vídeo ou pode ser legenda ou menu, então, é suficiente usar para o valor A uma simples representação binária de 0 ou 1, onde 0 pode denotar que o pixel é puro (não afetado) e 1 denotar que o pixel representa uma legenda ou menu (ou por exemplo, que representa qualquer objeto gráfico especial). Isso pode ser representado por um bit único e, dessa forma, para esse pixel, o valor pode ser fornecido em um dos LSBs. No exemplo, o canal azul é usado, porque a visão humana é menos sensível a essas informações, e, portanto, o impacto percentual da introdução de um pequeno erro no LSB é reduzido. Em outras modalidades outros canais de cor podem ser usados. Por exemplo, para uma codificação YUV, poderíamos, por exemplo, usar um dentre os componentes U ou C, se necessário.

[00115] Em muitas modalidades, como aquelas ilustradas na Figura 2, há uma rota alternativa para determinar as informações sobre a integração e especificamente para encontrar o valor A. Em vez do integrador 4 fornecer diretamente o sinal MIS com as informações de integração A' para o codificador 7, um comparador pode ser usado para comparar um ou mais dos sinais 2, 3 e/ou 4 antes de se integrar ao sinal integrado 6. Dessa forma, a propriedade de integração pode ser determinada em resposta a uma comparação do sinal de vídeo integrado 6 a um ou mais dos sinais de entrada do integrador 7. Por exemplo, se para um pixel, o sinal de imagem de vídeo de entrada 2 é comparado ao sinal de vídeo integrado 6 e os dois sinais são iguais, então, pode-se supor que o dito pixel seja vídeo puro e nenhuma integração aconteceu do sinal de imagem de entrada com uma sobreposição. O valor de A para o dito pixel pode, então, ser definido como, por exemplo, 0 indicando “pixel é vídeo puro”. Se o sinal de vídeo de entrada 2 e o sinal de vídeo integrado 6 forem diferentes, então, a integração ocorreu. O valor de A para o dito pixel pode, então, ser definido como, por exemplo, 1 indicando “pixel é do tipo misto”. Esse esquema de comparação fornece informações sobre a integração que não está vindo do integrador 5 diretamente, mas em comparação entre os sinais antes de após a integração. Essa comparação pode ser feita em um comparador que pode ser parte de ou acoplado ao integrador 5 ou ao codificador 6. Comparações mais complexas também podem ser feitas. É claro que qualquer combinação dessas possibilidades pode também ser usada. Por exemplo, o integrador 5 pode, no sinal MIS, fornecer uma indicação mais aproximado (por exemplo, indicando se o pixel representa o vídeo puro - isto é, o sinal de imagem de vídeo de entrada 2 sem qualquer contribuição de uma sobreposição - ou não) e se essa indicação mostra “não é vídeo puro”, então, uma comparação é feita entre um ou mais sinais de entrada e o sinal integrado para determinar mais detalhes da integração. As informações de integração determinadas são, então, codificadas em uma base de pixel por pixel em um ou mais LSBs.

[00116] Em uma modalidade um pouco mais complexa, o tipo de sobreposição pode também ser codificado, por exemplo, pode ser codificado se a sobreposição for uma legenda ou um menu. Nesse caso, mais de dois tipos de integração são possíveis e mais de um LSB é usado para codificar o tipo de integração. Dessa forma, nesse exemplo, o valor A pode adotar mais de dois valores e, consequentemente, é representado por mais de um bit único e, dessa forma, comunicado em uma pluralidade de LSBs. A Figura 3 ilustra esse exemplo onde, em cada componente de cor, o bit menos significativo é usado. Isso fornece três bits de informação que podem sinalizar no máximo oito tipos de integração (por exemplo, oito tipos de sobreposição com um indicando que não há sobreposição) (2 à 3a potência, porque nesse exemplo meramente esclarecedor, nós usamos os bits mais baixos de cada canal para a codificação de situação). O versado na técnica pode entender a partir disso como poderia se usar N bits do primeiro componente de cor, M do segundo e O do terceiro, de acordo com o que é tecnicamente preferencial para o sistema, dada a qualidade exigida da aparência do vídeo e do gráfico por um lado, e a quantidade desejada da codificação da situação para uma típica funcionalidade da transformação (e reconstrução da situação) de cor do receptor por outro lado. Dessa forma, o número exato de LSBs usados em diferentes canais de cor dependerá das preferências e exigências das modalidades individuais.

[00117] As Figuras 4 a 6 mostram outras modalidades do processamento de vídeo controlado para um fluxo de entrada de informações de vídeo.

[00118] A Figura 4 mostra uma modalidade com apenas dados de vídeo de LDR representando uma imagem de HDR sendo fornecida. Nesse exemplo, é feita a classificação dos dados de imagem de LDR 43 para serem mostrados diretamente em uma tela de LDR. Por exemplo, a fonte dos dados de imagem pode ter otimizado a faixa dinâmica para, por exemplo, uma tela de 100 nits e, dessa forma, se a imagem é apresentada em uma tela de LDR (com um brilho máximo de 100 nits), ela pode ser renderizada diretamente sem qualquer adaptação de faixa dinâmica ou outra classificação de cor. Entretanto, os dados de imagem de LDR ainda fornecem uma representação de uma imagem de HDR à medida que os dados possibilitam uma geração direta de uma imagem de HDR original através da aplicação de um mapeamento da faixa dinâmica. Dessa forma, conhecendo o mapeamento da faixa dinâmica, a extremidade receptora pode regenerar a imagem de HDR original.

[00119] Especificamente, na extremidade de transmissão ou da fonte, uma imagem de HDR pode ser submetida a uma classificação de cor (especificamente luminância) para gerar uma imagem de saída adequada ou otimizada para a apresentação em uma tela de LDR. Essa classificação pode proporcionar um mapeamento da faixa dinâmica ou função que especificamente pode ser uma função homogênea de um para um (reversível), por exemplo, relacionando diretamente uma luminância de entrada com uma luminância de saída. Como resultado, uma imagem de saída é gerada que pode ser apresentada diretamente em uma tela de LDR. Entretanto, os dados de imagem de LDR representam a imagem de HDR e, especificamente, fornecem uma representação da imagem de HDR a partir da qual a HDR original pode ser gerada ao se aplicar o mapeamento ou função de faixa dinâmica reversa. Dessa forma, se a imagem é representada pelos dados de imagem que possibilitam a apresentação direta em uma tela de LDR, ela ainda fornece uma representação da imagem de HDR (por exemplo, pode ser considerada uma codificação específica a imagem de HDR). Dessa forma, em contraste com abordagens convencionais em que apenas imagens de LDR são consideradas e em que os dados de imagem de LDR recebidos são derivados de (e representam) uma imagem de LDR, os dados de imagem de LDR do exemplo são, na verdade, uma representação de LDR de uma imagem de HDR. Dessa forma, no exemplo, os dados de imagem de LDR recebidos são ligados a ou associados a uma imagem de HDR original. Especificamente, no exemplo, as imagens de HDR para telas de HDR podem ser derivadas através da intensificação das imagens de LDR para fornecer representações de HDR.

[00120] O sistema de processamento de vídeo da Figura 4 serão considerados a seguir como um player de BD (disco de Blu-Ray) 41, mas deve-se considerar que podem existir outros dispositivos nas outras modalidades. O player de BD 41 recebe um fluxo de entrada de informações de vídeo, por exemplo, fluxo (stream) de dados de BD 42. O fluxo compreende tanto dados de vídeo de LDR 43 quanto dados de gráfico 44 para gerar gráficos (ou alternativa ou adicionalmente, os dados de gráficos poderiam vir de outro local, por exemplo, poderiam ser gráficos gerados no próprio player ou recebidos por uma conexão de rede, como a internet etc.).

[00121] Os dados de vídeo de LDR 43 (representando uma imagem de HDR) são processados no decodificador-LDR LDR-dec 45 fornecendo um sinal decodificado 46 (por exemplo, cores RGB lineares por pixel, derivadas de dados transformados de DCT de acordo com um padrão de codificação de vídeo MPEG ou similar que foi usado para armazenamento). Os dados de gráfico 44 são processados no decodificador gráfico GR-dec 47 e constituem uma sobreposição 48 que é usada no processador de sobreposição OVR 49 para sobrepor o sinal de vídeo para gerar o sinal de exibição de imagem integrado 50, por exemplo, um sinal HDMI, isto é, um sinal para ser enviado para a interface HDMI (ou qualquer outro sistema de comunicação de sinal de vídeo). Esse processador de sobreposição integra o vídeo a uma ou mais sobreposições, como legendas ou menus, e é, portanto, também chamado de integrador dentro da estrutura da invenção. O OVR reage, por exemplo, a um sinal enviado por um controlador remoto com o qual o espectador pode escolher, por exemplo, se quer ou não usar legendas e em caso positivo, em qual idioma, e ou iniciar um menu etc. O sinal de HDMI 50 é o sinal integrado a ser recebido por um dispositivo de exibição e que resulta em uma imagem que é exibida na tela do dispositivo de exibição, sendo que a imagem exibida na tela pode ter legendas e/ou partes do menu. No codificador 51, um ou mais bits menos significativos do sinal integrado são preenchidos com as informações integradas, como informações especificamente sobre se e/ou até que ponto o pixel individual está representando um vídeo ou sobreposição. As informações no respectivo LSB podem ser lidas no lado do decodificador e, dessa forma, informam ao decodificador sobre, por exemplo, o tipo de integração do pixel integrado (por exemplo, quais são os constituintes do pixel, isto é, que sinais são integrados ou se os sinais são, de fato, integrados) e/ou, por exemplo, os parâmetros de integração (por exemplo, indicando a razão de integração entre os sinais integrados). Em outras palavras, as informações nos LSBs podem ser valores indicando o que foi integrado (por exemplo, informações do tipo de integração, e/ou como os sinais de entrada foram integrados (por exemplo, a quantidade de integração para, por exemplo, pixels que são mixados ou os tipos de pixel integrados). Conforme explicado acima, essas informações podem ser baseadas em informações fornecidas pelo integrador 49 e/ou por sinais de comparação antes e após a integração.

[00122] A Figura 5 mostra um exemplo de um processamento de vídeo que é controlado por dados de controle de processamento gráfico e um modo de exibição para um fluxo de entrada de informações de vídeo que inclui dados de vídeo de LDR e HDR. O sistema é similar ao da Figura 4. Entretanto, um recurso adicional é que o fluxo de dados de BD 42 tem tanto os dados de vídeo de LDR 43 como alvo na apresentação direta em uma tela de LDR quanto os dados de vídeo de HDR 52 representando dados de HDR adicionais. Os dados de vídeo de HDR 52 podem, por exemplo, fornecer informações sobre o mapeamento usado para gerar dados de imagem de LDR a partir da imagem de HDR original, por exemplo, mediante o fornecimento direto do mapeamento da faixa dinâmica ou a função de mapeamento da faixa dinâmica inversa. Em outras modalidades, os dados de HDR podem fornecer diretamente uma representação de HDR total ou parcial da imagem de HDR original (ou uma representação de HDR diferente da imagem de HDR original, por exemplo, em relação a um nível de brilho máximo diferente). De fato, em algumas modalidades, o sinal de imagem de vídeo de entrada 2 pode ser considerado como sendo um sinal de imagem de vídeo de HDR em virtude dos dados de imagem de HDR com os dados de imagem de LDR potencialmente não sendo uma representação de uma imagem de HDR.

[00123] Os dados de vídeo de HDR 52 podem, em algumas modalidades, especificamente definir, por exemplo, apenas as funções de mapeamento de cor para transformar a representação de LDR no disco em uma representação de HDR. Entretanto, em outras modalidades, os dados poderiam ser diretamente imagens de HDR em um sistema de codificação de imagem dupla, ou partes de imagens (por exemplo, fornecido apenas para regiões de alto brilho das imagens de LDR etc.). O sistema de processamento de vídeo inclui um decodificador de HDR HDR-54 para decodificar o sinal de HDR. Em algumas modalidades, um dos ou ambos os decodificadores podem ser usados, por exemplo, dependendo de se uma imagem de LDR ou HDR deve ser enviada pela interface HDMI. Alternativamente, em algumas modalidades ou cenários, o sinal pode apenas compreender um sinal de HDR.

[00124] Em ambas as Figuras 4 e 5, os dados gráficos (informações sobre as sobreposições) são partes do sinal de entrada. Deve-se considerar que, em muitas modalidades, é possível que os dados gráficos sejam gerados dentro do VPS. No sistema, o sinal de vídeo e uma ou mais sobreposições são integrados e isso não é limitado a dados gráficos ou sobreposições sendo fornecidos em qualquer forma específica ou de qualquer fonte específica. A integração fornece um sinal em que o vídeo e uma ou mais sobreposições são integradas, fornecendo, assim, ao menos alguns pixels um valor de pixel integrado.

[00125] Os valores de pixel integrados por si não fornecem diretamente informações sobre o que foi integrado ou como a integração foi executada (isto é, a quantidade de integração de cada pixel).

[00126] Em algumas modalidades, a integração pode ser uma integração de seleção para cada pixel. Dessa forma, para cada pixel, o valor de pixel de um dos sinais de entrada, isto é, ou dos dados de vídeo de entrada ou de uma das sobreposições, é selecionado para cada pixel. Por exemplo, para uma região de legenda, o integrador pode selecionar os valores de pixel de saída como valores de pixel de entrada da sobreposição da legenda. Entretanto, fora da região de legendas, o integrador pode selecionar os valores de pixel da imagem de vídeo de entrada. Dessa forma, a imagem integrada é gerada compreendendo os valores de pixel de sobreposição de legendas nas regiões de legendas e os valores de pixel de imagem nas partes restantes da imagem. Em outras modalidades, os valores de pixel podem, por exemplo, ser gerados pela combinação de valores de pixel da imagem de entrada e uma ou mais das sobreposições. Por exemplo, uma soma ponderada pode ser feita entre os valores de pixel da imagem de entrada e os valores de pixel da sobreposição de legendas. O peso dos valores de pixel de sobreposição de legendas pode, por exemplo, refletir um nível de transparência da legenda.

[00127] Deve-se considerar que as informações de sobreposição não precisam ser fornecidas como imagens totais ou parciais que compreendem um conjunto de valores de pixel, mas podem ser fornecidas de qualquer forma adequada, como, por exemplo, um conjunto de letras da quais os valores de pixel podem ser determinados com base em uma representação gráfica armazenada de cada letra.

[00128] Tratando-se de saída, os dispositivos convencionais que fornecem uma integração da sobreposição e do vídeo são os dispositivos de caixa preta, que fornecem uma saída, mas o que aconteceu dentro do dispositivo não pode ser deduzido da saída. Entretanto, nos exemplos descritos, um ou mais bits menos significativos são ocupados por informações sobre a integração que foi executada e, dessa forma, fornecem uma maneira de baixa complexidade para fornecer compreensão do processo que foi executado no integrador. Em outras palavras, do ponto de vista de um decodificador, o dispositivo/integrador não formam mais uma caixa preta, mas, em vez disso, é fornecida compreensão da operação de integração.

[00129] Isso possibilita que o lado do decodificador faça adaptações que são mais ajustadas às características de integração reais do sinal integrado, isto é, o que foi integrado e/ou como em uma base de pixel a pixel. Em particular, isso possibilita que o decodificador faça uma adaptação da faixa dinâmica que pode ser otimizada para as características individuais e especificamente a natureza dos objetos de imagem individuais.

[00130] A Figura 6 mostra uma outra modalidade exemplificadora. O exemplo corresponde àquele descrito em relação às Figuras 4 e 5, mas com o recurso adicional de que o sinal de BF 42 compreende também informações 55 para uma tela de HDR sobre como adaptar dinamicamente o sinal 50. Dessa forma, as informações específicas sobre a adaptação de faixa dinâmica podem ser incluídas. Essas informações podem, por exemplo, ser sob a forma de metadados fornecidos com o sinal de vídeo, em que os metadados podem codificar, por exemplo, funções de intensificação da luminância para alternar as luminâncias das cores de pixel de, por exemplo, a imagem de LDR. Como outro exemplo, ela pode codificar um mapeamento da faixa dinâmica que mapeia de uma imagem de HDR para uma imagem de LDR. Essa abordagem pode ser adequada para um cenário em que as imagens de HDMI são imagens de HDR e podem possibilitar que o sinal seja apresentado em uma tela de LDR por esse mapeamento da imagem de HDMI para uma representação de LDR adequada. O sistema de processamento de vídeo pode, então, passar essas informações para a tela.

[00131] A Figura 7 ilustra ainda uma outra modalidade exemplificadora. Nesse exemplo, o sistema de processamento de vídeo 41 gera adicionalmente um sinal 56 que compreende informações sobre quais bits menos significativos são usados e que tipo de informações podem ser obtidas a partir desses bits. Dessa forma, no exemplo, são fornecidos dados que descrevem como as informações integradas são codificadas no sinal de vídeo integrado.

[00132] Pode ser vantajoso comunicar, por exemplo, no início de um vídeo (por exemplo, um filme, comercial, vídeo de YouTube etc.) qual sistema de codificação é usado para fornecer as informações integradas. Os mesmos, por exemplo, três LSBs podem, então, nos vários cenários, ser usados para codificar diferentes aspectos, por exemplo, se forem usadas apenas legendas simples, um esquema de mixagem simples pode ser comunicado indicando se os pixels individuais são legendas ou pixels de imagem. Se, por exemplo, os gráficos complexos em um retângulo do menu forem usados, a codificação pode possivelmente refletir propriedades de fundo do menu etc.). O versado na técnica entenderá que esquemas dinâmicos podem ser usados. Por exemplo, no início de um filme, o esquema de codificação para os menus de disco de BD pode ser comunicado, mas se durante o filme, o usuário acessar menus de aparelho, um esquema diferente de codificação pode ser comunicado, o que é mais adequado para os menus de aparelho. Durante um tempo determinado (ou, por exemplo, até outras informações serem fornecidas), esse novo esquema de codificação pode ser usado. O sinal 56 pode também fornecer informações alteradas, por exemplo, em algum vídeo proprietário, um “1” no bit menos significativo pode significar “legenda opaca”, mas no início do dito sinal de vídeo (ou, por exemplo, na metade do vídeo), o sinal 56 pode indicar que a indicação de “integração tipo 1” significa outra coisa para esse vídeo ou desse ponto no vídeo pode significar, por exemplo, mixagem transparente ou fundo de caixa de um gráfico etc. Em resumo, o sinal 56 pode proporcionar informações sobre as quais os bits são usados para fornecer informações de integração e/ou sobre como os bits são usados para fornecer essas informações de integração. Ele pode especificamente fornecer informações sobre como as informações podem mudar com o tempo, por exemplo, de cena para cena ou de vídeo para vídeo.

[00133] Um exemplo específico de um uso de sobreposições será descrito a seguir.

[00134] Nesse exemplo, um menu a ser adicionado a uma imagem é parcialmente transparente de modo que a imagem possa ser parcialmente vista através do menu (a imagem “brilha” através do menu). De acordo com algumas modalidades, oferecendo suporte a esse menu, o codificador 7 pode codificar um valor A representando a transparência do menu ou a mixagem do menu e do vídeo em vários LSBs e, no exemplo específico, nos três LSBs. A quantidade de integração por pixel pode, então, ser indicada no Valor A codificado nos três LSBs.

[00135] Um exemplo no qual 3 bits são usados é, por exemplo: onde o termo “gráfico” se refere à sobreposição, por exemplo, de uma legenda, menu etc.

[00136] Isso é um exemplo de uma modalidade em que apenas os LSBs são usados para indicar os parâmetros de integração indicativos de um grau ou nível de integração com valores de bit especificamente de 000 a 100 refletindo a quantidade de mixagem de vídeo e sobreposição.

[00137] Nos exemplos descritos até agora, os componentes de cor R, G e B foram mencionados.

[00138] Entretanto, as informações de vídeo podem também ser em outros formatos, como, por exemplo, um formato YUV, ou um formato RGBE, ou formatos em que camadas são usadas ou em que quatro cores são usadas etc. Nos diferentes formatos, a representação digital dos valores fornece componentes em que os valores são expressos em vários bits, e para HDR, o número de bits é tipicamente relativamente maior (tipicamente 12 ou mais). Dessa forma, as representações binárias dos valores incluem vários bits dos quais os bits menos significativos são chamados de LSBs.

[00139] Em muitas modalidades, os LSBs que têm o efeito menos visível são usados para codificação das informações de integração. Conforme mencionado anteriormente, em muitas modalidades, a codificação pode indicar não somente se uma sobreposição está presente ou não, mas também que tipo de sobreposição e/ou, por exemplo, a transparência da sobreposição.

[00140] Quais LSBs são usados para codificação podem ser predeterminados e podem, por exemplo, ser um padrão. Em tal caso, o codificador saberá como os dados de integração serão codificados e nenhuma informação adicional precisa ser adicionada ao sinal de vídeo. Em algumas modalidades, pode haver mais de uma forma possível de codificar as informações de integração nos LSBs e o player de BD/VPS pode adicionar informações sobre a codificação aplicada. Por exemplo, os metadados ou um marcador podem estar incluídos detalhando quais LSBs são usados para codificar quais informações.

[00141] No lado de decodificação, essas informações podem, então, ser lidas e os LSBs relevantes podem ser decodificados em conformidade.

[00142] Se houver vários métodos de codificação, por exemplo, de simples a mais complexos, e o codificador tiver a possibilidade de alternar dinamicamente os métodos, por exemplo, de pixel para pixel, de quadro para quadro ou de cena para cena, para obter o melhor resultado possível, o tipo de método usado pode, por exemplo, ser dinamicamente indicado como um valor em um ou mais dos LSBs, como metadados ou indicador. Uma opção seria usar os LSBs de pixels, por exemplo, da esquerda da linha superior do vídeo. O impacto perceptível disso é provavelmente aceitável e, de fato, em muitas modalidades, seria insignificante.

[00143] A Figura 8 ilustra um exemplo de como um decodificador da técnica anterior ou acionador de tela de vídeo pode processar um sinal de vídeo integrado. O sinal de vídeo integrado pode ser um sinal de vídeo integrado convencional ou pode ser um sinal de vídeo integrado fornecido por um sistema de processamento de vídeo, conforme anteriormente descrito. Dessa forma, pode ser o sinal de vídeo integrado 6 descrito anteriormente, que compreende as informações de integração em LSBs. No processador do decodificador de vídeo da técnica anterior da Figura 8, essas informações da propriedade de integração serão simplesmente ignoradas. O exemplo também ilustra que há uma retrocompatibilidade com a abordagem descrita.

[00144] No exemplo, a imagem integrada 6 deve ser exibida em uma tela de HDR e o codificador de vídeo inclui uma adaptação da faixa dinâmica para modificar a faixa dinâmica para ser adequada a uma tela de HDR. Entretanto, no exemplo, o decodificador na tela não tem funcionalidade para ler os LSBs e não pode gerar quaisquer informações de integração ou especificamente o valor A. Isso pode resultar no seguinte cenário.

[00145] Uma imagem de HDR é uma imagem que codifica as texturas de uma cena de HDR (que pode conter, geralmente, tanto regiões muito brilhantes quanto escuras), com informações suficientes para a codificação de alta qualidade das texturas de cor dos vários objetos capturados na cena, de modo que uma renderização de boa qualidade visual da cena de HDR possa ser executada em uma tela de HDR com brilho de pico elevado como, por exemplo, 5.000 nits. Uma imagem HDR típica compreende partes coloridas com muito brilho ou partes fortemente iluminadas em comparação com a iluminação média. Especialmente para as cenas noturnas, HDR se torna cada vez mais importante. A tela que recebe o sinal de HDR tenta melhorar o sinal de vídeo para corresponder às suas próprias características, incluindo, por exemplo, nível de brilho de pico. Para isso, a adaptação da faixa dinâmica é executada. Por exemplo, se o DR da tela for um tanto menor que o das imagens de HDR codificadas (isto é, a tela de DR de referência correspondente que é ótima para renderizar as imagens), o processamento pode reduzir as luminâncias de modo não linear, por exemplo, principalmente reduzir as luminâncias dos objetos mais brilhantes ao mesmo tempo em que mantém a dos objetos mais escuros constante e vice- versa, caso a tela seja mais brilhante (por exemplo, uma imagem de 5.000 nits a ser otimizada para uma tela de brilho de pico de 10.000 nits). O versado na técnica entenderá que, similarmente, por exemplo, uma imagem de HDR para uma tela de 3.000 nits pode ser calculada de uma imagem de entrada de classificação de 100 nits como imagem de partida.

[00146] Se o receptor/a tela não tem conhecimento das características do sinal de vídeo e/ou da classificação que foi aplicada, a imagem resultante pode não estar em linha com a intenção artística ou pode simplesmente ficar ruim. Portanto, de preferência, os parâmetros/instruções de adaptação da faixa dinâmica, como por exemplo, através do sinal 55, conforme mostrado na Figura 7, podem ser e, de preferência, são, incluídos no vídeo ou, de outro modo, transmitidos à tela para fornecer as informações de processamento para otimizar a qualidade da imagem para o nível de brilho de pico e outras características da tela na qual o sinal é exibido. Os parâmetros/instruções de adaptação da faixa dinâmica podem ser estáticos, isto é, ser válidos para um programa inteiro, ou dinâmicos, isto é, mudando de quadro para quadro ou (tipicamente) de cena para cena. Os parâmetros de adaptação podem operar na área total da imagem ou podem ser restritos a certas áreas da imagem.

[00147] Qualquer que seja o método pelo qual a adaptação da faixa dinâmica é executada, nos métodos e sistemas da técnica anterior, a adaptação da faixa dinâmica é executada em cada pixel da mesma maneira, isto é, ignorando que alguns pixels são de um tipo diferente, como uma mixagem com os gráficos. A adaptação, então, seria válida apenas para um tipo de pixel, por exemplo, tipicamente os pixels apenas de vídeo.

[00148] Na Figura 8, esse efeito é simulado por um espessamento das linhas e do texto.

[00149] É claro que essa não é uma representação real, mas apenas para fins ilustrativos. A imagem 6 é submetida a uma adaptação da faixa dinâmica DRA no adaptador da faixa dinâmica 71 para fornecer uma imagem adaptada 6a, e a imagem adaptada 6a é exibida na tela de um dispositivo de exibição de HDR. Por si só, não há problemas na exibição da imagem adaptada, os dados estão sob a forma de dados padronizados e podem ser adaptados e, então, exibidos. Na Figura 8, um ou mais dos LSBs dos componentes do sinal são preenchidos com informações sobre as sobreposições. O decodificador exemplificador na Figura 8, entretanto, supostamente sendo um decodificador padrão, não pode ler as ditas informações.

[00150] No exemplo da Figura 8, os dados de vídeo recebidos são usados diretamente sem se levar em consideração as informações de integração contidas nos LSBs (ou, de fato, sem que o decodificador de vídeo tenha qualquer conhecimento dessas informações sendo codificadas nos LSBs). Os bits menos significativos são tipicamente de nenhuma ou pouca significância, sendo que a tela tende a fornecer uma “imagem normal” quando é renderizada. Em outras palavras, com o uso dos LSBs para comunicar as informações, a desclassificação ou erro resultante da inclusão ou integração é provavelmente insignificante em muitas modalidades e cenários.

[00151] Por exemplo, quando RGB 444 é usado na interface HDMI com 14 bits por componente e com uma resolução de vídeo de componentes de cor de 12 bits, há normalmente seis bits (3x2) “supérfluos” ou bits não usados para cada pixel. Dessa forma, seis (por exemplo 14-12=2 bits por componente vezes três componentes) bits estão, no total, disponíveis para sinal de informações de integração sem introduzir qualquer erro ou ter qualquer impacto sobre os valores de pixel codificados. Em resumo, o método de codificação das informações de integração pode, em muitas modalidades, ser obtido enquanto mantém um sistema que é retrocompatível. Se mais bits estiverem disponíveis na interface do que o necessário para o vídeo original, a introdução dos dados de propriedade de integração pode ser obtida sem qualquer efeito negativo, já que, de outro modo, bits não usados podem ser utilizados. Isso pode proporcionar retrocompatibilidade ao mesmo tempo em que possibilita que um novo decodificador use as informações de integração adicionais para, por exemplo, melhorar a renderização das, por exemplo, legendas (conforme será descrito posteriormente).

[00152] Conforme descrito, a sobreposição (especificamente legendas e/ou um menu) será, na abordagem da técnica anterior da Figura 9, submetida a uma ou mais adaptações da faixa dinâmica DRA como a própria imagem de vídeo. Dessa forma, todas as partes são tratadas igualmente. Não há outra forma de fazer isso nos métodos e dispositivos conhecidos. Na Figura 8, isso é indicado por ter todas as linhas e texto uniformemente espessados.

[00153] Entretanto, as legendas podem, devido à adaptação da faixa dinâmica, ser diferentes dos tipos de legendas aos quais os espectadores estão acostumados. Na prática, as legendas muitas vezes tendem a ficar brilhantes demais e/ou podem começar a oscilar no brilho quando processadas, como no sistema da Figura 8.

[00154] A Figura 9 ilustra um exemplo de um aparelho para processar um sinal de vídeo de acordo com algumas modalidades da invenção. O aparelho pode especificamente ser uma unidade de tela, um decodificador de vídeo ou, de fato, uma tela. A seguir, o aparelho será descrito como um decodificador de vídeo, mas deve-se considerar que o aparelho não se limita a apenas decodificar um fluxo de imagem recebido. Em vez disso, o aparelho pode também executar a adaptação da faixa dinâmica que especificamente pode proporcionar uma adaptação de uma faixa de luminância de entrada para uma faixa de luminância de saída. Especificamente, a adaptação da faixa dinâmica pode adaptar uma imagem recebida de uma faixa dinâmica que corresponde a um primeiro brilho máximo ou nível de branco (por exemplo, dado em nits) para uma faixa dinâmica que corresponde a um segundo brilho máximo ou nível de branco (por exemplo, dado em nits).

[00155] A adaptação da faixa dinâmica pode, por exemplo, ser de dados de imagem com referência a uma faixa dinâmica LDR para dados de imagem com referência a uma faixa dinâmica de HDR. Dessa forma, a adaptação da faixa dinâmica pode ser de uma faixa de LDR para uma faixa de HDR. Em outras modalidades, a adaptação da faixa dinâmica pode ser de uma faixa de HDR para uma faixa de LDR. Em ainda outras modalidades, a adaptação da faixa dinâmica pode ser, por exemplo, de uma faixa de HDR para uma faixa de HDR. Em ainda outras modalidades, a adaptação da faixa dinâmica pode ser, por exemplo, de uma faixa de LDR para uma faixa de LDR.

[00156] No exemplo, um sinal de vídeo integrado 6 é fornecido por um sistema de processamento de vídeo, conforme anteriormente descrito. Dessa forma, o sinal de vídeo integrado 6 compreende as informações de integração em LSBs de um ou mais componentes de cor para ao menos alguns pixels. Dessa forma, uma entrada recebe um sinal de vídeo de HDR integrado. Conforme anteriormente descrito, o sinal de vídeo é um sinal de vídeo de HDR no sentido em que fornece uma representação de uma imagem de HDR/sequência de vídeo subjacente. Entretanto, os dados de vídeo reais podem ser referência para uma faixa dinâmica de LDR e podem, especificamente, ser uma imagem de LDR gerada por um mapeamento ou classificação de cor de uma imagem de HDR. Entretanto, aplicando-se o mapeamento inverso, a imagem de HDR original pode ser gerada e, dessa forma, o sinal de vídeo recebido é inerentemente uma representação de uma imagem/vídeo de HDR.

[00157] O sistema compreende adicionalmente um leitor 72 que é disposto de modo a ler ao menos um ou mais bits menos significativos para um ou mais componentes de cor do sinal de vídeo para um dado pixel. O leitor 72 é, então, disposto de modo a gerar um ou mais valores A da leitura dos bits menos significativos, onde o um ou mais valores A indicam uma propriedade de integração para o dado pixel. A propriedade de integração é indicativa de uma propriedade de uma integração no sinal de vídeo de HDR de um ou mais sinais de sobreposição 3, 4 com um sinal de imagem de vídeo 2 para esse pixel. Especificamente, o valor A para um dado pixel é indicativo da operação de integração executada pelo integrador no codificador para esse pixel.

[00158] O leitor 72 é acoplado a um adaptador 71 que é disposto de modo a adaptar o vídeo e é especificamente disposto de modo a executar a adaptação da faixa dinâmica para imagens do sinal de vídeo. Adicionalmente, o adaptador 71 é disposto de modo a adaptar os valores de pixel dependendo do valor ou valores (A) gerados. Dessa forma, o adaptador 71 recebe os valores de pixel que são referência para uma dada faixa dinâmica de entrada (como uma faixa de LDR de, por exemplo, 100 nits) e para gerar novos valores de pixel que são referência para uma outra faixa dinâmica de saída (como uma faixa de LDR de, por exemplo, 1.000 nits). Entretanto, o adaptador 71 não aplica o mesmo mapeamento ou função da faixa dinâmica a todos os pixels, mas, em vez disso, modifica o mapeamento/função da faixa dinâmica dependendo das propriedades de integração recebidas para os pixels. Por exemplo, um mapeamento diferente pode ser aplicado a pixels de vídeo puro dos que são aplicados a pixels de legenda (conforme indicado pelos valores A).

[00159] O adaptador 71, dessa forma, gera um sinal de saída que é referenciado para uma faixa dinâmica diferente do sinal de vídeo integrado recebido. Esse sinal pode, então, ser alimentado para uma tela adequada para renderizar essa faixa. Por exemplo, uma imagem de LDR recebida pode ser convertida em uma imagem de HDR e renderizada em uma tela de HDR.

[00160] Entretanto, como a adaptação é feita dependendo da integração executada no lado do codificador, uma adaptação substancialmente melhorada pode ser executada resultante de imagens de tela que são percebidas como sendo de qualidade muito maior. Por exemplo, o brilho das legendas pode ser reduzido para níveis mais adequados sem comprometer a renderização da imagem subjacente e/ou a tremulação dos elementos gráficos pode ser reduzida.

[00161] No exemplo da Figura 9, a adaptação da faixa dinâmica DRA é, dessa forma, feita dependendo do valor A. O valor A é lido no leitor 72 do decodificador e um sinal 73 indicando esse valor A (diretamente ou após a conversão para uma outra forma) é fornecido para o adaptador da faixa dinâmica 71 que, então, adapta os valores de pixel dependendo desse valor A. O adaptador da faixa dinâmica 71 pode, em algumas modalidades, ser provido do sinal 55 (consulte a Figura 7) fornecendo, assim, informações de como executar a adaptação dinâmica, isto é, que funções de luminância ou mapeamento de cor aplicar aos valores de pixel de imagem de entrada para obter a imagem de saída da faixa dinâmica desejada. Alternativamente, o aparelho (tela) pode usar seu próprio método para fazer a adaptação da faixa dinâmica, isto é, a adaptação da faixa dinâmica e a dependência do valor A podem ser determinadas no aparelho sem que qualquer informação de adaptação específica seja recebida de uma fonte externa (exceto para os valores de propriedade de integração A).

[00162] O aparelho decodificador da Figura 9 pode ser dotado de um sinal 56 que inclui informações sobre a codificação dos valores de propriedade de integração no componente de cor. Especificamente, o sinal 56 pode fornecer informações sobre quais bits compreendem quais informações. No exemplo específico, o sinal 56 pode, por exemplo, incluir as informações que indicam: “O bit menos significativo do componente de cor azul é usado para codificar as informações de propriedade de integração com '0' indicando que o pixel é um pixel de vídeo e '1' indica que o pixel é um pixel de sobreposição.”

[00163] O adaptador 71 pode ser disposto de modo a executar a adaptação em resposta a esses valores. Especificamente, os pixels que têm um valor de “1” no LSB do componente de cor azul não são submetidos a uma alteração na faixa dinâmica ou ao menos não são submetidos à mesma adaptação da faixa dinâmica dos pixels de vídeo. Consequentemente, os pixels indicados por um “1” no LSB do canal azul não têm sua luminância, por exemplo, intensificada (ou é, por exemplo, intensificada de modo diferente). Na Figura 9, isso é indicado pelas partes da imagem na tela que são pixels de vídeo, isto é, os pixels tendo um valor de “0” no LSB do componente azul, têm linhas espessadas, enquanto as partes que têm um “1” no LSB do componente azul (nesse exemplo, legendas e menus) têm linhas mais finas. Os menus e as legendas são, então, exibidas de uma maneira não intensificada. Isso pode melhorar substancialmente a qualidade da imagem percebida em muitas modalidades.

[00164] No sistema, o leitor 72 é disposto de modo a gerar informações dos valores de LSBs dos componentes de cor. O leitor 72, dessa forma, lê os LSBs relevantes, possivelmente guiados por um sinal 56 que indica ao leitor 72 quais LSBs ler e/ou como interpretá-los. O leitor 72, então, gera um ou mais valores A de propriedade de integração a partir dos LSBs. Esses valores são usados no adaptador 71 para guiar ou controlar a adaptação.

[00165] As abordagens descritas podem proporcionar desempenho melhorado e, em particular, uma experiência de usuário melhorada em muitos cenários. A abordagem pode, em particular, fornecer uma renderização melhorada do vídeo combinado (compreendendo tanto as imagens subjacentes quanto a sobreposição) em telas que exigem que a adaptação da faixa dinâmica seja executada. De fato, em algumas modalidades, uma renderização substancialmente melhorada das imagens de uma tela de HDR pode ser obtida com base no vídeo de entrada que é obtido para uma tela de LDR. Dessa forma, o desempenho melhorado pode ser obtido para muitas modalidades em que a adaptação da faixa dinâmica é usada para aumentar a faixa dinâmica. De modo similar, em algumas modalidades, uma renderização substancialmente melhorada de imagens de uma tela de LDR pode ser obtida com base no vídeo de entrada que é obtido para uma tela de HDR. Dessa forma, o desempenho melhorado pode ser obtido para muitas modalidades em que a adaptação da faixa dinâmica é usada para reduzir a faixa dinâmica.

[00166] Com a prevalência aumentada de telas com faixa dinâmicas variadas (e especificamente com níveis de brilho máximo variados), a necessidade da adaptação da faixa dinâmica está se tornando cada vez mais distribuída e necessária (adaptação da faixa dinâmica é, em geral, chamada de classificação de cor ou mapeamento de tonalidade em que a classificação de cor/mapeamento de tonalidade pode especificamente ser a classificação da luminância com apenas as luminâncias sendo alteradas). Entretanto, a adaptação entre as diferentes faixas dinâmicas e níveis de brilho máximo (manchas brancas) é inerentemente algo muito difícil de se obter. De fato, convencionalmente, essa adaptação da faixa dinâmica tem sido executada por uma pessoa manualmente (ou em alguns casos semi-automaticamente) otimizando as imagens individuais para uma dada mancha branca na tela. Por exemplo, ao se converter imagens de filme para televisão, uma redução substancial da faixa dinâmica é tipicamente necessária e, portanto, uma classificação de cor manual para, tipicamente, uma faixa dinâmica de LDR foi executada (por exemplo, ao se converter um filme em DVD). Mesmo para um versado na técnica, essa adaptação da faixa dinâmica é muito difícil e a otimização é muito demorada. Adicionalmente, a abordagem inerentemente possibilita apenas a adaptação da faixa dinâmica para uma, ou ao menos algumas, as faixas dinâmicas/manchas brancas com cada faixa dinâmica exigindo uma criação manual separada.

[00167] À medida que a variedade de faixas dinâmicas que está em uso aumenta substancialmente, essa abordagem não é mais possível ou ao menos não é desejável tanto em termos do recurso necessário para executar essa classificação de cor quanto em termos do recurso necessário para distribuir múltiplas versões do mesmo conteúdo. Consequentemente, a classificação de cor local e automatizada executada em dispositivos individuais está se tornando cada vez mais popular. Por exemplo, muitas telas compreendem funcionalidade para executar uma classificação de cor automática/adaptação da faixa dinâmica para modificar um sinal de vídeo recebido para a faixa dinâmica específica/ponto branco da tela. Isso é, em particular, importante para telas de HDR que, por motivos de compatibilidade (incluindo retrocompatibilidade) geralmente incluem funcionalidade para adaptar diferentes sinais de entrada da faixa dinâmica para a faixa dinâmica específica que correspondem à mancha branca da tela. Especificamente, a maioria das telas de HDR incluem uma funcionalidade de mapeamento de LDR para HDR.

[00168] Entretanto, a tarefa de criar imagens adequadas para diferentes faixas dinâmicas é muito difícil.

[00169] Para representar imagens em um formato adequado para uma dada faixa dinâmica, é com frequência usada para empregar uma função de atribuição de código ou função de transferência eletro-óptica (EOTF). Essa função de atribuição de código ou EOTF fornece um mapeamento entre os valores (digitais) e uma saída de luz correspondente, isto é, a função de atribuição de código para uma dada imagem/faixa fornece um mapa dos valores de luminância linear de HDR para os códigos de luma quantizados adequados. Os valores de luminância linear de HDR são com frequência representados como, por exemplo, valores de ponto flutuantes com um número relativamente alto de bits por valor (por exemplo, 16 bits). Em contraste, os códigos de luma quantizados geralmente representam valores de luma por um número relativamente baixo de bits (por exemplo, 8 bits) e com frequência como valores de número inteiro.

[00170] Deve-se observar que a diferença entre LDR e HDR não é apenas o tamanho da faixa dinâmica, em vez disso, a distribuição relativa das intensidades na maioria das cenas é também substancialmente diferente para as representações de LDR e HDR.

[00171] De fato, as imagens/vídeo de HDR geralmente têm uma distribuição de intensidade diferentes das imagens/vídeo convencionais (LDR). Especialmente a razão de luminância de pico-para-média dos dados de imagem de grande faixa dinâmica é muito maior. Portanto, as curvas de atribuição de código ou EOTFs convencionalmente aplicadas tendem a ser sub-ideais para os dados de HDR. Dessa forma, se um mapeamento de LDR convencional dos valores de luminância de HDR para os valores de luma codificados é usado, geralmente ocorre uma degradação de imagem significativa. Por exemplo, a maioria do conteúdo da imagem pode apenas ser representado por alguns valores de código já que um grande número de códigos são reservados para a faixa de brilho aumentada que é, entretanto, geralmente usada apenas para alguns objetos de imagem muito brilhante.

[00172] O vídeo de faixa dinâmica padrão atual, destinado a ser exibido em um monitor de referência de, por exemplo, brilho de pico de 100 cd/m2, é usualmente codificado em domínios de luma/luminância padrão atuais, que são especificados com o uso de curvas de log ou funções de atribuição de código/EOTFs. Exemplos disso são as curvas usadas para dados logarítmicos sRGB ou ITU Rec. 709.

[00173] Imagens/vídeo de HDR geralmente têm uma distribuição de brilho diferente (por exemplo, quando definidas como luminância renderizada da tela) das imagens da faixa dinâmica padrão atual. Por exemplo, enquanto a distribuição do conteúdo de vídeo atual tipicamente atinge seu máximo em torno de 20% de brilho de pico (o que significa que os códigos de luma são adequadamente espalhados ao redor da metade de, por exemplo, 255 valores), o conteúdo de HDR pode, com frequência, geralmente atingir seu máximo em uma porcentagem muito mais baixa, por exemplo, 1% de brilho de pico (dados de ao menos as regiões mais escuras das imagens de HDR espalhadas ao redor do código em 1/100° do máximo do código). Dessa forma, a maior parte do conteúdo de HDR relevante será contida em apenas alguns dos níveis de vídeo de 8 bits ou 10 bits quando é codificado com o uso de curvas de log padrão atual. Isso vai levar a artefatos de quantização graves e inaceitáveis na imagem de pré-visualização, impedindo, assim, que o colorista faça classificação de cor/corrija as imagens de HDR.

[00174] Consequentemente, se as funções de atribuição de cor convencionais forem usadas para imagens de HDR para gerar códigos adequados de telas existentes com esses formatos de entrada de 8 bits ou 10 bits, uma qualidade substancialmente reduzida da imagem exibida resultará, por exemplo, na maioria das intensidades presentes na imagem sendo distribuídas sobre apenas alguns níveis de entrada.

[00175] A função de atribuição de código, que mapeia as luminâncias da luz linear para como elas devem ser vistas na renderização da tela para os códigos técnicos reais, ou vice-versa, entretanto, tem sido ampla e convencionalmente baseada nos modelos de LDR (como gama 2.2), mas foi ideal apenas para as telas de LDR do brilho de pico de cerca de 100 nits ou cd/m2 (de agora em diante, ambos os termos nit e cd/m2 serão usados). Se essas abordagens forem usadas para uma tela de HDR (por exemplo, com um brilho de pico de 5.000 nits), é arriscado observar artefatos, como bandas nas partes mais escuras do vídeo (por exemplo, bandas em um céu azul escuro, especialmente, para desvanecimentos).

[00176] Consequentemente, para melhor sustentar as imagens de HDR, uma curva de atribuição de código adequada deveria ser usada de modo que um número suficiente de níveis de quantização seja atribuído à maioria dos dados de vídeo importantes.

[00177] Entretanto, encontrar uma função de atribuição de código adequada não é de importância crítica apenas, mas também difícil. De fato, um desafio na determinação das funções de atribuição de código é como melhor mapear entre os valores de luminância de entrada e códigos de luma. De fato, isso é uma questão crítica já que o mapeamento selecionado tem um forte impacto sobre a qualidade resultante (por exemplo, devido ao erro de quantização). Além disso, o impacto sobre a qualidade da imagem pode ser dependente das características e propriedades das imagens sendo codificadas/decodificadas bem como do equipamento usado para renderizar as imagens.

[00178] É claro, a abordagem mais simples deveria simplesmente usar uma quantização uniforme. Entretanto, essa abordagem tende a resultar em um desempenho sub-ideal em muitos cenários. Consequentemente, as funções de atribuição de código foram desenvolvidas, sendo que uma quantização não uniforme foi aplicada. Isso pode especificamente ser feito pela aplicação de uma função não linear (mapeamento de código luma/função de mapeamento de tonalidade) aos valores de luminâncias de entrada seguidos de uma quantização linear. Entretanto, conforme mencionado, descobriu-se que as funções definidas em muitos cenários fornecem um resultado sub-ideal. Por exemplo, aplicar uma função de atribuição de código às imagens de HDR para, por exemplo, possibilitar que sejam processadas pelos circuitos de LDR com um número relativamente baixo de bits por valor (tipicamente 8 bits) tende a resultar em conversão sub-ideal da imagem de HDR e especificamente nos valores de imagem sendo concentrados ao redor de alguns níveis/códigos de quantização.

[00179] Em um certo sentido, a adaptação da faixa dinâmica pode ser vista como uma conversão de uma função de atribuição de código associada a uma faixa dinâmica/brilho máximo para uma outra função de atribuição de código associada a uma outra faixa dinâmica/brilho máximo. Os códigos que representam a imagem antes e após a adaptação da faixa dinâmica podem ter um número igual ou diferente de bits.

[00180] As questões podem ser ilustradas considerando-se o cenário para uma imagem exemplificadora (consultar a Figura 10) ilustrando uma cena noturna que compreende um monstro escuro 1001 escondido na sombra próximo a uma casa com iluminação média 1003 com algumas lâmpadas de rua brilhantes 1005 na frente. Além disso, um carro cinza médio ou escuro 1007 pode estar presente.

[00181] A Figura 10 ilustra três representações dessa imagem. Do lado esquerdo, é mostrado o brilho real (em nits) da cena na vida real (conforme capturado por uma câmera de HDR que, no exemplo, pode capturar o brilho de até 5.000 nits ou pode tipicamente representar uma classificação de HDR mestre de faixa de referência de 5.000 nits de uma captura de câmera original). Os dados capturados são tipicamente capturados em uma alta resolução e são tipicamente reduzidos a um número de valores relativamente baixos. No exemplo específico, 1024 códigos de luma estão disponíveis para representar a faixa de até 5.000 nits. Um mapeamento linear simples de 5.000 nits em 1024 códigos de luma, entretanto, não é adequado, já que isso resultaria em muito poucos valores disponíveis para proporcionar a diferenciação nas áreas escuras, enquanto que um número desnecessariamente grande de códigos estaria disponível para as áreas de brilho. Isso introduziria artefatos, como bandas em áreas escuras etc.

[00182] Em vez disso, uma função de atribuição de código não linear 1009 (EOTF) é usada

[00183] , e especificamente a OETF definida em SMPTE2084 é usada (que é uma função em formato de log-gama). Como resultado, mais códigos são atribuídos a áreas escuras e menos a áreas brilhantes. Conforme ilustrado, isso resulta na distância em valores de código entre o monstro 1001 e o carro 1007 sendo maior que a distância entre a casa 1003 e o carro 1007 apesar de que o contrário é verdadeiro para o brilho na cena real (quando medido em nits). De modo similar, a diferença de códigos entre a luz da rua brilhante 1005 e a casa 1003 é reduzida. A OETF da SMPTE2084 (de agora em diante chamada de SMPTE2084) foi projetada para uma faixa dinâmica (brilho máximo) de 1.000 nits, e, dessa forma, se a imagem for exibida em uma tela de 1.000 nits, a OETF 2084 pode ser usada para decodificar os valores de luma recebidos diretamente.

[00184] Entretanto, se a tela tiver uma faixa dinâmica, que decodifica com o uso de OETF 2084 e diretamente (linearmente) altera em escala essa faixa dinâmica da tela, é improvável que forneça resultados adequados. Em vez disso, como a percepção humana não é linear em relação aos níveis de brilho essa abordagem resultaria em um resultado indesejado. Por exemplo, para uma faixa dinâmica maior (por exemplo, 5.000 nits), isso resultaria em muitos objetos brilhantes (mas não excessivamente brilhantes) (como a casa 1003) sendo renderizados como sendo brilhantes (demais). De modo similar, para uma faixa dinâmica menor (por exemplo, 100 nits), isso resultaria em muitos objetos brilhantes (mas não excessivamente brilhantes) (como a casa 1003) sendo renderizados como sendo escuros (demais).

[00185] Em alguns cenários, os dados podem, assim, também ser fornecidos (por exemplo, em um disco de Blu-Ray) que é relacionado a uma EOTF que é associada a uma faixa dinâmica diferente. Por exemplo, a Figura 10 ilustra uma EOTF alternativa que é adequada para a combinação de imagem de HDR quando a imagem de LDR é necessária para renderização direta (por exemplo, o mapeamento entre o terceiro e o primeiro eixos, isto é, a combinação de dois mapeamentos sucessivos). Como pode ser visto, um número ainda maior de códigos são atribuídos aos valores de escuro com poucos sendo fornecidos para valores de brilho. O exemplo específico pode, por exemplo, ser usado para fornecer um aspecto de classificação SDR (isto é, adequado para a apresentação de LDR) que usa uma EOTF gama convencional 2,2. Essa representação pode, por exemplo, ser usada diretamente por uma tela de LDR existente.

[00186] Em alguns sistemas, foi proposto o uso de uma EOTF adaptável, isto é, a EOTF pode variar no tempo (entre diferentes quadros) e/ou espacialmente (entre diferentes áreas da imagem).

[00187] Dessa forma, em alguns cenários, pode-se usar uma abordagem espacialmente diferenciada onde mais de uma EOTF pode ser fornecida a uma imagem. Por exemplo, a imagem pode ser dividida em algumas regiões (por exemplo, uma correspondendo a uma região escura e a uma correspondendo a uma região de brilho da imagem) e uma EOTF pode ser fornecida para cada região. Isso pode possibilitar que a EOTF seja otimizada para as diferentes características de diferentes partes da imagem e pode proporcionar renderização melhorada de algumas imagens (como imagens que incluem regiões muito escuras e muito brilhantes).

[00188] Por exemplo, para a região que corresponde à área escura que inclui o monstro 1001, pode-se usar uma EOTF que tenha um número muito grande de códigos atribuídos aos valores de escuro. Isso pode aumentar localmente a resolução na faixa escura fornecendo, assim, a diferenciação melhorada (por exemplo, permitindo que o monstro seja visto apesar de toda a região ser escura). Ao mesmo tempo, uma EOTF diferente pode ser fornecida para uma região que foi identificada como sendo mais brilhante. Por exemplo, uma EOTF diferente pode ser fornecida para a região mais brilhante ao redor do carro. Essa EOTF que é usada para, por exemplo, a região mais brilhante que compreende o carro pode ter menos códigos atribuídos aos valores de escuro e mais códigos na faixa intermediária. Novamente, isso pode melhorar a diferenciação e reduzir as bandas etc. Usando-se essa abordagem, possibilita-se, assim, a representação melhorada da cena como um todo (com, por exemplo, erro de quantização reduzido). De modo similar, a EOTF pode, em alguns casos, ser adaptada entre os quadros de modo que, por exemplo, forneça um número maior de códigos para uma faixa de escuro para imagens escuras que para as imagens brilhantes.

[00189] Entretanto, tipicamente, apenas uma EOTF é fornecida por imagem/quadro e tipicamente apenas uma EOTF é fornecida para um grupo de imagens/quadros e, de fato, apenas uma EOTF é fornecida para a sequência de vídeo. A descrição a seguir vai se concentrar em uma EOTF sendo fornecida para cada imagem e para uma sequência de imagens. Entretanto, um problema específico com a sobreposição pode ocorrer quando as EOTFs adaptáveis são usadas, e isso pode ser descrito em mais detalhes a seguir.

[00190] Deve-se considerar que o sinal de vídeo integrado 6 pode ser representado por códigos de luma correspondendo a uma das EOTFs descritas. Deve-se observar, também, que se, por exemplo, um sinal de imagem de vídeo compreender códigos de luma com base em uma EOTF ligada a uma faixa de SDR, ainda será possível recriar os valores de HDR originais dos códigos de luma e que, consequentemente, a imagem ainda será uma representação de uma imagem de HDR.

[00191] Dessa forma, se uma tela receber um sinal de vídeo de acordo com uma EOTF associada a uma faixa dinâmica específica, pode ser desejável executar uma conversão de faixa dinâmica se a faixa dinâmica não corresponder à da tela. Entretanto, conforme mencionado, esse não é um caso simplesmente de fornecer uma alteração de escala linear. Em vez disso, para refletir o sistema visual humano, a adaptação da faixa dinâmica deveria tipicamente ser não linear (embora possivelmente linear em relação às partes). Por exemplo, o brilho dos níveis escuros não deve ser tipicamente aumentado apesar da faixa dinâmica ser tipicamente aumentada. Em outras palavras, os sinais escuros com frequência não são significativamente comprimidos em uma classificação de cor para as telas de LDR. Os níveis de brilho de nível intermediário, entretanto, devem ser tipicamente intensificados de certa forma no brilho embora seja importante que a intensificação não seja muito substancial, já que isso pode criar um aspecto artificial com muitas áreas de brilho. Entretanto, em contraste, objetos de muito brilho devem ser muito substancialmente intensificados e, de fato, para os objetos mais brilhantes (como uma luz de carro em uma imagem escura) deve ser definido o nível máximo. Consequentemente, um mapeamento da faixa dinâmica progressiva é tipicamente usado onde a faixa dinâmica adicional e o brilho aumentado são em geral predominantemente usados para aumentar o nível de brilho para elementos mais brilhantes. Deve-se considerar que muitos mapeamentos de diferentes faixas dinâmicas podem ser possíveis.

[00192] Um exemplo de um mapeamento da faixa dinâmica é ilustrado na Figura 12. No exemplo, um mapeamento linear reto é fornecido para todos os valores de brilho abaixo de um limite e um mapeamento linear diferente é fornecido a todos os valores de brilho acima do limite. A abordagem pode resultar em uma intensificação relativamente modesta (ou nenhuma intensificação) para os níveis de brilho escuro e médio enquanto áreas muito brilhantes são substancialmente mais intensificadas. Esse efeito reflete condições de brilho típico no mundo real bem como a percepção do sistema visual humano.

[00193] Entretanto, esse mapeamento da faixa dinâmica fornece apenas uma aproximação da classificação ideal. Uma questão é que a curva é relativamente simples e, consequentemente, em geral, não pode refletir o mapeamento da faixa dinâmica ideal. Um outro problema é que o mapeamento da faixa dinâmica se baseia em suposições do conteúdo de imagem sendo exibido, e, assim, é otimizado para uma típica imagem pressuposta de uma cena da vida real. Entretanto, para outras imagens, ou outros tipos de conteúdo, a curva pode proporcionar um desempenho abaixo do ideal com degradação com frequência significativa.

[00194] De fato, os inventores se deram conta de que um problema específico muitas vezes ocorre com dados de sobreposição. Por exemplo, algumas vezes, gráficos sobrepostos são exibidos como objetos de imagem brilhante que se sobressaem na imagem subjacente. Entretanto, enquanto os objetos brilhantes na imagem devem ser intensificados de modo substancial (se tornando “super brilhantes”), essa adaptação da faixa dinâmica resultará em que a o brilho da sobreposição dos gráficos será desagradável e, às vezes, até mesmo desconfortável. Dessa forma, a aplicação da mesma adaptação da faixa dinâmica tende a resultar em efeitos altamente indesejáveis para os gráficos de sobreposição.

[00195] Em muitas modalidades, a adaptação da faixa dinâmica é executada na tela. Isso possibilita que a adaptação da faixa dinâmica seja adaptada para características específicas da tela individual e pode possibilitar que a tela seja usada com uma grande variedade de fontes. Em muitas telas, os gráficos de sobreposição (por exemplo, um menu de tela) podem ser gerados pela tela e sobrepostos na imagem recebida. Essas sobreposições são tipicamente renderizadas em um brilho adequado determinado localmente e levando-se em conta a faixa dinâmica da tela.

[00196] Entretanto, se os gráficos de sobreposição são introduzidos externamente à tela, por exemplo, por um conversor, a tela simplesmente recebe uma imagem que compreende tanto a imagem original quanto os gráficos. A tela, então, realiza a adaptação da faixa, resultando na renderização desagradável do gráfico de sobreposição. Por exemplo, se as legendas são adicionadas por um tocador de BD, elas serão frequentemente apresentadas em um brilho desconfortável em uma tela de HDR.

[00197] A questão pode ser particularmente problemática para imagens em que os gráficos sejam mixados com a imagem original como, por exemplo, quando legendas semitransparentes são usadas. A sobreposição semitransparente pode, nesse caso, aumentar o brilho dos pixels correspondentes, por exemplo, resultando no brilho que excede o limiar do mapeamento da faixa dinâmica da Figura 12. Como resultado da combinação de imagem e sobreposições, uma intensificação de alto brilho pode, consequentemente, ser fornecida. Como resultado, a imagem subjacente percebida pode ser distorcida e, tipicamente, a sobreposição pode ser percebida como brilhante demais. Por exemplo, para uma imagem de uma face com legendas sobrepostas, uma adaptação da faixa dinâmica padrão pode não apenas resultar em legendas brilhantes demais mas também na face aparecendo mais brilhante na área na qual as legendas são mostradas do que no resto da face. Dessa forma, o resultado é uma aparência não natural.

[00198] A questão pode, ainda, ser adicionalmente exacerbada quando a EOTF adaptável é usada. Por exemplo, em alguns cenários, uma EOTF diferente pode ser usada para áreas mais escuras em vez de para áreas brilhantes. Aplicar uma adaptação da faixa dinâmica fixa a esse cenário (por exemplo, com um mapeamento fixo dos valores de luma de entrada aos valores de luma de saída) seguida de uma interpretação dos valores adaptados com base na EOTF local, resultará na intensificação eficaz da sobreposição de gráfico sendo diferente para diferentes partes dos gráficos. Por exemplo, a adaptação da faixa dinâmica pode mapear um valor de luma de 723 (por exemplo, em relação a uma faixa de 1.000 nits) para um valor de, por exemplo, 617 (por exemplo em relação a uma faixa de 5.000 nits). Entretanto, esse valor pode ser interpretado para uma EOTF de área escura para corresponder a, por exemplo, de 110 nits para uma EOTF de área escura ser interpretada para corresponder a, por exemplo, 150 nits. Dessa forma, se uma sobreposição de gráfico se estender sobre ambas as áreas escura e brilhante, a luminância do gráfico mudará, de fato, quando exibida, apesar de não ser essa a intenção. Dessa forma, a flutuação vai ocorrer ao longo da sobreposição do gráfico.

[00199] O mesmo vai ocorrer quando EOTFs são aplicadas que são adaptáveis na dimensão do tempo. Nesses cenários, o brilho dos gráficos vai mudar entre diferentes quadros resultantes, por exemplo, em legendas de pulsação sendo geradas.

[00200] Isso pode ser ilustrado pelo exemplo da Figura 22, que ilustra duas possíveis EOTFs que podem ocorrer em diferentes momentos. No exemplo, a EOTF chamada de TM1 pode ser uma EOTF fornecida em um primeiro quadro, e a EOTF chamada de TM2 pode ser uma EOTF recebida para um segundo quadro. As duas EOTFs, dessa forma, representam dois mapeamentos diferentes de faixa dinâmica que são aplicados a diferentes quadros de uma sequência de vídeo.

[00201] No exemplo, TM2 é um mapeamento da faixa dinâmica (EOTF e também às vezes chamada de um mapeamento de tonalidade) para as luminâncias de pixel de vídeo recebidas (ou lumas) em um primeiro momento no tempo. O mapeamento é, na verdade, destinado ao conteúdo de vídeo subjacente (isto é, projetado para fornecer um aspecto desejável quando o vídeo é apresentado). Entretanto, se um pixel compreende sobreposição, isso resulta no fato do pixel ter uma luminância mais brilhante (1-alfa)*vid(x,y) +alfa*graf(x,y) (por exemplo, porque algum texto brilhante ou cor de menu foi mixado com o vídeo subjacente). Embora o processamento com TM2 possa não aumentar o valor muito acima da luminância dos pixels de vídeo circundantes, o mapeamento da faixa dinâmica faz com que as regiões de gráfico/sobreposição não se tornem rapidamente muito brilhantes. Se, em vez disso, TM1 for usado, então, as partes de sobreposição ficariam muito brilhantes, já que a contribuição adicional da sobreposição empurra a luminância de entrada a um nível em que é intensificado muito agressivamente pela TM1.

[00202] Portanto, se os mapeamentos da faixa dinâmica fornecida (EOTFs) mudam dinamicamente com o tempo, a apresentação dos pixels de sobreposição (por exemplo, legendas e menus) mudará entre diferentes quadros. Isso seria visto pelo espectador como, por exemplo, um texto de menu branco oscilando entre valores escuro e brilhante meramente porque foi mixado com o vídeo, mas que pode ser indesejado para essa região. Em vez disso, algumas modalidades da abordagem atual possibilitam a detecção de tais pixels, e, então, a renderização em uma luminância limitada Lim vid, por exemplo, 20% sempre mais brilhante para os pixels de gráfico do que a luminância de entrada recebida(1-alfa) *vid(x,y) +alfa*graf(x,y); ou, por exemplo, 50% mais brilhante para o texto em um menu e 10% mais brilhante para os pixels de gráfico de fundo no retângulo do menu.

[00203] Dessa forma, a adaptação da faixa dinâmica para corresponder a uma tela específica é muito desafiadora para o vídeo padrão mas é particularmente difícil para sinais integrados que compreendem sobreposições de gráfico. De fato, as abordagens convencionais em que os gráficos são simplesmente adicionados a um dispositivo separado externo à tela tendem a levar a artefatos substanciais que são introduzidos e, em particular, tendem a levar a, por exemplo, distorções e variações de luminância para os gráficos.

[00204] Foi proposto em WO2014/130213 que a sobreposição dos gráficos, isto é, a integração dos gráficos com o vídeo, deveria ser feita dependendo das informações fornecidas ao dispositivo externo pela tela. Dessa forma, no sistema proposto em WO2014/130213, a tela comunica os dados ao dispositivo externo em relação ao dispositivo externo, por exemplo, se a tela é uma tela de LDR ou HDR. Em resposta, o dispositivo externo adapta as propriedades da sobreposição de gráficos antes da integração e, então, fornece a imagem integrada à tela que prossegue para exibir a imagem como seria uma imagem sem qualquer sobreposição de gráficos. Dessa forma, na abordagem, a tela simplesmente trata todas as imagens da mesma forma, mas o dispositivo externo pode, antes da integração, adaptar a sobreposição de gráficos com base em dados de propriedade da tela recebidos da tela.

[00205] Nos sistemas das Figuras 1 a 7 e 9, uma abordagem diferente é usada. Nesses exemplos, a integração pode ser feita sem considerar as características específicas da tela, isto é, o dispositivo externo pode não ter qualquer informação da tela específica que está sendo usada. Nenhuma adaptação dos componentes individuais antes da integração é executada. Entretanto, o dispositivo externo fornece informações de propriedade integradas à tela que podem ser usadas pela tela para executar uma adaptação da faixa dinâmica adaptável para redirecionar a imagem a ser exibida com a faixa dinâmica específica da tela.

[00206] Dessa forma, na abordagem atual, uma estrutura de seguir em frente é aplicada, sendo que o dispositivo externo da fonte (por exemplo, um tocador de BD) fornece informações adicionais à tela que pode controlar ou guiar a adaptação da faixa dinâmica da tela. Isso contrasta com a abordagem de retroinformação da técnica anterior em que a adaptação da faixa dinâmica fixa é usada e em que apenas uma modificação de uma sobreposição de gráfico antes da integração e com base nas informações alimentadas a montante é executada.

[00207] A abordagem fornece inúmeras vantagens. Primeiro, em muitas modalidades, ela possibilita que uma imagem substancialmente melhorada seja gerada com renderização de sobreposições de gráfico e/ou imagem sendo mais precisamente adaptadas à tela específica. Por exemplo, EOTFs que refletem diretamente as propriedades da tela individual podem ser usadas. De fato, a adaptação da faixa dinâmica pode, em muitas modalidades, ser individualmente otimizada para, respectivamente, o conteúdo de imagem e o conteúdo de sobreposição. Por exemplo, para pixels sendo designados como pixels de vídeo ou imagem, um mapeamento da faixa dinâmica de vídeo pode ser aplicado que reflete um mapeamento otimizado (de alguma forma) do conteúdo de imagem para a faixa dinâmica específica (e outra característica da tela). Para pixels designados como pixels de sobreposição, um mapeamento da faixa dinâmica de gráficos pode ser aplicado para fornecer uma renderização das sobreposições de gráfico.

[00208] Dessa forma, em muitas modalidades, a abordagem pode possibilitar uma adaptação da faixa dinâmica individualmente otimizada para respectivamente conteúdo de vídeo/imagem e para sobreposições de gráfico.

[00209] A abordagem pode, em particular, possibilitar que o controle sobre a adaptação da faixa dinâmica permaneça com a tela, isto é, a tela compreenda a funcionalidade para adaptar uma faixa dinâmica de entrada para a faixa dinâmica da tela. Isso pode ser altamente vantajoso como mapeamentos de faixa dinâmica e, de fato, a EOTF pode ser otimizada para as características exatas da tela. Isso pode, frequentemente, proporcionar um mapeamento mais flexível e controle sobre as sobreposições de gráficos e, em particular, em áreas em que as contribuições estão presentes para ambos o vídeo e o gráfico (especificamente os gráficos transparentes). A tela pode, por exemplo, definir os gráficos para um brilho predeterminado (por exemplo, definido pelo usuário da tela).

[00210] Além disso, em muitas situações, a fonte melhorada é disponível para uma tela. Por exemplo, geralmente, as televisões são itens de custo relativamente alto, enquanto, por exemplo, muitos tocadores de BD são itens de custo relativamente baixo. Consequentemente, as televisões frequentemente têm substancialmente mais recursos computacionais e, de fato, os recursos financeiros disponíveis para design e desenvolvimento podem ser substancialmente maiores. Portanto, a adaptação da faixa dinâmica das televisões pode frequentemente ser melhor que aquela dos players de BD mais baratos. A abordagem descrita possibilita que a adaptação da faixa dinâmica seja executada mais a jusante de onde a integração está sendo executada em vez de exigir qualquer adaptação antes da integração. Isso possibilita que essa adaptação da faixa dinâmica melhorada seja usada também para imagens integradas que compreendem sobreposições.

[00211] A abordagem, dessa forma, possibilita que uma adaptação da faixa dinâmica a jusante seja adaptada para os pixels individuais e, especificamente, possibilita que seja adaptada à propriedade de integração específica do pixel individual. De fato, em algumas modalidades, a adaptação individualmente otimizada do conteúdo da imagem e gráfico pode ser obtida a jusante da integração.

[00212] A adaptação da faixa dinâmica exata e o mapeamento da faixa dinâmica que é executada e, de fato, a dependência da propriedade de integração pode variar entre as diferentes modalidades dependendo das preferências e requisitos da modalidade individual.

[00213] A seguir, algumas possíveis abordagens do adaptador 71 serão descritas e, em particular, alguns exemplos do mapeamento da faixa dinâmica diferenciado, que dependem das propriedades de integração serão descritos. Entretanto, deve-se considerar que essas são apenas modalidades exemplificadoras e que outras abordagens podem ser usadas em outras modalidades.

[00214] Em algumas modalidades, a propriedade de integração indicada pelo valor A pode refletir se o pixel correspondente é um pixel de imagem/vídeo ou se é um pixel gráfico de sobreposição. Dessa forma, nesse exemplo, um pixel pode ser considerado corresponder a um pixel de imagem/vídeo subjacente ou pode ser um pixel de sobreposição. Em tal exemplo, o adaptador 71 pode ser disposto de modo a aplicar um primeiro mapeamento da faixa dinâmica se o pixel for indicado para ser um pixel de vídeo e um segundo mapeamento da faixa dinâmica diferente se o pixel for indicado para ser um pixel de sobreposição.

[00215] Por exemplo, o primeiro mapeamento da faixa dinâmica pode mapear uma faixa dinâmica de LDR de entrada que proporciona uma intensificação muito agressiva para os altos níveis de brilho. Por exemplo, um mapeamento correspondente ao da Figura 12 pode ser usado para o primeiro mapeamento da faixa dinâmica. Em contrapartida, o segundo mapeamento da faixa dinâmica pode ser uma função linear simples que não proporciona uma intensificação adicional aos altos níveis de brilho. De fato, o segundo mapeamento da faixa dinâmica pode ser um mapeamento de identidade simples resultando no brilho dos pixels de sobreposição que é exatamente igual, se apresentados em uma tela de LDR ou em uma tela de HDR. Dessa forma, como resultado dessa abordagem, uma representação de cena de HDR pode ser obtida com, por exemplo, fontes de luz de brilho, como luzes de rua ou o sol sendo mostrados em níveis de brilho de HDR muito altos, enquanto a sobreposição, como legendas, ainda é mostrada em níveis de brilho normais.

[00216] Como um exemplo específico dessa abordagem, uma propriedade de integração pode ser gerada que, por exemplo, pode indicar que o pixel é um pixel de sobreposição. A fonte da sobreposição pode ser de, por exemplo, um gerador gráfico local, como um gerador gerando legendas ou um menu. Alternativamente, a sobreposição pode ser recebida como parte de um segundo sinal de imagem de vídeo, sendo que esse sinal pode compreender o conteúdo de sobreposição, como, por exemplo, gráfico ou legendas.

[00217] Nesse cenário, o adaptador 71 pode ser disposto de modo a adaptar os pixels dentro de uma região para a qual é indicado que os pixels sejam o conteúdo sobreposto de modo que os valores de luminância sejam restritos a uma dada faixa predeterminada. Isso pode assegurar que a sobreposição seja apresentada dentro de uma faixa de brilho razoável independentemente das capacidades de brilho da tela.

[00218] A faixa predeterminada pode, por exemplo, para uma tela, ser uma faixa predefinida que reflete a dinâmica da tela. Por exemplo, a faixa pode ter um limite superior de, por exemplo, 10% do brilho de pico e um limite inferior de, por exemplo, o maior de 1% do brilho de pico e 1 nit. Alternativa ou adicionalmente, a faixa predeterminada pode ser determinada pelo espectador etc.

[00219] Deve-se considerar que a abordagem pode ser prontamente estendida a mais de duas categorias com um mapeamento de faixa dinâmica separado sendo selecionado para cada categoria. Por exemplo, o valor A para um pixel pode indicar se o pixel é um pixel de vídeo, um pixel de legenda ou um pixel de menu e um dos três possíveis mapeamentos da faixa dinâmica podem ser consequentemente selecionados. Nesse exemplo, a categoria de gráficos é, dessa forma, subdividida adicionalmente em uma pluralidade de subcategorias indicando um tipo de gráfico específico.

[00220] Deve-se considerar também que a abordagem não se limita a uma atribuição rígida de um determinado pixel para uma categoria específica sendo indicada pelo valor A. Por exemplo, o valor A pode indicar um peso do gráfico em relação à imagem para um determinado pixel. O adaptador 71 pode, então, selecionar o primeiro mapeamento da faixa dinâmica se for abaixo, por exemplo, de 50% e o segundo mapeamento da faixa dinâmica for acima de, por exemplo, 50%.

[00221] Em muitas modalidades, o adaptador 71 pode ser disposto de modo a reduzir uma intensificação de valores de brilho para pixels para os quais o valor A é indicativo do pixel pertencente a uma sobreposição em relação a uma intensificação dos valores de brilho para pixels para os quais o valor A é indicativo do pixel pertencente ao sinal de vídeo/imagem. A redução pode ser para valores de brilho mais altos que especificamente podem ser valores de brilho acima de um limite (por exemplo, de 50%, 60%, 70% ou 80% do nível de brilho máximo do sinal de entrada do adaptador 71).

[00222] Em algumas modalidades, o adaptador 71 pode ser disposto de modo a restringir um nível de brilho para pixels indicados para ser pixels de sobreposição para um nível de brilho limite abaixo do nível de brilho máximo possível para a saída da adaptação da faixa dinâmica. Especificamente, a adaptação da faixa dinâmica pode executar um mapeamento da faixa dinâmica de uma faixa dinâmica de entrada para uma faixa dinâmica de saída. A faixa dinâmica de saída pode ter um nível máximo possível de brilho. Entretanto, para pixels que pertencem a uma categoria de sobreposição (conforme indicada pelo valor A), o mapeamento da faixa dinâmica é restrito a um nível de brilho máximo ou limite que seja menor que o nível máximo. O nível de brilho limite de um pixel de sobreposição é, dessa forma, menor que para um pixel de não sobreposição (vídeo) e, em muitas modalidades, pode não haver limite de brilho para pixels de vídeo (exceto para o valor máximo da faixa dinâmica de saída).

[00223] Em algumas modalidades, o mesmo mapeamento da faixa dinâmica pode ser aplicado a todos os pixels independentemente da propriedade de integração (isto é, independentemente do valor A) até um determinado nível de brilho. Entretanto, para valores acima desse nível de brilho, um mapeamento da faixa dinâmica diferente pode ser aplicado para diferentes valores da propriedade de integração. Como um exemplo específico, o mesmo mapeamento da faixa dinâmica pode ser aplicado a todos os pixels exceto que o nível de brilho de saída máximo é limitado a um valor máximo para os pixels de sobreposição.

[00224] Essa abordagem pode, por exemplo, proporcionar um mapeamento eficaz que fornece resultados agradáveis e possibilitam, por exemplo, suporte de gráficos de cinza para uma tela de HDR enquanto garantem que os gráficos brilhantes não fiquem muito cinza.

[00225] Em algumas modalidades, o adaptador 71 pode ser disposto de modo a atribuir substancialmente o mesmo nível de brilho a pixels que são indicados para ser pixels de sobreposição. Por exemplo, um mapeamento da faixa dinâmica normal pode ser aplicado aos pixels de vídeo, sendo que os pixels gráficos são simples dado um valor predeterminado. Essa abordagem pode resultar em um resultado muito agradável, sendo que não apenas uma apresentação adequada (para a tela) de gráficos é obtida, mas também essa apresentação é garantidamente estável. Por exemplo, essa abordagem seria insensível às alterações adaptáveis na EOTF aplicada e impediria flutuações da imagem ou entre quadros.

[00226] A Figura 11 ilustra um método de acordo com algumas modalidades exemplificadoras da invenção.

[00227] Na etapa 101, os dados de imagem integrados (o sinal de vídeo integrado 6) são recebidos. Um ou mais dos LSBs são, então, lidos na etapa 102 por um leitor 72. Um valor A indicativo de uma propriedade de integração para uma integração executada no lado do codificador é, então, gerado na etapa 103. Na etapa 104, a adaptação da faixa dinâmica é executada na imagem, dependendo do valor A gerado. A imagem resultante é a exibida na etapa 105.

[00228] Deve-se considerar que, por exemplo, as etapas 102 e 103 podem ser executadas em uma única etapa. Deve-se considerar ainda que o método pode compreender etapas adicionais, por exemplo, metadados ou indicadores podem ser lidos. Como exemplo, o sinal 56 pode ser lido como uma entrada e as informações recuperadas podem ser usadas para controlar a operação na etapa 102 e/ou 103, por exemplo, pode controlar quais valores A devem ser extraídos dos componentes de cor. Ele pode também controlar a operação na etapa 104, isto é, de que maneira a adaptação deve ser executada na etapa 104. Por exemplo, os metadados podem compreender as informações que indicam quais LSBs compreendem quais informações. Em algumas modalidades, o valor A gerado pode ser diretamente gerado como o valor dos bits menos significativos relevantes. Em outras modalidades, pode ser um valor derivado dos LSBs adequados.

[00229] Por exemplo, pode haver uma escolha de usar dois ou três LSBs para indicar transparência de uma sobreposição. O leitor 72 pode ler um valor que está na faixa de 0 a 3 (incluindo 3) para uma indicação de dois bits e de 0 a 7, incluindo 7, para um indicador de três bits.

[00230] A partir, por exemplo, dos metadados no sinal 56, o sistema de recepção pode então determinar se um indicador de dois ou três bits é usado, e pode usar isso para gerar, por exemplo, um valor de transparência (25%, 37%, 50% etc.). Esse valor A pode, então, ser usado na etapa 104.

[00231] Em muitas modalidades, o sinal de vídeo pode compreender metadados ou marcadores específicos, por exemplo, indicando como a propriedade de integração é codificada.

[00232] Se um quadro ou uma cena (ou mesmo um filme) não compreender qualquer sobreposição, então, poderá ser útil se o codificador adicionar essas informações ao sinal de vídeo. O decodificador pode, então, ler essas informações e com base nisso, pode, por exemplo, ignorar o quadro, cena ou filme seguinte já que sabe que não vai conter qualquer sobreposição. Dessa forma, o decodificador “sabe” que no quadro, cena ou filme seguinte, ele pode ignorar as etapas de leitura e geração e ir diretamente para a etapa 105 para executar a adaptação dinâmica. Ele pode, então, usar todos os bits do sinal como informações de vídeo, aumentando, assim, a qualidade do vídeo.

[00233] Um exemplo do método é o seguinte:

[00234] Um sinal de vídeo integrado 6 é fornecido gerado por um codificador 51, conforme descrito com referência às Figuras 4 a 7. No exemplo, um valor A de “1” é usado para indicar que um pixel é um pixel de vídeo e um valor de “0” é usado para indicar que um pixel é um pixel de sobreposição.

[00235] O decodificador recebe o sinal de vídeo integrado 6 e o leitor 72 (consultar a Figura 9) lê o valor de A:

[00236] Se A=0 para um pixel, então, esse pixel é um pixel de vídeo e na etapa 104, a adaptação dinâmica é executada. Para a maioria dos pixels, isso levará a uma mudança no valor.

[00237] Se A=1, nenhuma adaptação da faixa dinâmica será executada e o valores de pixel não será alterado. Dessa forma, todos os gráficos/sobreposições serão renderizados sem que a adaptação da faixa dinâmica faça qualquer mudança. Especificamente, como resultado, por exemplo, a sobreposição do branco não será intensificada para os níveis de brilho de HDR.

[00238] Esse é um exemplo de uma modalidade na qual o tipo de integração de pixels é indicado. No exemplo, dois tipos de integração são usados e, dessa forma, um valor binário é suficiente: vídeo puro (A=0) e vídeo não puro (A=1).

[00239] Uma variação desse esquema pode ser:

[00240] O vídeo puro é indicado por um valor A de “0”, um pixel de menu é indicado por um valor de “1”, e um pixel de legenda é indicado por um valor de “2”.

[00241] Se A=0 para um pixel, então, esse pixel é vídeo e uma adaptação da faixa dinâmica é executada, levando-se muitos pixels a uma mudança no valor.

[00242] Se A=1, então, esse pixel é um pixel de menu e o valor de pixel não é alterado.

[00243] Se A=2, então, esse pixel é um pixel de legenda, o receptor pode usar uma tabela indicando qual intensidade e, dessa forma, quais valores de componente fornecem a melhor visibilidade para legendas. Os valores de pixel são substituídos por esse valor.

[00244] Esse é um outro exemplo de uma modalidade na qual o tipo de integração ou categoria de pixels é indicado. Nesse exemplo, há três tipos de integração: vídeo puro (A=0), menu (A=1) e legenda (A=2)

[00245] Para pixels de menu, em algumas modalidades, pode haver também “melhores valores” (por exemplo, fornecidos por uma tabela diferente) e para pixels os valores de componente de sinal de entrada podem ser substituídos por esses valores.

[00246] Para mixagens de vídeo e sobreposição, por exemplo, que usa um valor de 0 a 7, 0 sendo 100% vídeo e 7 sendo 100% sobreposição, o resultado fica, por exemplo, entre os resultados das duas extremidades A=0 (apenas vídeo) e A=7 (apenas sobreposição). Por exemplo, para um valor de pixel com um valor A associado entre 0 e 7, o seguinte resultado pode ser determinado:

[00247] Valor de luminância (A)= Valor de luminância (A=0) + (A/7*(Valor de luminância(A=7) - Valor de luminância(A=0))

[00248] Ou, simplesmente, uma alteração de escala linear entre os dois valores de pixel extremos pode ser feita. A tela pode, então, alterar em escala a quantidade da modificação da faixa dinâmica dependendo do nível de transparência do pixel.

[00249] A alteração de escala pode, em algumas modalidades, ser não linear, por exemplo, se mais ênfase for dada ao vídeo ou à sobreposição. Por exemplo, o dispositivo pode ser em uma escala logarítmica.

[00250] Nesse exemplo, a adaptação depende do valor A para um pixel, isto é, um uma base de pixel a pixel. Em modalidades mais complexas, o decodificador pode analisar todos ou um grupo de valores A, ou a distribuição de valores A ao longo da imagem ou uma parte da imagem, e modificar a adaptação dinâmica de alguns (ou todos) os pixels (dependendo da análise dos valores de A na imagem). Por exemplo:

[00251] Se parte da imagem é um menu, a imagem, como um todo, pode ser exibida em LDR. Por exemplo, enquanto a área do vídeo ao redor do retângulo do menu pode executar uma intensificação concebida original, a tela pode aplicar as transformações de tal maneira que o menu fique ao redor de alguns valores de luminância (LDR), por exemplo, de modo que não seja mais brilhante que a luminância Yx e não possa ser mais escuro que Yy. Mesmo que uma estratégia relativamente tão simples não seja sempre calculada para os valores exigidos exatos para mixar cores, ela não tende a criar cores de menu mais realistas que oscilam com menos descontrole. Existem várias maneiras através das quais uma televisão pode calcular a transformação de cores de modo que o resultado final de todos os pixels fique dentro dos limites, por exemplo, pode fazer isso de modo iterativo.

[00252] O codificador pode fornecer (no sinal 56 ou em um sinal separado) algumas informações estatísticas sobre, por exemplo, as imagens em uma cena ou fotografia. Na forma mais simples, por exemplo, pode indicar se há ou não qualquer sobreposição em uma imagem ou mesmo no vídeo ou filme inteiro e se há ou não uma parte de menu (e, por exemplo, estatisticamente alguns parâmetros em relação à parte de menu podem se comunicar auxiliando o processamento dessa parte ou a identificação das suas propriedades de cor).

[00253] A Figura 12 ilustra esquematicamente uma adaptação da faixa dinâmica exemplificadora. A “adaptação da faixa dinâmica” pode ser considerada uma forma abreviada de qualquer tipo de transformação de cor de adaptação da faixa dinâmica, isto é, onde um sinal é uma cor transformada para adaptar sua luminância de uma faixa, por exemplo, um nível de brilho máximo de Y nits para uma outra faixa, por exemplo, um nível de brilho máximo de X nits. Uma transformação de cor não precisa (mas pode) incluir uma transformação ou alteração de saturação.

[00254] O eixo horizontal representa o valor de luminância para o sinal de entrada, que pode, por exemplo, ter a classificação para uma tela com um nível de brilho máximo de 2.000 nits. O sinal de entrada deve ser exibido em uma tela que pode fornecer um máximo de 5.000 nits. O sinal de entrada tem, neste exemplo, classificação para um valor de luminância máximo de 2.000 nits e deve ser mapeado, isto é, adaptado, para a faixa dinâmica mais alta da tela.

[00255] Isso é esquematicamente indicado pelo gráfico da Figura 12, que fornece os valores de luminância para a tela (OL, valores de luminância de saída) como função dos valores de luminância do sinal de entrada (IL, valores de luminância de entrada). A relação entre os dois é dada pela linha 110. O uso da adaptação/o mapeamento da faixa dinâmica ilustrados na Figura 12 resultará em partes mais escuras (valores de luminância próximos à extremidade inferior da escala) sendo renderizadas igualmente em todas as telas, conforme ilustrado na parte 110a da linha 110, enquanto as luzes brilhantes (luminâncias próximas à extremidade superior da escala) são intensificadas, isto é, com luminância aumentada, conforme ilustrado pela parte 110b da linha 110. Dessa forma, o gradiente da parte 110a pode, especificamente, ser um enquanto é mais alto para a parte 110b.

[00256] A faixa mais alta da tela é usada para intensificar os objetos brilhantes, como luzes.

[00257] Esse exemplo é de uma situação em que o sinal com classificação de 2.000 nits é aumentado para uma tela que pode fornecer até 5.000 nits de luminância.

[00258] Outros exemplos incluem: 1. A entrada é para 5.000 nits, a saída é de 100 nits (TVs antigas) ou cerca de 1.000 nits (TVs de HDR iniciais) e 2. A entrada é para 100 nits, a saída é de cerca de 1.000 nits.

[00259] Isso não deve ser interpretado como limitado a esse exemplo: Quando a tela tem uma faixa de luminância que não corresponde à faixa de luminância para a qual o sinal de entrada tem classificação, sendo maior ou menor, uma adaptação da faixa dinâmica pode ser feita e, dessa forma, o aumento da classificação (aumentando-se a faixa dinâmica) bem como a redução da classificação (reduzindo-se a faixa dinâmica) pode ser realizado.

[00260] A Figura 13 fornece um exemplo de um mapeamento da faixa dinâmica no qual o valor A pode ser 0 para um pixel do vídeo e 1 para uma legenda. O valor R é lido, se A=0, a adaptação da faixa dinâmica (DRA) é executada. Se A=1, então, a DRA não é executada (não DRA). Em outras palavras, a adaptação da faixa dinâmica pode aplicar um mapeamento da faixa dinâmica se A=0, que modifica os valores de brilho, mas se A=1, então, vai aplicar um mapeamento de faixa dinâmica direto, em que nenhum valor de brilho é alterado.

[00261] Como outro exemplo, os pixels de gráfico podem estar sujeitos a um mapeamento de faixa dinâmica fixa (mas não tanto quanto o vídeo), enquanto os pixels de vídeo são submetidos a um mapeamento de faixa dinâmica variável (diferente de cena para cena). O mapeamento de faixa dinâmica aplicado aos pixels de vídeo também pode ser mais complexo, por exemplo a curva pode ser mais inclinada e mais complexa.

[00262] A Figura 14 fornece um outro exemplo. Nesse caso, três valores são possíveis para o valor de A.

[00263] Se A=0, então, o pixel é um pixel de vídeo e uma adaptação da faixa dinâmica é executada correspondendo a um mapeamento adequado para imagens. Isso geralmente leva a alterações nos valores de muitos pixels (a DRA é executada).

[00264] Se A=1, então, esse pixel é de menu e o valor de pixel não é alterado (não corresponde a nenhum DRA).

[00265] Se A=2, isso indica que o pixel é um pixel de legenda. Nesse caso, a tela tem uma tabela que fornece informações sobre a intensidade e, dessa forma, os valores do componente que são considerados para fornecer a melhor visibilidade para as legendas. Os valores de pixel são, então, definidos para valores predeterminados com base em uma tabela de consulta (a tabela que fornece um valor fixo considerado melhor adequado para as legendas nessa tela).

[00266] Dessa forma, no exemplo, os pixels da imagem são submetidos a uma adaptação antes da imagem ser exibida. Os parâmetros de adaptação (isto é, como a adaptação é executada) são dependentes do valor ou valores lidos nos bits menos significativos, isto é, na propriedade de integração conforme indicado pelos valores de A. Se o valor for 0, então, a adaptação é diferente de quando A=1 e de quando A=2.

[00267] Nas modalidades acima, um número relativamente baixo de possíveis valores pode ser usado para o valor A. O valor pode ser, em geral, visto como qualquer combinação de bits que é usada para transmitir informações sobre a integração e, especificamente, sobre se ou não, e/ou até que ponto, um pixel é ou compreende uma sobreposição. Isso pode ser implementado de várias maneiras. Por exemplo, no exemplo acima, dois bits de um dos componentes de cor (que serão chamados de componente I) podem ser usados da seguinte forma: 0=vídeo 1=apenas menu 2=apenas legenda 3=tanto vídeo com legenda e/ou menu.

[00268] Nesse exemplo, ao menos um valor em um ou mais dos LSBs pode indicar um tipo de sobreposição.

[00269] Isso pode, novamente, ser um exemplo de uma indicação do tipo de mixagem.

[00270] Nesse exemplo, há quatro indicações de tipo de mixagem para “pixels puros”, por exemplo, A= 0, 1 e 2 e uma indicação de tipo para um pixel de tipo mixado, por exemplo, A=3 (com o termo “puro” indicando contribuições de apenas um dos sinais de entrada, isto é, ou da imagem de entrada ou de um dos sinais de sobreposição; e o termo “mixado” que indica uma contribuição de ao menos dois dos sinais).

[00271] Para o tipo mixado de pixels (quando A=3 nos dois LSBs mencionados), a transparência da legenda e/ou menu pode, então, ser dada em, por exemplo, dois dos bits menos significativos para dois outros componentes (que, para simplicidade, chamamos de II e III). Se os dois bits menos significativos do componente I têm um valor de “3”, isso indica que o pixel não é um pixel do tipo puro, mas, em vez disso, é um pixel do tipo mixado. Por exemplo, poderia ser 50% de vídeo e 50% de legenda de modo que a legenda tem uma transparência T de 50% (ou poderia ser, por exemplo, 50% de vídeo e 50% de menu). O leitor 56 pode, então, continuar a ler os dois bits menos significativos para os outros dois componentes II e III. Para um primeiro dos outros componentes, por exemplo, o componente II, o leitor 56 lê os dois bits menos significativos e determina um valor de 0. Isso indica, por exemplo, que não há contribuição das legendas na mixagem. Ele pode, ainda, ler o outro componente, neste caso, o componente III e pode, por exemplo, determinar o valor 2 estando presente nos dois menos significativos. Isso pode, por exemplo, indicar uma mixagem de 50% de vídeo e 50% de menu. Se, em vez disso, o pixel fosse 50% de vídeo e 50% de legenda, o leitor 56 leria um valor de 2 nos dois bits menos significativos do primeiro componente e um valor de 0 no outro.

[00272] Isso é um exemplo de uma modalidade na qual tanto a informação do tipo de integração é fornecida bem como os parâmetros de integração.

[00273] Isso tudo é dado como exemplo, sendo que muitas outras formas possíveis de codificação existem.

[00274] Um esquema ligeiramente diferente é usar as seguintes indicações: 0=vídeo 1=sobreposição ou mixagem de sobreposição e vídeo

[00275] Em um primeiro exemplo, apenas essas informações são usadas.

[00276] Esse esquema incorpora uma modalidade que frequentemente possibilita uma implementação de baixa complexidade com o uso apenas de um bit único enquanto fornece um uso eficiente do método. A única distinção feita é entre o vídeo e qualquer outra coisa, seja em uma sobreposição ou uma mixagem de sobreposição e vídeo e independente da natureza da sobreposição, seja legenda, menu, logo, propaganda etc.

[00277] Em modalidades ligeiramente mais complexas, a transparência da sobreposição é dada em, por exemplo, dois dos bits menos significativos em um outro componente.

[00278] Esse esquema incorpora uma modalidade que frequentemente possibilita uma implementação de baixa complexidade com o uso apenas de um número mínimo de bits, enquanto fornece um uso eficiente do método.

[00279] As modalidades acima e as outras modalidades da invenção podem ser executadas usando-se uma abordagem de codificação de comprimento variável.

[00280] Quando a integração ocorre, a abordagem fornece informações sobre a integração e especificamente pode fornecer informações sobre a quantidade de integração.

[00281] Entretanto, quando nenhuma integração ocorre, e, em particular, se o pixel é apenas vídeo, pode ser importante fornecer tanta informação sobre os valores de pixel quanto possível, isto é, sacrificar o mínimo possível de bits.

[00282] Em algumas modalidades, o número de LSBs dos componentes que indicam o tipo de pixel (isto é, se o pixel é vídeo, sobreposição, tipo de sobreposição e/ou uma mixagem dos mesmos) e/ou parâmetros de sobreposição (parâmetros de transparência ou parâmetros de mixagem) é variável dependendo do tipo de integração do pixel. Por exemplo, quando o pixel é apenas de vídeo, o número de LSBs é menor do que quando o pixel é uma mixagem.

[00283] Por exemplo, nos dois exemplos fornecidos acima, se a indicação é 0 nos dois bits menos significativos do componente I, indicando que o pixel é apenas de vídeo, então, os dois bits menos significativos dos componentes II e III não precisam compreender parâmetros de mixagem, já que não há mixagem.

[00284] Esses dois bits menos significativos podem ser usados para fornecer mais detalhes sobre os valores de luminância de pixel, isto é, podem ser usados para aumentar a resolução do valor.

[00285] Portanto, o número de LSBs usado para valores que indicam o tipo de integração e os parâmetros de integração pode variar possivelmente dependendo também do tipo de integração. Quando um método de codificação de comprimento variável é usado, é preciso saber, no lado do decodificador, quantos LSBs são usados. Para esta finalidade, o sinal pode ser fornecido juntamente com um sinal de comprimento de codificação. Há várias formas de se fornecer um sinal de comprimento de codificação. Uma abordagem simples para fornecer um sinal de comprimento de codificação pode ser usar o valor que também indica o tipo de integração. Nesse caso, o sinal de comprimento de codificação é dado pelo tipo de integração. Se o sinal for um sinal puro, ou do “tipo puro”, então, não há necessidade de informações sobre a quantidade de integração.

[00286] Para os tipos simples de pixel, como um vídeo puro ou legenda pura, nenhuma informação adicional é necessária. Entretanto, se os pixels do tipo mixado, por exemplo, o tipo de pixels que são formados pela mixagem de legenda com o vídeo, informações adicionais sobre a quantidade de integração (por exemplo, se é uma mixagem de 50%-50% ou uma mixagem de 25%-75%) pode ser útil e pode ser codificada em alguns LSBs. Se a composição do pixel é simples, isto é, nenhuma integração ocorreu, o número de LSBs necessário para fornecer todas as informações sobre a integração é menor do que para situações mais complexas.

[00287] No lado do decodificador, o decodificador lê os LSBs nos quais o tipo de integração de pixel é indicado e, então, prossegue dependendo do valor nos ditos LSBs. Se o tipo de integração indica que o pixel é do tipo misto, os LSBs que indicam os parâmetros de integração são lidos. A adaptação dinâmica é executada com base nas informações lidas. Se o tipo de integração indica o pixel como sendo apenas de vídeo, não há LSBs indicando o parâmetro de integração, mas, em vez disso, os ditos LSBs vão compreender informações de vídeo (valores de luminância, por exemplo) e o decodificador vai interpretá-los como tal.

[00288] De modo semelhante, se é indicado por um marcador que um quadro compreende apenas vídeo, não há LSBs no dito quadro necessários para transmitir informações sobre o tipo de integração e parâmetros de integração, e todos os LSBs para todos os pixels nos ditos quadros podem ser usados para transmitir informações de vídeo. Esse é um exemplo muito extremo de codificação de comprimento variável e uma forma de baixa complexidade para fornecer um sinal de comprimento de codificação.

[00289] Alternativa ou adicionalmente, um marcador pode indicar que na próxima cena, em vez de se usar apenas a indicação do tipo de integração, também será fornecida em 3 LSBs de um certo componente de cor, detalhes adicionais sobre a quantidade de integração. Isso novamente significa que um sinal de comprimento de codificação variável é fornecido do lado de decodificação.

[00290] Como outro exemplo, há vários esquemas de codificação possíveis que podem ser usados na codificação, que usam diferentes números de LSBs. No sinal 56, é fornecido um sinal que pode sinalizar ao lado de decodificação quando o codificador alterna de um esquema de codificação com o uso de um certo número de LSBs para transmitir informações de integração ao lado de decodificação para um outro esquema de codificação que usa um número menor ou maior de LSBs. Esse sinal pode também ser constituído de um sinal de comprimento de codificação.

[00291] Em algumas modalidades, as indicações de integração, isto é, as indicações da uma ou mais propriedades de integração podem ser inseridas em um ou mais LSBs de valores de componentes de cor, como em um valor de R, G ou B. Em algumas modalidades, esses valores podem ser subsequentemente codificados usando-se um formato de codificação sem perda de dados (ou não ser codificado mas transmitido diretamente de forma bruta) e, dessa forma, em tais modalidades, pode-se supor que os valores recebidos correspondam diretamente aos valores transmitidos, isto é, um decodificador pode supor que os bits recebidos sejam idênticos aos transmitidos. Nesse exemplo, consequentemente, os dados de integração podem, geralmente, ser admitidos como corretos no decodificador e podem, consequentemente, ser usados diretamente.

[00292] Em algumas modalidades, o valor do componente de cor pode ser codificado com o uso de uma codificação com perda de dados. Em algumas modalidades, pode-se ainda supor que os LSBs recebidos indicando a propriedade de integração ainda estejam corretos, isto é, os valores recebidos podem ser usados diretamente para determinar os valores A e a adaptação da faixa dinâmica pode ser consequentemente adaptada. Isso pode, às vezes, levar a erros, mas, em muitas modalidades, isso pode ser aceitável.

[00293] Em outras modalidades, outras abordagens de precaução podem ser usadas. Por exemplo, em algumas modalidades, a codificação de correção de erro dos dados de integração pode ser usada. Isso pode exigir bits adicionais. Como um exemplo de um código direto, um bit que indica se um pixel é um pixel de vídeo ou de sobreposição pode ser copiado para o LSB de ambos os valores R, G e B. O decodificador pode decodificar os três bits e selecionar o bit decodificado por uma decisão majoritária.

[00294] Como outro exemplo, em algumas modalidades, a filtragem espacial ou temporal pode ser aplicada após uma decisão difícil. Por exemplo, um filtro espacial pode ser aplicado aos bits de dados recebidos e o valor de bit final pode ser projetado através da comparação do valor de saída filtrado com um limite. Isso pode explorar o fato de que a sobreposição é geralmente fornecida em blocos e que os pixels individuais são raramente conteúdo gráfico a menos que um número relativamente grande de pixels na vizinhança também seja conteúdo gráfico. A abordagem pode, por exemplo, evitar que um pixel único dentro de um menu ou legenda seja erroneamente detectado para não ser um pixel de sobreposição e, consequentemente, é intensificado para alto brilho. Dessa forma, a abordagem pode reduzir o risco de, por exemplo, pixels individuais extremamente brilhantes dentro de uma legenda ou menu (ou pixels escuros dentro de um objeto de imagem muito brilhante).

[00295] Em algumas modalidades, a adaptação da faixa dinâmica para um dado pixel pode ser dependente de valores A para uma pluralidade de pixels em uma vizinhança do dado pixel. Isso pode, por exemplo, ser obtido pelo mapeamento da faixa dinâmica usado pela adaptação da faixa dinâmica que é uma função de uma pluralidade de valores A (de pixels vizinhos) ou, por exemplo, aplicando-se um filtro espacial, conforme descrito acima.

[00296] Em algumas modalidades, a adaptação da faixa dinâmica pode ser disposta de modo a restringir a diferença na adaptação da faixa dinâmica entre pixels vizinhos. Por exemplo, em vez de uma decisão difícil de selecionar um primeiro ou segundo mapeamento da faixa dinâmica dependendo de se o pixel é designado como um pixel de vídeo ou sobreposição, o mapeamento de faixa dinâmica real pode ser determinado como uma combinação ponderada dos dois mapeamentos da faixa dinâmica, sendo que os pesos ficam restritos a variar apenas em uma dada quantidade entre pixels vizinhos.

[00297] Em algumas modalidades, o adaptador 71 pode ser disposto de modo a determinar um mapeamento de faixa dinâmica adequada para uma pluralidade de pixels. Por exemplo, o mapeamento da faixa dinâmica pode ser aplicado em grupos de quatro ou 16 pixels com o mapeamento da faixa dinâmica selecionado sendo dependente da propriedade de integração para todos os pixels. Por exemplo, se mais pixels dentro de um bloco são indicados como sendo pixels de vídeo que pixels de sobreposição, então, um mapeamento de faixa dinâmica de vídeo é aplicado e, de outro modo, um mapeamento de faixa dinâmica de sobreposição é aplicada.

[00298] Em algumas modalidades, a inclusão dos bits indicando a propriedade de integração é executada após ao menos algumas das codificações de vídeo. Por exemplo, em algumas modalidades, a codificação de vídeo com perda de dados perceptível é executada primeiro (por exemplo, com base na transformada de frequência espacial) seguida de uma codificação sem perda de dados dos bits resultantes (por exemplo, com o uso de uma codificação de comprimento de teste). Nesse exemplo, os LSBs da saída de codificação de vídeo com perda de dados podem ser substituídos por bits que indicam a propriedade de integração. Isso pode possibilitar uma codificação eficiente sem o risco dos erros de introdução de codificação para os bits de informações de propriedade de integração.

[00299] Em algumas modalidades, ao menos um dos valores A indica o grau de integração do vídeo e uma ou mais sobreposições.

[00300] Em algumas modalidades, os parâmetros de adaptação, isto é, como os pixels da imagem são adaptados de serem exibidos, são dependentes de um ou mais que um parâmetro fornecido em mais de um dentre os LSBs em um ou mais dos componentes de cor, como, por exemplo, nos dois bits menos significativos dos três componentes.

[00301] Em um sistema de processamento de vídeo exemplificador (doravante chamado de VPS), como, por exemplo, um conversor ou um player de BD ou um computador portátil etc., em que um vídeo pode ser integrado a uma ou mais sobreposições, uma indicação de pixel de vídeo/sobreposição (A) é codificada em um ou mais dos bits menos significativos de um ou mais dos componentes de cor no sinal de vídeo. O sinal de vídeo é transmitido ao longo da interface entre o VPS e a tela. A tela aplica uma adaptação da faixa dinâmica à imagem do sinal de vídeo. Essa adaptação é feita em dependência da indicação do pixel de vídeo/sobreposição (A).

[00302] A abordagem pode ser usada em várias configurações e com o uso de vários formatos (componentes de cor), como, por exemplo (não/limitante) RGB 4:4:4, YCbCr 4:4:4, YCbCr 4:2:2, YCbCr 4:2:0.

[00303] O número de bits disponível para cada componente de cor pode variar entre diferentes modalidades, por exemplo, pode haver tipicamente 10, 12, 16 bits por componente. Mais comumente, 10 ou 12 bits são usados para sinais de vídeo embora 16 bits possam ter algum uso, apesar de predominantemente para valores de luminância. Valores de 8 bits também são possíveis em muitos sistemas, mas são tipicamente considerados como baixos demais para HDR (é mais tipicamente usados para equipamentos antigos, por exemplo, vídeo MPEG de 8 bits).

[00304] Em algumas modalidades, um aparelho de acordo com um exemplo de, por exemplo, uma das Figuras 1 a 7, pode ser disposto de modo a comunicar o sinal de vídeo integrado 6 de acordo com um formato de sinal de vídeo. Por exemplo, o aparelho pode comunicar o sinal de vídeo integrado 6 ao longo de um cabo HDMI, isto é, de acordo com um formato HDMI. Em algumas dessas modalidades, o número de bits usado para representar os valores de componente de cor da imagem pode ser menor que um número de bits atribuído para cada componente de cor pelo formato de sinal de vídeo. Nesse caso, os bits dos valores do componente de cor podem ser atribuídos para alguns dos bits atribuídos aos valores do componente pelo formato de vídeo e bits indicativos do um ou mais valores (A) indicando que a propriedade de integração do pixel pode ser fornecida (inserida/embutida) em alguns bits atribuídos aos valores do componente de cor pelo formato do sinal de vídeo, mas não usada pelos valores do componente de cor. Desse modo, a comunicação dos valores indicativos da propriedade de integração pode ser feita sem afetar as informações de imagem reais. Dessa forma, nenhuma degradação ou artefato precisam ser introduzidos para suportar a funcionalidade adicional.

[00305] Por exemplo, se o vídeo de fonte tem uma profundidade de bits de 10 bits e o vídeo integrado é transmitido a partir de VPS para a tela em um modo de 12 bits, 2 LSBs por componente podem ser usados para transmitir as informações de vídeo/sobreposição sem que qualquer integração seja introduzida. Se a configuração de pixel for RGB ou YCbCr 4:4:4 com 12 bits por componente, 6 bits por pixel estão disponíveis. Se a configuração for YCbCr 4:2:2, ela pode levar em consideração que os valores de CbCr são compartilhados entre 2 pixels, deixando 4 bits por pixel para o indicador de vídeo/sobreposição.

[00306] Por exemplo, se o pixel de saída YCbCr usa 10 bits por componente, o bit menos significativo do componente Cb ou Cbr (ou com menos probabilidade o componente Y) poderia, por exemplo, ser usado para indicar que ao menos um dos valores de T (valores de transparência) dos pixels de entrada do integrador tem um valor diferente de zero. Alternativamente, esse LSB poderia ser usado para indicar que ambos os valores de T estão abaixo de um certo limite.

[00307] Em um outro exemplo, múltiplos bits da saída do integrador são usados, por exemplo, o LSB de Cb e o LSB de Cr, ou os LSBs de todos os três componentes podem ser usados. Múltiplos bits poderiam ser usados para diferenciar entre vários níveis de integração. Com dois bits, quatro níveis podem ser distinguidos, por exemplo, um valor (1) poderia indicar nenhuma integração, um outro valor (2) poderia indicar 75% de vídeo e 25% de sobreposição, um terceiro valor (3) poderia indicar 50% de vídeo, 50% de sobreposição e um quarto valor (4) poderia indicar 100% de sobreposição. Com mais bits, uma indicação mais precisa da contribuição da sobreposição de gráficos nos níveis de saída pode ser obtida.

[00308] Geralmente, o número de bits por componente em um formato interconectado (HDMI, porta de exibição, etc.) é 8, 10, 12 ou 16 bits. Se a fonte de vídeo é codificada com 10 bits por componente, é, dessa forma possível usar 6 (saídas de 12 bits) ou mesmo 18 bits (saída de 16 bits) para transmitir as informações de integração, como o nível de transparência que foi localmente aplicado ao pixel. Uma opção seria aplicar o modo de saída de 12 bits e roubar 3 bits LSB de cada um dos componentes Cb e Cr e 2 bits do componente Y. Desse modo, 8 bits estariam disponíveis para transmitir o nível de integração.

[00309] Em vez do modo de saída YCbCr, o modo de saída RGB poderia ser usado de modo similar.

[00310] Nos exemplos acima, supõe-se (em algumas modalidades) que a resolução espacial de cada componente seja igual. Isso é chamado de YCbCr 4:4:4 ou RGB 4:4:4. Entretanto, em muitos casos, a subamostragem dos componentes de cor é aplicada. No caso de YCbCr 4:2:2, é feita uma subamostragem espacial dos componentes de cor por um fator de 2 na direção horizontal apenas. No caso de YCbCr 4:2:0, é feita uma subamostragem espacial dos componentes de cor por um fator de 2 em ambas as direções. Em algumas modalidades, pode ser benéfico manter a resolução total dos bits de indicação de integração. Portanto, para cada LSB que é usado para indicar as informações de integração, uma designação clara pode ser fornecida para qual local de pixel o bit se aplica. Por exemplo, no caso de 4:2:2, os LSBs dos componentes Cb podem estar relacionados à sobreposição de gráficos dos pixels ímpares, enquanto que os LSBs dos componentes Cr podem estar relacionados aos pixels pares.

[00311] Uma outra opção para reduzir o número de bits necessários é transmitir um mapa de bits de integração (fornecendo indicações da propriedade de integração, isto é, valores A) em uma resolução menor que a resolução de vídeo. Por exemplo, se a resolução de vídeo for 1920x1080, a resolução de mapa de bits de integração pode ser, por exemplo, 960x540. Por exemplo, no caso de YCbCr 4:2:0, os LSBs dos componentes Cb e Cr poderiam ser usados para indicar o nível de integração dos locais de pixel para aplicar aos componentes Cb e Cr. Dessa forma, em algumas modalidades, um ou mais valores A podem se aplicar a uma pluralidade de pixels e, especificamente, podem ser aplicar a um grupo ou área de pixels.

[00312] A sinalização de que configuração de bit de indicação de integração é usada ao longo da interface pode ser indicada em um canal de metadados também usado para os dados de adaptação da faixa dinâmica. Com referência à Figura 7, isso significa que o sinal 55, que fornece parâmetros de adaptação da faixa dinâmica e sinal 56, fornece informações sobre que LSBs de que componentes são usados para indicar a propriedade de integração (frequentemente se e/ou até que ponto um pixel é uma mixagem de vídeo e uma ou mais sobreposições) pode ser feito no mesmo canal de metadados.

[00313] O sinal 56 pode também fornecer informações estatísticas ou gerais como, por exemplo, se quaisquer legendas são usadas ou não.

[00314] Conforme mostrado acima, na tela, os bits de indicação de propriedade de integração podem ser usados para decidir, com base em pixels, e possivelmente até que ponto, a adaptação da faixa dinâmica é aplicada.

[00315] Se houver apenas um bit por pixel (indicando que o pixel é um pixel de sobreposição ou pixel de vídeo), a adaptação da faixa dinâmica intencionada para o vídeo original poderia alterar entre total (sem sobreposição) ou limitada (com sobreposição). O termo “limitada” poderia significar que nenhuma adaptação é aplicada, como no exemplo da Figura 8, ou apenas até um certo ponto. Se houver múltiplos bits indicando, por exemplo, um valor do nível de integração por pixel, a tela pode aplicar adaptação da faixa dinâmica mediante o dimensionamento em escala da quantidade de adaptação dependendo do nível de integração. A escala pode ter uma relação linear com o nível de integração ou uma função não linear pode ser aplicada para otimizar a qualidade de imagem perceptível.

[00316] As Figuras 15 e 16 mostram modalidades de uma combinação de codificação em um VPS e decodificação em uma TV.

[00317] Nas Figuras 15 e 16, um sinal de entrada 42 é recebido pelo VPS 41. O eixo vertical ilustra o brilho de pico PB ou a luminância de pico (ponto branco) para o qual é feita a classificação de sinal, isto é, para o qual foi feita a classificação das imagens do sinal de vídeo recebido, por exemplo, por uma classificação de cor manual. O sinal 42 é, no exemplo, um sinal de LDR com classificação para um PB de 100 nits e é, por exemplo, derivado de um sinal de HDR original com classificação para 5000 nits. Dessa forma, embora uma imagem de LDR otimizada, ela representa também uma imagem de HDR e, dessa forma, uma representação de imagem de HDR. Juntamente com o sinal 42, é fornecido um sinal 55 (como na Figura 6) que fornece informações sobre como atualizar o sinal para valores mais altos para o brilho de pico ou, em outras palavras, como aplicar a adaptação da faixa dinâmica às imagens do sinal de vídeo 42. O sinal 55 é transmitido pelo VPS 41. No VPS 41, o sinal integrado 50 é produzido com um ou mais LSBs de um ou mais componentes de cor compreendendo informações sobre uma propriedade de integração e especificamente sobre o tipo e parâmetros de integração de um pixel. Além disso, o sinal 56 é fornecido, o qual fornece instruções sobre quais LSBs são preenchidos com quais informações de integração, como o tipo e parâmetros de integração de um pixel integrado. Dessa forma, o sinal fornece informações sobre a codificação da propriedade de integração. O eixo horizontal ilustra várias etapas na manipulação de um sinal e os componentes que são usados nessas etapas.

[00318] Os sinais 50, 55 e 56 são recebidos em uma entrada de uma TV 141. A TV 141 compreende um decodificador 142 e um adaptador de faixa dinâmica 143. O decodificador é instruído através do sinal 56 de quais LSBs de quais componentes compreendem quais informações, isto é, é informado sobre como a propriedade de integração é codificada. O decodificador decodifica as informações sobre os ditos LSBs e, então, envia as informações para o adaptador da faixa dinâmica 143, por exemplo, dizendo especificamente ao adaptador da faixa dinâmica o tipo de pixel (isto é, se é o vídeo e/ou uma sobreposição ou uma mixagem) e, quando adequado, qual é a mixagem.

[00319] O adaptador da faixa dinâmica 143 recebe informações do sinal 55, o que possibilita que o adaptador atualize o sinal de LDR de entrada. As informações do tipo de integração e as informações de integração provindas do decodificador 142 são usadas no adaptador da faixa dinâmica 143 para adaptar dinamicamente os pixels, sendo que, como um exemplo, um pixel de sobreposição é mantido em uma classificação de 100 nits, para um pixel pertencendo apenas ao vídeo a faixa dinâmica é adaptada para 5.000 nits, enquanto que para um pixel misto (isto é, compreendendo ambos o vídeo e a sobreposição), a faixa dinâmica é adaptada para 1.500 nits. A adaptação da faixa dinâmica é esquematicamente indicada na Figura 15 com a seta U para atualização. O resultado líquido de um pixel de vídeo é denotado pela letra V, para uma sobreposição com O, para uma mixagem com M e para uma TV antiga, que não tem meios de executar a adaptação da faixa dinâmica com L. Os valores de pixel assim gerados são enviados para uma tela 144 para serem exibidos.

[00320] A Figura 16 ilustra uma variação na configuração da Figura 15. Na Figura 16, o sinal de entrada 42 é um sinal de HDR que, no exemplo específico, tem classificação para um brilho máximo de 1.500 nits. O sinal 55 compreende informações sobre como fazer classificação, isto é, fazer a adaptação da faixa dinâmica, desse sinal 42 para um brilho de pico mais alto, como, por exemplo, um brilho de pico de 5.000 nits. Ele inclui também informações sobre como fazer classificação do sinal para um brilho de pico mais baixo, por exemplo, para um brilho de pico de 100 nits.

[00321] A diferença no que se refere à Figura 15 reside em que, no exemplo da Figura 16, o decodificador mais o adaptador da faixa dinâmica podem aumentar, assim como reduzir, a classificação da faixa dinâmica de um pixel. Por esse motivo, a seta U (de “Up”, para cima) da Figura 15 é representada como UD (“Up”, para cima, ou “Down”, para baixo) na Figura 16.

[00322] Além disso, para fornecer um sinal que seja diretamente útil em TVs antigas, o VPS (ou um dispositivo entre o VPS e a TV antiga) fornece um sinal 150 que é derivado do sinal integrado após uma adaptação da faixa dinâmica para reduzir a faixa dinâmica. A redução na classificação é representada pela seta D. O VPS 41 usa as informações no sinal 55 para a adaptação da faixa dinâmica do sinal de saída L. Esse sinal L é, então, alimentado para a entrada de uma TV antiga para exibição em uma tela de TV antiga.

[00323] O sinal de entrada pode, em outros exemplos, ser também, por exemplo, um sinal com classificação para o brilho de pico mais alto possível (por exemplo, 5.000 nits), e, nesse caso, a tela pode executar adaptação da faixa dinâmica para reduzir a faixa para um brilho de pico específico da tela (sendo abaixo de 5.000 nits).

[00324] A Figura 17 mostra em mais detalhes uma modalidade de um dispositivo de exibição, como uma TV, de acordo com algumas modalidades da invenção. O sinal integrado 50 é fornecido para o adaptador da faixa dinâmica 143 e para o leitor 142. O leitor 142 lê uma ou mais LSBs e fornece um sinal 145 com base na leitura do conteúdo dos ditos LSBs. Esse sinal compreende os valores A indicando a propriedade de integração, como especificamente, o tipo de integração e/ou os parâmetros de integração do pixel. Isso constitui uma decodificação das informações que foram colocadas no sinal 50 pelo codificador 51 no VPS 41, por exemplo, do sistema da Figura 7.

[00325] O leitor 142 pode ser fornecido (como no exemplo específico) com um sinal 56 que informa o leitor 142 sobre quais LSBs contêm quais informações, e de que maneira a codificação foi executada ou, em outras palavras, fornece o esquema de decodificação. Dessa forma, o leitor 142 pode ser dotado de um sinal que indica como a propriedade de integração foi codificada no sinal.

[00326] O adaptador da faixa dinâmica recebe, assim, o sinal integrado 50 e o sinal 145 que fornece informações sobre a propriedade de integração, como o tipo de integração e/ou os parâmetros de integração de pixels.

[00327] Nessa modalidade, o adaptador da faixa dinâmica 143 é também dotado do sinal 55, que indica parâmetros para a adaptação da faixa dinâmica, isto é, pode fornecer informações sobre como adaptar a faixa dinâmica.

[00328] As informações dos sinais 50, 55 e 56 são usadas para adaptação da faixa dinâmica. Se, por exemplo, os formatos de codificação ou as abordagens de adaptação da faixa dinâmica são conhecidas com antecedência, um ou mais dos sinais 55 e/ou 56 podem não ser utilizados.

[00329] Por exemplo, se um padrão foi combinado determinando quais LSBs compreendem quais informações, o sinal 56 não precisa ser gerado, enviado e recebido, já que tanto no lado do codificador como no lado do decodificador, um padrão conhecido é seguido.

[00330] As Figuras 18 e 19 ilustram uma outra modalidade da invenção.

[00331] Uma interpolação linear ou não linear baseada nos parâmetros de mixagem fornecidos, conforme mostrado nos exemplos acima, é uma possibilidade para adaptação da faixa dinâmica de pixels de entrada que são formados por uma mixagem de vídeo e gráficos, por exemplo legendas.

[00332] Em uma outra modalidade, é usada uma abordagem diferente.

[00333] Caso se saiba que um pixel é composto de vídeo assim como de gráficos, como uma legenda, sabe-se que um sinal misto é fornecido, mas não se sabe claramente que parte dos valores de pixel para diferentes cores no sinal integrado era originalmente vídeo e que parte é originalmente legenda.

[00334] Os parâmetros de mixagem, por exemplo, que indicam que 25% são legendas e 75% são vídeos, fornecem orientação, mas uma determinação precisa pode ser útil.

[00335] Mesmo que se conheça a porcentagem, a contribuição verdadeira de uma sobreposição pode ser em uma margem de cerca de 25% e, além disso, como a cor da legenda e a cor do vídeo não são conhecidas, não se sabe a contribuição de vídeo e legendas nas várias cores.

[00336] Em algumas modalidades, no decodificador, para pixels para os quais um ou mais dos bits mais baixos indicam que eles são formados de vídeo e de uma ou mais sobreposições (e, assim, formam um "pixel misto"), é feita uma estimativa da contribuição dos valores de pixel de gráficos (por exemplo, legendas) e de vídeo em várias cores.

[00337] Isso é feito, por exemplo, pela análise dos pixels que circundam um pixel.

[00338] Para a coleção de pixels, isto é, o pixel e seus pixels circundantes, os parâmetros de mixagem são conhecidos ou ao menos sabe-se que há uma mixagem ou possível mixagem.

[00339] O que não se sabe é quais são as contribuições para as diferentes cores.

[00340] Por exemplo, o vídeo pode ser vermelho e as legendas podem ser verdes.

[00341] A mixagem entre a sobreposição e o vídeo pode, de modo geral, ser 50% de cada para o pixel, mas a razão da mixagem nas cores individuais pode variar substancialmente (já que a saturação do vídeo e a sobreposição podem ser muito diferentes em relação ao pixel).

[00342] Analisando-se um pixel e seus pixels circundantes, uma estimativa pode ser feita da contribuição dos gráficos e do vídeo para o sinal do dito pixel.

[00343] Alguns parâmetros de mixagem podem ser fornecidos nos LSBs de alguns dos componentes de cor e, frequentemente, os gráficos, como legendas, geralmente têm uma cor e intensidade mais ou menos constantes e possivelmente mesmo o tamanho e forma. Isso pode possibilitar uma estimativa das contribuições individuais.

[00344] Dessa forma, o sinal misto de entrada (por exemplo de LDR) é usado para fornecer, por um estimador que usa os parâmetros de mixagem de entrada e uma análise de um pixel e dos pixels circundantes, uma estimativa da contribuição de gráficos e uma estimativa da contribuição de vídeo para o sinal de entrada. Se o sinal de vídeo for para uma mancha branca e a legenda for verde, então, comparando-se um pixel que é 100% vídeo com um pixel vizinho que é 50% vídeo e 50% legenda, pode-se estimar a contribuição nos vários componentes de cor da legenda mediante a comparação dos valores de pixel mencionados. O fato de que as legendas são frequentemente de cor e intensidade mais ou menos constantes e frequentemente de tamanho e forma mais o menos padronizados, pode, é claro, ser usado na análise. Na análise, os dados do dito pixel e de vários pixels circundantes são, por exemplo, comparados. Em algumas modalidades, um único pixel circundante pode ser usado para a análise, mas usar mais de um pixel circundante na análise geralmente produz melhores resultados.

[00345] A subtração da contribuição da legenda estimada do sinal fornece a contribuição de vídeo estimada para o sinal integrado e vice-versa.

[00346] Para os sinais estimados, uma adaptação da faixa dinâmica pode, então, ser aplicada individualmente aos sinais individuais estimados.

[00347] Isso pode ser, por exemplo, uma adaptação da faixa dinâmica total sendo aplicada ao sinal de vídeo estimado e um valor fixo ou uma adaptação da faixa dinâmica diferente sendo aplicada ao sinal de sobreposição estimado.

[00348] A adaptação da faixa dinâmica pode também usar alguma extrapolação conforme descrito nos exemplos anteriores.

[00349] A vantagem dessa modalidade reside em que informações mais detalhadas sobre a contribuição dos gráficos e vídeo para os sinais de cor são estabelecidas e usadas para otimizar individualmente os recursos individuais.

[00350] Isso possibilita um ajuste fino da adaptação da faixa dinâmica.

[00351] A Figura 18 ilustra um exemplo dessa modalidade:

[00352] Um sinal de LDR misto de entrada é fornecido a um estimador 146 indicado por EST na Figura 18.

[00353] Esse estimador é também dotado de um sinal de informações 145 pelo leitor 142, de maneira que ele sabe onde há pixels mistos e, nas modalidades, também uma indicação da quantidade de mixagem. O estimador 145 sabe onde há pixels mistos e pode ter outras informações gerais.

[00354] O estimador analisa os dados dos pixels e dos pixels circundantes para fornecer um sinal de estimativa de gráfico 147 e um sinal de estimativa de vídeo 148. Por exemplo, o sinal 147 é um sinal Yuv_graf_estimativa, isto é, um sinal Yuv que dá uma estimativa da contribuição de legenda apenas no sinal de LDR de entrada.

[00355] O sinal 148 é um sinal Yuv_graf_estimativa, isto é, um sinal Yuv que dá uma estimativa da contribuição de legenda apenas no sinal de LDR de entrada.

[00356] Nesses sinais 147 e 148, uma adaptação da faixa dinâmica é executada, sendo que a adaptação da faixa dinâmica é diferente para os dois sinais. Isso é indicado esquematicamente na Figura 18 pelos números 143a e 143b. O sinal 55 pode fornecer instruções sobre como executar a adaptação da faixa dinâmica. Ao menos um dos sinais 147 e 148 é adaptado, mas frequentemente e, de preferência, ambos o são.

[00357] Os sinais adaptados são remixados no misturador (ou mixador) 149, na Figura 18, esquematicamente indicada pelo sinal +. O sinal de legenda estimado 147 pode ser, por exemplo, de alguma forma menos intensificado que o sinal de vídeo estimado 148; no sinal remixado, as legendas são, então, menos claramente visíveis.

[00358] O sinal resultante da tela 144 pode ser, por exemplo, sinal T_2*Yuv_graf_estimativa + (1- T_2)*K*Yuv_vídeo_estimativa onde K é um fator de intensificação do Yuv_vídeo_estimativa.

[00359] Nesse exemplo, o sinal de estimativa de vídeo é intensificado, enquanto que o sinal de estimativa de sobreposição é mantido no seu valor de LDR. Os sinais adaptados são, então, remixados com um parâmetro de remixagem T 2. O parâmetro de remixagem T 2 pode ser fornecido pelo sinal 55.

[00360] Nessa modalidade, o decodificador compreende um estimador que estima a contribuição em diferentes cores de sobreposição e vídeo com base na análise de um pixel e seus pixels circundantes.

[00361] As mesmas informações podem, nas modalidades, também ser fornecidas em LSBs do próprio sinal de entrada 50. Por exemplo, um LSB em um componente pode indicar se um pixel é vídeo ou algum tipo de mixagem, e 3 bits em cada componente podem indicar a contribuição do vídeo para o sinal total do dito componente.

[00362] Entretanto, isso exige consideravelmente que mais LSBs sejam usados e, além disso, pode, em muitas implementações exigir que o codificador compare o sinal após a integração com os sinais antes da integração. Entretanto, isso pode ser justificado por uma imagem adaptada melhorada sendo gerada.

[00363] Na modalidade, o leitor 142 fornece informações sobre as contribuições para as várias cores no sinal 145 e o estimador 146 pode simplesmente usar os dados fornecidos diretamente para gerar uma estimativa das contribuições respectivamente do vídeo e da sobreposição. O estimador pode, nesse caso, não precisar executar uma análise com o uso de dados de um pixel e pixels circundantes, em vez disso, todas as informações podem ser fornecidas no sinal 145, lidas pelo leitor 142 dos LSBs do sinal de entrada 50.

[00364] Os sinais resultantes podem ainda ser estimativas (ou ao menos ter algum erro de quantização) já que o número de bits disponíveis é inerentemente limitado e, dessa forma, os sinais provenientes do estimador podem ser considerados estimativas da integração original.

[00365] O uso de uma análise com base no pixel circundante pode, em algumas modalidades e aplicações, ser preferencial, já que menos LSBs são necessários para fornecer informações de integração e uma maior precisão pode muitas vezes ser obtida.

[00366] A Figura 19 mostra um detalhe do dispositivo de exibição da Figura 18. Nesse exemplo, o decodificador é mostrado com os sinais de entrada 50, o sinal integrado 55, as informações sobre a adaptação da faixa dinâmica 56, as informações sobre quais e de que maneira os LSBs são usados, e o sinal de saída.

[00367] No exemplo da Figura 18, o decodificador é, dessa forma, disposto de modo a estimar a sobreposição original e os sinais de vídeo que foram integrados no codificador. A adaptação da faixa dinâmica pode, então, ser aplicada individualmente para esses sinais estimados e, especificamente, o mapeamento da faixa dinâmica aplicado ao sinal de vídeo estimado (as imagens) pode ser diferente daquele aplicado aos sinais de sobreposição estimados. Em algumas modalidades, uma pluralidade de sinais de sobreposição pode ser estimada, isto é, a integração pode ser (supostamente) executada com uma pluralidade de sinais de sobreposição de entrada sendo combinada no sinal de vídeo integrado 6 (juntamente com o sinal de vídeo). Nesses cenários, o decodificador pode estimar uma pluralidade de sinais de sobreposição e pode executar diferentes adaptações da faixa dinâmica para os diferentes sinais de sobreposição. Por exemplo, para um sinal de sobreposição branco, nenhuma intensificação pode ser aplicada enquanto uma intensificação de brilho relativamente pequena for aplicada a, por exemplo, uma sobreposição verde. Uma adaptação da faixa dinâmica diferente e, por exemplo, mais agressiva pode ser aplicada ao sinal de vídeo.

[00368] Nessa abordagem, o decodificador consequentemente busca reverter a integração executada pelo integrador do codificador. De fato, o decodificador busca gerar estimativas dos sinais originais, isto é, dos sinais de vídeo e sobreposição. Se isso for alcançado, os mapeamentos da faixa dinâmica que são ideais para o tipo de conteúdo individual para a tela específica podem, então, ser aplicados. Após esse mapeamento da faixa dinâmica individual (otimização), um sinal de vídeo adaptado à faixa dinâmica integrada pode ser gerado e apresentado.

[00369] Em essência, pela leitura das informações em um ou mais dos LSBs, os pixels que são pixels integrados são identificados e, por exemplo, o grau de integração/mixagem é determinado. Com o uso das informações disponíveis nos pixels circundantes, os constituintes originais do sinal são reconstruídos (por exemplo, presumindo-se uma característica de baixa frequência do vídeo ou com o uso de modelos de coestimativa mais complicados) ou, mais precisamente, são estimados. Saber o que foi integrado e saber a classificação original e a classificação da tela possibilita uma adaptação adicional melhorada.

[00370] O valor A, que indica a propriedade de integração, pode ser chamado de bit Indicador de Gráficos que é gerado e transmitido para cada pixel de saída. Esse bit pode ser embutido no sinal de saída de vídeo. Especificamente, um dos bits de luma mais baixos (isto é, um bit menos significativo) pode ser usado para isso, já que geralmente corresponderá a luminâncias tão escuras que um espectador não perceberia tal ruído de codificação de gráficos. Por exemplo, um valor de bit de “1” seria o gráfico e “0” seria o vídeo normal (isto é, no vídeo de integração apenas).

[00371] Como um exemplo específico para um sistema BD, a abordagem pode ser usada quando no modo HDMV. Nesse caso o bit Indicador de Gráficos IG pode ser gerado para cada pixel como uma função de α1 e α2 aplicado para esse pixel. IG pode ser definido para 1b se qualquer um de α1 e α2 tem um valor maior que 0,06, de outro modo, IG pode ser definido para 0b. Consultar também a Figura 20.

[00372] Quando no modo BD-J, o Indicador de Gráficos pode ser gerado conforme ilustrado na Figura 21. Nesse caso, o bit Indicador de Gráficos possa talvez ser definido como 1b em todos os locais de pixel para os quais o pixel do plano de fundo é definido nos dados de vídeo temporários. Para todos os outros locais, o bit Indicador de Gráficos pode ser gerado da mesma forma que é gerado no modo HDMV, exceto que nos gráficos BD-J, o caso α2 é extraído diretamente dos dados de pixel.

[00373] Em alguns dos exemplos acima, a palavra TV foi usada; essa palavra corresponde a qualquer dispositivo de exibição que compreende uma tela; pode ser uma tela de um computador doméstico, ou um sistema de vídeo doméstico, ou de um tablet ou qualquer dispositivo de exibição. No momento, os dispositivos de HDR são frequentemente de uso doméstico, mas isso não é considerado uma restrição para a invenção. As telas de HDR podem ser usadas em muitos dispositivos de vários tipos.

[00374] O termo “gráficos” pode ser usado para indicar um tipo geral de sobreposição, como legendas ou menu ou outras sobreposições.

[00375] Uma sobreposição pode ser qualquer sinal adicional que é integrado em um integrador com um sinal de vídeo de imagem.

[00376] O termo “cor” não deve ser interpretado como se referindo apenas a valores ou propriedades de saturação, mas, em vez disso, pode incluir também luminância ou de fato pode referir-se apenas à luminância. Por exemplo, uma classificação de cor pode ser uma classificação de luminância apenas onde a saturação não for considerada.

[00377] Os termos “classificação de cor/mapeamento de tonalidade/adaptação da faixa dinâmica” podem ser considerados equivalentes (como de fato são, de acordo com seu uso no campo).

[00378] Os componentes algorítmicos aqui revelados podem (inteira ou parcialmente) ser obtidos na prática como hardware (por exemplo, partes de um CI específico de aplicação), ou como software executado em um processador de sinal digital especial, ou um processador genérico etc.

[00379] O versado na técnica compreenderá, a partir da presente apresentação, quais componentes podem ser aprimoramentos opcionais e podem ser concebidos em combinação com outros componentes, e como as etapas (opcionais) dos métodos correspondem aos respectivos meios de aparelhos, e vice-versa. A palavra “aparelho”, ou palavras similares, como “dispositivo”, neste pedido é usada em seu sentido mais amplo, a saber, um grupo de meios que possibilitam alcançar um objetivo específico, e podem, assim, ser (uma pequena parte de) um CI, ou um aparelho dedicado (como um aparelho com uma tela), ou parte de um sistema ligado em rede, entre outras coisas. Os termos “disposição”, “sistema” ou similares destinam-se também a serem usados em seu sentido mais amplo, de modo a compreender, entre outras coisas, um único aparelho, uma parte de um aparelho, um conjunto de (partes de) aparelhos que operam em conjunto etc.

[00380] Uma versão de produto de programa de computador da presente modalidade como denotação deve ser entendida como abrangendo qualquer concretização física de um conjunto de comandos que permite que um processador para fins gerais ou específicos, após uma série de etapas de carga (que pode incluir etapas de conversão intermediárias, como tradução para uma linguagem intermediária, e uma linguagem de processador final) insira os comandos no processador e executar qualquer uma das características da invenção. Em particular, o produto de programa de computador pode ser concebido como dados em um portador, como, por exemplo, um disco ou fita, dados presentes em uma memória, dados se deslocando através de uma conexão de rede - com fio ou sem fio - ou código de programa em papel. A não ser pelo código de programa, dados característicos necessários para o programa também podem ser incorporados como produto de programa de computador. Deve ficar claro que, por computador, deve-se entender qualquer dispositivo com capacidade de realizar as computações de dados, isto é, o mesmo pode também ser, por exemplo, um telefone móvel. Também, as reivindicações do aparelho podem cobrir versões implantadas por computador das modalidades.

[00381] Algumas das etapas necessárias para a operação do método podem já estar presentes na funcionalidade do processador em vez de descritas no produto de programa de computador, como as etapas de entrada de dados e de saída de dados.

[00382] Com base nas descrições anteriores, deve- se considerar que as seguintes abordagens podem ser sustentadas pela descrição:

[00383] Pode ser fornecido um método para codificação de um sinal de vídeo que compreende adicionar a um sinal de imagem de vídeo de entrada (2) um ou mais sinais de sobreposição (3, 4) para formar um sinal de vídeo integrado (6, 50), gerando um ou mais valores (A) que indicam, para um pixel no sinal de vídeo integrado, um tipo de integração e/ou um ou mais parâmetros de integração no sinal de vídeo integrado e que codificam para o dito pixel o dito um ou mais valores (A) em um ou mais bits menos significativos de um ou mais componentes de cor do sinal de vídeo integrado (6, 50).

[00384] Opcionalmente, para esse método, ao menos um dentre os ditos um ou mais valores (A) indica o tipo de integração do dito pixel.

[00385] Opcionalmente, ao menos um dentre os ditos um ou mais fornece um parâmetro de integração que indica a quantidade de integração do sinal de vídeo de entrada e um ou mais sinais de sobreposição para o dito pixel.

[00386] Opcionalmente, um único bit menos significativo é usado para indicar se o pixel é vídeo, ou sinal de sobreposição ou uma integração de vídeo e um ou mais sinais de sobreposição.

[00387] Opcionalmente, o número de bits menos significativos que indicam o tipo de integração e/ou um ou mais parâmetros de integração no sinal de vídeo integrado é variável e indicado por um sinal de comprimento de codificação.

[00388] Opcionalmente, para o sinal de vídeo integrado, é fornecido um sinal de informações (56) que compreende informações sobre as quais os bits menos significativos são usados para indicar o tipo de integração e/ou um ou mais parâmetros de integração no sinal de vídeo integrado (50) para o dito pixel e/ou como os ditos bits menos significativos são usados para indicar um método de codificação.

[00389] Pode ser fornecido um processador de vídeo para codificar um sinal de vídeo que compreende um integrador (5, 51) para integrar um sinal de imagem de vídeo de entrada (2, 46, 48, 54) e um ou mais sinais de sobreposição (3, 4) para formar um sinal de vídeo integrado (6, 50) e um codificador de imagem (7, 51) para gerar e receber um ou mais valores (A) que indicam para um pixel no sinal de vídeo integrado o tipo de integração e/ou um ou mais parâmetros de integração e para codificar para o dito pixel o dito um ou mais valores (A) em um ou mais bits menos significativos de um ou mais componentes de cor do sinal de vídeo integrado (6, 50).

[00390] Opcionalmente, para tal processador de vídeo, o codificador é disposto de modo a codificar ao menos um bit menos significativo com um valor que indica um tipo de integração para o dito pixel.

[00391] Opcionalmente, o codificador é disposto de modo a codificar ao menos um valor que fornece um parâmetro de integração indicando a quantidade de integração do vídeo e uma ou mais sobreposições.

[00392] Opcionalmente, o codificador é disposto de modo a fornecer ao sinal de vídeo integrado um sinal de informações (56) com as informações sobre as quais os bits menos significativos são usados para indicar o tipo de integração e/ou um ou mais parâmetros de integração no sinal de vídeo integrado para o dito pixel e como.

[00393] Opcionalmente, o integrador (5) é disposto de modo a fornecer um sinal de informações de integração (MIS) ao codificador (7).

[00394] O processador de vídeo pode ser compreendido em um conversor ou player de BD.

[00395] Pode ser fornecido um método para decodificação de um sinal de vídeo, sendo que um sinal de vídeo integrado de mais de um sinal é recebido, sendo que para um pixel, um ou mais dos bits menos significativos de um ou mais dos componentes de cor do sinal de vídeo são lidos e, a partir dos ditos bits menos significativos, um ou mais valores (A) são gerados, e sendo que o dito pixel do sinal de imagem de vídeo recebido é submetido a uma adaptação antes da exibição, sendo que a adaptação depende do valor (A) ou valores gerados.

[00396] Opcionalmente, a adaptação compreende uma etapa de aplicar uma faixa dinâmica que adapta a transformação de cor.

[00397] Opcionalmente, ao menos um dos valores A indica um tipo de integração para o pixel e a adaptação antes da exibição depende do tipo de integração do pixel.

[00398] Opcionalmente, ao menos um dos valores (A) representa se um pixel é ou não um vídeo ou sobreposição e/ou uma mixagem de vídeo e sobreposição.

[00399] Opcionalmente, ao menos um dos valores indica uma quantidade de integração de um sinal de vídeo de imagem e um ou mais sinais de sobreposição e a adaptação antes da exibição depende da quantidade de integração.

[00400] Opcionalmente, um único bit menos significativo é lido para obter o valor (A).

[00401] Opcionalmente, antes da adaptação, o sinal de vídeo é dividido em mais de um sinal estimado que estima o um ou mais sinais antes da integração, com base em uma estimativa da contribuição do vídeo e sobreposição para um valor de pixel do sinal, sendo que o ao menos um dos sinais tem a cor transformada para adaptar sua luminância e os sinais adaptados são remixados.

[00402] Opcionalmente, a divisão de um sinal para um pixel se baseia em uma análise dos dados do dito pixel e os dados para vários pixels circundantes que são identificados como pixels de vídeo não mixados.

[00403] Pode ser fornecido um decodificador de vídeo para decodificar um sinal de vídeo integrado a partir de mais de um sinal que compreende uma entrada para receber um sinal de vídeo, um leitor (72) para ler ao menos um ou mais bits menos significativos para um ou mais componentes de cor do sinal de vídeo para um pixel e gerar um ou mais valores dos (A) dos bits menos significativos de leitura e um adaptador (71, 143) para adaptar o vídeo, sendo que o adaptador é disposto de modo a adaptar um valor de pixel dependendo do valor ou valores (A) gerados.

[00404] Opcionalmente, o decodificador de vídeo compreende uma entrada para um sinal (56) com as informações sobre quais bits menos significativos devem ser lidos e como convertê-los em um ou mais valores (A).

[00405] Opcionalmente, o adaptador é disposto de modo a executar uma adaptação da faixa dinâmica nos pixels da imagem.

[00406] Opcionalmente, o leitor é adaptado para ler um bit menos significativo para obter (A).

[00407] Opcionalmente, o sistema compreende um estimador (146) para dividir o sinal de vídeo recebido em mais de um sinal estimado (147, 148) com base em uma estimativa da contribuição do vídeo de imagem e sobreposição para um valor de pixel do sinal, ao menos um dentre os sinais é adaptado e compreende um misturador (ou mixador) (149) para remixar os sinais adaptados.

Claims

1. APARELHO PARA DECODIFICAR UM SINAL DE VÍDEO DE HDR INTEGRADO A PARTIR DE UM OU MAIS SINAIS DA FONTE, compreendendo: uma entrada para receber o sinal de vídeo de HDR, caracterizado pelo aparelho compreender: um leitor (72) para ler mais que um bits menos significativos de um ou mais componentes de cor do sinal de vídeo de HDR para um pixel e gerar um ou mais valores (A) dos bits menos significativos da leitura, sendo que o um ou mais valores (A) indicam uma propriedade de integração do pixel, sendo que a propriedade de integração caracterizando uma quantidade percentual de uma integração no sinal de vídeo de HDR de um ou mais sinais de sobreposição (3, 4) com um sinal de imagem de vídeo (2) para esse pixel; e um adaptador (71, 143) para adaptar o sinal de vídeo de HDR, que adapta uma luminância de pixel dependendo do um ou mais valores (A).

2. APARELHO, de acordo com a reivindicação 1, caracterizado por compreender adicionalmente uma entrada para um sinal (56) que inclui as informações sobre quais bits menos significativos devem ser lidos e como convertê- los em um ou mais valores.

3. APARELHO, de acordo a reivindicação 1 ou 2, caracterizado pelo adaptador ser disposto de modo a fazer uma adaptação da faixa dinâmica em pixels de imagem do sinal de vídeo de HDR.

4. APARELHO, de acordo com a reivindicação 1, caracterizado pela propriedade de integração poder ser indicativa do pixel que compreende o primeiro conteúdo de sobreposição, sendo que o primeiro conteúdo de sobreposição originado do ao menos um dentre um sinal de sobreposição compreende o conteúdo gráfico gerado localmente ou um sinal de sobreposição que compreende um segundo sinal de imagem de vídeo que inclui conteúdo de sobreposição integrado.

5. APARELHO, de acordo com a reivindicação 4, caracterizado pelo adaptador ser disposto de modo a adaptar os pixels dentro de uma região para a qual a propriedade de integração é indicativa do pixel que compreende o primeiro conteúdo de sobreposição, para ter luminâncias de saída dentro de uma faixa de luminância predeterminada.

6. MÉTODO PARA DECODIFICAR UM SINAL DE VÍDEO DE HDR INTEGRADO A PARTIR DE UM OU MAIS SINAIS DA FONTE, compreendendo: receber o sinal de vídeo de HDR, caracterizado pelo método compreender: ler mais que um bits menos significativos de um ou mais componentes de cor do sinal de vídeo de HDR para um pixel e gerar um ou mais valores (A) dos bits menos significativos da leitura, sendo que o um ou mais valores (A) indicam uma propriedade de integração do pixel, sendo que a propriedade de integração caracteriza uma quantidade percentual de uma integração no sinal de vídeo de HDR de um ou mais sinais de sobreposição (3, 4) com um sinal de imagem de vídeo (2) para esse pixel; e adaptar o vídeo, sendo que o adaptador é disposto de modo a adaptar a luminância de pixel dependendo do um ou mais valores (A).

7. APARELHO PARA CODIFICAR UM SINAL DE VÍDEO, compreendendo: um integrador (5, 51) para integrar um sinal de imagem de vídeo de HDR de entrada (2) com um ou mais sinais de sobreposição (3, 4) para formar um sinal de vídeo integrado (6, 50), caracterizado pelo aparelho compreender adicionalmente: um processador para gerar um ou mais valores (A) que indica para um pixel no sinal de vídeo integrado uma propriedade de integração indicativa de uma propriedade da integração desse pixel, cuja propriedade de integração caracteriza uma quantidade percentual de uma integração de um ou mais sinais de sobreposição (3, 4) com o sinal de imagem de vídeo de HDR de entrada (2) para aquele pixel; e um codificador (7, 51) para codificar para o dito pixel o dito um ou mais valores (A) em mais que um bits menos significativos de um ou mais componentes de cor de um valor de pixel para o pixel no sinal de vídeo integrado (6, 50).

8. APARELHO, de acordo com a reivindicação 7, caracterizado pelo codificador ser disposto de modo a fornecer ao sinal de vídeo integrado um sinal de informação (56) que compreende informações quais bits menos significativos são usados para codificar que tipo de informação do um ou mais valores (A) no um ou mais bits menos significativos.

9. APARELHO, de acordo com a reivindicação 7, caracterizado pela propriedade de integração poder ser indicativa do pixel que compreende o primeiro conteúdo de sobreposição, sendo que o primeiro conteúdo de sobreposição originado do ao menos um dentre um sinal de sobreposição compreende o conteúdo gráfico gerado localmente ou um sinal de sobreposição que compreende um segundo sinal de imagem de vídeo que inclui conteúdo de sobreposição integrado.

10. MÉTODO DE DECODIFICAÇÃO DE UM SINAL DE VÍDEO, compreendendo: integrar um sinal de imagem de vídeo de HDR de entrada (2) a um ou mais sinais de sobreposição (3, 4) para formar um sinal de vídeo integrado (6, 50), caracterizado por compreender gerar um ou mais valores (A) que indica para um pixel no sinal de vídeo integrado uma propriedade de integração indicativa de uma propriedade da integração desse pixel, cuja propriedade de integração caracteriza uma quantidade percentual de uma integração de um ou mais sinais de sobreposição (3, 4) com o sinal de imagem de vídeo de HDR de entrada (2) para aquele pixel; e codificar para o dito pixel o dito um ou mais valores (A) em mais que um bits menos significativos de um ou mais componentes de cor de um valor de pixel no sinal de vídeo integrado (6, 50).