BR122023000647A2

BR122023000647A2 - Método de edição de conteúdo de vídeo e meio legível por computador não transitório

Info

Publication number: BR122023000647A2
Application number: BR122023000647-0A
Authority: BR
Inventors: Robin Atkins
Original assignee: Dolby Laboratories Licensing Corporation
Priority date: 2020-06-03
Filing date: 2021-06-02
Publication date: 2023-04-11
Also published as: JP2023529134A; CN115699178A; BR112022024656A2; KR20230017266A; EP4162489A1; US20230230617A1; WO2021247670A1; TW202147845A

Abstract

Um sistema e método de edição de conteúdo de vídeo inclui receber dados de vídeo de entrada; converter os dados de vídeo de entrada para um formato predefinido; gerar uma pluralidade de valores de metadados iniciais para um quadro dos dados de vídeo convertidos, a pluralidade de valores de metadados iniciais incluindo um primeiro valor de metadados correspondente a um primeiro valor fixo não calculado de um conteúdo incluindo o quadro, um segundo valor de metadados correspondente a um valor médio de luminância do quadro, e um terceiro valor de metadados correspondente a um segundo valor fixo não calculado a partir do conteúdo, em que o primeiro valor de metadados, o segundo valor de metadados, e o terceiro valor de metadados incluem informações usadas por um decodificador para renderizar uma imagem decodificada em uma tela.

Description

MÉTODO DE EDIÇÃO DE CONTEÚDO DE VÍDEO E MEIO LEGÍVEL POR COMPUTADOR NÃO TRANSITÓRIO

REFERÊNCIA CRUZADA PARA PEDIDOS RELACIONADOS

[001] Este pedido reivindica prioridade ao Pedido de Patente Europeia No. 20178044.2; e Pedido Provisório dos Estados Unidos n°63/034.006, ambos depositados em 3 de junho de 2020, cada um dos quais é incorporado por referência em sua totalidade.

FUNDAMENTOS 1. Campo da Divulgação

[002] Este pedido refere-se geralmente a imagens; mais especificamente, este pedido refere-se à geração de metadados para gerenciamento de exibição em conexão com o conteúdo de vídeo.

2. Descrição da Técnica Relacionada

[003] Conforme usado neste documento, o termo “faixa dinâmica” (DR) pode estar relacionado a uma capacidade do sistema visual humano (HVS) de perceber uma faixa de intensidade (por exemplo, luminância, luma) em uma imagem, por exemplo, do mais escuro pretos (escuros) aos brancos mais claros (realces). Nesse sentido, a RD se refere a uma intensidade “referida ã cena”. A DR também pode estar relacionado à capacidade de um dispositivo de exibição de renderizar adequada ou aproximadamente uma faixa de intensidade de uma amplitude específica. Nesse sentido, a DR se refere a uma intensidade “referida ã exibição”. A menos que um sentido particular seja explicitamente especificado para ter um significado particular em qualquer ponto da descrição aqui, deve-se inferir que o termo pode ser usado em qualquer um dos sentidos, por exemplo, de forma intercambiável.

[004] Conforme usado neste documento, o termo “alta faixa dinâmica” (HDR) refere-se a uma amplitude de DR que abrange cerca de 14 a 15 ou mais ordens de magnitude do HVS. Na prática, a DR sobre o qual um humano pode perceber simultaneamente uma extensa amplitude na faixa de intensidade pode ser um tanto truncado, em relação ao HDR. Conforme usado neste documento, os termos “faixa dinâmica aprimorada” (EDR) ou “faixa dinâmica visual” (VDR) podem se relacionar individual ou intercambiavelmente à DR que é perceptível dentro de uma cena ou imagem pelo HVS que inclui movimentos oculares, permitindo algumas mudanças de adaptação de luz em toda a cena ou imagem. Conforme usado aqui, a EDR pode se referir a uma DR que abrange 5 a 6 ordens de magnitude. Assim, embora talvez um pouco mais estreito em relação à HDR referida na cena real, a EDR, no entanto, representa uma ampla amplitude de DR e também pode ser referido como HDR.

[005] Na prática, as imagens compreendem um ou mais componentes de cor (por exemplo, RGB, luma Y e croma Cb e Cr) onde, em um sistema digital quantizado, cada componente de cor é representado por uma precisão de n bits por pixel (por exemplo, n = 8). Uma profundidade de bits de n ≤ 8 (por exemplo, imagens JPEG coloridas de 24 bits) pode ser usada com imagens de faixa dinâmica padrão (SDR), enquanto uma profundidade de bits de n > 8 pode ser considerada para imagens de faixa dinâmica aprimorada (EDR) para evitar artefatos de contorno e escada. Além dos tipos de dados inteiros, as imagens de EDR e de alta faixa dinâmica (HDR) também podem ser armazenadas e distribuídas usando formatos de ponto flutuante de alta precisão (por exemplo, 16 bits), como o formato de arquivo OpenEXR desenvolvido pela Industrial Light and Magic.

[006] Uma função de transferência eletro-óptica de referência (EOTF) para uma determinada exibição caracteriza a relação entre os valores de cor (por exemplo, luminância) de um sinal de vídeo de entrada para os valores de cor da tela de saída (por exemplo, luminância da tela) produzidos pela exibição. Por exemplo, ITU Rec. ITU-R BT. 1886, “Reference electro-optical transfer function for flat panel displays used in HDTV studio production”, (março de 2011), que é incorporado aqui por referência em sua totalidade, define a referência de EOTF para monitores de tela plana com base nas características medidas do cátodo Tubo de raios (CRT). Dado um fluxo de vídeo, as informações sobre sua EOTF geralmente são incorporadas ao fluxo de bits como metadados.

[007] Muitos monitores de desktop de consumo renderizam conteúdo não HDR com uma luminância máxima de 200 a 300 cd/m2 (“nits”) e televisores de alta definição e ultra alta definição (“HDTV” e “UHD TV”) de 300 a 500 nits. Essa saída de exibição, portanto, tipifica uma faixa dinâmica baixa (LDR), também conhecida como SDR, em relação a HDR ou EDR. À medida que a disponibilidade de conteúdo HDR ou EDR aumenta devido aos avanços nos equipamentos de captura (por exemplo, câmeras) e monitores HDR (por exemplo, o monitor de referência profissional PRM-4200 da Dolby Laboratories ou o Sony Trimaster HX 31” 4K HDR Master Monitor), O conteúdo HDR pode ter classificação de cores e ser exibido em telas HDR que suportam faixas dinâmicas mais altas (por exemplo, de 700 nits a 5.000 nits ou mais). Essas telas podem ser definidas usando EOTFs alternativos que suportam alta capacidade de luminância (por exemplo, 0 a 10.000 nits) Um exemplo de tal EOTF é definido em SMPTE ST 2084:2014 “High Dynamic Range EOTF of Mastering Reference Displays”, que é incorporado aqui por referência em sua totalidade.

[008] Conforme usado neste documento, o termo “gerenciamento de exibição” denota o processamento (por exemplo, mapeamento de tom e gama) necessário para mapear um sinal de vídeo de entrada de uma primeira faixa dinâmica (por exemplo, 1000 nits) para uma exibição de uma segunda faixa dinâmica (por exemplo, 500 nits). Exemplos de processos de gerenciamento de exibição são descritos em Pedido PCT N° de Série PCT/US2014/016304 (o pedido ‘304), arquivado em 13 de fevereiro de 2014, “Display management for high dynamic range video”, por R. Atkins et al., que é aqui incorporado por referência em sua totalidade. O gerenciamento de exibição pode ser assistido ou controlado por metadados de entrada gerados pela fonte do conteúdo de entrada e multiplexados no fluxo de bits codificado.

[009] As abordagens descritas nesta seção são abordagens que podem ser adotadas, mas não necessariamente abordagens que foram concebidas ou adotadas anteriormente. Portanto, a menos que indicado de outra forma, não se deve presumir que qualquer uma das abordagens descritas nesta seção se qualifique como técnica anterior apenas em virtude de sua inclusão nesta seção. Da mesma forma, as questões identificadas com relação a uma ou mais abordagens não devem ser consideradas reconhecidas em qualquer técnica anterior com base nesta seção, a menos que indicado de outra forma.

BREVE SUMÁRIO DA DIVULGAÇÃO

[010] Vários aspectos da presente divulgação referem-se a dispositivos, sistemas e métodos para a geração de metadados que podem ser usados para fornecer qualidade de vídeo melhorada, estabilidade temporal melhorada, baixos requisitos computacionais e latência reduzida.

[011] Em um aspecto da presente divulgação, é fornecido um método de edição de conteúdo de vídeo, compreendendo: receber dados de vídeo de entrada; converter os dados de vídeo de entrada para um formato predefinido, para assim gerar dados de vídeo convertidos; gerar uma pluralidade de valores de metadados iniciais para um quadro dos dados de vídeo convertidos, a pluralidade de valores de metadados iniciais incluindo um primeiro valor de metadados correspondente a um primeiro valor fixo não calculado de um conteúdo incluindo o quadro, um segundo valor de metadados correspondente a um valor médio de luminância do quadro, e um terceiro valor de metadados correspondente a um segundo valor fixo não calculado a partir do conteúdo, em que o primeiro valor de metadados, o segundo valor de metadados, e o terceiro valor de metadados incluem informações usadas por um decodificador para renderizar uma imagem decodificada em uma tela.

[012] Em um outro aspecto da presente divulgação, é fornecido um sistema de edição de vídeo, compreendendo: uma memória; e um processador configurado para fazer o sistema de edição de vídeo: receber dados de vídeo de entrada, converter os dados de vídeo de entrada para um formato predefinido, para assim gerar dados de vídeo convertidos, gerar uma pluralidade de valores de metadados iniciais para um quadro dos dados de vídeo convertidos, a pluralidade de valores de metadados iniciais incluindo um primeiro valor de metadados correspondente a um primeiro valor fixo não calculado de um conteúdo incluindo o quadro, um segundo valor de metadados correspondente a um valor médio de luminância do quadro, e um terceiro valor de metadados correspondente a um segundo valor fixo não calculado a partir do conteúdo.

[013] Em um outro aspecto da presente divulgação, é fornecido um método de edição de conteúdo de vídeo, compreendendo: receber dados de vídeo de entrada; converter os dados de vídeo de entrada para um formato predefinido, para assim gerar dados de vídeo convertidos; gerar um primeiro valor de metadados para um quadro dos dados de vídeo convertidos, o primeiro valor de metadados correspondente a um valor médio de luminância do quadro; determinar uma janela temporal incluindo o quadro, a janela temporal tendo uma duração predeterminada no tempo; calcular uma faixa máxima de metadados e uma faixa mínima de metadados ao longo da janela temporal, para assim gerar um primeiro valor de metadados filtrado e um segundo valor de metadados filtrado; e suavizar o primeiro valor de metadados filtrado e o segundo valor de metadados filtrado, para assim gerar um primeiro valor de metadados filtrado e suavizado e um segundo valor de metadados filtrado e suavizado.

[014] Desta forma, vários aspectos da presente divulgação afetam melhorias pelo menos nos campos técnicos de captura de vídeo, edição e processamento de sinal, bem como nos campos relacionados de vídeo e outros conteúdos de entrega.

DESCRIÇÃO DOS DESENHOS

[015] Estas e outras características mais detalhadas e específicas de várias modalidades são mais amplamente divulgadas na seguinte descrição, sendo feita referência aos desenhos anexos, nos quais:
a Figura 1 ilustra um pipeline de entrega de vídeo exemplificativo de acordo com vários aspectos da presente divulgação;
a Figura 2 ilustra um fluxo de processo para um método de geração de metadados exemplificativo de acordo com vários aspectos da presente divulgação;
a Figura 3 ilustra metadados exemplificativos gerados pelo método da Figura 2;
a Figura 4 ilustra um fluxo de processo para um outro método de geração de metadados exemplificativo de acordo com vários aspectos da presente divulgação;
a Figura 5 ilustra metadados exemplificativos gerados pelo método da Figura 2;
a Figura 6 ilustra um fluxo de processo para um outro método de geração de metadados exemplificativo de acordo com vários aspectos da presente divulgação;
as Figuras 7A-7C respectivamente ilustram metadados exemplificativos gerados pelo método da Figura 6; e
a Figura 8 ilustra um sistema exemplificativo de acordo com vários aspectos da presente divulgação.

DESCRIÇÃO DETALHADA

[016] Esta divulgação e seus aspectos podem ser incorporados em várias formas, incluindo hardware, dispositivos ou circuitos controlados por métodos implementados por computador, produtos de programa de computador, sistemas e redes de computador, interfaces de usuário e interfaces de programação de aplicativos; bem como métodos implementados por hardware, circuitos de processamento de sinal, matrizes de memória, circuitos integrados específicos de aplicativos (ASICs), matrizes de portas programáveis em campo (FPGAs) e semelhantes. O resumo anterior destina-se apenas a dar uma ideia geral de vários aspectos da presente divulgação e não limita o escopo da divulgação de forma alguma.

[017] Na descrição a seguir, vários detalhes são apresentados, tais como configurações de dispositivos ópticos, temporizações, operações e semelhantes, a fim de fornecer uma compreensão de um ou mais aspectos da presente divulgação. Será prontamente aparente para um especialista na técnica que estes detalhes específicos são meramente exemplificativos e não pretendem limitar o escopo deste pedido.

[018] Além disso, embora a presente divulgação se concentre principalmente em exemplos nos quais os vários circuitos são usados na geração de conteúdo, será entendido que este é apenas um exemplo de uma implementação. Será ainda entendido que os sistemas e métodos divulgados podem ser usados em qualquer dispositivo no qual haja necessidade de gerar, modificar ou exibir dados de imagem e/ou metadados associados; por exemplo, cinema, sistemas de projeção de consumo e outros sistemas de projeção comercial, smartphone e outros dispositivos eletrônicos de consumo, monitores heads-up, monitores de realidade virtual, e semelhantes.

Metadados

[019] Conforme usado neste documento, o termo “metadados” refere-se a qualquer informação auxiliar que é transmitida como parte do fluxo de bits codificado e auxilia um decodificador a renderizar uma imagem decodificada. Esses metadados podem incluir, mas não estão limitados a, informações de gama ou espaço de cores, parâmetros de exibição de referência e parâmetros de sinal auxiliares, conforme descritos neste documento, e podem ser referidos coletivamente como “metadados de formação de imagem”.

[020] Esses metadados podem ser divididos ou classificados em diferentes níveis de metadados. Em um exemplo particular, onde a presente divulgação é implementada na arquitetura Dolby Vision, os metadados de mapeamento podem incluir metadados LO, metadados L1, metadados L2/L8, parâmetros L3, metadados L4, metadados L11 e semelhantes. Em alguns exemplos, os metadados LO fornecem ou descrevem informações sobre uma faixa dinâmica de dados de vídeo em todo o conteúdo do vídeo (ou seja, em várias tomadas e/ou cenas). Por exemplo, os metadados LO podem incluir L0min e L0max, que representam respectivamente a luminância mínima e a luminância máxima para o conteúdo de vídeo, respectivamente. Em um exemplo específico em que o conteúdo de vídeo é conteúdo HDR, L0min e L0max podem corresponder a 0,01 nit e 1000 nit, respectivamente.

[021] Em alguns exemplos, os metadados L1 fornecem ou descrevem informações sobre uma distribuição de valores de luminância em uma imagem de origem, uma cena de origem, um grupo de imagens de origem (GOP) e assim por diante, conforme representado nos dados de vídeo. A distribuição de valores de luminância pode ser representada por histogramas derivados com base no conteúdo da imagem (por exemplo, valores de pixel, valores luma, valores croma, valores Y, valores Cb/Cr, valores RGB, etc.) da imagem, a cena, o GOP, e assim por diante. Os metadados L1 podem incluir os parâmetros L1min, L1mid e L1max, que representam respectivamente a luminância mínima (“crush”), luminância de meio-tom (“média”) e luminância máxima (“clip”) para uma ou mais imagens, cenas, GOPS, etc., no conteúdo do vídeo, respectivamente.

[022] Outros níveis de metadados também podem ser definidos. Por exemplo, L2 fornece ou descreve informações sobre ajustes de características de vídeo que são originados de, ou rastreados para ajustes feitos por um diretor, um graduador de cores, um profissional de vídeo e assim por diante, em um estúdio de produção e/ou durante a pós-produção. Os metadados L8 são semelhantes aos metadados L2 e, em alguns casos, podem ser equivalentes aos metadados L2 (por exemplo, dependendo das respectivas curvas de tom). Os metadados L2 e L8 podem ser referidos como parâmetros de “corte” e podem ser indicativos ou relacionados ao ganho/compensação/potência dos dados de imagem. Os metadados L2 podem corresponder a uma primeira exibição de referência tendo uma primeira faixa dinâmica de referência.

[023] Os metadados L3 fornecem ou descrevem informações sobre ajustes de características de vídeo que são originados ou rastreados para ajustes feitos por um diretor, um graduador de cores, um profissional de vídeo e semelhantes. Em comparação com os metadados L2, os metadados L3 podem corresponder a uma segunda exibição de referência com uma faixa dinâmica de referência diferente da faixa dinâmica de referência da primeira exibição de referência. Os metadados L3 podem incluir, por exemplo, deslocamentos ou ajustes dos metadados L1, incluindo deslocamentos ou ajustes nos valores de luminância crush, média e/ou clip.

[024] Os metadados L4 fornecem ou descrevem informações sobre operações de escurecimento global. Os metadados L4 podem ser calculados por um codificador durante o pré-processamento e podem ser calculados usando cores primárias RGB. Em um exemplo, os metadados L4 podem incluir dados que determinam um nível de brilho de luz de fundo global de um painel de exibição por quadro. Outros metadados gerados, como metadados L11, podem fornecer ou descrever informações a serem usadas para identificar a fonte dos dados de vídeo, como conteúdo cinematográfico, conteúdo de jogos de computador, conteúdo esportivo e semelhantes. Esses metadados podem ainda fornecer ou descrever configurações de imagem pretendidas, como ponto de branco pretendido, nitidez e semelhantes.

[025] Tomados em conjunto, os metadados de formação de imagem podem incluir dados de conversão para converter de uma primeira faixa dinâmica para uma segunda faixa dinâmica que é diferente da primeira faixa dinâmica. Em alguns aspectos da presente divulgação, a primeira faixa dinâmica pode ser maior que a segunda faixa dinâmica (por exemplo, conversão de HDR para SDR). Em outros aspectos da presente divulgação, a segunda faixa dinâmica pode ser maior que a primeira faixa dinâmica (por exemplo, conversão de SDR para HDR).

[026] Métodos comparativos de geração de metadados de formação de imagem podem incluir o cálculo de metadados por quadro (por exemplo, metadados L1 por quadro) e aplicação de filtragem NR (por exemplo, para transmissão ao vivo ou jogos) ou combinação de metadados em cenas calculando o mínimo, a média e o máximo de uma cena (por exemplo, para estúdio ou conteúdo off-line profissional). No entanto, nenhum desses métodos permite a visualização instantânea do conteúdo durante a edição. Por exemplo, um usuário pode querer tornar uma imagem HDR mais brilhante e visualizar o resultado em um monitor SDR como uma exibição de referência. Para tanto, ocorrem os seguintes passos: o ajuste é aplicado na imagem HDR; os metadados L1 são recalculados para a imagem HDR ajustada; as operações de mapeamento de tom são modificadas; e o mapeamento de tom ajustado é aplicado à imagem HDR ajustada para produzir a imagem de visualização SDR.

[027] Este conjunto de operações pode ser satisfatório se aplicado a uma única imagem, pois uma única imagem pode ser razoavelmente armazenada em uma memória para que as operações possam ser aplicadas em rápida sucessão. No entanto, os metadados L1 (e, portanto, a curva de tom resultante) podem variar significativamente de quadro para quadro, fazendo com que a imagem mapeada pisque. Isso pode ser chamado de “instabilidade temporal”. Para garantir a estabilidade temporal da curva de tom, alguns filtros podem ser executados. No entanto, se a operação de recálculo de metadados depender de várias imagens, a operação de ajuste e a operação de recálculo de metadados devem ser aplicadas a muitas imagens, o que pode ser impraticável ou impossível em taxas de vídeo rápidas.

[028] Assim, métodos comparativos de geração de metadados de formação de imagem podem resultar em desaceleração do ciclo iterativo de ajuste, atualização e visualização dos resultados. Além disso, o método comparativo de filtragem NR pode exigir que um número muito grande de quadros seja analisado antes de um quadro atual, porque o quadro atual requer todos os quadros anteriores para o filtro NR. O método comparativo de estúdio ou profissional requer todos os quadros de uma cena, que em alguns casos pode ter uma duração da ordem de minutos ou mesmo horas.

[029] Em vista disso, vários aspectos da presente divulgação fornecem métodos de geração de metadados para edição eficiente; ou seja, edição que resulta em alta qualidade de imagem e alta estabilidade temporal. Vários aspectos da presente divulgação podem realizar tal edição com baixos requisitos computacionais e baixa ou nenhuma latência. Em alguns aspectos, os métodos de geração de metadados são incorporados ou usados com um pipeline de entrega de vídeo.

Pipeline de Entrega de Vídeo

[030] A Figura 1 ilustra um pipeline de entrega de vídeo exemplificativo, e mostra vários estágios desde a captura de vídeo até a exibição de conteúdo de vídeo. Além disso, embora a descrição a seguir seja fornecida em termos de vídeo (ou seja, imagens em movimento), a presente divulgação não é tão limitada. Em alguns exemplos, o conteúdo da imagem pode ser imagens estáticas ou combinações de vídeo e imagens estáticas. O conteúdo da imagem pode ser representado por gráficos raster (ou pixel), por gráficos vetoriais ou por combinações de gráficos raster e vetoriais. A Figura 1 ilustra um bloco de geração de imagem 101, um bloco de produção 102, um bloco de pós-produção 103, um bloco de codificação 104, um bloco de decodificação 105, e um bloco de gerenciamento de exibição 106. Os vários blocos ilustrados na Figura 1 podem ser implementados como ou por meio de hardware, software, firmware, ou combinações dos mesmos. Além disso, vários grupos dos blocos ilustrados podem ter suas respectivas funções combinadas e/ou podem ser executadas em diferentes dispositivos e/ou em diferentes momentos. Blocos individuais ou grupos dos blocos ilustrados podem ser implementados por meio de conjunto de circuitos, incluindo, entre outros, unidades centrais de processamento (CPUs), unidades de processamento gráfico (GPUs), ASICs, FPGAs e suas combinações. As operações realizadas por um ou mais dos blocos podem ser processadas localmente, remotamente (por exemplo, com base na nuvem) ou uma combinação de local e remotamente.

[031] Conforme ilustrado na Figura 1, o pipeline de entrega de vídeo ainda inclui uma exibição de referência 111, que pode ser fornecida para auxiliar ou monitorar as operações conduzidas no bloco de pós-produção 103 e uma exibição alvo 112. Para fins de explicação, o bloco de geração de imagem 101, o bloco de produção 102, o bloco de pós-produção 103 e o bloco de codificação 104 podem ser referidos como blocos ou componentes “a montante”, enquanto o bloco de decodificação 105 e o bloco de gerenciamento de exibição 106 podem ser referidos como blocos ou componentes “a jusante”.

[032] No exemplo ilustrado na Figura 1, o conteúdo de vídeo na forma de uma sequência de quadros de vídeo 121 é capturado ou gerado no bloco de geração de imagem 101. Os quadros de vídeo 121 podem ser capturados digitalmente (por exemplo, por uma câmera digital) ou gerados por um computador (por exemplo, usando animação por computador) para gerar dados de vídeo 122. Alternativamente, os quadros de vídeo 121 podem ser capturados em filme por uma câmera de filme e então convertidos para um formato digital para fornecer os dados de vídeo 122. Em ambos os casos, os dados de vídeo 122 são fornecidos ao bloco de produção 102, onde é editado para fornecer um fluxo de produção 123. Os quadros de vídeo 121 podem ser agrupados em sequências, como tomadas e cenas. Um plano é, por exemplo, um conjunto de quadros conectados temporalmente. As tomadas podem ser separadas por “cortes de tomada” (por exemplo, pontos de tempo nos quais todo o conteúdo da imagem muda em vez de apenas uma parte dela). Uma cena é, por exemplo, uma sequência de tomadas que descrevem um segmento narrativo do conteúdo maior. Em um exemplo específico em que o conteúdo do vídeo é um filme de ação, o conteúdo do vídeo pode incluir (entre outros) uma cena de perseguição que, por sua vez, inclui uma série de tomadas (por exemplo, uma tomada do motorista de um veículo perseguidor, uma tomada do motorista de um veículo perseguido, um plano de uma rua onde ocorre a perseguição e assim por diante).

[033] Os dados de vídeo no fluxo de produção 123 são então fornecidos a um processador ou processadores no bloco de pós-produção 103 para edição de pós-produção. A edição realizada no bloco de pós-produção 103 pode incluir o ajuste ou modificação de cores ou brilho em áreas específicas de uma imagem para melhorar a qualidade da imagem ou obter uma aparência específica para a imagem de acordo com a intenção criativa do criador (ou editor) do vídeo. Isso pode ser chamado de “temporização de cores” ou “gradação de cores”. Outra edição (por exemplo, seleção de cena e sequenciamento, corte de imagem, adição de efeitos especiais visuais gerados por computador ou sobreposições, etc.) pode ser realizada no bloco de pós-produção 103 para produzir um fluxo de distribuição 124. Em alguns exemplos, a pós-produção - o bloco de produção 103 pode fornecer um fluxo intermediário 125 para a exibição de referência 111 para permitir que as imagens sejam visualizadas na tela do mesmo, por exemplo, para auxiliar no processo de edição. Um, dois ou todo o bloco de produção 102, o bloco de pós-produção 103 e o bloco de codificação 104 podem ainda incluir processamento para adicionar metadados aos dados de vídeo. Esse processamento adicional pode incluir, mas não está limitado a, uma análise estatística das propriedades do conteúdo. O processamento adicional pode ser realizado local ou remotamente (por exemplo, processamento baseado em nuvem).

[034] Após as operações de pós-produção, o fluxo de distribuição 124 pode ser entregue ao bloco de codificação 104 para entrega a jusante para dispositivos de decodificação e reprodução, como televisores, decodificadores, cinemas, computadores tipo laptops, computadores tipo tablets, e semelhantes. Em alguns exemplos, o bloco de codificação 104 pode incluir codificadores de áudio e vídeo, como aqueles definidos pelo Comitê de Sistemas Avançados de Televisão (ATSC), Transmissão de Vídeo Digital (DVB), Disco Versátil Digital (DVD), Blu-Ray e outros formatos de entrega, para assim gerar um fluxo de bits codificado 126. Em um receptor, o fluxo de bits codificado 126 é decodificado pela unidade de decodificação 105 para gerar um sinal decodificado 127 representando uma aproximação idêntica ou próxima do fluxo de distribuição 124. O receptor pode ser conectado à exibição alvo 112, que pode ter características diferentes da exibição de referência 111. Quando a exibição de referência 111 e a exibição alvo 112 tiverem características diferentes, o bloco de gerenciamento de exibição 106 pode ser usado para mapear a faixa dinâmica ou outras características do sinal decodificado 127 às características da exibição alvo 112 gerando um sinal mapeado de exibição 128. O bloco de gerenciamento de exibição 106 pode adicionalmente ou alternativamente ser usado para fornecer gerenciamento de energia da tela alvo 112.

[035] A exibição alvo 112 gera uma imagem usando uma matriz de pixels. A estrutura particular da matriz depende da arquitetura e resolução da tela. Por exemplo, se 0 monitor alvo 112 operar em uma arquitetura LCD, ele pode incluir uma matriz de luz de fundo de resolução comparativamente baixa (por exemplo, uma matriz de LED ou outros elementos emissores de luz) e uma matriz de cristal líquido de resolução comparativamente alta e matriz de filtro de cores para atenuar seletivamente a luz branca da matriz de luz de fundo e fornecer luz colorida (geralmente chamada de tecnologia de exibição de modulação dupla). Se o monitor de destino 112 operar em uma arquitetura OLED, ele pode incluir uma matriz de alta resolução de pixels de cor auto emissivos.

[036] A ligação entre os blocos a montante e os blocos a jusante (ou seja, o caminho através do qual o fluxo de bits codificado 126 é fornecido) pode ser incorporado por uma transferência ao vivo ou em tempo real, como uma transmissão pelo ar usando ondas eletromagnéticas ou através de uma linha de entrega de conteúdo, como fibra ótica, par trançado (ethernet) e/ou cabos coaxiais. Em outros exemplos, a ligação pode ser incorporada por uma transferência independente do tempo, como a gravação do fluxo de bits codificado em uma mídia física (por exemplo, um DVD ou disco rígido) para entrega física a um dispositivo de usuário final (por exemplo, um reprodutor de DVD). O bloco decodificador 105 e o bloco de gerenciamento de exibição 106 podem ser incorporados a um dispositivo associado à exibição alvo 112; por exemplo, na forma de uma Smart TV que inclui decodificação, gerenciamento de exibição, gerenciamento de energia e funções de exibição. Em alguns exemplos, o bloco decodificador 105 e/ou o bloco de gerenciamento de exibição 106 podem ser incorporados a um dispositivo separado da exibição alvo 112; por exemplo, na forma de um decodificador ou reprodutor de mídia.

[037] O bloco decodificador 105 e/ou o bloco de gerenciamento de exibição 106 podem ser configurados para receber, analisar e operar em resposta aos metadados incluídos ou adicionados nos blocos a montante. Tais metadados podem, portanto, ser usados para fornecer controle ou gerenciamento adicional da tela de destino 112. Os metadados podem incluir os metadados de formação de imagem descritos acima (por exemplo, metadados Dolby Vision). Os metadados podem ser gerados no bloco de pós-produção 103 com o uso da exibição de referência 111 e o fluxo de produção 123 e/ou o fluxo intermediário 125.

Geração Semi-Dinâmica de Metadados

[038] Os metadados de formação de imagem podem ser gerados usando um método “semi-dinâmico”, um exemplo do qual é ilustrado na Figura 2. As operações ilustradas na Figura 2 pode ser executado automaticamente por meio do uso de hardware, software, firmware ou combinações dos mesmos associados ao bloco de pós-produção 103 da Figura 1.

[039] Conforme ilustrado na Figura 2, o processo de geração de metadados semidinâmico pode começar na operação 201, na qual um sinal de vídeo é convertido para um formato predeterminado (por exemplo, um EOTF específico). Por exemplo, o sinal de vídeo pode ser convertido de um Híbrido Log-Gamma (HLG) ou SLOG-3 HDR para Quantizador de Percepção RGB (PQ) HDR, por exemplo, conforme descrito em Rec. ITU-R BT.2100-1 (06/2017). Em algumas implementações, na operação 202, uma suavização espacial e/ou subamostragem pode ser aplicada. A operação 202 pode ser implementada usando um núcleo de suavização 2D (por exemplo, [1 1] /2 ou [1 3 3 1] /8). Isso reduz a sensibilidade a pixels individuais. Em alguns exemplos, a imagem pode ser reduzida a um tamanho menor (por exemplo, metade do tamanho) após a filtragem. Em outras implementações, a operação 202 pode ser omitida e o processo de geração de metadados semi-dinâmicos pode prosseguir diretamente da operação 201 para a operação 203. Na operação 203, os valores iniciais de L1mid são calculados (por exemplo, por quadro). Por exemplo, L1mid pode representar o valor médio da luminância RGB máxima. Em outras palavras, L1 mid pode representar o valor médio do máximo dos valores dos componentes de cor R, G, B para cada pixel. Os valores de L1min e L1max não são calculados a partir do conteúdo, em vez disso, na operação 204 valores fixos são usados que correspondem à faixa mínima e máxima permitida do conteúdo da imagem, conforme representado nos metadados L0 (por exemplo, Level0.Smin e Level0. Smax). Por exemplo, L1 mid pode representar o valor médio de luminância dos valores do componente Y quando uma representação YCbCr é usada.

[040] Como um exemplo particular das operações da Figura 2, o seguinte pseudocódigo é apresentado usando um formato semelhante ao MATLAB:

[041] A Figura 3 ilustra uma saída exemplar das operações acima para metadados correspondentes aos valores de crush, média e clip. Cada gráfico ilustra uma luminância normalizada em função de um número de quadro. As linhas 310min, 310mid e 310max ilustram os valores mínimo, médio e máximo de luminância de um determinado quadro, respectivamente. As linhas 320min, 320mid e 320max ilustram os valores L1min, L1mid e L1max para o quadro dado.

[042] Como L1min e L1max são definidos para os valores de L0min e L0max, respectivamente, os valores de metadados de crush e clip não correspondem estritamente aos valores reais de luminância para todos os quadros. No exemplo particular ilustrado na Figura 3, o valor mínimo de luminância por quadro (linha 310min) varia entre aproximadamente 0,01 e 0,48, enquanto o valor L1 min (linha 320min) é definido como aproximadamente 0. O valor máximo de luminância por quadro (linha 310max) varia entre aproximadamente 0,53 e 0,82, enquanto o valor L1 max (linha 320max) é ajustado para aproximadamente 0,82. No entanto, como L1mid é determinado por um valor dinâmico, o valor de metadados intermediários corresponde aproximadamente ao valor de luminância real para todos os quadros. Conforme ilustrado na Figura 3, o valor médio de luminância por quadro (linha 310mid) e o valor L1mid (linha 320mid) têm uma alta correspondência.

[043] A geração semi-dinâmica de metadados requer o processamento de apenas um único quadro. Este método resulta em alta eficiência; no entanto, como pode ser visto na Figura 3, o uso de valores estáticos dos valores de metadados de crush e clip resulta em um contraste de imagem mapeado ligeiramente inferior para imagens que não usam toda a faixa dinâmica do contêiner.

Geração de Metadados Dinâmicos

[044] Os metadados de formação de imagem podem ser gerados usando um método “dinâmico”, um exemplo do qual é ilustrado na Figura 4. As operações ilustradas na Figura 4 pode ser executado automaticamente por meio do uso de hardware, software, firmware ou combinações dos mesmos associados ao bloco de pós-produção 103 da Figura 1.

[045] Conforme ilustrado na Figura 4, o processo dinâmico de geração de metadados pode começar na operação 401, na qual um sinal de vídeo é convertido para um formato predeterminado (por exemplo, um EOTF específico). Por exemplo, o sinal de vídeo pode ser convertido de um HLG ou SLOG-3 HDR para RGB PQ HDR, por exemplo, conforme descrito em Rec. ITU-R BT.2100-1 (06/2017). Em algumas implementações, na operação 402, uma suavização espacial e/ou subamostragem pode ser aplicada. A operação 402 pode ser implementada usando um núcleo de suavização 2D (por exemplo, [1 1] /2 ou [1 3 3 1] /8). Isso reduz a sensibilidade a pixels individuais. Em alguns exemplos, a imagem pode ser reduzida a um tamanho menor (por exemplo, metade do tamanho) após a filtragem. Em outras implementações, a operação 402 pode ser omitida e o processo de geração de metadados semi-dinãmicos pode prosseguir diretamente da operação 401 para a operação 403. Na operação 403, os valores iniciais de L1 min, L1mid e L1 max são calculados (por exemplo, em um quadro por quadro base). Por exemplo, L1 min pode representar o valor mínimo da luminância RGB, L1 mid pode representar o valor médio da luminância RGB máxima e L1 max pode representar o valor máximo da luminância RGB.

[046] Posteriormente, na operação 404, os valores de L1 min e L1 max são recalculados usando valores dinâmicos para o dado tiro ou cena. Por exemplo, cada quadro da foto ou cena pode ser analisado para determinar a luminância RGB mínima e máxima em uma determinada foto ou cena. Na operação 405, os valores de L1 min e L1 max são recalculados usando um valor que corresponde ao mínimo e máximo de largura de clip determinados na operação 404. Comparado com o método semidinâmico descrito acima, o método dinâmico pode corresponder mais de perto à imagem dados porque L1 min e L1 max são determinados em relação à luminância RGB mínima e máxima real do conteúdo, em vez da luminância RGB mínima e máxima permitida (isto é, possível) do conteúdo.

[047] Como um exemplo particular das operações da Figura 4, o seguinte pseudocódigo é apresentado usando um formato semelhante ao MATLAB:

[048] A Figura 5 ilustra uma saída exemplar das operações acima para metadados correspondentes às operações acima para metadados correspondentes aos valores de crush, de meio e de clip. Cada gráfico ilustra uma luminância normalizada em função de um número de quadro. As linhas 510min, 510mid, e 510max ilustram os valores mínimo, médio e máximo de luminância de um determinado quadro, respectivamente. As linhas 520min, 520mid, e 520max ilustram os valores de L1 min, L1mid e L1max para o quadro dado.

[049] Como L1 min e L1 max são definidos como os valores mínimos em todos os quadros do clip, os valores de metadados de crush e clip não correspondem estritamente aos valores reais de luminância para todos os quadros. No entanto, em comparação com o método semidinâmico descrito acima, os valores de metadados de crush e clip são mais compatíveis com os valores reais de luminância. No exemplo particular ilustrado na Figura 5, o valor mínimo de luminância por quadro (linha 510min) varia entre aproximadamente 0,02 e 0,48, enquanto o valor L1min (linha 510min) é definido em aproximadamente 0,02. Por comparação, no método semidinâmico ilustrado na Figura 3, 0 valor L1 min (linha 310min) foi definido como 0. O valor máximo de luminância por quadro (linha 510max) varia entre aproximadamente 0,53 e 0,82, enquanto o valor L1max (linha 520max) é definido como aproximadamente 0,82. Como acima, como L1mid é determinado por um valor dinâmico, o valor de metadados intermediários corresponde aproximadamente ao valor de luminância real para todos os quadros. Conforme ilustrado na Figura 5, o valor médio de luminância por quadro (linha 510mid) e o valor L1mid (linha 520mid) têm uma alta correspondência.

[050] A geração dinâmica de metadados requer o processamento de todos os quadros em uma determinada tomada ou cena e, portanto, pode resultar em maiores requisitos computacionais em comparação com a geração semi-dinâmica de metadados. No entanto, como pode ser visto na Figura 5 o uso de valores dinâmicos dos valores de metadados de crush e clip não sofre do mesmo tipo de redução de contraste da imagem mapeada para imagens que não usam toda a faixa dinâmica do contêiner.

Geração de metadados FIR em janela

[051] Os metadados de formação de imagem podem ser gerados usando um método de “janela”, um exemplo do qual é ilustrado na Figura 6. As operações ilustradas na Figura 6 pode ser executado automaticamente por meio do uso de hardware, software, firmware ou combinações dos mesmos associados ao bloco de pós-produção 103 da Figura 1.

[052] Conforme ilustrado na Figura 6, o processo de geração de metadados em janela pode começar na operação 601, na qual um sinal de vídeo é convertido em um formato predeterminado (por exemplo, um EOTF específico). Por exemplo, o sinal de vídeo pode ser convertido de HLG ou SLOG-3 HDR para RGB PQ HDR, por exemplo, conforme descrito em Rec. ITU-R BT.2100-1 (06/2017). Posteriormente, na operação 602, a suavização espacial e/ou subamostragem são aplicadas. A operação 402 pode ser implementada usando um núcleo de suavização 2D (por exemplo, [1 1] /2 ou [1 3 3 1] /8). Isso reduz a sensibilidade a pixels individuais. Em alguns exemplos, a imagem pode ser reduzida a um tamanho menor (por exemplo, metade do tamanho) após a filtragem. Na operação 603, os valores iniciais de L1min, L1mid e L1max são calculados (por exemplo, por pixel). Por exemplo, L1min pode representar o valor mínimo da luminância RGB mínima, L1mid pode representar o valor médio da luminância RGB máxima e L1max pode representar o valor máximo da luminância RGB máxima.

[053] Posteriormente, na operação 604, uma lista de quadros na janela móvel (k) é determinada. Isso pode ser especificado como um comprimento máximo no tempo T multiplicado pela taxa de quadros. A janela de tempo T (também chamada de janela “temporal”) pode ser configurada pelo operador. Em alguns exemplos, a janela de tempo T é configurável entre 0,4 segundos e 8 segundos. Em um exemplo particular, a janela de tempo T é de 4 segundos. Como será descrito mais detalhadamente abaixo, o valor particular da janela de tempo T é selecionado para equilibrar estabilidade temporal e qualidade de imagem; por exemplo, janelas mais curtas podem introduzir um certo grau de oscilação, enquanto janelas mais longas podem resultar em um processo mais estático. A própria janela, no entanto, é configurada de forma que não cruze os cortes da cena e, portanto, seja delimitada pelo primeiro e último quadro da cena atual.

[054] A operação 605 é uma primeira passagem, na qual são calculados o mínimo e 0 máximo da janela. Por exemplo, para cada quadro f na janela móvel k, a operação 605 pode suavizar os metadados usando um kernel de suavização 1D, como [1 1] /2, [1 2 1] /4, [13 3 1] /8, ou [1 3 8 3 1] /16, obtendo assim metadados suavizados L1minS(f) e L1maxS(f). Isso reduz a sensibilidade a quadros individuais. Posteriormente, a operação 605 pode determinar uma faixa máxima de metadados na janela móvel k; por exemplo, calculando L1minM(f) = min(L1minS(k)) (ou seja, o valor mínimo suavizado mínimo dos metadados) e L1maxM(f) = max(L1 max(S(k)) (ou seja, o valor máximo suavizado máximo dos metadados).

[055] A operação 606 é uma segunda passagem, na qual o mínimo e o máximo da janela são suavizados. Por exemplo, a operação 606 pode calcular um filtro de suavização F como uma forma gaussiana com L taps e um desvio padrão s = L/6, e então para cada quadro f na janela móvel k pode suavizar os metadados filtrados calculados na operação 605 com o filtro de suavização F para obter valores de metadados suavizados e filtrados L1minF e L1maxF. A operação 606 também pode, para cada quadro f, definir L1min e L1max para os valores de metadados suavizados e filtrados e definir L1mid para seu valor inicial determinado na operação 603.

[056] Como as operações 605 e 606 são aplicadas a uma janela móvel de quadros, as operações 604, 605 e 606 podem ser repetidas para que todas as janelas possíveis dentro de uma determinada cena sejam processadas.

[057] Como um exemplo particular das operações da Figura 6, o seguinte pseudocódigo é apresentado usando um formato semelhante ao MATLAB:

[058] As Figuras 7A-7C ilustra uma saída exemplar das operações acima para metadados correspondentes aos valores de crush, meio e clip, para diferentes comprimentos de janela. Cada gráfico ilustra uma luminância normalizada em função de um número de quadro. Em cada uma das Figuras. 7A-7C, as linhas 710min, 710mid, e 710max ilustram os valores mínimo, médio e máximo de luminância de um determinado quadro, respectivamente. Na Figura 7A, as linhas 721min, 721mid, e 721max ilustram os valores L1min, L1mid, L1max para o quadro dado calculado de acordo com os métodos acima com um comprimento de janela T de 1 segundo. Na Figura 7B, as linhas 722min, 722mid, e 722max ilustram os valores L1min, L1mid, L1max para o quadro dado calculado de acordo com os métodos acima com um comprimento de janela T de 4 segundos. Na Figura 7C, as linhas 723min, 723mid, e 723max ilustram os valores L1min, L1mid, L1max para o quadro dado calculado de acordo com os métodos acima com um comprimento de janela T de 8 segundos.

[059] Comparando as Figuras 7A-7C entre si, pode-se ver que comprimentos de janela mais curtos resultam em qualidade de imagem aumentada (por exemplo, a linha 721max rastreia mais de perto a linha 710max); no entanto, comprimentos de janela mais longos resultam em estabilidade temporal melhorada (por exemplo, a linha 723max exibe um maior grau de variabilidade). Em uma implementação particular da presente divulgação, o comprimento da janela é preferencialmente de 4 segundos, conforme ilustrado na Figura 7B.

[060] A geração janelada de metadados produz metadados que são um envelope externo do crush e o clip de uma janela em movimento. Em comparação com a geração semi-dinâmica de metadados, ela requer mais quadros para computar, mas é finita no número de quadros necessários para computar metadados para qualquer quadro único, ao contrário dos métodos comparativos descritos acima. Ao aplicar um filtro duas vezes consecutivas, o filtro resultante é essencialmente o triplo do comprimento da janela especificada. As operações sucessivas podem ser combinadas em uma única operação ou fluxo, por exemplo, usando o pseudocódigo ilustrado acima.

Implementação de Sistema de Computador Exemplar

[061] Vários aspectos da presente divulgação podem ser implementados com um sistema de computador, sistemas configurados em circuitos e componentes eletrônicos, um dispositivo de circuito integrado (IC), como um microcontrolador, uma FPGA ou outro dispositivo lógico programável (PLD) configurável, um processador de sinal digital ou de tempo discreto (DSP), um ASIC e/ou um aparelho que inclui um ou mais desses sistemas, dispositivos e componentes. O computador e/ou IC pode executar, controlar ou executar instruções relacionadas aos processos e operações descritos acima. O computador e/ou IC pode computar qualquer um de uma variedade de parâmetros ou valores que se relacionam com os processos e operações descritos acima.

[062] A Figura 8 ilustra um exemplo de um sistema de computador 800 em que um ou mais aspectos da presente divulgação podem ser implementados. Conforme ilustrado, o sistema de computador 800 inclui um barramento 801 ou outro mecanismo de comunicação para comunicar informações e um processador de hardware 802 acoplado ao barramento 801 para processar informações. O processador 802 pode ser, por exemplo, um microprocessador de uso geral.

[063] O sistema de computador 800 também inclui uma memória principal 803, como uma memória de acesso aleatório (RAM) ou outro dispositivo de armazenamento dinâmico, acoplado ao barramento 801 para armazenar informações e instruções a serem executadas pelo processador 802. A memória principal 803 também pode ser usado para armazenar variáveis temporárias ou outras informações intermediárias durante a execução de instruções a serem executadas pelo processador 802. Tais instruções, quando armazenadas em mídia de armazenamento não transitória acessível ao processador 802, transformam o sistema de computador 800 em um sistema especial Máquina de finalidade personalizada para executar as operações especificadas nas instruções.

[064] O sistema de computador 800 inclui ainda uma memória somente leitura (ROM) 804 ou outro dispositivo de armazenamento estático acoplado ao barramento 801 para armazenar informações estáticas e instruções para o processador 802. Um dispositivo de armazenamento 805, tal como um disco magnético ou óptico disco, pode ser fornecido e acoplado ao barramento 801 para armazenar informações e instruções. O sistema de computador 800 pode ser acoplado por meio do barramento 801 a uma tela 811, como uma tela de cristal líquido, para exibir informações a um usuário de computador. Um dispositivo de entrada 812, incluindo teclas alfanuméricas e outras, é acoplado ao barramento 801 para comunicar informações e seleções de comando ao processador 802. O sistema de computador 800 pode ainda ser acoplado através do barramento 801 a um controle de cursor 813, como um mouse, um trackball ou teclas de direção do cursor para comunicar informações de direção e seleções de comando para o processador 802 e para controlar o movimento do cursor na tela 811.

[065] O sistema de computador 800 pode implementar as técnicas aqui descritas usando lógica com fio personalizada, um ou mais ASICs ou FPGAs, firmware e/ou lógica de programa que em combinação com o sistema de computador faz com que ou programe o sistema de computador 800 para ser uma máquina para fins especiais. De acordo com uma modalidade, as técnicas aqui descritas são executadas pelo sistema de computador 800 em resposta ao processador 802 executando uma ou mais sequências de uma ou mais instruções contidas na memória principal 803. Tais instruções podem ser lidas na memória principal 803 de outro meio de armazenamento, tal como o dispositivo de armazenamento 805. A execução das sequências de instruções contidas na memória principal 803 faz com que o processador 802 execute as etapas do processo aqui descritas. Em modalidades alternativas, circuitos com fio podem ser usados no lugar ou em combinação com instruções de software.

[066] O termo “mídia de armazenamento”, conforme usado neste documento, refere-se a qualquer mídia não transitória que armazena dados e/ou instruções que fazem com que uma máquina opere de uma maneira específica. Tal mídia de armazenamento pode compreender mídia não volátil e/ou mídia volátil. Mídia não volátil inclui, por exemplo, discos ópticos ou magnéticos, como o dispositivo de armazenamento 805. Mídia volátil inclui memória dinâmica, como a memória principal 803. Formas comuns de mídia de armazenamento incluem, por exemplo, um disquete, um flexível disco rígido, unidade de estado sólido, fita magnética ou qualquer outro meio magnético de armazenamento de dados, um CD-ROM, qualquer outro meio óptico de armazenamento de dados, qualquer meio físico com padrões de furos, uma RAM, uma PROM e EPROM, uma FLASH-EPROM, NVRAM, qualquer outro chip ou cartucho de memória.

[067] A mídia de armazenamento é distinta, mas pode ser usada em conjunto com a mídia de transmissão. A mídia de transmissão participa da transferência de informações entre as mídias de armazenamento. Por exemplo, os meios de transmissão incluem cabos coaxiais, fio de cobre e fibra ótica, incluindo os fios que compõem o barramento 801. Os meios de transmissão também podem assumir a forma de ondas acústicas ou luminosas, como as geradas durante dados de ondas de rádio e infravermelho comunicações.

[068] Várias formas de mídia podem estar envolvidas no transporte de uma ou mais sequências de uma ou mais instruções para o processador 802 para execução. Por exemplo, as instruções podem ser transportadas inicialmente em um disco magnético ou unidade de estado sólido de um computador remoto. O computador remoto pode carregar as instruções em sua memória dinâmica e enviá-las por uma linha de comunicação, como cabo coaxial, fibras ópticas e assim por diante. Uma interface de comunicação 806 local para o sistema de computador 800 pode receber os dados na linha de comunicação e os circuitos apropriados podem colocar os dados no barramento 801. O barramento 801 transporta os dados para a memória principal 803, da qual o processador 802 recupera e executa as instruções. As instruções recebidas pela memória principal 803 podem opcionalmente ser armazenadas no dispositivo de armazenamento 805 antes ou depois da execução pelo processador 802.

[069] A interface de comunicação 806 fornece um acoplamento de comunicação de dados bidirecional a um link de rede 821 que está conectado a uma rede local 822. Por exemplo, a interface de comunicação 806 pode ser um cartão de rede digital de serviços integrados (ISDN), modem a cabo, modem via satélite ou um modem para fornecer uma conexão de comunicação de dados a um tipo correspondente de linha telefônica. Como outro exemplo, a interface de comunicação 806 pode ser uma placa de rede local (LAN) para fornecer uma conexão de comunicação de dados para uma LAN compatível. Links sem fio também podem ser implementados. Em qualquer tal implementação, a interface de comunicação 806 envia e recebe sinais elétricos, eletromagnéticos ou ópticos que carregam fluxos de dados digitais representando vários tipos de informação.

[070] O link de rede 821 normalmente fornece comunicação de dados através de uma ou mais redes para outros dispositivos de dados. Por exemplo, o link de rede 821 pode fornecer uma conexão através da rede local 822 a um computador hospedeiro 823 ou a um equipamento de dados operado por um provedor de serviços de Internet (ISP) 824. O ISP 824, por sua vez, fornece serviços de comunicação de dados por meio do pacote mundial rede de comunicação de dados agora comumente chamada de “Internet” 825. A rede local 822 e a Internet 825 usam sinais elétricos, eletromagnéticos ou ópticos que transportam fluxos de dados digitais. Os sinais através das várias redes e os sinais no link de rede 821 e através da interface de comunicação 806, que transportam os dados digitais de e para o sistema de computador 800, são exemplos de formas de mídia de transmissão.

[071] O sistema de computador 800 pode enviar mensagens e receber dados, incluindo código de programa, através da(s) rede(s), o link de rede 821 e a interface de comunicação 806. No exemplo da Internet, um servidor 826 pode transmitir um código solicitado para um programa aplicativo através da Internet 825, do ISP 824, da rede local 822 e da interface de comunicação 806. O código recebido pode ser executado pelo processador 802 à medida que é recebido e/ou armazenado no dispositivo de armazenamento 805 ou outro não armazenamento volátil para execução posterior.

Aplicações e Efeitos

[072] Os aspectos acima da presente divulgação podem fornecer a geração de metadados que podem ser usados para fornecer qualidade de vídeo melhorada, estabilidade temporal melhorada, baixos requisitos computacionais e latência reduzida.

[073] Sistemas, métodos e dispositivos de acordo com a presente divulgação podem assumir qualquer uma ou mais das seguintes configurações.

[074] (1) Um método de edição de conteúdo de vídeo, compreendendo: receber dados de vídeo de entrada; converter os dados de vídeo de entrada para um formato predefinido, para assim gerar dados de vídeo convertidos; gerar uma pluralidade de valores de metadados iniciais para um quadro dos dados de vídeo convertidos, a pluralidade de valores de metadados iniciais incluindo um primeiro valor de metadados correspondente a um primeiro valor fixo não calculado de um conteúdo incluindo o quadro, um segundo valor de metadados correspondente a um valor médio de luminância do quadro, e um terceiro valor de metadados correspondente a um segundo valor fixo não calculado a partir do conteúdo, em que o primeiro valor de metadados, o segundo valor de metadados, e o terceiro valor de metadados incluem informações usadas por um decodificador para renderizar uma imagem decodificada em uma tela.

[075] (2) O método de acordo com (1), ainda compreendendo aplicar uma operação de suavização espacial para os dados de vídeo convertidos antes de gerar a pluralidade de valores de metadados iniciais.

[076] (3) O método de acordo com (2), em que a aplicação da operação de suavização espacial inclui subamostragem dos dados de vídeo convertidos.

[077] (4) O método de acordo com (2) ou (3), em que a aplicação da operação de suavização espacial inclui dizimar os dados de vídeo convertidos para um tamanho menor.

[078] (5) O método de acordo com qualquer um de (1) a (4) ainda compreendendo: emitir dados de vídeo de distribuição incluindo uma parte dos dados de vídeo correspondentes ao quadro, ao primeiro valor de metadados, ao segundo valor de metadados, e ao terceiro valor de metadados.

[079] (6) O método de acordo com qualquer um de (1) a (5), em que o primeiro valor fixo corresponde a um valor de luminância mínimo permitido do conteúdo, e o segundo valor fixo corresponde a um valor de luminância máximo permitido do conteúdo.

[080] (7) O método de acordo com qualquer um de (1) a (6), em que o formato predefinido é um formato de Faixa Dinâmica Alta do Quantizador Perceptual.

[081] (8) Um meio legível por computador não transitório que armazena instruções que, quando executadas por um processador de um sistema de computador, fazem com que ο sistema de computador realize operações compreendendo o método de acordo com qualquer um de (1) a (7).

[082] (9) Um sistema de edição de vídeo, compreendendo: uma memória; e um processador configurado para fazer o sistema de edição de vídeo: receber dados de vídeo de entrada, converter os dados de vídeo de entrada para um formato predefinido, para assim gerar dados de vídeo convertidos, gerar uma pluralidade de valores de metadados iniciais para um quadro dos dados de vídeo convertidos, a pluralidade de valores de metadados iniciais incluindo um primeiro valor de metadados correspondente a um primeiro valor fixo não calculado de um conteúdo incluindo o quadro, um segundo valor de metadados correspondente a um valor médio de luminância do quadro, e um terceiro valor de metadados correspondente a um segundo valor fixo não calculado a partir do conteúdo.

[083] (10) O sistema de edição de vídeo de acordo com (9), em que o processador é configurado para fazer o sistema de edição de vídeo: aplicar uma operação de suavização espacial aos dados de vídeo convertidos antes de gerar a pluralidade de valores de metadados iniciais.

[084] (11) O sistema de edição de vídeo de acordo com (10), em que a operação de suavização espacial inclui subamostragem dos dados de vídeo convertidos.

[085] (12) O sistema de edição de vídeo de acordo com (10) ou (11), em que a operação de suavização espacial inclui dizimar os dados de vídeo convertidos para um tamanho menor.

[086] (13) O sistema de edição de vídeo de acordo com qualquer um de (9) a (12), em que o processador é configurado para ainda fazer o sistema de edição de vídeo: emitir dados de vídeo de distribuição incluindo uma parte dos dados de vídeo correspondentes ao quadro, ao primeiro valor de metadados, ao segundo valor de metadados, e ao terceiro valor de metadados.

[087] (14) O sistema de edição de vídeo de acordo com qualquer um de (9) a (13), em que o primeiro valor fixo corresponde a um valor de luminância mínimo permitido do conteúdo, e o segundo valor fixo corresponde a um valor de luminância máximo permitido do conteúdo.

[088] (15) O sistema de edição de vídeo de acordo com qualquer um de (9) a (14), em que o formato predefinido é um formato de Faixa Dinâmica Alta do Quantizador Perceptual.

[089] (16) Um método de edição de conteúdo de vídeo, compreendendo: receber dados de vídeo de entrada; converter os dados de vídeo de entrada para um formato predefinido, para assim gerar dados de vídeo convertidos; gerar um primeiro valor de metadados para um quadro dos dados de vídeo convertidos, o primeiro valor de metadados correspondente a um valor médio de luminância do quadro; determinar uma janela temporal incluindo o quadro, a janela temporal tendo uma duração predeterminada no tempo; calcular uma faixa máxima de metadados e uma faixa mínima de metadados ao longo da janela temporal, para assim gerar um primeiro valor de metadados filtrado e um segundo valor de metadados filtrado; e suavizar o primeiro valor de metadados filtrado e 0 segundo valor de metadados filtrado, para assim gerar um primeiro valor de metadados filtrado e suavizado e um segundo valor de metadados filtrado e suavizado.

[090] (17) O método de acordo com (16), em que a duração predeterminada no tempo é de quatro segundos.

[091] (18) O método de acordo com (16) ou (17), em que a janela é configurada de modo a não cruzar uma cena cortada nos dados de vídeo de entrada.

[092] (19) Ο método de acordo com qualquer um de (16) a (18), ainda compreendendo aplicar uma operação de suavização espacial para os dados de vídeo convertidos antes de gerar o primeiro valor de metadados.

[093] (20) Um meio legível por computador não transitório que armazena instruções que, quando executadas por um processador de um sistema de computador, fazem com que o sistema de computador realize operações compreendendo o método de acordo com qualquer um de (16) a (19).

[094] No que diz respeito aos processos, sistemas, métodos, heurísticas, etc. aqui descritos, deve-se entender que, embora as etapas de tais processos, etc. tenham sido descritas como ocorrendo de acordo com uma determinada sequência ordenada, tais processos podem ser praticado com as etapas descritas executadas em uma ordem diferente da ordem aqui descrita. Além disso, deve ser entendido que certas etapas podem ser executadas simultaneamente, que outras etapas podem ser adicionadas ou que certas etapas aqui descritas podem ser omitidas. Em outras palavras, as descrições dos processos neste documento são fornecidas com a finalidade de ilustrar certas modalidades e não devem, de forma alguma, ser interpretadas de modo a limitar as reivindicações.

[095] Consequentemente, deve ser entendido que a descrição acima se destina a ser ilustrativa e não restritiva. Muitas modalidades e aplicações diferentes dos exemplos fornecidos seriam aparentes ao ler a descrição acima. O escopo deve ser determinado, não com referência à descrição acima, mas deve ser determinado com referência ás reivindicações anexas, juntamente com o escopo completo de equivalentes aos quais tais reivindicações têm direito. Prevê-se e pretende-se que ocorram desenvolvimentos futuros nas tecnologias aqui discutidas e que os sistemas e métodos divulgados sejam incorporados em tais modalidades futuras. Em suma, deve-se entender que o aplicativo é passível de modificação e variação.

[096] Todos os termos usados nas reivindicações destinam-se a receber suas construções razoáveis mais amplas e seus significados comuns, conforme entendidos por aqueles com conhecimento nas tecnologias aqui descritas, a menos que uma indicação explícita em contrário seja feita neste documento. Em particular, o uso de artigos no singular, como “um”, “uma, “o”, “a”, “dito”, “dita”, etc., deve ser lido como recitando um ou mais dos elementos indicados, a menos que uma reivindicação recite uma limitação explícita em contrário.

[097] O Resumo da Divulgação é fornecido para permitir que o leitor verifique rapidamente a natureza da divulgação técnica. É submetido com o entendimento de que não será usado para interpretar ou limitar o escopo ou significado das reivindicações. Além disso, na Descrição Detalhada anterior, pode-se ver que vários recursos são agrupados em várias modalidades com a finalidade de simplificar a divulgação. Este método de divulgação não deve ser interpretado como refletindo uma intenção de que as modalidades reivindicadas incorporem mais recursos do que os expressamente citados em cada reivindicação. Em vez disso, como as reivindicações a seguir refletem, o assunto inventivo reside em menos do que todas as características de uma única modalidade divulgada. Assim, as reivindicações a seguir são incorporadas à Descrição Detalhada, com cada reivindicação sendo independente como um assunto reivindicado separadamente.

[098] Vários aspectos da presente invenção podem ser apreciados a partir das seguintes modalidades de exemplo enumeradas (EEEs):
1. Um método de edição de conteúdo de vídeo, compreendendo:
receber dados de vídeo de entrada:
converter os dados de vídeo de entrada para um formato predefinido, para assim gerar dados de vídeo convertidos;
gerar uma pluralidade de valores de metadados iniciais para um quadro dos dados de vídeo convertidos, a pluralidade de valores de metadados iniciais incluindo um primeiro valor de metadados correspondente a um primeiro valor fixo não calculado de um conteúdo incluindo o quadro, um segundo valor de metadados correspondente a um valor médio de luminância do quadro, e um terceiro valor de metadados correspondente a um segundo valor fixo não calculado a partir do conteúdo,
em que o primeiro valor de metadados, o segundo valor de metadados, e o terceiro valor de metadados incluem informações usadas por um decodificador para renderizar uma imagem decodificada em uma tela.
2. O método de acordo com EEE 1, ainda compreendendo aplicar uma operação de suavização espacial aos dados de vídeo convertidos antes de gerar a pluralidade de valores de metadados iniciais.
3. O método de acordo com EEE 2, em que a aplicação da operação de suavização espacial inclui subamostragem dos dados de vídeo convertidos.
4. O método de acordo com EEE 2 ou EEE 3, em que a aplicação da operação de suavização espacial inclui dizimar os dados de vídeo convertidos para um tamanho menor.
5. O método de acordo com qualquer um dos EEEs 1 a 4, ainda compreendendo:
emitir dados de vídeo de distribuição incluindo uma parte dos dados de vídeo correspondentes ao quadro, ao primeiro valor de metadados, ao segundo valor de metadados, e ao terceiro valor de metadados.
6. Ο método de acordo com qualquer um dos EEEs 1 a 5, em que o primeiro valor fixo corresponde a um valor de luminância mínimo permitido do conteúdo, e o segundo valor fixo corresponde a um valor de luminância máximo permitido do conteúdo.
7. O método de acordo com qualquer um dos EEEs 1 a 6, em que o formato predefinido é um formato de Faixa Dinâmica Alta do Quantizador Perceptual.
8. Um meio legível por computador não transitório que armazena instruções que, quando executadas por um processador de um sistema de computador, fazem com que o sistema de computador realize operações compreendendo a método de acordo com qualquer um dos EEEs 1 a 7.
9. Um sistema de edição de vídeo, compreendendo:
uma memória; e
um processador configurado para fazer o sistema de edição de vídeo:
receber dados de vídeo de entrada,
converter os dados de vídeo de entrada para um formato predefinido, para assim gerar dados de vídeo convertidos,
gerar uma pluralidade de valores de metadados iniciais para um quadro dos dados de vídeo convertidos, a pluralidade de valores de metadados iniciais incluindo um primeiro valor de metadados correspondente a um primeiro valor fixo não calculado de um conteúdo incluindo o quadro, um segundo valor de metadados correspondente a um valor médio de luminância do quadro, e um terceiro valor de metadados correspondente a um segundo valor fixo não calculado a partir do conteúdo.
10. O sistema de edição de vídeo de acordo com EEE 9, em que o processador é configurado para fazer o sistema de edição de vídeo:
aplicar uma operação de suavização espacial aos dados de vídeo convertidos antes de gerar a pluralidade de valores de metadados iniciais.
11.O sistema de edição de vídeo de acordo com EEE 10, em que a operação de suavização espacial inclui subamostragem dos dados de vídeo convertidos.
12. O sistema de edição de vídeo de acordo com EEE 10 ou EEE 11, em que a operação de suavização espacial inclui dizimar os dados de vídeo convertidos para um tamanho menor.
13. O sistema de edição de vídeo de acordo com qualquer um dos EEEs 9 a 12, em que o processador é configurado para ainda fazer o sistema de edição de vídeo:
emitir dados de vídeo de distribuição incluindo uma parte dos dados de vídeo correspondentes ao quadro, ao primeiro valor de metadados, ao segundo valor de metadados, e ao terceiro valor de metadados.
14. O sistema de edição de vídeo de acordo com qualquer um dos EEEs 9 a 13, em que o primeiro valor fixo corresponde a um valor de luminância mínimo permitido do conteúdo, e o segundo valor fixo corresponde a um valor de luminância máximo permitido do conteúdo.
15. O sistema de edição de vídeo de acordo com qualquer um dos EEEs 9 a 14, em que o formato predefinido é um formato de Faixa Dinâmica Alta do Quantizador Perceptual.

Claims

Método de edição de conteúdo de vídeo, CARACTERIZADO pelo fato de que compreende:
receber dados de vídeo de entrada;
converter os dados de vídeo de entrada para um formato predeterminado, para assim gerar dados de vídeo convertidos;
gerar um primeiro valor de metadados para um quadro dos dados de vídeo convertidos, o primeiro valor de metadados correspondente a um valor médio de luminância do quadro;
determinar uma janela temporal incluindo o quadro, a janela temporal tendo uma duração predeterminada no tempo;
calcular uma faixa máxima de metadados e uma faixa mínima de metadados ao longo da janela temporal, para assim gerar um primeiro valor de metadados filtrado e um segundo valor de metadados filtrado; e
suavizar o primeiro valor de metadados filtrado e o segundo valor de metadados filtrado, para assim gerar um primeiro valor de metadados filtrado e suavizado e um segundo valor de metadados filtrado e suavizado.
Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que a duração predeterminada no tempo é de quatro segundos.
Método, de acordo com qualquer uma das reivindicações 1 ou 2, CARACTERIZADO pelo fato de que a janela é configurada de modo a não cruzar uma cena cortada nos dados de vídeo de entrada.
Método, de acordo com qualquer uma das reivindicações 1 a 3, CARACTERIZADO pelo fato de que ainda compreende aplicar uma operação de suavização espacial aos dados de vídeo convertidos antes de gerar o primeiro valor de metadados.
Meio legível por computador não transitório, CARACTERIZADO pelo fato de que armazena instruções que, quando executadas por um processador de um sistema de computador, fazem com que o sistema de computador realize operações compreendendo o método conforme definido em qualquer uma das reivindicações 1 a 4.