BR112016008237B1

BR112016008237B1 - Aparelho e método para codificar informações de vídeo, aparelho para decodificar informações de vídeo e memória legível por computador

Info

Publication number: BR112016008237B1
Application number: BR112016008237-0A
Authority: BR
Inventors: Adarsh Krishnan Ramasubramonian; Fnu HENDRY; Ying Chen; Ye-Kui Wang
Original assignee: Qualcomm Incorporated
Priority date: 2013-10-14
Filing date: 2014-10-14
Publication date: 2023-04-18
Also published as: WO2015057714A1; EP3058741B1; BR112016008237A2; JP2016537932A; KR20160070786A; CN105637882A; ES2895442T3; KR20160071413A; MX360311B; KR20160072142A; BR112016008235A2; EP3058745A1; BR112016008235B1; JP2016539600A; US20150103903A1; US9900605B2; CN105637880A; US10212435B2; KR102250638B1; US9979971B2

Abstract

DISPOSITIVO E MÉTODO PARA CODIFICAÇÃO ESCALONÁVEL DE INFORMAÇÕES DE VÍDEO. A presente invenção se refere a um aparelho configurado para codificar informações de vídeo que inclui uma unidade de memória e um processador em comunicação com a unidade de memória. A unidade de memória é configurada para armazenar informações de vídeo associadas a uma primeira camada de vídeo que tem uma primeira figuração em uma primeira unidade de acesso. O processador é configurado para determinar se a primeira figuração na primeira unidade de acesso é uma figuração de ponto de acesso intra-aleatório (IRAP), e em resposta à determinação de que a primeira figuração na primeira unidade de acesso é uma figuração de IRAP, fornecer uma indicação, em um fluxo de bits, para reinicializar um contador de ordem de figuração (POC) de pelo menos uma outra figuração na primeira unidade de acesso, em que a pelo menos uma outra figuração não é uma figuração de IRAP. O processador pode criptar ou decodificar as informações de vídeo.

Description

CAMPO DA TÉCNICA

[0001] A presente revelação refere-se ao campo de codificação e compressão de vídeo, particularmente a codificação escalonável de vídeo (SVC), codificação de vídeo de múltiplas vistas (MVC), ou codificação de vídeo 3D (3DV). ANTECEDENTES

[0002] Recursos de vídeo digital podem ser incorporados em uma ampla gama de dispositivos, incluindo televisões digitais, sistemas de difusão direta digital, sistemas de difusão sem fio, assistentes pessoais digitais (PDAs), computadores dos tipos laptop ou desktop, câmeras digitais, dispositivos de gravação digital, reprodutores de mídia digital, dispositivos de video game, consoles de video game, telefones de rádio celulares ou por satélite, dispositivos de videoconferência e similares. Os dispositivos de vídeo digital implantam técnicas de compressão de vídeo, tais como as descritas nos padrões definidos por MPEG-2, MPEG-4, ITU-T H.263, ITU-T H.264/MPEG- 4, Parte 10, Codificação de Vídeo Avançada (AVC), Codificação de Vídeo de Alta Eficiência (HEVC) atualmente em desenvolvimento e extensões de tais padrões. Os dispositivos de vídeo podem transmitir, receber, codificar, decodificar e/ou armazenar informações de vídeo digital de maneira mais eficiente implantando-se tais técnicas de codificação de vídeo.

[0003] As técnicas de codificação de vídeo realizam previsão espacial (intraimagem) e/ou previsão temporal (interimagem) para reduzir ou remover a redundância inerente em sequências de vídeo. Para a codificação de vídeo com base em bloco, uma fatia de vídeo (por exemplo, um quadro de vídeo ou uma porção de um quadro de vídeo, etc.) pode ser separada em blocos de vídeo, que também podem ser denominados de blocos em árvore, unidades de codificação (CUs) e/ou nós de codificação. Os blocos de vídeo em uma fatia intracodificada (I) de uma imagem são codificados com o uso de previsão espacial em relação às amostras de referência em blocos próximos na mesma imagem. Os blocos de vídeo em uma fatia intercodificada (P ou B) de uma imagem podem usar previsão espacial em relação às amostras de referência em blocos próximos na mesma imagem ou previsão temporal em relação às amostras de referência em outras imagens de referência. As imagens podem ser denominadas como quadros, e as imagens de referência podem ser denominadas como quadros de referência.

[0004] A previsão espacial ou temporal resulta em um bloco preditivo para um bloco a ser codificado. Os dados residuais representam diferenças de pixel entre o bloco original a ser codificado e o bloco preditivo. Um bloco intercodificado é codificado de acordo com um vetor de movimento que aponta para um bloco de amostras de referência que forma o bloco preditivo, sendo que os dados residuais indicam a diferença entre o bloco codificado e o bloco preditivo. Um bloco intracodificado é codificado de acordo com um modo de intracodificação e os dados residuais. Para compressão adicional, os dados residuais podem ser transformados do domínio de pixel para um domínio de transformada, resultando em coeficientes de transformada residuais que podem, em seguida, ser quantizados. Os coeficientes de transformada quantizados, dispostos inicialmente em uma matriz bidimensional, podem ser submetidos à varredura a fim de produzir um vetor unidimensional de coeficientes de transformada, e a codificação por entropia pode ser aplicada para obter ainda mais compressão.

SUMÁRIO

[0005] Codificação escalonável de vídeo (SVC) se refere à codificação de vídeo na qual uma camada de base (BL), algumas vezes denominada como uma camada de referência (RL), e uma ou mais camadas de aprimoramento escalonáveis (ELs) são usadas. Em SVC, a camada de base pode transportar dados de vídeo com um nível básico de qualidade. As uma ou mais camadas de aprimoramento podem transportar dados de vídeo adicionais para suportar, por exemplo, níveis superiores espaciais, temporais, e/ou de sinal para ruído (SNR). As camadas de aprimoramento podem ser definidas relativas a uma camada codificada previamente. Por exemplo, uma camada inferior pode servir como uma BL, enquanto que uma camada superior pode servir como uma EL. As camadas intermediárias podem servir como ELs ou RLs, ou ambas. Por exemplo, uma camada intermediária (por exemplo, uma camada que não é a camada mais inferior nem a camada mais superior) pode ser uma EL para as camadas abaixo da camada intermediária, tal como a camada de base ou quaisquer camadas de aprimoramento intervenientes, e ao mesmo tempo servem como uma RL para uma ou mais camadas de aprimoramento acima da camada intermediária. De maneira similar, na extensão de Múltiplas Vistas ou 3D do padrão de HEVC, pode haver múltiplas vistas, e as informações de uma vista podem ser utilizadas para codificar (por exemplo, codificar ou decodificar) as informações de outra vista (por exemplo, estimativa de movimento, previsão de vetor de movimento e/ou outras redundâncias).

[0006] Em SVC, um contador de ordem de imagem (POC) pode ser usado para indicar a ordem na qual as imagens devem ser emitidas ou exibidas. Adicionalmente, em algumas implantações, o valor do POC pode ser reinicializado (por exemplo, determinado para zero, determinado para algum valor sinalizado no fluxo de bits, ou derivado a partir de informações incluídas no fluxo de bits) sempre que certos tipos de imagens aparecem no fluxo de bits. Por exemplo, quando certas imagens de ponto de acesso aleatório aparecem no fluxo de bits, o POC pode ser reinicializado. Quando o POC de uma imagem particular é reinicializado, os POCs de quaisquer imagens que precedem a imagem particular em ordem de decodificação também podem ser reinicializados, por exemplo, para manter a ordem relativa na qual essas imagens devem ser emitidas ou exibidas. Os POCs de quaisquer imagens que seguem a imagem particular em ordem de decodificação podem ser sinalizados no fluxo de bits, com o pressuposto de que a reinicialização de POC ocorra em conexão com a imagem particular. Por exemplo, se o POC é reinicializado para um valor de 0 na Imagem A que precede imediatamente a imagem B em ordem de decodificação e ordem de saída, o POC sinalizado no fluxo de bits para a imagem B pode ter um valor de 1.

[0007] No entanto, em certos casos, a imagem particular pode não estar disponível para o decodificador. Por exemplo, a imagem particular pode ser perdida durante a transmissão ou pode ser removida do fluxo de bits para satisfazer restrições de largura de banda. Nesse caso, o decodificador pode não saber reinicializar os POCs das imagens que precedem a imagem particular em ordem de decodificação. Isso é problemático devido ao fato de que os POCs das imagens que seguem a imagem particular em ordem de decodificação são sinalizados ou derivados como se a reinicialização de POC fosse realizada na imagem particular. Portanto, nesse caso, a ordem relativa entre as imagens que precedem a imagem particular e as imagens que seguem a imagem particular pode se tornar incorreta.

[0008] Portanto, um método de codificação aprimorado para derivar os valores de POC, especialmente no caso em que certas imagens se tornam indisponíveis, é desejado.

[0009] Cada um dos sistemas, métodos e dispositivos dessa revelação tem diversos aspectos inovadores, nenhum dos quais é exclusivamente responsável pelos atributos desejáveis revelados no presente documento.

[0010] Em um aspecto, um aparelho configurado para codificar (por exemplo, codificar ou decodificar) informações de vídeo inclui uma unidade de memória e um processador em comunicação com a unidade de memória. A unidade de memória é configurada para armazenar informações de vídeo associadas a uma primeira camada de vídeo que tem uma primeira imagem em uma primeira unidade de acesso. O processador é configurado para determinar se a primeira imagem na primeira unidade de acesso é uma imagem de ponto de acesso intra-aleatório (IRAP), e, em resposta à determinação de que a primeira imagem na primeira unidade de acesso é uma imagem de IRAP, fornecer uma indicação em um fluxo de bits para reinicializar um contador de ordem de imagem (POC) de pelo menos uma outra imagem na primeira unidade de acesso, em que a pelo menos uma outra imagem não é uma imagem de IRAP.

[0011] Em outro aspecto, um método de codificação de informações de vídeo compreende determinar se uma primeira imagem em uma primeira unidade de acesso de uma primeira camada de vídeo é uma imagem de ponto de acesso intra-aleatório (IRAP), e, em resposta à determinação de que a primeira imagem na primeira unidade de acesso é uma imagem de IRAP, fornecer uma indicação em um fluxo de bits para reinicializar um contador de ordem de imagem (POC) de pelo menos uma outra imagem na primeira unidade de acesso, em que a pelo menos uma outra imagem não é uma imagem de IRAP.

[0012] Em outro aspecto, uma mídia legível por computador não transitória compreende código que, quando executado, faz com que um aparelho realize um processo. O processo inclui armazenar informações de vídeo associadas a uma primeira camada de vídeo que tem uma primeira imagem em uma primeira unidade de acesso, determinar se a primeira imagem na primeira unidade de acesso é uma imagem de ponto de acesso intra-aleatório (IRAP), e, em resposta à determinação de que a primeira imagem na primeira unidade de acesso é uma imagem de IRAP, fornecer uma indicação em um fluxo de bits para reinicializar um contador de ordem de imagem (POC) de pelo menos uma outra imagem na primeira unidade de acesso, em que a pelo menos uma outra imagem não é uma imagem de IRAP.

[0013] Em outro aspecto, um dispositivo de codificação de vídeo configurado para codificar informações de vídeo compreende meio para armazenar informações de vídeo associadas a uma primeira camada de vídeo que tem uma primeira imagem em uma primeira unidade de acesso, meio para determinar se a primeira imagem na primeira unidade de acesso é uma imagem de ponto de acesso intra-aleatório (IRAP), e meio para fornecer uma indicação em um fluxo de bits, em resposta à determinação de que a primeira imagem na primeira unidade de acesso é uma imagem de IRAP, para reinicializar um contador de ordem de imagem (POC) de pelo menos uma outra imagem na primeira unidade de acesso, em que a pelo menos uma outra imagem não é uma imagem de IRAP.

BREVE DESCRIÇÃO DOS DESENHOS

[0014] A Figura 1A é um diagrama de blocos que ilustra um sistema de codificação e decodificação de vídeo exemplificativo que pode utilizar técnicas de acordo com aspectos descritos nessa revelação.

[0015] A Figura 1B é um diagrama de blocos que ilustra outro sistema de codificação e decodificação de vídeo exemplificativo que pode realizar técnicas de acordo com aspectos descritos nessa revelação.

[0016] A Figura 2A é um diagrama de blocos que ilustra um exemplo de um codificador de vídeo que pode implantar técnicas de acordo com aspectos descritos nessa revelação.

[0017] A Figura 2B é um diagrama de blocos que ilustra um exemplo de um codificador de vídeo que pode implantar técnicas de acordo com aspectos descritos nessa revelação.

[0018] A Figura 3A é um diagrama de blocos que ilustra um exemplo de um decodificador de vídeo que pode implantar técnicas de acordo com aspectos descritos nessa revelação.

[0019] A Figura 3B é um diagrama de blocos que ilustra um exemplo de um decodificador de vídeo que pode implantar técnicas de acordo com aspectos descritos nessa revelação.

[0020] A Figura 4 é um diagrama de blocos que ilustra uma configuração exemplificativa de imagens em camadas diferentes, de acordo com uma modalidade da presente revelação.

[0021] A Figura 5 é uma tabela que ilustra valores de POC de imagens em camadas diferentes, de acordo com uma modalidade da presente revelação.

[0022] A Figura 6 é um diagrama de blocos que ilustra uma configuração exemplificativa de imagens em camadas diferentes, de acordo com uma modalidade da presente revelação.

[0023] A Figura 7 é uma tabela que ilustra valores de POC de imagens em camadas diferentes, de acordo com uma modalidade da presente revelação.

[0024] A Figura 8 é um fluxograma que ilustra um método de codificação de informações de vídeo, de acordo com uma modalidade da presente revelação.

[0025] A Figura 9 é um fluxograma que ilustra um método de codificação de informações de vídeo, de acordo com uma modalidade da presente revelação.

[0026] A Figura 10 é um fluxograma que ilustra um método de codificação de informações de vídeo, de acordo com uma modalidade da presente revelação.

[0027] A Figura 11 é um fluxograma que ilustra um método de codificação de informações de vídeo, de acordo com uma modalidade da presente revelação.

[0028] A Figura 12 é um fluxograma que ilustra um método de codificação de informações de vídeo, de acordo com uma modalidade da presente revelação.

DESCRIÇÃO DETALHADA

[0029] Certas modalidades descritas no presente documento se referem à previsão de intercamada para codificação escalonável de vídeo no contexto de codecs de vídeo avançados, tais como o HEVC (Codificação de Vídeo de Alta Eficácia). Mais especificamente, a presente revelação se refere a sistemas e métodos para desempenho aprimorado de previsão de intercamada em de codificação escalonável de vídeo (SVC) de HEVC.

[0030] Na descrição abaixo, técnicas de H.264/AVC relacionadas a certas modalidades são descritas; o padrão HEVC e técnicas relacionadas também são discutidos. Embora certas modalidades sejam descritas no presente documento no contexto dos padrões HEVC e/ou H.264, uma pessoa com conhecimentos normais da técnica pode avaliar que sistemas e métodos revelados no presente documento podem ser aplicáveis a qualquer padrão de codificação de vídeo adequado. Por exemplo, modalidades reveladas no presente documento podem ser aplicáveis a um ou mais dos seguintes padrões: ITU-T H.261, ISO/IEC MPEG- -1 Visual, ITU-T H.262 ou ISO/IEC MPEG-2 Visual, ITU-T H.263, ISO/IEC MPEG-4 Visual e ITU-T H.264 (também conhecido como ISO/IEC MPEG-4 AVC), incluindo suas extensões de Codificação de Vídeo Escalonável (SVC) e de Codificação de Vídeo de Múltiplas Vistas (MVC).

[0031] O HEVC de maneira geral segue a estrutura de padrões de codificação de vídeo anteriores em muitos aspectos. A unidade de previsão em HEVC é diferente daquela em certos padrões de codificação de vídeo anteriores (por exemplo, macrobloco). De fato, o conceito de macrobloco não existe em HEVC como entendido em certos padrões de codificação de vídeo anteriores. O macrobloco é substituído por uma estrutura hierárquica com base em um esquema de árvore quadrática, que pode fornecer alta flexibilidade, dentre outros benefícios possíveis. Por exemplo, dentro do esquema de HEVC, três tipos de blocos, Unidade de Codificação (CU), Unidade de Previsão (PU), e Unidade de Transformada (TU), são definidos. A CU pode se referir à unidade básica de divisão de região. A CU pode ser considerada análoga ao conceito de macrobloco, mas o HEVC não restringe o tamanho máximo de CUs e pode permitir divisão recursiva em quatro CUs de tamanho igual para aprimorar a adaptatividade de conteúdo. A PU pode ser considerada a unidade básica de inter/intraprevisão, e uma única PU pode conter múltiplas partições e formato arbitrário para codificar eficazmente padrões de imagem irregulares. A TU pode ser considerada a unidade básica de transformada. A TU pode ser definida independentemente da PU; no entanto, o tamanho de uma TU pode ser limitado ao tamanho da CU à qual a TU pertence. Essa separação da estrutura de bloco em três conceitos diferentes pode permitir que cada unidade seja otimizada de acordo com o respectivo papel da unidade, o que pode resultar em eficiência de codificação aprimorada.

[0032] Apenas para fins de ilustração, certas modalidades reveladas no presente documento são descritas com exemplos que incluem apenas duas camadas (por exemplo, uma camada inferior tal como a camada de base, e uma camada superior tal como a camada de aprimoramento). Deve ser entendido que esses exemplos podem ser aplicáveis a configurações que incluem múltiplas camadas de base e/ou de aprimoramento. Além disso, para facilidade de explicação, a revelação seguinte inclui os termos “quadros” ou “blocos” com referência a certas modalidades. No entanto, esses termos não se destinam a ser limitantes. Por exemplo, as técnicas descritas abaixo podem ser usadas com quaisquer unidades de vídeo adequadas, tais como blocos (por exemplo, CU, PU, TU, macroblocos, etc.), fatias, quadros, etc.

PADRÕES DE CODIFICAÇÃO DE VÍDEO

[0033] Uma imagem digital, tal como uma imagem de vídeo, uma imagem de TV, uma imagem estática ou uma imagem gerada por um gravador de vídeo ou um computador, pode consistir em pixels ou amostras dispostas em linhas horizontais e verticais. O número de pixels em uma imagem única é tipicamente de dezenas de milhares. Cada pixel contém tipicamente informações de luminância e crominância. Sem compressão, a quantidade total de informações a serem transportadas de um codificador de imagem para um decodificador de imagem tornaria impossível a transmissão de imagem em tempo real. A fim de reduzir a quantidade de informações a ser transmitida, um número de métodos de compressão diferentes, tais como os padrões JPEG, MPEG e H.263, têm sido desenvolvidos.

[0034] Os padrões de codificação de vídeo incluem ITU-T H.261, ISO/IEC MPEG- -1 Visual, ITU-T H.262 ou ISO/IEC MPEG-2 Visual, ITU-T H.263, ISO/IEC MPEG-4 Visual e ITU-T H.264 (também conhecido como ISO/IEC MPEG-4 AVC), incluindo suas extensões de Codificação de Vídeo Escalonável (SVC) e de Codificação de Vídeo de Múltiplas Vistas (MVC).

[0035] Além disso, um novo padrão de codificação de vídeo, a saber, Codificação de Vídeo de Alta Eficácia (HEVC), está sendo desenvolvido pela Equipe de Colaboração Conjunta em Codificação de Vídeo (JCT-VC) do Grupo de Especialistas de Codificação de Vídeo de ITU-T (VCEG) e do Grupo de Especialistas de Filme Cinematográfico de ISO/IEC (MPEG). A citação completa para o HEVC Draft 10 é o documento JCTVC-L1003, de Bross e outros, “High Efficiency Video Coding (HEVC) Text Specification Draft 10”, da 12a Reunião da Equipe de Colaboração Conjunta em Codificação de Vídeo (JCT-VC) de ITU-T SGI 6 WP3 e ISO/IEC JTC1/SC29/WG11: Genebra, Suíça em 14 de janeiro de 2013 a 23 de janeiro de 2013. A extensão de múltiplas vistas para HEVC, a saber, MV-HEVC, e a extensão escalonável para HEVC, denominada SHVC, também estão sendo desenvolvidas pela JCT- 3V (ITU-T/ISO/IEC Equipe de Colaboração Conjunta em Desenvolvimento de Extensão de Codificação de Vídeo 3D) e JCT-VC, respectivamente.

[0036] Vários aspectos dos sistemas, aparelhos e métodos inovadores são descritos mais completamente a partir deste ponto no presente documento com referência aos desenhos anexos. Essa revelação pode, entretanto, ser incorporada de muitas formas diferentes e não deve ser interpretada como limitada a qualquer estrutura ou função específicas apresentadas ao longo de toda esta revelação. Em vez disso, esses aspectos são fornecidos de modo que essa revelação seja minuciosa e completa, e transmita plenamente o escopo da revelação para as pessoas versadas na técnica. Com base nos ensinamentos no presente documento, uma pessoa versada na técnica deve avaliar que o escopo da revelação está destinado a cobrir qualquer aspecto dos sistemas, aparelhos e métodos inovadores revelados no presente documento, sejam os mesmos implantados independentemente de, ou combinados com, qualquer outro aspecto da presente revelação. Por exemplo, um aparelho pode ser implantado ou um método pode ser praticado através do uso de qualquer quantidade dos aspectos apresentados no presente documento. Além disso, o escopo da revelação é destinado a cobrir tal aparelho ou método que é praticado com o uso de outra estrutura, funcionalidade ou estrutura e funcionalidade adicionalmente ou além dos vários aspectos da presente revelação estabelecidos no presente documento. Deve ser entendido que qualquer aspecto revelado no presente documento pode ser incorporado por um ou mais elementos de uma reivindicação.

[0037] Embora aspectos particulares sejam descritos no presente documento, muitas variações e permutações desses aspectos se encaixam no escopo da revelação. Embora alguns benefícios e vantagens dos aspectos preferenciais sejam mencionados, o escopo da revelação não é destinado a ser limitado a benefícios, usos ou objetivos particulares. Em vez disso, os aspectos da revelação são destinados a serem amplamente aplicáveis a diferentes tecnologias sem fio, configurações de sistema, redes e protocolos de transmissão, alguns dos quais são ilustrados a título de exemplo nas Figuras e na descrição a seguir dos aspectos preferenciais. A descrição detalhada e desenhos são meramente ilustrativos da revelação em vez de limitantes, sendo que o escopo da revelação é definido pelas reivindicações anexas e equivalentes das mesmas.

[0038] Os desenhos anexos ilustram exemplos. Elementos indicados por numerais de referência nos desenhos anexos correspondem a elementos indicados por numerais de referência semelhantes na descrição a seguir. Nessa revelação, os elementos que têm nomes que iniciam com palavras ordinais (por exemplo, “primeiro”, “segundo”, “terceiro”, e assim por diante) não implicam necessariamente que os elementos tenham uma ordem particular. Em vez disso, essas palavras ordinais são usadas meramente para se referir a elementos diferentes de um mesmo tipo ou tipo similar.

SISTEMA DE CODIFICAÇÃO DE VÍDEO

[0039] A Figura 1A é um diagrama de blocos que ilustra um sistema de codificação de vídeo exemplificativo 10 que pode utilizar técnicas de acordo com aspectos descritos nessa revelação. Como usado no presente documento, o termo “codificador de vídeo” se refere genericamente tanto a codificadores de vídeo como a decodificadores de vídeo. Nessa revelação, os termos “codificação de vídeo” ou “codificação” podem se referir genericamente a codificação de vídeo e decodificação de vídeo. Além disso para codificadores de vídeo e decodificadores de vídeo, os aspectos descritos no presente pedido podem ser estendidos para outros dispositivos relacionados tais como transcodificadores (por exemplo, dispositivos que podem decodificar um fluxo de bits e recodificar outro fluxo de bits) e dispositivos intermediários (por exemplo, dispositivos que podem modificar, transformar e/ou de outra forma manipular um fluxo de bits).

[0040] Conforme mostrado na Figura 1A, o sistema de codificação de vídeo 10 inclui um módulo de fonte 12 que gera dados de vídeo codificados para serem decodificados em um momento posterior por um módulo de destino 14. No exemplo da Figura 1A, o módulo de fonte 12 e o módulo de destino 14 estão em dispositivos separados - especificamente, o módulo de fonte 12 é parte de um dispositivo de fonte, e o módulo de destino 14 é parte de um dispositivo de destino. É observado, no entanto, que os módulos de fonte e de destino 12, 14 podem estar no, ou fazer parte do, mesmo dispositivo, como mostrado no exemplo da Figura 1B.

[0041] Com referência uma vez mais, à Figura 1A, o módulo de fonte 12 e o módulo de destino 14 podem compreender qualquer um dentre uma ampla gama de dispositivos, incluindo computadores de mesa, computadores do tipo notebook (por exemplo, do tipo laptop), computadores do tipo tablet, decodificadores de sinais (set-top boxes), aparelhos de telefone, tais como, os então chamados telefones "inteligentes", então chamados "smart" pads, televisões, câmeras, dispositivos de exibição, reprodutores de mídias digitais, consoles de video game, dispositivo de transmissão contínua de vídeo, ou similares. Em alguns casos, o módulo de fonte 12 e o módulo de destino 14 podem ser exigidos para comunicação sem fio.

[0042] O módulo de destino 14 pode receber os dados de vídeo codificados para serem decodificados por meio de um enlace 16. O enlace 16 pode compreender qualquer tipo de mídia ou dispositivo capaz de mover os dados de vídeo codificados a partir do módulo de fonte 12 para o módulo de destino 14. No exemplo da Figura 1A, o enlace 16 pode compreender uma mídia de comunicação para permitir que o módulo de fonte 12 transmita dados de vídeo codificados diretamente para o módulo de destino 14 em tempo real. Os dados de vídeo codificados podem ser modulados de acordo com um padrão de comunicação, como um protocolo de comunicação sem fio, e transmitidos para o dispositivo de destino 14. O meio de comunicação pode compreender qualquer mídia de comunicação sem fio ou com fio, tal como um espectro de radiofrequência (RF) ou uma ou mais linhas de transmissão físicas. A mídia de comunicação pode fazer parte de uma rede com base em pacote, tal como uma rede de área local, uma rede de longa distância ou uma rede global tal como a Internet. A mídia de comunicação pode incluir roteadores, comutadores, estações-base ou qualquer outro equipamento que possa ser útil para facilitar a comunicação a partir do dispositivo de fonte 12 para o dispositivo de destino 14.

[0043] Alternativamente, os dados codificados podem ser emitidos a partir de uma interface de saída 22 para um dispositivo de armazenamento opcional 31. De modo similar, os dados codificados podem ser acessados a partir do dispositivo de armazenamento 31 por uma interface de entrada 28. O dispositivo de armazenamento 31 pode incluir qualquer uma dentre uma variedade de mídias de armazenamento de dados distribuídas ou acessadas localmente tais como um disco rígido, memória flash, memória volátil ou não volátil, ou quaisquer outras mídias de armazenamento digital adequadas para armazenar dados de vídeo codificados. Em um exemplo adicional, o dispositivo de armazenamento 31 pode corresponder a um servidor de arquivos ou outro dispositivo de armazenamento intermediário que possa armazenar vídeo codificado gerado pelo módulo de fonte 12. O módulo de destino 14 pode acessar dados de vídeo armazenados a partir do dispositivo de armazenamento 31 por meio de transmissão contínua ou transferência por download. O servidor de arquivos pode ser qualquer tipo de servidor com capacidade para armazenar dados de vídeo codificados e transmitir esses dados de vídeo codificados para o módulo de destino 14. Os servidores de arquivo exemplificativos incluem um servidor web (por exemplo, para um site da web), um servidor FTP, dispositivos de armazenamento anexado à rede (NAS) ou uma unidade de disco local. O módulo de destino 14 pode acessar os dados de vídeo codificados através de qualquer conexão de dados padrão, incluindo uma conexão com a Internet. Isso pode incluir um canal sem fio (por exemplo, uma conexão WiFi), uma conexão com fio (por exemplo, DSL, modem de cabo, etc.) ou uma combinação de ambos que seja adequada para acessar dados de vídeo codificados armazenados em um servidor de arquivos. A transmissão de dados de vídeo codificados do dispositivo de armazenamento pode ser uma transmissão contínua, uma transmissão de transferência por download ou uma combinação das mesmas.

[0044] As técnicas desta revelação não são necessariamente limitadas a aplicações ou definições sem fio. As técnicas podem ser aplicadas à codificação de vídeo para suportar qualquer uma dentre uma variedade de aplicações de multimídia, tais como difusões de televisão pelo ar, transmissões de televisão por cabo, transmissões de televisão por satélite, transmissões contínuas de vídeo, por exemplo, por meio da Internet (por exemplo, HTTP através de transmissão contínua adaptativa dinâmica (DASH), etc.), codificação de vídeo digital para armazenamento em uma mídia de armazenamento de dados, decodificação de vídeo digital armazenado em uma mídia de armazenamento de dados, ou outras aplicações. Em alguns exemplos, o sistema 10 pode ser configurado para suportar transmissão de vídeo unidirecional ou bidirecional para suportar aplicações como transmissão contínua de vídeo, reprodução de vídeo, difusão de vídeo e/ou telefonia por vídeo.

[0045] No exemplo da Figura 1A, o módulo de fonte 12 inclui uma fonte de vídeo 18, um codificador de vídeo 20 e uma interface de saída 22. Em alguns casos, a interface de saída 22 pode incluir um modulador/demodulador (modem) e/ou um transmissor. No módulo de fonte 12, a fonte de vídeo 18 pode incluir uma fonte tal como um dispositivo de captura de vídeo, por exemplo, uma câmera de vídeo, um acervo de vídeos contendo vídeo capturado previamente, uma interface de alimentação de vídeo para receber vídeo a partir de um fornecedor de conteúdo de vídeo e/ou um sistema gráfico de computador para gerar dados gráficos de computador como a fonte vídeo, ou uma combinação dessas fontes. Como um exemplo, se a fonte de vídeo 18 for uma câmera de vídeo, o módulo de fonte 12 e o módulo de destino 14 podem formar os então chamados camerafones ou videofones, como ilustrado no exemplo da Figura 1B. No entanto, as técnicas descritas nesta revelação podem ser aplicáveis à codificação de vídeo em geral e podem ser aplicadas às aplicações com fio e/ou sem fio.

[0046] O vídeo capturado, pré-capturado, ou gerado por computador pode ser codificado pelo codificador de vídeo 20. Os dados de vídeo codificados podem ser transmitidos diretamente para o módulo de destino 14 por meio da interface de saída 22 do módulo de fonte 12. Os dados de vídeo codificados também podem (ou alternativamente) ser armazenados no dispositivo de armazenamento 31 para acesso posterior pelo módulo de destino 14 ou outros dispositivos, para decodificação e/ou reprodução. O codificador de vídeo 20 ilustrado nas Figuras 1A e 1B pode compreender o codificador de vídeo 20 ilustrado na Figura 2A, o codificador de vídeo 23 ilustrado na Figura 2B ou qualquer outro codificador de vídeo descrito no presente documento.

[0047] No exemplo da Figura 1A, o módulo de destino 14 inclui uma interface de entrada 28, um decodificador de vídeo 30 e um dispositivo de exibição 32. Em alguns casos, a interface de entrada 28 pode incluir um receptor e/ou um modem. A interface de entrada 28 do módulo de destino 14 pode receber os dados de vídeo codificados através do enlace 16. Os dados de vídeo codificados comunicados através do enlace 16, ou fornecidos no dispositivo de armazenamento 31, podem incluir uma variedade de elementos de sintaxe gerados pelo codificador de vídeo 20 para uso por um decodificador de vídeo, tal como o decodificador de vídeo 30, na decodificação dos dados de vídeo. Esses elementos de sintaxe podem ser incluídos com os dados de vídeo codificados transmitidos em uma mídia de comunicação, armazenados em uma mídia de armazenamento ou armazenados um servidor de arquivos. O decodificador de vídeo 30 ilustrado nas Figuras 1A e 1B pode compreender o decodificador de vídeo 30 ilustrado na Figura 3A, o decodificador de vídeo 33 ilustrado na Figura 3B ou qualquer outro decodificador de vídeo descrito no presente documento.

[0048] O dispositivo de exibição 32 pode ser integrado a, ou externo a, o módulo de destino 14. Em alguns exemplos, o módulo de destino 14 pode incluir um dispositivo de exibição integrado e também ser configurado para interfacear com um dispositivo de exibição externo. Em outros exemplos, o módulo de destino 14 pode ser um dispositivo de exibição. Em geral, o dispositivo de exibição 32 exibe os dados de vídeo decodificados para um usuário, e pode compreender qualquer um dentre uma variedade de dispositivos de exibição tais como uma tela de cristal líquido (LCD), uma tela de plasma, uma tela de diodo emissor de luz orgânico (OLED) ou outro tipo de dispositivo de exibição.

[0049] Em aspectos relacionados, a Figura 1B mostra um sistema de codificação e decodificação de vídeo exemplificativo 10’ em que a fonte e os módulos de destino 12, 14 estão em, ou são parte de um dispositivo ou dispositivo de usuário 11. O dispositivo 11 pode ser um aparelho de telefone, tal como um telefone “inteligente” ou similares. O dispositivo 11 pode incluir um módulo controlador/processador opcional 13 em comunicação operacional com a fonte e os módulos de destino 12, 14. O sistema 10’ da Figura 1B pode incluir adicionalmente uma unidade de processamento de vídeo 21 entre o codificador de vídeo 20 e a interface de saída 22. Em algumas implantações, a unidade de processamento de vídeo 21 é uma unidade separada, como ilustrado na Figura 1B; no entanto, em outras implantações, a unidade de processamento de vídeo 21 pode ser implantada como uma porção do codificador de vídeo 20 e/ou do módulo processador/controlador 13. O sistema 10’ também pode incluir um rastreador opcional 29, o qual pode rastrear um objeto de interesse em uma sequência de vídeo. O objeto de interesse a ser rastreado pode ser segmentado por uma técnica descrita em conexão com um ou mais aspectos da presente revelação. Em aspectos relacionados, o rastreamento pode ser realizado pelo dispositivo de exibição 32, de forma autônoma ou em conjunto com o rastreador 29. O sistema 10’ da Figura 1B, e os componentes do mesmo, são de outra forma similares ao sistema 10 da Figura 1A, e componentes do mesmo.

[0050] O codificador de vídeo 20 e o decodificador de vídeo 30 podem operar de acordo com um padrão de codificação de vídeo, tal como, um padrão de Codificação de Vídeo de Alta Eficiência (HEVC), e podem se conformar ao Modelo de Teste HEVC (HM). Alternativamente, o codificador de vídeo 20 e o decodificador de vídeo 30 podem operar de acordo com outros padrões proprietários ou de indústria, como o padrão ITU-T H.264, referido de modo alternativo como MPEG-4, Parte 10, Codificação de Vídeo Avançada (AVC), ou extensões de tais padrões. As técnicas dessa revelação, no entanto, não são limitadas a qualquer padrão de codificação particular. Outros exemplos de padrões de compressão de vídeo incluem MPEG-2 e ITU-T H.263.

[0051] Embora não mostrado nos exemplos das Figuras 1A e 1B, o codificador de vídeo 20 e o decodificador de vídeo 30 podem ser, cada um, integrados a um codificador e decodificador de áudio, e podem incluir unidades MUX-DEMUX apropriadas, ou outro hardware e software, para manipular a codificação tanto de áudio quanto de vídeo em um fluxo contínuo de dados comum ou fluxos contínuos de dados separados. Caso aplicável, em alguns exemplos, as unidades MUX-DEMUX podem se conformar ao protocolo multiplexador ITU H.223 ou a outros protocolos tais como o protocolo de datagrama de usuário (UDP).

[0052] O codificador de vídeo 20 e o decodificador de vídeo 30 podem, cada um, ser implantados como qualquer um dentre uma variedade de conjunto de circuitos de codificador adequado, tal como um ou mais microprocessadores, processadores de sinal digital (DSPs), circuitos integrados de aplicação específica (ASICs), matrizes de portas programáveis em campo (FPGAs), lógica discreta, software, hardware, firmware ou quaisquer combinações dos mesmos. Quando as técnicas são implantadas parcialmente em software, um dispositivo pode armazenar instruções para o software em uma mídia legível por computador não transitória adequada e executar as instruções em hardware com o uso de um ou mais processadores para realizar as técnicas desta revelação. Cada um dentre o codificador de vídeo 20 e o decodificador de vídeo 30 pode estar incluído em um ou mais codificadores ou decodificadores, um dos quais pode ser integrado como parte de um codificador/decodificador (CODEC) combinado em um dispositivo respectivo.

PROCESSO DE CODIFICAÇÃO DE VÍDEO

[0053] Como mencionado brevemente acima, o codificador de vídeo 20 codifica dados de vídeo. Os dados de vídeo podem compreender uma ou mais imagens. Cada uma das imagens é uma imagem estática que forma parte de um vídeo. Em alguns casos, uma imagem pode ser denominada como um “quadro” de vídeo Quando o codificador de vídeo 20 codifica os dados de vídeo, o codificador de vídeo 20 pode gerar um fluxo de bits. O fluxo de bits pode incluir uma sequência de bits que forma uma representação codificada dos dados de vídeo. O fluxo de bits pode incluir imagens codificadas e dados associados. Uma imagem codificada é uma representação codificada de uma imagem.

[0054] Para gerar o fluxo de bits, o codificador de vídeo 20 pode realizar operações de codificação em cada imagem nos dados de vídeo. Quando o codificador de vídeo 20 realiza operações de codificação nas imagens, o codificador de vídeo 20 pode gerar uma série de imagens codificadas e dados associados. Os dados associados podem incluir conjuntos de parâmetros de vídeo (VPS), conjuntos de parâmetros de sequência, conjuntos de parâmetros de imagem, conjuntos de parâmetros de adaptação, e outras estruturas de sintaxe. Um conjunto de parâmetro de sequência (SPS) pode conter parâmetros aplicáveis a zero ou mais sequências de imagens. Um conjunto de parâmetros de imagem (PPS) pode conter parâmetros aplicáveis a zero ou mais imagens. Um conjunto de parâmetros de adaptação (APS) pode conter parâmetros aplicáveis a zero ou mais imagens. Os parâmetros em um APS podem ser parâmetros que são mais prováveis de mudar do que os parâmetros em um PPS.

[0055] Para gerar uma imagem codificada, o codificador de vídeo 20 pode separar uma imagem em blocos de vídeo dimensionados igualmente. Um bloco de vídeo pode ser uma matriz bidimensional de amostras. Cada um dos blocos de vídeo é associado a um bloco em árvore. Em alguns casos, um bloco em árvore pode ser denominado como uma unidade de codificação maior (LCU). Os blocos em árvore de HEVC podem ser amplamente análogos aos macroblocos de padrões anteriores, tais como H.264/AVC. No entanto, o bloco em árvore não se limita necessariamente a um tamanho particular e pode incluir uma ou mais unidades de codificação (CUs). O codificador de vídeo 20 pode usar separação de árvore quadrática para separar os blocos de vídeo de blocos em árvore em blocos de vídeo associados a CUs, daí o nome “blocos em árvore”.

[0056] Em alguns exemplos, o codificador de vídeo 20 pode separar uma imagem em uma pluralidade de fatias. Cada uma das fatias pode incluir um número inteiro de CUs. Em alguns casos, uma fatia compreende um número inteiro de blocos em árvore. Em outros casos, um limite de uma fatia pode ficar dentro de um bloco em árvore.

[0057] Como parte de realizar uma operação de codificação em uma imagem, o codificador de vídeo 20 pode realizar operações de codificação em cada fatia da imagem. Quando o codificador de vídeo 20 realiza uma operação de codificação em uma fatia, o codificador de vídeo 20 pode gerar dados codificados associados à fatia. Os dados codificados associados à fatia podem ser denominados como uma “fatia codificada”.

[0058] Para gerar uma fatia codificada, o codificador de vídeo 20 pode realizar operações de codificação em cada bloco em árvore em uma fatia. Quando o codificador de vídeo 20 realiza uma operação de codificação em um bloco em árvore, o codificador de vídeo 20 pode gerar um bloco em árvore codificado. O bloco em árvore codificado pode compreender dados que representam uma versão codificada do bloco em árvore.

[0059] Quando o codificador de vídeo 20 gera uma fatia codificada, o codificador de vídeo 20 pode realizar operações de codificação em (por exemplo, codificar) os blocos em árvore na fatia de acordo com uma ordem de varredura matricial. Por exemplo, o codificador de vídeo 20 pode codificar os blocos em árvore da fatia em uma ordem que avança da esquerda para a direita através de uma fileira superior de blocos em árvore na fatia, em seguida a partir da esquerda para a direita através de uma próxima fileira inferior de blocos em árvore, e assim por diante até que o codificador de vídeo 20 tenha codificado cada um dos blocos em árvore na fatia.

[0060] Como um resultado da codificação dos blocos em árvore de acordo com a ordem de varredura matricial, os blocos em árvore acima e à esquerda de um determinado bloco em árvore podem ter sido codificados, mas os blocos em árvore abaixo e à direita do determinado bloco em árvore ainda não terão sido codificados. Consequentemente, o codificador de vídeo 20 pode ser capaz de acessar informações geradas por codificação de blocos em árvore acima e à esquerda do determinado bloco em árvore durante a codificação do determinado bloco em árvore. No entanto, o codificador de vídeo 20 pode ser incapaz de acessar informações geradas pela codificação de blocos em árvore abaixo e à direita do determinado bloco em árvore durante a codificação do determinado bloco em árvore.

[0061] Para gerar um bloco em árvore codificado, o codificador de vídeo 20 pode realizar recursivamente separação de árvore quadrática no bloco de vídeo do bloco em árvore para dividir o bloco de vídeo em blocos de vídeo progressivamente menores. Cada um dos blocos de vídeo menores pode ser associado a uma CU diferente. Por exemplo, o codificador de vídeo 20 pode separar o bloco de vídeo de um bloco em árvore em quatro sub-blocos dimensionados igualmente, separar um ou mais dos sub-blocos em quatro sub-sub-blocos dimensionados igualmente, e assim por diante. Uma CU separada pode ser uma CU cujo bloco de vídeo é separado em blocos de vídeo associados a outras CUs. Uma CU não separada pode ser uma CU cujo bloco de vídeo não é separado em blocos de vídeo associados a outras CUs.

[0062] Um ou mais elementos de sintaxe no fluxo de bits podem indicar um número máximo de vezes que o codificador de vídeo 20 pode separar o bloco de vídeo de um bloco em árvore. Um bloco de vídeo de uma CU pode ser em formato quadrado. O tamanho do bloco de vídeo de uma CU (por exemplo, o tamanho da CU) pode variar a partir de 8x8 pixels até o tamanho de um bloco de vídeo de um bloco em árvore (por exemplo, o tamanho do bloco em árvore) com um máximo de 64x64 pixels ou maior.

[0063] O codificador de vídeo 20 pode realizar operações de codificação em (por exemplo, codificar) cada CU de um bloco em árvore de acordo com uma ordem de varredura em z. Em outras palavras, o codificador de vídeo 20 pode codificar uma CU superior esquerda, uma CU superior direita, uma CU inferior esquerda e então uma CU inferior direita, nessa ordem. Quando o codificador de vídeo 20 realiza uma operação de codificação em uma CU separada, o codificador de vídeo 20 pode codificar CUs associadas a sub-blocos do bloco de vídeo da CU separada de acordo com a ordem de varredura em z. Em outras palavras, o codificador de vídeo 20 pode codificar uma CU associada a um sub-bloco superior esquerdo, uma CU associada a um sub-bloco superior direito, uma CU associada a um sub-bloco inferior esquerdo, e então uma CU associada a um sub-bloco inferior direito, nessa ordem.

[0064] Como um resultado da codificação das CUs de um bloco em árvore de acordo com uma ordem de varredura em z, as CUs acima, acima e à esquerda, acima e à direita, à esquerda e abaixo e à esquerda de uma determinada CU podem ter sido codificadas. As CUs abaixo e à direita da determinada CU ainda não terão sido codificadas. Consequentemente, o codificador de vídeo 20 pode ser capaz de acessar as informações geradas pela codificação de algumas CUs que são limítrofes à determinada CU durante a codificação da determinada CU. No entanto, o codificador de vídeo 20 pode ser incapaz de acessar informações geradas pela codificação de outras CUs que são limítrofes à determinada CU durante a codificação da determinada CU.

[0065] Quando o codificador de vídeo 20 codifica uma CU não separada, o codificador de vídeo 20 pode gerar uma ou mais unidades de previsão (PUs) para a CU. Cada uma das PUs da CU pode ser associada a um bloco de vídeo diferente dentro do bloco de vídeo da CU. O codificador de vídeo 20 pode gerar um bloco de vídeo predito para cada PU da CU. O bloco de vídeo predito de uma PU pode ser um bloco de amostras. O codificador de vídeo 20 pode usar intraprevisão ou interprevisão para gerar o bloco de vídeo predito para uma PU.

[0066] Quando o codificador de vídeo 20 usa intraprevisão para gerar o bloco de vídeo predito de uma PU, o codificador de vídeo 20 pode gerar o bloco de vídeo predito da PU com base nas amostras decodificadas da imagem associada à PU. Se o codificador de vídeo 20 usa intraprevisão para gerar blocos de vídeo preditos das PUs de uma CU, a CU é um CU intraprevista. Caso o codificador de vídeo 20 usar interprevisão para gerar o bloco de vídeo predito da PU, o codificador de vídeo 20 pode gerar o bloco de vídeo predito da PU com base nas amostras decodificadas de uma ou mais imagens diferentes da imagem associada à PU. Se o codificador de vídeo 20 usa interprevisão para gerar blocos de vídeo preditos das PUs de uma CU, a CU é uma CU interprevista.

[0067] Além disso, quando o codificador de vídeo 20 usa interprevisão para gerar um bloco de vídeo predito para uma PU, o codificador de vídeo 20 pode gerar informações de movimento para a PU. As informações de movimento para uma PU podem indicar um ou mais blocos de referência da PU. Cada bloco de referência da PU pode ser um bloco de vídeo dentro de uma imagem de referência. A imagem de referência pode ser uma imagem além da imagem associada à PU. Em alguns casos, um bloco de referência de uma PU também pode ser denominado como a “amostra de referência” da PU. O codificador de vídeo 20 pode gerar o bloco de vídeo predito para a PU com base nos blocos de referência da PU.

[0068] Após o codificador de vídeo 20 gerar blocos de vídeo preditos para uma ou mais PUs de uma CU, o codificador de vídeo 20 pode gerar dados residuais para a CU com base nos blocos de vídeo preditos para as PUs da CU. Os dados residuais para a CU podem indicar diferenças entre amostras nos blocos de vídeo preditos para as PUs da CU e o bloco de vídeo original da CU.

[0069] Além disso, como parte da realização de uma operação de codificação em uma CU não separada, o codificador de vídeo 20 pode realizar separação de árvore quadrática recursiva nos dados residuais da CU para separar os dados residuais da CU em um ou mais blocos de dados residuais (por exemplo, blocos de vídeo residuais) associados às unidades de transformada (TUs) da CU. Cada TU de uma CU pode ser associada a um bloco de vídeo residual diferente.

[0070] O codificador de vídeo 20 pode aplicar uma ou mais transformadas aos blocos de vídeo residuais associados às TUs para gerar blocos de coeficiente de transformada (por exemplo, blocos de coeficientes de transformada) associados às TUs. Conceitualmente, um bloco de coeficientes de transformada pode ser uma matriz bidimensional (2D) de coeficientes de transformada.

[0071] Após gerar um bloco de coeficientes de transformada, o codificador de vídeo 20 pode realizar um processo de quantização no bloco de coeficientes de transformada. Em geral, a quantização se refere a um processo no qual os coeficientes de transformada são quantizados para possivelmente reduzir uma quantidade de dados usados para representar os coeficientes de transformada, o que fornece uma compressão adicional. O processo de quantização pode reduzir a profundidade de bit associada aos alguns ou todos os coeficientes de transformada. Por exemplo, um coeficiente de transformada de nos bits pode ser arredondado para baixo para um coeficiente de transformada de m bits durante a quantização, em que n é maior do que m.

[0072] O codificador de vídeo 20 pode associar cada CU a um valor de parâmetro de quantização (QP). O valor do QP associado a uma CU pode determinar como o codificador de vídeo 20 quantiza o bloco de coeficientes de transformada associado à CU. O codificador de vídeo 20 pode ajustar o grau de quantização aplicado ao bloco de coeficientes de transformada associado a uma CU ajustando-se o valor do QP associado à CU.

[0073] Após o codificador de vídeo 20 quantizar um bloco de coeficientes de transformada, o codificador de vídeo 20 pode gerar conjuntos de elementos de sintaxe que representam os coeficientes de transformada no bloco de coeficientes de transformada quantizado. O codificador de vídeo 20 pode aplicar operações de codificação por entropia, tais como operações de codificação Aritmética Binária Adaptativa ao Contexto (CABAC), a alguns desses elementos de sintaxe. Outras técnicas de codificação por entropia tais como Codificação de Tamanho Variável Adaptativa ao Conteúdo (CAVLC), Codificação por entropia de Separação de Intervalo de Probabilidade (PIPE), ou outra codificação aritmética binária também poderia ser usada.

[0074] O fluxo de bits gerado pelo codificador de vídeo 20 pode incluir uma série de Unidades de Camada de Abstração de Rede (NAL). Cada uma das unidades de NAL pode ser uma estrutura de sintaxe contendo uma indicação de um tipo de dados na unidade de NAL e bytes contendo os dados. Por exemplo, uma unidade de NAL pode conter dados que representam um conjunto de parâmetros de vídeo, um conjunto de parâmetro de sequência, um conjunto de parâmetros de imagem, uma fatia codificada, informações suplementares de aprimoramento (SEI), um delimitador de unidade de acesso, dados de preenchimento ou outro tipo de dados. Os dados em uma unidade de NAL podem incluir várias estruturas de sintaxe.

[0075] O decodificador de vídeo 30 pode receber o fluxo de bits gerado pelo codificador de vídeo 20. O fluxo de bits pode incluir uma representação codificada dos dados de vídeo codificados pelo codificador de vídeo 20. Quando o decodificador de vídeo 30 recebe o fluxo de bits, o decodificador de vídeo 30 pode realizar uma operação de análise no fluxo de bits. Quando o decodificador de vídeo 30 realiza a operação de análise, o decodificador de vídeo 30 pode extrair elementos de sintaxe a partir do fluxo de bits. O decodificador de vídeo 30 pode reconstruir as imagens dos dados de vídeo com base nos elementos de sintaxe extraídos a partir do fluxo de bits. O processo para reconstruir os dados de vídeo com base nos elementos de sintaxe pode ser, de maneira geral, recíproco ao processo realizado pelo codificador de vídeo 20 para gerar os elementos de sintaxe.

[0076] Após o decodificador de vídeo 30 extrair os elementos de sintaxe associados a uma CU, o decodificador de vídeo 30 pode gerar blocos de vídeo preditos para as PUs da CU com base nos elementos de sintaxe. Além disso, o decodificador de vídeo 30 pode quantizar inversamente os blocos de coeficientes associados às TUs da CU. O decodificador de vídeo 30 pode realizar transformadas inversas nos blocos de coeficiente de transformada para reconstruir os blocos de vídeo residuais associados às TUs da CU. Após gerar os blocos de vídeo preditos e reconstruir os blocos de vídeo residuais, o decodificador de vídeo 30 pode reconstruir o bloco de vídeo da CU com base nos blocos de vídeo preditos e nos blocos de vídeo residuais. Dessa forma, o decodificador de vídeo 30 pode reconstruir os blocos de vídeo das CUs com base nos elementos de sintaxe no fluxo de bits.

CODIFICADOR DE VÍDEO

[0077] A Figura 2A é um diagrama de blocos que ilustra um exemplo de um codificador de vídeo que pode implantar técnicas de acordo com aspectos descritos nessa revelação. O codificador de vídeo 20 pode ser configurado para processar uma única camada de um quadro de vídeo, tal como para HEVC. Adicionalmente, o codificador de vídeo 20 pode ser configurado para realizar quaisquer ou todas as técnicas dessa revelação. Como um exemplo, a unidade de processamento de previsão 100 pode ser configurada para realizar quaisquer ou todas as técnicas descritas nessa revelação. Em outra modalidade, o codificador de vídeo 20 inclui uma unidade de previsão de intercamada 128 opcional que é configurada para realizar quaisquer ou todas as técnicas descritas nessa revelação. Em outras modalidades, a previsão de intercamada pode ser realizada pela unidade de processamento de previsão 100 (por exemplo, unidade de interprevisão 121 e/ou unidade de intraprevisão 126), em que, nesse caso, a unidade de previsão de intercamada 128 pode ser omitida. No entanto, os aspectos dessa revelação não são tão limitados. Em alguns exemplos, as técnicas descritas nessa revelação podem ser compartilhadas entre os vários componentes de codificador de vídeo 20. Em alguns exemplos, adicional ou alternativamente, um processador (não mostrado) pode ser configurado para realizar quaisquer ou todas as técnicas descritas nessa revelação.

[0078] Para propósitos explicativos, essa revelação descreve o codificador de vídeo 20 no contexto de codificação de HEVC. No entanto, as técnicas dessa revelação podem ser aplicáveis a outros padrões ou métodos de codificação. O exemplo representado na Figura 2A é para um único codec de camada. No entanto, como será descrito adicionalmente com respeito à Figura 2B, parte ou todo o codificador de vídeo 20 pode ser duplicado para o processamento de um codec multicamadas.

[0079] O codificador de vídeo 20 pode realizar intracodificação e intercodificação de blocos de vídeo dentro de fatias de vídeo. A intracodificação tem base na previsão espacial para reduzir ou remover a redundância espacial no vídeo dentro de um determinado quadro ou imagem de vídeo. A intercodificação tem base na previsão temporal para reduzir ou remover a redundância temporal no vídeo dentro de quadros ou imagens adjacentes de uma sequência de vídeo. Intramodo (modo I) pode se referir a qualquer um dentre vários modos de codificação com base em espaço. Intermodos, tal como a previsão unidirecional (modo P) ou previsão bidirecional (modo B), podem se referir a qualquer um dentre diversos modos de codificação com base em tempo.

[0080] No exemplo da Figura 2A, o codificador de vídeo 20 inclui uma pluralidade de componentes funcionais. Os componentes funcionais de codificador de vídeo 20 incluem uma unidade de processamento de previsão 100, uma unidade de geração residual 102, uma unidade de processamento de transformada 104, uma unidade de quantização 106, uma unidade de quantização inversa 108, uma unidade de transformada inversa 110, uma unidade de reconstrução 112, uma unidade de filtro 113, um armazenamento temporário de imagem decodificada 114 e uma unidade de codificação por entropia 116. A unidade de processamento de previsão 100 inclui uma unidade de interprevisão 121, uma unidade de estimativa de movimento 122, uma unidade de compensação de movimento 124, uma unidade de intraprevisão 126, e uma unidade de previsão de intercamada 128. Em outros exemplos, o codificador de vídeo 20 pode incluir mais, menos ou diferentes componentes funcionais. Além disso, a unidade de estimativa de movimento 122 e a unidade de compensação de movimento 124 podem ser altamente integradas, mas são representadas no exemplo da Figura 2A separadamente para fins de explicação.

[0081] O codificador de vídeo 20 pode receber os dados de vídeo. O codificador de vídeo 20 pode receber os dados de vídeo a partir de várias fontes. Por exemplo, o codificador de vídeo 20 pode receber os dados de vídeo a partir da fonte de vídeo 18 (por exemplo, mostrada nas Figuras 1A ou 1B) ou outra fonte. Os dados de vídeo podem representar uma série de imagens. Para codificar os dados de vídeo, o codificador de vídeo 20 pode realizar uma operação de codificação em cada uma das imagens. Como parte de realizar a operação de codificação em uma imagem, o codificador de vídeo 20 pode realizar operações de codificação em cada fatia da imagem. Como parte de realizar uma operação de codificação em uma fatia, o codificador de vídeo 20 pode realizar operações de codificação em blocos em árvore na fatia.

[0082] Como parte de realizar uma operação de codificação em um bloco em árvore, a unidade de processamento de previsão 100 pode realizar separação de árvore quadrática no bloco de vídeo do bloco em árvore para dividir o bloco de vídeo em blocos de vídeo progressivamente menores. Cada um dos blocos de vídeo menores pode ser associado a uma CU diferente. Por exemplo, a unidade de processamento de previsão 100 pode separar um bloco de vídeo de um bloco em árvore em quatro sub-blocos igualmente dimensionados, separar um ou mais dos sub-blocos em quatro sub-sub-blocos igualmente dimensionados e assim por diante.

[0083] Os tamanhos dos blocos de vídeo associados às CUs podem variar a partir de 8x8 amostras até o tamanho do bloco em árvore com um máximo de 64x64 amostras ou maior. Nessa revelação, "NxN" e "N por N" podem ser usados de modo intercambiável para se referir às dimensões de amostra de um bloco de vídeo em termos de dimensões horizontal e vertical, por exemplo, 16x16 amostras ou 16 por 16 amostras. Em geral, um bloco de vídeo de 16x16 tem dezesseis amostras em uma direção vertical (y = 16) e dezesseis amostras em uma direção horizontal (x = 16). De modo semelhante, um bloco NxN geralmente tem N amostras em uma direção vertical e N amostras em uma direção horizontal, em que N representa um valor de número inteiro não negativo.

[0084] Além disso, como parte de realizar a operação de codificação em um bloco em árvore, a unidade de processamento de previsão 100 pode gerar uma estrutura de dados de árvore quadrática hierárquica para o bloco em árvore. Por exemplo, um bloco em árvore pode corresponder a um nó raiz da estrutura de dados de árvore quadrática. Se a unidade de processamento de previsão 100 separa o bloco de vídeo do bloco em árvore em quatro sub-blocos, o nó raiz tem quatro nós filhos na estrutura de dados de árvore quadrática. Cada um dos nós filhos corresponde a uma CU associada a um dos sub-blocos. Se a unidade de processamento de previsão 100 separa um dos sub-blocos em quatro sub-sub-blocos, o nó que corresponde à CU associada ao sub-bloco pode ter quatro nós filhos, em que cada um dos mesmos corresponde a uma CU associada a um dos sub-sub-blocos.

[0085] Cada nó da estrutura de dados de árvore quadrática pode conter dados de sintaxe (por exemplo, elementos de sintaxe) para o bloco em árvore ou CU correspondente. Por exemplo, um nó na árvore quadrática pode incluir um sinalizador de divisão que indica se o bloco de vídeo da CU que corresponde ao nó é separado (por exemplo, dividido) em quatro sub-blocos. Os elementos de sintaxe para uma CU podem ser definidos recursivamente, e podem depender da divisão do bloco de vídeo da CU em sub-blocos. Uma CU cujo bloco de vídeo não é separado pode corresponder a um nó folha na estrutura de dados de árvore quadrática. Um bloco em árvore codificado pode incluir dados com base na estrutura de dados de árvore quadrática para um bloco em árvore correspondente.

[0086] O codificador de vídeo 20 pode realizar operações de codificação em cada CU não separada de um bloco em árvore. Quando o codificador de vídeo 20 realiza uma operação de codificação em uma CU não separada, o codificador de vídeo 20 gera dados que representam uma representação codificada da CU não separada.

[0087] Como parte de realizar uma operação de codificação em uma CU, a unidade de processamento de previsão 100 pode separar o bloco de vídeo da CU entre uma ou mais PUs da CU. O codificador de vídeo 20 e o decodificador de vídeo 30 podem suportar vários tamanhos de PU. Assumindo que o tamanho de uma CU particular seja 2Nx2N, o codificador de vídeo 20 e o decodificador de vídeo 30 podem suportar tamanhos de PU de 2Nx2N ou NxN, e interprevisão em tamanhos de PU simétricos de 2Nx2N, 2NxN, Nx2N, NxN, 2NxnU, nLx2N, nRx2N ou similares. O codificador de vídeo 20 e o decodificador de vídeo 30 também podem suportar separação assimétrica para PU tamanhos de 2NxnU, 2NxnD, nLx2N e nRx2N. Em alguns exemplos, a unidade de processamento de previsão 100 pode realizar separação geométrica para separar o bloco de vídeo de uma CU entre as PUs da CU ao longo de um limite que não alcança os lados do bloco de vídeo da CU em ângulos retos.

[0088] A unidade de interprevisão 121 pode realizar interprevisão em cada PU da CU. A interprevisão pode fornecer compressão temporal. Para realizar interprevisão em uma PU, a unidade de estimativa de movimento 122 pode gerar informações de movimento para a PU. A unidade de compensação de movimento 124 pode gerar um bloco de vídeo predito para a PU com base nas informações de movimento e amostras decodificadas de imagens além da imagem associada à CU (por exemplo, imagens de referência). Nessa revelação, um bloco de vídeo predito gerado pela unidade de compensação de movimento 124 pode ser denominado como um bloco de vídeo interprevisto.

[0089] As fatias podem ser fatias I, fatias P, ou fatias B. A unidade de estimativa de movimento 122 e a unidade de compensação de movimento 124 podem realizar diferentes operações para uma PU de uma CU dependendo da PU estar em uma fatia I, uma fatia P, ou uma fatia B. Em uma fatia I, todas as PUs são intraprevistas. Consequentemente, se a PU estiver em uma fatia I, a unidade de estimativa de movimento 122 e a unidade de compensação de movimento 124 não realizam interprevisão na PU.

[0090] Se a PU estiver em uma fatia P, a imagem que contém a PU é associada a uma lista de imagens de referência denominada como “lista 0”. Cada uma das imagens de referência na lista 0 contém amostras que podem ser usadas para interprevisão de outras imagens. Quando a unidade de estimativa de movimento 122 realiza a operação de estimativa de movimento com relação a uma PU em uma fatia P, a unidade de estimativa de movimento 122 pode pesquisar as imagens de referência na lista 0 para um bloco de referência para a PU. O bloco de referência da PU pode ser um conjunto de amostras, por exemplo, um bloco de amostras, que corresponde mais fielmente às amostras no bloco de vídeo da PU. A unidade de estimativa de movimento 122 pode usar uma variedade de métricas para determinar quão fielmente um conjunto de amostras em uma imagem de referência corresponde às amostras no bloco de vídeo de uma PU. Por exemplo, a unidade de estimativa de movimento 122 pode determinar quão fielmente um conjunto de amostras em uma imagem de referência corresponde às amostras no bloco de vídeo de uma PU por soma de diferença absoluta (SAD), soma de diferença quadrática (SSD), ou outras métricas de diferença.

[0091] Após identificar um bloco de referência de uma PU em uma fatia P, a unidade de estimativa de movimento 122 pode gerar um índice de referência que indica a imagem de referência na lista 0 que contém o bloco de referência e um vetor de movimento que indica um deslocamento espacial entre a PU e o bloco de referência. Em vários exemplos, a unidade de estimativa de movimento 122 pode gerar vetores de movimento para graus de precisão variáveis. Por exemplo, a unidade de estimativa de movimento 122 pode gerar vetores de movimento em um quarto de precisão da amostra, um oitavo de precisão da amostra ou outra precisão fracionária da amostra. No caso de precisão fracionária da amostra, os valores de bloco de referência podem ser interpolados a partir de valores de amostra de posição inteira na imagem de referência. A unidade de estimativa de movimento 122 pode emitir o índice de referência e o vetor de movimento como as informações de movimento da PU. A unidade de compensação de movimento 124 pode gerar um bloco de vídeo predito da PU com base no bloco de referência identificado pelas informações de movimento da PU.

[0092] Se a PU estiver em uma fatia B, a imagem que contém a PU pode ser associada a duas listas de imagens de referência, denominadas como “lista 0” e “lista 1”. Em alguns exemplos, uma imagem que contém uma fatia B pode ser associada a uma combinação de listas que é uma combinação da lista 0 e da lista 1.

[0093] Além disso, se a PU estiver em uma fatia B, a unidade de estimativa de movimento 122 pode realizar previsão unidirecional ou previsão bidirecional para a PU. Quando unidade de estimativa de movimento 122 realiza previsão unidirecional para a PU, a unidade de estimativa de movimento 122 pode pesquisar as imagens de referência da lista 0 ou da lista 1 para um bloco de referência para a PU. A unidade de estimativa de movimento 122 pode em seguida gerar um índice de referência que indica a imagem de referência na lista 0 ou na lista 1 que contém o bloco de referência e um vetor de movimento que indica um deslocamento espacial entre a PU e o bloco de referência. A unidade de estimativa de movimento 122 pode emitir o índice de referência, um indicador de direção de previsão, e o vetor de movimento como as informações de movimento da PU. O indicador de direção de previsão pode indicar se o índice de referência indica uma imagem de referência na lista 0 ou na lista 1. A unidade de compensação de movimento 124 pode gerar o bloco de vídeo predito da PU com base no bloco de referência indicado pelas informações de movimento da PU.

[0094] Quando a unidade de estimativa de movimento 122 realiza previsão bidirecional para uma PU, a unidade de estimativa de movimento 122 pode pesquisar as imagens de referência na lista 0 para um bloco de referência para a PU e também pode pesquisar as imagens de referência na lista 1 para outro bloco de referência para a PU. A unidade de estimativa de movimento 122 pode em seguida gerar índices de referência que indicam as imagens de referência na lista 0 e na lista 1 que contêm os blocos de referência e vetores de movimento que indicam deslocamento espaciais entre os blocos de referência e a PU. A unidade de estimativa de movimento 122 pode emitir os índices de referência e os vetores de movimento da PU como as informações de movimento da PU. A unidade de compensação de movimento 124 pode gerar o bloco de vídeo predito da PU com base nos blocos de referência indicados pelas informações de movimento da PU.

[0095] Em alguns casos, a unidade de estimativa de movimento 122 não emite um conjunto completo de informações de movimento para uma PU para a unidade de codificação por entropia 116. Em vez disso, a unidade de estimativa de movimento 122 pode sinalizar as informações de movimento de uma PU com referência às informações de movimento de outra PU. Por exemplo, a unidade de estimativa de movimento 122 pode determinar que as informações de movimento da PU são suficientemente similares às informações de movimento de uma PU vizinha. Nesse exemplo, a unidade de estimativa de movimento 122 pode indicar, em uma estrutura de sintaxe associada à PU, um valor que indica para o decodificador de vídeo 30 que a PU tem as mesmas informações de movimento que a PU vizinha. Em outro exemplo, a unidade de estimativa de movimento 122 pode identificar, em uma estrutura de sintaxe associada à PU, uma PU vizinha e uma diferença de vetor de movimento (MVD). A diferença de vetor de movimento indica uma diferença entre o vetor de movimento da PU e o vetor de movimento da PU vizinha indicada. O decodificador de vídeo 30 pode usar o vetor de movimento da PU vizinha indicada e a diferença de vetor de movimento para determinar o vetor de movimento da PU. Fazendo referência às informações de movimento de uma primeira PU durante a sinalização das informações de movimento de uma segunda PU, o codificador de vídeo 20 pode ser capaz de sinalizar as informações de movimento da segunda PU com o uso de menos bits.

[0096] Como discutido adicionalmente abaixo com referência às Figuras 8 a 12, a unidade de processamento de previsão 100 pode ser configurada para codificar (por exemplo, codificar ou decodificar) a PU (ou quaisquer outros blocos ou unidades de vídeo de camada de referência e/ou de camada de aprimoramento) realizando os métodos ilustrados nas Figuras 8 a 12. Por exemplo, a unidade de interprevisão 121 (por exemplo, por meio da unidade de estimativa de movimento 122 e/ou da unidade de compensação de movimento 124), a unidade de intraprevisão 126 ou a unidade de previsão de intercamada 128 podem ser configuradas para realizar os métodos ilustrados nas Figuras 8 a 12, conjunta ou separadamente.

[0097] Como parte de realizar uma operação de codificação em uma CU, a unidade de intraprevisão 126 pode realizar intraprevisão nas PUs da CU. A intraprevisão pode fornecer compressão espacial. Quando a unidade de intraprevisão 126 realiza intraprevisão em uma PU, a unidade de intraprevisão 126 pode gerar dados de previsão para a PU com base em amostras decodificadas de outras PUs na mesma imagem. Os dados de previsão para a PU podem incluir um bloco de vídeo predito e vários elementos de sintaxe. A unidade de intraprevisão 126 pode realizar intraprevisão em PUs em fatias I, fatias P e fatias B.

[0098] Para realizar intraprevisão em uma PU, a unidade de intraprevisão 126 pode usar múltiplos modos de intraprevisão para gerar múltiplos conjuntos de dados de previsão para a PU. Quando a unidade de intraprevisão 126 usa um modo de intraprevisão para gerar um conjunto de dados de previsão para a PU, a unidade de intraprevisão 126 pode estender amostras a partir de blocos de vídeo de PUs vizinhas através do bloco de vídeo da PU em uma direção e/ou gradiente associados ao modo de intraprevisão. As PUs vizinhas podem estar acima, acima e à direita, acima e à esquerda ou à esquerda da PU, assumindo-se uma ordem de codificação do fundo para o topo e da esquerda para direita para PUs, CUs e CTUs. A unidade de intraprevisão 126 pode usar várias quantidades de modos de intraprevisão, por exemplo, 33 modos de intraprevisão direcional, dependendo do tamanho da PU.

[0099] A unidade de processamento de previsão 100 pode selecionar os dados de previsão para uma PU dentre os dados de previsão gerados pela unidade de compensação de movimento 124 para a PU ou os dados de previsão gerados pela unidade de intraprevisão 126 para a PU. Em alguns exemplos, a unidade de processamento de previsão 100 seleciona os dados de previsão para a PU com base nas métricas de taxa/distorção dos conjuntos de dados preditivos.

[0100] Se unidade de processamento de previsão 100 seleciona dados de previsão gerados pela unidade de intraprevisão 126, a unidade de processamento de previsão 100 pode sinalizar o modo de intraprevisão que foi usado para gerar os dados de previsão para as PUs, por exemplo, o modo de intraprevisão selecionado. A unidade de processamento de previsão 100 pode sinalizar o modo de intraprevisão selecionado de várias formas. Por exemplo, pode ser provável que o modo de intraprevisão selecionado seja o mesmo que o modo de intraprevisão de uma PU vizinha. Em outras palavras, o modo de intraprevisão da PU vizinha pode ser o modo mais provável para a PU atual. Portanto, a unidade de processamento de previsão 100 pode gerar um elemento de sintaxe para indicar que o modo de intraprevisão selecionado é o mesmo que o modo de intraprevisão da PU vizinha.

[0101] Como discutido acima, o codificador de vídeo 20 pode incluir a unidade de previsão de intercamada 128. A unidade de previsão de intercamada 128 é configurada para predizer um bloco atual (por exemplo, um bloco atual na EL) com o uso de uma ou mais camadas diferentes que estejam disponíveis em SVC (por exemplo, uma camada de base ou de referência). Essa previsão pode ser denominada como previsão de intercamada. A unidade de previsão de intercamada 128 utiliza métodos de previsão para reduzir a redundância de intercamada, para, desse modo, aprimorar a eficiência da codificação e reduzir a exigência de recursos computacionais. Alguns exemplos de previsão de intercamada incluem intraprevisão de intercamada, previsão de movimento de intercamada e previsão residual de intercamada. A intraprevisão de intercamada usa a reconstrução de blocos colocalizados na camada de base para predizer o bloco atual na camada de aprimoramento. A previsão de movimento de intercamada usa informações de movimento da camada de base para predizer movimento na camada de aprimoramento. A previsão residual de intercamada usa o resíduo da camada de base para predizer o resíduo da camada de aprimoramento. Cada um dos esquemas de previsão de intercamada é discutido abaixo em maior detalhe.

[0102] Após a unidade de processamento de previsão 100 selecionar os dados de previsão para as PUs de uma CU, a unidade de geração residual 102 pode gerar dados residuais para a CU através da subtração (por exemplo, indicada pelo sinal negativo) dos blocos de vídeo preditos das PUs da CU a partir do bloco de vídeo da CU. Os dados residuais de uma CU podem incluir blocos de vídeo residuais 2D que correspondem a componentes de amostra diferentes das amostras no bloco de vídeo da CU. Por exemplo, os dados residuais podem incluir um bloco de vídeo residual que corresponde às diferenças entre componentes de luminância de amostras nos blocos de vídeo preditos das PUs da CU e componentes de luminância de amostras no bloco de vídeo original da CU. Além disso, os dados residuais da CU podem incluir blocos de vídeo residuais que correspondem às diferenças entre componentes de crominância de amostras nos blocos de vídeo preditos das PUs da CU e os componentes de crominância das amostras no bloco de vídeo original da CU.

[0103] A unidade de processamento de previsão 100 pode realizar separação de árvore quadrática para separar os blocos de vídeo residuais de uma CU em sub-blocos. Cada bloco de vídeo residual não dividido pode ser associado a uma TU diferente da CU. Os tamanhos e posições dos blocos de vídeo residuais associados às TUs de uma CU podem ser, ou não, baseados nos tamanhos e posições de blocos de vídeo associados às PUs da CU. Uma estrutura de árvore quadrática conhecida como uma “árvore quadrática residual” (RQT) pode incluir nós associados a cada um dos blocos de vídeo residuais. As TUs de uma CU podem corresponder a nós folhas da RQT.

[0104] A unidade de processamento de transformada 104 pode gerar um ou mais blocos de coeficientes de transformada para cada TU de uma CU através da aplicação de uma ou mais transformadas a um bloco de vídeo residual associado à TU. Cada um dos blocos de coeficientes de transformada pode ser uma matriz 2D de coeficientes de transformada. A unidade de processamento de transformada 104 pode aplicar várias transformadas ao bloco de vídeo residual associado a uma TU. Por exemplo, a unidade de processamento de transformada 104 pode aplicar uma transformada de cosseno distinta (DCT), uma transformada direcional ou uma transformada conceitualmente similar ao bloco de vídeo residual associado a uma TU.

[0105] Após a unidade de processamento de transformada 104 gerar um bloco de coeficientes de transformada associado a uma TU, a unidade de quantização 106 pode quantizar os coeficientes de transformada no bloco de coeficientes de transformada. A unidade de quantização 106 pode quantizar um bloco de coeficientes de transformada associado a uma TU de uma CU com base em um valor de QP associado à CU.

[0106] O codificador de vídeo 20 pode associar um valor de QP a uma CU de várias formas. Por exemplo, o codificador de vídeo 20 pode realizar uma análise de taxa de distorção em um bloco em árvore associado à CU. Na análise de taxa de distorção, o codificador de vídeo 20 pode gerar múltiplas representações codificadas do bloco em árvore através da realização de uma operação de codificação múltiplas vezes no bloco em árvore. O codificador de vídeo 20 pode associar valores de QP diferentes à CU quando o codificador de vídeo 20 gera representações codificadas diferentes do bloco em árvore. O codificador de vídeo 20 pode sinalizar que um determinado valor de QP é associado à CU quando o determinado valor de QP é associado à CU em uma representação codificada do bloco em árvore que tem uma taxa de bits e métrica de distorção mais baixas.

[0107] A unidade de quantização inversa 108 e a unidade de transformada inversa 110 podem aplicar quantização inversa e transformadas inversas ao bloco de coeficientes de transformada, respectivamente, para reconstruir um bloco de vídeo residual a partir do bloco de coeficientes de transformada. A unidade de reconstrução 112 pode adicionar o bloco de vídeo residual reconstruído às amostras correspondentes a partir de um ou mais blocos de vídeo preditos gerados pela unidade de processamento de previsão 100 para produzir um bloco de vídeo reconstruído associado a uma TU. Através da reconstrução dos blocos de vídeo para cada TU de uma CU, o codificador de vídeo 20 pode reconstruir o bloco de vídeo da CU.

[0108] Após a unidade de reconstrução 112 reconstruir o bloco de vídeo de uma CU, a unidade de filtro 113 pode realizar uma operação de desblocagem para reduzir artefatos de blocagem no bloco de vídeo associado à CU. Após realizar as uma ou mais operações de desblocagem, as unidades de filtro 113 podem armazenar o bloco de vídeo reconstruído da CU em armazenamento temporário de imagem decodificada 114. A unidade de estimativa de movimento 122 e a unidade de compensação de movimento 124 podem usar uma imagem de referência que contém o bloco de vídeo reconstruído para realizar interprevisão nas PUs de imagens subsequentes. Além disso, a unidade de intraprevisão 126 pode usar blocos de vídeo reconstruídos no armazenamento temporário de imagem decodificada 114 para realizar intraprevisão em outras PUs na mesma imagem como a CU.

[0109] A unidade de codificação por entropia 116 pode receber dados a partir de outros componentes funcionais do codificador de vídeo 20. Por exemplo, a unidade de codificação por entropia 116 pode receber blocos de coeficiente de transformada a partir da unidade de quantização 106 e pode receber elementos de sintaxe a partir da unidade de processamento de previsão 100. Quando a unidade de codificação por entropia 116 recebe os dados, a unidade de codificação por entropia 116 pode realizar um ou mais operações de codificação por entropia para gerar dados codificados por entropia. Por exemplo, o codificador de vídeo 20 pode realizar uma operação de codificação de tamanho variável adaptativa ao contexto (CAVLC), uma operação CABAC, uma operação de codificação de tamanho variável a variável (V2V), uma operação de codificação aritmética binária adaptativa ao contexto com base em sintaxe (SBAC), uma operação de codificação por entropia de Separação de Intervalo de Probabilidade (PIPE) ou outro tipo de operação de codificação por entropia nos dados. A unidade de codificação por entropia 116 pode emitir um fluxo de bits que inclui os dados codificados por entropia.

[0110] Como parte de realizar uma operação de codificação por entropia nos dados, a unidade de codificação por entropia 116 pode selecionar um modelo de contexto. Se a unidade de codificação por entropia 116 estiver realizando uma operação CABAC, o modelo de contexto pode indicar estimativas de probabilidades de binários particulares que têm valores particulares. No contexto de CABAC, o termo “binário” é usado para se referir a um bit de uma versão binarizada de um elemento de sintaxe.

CODIFICADOR DE VÍDEO MULTICAMADAS

[0111] A Figura 2B é um diagrama de blocos que ilustra um exemplo de um codificador de vídeo multicamadas 23 que pode implantar técnicas de acordo com aspectos descritos nessa revelação. O codificador de vídeo 23 pode ser configurado para processar quadros de vídeo multicamadas, tal como para codificação de múltiplas vistas e SHVC. O codificador de vídeo 23 pode ser configurado para realizar qualquer uma ou todas as técnicas dessa revelação.

[0112] O codificador de vídeo 23 inclui um codificador de vídeo 20A e um codificador de vídeo 20B, cada um dos quais pode ser configurado como o codificador de vídeo 20 e pode realizar as funções descritas acima com respeito ao codificador de vídeo 20. Adicionalmente, como indicado pela reutilização de numerais de referência, os codificadores de vídeo 20A e 20B podem incluir pelo menos alguns dos sistemas e subsistemas como o codificador de vídeo 20. Embora o codificador de vídeo 23 seja ilustrado como incluindo dois codificadores de vídeo 20A e 20B, o codificador de vídeo 23 não é limitado a tal e pode incluir qualquer número de camadas de codificador de vídeo 20. Em algumas modalidades, o codificador de vídeo 23 pode incluir um codificador de vídeo 20 para cada imagem ou quadro em uma unidade de acesso. Por exemplo, uma unidade de acesso que inclui cinco imagens pode ser processada ou encodificada por um codificador de vídeo que inclui cinco camadas de codificador. Em algumas modalidades, o codificador de vídeo 23 pode incluir mais camadas de codificador do que quadros em uma unidade de acesso. Em alguns desses casos, algumas das camadas de codificador de vídeo podem ficar inativas durante o processamento de algumas unidades de acesso.

[0113] Além disso para os codificadores de vídeo 20A e 20B, o codificador de vídeo 23 pode incluir uma unidade de reamostragem 90. A unidade de reamostragem 90 pode, em alguns casos, elevar a amostragem de uma camada de base de um quadro de vídeo recebido para, por exemplo, criar uma camada de aprimoramento. A unidade de reamostragem 90 pode elevar a amostragem de informações particulares associadas à camada de base recebida de um quadro, mas não outras informações. Por exemplo, a unidade de reamostragem 90 pode elevar a amostragem do tamanho espacial ou número de pixels da camada de base, mas o número de fatias ou o contador de ordem de imagem pode permanecer constante. Em alguns casos, a unidade de reamostragem 90 pode não processar o vídeo recebido e/ou pode ser opcional. Por exemplo, em alguns casos, a unidade de processamento de previsão 100 pode realizar elevação de amostragem. Em algumas modalidades, a unidade de reamostragem 90 é configurada para elevar a amostragem de uma camada e reorganizar, redefinir, modificar ou ajustar uma ou mais fatias para serem compatíveis com um conjunto de regras de limite fatia e/ou regras de varredura matricial. Embora descrito primariamente como elevação de amostragem de uma camada de base, ou de uma camada inferior em uma unidade de acesso, em alguns casos, a unidade de reamostragem 90 pode reduzir a amostragem de uma camada. Por exemplo, se durante a transmissão contínua de um vídeo a largura de banda é reduzida, um quadro pode ter reduzida a amostragem em vez de elevada a amostragem.

[0114] A unidade de reamostragem 90 pode ser configurada para receber uma imagem ou quadro (ou informações de imagem associadas à imagem) a partir do armazenamento temporário de imagem decodificada 114 do codificador de camada inferior (por exemplo, o codificador de vídeo 20A) e para elevar a amostragem da imagem (ou das informações de imagem recebidas). Essa imagem pode então ser fornecida para a unidade de processamento de previsão 100 de um codificador de camada superior (por exemplo, o codificador de vídeo 20B) configurado para codificar uma imagem na mesma unidade de acesso que o codificador de camada inferior. Em alguns casos, o codificador de camada superior é uma camada removida a partir do codificador de camada inferior. Em outros casos, pode haver um ou mais codificadores de camada superior entre o codificador de vídeo da camada 0 e o codificador da camada 1 da Figura 2B.

[0115] Em alguns casos, a unidade de reamostragem 90 pode ser omitida ou desviada. Em tais casos, a imagem a partir do armazenamento temporário de imagem decodificada 114 do codificador de vídeo 20A pode ser fornecida diretamente, ou pelo menos sem ser fornecida para a unidade de reamostragem 90, para a unidade de processamento de previsão 100 do codificador de vídeo 20B. Por exemplo, se os dados de vídeo fornecidos para o codificador de vídeo 20B e a imagem de referência a partir do armazenamento temporário de imagem decodificada 114 do codificador de vídeo 20A forem do mesmo tamanho ou resolução, a imagem de referência pode ser fornecida para o codificador de vídeo 20B sem qualquer reamostragem.

[0116] Em algumas modalidades, o codificador de vídeo 23 reduz a amostragem de dados de vídeo a serem fornecidos para o codificador de camada inferior com o uso da unidade de redução de amostragem 94 antes de fornecer os dados de vídeo para o codificador de vídeo 20A. Alternativamente, a unidade de redução de amostragem 94 pode ser uma unidade de reamostragem 90 capaz de elevar a amostragem ou reduzir a amostragem dos dados de vídeo. Ainda em outras modalidades, a unidade de redução de amostragem 94 pode ser omitida.

[0117] Conforme ilustrado na Figura 2B, o codificador de vídeo 23 pode incluir adicionalmente um multiplexador 98, ou mux. O mux 98 pode emitir um fluxo de bits combinado a partir do codificador de vídeo 23. O fluxo de bits combinado pode ser criado tomando-se um fluxo de bits a partir de cada um dos codificadores de vídeo 20A e 20B e alternando qual fluxo de bits é emitido em um tempo determinado. Embora em alguns casos os bits a partir dos dois (ou mais no caso de mais do que duas camadas de codificador de vídeo) fluxos de bits podem ser alternados um bit de cada vez, em muitos casos os fluxos de bits são combinados de forma diferente. Por exemplo, o fluxo de bits de saída pode ser criado alternando-se o fluxo de bits selecionado um bloco de cada vez. Em outro exemplo, o fluxo de bits de saída pode ser criado emitindo-se uma relação de blocos 1 não: 1 a partir de cada um dos codificadores de vídeo 20A e 20B. Por exemplo, dois blocos podem ser emitidos a partir do codificador de vídeo 20B para cada bloco emitido a partir do codificador de vídeo 20A. Em algumas modalidades, o fluxo contínuo de saída a partir do mux 98 pode ser pré- programado. Em outras modalidades, o mux 98 pode combinar os fluxos de bits a partir dos codificadores de vídeo 20A, 20B com base em um sinal de controle recebido a partir de um sistema externo para o codificador de vídeo 23, tal como a partir de um processador em um dispositivo de fonte que inclui o módulo de fonte 12. O sinal de controle pode ser gerado com base na resolução ou taxa de bits de um vídeo a partir da fonte de vídeo 18, com base em uma largura de banda do enlace 16, com base em uma assinatura associada a um usuário (por exemplo, uma assinatura paga versus uma assinatura livre), ou com base em qualquer outro fator para determinar uma resolução de saída desejada a partir do codificador de vídeo 23.

DECODIFICADOR DE VÍDEO

[0118] A Figura 3A é um diagrama de blocos que ilustra um exemplo de um decodificador de vídeo que pode implantar técnicas de acordo com aspectos descritos nessa revelação. O decodificador de vídeo 30 pode ser configurado para processar uma única camada de um quadro de vídeo, tal como para HEVC. Adicionalmente, o decodificador de vídeo 30 pode ser configurado para realizar qualquer ou todas as técnicas dessa revelação. Como um exemplo, a unidade de compensação de movimento 162 e/ou a unidade de intraprevisão 164 podem ser configuradas para realizar quaisquer ou todas as técnicas descritas nessa revelação. Em uma modalidade, o decodificador de vídeo 30 pode, opcionalmente, incluir a unidade de previsão de intercamada 166 que é configurada para realizar quaisquer ou todas as técnicas descritas nessa revelação. Em outras modalidades, a previsão de intercamada pode ser realizada pela unidade de processamento de previsão 152 (por exemplo, a unidade de compensação de movimento 162 e/ou a unidade de intraprevisão 164), em que, nesse caso, a unidade de previsão de intercamada 166 pode ser omitido. No entanto, os aspectos dessa revelação não são tão limitados. Em alguns exemplos, as técnicas descritas nessa revelação podem ser compartilhadas entre os vários componentes do decodificador de vídeo 30. Em alguns exemplos, adicional ou alternativamente, um processador (não mostrado) pode ser configurado para realizar quaisquer ou todas as técnicas descritas nessa revelação.

[0119] Para fins explicativos, essa revelação descreve o decodificador de vídeo 30 no contexto de codificação de HEVC. No entanto, as técnicas dessa revelação podem ser aplicáveis a outros padrões ou métodos de codificação. O exemplo representado na Figura 3A é para um único codec de camada. No entanto, como será descrito adicionalmente com respeito à Figura 3B, parte ou todo o decodificador de vídeo 30 pode ser duplicado para o processamento de um codec multicamadas.

[0120] No exemplo da Figura 3A, o decodificador de vídeo 30 inclui uma pluralidade de componentes funcionais. Os componentes funcionais do decodificador de vídeo 30 incluem uma unidade de decodificação por entropia 150, uma unidade de processamento de previsão 152, uma unidade de quantização inversa 154, uma unidade de transformada inversa 156, uma unidade de reconstrução 158, uma unidade de filtro 159 e um armazenamento temporário de imagem decodificada 160. A unidade de processamento de previsão 152 inclui uma unidade de compensação de movimento 162, uma unidade de intraprevisão 164 e uma unidade de previsão de intercamada 166. Em alguns exemplos, o decodificador de vídeo 30 pode realizar uma passagem de decodificação em geral recíproca à passagem de codificação descrita com respeito ao codificador de vídeo 20 da Figura 2A. Em outros exemplos, o decodificador de vídeo 30 pode incluir mais, menos ou diferentes componentes funcionais.

[0121] O decodificador de vídeo 30 pode receber um fluxo de bits que compreende dados de vídeo codificados. O fluxo de bits pode incluir uma pluralidade de elementos de sintaxe. Quando o decodificador de vídeo 30 recebe o fluxo de bits, a unidade de decodificação por entropia 150 pode realizar uma operação de análise no fluxo de bits. Como um resultado de realizar a operação de análise no fluxo de bits, a unidade de decodificação por entropia 150 pode extrair elementos de sintaxe a partir do fluxo de bits. Como parte de realizar a operação de análise, a unidade de decodificação por entropia 150 pode decodificar por entropia codificada elementos de sintaxe codificados por entropia no fluxo de bits. A unidade de processamento de previsão 152, a unidade de quantização inversa 154, a unidade de transformada inversa 156, a unidade de reconstrução 158 e a unidade de filtro 159 podem realizar uma operação de reconstrução que gera dados de vídeo decodificados com base nos elementos de sintaxe extraídos a partir do fluxo de bits.

[0122] Como discutido acima, o fluxo de bits pode compreender uma série de unidades de NAL. As unidades de NAL do fluxo de bits podem incluir unidades de NAL de conjunto de parâmetros de vídeo, unidades de NAL de conjunto de parâmetros de sequência, unidades de NAL de conjunto de parâmetros de imagem, unidades de NAL de SEI, e assim por diante. Como parte de realizar a operação de análise no fluxo de bits, a unidade de decodificação por entropia 150 pode realizar operações de análise que extraem e decodificam por entropia os conjuntos de parâmetros de sequência a partir de unidades de NAL de conjunto de parâmetros de sequência, conjuntos de parâmetros de imagem a partir de unidades de NAL de conjunto de parâmetros de imagem, dados de SEI a partir de unidades de NAL de SEI, e assim por diante.

[0123] Além disso, as unidades de NAL do fluxo de bits podem incluir unidades de NAL de fatia codificada. Como parte de realizar a operação de análise no fluxo de bits, a unidade de decodificação por entropia 150 pode realizar operações de análise que extraem e decodificam por entropia fatias codificadas a partir das unidades de NAL de fatia codificada. Cada uma das fatias codificadas pode incluir um cabeçalho de fatia e dados de fatia. O cabeçalho de fatia pode conter elementos de sintaxe que pertencem a uma fatia. Os elementos de sintaxe no cabeçalho de fatia podem incluir um elemento de sintaxe que identifica um conjunto de parâmetros de imagem associado a uma imagem que contém a fatia. A unidade de decodificação por entropia 150 pode realizar operações de decodificação por entropia, tais como operações de decodificação CABAC, em elementos de sintaxe no cabeçalho de fatia codificada para recuperar o cabeçalho de fatia.

[0124] Como parte de extrair os dados de fatia a partir de unidades de NAL de fatia codificada, a unidade de decodificação por entropia 150 pode realizar operações de análise que extraem elementos de sintaxe a partir de CUs codificadas nos dados de fatia. Os elementos de sintaxe extraídos podem incluir elementos de sintaxe associados aos blocos de coeficientes de transformada. A unidade de decodificação por entropia 150 pode, em seguida, realizar operações de decodificação CABAC em alguns dos elementos de sintaxe.

[0125] Após a unidade de decodificação por entropia 150 realizar uma operação de análise em uma CU não separada, o decodificador de vídeo 30 pode realizar uma operação de reconstrução na CU não separada. Para realizar a operação de reconstrução em uma CU não separada, o decodificador de vídeo 30 pode realizar uma operação de reconstrução em cada TU da CU. Através da realização da operação de reconstrução para cada TU da CU, o decodificador de vídeo 30 pode reconstruir um bloco de vídeo residual associado à CU.

[0126] Como parte de realizar uma operação de reconstrução em uma TU, a unidade de quantização inversa 154 pode quantizar inversamente, por exemplo, desquantizar, um bloco de coeficientes de transformada associado à TU. A unidade de quantização inversa 154 pode quantizar inversamente o bloco de coeficientes de transformada de uma maneira similar aos processos de quantização inversa propostos para HEVC ou definidos pelo padrão de decodificação H.264. A unidade de quantização inversa 154 pode usar um parâmetro de quantização QP calculado pelo codificador de vídeo 20 para uma CU do bloco de coeficientes de transformada para determinar um grau de quantização e, do mesmo modo, um grau de quantização inversa para a unidade de quantização inversa 154 aplicar.

[0127] Após a unidade de quantização inversa 154 quantizar inversamente um bloco de coeficientes de transformada, a unidade de transformada inversa 156 pode gerar um bloco de vídeo residual para a TU associada ao bloco de coeficientes de transformada. A unidade de transformada inversa 156 pode aplicar uma transformada inversa ao bloco de coeficientes de transformada a fim de gerar o bloco de vídeo residual para a TU. Por exemplo, a unidade de transformada inversa 156 pode aplicar uma DCT inversa, uma transformada de número inteiro inversa, uma transformada de Karhunen-Loeve inversa (KLT), uma transformada rotacional inversa, uma transformada direcional inversa ou uma outra transformada inversa ao bloco de coeficientes de transformada. Em alguns exemplos, a unidade de transformada inversa 156 pode determinar uma transformada inversa para aplicar ao bloco de coeficientes de transformada com base em sinalização a partir do codificador de vídeo 20. Nesses exemplos, a unidade de transformada inversa 156 pode determinar a transformada inversa com base em uma transformada sinalizada no nó raiz de uma árvore quadrática para um bloco em árvore associado ao bloco de coeficientes de transformada. Em outros exemplos, a unidade de transformada inversa 156 pode inferir a transformada inversa a partir de uma ou mais características de codificação, tal como tamanho de bloco, modo de codificação, ou similares. Em alguns exemplos, a unidade de transformada inversa 156 pode aplicar uma transformada inversa cascateada.

[0128] Em alguns exemplos, a unidade de compensação de movimento 162 pode refinar o bloco de vídeo predito de uma PU através da realização de interpolação com base em filtros de interpolação. Identificadores para filtros de interpolação para serem usados para compensação de movimento com precisão subamostra podem ser incluídos nos elementos de sintaxe. A unidade de compensação de movimento 162 pode usar os mesmos filtros de interpolação usados pelo codificador de vídeo 20 durante a geração do bloco de vídeo predito da PU para calcular os valores interpolados para amostras de número subinteiro de um bloco de referência. A unidade de compensação de movimento 162 pode determinar os filtros de interpolação usados pelo codificador de vídeo 20 de acordo com informações de sintaxe recebidas e usar os filtros de interpolação para produzir o bloco de vídeo predito.

[0129] Como discutido adicionalmente abaixo com referência às Figuras 8 a 12, a unidade de processamento de previsão 152 pode codificar (por exemplo, codificar ou decodificar) a PU (ou quaisquer outros blocos ou unidades de vídeo de camada de referência e/ou de camada de aprimoramento) através da realização dos métodos ilustrados nas Figuras 8 a 12. Por exemplo, a unidade de compensação de movimento 162, a unidade de intraprevisão 164 ou a unidade de previsão de intercamada 166 podem ser configuradas para realizar os métodos ilustrados nas Figuras 8 a 12, de forma conjunta ou separadamente.

[0130] Se uma PU é codificada com o uso de intraprevisão, a unidade de intraprevisão 164 pode realizar intraprevisão para gerar um bloco de vídeo predito para a PU. Por exemplo, a unidade de intraprevisão 164 pode determinar um modo de intraprevisão para a PU com base em elementos de sintaxe no fluxo de bits. O fluxo de bits pode incluir elementos de sintaxe que a unidade de intraprevisão 164 pode usar para determinar o modo de intraprevisão da PU.

[0131] Em alguns casos, os elementos de sintaxe podem indicar que a unidade de intraprevisão 164 deve usar o modo de intraprevisão de outra PU para determinar o modo de intraprevisão da PU atual. Por exemplo, pode ser provável que o modo de intraprevisão da PU atual seja o mesmo que o modo de intraprevisão de uma PU vizinha. Em outras palavras, o modo de intraprevisão da PU vizinha pode ser o modo mais provável para a PU atual. Consequentemente, nesse exemplo, o fluxo de bits pode incluir um pequeno elemento de sintaxe que indica que o modo de intraprevisão da PU é o mesmo que o modo de intraprevisão da PU vizinha. A unidade de intraprevisão 164 pode, então, usar o modo de intraprevisão para gerar dados de previsão (por exemplo, amostras preditas) para a PU com base nos blocos de vídeo de PUs vizinhas espacialmente.

[0132] Como discutido acima, o decodificador de vídeo 30 também pode incluir a unidade de previsão de intercamada 166. A unidade de previsão de intercamada 166 é configurada para predizer um bloco atual (por exemplo, um bloco atual na EL) com o uso de uma ou mais camadas diferentes que são disponíveis em SVC (por exemplo, uma camada de base ou de referência). Essa previsão pode ser denominada como previsão de intercamada. A unidade de previsão de intercamada 166 utiliza métodos de previsão para reduzir a redundância de intercamada, para, desse modo, aprimorar a eficiência de codificação e reduzir a exigência de recursos computacionais. Alguns exemplos de previsão de intercamada incluem intraprevisão de intercamada, previsão de movimento de intercamada e previsão residual de intercamada. A intraprevisão de intercamada usa a reconstrução de blocos colocalizados na camada de base para predizer o bloco atual na camada de aprimoramento. A previsão de movimento de intercamada usa informações de movimento da camada de base para predizer movimento na camada de aprimoramento. A previsão residual de intercamada usa o resíduo da camada de base para predizer o resíduo da camada de aprimoramento. Cada um dos esquemas de previsão de intercamada é discutido abaixo em maior detalhe.

[0133] A unidade de reconstrução 158 pode usar os blocos de vídeo residuais associados às TUs de uma CU e os blocos de vídeo preditos das PUs da CU, por exemplo, previsão intradados ou previsão interdados, conforme aplicável, para reconstruir o bloco de vídeo da CU. Portanto, o decodificador de vídeo 30 pode gerar um bloco de vídeo predito e um bloco de vídeo residual com base em elementos de sintaxe no fluxo de bits e pode gerar um bloco de vídeo com base no bloco de vídeo predito e no bloco de vídeo residual.

[0134] Após a unidade de reconstrução 158 reconstruir o bloco de vídeo da CU, a unidade de filtro 159 pode realizar uma operação de desblocagem para reduzir artefatos de blocagem associados à CU. Após a unidade de filtro 159 realizas uma operação de desblocagem para reduzir os artefatos de blocagem associados à CU, o decodificador de vídeo 30 pode armazenar o bloco de vídeo da CU em armazenamento temporário de imagem decodificada 160. O armazenamento temporário de imagem decodificada 160 pode fornecer imagens de referência para compensação de movimento subsequente, intraprevisão e apresentação em um dispositivo de exibição, tais como os blocos de dispositivo de exibição no armazenamento temporário de imagem decodificada 160, operações de intraprevisão ou interprevisão em PUs de outras CUs.

DECODIFICADOR MULTICAMADAS

[0135] A Figura 3B é um diagrama de blocos que ilustra um exemplo de um decodificador de vídeo multicamadas 33 que pode implantar técnicas de acordo com aspectos descritos nessa revelação. O decodificador de vídeo 33 pode ser configurado para processar quadros de vídeo multicamadas, tal como para SHVC e codificação de múltiplas vistas. Adicionalmente, o decodificador de vídeo 33 pode ser configurado para realizar quaisquer ou todas as técnicas dessa revelação.

[0136] O decodificador de vídeo 33 inclui um decodificador de vídeo 30A e um decodificador de vídeo 30B, cada dos quais pode ser configurado como o decodificador de vídeo 30 e pode realizar as funções descritas acima com respeito ao decodificador de vídeo 30. Adicionalmente, como indicado pela reutilização dos numerais de referência, os decodificadores de vídeo 30A e 30B podem incluir pelo menos alguns dos sistemas e subsistemas como o decodificador de vídeo 30. Embora o decodificador de vídeo 33 seja ilustrado como incluindo dois decodificadores de vídeo 30A e 30B, o decodificador de vídeo 33 não é tão limitado e pode incluir qualquer número de camadas de decodificador de vídeo 30. Em algumas modalidades, o decodificador de vídeo 33 pode incluir um decodificador de vídeo 30 para cada imagem ou quadro em uma unidade de acesso. Por exemplo, uma unidade de acesso que inclui cinco imagens pode ser processada ou decodificada por um decodificador de vídeo que inclui cinco camadas de decodificador. Em algumas modalidades, o decodificador de vídeo 33 pode incluir mais camadas de decodificador do que quadros em uma unidade de acesso. Em alguns desses casos, algumas das camadas de decodificador de vídeo podem ficar inativas durante o processamento de algumas unidades de acesso.

[0137] Além disso para os decodificadores de vídeo 30A e 30B, o decodificador de vídeo 33 pode incluir uma unidade de elevação de amostragem 92. Em algumas modalidades, a unidade de elevação de amostragem 92 pode elevar a amostragem de uma camada de base de um quadro de vídeo recebido para criar uma camada aprimorada para ser adicionada à lista de imagem de referência para o quadro ou unidade de acesso. Essa camada aprimorada pode ser armazenada no armazenamento temporário de imagem decodificada 160. Em algumas modalidades, a unidade de elevação de amostragem 92 pode incluir algumas ou todas as modalidades descritas com respeito à unidade de reamostragem 90 da Figura 2A. Em algumas modalidades, a unidade de elevação de amostragem 92 é configurada para elevar a amostragem de uma camada e reorganizar, redefinir, modificar, ou ajustar uma ou mais fatias para serem compatíveis com um conjunto de regras de limite fatia e/ou regras de varredura matricial. Em alguns casos, a unidade de elevação de amostragem 92 pode ser uma unidade de reamostragem configurada para elevar a amostragem e/ou reduzir a amostragem de uma camada de um quadro de vídeo recebido.

[0138] A unidade de elevação de amostragem 92 pode ser configurada para receber uma imagem ou quadro (ou informações de imagem associadas à imagem) a partir do armazenamento temporário de imagem decodificada 160 do decodificador de camada inferior (por exemplo, o decodificador de vídeo 30A) e para elevar a amostragem da imagem (ou das informações de imagem recebidas). Essa imagem com amostragem elevada pode, em seguida, ser fornecida para a unidade de processamento de previsão 152 de um decodificador de camada superior (por exemplo, o decodificador de vídeo 30B) configurado para decodificar uma imagem na mesma unidade de acesso que o decodificador de camada inferior. Em alguns casos, o decodificador de camada superior é uma camada removida a partir do decodificador de camada inferior. Em outros casos, pode haver um ou mais decodificadores de camada superior entre o decodificador da camada 0 e o decodificador da camada 1 da Figura 3B.

[0139] Em alguns casos, a unidade de elevação de amostragem 92 pode ser omitida ou desviada. Em tais casos, a imagem a partir do armazenamento temporário de imagem decodificada 160 do decodificador de vídeo 30A pode ser fornecida diretamente, ou pelo menos sem ser fornecida para a unidade de elevação de amostragem 92, para a unidade de processamento de previsão 152 do decodificador de vídeo 30B. Por exemplo, se os dados de vídeo fornecidos para o decodificador de vídeo 30B e a imagem de referência a partir do armazenamento temporário de imagem decodificada 160 do decodificador de vídeo 30A forem do mesmo tamanho ou resolução, a imagem de referência pode ser fornecida para o decodificador de vídeo 30B sem elevação de amostragem. Adicionalmente, em algumas modalidades, a unidade de elevação de amostragem 92 pode ser uma unidade de reamostragem 90 configurada para elevar a amostragem ou reduzir a amostragem de uma imagem de referência recebida a partir do armazenamento temporário de imagem decodificada 160 do decodificador de vídeo 30A.

[0140] Conforme ilustrado na Figura 3B, o decodificador de vídeo 33 pode adicionalmente incluir um demultiplexador 99, ou demux. O demux 99 pode dividir um fluxo de bits de vídeo codificado em múltiplos fluxos de bits, sendo que cada fluxo de bits emitido pelo demux 99 é fornecido para um decodificador de vídeo diferente 30A e 30B. Os múltiplos fluxos de bits podem ser criados através da recepção de um fluxo de bits e cada um dos decodificadores de vídeo 30A e 30B recebe uma porção do fluxo de bits em um determinado tempo. Embora em alguns casos os bits a partir do fluxo de bits recebido no demux 99 possam ser alternados, um bit de cada vez, entre cada um dos decodificadores de vídeo (por exemplo, os decodificadores de vídeo 30A e 30B no exemplo da Figura 3B), em muitos casos o fluxo de bits é dividido de forma diferente. Por exemplo, o fluxo de bits pode ser dividido alternando-se qual decodificador de vídeo recebe o fluxo de bits, um bloco de cada vez. Em outro exemplo, o fluxo de bits pode ser dividido por uma relação não 1: 1 de blocos para cada um dos decodificadores de vídeo 30A e 30B. Por exemplo, dois blocos podem ser fornecidos para o decodificador de vídeo 30B para cada bloco fornecido para o decodificador de vídeo 30A. Em algumas modalidades, a divisão do fluxo de bits pelo demux 99 pode ser pré- programada. Em outras modalidades, o demux 99 pode dividir o fluxo de bits com base em um sinal de controle recebido a partir de um sistema externo para o decodificador de vídeo 33, tal como a partir de um processador em um dispositivo de destino que inclui o módulo de destino 14. O sinal de controle pode ser gerado com base na resolução ou taxa de bits de um vídeo a partir da interface de entrada 28, com base em uma largura de banda do enlace 16, com base em uma assinatura associada a um usuário (por exemplo, uma assinatura paga versus uma assinatura livre), ou com base em qualquer outro fator para determinar uma resolução obtenível pelo decodificador de vídeo 33.

IMAGENS DE PONTO DE ACESSO INTRAALEATÓRIO (IRAP)

[0141] Alguns esquemas de codificação de vídeo podem fornecer vários pontos de acesso aleatórios por todo o fluxo de bits de modo que o fluxo de bits possa ser decodificado iniciando a partir de qualquer desses pontos de acesso aleatórios sem precisar decodificar quaisquer imagens que precedem esses pontos de acesso aleatórios no fluxo de bits. Nesses esquemas de codificação de vídeo, todas as imagens que seguem um ponto de acesso aleatório em ordem de saída (por exemplo, que incluem essas imagens que estão na mesma unidade de acesso que a imagem que fornece o ponto de acesso aleatório) podem ser decodificadas corretamente sem o uso de quaisquer imagens que precedem o ponto de acesso aleatório. Por exemplo, mesmo se uma porção do fluxo de bits for perdida durante a transmissão ou durante a decodificação, um decodificador pode retomar a decodificação do fluxo de bits iniciando a partir do próximo ponto de acesso aleatório. O suporte a acesso aleatório pode facilitar, por exemplo, serviços de transmissão contínua dinâmica, operações de busca, comutação de canal, etc.

[0142] Em alguns esquemas de codificação, esses pontos de acesso aleatórios podem ser fornecidos por imagens que são denominadas como imagens de ponto de acesso intra- aleatório (IRAP). Por exemplo, um ponto de acesso aleatório (por exemplo, fornecido por uma imagem de IRAP de camada de aprimoramento) em uma camada de aprimoramento (“camadaA”) contida em uma unidade de acesso (“auA”) pode fornecer acesso aleatório de camada específica de modo que para cada camada de referência (“camadaB”) da camadaA (por exemplo, uma camada de referência que é uma camada que é usada para predizer a camadaA) que tem um ponto de acesso aleatório contido em uma unidade de acesso (“auB”) que está na camadaB e precede a auA em ordem de decodificação (ou um ponto de acesso aleatório contido em auA), as imagens em camadaA que seguem auB em ordem de saída (que inclui essas imagens localizadas em auB), sejam decodificáveis corretamente sem precisar decodificar quaisquer imagens na camadaA que precede a auB.

[0143] As imagens de IRAP podem ser codificadas com o uso de intraprevisão (por exemplo, codificadas sem se referir a outras imagens), e podem incluir, por exemplo, imagens instantâneas de atualização de decodificador (IDR), imagens de acesso aleatório limpas (CRA), e imagens de acesso de enlace interrompido (BLA). Quando há uma imagem IDR no fluxo de bits, todas as imagens que precedem a imagem IDR em ordem de decodificação não são usadas para previsão por imagens que seguem a imagem IDR em ordem de decodificação. Quando há uma imagem de CRA no fluxo de bits, as imagens que seguem a imagem de CRA podem usar, ou não, imagens que precedem a imagem de CRA em ordem de decodificação para previsão. Essas imagens que seguem a imagem de CRA em ordem de decodificação, mas usam imagens que precedem a imagem de CRA em ordem de decodificação podem ser denominadas como imagens precursoras saltadas de acesso aleatório (RASL). Outro tipo de imagem que segue uma imagem de IRAP em ordem de decodificação e precede a imagem de IRAP em ordem de saída é uma imagem precursora decodificável de acesso aleatório (RADL), que pode não conter referências a quaisquer imagens que precedem a imagem de IRAP em ordem de decodificação. Imagens RASL podem ser descartadas pelo decodificador se as imagens que precedem a imagem de CRA não estiverem disponíveis. Uma imagem de BLA indica para o decodificador que as imagens que precedem a imagem de BLA podem não estar disponíveis para o decodificador (por exemplo, devido a dois fluxos de bits serem unidos e a imagem de BLA ser a primeira imagem do segundo fluxo de bits em ordem de decodificação). Uma unidade de acesso (por exemplo, um grupo de imagens que consiste de todas as imagens codificadas associadas ao mesmo tempo de saída através de múltiplas camadas) que contém uma imagem de camada de base (por exemplo, uma imagem que tem um valor de ID de camada de 0) que é uma imagem de IRAP pode ser denominada como uma unidade de acesso de IRAP.

ALINHAMENTO ENTRE CAMADAS DE IMAGENS DE IRAP

[0144] Em SVC, pode não ser exigido que as imagens de IRAP sejam alinhadas (por exemplo, contidas na mesma unidade de acesso) através de camadas diferentes. Por exemplo, se fosse exigido que as imagens de IRAP fossem alinhadas, qualquer unidade de acesso que contém pelo menos uma imagem de IRAP conteria apenas imagens de IRAP. Por outro lado, se não fosse exigido que as imagens de IRAP fossem alinhadas, em uma única unidade de acesso, uma imagem (por exemplo, em uma primeira camada) poderia ser uma imagem de IRAP, e outra imagem (por exemplo, em uma segunda camada) poderia ser uma imagem não de IRAP. Ter essas imagens de IRAP não alinhadas em um fluxo de bits pode fornecer algumas vantagens. Por exemplo, em um fluxo de bits de duas camadas, se houverem mais imagens de IRAP na camada de base do que na camada de aprimoramento, em aplicações de difusão e multidifusão, baixo atraso de sintonização e alta eficiência de codificação podem ser alcançados.

[0145] Em alguns esquemas de codificação de vídeo, um contador de ordem de imagem (POC) pode ser usado para manter o registro da ordem relativa na qual as imagens decodificadas são exibidas. Alguns desses esquemas de codificação podem fazer com que os valores de POC sejam reinicializados (por exemplo, atribuídos para zero ou atribuídos para algum valor sinalizado no fluxo de bits) sempre que certos tipos de imagens aparecem no fluxo de bits. Por exemplo, os valores de POC de certas imagens de IRAP podem ser reinicializados, fazendo com que os valores de POC de outras imagens que precedem essas imagens de IRAP em ordem de decodificação também sejam reinicializados. Isso pode ser problemático quando não é exigido que as imagens de IRAP sejam alinhadas através de camadas diferentes. Por exemplo, quando uma imagem (“picA”) é uma imagem de IRAP e outra imagem (“picB”) na mesmo unidade de acesso não é uma imagem de IRAP, o valor de POC de uma imagem (“picC”), que é reinicializada devido a picA ser uma imagem de IRAP, na camada que contém picA pode ser diferente a partir do valor de POC de uma imagem (“picD”), que não é reinicializada, na camada que contém picB, em que picC e picD estão na mesma unidade de acesso. Isso faz com que picC e picD tenham valores de POC diferentes apesar das mesmas pertencerem à mesma unidade de acesso (por exemplo, mesmo tempo de saída). Portanto, nesse exemplo, o processo de derivação para derivar os valores de POC de picC e picD pode ser modificado para produzir valores de POC que sejam consistentes com a definição de valores de POC e unidades de acesso.

CONTADOR DE ORDEM DE IMAGEM (POC)

[0146] Como discutido acima, o valor de um contador de ordem de imagem (POC) (por exemplo, PicOrderCntVal em HEVC) para uma imagem codificada particular denota a ordem relativa da imagem codificada particular no processo de emissão de imagem com respeito a outras imagens na mesma sequência de vídeo codificada. Em algumas modalidades, o POC compreende bits menos significativos (LSB) e bits mais significativos (MSB), e o POC pode ser obtido através da concatenação dos MSB e dos LSB. Em outras modalidades, o POC pode ser obtido através da adição do valor de MSB e do valor de LSB. Os LSB podem ser sinalizados no cabeçalho de fatia, e os MSB podem ser computados pelo codificador ou o decodificador com base no tipo de unidade de NAL da imagem atual e em que os MSB e LSB de uma ou mais imagens anteriores em ordem de decodificação são (1) imagens não RASL ou RADL, (2) não descartáveis (por exemplo, imagens marcadas como “descartáveis”, que indicam que nenhuma outra imagem depende das mesmas, para, desse modo, permitir que as mesmas sejam abandonadas para satisfazer restrições de largura de banda), (3) imagens não de subcamada e não de referência (por exemplo, imagens que não são usadas para referência por outras imagens na mesmo subcamada temporal ou na mesma camada), (4) tem um ID temporal (por exemplo, ID de subcamada temporal) igual a 0. Essas imagens descritas em (l) a (4) podem ser denominadas no presente documento como imagens âncora de POC. De maneira similar, as imagens que tem um valor de ID temporal maior do que 0, imagens RASL ou RADL, imagens descartáveis ou imagens não de referência de subcamada podem ser denominadas como imagens não âncora de POC. As imagens âncora de POC podem adicionalmente incluir imagens que um codificador e/ou um decodificador podem não eleger para remover a partir do fluxo de bits (por exemplo, para satisfazer uma restrição de largura de banda). As imagens âncora de POC podem adicionalmente incluir qualquer imagem além dos tipos de imagens que um codificador e/ou um decodificador pode ser configurado para remover a partir do fluxo de bits (por exemplo, para satisfazer uma restrição de largura de banda). Imagens não âncora de POC podem incluir qualquer imagem que não seja uma imagem âncora de POC.

[0147] Quando a imagem atual é (1) uma imagem de IRAP com NoRaslOutputFlag (por exemplo, um sinalizador que indica que imagens RASL não devem ser emitidas se atribuído para 1 e indica que imagens RASL devem ser emitidas se atribuído para 0) igual a 1, ou (2) uma imagem de CRA que é a primeira imagem do fluxo de bits, o valor de MSB de POC é inferido para ser igual a 0. Como descrito acima, em um fluxo de bits multicamadas (por exemplo, fluxo de bits de SHVC ou de MV-HEVC com mais do que uma camada), podem existir unidades de acesso (AU) em que uma ou mais imagens são imagens de IRAP e uma ou mais outras imagens não são imagens de IRAP, e essas AUs podem ser denominadas como “AUs de IRAP não alinhadas”. Durante a decodificação de fluxos de bits que contêm AUs de IRAP não alinhadas, é possível (e provável) que os POCs derivados com base nos valores de LSB de POC sinalizados no fluxo de bits violem a exigência de conformidade de fluxo de bits de que todas as imagens em uma unidade de acesso devem ter o mesmo valor de POC.

[0148] Em algumas modalidades, um sinalizador de reinicialização de POC (por exemplo, sinalizador de reinicialização de POC) pode ser usado para reinicializar o POC das imagens de modo que mesmo quando as AUs de IRAP não alinhadas estiverem presentes no fluxo de bits, o valor de POC da imagem atual e das imagens no DPB sejam ajustadas de modo que o POC de todas as imagens em uma AU seja o mesmo.

[0149] Em algumas modalidades, em vez de um único sinalizador de reinicialização de POC, dois sinalizadores podem ser usados: um sinalizador de reinicialização de MSB de POC (por exemplo, poc_msb_reset_flag) e um sinalizador de reinicialização de LSB de POC (por exemplo, poc_lsb_reset_flag). O anterior (isto é, o poc_msb_reset_flag) reinicializa os MSB do POC, e o último (isto é, o poc_lsb_reset_flag) reinicializa os LSB do POC. Ambos esses sinalizadores podem ser sinalizados no cabeçalho de fatia.

[0150] Por exemplo, se uma imagem particular tiver um valor de POC de 233, e os MSB e os LSB do POC constituírem 1 bit e 7 bits, respectivamente, os MSB seriam “1” (por exemplo, tendo um valor de 128) e os LSB seriam “1101001” (por exemplo, tendo um valor de 105). Portanto, se apenas os MSB do POC forem reinicializados (por exemplo, em resposta a processar poc_msb_reset_flag tendo um valor de 1), o valor de POC se torna 105, e se apenas os LSB forem reinicializados (por exemplo, em resposta a processar poc_lsb_reset_flag tendo um valor de 1), o valor de POC se torna 128. Se tanto os MSB como os LSB foram reinicializados (por exemplo, em resposta a processar poc_msb_reset_flag e poc_lsb_reset_flag, em que cada um tem um valor de 1), o valor de POC se torna 0.

REINICIALIZAÇÃO DE VALORES DE POC

[0151] Com referência às Figuras 4 a 7, a motivação para reinicializar os valores de POC (por exemplo, os LSB e os MSB) em AUs de IRAP não alinhadas será descrita. Como descrito acima, em alguns esquemas de codificação, certas restrições de conformidade podem especificar que o POC de todas as imagens codificadas em uma única AU devem ser a mesma. Sem reinicializações apropriadas dos valores de POC, as AUs de IRAP não alinhadas no fluxo de bits podem produzir valores de POC que violam essas restrições de conformidade.

[0152] A Figura 4 mostra um fluxo de bits multicamadas 400 que inclui uma camada de aprimoramento (EL) 410 e uma camada de base (BL) 420. A EL 410 inclui as imagens de EL 412 a 418, e a BL inclui as imagens de BL 422 a 428. O fluxo de bits multicamadas 400 inclui adicionalmente as unidades de acesso (AUs) 430 a 460. A AU 430 inclui a imagem de EL 412 e a imagem de BL 422, a AU 440 inclui a imagem de EL 414 e a imagem de BL 424, a AU 450 inclui a imagem de EL 416 e a imagem de BL 426, e a AU 460 inclui a imagem de EL 418 e a imagem de BL 428. No exemplo da Figura 4, a imagem de EL 414 é uma imagem IDR, e a imagem de BL 424 correspondentes na AU 440 é uma imagem posterior (por exemplo, uma imagem não de IRAP), e, consequentemente, a AU 440 é uma AU de IRAP não alinhada. Em algumas modalidades, uma reinicialização de MSB é realizada em uma determinada imagem se a imagem for uma imagem IDR que não está na camada de base. Essa imagem IDR pode ter um valor de LSB de POC não zero.

[0153] A Figura 5 mostra uma tabela 500 que ilustra os valores de POC que podem ser sinalizados ou derivados em conexão com o fluxo de bits multicamadas 400 da Figura 4. Conforme mostrado na Figura 5, os MSB do POC na EL 410 são reinicializados na imagem de EL 414, enquanto que os MSB do POC na BL 420 não são reinicializados. Portanto, se uma reinicialização não for realizada na BL 420 na imagem de BL 424 na AU de IRAP não alinhada 440, os valores de POC de imagens de BL e as imagens de EL nas AUs 440 a 460 não corresponderiam (isto é, seriam equivalentes) como especificado pelas restrições de conformidade. As diferenças nos valores de POC com e sem uma reinicialização são destacadas em negrito na Figura 5.

[0154] A Figura 6 mostra um fluxo de bits multicamadas 600 que inclui uma camada de aprimoramento (EL) 610 e uma camada de base (BL) 620. A EL 610 inclui as imagens de EL 612 a 618, e a BL inclui as imagens de BL 622 a 628. O fluxo de bits multicamadas 600 inclui adicionalmente as unidades de acesso (AUs) 630 a 660. A AU 630 inclui a imagem de EL 612 e a imagem de BL 622, a AU 640 inclui a imagem de EL 614 e a imagem de BL 624, a AU 650 inclui a imagem de EL 616 e a imagem de BL 626, e a AU 660 inclui a imagem de EL 618 e a imagem de BL 628. No exemplo da Figura 6, a imagem de BL 624 é uma imagem IDR, e a imagem de EL 614 correspondente na AU 640 é uma imagem posterior (por exemplo, uma imagem não de IRAP), e, consequentemente, a AU 640 é uma AU de IRAP não alinhada. Em algumas modalidades, uma reinicialização de MSB e uma reinicialização de LSB são realizadas para uma determinada imagem se a imagem for uma imagem IDR que está na camada de base. Por exemplo, o fluxo de bits pode incluir uma indicação de que os MSB de POC e os LSB de POC dessa imagem de BL de IDR devem ser reinicializados. Alternativamente, o decodificador pode realizar a reinicialização dos MSB de POC e dos LSB de POC dessa imagem de BL de IDR sem qualquer indicação no fluxo de bits de que uma reinicialização de POC deve ser realizada.

[0155] A Figura 7 mostra uma tabela 700 que ilustra os valores de POC que podem ser sinalizados ou derivados em conexão com o fluxo de bits multicamadas 600 da Figura 6. Conforme mostrado na Figura 7, os MSB e os LSB do POC na BL 620 são reinicializados na imagem de BL 624, enquanto que nem os MSB nem os LSB do POC na EL 610 são reinicializados. Portanto, se uma reinicialização dos MSB e dos LSB do POC não for realizada na EL 610 na imagem de EL 614 na AU de IRAP não alinhada 640, os valores de POC de imagens de BL e as imagens de EL nas AUs 640 a 660 não corresponderiam como especificado pelas restrições de conformidade. As diferenças nos valores de POC com e sem uma reinicialização são destacadas em negrito na Figura 7.

[0156] As modalidades descritas no presente documento não são limitadas às configurações de fluxo de bits exemplificativas ilustradas nas Figuras 4 e 6, e as técnicas descritas no presente documento podem ser estendidas a qualquer fluxo de bits multicamadas que tenha qualquer número de camadas, unidades de acesso e imagens. Também, nos exemplos ilustrados nas Figuras 4 a 7, os LSB do POC são representados com o uso de sete bits. No entanto, as técnicas descritas no presente documento podem ser estendidas para cenários que têm quaisquer formas de representação de valor de POC.

REINICIALIZAÇÃO DE IMAGENS PRECEDENTES E PERDA DE IMAGENS REINICIALIZADAS

[0157] Quando uma reinicialização de MSB ou uma reinicialização de LSB é realizada em uma imagem particular, outras imagens na mesma camada que precede a imagem particular em ordem de decodificação também são reinicializadas com base na reinicialização realizada na imagem particular. Por exemplo, no exemplo da Figura 6, a imagem de EL 614 tem um valor de POC de 241 (por exemplo, LSB de “1110001” + MSB de “1”, que é 113 + 128). Quando as reinicializações de MSB e de LSB são realizadas na imagem de EL 614, o valor de POC da imagem de EL 614 se torna 0, e a imagem de EL 612 na EL 610 que precede a imagem de EL 614 em ordem de decodificação também é reinicializada com base no valor de POC original de 241 da imagem de EL 614. Por exemplo, o novo valor de POC da imagem de EL 612 é calculado subtraindo-se o valor de POC pré-reinicialização da imagem de EL 614 (que é um valor de 241) a partir do valor de POC pré-reinicialização da imagem de EL 612, que é 240 (por exemplo, LSB de “1110000” + MSB de “1”, que é 112 + 128). Portanto, após a reinicialização, o valor de POC da imagem de EL 612 se torna -1, de acordo com o fato de que a imagem de EL 612 deve ser emitida antes da imagem de EL 614, em que um valor de POC menor denota uma posição anterior em ordem de saída. Conforme mostrado na Figura 7, os valores de LSB sinalizados para as AUs 650 e 660 subsequentes são ajustados adequadamente (por exemplo, para 1 e 2, respectivamente), com o pressuposto de que a reinicialização é realizada na imagem de EL 614.

[0158] No entanto, mesmo se uma reinicialização de POC apropriada dos MSB e/ou dos LSB descritos acima for sinalizada no fluxo de bits (por exemplo, no cabeçalho de fatia) para que o decodificador possa processar o sinal e realizar a reinicialização de POC adequadamente, se a imagem sinalizar essa reinicialização de POC for perdida durante a transmissão do fluxo de bits ou removida a partir do fluxo de bits a fim de satisfazer restrições de largura de banda, a reinicialização de POC destinada a ser realizada na imagem particular pode não ser realizada apropriadamente.

[0159] Por exemplo, no exemplo da Figura 6, se a imagem de EL 614 estiver indisponível para o decodificador, o decodificador não saberia (isto é, não determinaria) reinicializar os MSB e os LSB do POC na EL 610 na AU 640. Consequentemente, os valores de POC de quaisquer imagens que precedem a imagem de EL indisponível 614 em ordem de decodificação ainda teriam seus valores de POC pré- reinicialização originais uma vez que a reinicialização na imagem de EL 614 nunca ocorreu (isto é, a operação de reinicialização não foi realizada). Por outro lado, os valores de POC das imagens seguintes à imagem de EL indisponível 614 em ordem de decodificação teriam sido determinados ou sinalizados como se a reinicialização realmente ocorresse (isto é, a operação de reinicialização fosse realizada). Portanto, no exemplo da Figura 7, as imagens de EL 612, 616 e 618 teriam valores de POC de 240, 1 e 2, respectivamente, os quais seriam incorretos uma vez que a imagem de EL 612 precede as imagens de EL 616 e 618 em ordem de saída. Portanto, um método de codificação que resulte em valores de POC correto, mesmo quando a imagem sinalizar que a reinicialização de POC se torna indisponível, é desejado.

EXEMPLOS E IMPLANTAÇÕES

[0160] Diversos métodos que podem ser usados para endereçar certos problemas descritos acima serão descritos abaixo. Alguns desses métodos podem ser aplicados independentemente, e alguns dos mesmos podem ser aplicados combinados. Além disso, a sintaxe e a semântica exemplificativas que podem ser usadas para implantar um ou mais dos métodos descritos no presente documento também são fornecidas abaixo. Quando certas porções da especificação de HEVC são reproduzidas para ilustrar as adições e deleções que podem ser incorporadas para implantar um ou mais dos métodos descritos no presente documento, essas modificações são mostradas em itálico e riscadas, respectivamente.

VALORES DE SINALIZAÇÃO PARA DERIVAÇÃO DE POC

[0161] Em algumas modalidades, uma mensagem de SEI que contém informações para derivação de POC correta é sinalizada para uma ou mais imagens que seguem a imagem para a qual os MSB de POC e/ou os LSB de POC devem ser reinicializados. Por exemplo, a mensagem de SEI pode ser associada a uma imagem, picA, que segue outra imagem, picB, para a qual os MSB de POC, os LSB de POC ou ambos devem ser reinicializados. Portanto, mesmo quando a picB for inteiramente perdida, a mensagem de SEI associada à picA pode ser usada para derivar os valores de POC corretos para outras imagens na mesma camada.

[0162] Em algumas modalidades, as informações para derivação de POC correta são sinalizadas no cabeçalho de fatia de uma ou mais imagens que seguem a imagem para a qual os MSB de POC e/ou os LSB de POC devem ser reinicializados. Por exemplo, as informações podem ser incluídas no cabeçalho de fatia de uma imagem picA que segue outra imagem picB para a qual os MSB de POC, os LSB de POC ou ambos devem ser reinicializados. Portanto, mesmo quando picB for inteiramente perdida, as informações incluídas no cabeçalho de fatia de picA podem ser usadas para derivar os valores de POC corretos para outras imagens na mesma camada.

DERIVAÇÃO DE POC CORRETA COM BASE EM VALORES SINALIZADOS

[0163] A Figura 8 é um fluxograma que ilustra um método 800 para codificação de informações de vídeo, de acordo com uma modalidade da presente revelação. As etapas ilustradas na Figura 8 podem ser realizadas por um codificador (por exemplo, o codificador de vídeo como mostrado na Figura 2A ou Figura 2B), um decodificador (por exemplo, o decodificador de vídeo como mostrado na Figura 3A ou Figura 3B) ou qualquer outro componente. Por conveniência, o método 800 é descrito como realizado por um codificador, que pode ser o codificador, o decodificador ou outro componente.

[0164] O método 800 começa no bloco 801. No bloco 805, o codificador processa informações de derivação de POC associadas a uma imagem. Em algumas modalidades, o processamento das informações de derivação de POC pode incluir sinalizar as informações de derivação de POC em um fluxo de bits. Como descrito acima, as informações de derivação de POC podem ser sinalizadas no cabeçalho de fatia da imagem e/ou sinalizadas como uma mensagem de SEI associada à imagem. Em algumas modalidades, o processamento das informações de derivação de POC pode incluir processar as informações de derivação de POC incluídas em um fluxo de bits. Por exemplo, as informações de derivação de POC podem incluir: um tipo de reinicialização de POC que indica se o valor de POC da imagem de reinicialização de POC precedente (por exemplo, uma imagem na qual uma reinicialização de POC deve ser realizada) na mesma camada deve ser reinicializado reinicializando-se tanto os bits mais significativos (MSB) como os bits menos significativos (LSB) do valor de POC ou reinicializando-se apenas os MSB do valor de POC; uma reinicialização de valor de POC que indica o valor de POC da imagem que foi perdida ou removida que também precede a imagem com a qual as informações de derivação de POC são associadas e uma ID de reinicialização de POC que identifica a reinicialização de POC para a qual as informações de derivação de POC são fornecidas. Por exemplo, o decodificador pode pular uma reinicialização de POC sinalizada em conexão com uma imagem particular se a reinicialização de POC sinalizada tiver um valor de ID de reinicialização de POC de 1 e outra reinicialização de POC que tem uma ID de reinicialização de POC de 1 já tiver sido realizada.

[0165] No bloco 810, o codificador determina o POC de outra imagem que precede a imagem em ordem de decodificação. No exemplo mostrado na Figura 7, mesmo se a imagem de EL 614 que contém a instrução de reinicialização de valor de POC for perdida ou de outra forma removida, o valor de POC da imagem de EL 612 seria reinicializado corretamente com o uso das informações de derivação de POC, por exemplo, associadas às imagens de EL 616 e/ou 618. O método 800 termina em 815.

[0166] Como discutido acima, um ou mais componentes de codificador de vídeo 20 da Figura 2A, codificador de vídeo 23 da Figura 2B, decodificador de vídeo 30 da Figura 3A ou decodificador de vídeo 33 da Figura 3B (por exemplo, unidade de previsão de intercamada 128 e/ou unidade de previsão de intercamada 166) podem ser usados para implantar qualquer das técnicas discutidas na presente revelação, tal como processar as informações de derivação de POC associadas a uma ou mais imagens, e determinar o POC de outra imagem que precede as uma ou mais imagens em ordem de decodificação.

DESABILITANDO REINICIALIZAÇÃO DE POC EM IMAGENS NÃO ÂNCORA DE POC

[0167] Em algumas modalidades, uma restrição de conformidade pode ser aplicada (por exemplo, pode ser determinado que uma restrição de conformidade é aplicável e então aderida com base no desempenho da(s) operação(operações)), por exemplo por um codificador, ao fluxo de bits de modo que nem o valor de poc_lsb_reset_flag nem de poc_msb_reset_flag seja atribuído igual a 1 quando o segmento de fatia pertencer a uma imagem que não é uma imagem âncora de POC. Como descrito acima, essa imagem pode ser uma imagem não de referência de subcamada, uma imagem descartável, uma imagem RASL, uma imagem RADL ou uma imagem que tem um ID temporal maior do que 0. Por exemplo, a imagem não de referência de subcamada pode se referir a uma imagem que não é usada para referência por outras imagens da camada temporal superior. A imagem descartável pode se referir a uma imagem que não é usada para referência por qualquer outra imagem. Por exemplo, essas imagens descartáveis podem ser marcadas “descartáveis”. Essas imagens descartáveis podem ser removidas a partir do fluxo de bits pelo codificador ou pelo codificador a fim de satisfazer restrições de largura de banda. Em algumas modalidades, uma imagem descartável inclui qualquer imagem que possa ser removida a partir do fluxo de bits por escolha (por exemplo, pelo decodificador ou algum dispositivo intermediário). As imagens RASL e RADL se referem a imagens precursoras, e imagens RASL podem não ser emitidas se o processo de decodificação iniciar na imagem de IRAP associada à imagem RASL. A imagem que tem um ID temporal maior do que 0 pode ser uma imagem que pode ser removida a partir do fluxo de bits se a taxa de quadros for comutada para baixo para um valor suficientemente baixo. Por exemplo, se um fluxo de bits contém três subcamadas temporais, as imagens a partir de todas as três subcamadas temporais podem ser exibidas a fim de operar a 90 quadros por segundo (fps), as imagens a partir das duas subcamadas temporais inferiores podem ser exibidas a fim de operar a 60 fps e as imagens a partir da subcamada temporal inferior pode ser exibida a fim de operar a 30 fps. Como discutido acima, restrições de fluxo de bits ou outras restrições de desempenho podem fazer com que uma ou mais imagens sejam removidas ou abandonadas a partir do fluxo de bits (por exemplo, um codificador pode avaliar essas restrições e, com base nessa avaliação, realizar operações de acordo com as restrições de modo que uma ou mais imagens sejam levadas a serem removidas a partir do fluxo de bits ou abandonadas a partir do fluxo de bits), e nesse exemplo, as imagens a partir da subcamada temporal superior pode ser removida antes de remover imagens a partir da próxima subcamada temporal superior, e assim por diante. Por exemplo, as imagens na subcamada temporal inferior não podem ser removidas do fluxo de bits até que as imagens em todas as outras subcamadas temporais sejam removidas. Portanto, as imagens que tem um ID temporal maior do que 0 (em que um ID temporal de 0 corresponde à subcamada temporal inferior) são mais prováveis de serem removidas a partir do fluxo de bits.

[0168] Como descrito no presente documento, essas imagens (por exemplo, uma imagem não de referência de subcamada, uma imagem descartável, uma imagem RASL, uma imagem RADL, uma imagem que tem um ID temporal maior do que 0, e similares) podem ser denominadas como imagens não âncora de POC. Em algumas modalidades, devido a essas imagens serem mais prováveis de serem removidas a partir do fluxo de bits (por exemplo, para satisfazer certas restrições de largura de banda), uma restrição que especifique que essas imagens não podem acionar uma reinicialização de POC pode ser introduzida para reduzir a probabilidade de que uma imagem de reinicialização de POC possa ser removida a partir do fluxo de bits. Por exemplo, se uma imagem descartável não for autorizada a acionar uma reinicialização de POC (por exemplo, através de sinalização de uma reinicialização de MSB de POC, uma reinicialização de LSB de POC, ou ambas), mesmo se a imagem descartável for descartada, a indisponibilidade daquela imagem descartável para o decodificador não resultaria nos problemas descritos acima com relação às reinicializações de POC.

[0169] Em algumas modalidades, o codificador pode determinar que uma reinicialização de POC deve ser sinalizada em conexão com uma imagem particular, subsequentemente determinar que a imagem particular é uma imagem não de referência de subcamada, uma imagem descartável, uma imagem RASL, uma imagem RADL, uma imagem que tem um ID temporal maior do que 0 ou uma imagem que é de outra forma provável de ser removida a partir do fluxo de bits, e, portanto, se abstém de sinalizar uma reinicialização de POC na imagem particular ou sinaliza que uma reinicialização de POC não deve ser realizada na imagem particular. Em algumas modalidades, o codificador pode determinar que uma reinicialização de POC deve ser sinalizada em conexão com uma imagem particular, e subsequentemente impede que a imagem particular seja uma imagem não âncora de POC (por exemplo, impedindo que a imagem particular tenha certos tipos de imagem). Em algumas modalidades, a determinação de se uma reinicialização de POC deve ser realizada na imagem particular pode ser com base pelo menos em parte em determinação de que a imagem particular seja uma imagem não de referência de subcamada, uma imagem descartável, uma imagem RASL, uma imagem RADL, uma imagem que tem um ID temporal maior do que 0 ou uma imagem que é de outra forma provável de ser removida a partir do fluxo de bits. Nessas modalidades, se a imagem particular não for uma imagem âncora de POC, o codificador indica no fluxo de bits que a reinicialização de POC não deve ser realizada na imagem particular. Alternativamente, o codificador pode simplesmente não fornecer qualquer indicação no fluxo de bits de que uma reinicialização de POC deve ser realizada na imagem particular. De maneira similar, se a imagem particular for uma imagem âncora de POC, o codificador, se for determinado que uma reinicialização de POC é necessária na imagem particular, indica no fluxo de bits que a reinicialização de POC deve ser realizada na imagem particular. Alternativamente, o codificador pode simplesmente não fornecer qualquer indicação no fluxo de bits de que a reinicialização de POC não é para ser realizada ou de que a reinicialização de POC não deve ser realizada na imagem particular.

DESABILITAÇÃO DE REINICIALIZAÇÃO DE POC EM IMAGENS NÃO ÂNCORAS DE POC

[0170] A Figura 9 é um fluxograma que ilustra um método 900 para codificação de informações de vídeo, de acordo com uma modalidade da presente revelação. As etapas ilustradas na Figura 9 podem ser realizadas por um codificador (por exemplo, o codificador de vídeo conforme mostrado na Figura 2A ou Figura 2B), um decodificador (por exemplo, o decodificador de vídeo como mostrado na Figura 3A ou Figura 3B) ou por qualquer outro componente. Por conveniência, o método 900 é descrito como realizado por um codificador, que pode ser o codificador, o decodificador ou outro componente.

[0171] O método 900 começa no bloco 901. No bloco 905, o codificador determina se uma imagem é uma imagem âncora de POC. Por exemplo, as imagens âncoras de POC podem incluir quaisquer imagens que sejam: (1) imagens não RASL ou RADL, (2) não descartáveis (por exemplo, imagens marcadas como “descartáveis”, que indicam que nenhuma outra imagem depende das mesmas, para, desse modo, permitir que as mesmas sejam abandonadas para satisfazer restrições de largura de banda), (3) imagens não de referência não de subcamada (por exemplo, imagens que não são usadas para referência por outras imagens em camadas temporais superiores), (4) tenham um ID temporal (por exemplo, ID de subcamada temporal) igual a 0 e/ou (5) qualquer outra imagem que seja de outra forma provável de ser removida a partir do fluxo de bits. Se o codificador determinar que a imagem não é uma imagem âncora de POC, o método 900 avança para 910. Por outro lado, se o codificador determinar que a imagem é uma imagem âncora de POC, o método 900 avança para 915.

[0172] No bloco 910, o codificador sinaliza para a imagem que a reinicialização de POC não deve ser realizada na imagem. Por exemplo, o codificador pode sinalizar um ou mais sinalizadores que indicam que nem a reinicialização de LSB de POC nem a reinicialização de MSB de POC devem ser realizadas em conexão com a imagem. Em algumas modalidades, o codificador não pode sinalizar ou de outra forma fornecer qualquer indicação no fluxo de bits de que uma reinicialização de POC deva ser realizada na imagem. Por exemplo, durante o processo de decodificação, se nenhum sinal ou indicação que indique que uma reinicialização de POC deve ser realizada for fornecido no fluxo de bits, o decodificador não pode realizar uma reinicialização de POC naquela imagem.

[0173] No bloco 915, o codificador sinaliza uma reinicialização de POC para a imagem. Por exemplo, o codificador pode sinalizar um ou mais sinalizadores no fluxo de bits que indicam que uma reinicialização de LSB de POC, uma reinicialização de MSB de POC ou ambas devem ser realizadas. Em algumas modalidades, o codificador não pode sinalizar ou de outra forma fornecer qualquer indicação no fluxo de bits de que uma reinicialização de POC não deve ser realizada na imagem. Por exemplo, durante o processo de decodificação, o decodificador pode inferir ou determinar a partir de outros sinais ou indicações no fluxo de bits que uma reinicialização de POC deve ser realizada, e que se nenhum sinal ou indicação adicional que desabilite a reinicialização de POC for fornecido no fluxo de bits, o decodificador deve realizar a reinicialização de POC como inferido ou determinado. O método 900 termina em 920.

[0174] Como discutido acima, um ou mais componentes do codificador de vídeo 20 da Figura 2A, do codificador de vídeo 23 da Figura 2B, do decodificador de vídeo 30 da Figura 3A ou do decodificador de vídeo 33 da Figura 3B (por exemplo, a unidade de previsão de intercamada 128 e/ou a unidade de previsão de intercamada 166) podem ser usados para implantar qualquer das técnicas discutidas na presente revelação, tal como determinar se uma imagem é uma imagem âncora de POC, habilitar uma reinicialização de POC, desabilitar uma reinicialização de POC, fornecer uma indicação no fluxo de bits de que uma reinicialização de POC deve ser realizada e fornecer uma indicação no fluxo de bits de que uma reinicialização de POC não deve ser realizada.

[0175] No método 900, um ou mais dos blocos mostrados na Figura 9 podem ser removidos (por exemplo, não realizado) e/ou a ordem na qual o método é realizado pode ser comutada. Por exemplo, embora o bloco 910 seja mostrado na Figura 9, o bloco 910 pode ser removido, e o método 900 pode finalizar sem realizar quaisquer operações adicionais se o codificador determinar que a imagem não é uma imagem âncora de POC. Alternativamente, o bloco 915 pode ser removido, e o método 900 pode finalizar sem realizar quaisquer operações adicionais se o codificador determinar que a imagem é uma imagem âncora de POC. Portanto, as modalidades da presente revelação não são limitadas a ou pelo exemplo mostrado na Figura 9, e outras variações podem ser implantadas sem se afastar do espírito dessa revelação.

IMAGENS DE IRAP EM AU DE IRAP NÃO ALINHADA

[0176] Em algumas modalidades, uma restrição de conformidade pode ser aplicada ao fluxo de bits de modo que quando uma unidade de acesso contiver pelo menos uma imagem que é uma imagem de IRAP com NoRaslOutputFlag igual a 1, um MSB de POC (por exemplo, MSB do POC) a reinicialização deve ser realizada para todas as imagens na unidade de acesso que não sejam imagens de IRAP. Nessas modalidades, poc_msb_reset_flag associado às imagens não de IRAP pode ser atribuído para 1 (por exemplo, indicando que uma reinicialização de MSB de POC deve ser realizada nessas imagens não de IRAP). Por exemplo, se a Imagem A for uma imagem de IRAP em uma unidade de acesso que segue imediatamente um ponto de união (por exemplo, indicado por valor de NoRaslOutputFlag de 1), e a imagem B que está na mesma unidade de acesso que a Imagem A for uma imagem não de IRAP, uma reinicialização de MSB de POC pode ser sinalizada no fluxo de bits para a imagem B.

[0177] A Figura 10 é um fluxograma que ilustra um método 1000 para codificação de informações de vídeo, de acordo com uma modalidade da presente revelação. As etapas ilustradas na Figura 10 podem ser realizadas por um codificador (por exemplo, o codificador de vídeo conforme mostrado na Figura 2A ou Figura 2B), um decodificador (por exemplo, o decodificador de vídeo como mostrado na Figura 3A ou Figura 3B) ou qualquer outro componente. Por conveniência, o método 1000 é descrito como realizado por um codificador, que pode ser o codificador, o decodificador ou outro componente.

[0178] O método 1000 começa no bloco 1001. No bloco 1005, o codificador determina se uma imagem é uma imagem de IRAP. Como descrito acima, em algumas modalidades, uma imagem de IRAP pode ser uma imagem IDR, uma imagem de CRA ou uma imagem de BLA. Em algumas modalidades, o codificador pode adicionalmente determinar, com base em informações incluídas no fluxo de bits, se a imagem está em uma unidade de acesso que segue imediatamente um ponto de união. Em algumas modalidades, o codificador pode adicionalmente determinar, em vez de determinar se a imagem está em uma unidade de acesso que segue imediatamente um ponto de união, se as imagens precedentes à imagem em ordem de decodificação devem ser emitidas. Por exemplo, se a imagem estiver em uma unidade de acesso que segue imediatamente um ponto de união ou se as imagens precedentes à imagem em ordem de decodificação devem ser emitidas pode ser indicado por uma ou mais variáveis que são sinalizadas ou indicadas no fluxo de bits ou derivadas a partir de outras informações disponíveis para o codificador (por exemplo, NoRaslOutputFlag). Por exemplo, para imagens IDR e imagens de CRA, NoRaslOutputFlag pode ser derivado a partir de outras informações incluídas no fluxo de bits. Para imagens de BLA, a presença dessas imagens de BLA pode indicar para o decodificador que as imagens de BLA seguem imediatamente um ponto de união. Se o codificador determinar que a imagem é uma imagem de IRAP, o método 1000 avança para o bloco 1010. Caso contrário, o método 1000 termina em 1015.

[0179] No bloco 1010, o codificador habilita uma reinicialização de MSB de POC para todas as outras imagens não de IRAP na unidade de acesso. Em algumas modalidades, o codificador habilita uma reinicialização de MSB de POC para todas as outras imagens não de IRAP na unidade de acesso que seguem imediatamente um ponto de união em ordem de decodificação. Por exemplo, o codificador pode sinalizar um sinalizador de reinicialização de MSB de POC (por exemplo, poc_msb_reset_flag) que tem um valor de 1, que indica que uma reinicialização de MSB de POC deve ser realizada para cada uma das imagens não de IRAP. O método 1000 termina em 1015.

[0180] Como discutido acima, um ou mais componentes de codificador de vídeo 20 da Figura 2A, codificador de vídeo 23 da Figura 2B, decodificador de vídeo 30 da Figura 3A ou decodificador de vídeo 33 da Figura 3B (por exemplo, a unidade de previsão de intercamada 128 e/ou a unidade de previsão de intercamada 166) podem ser usados para implantar quaisquer das técnicas discutidas na presente revelação, tal como determinar se uma imagem é uma imagem de IRAP, e habilitar uma reinicialização de MSB de POC para todas as outras imagens não de IRAP na unidade de acesso.

[0181] No método 1000, um ou mais dos blocos mostrados na Figura 10 podem ser removidos (por exemplo, não realizados) e/ou a ordem na qual o método é realizado pode ser comutada. Portanto, as modalidades da presente revelação não são limitadas a ou pelo exemplo mostrado na Figura 10, e outras variações podem ser implantadas sem se afastar do espírito dessa revelação.

IMAGENS IDR DE CAMADA DE BASE EM AU DE IRAP NÃO ALINHADA

[0182] Em algumas modalidades, uma restrição de conformidade pode ser aplicada ao fluxo de bits de modo que quando uma unidade de acesso A contiver uma imagem de camada de base que é uma imagem IDR, um LSB de POC (por exemplo, LSB do POC) a reinicialização deve ser realizada para todas as imagens de camada de aprimoramento na unidade de acesso A que não sejam imagens IDR ou que tenham um valor de LSB de POC não zero sinalizado no fluxo de bits. Nessas modalidades, o sinalizador de reinicialização de LSB de POC associado às imagens de EL (por exemplo, indicando que uma reinicialização de LSB de POC deve ser realizada nessas imagens de EL). Por exemplo, se a Imagem A na camada de base for uma imagem IDR, e a imagem B que está na mesma unidade de acesso que a Imagem A não for uma imagem IDR, uma reinicialização de LSB de POC pode ser sinalizada no fluxo de bits para a imagem B. Em outro exemplo, se a Imagem A na camada de base for uma imagem IDR, e a imagem C na mesma unidade de acesso que a Imagem A tiver um valor de LSB de POC de 0 sinalizado no fluxo de bits, uma reinicialização de LSB de POC pode não precisar ser sinalizada no fluxo de bits para a imagem C.

[0183] A Figura 11 é um fluxograma que ilustra um método 1100 para codificação de informações de vídeo, de acordo com uma modalidade da presente revelação. As etapas ilustradas na Figura 11 podem ser realizadas por um codificador (por exemplo, o codificador de vídeo como mostrado na Figura 2A ou Figura 2B), um decodificador (por exemplo, o decodificador de vídeo conforme mostrado na Figura 3A ou Figura 3B) ou qualquer outro componente. Por conveniência, o método 1100 é descrito como realizado por um codificador, que pode ser o codificador, o decodificador ou outro componente.

[0184] O método 1100 começa no bloco 1101. No bloco 1105, o codificador determina se uma imagem é uma imagem de camada de base de IDR. Em algumas modalidades, o POC de uma imagem de BL de IDR é reinicializado automaticamente para 0. Se o codificador determinar que a imagem é uma imagem de BL de IDR, o método 1100 avança para o bloco 1110. Caso contrário, o método 1100 termina em 1115.

[0185] No bloco 1110, o codificador habilita uma reinicialização de LSB de POC para todas as outras imagens não-IDR na unidade de acesso. Por exemplo, o codificador pode sinalizar um sinalizador de reinicialização de LSB de POC (por exemplo, o sinalizador de reinicialização de LSB de POC) que tem um valor de 1, que indica que uma reinicialização de LSB de POC deve ser realizada para cada uma das imagens não-IDR na mesma unidade de acesso que a imagem de BL de IDR. O método 1100 termina em 1115.

[0186] Como discutido acima, um ou mais componentes do codificador de vídeo 20 da Figura 2A, codificador de vídeo 23 da Figura 2B, decodificador de vídeo 30 da Figura 3A ou decodificador de vídeo 33 da Figura 3B (por exemplo, a unidade de previsão de intercamada 128 e/ou a unidade de previsão de intercamada 166) podem ser usados para implantar quaisquer das técnicas discutidas na presente revelação, tal como determinar se uma imagem é uma imagem de BL de IDR e habilitar uma reinicialização de LSB de POC para todas as outras imagens não-IDR na unidade de acesso.

[0187] No método 1100, um ou mais dos blocos mostrados na Figura 11 podem ser removidos (por exemplo, não realizado) e/ou a ordem na qual o método é realizado pode ser comutada. Portanto, as modalidades da presente revelação não são limitadas a ou pelo exemplo mostrado na Figura 11, e outras variações podem ser implantadas sem se afastar do espírito dessa revelação.

SINALIZAÇÃO DE REINICIALIZAÇÃO RESERVA EM IMAGENS SUBSEQUENTES

[0188] Em algumas modalidades, para cada imagem picA que reinicializa seu valor de MSB de POC a fim de alinhar o POC derivado (por exemplo, PicOrderCntVal) com outra imagem que é uma imagem de IRAP com NoRaslOutputFlag igual a 1 e que está na mesma unidade de acesso que a picA, pode ser fornecida uma indicação no fluxo de bits em associação com uma ou mais imagens na mesma camada que a picA que segue a picA em ordem de decodificação de que uma reinicialização de MSB de POC deve ser realizada com as uma ou mais imagens. Por exemplo, poc_msb_reset_flag que tem um valor de 1 pode ser sinalizada para cada uma dentre as uma ou mais imagens.

[0189] A Figura 12 é um fluxograma que ilustra um método 1200 para codificação de informações de vídeo, de acordo com uma modalidade da presente revelação. As etapas ilustradas na Figura 12 podem ser realizadas por um codificador (por exemplo, o codificador de vídeo conforme mostrado na Figura 2A ou Figura 2B), um decodificador (por exemplo, o decodificador de vídeo como mostrado na Figura 3A ou Figura 3B) ou qualquer outro componente. Por conveniência, o método 1200 é descrito como realizado por um codificador, que pode ser o codificador, o decodificador ou outro componente.

[0190] O método 1200 começa no bloco 1201. No bloco 1205, o codificador determina se uma reinicialização de MSB de POC deve ser realizada em uma imagem particular. Como descrito acima, em algumas modalidades, uma reinicialização de MSB de POC pode ser realizada a fim de impedir que imagens em camadas diferentes tenham valores de POC inconsistentes em uma unidade de acesso de IRAP não alinhada. Em algumas modalidades, o codificador determina adicionalmente se a imagem particular é uma imagem não de IRAP em uma unidade de acesso de IRAP não alinhada. Se o codificador determinar que uma reinicialização de MSB de POC deve ser realizada na imagem particular, o método 1200 avança para o bloco 1210. Caso contrário, o método 1200 termina em 1215.

[0191] No bloco 1210, o codificador habilita uma reinicialização de MSB de POC para uma ou mais imagens que seguem a imagem particular em ordem de decodificação. Em algumas modalidades, as uma ou mais imagens podem estar na mesma camada que a imagem particular. Por exemplo, o codificador pode sinalizar um sinalizador de reinicialização de MSB de POC (por exemplo, poc_msb_reset_flag) que tem um valor de 1 para a imagem que segue imediatamente a imagem particular em ordem de decodificação, que indica que uma reinicialização de MSB de POC deve ser realizada para a imagem que segue imediatamente a imagem particular em ordem de decodificação. Como descrito acima, se a imagem particular que tem uma indicação de que uma reinicialização de MSB de POC deve ser realizada for perdida, uma reinicialização reserva do MSB de POC na imagem que seguem imediatamente a imagem particular em ordem de decodificação com base na indicação associada à imagem que segue imediatamente a imagem particular em ordem de decodificação. Em algumas modalidades, o codificador pode adicionalmente fornecer uma indicação ou variável que pode ser usada para que a reinicialização de MSB de POC não seja realizada mais do que uma vez. Essa indicação ou variável (por exemplo, uma ID de reinicialização de POC) pode ajudar a determinar se a reinicialização de MSB de POC foi realizada. Em algumas modalidades, o codificador habilita a reinicialização de MSB de POC para as uma ou mais imagens apenas se a imagem particular for uma imagem não de IRAP em uma unidade de acesso de IRAP não alinhada. O método 1200 termina em 1215.

[0192] Como discutido acima, um ou mais componentes de codificador de vídeo 20 da Figura 2A, codificador de vídeo 23 da Figura 2B, decodificador de vídeo 30 da Figura 3A ou decodificador de vídeo 33 da Figura 3B (por exemplo, a unidade de previsão de intercamada 128 e/ou a unidade de previsão de intercamada 166) podem ser usados para implantar quaisquer das técnicas discutidas na presente revelação, tal como determinar se uma reinicialização de MSB de POC deve ser realizada em uma imagem particular, e habilitar uma reinicialização de MSB de POC para uma ou mais imagens que seguem a imagem particular em ordem de decodificação.

[0193] No método 1200, um ou mais dos blocos mostrados na Figura 12 podem ser removidos (por exemplo, não realizado) e/ou a ordem na qual o método é realizado pode ser comutada. Portanto, as modalidades da presente revelação não são limitadas a ou pelo exemplo mostrado na Figura 12, e outras variações podem ser implantadas sem se afastar do espírito dessa revelação.

SINALIZAÇÃO DE VALORES DE POC DE IMAGENS PRECEDENTES

[0194] Em algumas modalidades, para a imagem picA que reinicializa seu valor de POC a fim de alinhar a PicOrderCntVal derivada com uma imagem IDR que tem nuh_layer_id igual a 0 e que está na mesma unidade de acesso que a picA, o valor de PicOrderCntVal da picA antes da reinicialização de POC é sinalizado para uma ou mais imagens que seguem a picA em ordem de decodificação e que têm o mesmo nuh_layer_id que a picA. IMPLANTAÇÃO EXEMPLIFICATIVA; SINTAXE DE CABEÇALHO DE SEGMENTO DE FATIA

[0195] A sintaxe de cabeçalho de segmento de fatia exemplificativa a seguir pode ser usada para implantar uma ou mais das modalidades descritas no presente documento.

TABELA 1. IMPLANTAÇÃO EXEMPLIFICATIVA DE SINTAXE DE CABEÇALHO DE SEGMENTO DE FATIA IMPLANTAÇÃO EXEMPLIFICATIVA; SEMÂNTICA DE CABEÇALHO DE SEGMENTO DE FATIA

[0196] A semântica exemplificativa a seguir pode ser usada para implantar uma ou mais das modalidades descritas no presente documento. Mudanças à linguagem existente na especificação de HEVC são mostradas em itálico.

[0197] poc_msb_reset_flag igual a 1 especifica que o MSB valor do contador de ordem de imagem derivado para a imagem atual é igual a 0. O sinalizador de reinicialização de MSB de POC igual a 0 especifica que o valor de MSB do contador de ordem de imagem derivado para a imagem atual pode ser, ou não, igual a 0.

[0198] Quando a imagem atual não uma imagem de IRAP com NoRaslOutputFlag igual a 1 e pelo menos uma imagem na unidade de acesso atual for uma imagem de IRAP com NoRaslOutputFlag igual a 1, poc_msb_reset_flag deve estar presente e o valor deve ser igual a 1.

[0199] Quando não presente, o valor de poc_msb_reset_flag é inferido para ser igual a 0.

[0200] poc_lsb_reset_flag igual a 1 especifica que o contador de ordem de imagem derivado para a imagem atual é igual a 0. O sinalizador de reinicialização de LSB de POC igual a 0 especifica que o contador de ordem de imagem derivado para a imagem atual pode ser, ou não, igual a 0.

[0201] Quando a imagem atual não for uma imagem IDR ou slice_pic_order_cnt_lsb não for igual a 0, e a imagem com nuh_layer_id igual a 0 na unidade de acesso atual for uma imagem IDR, poc_lsb_reset_flag deve estar presente e o valor deve ser igual a 1.

[0202] Quando não presente, o valor de poc_lsb_reset_flag é inferido para ser igual a 0.

[0203] Quando o valor de poc_msb_reset_flag for igual a 0, o valor de poc_lsb_reset_flag deve ser igual a 0.

[0204] É uma exigência de conformidade de fluxo de bits que, quando houver uma imagem de IRAP com NoRaslOutputFlag igual a 1 na unidade de acesso atual, a imagem atual deve ter discardable_flag igual a 0 e TemporalId maior do que 0, e não deve ser uma imagem não de referência de subcamada, uma imagem RASL ou uma imagem RADL.

[0205] Alternativamente, as seguintes restrições poderiam ser adicionadas à semântica do poc_msb_reset_flag e do poc_lsb_reset_flag:

[0206] É uma exigência de conformidade de fluxo de bits que, para fatias que têm valor de nal_unit_type que é menor do que 16 e que têm nal_unit_type % 2 = 0, o valor tanto do sinalizador de reinicialização de LSB de POC como do sinalizador de reinicialização de MSB de POC devem ser iguais a 0.

[0207] É uma exigência de conformidade de fluxo de bits que, quando o valor de qualquer um de poc_lsb_reset_flag ou poc_msb_reset_flag, ou ambos, forem iguais a 1, o valor de sinalizador descartável, quando presente, deve ser igual a 0.

[0208] É uma exigência de conformidade de fluxo de bits que, quando uma unidade de acesso contiver uma imagem que é uma imagem de IRAP com NoRaslOutputFlag igual a 1, então as seguintes condições se aplicam: (1) se a imagem com nuh_layer_id igual a 0 for uma imagem IDR, os valores de poc_lsb_reset_flag e de poc_msb_reset_flag devem ser ambos atribuídos iguais a 1 para todas as imagens em que a unidade de acesso que tiver nuh_layer_id não igual a 0; e (2) caso contrário, o valor de poc_lsb_reset_flag deve ser atribuído igual a 1 e o valor de sinalizador de reinicialização de MSB de POC devem ser ambos atribuídos igual a 1 para todas as imagens em que a unidade de acesso que não é imagem de IRAP com NoRaslOutputFlag igual a 1.

IMPLANTAÇÃO EXEMPLIFICATIVA; PROCESSO DE DECODIFICAÇÃO PARA POC E CONJUNTO DE IMAGENS DE REFERÊNCIA

[0209] Uma derivação exemplificativa do POC para cada fatia é descrita abaixo. Quando o valor do sinalizador de reinicialização de LSB de POC ou do sinalizador de reinicialização de MSB de POC é atribuído para 1, o POC da imagem atual e todas as imagens no DPB que são marcadas como “usada para referência” ou que são necessárias para saída são decrementadas.

PROCESSO DE DECODIFICAÇÃO PARA CONTADOR DE ORDEM DE IMAGEM

[0210] A saída desse processo é PicOrderCntVal, o contador de ordem de imagem da imagem atual.

[0211] Os contadores de ordem de imagem são usados para identificar imagens, para derivar parâmetros de movimento em modo de combinação e previsão de vetor de movimento, e para verificação conformidade de decodificador.

[0212] Cada imagem codificada é associada a um contador de ordem de imagem variável, denotado como PicOrderCntVal.

[0213] Quando a imagem atual não for uma imagem de IRAP com NoRaslOutputFlag igual a 1, as variáveis prevPicOrderCntLsb e prevPicOrderCntMsb são derivadas como segue:

[0214] Deixar prevTidOPic ser a imagem anterior em ordem de decodificação que tem TemporalId igual a 0 e nuh_layer_id igual a nuh_layer_id da imagem atual e que não é uma imagem RASL, uma imagem RADL, ou uma imagem não de referência de subcamada, e deixar prevPicOrderCnt ser igual a PicOrderCntVal de prevTid0Pic.

[0215] A variável prevPicOrderCntLsb é atribuída igual a prevPicOrderCnt & (MaxPicOrderCntLsb - 1).

[0216] A variável prevPicOrderCntMsb é atribuída igual a prevPicOrderCnt - prevPicOrderCntLsb.

[0217] A variável PicOrderCntMsb da imagem atual é derivada como segues:

[0218] Se a imagem atual for uma imagem de IRAP com NoRaslOutputFlag igual a 1, PicOrderCntMsb é atribuído igual a 0.

[0219] caso contrário, PicOrderCntMsb é derivado como segue:

[0220] if((slice_pic_order_cnt_lsb < prevPicOrderCntLsb) &&

[0221] ((prevPicOrderCntLsb - slice_pic_order_cnt_lsb) >= (

[0222] MaxPicOrderCntLsb /2)))

[0223] PicOrderCntMsb = prevPicOrderCntMsb + MaxPicOrderCntLsb ou então se (slice_pic_order_cnt_lsb > prevPicOrderCntLsb) &&

[0224] ((slice_pic_order_cnt_lsb - prevPicOrderCntLsb) > (MaxPicOrderCntLsb /2)))

[0225] PicOrderCntMsb = prevPicOrderCntMsb - MaxPicOrderCntLsb ou então

[0226] PicOrderCntMsb = prevPicOrderCntMsb

[0227] PicOrderCntVal é derivado como segue:

[0228] PicOrderCntVal = (poc_msb_reset_flag ? 0: PicOrderCntMsb) +

[0229] (poc_lsb_reset_flag ? 0: slice_pic_order_cnt_lsb)

[0230] Deve ser observado que todas as imagens IDR que têm nuh_layer_id igual a 0 terão PicOrderCntVal igual a 0 uma vez que slice_pic_order_cnt_lsb é inferido para ser 0 para imagens IDR e prevPicOrderCntLsb e prevPicOrderCntMsb são ambos atribuídos iguais a 0.

[0231] Quando poc_msb_reset_flag é igual a 1, o PicOrderCntVal de cada imagem que está no DPB e pertence à mesma camada que a imagem atual é decrementado por PicOrderCntMsb.

[0232] Quando poc_lsb_reset_flag é igual a 1, o PicOrderCntVal de cada imagem que está no DPB e pertence à mesma camada que a imagem atual é decrementado por slice_pic_order_cnt_lsb.

[0233] O valor de PicOrderCntVal deve ficar na faixa de -231 a 231 - 1, inclusive. Em um CVS, os valores PicOrderCntVal para quaisquer duas imagens codificadas na mesma camada não devem ser os mesmos.

[0234] A função PicOrderCnt(picX) é especificado como segue:

[0235] PicOrderCnt(picX) = PicOrderCntVal da imagem picX

[0236] A função DiffPicOrderCnt(picA, picB) é especificado como segue:

[0237] DiffPicOrderCnt(picA, picB) = PicOrderCnt(picA) - PicOrderCnt(picB)

[0238] O fluxo de bits não deve conter dados que resultem em valores de DiffPicOrderCnt(picA, picB) usados no processo de decodificação que não estejam na faixa de -215 a 215 - 1, inclusive.

[0239] Deve ser observado que se X for a imagem atual e Y e Z forem duas outras imagens na mesma sequência, é considerado que Y e Z estão na mesma direção de ordem de saída a partir de X quando tanto DiffPicOrderCnt(X, Y) como DiffPicOrderCnt(X, Z) são positivos ou ambos são negativos.

PROCESSO DE DECODIFICAÇÃO PARA CONJUNTO DE IMAGEM DE REFERÊNCIA

[0240] O processo de decodificação para o conjunto imagem de referência é idêntico ao processo de decodificação definido em MV-HEVC WD5.

IMPLANTAÇÃO EXEMPLIFICATIVA; SINTAXE GERAL DE CARGA ÚTIL DE SEI

[0241] O exemplo a seguir de sintaxe de carga útil de SEI pode ser usado para implantar uma ou mais das modalidades descritas no presente documento. No exemplo abaixo, “XXX” pode ser substituído por qualquer valor que represente o tipo de carga útil que pode ser utilizada em conexão com a sintaxe exemplificativa. Por exemplo, “XXX” pode ser substituído por qualquer valor entre 1 e 255 ainda não usado por outra mensagem de SEI. Em outro exemplo, o valor de “XXX” não é limitado a 255, e tem um valor superior. Mudanças na linguagem existente na especificação de HEVC são mostradas em itálico.

TABELA 2. SINTAXE DE CARGA ÚTIL DE SEI EXEMPLIFICATIVA IMPLANTAÇÃO EXEMPLIFICATIVA; SINTAXE DE MENSAGEM DE SEI DE INFORMAÇÕES DE REINICIALIZAÇÃO DE POC

[0242] O exemplo de sintaxe de informações de reinicialização de POC a seguir pode ser usado para implantar uma ou mais das modalidades descritas no presente documento. Mudanças na linguagem existente na especificação de HEVC são mostradas em itálico. TABELA 3. SINTAXE DE INFORMAÇÕES DE REINICIALIZAÇÃO DE POC EXEMPLIFICATIVA

[0243] Em algumas modalidades, a reinicialização de valor de POC, o ID de reinicialização de POC, ou ambos, são codificados com o uso de códigos exponenciais de Golomb (por exemplo, codificação ue(v)).

IMPLANTAÇÃO EXEMPLIFICATIVA; SEMÂNTICA DE INFORMAÇÕES DE REINICIALIZAÇÃO DE POC

[0244] A semântica de informações de reinicialização de POC exemplificativa a seguir pode ser usada para implantar uma ou mais das modalidades descritas no presente documento: “A mensagem de SEI de informações de reinicialização de POC fornece informações que habilitam a derivação de POC correta para a imagem associada mesmo quando a imagem anterior em ordem de decodificação na mesma camada que a imagem associada e que tem poc_lsb_reset_flag ou poc_msb_reset_flag igual a 1 é perdida. As informações contidas na mensagem de SEI também podem ser usadas para derivar os valores de POC de outras imagens no DPB que estão na mesma camada que a imagem associada. A imagem de reinicialização de POC é definida como uma imagem que tem o valor de poc_msb_reset_flag ou poc_lsb_reset_flag, ou ambas, igual a 1. A imagem de reinicialização de POC associada se refere à imagem anterior em ordem de decodificação na mesma camada que a imagem associada e que tem poc_lsb_reset_flag ou poc_msb_reset_flag igual a 1. A imagem associada de uma mensagem de SEI de informações de reinicialização de POC se refere à imagem que é associada à mensagem de SEI. Uma mensagem de SEI de informações de reinicialização de POC não agrupadas é associada à imagem para a qual a primeira unidade de NAL de VCL em ordem de decodificação é a unidade de NAL de VCL associada da unidade de NAL de SEI que contém a mensagem de SEI de informações de reinicialização de POC não agrupadas. O nuh_layer_id da unidade de NAL de SEI que contém uma mensagem de SEI de informações de reinicialização de POC não agrupadas deve ser igual ao nuh_layer_id da imagem associada“.

[0245] Alternativamente, a associação da mensagem de SEI pode ser definida como segue: “Uma mensagem de SEI de informações de reinicialização de POC não agrupadas é associada à imagem picA na próxima unidade de acesso em decodificação, em que picA tem o mesmo valor de nuh_layer_id que a unidade de NAL de SEI que contém a mensagem de SEI de informações de reinicialização de POC não agrupadas”.

[0246] Alternativamente, a associação da mensagem de SEI pode ser definida como segue: “Uma mensagem de SEI de informações de reinicialização de POC não agrupadas é associada à imagem picA que tem o mesmo valor nuh_layer_id que a unidade de NAL de SEI, e sucede, em ordem de decodificação, a mensagem de SEI e precede a primeira imagem que tem o mesmo valor de nuh_layer_id que a unidade de NAL de SEI e tem os valores de poc_lsb_reset_flag ou poc_msb_reset_flag como igual a 1”.

[0247] Alternativamente, uma mensagem de SEI vazia que indica o cancelamento das informações de reinicialização de POC (poc_reset_info_cancel()) pode ser sinalizada e a associação da mensagem de SEI pode ser definida como segue: “Uma mensagem de SEI de informações de reinicialização de POC não agrupadas é associada à primeira imagem picA que tem o mesmo valor de nuh_layer_id que a unidade de NAL de SEI, que sucede a mensagem de SEI em ordem de decodificação, e que é contida na unidade de acesso que contém uma mensagem de SEI de poc_resetJnfo_cancel(). O valor de nuh_layer_id da unidade de NAL de SEI que contém a mensagem de SEI de poc_resetJnfo_cancel() deve ser igual ao nuh_layer_id da imagem associada”.

[0248] A semântica a seguir pode ser usada para poc_reset_type_flag, poc_reset_value e poc_reset_id: “poc_reset_type_flag igual a 1 indica que os MSB de POC foram reinicializados e LSB de POC não foram reinicializados para a imagem de POC_reset associada. poc_reset_type_flag igual a 0 especifica que tanto os MSB de POC como os LSB de POC foram reinicializados para a imagem de POC_reset associada; poc_reset_value indica o valor de POC da imagem de POC_reset associada antes de a reinicialização de POC ser aplicada (isto é, o valor de POC derivado assumindo-se que tanto poc_msb_reset_flag como poc_lsb_reset_flag são iguais a 0); e poc_reset_id especifica um identificador de uma imagem de POC_reset na mesma camada que a imagem associada. Duas imagens de POC_reset consecutivas de uma camada particular no fluxo de bits não devem ter o mesmo valor de poc_reset_id”.

[0249] Deve ser observado que, quando a imagem de POC_reset associada é perdida, esse valor também pode ser usado para derivar os valores de POC da imagem associada e outras imagens decodificadas da mesma camada no DPB, como a seguir. Quando o valor de poc_reset_type_flag for igual a 0, o POC da imagem associada pode ser derivado atribuindo-se prevPicOrderCntLsb igual a poc_reset_value % MaxPicOrderCntLsb, e prevPicOrderCntMsb igual a 0, e em seguida o restante do processo de decodificação para o contador de ordem de imagem, e o valor de PicOrderCntVal de todas as imagens no DPB que pertencerem à mesma camada que a imagem associada é decrementado por poc_reset_value - poc_reset_value % MaxPicOrderCntLsb. Quando o valor de poc_reset_type_flag for igual a 1, o POC da imagem associada pode ser derivado atribuindo-se tanto prevPicOrderCntLsb como prevPicOrderCntMsb iguais a 0, e em seguida o restante do processo de decodificação para o contador de ordem de imagem, e o valor de PicOrderCntVal de todas as imagens no DPB que pertencerem à mesma camada que a imagem associada é decrementado por poc_reset_value.

[0250] Em algumas modalidades, elementos de sintaxe similares àqueles descritos acima em conexão com mensagens de SEI são incluídos na sintaxe de cabeçalho de segmento de fatia, e a expressão “imagem atual” é usada em vez da expressão “imagem associada” na semântica exemplificativa descrita acima em conexão com semântica de mensagem de SEI de informações de reinicialização de POC. OUTRAS CONSIDERAÇÕES

[0251] As informações e os sinais revelados no presente documento podem ser representados com o uso de qualquer uma dentre uma variedade de tecnologias e técnicas diferentes. Por exemplo, dados, instruções, comandos, informações, sinais, bits, símbolos e microcircuitos integrados que podem ser referenciados por toda a descrição acima podem ser representados por tensões, correntes, ondas eletromagnéticas, partículas ou campos magnéticos, partículas ou campos ópticos ou qualquer combinação dos mesmos.

[0252] Os vários blocos lógicos, módulos, circuitos e etapas de algoritmo ilustrativos descritos em conjunto com as modalidades reveladas no presente documento podem ser implementados como hardware eletrônico, software de computador ou combinações de ambos. Para ilustrar claramente essa intercambiabilidade de hardware e software, vários componentes, blocos, módulos, circuitos e etapas ilustrativos foram descritos acima geralmente em termos de suas funcionalidades. Se tal funcionalidade é implantada como hardware ou software, depende das restrições de projeto e aplicação particulares impostas no sistema geral. As pessoas versadas na técnica podem implantar a funcionalidade descrita em modos variáveis para cada aplicação em particular, porém tais decisões de implantação não devem ser interpretadas como causadoras de um afastamento do escopo da presente revelação.

[0253] As técnicas descritas no presente documento podem ser implantadas em hardware, software, firmware ou qualquer combinação dos mesmos. Essas técnicas podem ser implantadas em qualquer um dentre uma variedade de dispositivos tais como computadores de propósito geral, dispositivos de telefone de comunicação sem fio ou dispositivos de circuito integrado que têm múltiplos usos que incluem aplicação em dispositivos de telefone de comunicação sem fio e outros dispositivos. Quaisquer características descritas como módulos ou componentes podem ser implantadas conjuntamente em um dispositivo lógico integrado ou separadamente como dispositivos lógicos distintos, mas interoperáveis. Se implantadas em software, as técnicas podem ser realizadas, pelo menos em parte, por uma mídia de armazenamento de dados legível por computador que compreende código de programa que inclui instruções que, quando executadas, realizam um ou mais dos métodos descritos acima. A mídia de armazenamento de dados legível por computador pode formar parte de um produto de programa de computador, que pode incluir materiais para pacotes. A mídia legível por computador pode compreender memória ou mídias de armazenamento de dados, tais como memória de acesso aleatório (RAM) tal como memória de acesso aleatório dinâmica síncrona (SDRAM), memória somente de leitura (ROM), memória de acesso aleatório não volátil (NVRAM), memória somente de leitura programável e apagável eletricamente (EEPROM), memória FLASH, mídias de armazenamento dados ópticas ou magnéticas, e similares. As técnicas adicional ou alternativamente, podem ser realizadas, pelo menos em parte, por uma mídia de comunicação legível por computador que porta ou comunica código de programa na forma de instruções ou estruturas de dados e que podem ser acessadas, lidas e/ou executadas por um computador, tal como sinais ou ondas propagados.

[0254] O código de programa pode ser executado por um processador, o qual pode incluir um ou mais processadores, tais como um ou mais processadores de sinal digital (DSPs), microprocessadores de propósito geral, circuitos integrados de aplicação específica (ASICs), arranjos lógicos programáveis em campo (FPGAs) ou outro conjunto de circuitos lógicos integrados ou distintos equivalentes. Esse processador pode ser configurado para realizar qualquer das técnicas descritas nessa revelação. Um processador de propósito geral pode ser um microprocessador, mas, como alternativa, o processador pode ser qualquer processador, controlador, microcontrolador ou máquina de estado convencional. Um processador também pode ser implantado como uma combinação dos dispositivos de computação, por exemplo, uma combinação de um DSP e um microprocessador, uma pluralidade de microprocessadores, um ou mais microprocessadores em conjunto com um núcleo de DSP ou qualquer outra configuração. Adequadamente, o termo “processador”, como usado no presente documento, pode se referir a qualquer das estruturas referidas acima, qualquer combinação das estruturas referidas acima ou qualquer outra estrutura ou aparelho adequados para a implantação das técnicas descritas no presente documento. Além disso, em alguns aspectos, a funcionalidade descrita no presente documento pode ser fornecida dentro de módulos de software ou módulos de hardware dedicados configurados para codificação e decodificação, ou incorporada em um codificador-decodificador (CODEC) de vídeo combinado. Também, as técnicas podem ser totalmente implantadas em um ou mais circuitos ou elementos lógicos.

[0255] As técnicas dessa revelação podem ser implantadas em uma ampla variedade de dispositivos ou aparelhos, incluindo um monofone, um circuito integrado (IC) ou um conjunto de ICs (por exemplo, um conjunto de microcircuitos integrados). Vários componentes, módulos ou unidades são descritos nessa revelação para enfatizar aspectos funcionais de dispositivos configurados para realizar as técnicas reveladas, mas não exigem necessariamente a realização por diferentes unidades de hardware. Em vez disso, conforme descrito acima, várias unidades podem ser combinadas em uma unidade de hardware de codec ou fornecidas por uma coleção de unidades de hardware interoperativas, incluindo um ou mais processadores conforme descrito acima, em conjunto com software e/ou firmware adequados.

[0256] Várias modalidades da invenção foram descritas. Estas e outras modalidades estão dentro do escopo das reivindicações a seguir.

Claims

1. Aparelho configurado para codificar informações de vídeo caracterizado pelo fato de que compreende: uma unidade de memória configurada para armazenar informações de vídeo associadas a uma primeira camada de vídeo tendo uma primeira unidade de acesso; e um processador em comunicação com a unidade de memória, em que o processador é configurado para: determinar (1005) se a primeira unidade de acesso tem pelo menos uma imagem que seja uma imagem de ponto de acesso intra-aleatório (IRAP) associada a uma primeira indicação de que as imagens de acesso randômico principal omitido (RASL) da pelo menos uma imagem não devem ser emitidas; e em resposta à determinação de que a primeira unidade de acesso tem pelo menos uma imagem que é uma imagem de IRAP associada à primeira indicação, fornecer (1010) uma segunda indicação, em um fluxo de bits, para reinicializar apenas um ou mais bits mais significativos (MSBs) de um contador de ordem de imagem (POC) de cada imagem na primeira unidade de acesso que não seja uma imagem de IRAP associada à primeira indicação.

2. Aparelho configurado para decodificar informações de vídeo caracterizado pelo fato de que compreende: uma unidade de memória configurada para armazenar informações de vídeo associadas a uma primeira camada de vídeo tendo uma primeira unidade de acesso; e um processador em comunicação com a unidade de memória, em que o processador é configurado para: determinar (1005) se a primeira unidade de acesso tem pelo menos uma imagem que seja uma imagem de ponto de acesso intra-aleatório (IRAP) associada a uma primeira indicação de que as imagens de acesso randômico principal omitido (RASL) da pelo menos uma imagem não devem ser emitidas; e em resposta à determinação de que a primeira unidade de acesso tem pelo menos uma imagem que é uma imagem de IRAP associada à primeira indicação, fornecer (1010) uma segunda indicação, em um fluxo de bits, para reinicializar apenas um ou mais bits mais significativos (MSBs) de um contador de ordem de imagem (POC) de cada imagem na primeira unidade de acesso que não seja uma imagem de IRAP associada à primeira indicação.

3. Aparelho, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que o processador é configurado para sinalizar um ou mais sinalizadores que indicam que o um ou mais MSBs do POC de cada dita imagem na primeira unidade de acesso que não seja uma imagem de IRAP associada à primeira indicação devem ser reinicializados.

4. Aparelho, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que a primeira camada de vídeo é uma camada de base, e em que o processador é configurado adicionalmente para determinar se a primeira unidade de acesso tem uma imagem na primeira camada de vídeo que é uma imagem instantânea de atualização de decodificador (IDR), e em resposta à determinação de que a primeira unidade de acesso tem uma imagem na primeira camada de vídeo que é uma imagem IDR, sinalizar um ou mais sinalizadores que indicam que um ou mais bits menos significativos (LSBs) de cada imagem na primeira unidade de acesso que não seja uma imagem IDR devem ser reinicializados.

5. Aparelho, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que o processador é configurado adicionalmente para sinalizar um ou mais sinalizadores associados a uma ou mais imagens que seguem uma de cada dita imagem em ordem de decodificação e estão em uma mesma camada de vídeo que a uma de cada dita imagem, em que os um ou mais sinalizadores indicam que um POC de cada uma das uma ou mais imagens deve ser reinicializado.

6. Aparelho, de acordo com a reivindicação 5, caracterizado pelo fato de que o processador é configurado adicionalmente para sinalizar os um ou mais sinalizadores, indicando que um ou mais MSBs do POC de cada uma das uma ou mais imagens devem ser reinicializados.

7. Aparelho, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que o processador é configurado adicionalmente para determinar se a primeira unidade de acesso segue imediatamente um ponto de união, e em que o processador é configurado para fornecer a segunda indicação no fluxo de bits em resposta adicional à determinação de que a primeira unidade de acesso segue imediatamente um ponto de união.

8. Aparelho, de acordo com a reivindicação 1, caracterizado pelo fato de que o aparelho é configurado adicionalmente para codificar as informações de vídeo no fluxo de bits.

9. Aparelho, de acordo com a reivindicação 2, caracterizado pelo fato de que o aparelho é configurado adicionalmente para decodificar as informações de vídeo no fluxo de bits.

10. Aparelho, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que o aparelho compreende um dispositivo selecionado a partir do grupo que consiste em computadores, computadores do tipo notebook, computadores do tipo laptop, computadores do tipo tablet, decodificadores de sinais (set-top boxes), aparelhos de telefone, smartphones, smartpads, televisões, câmeras, dispositivos de exibição, reprodutores de mídia digital, consoles de videogame e computadores integrados para automóveis.

11. Método de codificação de informações de vídeo caracterizado pelo fato de que compreende: determinar (1005) se uma primeira unidade de acesso de uma primeira camada de vídeo tem pelo menos uma imagem que seja uma imagem de ponto de acesso intra- aleatório (IRAP) associada a uma primeira indicação de que as imagens de acesso randômico principal omitido (RASL) da pelo menos uma imagem não devem ser emitidas; e em resposta à determinação de que a primeira unidade de acesso tem pelo menos uma imagem que é uma imagem de IRAP associada à primeira indicação, fornecer (1010) uma segunda indicação, em um fluxo de bits, para reinicializar apenas um ou mais bits mais significativos (MSBs) de um contador de ordem de imagem (POC) de cada imagem na primeira unidade de acesso que não seja uma imagem de IRAP associada à primeira indicação.

12. Método, de acordo com a reivindicação 11, caracterizado pelo fato de que fornecer a indicação no fluxo de bits compreende sinalizar um ou mais sinalizadores que indicam que os um ou mais MSBs do POC de cada dita imagem na primeira unidade de acesso que não seja uma imagem de IRAP associada à primeira indicação devem ser reinicializados.

13. Método, de acordo com a reivindicação 11, caracterizado pelo fato de que a primeira camada de vídeo é uma camada de base, e em que o método compreende adicionalmente determinar se a primeira unidade de acesso tem uma imagem na primeira camada de vídeo que seja uma imagem instantânea de atualização de decodificador (IDR), e em resposta à determinação de que a primeira unidade de acesso tem uma imagem na primeira camada de vídeo que seja uma imagem IDR, sinalizar um ou mais sinalizadores que indicam que um ou mais bits menos significativos (LSBs) de cada imagem na primeira unidade de acesso que não seja uma imagem IDR devem ser reinicializados.

14. Método, de acordo com a reivindicação 11, caracterizado pelo fato de que compreende adicionalmente sinalizar um ou mais sinalizadores associados a uma ou mais imagens que seguem uma de cada dita imagem em ordem de decodificação e estão em uma mesma camada de vídeo que a uma de cada dita imagem, em que os um ou mais sinalizadores indicam que um POC de cada uma das uma ou mais imagens deve ser reinicializado, em que sinalizar os um ou mais sinalizadores compreende indicar que um ou mais MSBs do POC de cada uma das uma ou mais imagens devem ser reinicializados.

15. Método, de acordo com a reivindicação 11, caracterizado pelo fato de que compreende adicionalmente determinar se a primeira unidade de acesso segue imediatamente um ponto de união, em que fornecer a segunda indicação compreende fornecer a segunda indicação no fluxo de bits em resposta adicional à determinação de que a primeira unidade de acesso segue imediatamente um ponto de união.

16. Memória legível por computador caracterizada pelo fato de que compreende instruções nela armazenadas que, quando executadas, fazem com que um aparelho realize o método conforme definido em qualquer uma das reivindicações 11 a 15.