BR122023021045A2 - Método de compactação do vetor de movimento, meio de armazenamento legível por computador não transitório, codificador, decodificador e meio de armazenamento - Google Patents

Método de compactação do vetor de movimento, meio de armazenamento legível por computador não transitório, codificador, decodificador e meio de armazenamento Download PDF

Info

Publication number
BR122023021045A2
BR122023021045A2 BR122023021045-0A BR122023021045A BR122023021045A2 BR 122023021045 A2 BR122023021045 A2 BR 122023021045A2 BR 122023021045 A BR122023021045 A BR 122023021045A BR 122023021045 A2 BR122023021045 A2 BR 122023021045A2
Authority
BR
Brazil
Prior art keywords
motion vector
video
image
block
unit
Prior art date
Application number
BR122023021045-0A
Other languages
English (en)
Inventor
Maxim Borisovitch Sychev
Timofey Mikhailovich Solovyev
Alexander Alexandrovich Karabutov
Sergey Yurievich Ikonin
Jianle Chen
Original Assignee
Huawei Technologies Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co., Ltd. filed Critical Huawei Technologies Co., Ltd.
Publication of BR122023021045A2 publication Critical patent/BR122023021045A2/pt

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/517Processing of motion vectors by encoding
    • H04N19/52Processing of motion vectors by encoding by predictive encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/517Processing of motion vectors by encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/91Entropy coding, e.g. variable length coding [VLC] or arithmetic coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/96Tree coding, e.g. quad-tree coding

Abstract

A invenção fornece um método de compactação do vetor de movimento, compreendendo: obter um vetor de movimento temporal; determinar um vetor de movimento compactado usando uma representação binária do vetor de movimento temporal compreendendo uma parte de expoente e / ou uma parte de mantissa, em que a parte de expoente compreende N bits, a parte de mantissa compreende M bits, e em que N é um número inteiro não negativo e M é um número inteiro positivo; e realizar uma predição de vetor de movimento temporal (TMVP) usando o vetor de movimento compactado.

Description

CAMPO TÉCNICO
[0001] As modalidades do presente pedido geralmente se referem ao campo de processamento de imagem e, mais particularmente, a uma técnica para reduzir a capacidade de memória no armazenamento de informações de vetor de movimento.
ANTECEDENTES
[0002] A codificação de vídeo (codificação e decodificação de vídeo) é usada em uma ampla gama de aplicativos de vídeo digital, por exemplo, difusão de TV digital, transmissão de vídeo pela Internet e redes móveis, aplicativos de conversação em tempo real, como conversa por vídeo, videoconferência, discos de DVD e Blu-ray, sistemas de edição e aquisição de conteúdo de vídeo, e câmeras de gravação de vídeo de aplicativos de segurança.
[0003] A quantidade de dados de vídeo necessária para representar até mesmo um vídeo relativamente curto pode ser substancial, o que pode resultar em dificuldades quando os dados devem ser transmitidos ou de outra forma comunicados através de uma rede de comunicações com capacidade de largura de banda limitada. Assim, os dados de vídeo são geralmente compactados antes de serem comunicados pelas redes de telecomunicações existentes atualmente. O tamanho de um vídeo também pode ser um problema quando o vídeo é armazenado em um dispositivo de armazenamento porque os recursos de memória podem ser limitados. Os dispositivos de compactação de vídeo muitas vezes usam software e / ou hardware na origem para codificar os dados de vídeo antes da transmissão ou armazenamento, diminuindo assim a quantidade de dados necessária para representar imagens de vídeo digital. Os dados compactados são então recebidos no destino por um dispositivo de descompactação de vídeo que decodifica os dados de vídeo. Com recursos de rede limitados e demandas cada vez maiores de qualidade de vídeo superior, técnicas de compactação e descompactação aprimoradas que melhoram a taxa de compactação com pouco ou nenhum sacrifício na qualidade da imagem são desejáveis.
SUMARIO DA INVENÇÃO
[0004] O objetivo desta invenção é fornecer uma solução para o problema de redução da capacidade da memória no armazenamento de informações para derivar uma predição do vetor de movimento temporal enquanto mantém a representação do vetor de movimento e a precisão em uma faixa razoável.
[0005] Este problema é resolvido de acordo com a invenção fornecendo um método de compactação do vetor de movimento, compreendendo: obter um vetor de movimento temporal; determinar um vetor de movimento compactado usando uma representação binária do vetor de movimento temporal compreendendo uma parte de expoente e / ou uma parte de mantissa, em que a parte de expoente compreende N bits, a parte de mantissa compreende M bits, e em que N é um número inteiro não negativo, e M é um número inteiro positivo; e realizar uma predição de vetor de movimento temporal (TMVP) usando o vetor de movimento compactado.
[0006] Em uma modalidade, uma etapa de realizar pelo menos uma operação de desvio de bits com base na parte de expoente ou na parte de mantissa do vetor de movimento temporal para obter um vetor de movimento compactado pode ser aplicada.
[0007] Em outra modalidade, a parte de expoente pode corresponder ao (s) bit (s) mais significativo (s) (MSB) da representação binária e a parte de mantissa pode corresponder ao (s) bit (s) menos significativo (s) (LSB) da representação binária; ou, a parte de expoente pode corresponder ao LSB da representação binária e a parte de mantissa pode corresponder ao MSB da representação binária.
[0008] Além disso, quando a parte de expoente corresponde ao MSB da representação binária e a parte de mantissa corresponde ao LSB da representação binária, um valor do vetor de movimento compactado pode ser derivado pelas seguintes etapas: derivar um primeiro valor de desvio aplicando um desvio para a direita de M bits à representação binária; derivar o último M bit da representação binária como uma primeira representação binária básica; e derivar o valor do vetor de movimento compactado aplicando um desvio para a esquerda do primeiro bit de valor de desvio à primeira representação binária básica.
[0009] Alternativamente, quando a parte de expoente corresponde ao LSB da representação binária e a parte de mantissa corresponde ao MSB da representação binária, o valor do componente do vetor de movimento pode ser derivado pelas seguintes etapas: derivando os últimos N bits da representação binária como um segundo valor de desvio; derivar uma segunda representação binária básica aplicando um desvio para a direita de N bits à representação binária; e derivar o valor do vetor de movimento compactado aplicando um desvio para a esquerda do segundo bit de valor de desvio à segunda representação binária básica.
[0010] De acordo com uma modalidade, o vetor de movimento temporal pode compreender um componente horizontal de vetor de movimento e um componente vertical de vetor de movimento.
[0011] De acordo com outra modalidade, o método de compactação do vetor de movimento pode compreender: codificar um primeiro indicador, em que o primeiro indicador é usado para indicar se o vetor de movimento temporal é compactado de acordo com o método de compactação do vetor de movimento de acordo com a invenção.
[0012] O método de compactação do vetor de movimento pode compreender determinar um valor de N. Além disso, determinar o valor de N pode compreender: codificar o valor de N; ou ajustar um valor predeterminado como o valor de N; ou derivar o valor de N com base em uma resolução de uma unidade de imagem, em que a unidade de imagem compreende uma imagem ou um conjunto de bloquetes; ou derivar o valor de N com base em um tamanho de unidade de árvore de codificação (CTU) ou unidade de codificação (CU).
[0013] Mais particularmente, derivar o valor de N com base na resolução da unidade de imagem pode compreender: definir o valor de N como 0, quando a largura da unidade de imagem é menor do que um primeiro limiar e a altura da unidade de imagem é menor do que o primeiro limiar; ou codificar um segundo indicador para representar o valor de N, quando a largura da unidade de imagem for menor do que um segundo limiar e a altura da unidade de imagem for menor do que o segundo limiar; ou codificando um terceiro indicador para representar o valor de N.
[0014] O segundo indicador pode ser binarizado por um bit e o terceiro indicador pode ser binarizado por dois bits.
[0015] Em uma modalidade, o primeiro indicador, o segundo indicador e / ou o terceiro indicador podem ser incluídos em um conjunto de parâmetros de sequência (SPS), um conjunto de parâmetros de imagem (PPS), um cabeçalho de fatia, ou um cabeçalho de grupo de bloquete em um fluxo de bits.
[0016] O problema acima mencionado também é resolvido pela invenção ao fornecer ainda um método de compactação do vetor de movimento, compreendendo: obter um vetor de movimento temporal; determinar uma parte de expoente ou uma parte de mantissa do vetor de movimento temporal; realizar pelo menos uma operação de desvio de bit com base na parte de expoente ou na parte de mantissa do vetor de movimento temporal para obter um vetor de movimento compactado, em que a parte de expoente corresponde ao bit menos significativo (LSB) do vetor de movimento compactado e a parte de mantissa corresponde ao bit mais significativo (MSB) do vetor de movimento compactado; realizar uma predição de vetor de movimento temporal (TMVP) usando o vetor de movimento compactado.
[0017] O problema acima mencionado é ainda resolvido pela invenção ao fornecer um método de codificação baseado em um vetor de movimento, compreendendo: codificar um primeiro sinalizador; realizar um primeiro método, quando o primeiro sinalizador é um primeiro valor; e realizar um segundo método, quando o primeiro sinalizador é um segundo valor, em que o primeiro valor é diferente do segundo valor, em que um valor original de um primeiro componente do vetor de movimento de um bloco de imagem atual é binarizado por M bits, em que o primeiro método compreende: aplicar um desvio para a direita de N bits ao valor original, em que (M-N) é igual a um valor predeterminado, e em que N e M são números inteiros positivos; definir o valor original desviado para a direita como um valor de armazenamento do primeiro componente do vetor de movimento; e codificar um bloco de imagem subsequente com base no valor de armazenamento; e em que o segundo método compreende: aplicar uma operação de recorte ao valor original, em que um componente do vetor de movimento recortado representado pelo valor original recortado é restrito entre -2M-N-1e 2M—N-1- 1; definir o valor original recortado como o valor de armazenamento do primeiro componente do vetor de movimento; e codificar um bloco de imagem subsequente com base no valor de armazenamento.
[0018] Em uma modalidade, após definir o valor original desviado para a direita como o valor de armazenamento do vetor de movimento de acordo com o primeiro método, o método pode ainda compreender: aplicar um desvio para a esquerda de N bits ao valor de armazenamento; em que codificar o bloco de imagem subsequente com base no valor de armazenamento compreende: codificar o bloco de imagem subsequente com base no valor de armazenamento desviado para a esquerda.
[0019] Alternativamente, depois de definir o valor original recortado como o valor de armazenamento do vetor de movimento de acordo com o segundo método, o método pode ainda compreender: determinar um valor de restauração do primeiro componente do vetor de movimento com base no valor de armazenamento, em que o valor de restauração é binarizado por M bits, em que os últimos (M-N) bits do valor de restauração são iguais ao valor de armazenamento, e em que cada um dos primeiros N bits do valor de restauração é igual a 0, quando o valor de armazenamento é positivo, e cada um dos primeiros N bits do valor de restauração são iguais a 1, quando o valor de armazenamento é negativo; em que codificar o bloco de imagem subsequente com base no valor de armazenamento compreende: codificar o bloco de imagem subsequente com base no valor de restauração.
[0020] Em uma modalidade, o bloco de imagem subsequente e o bloco atual podem estar em imagens diferentes, e o modo de predição do bloco de imagem subsequente pode compreender predição de vetor de movimento temporal (TMVP) e / ou predição de vetor de movimento temporal alternativa (ATMVP).
[0021] Em outra modalidade, o primeiro sinalizador pode ser codificado para cada imagem; ou, o primeiro sinalizador pode ser codificado para cada bloquete; ou, o primeiro sinalizador pode ser codificado para cada conjunto de bloquetes; ou, o primeiro sinalizador pode ser codificado para cada fatia.
[0022] Em ainda outra modalidade, o primeiro sinalizador pode ser incluído em um conjunto de parâmetros de sequência (SPS), um conjunto de parâmetros de imagem (PPS), um cabeçalho de fatia, ou um cabeçalho de grupo de bloquetes em um fluxo de bits.
[0023] De acordo com uma modalidade, o bloco de imagem atual pode ainda ter um segundo componente do vetor de movimento e o método de codificação pode ainda compreender: codificar um segundo sinalizador; em que: o primeiro método pode ser realizado para o segundo componente do vetor de movimento, quando o segundo sinalizador é o primeiro valor; e o segundo método pode ser realizado para o segundo componente do vetor de movimento, quando o segundo sinalizador é o segundo valor.
[0024] De acordo com outra modalidade, antes de codificar o primeiro sinalizador, o método de codificação pode compreender ainda: determinar se uma resolução de uma imagem atual é maior ou igual a um primeiro valor predefinido e se o bloco de imagem atual pode estar na imagem atual.
[0025] Além disso, quando a resolução da imagem atual é menor do que o primeiro valor predefinido, o segundo método pode ser realizado.
[0026] Além disso, quando a imagem atual é dividida em conjuntos de bloquetes, o segundo método pode ser realizado; ou quando uma resolução de um conjunto de bloquetes é menor do que um segundo valor predefinido, o segundo método pode ser realizado.
[0027] De acordo com uma modalidade, antes de codificar o primeiro sinalizador, o método de codificação pode compreender ainda: determinar se um tamanho de uma unidade de árvore de codificação (CTU), uma unidade de codificação (CU), um bloco de imagem ou uma unidade de um bloco de imagem atual satisfaz uma primeira condição de tamanho.
[0028] Além disso, se o tamanho da CTU, CU, bloco de imagem ou unidade do bloco de imagem atual satisfaz uma segunda condição de tamanho, o primeiro método pode ser realizado; ou, se o tamanho da CTU, CU, bloco de imagem ou unidade do bloco de imagem atual satisfaz uma terceira condição de tamanho, o segundo método pode ser realizado.
[0029] A invenção também fornece um método de codificação baseado em um vetor de movimento, compreendendo: determinar um tamanho de uma CTU, uma CU, um bloco de imagem ou uma unidade de um bloco de imagem atual; e realizar pelo menos um de um primeiro método e um segundo método com base no tamanho, ou determinar uma resolução de uma imagem atual; e realizar pelo menos um dentre o primeiro método e o segundo método com base na resolução, em que um valor original de um primeiro componente do vetor de movimento do bloco de imagem atual é binarizado por M bits, em que o primeiro método compreende: aplicar um desvio para a direita de N bits ao valor original, em que (M-N) é igual a um valor predeterminado e em que N e M são números inteiros positivos; ajustar o valor original desviado para a direita como um valor de armazenamento do primeiro componente do vetor de movimento; e codificar um bloco de imagem subsequente com base no valor de armazenamento; e em que o segundo método compreende: aplicar uma operação de recorte ao valor original, em que um componente do vetor de movimento recortado representado pelo valor original recortado é restrito entre -2M-N-1e 2M—N-1- 1; ajustar o valor original recortado como o valor de armazenamento do primeiro componente do vetor de movimento; e codificar um bloco de imagem subsequente com base no valor de armazenamento.
[0030] O problema acima mencionado também é resolvido por um meio de armazenamento legível por computador não transitório que armazena programação para execução por um circuito de processamento, em que a programação, quando executada pelo circuito de processamento, configura o circuito de processamento para realizar qualquer um dos métodos descrito acima.
[0031] O problema acima mencionado também é resolvido por um decodificador, compreendendo circuitos configurados para realizar qualquer um dos métodos descritos acima.
[0032] O problema mencionado acima também é resolvido por um codificador, compreendendo circuitos configurados para realizar qualquer um dos métodos descritos acima.
[0033] A codificação descrita acima pode ser uma codificação ou uma decodificação.
[0034] Características e vantagens adicionais da presente invenção serão descritas com referência aos desenhos. Na descrição, é feita referência às figuras anexas que se destinam a ilustrar modalidades preferidas da invenção. Entende-se que tais modalidades não representam todo o escopo da invenção.
BREVE DESCRIÇÃO DOS DESENHOS
[0035] As seguintes modalidades do pedido são descritas em mais detalhes com referência às figuras e desenhos anexos, nos quais: FIG. 1A é um diagrama de blocos que mostra um exemplo de um sistema de codificação de vídeo configurado para implementar modalidades do aplicativo; FIG. 1B é um diagrama de blocos que mostra outro exemplo de um sistema de codificação de vídeo configurado para implementar modalidades do aplicativo; FIG. 2 é um diagrama de blocos que mostra um exemplo de um codificador de vídeo configurado para implementar modalidades do aplicativo; FIG. 3 é um diagrama de blocos que mostra um exemplo de estrutura de um decodificador de vídeo configurado para implementar modalidades do aplicativo; FIG. 4 é um diagrama de blocos que ilustra um exemplo de um aparelho de codificação ou um aparelho de decodificação; FIG. 5 é um diagrama de blocos que ilustra outro exemplo de um aparelho de codificação ou um aparelho de decodificação; FIG. 6 é um diagrama que mostra um exemplo de uma modalidade de implementação do aplicativo; FIG. 7 é um diagrama que mostra um exemplo de outra modalidade de implementação do aplicativo; FIG. 8 é um diagrama que mostra um exemplo de outra modalidade de implementação do aplicativo; FIG. 9 é um diagrama que mostra um exemplo de outra modalidade de implementação do aplicativo; e FIG. 10 é um diagrama de fluxo que mostra um método de compactação do vetor de movimento de acordo com a invenção.
[0036] A seguir, sinais de referência idênticos referem-se a características idênticas ou pelo menos funcionalmente equivalentes, se não for explicitamente especificado de outra forma.
DESCRIÇÃO DETALHADA DAS MODALIDADES
[0037] Na descrição a seguir, é feita referência às figuras anexas, que fazem parte da divulgação e que mostram, a título de ilustração, aspectos específicos de modalidades do pedido ou aspectos específicos em que modalidades do presente pedido podem ser usadas. Entende-se que modalidades do pedido podem ser usadas em outros aspectos e compreendem mudanças estruturais ou lógicas não representadas nas figuras. A seguinte descrição detalhada, portanto, não deve ser tomada em um sentido limitante, e o escopo do presente pedido é definido pelas reivindicações anexas.
[0038] Por exemplo, entende-se que uma divulgação em conexão com um método descrito também pode ser verdadeira para um dispositivo ou sistema correspondente configurado para realizar o método e vice-versa. Por exemplo, se uma ou uma pluralidade de etapas de método específicas são descritas, um dispositivo correspondente pode incluir uma ou uma pluralidade de unidades, por exemplo, unidades funcionais, para realizar a descrita uma ou a pluralidade de etapas de método (por exemplo, uma unidade realizando a uma ou a pluralidade de etapas, ou uma pluralidade de unidades, cada uma realizando uma ou mais da pluralidade de etapas), mesmo se tais uma ou mais unidades não forem explicitamente descritas ou ilustradas nas figuras. Por outro lado, por exemplo, se um aparelho específico é descrito com base em uma ou uma pluralidade de unidades, por exemplo, unidades funcionais, um método correspondente pode incluir uma etapa para realizar a funcionalidade de uma ou pluralidade de unidades (por exemplo, uma etapa de realização da funcionalidade de uma ou pluralidade de unidades, ou uma pluralidade de etapas, cada uma realizando a funcionalidade de uma ou mais da pluralidade de unidades), mesmo se tal uma ou pluralidade de etapas não forem explicitamente descritas ou ilustradas nas figuras. Além disso, entende-se que as características das várias modalidades exemplares e / ou aspectos descritos neste documento podem ser combinados uns com os outros, a menos que especificamente indicado de outra forma.
[0039] A codificação de vídeo normalmente se refere ao processamento de uma sequência de imagens, que formam o vídeo ou a sequência de vídeo. Em vez do termo "imagem", o termo "quadro" ou "imagem" pode ser usado como sinônimos no campo da codificação de vídeo. A codificação de vídeo (ou codificação em geral) compreende duas partes de codificação de vídeo e decodificação de vídeo. A codificação de vídeo é realizada no lado da origem, geralmente compreendendo o processamento (por exemplo, por compactação) das imagens de vídeo originais para reduzir a quantidade de dados necessária para representar as imagens de vídeo (para armazenamento e / ou transmissão mais eficiente). A decodificação de vídeo é realizada no lado de destino e normalmente compreende o processamento inverso em comparação com o codificador para reconstruir as imagens de vídeo. As modalidades que se referem à "codificação"de imagens de vídeo (ou imagens em geral) devem ser entendidas como relacionadas à "codificação"ou "decodificação"de imagens de vídeo ou respectivas sequências de vídeo. A combinação da parte de codificação e da parte de decodificação também é conhecida como CODEC (Codificação e Decodificação).
[0040] No caso de codificação de vídeo sem perdas, as imagens de vídeo originais podem ser reconstruídas, ou seja, as imagens de vídeo reconstruídas têm a mesma qualidade das imagens de vídeo originais (assumindo nenhuma perda de transmissão ou outra perda de dados durante o armazenamento ou transmissão). No caso de codificação de vídeo com perdas, a compactação adicional, por exemplo, por quantização, é realizada, para reduzir a quantidade de dados que representam as imagens de vídeo, que não podem ser completamente reconstruídas no decodificador, ou seja, a qualidade das imagens de vídeo reconstruídas é inferior ou pior comparada à qualidade das imagens de vídeo originais.
[0041] Vários padrões de codificação de vídeo pertencem ao grupo de “codecs de vídeo híbridos com perdas” (ou seja, combinam predição espacial e temporal no domínio da amostra e codificação de transformada 2D para aplicar quantização no domínio de transformada). Cada imagem de uma sequência de vídeo é normalmente particionada em um conjunto de blocos não sobrepostos e a codificação é normalmente realizada em um nível de bloco. Em outras palavras, no codificador, o vídeo é normalmente processado, ou seja, codificado, em um nível de bloco (bloco de vídeo), por exemplo, usando predição espacial (intra-imagem) e / ou predição temporal (interimagem) para gerar um bloco de predição, subtraindo o bloco de predição do bloco atual (bloco atualmente processado / a ser processado) para obter um bloco residual, transformando o bloco residual e quantizando o bloco residual no domínio de transformada para reduzir a quantidade de dados a serem transmitidos (compactação), enquanto no decodificador, o processamento inverso em comparação com o codificador é aplicado ao bloco codificado ou compactado para reconstruir o bloco atual para representação. Além disso, o codificador duplica a repetição de processamento do decodificador de modo que ambos irão gerar predições idênticas (por exemplo, intrapredição e interpredição) e / ou reconstruções para processamento, ou seja, codificação dos blocos subsequentes.
[0042] Nas seguintes modalidades de um sistema de codificação de vídeo 10, um codificador de vídeo 20 e um decodificador de vídeo 30 são descritos com base nas FIGS. 1 a 3.
[0043] A FIG. 1A é um diagrama de blocos esquemático que ilustra um exemplo de sistema de codificação 10, por exemplo, um sistema de codificação de vídeo 10 (ou sistema de codificação 10, para abreviar) que pode utilizar técnicas do presente pedido. O codificador de vídeo 20 (ou codificador 20, para abreviar) e o decodificador de vídeo 30 (ou decodificador 30, para abreviar) do sistema de codificação de vídeo 10 representam exemplos de dispositivos que podem ser configurados para realizar técnicas de acordo com vários exemplos descritos no presente pedido.
[0044] Como mostrado na FIG. 1A, o sistema de codificação 10 compreende um dispositivo de origem 12 configurado para fornecer dados de imagem codificados 21, por exemplo, a um dispositivo de destino 14 para decodificar os dados de imagem codificados 13.
[0045] O dispositivo de origem 12 compreende um codificador 20 e pode, adicionalmente, isto é, opcionalmente, compreender uma origem de imagem 16, um pré-processador (ou unidade de pré-processamento) 18, por exemplo, um pré- processador de imagem 18 e uma interface de comunicação ou unidade de comunicação 22.
[0046] A origem de imagem 16 pode compreender ou ser qualquer tipo de dispositivo de captura de imagem, por exemplo, uma câmera para capturar uma imagem do mundo real, e / ou qualquer tipo de dispositivo de geração de imagem, por exemplo, um processador gráfico de computador para gerar uma imagem animada por computador, ou qualquer tipo de outro dispositivo para obter e / ou fornecer uma imagem do mundo real, uma imagem gerada por computador (por exemplo, um conteúdo de tela, uma imagem de realidade virtual (VR)) e / ou qualquer combinação dos mesmos (por exemplo, uma imagem de realidade aumentada (AR)). A origem de imagem pode ser qualquer tipo de memória ou armazenamento que armazene qualquer uma das imagens acima mencionadas.
[0047] Em distinção ao pré-processador 18 e ao processamento realizado pela unidade de pré-processamento 18, a imagem ou dados de imagem 17 também podem ser referidos como imagem bruta ou dados de imagem bruta 17.
[0048] O pré-processador 18 é configurado para receber os dados de imagem (brutos) 17 e para realizar o pré- processamento nos dados de imagem 17 para obter uma imagem pré-processada 19 ou dados de imagem pré-processados 19. O pré-processamento realizado pelo pré-processador 18 pode, por exemplo, compreender corte, conversão de formato de cor (por exemplo, de RGB para YCbCr), correção de cor, ou eliminação de ruído. Pode ser entendido que a unidade de pré-processamento 18 pode ser um componente opcional.
[0049] O codificador de vídeo 20 é configurado para receber os dados de imagem pré-processados 19 e fornecer dados de imagem codificados 21 (mais detalhes serão descritos abaixo, por exemplo, com base na FIG. 2).
[0050] A interface de comunicação 22 do dispositivo de origem 12 pode ser configurada para receber os dados de imagem codificados 21 e para transmitir os dados de imagem codificados 21 (ou qualquer outra versão processada dos mesmos) através do canal de comunicação 13 para outro dispositivo, por exemplo, o dispositivo de destino 14 ou qualquer outro dispositivo, para armazenamento ou reconstrução direta.
[0051] O dispositivo de destino 14 compreende um decodificador 30 (por exemplo, um decodificador de vídeo 30) e pode, adicionalmente, isto é, opcionalmente, compreender uma interface de comunicação ou unidade de comunicação 28, um pós-processador 32 (ou unidade de pós-processamento 32) e um dispositivo de exibição 34.
[0052] A interface de comunicação 28 do dispositivo de destino 14 está configurada para receber os dados de imagem codificados 21 (ou qualquer outra versão processada dos mesmos), por exemplo, diretamente do dispositivo de origem 12 ou de qualquer outra origem, por exemplo, um dispositivo de armazenamento, por exemplo, um dispositivo de armazenamento de dados de imagem codificados e fornecer os dados de imagem codificados 21 para o decodificador 30.
[0053] A interface de comunicação 22 e a interface de comunicação 28 podem ser configuradas para transmitir ou receber os dados de imagem codificados 21 ou dados codificados 13 por meio de um enlace de comunicação direto entre o dispositivo de origem 12 e o dispositivo de destino 14, por exemplo, uma conexão direta com ou sem fio, ou por meio de qualquer tipo de rede, por exemplo, uma rede com fio ou sem fio ou qualquer combinação delas, ou qualquer tipo de rede privada e pública, ou qualquer tipo de combinação das mesmas.
[0054] A interface de comunicação 22 pode ser, por exemplo, configurada para empacotar os dados de imagem codificados 21 em um formato apropriado, por exemplo, pacotes e / ou processar os dados de imagem codificados usando qualquer tipo de codificação de transmissão ou processamento para transmissão através de um enlace de comunicação ou rede de comunicação.
[0055] A interface de comunicação 28, formando a contraparte da interface de comunicação 22, pode ser, por exemplo, configurada para receber os dados transmitidos e processar os dados de transmissão usando qualquer tipo de decodificação de transmissão correspondente ou processamento e / ou desempacotamento para obter os dados de imagem codificados 21.
[0056] Tanto a interface de comunicação 22 quanto a interface de comunicação 28 podem ser configuradas como interfaces de comunicação unidirecionais, conforme indicado pela seta para o canal de comunicação 13 na FIG. 1A apontando do dispositivo de origem 12 para o dispositivo de destino 14, ou interfaces de comunicação bidirecionais, e pode ser configurado, por exemplo, para enviar e receber mensagens, por exemplo, para configurar uma conexão, para reconhecer e trocar qualquer outra informação relacionada ao enlace de comunicação e / ou transmissão de dados, por exemplo, transmissão de dados de imagem codificados.
[0057] O decodificador 30 é configurado para receber os dados de imagem codificados 21 e fornecer dados de imagem decodificados 31 ou uma imagem decodificada 31 (mais detalhes serão descritos abaixo, por exemplo, com base na FIG. 3 ou FIG. 5).
[0058] O pós-processador 32 do dispositivo de destino 14 é configurado para pós-processar os dados de imagem decodificados 31 (também chamados de dados de imagem reconstruída), por exemplo, a imagem decodificada 31, para obter dados de imagem pós-processados 33, por exemplo, uma imagem pós-processada 33. O pós-processamento realizado pela unidade de pós-processamento 32 pode compreender, por exemplo, conversão de formato de cor (por exemplo, de YCbCr para RGB), correção de cor, corte ou reamostragem, ou qualquer outro processamento, por exemplo, para preparar os dados de imagem decodificados 31 para exibição, por exemplo, pelo dispositivo de exibição 34.
[0059] O dispositivo de exibição 34 do dispositivo de destino 14 é configurado para receber os dados de imagem pós-processados 33 para exibir a imagem, por exemplo, para um usuário ou visualizador. O dispositivo de exibição 34 pode ser ou compreender qualquer tipo de tela de exibição para representar a imagem reconstruída, por exemplo, uma tela de exibição ou monitor integrado ou externo. As telas de exibição podem, por exemplo, compreender telas de exibição de cristal líquido (LCD), telas de exibição de diodos emissores de luz orgânica (OLED), telas de exibição de plasma, projetores, telas de exibição de micro LED, cristal líquido em silício (LCoS), processador de luz digital (DLP), ou qualquer outro tipo de tela de exibição.
[0060] Embora a FIG. 1A represente o dispositivo de origem 12 e o dispositivo de destino 14 como dispositivos separados, modalidades de dispositivos também podem compreender uma ou ambas as funcionalidades, o dispositivo de origem 12 ou a funcionalidade correspondente e o dispositivo de destino 14 ou a funcionalidade correspondente. Em tais modalidades, o dispositivo de origem 12 ou a funcionalidade correspondente e o dispositivo de destino 14 ou a funcionalidade correspondente podem ser implementados usando o mesmo hardware e / ou software ou por hardware e / ou software separados ou qualquer combinação dos mesmos.
[0061] Como será evidente para a pessoa versada com base na descrição, a existência e divisão (exata) de funcionalidades das diferentes unidades ou as funcionalidades dentro do dispositivo de origem 12 e / ou dispositivo de destino 14 como mostrado na FIG. 1A pode variar dependendo do dispositivo e aplicativo reais.
[0062] O codificador 20 (por exemplo, um codificador de vídeo 20) ou o decodificador 30 (por exemplo, um decodificador de vídeo 30) ou ambos o codificador 20 e o decodificador 30 podem ser implementados através do circuito de processamento como mostrado na FIG. 1B, como um ou mais microprocessadores, processadores de sinal digital (DSPs), circuitos integrados de aplicação específica (ASICs), matrizes de portas programáveis em campo (FPGAs), lógica discreta, hardware, codificação de vídeo dedicada, ou qualquer combinação dos mesmos. O codificador 20 pode ser implementado através do circuito de processamento 46 para incorporar os vários módulos, conforme discutido em relação ao codificador 20 da FIG. 2 e / ou qualquer outro sistema codificador ou subsistema aqui descrito. O decodificador 30 pode ser implementado através do circuito de processamento 46 para incorporar os vários módulos, conforme discutido em relação ao decodificador 30 da FIG. 3 e / ou qualquer outro sistema ou subsistema decodificador aqui descrito. O circuito de processamento pode ser configurado para realizar as várias operações, conforme discutido posteriormente. Conforme mostrado na FIG. 5, se as técnicas forem implementadas parcialmente em software, um dispositivo pode armazenar instruções para o software em um meio de armazenamento legível por computador não transitório adequado e pode executar as instruções em hardware usando um ou mais processadores para realizar as técnicas desta divulgação. Tanto o codificador de vídeo 20 quanto o decodificador de vídeo 30 podem ser integrados como parte de um codificador / decodificador combinado (CODEC) em um único dispositivo, por exemplo, como mostrado na FIG. 1B.
[0063] O dispositivo de origem 12 e o dispositivo de destino 14 podem compreender qualquer um de uma ampla gama de dispositivos, incluindo qualquer tipo de dispositivos portáteis ou fixos, por exemplo, notebooks ou laptops, telefones celulares, smartphones, tablets ou computadores tipo tablet, câmeras, computadores de mesa, decodificadores, televisores, dispositivos de exibição, reprodutores de mídia digital, consoles de videogame, dispositivos de streaming de vídeo (como servidores de serviços de conteúdo ou servidores de entrega de conteúdo), dispositivo receptor de difusão, dispositivo transmissor de difusão, ou semelhantes, e podem usar nenhum ou qualquer tipo de sistema operacional. Em alguns casos, o dispositivo de origem 12 e o dispositivo de destino 14 podem ser equipados para comunicação sem fio. Assim, o dispositivo de origem 12 e o dispositivo de destino 14 podem ser dispositivos de comunicação sem fio.
[0064] Em alguns casos, o sistema de codificação de vídeo 10 ilustrado na FIG. 1A é apenas um exemplo e as técnicas do presente pedido podem ser aplicadas às configurações de codificação de vídeo (por exemplo, codificação de vídeo ou decodificação de vídeo) que não incluem necessariamente qualquer comunicação de dados entre os dispositivos de codificação e decodificação. Em outros exemplos, os dados são recuperados de uma memória local, transmitidos por uma rede ou semelhantes. Um dispositivo de codificação de vídeo pode codificar e armazenar dados na memória e / ou um dispositivo de decodificação de vídeo pode recuperar e decodificar dados da memória. Em alguns exemplos, a codificação e decodificação são realizadas por dispositivos que não se comunicam entre si, mas simplesmente codificam dados para a memória e / ou recuperam e decodificam dados da memória.
[0065] Por conveniência de descrição, modalidades do aplicativo são descritas neste documento, por exemplo, por referência à Codificação de Vídeo de Alta Eficiência (HEVC) ou ao software de referência de Codificação de Vídeo Versátil (VVC), o padrão de codificação de vídeo de próxima geração desenvolvido pela Equipe de Colaboração Conjunta em Codificação de Vídeo (JCT-VC) do Grupo de Especialistas em Codificação de Vídeo (VCEG) de ITU-T e Grupo de Especialistas em Imagem em Movimento (MPEG) ISO / IEC. Uma pessoa de conhecimento comum na técnica entenderá que as modalidades do pedido não estão limitadas a HEVC ou VVC.
Codificador e Método de Codificação
[0066] A FIG. 2 mostra um diagrama de blocos esquemático de um codificador de vídeo de exemplo 20 que está configurado para implementar as técnicas do presente pedido. No exemplo da FIG. 2, o codificador de vídeo 20 compreende uma entrada 201 (ou interface de entrada 201), uma unidade de cálculo residual 204, uma unidade de processamento de transformada 206, uma unidade de quantização 208, uma unidade de quantização inversa 210 e unidade de processamento de transformada inversa 212, uma unidade de reconstrução 214, uma unidade de filtro de repetição 220, um armazenamento temporário de imagem decodificada (DPB) 230, uma unidade de seleção de modo 260, uma unidade de codificação de entropia 270 e uma saída 272 (ou interface de saída 272). A unidade de seleção de modo 260 pode incluir uma unidade de interpredição 244, uma unidade de intrapredição 254 e uma unidade de particionamento 262. A unidade de interpredição 244 pode incluir uma unidade de estimativa de movimento e uma unidade de compensação de movimento (não mostrada). Um codificador de vídeo 20, como mostrado na FIG. 2, também pode ser referido como codificador de vídeo híbrido ou um codificador de vídeo de acordo com um codec de vídeo híbrido.
[0067] A unidade de cálculo residual 204, a unidade de processamento de transformada 206, a unidade de quantização 208, a unidade de seleção de modo 260 podem ser referidas como formando um caminho de sinal direto do codificador 20, enquanto a unidade de quantização inversa 210, a unidade de processamento de transformada inversa 212 , a unidade de reconstrução 214, o armazenamento temporário 216, o filtro de repetição 220, o armazenamento temporário de imagem decodificada (DPB) 230, a unidade de interpredição 244 e a unidade de intrapredição 254 podem ser referidos como formando um caminho de sinal reverso do codificador de vídeo 20, em que o caminho do sinal reverso do codificador de vídeo 20 corresponde ao caminho do sinal do decodificador (ver decodificador de vídeo 30 na FIG. 3). A unidade de quantização inversa 210, a unidade de processamento de transformada inversa 212, a unidade de reconstrução 214, o filtro de repetição 220, o armazenamento temporário de imagem decodificada (DPB) 230, a unidade de interpredição 244 e a unidade de intrapredição 254 também são referidos como formando o “Decodificador embutido” do codificador de vídeo 20.
Imagens e particionamento de imagens (Imagens e Blocos)
[0068] O codificador 20 pode ser configurado para receber, por exemplo, através da entrada 201, uma imagem 17 (ou dados de imagem 17), por exemplo, imagem de uma sequência de imagens formando um vídeo ou sequência de vídeo. A imagem recebida ou dados de imagem também podem ser uma imagem pré- processada 19 (ou dados de imagem pré-processados 19). Por uma questão de simplicidade, a seguinte descrição refere-se à imagem 17. A imagem 17 também pode ser referida como imagem atual ou imagem a ser codificada (em particular na codificação de vídeo para distinguir a imagem atual de outras imagens, por exemplo, imagens previamente codificadas e / ou decodificadas da mesma sequência de vídeo, ou seja, a sequência de vídeo que também inclui a imagem atual).
[0069] Uma imagem (digital) é ou pode ser considerada uma matriz bidimensional ou matriz de amostras com valores de intensidade. Uma amostra na matriz também pode ser referida como pixel (forma abreviada de elemento de imagem) ou um pel. O número de amostras na direção (ou eixo) horizontal e vertical da matriz ou imagem define o tamanho e / ou resolução da imagem. Para a representação da cor, normalmente três componentes de cor são empregados, ou seja, a imagem pode ser representada ou incluir três matrizes de amostra. No formato RBG ou espaço de cor, uma imagem compreende uma matriz de amostra vermelha, verde e azul correspondente. No entanto, na codificação de vídeo, cada pixel é tipicamente representado em um formato de luminância e crominância ou espaço de cor, por exemplo, YCbCr, que compreende um componente de luminância indicado por Y (às vezes L é usado) e dois componentes de crominância indicados por Cb e Cr. O componente de luminância (ou luma, para abreviar) Y representa o brilho ou intensidade do nível cinza (por exemplo, como em uma imagem em escala cinza), enquanto os dois componentes de crominância (ou croma, para abreviar) Cb e Cr representam a cromaticidade ou componentes de informação de cor. Consequentemente, uma imagem no formato YCbCr compreende uma matriz de amostra de luminância de valores de amostra de luminância (Y), e duas matrizes de amostra de crominância de valores de crominância (Cb e Cr). As imagens no formato RGB podem ser convertidas ou transformadas no formato YCbCr e vice-versa, o processo também é conhecido como transformação ou conversão de cores. Se uma imagem for monocromática, a imagem pode compreender apenas uma matriz de amostra de luminância. Consequentemente, uma imagem pode ser, por exemplo, uma matriz de amostras de luma em formato monocromático ou uma matriz de amostras de luma e duas matrizes correspondentes de amostras de croma em 4:2:0, 4:2:2 e 4:4:4 formato de cor.
[0070] As modalidades do codificador de vídeo 20 podem compreender uma unidade de particionamento de imagem (não representada na FIG. 2) configurada para particionar a imagem 17 em uma pluralidade de blocos de imagem 203 (normalmente não sobrepostos). Esses blocos também podem ser referidos como blocos raiz, macroblocos (H.264 / AVC) ou blocos de árvore de codificação (CTB) ou unidades de árvore de codificação (CTU) (H.265 / HEVC e VVC). A unidade de particionamento de imagem pode ser configurada para usar o mesmo tamanho de bloco para todas as imagens de uma sequência de vídeo e a grade correspondente definindo o tamanho do bloco, ou para alterar o tamanho do bloco entre imagens ou subconjuntos ou grupos de imagens e particionar cada imagem nos blocos correspondentes.
[0071] Em outras modalidades, o codificador de vídeo pode ser configurado para receber diretamente um bloco 203 da imagem 17, por exemplo, um, vários ou todos os blocos que formam a imagem 17. O bloco 203 de imagem também pode ser referido como bloco de imagem atual ou bloco de imagem a ser codificado.
[0072] Como a imagem 17, o bloco de imagem 203 é ou pode ser considerado como uma matriz bidimensional ou matriz de amostras com valores de intensidade (valores de amostra), embora de dimensão menor do que a imagem 17. Em outras palavras, o bloco 203 pode compreender, por exemplo, uma matriz de amostra (por exemplo, uma matriz luma no caso de uma imagem monocromática 17, ou uma matriz luma ou croma no caso de uma imagem colorida) ou três matrizes de amostra (por exemplo, uma luma e duas matrizes de croma no caso de uma imagem colorida 17) ou qualquer outro número e / ou tipo de matrizes dependendo do formato de cor aplicado. O número de amostras na direção horizontal e vertical (ou eixo) do bloco 203 define o tamanho do bloco 203. Consequentemente, um bloco pode ser, por exemplo, uma matriz MxN (coluna M por linha N) de amostras, ou uma matriz MxN de coeficientes de transformada.
[0073] As modalidades do codificador de vídeo 20, como mostrado na FIG. 2, podem ser configuradas para codificar a imagem 17 bloco a bloco, por exemplo, a codificação e a predição são realizadas por bloco 203.
Cálculo Residual
[0074] A unidade de cálculo residual 204 pode ser configurada para calcular um bloco residual 205 (também referido como residual 205) com base no bloco de imagem 203 e um bloco de predição 265 (mais detalhes sobre o bloco de predição 265 são fornecidos posteriormente), por exemplo, subtraindo valores de amostra do bloco de predição 265 a partir de valores de amostra do bloco de imagem 203, amostra por amostra (pixel por pixel) para obter o bloco residual 205 no domínio de amostra.
Transformada
[0075] A unidade de processamento de transformada 206 pode ser configurada para aplicar uma transformada, por exemplo, uma transformada discreta de cosseno (DCT) ou transformada discreta de seno (DST), nos valores de amostra do bloco residual 205 para obter coeficientes de transformada 207 em um domínio de transformada. Os coeficientes de transformada 207 também podem ser referidos como coeficientes residuais de transformada e representam o bloco residual 205 no domínio de transformada.
[0076] A unidade de processamento de transformada 206 pode ser configurada para aplicar aproximações inteiras de DCT / DST, como as transformadas especificadas para H.265 / HEVC. Em comparação com uma transformada DCT ortogonal, essas aproximações inteiras são normalmente escalonadas por um determinado fator. A fim de preservar a norma do bloco residual que é processado pelas transformadas direta e inversa, fatores de escalonamento adicionais são aplicados como parte do processo de transformada. Os fatores de escala são normalmente escolhidos com base em certas restrições, como fatores de escala sendo uma potência de dois para operações de desvio, profundidade de bits dos coeficientes de transformada, compensação entre precisão e custos de implementação, etc. Fatores de escala específicos são, por exemplo, especificados para a transformada inversa, por exemplo, pela unidade de processamento de transformada inversa 212 (e a transformada inversa correspondente, por exemplo, pela unidade de processamento de transformada inversa 312 no decodificador de vídeo 30) e fatores de escala correspondentes para a transformada direta, por exemplo pela unidade de processamento de transformada 206, em um codificador 20 podem ser especificados em conformidade.
[0077] As modalidades do codificador de vídeo 20 (respectivamente unidade de processamento de transformada 206) podem ser configuradas para emitir parâmetros de transformada, por exemplo, um tipo de transformada ou transformadas, por exemplo, diretamente ou codificados ou compactados através da unidade de codificação de entropia 270, de modo que, por exemplo, o decodificador de vídeo 30 pode receber e usar os parâmetros de transformada para decodificação.
Quantização
[0078] A unidade de quantização 208 pode ser configurada para quantizar os coeficientes de transformada 207 para obter coeficientes quantizados 209, por exemplo, aplicando quantização escalar ou quantização vetorial. Os coeficientes quantizados 209 também podem ser referidos como coeficientes de transformada quantizados 209 ou coeficientes residuais quantizados 209.
[0079] O processo de quantização pode reduzir a profundidade de bits associada a alguns ou todos os coeficientes de transformada 207. Por exemplo, um coeficiente de transformada de n bits pode ser arredondado para baixo para um coeficiente de transformada de m bits durante a quantização, onde n é maior do que m. O grau de quantização pode ser modificado ajustando um parâmetro de quantização (QP). Por exemplo, para a quantização escalar, diferentes escalonamentos podem ser aplicados para alcançar uma quantização mais fina ou mais grosseira. Tamanhos de etapa de quantização menores correspondem a quantização mais fina, enquanto tamanhos de etapa de quantização maiores correspondem a quantização mais grosseira. O tamanho da etapa de quantização aplicável pode ser indicado por um parâmetro de quantização (QP). O parâmetro de quantização pode ser, por exemplo, um índice para um conjunto predefinido de tamanhos de etapas de quantização aplicáveis. Por exemplo, pequenos parâmetros de quantização podem corresponder a quantização fina (tamanhos de etapas de quantização pequenos) e parâmetros de quantização grandes podem corresponder a quantização grosseira (tamanhos de etapas de quantização grandes) ou vice-versa. A quantização pode incluir divisão por um tamanho de etapa de quantização e uma correspondente e / ou a desquantização inversa, por exemplo, por unidade de quantização inversa 210, pode incluir multiplicação pelo tamanho da etapa de quantização. As modalidades de acordo com alguns padrões, por exemplo, HEVC, podem ser configuradas para usar um parâmetro de quantização para determinar o tamanho da etapa de quantização. Geralmente, o tamanho da etapa de quantização pode ser calculado com base em um parâmetro de quantização usando uma aproximação de ponto fixo de uma equação incluindo divisão. Fatores de escalonamento adicionais podem ser introduzidos para quantização e desquantização para restaurar a norma do bloco residual, que pode ser modificado por causa do escalonamento usado na aproximação de ponto fixo da equação para tamanho da etapa de quantização e parâmetro de quantização. Em uma implementação de exemplo, o escalonamento da transformada inversa e a desquantização podem ser combinados. Alternativamente, tabelas de quantização personalizadas podem ser usadas e sinalizadas de um codificador para um decodificador, por exemplo, em um fluxo de bits. A quantização é uma operação com perdas, em que a perda aumenta com o aumento dos tamanhos das etapas de quantização.
[0080] As modalidades do codificador de vídeo 20 (respectivamente unidade de quantização 208) podem ser configuradas para emitir parâmetros de quantização (QP), por exemplo, diretamente ou codificados por meio da unidade de codificação de entropia 270, de modo que, por exemplo, o decodificador de vídeo 30 possa receber e aplicar os parâmetros de quantização para decodificação.
Quantização Inversa
[0081] A unidade de quantização inversa 210 é configurada para aplicar a quantização inversa da unidade de quantização 208 nos coeficientes quantizados para obter coeficientes desquantizados 211, por exemplo, aplicando o inverso do esquema de quantização aplicado pela unidade de quantização 208 com base em ou usando o mesmo tamanho de etapa de quantização como a unidade de quantização 208. Os coeficientes desquantizados 211 também podem ser referidos como coeficientes residuais desquantizados 211 e correspondem - embora normalmente não sejam idênticos aos coeficientes de transformada devido à perda por quantização - aos coeficientes de transformada 207. Transformada Inversa
[0082] A unidade de processamento de transformada inversa 212 é configurada para aplicar a transformada inversa da transformada aplicada pela unidade de processamento de transformada 206, por exemplo, uma transformada discreta de cosseno inversa (DCT) ou transformada discreta de seno inversa (DST) ou outras transformadas inversas, para obter um bloco residual reconstruído 213 (ou coeficientes desquantizados correspondentes 213) no domínio da amostra. O bloco residual reconstruído 213 também pode ser referido como bloco de transformada 213.
Reconstrução
[0083] A unidade de reconstrução 214 (por exemplo, adicionador ou somador 214) é configurada para adicionar o bloco de transformada 213 (ou seja, bloco residual reconstruído 213) ao bloco de predição 265 para obter um bloco reconstruído 215 no domínio da amostra, por exemplo, adicionando - amostra por amostra - os valores de amostra do bloco residual reconstruído 213 e os valores de amostra do bloco de predição 265.
Filtragem
[0084] A unidade de filtro de repetição 220 (ou "filtro de repetição" 220, para abreviar), é configurada para filtrar o bloco reconstruído 215 para obter um bloco filtrado 221 ou, em geral, para filtrar amostras reconstruídas para obter amostras filtradas. A unidade de filtro de repetição é, por exemplo, configurada para suavizar as transições de pixel ou de outra forma melhorar a qualidade de vídeo. A unidade de filtro de repetição 220 pode compreender um ou mais filtros de repetição, como um filtro de desbloqueio, um filtro de deslocamento adaptativo de amostra (SAO) ou um ou mais outros filtros, por exemplo, um filtro bilateral, um filtro de repetição adaptativo (ALF), um filtro de nitidez, filtro de suavização, ou filtros colaborativos, ou qualquer combinação dos mesmos. Embora a unidade de filtro de repetição 220 seja mostrada na FIG. 2 como sendo um filtro de repetição, em outras configurações, a unidade de filtro de repetição 220 pode ser implementada como um filtro pós-repetição. O bloco filtrado 221 também pode ser referido como bloco reconstruído filtrado 221.
[0085] As modalidades do codificador de vídeo 20 (respectivamente unidade de filtro de repetição 220) podem ser configuradas para emitir parâmetros de filtro de repetição (tais como informações de deslocamento adaptativo de amostra), por exemplo, diretamente ou codificado por meio da unidade de codificação de entropia 270, de modo que, por exemplo, um decodificador 30 pode receber e aplicar os mesmos parâmetros de filtro de repetição ou respectivos filtros de repetição para decodificação.
Armazenamento Temporário de imagem decodificada
[0086] O armazenamento temporário de imagem decodificada (DPB) 230 pode ser uma memória que armazena imagens de referência, ou em dados de imagem de referência geral, para codificar dados de vídeo pelo codificador de vídeo 20. O DPB 230 pode ser formado por qualquer um de uma variedade de dispositivos de memória, como memória de acesso aleatório dinâmica (DRAM), incluindo DRAM síncrona (SDRAM), RAM magneto-resistiva (MRAM), RAM resistiva (RRAM), ou outros tipos de dispositivos de memória. O armazenamento temporário de imagem decodificada (DPB) 230 pode ser configurado para armazenar um ou mais blocos filtrados 221. O armazenamento temporário de imagem decodificada 230 pode ser ainda configurado para armazenar outros blocos previamente filtrados, por exemplo, blocos previamente reconstruídos e filtrados 221, da mesma imagem atual ou de imagens diferentes, por exemplo, imagens previamente reconstruídas, e pode fornecer imagens previamente reconstruídas completas, isto é, decodificadas, imagens (e blocos de referência e amostras correspondentes) e / ou uma imagem atual parcialmente reconstruída (e blocos de referência e amostras correspondentes), por exemplo, para interpredição. O armazenamento temporário de imagem decodificada (DPB) 230 também pode ser configurado para armazenar um ou mais blocos reconstruídos não filtrados 215 ou, em geral, amostras reconstruídas não filtradas, por exemplo, se o bloco reconstruído 215 não for filtrado pela unidade de filtro de repetição 220 ou qualquer outra versão processada adicionalmente dos blocos reconstruídos ou amostras.
Seleção de modo (Particionamento e Predição)
[0087] A unidade de seleção de modo 260 compreende unidade de particionamento 262, unidade de interpredição 244 e unidade de intrapredição 254, e é configurada para receber ou obter dados de imagem original, por exemplo, um bloco original 203 (bloco atual 203 da imagem atual 17), e dados de imagem reconstruída, por exemplo, amostras reconstruídas filtradas e / ou não filtradas ou blocos da mesma imagem (atual) e / ou de uma ou uma pluralidade de imagens previamente decodificadas, por exemplo, do armazenamento temporário de imagem decodificada 230 ou outros armazenamentos temporários (por exemplo, armazenamento temporário em linha, não mostrado). Os dados de imagem reconstruídos são usados como dados de imagem de referência para predição, por exemplo, interpredição ou intrapredição, para obter um bloco de predição 265 ou preditor 265.
[0088] A unidade de seleção de modo 260 pode ser configurada para determinar ou selecionar um particionamento para um modo de predição de bloco atual (incluindo sem particionamento) e um modo de predição (por exemplo, um modo intrapredição ou interpredição) e gerar um bloco de predição correspondente 265, que é usado para o cálculo do bloco residual 205 e para a reconstrução do bloco reconstruído 215.
[0089] As modalidades da unidade de seleção de modo 260 podem ser configuradas para selecionar o particionamento e o modo de predição (por exemplo, daqueles suportados por ou disponíveis para a unidade de seleção de modo 260), que fornecem a melhor combinação ou em outras palavras, o residual mínimo (residual mínimo significa melhor compactação para transmissão ou armazenamento), ou um overhead de sinalização mínima (overhead de sinalização mínima significa melhor compactação para transmissão ou armazenamento), ou que considera ou equilibra ambos. A unidade de seleção de modo 260 pode ser configurada para determinar o modo de particionamento e predição com base na otimização de distorção de taxa (RDO), ou seja, selecionar o modo de predição que fornece uma distorção de taxa mínima. Termos como "melhor", "mínimo", "ótimo"etc., neste contexto, não se referem necessariamente a um "melhor", "mínimo", "ótimo"geral, etc., mas também podem se referir ao cumprimento de uma rescisão ou critério de seleção como um valor excedendo ou caindo abaixo de um limiar ou outras restrições levando potencialmente a uma "seleção sub-ótima", mas reduzindo a complexidade e o tempo de processamento.
[0090] Em outras palavras, a unidade de particionamento 262 pode ser configurada para particionar o bloco 203 em partições de bloco menores ou sub-blocos (que formam novamente blocos), por exemplo, iterativamente usando particionamento de quad-tree (QT), particionamento binário (BT) ou particionamento de árvore tripla (TT), ou qualquer combinação dos mesmos, e para realizar, por exemplo, a predição para cada uma das partições de bloco ou sub-blocos, em que a seleção de modo compreende a seleção da estrutura de árvore do bloco particionado 203 e os modos de predição são aplicados a cada uma das partições de bloco ou sub- blocos.
[0091] A seguir, o particionamento (por exemplo, por unidade de particionamento 260) e processamento de predição (por unidade de interpredição 244 e unidade de intrapredição 254) realizado por um codificador de vídeo de exemplo 20 será explicado em mais detalhes.
Particionamento
[0092] A unidade de particionamento 262 pode particionar (ou dividir) um bloco atual 203 em partições menores, por exemplo, blocos menores de tamanho quadrado ou retangular. Esses blocos menores (que também podem ser chamados de sub- blocos) podem ser posteriormente particionados em partições ainda menores. Isso também é referido como particionamento de árvore ou particionamento de árvore hierárquica, em que um bloco raiz, por exemplo, no nível de árvore raiz 0 (nível de hierarquia 0, profundidade 0), pode ser particionado recursivamente, por exemplo, particionado em dois ou mais blocos de um próximo nível de árvore inferior, por exemplo, nós no nível de árvore 1 (nível de hierarquia 1, profundidade 1), em que esses blocos podem ser novamente particionados em dois ou mais blocos de um próximo nível inferior, por exemplo, nível de árvore 2 (nível de hierarquia 2, profundidade 2), etc., até que o particionamento seja encerrado, por exemplo, porque um critério de encerramento é atendido, por exemplo, uma profundidade máxima da árvore ou tamanho mínimo do bloco é alcançado. Os blocos que não são particionados posteriormente também são chamados de blocos-folha ou nós-folha da árvore. Uma árvore que usa particionamento em duas partições é chamada de árvore binária (BT), uma árvore que usa particionamento em três partições é chamada de árvore ternária (TT), e uma árvore que usa particionamento em quatro partições é chamada de quad-tree (QT).
[0093] Como mencionado antes, o termo "bloco", conforme usado neste documento, pode ser uma parte, em particular uma parte quadrada ou retangular, de uma imagem. Com referência, por exemplo, a HEVC e VVC, o bloco pode ser ou corresponder a uma unidade de árvore de codificação (CTU), uma unidade de codificação (CU), unidade de predição (PU) e unidade de transformada (TU) e / ou para o blocos correspondentes, por exemplo, um bloco de árvore de codificação (CTB), um bloco de codificação (CB), um bloco de transformada (TB) ou bloco de predição (PB).
[0094] Por exemplo, uma unidade de árvore de codificação (CTU) pode ser ou compreender um CTB de amostras de luma, dois CTBs correspondentes de amostras de croma de uma imagem que tem três matrizes de amostra, ou um CTB de amostras de uma imagem monocromática ou uma imagem que é codificada usando três planos de cores separados e estruturas de sintaxe usadas para codificar as amostras. Correspondentemente, um bloco de árvore de codificação (CTB) pode ser um bloco NxN de amostras para algum valor de N de modo que a divisão de um componente em CTBs seja um particionamento. Uma unidade de codificação (CU) pode ser ou compreender um bloco de codificação de amostras de luma, dois blocos de codificação correspondentes de amostras de croma de uma imagem que tem três matrizes de amostra, ou um bloco de codificação de amostras de uma imagem monocromática ou uma imagem que é codificada usando três planos de cores separados e estruturas de sintaxe usados para codificar as amostras. Correspondentemente, um bloco de codificação (CB) pode ser um bloco MxN de amostras para alguns valores de M e N de modo que a divisão de um CTB em blocos de codificação seja um particionamento.
[0095] Em modalidades, por exemplo, de acordo com HEVC, uma unidade de árvore de codificação (CTU) pode ser dividida em CUs usando uma estrutura de quad-tree denotada como árvore de codificação. A decisão de codificar uma área de imagem usando predição interimagem (temporal) ou intra-imagem (espacial) é feita no nível de CU. Cada CU pode ser dividido em um, dois ou quatro PUs de acordo com o tipo de divisão PU. Dentro de uma PU, o mesmo processo de predição é aplicado e as informações relevantes são transmitidas ao decodificador com base na PU. Após obter o bloco residual aplicando o processo de predição com base no tipo de divisão de PU, uma CU pode ser particionada em unidades de transformada (TUs) de acordo com outra estrutura de quadtree semelhante à árvore de codificação para a CU.
[0096] Em modalidades, por exemplo, de acordo com o padrão de codificação de vídeo mais recente atualmente em desenvolvimento, que é referido como Codificação de Vídeo Versátil (VVC), o particionamento de quad-tree e árvore binária (QTBT) é usado para particionar um bloco de codificação. Na estrutura de bloco QTBT, uma CU pode ter uma forma quadrada ou retangular. Por exemplo, uma unidade de árvore de codificação (CTU) é primeiro particionada por uma estrutura quadtree. Os nós folha de quadtreesão posteriormente particionados por uma árvore binária ou estrutura de árvore ternária (ou tripla). Os nós folha da árvore de particionamento são chamados de unidades de codificação (CUs), e essa segmentação é usada para predição e processamento de transformada sem qualquer particionamento adicional. Isso significa que CU, PU e TU têm o mesmo tamanho de bloco na estrutura do bloco de codificação QTBT. Paralelamente, a partição múltipla, por exemplo, partição em árvore tripla, também foi proposta para ser usada em conjunto com a estrutura de blocos QTBT.
[0097] Em um exemplo, a unidade de seleção de modo 260 do codificador de vídeo 20 pode ser configurada para realizar qualquer combinação das técnicas de particionamento aqui descritas.
[0098] Conforme descrito acima, o codificador de vídeo 20 é configurado para determinar ou selecionar o melhor ou um modo de predição ideal a partir de um conjunto de modos de predição (pré-determinados). O conjunto de modos de predição pode compreender, por exemplo, modos de intrapredição e / ou modos de interpredição.
Intrapredição
[0099] O conjunto de modos de intrapredição pode compreender 35 modos de intrapredição diferentes, por exemplo, modos não direcionais como modo DC (ou médio) e modo planar, ou modos direcionais, por exemplo, conforme definido em HEVC, ou pode compreender 67 modos de modos de intrapredição diferentes, por exemplo, modos não direcionais como modo DC (ou média) e modo planar, ou modos direcionais, por exemplo, conforme definido para VVC.
[0100] A unidade de intrapredição 254 é configurada para usar amostras reconstruídas de blocos vizinhos da mesma imagem atual para gerar um bloco de intrapredição 265 de acordo com um modo de intrapredição do conjunto de modos de intrapredição.
[0101] A unidade de intrapredição 254 (ou, em geral, a unidade de seleção de modo 260) é ainda configurada para emitir parâmetros de intrapredição (ou em informações gerais indicativas do modo de intrapredição selecionado para o bloco) para a unidade de codificação de entropia 270 na forma de elementos de sintaxe 266 para inclusão nos dados de imagem codificados 21, de modo que, por exemplo, o decodificador de vídeo 30 possa receber e usar os parâmetros de predição para decodificação.
Interpredição
[0102] O conjunto de (ou possíveis) modos de interpredição depende das imagens de referência disponíveis (ou seja, imagens anteriores pelo menos parcialmente decodificadas, por exemplo, armazenadas em DBP 230) e outros parâmetros de interpredição, por exemplo, se a imagem de referência inteira ou apenas uma parte, por exemplo, uma área de janela de pesquisa em torno da área do bloco atual, da imagem de referência é usada para pesquisar a melhor combinação de bloco de referência, e / ou por exemplo, se a interpolação de pixel é aplicada, por exemplo, interpolação de meio / semi-pel e / ou quarto de pel, ou não.
[0103] Além dos modos de predição acima, o modo de salto e / ou o modo direto podem ser aplicados.
[0104] A unidade de interpredição 244 pode incluir uma unidade de estimativa de movimento (ME) e uma unidade de compensação de movimento (MC) (ambas não mostradas na FIG.2). A unidade de estimativa de movimento pode ser configurada para receber ou obter o bloco de imagem 203 (bloco de imagem atual 203 da imagem atual 17) e uma imagem decodificada 231, ou pelo menos um ou uma pluralidade de blocos previamente reconstruídos, por exemplo, blocos reconstruídos de uma ou uma pluralidade de outras / diferentes imagens previamente decodificadas 231, para estimativa de movimento. Por exemplo, uma sequência de vídeo pode compreender a imagem atual e as imagens previamente decodificadas 231, ou em outras palavras, a imagem atual e as imagens previamente decodificadas 231 podem fazer parte de ou formar uma sequência de imagens formando uma sequência de vídeo.
[0105] O codificador 20 pode, por exemplo, ser configurado para selecionar um bloco de referência de uma pluralidade de blocos de referência das mesmas ou diferentes imagens da pluralidade de outras imagens e fornecer uma imagem de referência (ou índice de imagem de referência) e / ou um deslocamento (deslocamento espacial) entre a posição (coordenadas x, y) do bloco de referência e a posição do bloco atual como parâmetros de interpredição para a unidade de estimativa de movimento. Este deslocamento também é chamado de vetor de movimento (MV).
[0106] A unidade de compensação de movimento é configurada para obter, por exemplo, receber um parâmetro de interpredição e realizar interpredição com base em ou usando o parâmetro de interpredição para obter um bloco de interpredição 265. A compensação de movimento, realizada pela unidade de compensação de movimento, pode envolver buscar ou gerar o bloco de predição com base no vetor de movimento / bloco determinado pela estimativa de movimento, possivelmente realizando interpolações para precisão de subpixel. A filtragem de interpolação pode gerar amostras de pixel adicionais a partir de amostras de pixel conhecidas, aumentando assim potencialmente o número de blocos de predição candidatos que podem ser usados para codificar um bloco de imagem. Ao receber o vetor de movimento para o PU do bloco de imagem atual, a unidade de compensação de movimento pode localizar o bloco de predição para o qual o vetor de movimento aponta em uma das listas de imagens de referência.
[0107] A unidade de compensação de movimento também pode gerar elementos de sintaxe associados aos blocos e à fatia de vídeo para uso pelo decodificador de vídeo 30 na decodificação dos blocos de imagem da fatia de vídeo.
Codificação de Entropia
[0108] A unidade de codificação de entropia 270 é configurada para aplicar, por exemplo, um algoritmo ou esquema de codificação de entropia (por exemplo, um esquema de codificação de comprimento variável (VLC), um esquema VLC adaptativo de contexto (CAVLC), um esquema de codificação aritmética, uma binarização, uma codificação aritmética binária adaptativa ao contexto (CABAC), codificação aritmética binária adaptativa ao contexto baseada em sintaxe (SBAC), codificação de entropia de particionamento de intervalo de probabilidade (PIPE), ou outra metodologia ou técnica de codificação de entropia ou desvio (sem compactação) nos coeficientes quantizados 209, parâmetros de interpredição, parâmetros de intrapredição, parâmetros de filtro de repetição e / ou outros elementos de sintaxe para obter dados de imagem codificados 21 que podem ser emitidos através da saída 272, por exemplo, na forma de um fluxo de bits codificado 21, de modo que, por exemplo, o decodificador de vídeo 30 possa receber e usar os parâmetros para decodificação. O fluxo de bits codificado 21 pode ser transmitido para o decodificador de vídeo 30 ou armazenado em uma memória para transmissão posterior ou recuperação pelo decodificador de vídeo 30.
[0109] Outras variações estruturais do codificador de vídeo 20 podem ser usadas para codificar o fluxo de vídeo. Por exemplo, um codificador não baseado em transformada 20 pode quantizar o sinal residual diretamente sem a unidade de processamento de transformada 206 para certos blocos ou quadros. Em outra implementação, um codificador 20 pode ter a unidade de quantização 208 e a unidade de quantização inversa 210 combinadas em uma única unidade.
Método de decodificador e decodificação
[0110] A FIG. 3 mostra um exemplo de um decodificador de vídeo 30 que está configurado para implementar as técnicas do presente pedido. O decodificador de vídeo 30 é configurado para receber dados de imagem codificados 21 (por exemplo, fluxo de bits codificado 21), por exemplo, codificados pelo codificador 20, para obter uma imagem decodificada 331. Os dados de imagem codificados ou fluxo de bits compreende informações para decodificar os dados de imagem codificados, por exemplo, dados que representam blocos de imagem de uma fatia de vídeo codificada e elementos de sintaxe associados.
[0111] No exemplo da FIG. 3, o decodificador 30 compreende uma unidade de decodificação de entropia 304, uma unidade de quantização inversa 310, uma unidade de processamento de transformada inversa 312, uma unidade de reconstrução 314 (por exemplo, um somador 314), um filtro de repetição 320, um armazenamento temporário de imagem decodificada (DBP) 330, uma unidade de interpredição 344 e uma unidade de intrapredição 354. A unidade de interpredição 344 pode ser ou incluir uma unidade de compensação de movimento. O decodificador de vídeo 30 pode, em alguns exemplos, realizar uma passagem de decodificação geralmente recíproca para a passagem de codificação descrita em relação ao codificador de vídeo 100 da FIG. 2.
[0112] Conforme explicado em relação ao codificador 20, a unidade de quantização inversa 210, a unidade de processamento de transformada inversa 212, a unidade de reconstrução 214, o filtro de repetição 220, o armazenamento temporário de imagem decodificada (DPB) 230, a unidade de interpredição 344 e a unidade de intrapredição 354 também são referidos como formando o "decodificador embutido" do codificador de vídeo 20. Consequentemente, a unidade de quantização inversa 310 pode ser idêntica em função à unidade de quantização inversa 110, a unidade de processamento de transformada inversa 312 pode ser idêntica em função à unidade de processamento de transformada inversa 212, a unidade de reconstrução 314 pode ser idêntica em função à unidade de reconstrução 214, o filtro de repetição 320 pode ser idêntico em função ao filtro de repetição 220 e o armazenamento temporário de imagem decodificada 330 pode ser idêntico em função ao armazenamento temporário de imagem decodificada 230. Portanto, as explicações fornecidas para as respectivas unidades e funções do codificador de vídeo 20 se aplicam correspondentemente às respectivas unidades e funções do decodificador de vídeo 30.
Decodificação de entropia
[0113] A unidade de decodificação de entropia 304 é configurada para analisar o fluxo de bits 21 (ou em dados de imagem codificados em geral 21) e realizar, por exemplo, decodificação de entropia para os dados de imagem codificados 21 para obter, por exemplo, coeficientes quantizados 309 e / ou parâmetros de codificação decodificados (não mostrado na FIG. 3), por exemplo, qualquer ou todos os parâmetros de interpredição (por exemplo, índice de imagem de referência e vetor de movimento), parâmetro de intrapredição (por exemplo, modo de intrapredição ou índice), parâmetros de transformada, parâmetros de quantização, parâmetros de filtro de repetição e / ou outros elementos de sintaxe. A unidade de decodificação de entropia 304 pode ser configurada para aplicar os algoritmos ou esquemas de decodificação correspondentes aos esquemas de codificação, conforme descrito em relação à unidade de codificação de entropia 270 do codificador 20. A unidade de decodificação de entropia 304 pode ser ainda configurada para fornecer parâmetros de interpredição, parâmetro de intrapredição e / ou outros elementos de sintaxe para a unidade de seleção de modo 360 e outros parâmetros para outras unidades do decodificador 30. O decodificador de vídeo 30 pode receber os elementos de sintaxe no nível de fatia de vídeo e / ou nível de bloco de vídeo.
Quantização Inversa
[0114] A unidade de quantização inversa 310 pode ser configurada para receber parâmetros de quantização (QP) (ou em informações gerais relacionadas à quantização inversa) e coeficientes quantizados dos dados de imagem codificados 21 (por exemplo, por análise e / ou decodificação, por exemplo, por unidade de decodificação de entropia 304 ) e aplicar com base nos parâmetros de quantização uma quantização inversa nos coeficientes quantizados decodificados 309 para obter coeficientes desquantizados 311, que também podem ser referidos como coeficientes de transformada 311. O processo de quantização inversa pode incluir o uso de um parâmetro de quantização determinado pelo codificador de vídeo 20 para cada bloco de vídeo na fatia de vídeo para determinar um grau de quantização e, da mesma forma, um grau de quantização inversa que deve ser aplicado.
TransformadaInversa
[0115] A unidade de processamento de transformada inversa 312 pode ser configurada para receber coeficientes desquantizados 311, também referidos como coeficientes de transformada 311, e para aplicar uma transformada aos coeficientes desquantizados 311 a fim de obter blocos residuais reconstruídos 213 no domínio de amostra. Os blocos residuais reconstruídos 213 também podem ser referidos como blocos de transformada 313. A transformada pode ser uma transformada inversa, por exemplo, um DCT inverso, um DST inverso, uma transformada inteira inversa ou um processo de transformada inversa conceitualmente semelhante. A unidade de processamento de transformada inversa 312 pode ainda ser configurada para receber parâmetros de transformada ou informações correspondentes dos dados de imagem codificados 21 (por exemplo, por análise e / ou decodificação, por exemplo, por unidade de decodificação de entropia 304) para determinar a transformada a ser aplicada aos coeficientes desquantizados 311.
Reconstrução
[0116] A unidade de reconstrução 314 (por exemplo, adicionador ou somador 314) pode ser configurada para adicionar o bloco residual reconstruído 313, ao bloco de predição 365 para obter um bloco reconstruído 315 no domínio de amostra, por exemplo, adicionando os valores de amostra do bloco residual reconstruído 313 e os valores de amostra do bloco de predição 365.
Filtragem
[0117] A unidade de filtro de repetição 320 (ou na repetição de codificação ou após a repetição de codificação) é configurada para filtrar o bloco reconstruído 315 para obter um bloco filtrado 321, por exemplo, para suavizar as transições de pixel, ou de outra forma melhorar a qualidade de vídeo. A unidade de filtro de repetição 320 pode compreender um ou mais filtros de repetição, como um filtro de desbloqueio, um filtro de deslocamento adaptativo de amostra (SAO) ou um ou mais outros filtros, por exemplo, um filtro bilateral, um filtro de repetição adaptativo (ALF), um filtro de nitidez, filtro de suavização, ou filtros colaborativos, ou qualquer combinação dos mesmos. Embora a unidade de filtro de repetição 320 seja mostrada na FIG. 3 como sendo um filtro de repetição, em outras configurações, a unidade de filtro de repetição 320 pode ser implementada como um filtro pós-repetição.
Armazenamento Temporário de imagem decodificada
[0118] Os blocos de vídeo decodificados 321 de uma imagem são então armazenados no armazenamento temporário de imagem decodificada 330, que armazena as imagens decodificadas 331 como imagens de referência para compensação de movimento subsequente para outras imagens e / ou para exibição de saída, respectivamente.
[0119] O decodificador 30 é configurado para emitir a imagem decodificada 311, por exemplo, através da saída 312, para apresentação ou visualização a um usuário.
Predição
[0120] A unidade de interpredição 344 pode ser idêntica à unidade de interpredição 244 (em particular para a unidade de compensação de movimento) e a unidade de intrapredição 354 pode ser idêntica à unidade de interpredição 254 em função, e realiza decisões de divisão ou particionamento e predição com base nos parâmetros de particionamento e / ou predição ou respectiva informação recebida dos dados de imagem codificados 21 (por exemplo, por análise e / ou decodificação, por exemplo, por unidade de decodificação de entropia 304). A unidade de seleção de modo 360 pode ser configurada para realizar a predição (intrapredição ou interpredição) por bloco com base em imagens reconstruídas, blocos ou amostras respectivas (filtradas ou não filtradas) para obter o bloco de predição 365.
[0121] Quando a fatia de vídeo é codificada como uma fatia intracodificada (I), a unidade de intrapredição 354 da unidade de seleção de modo 360 é configurada para gerar o bloco de predição 365 para um bloco de imagem da fatia de vídeo atual com base em um modo de intrapredição sinalizado e dados de blocos previamente decodificados da imagem atual. Quando a imagem de vídeo é codificada como uma fatia intercodificada (ou seja, B ou P), a unidade de interpredição 344 (por exemplo, unidade de compensação de movimento) da unidade de seleção de modo 360 é configurada para produzir blocos de predição 365 para um bloco de vídeo da fatia de vídeo atual com base nos vetores de movimento e outros elementos de sintaxe recebidos da unidade de decodificação de entropia 304. Para interpredição, os blocos de predição podem ser produzidos a partir de uma das imagens de referência dentro de uma das listas de imagens de referência. O decodificador de vídeo 30 pode construir as listas de quadros de referência, Lista 0 e Lista 1, usando técnicas de construção padrão com base em imagens de referência armazenadas no DPB 330.
[0122] A unidade de seleção de modo 360 é configurada para determinar as informações de predição para um bloco de vídeo da fatia de vídeo atual, analisando os vetores de movimento e outros elementos de sintaxe, e usa as informações de predição para produzir os blocos de predição para o bloco de vídeo atual sendo decodificado. Por exemplo, a unidade de seleção de modo 360 usa alguns dos elementos de sintaxe recebidos para determinar um modo de predição (por exemplo, intrapredição ou interpredição) usado para codificar os blocos de vídeo da fatia de vídeo, um tipo de fatia de interpredição (por exemplo, fatia B, fatia P, ou fatia GPB), informações de construção para uma ou mais das listas de imagens de referência para a fatia, vetores de movimento para cada bloco de vídeo intercodificado da fatia, estado de interpredição para cada bloco de vídeo intercodificado da fatia, e outras informações para decodificar os blocos de vídeo na fatia de vídeo atual.
[0123] Outras variações do decodificador de vídeo 30 podem ser usadas para decodificar os dados de imagem codificados 21. Por exemplo, o decodificador 30 pode produzir o fluxo de vídeo de saída sem a unidade de filtragem de repetição 320. Por exemplo, um decodificador 30 não baseado em transformada pode quantificar inversamente o sinal residual diretamente sem a unidade de processamento de transformada inversa 312 para certos blocos ou quadros. Em outra implementação, o decodificador de vídeo 30 pode ter a unidade de quantização inversa 310 e a unidade de processamento de transformada inversa 312 combinadas em uma única unidade.
[0124] Deve ser entendido que, no codificador 20 e no decodificador 30, um resultado de processamento de uma etapa atual pode ser posteriormente processado e, em seguida, enviado para a próxima etapa. Por exemplo, após a filtragem de interpolação, derivação de vetor de movimento ou filtragem de repetição, uma operação adicional, como recorte ou desvio, pode ser realizada no resultado do processamento da filtragem de interpolação, derivação de vetor de movimento ou filtragem de repetição.
[0125] Deve-se notar que outras operações podem ser aplicadas aos vetores de movimento derivados do bloco atual (incluindo, mas não se limitando a vetores de movimento de ponto de controle de modo afim, vetores de movimento de sub- bloco em modo afim, planar, ATMVP, vetores de movimento temporais, e assim por diante). Por exemplo, o valor do vetor de movimento é restrito a um intervalo predefinido de acordo com seu bit de representação. Se o bit representativo do vetor de movimento for bitDepth, então o intervalo é -2 A (bitDepth-1) ~ 2 A (bitDepth-1) -1, onde “A” significa exponenciação. Por exemplo, se bitDepth for definido igual a 16, o intervalo é -32768 ~ 32767; se bitDepth for definido como 18, o intervalo é -131072 ~ 131071. Aqui estão dois métodos para restringir o vetor de movimento.
[0126] Método 1: remover o excesso MSB (bit mais significativo) fluindo operações
[0127] Por exemplo, se o valor de mvx for -32769, após a aplicação da fórmula (1) e (2), o valor resultante será 32767. No sistema de computador, os números decimais são armazenados como complemento de dois. O complemento de dois de -32769 é 1,0111,1111,1111,1111 (17 bits), então o MSB é descartado, então o complemento de dois resultante é 0111,1111,1111,1111 (número decimal é 32767), que é o mesmo como saída aplicando a fórmula (1) e (2).
[0128]
[0129] As operações podem ser aplicadas durante a soma de mvp e mvd, conforme demonstrado nas fórmulas (5) a (8).
[0130] Método 2: remover o excesso MSB recortando o valor
[0131] FIG. 4 é um diagrama esquemático de um dispositivo de codificação de vídeo 400 de acordo com uma modalidade da divulgação. O dispositivo de codificação de vídeo 400 é adequado para implementar as modalidades divulgadas conforme descrito neste documento. Em uma modalidade, o dispositivo de codificação de vídeo 400 pode ser um decodificador, como o decodificador de vídeo 30 da FIG. 1A ou um codificador, como o codificador de vídeo 20 da FIG. 1A.
[0132] O dispositivo de codificação de vídeo 400 compreende portas de ingresso 410 (ou portas de entrada 410) e unidades receptoras (Rx) 420 para receber dados; um processador, unidade lógica ou unidade central de processamento (CPU) 430 para processar os dados; unidades transmissoras (Tx) 440 e portas de egresso 450 (ou portas de saída 450) para transmitir os dados; e uma memória 460 para armazenar os dados. O dispositivo de codificação de vídeo 400 também pode compreender componentes ópticos para elétricos (OE) e componentes elétricos para ópticos (EO) acoplados às portas de ingresso 410, unidades receptoras 420, unidades transmissoras 440 e portas de egresso 450 para egresso ou ingresso de sinais ópticos ou elétricos.
[0133] O processador 430 é implementado por hardware e software. O processador 430 pode ser implementado como um ou mais chips CPU, núcleos (por exemplo, como um processador multi-núcleo), FPGAs, ASICs e DSPs. O processador 430 está em comunicação com as portas de ingresso 410, unidades de recebimento 420, unidades transmissoras 440, portas de egresso 450 e memória 460. O processador 430 compreende um módulo de codificação 470. O módulo de codificação 470 implementa as modalidades divulgadas descritas acima. Por exemplo, o módulo de codificação 470 implementa, processa, prepara ou fornece as várias operações de codificação. A inclusão do módulo de codificação 470, portanto, fornece uma melhoria substancial para a funcionalidade do dispositivo de codificação de vídeo 400 e efetua uma transformação do dispositivo de codificação de vídeo 400 para um estado diferente. Alternativamente, o módulo de codificação 470 é implementado como instruções armazenadas na memória 460 e executadas pelo processador 430.
[0134] A memória 460 pode compreender um ou mais discos, unidades de fita e unidades de estado sólido e pode ser usada como um dispositivo de armazenamento de dados de fluxo excessivo, para armazenar programas quando tais programas são selecionados para execução e para armazenar instruções e dados que são lidos durante a execução do programa. A memória 460 pode ser, por exemplo, volátil e / ou não volátil e pode ser uma memória somente leitura (ROM), memória de acesso aleatório (RAM), memória endereçável por conteúdo ternário (TCAM) e / ou memória de acesso aleatória estática (SRAM).
[0135] A FIG. 5 é um diagrama de blocos simplificado de um aparelho 500 que pode ser usado como um ou ambos o dispositivo de origem 12 e o dispositivo de destino 14 da FIG. 1 de acordo com uma modalidade exemplar.
[0136] Um processador 502 no aparelho 500 pode ser uma unidade central de processamento. Alternativamente, o processador 502 pode ser qualquer outro tipo de dispositivo, ou múltiplos dispositivos, capazes de manipular ou processar informações agora existentes ou desenvolvidas posteriormente. Embora as implementações divulgadas possam ser praticadas com um único processador, como mostrado, por exemplo, o processador 502, vantagens em velocidade e eficiência podem ser alcançadas usando mais de um processador.
[0137] Uma memória 504 no aparelho 500 pode ser um dispositivo de memória somente leitura (ROM) ou um dispositivo de memória de acesso aleatório (RAM) em uma implementação. Qualquer outro tipo adequado de dispositivo de armazenamento pode ser usado como a memória 504. A memória 504 pode incluir código e dados 506 que são acessados pelo processador 502 usando um barramento 512. A memória 504 pode incluir ainda um sistema operacional 508 e programas de aplicativos 510, os programas de aplicativos 510 incluindo pelo menos um programa que permite que o processador 502 realize os métodos descritos aqui. Por exemplo, os programas de aplicativo 510 podem incluir aplicativos de 1 a N, que incluem ainda um aplicativo de codificação de vídeo que realiza os métodos descritos aqui.
[0138] O aparelho 500 também pode incluir um ou mais dispositivos de saída, como uma tela de exibição 518. A tela de exibição 518 pode ser, em um exemplo, uma tela de exibição sensível ao toque que combina uma tela de exibição com um elemento sensível ao toque que é operável para detectar entradas de toque. A tela de exibição 518 pode ser acoplada ao processador 502 por meio do barramento 512.
[0139] Embora representado aqui como um único barramento, o barramento 512 do aparelho 500 pode ser composto de múltiplos barramentos. Além disso, o armazenamento secundário 514 pode ser diretamente acoplado a outros componentes do aparelho 500 ou pode ser acessado por meio de uma rede e pode compreender uma única unidade integrada, como um cartão de memória, ou múltiplas unidades, como múltiplos cartões de memória. O aparelho 500 pode, assim, ser implementado em uma ampla variedade de configurações.
[0140] A precisão do MV derivada do cálculo dos valores intermediários dos vetores de movimento em predição afim foi aumentada de 1/4 no comprimento do pixel para 1/16-ésimo. Este aumento de precisão causa a capacidade de armazenamento da memória para o campo do vetor de movimento de até 18 bits por componente do vetor de movimento. Durante o desenvolvimento do codec de vídeo, cada MV foi armazenado com a granularidade de 4x4 pixels. Posteriormente, poucas tentativas foram feitas para reduzir a capacidade da memória para armazenar informações do vetor de movimento. Uma das propostas sobre a redução da granularidade para o tamanho da grade 8x8 foi adotada. Outra tentativa de reduzir a precisão MV (para armazenamento MV temporal ou o armazenamento temporário em linha local, ou ambos) foi feita em [JVET- L0168] pela simples remoção de MSB (bits mais significativos) dos valores de componente do vetor de movimento, os quais levam à redução de mv representando alcance que poderia reduzir a eficiência de predição e compactação de imagens de tamanho grande e vídeo 360°. Essa representação de 16 bits do vetor de movimento de precisão 1/16-ésimonão é suficiente para codificação de vídeo de resolução de 8K ou superior. As duas outras soluções propõem remover o LSB dos componentes de MV tanto para a direção horizontal quanto vertical e foi tentado remover o MSB / LSB de forma adaptativa com 1 bit adicional para sinalização.
[0141] O objetivo desta invenção é fornecer a solução / método e um dispositivo que pode reduzir a capacidade de memória no armazenamento de informações para derivar uma predição de vetor de movimento temporal mantendo a representação do vetor de movimento e precisão em uma faixa razoável. Manter a precisão em uma faixa razoável implica em alguma redução da precisão, resultando em alguma distorção da representação. Portanto, um resultado da conversão para uma representação de ponto flutuante é um valor distorcido / quantizado / arredondado do MV.
[0142] As soluções atualmente disponíveis operam com valores de 18 bits de cada componente de MV para armazenamento com quadro de referência (FIG. 6, topo). Isso leva ao aumento da memória para armazenar MVs em 12,5% para HW e em 100% para SW. Esta invenção propõe o uso de representação de ponto flutuante binário de 16 bits de valores de componentes de MV para armazenamento dentro do quadro de referência em vez de 18 bits. No entanto, a representação de ponto flutuante de 16 bits é um exemplo e a invenção também inclui representações com menos de 16 bits (uma representação de 10 bits, por exemplo). Além disso, para a modalidade 1, onde MSB são usados como parte de expoente do número flutuante - não há mudança no processamento do codec em relação à solução atual quando a resolução da imagem é pequena.
[0143] O conceito básico da invenção é a representação de ponto flutuante binário de 16 bits dos valores dos componentes de MV para armazenamento dentro do quadro de referência em vez de 18 bits.
[0144] Para reduzir a capacidade de memória para armazenar MVs temporais, mantendo a representação e a precisão MV em uma faixa razoável.
[0145] A fim de resolver os problemas acima, os seguintes aspectos inventivos são divulgados, cada um deles pode ser aplicado individualmente e alguns deles podem ser aplicados em combinação: 1. Para usar a representação de ponto flutuante binário de componentes de MV método A. a parte de expoente pode ser de 3 bits, o que permite ter diferentes precisões de representação de MV de 1/16-ésimo(para comprimento MV até 256 pixels) a 8 pixels (para comprimentos de MV até 32K) método B. outra implementação possível implica 2 bits para a parte de expoente, o que diminui um bit máximo de comprimento MV para 512 (para precisão MV 1/16-ésimo) e para 8K pixels (para precisão MV igual a 1 pixel).
[0146] 2. A representação de ponto flutuante binário pode ser representada em duas implementações possíveis (3 bits nos exemplos são usados para expoente): método A. bits expoentes em MSB do valor do componente de MV, FIG. 6. Com as seguintes etapas de restauração de MV (para o componente X, por exemplo): i. desvio = MVx >> 13 ii. Mvx = MVx & 0x01FFF iii. Mvx << = desvio método B. bits expoentes em LSB do valor do componente de MV FIG. 7. Com as seguintes etapas de restauração de MV (para o componente X, por exemplo): i. desvio = MVx & 0x03 ii. Mvx = MVx >> 3 iii. Mvx << = desvio.
[0147] 3. A abordagem proposta pode ser usada condicionalmente com a indicação do uso deste modo em SPS / PPS / cabeçalho de fatia / cabeçalho de grupo de bloquetes por: método A. o sinalizador especial para indicar o uso de representação de ponto flutuante ou representação HEVC de 16 bits de MV método B. o número de bits para a parte de expoente do valor MV.
[0148] 4. Altere de forma adaptativa o tamanho do expoente, dependendo de: método A. resolução da imagem i. se w < 2K e h < 2K: exp_size é derivado como 0 (não sinalizado) ii. se w < 4K e h < 4K: sinaliza um bit para o valor de desvio iii. caso contrário: sinalizar dois bits para o valor de desvio método B. sinalizado em tamanho de expoente de nível de CTU / CU / Bloco / Unidade método C. uso em Conjuntos de Bloquetes com Restrição de Movimento (MCTS) i. neste caso, o tamanho do Conjunto de Bloquetes pode restringir fortemente o uso de representação de MV de ponto flutuante para resolução de Conjunto de Bloquetes pequena, como no aspecto 4).a desta invenção.
[0149] 5. Os componentes vertical e horizontal do MV podem ter tamanho independente da porção expoente.
[0150] 6. Uma das soluções possíveis onde o valor médio do componente do vetor (meanMVx, meanMVy) é removido dos valores do mesmo componente de cada MV pertencente à mesma CTU / CU / Bloco / Unidade método A. os valores médios de ambos os componentes são armazenados separadamente para cada CTU / CU / Bloco / Unidade. O MV derivado como MVx = meanMVx + Mvx (i, j), MVy = meanMVy + Mvy (i, j) método B. o valor médio de ambos os componentes é armazenado em uma das subunidades de cada CTU / CU / Bloco / Unidade (canto superior esquerdo por exemplo i = 0, j = 0). O MV derivado como MVx = meanMVx + Mvx (i, j), MVy = meanMVy + Mvy (i, j) quando (i! = 0 e j! = 0) e meanMVx = MVx (0,0), meanMVy = MVy (0,0) método C. onde duas soluções acima (6).a e 6).b) com meanMVx e meanMVy na seguinte representação: i. flutuante binário de 16 bits (como solução 1).a) ii. inteiro (16 bits).
[0151] Além disso, a invenção propõe o uso de representação binária de 16 bits de valores de componentes de MV para armazenamento dentro do quadro de referência em vez de 18 bits, em que valores de 16 bits podem ser obtidos a partir dos valores de 18 bits removendo 2 LSB (bits menos significativos) ou 2 MSB (bits mais significativos) dependendo do valor sinalizado no fluxo de bits. A sinalização pode ser pelo mecanismo de sinalização predefinido, conforme descrito em [JVET-L0168].
[0152] Para reduzir a capacidade de memória para armazenar MVs temporais, mantendo a representação e a precisão MV em uma faixa razoável.
[0153] A fim de resolver os problemas acima, os seguintes aspectos inventivos são divulgados, cada um deles pode ser aplicado individualmente e alguns deles podem ser aplicados em combinação: 7. Antes de salvar MV no armazenamento temporário de movimento, os componentes de MV são convertidos de representação binária de 18 bits para representação de 16 bits, usando um dos seguintes métodos, dependendo do valor sinalizado no fluxo de bits: método A. remover dois LSB por desvio para a direita aritmético em dois (como mostrado na FIG. 8) método B. remover dois MSB (por exemplo, recortando na faixa [-215, 215-1]) (como mostrado na FIG. 9).
[0154] A restauração de componentes de MV (conversão de representação binária de 16 bits para 18 bits) é realizada usando as seguintes regras: • se o método A foi usado, o valor de 18 bits é obtido a partir do valor de 16 bits pelo desvio para a esquerda aritmético em 2; • se o método B foi usado, o valor de 18 bits é obtido a partir do valor de 16 bits ajustando 2 MSB (17-ésimo e 18- ésimo bits) para 0 para valores positivos ou 1 para valores negativos.
[0155] 8. Aspecto 7, onde a representação binária de 16 bits não é usada para armazenar informações de movimento da imagem atual. Neste caso, MVs em representação binária de 16 bits são usados, por exemplo, para TMVP (predição de vetor de movimento temporal) e / ou ATMVP (predição de vetor de movimento temporal alternativa).
[0156] 9. Aspecto 8, onde o método de conversão de representação binária de 18 bits para 16 bits de componentes de MV (método A ou método B) é sinalizado em fluxo de bits para cada quadro.
[0157] 10. Aspecto 8, onde o método de conversão de representação binária de 18 bits para 16 bits de componentes de MV (método A ou método B) é sinalizado em fluxo de bits para cada bloquete.
[0158] 11. Aspecto 8, em que o método de conversão de representação binária de 18 bits para 16 bits de componentes de MV (método A ou método B) é sinalizado em fluxo de bits para o grupo de bloquetes.
[0159] 12. Aspecto 8, onde o método de conversão de representação binária de 18 bits para 16 bits de componentes de MV (método A ou método B) é sinalizado em fluxo de bits para cada fatia.
[0160] 13. Aspectos 7-12, onde o método de conversação de 18 bits a 16 bits (método A ou método B) é sinalizado no SPS / PPS / cabeçalho de fatia / cabeçalho de grupo de bloquetes por sinalizador especial.
[0161] 14. Aspectos 7-8, em que o método de conversão de representação binária de 18 bits para 16 bits de componentes de MV selecionados de forma adaptativa com base em: a. resolução da imagem i. se w < 2K e h < 2K: o método B é usado (sem sinalização) ii. caso contrário: sinalize um bit se usar o método A ou B b. sinalizado em nível de CTU / CU / Bloco / Unidade c. uso em Conjuntos de Bloquetes com Restrição de Movimento (MCTS) i. neste caso, o tamanho do Conjunto de Bloquetes pode restringir fortemente o uso do método B para resolução de Conjunto de Bloquetes pequena.
[0162] 15. Os componentes vertical e horizontal do MV podem ter sinalização independente.
[0163] A FIG. 10 mostra um fluxograma de um método de compactação do vetor de movimento geral de acordo com a invenção. O método compreende uma etapa 101 de obtenção de um vetor de movimento temporal; uma etapa 102 de determinação de um vetor de movimento compactado usando uma representação binária do vetor de movimento temporal, em que a representação binária compreende uma parte de expoente e / ou uma parte de mantissa, e em que a parte de expoente compreende N bits, a parte de mantissa compreende M bits, e em que N é um número inteiro não negativo e M é um número inteiro positivo; e uma etapa 103 de realizar uma predição de vetor de movimento temporal (TMVP) usando o vetor de movimento compactado.
[0164] Embora as modalidades do pedido tenham sido descritas principalmente com base na codificação de vídeo, deve-se notar que as modalidades do sistema de codificação 10, codificador 20 e decodificador 30 (e correspondentemente o sistema 10) e as outras modalidades aqui descritas também podem ser configuradas para processamento ou codificação de imagens estáticas, isto é, o processamento ou codificação de uma imagem individual independente de qualquer imagem anterior ou consecutiva como na codificação de vídeo. Em geral, apenas as unidades de interpredição 244 (codificador) e 344 (decodificador) podem não estar disponíveis no caso da codificação de processamento de imagem ser limitada a uma única imagem 17. Todas as outras funcionalidades (também referidas como ferramentas ou tecnologias) do codificador de vídeo 20 e do decodificador de vídeo 30 podem igualmente ser usadas para processamento de imagens estáticas, por exemplo, cálculo residual 204/304, transformada 206, quantização 208, quantização inversa 210/310, transformada (inversa) 212/312, particionamento 262/362, intrapredição 254/354 e / ou filtragem de repetição 220, 320 e codificação de entropia 270 e decodificação de entropia 304.
[0165] As modalidades, por exemplo, do codificador 20 e do decodificador 30, e as funções aqui descritas, por exemplo, com referência ao codificador 20 e ao decodificador 30, podem ser implementadas em hardware, software, firmware ou qualquer combinação dos mesmos. Se implementadas em software, as funções podem ser armazenadas em um meio legível por computador ou transmitidas por meio de comunicação como uma ou mais instruções ou código e executadas por uma unidade de processamento baseada em hardware. O meio legível por computador pode incluir meio de armazenamento legível por computador, o qual corresponde a um meio tangível, como meio de armazenamento de dados ou meio de comunicação, incluindo qualquer meio que facilite a transferência de um programa de computador de um lugar para outro, por exemplo, de acordo com um protocolo de comunicação. Desta maneira, o meio legível por computador geralmente pode corresponder a (1) meio de armazenamento legível por computador tangível que é não transitório ou (2) um meio de comunicação, como um sinal ou onda portadora. O meio de armazenamento de dados pode ser qualquer meio disponível que pode ser acessado por um ou mais computadores ou um ou mais processadores para recuperar instruções, código e / ou estruturas de dados para implementação das técnicas descritas nesta divulgação. Um produto de programa de computador pode incluir um meio legível por computador.
[0166] A título de exemplo, e não limitante, tal meio de armazenamento legível por computador pode compreender RAM, ROM, EEPROM, CD-ROM ou outro armazenamento de disco óptico, armazenamento de disco magnético ou outros dispositivos de armazenamento magnético, memória flash ou qualquer outro meio que pode ser usado para armazenar o código de programa desejado na forma de instruções ou estruturas de dados e que pode ser acessado por um computador. Além disso, qualquer conexão é apropriadamente denominada meio legível por computador. Por exemplo, se as instruções são transmitidas de um website, servidor ou outra origem remota usando um cabo coaxial, cabo de fibra óptica, par trançado, linha de assinante digital (DSL) ou tecnologias sem fio, como infravermelho, rádio e micro-ondas, então o cabo coaxial, cabo de fibra óptica, par trançado, DSL, ou tecnologias sem fio, como infravermelho, rádio e micro-ondas, estão incluídos na definição de meio. Deve ser entendido, no entanto, que os meios de armazenamento legíveis por computador e os meios de armazenamento de dados não incluem conexões, ondas portadoras, sinais ou outros meios transitórios, mas são direcionados para meios de armazenamento tangíveis não transitórios. Disco (Disk) e disco (disc), conforme usado aqui, inclui disco compacto (CD), disco a laser, disco óptico, disco versátil digital (DVD), disquete, e disco Blu-ray, onde os discos (disks) geralmente reproduzem dados magneticamente, enquanto os discos (discs) reproduzem dados opticamente com lasers. As combinações dos itens acima também devem ser incluídas no escopo do meio legível por computador.
[0167] As instruções podem ser executadas por um ou mais processadores, como um ou mais processadores de sinal digital (DSPs), microprocessadores de uso geral, circuitos integrados de aplicação específica (ASICs), matrizes lógicas programáveis em campo (FPGAs) ou outros circuitos lógicos integrados ou discretos equivalentes. Consequentemente, o termo "processador", conforme usado neste documento, pode se referir a qualquer uma das estruturas anteriores ou qualquer outra estrutura adequada para a implementação das técnicas descritas neste documento. Além disso, em alguns aspectos, a funcionalidade aqui descrita pode ser fornecida em módulos de hardware e / ou software dedicados configurados para codificação e decodificação ou incorporados em um codec combinado. Além disso, as técnicas podem ser totalmente implementadas em um ou mais circuitos ou elementos lógicos.
[0168] As técnicas desta divulgação podem ser implementadas em uma ampla variedade de dispositivos ou aparelhos, incluindo um aparelho portátil sem fio, um circuito integrado (IC) ou um conjunto de ICs (por exemplo, um conjunto de chips). Vários componentes, módulos ou unidades são descritos nesta divulgação para enfatizar os aspectos funcionais dos dispositivos configurados para realizar as técnicas divulgadas, mas não necessariamente requerem a realização por diferentes unidades de hardware. Em vez disso, conforme descrito acima, várias unidades podem ser combinadas em uma unidade de hardware de codec ou fornecidas por uma coleção de unidades de hardware interoperativas, incluindo um ou mais processadores, conforme descrito acima, em conjunto com software e / ou firmware adequados.
[0169] Para referência, os seguintes operadores lógicos são definidos da seguinte forma: x? y: z se x for TRUE ou diferente de 0, avalia o valor de y; caso contrário, avalia o valor de z.
[0170] Para referência, os seguintes operadores relacionais são definidos da seguinte forma:
[0171] Quando um operador relacional é aplicado a um elemento ou variável de sintaxe ao qual foi atribuído o valor "na"(não aplicável), o valor "na"é tratado como um valor distinto para o elemento ou variável de sintaxe. O valor "na"não é considerado igual a nenhum outro valor.
[0172] Para referência, os seguintes operadores de Lógica binária são definidos da seguinte forma: &Lógica binária "e". Ao operar com argumentos inteiros, opera em uma representação de complemento de dois do valor inteiro. Ao operar em um argumento binário que contém menos bits do que outro argumento, o argumento mais curto é estendido pela adição de bits mais significativos iguais a 0; | Lógica binária "ou". Ao operar com argumentos inteiros, opera em uma representação de complemento de dois do valor inteiro. Ao operar em um argumento binário que contém menos bits do que outro argumento, o argumento mais curto é estendido pela adição de bits mais significativos iguais a 0; ALógica binária "exclusivo ou". Ao operar com argumentos inteiros, opera em uma representação de complemento de dois do valor inteiro. Ao operar em um argumento binário que contém menos bits do que outro argumento, o argumento mais curto é estendido pela adição de bits mais significativos iguais a 0; x >> y Desvio para a direita aritmético de uma representação inteira de complemento de dois de x por y dígitos binários. Esta função é definida apenas para valores inteiros não negativos de y. Os bits desviados para os bits mais significativos (MSBs) como resultado do desvio para a direita têm um valor igual ao MSB de x antes da operação de desvio; x << y Desvio para a esquerda aritmético de uma representação inteira de complemento de dois de x por y dígitos binários. Esta função é definida apenas para valores inteiros não negativos de y. Os bits desviados para os bits menos significativos (LSBs) como resultado do desvio para a esquerda têm um valor igual a 0.
[0173] Em resumo, a presente divulgação fornece um método de compactação do vetor de movimento, compreendendo: a obtenção de um vetor de movimento temporal; determinar um vetor de movimento compactado usando uma representação binária do vetor de movimento temporal compreendendo uma parte de expoente e / ou uma parte de mantissa, em que a parte de expoente compreende N bits, a parte de mantissa compreende M bits, e em que N é um número inteiro não negativo e M é um número inteiro positivo; e realizar uma predição de vetor de movimento temporal (TMVP) usando o vetor de movimento compactado.

Claims (11)

1. Método de compactação do vetor de movimento, caracterizadopelo fato de que compreende: obter um vetor de movimento temporal; determinar um vetor de movimento compactado do vetor de movimento temporal usando pelo menos uma operação de desvio, uma representação binária do vetor de movimento compactado compreendendo uma parte de expoente ou uma parte de mantissa, em que a parte de expoente compreende N bits, a parte de mantissa compreende M bits, e em que N é um número inteiro não negativo e M é um número inteiro positivo.
2. Método de compactação do vetor de movimento, de acordo com a reivindicação 1, caracterizadopelo fato de que a parte de expoente corresponde ao (s) bit (s) mais significativo (s) (MSB) da representação binária e a parte de mantissa corresponde ao (s) bit (s) menos significativo (s) (LSB) da representação binária; ou, a parte de expoente corresponde ao LSB da representação binária e a parte de mantissa corresponde ao MSB da representação binária.
3. Método de compactação do vetor de movimento, de acordo com a reivindicação 1 ou 2, caracterizadopelo fato de que o vetor de movimento temporal compreende um componente horizontal do vetor de movimento e um componente vertical do vetor de movimento.
4. Método de compactação do vetor de movimento, caracterizadopelo fato de que compreende: codificar um primeiro indicador, em que o primeiro indicador é usado para indicar se o vetor de movimento temporal é compactado de acordo com o método de compactação do vetor de movimento conforme definido em qualquer uma das reivindicações 1 a 3.
5. Método de compactação do vetor de movimento, de acordo com a reivindicação 4, caracterizadopelo fato de que o primeiro indicador está incluído em um conjunto de parâmetros de sequência (SPS), um conjunto de parâmetros de imagem (PPS), um cabeçalho de fatia, ou um cabeçalho de grupo de bloquetes em um fluxo de bits.
6. Meio de armazenamento legível por computador não transitório, caracterizadopelo fato de que armazena instruções para execução por um circuito de processamento, em que as instruções, quando executadas pelo circuito de processamento, configuram o circuito de processamento para realizar o método conforme definido em qualquer uma das reivindicações 1 a 5.
7. Codificador, caracterizadopelo fato de que compreende: circuito configurado para realizar o método conforme definido em qualquer uma das reivindicações 1 a 5.
8. Decodificador, caracterizadopelo fato de que compreende: circuito configurado para realizar o método conforme definido em qualquer uma das reivindicações 1 a 5.
9. Decodificador, caracterizadopelo fato de que compreende: um ou mais processadores; e um meio de armazenamento legível por computador não transitório acoplado aos processadores e armazenando instruções para execução pelos processadores, em que as instruções, quando executadas pelos processadores, configuram o codificador para realizar o método, como definido em qualquer uma das reivindicações 1 a 5.
10. Codificador, caracterizadopelo fato de que compreende: um ou mais processadores; e um meio de armazenamento legível por computador acoplado aos processadores e armazenando instruções para execução pelos processadores, em que as instruções, quando executadas pelos processadores, configuram o decodificador para realizar o método, como definido em qualquer uma das reivindicações 1 a 5.
11. Meio de armazenamento caracterizadopelo fato de que armazena um fluxo de bits codificado para sinais de vídeo, o fluxo de bits codificado, compreende uma pluralidade de elementos de sintaxe, em que a pluralidade de elementos de sintaxe compreende um primeiro indicador, que é usado para indicar se o vetor de movimento temporal está compactado.
BR122023021045-0A 2018-12-29 2019-12-27 Método de compactação do vetor de movimento, meio de armazenamento legível por computador não transitório, codificador, decodificador e meio de armazenamento BR122023021045A2 (pt)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US201862786344P 2018-12-29 2018-12-29
US201862786343P 2018-12-29 2018-12-29
US62/786,343 2018-12-29
US62/786,344 2018-12-29
BR112021009911-5A BR112021009911A2 (pt) 2018-12-29 2019-12-27 codificador, decodificador e métodos correspondentes usando armazenamento de mv compacto
PCT/RU2019/050260 WO2020139172A1 (en) 2018-12-29 2019-12-27 An encoder, a decoder and corresponding methods using compact mv storage

Publications (1)

Publication Number Publication Date
BR122023021045A2 true BR122023021045A2 (pt) 2024-02-27

Family

ID=71126464

Family Applications (3)

Application Number Title Priority Date Filing Date
BR122023021045-0A BR122023021045A2 (pt) 2018-12-29 2019-12-27 Método de compactação do vetor de movimento, meio de armazenamento legível por computador não transitório, codificador, decodificador e meio de armazenamento
BR122023021035-2A BR122023021035A2 (pt) 2018-12-29 2019-12-27 Método de compactação do vetor de movimento, meio de armazenamento legível por computador não transitório, codificador, decodificador e meio de armazenamento
BR112021009911-5A BR112021009911A2 (pt) 2018-12-29 2019-12-27 codificador, decodificador e métodos correspondentes usando armazenamento de mv compacto

Family Applications After (2)

Application Number Title Priority Date Filing Date
BR122023021035-2A BR122023021035A2 (pt) 2018-12-29 2019-12-27 Método de compactação do vetor de movimento, meio de armazenamento legível por computador não transitório, codificador, decodificador e meio de armazenamento
BR112021009911-5A BR112021009911A2 (pt) 2018-12-29 2019-12-27 codificador, decodificador e métodos correspondentes usando armazenamento de mv compacto

Country Status (11)

Country Link
US (2) US11818357B2 (pt)
EP (1) EP3844960A4 (pt)
JP (2) JP2022515003A (pt)
KR (1) KR20210064332A (pt)
CN (6) CN114885166B (pt)
AU (2) AU2019415789A1 (pt)
BR (3) BR122023021045A2 (pt)
CA (1) CA3114341C (pt)
CL (1) CL2021001707A1 (pt)
MX (1) MX2021007840A (pt)
WO (1) WO2020139172A1 (pt)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112055967B (zh) * 2018-04-02 2024-03-26 Lg电子株式会社 基于运动矢量的图像编码方法及其设备
CN112911308B (zh) * 2021-02-01 2022-07-01 重庆邮电大学 一种h.266/vvc的快速运动估计方法及存储介质
CN114040027B (zh) * 2021-10-29 2023-11-24 深圳智慧林网络科技有限公司 一种基于双模式的数据压缩方法、装置和数据解压方法
TWI829589B (zh) * 2023-05-08 2024-01-11 威盛電子股份有限公司 影像處理裝置及其方法

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7088776B2 (en) * 2002-07-15 2006-08-08 Apple Computer, Inc. Method and apparatus for variable accuracy inter-picture timing specification for digital video encoding
GB2401502B (en) * 2003-05-07 2007-02-14 British Broadcasting Corp Data processing
CN101221490B (zh) * 2007-12-20 2010-11-10 清华大学 一种具有数据前送结构的浮点乘加单元
KR101356613B1 (ko) * 2009-08-21 2014-02-06 에스케이텔레콤 주식회사 적응적 움직임 벡터 해상도를 이용한 영상 부호화/복호화 방법 및 장치
KR20120088488A (ko) * 2011-01-31 2012-08-08 한국전자통신연구원 시간적 움직임 벡터 저장 방법 및 그 장치
CN103444182B (zh) 2011-02-09 2017-09-12 Lg电子株式会社 存储运动信息的方法和使用该方法导出时间运动矢量预测值的方法
EP2679012B1 (en) * 2011-02-21 2015-08-26 Dolby Laboratories Licensing Corporation Floating point video coding
RS64604B1 (sr) 2011-06-16 2023-10-31 Ge Video Compression Llc Entropijsko kodiranje razlika vektora kretanja
CN107396101B (zh) * 2012-02-03 2019-12-20 太阳专利托管公司 图像编码方法及图像编码装置
CN104620583A (zh) * 2012-05-14 2015-05-13 卢卡·罗萨托 基于支持信息的残差数据的编码和重构
US20140355665A1 (en) * 2013-05-31 2014-12-04 Altera Corporation Adaptive Video Reference Frame Compression with Control Elements
US9451254B2 (en) 2013-07-19 2016-09-20 Qualcomm Incorporated Disabling intra prediction filtering
WO2015052064A1 (en) * 2013-10-07 2015-04-16 Thomson Licensing Method for coding and decoding floating data of an image block and associated devices
US10305980B1 (en) * 2013-11-27 2019-05-28 Intellectual Property Systems, LLC Arrangements for communicating data in a computing system using multiple processors
US10368097B2 (en) * 2014-01-07 2019-07-30 Nokia Technologies Oy Apparatus, a method and a computer program product for coding and decoding chroma components of texture pictures for sample prediction of depth pictures
US9774881B2 (en) * 2014-01-08 2017-09-26 Microsoft Technology Licensing, Llc Representing motion vectors in an encoded bitstream
US10297001B2 (en) * 2014-12-26 2019-05-21 Intel Corporation Reduced power implementation of computer instructions
US10114554B1 (en) * 2015-01-20 2018-10-30 Intellectual Property Systems, LLC Arrangements for storing more data in faster memory when using a hierarchical memory structure
US9851945B2 (en) * 2015-02-16 2017-12-26 Advanced Micro Devices, Inc. Bit remapping mechanism to enhance lossy compression in floating-point applications
US10999595B2 (en) * 2015-11-20 2021-05-04 Mediatek Inc. Method and apparatus of motion vector prediction or merge candidate derivation for video coding
US10560718B2 (en) * 2016-05-13 2020-02-11 Qualcomm Incorporated Merge candidates for motion vector prediction for video coding
EP3466079B1 (en) * 2016-05-24 2023-07-12 Nokia Technologies Oy Method and an apparatus and a computer program for encoding media content
CN112055967B (zh) * 2018-04-02 2024-03-26 Lg电子株式会社 基于运动矢量的图像编码方法及其设备
KR20200032021A (ko) * 2018-09-17 2020-03-25 한국전자통신연구원 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체
EP3881548B1 (en) * 2018-11-16 2023-08-30 Sharp Kabushiki Kaisha Systems and methods for deriving a motion vector prediction in video coding

Also Published As

Publication number Publication date
BR112021009911A2 (pt) 2021-08-17
JP2023134576A (ja) 2023-09-27
EP3844960A1 (en) 2021-07-07
CN114885166A (zh) 2022-08-09
CN112913236B (zh) 2022-05-31
US20210321113A1 (en) 2021-10-14
CN115209144A (zh) 2022-10-18
WO2020139172A1 (en) 2020-07-02
CN114979638A (zh) 2022-08-30
CL2021001707A1 (es) 2021-12-17
KR20210064332A (ko) 2021-06-02
JP2022515003A (ja) 2022-02-17
CN115348449A (zh) 2022-11-15
CA3114341C (en) 2023-10-17
EP3844960A4 (en) 2021-12-15
US20240040126A1 (en) 2024-02-01
CA3114341A1 (en) 2020-07-02
CN115209144B (zh) 2024-01-02
US11818357B2 (en) 2023-11-14
BR122023021035A2 (pt) 2024-02-27
CN112913236A (zh) 2021-06-04
CN115426494A (zh) 2022-12-02
MX2021007840A (es) 2021-08-11
AU2019415789A1 (en) 2021-05-06
CN114885166B (zh) 2024-04-12
AU2022271494A1 (en) 2022-12-22

Similar Documents

Publication Publication Date Title
WO2020135346A1 (en) An encoder, a decoder and corresponding methods using an adaptive loop filter
BR112021000935A2 (pt) codificador, decodificador e métodos correspondentes usando buffer dedicado de ibc e atualização de valor padrão para componente luma e croma
WO2020211765A1 (en) An encoder, a decoder and corresponding methods harmonzting matrix-based intra prediction and secoundary transform core selection
BR122023021045A2 (pt) Método de compactação do vetor de movimento, meio de armazenamento legível por computador não transitório, codificador, decodificador e meio de armazenamento
BR112021016677A2 (pt) Método e aparelho para predição inter baseada em afim de sub-blocos de croma
BR112021013163A2 (pt) Método e aparelho de predição de bloco de croma
BR112021008016A2 (pt) codificador, decodificador e métodos correspondentes para modo de fusão
BR112021001813A2 (pt) método de processamento de vídeo, aparelho de processamento de vídeo, codificador, decodificador, mídia e programa de computador
BR122023020161A2 (pt) Processo de codificação para modo de partição geométrica
BR112021010286A2 (pt) codificador, decodificador e métodos correspondentes de construção de lista de modos mais prováveis para blocos com predição de múltiplas hipóteses
BR112020025145A2 (pt) filtro de desbloqueio para fronteiras de subpartição causadas por ferramenta de codificação de subpartição intra
CN113597761A (zh) 帧内预测方法和装置
BR112021016270A2 (pt) Método de codificação de vídeo e codificador, decodificador, meio legível por computador
BR112021011723A2 (pt) Método e aparelho de predição intra e codificador, decodificador, programa de computador, mídia de armazenamento não transitória, e fluxo de bits
BR112021009922A2 (pt) Método de construir uma lista de mesclagens candidata para modo de cópia de intrabloco, codificador, decodificador, produto de programa de computador e dispositivo de decodificação de dados de vídeo
AU2020206492B2 (en) Encoder, decoder, non-transitionary computer-readable medium and method of video coding a block of a picture
BR112020026183A2 (pt) Método de codificação de vídeo, codificador, decodificador e produto de programa de computador
BR112021012708A2 (pt) Método e aparelho de modelagem linear de componente cruzado para predição intra
BR112021003946A2 (pt) codificador de vídeo, decodificador de vídeo e métodos correspondentes
CN113727120B (zh) 译码方法、装置、编码器和解码器
BR112021009833A2 (pt) codificador, decodificador e métodos correspondentes para predição inter

Legal Events

Date Code Title Description
B03A Publication of a patent application or of a certificate of addition of invention [chapter 3.1 patent gazette]