BR112014004645B1

BR112014004645B1 - Método de codificação de imagem e aparelho de codificação de imagem

Info

Publication number: BR112014004645B1
Application number: BR112014004645-0A
Authority: BR
Inventors: Takeshi Chujoh; Tomoo Yamakage
Original assignee: Kabushiki Kaisha Toshiba
Priority date: 2011-11-08
Filing date: 2011-11-08
Publication date: 2022-04-26
Also published as: PL3672238T3; SG11201400290XA; AU2011380761B2; MX2014002334A; KR101665921B1; EP4199508A1; US11451808B2; BR112014004645A2; ES2952379T3; JPWO2013069095A1; US20170180747A1; AU2015213328B2; BR122020011581B1; AU2011380761C1; US9843818B2; KR101597059B1; KR20150038621A; US20200267401A1; EP2779647A1; KR101570328B1

Abstract

MÉTODO DE CODIFICAÇÃO DE IMAGEM, MÉTODO DE DECODIFICAÇÃO DE IMAGEM, APARELHO DE CODIFICAÇÃO DE IMAGEM E APARELHO DE DECODIFICAÇÃO DE IMAGEM. A presente invenção refere-se a reduzir uma largura de banda de memória durante codificação de imagem. Um método de codificação de imagem inclui uma etapa de obtenção e uma etapa de geração. A etapa de obtenção inclui obter uma imagem de referência. A etapa de geração inclui gerar uma imagem predita tendo resolução maior que aquela da imagem de referência, ao executar uma interpolação para a imagem de referência obtida de acordo com um vetor de movimento para cada um de o componente de luminância e o componente de diferença de cor. A etapa de geração inclui gerar a imagem predita tendo o componente de diferença de cor sem executar uma interpolação específica que significa o processamento de interpolação no qual um número de pixels a ser acessados na imagem de referência é grande, quando um tamanho de um bloco designado como uma unidade da interpolação é menor que um valor limiar predeterminado.

Description

Campo

[001] Modalidades da presente invenção referem-se a um método de codificação de imagem, um método de decodificação de imagem, um aparelho de codificação de imagem e a um aparelho de decodificação de imagem.

Antecedentes

[002] Em uma técnica de codificação e decodificação de vídeo, uma interpolação de movimento compensado para cada bloco de uma maneira geral é executada. Um sinal de imagem para ser referido é armazenado em uma memória externa; portanto, quando a codificação e decodificação de vídeo são implementadas por hardware, podem existir restrições na quantidade de dados de leitura. Desta maneira, quando uma quantidade de acesso à memória aumenta, uma assim chamada de largura de banda de memória, a qual é um gargalo nas operações de codificação e decodificação, se torna um problema.

[003] Na interpolação de movimento compensado para cada bloco, um processo de filtragem de interpolação usando filtro FIR (Resposta Finita ao Impulso) na direção horizontal e na direção vertical é executado. No processo de filtragem de interpolação, um pixel fora do bloco tem que ser acessado. Quando o número de pixels fora do bloco aumenta, a largura de banda de memória por pixel também aumenta.

[004] Convencionalmente, a largura de banda de memória por pixel tem sido reduzida ao aplicar um filtro de interpolação com um pequeno comprimento de derivação para um bloco com um pequeno tamanho, pelo que a razão dos pixels acessados fora do bloco aumenta relativamente.

Lista de Referências Literatura de Patente

[005] Literatura de Patente 1: Patente Japonesa N°. 4120301.

Sumário Problema Técnico

[006] Entretanto, na técnica convencional, a largura de banda de memória não pode ser reduzida de forma apropriada. Por exemplo, no caso do formato de croma, tal como 4:2:0 ou 4:2:2, no qual o número de amostras do pixel para uma diferença de cor (componente de diferença de cor) é menor que o número de amostras do pixel para luminância (componente de luminância), e a resolução é baixa, a interpolação tem que ser executada de uma tal maneira que a diferença de cor é ampliada mais com a luminância sendo definida como uma referência. Portanto, quando o filtro com mais que duas derivações é usado para a interpolação para a diferença de cor, o processo para o sinal de diferença de cor não pode ser restringido, mesmo se o processo for mudado por bloco de luminância.

Solução Para o Problema

[007] Um método de codificação de imagem de uma modalidade inclui uma etapa de obtenção e uma etapa de geração. A etapa de obtenção inclui obter uma imagem de referência. A etapa de geração inclui gerar uma imagem predita tendo resolução maior que aquela da imagem de referência ao executar, para cada um de o componente de luminância e o componente de diferença de cor, uma interpolação na imagem de referência obtida de acordo com um vetor de movimento. Adicionalmente, a etapa de geração inclui gerar a imagem predita para o componente de diferença de cor sem executar uma interpolação específica que significa a interpolação na qual um número de pixels a ser acessados na imagem de referência é grande, quando um tamanho de um bloco, o qual é designado como uma unidade da interpolação, é menor que um valor limiar predeterminado.

Breve Descrição dos Desenhos

[008] A figura 1 é um diagrama de blocos ilustrando um aparelho de codificação de imagem de acordo com uma modalidade da presente invenção.

[009] A figura 2 é uma vista ilustrando um exemplo de informação de formato de croma.

[0010] A figura 3 é uma vista de um vetor de movimento com um sinal de diferença de cor no formato 4:2:0.

[0011] A figura 4 é uma vista de um vetor de movimento com um sinal de luminância no formato 4:2:0.

[0012] A figura 5 é uma vista de um vetor de movimento com um sinal de diferença de cor no formato 4:2:2.

[0013] A figura 6 é uma vista de um vetor de movimento com um sinal de luminância no formato 4:2:2.

[0014] A figura 7 é uma vista ilustrando um exemplo de pixels que são acessados no formato 4:2:0.

[0015] A figura 8 é uma vista ilustrando um exemplo de pixels que são acessados no formato 4:2:0.

[0016] A figura 9 é uma vista ilustrando um exemplo de pixels que são acessados no formato 4:2:2.

[0017] A figura 10 é um diagrama de blocos ilustrando um aparelho de decodificação de imagem correspondendo ao aparelho de codificação de imagem.

[0018] A figura 11 é um diagrama de blocos ilustrando uma unidade de geração de imagem predita.

[0019] A figura 12 é um fluxograma de controle de acordo com a modalidade.

[0020] A figura 13 é um fluxograma de um processo de reduzir uma largura de banda de memória.

[0021] A figura 14 é um fluxograma de um processo de reduzir uma largura de banda de memória.

[0022] A figura 15 é um fluxograma de um processo de reduzir uma largura de banda de memória.

[0023] A figura 16 é um diagrama ilustrando uma configuração de hardware do aparelho de acordo com a modalidade.

Descrição de Modalidades

[0024] Modalidades preferíveis do método de codificação de imagem, do método de decodificação de imagem, do aparelho de codificação de imagem e do aparelho de decodificação de imagem de acordo com a presente invenção serão descritas a seguir detalhadamente com referência aos desenhos anexos.

[0025] O aparelho de codificação de imagem e o aparelho de decodificação de imagem de acordo com a presente modalidade fazem um controle ao se referir à informação de formato de croma de maneira que uma posição de um pixel indicado por um vetor de movimento em um bloco tendo um tamanho menor que um tamanho predeterminado não está sujeito a uma interpolação para uma diferença de cor, reduzindo assim uma largura de banda de memória.

[0026] A figura 1 é um diagrama de blocos ilustrando um exemplo de uma configuração de um aparelho de codificação de imagem 100 de acordo com a presente modalidade. Tal como ilustrado na figura 1, o aparelho de codificação de imagem 100 inclui uma unidade de subtração 102, uma unidade de transformação/quantização 103, uma unidade de quantização inversa/transformação inversa 104, uma unidade de codificação de entropia 105, uma unidade de adição 106, uma memória de quadro 108, uma unidade de geração de imagem predita 110, uma unidade de controle de predição 112, uma unidade de controle de codificação 113 e uma unidade de pesquisa de vetor de movimento 116.

[0027] O aparelho de codificação de imagem 100 gera os dados codificados 120 a partir do sinal de vídeo de entrada 101. Por exemplo, o sinal de vídeo de entrada 101 é introduzido no aparelho de codificação de imagem 100 em unidades de quadros. O sinal de vídeo de entrada 101 é dividido em um bloco que é um macrobloco.

[0028] A unidade de subtração 102 produz um sinal de erro de predição que é uma diferença entre um sinal de imagem predita 111 gerado pela unidade de geração de imagem predita 110 e o sinal de vídeo de entrada 101.

[0029] A unidade de transformação/quantização 103 executa uma quantização após executar uma transformação ortogonal em sinal de erro de predição com uma transformação discreta de cosseno (DCT), gerando assim informação de coeficiente de transformada quantizada. A informação de coeficiente de transformada quantizada é dividida em duas. Uma da informação dividida é introduzida na unidade de codificação de entropia 105. A outra informação é introduzida na unidade de quantização inversa/transformação inversa 104.

[0030] A unidade de quantização inversa/transformação inversa 104 executa a quantização inversa e transformação inversa na informação de coeficiente de transformada quantizada como o processo inverso ao processamento executado pela unidade de transformação/quantização 103, reproduzindo assim o sinal de erro de predição.

[0031] A unidade de adição 106 soma o sinal de erro de predição e o sinal de imagem predita. De acordo com este processo, um sinal de imagem decodificado 107 é gerado. O sinal de imagem decodificado 107 é introduzido na memória de quadro 108.

[0032] A memória de quadro 108 é uma unidade de memória que armazena na mesma um sinal de imagem de referência. A memória de quadro 108 executa um processo de filtragem ou outro processo no sinal de imagem decodificado 107, e então determina se o sinal de imagem decodificado 107 é armazenado ou não para permitir que o sinal de imagem decodificado 107 se torne o sinal de imagem de referência 109 introduzido na unidade de geração de imagem predita 110. O sinal de imagem de referência 109 é introduzido na unidade de geração de imagem predita 110 e na unidade de pesquisa de vetor de movimento 116.

[0033] A unidade de pesquisa de vetor de movimento 116 gera a informação de vetor de movimento 117 a partir do sinal de vídeo de entrada 101 e do sinal de imagem de referência 109. A informação de vetor de movimento 117 é introduzida na unidade de geração de imagem predita 110, e também é transmitida para a unidade de codificação de entropia 105.

[0034] A unidade de geração de imagem predita 110 gera o sinal de imagem predita 111 a partir do sinal de imagem de referência 109, da informação de controle de predição 118 e da informação de vetor de movimento 117.

[0035] A unidade de controle de codificação 113 introduz a informação de restrição de tamanho de bloco 115 na unidade de controle de predição 112, e transmite a informação de perfil/nível 119 para a unidade de codificação de entropia 105.

[0036] A informação de perfil/nível 119 inclui informação de perfil indicando uma combinação de grupos de ferramentas de codificação, e informação de nível que é informação de restrição do aparelho de codificação de imagem de acordo com a potência de processamento do aparelho de decodificação de imagem. A informação de nível indica uma combinação de restrições de um número máximo de macroblocos por hora, o número máximo de macroblocos por quadro, a faixa de pesquisa máxima de vetor e o número de vetores em dois macroblocos consecutivos.

[0037] Por exemplo, a H.264 especifica informação de perfil tal como um perfil de linha de base, um perfil principal e perfil alto. A H.264 também especifica informação de nível 16.

[0038] Na presente modalidade, parâmetros são especificados usando a informação de perfil/nível. Os parâmetros incluem um parâmetro especificando se o método de redução de largura de banda de memória é aplicado ou não, o valor de restrição do tamanho de bloco (a informação de restrição de tamanho de bloco 115) e um método de restrição. Estes parâmetros podem ser especificados ao usar informação a não ser a informação de perfil/nível.

[0039] A informação de restrição de tamanho de bloco 115 é informação especificando um valor limiar (o valor de restrição do tamanho de bloco) usado para a determinação do tamanho de bloco. Por exemplo, a unidade de controle de codificação 113 estabelece a informação de restrição de tamanho de bloco 115 diferente de acordo com a informação de perfil/nível. A informação de restrição de tamanho de bloco 115 pode ser incluída na informação de perfil/nível.

[0040] A unidade de controle de predição 112 controla a geração de imagem predita executada pela unidade de geração de imagem predita 110 de acordo com a informação de restrição de tamanho de bloco 115 introduzida pela unidade de controle de codificação 113, a informação de formato de croma 114 do sinal de vídeo de entrada 101 e a informação de vetor de movimento 117 introduzida pela unidade de pesquisa de vetor de movimento 116 (o detalhe será descrito mais tarde). A unidade de controle de predição 112 gera a informação de controle de predição 118 usada para o controle da geração de imagem predita. A informação de controle de predição 118 é introduzida na unidade de geração de imagem predita 110, e também é transmitida para a unidade de codificação de entropia 105.

[0041] A unidade de codificação de entropia 105 executa uma codificação de entropia na informação de codificação para gerar os dados codificados 120 de acordo com uma sintaxe prescrita. A informação de codificação inclui, por exemplo, a informação de coeficiente de transformada quantizada introduzida pela unidade de transformação/quantização 103, a informação de formato de croma 114 do sinal de vídeo de entrada, a informação de vetor de movimento 117 introduzida pela unidade de pesquisa de vetor de movimento 116, a informação de controle de predição 118 introduzida pela unidade de controle de predição 112 e a informação de perfil/nível 119 introduzida pela unidade de controle de codificação 113.

[0042] Aqui, a informação de formato de croma 114 será descrita. A informação de formato de croma 114 é informação indicando um formato de croma do sinal de vídeo de entrada 101. A figura 2 é uma vista ilustrando um exemplo da informação de formato de croma 114. A figura 2 ilustra um exemplo no qual chroma_format_idc usado em H.264 é usado como a informação de formato de croma 114.

[0043] O chroma_format_idc = 0 indica um formato monocrômico somente com luminância. O chroma_format_idc = 1 indica o formato 4:2:0 no qual a diferença de cor é amostrada na metade horizontalmente e verticalmente com relação à luminância. O chroma_format_idc = 2 indica o formato 4:2:2 no qual a diferença de cor é amostrada na metade somente horizontalmente com relação à luminância. O chroma_format_idc = 3 indica o formato 4:4:4 no qual a luminância e a diferença de cor têm o mesmo número de pixels.

[0044] O tamanho horizontal do bloco de predição do sinal de luminância é definido como nPSW, e o tamanho vertical é definido como nPSH. No formato 4:2:0, o tamanho horizontal dos blocos dos sinais de diferenças de cor Cb e Cr é nPSW/2, enquanto que o tamanho vertical é nFSH/2. No formato 4:2:2, o tamanho horizontal dos blocos dos sinais de diferenças de cor Cb e Cr é nFSW/2, enquanto que o tamanho vertical é nPSH. No formato 4:4:4, o tamanho horizontal dos blocos dos sinais de diferenças de cor Cb e Cr é nPSW, enquanto que o tamanho vertical é nPSH.

[0045] A seguir, a relação entre o formato de croma e a interpolação será descrita.

[0046] A figura 3 é uma vista ilustrando a posição do vetor de movimento em uma imagem de interpolação com precisão de 1/8 de pixel do sinal de diferença de cor no formato 4:2:0. "B" é uma posição de um pixel inteiro do sinal de diferença de cor, a qual é a posição do vetor de movimento que não necessita da interpolação. Partes brancas indicam a posição do vetor de movimento que necessita de uma interpolação unidimensional para o sinal de diferença de cor só horizontalmente ou só verticalmente. Partes sombreadas claras indicam a posição do vetor de movimento que necessita de uma interpolação bidimensional para executar a interpolação para o sinal de diferença de cor tanto horizontalmente quanto verticalmente.

[0047] A figura 4 é uma vista ilustrando a posição do vetor de movimento em uma imagem de interpolação com precisão de l/4 de pixel do sinal de luminância no formato 4:2:0. "A" é a posição do pixel inteiro do sinal de luminância, a qual é a posição do vetor de movimento que não necessita da interpolação. Partes brancas com "A" indicam a posição do vetor de movimento que não necessita da interpolação para ambos de o sinal de luminância e o sinal de diferença de cor. Partes sombreadas claras com "A" indicam a posição do vetor de movimento que não necessita da interpolação para o sinal de luminância, mas necessita da interpolação para o sinal de diferença de cor.

[0048] As partes brancas sem "A" indicam a posição do vetor de movimento que necessita da interpolação unidimensional para o sinal de luminância e para o sinal de diferença de cor só horizontalmente ou só verticalmente. As partes sombreadas claras sem "A" indicam a posição do vetor de movimento que necessita da interpolação bidimensional na qual o processamento de interpolação é executado horizontalmente e verticalmente para o sinal de luminância e para o sinal de diferença de cor. Partes sombreadas escuras indicam a posição do vetor de movimento que necessita da interpolação unidimensional só horizontalmente ou só verticalmente para o sinal de luminância, e necessita da interpolação bidimensional na qual a interpolação é executada horizontalmente e verticalmente para o sinal de diferença de cor.

[0049] A figura 5 é uma vista ilustrando a posição do vetor de movimento em uma imagem de interpolação com precisão de 1/4 de pixel do sinal de diferença de cor na direção horizontal, e com precisão de 1/8 de pixel do sinal de diferença de cor na direção vertical no formato 4:2:2. "B" é a posição do pixel inteiro do sinal de diferença de cor, a qual é a posição do vetor de movimento que não necessita da interpolação. Partes brancas indicam a posição do vetor de movimento que necessita da interpolação unidimensional para o sinal de diferença de cor só horizontalmente ou só verticalmente. Partes sombreadas claras indicam a posição do vetor de movimento que necessita da interpolação bidimensional para executar a interpolação para o sinal de diferença de cor horizontalmente e verticalmente.

[0050] A figura 6 é uma vista ilustrando a posição do vetor de movimento em uma imagem de interpolação com precisão de 1/4 de pixel do sinal de luminância no formato 4:2:2. "A" é a posição do pixel inteiro do sinal de luminância, a qual é a posição do vetor de movimento que não necessita da interpolação para o sinal de luminância. Partes brancas com "A" indicam a posição do vetor de movimento que não necessita da interpolação para ambos de o sinal de luminância e o sinal de diferença de cor. Partes sombreadas claras com "A" indicam a posição do vetor de movimento que não necessita da interpolação para o sinal de luminância, mas necessita da interpolação para o sinal de diferença de cor.

[0051] As partes brancas sem "A" indicam a posição do vetor de movimento que necessita da interpolação unidimensional para o sinal de luminância e para o sinal de diferença de cor só horizontalmente ou só verticalmente. As partes sombreadas claras sem "A" indicam a posição do vetor de movimento que necessita da interpolação bidimensional na qual a interpolação é executada horizontalmente e verticalmente para o sinal de luminância e para o sinal de diferença de cor. Partes sombreadas escuras indicam a posição do vetor de movimento que necessita da interpolação unidimensional só horizontalmente para o sinal de luminância, e necessita da interpolação bidimensional na qual a interpolação é executada horizontalmente e verticalmente para o sinal de diferença de cor.

[0052] A seguir, a relação entre o formato de croma e o pixel a ser acessado na interpolação será descrita.

[0053] As figuras 7 e 8 são vistas ilustrando um exemplo de um pixel que é acessado ao gerar a imagem de interpolação na base de bloco no formato 4:2:0.

[0054] A figura 7 ilustra o número máximo de pixels que têm que ser acessados ao gerar a imagem de interpolação de bloco de pixels 4x4 para o sinal de luminância com um filtro de interpolação de 8 derivações. Na interpolação bidimensional, três pixels externos no lado esquerdo e acima do bloco de pixels assim como quatro pixels externos no lado direito e sob o bloco de pixels têm que ser acessados para gerar a imagem de interpolação com bloco de pixels 4x4. Especificamente, 11x11 pixels têm que ser acessados como um todo. O número dos pixels externos a ser acessados depende do comprimento de derivação. Portanto, quando o filtro de interpolação com a mesma derivação é usado, o número de acessos por pixel aumenta mais para um bloco menor.

[0055] A figura 8 ilustra o número máximo de pixels que têm que ser acessados ao gerar a imagem de interpolação de bloco de pixels 2x2, correspondendo ao bloco de pixels 4x4 para o sinal de luminância, para o sinal de diferença de cor com um filtro de interpolação de quatro derivações. Na interpolação bidimensional, um pixel externo no lado esquerdo e acima do bloco de pixels assim como dois pixels externos no lado direito e sob o bloco de pixels têm que ser acessados para gerar a imagem de interpolação com bloco de pixels 2x2. Especificamente, 5x5 pixels têm que ser acessados como um todo.

[0056] A figura 9 é uma vista ilustrando um exemplo de um pixel que é acessado ao gerar a imagem de interpolação na base de bloco no formato 4:2:2. O número máximo de pixels que têm que ser acessados ao gerar a imagem de interpolação de bloco de pixels 4x4 para o sinal de luminância com um filtro de interpolação de quatro derivações é o mesmo do caso na figura, 7, de maneira que a descrição redundante não será feita.

[0057] A figura 9 ilustra o número máximo de pixels que têm que ser acessados ao gerar a imagem de interpolação de bloco de pixels 4x2, correspondendo ao bloco de pixels 4x4 para o sinal de luminância, para o sinal de diferença de cor com um filtro de interpolação de quatro derivações. Na interpolação bidimensional, um pixel externo no lado esquerdo e acima do bloco de pixels assim como dois pixels externos na direita e sob o bloco de pixels têm que ser acessados para gerar a imagem de interpolação com bloco de pixels 2x2. Especificamente, 5x7 pixels têm que ser acessados como um todo.

[0058] Tal como ilustrado nas figuras 3 a 6, a necessidade da interpolação é diferente dependendo do formato de croma e do vetor de movimento. O que é necessário dentre a interpolação unidimensional e a interpolação bidimensional é diferente dependendo do formato de croma e do vetor de movimento. Tal como ilustrado nas figuras 7 a 9, o número de pixels a ser acessados é diferente dependendo do formato de croma.

[0059] Na presente modalidade, ao se referir ao formato de croma e ao vetor de movimento, a geração de imagem predita é controlada de maneira que uma interpolação específica na qual o número de pixels a ser acessados na imagem de referência (o sinal de imagem de referência 109) é grande não é executada. A interpolação específica é uma interpolação usando predição bidirecional e interpolação bidimensional. A interpolação na predição bidirecional pode ser definida como a interpolação específica. O método específico para controlar a geração de imagem predita a fim de não executar a interpolação específica será descrito mais tarde.

[0060] A figura 10 é um diagrama de blocos ilustrando um exemplo de uma configuração de um aparelho de decodificação de imagem 300 correspondendo ao aparelho de codificação de imagem 100. O aparelho de decodificação de imagem 300 inclui uma unidade de decodificação de entropia 302, uma unidade de quantização inversa/transformação inversa 303, uma unidade de adição 304, uma memória de quadro 306 e a unidade de geração de imagem predita 110.

[0061] O aparelho de decodificação de imagem 300 gera um sinal de vídeo reproduzido 307 a partir dos dados codificados 301.

[0062] A unidade de decodificação de entropia 302 executa uma decodificação de entropia nos dados codificados 301 de acordo com uma sintaxe prescrevida. A unidade de decodificação de entropia 302 decodifica os dados codificados 301 para obter informação de coeficiente de transformada quantizada, a informação de controle de predição 311, a informação de vetor de movimento 312 e a informação de perfil/nível 313. A informação de coeficiente de transformada quantizada decodificada é introduzida na unidade de quantização inversa/transformação inversa 303. A informação de controle de predição 311, a informação de vetor de movimento 312 e a informação de perfil/nível 313 decodificadas são introduzidas na unidade de geração de imagem predita 110.

[0063] A informação de coeficiente de transformada quantizada, a informação de controle de predição 311, a informação de vetor de movimento 312 e a informação de perfil/nível 313 correspondem respectivamente à informação de coeficiente de transformada quantizada, à informação de controle de predição 118, à informação de vetor de movimento 117 e à informação de perfil/nível 119, as quais são codificadas pelo aparelho de codificação de imagem 100 na figura 1.

[0064] A unidade de quantização inversa/transformação inversa 303 executa quantização inversa e transformação ortogonal inversa na informação de coeficiente de transformada quantizada, reproduzindo assim o sinal de erro de predição.

[0065] A unidade de adição 304 soma o sinal de erro de predição e o sinal de imagem predita 310 para gerar um sinal de imagem decodificado 305. O sinal de imagem decodificado 305 é introduzido na memória de quadro 306.

[0066] A memória de quadro 306 executa o processo de filtragem no sinal de imagem decodificado 305, e produz o sinal resultante como o sinal de vídeo reproduzido 307. A memória de quadro 306 determina se o sinal de imagem decodificado 305, o qual foi submetido ao processo de filtragem, deve ser armazenado ou não, com base na informação de controle de predição 311. O sinal de imagem decodificado 305 armazenado é introduzido na unidade de geração de imagem predita 310 como um sinal de imagem de referência 306.

[0067] A unidade de geração de imagem predita 110 gera o sinal de imagem predita 310 ao usar o sinal de imagem de referência 300, a informação de controle de predição 311 e a informação de vetor de movimento 312.

[0068] A figura 11 é um diagrama de blocos ilustrando um exemplo de uma configuração da unidade de geração de imagem predita 110 montada no aparelho de codificação de imagem 100 e no aparelho de decodificação de imagem 300. A unidade de geração de imagem predita 110 inclui um comutador 201, uma unidade de predição bidirecional 202, uma unidade de predição unidirecional 203 e uma unidade de predição intra 204. A unidade de geração de imagem predita 110 gera o sinal de imagem predita 111 a partir do sinal de imagem de referência 109, da informação de controle de predição 118 e da informação de vetor de movimento 117.

[0069] A informação de controle de predição 118 inclui informação (modo de predição) para designar que uma de a unidade de predição bidirecional 202, a unidade de predição unidirecional 203 e a unidade de predição intra 204 é usada, por exemplo. O comutador 201 faz uma mudança para selecionar qualquer uma de a unidade de predição bidirecional 202, a unidade de predição unidirecional 203 e a unidade de predição intra 204 ao se referir a esta informação.

[0070] O sinal de imagem de referência 109 é introduzido em qualquer uma de a unidade de predição bidirecional 202, a unidade de predição unidirecional 203 e a unidade de predição intra 204, a qual é selecionada pelo comutador 201.

[0071] Quando a unidade de predição bidirecional 202 é selecionada, a unidade de predição bidirecional 202 gera um sinal de imagem de compensação de movimento ao usar o sinal de imagem de referência 109 e a informação de vetor de movimento 117 de múltiplos quadros de referência, e gera o sinal de imagem predita 111 com base na predição bidirecional. A unidade de predição bidirecional 202 é selecionada não somente no caso onde o modo de predição é designado explicitamente como a predição bidirecional nos dados codificados, mas também no caso onde a predição bidirecional não é designada explicitamente pelos dados codificados tal como um modo de salto, um modo direto e modo de fusão, mas a operação da predição bidirecional é designada implicitamente por meio de semântica.

[0072] Quando a unidade de predição unidirecional 203 é selecionada, a unidade de predição unidirecional 203 gera o sinal de imagem de compensação de movimento ao usar o sinal de imagem de referência 109 e a informação de vetor de movimento 117 de um único quadro de referência, e gera o sinal de imagem predita 111. A unidade de predição unidirecional 203 é selecionada não somente no caso onde o modo de predição é designado explicitamente como a predição unidirecional nos dados codificados, mas também no caso onde a predição unidirecional não é designada explicitamente pelos dados codificados tal como o modo de salto, o modo direto e o modo de fusão, mas a operação da predição unidirecional é designada implicitamente por meio de semântica.

[0073] Quando a unidade de predição intra 204 é selecionada, a unidade de predição intra 204 gera o sinal de imagem predita 111 ao usar o sinal de imagem de referência 109 em uma tela.

[0074] A seguir, o controle para reduzir a largura de banda de memória pelo aparelho de codificação de imagem 100 configurado de acordo com a presente modalidade será descrito com referência à figura 12. A figura 12 é um fluxograma ilustrando um fluxo total do controle na presente modalidade.

[0075] A unidade de controle de codificação 113 estabelece uma valor de restrição (nLPSW, nLPSH) do tamanho de bloco de acordo com a informação de perfil/nível 119 (etapa S101). O nLPSW é o valor de restrição do tamanho de bloco predito de luminância na direção horizontal. O nLPSH é o valor de restrição do tamanho de bloco predito de luminância na direção vertical.

[0076] Quando a informação de perfil indica um perfil específico (por exemplo, perfil alto da H.264), ou quando a informação de nível indica um nível específico (por exemplo, um certo nível ou nível mais alto), por exemplo, a unidade de controle de codificação 113 estabelece o valor de restrição predeterminado (nLPSW, nLPSN) do tamanho de bloco. A unidade de controle de codificação 113 pode ser configurada para estabelecer de forma gradual o valor de restrição do tamanho de bloco de acordo com a informação de perfil e a informação de nível.

[0077] É suposto a seguir que uma variável RW é uma precisão de vetor de movimento na direção horizontal, expressada por precisão de 1/RW de pixel. Também é suposto que uma variável RH é uma precisão de vetor de movimento na direção vertical, expressada por precisão de 1/RH de pixel. Valores iniciais da variável RW e da variável RH são definidos como a precisão de vetor de movimento de luminância. Um valor de uma potência de dois de uma maneira geral é usado para RW e RN.

[0078] A unidade de controle de predição 112 determina se a informação de formato de croma (chroma_format_idc) 114 é 1 ou não (etapa S102). No caso de chroma_format_idc = 1 (etapa S102: Sim), a unidade de controle de predição 112 dobra os valores de RW e RH (etapa S103). Isto é porque chroma_format_idc = 1 significa formato 4:2:0 no qual a diferença de cor é amostrada na metade horizontalmente e verticalmente com relação à luminância.

[0079] No caso onde chroma_format_idc = 1 não é estabelecido (etapa S102: Não), a unidade de controle de predição 112 determina se a informação de formato de croma (chroma_format_idc) 114 é 2 ou não (etapa S104). No caso de chroma_format_idc = 2 (etapa S104: Sim), a unidade de controle de predição 112 dobra o valor de RW (etapa S105), Isto é porque chroma_format_idc 2 significa formato 4:2:2 no qual a diferença de cor é amostrada na metade só horizontalmente com relação à luminância.

[0080] Quando chroma_format_idc assume outros valores (etapa S104: Não), os valores de RW e RH não são mudados.

[0081] A seguir, a unidade de controle de predição 112 calcula uma variável L indicando se a largura de banda de memória está restringida ou não (etapa S106). A variável L assumindo "verdade" significa que o método de reduzir a largura de banda de memória está aplicado, e a variável L assumindo "falso", significa que o método não está aplicado.

[0082] Quando a predição é a predição bidirecional, o bloco de predição é pequeno, e dois vetores de movimento são de precisão fracionária na diferença de cor, tal como descrito anteriormente; por exemplo, a largura de banda de memória a ser acessada por pixel aumenta. Portanto, a unidade de controle de predição 112 calcula a variável L de acordo com a equação (1) seguinte.

[0083] L = (PredMode == PredBi) &&

[0084] (nPSW < nLPSW) && (nPSH < nLtSH) &&

[0085] (mvL0[0] & (RW - 1)) &&

[0086] (mvL0[1] & (RH - 1)) &&

[0087] (mvL1[0] & (RW - 1)) &&

[0088] (mvL1[1] & (RH - 1)); (1)

[0089] O valor do vetor de movimento na direção horizontal na lista 0 do bloco a ser processado é definido como mvL0[0], e o valor na direção vertical é definido como mvL0[1]. O valor do vetor de movimento na direção horizontal na lista 1 é definido como mvL1[0], e o valor na direção vertical é definido como mvL1[1]. PredMode indica o modo de predição. PredBi indica a predição bidirecional. Na descrição a seguir, os modos de predição da predição unidirecional usando os vetores de movimento na lista 0 e na lista 1 estão representado como PredL0 e PredL1, respectivamente.

[0090] Um exemplo da equação (1) é um caso no qual o modo de predição PredMode é PredBi, isto é, a unidade de predição bidirecional 202 é selecionada. A expressão (nPSW < nLPSW) && (nPSH < nLPSH) && significa a condição na qual o tamanho de bloco de predição é igual ou menor que a informação de restrição de tamanho de bloco. Em (mvL0[0] & (RW - 1)) &&, (mvL0[1] & (RH - 1)) &&, (mvL1[0] & (RW - 1)) &&, e (mvL1[1] & (RH - 1)), é verificado se os dois vetores de movimento L0 e L1 não estão submetidos à interpolação bidimensional para a diferença de cor, isto é, se o bit inferior do vetor de movimento expressa a precisão após o ponto decimal. O símbolo "&" significa um operador de bit de acordo com a notação na linguagem C, e expressa OU bit a bit.

[0091] A equação condicional para calcular a variável L não está limitada à equação (1). Por exemplo, ela pode ser determinada independentemente mesmo para os modos de predição (PredL0, PredL1) a não ser PredBi tal como em uma equação (2).

[0092] L = (nPSW < nLPSW) && (nPSH < nLPSH) &&

[0093] ((PredMode == PredBi) &&

[0094] (mvL0[0] & (RW - 1)) &&

[0095] (mvL0[1] & (RH - 1)) &&

[0096] (mvL1[0] & (RW - 1)) &&

[0097] (mvL1[1] & (RH - 1)) ||

[0098] ((PredMode == PredL0) &&

[0099] (mvL0[0] & (RW - 1)) &&

[00100] (mvL0[1] & (R - 1)) ||

[00101] ((PredMode == PredL1) &&

[00102] (mvL1[0] & (RW - 1)) &&

[00103] (mvL1[1] & (RH - 1))))); (2)

[00104] Tal como em uma equação (3), o valor de restrição (nLPSW1, NLPSH1) do tamanho de bloco para a predição unidirecional (PredL0 ou PredL1) pode ser estabelecido separadamente. Especificamente, o tamanho de bloco restringido na predição unidirecional e o tamanho de bloco restringido na predição bidirecional podem ser diferentes um do outro.

[00105] L = ((PredMode == PredBi) &&

[00106] (nPSW < nLPSW) && (nPSH < nLPSH) &&

[00107] (mvL0[0] & (RW - 1)) &&

[00108] (mvL0[1] & (RH - 1)) &&

[00109] (mvL1[0] & (RW - 1)) &&

[00110] (mvL1[1] & (RH - 1)) ||

[00111] (((nPSW < nLPSW1) &&

[00112] (nPSH < nLPSH1)) ||

[00113] ((PredMode == PredL0) &&

[00114] (mvL0[0] & (RW - 1)) &&

[00115] (mvL0[1] & (RH - 1)) &&

[00116] ((PredMode == PredL1) &&

[00117] (mvL1[0] & (RW - 1)) &&

[00118] (mvL1[0] & (RH - 1))); (3)

[00119] Quando o tamanho de bloco de predição é igual ou menor que o valor de restrição (nLPSW, nLPSH) do tamanho de bloco tal como em uma equação (4), dois vetores de movimento podem ser restringidos para acesso somente ao pixel inteiro na diferença de cor durante a predição bidirecional.

[00120] L = ((PredMode == PredBi) &&

[00121] (nPSW < nLPSW) && (nPSH < nLPSH) &&

[00122] |((mvL0[0] & (RW - 1) == 0) &&

[00123] (mvL0[1] & (RH - 1) == 0) &&

[00124] (mvL1[0] & (RW - 1) == 0) &&

[00125] (mvL1[1] & (RH - 1)) == 0))); (4)

[00126] Se o valor do vetor de movimento está restringido, ou sob qual condição o valor do vetor de movimento está restringido, é distinguido pela informação de perfil/nível 119.

[00127] A seguir, o método específico de reduzir a largura de banda de memória será descrito. A figura 13 é um fluxograma ilustrando um exemplo do processo de reduzir a largura de banda de memória. A figura 13 ilustra um exemplo de um método de restringir o valor do vetor de movimento, como o método de reduzir a largura de banda de memória.

[00128] A unidade de controle de predição 112 determina se a variável L é "verdade" ou não (etapa S201). Se a variável L for "verdade" (etapa S201: Sim), a unidade de controle de predição 112 transforma os valores L0 e L1 de dois vetores de movimento tal como em uma equação (5) (etapa S202).

[00129] mvL0[0] = ((mvL0[0] + (RW >> 1))/RW)xRW;

[00130] mvL0[1] = ((mvL0[1] + (RH >> 1))/RH)xRH;

[00131] mvL1[0] = ((mvL1[0] + (RW >> 1))/RW)xRW;

[00132] mvL1[1] = ((mvL1[1] + (RH >> 1))/RH)xRH; (5)

[00133] O símbolo ">>" indica um deslocamento aritmético à direita de acordo com a notação na linguagem C. "/" indica uma divisão aritmética em número inteiro. "x" indica uma multiplicação aritmética em número inteiro. O bit correspondendo à precisão de interpolação do sinal de diferença de cor de dois vetores de movimento L0 e L1 é arredondado pela equação (5) para se tornar 0. Com este processo, a interpolação bidimensional não é executada, pelo que a redução na largura de banda de memória pode ser alcançada.

[00134] O método de arredondamento geral é descrito aqui. Entretanto, um outro método pode ser usado. Por exemplo, um método de arredondamento para baixo, método de arredondamento para cima ou um método de arredondamento para o número par mais próximo pode ser empregado.

[00135] A informação de vetor de movimento 117 cujo valor é mudado é codificada na unidade de codificação de entropia 105, e produzida como os dados codificados. O método na figura 13 é para controlar a informação de vetor de movimento 117 ao restringir o valor do vetor de movimento, a fim de não para gerar os dados codificados pelos quais a largura de banda de memória aumenta.

[00136] Alternativamente, em vez de codificar a informação de vetor de movimento 117 cujo valor é mudado na unidade de codificação de entropia 105, a informação de vetor de movimento 117 antes da mudança pode ser codificada pela unidade de codificação de entropia. Neste caso, a unidade de geração de imagem predita 110 no aparelho de decodificação de imagem 300 determina se o método de reduzir a largura de banda de memória está aplicado ou não no processo igual àquele na figura 12. Quando ele está aplicado, a unidade de geração de imagem predita 110 no aparelho de decodificação de imagem 300 restringe o vetor de movimento em um modo igual àquele na figura 13.

[00137] O método de transformar o valor do vetor de movimento não está limitado ao método de arredondar o valor correspondendo à precisão de interpolação da diferença de cor tal como na equação (4). O valor pode ser arredondado separadamente para a luminância e para a diferença de cor. Especificamente, durante a interpolação para a luminância, o valor correspondendo à precisão de interpolação da luminância pode ser arredondado, enquanto que o valor correspondendo à precisão de interpolação da diferença de cor pode ser arredondado durante o processamento de interpolação para a diferença de cor. Este método é para não gerar a imagem predita que aumenta a largura de banda de memória, quando o aparelho de codificação de imagem 100 e o aparelho de decodificação de imagem 300 são configurados antecipadamente em um modo para executar a mesma operação.

[00138] A figura 14 é um fluxograma ilustrando um outro exemplo do processo de reduzir a largura de banda de memória. A figura 14 ilustra um outro exemplo do método de restringir o valor do vetor de movimento.

[00139] Neste exemplo, a unidade de controle de predição 112 e a unidade de geração de imagem predita 110 calculam o custo para selecionar o modo de predição, o tamanho de bloco predito e o vetor de movimento. Elas preferencialmente selecionam o modo de predição, o tamanho de bloco predito e o vetor de movimento, os quais são pequenos em custo, pelo que a combinação ideal pode ser selecionada.

[00140] Uma variável MV_Cost indicando o custo para o vetor de movimento é calculada ao usar uma soma de distância absoluta (SAD) de erros residuais preditos, uma quantidade de códigos da informação de vetor de movimento (MV_Code) e um multiplicador de Lagrange (À) calculado a partir da informação quantizada tal como em uma equação (6).MV_Cost = SAD + À x MV_Code (6)

[00141] Se a variável L for "verdade" (etapa S301: Sim), a unidade de controle de predição 112 substitui o valor máximo predeterminado MaxValue para a variável MV_Cost indicando o custo para o vetor de movimento (etapa S302). Com este processo, a unidade de controle de predição 112 controla para não selecionar o vetor de movimento tendo a grande largura de banda de memória (etapa S301).

[00142] No método na figura 14, o valor do vetor de movimento é restringido para controlar a informação de vetor de movimento 117, a fim de não gerar os dados codificados pelos quais a largura de banda de memória aumenta, tal como na figura 13.

[00143] A figura 15 é um fluxograma ilustrando um outro exemplo do método de reduzir a largura de banda de memória. A figura 15 ilustra um método de controlar o modo de predição da diferença de cor, como um outro método de reduzir a largura de banda de memória.

[00139] Se a variável L for "verdade" (etapa S401), somente o modo de predição PredMode de cor é regravado forçadamente para a predição unidirecional PredL0 (etapa S402). Com este processo, o caso da predição bidirecional com o sinal de diferença de cor usando grande largura de banda de memória pode ser restringido.

[00140] O modo de predição no qual o modo de predição é regravado forçadamente pode ser a predição unidirecional PredL1. Qual modo de predição é restringido é determinado de acordo com a informação de perfil/nível 119.

[00141] Tal como descrito anteriormente, de acordo com a presente modalidade, a largura de banda de memória ao gerar a imagem de interpolação de movimento compensado durante a codificação de imagem e decodificação de imagem pode ser reduzida.

[00142] A seguir, uma configuração de hardware do aparelho (o aparelho de codificação de imagem, e o aparelho de decodificação de imagem) de acordo com a presente modalidade será descrita com referência à figura 16. A figura 16 é uma vista explanativa ilustrando uma configuração de hardware do aparelho de acordo com a presente modalidade.

[00143] O aparelho de acordo com a presente modalidade inclui um dispositivo de controle tal como uma CPU (Unidade Central de Processamento) 51, um dispositivo de memória tal como uma ROM (Memória Somente de Leitura) 52 ou uma RAM (Memória de Acesso Aleatório) 53, uma interface de comunicação 54 que é conectada à rede para capacitar intercomunicação e um barramento 61 que interliga cada unidade.

[00144] Um programa executado pelo aparelho de acordo com a presente modalidade é fornecido tal como sendo incorporado preliminarmente na ROM 52.

[00145] O programa pode ser configurado para ser fornecido, tal como um produto de computador, como sendo gravado como um arquivo em um formato instalável ou em um formato executável em uma mídia de gravação legível por computador tal como um CD-ROM (Disco Compacto), um disco flexível (FD), um CD-R, um DVD (Disco Versátil Digital) e outros mais.

[00146] Adicionalmente, o programa pode ser fornecido de uma tal maneira que o programa é armazenado em um computador conectado a uma rede tal como a Internet para permitir transferência via rede. O programa pode ser configurado para ser fornecido ou distribuído via uma rede tal como a Internet.

[00147] O programa executado pelo aparelho de acordo com a presente modalidade pode permitir que o computador funcione como cada unidade (unidade de geração de imagem predita e outras mais) descrita anteriormente. A CPU 51 no computador pode ler o programa na mídia de memória legível por computador no dispositivo de memória principal, e pode executar o mesmo programa.

[00148] Embora certas modalidades tenham sido descritas, estas modalidades foram apresentadas somente a título de exemplo, e não são pretendidas para limitar o escopo das invenções. De fato, as inéditas modalidades descritas neste documento podem ser incorporadas em uma variedade de outras formas; além disso, várias omissões, substituições e mudanças na forma das modalidades descritas neste documento podem ser feitas sem divergir do espírito das invenções. As concretizações anexas e suas equivalências são pretendidas para cobrir tais formas ou modificações como estando dentro do escopo e espírito das invenções. Lista de Símbolos de Referência 100 APARELHO DE CODIFICAÇÃO DE IMAGEM 101 SINAL DE VÍDEO DE ENTRADA 102 UNIDADE DE SUBTRAÇÃO 103 UNIDADE DE TRANSFORMAÇÃO/QUANTIZAÇÃO 104 UNIDADE DE QUANTIZAÇÃO INVERSA/TRANSFORMAÇÃO INVERSA 105 UNIDADE DE CODIFICAÇÃO DE ENTROPIA 106 UNIDADE DE ADIÇÃO 107 SINAL DE IMAGEM DECODIFICADO 108 MEMÓRIA DE QUADRO 109 SINAL DE IMAGEM DE REFERÊNCIA 110 UNIDADE DE GERAÇÃO DE IMAGEM PREDITA 111 SINAL DE IMAGEM PREDITA 112 UNIDADE DE CONTROLE DE PREDIÇÃO 113 UNIDADE DE CONTROLE DE CODIFICAÇÃO 114 INFORMAÇÃO DE FORMATO DE CROMA 115 INFORMAÇÃO DE RESTRIÇÃO DE TAMANHO DE BLOCO 116 UNIDADE DE PESQUISA DE VETOR DE MOVIMENTO 117 INFORMAÇÃO DE VETOR DE MOVIMENTO 118 INFORMAÇÃO DE CONTROLE DE PREDIÇÃO 119 INFORMAÇÃO DE PERFIL/NÍVEL 120 DADOS CODIFICADOS 300 APARELHO DE DECODIFICAÇÃO DE IMAGEM 301 DADOS CODIFICADOS 302 UNIDADE DE DECODIFICAÇÃO DE ENTROPIA 303 UNIDADE DE QUANTIZAÇÃO INVERSA/TRANSFORMAÇÃO INVERSA 304 UNIDADE DE ADIÇÃO 305 SINAL DE IMAGEM DECODIFICADO 306 MEMÓRIA DE QUADRO 307 SINAL DE VÍDEO REPRODUZIDO 308 SINAL DE IMAGEM DE REFERÊNCIA 310 SINAL DE IMAGEM PREDITA 311 INFORMAÇÃO DE CONTROLE DE PREDIÇÃO 312 INFORMAÇÃO DE VETOR 313 INFORMAÇÃO DE PERFIL/NÍVEL

Claims

1. Método de codificação de imagem de codificar uma imagem alvo incluindo um componente de luminância e componentes de diferença de cor, o método caracterizado pelo fato de que compreende as etapas de: obter uma imagem de referência; e gerar uma imagem predita interpolando o componente de luminância e os componentes de diferença de cor na imagem de referência de acordo com um vetor de movimento, selecionar uma predição bidirecional ou uma predição unidimensional com base em um modo de predição que é explicitamente ou implicitamente designado, a predição bidirecional usando duas imagens de referência, a predição unidimensional usando uma imagem de referência; se um tamanho de um bloco, que é designado como uma unidade da interpolação, satisfaz uma primeira condição, e se a predição bidirecional é selecionada, alterar a predição bidirecional para a predição unidirecional, gerar a imagem predita interpolando a imagem de referência de acordo com o vetor de movimento.

2. Método de codificação de imagem, de acordo com a reivindicação 1, caracterizado pelo fato de que: na geração, se o tamanho do bloco, que é designado como uma unidade da interpolação, for igual ou menor que uma segunda condição que é diferente da primeira condição, a predição unidirecional não é executada.

3. Método de codificação de imagem, de acordo com a reivindicação 1, caracterizado pelo fato de que se o tamanho do bloco, que é designado como uma unidade da interpolação, for igual ou menor que a primeira condição, a geração inclui mudar a predição bidirecional para a predição unidirecional.

4. Método de codificação de imagem, de acordo com a reivindicação 1, caracterizado pelo fato de que a imagem predita é gerada a partir de duas imagens de referência se a predição bidirecional for executada e gerada a partir de uma única imagem de referência se a predição unidirecional for executada.

5. Aparelho de codificação de imagem caracterizado pelo fato de que codifica uma imagem alvo incluindo um componente de luminância e componentes de diferença de cor, o aparelho compreendendo: uma unidade de geração configurada para gerar uma imagem predita ao interpolar o componente de luminância e os componentes de diferença de cor em uma imagem de referência de acordo com um vetor de movimento; e uma unidade de codificação configurada para codificar informação de coeficiente obtida de um erro de predição indicando uma diferença entre a imagem predita e a imagem alvo, em que a unidade de geração está configurada para: selecionar uma predição bidirecional ou uma predição unidimensional com base em um modo de predição que é explicitamente ou implicitamente designado, a predição bidirecional usando duas imagens de referência, a predição unidimensional usando uma imagem de referência; se um tamanho de um bloco, que é designado como uma unidade da interpolação, satisfaz uma primeira condição, e se a predição bidirecional é selecionada, alterar a predição bidirecional para a predição unidirecional,gerar a imagem predita interpolando a imagem de referência de acordo com o vetor de movimento.

6. Aparelho de codificação de imagem, de acordo com a reivindicação 5, caracterizado pelo fato de que se o tamanho do bloco, que é designado como uma unidade da interpolação, for igual ou menor que uma segunda condição que é diferente da primeira condição, a unidade de geração não executa a predição unidirecional.

7. Aparelho de codificação de imagem, de acordo com a reivindicação 5, caracterizado pelo fato de que se o tamanho do bloco, que é designado como uma unidade da interpolação, for igual ou menor que a primeira condição, a unidade de geração muda a predição bidirecional para a predição unidirecional.

8. Aparelho de codificação de imagem, de acordo com a reivindicação 5, caracterizado pelo fato de que a imagem predita é gerada a partir de duas imagens de referência se a predição bidirecional for executada e gerada a partir de uma única imagem de referência se a predição unidirecional for executada.

9. Aparelho de codificação de imagem, de acordo com a reivindicação 5, caracterizado pelo fato de que a unidade de geração e a unidade de codificação são implementada como um processador.