BR112017007399B1

BR112017007399B1 - Método de predição de imagem e aparelho relacionado

Info

Publication number: BR112017007399B1
Application number: BR112017007399-4A
Authority: BR
Inventors: Huanbang Chen; Sixin Lin; Fan Liang
Original assignee: Huawei Technologies Co., Ltd
Priority date: 2014-10-27
Filing date: 2015-04-23
Publication date: 2023-05-23

Abstract

MÉTODO DE PREDIÇÃO DE IMAGEM E APARELHO RELACIONADO. Um método de predição de imagem e um aparelho relacionado são divulgados. Um método de predição de imagem inclui: determinar (101) K1 amostras de pixels em um bloco de imagens x, e determinar um conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels nas K1 amostras de pixels, em que o conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels inclui pelo menos uma unidade de informação de movimento candidata; determinar (102) um conjunto de unidades de informação de movimento fundidas i incluindo K1 unidades de informação de movimento, em que cada unidade de informação de movimento no conjunto de unidades de informação de movimento fundidas i é selecionada de pelo menos uma parte de unidades de informação de movimento em conjuntos de unidades de informação de movimento candidatas correspondentes a diferentes amostras de pixels nas K1 amostras de pixels; e prever (103) um valor de pixel do bloco de imagens x por utilizar um modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas i. Este pedido ajuda a reduzir a complexidade computacional da predição de imagem executada com (...).

Description

[001] Este pedido reivindica a prioridade ao Pedido de Patente Chinesa No. 201410584175.1, depositado no Escritório de Patentes Chinês em 27 de outubro de 2014 e intitulado "PICTURE PREDICTION METHOD AND RELATED APPARATUS", o qual é aqui incorporado por referência na sua totalidade.

CAMPO TÉCNICO

[002] A presente invenção refere-se ao campo das tecnologias de processamento de imagem e, em particular, a um método de predição de imagem e a um aparelho relacionado.

ANTECEDENTES

[003] Com desenvolvimento de tecnologias de aquisição fotoelétrica e aumento contínuo de requisitos para vídeos digitais de alta definição, uma quantidade de dados de vídeo é cada vez maior. Devido à limitada largura de banda de transmissão heterogênea e aplicações de vídeo diversificadas, requisitos mais elevados são continuamente impostos em eficiência de codificação de vídeo. Uma tarefa de desenvolver um padrão de Codificação de Vídeo de Alta Eficiência (Inglês: High Efficiency Video Coding, HEVC para abreviar) é iniciada de acordo com os requisitos.

[004] Um princípio básico de codificação de compressão de vídeo é utilizar correlação entre um domínio de espaço, um domínio de tempo e uma palavra de código para remover redundância tanto quanto possível. Atualmente, uma prática predominante é utilizar uma estrutura de codificação de vídeo híbrida baseada em blocos para implementar codificação de compressão de vídeo por executar passos de predição (incluindo predição intraquadro e predição interquadro), transformada, quantização, codificação de entropia e similares. Esta estrutura de codificação mostra alta viabilidade, e, portanto, HEVC ainda utiliza esta estrutura de codificação de vídeo híbrida baseada em bloco.

[005] Em várias soluções de codificação / decodificação de vídeo, estimativa de movimento ou compensação de movimento é uma tecnologia-chave que afeta eficiência de codificação / decodificação. Em várias soluções convencionais de codificação / decodificação de vídeo, é assumido que o movimento de um objeto sempre atende a um modelo de movimento translacional, e que o movimento de cada parte do objeto inteiro é o mesmo. Basicamente, todos os algoritmos convencionais de estimativa de movimento ou compensação de movimento são algoritmos de compensação de movimento de bloco que são estabelecidos com base no modelo de movimento translacional (inglês: modelo de movimento translacional). No entanto, o movimento no mundo real é diversificado mundo real é diversificado, e movimentos irregulares como movimento de escalonamento para cima / para baixo, de rotação ou parabólico é onipresente. Desde a nona década do século passado, especialistas de codificação de vídeo realizaram universalidade de movimento irregular, e desejaram introduzir um modelo de movimento irregular (um modelo de movimento não translacional, como um modelo de transformação afim, um modelo de movimento rotacional ou um modelo de movimento de escalonamento) para melhorar a eficiência da codificação de vídeo. No entanto, complexidade computacional de predição de imagem convencional executada com base em um modelo de movimento não translacional é geralmente bastante elevada.

SUMÁRIO

[006] Modalidades da presente invenção fornecem um método de predição de imagem e um aparelho relacionado, de modo a reduzir a complexidade computacional da predição de imagem executada com base em um modelo de movimento não translacional.

[007] Um primeiro aspecto da presente invenção fornece um método de predição de imagem, incluindo: determinar K1 amostras de pixels em um bloco de imagens x, e determinar um conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels nas K1 amostras de pixels, em que o conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels inclui pelo menos uma unidade de informação de movimento candidata, e K1 é um número inteiro que é maior ou igual a 2; determinar um conjunto de unidades de informação de movimento fundidas i incluindo K1 unidades de informação de movimento, em que: cada unidade de informação de movimento no conjunto de unidades de informação de movimento fundidas i é selecionada a partir de pelo menos uma parte de unidades de informação de movimento em conjuntos de unidades de informação de movimento candidatas correspondentes a diferentes amostras de pixels nas K1 amostras de pixels, e a unidade de informação de movimento inclui um vetor de movimento cuja direção de predição é direta e / ou um vetor de movimento cuja direção de predição é inversa; e prever um valor de pixel do bloco de imagens x por utilizar um modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas i.

[008] Com referência ao primeiro aspecto, em uma primeira forma possível de implementação do primeiro aspecto, a determinação de um conjunto de unidades de informação de movimento fundidas i incluindo K1 unidades de informação de movimento inclui: determinar, a partir de N conjuntos de unidades de informação de movimento fundidas candidatas, o conjunto de unidades de informação de movimento fundidas i incluindo as K1 unidades de informação de movimento, em que cada unidade de informação de movimento incluída em cada conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas é selecionada a partir de pelo menos uma parte de unidades de informação de movimento compatíveis com restrições nos conjuntos de unidades de informação de movimento candidatas correspondentes a diferentes amostras de pixels nas K1 amostras de pixels, N é um número inteiro positivo, os N conjuntos de unidades de informação de movimento fundidas candidatas são diferentes uns dos outros, e cada conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas inclui K1 unidades de informação de movimento.

[009] Com referência à primeira forma possível de implementação do primeiro aspecto, em uma segunda forma possível de implementação do primeiro aspecto, os N conjuntos de unidades de informação de movimento fundidas candidatas satisfazem pelo menos uma de uma primeira condição, uma segunda condição, uma terceira condição, uma quarta condição, ou uma quinta condição em que: a primeira condição inclui que um modo de movimento do bloco de imagens x indicado por uma unidade de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas seja movimento não translacional; a segunda condição inclui que direções de predição de pelo menos duas unidades de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas são iguais; a terceira condição inclui que índices de quadro de referência correspondentes a pelo menos duas unidades de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas são iguais; a quarta condição inclui que um valor absoluto de uma diferença entre componentes horizontais de duas unidades de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas seja menor ou igual a um limiar de componente horizontal; e a quinta condição inclui que um valor absoluto de uma diferença entre componentes verticais de duas unidades de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas seja menor ou igual a um limiar de componente vertical.

[010] Com referência ao primeiro aspecto ou à primeira forma possível de implementação do primeiro aspecto ou a segunda forma possível de implementação do primeiro aspecto, em uma terceira forma possível de implementação do primeiro aspecto, as K1 amostras de pixels incluem pelo menos duas amostras de pixels em uma amostra de pixels esquerda superior, uma amostra de pixels direita superior, uma amostra de pixels esquerda inferior, e uma amostra de pixels central a1 do bloco de imagens x, em que: a amostra de pixels esquerda superior do bloco de imagens x é um vértice esquerdo superior do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e incluindo um vértice esquerdo superior do bloco de imagens x; a amostra de pixels esquerda inferior do bloco de imagens x é um vértice esquerdo inferior do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e incluindo um vértice esquerdo inferior do bloco de imagens x; a amostra de pixels direita superior do bloco de imagens x é um vértice direito superior do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e incluindo um vértice direito superior do bloco de imagens x; e a amostra de pixels central a1 do bloco de imagens x é um pixel central do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e incluindo um pixel central do bloco de imagens x.

[011] Com referência à terceira forma possível de implementação do primeiro aspecto, em uma quarta forma possível de implementação do primeiro aspecto, um conjunto de unidades de informação de movimento candidatas correspondente à amostra de pixels esquerda superior do bloco de imagens x inclui unidades de informação de movimento de x1 amostras de pixels, em que as x1 amostras de pixels incluem pelo menos uma amostra de pixels espacialmente adjacente à amostra de pixels esquerda superior do bloco de imagens x e / ou pelo menos uma amostra de pixels temporalmente adjacente à amostra de pixels esquerda superior do bloco de imagens x, e x1 é um número inteiro positivo, em que: as x1 amostras de pixels incluem pelo menos uma de uma amostra de pixels que tem a mesma localização que a amostra de pixels esquerda superior do bloco de imagens x, uma amostra de pixels espacialmente adjacente a uma borda esquerda do bloco de imagens x, uma amostra de pixels espacialmente adjacente a uma parte esquerda superior do bloco de imagens x, ou uma amostra de pixels espacialmente adjacente a uma borda superior do bloco de imagens x, em um quadro de vídeo temporalmente adjacente a um quadro de vídeo ao qual o bloco de imagens x pertence.

[012] Com referência à terceira forma possível de implementação do primeiro aspecto ou a quarta forma possível de implementação do primeiro aspecto, em uma quinta forma possível de implementação do primeiro aspecto, um conjunto de unidades de informação de movimento candidatas correspondente à amostra de pixels direita superior do bloco de imagens x inclui unidades de informação de movimento de x2 amostras de pixels, em que as x2 amostras de pixels incluem pelo menos uma amostra de pixels espacialmente adjacente à amostra de pixels direita superior do bloco de imagens x e / ou pelo menos uma amostra de pixels temporalmente adjacente à amostra de pixels direita superior do bloco de imagens x, e x2 é um número inteiro positivo, em que: as x2 amostras de pixels incluem pelo menos uma de uma amostra de pixels que tem a mesma localização que a amostra de pixels direita superior do bloco de imagens x, uma amostra de pixels espacialmente adjacente a uma borda direita do bloco de imagens x, uma amostra de pixels espacialmente adjacente a uma parte direita superior do bloco de imagens x, ou uma amostra de pixels espacialmente adjacente à borda superior do bloco de imagens x, em um quadro de vídeo temporalmente adjacente ao quadro de vídeo ao qual o bloco de imagens x pertence.

[013] Com referência à terceira forma possível de implementação do primeiro aspecto ou a quarta forma possível de implementação do primeiro aspecto ou a quinta forma possível de implementação do primeiro aspecto, em uma sexta forma possível de implementação do primeiro aspecto, um conjunto de unidades de informação de movimento candidatas correspondente à amostra de pixels esquerda inferior do bloco de imagens x inclui unidades de informação de movimento de x3 amostras de pixels, em que as x3 amostras de pixels incluem pelo menos uma amostra de pixels espacialmente adjacente à amostra de pixels esquerda inferior do bloco de imagens x e / ou pelo menos uma amostra de pixels temporalmente adjacente à amostra de pixels esquerda inferior do bloco de imagens x, e x3 é um número inteiro positivo, em que: as x3 amostras de pixels incluem pelo menos uma de uma amostra de pixels que tem a mesma localização que a amostra de pixels esquerda inferior do bloco de imagens x, uma amostra de pixels espacialmente adjacente à borda esquerda do bloco de imagens x, uma amostra de pixels espacialmente adjacente a uma parte esquerda inferior do bloco de imagens x, ou uma amostra de pixels espacialmente adjacente a uma borda inferior do bloco de imagens x, em um quadro de vídeo temporalmente adjacente ao quadro de vídeo ao qual o bloco de imagens x pertence.

[014] Com referência à terceira forma possível de implementação do primeiro aspecto ou a quarta forma possível de implementação do primeiro aspecto ou a quinta forma possível de implementação do primeiro aspecto ou a sexta forma possível de implementação do primeiro aspecto, em uma sétima forma possível de implementação do primeiro aspecto, um conjunto de unidades de informação de movimento candidatas correspondente à amostra de pixels central a1 do bloco de imagens x inclui unidades de informação de movimento de x5 amostras de pixels, em que uma amostra de pixels nas x5 amostras de pixels é uma amostra de pixels a2, em que: uma localização da amostra de pixels central a1 no quadro de vídeo ao qual o bloco de imagens x pertence é a mesma que uma localização da amostra de pixels a2 em um quadro de vídeo adjacente ao quadro de vídeo ao qual o bloco de imagens x pertence, e x5 é um número inteiro positivo.

[015] Com referência a qualquer do primeiro aspecto ou a primeira forma possível de implementação do primeiro aspecto à sétima forma possível de implementação do primeiro aspecto, em uma oitava forma possível de implementação do primeiro aspecto, a predição de um valor de pixel do bloco de imagens x por utilizar um modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas i inclui: quando vetores de movimento cujas direções de predição são uma primeira direção de predição no conjunto de unidades de informação de movimento fundidas i correspondem a diferentes índices de quadro de referência, realizar processamento de escalonamento no conjunto de unidades de informação de movimento fundidas i, de modo que os vetores de movimento cujas direções de predição são a primeira direção de predição no conjunto de unidades de informação de movimento fundidas i são escalonados para baixo para um mesmo quadro de referência, e prever o valor de pixel do bloco de imagens x por utilizar o modelo de movimento não translacional e um conjunto de unidades de informação de movimento fundida escalonadas i, em que a primeira direção de predição é direta ou inversa; ou a predição de um valor de pixel do bloco de imagens x por utilizar um modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas i inclui: quando vetores de movimento cujas direções de predição são diretas no conjunto de unidades de informação de movimento fundidas i correspondem a diferentes índices de quadro de referência e vetores de movimento cujas direções de predição são inversas no conjunto de unidades de informação de movimento fundidas i correspondem a diferentes índices de quadro de referência, realizar processamento de escalonamento no conjunto de unidades de informação de movimento fundidas i, de modo que os vetores de movimento cujas direções de predição são diretas no conjunto de unidades de informação de movimento fundidas i são escalonados para baixo para um mesmo quadro de referência e que os vetores de movimento cujas direções de predição são inversas no conjunto de unidades de informação de movimento fundidas i são escalonados para baixo para um mesmo quadro de referência, e prever o valor de pixel do bloco de imagens x por utilizar o modelo de movimento não translacional e um conjunto de unidades de informação de movimento fundidas escalonado i.

[016] Com referência a qualquer do primeiro aspecto ou à primeira forma possível de implementação do primeiro aspecto à oitava forma possível de implementação do primeiro aspecto, em uma nona forma possível de implementação do primeiro aspecto, o método inclui ainda: determinar K2 amostras de pixels em um bloco de imagens y, e determinar um conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels nas K2 amostras de pixels, em que K2 é um número inteiro maior do que 1, e o bloco de imagens y é espacialmente adjacente ao bloco de imagens x e o conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels nas K2 amostras de pixels inclui pelo menos uma unidade de informação de movimento candidata; determinar um conjunto de unidades de informação de movimento fundidas j incluindo K2 unidades de informação de movimento; em que um conjunto de unidades de informação de movimento candidatas correspondente a uma amostra de pixels z1 nas K2 amostras de pixels inclui uma unidade de informação de movimento a2, e a unidade de informação de movimento a2 é obtida com base em uma unidade de informação de movimento de uma amostra de pixels z2, em que a amostra de pixels z2 é uma amostra de pixels no bloco de imagens x e uma distância entre a amostra de pixels z2 e a amostra de pixels z1 é menor que um limiar, ou a amostra de pixels z2 é uma amostra de pixels no bloco de imagens x e uma distância entre a amostra de pixels z2 e a amostra de pixels z1 é mais curta; e as K2 unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas j são respectivamente selecionadas a partir de pelo menos uma parte de unidades de informação de movimento compatíveis com restrições no conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels nas K2 amostras de pixels; e prever um valor de pixel do bloco de imagens y por utilizar o modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas j.

[017] Com referência a qualquer do primeiro aspecto ou a primeira forma possível de implementação do primeiro aspecto à nona forma possível de implementação do primeiro aspecto, em uma décima forma possível de implementação do primeiro aspecto, o modelo de movimento não translacional é qualquer um dos seguintes modelos: um modelo de movimento afim, um modelo de movimento parabólico, um modelo de movimento rotacional, um modelo de movimento de perspectiva, um modelo de movimento de cisalhamento, um modelo de movimento de escalonamento, ou um modelo de movimento bilinear.

[018] Com referência a qualquer do primeiro aspecto ou a primeira forma possível de implementação do primeiro aspecto à décima forma possível de implementação do primeiro aspecto, em uma décima primeira forma possível de implementação do primeiro aspecto, a predição de um valor de pixel do bloco de imagens x por utilizar um modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas i inclui: obter um vetor de movimento de cada pixel no bloco de imagens x através de computação por utilizar o modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas i, e determinar um valor de pixel previsto de cada pixel no bloco de imagens x por utilizar o vetor de movimento obtido de cada pixel no bloco de imagens x; ou obter um vetor de movimento de cada bloco de pixels no bloco de imagens x através de computação por utilizar o modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas i, e determinar um valor de pixel previsto de cada pixel em cada bloco de pixels no bloco de imagens x por utilizar o vetor de movimento obtido de cada bloco de pixels no bloco de imagens x.

[019] Com referência a qualquer do primeiro aspecto ou a primeira forma possível de implementação do primeiro aspecto à décima primeira forma possível de implementação do primeiro aspecto, em uma décima segunda forma possível de implementação do primeiro aspecto, o método de predição de imagem é aplicado a um processo de codificação de vídeo, ou o método de predição de imagem é aplicado a um processo de decodificação de vídeo.

[020] Com referência à décima segunda forma possível de implementação do primeiro aspecto, em uma décima terceira forma possível de implementação do primeiro aspecto, quando o método de predição de imagem é aplicado ao processo de decodificação de vídeo, a determinação, a partir de N conjuntos de unidades de informação de movimento fundidas candidatas, do conjunto de unidades de informação de movimento fundidas i incluindo as K1 unidades de informação de movimento, inclui: determinar, a partir dos N conjuntos de unidades de informação de movimento fundidas candidatas, com base em um identificador que é do conjunto de unidades de informação de movimento fundidas i e é obtido a partir de um fluxo de bits de vídeo, o conjunto de unidades de informação de movimento fundidas i incluindo as K1 unidades de informação de movimento.

[021] Com referência à décima segunda forma possível de implementação do primeiro aspecto, em uma décima quarta forma possível de implementação do primeiro aspecto, quando o método de predição de imagem é aplicado ao processo de codificação de vídeo, a determinação, a partir de N conjuntos de unidades de informação de movimento fundidas candidatas, do conjunto de unidades de informação de movimento fundidas i incluindo as K1 unidades de informação de movimento, inclui: determinar, a partir dos N conjuntos de unidades de informação de movimento fundidas candidatas, de acordo com distorção ou um custo de taxa de distorção, o conjunto de unidades de informação de movimento fundidas i incluindo as K1 unidades de informação de movimento.

[022] Com referência à décima segunda forma possível de implementação do primeiro aspecto ou a décima quarta forma possível de implementação do primeiro aspecto, em uma décima primeira forma possível de implementação do primeiro aspecto, quando o método de predição de imagem é aplicado ao processo de codificação de vídeo, inclui: escrever um identificador do conjunto de unidades de informação de movimento fundidas i em um fluxo de bits de vídeo.

[023] Um segundo aspecto da presente invenção fornece um aparelho de predição de imagem, incluindo: uma primeira unidade de determinação, configurada para determinar K1 amostras de pixels em um bloco de imagens x, e determinar um conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels nas K1 amostras de pixels, em que o conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels inclui pelo menos uma unidade de informação de movimento candidata, e K1 é um número inteiro que é maior ou igual a 2; uma segunda unidade de determinação, configurada para determinar um conjunto de unidades de informação de movimento fundidas i incluindo K1 unidades de informação de movimento, em que cada unidade de informação de movimento no conjunto de unidades de informação de movimento fundidas i é selecionada a partir de pelo menos uma parte de unidades de informação de movimento em conjuntos de unidades de informação de movimento candidatas correspondentes a diferentes amostras de pixels nas K1 amostras de pixels, e a unidade de informação de movimento inclui um vetor de movimento cuja direção de predição é direta e / ou um vetor de movimento cuja direção de predição é inversa; e uma unidade de predição, configurada para prever um valor de pixel do bloco de imagens x por utilizar um modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas i.

[024] Com referência ao segundo aspecto, em uma primeira forma possível de implementação do segundo aspecto, a segunda unidade de determinação é especificamente configurada para determinar, a partir de N conjuntos de unidades de informação de movimento fundidas candidatas, o conjunto de unidades de informação de movimento fundidas i incluindo as K1 unidades de informação de movimento, em que cada unidade de informação de movimento incluída em cada conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas é selecionada a partir de pelo menos uma parte de unidades de informação de movimento compatíveis com restrições nos conjuntos de unidades de informação de movimento candidatas correspondentes a amostras de pixels diferentes nas K1 amostras de pixels, N é um número inteiro positivo, os N conjuntos de unidades de informação de movimento fundidas candidatas são diferentes uns dos outros, e cada conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas inclui K1 unidades de informação de movimento.

[025] Com referência à primeira forma possível de implementação do segundo aspecto, em uma segunda forma possível de implementação do segundo aspecto, os N conjuntos de unidades de informação de movimento fundidas candidatas satisfazem pelo menos uma de uma primeira condição, uma segunda condição, uma terceira condição, uma quarta condição, ou uma quinta condição, em que: a primeira condição inclui que um modo de movimento do bloco de imagens x indicado por uma unidade de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas seja movimento não translacional; a segunda condição inclui que direções de predição de pelo menos duas unidades de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas são iguais; a terceira condição inclui que índices de quadro de referência correspondentes a pelo menos duas unidades de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas são iguais; a quarta condição inclui que um valor absoluto de uma diferença entre componentes horizontais de duas unidades de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas seja menor ou igual a um limiar de componente horizontal; e a quinta condição inclui que um valor absoluto de uma diferença entre componentes verticais de duas unidades de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas seja menor ou igual a um limiar de componente vertical.

[026] Com referência ao segundo aspecto ou à primeira forma possível de implementação do segundo aspecto ou a segunda forma possível de implementação do segundo aspecto, em uma terceira forma possível de implementação do segundo aspecto, as K1 amostras de pixels incluem pelo menos duas amostras de pixels em uma amostra de pixels esquerda superior, uma amostra de pixels direita superior, uma amostra de pixels esquerda inferior, e uma amostra de pixels central a1 do bloco de imagens x, em que: a amostra de pixels esquerda superior do bloco de imagens x é um vértice esquerdo superior do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e incluindo um vértice esquerdo superior do bloco de imagens x; a amostra de pixels esquerda inferior do bloco de imagens x é um vértice esquerdo inferior do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e incluindo um vértice esquerdo inferior do bloco de imagens x; a amostra de pixels direita superior do bloco de imagens x é um vértice direito superior do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e incluindo um vértice direito superior do bloco de imagens x; e a amostra de pixels central a1 do bloco de imagens x é um pixel central do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e incluindo um pixel central do bloco de imagens x.

[027] Com referência à terceira forma possível de implementação do segundo aspecto, em uma quarta forma possível de implementação do segundo aspecto, um conjunto de unidades de informação de movimento candidatas correspondente à amostra de pixels esquerda superior do bloco de imagens x inclui unidades de informação de movimento de x1 amostras de pixels, em que as x1 amostras de pixels incluem pelo menos uma amostra de pixels espacialmente adjacente à amostra de pixels esquerda superior do bloco de imagens x e / ou pelo menos uma amostra de pixels temporalmente adjacente à amostra de pixels esquerda superior do bloco de imagens x, e x1 é um número inteiro positivo, em que: as x1 amostras de pixels incluem pelo menos uma de uma amostra de pixels que tem a mesma localização que a amostra de pixels esquerda superior do bloco de imagens x, uma amostra de pixels espacialmente adjacente a uma borda esquerda do bloco de imagens x, uma amostra de pixels espacialmente adjacente a uma parte esquerda superior do bloco de imagens x, ou uma amostra de pixels espacialmente adjacente a uma borda superior do bloco de imagens x, em um quadro de vídeo temporalmente adjacente a um quadro de vídeo ao qual o bloco de imagens x pertence.

[028] Com referência à terceira forma possível de implementação do segundo aspecto ou à quarta forma possível de implementação do segundo aspecto, em uma quinta forma possível de implementação do segundo aspecto, um conjunto de unidades de informação de movimento candidatas correspondente à amostra de pixels direita superior do bloco de imagens x inclui unidades de informação de movimento de x2 amostras de pixels, em que as x2 amostras de pixels incluem pelo menos uma amostra de pixels espacialmente adjacente à amostra de pixels direita superior do bloco de imagens x e / ou pelo menos uma amostra de pixels temporalmente adjacente à amostra de pixels direita superior do bloco de imagens x, e x2 é um número inteiro positivo, em que: as x2 amostras de pixels incluem pelo menos uma de uma amostra de pixels que tem a mesma localização que a amostra de pixels direita superior do bloco de imagens x, uma amostra de pixels espacialmente adjacente a uma borda direita do bloco de imagens x, uma amostra de pixels espacialmente adjacente a uma parte direita superior do bloco de imagens x, ou uma amostra de pixels espacialmente adjacente à borda superior do bloco de imagens x, em um quadro de vídeo temporalmente adjacente ao quadro de vídeo ao qual o bloco de imagens x pertence.

[029] Com referência à terceira forma possível de implementação do segundo aspecto ou à quarta forma possível de implementação do segundo aspecto ou a quinta forma possível de implementação do segundo aspecto, em uma sexta forma possível de implementação do segundo aspecto, um conjunto de unidades de informação de movimento candidatas correspondente à amostra de pixels esquerda inferior do bloco de imagens x inclui unidades de informação de movimento de x3 amostras de pixels, em que as x3 amostras de pixels incluem pelo menos uma amostra de pixels espacialmente adjacente à amostra de pixels esquerda inferior do bloco de imagens x e / ou pelo menos uma amostra de pixels temporalmente adjacente à amostra de pixels esquerda inferior do bloco de imagens x, e x3 é um número inteiro positivo, em que: as x3 amostras de pixels incluem pelo menos uma de uma amostra de pixels que tem a mesma localização que a amostra de pixels esquerda inferior do bloco de imagens x, uma amostra de pixels espacialmente adjacente à borda esquerda do bloco de imagens x, uma amostra de pixels espacialmente adjacente a uma parte esquerda inferior do bloco de imagens x, ou uma amostra de pixels espacialmente adjacente a uma borda inferior do bloco de imagens x, em um quadro de vídeo temporalmente adjacente ao quadro de vídeo ao qual o bloco de imagens x pertence.

[030] Com referência à terceira forma possível de implementação do segundo aspecto ou a quarta forma possível de implementação do segundo aspecto ou a quinta forma possível de implementação do segundo aspecto ou a sexta forma possível de implementação do segundo aspecto, em uma sétima forma possível de implementação do segundo aspecto, um conjunto de unidades de informação de movimento candidatas correspondente à amostra de pixels central a1 do bloco de imagens x inclui unidades de informação de movimento de x5 amostras de pixels, em que uma amostra de pixels nas x5 amostras de pixels é uma amostra de pixels a2, em que: uma localização da amostra de pixels central a1 no quadro de vídeo ao qual o bloco de imagens x pertence é a mesma que uma localização da amostra de pixels a2 em um quadro de vídeo adjacente ao quadro de vídeo ao qual o bloco de imagens x pertence, e x5 é um número inteiro positivo.

[031] Com referência à terceira forma possível de implementação do segundo aspecto ou a quarta forma possível de implementação do segundo aspecto ou a quinta forma possível de implementação do segundo aspecto ou a sexta forma possível de implementação do segundo aspecto ou a sétima forma possível de implementação do segundo aspecto, em uma oitava forma possível de implementação do segundo aspecto, a unidade de predição é configurada especificamente para: quando vetores de movimento cujas direções de predição são uma primeira direção de predição no conjunto de unidades de informação de movimento fundidas i correspondem a diferentes índices de quadro de referência, realizar processamento de escalonamento no conjunto de unidades de informação de movimento fundidas i, de modo que os vetores de movimento cujas direções de predição são a primeira direção de predição no conjunto de unidades de informação de movimento fundidas i são escalonados para baixo para um mesmo quadro de referência, e prever o valor de pixel do bloco de imagens x por utilizar o modelo de movimento não translacional e um conjunto de unidades de informação de movimento fundidas escalonado i, em que a primeira direção de predição é direta ou inversa; ou a unidade de predição é especificamente configurada para: quando vetores de movimento cujas direções de predição são diretas no conjunto de unidades de informação de movimento fundidas i correspondem a diferentes índices de quadro de referência e vetores de movimento cujas direções de predição são inversas no conjunto de unidades de informação de movimento fundidas i correspondem a diferentes índices de quadro de referência, realizar processamento de escalonamento no conjunto de unidades de informação de movimento fundidas, de modo que os vetores de movimento cujas direções de predição são diretas no conjunto de unidades de informação de movimento fundidas i são escalonados para baixo para um mesmo quadro de referência e que os vetores de movimento cujas direções de predição são inversas no conjunto de unidades de informação de movimento fundidas i são escalonados para baixo para um mesmo quadro de referência, e prever o valor de pixel do bloco de imagens x por utilizar o modelo de movimento não translacional e um conjunto de unidades de informação de movimento fundidas escalonado i.

[032] Com referência a qualquer do segundo aspecto ou a primeira forma possível de implementação do segundo aspecto à oitava forma possível de implementação do segundo aspecto, em uma nona forma possível de implementação do segundo aspecto, a unidade de predição é especificamente configurada para obter um vetor de movimento de cada pixel no bloco de imagens x através de computação por utilizar o modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas i, e determinar um valor de pixel previsto de cada pixel no bloco de imagens x por utilizar o vetor de movimento obtido de cada pixel no bloco de imagens x; ou a unidade de predição é especificamente configurada para obter um vetor de movimento de cada bloco de pixels no bloco de imagens x através de computação por utilizar o modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas i, e determinar um valor de pixel previsto de cada pixel em cada pixel no bloco de imagens x por utilizar o vetor de movimento obtido de cada bloco de pixels no bloco de imagens x.

[033] Com referência a qualquer do segundo aspecto ou a primeira forma possível de implementação do segundo aspecto da nona forma possível de implementação do segundo aspecto, em uma décima forma possível de implementação do segundo aspecto, a primeira unidade de determinação é ainda configurada para determinar K2 amostras de pixels em um bloco de imagens y, e determinar um conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels nas K2 amostras de pixels, em que K2 é um número inteiro maior do que 1, o bloco de imagens y é espacialmente adjacente ao bloco de imagens x, e o conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels nas K2 amostras de pixels inclui pelo menos uma unidade de informação de movimento candidata; a segunda unidade de determinação é ainda configurada para determinar um conjunto de unidades de informação de movimento fundidas j incluindo K2 unidades de informação de movimento, em que um conjunto de unidades de informação de movimento candidatas correspondente a uma amostra de pixels z1 nas K2 amostras de pixels inclui uma unidade de informação de movimento a2, e a unidade de informação de movimento a2 é obtida com base em uma unidade de informação de movimento de uma amostra de pixels z2, em que a amostra de pixels z2 é uma amostra de pixels no bloco de imagens x e uma distância entre a amostra de pixels z2 e a amostra de pixels z1 é inferior a um limiar, ou a amostra de pixels z2 é uma amostra de pixels no bloco de imagens x e uma distância entre a amostra de pixels z2 e a amostra de pixels z1 é mais curta; e as K2 unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas j são respectivamente selecionadas a partir de pelo menos uma parte de unidades de informação de movimento compatíveis com restrições no conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels nas K2 amostras de pixels; e a unidade de predição é ainda configurada para prever um valor de pixel do bloco de imagens y por utilizar o modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas j.

[034] Com referência a qualquer do segundo aspecto ou a primeira forma possível de implementação do segundo aspecto da décima forma possível de implementação do segundo aspecto, em uma décima primeira forma possível de implementação do segundo aspecto, o modelo de movimento não translacional é qualquer um dos seguintes modelos: um modelo de movimento afim, um modelo de movimento parabólico, um modelo de movimento rotacional, um modelo de movimento de perspectiva, um modelo de movimento de cisalhamento, um modelo de movimento de escalonamento, ou um modelo de movimento bilinear.

[035] Com referência a qualquer do segundo aspecto ou a primeira forma possível de implementação do segundo aspecto à décima primeira forma possível de implementação do segundo aspecto, em uma décima segunda forma possível de implementação do segundo aspecto, o aparelho de predição de imagem é aplicado a um aparelho de codificação de vídeo, ou o aparelho de predição de imagem é aplicado a um aparelho de decodificação de vídeo.

[036] Com referência à décima segunda forma possível de implementação do segundo aspecto, em uma décima terceira forma possível de implementação do segundo aspecto, quando o aparelho de predição de imagem é aplicado ao aparelho de codificação de vídeo, a segunda unidade de determinação é especificamente configurada para determinar, a partir dos N conjuntos de unidades de informação de movimento fundidas candidatas, de acordo com distorção ou um custo de taxa de distorção, o conjunto de unidades de informação de movimento fundidas i incluindo as K1 unidades de informação de movimento.

[037] Com referência à décima segunda forma possível de implementação do segundo aspecto ou a décima terceira forma possível de implementação do segundo aspecto, em uma décima quarta forma possível de implementação do segundo aspecto, quando o aparelho de predição de imagem é aplicado ao aparelho de codificação de vídeo, a unidade de predição é ainda configurada para escrever um identificador do conjunto de unidades de informação de movimento fundidas i em um fluxo de bits de vídeo.

[038] Com referência à décima segunda forma possível de implementação do segundo aspecto, em uma décima primeira forma possível de implementação do segundo aspecto, quando o aparelho de predição de imagem é aplicado ao aparelho de decodificação de vídeo, a segunda unidade de determinação é configurada especificamente para determinar, a partir dos N conjuntos de unidades de informação de movimento fundidas candidatas, com base em um identificador que é do conjunto de unidades de informação de movimento fundidas i e é obtido a partir de um fluxo de bits de vídeo, o conjunto de unidades de informação de movimento fundidas i incluindo as K1 unidades de informação de movimento.

[039] Pode ser visto que, em algumas soluções técnicas das modalidades da presente invenção, um valor de pixel do bloco de imagens x é previsto por utilizar um modelo de movimento não translacional e um conjunto de unidades de informação de movimento fundidas i, em que cada unidade de informação de movimento no conjunto de unidades de informação de movimento fundidas i é selecionada a partir de pelo menos uma parte de unidades de informação de movimento em conjuntos de unidades de informação de movimento candidatas correspondentes a diferentes amostras de pixels nas K1 amostras de pixels. Porque um intervalo de seleção do conjunto de unidades de informação de movimento fundidas i é relativamente pequeno, um mecanismo utilizado em uma tecnologia convencional para remover unidades de informação de movimento de K1 amostras de pixels apenas por executar uma quantidade enorme de cálculo em todos os conjuntos de unidades de informação de movimento candidatas correspondentes às K1 amostras de pixels é abandonado. Isso ajuda a melhorar eficiência de codificação, também ajuda a reduzir complexidade computacional de predição de imagem realizada com base no modelo de movimento não translacional, torna ainda possível introduzir o modelo de movimento não translacional em um padrão de codificação de vídeo, e porque o modelo de movimento não translacional é introduzido, ajuda a descrever movimento de um objeto com mais precisão e, portanto, ajuda a melhorar a precisão de predição.

BREVE DESCRIÇÃO DOS DESENHOS

[040] Para descrever as soluções técnicas nas modalidades da presente invenção ou na técnica anterior mais claramente, o seguinte descreve brevemente os desenhos anexos necessários para descrever as modalidades ou a técnica anterior. Aparentemente, os desenhos anexos na descrição que segue mostram apenas algumas modalidades da presente invenção, e uma pessoa com conhecimentos normais na técnica pode ainda derivar outros desenhos a partir destes desenhos anexos sem esforços criativos.

[041] A Figura 1-a é um diagrama esquemático de um modo de partição de unidade de predição correspondente à predição intraquadro de acordo com uma modalidade da presente invenção;

[042] A Figura 1-b é um diagrama esquemático de vários modos de divisão de unidade de predição correspondentes à predição interquadro de acordo com uma modalidade da presente invenção;

[043] A Figura 1-c é um fluxograma esquemático de um método de predição de imagem de acordo com uma modalidade da presente invenção;

[044] A Figura 2-a é um fluxograma esquemático de outro método de predição de imagem de acordo com uma modalidade da presente invenção;

[045] A Figura 2-b à Figura 2-d são diagramas esquemáticos de vários métodos para determinar conjuntos de unidades de informação de movimento candidatas de amostras de pixels de acordo com uma modalidade da presente invenção;

[046] A Figura 2-e é um diagrama esquemático de coordenadas de vértice de um bloco de imagens x de acordo com uma modalidade da presente invenção;

[047] A Figura 2-f e a Figura 2-g são diagramas esquemáticos de movimento afim de um pixel de acordo com uma modalidade da presente invenção;

[048] A Figura 2-h é um diagrama esquemático de interpolação bilinear de acordo com uma modalidade da presente invenção;

[049] A Figura 2-i é um diagrama esquemático de armazenamento de um vetor de movimento de acordo com uma modalidade da presente invenção;

[050] A Figura 3 é um fluxograma esquemático de outro método de codificação de vídeo de acordo com uma modalidade da presente invenção;

[051] A Figura 4 é um fluxograma esquemático de outro método de decodificação de vídeo de acordo com uma modalidade da presente invenção;

[052] A Figura 5 é um diagrama esquemático de um aparelho de predição de imagem de acordo com uma modalidade da presente invenção;

[053] A Figura 6 é um diagrama esquemático de outro aparelho de predição de imagem de acordo com uma modalidade da presente invenção; e

[054] A Figura 7 é um diagrama esquemático de outro aparelho de predição de imagem de acordo com uma modalidade da presente invenção.

DESCRIÇÃO DAS MODALIDADES

[055] Modalidades da presente invenção fornecem um método de predição de imagem e um aparelho relacionado, de modo a reduzir a complexidade computacional da predição de imagem executada com base em um modelo de movimento não translacional.

[056] Para fazer com que um especialista na técnica compreenda melhor as soluções técnicas da presente invenção, o seguinte descreve clara e completamente as soluções técnicas nas modalidades da presente invenção com referência aos desenhos anexos nas modalidades da presente invenção. Aparentemente, as modalidades descritas são meramente uma parte em vez de todas as modalidades da presente invenção. Todas as outras modalidades obtidas por um especialista na técnica com base nas modalidades da presente invenção sem esforços criativos estarão dentro do âmbito de proteção da presente invenção.

[057] As modalidades são aqui descritas em detalhe separadamente.

[058] Na divulgação, reivindicações e desenhos anexos da presente invenção, os termos "primeiro", "segundo", "terceiro", "quarto" e semelhantes têm a intenção de distinguir entre objetos diferentes, mas não indicam uma ordem particular. Além disso, os termos "inclui", "tem", e qualquer outra variante dos mesmos destinam-se a cobrir uma inclusão não exclusiva. Por exemplo, um processo, um método, um sistema, um produto ou um dispositivo que inclui uma série de passos ou unidades não está limitado aos passos ou unidades listadas, mas opcionalmente inclui ainda um passo ou unidade não listada ou, opcionalmente, inclui ainda outro passo ou unidade inerente do processo, método, produto ou dispositivo.

[059] O que segue descreve, em primeiro lugar, alguns conceitos que podem estar envolvidos nas modalidades da presente invenção.

[060] Na maioria das estruturas de codificação, uma sequência de vídeo inclui uma série de imagens (Inglês: Picture), as imagens são ainda divididas em fatias (Inglês: slice), e as fatias são ainda divididas em blocos (Inglês: block). Codificação de vídeo é para realizar processamento de codificação da esquerda para a direita e de cima para baixo linha a linha a partir de uma posição de canto esquerdo superior de uma imagem utilizando um bloco como uma unidade. Em alguns novos padrões de codificação de vídeo, o conceito de bloco é ampliado. Um macrobloco (Inglês: macroblock, MB para abreviar) é definido no padrão H.264, e o MB pode ser ainda dividido em múltiplos blocos de predição que podem ser utilizados para codificação preditiva. No padrão HEVC, são utilizados conceitos básicos como uma unidade de codificação (Inglês: coding unit, CU para abreviar), uma unidade de predição (Inglês: prediction unit, PU para abreviar) e uma unidade de transformação (Inglês: transform unit, PU para abreviar), e as unidades múltiplas são classificadas de acordo com as funções, e uma estrutura totalmente nova baseada em árvores é utilizada para descrição. Por exemplo, a CU pode ser dividida em CUs menores de acordo com um quadtree, e a CU menor pode ser dividida, para formar uma estrutura de quadtree. A PU e a TU também têm estruturas de árvore semelhantes. Independentemente de uma unidade ser uma CU, uma PU ou uma TU, a unidade pertence ao conceito de bloco na essência. A CU é semelhante a um macrobloco MB ou um bloco de codificação e é uma unidade básica para particionar e codificar uma imagem. A PU pode corresponder a um bloco de predição, e é uma unidade básica para codificação preditiva. A CU é ainda dividida em múltiplas PUs de acordo com um modo de divisão. A TU pode corresponder a um bloco de transformação e é uma unidade básica para transformar um resíduo de predição.

[061] No padrão HEVC, um tamanho da unidade de codificação pode incluir quatro níveis: 64 x 64, 32 x 32, 16 x 16 ou 8 x 8. As unidades de codificação em cada nível podem ser divididas em unidades de predição de diferentes tamanhos de acordo com a predição intraquadro e predição interquadro. Por exemplo, como mostrado na Figura 1-a e a Figura 1-b, a Figura 1-a mostra uma maneira de divisão de unidade de predição correspondente à predição intraquadro. A Figura 1b mostra várias maneiras de divisão de unidade de predição correspondentes à predição interquadro.

[062] Em um processo de desenvolvimento e evolução de uma tecnologia de codificação de vídeo, especialistas de codificação de vídeo descobrem vários métodos para utilizar correlação temporal e espacial entre blocos de codificação / decodificação adjacentes para tentar melhorar eficiência de codificação. No padrão de codificação de vídeo avançado / H264 (Inglês: advanced video coding, AVC para abreviar), um modo de salto (skip mode) e um modo direto (direct mode) tornam-se ferramentas eficazes para melhorar a eficiência de codificação. Os blocos dos dois modos de codificação utilizados quando uma taxa de bits é baixa podem ocupar mais de metade de uma sequência de codificação completa. Quando o modo de salto é usado, um vetor de movimento de um bloco de imagens atual pode ser derivado usando vetores de movimento próximos apenas por adicionar uma bandeira de modo de salto para um fluxo de bits, e um valor de um bloco de referência é copiado diretamente de acordo com o vetor de movimento como um valor reconstruído do bloco de imagens atual. Além disso, quando o modo direto é utilizado, um codificador pode derivar o vetor de movimento do bloco de imagens atual utilizando os vetores de movimento adjacentes, e copiar diretamente o valor do bloco de referência de acordo com o vetor de movimento como um valor previsto do bloco de imagens atual, e executar codificação preditiva no bloco de imagens atual utilizando o valor previsto em um codificador. No padrão de HEVC avançada, algumas novas ferramentas de codificação são introduzidas para melhorar ainda mais a eficiência de codificação de vídeo. Um modo de fusão (merge) e um modo de predição de vetor de movimento avançado (Inglês: advanced motion vector prediction, AMVP para abreviar) são duas importantes ferramentas de predição interquadro. Durante codificação de fusão (merge), informação de movimento (incluindo um vetor de movimento (Inglês: motion vector, MV para abreviar), uma direção de predição, um índice de quadro de referência, e semelhantes) de blocos codificados perto de um bloco de codificação atual é usado para construir um conjunto de informações de movimento candidatas; através de comparação, informação de movimento candidata com a maior eficiência de codificação pode ser selecionada como informação de movimento do bloco de codificação atual, um valor previsto do bloco de codificação atual é encontrado a partir do quadro de referência, e codificação preditiva é realizada no bloco de codificação atual; e ao mesmo tempo, um valor de índice indicando a partir de qual bloco codificado adjacente a informação de movimento é selecionada é escrito para um fluxo de bits. Quando o modo de predição de vetor de movimento adaptativo é utilizado, um vetor de movimento de um bloco codificado adjacente é utilizado como um preditor de vetor de movimento de um bloco de codificação atual. Um vetor de movimento com a mais alta eficiência de codificação pode ser selecionado e usado para prever um vetor de movimento do bloco de codificação atual, e um valor de índice que indica qual vetor de movimento adjacente é selecionado pode ser escrito em um fluxo de bits de vídeo.

[063] O seguinte continua a discutir as soluções técnicas das modalidades da presente invenção.

[064] O que segue descreve primeiro um método de predição de imagem fornecido por uma modalidade da presente invenção. O método de predição de imagem fornecido por esta modalidade da presente invenção é realizado por um aparelho de codificação de vídeo ou por um aparelho de decodificação de vídeo. O aparelho de codificação de vídeo ou o aparelho de decodificação de vídeo pode ser qualquer aparelho que necessite de saída ou armazenamento de um vídeo, por exemplo, um dispositivo tal como um computador portátil, um computador tablet, um computador pessoal, um telefone móvel ou um servidor de vídeo.

[065] Em uma modalidade de um método de predição de imagem de acordo com a presente invenção, o método de predição de imagem inclui: determinar K1 amostras de pixels em um bloco de imagens x, e determinar um conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels nas K1 amostras de pixels, K1 é um número inteiro que é maior ou igual a 2, o conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels inclui pelo menos uma unidade de informação de movimento candidata; determinar um conjunto de unidades de informação de movimento fundidas i incluindo K1 unidades de informação de movimento, em que cada unidade de informação de movimento no conjunto de unidades de informação de movimento fundidas i é selecionada de pelo menos uma parte de unidades de informação de movimento em conjuntos de unidades de informação de movimento candidatas correspondentes a diferentes amostras de pixels nas K1 amostras de pixels, e a unidade de informação de movimento inclui um vetor de movimento cuja direção de predição é direta e / ou um vetor de movimento cuja direção de predição é inversa; e prever um valor de pixel do bloco de imagens x por utilizar um modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas i.

[066] Com referência à Figura 1-c, a Figura 1-c é um fluxograma esquemático de um método de predição de imagem de acordo com uma modalidade da presente invenção. Conforme ilustrado na Figura 1-c, um método de predição de imagem fornecido por uma modalidade da presente invenção pode incluir os seguintes passos: 101. Determinar K1 amostras de pixels em um bloco de imagens x, e determinar um conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels nas K1 amostras de pixels.

[067] O conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels inclui pelo menos uma unidade de informação de movimento candidata.

[068] K1 é um número inteiro maior que 1. Por exemplo, K1 pode ser igual a 2, 3, 4, ou outro valor.

[069] As K1 amostras de pixels podem ser selecionadas de várias formas.

[070] A amostra de pixels mencionada em cada modalidade da presente invenção pode ser um pixel ou um bloco de pixels incluindo pelo menos dois pixels.

[071] A unidade de informação de movimento mencionada em cada modalidade da presente invenção pode incluir um vetor de movimento cuja direção de predição é direta e / ou um vetor de movimento cuja direção de predição é inversa. Isto é, uma unidade de informação de movimento pode incluir um vetor de movimento ou pode incluir dois vetores de movimento com diferentes direções de predição.

[072] Se uma direção de predição de uma unidade de informação de movimento é direta, isto indica que a unidade de informação de movimento inclui um vetor de movimento cuja direção de predição é direta, mas não inclui um vetor de movimento cuja direção de predição é inversa. Se uma direção de predição de uma unidade de informação de movimento é inversa, isto indica que a unidade de informação de movimento inclui um vetor de movimento cuja direção de predição é inversa, mas não inclui um vetor de movimento cuja direção de predição é direta. Se uma direção de predição de uma unidade de informação de movimento é unidirecional, isto indica que a unidade de informação de movimento inclui um vetor de movimento cuja direção de predição é direta, mas não inclui um vetor de movimento cuja direção de predição é inversa, ou indica que a unidade de informação de movimento inclui um vetor de movimento cuja direção de predição é inversa, mas não inclui um vetor de movimento cuja direção de predição é direta. Se uma direção de predição de uma unidade de informação de movimento é bidirecional, isto indica que a unidade de informação de movimento inclui um vetor de movimento cuja direção de predição é direta e um vetor de movimento cuja direção de predição é inversa.

[073] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, as K1 amostras de pixels incluem pelo menos duas amostras de pixels em uma amostra de pixels esquerda superior, uma amostra de pixels direita superior, uma amostra de pixels esquerda inferior, e uma amostra de pixels central a1 do bloco de imagens x. A amostra de pixels esquerda superior do bloco de imagens x é um vértice esquerdo superior do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e incluindo um vértice esquerdo superior do bloco de imagens x; a amostra de pixels esquerda inferior do bloco de imagens x é um vértice esquerdo inferior do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e incluindo um vértice esquerdo inferior do bloco de imagens x; a amostra de pixels direita superior do bloco de imagens x é um vértice direito superior do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e incluindo um vértice direito superior do bloco de imagens x; e a amostra de pixels central a1 do bloco de imagens x é um pixel central do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e incluindo um pixel central do bloco de imagens x.

[074] Se uma amostra de pixels é um bloco de pixels, um tamanho do bloco de pixels é, por exemplo, 2x2, 1x2, 4x2, 4x4 ou outro tamanho. 102. Determinar um conjunto de unidades de informação de movimento fundidas i incluindo K1 unidades de informação de movimento.

[075] Cada unidade de informação de movimento no conjunto de unidades de informação de movimento fundidas i é selecionada a partir de pelo menos uma parte de unidades de informação de movimento em conjuntos de unidades de informação de movimento candidatas correspondentes a diferentes amostras de pixels nas K1 amostras de pixels. Ou seja, quaisquer duas unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas i são selecionadas a partir de pelo menos uma parte de unidades de informação de movimento nos conjuntos de unidades de informação de movimento candidatas correspondentes a diferentes amostras de pixels nas K1 amostras de pixels.

[076] Por exemplo, é assumido que K1 é igual a 3, em que as K1 amostras de pixels incluem uma amostra de pixels 001, uma amostra de pixels 002 e uma amostra de pixels 003. Um conjunto de unidades de informação de movimento candidatas correspondente à amostra de pixels 001 é um conjunto de unidades de informação de movimento candidatas 011. Um conjunto de unidades de informação de movimento candidatas correspondente à amostra de pixels 002 é um conjunto de unidades de informação de movimento candidatas 022. Um conjunto de unidades de informação de movimento candidatas correspondente à amostra de pixels 003 é um conjunto de unidades de informação de movimento candidatas 033. O conjunto de unidades de informação de movimento i inclui uma unidade de informação de movimento C01, uma unidade de informação de movimento C02 e uma unidade de informação de movimento C03. A unidade de informação de movimento C01 pode ser selecionada a partir do conjunto de unidades de informação de movimento candidatas 011, a unidade de informação de movimento C02 pode ser selecionada a partir do conjunto de unidades de informação de movimento candidatas 022 e a unidade de informação de movimento C03 pode ser selecionada a partir do conjunto de unidades de informação de movimento candidatas 033. Ou seja, quaisquer duas unidades de informação de movimento na unidade de informação de movimento C01, a unidade de informação de movimento C02, e a unidade de informação de movimento C03 são selecionadas a partir de pelo menos uma parte de unidades de informação de movimento em diferentes conjuntos de unidades de informação de movimento candidatas no conjunto de unidades de informação de movimento candidatas 011, o conjunto de unidades de informação de movimento candidatas 022 e o conjunto de unidades de informação de movimento candidatas 033. Cenários em que K1 é igual a outros valores são deduzidos da mesma maneira.

[077] Pode ser compreendido que, assumindo que o conjunto de unidades de informação de movimento fundidas i inclui a unidade de informação de movimento C01, a unidade de informação de movimento C02, e a unidade de informação de movimento C03, em que qualquer unidade de informação de movimento na unidade de informação de movimento C01, a unidade de informação de movimento C02 pode incluir um vetor de movimento cuja direção de predição é direta e / ou um vetor de movimento cuja direção de predição é inversa, o conjunto de unidades de informação de movimento fundidas i pode incluir três vetores de movimento (direções de predição dos três vetores de movimento podem ser direta ou inversa, ou os três vetores de movimento podem incluir dois vetores de movimento cujas direções de predição são direta e um vetor de movimento cuja direção de predição é inversa ou pode incluir um vetor de movimento cuja direção de predição é direta e dois vetores de movimento cujas direções de predição são inversas); ou podem incluir quatro vetores de movimento (os quatro vetores de movimento podem incluir dois vetores de movimento cujas direções de predição são direta e dois vetores de movimento cujas direções de predição são inversas, ou podem incluir um vetor de movimento cuja direção de predição é direta e três vetores de movimento cujas direções de predição são inversas ou podem incluir três vetores de movimento cujas direções de predição são direta e um vetor de movimento cuja direção de predição é inversa); ou podem incluir cinco vetores de movimento (os cinco vetores de movimento podem incluir dois vetores de movimento cujas direções de predição são direta e três vetores de movimento cujas direções de predição são inversas, ou podem incluir três vetores de movimento cujas direções de predição são diretas e dois vetores de movimento cujas direções de predição são inversas); ou pode incluir seis vetores de movimento (os seis vetores de movimento incluem três vetores de movimento cujas direções de predição são direta e três vetores de movimento cujas direções de predição são inversas). 103. Prever um valor de pixel do bloco de imagens x por utilizar um modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas i.

[078] O bloco de imagens x pode ser considerado como um bloco de imagens atual, e o bloco de imagens atual pode ser um bloco de codificação atual ou um bloco de decodificação atual.

[079] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, o modelo de movimento não translacional é qualquer um dos seguintes modelos: um modelo de movimento afim, um modelo de movimento parabólico, um modelo de movimento rotacional, um modelo de movimento de perspectiva, um modelo de movimento de cisalhamento, um modelo de movimento de escalonamento ou um modelo de movimento bilinear. Pode ser entendido que, o modelo de movimento não translacional também não está limitado ao exemplo específico anterior.

[080] Pode ser visto que, na solução técnica desta modalidade, um valor de pixel do bloco de imagens x é previsto por utilizar um modelo de movimento não translacional e um conjunto de unidades de informação de movimento fundidas i, em que cada unidade de informação de movimento no conjunto de unidades de informação de movimento fundidas i é selecionada a partir de pelo menos uma parte de unidades de informação de movimento em conjuntos de unidades de informação de movimento candidatas correspondentes a diferentes amostras de pixels nas K1 amostras de pixels. Porque um intervalo de seleção do conjunto de unidades de informação de movimento fundidas i é relativamente pequeno, um mecanismo utilizado em uma tecnologia convencional para remover unidades de informação de movimento de K1 amostras de pixels apenas por executar uma quantidade enorme de cálculo em todos os conjuntos de unidades de informação de movimento candidatas correspondentes às K1 amostras de pixels é abandonado. Isso ajuda a melhorar eficiência de codificação, também ajuda a reduzir complexidade computacional de predição de imagem realizada com base no modelo de movimento não translacional, torna ainda possível introduzir o modelo de movimento não translacional em um padrão de codificação de vídeo, e porque o modelo de movimento não translacional é introduzido, ajuda a descrever movimento de um objeto com mais precisão e, portanto, ajuda a melhorar a precisão de predição.

[081] O método de predição de imagem fornecido por esta modalidade pode ser aplicado a um processo de codificação de vídeo ou pode ser aplicado a um processo de decodificação de vídeo.

[082] Em uma aplicação real, o conjunto de unidades de informação de movimento fundidas i incluindo as K1 unidades de informação de movimento pode ser determinado de várias maneiras.

[083] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, a determinação de um conjunto de unidades de informação de movimento fundidas i incluindo K1 unidades de informação de movimento pode incluir: determinar, a partir de N conjuntos de unidades de informação de movimento fundidas candidatas, o conjunto de unidades de informação de movimento fundidas i incluindo as K1 unidades de informação de movimento, em que cada unidade de informação de movimento incluída em cada conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas é selecionada a partir de pelo menos uma parte de unidades de informação de movimento compatíveis com restrições nos conjuntos de unidades de informação de movimento candidatas correspondentes a diferentes amostras de pixels nas K1 amostras de pixels, N é um número inteiro positivo, os N conjuntos de unidades de informação de movimento fundidas candidatas são diferentes uns dos outros, e cada conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas inclui K1 unidades de informação de movimento.

[084] Que dois conjuntos de unidades de informação de movimento fundidas candidatas são diferentes pode significar que as unidades de informação de movimento incluídas nos conjuntos de unidades de informação de movimento fundidas candidatas não são completamente iguais.

[085] Que duas unidades de informação de movimento são diferentes pode significar que os vetores de movimento incluídos nas duas unidades de informação de movimento são diferentes, ou que direções de predição de vetores de movimento incluídos nas duas unidades de informação de movimento são diferentes, ou que índices de quadro de referência correspondentes aos vetores de movimento incluídos nas duas unidades de informação de movimento são diferentes. Que duas unidades de informação de movimento são iguais pode significar que os vetores de movimento incluídos nas duas unidades de informação de movimento são iguais, e que as direções de predição dos vetores de movimento incluídos nas duas unidades de informação de movimento são iguais, e que índices de quadro de referência correspondentes aos vetores de movimento incluídos nas duas unidades de informação de movimento são iguais.

[086] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, quando o método de predição de imagem é aplicado ao processo de decodificação de vídeo, a determinação, a partir de N conjuntos de unidades de informação de movimento fundidas candidatas, o conjunto de unidades de informação de movimento fundidas i incluindo as K1 unidades de informação de movimento, pode incluir: determinar, a partir dos N conjuntos de unidades de informação de movimento fundidas candidatas, com base em um identificador que é do conjunto de unidades de informação de movimento fundidas i e é obtido de um fluxo de bits de vídeo, o conjunto de unidades de informação de movimento fundidas i incluindo as K1 unidades de informação de movimento.

[087] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, quando o método de predição de imagem é aplicado ao processo de codificação de vídeo, o método pode ainda incluir: escrever um identificador do conjunto de unidades de informação de movimento fundidas i em um fluxo de bits de vídeo.

[088] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, a determinação, a partir de N conjuntos de unidades de informação de movimento fundidas candidatas, o conjunto de unidades de informação de movimento fundidas i incluindo as K1 unidades de informação de movimento pode incluir: determinar, a partir dos N conjuntos de unidades de informação de movimento fundidas candidatas , de acordo com distorção ou um custo de taxa de distorção, o conjunto de unidades de informação de movimento fundidas i incluindo as K1 unidades de informação de movimento.

[089] Opcionalmente, um custo de taxa de distorção correspondente ao conjunto de unidades de informação de movimento fundidas i é inferior ou igual a um custo de taxa de distorção correspondente a qualquer conjunto de unidades de informação de movimento fundidas nos N conjuntos de unidades de informação de movimento fundidas candidatas exceto o conjunto de unidades de informação de movimento fundidas i.

[090] Opcionalmente, distorção correspondente ao conjunto de unidades de informação de movimento fundidas i é menor ou igual a distorção correspondente a qualquer conjunto de unidades de informação de movimento fundidas nos N conjuntos de unidades de informação de movimento fundidas candidatas exceto o conjunto de unidades de informação de movimento fundidas i.

[091] Um custo de taxa de distorção correspondente a um conjunto de unidades de informação de movimento fundidas candidatas particular nos N conjuntos de unidades de informação de movimento fundidas candidatas (por exemplo, o conjunto de unidades de informação de movimento fundidas i nos N conjuntos de unidades de informação de movimento fundidas candidatas) pode ser, um custo de taxa de distorção correspondente a um valor de pixel previsto de um bloco de imagens obtido por predição do valor de pixel do bloco de imagens (por exemplo, o bloco de imagens x) por utilizar o conjunto de unidades de informação de movimento fundidas candidatas particular (por exemplo, o conjunto de unidades de informação de movimento fundidas i).

[092] Distorção correspondente a um conjunto de unidades de informação de movimento fundidas candidatas particular nos N conjuntos de unidades de informação de movimento fundidas candidatas (por exemplo, o conjunto de unidades de informação de movimento fundidas i nos N conjuntos de unidades de informação de movimento fundidas candidatas) pode ser, por exemplo, distorção entre um valor de pixel original de um bloco de imagens (por exemplo, o bloco de imagens x) e um valor de pixel previsto do bloco de imagens obtido por predição do valor de pixel do bloco de imagens por utilizar o conjunto de unidades de informação de movimento fundidas candidatas particular (por exemplo, o conjunto de unidades de informação de movimento fundidas i) (nomeadamente, a distorção entre o valor de pixel original e o valor de pixel previsto do bloco de imagens).

[093] Em algumas formas possíveis de implementação da presente invenção, distorção entre um valor de pixel original de um bloco de imagens (por exemplo, o bloco de imagens x) e um valor de pixel previsto do bloco de imagens obtido por predição do valor de pixel do bloco de imagens por utilizar o conjunto de unidades de informação de movimento fundidas candidatas particular (por exemplo, o conjunto de unidades de informação de movimento fundidas i) pode ser especificamente, por exemplo, uma soma de diferenças quadradas (SSD, soma de diferenças quadradas) ou uma soma de diferenças absolutas (SAD, soma de diferenças absolutas) ou uma soma de diferenças entre o valor de pixel original do bloco de imagens (por exemplo, o bloco de imagens x) e o valor de pixel previsto do bloco de imagens obtido por predição do valor de pixel do bloco de imagens por utilizar o conjunto de unidades de informação de movimento fundidas candidatadas particular (por exemplo, o conjunto de unidades de informação de movimento fundidas i), ou outro parâmetro de distorção que pode medir a distorção.

[094] N é um número inteiro positivo. Por exemplo, N pode ser igual a 1, 2, 3, 4, 5, 6, 8 ou outro valor.

[095] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, unidades de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas podem ser diferentes umas das outras.

[096] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, os N conjuntos de unidades de informação de movimento fundidas candidatas satisfazem pelo menos uma de uma primeira condição, uma segunda condição, uma terceira condição, uma quarta condição, ou uma quinta condição.

[097] A primeira condição inclui que um modo de movimento do bloco de imagens x indicado por uma unidade de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas seja movimento não translacional. Por exemplo, se todos os vetores de movimento cujas direções de predição são uma primeira direção de predição em um conjunto de unidades de informação de movimento fundidas candidatas são iguais, pode ser considerado que o modo de movimento do bloco de imagens x indicado por uma unidade de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas é movimento translacional; caso contrário, pode ser considerado que o modo de movimento do bloco de imagens x indicado por uma unidade de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas é movimento não translacional, em que a primeira direção de predição é direta ou inversa. Para um outro exemplo, se todos os vetores de movimento cujas direções de predição são uma direção de predição direta em um conjunto de unidades de informação de movimento fundidas candidatas são iguais, e todos os vetores de movimento cujas direções de predição são direções de predição inversas no conjunto de unidades de informação de movimento fundidas candidatas são iguais, pode ser considerado que o modo de movimento do bloco de imagens x indicado por uma unidade de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas é movimento translacional; caso contrário, pode ser considerado que o modo de movimento do bloco de imagens x indicado por uma unidade de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas é movimento não translacional.

[098] A segunda condição pode incluir que direções de predição de pelo menos duas unidades de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas são iguais. Por exemplo, quando duas unidades de informação de movimento incluem um vetor de movimento cuja direção de predição é direta e um vetor de movimento cuja direção de predição é inversa, isto indica que as direções de predição das duas unidades de informação de movimento são iguais. Para um outro exemplo, quando uma unidade de informação de movimento em duas unidades de informação de movimento inclui um vetor de movimento cuja direção de predição é direta e um vetor de movimento cuja direção de predição é inversa, e a outra unidade de informação de movimento inclui um vetor de movimento cuja direção de predição é direta, mas não inclui um vetor de movimento cuja direção de predição é inversa, ou a outra unidade de informação de movimento inclui um vetor de movimento cuja direção de predição é inversa, mas não inclui um vetor de movimento cuja direção de predição é direta, isto pode indicar que as direções de predição das duas unidades de informação de movimento são diferentes. Para um outro exemplo, quando uma unidade de informação de movimento em duas unidades de informação de movimento inclui um vetor de movimento cuja direção de predição é direta, mas não inclui um vetor de movimento cuja direção de predição é inversa, e a outra unidade de informação de movimento inclui um vetor de movimento cuja direção de predição é inversa, mas não inclui um vetor de movimento cuja direção de predição é direta, isto pode indicar que as direções de predição das duas unidades de informação de movimento são diferentes. Para um outro exemplo, quando duas unidades de informação de movimento incluem um vetor de movimento cuja direção de predição é direta, mas nenhuma das duas unidades de informação de movimento inclui um vetor de movimento cuja direção de predição é inversa, isto indica que as direções de predição das duas unidades de informação de movimento são iguais. Para um outro exemplo, quando duas unidades de informação de movimento incluem um vetor de movimento cuja direção de predição é inversa, mas nenhuma das duas unidades de informação de movimento inclui um vetor de movimento cuja direção de predição é direta, isto indica que as direções de predição das duas unidades de informação de movimento são iguais.

[099] A terceira condição inclui que índices de quadro de referência correspondentes a pelo menos duas unidades de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas particular nos N conjuntos de unidades de informação de movimento fundidas candidatas são iguais. Por exemplo, quando duas unidades de informação de movimento incluem um vetor de movimento cuja direção de predição é direta e um vetor de movimento cuja direção de predição é inversa, e índices de quadro de referência correspondentes aos vetores de movimento cujas direções de predição são diretas nas duas unidades de informação de movimento são iguais, e índices de quadro de referência correspondentes aos vetores de movimento cujas direções de predição são inversas nas duas unidades de informação de movimento são iguais, isto pode indicar que índices de quadro de referência correspondentes às duas unidades de informação de movimento são iguais. Para um outro exemplo, quando uma unidade de informação de movimento em duas unidades de informação de movimento inclui um vetor de movimento cuja direção de predição é direta e um vetor de movimento cuja direção de predição é inversa, e a outra unidade de informação de movimento inclui um vetor de movimento cuja direção de predição é direta, mas não inclui um vetor de movimento cuja direção de predição é inversa, ou a outra unidade de informação de movimento inclui um vetor de movimento cuja direção de predição é inversa, mas não inclui um vetor de movimento cuja direção de predição é direta, isto indica que as direções de predição das duas unidades de informação de movimento são diferentes, e pode indicar que índices de quadro de referência correspondentes às duas unidades de informação de movimento são diferentes. Para um outro exemplo, quando uma unidade de informação de movimento em duas unidades de informação de movimento inclui um vetor de movimento cuja direção de predição é direta, mas não inclui um vetor de movimento cuja direção de predição é inversa, e a outra unidade de informação de movimento inclui um vetor de movimento cuja direção de predição é inversa, mas não inclui um vetor de movimento cuja direção de predição é direta, isto pode indicar que índices de quadro de referência correspondentes às duas unidades de informação de movimento são diferentes. Para um outro exemplo, quando uma unidade de informação de movimento em duas unidades de informação de movimento inclui um vetor de movimento cuja direção de predição é direta, mas não inclui um vetor de movimento cuja direção de predição é inversa, e a outra unidade de informação de movimento inclui um vetor de movimento cuja direção de predição é direta, mas não inclui um vetor de movimento cuja direção de predição é inversa, e índices de quadro de referência correspondentes aos vetores de movimento cujas direções de predição são diretas nas duas unidades de informação de movimento são iguais, isto pode indicar que índices de quadro de referência correspondentes às duas unidades de informação de movimento são diferentes. Para um outro exemplo, quando uma unidade de informação de movimento em duas unidades de informação de movimento inclui um vetor de movimento cuja direção de predição é inversa, mas não inclui um vetor de movimento cuja direção de predição é direta, e a outra unidade de informação de movimento inclui um vetor de movimento cuja direção de predição é inversa, mas não inclui um vetor de movimento cuja direção de predição é direta, e índices de quadro de referência correspondentes aos vetores de movimento cujas direções de predição são inversas nas duas unidades de informação de movimento são iguais, isto pode indicar que índices de quadro de referência correspondentes às duas unidades de informação de movimento são diferentes.

[100] A quarta condição inclui que um valor absoluto de uma diferença entre componentes horizontais de duas unidades de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas seja menor ou igual a um limiar de componente horizontal. O limiar de componente horizontal pode ser igual a 1/3 de uma largura do bloco de imagens x, 1/2 de uma largura do bloco de imagens x, 2/3 de uma largura do bloco de imagens x, 3/4 de uma largura do bloco de imagens x, ou outro valor.

[101] A quinta condição inclui que um valor absoluto de uma diferença entre componentes verticais de duas unidades de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas é menor ou igual a um limiar de componente vertical. O limiar de componente vertical pode ser igual a 1/3 de uma altura do bloco de imagens x, 1/2 de uma altura do bloco de imagens x, 2/3 de uma altura do bloco de imagens x, 3/4 de uma altura do bloco de imagens x, ou outro valor.

[102] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, um conjunto de unidades de informação de movimento candidatas correspondente à amostra de pixels esquerda superior do bloco de imagens x inclui unidades de informação de movimento de x1 amostras de pixels, em que as x1 amostras de pixels incluem pelo menos uma amostra de pixels espacialmente adjacente à amostra de pixels esquerda superior do bloco de imagens x e / ou pelo menos uma amostra de pixels temporalmente adjacente à amostra de pixels esquerda superior do bloco de imagens x, e x1 é um número inteiro positivo. Por exemplo, as x1 amostras de pixels incluem apenas pelo menos uma amostra de pixels espacialmente adjacente à amostra de pixels esquerda superior do bloco de imagens x e / ou pelo menos uma amostra de pixels temporalmente adjacente à amostra de pixels esquerda superior do bloco de imagens x.

[103] Por exemplo, x1 pode ser igual a 1, 2, 3, 4, 5, 6 ou outro valor.

[104] Por exemplo, as x1 amostras de pixels incluem pelo menos uma de uma amostra de pixels que tem a mesma localização que a amostra de pixels esquerda superior do bloco de imagens x, uma amostra de pixels espacialmente adjacente a uma borda esquerda do bloco de imagens x, uma amostra de pixels espacialmente adjacente a uma parte esquerda superior do bloco de imagens x, ou uma amostra de pixels espacialmente adjacente a uma borda superior do bloco de imagens x, em um quadro de vídeo temporalmente adjacente a um quadro de vídeo ao qual o bloco de imagens x pertence.

[105] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, um conjunto de unidades de informação de movimento candidatas correspondente à amostra de pixels direita superior do bloco de imagens x inclui unidades de informação de movimento de x2 amostras de pixels, em que as x2 amostras de pixels incluem pelo menos uma amostra de pixels espacialmente adjacente à amostra de pixels direita superior do bloco de imagens x e / ou pelo menos uma amostra de pixels temporalmente adjacente à amostra de pixels direita superior do bloco de imagens x, e x2 é um número inteiro positivo.

[106] Por exemplo, x2 pode ser igual a 1, 2, 3, 4, 5, 6 ou outro valor.

[107] Por exemplo, as x2 amostras de pixels incluem pelo menos uma de uma amostra de pixels que tem a mesma localização que a amostra de pixels direita superior do bloco de imagens x, uma amostra de pixels espacialmente adjacente a uma borda direita do bloco de imagens x, uma amostra de pixels espacialmente adjacente a uma parte direita superior do bloco de imagens x, ou uma amostra de pixels espacialmente adjacente à borda superior do bloco de imagens x, em um quadro de vídeo temporalmente adjacente ao quadro de vídeo ao qual o bloco de imagens x pertence.

[108] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, um conjunto de unidades de informação de movimento candidatas correspondente à amostra de pixels esquerda inferior do bloco de imagens x inclui unidades de informação de movimento de x3 amostras de pixels, em que as x3 amostras de pixels incluem pelo menos uma amostra de pixels espacialmente adjacente à amostra de pixels esquerda inferior do bloco de imagens x e / ou pelo menos uma amostra de pixels temporalmente adjacente à amostra de pixels esquerda inferior do bloco de imagens x, e x3 é um número inteiro positivo. Por exemplo, as x3 amostras de pixels incluem apenas pelo menos uma amostra de pixels espacialmente adjacente à amostra de pixels esquerda inferior do bloco de imagens x e / ou pelo menos uma amostra de pixels temporalmente adjacente à amostra de pixels esquerda inferior do bloco de imagens x.

[109] Por exemplo, x3 pode ser igual a 1, 2, 3, 4, 5, 6 ou outro valor.

[110] Por exemplo, as x3 amostras de pixels incluem pelo menos uma de uma amostra de pixels que tem a mesma localização que a amostra de pixels esquerda inferior do bloco de imagens x, uma amostra de pixels espacialmente adjacente à borda esquerda do bloco de imagens x, uma amostra de pixels espacialmente adjacente a uma parte esquerda inferior do bloco de imagens x, ou uma amostra de pixels espacialmente adjacente a uma borda inferior do bloco de imagens x, em um quadro de vídeo temporalmente adjacente ao quadro de vídeo ao qual o bloco de imagens x pertence.

[111] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, um conjunto de unidades de informação de movimento candidatas correspondente à amostra de pixels central a1 do bloco de imagens x inclui unidades de informação de movimento de x5 amostras de pixels, em que uma amostra de pixels nas x5 amostras de pixels é uma amostra de pixels a2. Por exemplo, as x5 amostras de pixels incluem apenas a amostra de pixels a2.

[112] Uma localização da amostra de pixels central a1 no quadro de vídeo ao qual o bloco de imagens x pertence é a mesma que uma localização da amostra de pixels a2 em um quadro de vídeo adjacente ao quadro de vídeo ao qual o bloco de imagens x pertence, e x5 é um número inteiro positivo.

[113] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, a predição de um valor de pixel do bloco de imagens x por utilizar um modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas i pode incluir: quando vetores de movimento cujas direções de predição são uma primeira direção de predição no conjunto de unidades de informação de movimento fundidas i correspondem a diferentes índices de quadro de referência, realizar processamento de escalonamento no conjunto de unidades de informação de movimento fundidas i, de modo que os vetores de movimento cujas direções de predição são a primeira direção de predição no conjunto de unidades de informação de movimento fundidas i são escalonados para baixo para um mesmo quadro de referência, e prever o valor de pixel do bloco de imagens x por utilizar o modelo de movimento não translacional e um conjunto de unidades de informação de movimento fundida escalonadas i, em que a primeira direção de predição é direta ou inversa; ou

[114] a predição de um valor de pixel do bloco de imagens x por utilizar um modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas i pode incluir: quando vetores de movimento cujas direções de predição são diretas no conjunto de unidades de informação de movimento fundidas i correspondem a diferentes índices de quadro de referência e vetores de movimento cujas direções de predição são inversas no conjunto de unidades de informação de movimento fundidas i correspondem a diferentes índices de quadro de referência, realizar processamento de escalonamento no conjunto de unidades de informação de movimento fundidas i, de modo que os vetores de movimento cujas direções de predição são diretas no conjunto de unidades de informação de movimento fundidas i são escalonados para baixo para um mesmo quadro de referência e que os vetores de movimento cujas direções de predição são inversas no conjunto de unidades de informação de movimento fundidas i são escalonados para baixo para um mesmo quadro de referência, e prever o valor de pixel do bloco de imagens x por utilizar o modelo de movimento não translacional e um conjunto de unidades de informação de movimento fundida escalonadas i.

[115] Pode ser entendido que, para cada bloco de imagens em um quadro de vídeo atual, um valor de pixel pode ser previsto em um modo semelhante a um modo de predição de valor de pixel correspondente ao bloco de imagens x. Certamente, para alguns blocos de imagens no quadro de vídeo atual, um valor de pixel pode também ser previsto em um modo diferente do modo de predição de valor de pixel correspondente ao bloco de imagens x.

[116] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, a predição de um valor de pixel do bloco de imagens x por utilizar um modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas i pode incluir: realizar processamento de estimativa de movimento em um vetor de movimento no conjunto de unidades de informação de movimento fundidas i para obter um conjunto de unidades de informação de movimento fundidas de movimento estimado i, e prever o valor de pixel do bloco de imagens x por utilizar o modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas de movimento estimado i.

[117] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, a predição do valor de pixel do bloco de imagens x por utilizar o modelo de movimento não translacional e um conjunto de unidades de informação de movimento fundidas escalonado i pode, por exemplo, incluir: executar processamento de estimativa de movimento em um vetor de movimento no conjunto de unidades de informação de movimento fundida escalonadas i para obter um conjunto de unidades de informação de movimento fundidas de movimento estimado i, e prever o valor de pixel do bloco de imagens x por utilizar o modelo de movimento não translacional e o conjunto de unidades de informação de movimento de movimento estimado i.

[118] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, a predição de um valor de pixel do bloco de imagens x por utilizar um modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas i inclui: obter um vetor de movimento de cada pixel no bloco de imagens x através de computação por utilizar o modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas i, e determinar um valor de pixel previsto de cada pixel no bloco de imagens x por utilizar o vetor de movimento obtido de cada pixel no bloco de imagens x; ou obter um vetor de movimento de cada bloco de pixels no bloco de imagens x através de computação por utilizar o modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas i, e determinar um valor de pixel previsto de cada pixel em cada bloco de pixels no bloco de imagens x por utilizar o vetor de movimento obtido de cada bloco de pixels no bloco de imagens x.

[119] Durante um teste, foi verificado que realização de computação de vetor de movimento por utilizar um bloco de pixels no bloco de imagens x como uma granularidade ajuda a reduzir a complexidade computacional grandemente se o vetor de movimento de cada bloco de pixels no bloco de imagens x for obtido por computação por utilizar o modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas i e depois o valor de pixel previsto de cada pixel em cada bloco de pixels no bloco de imagens x é determinado por utilizar o vetor de movimento obtido de cada bloco de pixels no bloco de imagens x.

[120] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, o método inclui ainda: determinar K2 amostras de pixels em um bloco de imagens y, e determinar um conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels nas K2 amostras de pixels, em que K2 é um número inteiro maior que 1 (K1 pode ser igual ou desigual a K2), e o bloco de imagens y é espacialmente adjacente ao bloco de imagens x e o conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels nas K2 amostras de pixels inclui pelo menos uma unidade de informação de movimento candidata; determinar um conjunto de unidades de informação de movimento fundidas j incluindo K2 unidades de informação de movimento; em que um conjunto de unidades de informação de movimento candidatas correspondente a uma amostra de pixels z1 nas K2 amostras de pixels inclui uma unidade de informação de movimento a2, e a unidade de informação de movimento a2 é obtida com base em uma unidade de informação de movimento de uma amostra de pixels z2, em que a amostra de pixels z2 é uma amostra de pixels no bloco de imagens x e uma distância entre a amostra de pixels z2 e a amostra de pixels z1 é menor que um limiar, ou a amostra de pixels z2 é uma amostra de pixels no bloco de imagens x e uma distância entre a amostra de pixels z2 e a amostra de pixels z1 é mais curta; e as K2 unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas j são respectivamente selecionadas a partir de pelo menos uma parte de unidades de informação de movimento compatíveis com restrições no conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels nas K2 amostras de pixels; e prever um valor de pixel do bloco de imagens y por utilizar o modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas j.

[121] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, as K2 amostras de pixels podem ainda incluir pelo menos duas amostras de pixels em uma amostra de pixels esquerda superior, uma amostra de pixels direita superior, uma amostra de pixels esquerda inferior e uma amostra de pixels central a3 do bloco de imagens y. A amostra de pixels esquerda superior do bloco de imagens y é um vértice esquerdo superior do bloco de imagens y, ou um bloco de pixels no bloco de imagens y, e incluindo um vértice esquerdo superior do bloco de imagens y; a amostra de pixels esquerda inferior do bloco de imagens y é um vértice esquerdo inferior do bloco de imagens y, ou um bloco de pixels no bloco de imagens y, e incluindo um vértice esquerdo inferior do bloco de imagens y; a amostra de pixels direita superior do bloco de imagens y é um vértice direito superior do bloco de imagens y, ou um bloco de pixels no bloco de imagens y, e incluindo um vértice direito superior do bloco de imagens y; e a amostra de pixels central a3 do bloco de imagens y é um pixel central do bloco de imagens y, ou um bloco de pixels no bloco de imagens y, e incluindo um pixel central do bloco de imagens y.

[122] Em uma aplicação real, o conjunto de unidades de informação de movimento fundidas j incluindo as K2 unidades de informação de movimento, pode ser determinado de várias maneiras.

[123] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, a determinação de um conjunto de unidades de informação de movimento fundidas j incluindo K2 unidades de informação de movimento pode incluir: determinar, a partir de N2 conjuntos de unidades de informação de movimento fundidas candidatas, em que cada unidade de informação de movimento incluída em cada conjunto de unidades de informação de movimento fundidas candidatas nos N2 conjuntos de unidades de informação de movimento fundidas candidatas é selecionada a partir de pelo menos uma parte de unidades de informação de movimento compatíveis com restrições em conjuntos de unidades de informação de movimento candidatas correspondentes a diferentes amostras de pixels nas K2 amostras de pixels, os N2 conjuntos de unidades de informação de movimento fundidas candidatas são diferentes uns dos outros, cada conjunto de unidades de informação de movimento fundidas candidatas nos N2 conjuntos de unidades de informação de movimento fundidas candidatas inclui K2 unidades de informação de movimento, e N2 é um número inteiro positivo.

[124] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, quando o método de predição de imagem é aplicado ao processo de decodificação de vídeo, a determinação, a partir de N2 conjuntos de unidades de informação de movimento fundidas candidatas, o conjunto de unidades de informação de movimento fundidas j incluindo as K2 unidades de informação de movimento, pode incluir: determinar, a partir dos N2 conjuntos de unidades de informação de movimento fundidas candidatas, com base em um identificador que é do conjunto de unidades de informação de movimento fundidas j e é obtido a partir de um fluxo de bits de vídeo, o conjunto de unidades de informação de movimento fundidas j incluindo as K2 unidades de informação de movimento.

[125] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, quando o método de predição de imagem é aplicado ao processo de codificação de vídeo, o método inclui ainda: escrever um identificador do conjunto de unidades de informação de movimento fundidas j em um fluxo de bits de vídeo.

[126] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, a determinação, a partir de N2 conjuntos de unidades de informação de movimento fundidas candidatas, o conjunto de unidades de informação de movimento fundidas j incluindo as K2 unidades de informação de movimento, pode incluir: determinar, a partir dos N2 conjuntos de unidades de informação de movimento fundidas candidatas, de acordo com distorção ou um custo de taxa de distorção, o conjunto de unidades de informação de movimento fundidas j incluindo K2 vetores de movimento.

[127] Opcionalmente, um custo de taxa de distorção correspondente ao conjunto de unidades de informação de movimento fundidas j é inferior ou igual a um custo de taxa de distorção correspondente a qualquer conjunto de unidades de informação de movimento fundidas nos N2 conjuntos de unidades de informação de movimento fundidas candidatas exceto o conjunto de unidades de informação de movimento fundidas j.

[128] Opcionalmente, distorção correspondente ao conjunto de unidades de informação de movimento fundidas j é menor ou igual a distorção correspondente a qualquer conjunto de unidades de informação de movimento fundidas nos N2 conjuntos de unidades de informação de movimento fundidas candidatas, exceto o conjunto de unidades de informação de movimento fundidas j.

[129] Um custo de taxa de distorção correspondente a um conjunto de unidades de informação de movimento fundidas candidatas particular nos N2 conjuntos de unidades de informação de movimento fundidas candidatas (por exemplo, o conjunto de unidades de informação de movimento fundidas j nos N2 conjuntos de unidades de informação de movimento fundidas candidatas) pode ser, um custo de taxa de distorção correspondente a um valor de pixel previsto de um bloco de imagens obtido por predição do valor de pixel do bloco de imagens (por exemplo, o bloco de imagens y) por utilizar o conjunto de unidades de informação de movimento fundidas candidatas particular (por exemplo, o conjunto de unidades de informação de movimento fundidas j).

[130] Distorção correspondente a um conjunto de unidades de informação de movimento fundidas candidatas particular nos N2 conjuntos de unidades de informação de movimento fundidas candidatas (por exemplo, o conjunto de unidades de informação de movimento fundidas j nos N2 conjuntos de unidades de informação de movimento fundidas candidatas) pode ser, por exemplo, o valor de pixel original de um bloco de imagens (por exemplo, o bloco de imagens y) e um valor de pixel previsto do bloco de imagens obtido por predição do valor de pixel do bloco de imagens por utilizar o conjunto de unidades de informação de movimento fundidas candidatas particular (por exemplo, o conjunto de unidades de informação de movimento fundidas j) (nomeadamente, distorção entre o valor de pixel original e o valor de pixel previsto do bloco de imagens).

[131] Em algumas formas possíveis de implementação da presente invenção, distorção entre um valor de pixel original de um bloco de imagens (por exemplo, o bloco de imagens y) e um valor de pixel previsto do bloco de imagens obtido por predição do valor de pixel do bloco de imagens por utilizar o conjunto de unidades de informação de movimento fundidas candidatas particular (por exemplo, o conjunto de unidades de informação de movimento fundidas j) pode ser especificamente, por exemplo, uma soma de diferenças quadradas ou uma soma de diferenças absolutas ou uma soma de diferenças entre o valor de pixel original do bloco de imagens (por exemplo, o bloco de imagens y) e o valor de pixel previsto do bloco de imagens obtido por predição do valor de pixel do bloco de imagens por utilizar o conjunto de unidades de informação de movimento fundidas candidatas particular (por exemplo, o conjunto de unidades de informação de movimento fundidas j), ou outro parâmetro de distorção que pode medir a distorção.

[132] N2 é um número inteiro positivo. Por exemplo, N2 pode ser igual a 1, 2, 3, 4, 5, 6, 8, ou outro valor.

[133] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, os N2 conjuntos de unidades de informação de movimento fundidas candidatas satisfazem pelo menos uma de uma primeira condição, uma segunda condição, uma terceira condição, uma quarta condição, ou uma quinta condição. A primeira condição inclui que um modo de movimento do bloco de imagens y indicado por uma unidade de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N2 conjuntos de unidades de informação de movimento fundidas candidatas seja movimento não translacional. A segunda condição pode incluir que direções de predição de pelo menos duas unidades de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N2 conjuntos de unidades de informação de movimento fundidas candidatas são iguais. A terceira condição inclui que índices de quadro de referência correspondentes a pelo menos duas unidades de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N2 conjuntos de unidades de informação de movimento fundidas candidatas são iguais. A quarta condição inclui que um valor absoluto de uma diferença entre componentes horizontais de duas unidades de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N2 conjuntos de unidades de informação de movimento fundidas candidatas é menor ou igual a um limiar de componente horizontal. A quinta condição inclui que um valor absoluto de uma diferença entre componentes verticais de duas unidades de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N2 conjuntos de unidades de informação de movimento fundidas candidatas é menor ou igual a um limiar de componente vertical.

[134] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, um conjunto de unidades de informação de movimento candidatas correspondente à amostra de pixels esquerda superior do bloco de imagens y inclui unidades de informação de movimento de y1 amostras de pixels, em que as y1 amostras de pixels incluem pelo menos uma amostra de pixels espacialmente adjacente à amostra de pixels esquerda superior do bloco de imagens y e / ou pelo menos uma amostra de pixels temporalmente adjacente à amostra de pixels esquerda superior do bloco de imagens y, e y1 é um número inteiro positivo. Por exemplo, as y1 amostras de pixels incluem apenas pelo menos uma amostra de pixels espacialmente adjacente à amostra de pixels esquerda superior do bloco de imagens y e / ou pelo menos uma amostra de pixels temporalmente adjacente à amostra de pixels esquerda superior do bloco de imagens y.

[135] Por exemplo, y1 pode ser igual a 1, 2, 3, 4, 5, 6 ou outro valor.

[136] Por exemplo, as y1 amostras de pixels incluem pelo menos uma de uma amostra de pixels que tem a mesma localização que a amostra de pixels esquerda superior do bloco de imagens y, uma amostra de pixels espacialmente adjacente a uma borda esquerda do bloco de imagens y, uma amostra de pixels espacialmente adjacente a uma parte esquerda superior do bloco de imagens y, ou uma amostra de pixels espacialmente adjacente a uma borda superior do bloco de imagens y, em um quadro de vídeo temporalmente adjacente a um quadro de vídeo ao qual o bloco de imagens y pertence.

[137] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, um conjunto de unidades de informação de movimento candidatas correspondente à amostra de pixels direita superior do bloco de imagens y inclui unidades de informação de movimento de y2 amostras de pixels, em que as y2 amostras de pixels incluem pelo menos uma amostra de pixels espacialmente adjacente à amostra de pixels direita superior do bloco de imagens y e / ou pelo menos uma amostra de pixels temporalmente adjacente à amostra de pixels direita superior do bloco de imagens y, e y2 é um número inteiro positivo.

[138] Por exemplo, y2 pode ser igual a 1, 2, 3, 4, 5, 6 ou outro valor.

[139] Por exemplo, as y2 amostras de pixels incluem pelo menos uma de uma amostra de pixels que tem a mesma localização que a amostra de pixels direita superior do bloco de imagens y, uma amostra de pixels espacialmente adjacente a uma borda direita do bloco de imagens y, uma amostra de pixels espacialmente adjacente a uma parte direita superior do bloco de imagens y, ou uma amostra de pixels espacialmente adjacente à borda superior do bloco de imagens y, em um quadro de vídeo temporalmente adjacente ao quadro de vídeo ao qual o bloco de imagens y pertence.

[140] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, um conjunto de unidades de informação de movimento candidatas correspondente à amostra de pixels esquerda inferior do bloco de imagens y inclui unidades de informação de movimento de y3 amostras de pixels, em que as y3 amostras de pixels incluem pelo menos uma amostra de pixels espacialmente adjacente à amostra de pixels esquerda inferior do bloco de imagens y e / ou pelo menos uma amostra de pixels temporalmente adjacente à amostra de pixels esquerda inferior do bloco de imagens y, e y3 é um número inteiro positivo. Por exemplo, as y3 amostras de pixels incluem apenas pelo menos uma amostra de pixels espacialmente adjacente à amostra de pixels esquerda inferior do bloco de imagens y e / ou pelo menos uma amostra de pixels temporalmente adjacente à amostra de pixels esquerda inferior do bloco de imagens y.

[141] Por exemplo, y3 pode ser igual a 1, 2, 3, 4, 5, 6 ou outro valor.

[142] Por exemplo, as y3 amostras de pixels incluem pelo menos uma de uma amostra de pixels que tem a mesma localização que a amostra de pixels esquerda inferior do bloco de imagens y, uma amostra de pixels espacialmente adjacente à borda esquerda do bloco de imagens y, uma amostra de pixels espacialmente adjacente a uma parte esquerda inferior do bloco de imagens y, ou uma amostra de pixels espacialmente adjacente a uma borda inferior do bloco de imagens y, em um quadro de vídeo temporalmente adjacente ao quadro de vídeo ao qual o bloco de imagens y pertence.

[143] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, um conjunto de unidades de informação de movimento candidatas correspondente à amostra de pixels central a3 do bloco de imagens y inclui unidades de informação de movimento de y5 amostras de pixels, em que uma amostra de pixels nas y5 amostras de pixels é uma amostra de pixels a4. Por exemplo, as y5 amostras de pixels incluem apenas a amostra de pixels a4.

[144] Uma localização da amostra de pixels central a3 no quadro de vídeo ao qual o bloco de imagens y pertence é a mesma que uma localização da amostra de pixels a4 em um quadro de vídeo adjacente ao quadro de vídeo ao qual o bloco de imagens y pertence e y5 é um número inteiro positivo.

[145] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, a predição de um valor de pixel do bloco de imagens y por utilizar o modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas j, pode incluir: quando vetores de movimento cujas direções de predição são uma primeira direção de predição no conjunto de unidades de informação de movimento fundidas j correspondem a diferentes índices de quadro de referência, realizar processamento de escalonamento no conjunto de unidades de informação de movimento fundidas j, de modo que os vetores de movimento cujas direções de predição são a primeira direção de predição no conjunto de unidades de informação de movimento fundidas j são escalonados para baixo para um mesmo quadro de referência, e prever o valor de pixel do bloco de imagens y por utilizar o modelo de movimento não translacional e um conjunto de unidades de informação de movimento fundidas escalonado j, em que a primeira direção de predição é direta ou inversa; ou a predição de um valor de pixel do bloco de imagens y por utilizar o modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas j pode incluir: quando vetores de movimento cujas direções de predição são diretas no conjunto de unidades de informação de movimento fundidas j correspondem a diferentes índices de quadro de referência e vetores de movimento cujas direções de predição são inversas no conjunto de unidades de informação de movimento fundidas j correspondem a diferentes índices de quadro de referência, realizar processamento de escalonamento no conjunto de unidades de informação de movimento fundidas j, de modo que os vetores de movimento cujas direções de predição são diretas no conjunto de unidades de informação de movimento fundidas j são escalonados para baixo para um mesmo quadro de referência e que os vetores de movimento cujas direções de predição são inversas no conjunto de unidades de informação de movimento fundidas j são escalonados para baixo para um mesmo quadro de referência, e prever o valor de pixel do bloco de imagens y por utilizar o modelo de movimento não translacional e um conjunto de unidades de informação de movimento fundida escalonadas j.

[146] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, a predição de um valor de pixel do bloco de imagens y por utilizar o modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas j pode incluir: realizar processamento de estimativa de movimento em um vetor de movimento no conjunto de unidades de informação de movimento fundidas j para obter um conjunto de unidades de informação de movimento fundidas de movimento estimado j, e prever o valor de pixel do bloco de imagens y por utilizar o modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas de movimento estimado j.

[147] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, a predição do valor de pixel do bloco de imagens y por utilizar o modelo de movimento não translacional e um conjunto de unidades de informação de movimento fundidas escalonado j pode, por exemplo, incluir: executar processamento de estimativa de movimento em um vetor de movimento no conjunto de unidades de informação de movimento fundidas escalonado j para obter um conjunto de unidades de informação de movimento fundidas de movimento estimado j, e prever o valor de pixel do bloco de imagens y por utilizar o modelo de movimento não translacional e o conjunto de unidades de informação de movimento de movimento estimado j.

[148] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, a predição de um valor de pixel do bloco de imagens y por utilizar o modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas j inclui: obter um vetor de movimento de cada pixel no bloco de imagens y através de computação por utilizar o modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas j, e determinar um valor de pixel previsto de cada pixel no bloco de imagens y por utilizar o vetor de movimento obtido de cada pixel no bloco de imagens y; ou obter um vetor de movimento de cada bloco de pixels no bloco de imagens y através de computação por utilizar o modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas j, e determinar um valor de pixel previsto de cada pixel em cada bloco de pixels no bloco de imagens y por utilizar o vetor de movimento obtido de cada bloco de pixels no bloco de imagens y.

[149] Durante o teste, foi verificado que realização de computação de vetor de movimento por utilizar um bloco de pixels no bloco de imagens y como uma granularidade ajuda a reduzir a complexidade computacional grandemente se o vetor de movimento de cada bloco de pixels no bloco de imagens y for obtido por computação por utilizar o modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas j e depois o valor de pixel previsto de cada pixel em cada bloco de pixels no bloco de imagens y é determinado por utilizar o vetor de movimento obtido de cada bloco de pixels no bloco de imagens y.

[150] Para melhor compreensão e implementação da solução anterior da modalidade da presente invenção, o seguinte utiliza cenários de aplicação específicos para uma descrição adicional.

[151] Com referência à Figura 2-a, a Figura 2-a é um fluxograma esquemático de outro método de predição de imagem de acordo com outra modalidade da presente invenção. Conforme ilustrado na Figura 2-a, outro método de predição de imagem fornecido por outra modalidade da presente invenção pode incluir os seguintes passos: 201. Determinar K1 amostras de pixels em um bloco de imagens x.

[152] Nesta modalidade, por exemplo, as K1 amostras de pixels incluem uma amostra de pixels esquerda superior, uma amostra de pixels direita superior e uma amostra de pixels esquerda inferior do bloco de imagens x.

[153] A amostra de pixels esquerda superior do bloco de imagens x é um vértice esquerdo superior do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e incluindo um vértice esquerdo superior do bloco de imagens x. A amostra de pixels esquerda inferior do bloco de imagens x é um vértice esquerdo inferior do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e incluindo um vértice esquerdo inferior do bloco de imagens x. A amostra de pixels direita superior do bloco de imagens x é um vértice direito superior do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e incluindo um vértice direito superior do bloco de imagens x.

[154] Se uma amostra de pixels é um bloco de pixels, um tamanho do bloco de pixels é, por exemplo, 2x2, 1x2, 4x2, 4x4 ou outro tamanho. 202. Determinar um conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels nas K1 amostras de pixels.

[155] O conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels inclui pelo menos uma unidade de informação de movimento candidata.

[156] A amostra de pixels mencionada em cada modalidade da presente invenção pode ser um pixel ou um bloco de pixels incluindo pelo menos dois pixels.

[157] A unidade de informação de movimento mencionada em cada modalidade da presente invenção pode incluir um vetor de movimento cuja direção de predição é direta e / ou um vetor de movimento cuja direção de predição é inversa. Isto é, uma unidade de informação de movimento pode incluir um vetor de movimento ou pode incluir dois vetores de movimento com diferentes direções de predição.

[158] Se uma direção de predição de uma unidade de informação de movimento é direta, isto indica que a unidade de informação de movimento inclui um vetor de movimento cuja direção de predição é direta, mas não inclui um vetor de movimento cuja direção de predição é inversa. Se uma direção de predição de uma unidade de informação de movimento é inversa, isto indica que a unidade de informação de movimento inclui um vetor de movimento cuja direção de predição é inversa, mas não inclui um vetor de movimento cuja direção de predição é direta. Se uma direção de predição de uma unidade de informação de movimento é unidirecional, isto indica que a unidade de informação de movimento inclui um vetor de movimento cuja direção de predição é direta, mas não inclui um vetor de movimento cuja direção de predição é inversa, ou indica que a unidade de informação de movimento inclui um vetor de movimento cuja direção de predição é inversa, mas não inclui um vetor de movimento cuja direção de predição é direta. Se uma direção de predição de uma unidade de informação de movimento é bidirecional, isto indica que a unidade de informação de movimento inclui um vetor de movimento cuja direção de predição é direta e um vetor de movimento cuja direção de predição é inversa.

[159] K1 é um número inteiro maior que 1. Por exemplo, K1 pode ser igual a 2, 3, 4, ou outro valor.

[160] Os conjuntos de unidades de informação de movimento candidatas correspondentes às K1 amostras de pixels podem ser determinados de várias maneiras.

[161] Por exemplo, como mostrado na Figura 2-b e Figura 2-c, a Figura 2-b e Figura 2-c utilizam um exemplo em que K1 é igual a 3. Um conjunto de unidades de informação de movimento candidatas S1 correspondente à amostra de pixels esquerda superior do bloco de imagens x pode incluir unidades de informação de movimento de x1 amostras de pixels. As x1 amostras de pixels incluem pelo menos uma de uma amostra de pixels Col-LT que tem a mesma localização que a amostra de pixels esquerda superior LT do bloco de imagens x, uma amostra de pixels C espacialmente adjacente a uma borda esquerda do bloco de imagens x, uma amostra de pixels A espacialmente adjacente a uma parte esquerda superior do bloco de imagens x, ou uma amostra de pixels B espacialmente adjacente a uma borda superior do bloco de imagens x, em um quadro de vídeo temporalmente adjacente a um quadro de vídeo ao qual o bloco de imagens x pertence. Por exemplo, uma unidade de informação de movimento da amostra de pixels C espacialmente adjacente à borda esquerda do bloco de imagens x, uma unidade de informação de movimento da amostra de pixels A espacialmente adjacente à parte esquerda superior do bloco de imagens x, e uma unidade de informação de movimento da amostra de pixels B espacialmente adjacente à borda superior do bloco de imagens x pode ser obtida primeiro, e a unidade de informação de movimento obtida da amostra de pixels C espacialmente adjacente à borda esquerda do bloco de imagens x, unidade de informação de movimento da amostra de pixels A espacialmente adjacente à parte esquerda superior do bloco de imagens x, e a unidade de informação de movimento da amostra de pixels B espacialmente adjacente à borda superior do bloco de imagens x são adicionadas ao conjunto de unidades de informação de movimento candidatas correspondente à amostra de pixels esquerda superior do bloco de imagens x. Se algumas ou todas unidades de informação de movimento na unidade de informação de movimento da amostra de pixels C espacialmente adjacente à borda esquerda do bloco de imagens x, a unidade de informação de movimento da amostra de pixels A espacialmente adjacente à parte esquerda superior do bloco de imagens x, e a unidade de informação de movimento da amostra de pixels B espacialmente adjacente à borda superior do bloco de imagens x são iguais, processamento de desduplicação é ainda realizado no conjunto de unidades de informação de movimento candidatas S1 (aqui uma quantidade de unidades de informação de movimento no conjunto de unidades de informação de movimento candidatas S1 após processamento de desduplicação pode ser 1 ou 2). Se uma unidade de informação de movimento da amostra de pixels Col- LT que tem a mesma localização que a amostra de pixels esquerda superior LT do bloco de imagens x, no quadro de vídeo temporalmente adjacente ao quadro de vídeo ao qual o bloco de imagens x pertence, é a mesma que uma unidade de informação de movimento no conjunto de unidades de informação de movimento candidatas S1 após o processamento de desduplicação, uma unidade de informação de movimento zero é adicionada ao conjunto de unidades de informação de movimento candidatas S1 até que a quantidade de unidades de informação de movimento no conjunto de unidades de informação de movimento candidatas S1 seja igual a 3. Além disso, se uma unidade de informação de movimento da amostra de pixels Col-LT que tem a mesma localização que a amostra de pixels esquerda superior LT do bloco de imagens x, no quadro de vídeo temporalmente adjacente ao quadro de vídeo ao qual o bloco de imagens x pertence, é diferente de qualquer unidade de informação de movimento no conjunto de unidades de informação de movimento candidatas S1 após o processamento de desduplicação, a unidade de informação de movimento da amostra de pixels Col-LT que tem a mesma localização que a amostra de pixels esquerda superior LT do bloco de imagens x, no quadro de vídeo temporalmente adjacente ao quadro de vídeo ao qual o bloco de imagens x pertence, é adicionada ao conjunto de unidades de informação de movimento candidatas S1 após o processamento de desduplicação. Se a quantidade de unidades de informação de movimento no conjunto de unidades de informação de movimento candidatas S1 é ainda inferior a 3 neste caso, uma unidade de informação de movimento zero é adicionada ao conjunto de unidades de informação de movimento candidatas S1 até que a quantidade de unidades de informação de movimento no conjunto de unidades de informação de movimento candidatas S1 seja igual a 3.

[162] Se o quadro de vídeo ao qual o bloco de imagens x pertence é um quadro de predição direta, a unidade de informação de movimento zero adicionada ao conjunto de unidades de informação de movimento candidatas S1 inclui um vetor de movimento zero cuja direção de predição é direta, mas não pode incluir um vetor de movimento zero cuja direção de predição é inversa. Se o quadro de vídeo ao qual o bloco de imagens x pertence é um quadro de predição inversa, a unidade de informação de movimento zero adicionada ao conjunto de unidades de informação de movimento candidatas S1 inclui um vetor de movimento zero cuja direção de predição é inversa, mas não pode incluir um vetor de movimento zero cuja direção de predição é direta. Além disso, se o quadro de vídeo ao qual o bloco de imagens x pertence for um quadro de predição bidirecional, a unidade de informação de movimento zero adicionada ao conjunto de unidades de informação de movimento candidatas S1 inclui um vetor de movimento zero cuja direção de predição é direta e um vetor de movimento zero cuja direção de predição é inversa, em que índices de quadro de referência correspondentes a vetores de movimento em diferentes unidades de informação de movimento zero adicionadas ao conjunto de unidades de informação de movimento candidatas S1 podem ser diferentes, e índices de quadro de referência correspondentes podem ser, por exemplo, 0, 1, 2, 3, ou outro valor.

[163] De modo semelhante, por exemplo, como mostrado na Figura 2-b e Figura 2-c, um conjunto de unidades de informação de movimento candidatas S2 correspondente à amostra de pixels direita superior do bloco de imagens x pode incluir unidades de informação de movimento de x2 amostras de pixels. As x2 amostras de pixels podem incluir pelo menos uma de uma amostra de pixels Col-RT que tem a mesma localização que a amostra de pixels direita superior RT do bloco de imagens x, uma amostra de pixels E espacialmente adjacente a uma parte direita superior do bloco de imagens x, ou uma amostra de pixels D espacialmente adjacente à borda superior do bloco de imagens x, em um quadro de vídeo temporalmente adjacente ao quadro de vídeo ao qual o bloco de imagens x pertence. Por exemplo, uma unidade de informação de movimento da amostra de pixels E espacialmente adjacente à parte direita superior do bloco de imagens x e uma unidade de informação de movimento da amostra de pixels D espacialmente adjacente à borda superior do bloco de imagens x podem ser obtidas primeiro, e a unidade de informação de movimento obtida da amostra de pixels E espacialmente adjacente à parte direita superior do bloco de imagens x e unidade de informação de movimento da amostra de pixels D espacialmente adjacente à borda superior do bloco de imagens x são adicionadas ao conjunto de unidades de informação de movimento candidatas S2 correspondente à amostra de pixels direita superior do bloco de imagens x. Se a unidade de informação de movimento da amostra de pixels E espacialmente adjacente à parte direita superior do bloco de imagens x é a mesma que a unidade de informação de movimento da amostra de pixels D espacialmente adjacente à borda superior do bloco de imagens x, processamento de desduplicação é executado no conjunto de unidades de informação de movimento candidatas S2 (aqui uma quantidade de unidades de informação de movimento no conjunto de unidades de informação de movimento candidatas S2 depois de processamento de desduplicação ser 1). Se uma unidade de informação de movimento da amostra de pixels Col-RT que tem a mesma localização que a amostra de pixels direita superior RT do bloco de imagens x, no quadro de vídeo temporalmente adjacente ao quadro de vídeo ao qual o bloco de imagens x pertence, é a mesma que uma unidade de informação de movimento no conjunto de unidades de informação de movimento candidatas S2 após o processamento de desduplicação, uma unidade de informação de movimento zero pode ser ainda adicionada ao conjunto de unidades de informação de movimento candidatas S2 até que a quantidade de unidades de informação de movimento no conjunto de unidades de informação de movimento candidatas S2 seja igual a 2. Além disso, se uma unidade de informação de movimento da amostra de pixels Col- RT que tem a mesma localização que a amostra de pixels direita superior RT do bloco de imagens x, no quadro de vídeo temporalmente adjacente ao quadro de vídeo ao qual o bloco de imagens x pertence, é diferente de qualquer unidade de informação de movimento no conjunto de unidades de informação de movimento candidatas S2 após o processamento de desduplicação, a unidade de informação de movimento da amostra de pixels Col-RT que tem a mesma localização que a amostra de pixels direita superior RT do bloco de imagens x, no quadro de vídeo temporalmente adjacente ao quadro de vídeo ao qual o bloco de imagens x pertence, pode ser adicionada ao conjunto de unidades de informação de movimento candidatas S2 após o processamento de desduplicação. Se a quantidade de unidades de informação de movimento no conjunto de unidades de informação de movimento candidatas S2 é ainda inferior a 2 neste caso, uma unidade de informação de movimento zero é adicionada adicionalmente ao conjunto de unidades de informação de movimento candidatas S2 até que a quantidade de unidades de informação de movimento no conjunto de unidades de informação de movimento candidatas S2 seja igual a 2.

[164] Se o quadro de vídeo ao qual o bloco de imagens x pertence é um quadro de predição direta, a unidade de informação de movimento zero adicionada ao conjunto de unidades de informação de movimento candidatas S2 inclui um vetor de movimento zero cuja direção de predição é direta, mas não pode incluir um vetor de movimento zero cuja direção de predição é inversa. Se o quadro de vídeo ao qual o bloco de imagens x pertence é um quadro de predição inversa, a unidade de informação de movimento zero adicionada ao conjunto de unidades de informação de movimento candidatas S2 inclui um vetor de movimento zero cuja direção de predição é inversa, mas não pode incluir um vetor de movimento zero cuja direção de predição é direta. Além disso, se o quadro de vídeo ao qual o bloco de imagens x pertence é um quadro de predição bidirecional, a unidade de informação de movimento zero adicionada ao conjunto de unidades de informação de movimento candidatas S2 inclui um vetor de movimento zero cuja direção de predição é direta e um vetor de movimento zero cuja direção de predição é inversa, em que índices de quadro de referência correspondentes aos vetores de movimento em diferentes unidades de informação de movimento zero adicionadas ao conjunto de unidades de informação de movimento candidatas S2 podem ser diferentes, e índices de quadro de referência correspondentes podem ser, por exemplo, 0, 1, 3, ou outro valor.

[165] De modo semelhante, por exemplo, como mostrado na Figura 2-b e Figura 2-c, um conjunto de unidades de informação de movimento candidatas S3 correspondente à amostra de pixels esquerda inferior do bloco de imagens x pode incluir unidades de informação de movimento de x3 amostras de pixels. As x3 amostras de pixels podem incluir pelo menos uma de uma amostra de pixels Col-LB que tem a mesma localização que a amostra de pixels esquerda inferior LB do bloco de imagens x, uma amostra de pixels G espacialmente adjacente a uma parte esquerda inferior do bloco de imagens x, ou um bloco de imagens F espacialmente adjacente à borda esquerda do bloco de imagens x, em um quadro de vídeo temporalmente adjacente ao quadro de vídeo ao qual o bloco de imagens x pertence. Por exemplo, uma unidade de informação de movimento da amostra de pixels G espacialmente adjacente à parte esquerda inferior do bloco de imagens x e uma unidade de informação de movimento do bloco de imagens F espacialmente adjacente à borda esquerda do bloco de imagens x podem ser obtidas primeiro, e a unidade de informação de movimento obtida da amostra de pixels G espacialmente adjacente à parte esquerda inferior do bloco de imagens x e a unidade de informação de movimento do bloco de imagens F espacialmente adjacente à borda esquerda do bloco de imagens x podem ser adicionadas ao conjunto de unidades de informação de movimento candidatas S3 correspondente à amostra de pixels esquerda inferior do bloco de imagens x. Se a unidade de informação de movimento da amostra de pixels G espacialmente adjacente à parte esquerda inferior do bloco de imagens x é a mesma que a unidade de informação de movimento do bloco de imagens F espacialmente adjacente à borda esquerda do bloco de imagens x, processamento de desduplicação é executado no conjunto de unidades de informação de movimento candidatas S3 (aqui uma quantidade de unidades de informação de movimento no conjunto de unidades de informação de movimento candidatas S3 depois de processamento de desduplicação ser 1). Se uma unidade de informação de movimento da amostra de pixels Col-LB que tem a mesma localização que a amostra de pixels esquerda inferior LB do bloco de imagens x, no quadro de vídeo temporalmente adjacente ao quadro de vídeo ao qual o bloco de imagens x pertence, é a mesma que uma unidade de informação de movimento no conjunto de unidades de informação de movimento candidatas S3 após o processamento de desduplicação, uma unidade de informação de movimento zero pode ser adicionada ao conjunto de unidades de informação de movimento candidatas S3 até que a quantidade de unidades de informação de movimento no conjunto de unidades de informação de movimento candidatas S3 seja igual a 2. Além disso, se uma unidade de informação de movimento da amostra de pixels Col-LB que tem a mesma localização que a amostra de pixels esquerda inferior LB do bloco de imagens x, no quadro de vídeo temporalmente adjacente ao quadro de vídeo ao qual o bloco de imagens x pertence, é diferente de qualquer unidade de informação de movimento no conjunto de unidades de informação de movimento candidatas S3 após o processamento de desduplicação, a unidade de informação de movimento da amostra de pixels Col- LB que tem a mesma localização que a amostra de pixels esquerda inferior LB do bloco de imagens x, no quadro de vídeo temporalmente adjacente ao quadro de vídeo ao qual o bloco de imagens x pertence, pode ser adicionada ao conjunto de unidades de informação de movimento candidatas S3 após o processamento de desduplicação. Se a quantidade de unidades de informação de movimento no conjunto de unidades de informação de movimento candidatas S3 é ainda inferior a 2 neste caso, uma unidade de informação de movimento zero é adicionada adicionalmente ao conjunto de unidades de informação de movimento candidatas S3 até que a quantidade de unidades de informação de movimento no conjunto de unidades de informação de movimento candidatas S3 seja igual a 2.

[166] Se o quadro de vídeo ao qual o bloco de imagens x pertence é um quadro de predição direta, a unidade de informação de movimento zero adicionada ao conjunto de unidades de informação de movimento candidatas S3 inclui um vetor de movimento zero cuja direção de predição é direta, mas não pode incluir um vetor de movimento zero cuja direção de predição é inversa. Se o quadro de vídeo ao qual o bloco de imagens x pertence é um quadro de predição inversa, a unidade de informação de movimento zero adicionada ao conjunto de unidades de informação de movimento candidatas S3 inclui um vetor de movimento zero cuja direção de predição é inversa, mas não pode incluir um vetor de movimento zero cuja direção de predição é direta. Além disso, se o quadro de vídeo ao qual o bloco de imagens x pertence é um quadro de predição bidirecional, a unidade de informação de movimento zero adicionada ao conjunto de unidades de informação de movimento candidatas S3 inclui um vetor de movimento zero cuja direção de predição é direta e um vetor de movimento zero cuja direção de predição é inversa, em que índices de quadro de referência correspondentes aos vetores de movimento em diferentes unidades de informação de movimento zero adicionadas ao conjunto de unidades de informação de movimento candidatas S3 podem ser diferentes, e índices de quadro de referência correspondentes podem ser, por exemplo, 0, 1, 2, 3, ou outro valor.

[167] Que duas unidades de informação de movimento são diferentes pode significar que os vetores de movimento incluídos nas duas unidades de informação de movimento são diferentes, ou que direções de predição de vetores de movimento incluídos nas duas unidades de informação de movimento são diferentes, ou que índices de quadro de referência correspondentes aos vetores de movimento incluídos nas duas unidades de informação de movimento são diferentes. Que duas unidades de informação de movimento são iguais pode significar que os vetores de movimento incluídos nas duas unidades de informação de movimento são iguais, e que as direções de predição dos vetores de movimento incluídos nas duas unidades de informação de movimento são iguais, e que índices de quadro de referência correspondentes aos vetores de movimento incluídos nas duas unidades de informação de movimento são iguais.

[168] Pode ser entendido que, para um cenário em que existem mais amostras de pixels, um conjunto de unidades de informação de movimento candidatas correspondente a uma amostra de pixels pode ser obtido de uma maneira semelhante.

[169] Por exemplo, como mostrado na Figura 2-d, no exemplo da Figura 2-d, K1 é igual a 4. No exemplo da Figura 2-d, as K1 amostras de pixels podem incluir uma amostra de pixels esquerda superior, uma amostra de pixels direita superior, uma amostra de pixels esquerda inferior e uma amostra de pixels central a1 do bloco de imagens x. A amostra de pixels esquerda superior do bloco de imagens x é um vértice esquerdo superior do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e incluindo um vértice esquerdo superior do bloco de imagens x; a amostra de pixels esquerda inferior do bloco de imagens x é um vértice esquerdo inferior do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e incluindo um vértice esquerdo inferior do bloco de imagens x; a amostra de pixels direita superior do bloco de imagens x é um vértice direito superior do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e incluindo um vértice direito superior do bloco de imagens x; e a amostra de pixels central a1 do bloco de imagens x é um pixel central do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e incluindo um pixel central do bloco de imagens x. 203. Determinar N conjuntos de unidades de informação de movimento fundidas candidatas com base no conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels nas K1 amostras de pixels. Cada unidade de informação de movimento incluída em cada conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas é selecionada a partir de pelo menos uma parte de unidades de informação de movimento compatíveis com restrições em conjuntos de unidades de informação de movimento candidatas correspondentes a diferentes amostras de pixels nas K1 amostras de pixels. Os N conjuntos de unidades de informação de movimento fundidas candidatas são diferentes uns dos outros, cada conjunto de unidades de informação de movimento fundidas candidatas particular nos N conjuntos de unidades de informação de movimento fundidas candidatas inclui K1 unidades de informação de movimento, e N é um número inteiro positivo.

[170] Pode ser entendido que, assumindo que um conjunto de unidades de informação de movimento fundidas candidatas é determinado com base no conjunto de unidades de informação de movimento candidatas S1 (assumindo que três unidades de informação de movimento estão incluídas), o conjunto de unidades de informação de movimento candidatas S2 (assumindo que duas unidades de informação de movimento estão incluídas), e o conjunto de unidades de informação de movimento candidatas S3 (assumindo que duas unidades de informação de movimento estão incluídas), em teoria, 3 x 2 x 2 = 12 conjuntos de unidades de informação de movimento fundidas candidatas iniciais podem ser determinados. No entanto, para melhorar disponibilidade, por exemplo, pelo menos uma condição em uma primeira condição, uma segunda condição, e uma terceira condição podem ser utilizadas para remover N conjuntos de unidades de informação de movimento fundidas candidatas a partir dos 12 conjuntos de unidades de informação de movimento fundidas candidatas iniciais. Certamente, porque quantidades de unidades de informação de movimento incluídas no conjunto de unidades de informação de movimento candidatas S1, o conjunto de unidades de informação de movimento candidatas S2, e o conjunto de unidades de informação de movimento candidatas S3 não se limitam aos exemplos anteriores, uma quantidade de conjuntos de unidades de informação de movimento fundidas candidatas iniciais não é necessariamente 12.

[171] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, os N conjuntos de unidades de informação de movimento fundidas candidatas satisfazem pelo menos uma de uma primeira condição, uma segunda condição, uma terceira condição, uma quarta condição, ou uma quinta condição.

[172] A primeira condição inclui que um modo de movimento do bloco de imagens x indicado por uma unidade de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas seja movimento não translacional. Por exemplo, se todos os vetores de movimento cujas direções de predição são uma primeira direção de predição em um conjunto de unidades de informação de movimento fundidas candidatas são iguais, pode ser considerado que o modo de movimento do bloco de imagens x indicado por uma unidade de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas é movimento translacional; caso contrário, pode ser considerado que o modo de movimento do bloco de imagens x indicado por uma unidade de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas é movimento não translacional, em que a primeira direção de predição é direta ou inversa. Para um outro exemplo, se todos os vetores de movimento cujas direções de predição são uma direção de predição direta em um conjunto de unidades de informação de movimento fundidas candidatas são iguais, e todos os vetores de movimento cujas direções de predição são direções de predição inversas no conjunto de unidades de informação de movimento fundidas candidatas são iguais, pode ser considerado que o modo de movimento do bloco de imagens x indicado por uma unidade de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas é movimento translacional; caso contrário, pode ser considerado que o modo de movimento do bloco de imagens x indicado por uma unidade de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas é movimento não translacional.

[173] A segunda condição pode incluir que direções de predição de pelo menos duas unidades de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas são iguais (se direções de predição de unidades de informação de movimento em um conjunto de unidades de informação de movimento fundidas candidatas particular são diferentes uns dos outros, pode ser considerado que o conjunto de unidades de informação de movimento fundidas candidatas particular é inválido, e o conjunto de unidades de informação de movimento fundidas candidatas particular pode ser abandonado). Por exemplo, quando duas unidades de informação de movimento incluem um vetor de movimento cuja direção de predição é direta e um vetor de movimento cuja direção de predição é inversa, isto indica que as direções de predição das duas unidades de informação de movimento são iguais. Para um outro exemplo, quando uma unidade de informação de movimento em duas unidades de informação de movimento inclui um vetor de movimento cuja direção de predição é direta e um vetor de movimento cuja direção de predição é inversa, e a outra unidade de informação de movimento inclui um vetor de movimento cuja direção de predição é direta, mas não inclui um vetor de movimento cuja direção de predição é inversa, ou a outra unidade de informação de movimento inclui um vetor de movimento cuja direção de predição é inversa, mas não inclui um vetor de movimento cuja direção de predição é direta, isto pode indicar que as direções de predição das duas unidades de informação de movimento são diferentes. Para um outro exemplo, quando uma unidade de informação de movimento em duas unidades de informação de movimento inclui um vetor de movimento cuja direção de predição é direta, mas não inclui um vetor de movimento cuja direção de predição é inversa, e a outra unidade de informação de movimento inclui um vetor de movimento cuja direção de predição é inversa, mas não inclui um vetor de movimento cuja direção de predição é direta, isto pode indicar que as direções de predição das duas unidades de informação de movimento são diferentes. Para um outro exemplo, quando duas unidades de informação de movimento incluem um vetor de movimento cuja direção de predição é direta, mas nenhuma das duas unidades de informação de movimento inclui um vetor de movimento cuja direção de predição é inversa, isto indica que as direções de predição das duas unidades de informação de movimento são iguais. Para um outro exemplo, quando duas unidades de informação de movimento incluem um vetor de movimento cuja direção de predição é inversa, mas nenhuma das duas unidades de informação de movimento inclui um vetor de movimento cuja direção de predição é direta, isto indica que as direções de predição das duas unidades de informação de movimento são iguais.

[174] A terceira condição pode incluir que índices de quadro de referência correspondentes a pelo menos duas unidades de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas são iguais (se índices de quadro de referência correspondentes a unidades de informação de movimento em um conjunto de unidades de informação de movimento fundidas candidatas particular são diferentes uns dos outros, pode ser considerado que o conjunto de unidades de informação de movimento fundidas candidatas particular é inválido, e o conjunto de unidades de informação de movimento fundidas candidatas particular pode ser abandonado). Por exemplo, quando duas unidades de informação de movimento incluem um vetor de movimento cuja direção de predição é direta e um vetor de movimento cuja direção de predição é inversa, e índices de quadro de referência correspondentes aos vetores de movimento cujas direções de predição são diretas nas duas unidades de informação de movimento são iguais, e índices de quadro de referência correspondentes aos vetores de movimento cujas direções de predição são inversas nas duas unidades de informação de movimento são iguais, isto pode indicar que índices de quadro de referência correspondentes às duas unidades de informação de movimento são iguais. Para um outro exemplo, quando uma unidade de informação de movimento em duas unidades de informação de movimento inclui um vetor de movimento cuja direção de predição é direta e um vetor de movimento cuja direção de predição é inversa, e a outra unidade de informação de movimento inclui um vetor de movimento cuja direção de predição é direta, mas não inclui um vetor de movimento cuja direção de predição é inversa, ou a outra unidade de informação de movimento inclui um vetor de movimento cuja direção de predição é inversa, mas não inclui um vetor de movimento cuja direção de predição é direta, isto indica que as direções de predição das duas unidades de informação de movimento são diferentes, e pode indicar que índices de quadro de referência correspondentes às duas unidades de informação de movimento são diferentes. Para um outro exemplo, quando uma unidade de informação de movimento em duas unidades de informação de movimento inclui um vetor de movimento cuja direção de predição é direta, mas não inclui um vetor de movimento cuja direção de predição é inversa, e a outra unidade de informação de movimento inclui um vetor de movimento cuja direção de predição é inversa, mas não inclui um vetor de movimento cuja direção de predição é direta, isto pode indicar que índices de quadro de referência correspondentes às duas unidades de informação de movimento são diferentes. Para um outro exemplo, quando uma unidade de informação de movimento em duas unidades de informação de movimento inclui um vetor de movimento cuja direção de predição é direta, mas não inclui um vetor de movimento cuja direção de predição é inversa, e a outra unidade de informação de movimento inclui um vetor de movimento cuja direção de predição é direta, mas não inclui um vetor de movimento cuja direção de predição é inversa, e índices de quadro de referência correspondentes aos vetores de movimento cujas direções de predição são diretas nas duas unidades de informação de movimento são iguais, isto pode indicar que índices de quadro de referência correspondentes às duas unidades de informação de movimento são diferentes. Para um outro exemplo, quando uma unidade de informação de movimento em duas unidades de informação de movimento inclui um vetor de movimento cuja direção de predição é inversa, mas não inclui um vetor de movimento cuja direção de predição é direta, e a outra unidade de informação de movimento inclui um vetor de movimento cuja direção de predição é inversa, mas não inclui um vetor de movimento cuja direção de predição é direta, e índices de quadro de referência correspondentes aos vetores de movimento cujas direções de predição são inversas nas duas unidades de informação de movimento são iguais, isto pode indicar que índices de quadro de referência correspondentes às duas unidades de informação de movimento são diferentes.

[175] A quarta condição inclui que um valor absoluto de uma diferença entre componentes horizontais de duas (quaisquer duas) unidades de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas é menor ou igual a um limiar de componente horizontal. Especificamente, por exemplo, a quarta condição inclui que um valor absoluto de uma diferença entre componentes horizontais de dois vetores de movimento cujas direções de predição são iguais em duas (quaisquer duas) unidades de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas é menor ou igual ao limiar de componente horizontal. Se um valor absoluto de uma diferença entre componentes horizontais de duas unidades de informação de movimento em um conjunto de unidades de informação de movimento fundidas candidatas particular é maior do que o limiar de componente horizontal, pode ser considerado que o conjunto de unidades de informação de movimento fundidas candidatas particular é inválido, e o conjunto de unidades de informação de movimento fundidas candidatas particular pode ser ainda abandonado. O limiar de componente horizontal pode ser igual a 1/3 de uma largura do bloco de imagens x, 1/2 de uma largura do bloco de imagens x, 2/3 de uma largura do bloco de imagens x, 3/4 de uma largura do bloco de imagens x, ou outro valor.

[176] A quinta condição inclui que um valor absoluto de uma diferença entre componentes verticais de duas (quaisquer duas) unidades de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas é menor ou igual a um limiar de componente vertical. Especificamente, por exemplo, a quinta condição inclui que um valor absoluto de uma diferença entre componentes verticais de dois vetores de movimento cujas direções de predição são iguais em duas (quaisquer duas) unidades de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas é menor ou igual ao limiar de componente vertical. O limiar de componente vertical pode ser igual a 1/3 de uma altura do bloco de imagens x, 1/2 de uma altura do bloco de imagens x, 2/3 de uma altura do bloco de imagens x, 3/4 de uma altura do bloco de imagens x, ou outro valor.

[177] Certamente, os N conjuntos de unidades de informação de movimento fundidas candidatas, por exemplo, podem ainda satisfazer outras condições que não são ilustradas.

[178] Pode ser compreendido que, por introduzir pelo menos uma da primeira condição, a segunda condição, a terceira condição, a quarta condição, ou a quinta condição, remoção é realizada nos conjuntos de unidades de informação de movimento fundidas candidatas iniciais e os N conjuntos de unidades de informação de movimento fundidas candidatas são eliminados dos conjuntos de unidades de informação de movimento fundidas candidatas iniciais. Isto ajuda a encerrar a participação de alguns possíveis conjuntos de unidades de informação de movimento fundidas candidatas inválidos em computação subsequente com antecedência, e ainda ajuda a reduzir a complexidade computacional de codificação e decodificação.

[179] Em um processo de implementação específico, por exemplo, pelo menos uma da primeira condição, a segunda condição, ou a terceira condição pode ser primeiramente usada para executar remoção nos conjuntos de unidades de informação de movimento fundidas candidatas iniciais, e N01 conjuntos de unidades de informação de movimento fundidas candidatas são eliminados dos conjuntos de unidades de informação de movimento fundidas candidatas iniciais, então processamento de escalonamento é realizado nos N01 conjuntos de unidades de informação de movimento fundidas candidatas e, em seguida, pelo menos uma da quarta condição, ou a quinta condição é utilizada para remover os N conjuntos de unidades de informação de movimento fundidas candidatas a partir dos N01 conjuntos de unidades de informação de movimento fundidas candidatas. Certamente, remoção pode ser realizada nos conjuntos de unidades de informação de movimento fundidas candidatas iniciais usando diretamente pelo menos uma da primeira condição, a segunda condição ou a terceira condição, sem fazer referência à quarta condição e à quinta condição, e os N conjuntos de unidades de informação de movimento fundidas candidatas são eliminados dos conjuntos de unidades de informação de movimento fundidas candidatas iniciais.

[180] Pode ser entendido que um vetor de movimento em codificação ou decodificação de vídeo reflete um deslocamento de um objeto em uma direção (uma direção de predição) relativamente a um mesmo tempo (o mesmo tempo corresponde a uma mesma referência). Por conseguinte, quando unidades de informação de movimento de diferentes amostras de pixels correspondem a diferentes direções de predição e / ou correspondem a diferentes índices de quadro de referência, um deslocamento de movimento de cada pixel ou bloco de pixels do bloco de imagens x relativo a uma referência não pode ser obtido diretamente. No entanto, quando as amostras de pixels correspondem a uma mesma direção de predição e correspondem a um mesmo índice de quadro de referência, um vetor de movimento de cada pixel ou bloco de pixels no bloco de imagens pode ser obtido utilizando uma combinação dos vetores de movimento fundidos.

[181] Por conseguinte, quando unidades de informação de movimento de diferentes amostras de pixels em um conjunto de unidades de informação de movimento fundidas candidatas correspondem a diferentes direções de predição e / ou correspondem a diferentes índices de quadro de referência, processamento de escalonamento pode ser realizado no conjunto de unidades de informação de movimento fundidas candidatas. O processamento de escalonamento realizado no conjunto de unidades de informação de movimento fundidas candidatas pode relacionar-se com modificação, adição e / ou eliminação ou semelhante de um vetor de movimento em um ou mais conjuntos de unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas.

[182] Por exemplo, quando vetores de movimento cujas direções de predição são uma primeira direção de predição em um conjunto de unidades de informação de movimento fundidas candidatas i (tal como um conjunto de unidades de informação de movimento fundidas i) correspondem a diferentes índices de quadro de referência, processamento de escalonamento pode ser realizado no conjunto de unidades de informação de movimento fundida candidata, de modo que os vetores de movimento cujas direções de predição são a primeira direção de predição no conjunto de unidades de informação de movimento fundidas candidatas são escalonados para baixo para um mesmo quadro de referência, em que a primeira direção de predição é direta ou inversa.

[183] Para um outro exemplo, quando vetores de movimento cujas direções de predição são diretas para um conjunto de unidades de informação de movimento fundidas candidatas i (tal como o conjunto de unidades de informação de movimento fundidas i) correspondem a diferentes índices de quadro de referência e vetores de movimento cujas direções de predição são inversas no conjunto de unidades de informação de movimento fundida candidata correspondem a diferentes índices de quadro de referência, processamento de escalonamento é realizado no conjunto de unidades de informação de movimento fundidas candidatas, de modo que os vetores de movimento cujas direções de predição são diretas no conjunto de unidades de informação de movimento fundidas i são escalonados para baixo para um mesmo quadro de referência e que os vetores de movimento cujas direções de predição são inversas no conjunto de unidades de informação de movimento fundidas i são escalonados para baixo para um mesmo quadro de referência.

[184] Se uma direção de predição de uma unidade de informação de movimento é bidirecional, isto indica que a unidade de informação de movimento inclui um vetor de movimento cuja direção de predição é direta e um vetor de movimento cuja direção de predição é inversa. Se uma direção de predição de uma unidade de informação de movimento é direta, isto indica que a unidade de informação de movimento inclui um vetor de movimento cuja direção de predição é direta, mas não inclui um vetor de movimento cuja direção de predição é inversa. Se uma direção de predição de uma unidade de informação de movimento é inversa, isto indica que a unidade de informação de movimento inclui um vetor de movimento cuja direção de predição é inversa, mas não inclui um vetor de movimento cuja direção de predição é direta.

[185] Quando unidades de informação de movimento de diferentes amostras de pixels em um conjunto de unidades de informação de movimento fundida candidata correspondem a diferentes direções de predição e / ou correspondem a diferentes índices de quadro de referência, as diferentes direções de predição e / ou diferentes índices de quadro de referência correspondentes às unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas correspondente podem ser ainda ajustados.

[186] Uma direção de predição pode ser ajustada da seguinte maneira. Por exemplo, se todas as unidades de informação de movimento em um conjunto de unidades de informação de movimento fundidas candidatas z nos N conjuntos de unidades de informação de movimento fundidas candidatas correspondem a uma mesma direção de predição, a direção de predição de cada unidade de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z pode permanecer inalterada. Além disso, se direções de predição de duas unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z são iguais, direções de predição de unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundidas candidatas z podem ser definidas como sendo as mesmas direções das duas unidades de informação de movimento.

[187] Especificamente, por exemplo, se direções de predição de duas unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z são uma primeira direção de predição (a primeira direção de predição é direta ou inversa) e as direções de predição de unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundida candidata z são uma segunda direção de predição (a segunda direção de predição é diferente da primeira direção de predição), as direções de predição das unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundidas candidatas z são ajustadas para a primeira direção de predição. Isto é, as direções de predição de todas as unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z são todas a primeira direção de predição.

[188] Para um outro exemplo, se direções de predição de duas unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z são bidirecionais, mas as direções de predição das unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundidas candidatas z são diretas, um vetor de movimento cuja direção de predição é adicionado às unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundidas candidatas z (um valor do vetor de movimento adicionado cuja direção de predição é inversa é inverso a um valor de um vetor de movimento original cuja direção de predição é direta em uma unidade de informação de movimento correspondente, e isto é equivalente a realizar processamento de escalonamento de acordo com 1: -1). Deste modo, as direções de predição das unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundidas candidatas z são também alteradas para bidirecionais, isto é, as direções de predição de todas as unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z são todas bidirecionais.

[189] Para um outro exemplo, se direções de predição de duas unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z são bidirecionais, mas as direções de predição das unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundidas candidatas z são inversas, um vetor de movimento cuja direção de predição é direta é adicionado para as unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundidas candidatas z (um valor do vetor de movimento adicionado cuja direção de predição é direta é inverso a um valor de um vetor de movimento original cuja direção de predição é inversa em uma unidade de informação de movimento correspondente, e isto é equivalente a realizar processamento de escalonamento de acordo com 1: -1). Deste modo, as direções de predição das unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundidas candidatas z são também alteradas para bidirecionais, isto é, as direções de predição de todas as unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z são todas bidirecionais.

[190] Para um outro exemplo, se direções de predição de duas unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z são diretas, mas as direções de predição das unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundidas candidatas z são bidirecionais, um vetor de movimento cuja direção de predição é inversa é deletado das unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundidas candidatas z. Desta forma, as direções de predição das unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundidas candidatas z são também alteradas para direta. Isto é, as direções de predição de todas as unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z são todas direta.

[191] Para um outro exemplo, se direções de predição de duas unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z são inversas, mas as direções de predição das unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundidas candidatas z são bidirecionais, um vetor de movimento cuja direção de predição é direta é eliminado das unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundidas candidatas z. Deste modo, as direções de predição das unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundidas candidatas z são também alteradas para inversa. Isto é, as direções de predição de todas as unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z são todas inversas.

[192] Um índice de quadro de referência pode ser ajustado da seguinte maneira. Especificamente, se todas as unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z nos N conjuntos de unidades de informação de movimento fundidas candidatas correspondem a um mesmo índice de quadro de referência, o índice de quadro de referência correspondente a cada unidade de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z permanece inalterado. Se índices de quadro de referência correspondentes a duas unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z são iguais, mas índices de quadro de referência correspondentes a unidades de informação de movimento restantes são diferentes, os índices de quadro de referência correspondentes às unidades de informação de movimento restantes no conjunto de unidades de informação de movimento candidatas fundidas z podem ser ajustados para serem os mesmos que índices de quadro de referência correspondentes às duas unidades de informação de movimento, mas processamento de escalonamento é realizado no conjunto de unidades de informação de movimento fundidas candidatas, de modo que vetores de movimento cujas direções de predição são diretas no conjunto de unidades de informação de movimento fundidas candidatas z são escalonados para baixo para um mesmo quadro de referência, e / ou que vetores de movimento cujas direções de predição são inversas no conjunto de unidades de informação de movimento fundidas candidatas z são escalonados para baixo para um mesmo quadro de referência.

[193] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, um vetor de movimento MVd no conjunto de unidades de informação de movimento fundidas candidatas Z pode ser escalonado para baixo para um quadro de referência alvo, utilizando o seguinte método: assumindo que um número de sequência de reprodução de um quadro de vídeo atual (por exemplo, o quadro de vídeo ao qual o bloco de imagens x pertence) é CurPoc, em que um número de sequência de reprodução do quadro de referência alvo é DesPoc e um número de sequência de reprodução de um quadro de referência inicial do vetor de movimento MVd é SrcPoc, o vetor de movimento MVd é escalonado para baixo para o quadro de referência alvo, e um vetor de movimento MVS é obtido.

[194] Especificamente, MVS pode ser obtido através de computação de acordo com a seguinte fórmula:

[195] O conjunto de unidades de informação de movimento fundidas candidatas z pode ser qualquer conjunto de unidades de informação de movimento fundidas candidatas particular nos N conjuntos de unidades de informação de movimento fundidas candidatas, isto é, processamento de escalonamento pode ser realizado em vetores de movimento em cada conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas na maneira ilustrada. 204. Determinar, a partir dos N conjuntos de unidades de informação de movimento fundidas candidatas, um conjunto de unidades de informação de movimento fundidas i incluindo K1 unidades de informação de movimento.

[196] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, quando o método de predição de imagem é aplicado a um processo de decodificação de vídeo, a determinação, a partir dos N conjuntos de unidades de informação de movimento fundidas candidatas, um conjunto de unidades de informação de movimento fundidas i incluindo K1 unidades de informação de movimento, pode incluir: determinar, a partir dos N conjuntos de unidades de informação de movimento fundidas candidatas, com base em um identificador que é do conjunto de unidades de informação de movimento fundidas i e é obtido de um fluxo de bits de vídeo, o conjunto de unidades de informação de movimento fundidas i incluindo as K1 unidades de informação de movimento.

[197] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, quando o método de predição de imagem é aplicado a um processo de codificação de vídeo, o método pode incluir ainda: escrever um identificador do conjunto de unidades de informação de movimento fundidas i em um fluxo de bits de vídeo.

[198] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, quando o método de predição de imagem é aplicado a um processo de decodificação de vídeo, a determinação, a partir dos N conjuntos de unidades de informação de movimento fundidas candidatas, um conjunto de unidades de informação de movimento fundidas i incluindo K1 unidades de informação de movimento, pode incluir: determinar, a partir dos N conjuntos de unidades de informação de movimento fundidas candidatas, de acordo com distorção ou um custo de taxa de distorção, o conjunto de unidades de informação de movimento fundidas i incluindo as K1 unidades de informação de movimento.

[199] Opcionalmente, um custo de taxa de distorção correspondente ao conjunto de unidades de informação de movimento fundidas i é inferior ou igual a um custo de taxa de distorção correspondente a qualquer conjunto de unidades de informação de movimento fundidas nos N conjuntos de unidades de informação de movimento fundidas candidatas exceto o conjunto de unidades de informação de movimento fundidas i.

[200] Opcionalmente, distorção correspondente ao conjunto de unidades de informação de movimento fundidas i é menor ou igual a distorção correspondente a qualquer conjunto de unidades de informação de movimento fundidas nos N conjuntos de unidades de informação de movimento fundidas candidatas exceto o conjunto de unidades de informação de movimento fundidas i.

[201] Um custo de taxa de distorção correspondente a um conjunto de unidades de informação de movimento fundidas candidatas particular nos N conjuntos de unidades de informação de movimento fundidas candidatas (por exemplo, o conjunto de unidades de informação de movimento fundidas i nos N conjuntos de unidades de informação de movimento fundidas candidatas) pode ser, um custo de taxa de distorção correspondente a um valor de pixel previsto de um bloco de imagens obtido por predição do valor de pixel do bloco de imagens (por exemplo, o bloco de imagens x) por utilizar o conjunto de unidades de informação de movimento fundidas candidatas particular (por exemplo, o conjunto de unidades de informação de movimento fundidas i).

[202] Distorção correspondente a um conjunto de unidades de informação de movimento fundidas candidatas particular nos N conjuntos de unidades de informação de movimento fundidas candidatas (por exemplo, o conjunto de unidades de informação de movimento fundidas i nos N conjuntos de unidades de informação de movimento fundidas candidatas) pode ser, por exemplo, distorção entre um valor de pixel original de um bloco de imagens (por exemplo, o bloco de imagens x) e um valor de pixel previsto do bloco de imagens obtido por predição do valor de pixel do bloco de imagens por utilizar o conjunto de unidades de informação de movimento fundidas candidatas particular (por exemplo, o conjunto de unidades de informação de movimento fundidas i) (nomeadamente, distorção entre o valor de pixel original e o valor de pixel previsto do bloco de imagens).

[203] Em algumas formas possíveis de implementação da presente invenção, distorção entre um valor de pixel original de um bloco de imagens (por exemplo, o bloco de imagens x) e um valor de pixel previsto do bloco de imagens obtido por predição do valor de pixel do bloco de imagens por utilizar o conjunto de unidades de informação de movimento fundidas candidatas particular (por exemplo, o conjunto de unidades de informação de movimento fundidas i) pode ser especificamente, por exemplo, uma soma de diferenças quadradas ou uma soma de diferenças absolutas ou uma soma de diferenças entre o valor de pixel original do bloco de imagens (por exemplo, o bloco de imagens x) e o valor de pixel previsto do bloco de imagens obtido por predição do valor de pixel do bloco de imagens por utilizar o conjunto de unidades de informação de movimento fundidas candidatas particular (por exemplo, o conjunto de unidades de informação de movimento fundidas i), ou outro parâmetro de distorção que pode medir a distorção.

[204] Além disso, para reduzir ainda mais a complexidade computacional, quando N é maior que n1, n1 conjuntos de unidades de informação de movimento fundidas candidatas podem ser eliminados dos N conjuntos de unidades de informação de movimento fundidas candidatas e o conjunto de unidades de informação de movimento fundidas i incluindo as K1 unidades de informação de movimento é determinado a partir dos n1 conjuntos de unidades de informação de movimento fundidas candidatas com base na distorção ou no custo de taxa de distorção. D(V) correspondente a qualquer conjunto de unidades de informação de movimento fundidas candidatas nn1 conjuntos de unidades de informação de movimento fundidas candidatas é menor ou igual a D(V) correspondente a qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas exceto os n1 conjuntos de unidades de informação de movimento fundidas candidatas, em que n1 é, por exemplo, igual a 3, 4, 5, 6 ou outro valor.

[205] Além disso, os n1 conjuntos de unidades de informação de movimento fundidas candidatas ou identificadores dos n1 conjuntos de unidades de informação de movimento fundidas candidatas são adicionados a uma lista de conjuntos de unidades de informação de movimento fundidas candidatas. Se N for menor ou igual a n1, os N conjuntos de unidades de informação de movimento fundidas candidatas podem ser adicionados à lista de conjuntos de unidades de informação de movimento fundidas candidatas. Os conjuntos de unidades de informação de movimento fundidas candidatas na lista de conjunto de unidades de informação de movimento fundidas candidatas podem ser dispostos em ordem ascendente ou ordem descendente, por exemplo, de acordo com um valor de D(V) .

[206] Assumindo que uma direção de predição de cada unidade de informação de movimento em um conjunto de unidades de informação de movimento fundidas candidatas particular é unidirecional, um parâmetro de distância Euclidiano D(V) do conjunto de unidades de informação de movimento fundidas candidatas particular pode ser calculado, por exemplo, da seguinte maneira:

, em que

são três vetores de movimento cujas direções de predição são iguais no conjunto de unidades de informação de movimento fundidas candidatas particular. Pode ser entendido que, no exemplo anterior, um conjunto de unidades de informação de movimento fundidas candidatas incluindo três unidades de informação de movimento é usado como um exemplo, e casos em que um conjunto de unidades de informação de movimento fundidas candidatas inclui qualquer outra quantidade de unidades de informação de movimento pode ser deduzido da mesma forma.

[207] Assumindo que uma direção de predição de cada unidade de informação de movimento em um conjunto de unidades de informação de movimento fundidas candidatas particular é bidirecional, um parâmetro de distância Euclidiano D(V) do conjunto de unidades de informação de movimento fundidas candidatas particular pode ser calculado, por exemplo, da seguinte maneira:

em que

são três vetores de movimento cujas direções de predição são diretas no conjunto de unidades de informação de movimento fundidas candidatas particular e

são três vetores de movimento cujas direções de predição são inversas no conjunto de unidades de informação de movimento fundidas candidatas particular. Pode ser entendido que, no exemplo anterior, um conjunto de unidades de informação de movimento fundidas candidatas incluindo três unidades de informação de movimento é utilizado como um exemplo, e os casos em que um conjunto de unidades de informação de movimento fundidas candidatas inclui qualquer outra quantidade de unidades de informação de movimento pode ser deduzido da mesma forma. 205. Realizar predição de vetor de movimento no bloco de imagens x por utilizar um modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas i.

[208] É assumido que o tamanho do bloco de imagens em que c é S1 x S2, e que S1 é igual ou desigual a S2.

[209] É assumido que k1 é igual a 3, e que as coordenadas das três amostras de pixels são (0, 0) , (S1,0) e (0,S2) . Aqui, por exemplo, coordenadas de um pixel em um canto esquerdo superior de uma amostra de pixels participam na computação. Com referência à Figura 2-e, a Figura 2-e mostra coordenadas de quatro vértices do bloco de imagens x.

[210] É assumido que vetores de movimento das três amostras de pixels são (vx0,vy0) , (vx1,vy1) , e (vx2,vy2) .

[211] As coordenadas e vetores de movimento das três amostras de pixels são substituídos em uma fórmula de transformação afim (1), e o vetor de movimento de cada pixel no bloco de imagens x pode ser calculado.

[212] Com referência à Figura 2-f e a Figura 2-g, a Figura 2-f mostra uma transformação afim de um pixel cujas coordenadas são (x, y), e a Figura 2-g mostra uma forma de transformação afim de três pixels conhecidos cujas coordenadas são (0, 0) , (S1,0) , e (0,S2) .

[213] Um vetor de movimento do pixel cujas coordenadas são (x, y) pode ser calculado com base na seguinte fórmula:

[214] Deve ser notado que esta modalidade é descrita principalmente utilizando um exemplo em que um modelo de movimento afim é utilizado como um modelo de movimento não translacional. Nos mecanismos em que o vetor de movimento de cada pixel do bloco de imagens atual é calculado com base em outros modelos de movimento não translacional e vetores de movimento das K amostras de pixels, embora as fórmulas usadas possam variar, os princípios são semelhantes e os mecanismos não são ilustrados um por um aqui. 206. Prever um valor de pixel do bloco de imagens x com base no vetor de movimento calculado de cada pixel do bloco de imagens x.

[215] Além disso, em codificação de vídeo, um resíduo de predição do bloco de imagens x pode ser obtido por utilizar um valor de pixel original do bloco de imagens x e um valor de pixel previsto do bloco de imagens x que é obtido por predição do valor de pixel, e o resíduo de predição do bloco de imagens x pode ser escrito em um fluxo de bits de vídeo.

[216] O vetor de movimento de cada pixel no bloco de imagens x é obtido através de computação de acordo com o modelo de movimento não translacional tal como o modelo de movimento afim. Depois de obtido o vetor de movimento de cada pixel, para um componente de luminância, se precisão de componentes horizontal e vertical do vetor de movimento é 1/4, um valor de predicado de um componente de luminância de cada pixel pode ser obtido com base no vetor de movimento por diretamente utilizar um filtro de interpolação de HEVC. Se a precisão for superior a 1/4, um componente de luminância de precisão 1/4 do bloco de imagens x é obtido com base no vetor de movimento por utilizar o filtro de interpolação de HEVC e, em seguida, interpolação bilinear é efetuada no componente de luminância de precisão 1/4 para obter um valor de predicado do componente de luminância do pixel. Da mesma forma, para um componente de crominância, se precisão do vetor de movimento é maior que 1/8, interpolação bilinear é realizada. Interpolação do componente de luminância é mostrada na Figura 2-h, em que a, b, c e dtêm 1/4 de pixels de precisão, e podem ser obtidos por utilizar o filtro de interpolação de HEVC. Após um componente de movimento horizontal x e um componente de movimento vertical y serem obtidos de acordo com o vetor de movimento de cada pixel, interpolação bilinear pode ser realizada, em que Sé precisão da interpolação bilinear.

[217] Se uma direção de predição de uma unidade de informação de movimento no conjunto de unidades de informação de movimento fundidas i for bidirecional, um valor de predicado direto do bloco de imagens x é obtido em um quadro de referência direto e um valor de predicado inverso do bloco de imagens x é obtido em um quadro de referência inverso de acordo com o método anterior, e então média ponderada é realizada no valor de predicado direto do bloco de imagens x e o valor de predicado inverso do bloco de imagens x para obter um valor de pixel de predicado do bloco de imagens x.

[218] Para prever eficazmente um bloco de imagens subsequente e melhorar a eficiência de armazenamento de um vetor de movimento, quando o bloco de imagens x é codificado da maneira anterior, o bloco de imagens atual x pode ser armazenado em uma unidade de armazenamento de vetor de movimento mínima de acordo com o método seguinte (assumindo que a unidade de armazenamento de vetor de movimento mínima é para armazenar vetores de movimento de um bloco de imagens 4x4): primeiro armazenar vetores de movimento

do bloco de imagens 4x4 em três amostras de pixels de uma unidade de predição atual de acordo com a Figura 2-i; e depois encher

em um canto esquerdo superior em outras unidades de armazenamento de vetor de movimento mínimas.

[219] Por conseguinte, após o conjunto de unidades de informação de movimento fundidas i ser determinado, um vetor de movimento de uma amostra de pixels direita inferior do bloco de imagens x e um vetor de movimento da amostra de pixels central do bloco de imagens x podem ser calculados utilizando a seguinte fórmula:

[220]

indica o vetor de movimento armazenado da amostra de pixels direita inferior do bloco de imagens x, e

indica o vetor de movimento armazenado da amostra de pixels central do bloco de imagens x. Conforme ilustrado na Figura 2-i, vetores de movimento de todas as amostras de pixels no bloco de imagens x exceto amostras de pixels de vértice podem ser armazenados como

[221] Pode ser visto que, na solução técnica desta modalidade, um valor de pixel do bloco de imagens x é previsto por utilizar um modelo de movimento não translacional e um conjunto de unidades de informação de movimento fundidas i, em que o conjunto de unidades de informação de movimento fundidas i é selecionado a partir de N conjuntos de unidades de informação de movimento fundidas candidatas que satisfazem uma condição, e cada unidade de informação de movimento no conjunto de unidades de informação de movimento fundidas i é selecionada a partir de pelo menos uma parte de unidades de informação de movimento em conjuntos de unidades de informação de movimento candidatas correspondentes a diferentes amostras de pixels nas K1 amostras de pixels. Porque um intervalo de seleção do conjunto de unidades de informação de movimento fundidas i é relativamente pequeno, um mecanismo utilizado em uma tecnologia convencional para remover unidades de informação de movimento de K1 amostras de pixels apenas por executar uma quantidade enorme de cálculo em todos os conjuntos de unidades de informação de movimento candidatas correspondentes às K1 amostras de pixels é abandonado. Isso ajuda a melhorar eficiência de codificação, também ajuda a reduzir complexidade computacional de predição de imagem realizada com base no modelo de movimento não translacional, torna ainda possível introduzir o modelo de movimento não translacional em um padrão de codificação de vídeo, e porque o modelo de movimento não translacional é introduzido, ajuda a descrever movimento de um objeto com mais precisão e, portanto, ajuda a melhorar a precisão de predição.

[222] Com referência à Figura 3, a Figura 3 é um fluxograma esquemático de um método de codificação de vídeo de acordo com outra modalidade da presente invenção. Conforme ilustrado na Figura 3, um método de codificação de vídeo fornecido por outra modalidade da presente invenção pode incluir os seguintes passos: 301. Um aparelho de codificação de vídeo determina K1 amostras de pixels em um bloco de imagens x.

[223] Nesta modalidade, por exemplo, as K1 amostras de pixels incluem uma amostra de pixels esquerda superior, uma amostra de pixels direita superior e uma amostra de pixels esquerda inferior do bloco de imagens x.

[224] A amostra de pixels esquerda superior do bloco de imagens x é um vértice esquerdo superior do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e incluindo um vértice esquerdo superior do bloco de imagens x. A amostra de pixels esquerda inferior do bloco de imagens x é um vértice esquerdo inferior do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e incluindo um vértice esquerdo inferior do bloco de imagens x. A amostra de pixels direita superior do bloco de imagens x é um vértice direito superior do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e incluindo um vértice direito superior do bloco de imagens x. 302. O aparelho de codificação de vídeo determina um conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels nas K1 amostras de pixels.

[225] O conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels inclui pelo menos uma unidade de informação de movimento candidata.

[226] A unidade de informação de movimento mencionada em cada modalidade da presente invenção pode incluir um vetor de movimento cuja direção de predição é direta e / ou um vetor de movimento cuja direção de predição é inversa. Isto é, uma unidade de informação de movimento pode incluir um vetor de movimento ou pode incluir dois vetores de movimento com diferentes direções de predição.

[227] K1 é um número inteiro maior que 1. Por exemplo, K1 pode ser igual a 2, 3, 4, ou outro valor.

[228] Que duas unidades de informação de movimento são diferentes pode significar que os vetores de movimento incluídos nas duas unidades de informação de movimento são diferentes, ou que direções de predição de vetores de movimento incluídos nas duas unidades de informação de movimento são diferentes, ou que índices de quadro de referência correspondentes aos vetores de movimento incluídos nas duas unidades de informação de movimento são diferentes. Que duas unidades de informação de movimento são iguais pode significar que os vetores de movimento incluídos nas duas unidades de informação de movimento são iguais, e que as direções de predição dos vetores de movimento incluídos nas duas unidades de informação de movimento são iguais, e que índices de quadro de referência correspondentes aos vetores de movimento incluídos nas duas unidades de informação de movimento são iguais.

[229] Os conjuntos de unidades de informação de movimento candidatas correspondentes às K1 amostras de pixels podem ser determinados de várias maneiras. Por exemplo, o conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels nas K1 amostras de pixels pode ser determinado de uma maneira ilustrada no passo 202. 303. O aparelho de codificação de vídeo determina N conjuntos de unidades de informação de movimento fundidas candidatas com base no conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels nas K1 amostras de pixels. Cada unidade de informação de movimento incluída em cada conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas é selecionada a partir de pelo menos uma parte de unidades de informação de movimento compatíveis com restrições em conjuntos de unidades de informação de movimento candidatas correspondentes a diferentes amostras de pixels nas K1 amostras de pixels. Os N conjuntos de unidades de informação de movimento fundidas candidatas são diferentes uns dos outros, cada conjunto de unidades de informação de movimento fundidas candidatas particular nos N conjuntos de unidades de informação de movimento fundidas candidatas inclui K1 unidades de informação de movimento, e N é um número inteiro positivo.

[230] Pode ser entendido que, assumindo que um conjunto de unidades de informação de movimento fundidas candidatas é determinado com base em um conjunto de unidades de informação de movimento candidatas S1 (assumindo que três unidades de informação de movimento estão incluídas), um conjunto de unidades de informação de movimento candidatas S2 (assumindo que duas unidades de informação de movimento estão incluídas), e um conjunto de unidades de informação de movimento candidatas S3 (assumindo que duas unidades de informação de movimento estão incluídas), em teoria, 3 x 2 x 2 = 12 conjuntos de unidades de informação de movimento fundidas candidatas iniciais podem ser determinados. No entanto, para melhorar disponibilidade, por exemplo, pelo menos uma condição em uma primeira condição, uma segunda condição, e uma terceira condição podem ser utilizadas para remover N conjuntos de unidades de informação de movimento fundidas candidatas a partir dos 12 conjuntos de unidades de informação de movimento fundidas candidatas iniciais. Certamente, porque quantidades de unidades de informação de movimento incluídas no conjunto de unidades de informação de movimento candidatas S1, o conjunto de unidades de informação de movimento candidatas S2, e o conjunto de unidades de informação de movimento candidatas S3 não se limitam aos exemplos anteriores, uma quantidade de conjuntos de unidades de informação de movimento fundidas candidatas iniciais não é necessariamente 12.

[231] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, os N conjuntos de unidades de informação de movimento fundidas candidatas satisfazem pelo menos uma de uma primeira condição, uma segunda condição, uma terceira condição, uma quarta condição, ou uma quinta condição.

[232] A primeira condição inclui que um modo de movimento do bloco de imagens x indicado por uma unidade de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas seja movimento não translacional.

[233] A segunda condição pode incluir que direções de predição de pelo menos duas unidades de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas são iguais (se direções de predição de unidades de informação de movimento em um conjunto de unidades de informação de movimento fundidas candidatas particular são diferentes uns dos outros, pode ser considerado que o conjunto de unidades de informação de movimento fundidas candidatas particular é inválido, e o conjunto de unidades de informação de movimento fundidas candidatas particular pode ser abandonado).

[234] A terceira condição pode incluir que índices de quadro de referência correspondentes a pelo menos duas unidades de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas são iguais (se índices de quadro de referência correspondentes a unidades de informação de movimento em um conjunto de unidades de informação de movimento fundidas candidatas particular são diferentes uns dos outros, pode ser considerado que o conjunto de unidades de informação de movimento fundidas candidatas particular é inválido, e o conjunto de unidades de informação de movimento fundidas candidatas particular pode ser abandonado).

[235] A quarta condição inclui que um valor absoluto de uma diferença entre componentes horizontais de duas (quaisquer duas) unidades de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas é menor ou igual a um limiar de componente horizontal. O limiar de componente horizontal pode ser igual a 1/3 de uma largura do bloco de imagens x, 1/2 de uma largura do bloco de imagens x, 2/3 de uma largura do bloco de imagens x, 3/4 de uma largura do bloco de imagens x, ou outro valor.

[236] A quinta condição inclui que um valor absoluto de uma diferença entre componentes verticais de duas (quaisquer duas) unidades de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas é menor ou igual a um limiar de componente vertical. O limiar de componente vertical pode ser igual a 1/3 de uma altura do bloco de imagens x, 1/2 de uma altura do bloco de imagens x, 2/3 de uma altura do bloco de imagens x, 3/4 de uma altura do bloco de imagens x, ou outro valor.

[237] Certamente, os N conjuntos de unidades de informação de movimento fundidas candidatas, por exemplo, podem ainda satisfazer outras condições que não são ilustradas.

[238] Pode ser compreendido que, por introduzir pelo menos uma da primeira condição, a segunda condição, a terceira condição, a quarta condição, ou a quinta condição, remoção é realizada nos conjuntos de unidades de informação de movimento fundidas candidatas iniciais e os N conjuntos de unidades de informação de movimento fundidas candidatas são eliminados dos conjuntos de unidades de informação de movimento fundidas candidatas iniciais. Isto ajuda a encerrar a participação de alguns possíveis conjuntos de unidades de informação de movimento fundidas candidatas inválidos em computação subsequente com antecedência, e ainda ajuda a reduzir a complexidade computacional de codificação e decodificação.

[239] Em um processo de implementação específico, por exemplo, pelo menos uma da primeira condição, a segunda condição, ou a terceira condição pode ser primeiramente usada para executar remoção nos conjuntos de unidades de informação de movimento fundidas candidatas iniciais, e N01 conjuntos de unidades de informação de movimento fundidas candidatas são eliminados dos conjuntos de unidades de informação de movimento fundidas candidatas iniciais, então processamento de escalonamento é realizado nos N01 conjuntos de unidades de informação de movimento fundidas candidatas e, em seguida, pelo menos uma da quarta condição, ou a quinta condição é utilizada para remover os N conjuntos de unidades de informação de movimento fundidas candidatas a partir dos N01 conjuntos de unidades de informação de movimento fundidas candidatas. Certamente, remoção pode ser realizada nos conjuntos de unidades de informação de movimento fundidas candidatas iniciais usando diretamente pelo menos uma da primeira condição, a segunda condição ou a terceira condição, sem fazer referência à quarta condição e à quinta condição, e os N conjuntos de unidades de informação de movimento fundidas candidatas são eliminados dos conjuntos de unidades de informação de movimento fundidas candidatas iniciais.

[240] Pode ser entendido que um vetor de movimento em codificação ou decodificação de vídeo reflete um deslocamento de um objeto em uma direção (uma direção de predição) relativamente a um mesmo tempo (o mesmo tempo corresponde a uma mesma referência). Por conseguinte, quando unidades de informação de movimento de diferentes amostras de pixels correspondem a diferentes direções de predição e / ou correspondem a diferentes índices de quadro de referência, um deslocamento de movimento de cada pixel ou bloco de pixels do bloco de imagens x relativo a uma referência não pode ser obtido diretamente. No entanto, quando as amostras de pixels correspondem a uma mesma direção de predição e correspondem a um mesmo índice de quadro de referência, um vetor de movimento de cada pixel ou bloco de pixels no bloco de imagens pode ser obtido por utilizar uma combinação dos vetores de movimento fundidos.

[241] Por conseguinte, quando unidades de informação de movimento de diferentes amostras de pixels em um conjunto de unidades de informação de movimento fundidas candidatas correspondem a diferentes direções de predição e / ou correspondem a diferentes índices de quadro de referência, processamento de escalonamento pode ser realizado no conjunto de unidades de informação de movimento fundidas candidatas. O processamento de escalonamento realizado no conjunto de unidades de informação de movimento fundidas candidatas pode relacionar-se com modificação, adição e / ou eliminação ou semelhante de um vetor de movimento em um ou mais conjuntos de unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas.

[242] Por exemplo, quando vetores de movimento cujas direções de predição são uma primeira direção de predição em um conjunto de unidades de informação de movimento fundidas candidatas i (tal como um conjunto de unidades de informação de movimento fundidas i) correspondem a diferentes índices de quadro de referência, processamento de escalonamento pode ser realizado no conjunto de unidades de informação de movimento fundida candidata, de modo que vetores de movimento cujas direções de predição são a primeira direção de predição no conjunto de unidades de informação de movimento fundidas candidatas são escalonados para baixo para um mesmo quadro de referência, em que a primeira direção de predição é direta ou inversa.

[243] Para um outro exemplo, quando vetores de movimento cujas direções de predição são diretas para um conjunto de unidades de informação de movimento fundidas candidatas i (tal como o conjunto de unidades de informação de movimento fundidas i) correspondem a diferentes índices de quadro de referência e vetores de movimento cujas direções de predição são inversas no conjunto de unidades de informação de movimento fundida candidata correspondem a diferentes índices de quadro de referência, processamento de escalonamento é realizado no conjunto de unidades de informação de movimento fundidas candidatas, de modo que vetores de movimento cujas direções de predição são diretas no conjunto de unidades de informação de movimento fundidas i são escalonados para baixo para um mesmo quadro de referência e que os vetores de movimento cujas direções de predição são inversas no conjunto de unidades de informação de movimento fundidas i são escalonados para baixo para um mesmo quadro de referência.

[244] Se uma direção de predição de uma unidade de informação de movimento é bidirecional, isto indica que a unidade de informação de movimento inclui um vetor de movimento cuja direção de predição é direta e um vetor de movimento cuja direção de predição é inversa. Se uma direção de predição de uma unidade de informação de movimento é direta, isto indica que a unidade de informação de movimento inclui um vetor de movimento cuja direção de predição é direta, mas não inclui um vetor de movimento cuja direção de predição é inversa. Se uma direção de predição de uma unidade de informação de movimento é inversa, isto indica que a unidade de informação de movimento inclui um vetor de movimento cuja direção de predição é inversa, mas não inclui um vetor de movimento cuja direção de predição é direta.

[245] Quando unidades de informação de movimento de diferentes amostras de pixels em um conjunto de unidades de informação de movimento fundida candidata correspondem a diferentes direções de predição e / ou correspondem a diferentes índices de quadro de referência, as diferentes direções de predição e / ou diferentes índices de quadro de referência correspondentes às unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas correspondente podem ser ainda ajustados.

[246] Uma direção de predição pode ser ajustada da seguinte maneira. Por exemplo, se todas as unidades de informação de movimento em um conjunto de unidades de informação de movimento fundidas candidatas z nos N conjuntos de unidades de informação de movimento fundidas candidatas correspondem a uma mesma direção de predição, a direção de predição de cada unidade de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z pode permanecer inalterada. Além disso, se direções de predição de duas unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z são iguais, direções de predição de unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundidas candidatas z podem ser definidas como sendo as mesmas direções das duas unidades de informação de movimento.

[247] Especificamente, por exemplo, se direções de predição de duas unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z são uma primeira direção de predição (a primeira direção de predição é direta ou inversa) e as direções de predição de unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundida candidata z são uma segunda direção de predição (a segunda direção de predição é diferente da primeira direção de predição), as direções de predição das unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundidas candidatas z são ajustadas para a primeira direção de predição. Isto é, as direções de predição de todas as unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z são todas a primeira direção de predição.

[248] Para um outro exemplo, se direções de predição de duas unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z são bidirecionais, mas as direções de predição das unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundidas candidatas z são diretas, um vetor de movimento cuja direção de predição é adicionado às unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundidas candidatas z (um valor do vetor de movimento adicionado cuja direção de predição é inversa é inverso a um valor de um vetor de movimento original cuja direção de predição é direta em uma unidade de informação de movimento correspondente, e isto é equivalente a realizar processamento de escalonamento de acordo com 1: -1). Deste modo, as direções de predição das unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundidas candidatas z são também alteradas para bidirecionais, isto é, as direções de predição de todas as unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z são todas bidirecionais.

[249] Para um outro exemplo, se direções de predição de duas unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z são bidirecionais, mas as direções de predição das unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundidas candidatas z são inversas, um vetor de movimento cuja direção de predição é direta é adicionado para as unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundidas candidatas z (um valor do vetor de movimento adicionado cuja direção de predição é direta é inverso a um valor de um vetor de movimento original cuja direção de predição é inversa em uma unidade de informação de movimento correspondente, e isto é equivalente a realizar processamento de escalonamento de acordo com 1: -1). Deste modo, as direções de predição das unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundidas candidatas z são também alteradas para bidirecionais, isto é, as direções de predição de todas as unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z são todas bidirecionais.

[250] Para um outro exemplo, se direções de predição de duas unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z são diretas, mas as direções de predição das unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundidas candidatas z são bidirecionais, um vetor de movimento cuja direção de predição é inversa é deletado das unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundidas candidatas z. Desta forma, as direções de predição das unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundidas candidatas z são também alteradas para direta. Isto é, as direções de predição de todas as unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z são todas direta.

[251] Para um outro exemplo, se direções de predição de duas unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z são inversas, mas as direções de predição das unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundidas candidatas z são bidirecionais, um vetor de movimento cuja direção de predição é direta é eliminado das unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundidas candidatas z. Deste modo, as direções de predição das unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundidas candidatas z são também alteradas para inversa. Isto é, as direções de predição de todas as unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z são todas inversas.

[252] Um índice de quadro de referência pode ser ajustado da seguinte maneira. Especificamente, se todas as unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z nos N conjuntos de unidades de informação de movimento fundidas candidatas correspondem a um mesmo índice de quadro de referência, o índice de quadro de referência correspondente a cada unidade de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z permanece inalterado. Se índices de quadro de referência correspondentes a duas unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z são iguais, mas índices de quadro de referência correspondentes a unidades de informação de movimento restantes são diferentes, os índices de quadro de referência correspondentes às unidades de informação de movimento restantes no conjunto de unidades de informação de movimento candidatas fundidas z podem ser ajustados para serem os mesmos que índices de quadro de referência correspondentes às duas unidades de informação de movimento, mas processamento de escalonamento é realizado no conjunto de unidades de informação de movimento fundidas candidatas, de modo que vetores de movimento cujas direções de predição são diretas no conjunto de unidades de informação de movimento fundidas candidatas z são escalonados para baixo para um mesmo quadro de referência, e / ou que vetores de movimento cujas direções de predição são inversas no conjunto de unidades de informação de movimento fundidas candidatas z são escalonados para baixo para um mesmo quadro de referência.

[253] O conjunto de unidades de informação de movimento fundidas candidatas z pode ser qualquer conjunto de unidades de informação de movimento fundidas candidatas particular nos N conjuntos de unidades de informação de movimento fundidas candidatas, isto é, processamento de escalonamento pode ser realizado em vetores de movimento em cada conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas na maneira ilustrada. 304. O aparelho de codificação de vídeo determina, a partir dos N conjuntos de unidades de informação de movimento fundidas candidatas, de acordo com distorção ou custo de taxa de distorção, um conjunto de unidades de informação de movimento fundidas i incluindo as K1 unidades de informação de movimento.

[254] Opcionalmente, um custo de taxa de distorção correspondente ao conjunto de unidades de informação de movimento fundidas i é inferior ou igual a um custo de taxa de distorção correspondente a qualquer conjunto de unidades de informação de movimento fundidas nos N conjuntos de unidades de informação de movimento fundidas candidatas exceto o conjunto de unidades de informação de movimento fundidas i.

[255] Opcionalmente, distorção correspondente ao conjunto de unidades de informação de movimento fundidas i é menor ou igual a distorção correspondente a qualquer conjunto de unidades de informação de movimento fundidas nos N conjuntos de unidades de informação de movimento fundidas candidatas exceto o conjunto de unidades de informação de movimento fundidas i.

[256] Um custo de taxa de distorção correspondente a um conjunto de unidades de informação de movimento fundidas candidatas particular nos N conjuntos de unidades de informação de movimento fundidas candidatas (por exemplo, o conjunto de unidades de informação de movimento fundidas i nos N conjuntos de unidades de informação de movimento fundidas candidatas) pode ser, um custo de taxa de distorção correspondente a um valor de pixel previsto de um bloco de imagens obtido por predição do valor de pixel do bloco de imagens (por exemplo, o bloco de imagens x) por utilizar o conjunto de unidades de informação de movimento fundidas candidatas particular (por exemplo, o conjunto de unidades de informação de movimento fundidas i).

[257] Distorção correspondente a um conjunto de unidades de informação de movimento fundidas candidatas particular nos N conjuntos de unidades de informação de movimento fundidas candidatas (por exemplo, o conjunto de unidades de informação de movimento fundidas i nos N conjuntos de unidades de informação de movimento fundidas candidatas) pode ser, por exemplo, distorção entre um valor de pixel original de um bloco de imagens (por exemplo, o bloco de imagens x) e um valor de pixel previsto do bloco de imagens obtido por predição do valor de pixel do bloco de imagens por utilizar o conjunto de unidades de informação de movimento fundidas candidatas particular (por exemplo, o conjunto de unidades de informação de movimento fundidas i) (nomeadamente, distorção entre o valor de pixel original e o valor de pixel previsto do bloco de imagens).

[258] Em algumas formas possíveis de implementação da presente invenção, distorção entre um valor de pixel original de um bloco de imagens (por exemplo, o bloco de imagens x) e um valor de pixel previsto do bloco de imagens obtido por predição do valor de pixel do bloco de imagens por utilizar o conjunto de unidades de informação de movimento fundidas candidatas particular (por exemplo, o conjunto de unidades de informação de movimento fundidas i) pode ser especificamente, por exemplo, uma soma de diferenças quadradas ou uma soma de diferenças absolutas ou uma soma de diferenças entre o valor de pixel original do bloco de imagens (por exemplo, o bloco de imagens x) e o valor de pixel previsto do bloco de imagens obtido por predição do valor de pixel do bloco de imagens por utilizar o conjunto de unidades de informação de movimento fundidas candidatas particular (por exemplo, o conjunto de unidades de informação de movimento fundidas i), ou outro parâmetro de distorção que pode medir a distorção.

[259] Além disso, para reduzir ainda mais a complexidade computacional, quando N é maior que n1, n1 conjuntos de unidades de informação de movimento fundidas candidatas podem ser eliminados dos N conjuntos de unidades de informação de movimento fundidas candidatas e o conjunto de unidades de informação de movimento fundidas i incluindo as K1 unidades de informação de movimento é determinado a partir dos n1 conjuntos de unidades de informação de movimento fundidas candidatas com base na distorção ou no custo de taxa de distorção. D(V) correspondente a qualquer conjunto de unidades de informação de movimento fundidas candidatas nn1 conjuntos de unidades de informação de movimento fundidas candidatas é menor ou igual a D(V) correspondente a qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas exceto os n1 conjuntos de unidades de informação de movimento fundidas candidatas, em que n1 é, por exemplo, igual a 3, 4, 5, 6 ou outro valor.

[260] Além disso, os n1 conjuntos de unidades de informação de movimento fundidas candidatas ou identificadores dos n1 conjuntos de unidades de informação de movimento fundidas candidatas são adicionados a uma lista de conjuntos de unidades de informação de movimento fundidas candidatas. Se N for menor ou igual a n1, os N conjuntos de unidades de informação de movimento fundidas candidatas podem ser adicionados à lista de conjuntos de unidades de informação de movimento fundidas candidatas. Os conjuntos de unidades de informação de movimento fundidas candidatas na lista de conjunto de unidades de informação de movimento fundidas candidatas podem ser dispostos em ordem ascendente ou ordem descendente, por exemplo, de acordo com um valor de D(V).

[261] Assumindo que uma direção de predição de cada unidade de informação de movimento em um conjunto de unidades de informação de movimento fundidas candidatas particular é unidirecional, um parâmetro de distância Euclidiano D(V) do conjunto de unidades de informação de movimento fundidas candidatas particular pode ser calculado, por exemplo, da seguinte maneira:

em que

são três vetores de movimento cujas direções de predição são iguais no conjunto de unidades de informação de movimento fundidas candidatas particular. Pode ser entendido que, no exemplo anterior, um conjunto de unidades de informação de movimento fundidas candidatas incluindo três unidades de informação de movimento é utilizado como um exemplo, e os casos em que um conjunto de unidades de informação de movimento fundidas candidatas inclui qualquer outra quantidade de unidades de informação de movimento pode ser deduzido da mesma forma.

[262] Assumindo que uma direção de predição de cada unidade de informação de movimento em um conjunto de unidades de informação de movimento fundidas candidatas particular é bidirecional, um parâmetro de distância Euclidiano D(V) do conjunto de unidades de informação de movimento fundidas candidatas particular pode ser calculado, por exemplo, da seguinte maneira:

em que

são três vetores de movimento cujas direções de predição são inversas no conjunto de unidades de informação de movimento fundidas candidatas particular. Pode ser entendido que, no exemplo anterior, um conjunto de unidades de informação de movimento fundidas candidatas incluindo três unidades de informação de movimento é utilizado como um exemplo, e os casos em que um conjunto de unidades de informação de movimento fundidas candidatas inclui qualquer outra quantidade de unidades de informação de movimento pode ser deduzido da mesma forma. 305. O aparelho de codificação de vídeo realiza processamento de estimativa de movimento em um vetor de movimento no conjunto de unidades de informação de movimento fundidas i para obter um conjunto de unidades de informação de movimento fundidas de movimento estimado i, e o aparelho de codificação de vídeo realiza predição de vetor de movimento no bloco de imagens x por utilizar um modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas de movimento estimado i. 306. O aparelho de codificação de vídeo prevê um valor de pixel do bloco de imagens x com base em um vetor de movimento calculado de cada pixel ou cada bloco de pixels do bloco de imagens x. 307. O aparelho de codificação de vídeo obtém um resíduo de predição do bloco de imagens x por utilizar um valor de pixel original do bloco de imagens x e o valor de pixel previsto do bloco de imagens x que é obtido por prever o valor de pixel do bloco de imagens x. 308. O aparelho de codificação de vídeo grava o resíduo de predição do bloco de imagens x em um fluxo de bits de vídeo.

[263] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, quando o método de codificação de vídeo é aplicado a um processo de codificação de vídeo, o método pode incluir ainda: escrever um identificador do conjunto de unidades de informação de movimento fundidas i no fluxo de bits de vídeo. Por exemplo, quando N é maior que 1, o identificador do conjunto de unidades de informação de movimento fundidas i pode ser escrito no fluxo de bits de vídeo. Quando N é igual a 1, o conjunto de unidades de informação de movimento fundidas i pode ser determinado diretamente unicamente. Por conseguinte, quando N é igual a 1, mesmo que um codificador não grave o identificador do conjunto de unidades de informação de movimento fundidas i no fluxo de bits de vídeo, um decodificador pode ainda determinar o conjunto de unidades de informação de movimento fundidas i.

[264] Se uma direção de predição de uma unidade de informação de movimento no conjunto de unidades de informação de movimento fundidas i for bidirecional, um valor de predicado direto do bloco de imagens x é obtido em um quadro de referência direto e um valor de predicado inverso do bloco de imagens x é obtido em um quadro de referência inverso de acordo com o método anterior e então a média ponderada é realizada no valor de predicado direto do bloco de imagens x e o valor de predicado inverso do bloco de imagens x para obter um valor de pixel de predicado do bloco de imagens x.

[265] Pode ser visto que, na solução de codificação de vídeo desta modalidade, um valor de pixel do bloco de imagens x é previsto por utilizar um modelo de movimento não translacional e um conjunto de unidades de informação de movimento fundidas i, em que o conjunto de unidades de informação de movimento fundidas i é selecionado a partir de N conjuntos de unidades de informação de movimento fundidas candidatas satisfazendo uma condição, e cada unidade de informação de movimento no conjunto de unidades de informação de movimento fundidas i é selecionada a partir de pelo menos uma parte de unidades de informação de movimento em conjuntos de unidades de informação de movimento candidatas correspondentes a diferentes amostras de pixels nas K1 amostras de pixels. Porque um intervalo de seleção do conjunto de unidades de informação de movimento fundidas i é relativamente pequeno, um mecanismo utilizado em uma tecnologia convencional para remover unidades de informação de movimento de K1 amostras de pixels apenas por executar uma quantidade enorme de cálculo em todos os conjuntos de unidades de informação de movimento candidatas correspondentes às K1 amostras de pixels é abandonado. Isso ajuda a melhorar eficiência de codificação, também ajuda a reduzir complexidade computacional de predição de imagem realizada com base no modelo de movimento não translacional, torna ainda possível introduzir o modelo de movimento não translacional em um padrão de codificação de vídeo, e porque o modelo de movimento não translacional é introduzido, ajuda a descrever movimento de um objeto com mais precisão e, portanto, ajuda a melhorar a precisão de predição.

[266] Com referência à Figura 4, a Figura 4 é um fluxograma esquemático de um método de decodificação de vídeo de acordo com outra modalidade da presente invenção. Conforme ilustrado na Figura 4, um método de decodificação de vídeo fornecido por outra modalidade da presente invenção pode incluir os seguintes passos: 401. Um aparelho de decodificação de vídeo determina K1 amostras de pixels em um bloco de imagens x.

[267] Nesta modalidade, por exemplo, as K1 amostras de pixels incluem uma amostra de pixels esquerda superior, uma amostra de pixels direita superior e uma amostra de pixels esquerda inferior do bloco de imagens x.

[268] A amostra de pixels esquerda superior do bloco de imagens x é um vértice esquerdo superior do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e incluindo um vértice esquerdo superior do bloco de imagens x. A amostra de pixels esquerda inferior do bloco de imagens x é um vértice esquerdo inferior do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e incluindo um vértice esquerdo inferior do bloco de imagens x. A amostra de pixels direita superior do bloco de imagens x é um vértice direito superior do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e incluindo um vértice direito superior do bloco de imagens x.

[269] Se uma amostra de pixels é um bloco de pixels, um tamanho do bloco de pixels é, por exemplo, 2x2, 1x2, 4x2, 4x4 ou outro tamanho. 402. O aparelho de decodificação de vídeo determina um conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels nas K1 amostras de pixels.

[270] O conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels inclui pelo menos uma unidade de informação de movimento candidata.

[271] A unidade de informação de movimento mencionada em cada modalidade da presente invenção pode incluir um vetor de movimento cuja direção de predição é direta e / ou um vetor de movimento cuja direção de predição é inversa. Isto é, uma unidade de informação de movimento pode incluir um vetor de movimento ou pode incluir dois vetores de movimento com diferentes direções de predição.

[272] Se uma direção de predição de uma unidade de informação de movimento é direta, isto indica que a unidade de informação de movimento inclui um vetor de movimento cuja direção de predição é direta, mas não inclui um vetor de movimento cuja direção de predição é inversa. Se uma direção de predição de uma unidade de informação de movimento é inversa, isto indica que a unidade de informação de movimento inclui um vetor de movimento cuja direção de predição é inversa, mas não inclui um vetor de movimento cuja direção de predição é direta. Se uma direção de predição de uma unidade de informação de movimento é unidirecional, isto indica que a unidade de informação de movimento inclui um vetor de movimento cuja direção de predição é direta, mas não inclui um vetor de movimento cuja direção de predição é inversa, ou indica que a unidade de informação de movimento inclui um vetor de movimento cuja direção de predição é inversa, mas não inclui um vetor de movimento cuja direção de predição é direta. Se uma direção de predição de uma unidade de informação de movimento é bidirecional, isto indica que a unidade de informação de movimento inclui um vetor de movimento cuja direção de predição é direta e um vetor de movimento cuja direção de predição é inversa.

[273] K1 é um número inteiro maior que 1. Por exemplo, K1 pode ser igual a 2, 3, 4, ou outro valor.

[274] Os conjuntos de unidades de informação de movimento candidatas correspondentes às K1 amostras de pixels podem ser determinados de várias maneiras. Por exemplo, o conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels nas K1 amostras de pixels pode ser determinado de uma maneira ilustrada no passo 202. 403. O aparelho de decodificação de vídeo determina N conjuntos de unidades de informação de movimento fundidas candidatas com base no conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels nas K1 amostras de pixels. Cada unidade de informação de movimento incluída em cada conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas é selecionada a partir de pelo menos uma parte de unidades de informação de movimento compatíveis com restrições em conjuntos de unidades de informação de movimento candidatas correspondentes a diferentes amostras de pixels nas K1 amostras de pixels. Os N conjuntos de unidades de informação de movimento fundidas candidatas são diferentes uns dos outros, cada conjunto de unidades de informação de movimento fundidas candidatas particular nos N conjuntos de unidades de informação de movimento fundidas candidatas inclui K1 unidades de informação de movimento, e N é um número inteiro positivo.

[275] Pode ser entendido que, assumindo que um conjunto de unidades de informação de movimento fundidas candidatas é determinado com base em um conjunto de unidades de informação de movimento candidatas S1 (assumindo que três unidades de informação de movimento estão incluídas), um conjunto de unidades de informação de movimento candidatas S2 (assumindo que duas unidades de informação de movimento estão incluídas), e um conjunto de unidades de informação de movimento candidatas S3 (assumindo que duas unidades de informação de movimento estão incluídas), em teoria, 3 x 2 x 2 = 12 conjuntos de unidades de informação de movimento fundidas candidatas iniciais podem ser determinados. No entanto, para melhorar disponibilidade, por exemplo, pelo menos uma condição em uma primeira condição, uma segunda condição, e uma terceira condição podem ser utilizadas para remover N conjuntos de unidades de informação de movimento fundidas candidatas a partir dos 12 conjuntos de unidades de informação de movimento fundidas candidatas iniciais. Certamente, porque quantidades de unidades de informação de movimento incluídas no conjunto de unidades de informação de movimento candidatas S1, o conjunto de unidades de informação de movimento candidatas S2, e o conjunto de unidades de informação de movimento candidatas S3 não se limitam aos exemplos anteriores, uma quantidade de conjuntos de unidades de informação de movimento fundidas candidatas iniciais não é necessariamente 12.

[276] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, os N conjuntos de unidades de informação de movimento fundidas candidatas satisfazem pelo menos uma de uma primeira condição, uma segunda condição, uma terceira condição, uma quarta condição, ou uma quinta condição.

[277] A primeira condição inclui que um modo de movimento do bloco de imagens x indicado por uma unidade de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas seja movimento não translacional.

[278] A segunda condição pode incluir que direções de predição de pelo menos duas unidades de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas são iguais (se direções de predição de unidades de informação de movimento em um conjunto de unidades de informação de movimento fundidas candidatas particular são diferentes uns dos outros, pode ser considerado que o conjunto de unidades de informação de movimento fundidas candidatas particular é inválido, e o conjunto de unidades de informação de movimento fundidas candidatas particular pode ser abandonado).

[279] A terceira condição pode incluir que índices de quadro de referência correspondentes a pelo menos duas unidades de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas são iguais (se índices de quadro de referência correspondentes a unidades de informação de movimento em um conjunto de unidades de informação de movimento fundidas candidatas particular são diferentes uns dos outros, pode ser considerado que o conjunto de unidades de informação de movimento fundidas candidatas particular é inválido, e o conjunto de unidades de informação de movimento fundidas candidatas particular pode ser abandonado).

[280] A quarta condição inclui que um valor absoluto de uma diferença entre componentes horizontais de duas (quaisquer duas) unidades de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas é menor ou igual a um limiar de componente horizontal. O limiar de componente horizontal pode ser igual a 1/3 de uma largura do bloco de imagens x, 1/2 de uma largura do bloco de imagens x, 2/3 de uma largura do bloco de imagens x, 3/4 de uma largura do bloco de imagens x, ou outro valor.

[281] A quinta condição inclui que um valor absoluto de uma diferença entre componentes verticais de duas (quaisquer duas) unidades de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas é menor ou igual a um limiar de componente vertical. O limiar de componente vertical pode ser igual a 1/3 de uma altura do bloco de imagens x, 1/2 de uma altura do bloco de imagens x, 2/3 de uma altura do bloco de imagens x, 3/4 de uma altura do bloco de imagens x, ou outro valor.

[282] Certamente, os N conjuntos de unidades de informação de movimento fundidas candidatas, por exemplo, podem ainda satisfazer outras condições que não são ilustradas.

[283] Pode ser compreendido que, por introduzir pelo menos uma da primeira condição, a segunda condição, a terceira condição, a quarta condição, ou a quinta condição, remoção é realizada nos conjuntos de unidades de informação de movimento fundidas candidatas iniciais e os N conjuntos de unidades de informação de movimento fundidas candidatas são eliminados dos conjuntos de unidades de informação de movimento fundidas candidatas iniciais. Isto ajuda a encerrar a participação de alguns possíveis conjuntos de unidades de informação de movimento fundidas candidatas inválidos em computação subsequente com antecedência, e ainda ajuda a reduzir a complexidade computacional de codificação e decodificação.

[284] Em um processo de implementação específico, por exemplo, pelo menos uma da primeira condição, a segunda condição, ou a terceira condição pode ser primeiramente usada para executar remoção nos conjuntos de unidades de informação de movimento fundidas candidatas iniciais, e N01 conjuntos de unidades de informação de movimento fundidas candidatas são eliminados dos conjuntos de unidades de informação de movimento fundidas candidatas iniciais, então processamento de escalonamento é realizado nos N01 conjuntos de unidades de informação de movimento fundidas candidatas e, em seguida, pelo menos uma da quarta condição, ou a quinta condição é utilizada para remover os N conjuntos de unidades de informação de movimento fundidas candidatas a partir dos N01 conjuntos de unidades de informação de movimento fundidas candidatas. Certamente, remoção pode ser realizada nos conjuntos de unidades de informação de movimento fundidas candidatas iniciais usando diretamente pelo menos uma da primeira condição, a segunda condição ou a terceira condição, sem fazer referência à quarta condição e à quinta condição, e os N conjuntos de unidades de informação de movimento fundidas candidatas são eliminados dos conjuntos de unidades de informação de movimento fundidas candidatas iniciais.

[285] Pode ser entendido que um vetor de movimento em codificação ou decodificação de vídeo reflete um deslocamento de um objeto em uma direção (uma direção de predição) relativamente a um mesmo tempo (o mesmo tempo corresponde a uma mesma referência). Por conseguinte, quando unidades de informação de movimento de diferentes amostras de pixels correspondem a diferentes direções de predição e / ou correspondem a diferentes índices de quadro de referência, um deslocamento de movimento de cada pixel ou bloco de pixels do bloco de imagens x relativo a uma referência não pode ser obtido diretamente. No entanto, quando as amostras de pixels correspondem a uma mesma direção de predição e correspondem a um mesmo índice de quadro de referência, um vetor de movimento de cada pixel ou bloco de pixels no bloco de imagens pode ser obtido por utilizar uma combinação dos vetores de movimento fundidos.

[286] Por conseguinte, quando unidades de informação de movimento de diferentes amostras de pixels em um conjunto de unidades de informação de movimento fundidas candidatas correspondem a diferentes direções de predição e / ou correspondem a diferentes índices de quadro de referência, processamento de escalonamento pode ser realizado no conjunto de unidades de informação de movimento fundidas candidatas. O processamento de escalonamento realizado no conjunto de unidades de informação de movimento fundidas candidatas pode relacionar-se com modificação, adição e / ou eliminação ou semelhante de um vetor de movimento em um ou mais conjuntos de unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas.

[287] Por exemplo, quando vetores de movimento cujas direções de predição são uma primeira direção de predição em um conjunto de unidades de informação de movimento fundidas candidatas i (tal como um conjunto de unidades de informação de movimento fundidas i) correspondem a diferentes índices de quadro de referência, processamento de escalonamento pode ser realizado no conjunto de unidades de informação de movimento fundida candidata, de modo que vetores de movimento cujas direções de predição são a primeira direção de predição no conjunto de unidades de informação de movimento fundidas candidatas são escalonados para baixo para um mesmo quadro de referência, em que a primeira direção de predição é direta ou inversa.

[288] Para um outro exemplo, quando vetores de movimento cujas direções de predição são diretas para um conjunto de unidades de informação de movimento fundidas candidatas i (tal como o conjunto de unidades de informação de movimento fundidas i) correspondem a diferentes índices de quadro de referência e vetores de movimento cujas direções de predição são inversas no conjunto de unidades de informação de movimento fundida candidata correspondem a diferentes índices de quadro de referência, processamento de escalonamento é realizado no conjunto de unidades de informação de movimento fundidas candidatas, de modo que vetores de movimento cujas direções de predição são diretas no conjunto de unidades de informação de movimento fundidas i são escalonados para baixo para um mesmo quadro de referência e que os vetores de movimento cujas direções de predição são inversas no conjunto de unidades de informação de movimento fundidas i são escalonados para baixo para um mesmo quadro de referência.

[289] Quando unidades de informação de movimento de diferentes amostras de pixels em um conjunto de unidades de informação de movimento fundida candidata correspondem a diferentes direções de predição e / ou correspondem a diferentes índices de quadro de referência, as diferentes direções de predição e / ou diferentes índices de quadro de referência correspondentes às unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas correspondente podem ser ainda ajustados.

[290] Uma direção de predição pode ser ajustada da seguinte maneira. Por exemplo, se todas as unidades de informação de movimento em um conjunto de unidades de informação de movimento fundidas candidatas z nos N conjuntos de unidades de informação de movimento fundidas candidatas correspondem a uma mesma direção de predição, a direção de predição de cada unidade de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z pode permanecer inalterada. Além disso, se direções de predição de duas unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z são iguais, direções de predição de unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundidas candidatas z podem ser definidas como sendo as mesmas direções das duas unidades de informação de movimento.

[291] Especificamente, por exemplo, se direções de predição de duas unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z são uma primeira direção de predição (a primeira direção de predição é direta ou inversa) e as direções de predição de unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundida candidata z são uma segunda direção de predição (a segunda direção de predição é diferente da primeira direção de predição), as direções de predição das unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundidas candidatas z são ajustadas para a primeira direção de predição. Isto é, as direções de predição de todas as unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z são todas a primeira direção de predição.

[292] Para um outro exemplo, se direções de predição de duas unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z são bidirecionais, mas as direções de predição das unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundidas candidatas z são diretas, um vetor de movimento cuja direção de predição é adicionado às unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundidas candidatas z (um valor do vetor de movimento adicionado cuja direção de predição é inversa é inverso a um valor de um vetor de movimento original cuja direção de predição é direta em uma unidade de informação de movimento correspondente, e isto é equivalente a realizar processamento de escalonamento de acordo com 1: -1). Deste modo, as direções de predição das unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundidas candidatas z são também alteradas para bidirecionais, isto é, as direções de predição de todas as unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z são todas bidirecionais.

[293] Para um outro exemplo, se direções de predição de duas unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z são bidirecionais, mas as direções de predição das unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundidas candidatas z são inversas, um vetor de movimento cuja direção de predição é direta é adicionado para as unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundidas candidatas z (um valor do vetor de movimento adicionado cuja direção de predição é direta é inverso a um valor de um vetor de movimento original cuja direção de predição é inversa em uma unidade de informação de movimento correspondente, e isto é equivalente a realizar processamento de escalonamento de acordo com 1: -1). Deste modo, as direções de predição das unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundidas candidatas z são também alteradas para bidirecionais, isto é, as direções de predição de todas as unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z são todas bidirecionais.

[294] Para um outro exemplo, se direções de predição de duas unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z são diretas, mas as direções de predição das unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundidas candidatas z são bidirecionais, um vetor de movimento cuja direção de predição é inversa é deletado das unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundidas candidatas z. Desta forma, as direções de predição das unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundidas candidatas z são também alteradas para direta. Isto é, as direções de predição de todas as unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z são todas direta.

[295] Para um outro exemplo, se direções de predição de duas unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z são inversas, mas as direções de predição das unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundidas candidatas z são bidirecionais, um vetor de movimento cuja direção de predição é direta é eliminado das unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundidas candidatas z. Deste modo, as direções de predição das unidades de informação de movimento restantes no conjunto de unidades de informação de movimento fundidas candidatas z são também alteradas para inversa. Isto é, as direções de predição de todas as unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z são todas inversas.

[296] Um índice de quadro de referência pode ser ajustado da seguinte maneira. Especificamente, se todas as unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z nos N conjuntos de unidades de informação de movimento fundidas candidatas correspondem a um mesmo índice de quadro de referência, o índice de quadro de referência correspondente a cada unidade de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z permanece inalterado. Se índices de quadro de referência correspondentes a duas unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas candidatas z são iguais, mas índices de quadro de referência correspondentes a unidades de informação de movimento restantes são diferentes, os índices de quadro de referência correspondentes às unidades de informação de movimento restantes no conjunto de unidades de informação de movimento candidatas fundidas z podem ser ajustados para serem os mesmos que índices de quadro de referência correspondentes às duas unidades de informação de movimento, mas processamento de escalonamento é realizado no conjunto de unidades de informação de movimento fundidas candidatas, de modo que vetores de movimento cujas direções de predição são diretas no conjunto de unidades de informação de movimento fundidas candidatas z são escalonados para baixo para um mesmo quadro de referência, e / ou que vetores de movimento cujas direções de predição são inversas no conjunto de unidades de informação de movimento fundidas candidatas z são escalonados para baixo para um mesmo quadro de referência.

[297] O conjunto de unidades de informação de movimento fundidas candidatas z pode ser qualquer conjunto de unidades de informação de movimento fundidas candidatas particular nos N conjuntos de unidades de informação de movimento fundidas candidatas, isto é, processamento de escalonamento pode ser realizado em vetores de movimento em cada conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas na maneira ilustrada. 404. O aparelho de decodificação de vídeo realiza processamento de decodificação em um fluxo de bits de vídeo para obter um identificador de um conjunto de unidades de informação de movimento fundidas i e um resíduo de predição do bloco de imagens x, e determina, a partir dos N conjuntos de unidades de informação de movimento fundidas candidatas Conjunto de unidades de informação de movimento fundidas i incluindo K1 unidades de informação de movimento. 405. O aparelho de decodificação de vídeo realiza processamento de estimativa de movimento em um vetor de movimento no conjunto de unidades de informação de movimento fundidas i para obter um conjunto de unidades de informação de movimento fundidas de movimento estimado i, e o aparelho de decodificação de vídeo realiza predição de vetor de movimento no bloco de imagens x por utilizar um modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas de movimento estimado i. 406. O aparelho de decodificação de vídeo prevê um valor de pixel do bloco de imagens x com base em um vetor de movimento calculado de cada pixel ou cada bloco de pixels do bloco de imagens x para obter o valor de pixel previsto do bloco de imagens x. 407. O aparelho de decodificação de vídeo reconstrói o bloco de imagens x por utilizar o valor de pixel previsto do bloco de imagens x e o resíduo de predição do bloco de imagens x.

[298] Pode ser visto que, na solução de decodificação de vídeo desta modalidade, um valor de pixel do bloco de imagens x é previsto por utilizar um modelo de movimento não translacional e um conjunto de unidades de informação de movimento fundidas i, em que o conjunto de unidades de informação de movimento fundidas i é selecionado a partir de N conjuntos de unidades de informação de movimento fundidas candidatas satisfazendo uma condição, e cada unidade de informação de movimento no conjunto de unidades de informação de movimento fundidas i é selecionada de pelo menos uma parte de unidades de informação de movimento em conjuntos de unidades de informação de movimento candidatas correspondentes a diferentes amostras de pixels nas K1 amostras de pixels. Porque um intervalo de seleção do conjunto de unidades de informação de movimento fundidas i é relativamente pequeno, um mecanismo utilizado em uma tecnologia convencional para remover unidades de informação de movimento de K1 amostras de pixels apenas por executar uma quantidade enorme de cálculo em todos os conjuntos de unidades de informação de movimento candidatas correspondentes às K1 amostras de pixels é abandonado. Isso ajuda a melhorar a eficiência de decodificação, também ajuda a reduzir complexidade computacional de predição de imagem realizada com base no modelo de movimento não translacional, torna ainda possível introduzir o modelo de movimento não translacional em um padrão de codificação de vídeo, e porque o modelo de movimento não translacional é introduzido, ajuda a descrever movimento de um objeto com mais precisão e, portanto, ajuda a melhorar a precisão de predição.

[299] O que segue descreve formas possíveis de alguns modelos de movimento não translacional.

[300] Um modelo de movimento afim é um modelo de movimento que satisfaz a seguinte condição:

em que a, b, c, d, e e f são parâmetros de modelo; (x, y) são coordenadas originais de um pixel; (x’, y’) são coordenadas do pixel após transformação afim; Vx representa um vetor de movimento em uma direção de eixo x; e Vy é um vetor de movimento em uma direção de eixo y.

[301] Um modelo de movimento rotacional pode ser mostrado da seguinte forma:

em que α é um ângulo de rotação, e a e b são parâmetros.

[302] Um modelo de movimento de perspectiva pode ser mostrado da seguinte forma:

em que

é uma matriz de perspectiva.

[303] Um modelo de movimento de corte pode ser mostrado da seguinte forma:

em que

é uma matriz de cisalhamento, e outros parâmetros são parâmetros de modelo.

[304] Um modelo de movimento de escalonamento pode ser mostrado da seguinte forma:

em que,

são parâmetros de modelo.

[305] Um modelo de movimento quadrático pode ser mostrado da seguinte forma:

em que u e v indicam coordenadas originais, x e y indicam coordenadas após transformação, e outros parâmetros são parâmetros de modelo.

[306] Um modelo de movimento bilinear pode ser mostrado da seguinte forma:

[307] Quando vetores de movimento de quatro amostras de pixels são obtidos (por exemplo, a Figura 2-d mostra um caso em que K1 é igual a 4), um vetor de movimento de qualquer pixel pode ser obtido com base no modelo de movimento bilinear, e uma função é expressa da seguinte forma:

[308] Na função, a, b, c, d, e, f, g, h e i são parâmetros de modelo; (x, y) são coordenadas originais de um pixel; (x’, y’) são coordenadas do pixel após movimento bilinear; Vx representa um vetor de movimento na direção de eixo x; e Vy é um vetor de movimento na direção de eixo y.

[309] Pode ser entendido que, o exemplo anterior ilustra apenas algumas formas de representação possíveis de alguns modelos de movimento não translacional. Certamente, podem existir outras formas dos modelos de movimento não translacional.

[310] Em algumas formas de implementação da presente invenção, é estabelecido um modelo de movimento afim de um vetor de movimento em um caso de quadro de referência múltiplos, o que ajuda a superar uma desvantagem que a técnica anterior não pode ser utilizada eficazmente no caso de quadro de referência múltiplos. Além disso, alguns conjuntos de unidades de informação de movimento fundidas inválidos são eliminados através da introdução de uma condição de remoção, o que ajuda a melhorar a eficiência de codificação. A Tabela 1 mostra o desempenho de codificação em um modo de LDP. Sob uma condição de teste padrão, uma taxa de bits pode ser economizada em 1,6%, em média, e a taxa de bits pode ser economizada em um máximo de 4,7%. Tabela 1

[311] O seguinte fornece ainda aparelhos relacionados para implementar as soluções anteriores.

[312] Com referência à Figura 5, uma modalidade da presente invenção fornece ainda um aparelho de predição de imagem 500. O aparelho pode incluir: uma primeira unidade de determinação 510, configurada para determinar K1 amostras de pixels em um bloco de imagens x, e determinar um conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels nas K1 amostras de pixels, em que o conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels inclui pelo menos uma unidade de informação de movimento candidata, e K1 é um número inteiro que é maior ou igual a 2; uma segunda unidade de determinação 520, configurada para determinar um conjunto de unidades de informação de movimento fundidas i incluindo K1 unidades de informação de movimento, em que cada unidade de informação de movimento no conjunto de unidades de informação de movimento fundidas i é selecionada de pelo menos uma parte de unidades de informação de movimento em conjuntos de unidades de informação de movimento candidatas correspondentes a diferentes amostras de pixels nas K1 amostras de pixels, e a unidade de informação de movimento inclui um vetor de movimento cuja direção de predição é direta e / ou um vetor de movimento cuja direção de predição é inversa; e uma unidade de predição 530, configurada para prever um valor de pixel do bloco de imagens x por utilizar um modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas i.

[313] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, a segunda unidade de determinação 520 é especificamente configurada para determinar, a partir de N conjuntos de unidades de informação de movimento fundidas candidatas, o conjunto de unidades de informação de movimento fundidas i incluindo as K1 unidades de informação de movimento, em que cada unidade de informação de movimento incluída em cada conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas é selecionada a partir de pelo menos uma parte de unidades de informação de movimento compatíveis com restrições nos conjuntos de unidades de informação de movimento candidatas correspondentes a amostras de pixels diferentes nas K1 amostras de pixels, N é um número inteiro positivo, os N conjuntos de unidades de informação fundidas candidatas são diferentes uns dos outros, e cada conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas inclui K1 unidades de informação de movimento.

[314] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, os N conjuntos de unidades de informação de movimento fundidas candidatas satisfazem pelo menos uma de uma primeira condição, uma segunda condição, uma terceira condição, uma quarta condição, ou uma quinta condição.

[315] A primeira condição inclui que um modo de movimento do bloco de imagens x indicado por uma unidade de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas seja movimento não translacional.

[316] A segunda condição inclui que direções de predição de pelo menos duas unidades de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas são iguais.

[317] A terceira condição inclui que índices de quadro de referência correspondentes a pelo menos duas unidades de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas particular nos N conjuntos de unidades de informação de movimento fundidas candidatas são iguais.

[318] A quarta condição inclui que um valor absoluto de uma diferença entre componentes horizontais de duas unidades de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas seja menor ou igual a um limiar de componente horizontal.

[319] A quinta condição inclui que um valor absoluto de uma diferença entre componentes verticais de duas unidades de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas é menor ou igual a um limiar de componente vertical.

[320] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, as K1 amostras de pixels incluem pelo menos duas amostras de pixels em uma amostra de pixels esquerda superior, uma amostra de pixels direita superior, uma amostra de pixels esquerda inferior, e uma amostra de pixels central a1 do bloco de imagens x.

[321] A amostra de pixels esquerda superior do bloco de imagens x é um vértice esquerdo superior do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e incluindo um vértice esquerdo superior do bloco de imagens x; a amostra de pixels esquerda inferior do bloco de imagens x é um vértice esquerdo inferior do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e incluindo um vértice esquerdo inferior do bloco de imagens x; a amostra de pixels direita superior do bloco de imagens x é um vértice direito superior do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e incluindo um vértice direito superior do bloco de imagens x; e a amostra de pixels central a1 do bloco de imagens x é um pixel central do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e incluindo um pixel central do bloco de imagens x.

[322] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, um conjunto de unidades de informação de movimento candidatas correspondente à amostra de pixels esquerda superior do bloco de imagens x inclui unidades de informação de movimento de x1 amostras de pixels, em que as x1 amostras de pixels incluem pelo menos uma amostra de pixels espacialmente adjacente à amostra de pixels esquerda superior do bloco de imagens x e / ou pelo menos uma amostra de pixels temporalmente adjacente à amostra de pixels esquerda superior do bloco de imagens x, e x1 é um número inteiro positivo.

[323] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, as x1 amostras de pixels incluem pelo menos uma de uma amostra de pixels que tem a mesma localização que a amostra de pixels esquerda superior do bloco de imagens x, uma amostra de pixels espacialmente adjacente a uma borda esquerda do bloco de imagens x, uma amostra de pixels espacialmente adjacente a uma parte esquerda superior do bloco de imagens x, ou uma amostra de pixels espacialmente adjacente a uma borda superior do bloco de imagens x, em um quadro de vídeo temporalmente adjacente a um quadro de vídeo ao qual o bloco de imagens x pertence.

[324] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, um conjunto de unidades de informação de movimento candidatas correspondente à amostra de pixels direita superior do bloco de imagens x inclui unidades de informação de movimento de x2 amostras de pixels, em que as x2 amostras de pixels incluem pelo menos uma amostra de pixels espacialmente adjacente à amostra de pixels direita superior do bloco de imagens x e / ou pelo menos uma amostra de pixels temporalmente adjacente à amostra de pixels direita superior do bloco de imagens x, e x2 é um número inteiro positivo.

[325] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, as x2 amostras de pixels incluem pelo menos uma de uma amostra de pixels que tem a mesma localização que a amostra de pixels direita superior do bloco de imagens x, uma amostra de pixels espacialmente adjacente a uma borda direita do bloco de imagens x, uma amostra de pixels espacialmente adjacente a uma parte direita superior do bloco de imagens x, ou uma amostra de pixels espacialmente adjacente à borda superior do bloco de imagens x, em um quadro de vídeo temporalmente adjacente ao quadro de vídeo ao qual o bloco de imagens x pertence.

[326] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, um conjunto de unidades de informação de movimento candidatas correspondente à amostra de pixels esquerda inferior do bloco de imagens x inclui unidades de informação de movimento de x3 amostras de pixels, em que as x3 amostras de pixels incluem pelo menos uma amostra de pixels espacialmente adjacente à amostra de pixels esquerda inferior do bloco de imagens x e / ou pelo menos uma amostra de pixels temporalmente adjacente à amostra de pixels esquerda inferior do bloco de imagens x, e x3 é um número inteiro positivo.

[327] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, as x3 amostras de pixels incluem pelo menos uma de uma amostra de pixels que tem a mesma localização que a amostra de pixels esquerda inferior do bloco de imagens x, uma amostra de pixels espacialmente adjacente à borda esquerda do bloco de imagens x, uma amostra de pixels espacialmente adjacente a uma parte esquerda inferior do bloco de imagens x, ou uma amostra de pixels espacialmente adjacente a uma borda inferior do bloco de imagens x, em um quadro de vídeo temporalmente adjacente ao quadro de vídeo ao qual o bloco de imagens x pertence.

[328] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, um conjunto de unidades de informação de movimento candidatas correspondente à amostra de pixels central a1 do bloco de imagens x inclui unidades de informação de movimento de x5 amostras de pixels, em que uma amostra de pixels nas x5 amostras de pixels é uma amostra de pixels a2.

[329] Uma localização da amostra de pixels central a1 no quadro de vídeo ao qual o bloco de imagens x pertence é a mesma que uma localização da amostra de pixels a2 em um quadro de vídeo adjacente ao quadro de vídeo ao qual o bloco de imagens x pertence, e x5 é um número inteiro positivo.

[330] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, a unidade de predição 530 é especificamente configurada para: quando vetores de movimento cujas direções de predição são uma primeira direção de predição no conjunto de unidades de informação de movimento fundidas i correspondem a diferentes índices de quadro de referência, realizar processamento de escalonamento no conjunto de unidades de informação de movimento fundidas i, de modo que vetores de movimento cujas direções de predição são a primeira direção de predição no conjunto de unidades de informação de movimento fundidas i são escalonados para baixo para um mesmo quadro de referência, e prever o valor de pixel do bloco de imagens x por utilizar o modelo de movimento não translacional e um conjunto de unidades de informação de movimento fundidas escalonado i, em que a primeira direção de predição é direta ou inversa; ou a unidade de predição 530 é especificamente configurada para: quando vetores de movimento cujas direções de predição são diretas no conjunto de unidades de informação de movimento fundidas i correspondem a diferentes índices de quadro de referência e vetores de movimento cujas direções de predição são inversas no conjunto de unidades de informação de movimento fundidas i correspondem a diferentes índices de quadro de referência, realizar processamento de escalonamento no conjunto de unidades de informação de movimento fundidas i, de modo que vetores de movimento cujas direções de predição são diretas no conjunto de unidades de informação de movimento fundidas i são escalonados para baixo para um mesmo quadro de referência e que os vetores de movimento cujas direções de predição são inversas no conjunto de unidades de informação de movimento fundidas i são escalonados para baixo para um mesmo quadro de referência, e prever o valor de pixel do bloco de imagens x por utilizar o modelo de movimento não translacional e um conjunto de unidades de informação de movimento fundidas escalonado i.

[331] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, a unidade de predição 530 é especificamente configurada para obter um vetor de movimento de cada pixel no bloco de imagens x através de computação por utilizar o modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas i, e determinar um valor de pixel previsto de cada pixel no bloco de imagens x por utilizar o vetor de movimento obtido de cada pixel no bloco de imagens x; ou a unidade de predição 530 é especificamente configurada para obter um vetor de movimento de cada bloco de pixels no bloco de imagens x através de computação por utilizar o modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas i, e determinar um valor de pixel previsto de cada pixel em cada bloco de pixels no bloco de imagens x por utilizar o vetor de movimento obtido de cada bloco de pixels no bloco de imagens x.

[332] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, a primeira unidade de determinação 510 é ainda configurada para determinar K2 amostras de pixels em um bloco de imagens y, e determinar um conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels nas K2 amostras de pixels, em que K2 é um número inteiro maior do que 1, o bloco de imagens y é espacialmente adjacente ao bloco de imagens x, e o conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels nas K2 amostras de pixels inclui pelo menos uma unidade de informação de movimento candidata; a segunda unidade de determinação 520 é ainda configurada para determinar um conjunto de unidades de informação de movimento fundidas j incluindo K2 unidades de informação de movimento, em que um conjunto de unidades de informação de movimento candidatas correspondente a uma amostra de pixels z1 nas K2 amostras de pixels inclui uma unidade de informação de movimento a2, e a unidade de informação de movimento a2 é obtida com base em uma unidade de informação de movimento de uma amostra de pixels z2, em que a amostra de pixels z2 é uma amostra de pixels no bloco de imagens x e uma distância entre a amostra de pixels z2 e a amostra de pixels z1 é inferior a um limiar, ou a amostra de pixels z2 é uma amostra de pixels no bloco de imagens x e uma distância entre a amostra de pixels z2 e a amostra de pixels z1 é mais curta; e as K2 unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas j são respectivamente selecionadas a partir de pelo menos uma parte de unidades de informação de movimento compatíveis com restrições no conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels nas K2 amostras de pixels; e a unidade de predição 530 é ainda configurada para prever um valor de pixel do bloco de imagens y por utilizar o modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas j.

[333] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, o modelo de movimento não translacional pode ser qualquer um dos seguintes modelos: um modelo de movimento afim, um modelo de movimento parabólico, um modelo de movimento rotacional, um modelo de movimento de perspectiva, um modelo de movimento de cisalhamento, um modelo de movimento de escalonamento, ou um modelo de movimento bilinear.

[334] O aparelho de predição de imagem 500 pode ser aplicado a um aparelho de codificação de vídeo, ou o aparelho de predição de imagem 500 pode ser aplicado a um aparelho de decodificação de vídeo.

[335] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, quando o aparelho de predição de imagem é aplicado ao aparelho de codificação de vídeo, a segunda unidade de determinação 520 pode ser configurada especificamente para determinar, a partir dos N conjuntos de unidades de informação de movimento fundidas candidatas, de acordo com distorção ou um custo de taxa de distorção, o conjunto de unidades de informação de movimento fundidas i incluindo as K1 unidades de informação de movimento.

[336] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, quando o aparelho de predição de imagem é aplicado ao aparelho de codificação de vídeo, a unidade de predição 530 é ainda configurada para escrever um identificador do conjunto de unidades de informação de movimento fundidas i em um fluxo de bits de vídeo.

[337] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, quando o aparelho de predição de imagem é aplicado ao aparelho de decodificação de vídeo, a segunda unidade de determinação é especificamente configurada para determinar, a partir dos N conjuntos de unidades de informação de movimento fundidas candidatas, com base em um identificador que é do conjunto de unidades de informação de movimento fundidas i e é obtido a partir de um fluxo de bits de vídeo, o conjunto de unidades de informação de movimento fundidas i incluindo as K1 unidades de informação de movimento.

[338] Pode ser entendido que, funções de cada módulo funcional do aparelho de predição de imagem 500 nesta modalidade podem ser especificamente implementadas de acordo com o método na modalidade de método anterior. Para um processo de implementação específico do mesmo, pode ser feita referência à descrição relacionada na modalidade de método anterior, e os detalhes não são aqui descritos de novo. O aparelho de predição de imagem 500 pode ser qualquer aparelho que necessite de saída e reprodução de um vídeo, por exemplo, um dispositivo tal como um computador portátil, um computador tablet, um computador pessoal ou um telefone móvel.

[339] Pode ser visto que um aparelho de predição de imagem 500 desta modalidade prediz um valor de pixel do bloco de imagens x por utilizar um modelo de movimento não translacional e um conjunto de unidades de informação de movimento fundidas i, em que cada unidade de informação de movimento no conjunto de unidades de informação de movimento fundidas i é selecionada a partir de pelo menos uma parte das unidades de informação de movimento em conjuntos de unidades de informação de movimento candidatas correspondentes a diferentes amostras de pixels nas K1 amostras de pixels. Porque um intervalo de seleção do conjunto de unidades de informação de movimento fundidas i é relativamente pequeno, um mecanismo utilizado em uma tecnologia convencional para remover unidades de informação de movimento de K1 amostras de pixels apenas por executar uma quantidade enorme de cálculo em todos os conjuntos de unidades de informação de movimento candidatas correspondentes às K1 amostras de pixels é abandonado. Isso ajuda a melhorar eficiência de codificação, também ajuda a reduzir complexidade computacional de predição de imagem realizada com base no modelo de movimento não translacional, torna ainda possível introduzir o modelo de movimento não translacional em um padrão de codificação de vídeo, e porque o modelo de movimento não translacional é introduzido, ajuda a descrever movimento de um objeto com mais precisão e, portanto, ajuda a melhorar a precisão de predição.

[340] Com referência à Figura 6, a Figura 6 é um diagrama esquemático de um aparelho de predição de imagem 600 de acordo com uma modalidade da presente invenção. O aparelho de predição de imagem 600 pode incluir pelo menos um barramento 601, pelo menos um processador 602 conectado ao barramento 601, e pelo menos uma memória 603 conectada ao barramento 601.

[341] O processador 602 invoca, utilizando o barramento 601, o código armazenado na memória 603, de modo que o processador 602 é configurado para: determinar K1 amostras de pixels em um bloco de imagens x, e determinar um conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels Nas K1 amostras de pixels, em que o conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels inclui pelo menos uma unidade de informação de movimento candidata e K1 é um número inteiro que é maior ou igual a 2; determinar um conjunto de unidades de informação de movimento fundidas i incluindo K1 unidades de informação de movimento, em que cada unidade de informação de movimento no conjunto de unidades de informação de movimento fundidas i é selecionada de pelo menos uma parte de unidades de informação de movimento em conjuntos de unidades de informação de movimento candidatas correspondentes a diferentes amostras de pixels nas K1 amostras de pixels, e a unidade de informação de movimento inclui um vetor de movimento cuja direção de predição é direta e / ou um vetor de movimento cuja direção de predição é inversa; e prever um valor de pixel do bloco de imagens x por utilizar um modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas i.

[342] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, o processador 602 pode ser configurado para determinar, a partir de N conjuntos de unidades de informação de movimento fundidas candidatas, o conjunto de unidades de informação de movimento fundidas i incluindo as K1 unidades de informação de movimento, em que cada unidade de informação de movimento incluída em cada conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas é selecionada a partir de pelo menos uma parte de unidades de informação de movimento compatíveis com restrições nos conjuntos de unidades de informação de movimento candidatas correspondentes a diferentes amostras de pixels nas K1 amostras de pixels, N é um número inteiro positivo, os N conjuntos de unidades de informação de movimento fundidas candidatas são diferentes uns dos outros, e cada conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas inclui K1 unidades de informação de movimento.

[343] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, os N conjuntos de unidades de informação de movimento fundidas candidatas satisfazem pelo menos uma de uma primeira condição, uma segunda condição, uma terceira condição, uma quarta condição, ou uma quinta condição.

[344] A primeira condição inclui que um modo de movimento do bloco de imagens x indicado por uma unidade de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas seja movimento não translacional.

[345] A segunda condição inclui que direções de predição de pelo menos duas unidades de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas são iguais.

[346] A terceira condição inclui que índices de quadro de referência correspondentes a pelo menos duas unidades de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas particular nos N conjuntos de unidades de informação de movimento fundidas candidatas são iguais.

[347] A quarta condição inclui que um valor absoluto de uma diferença entre componentes horizontais de duas unidades de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas seja menor ou igual a um limiar de componente horizontal.

[348] A quinta condição inclui que um valor absoluto de uma diferença entre componentes verticais de duas unidades de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas é menor ou igual a um limiar de componente vertical.

[349] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, as K1 amostras de pixels incluem pelo menos duas amostras de pixels em uma amostra de pixels esquerda superior, uma amostra de pixels direita superior, uma amostra de pixels esquerda inferior, e uma amostra de pixels central a1 do bloco de imagens x.

[350] A amostra de pixels esquerda superior do bloco de imagens x é um vértice esquerdo superior do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e incluindo um vértice esquerdo superior do bloco de imagens x; a amostra de pixels esquerda inferior do bloco de imagens x é um vértice esquerdo inferior do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e incluindo um vértice esquerdo inferior do bloco de imagens x; a amostra de pixels direita superior do bloco de imagens x é um vértice direito superior do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e incluindo um vértice direito superior do bloco de imagens x; e a amostra de pixels central a1 do bloco de imagens x é um pixel central do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e incluindo um pixel central do bloco de imagens x.

[351] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, um conjunto de unidades de informação de movimento candidatas correspondente à amostra de pixels esquerda superior do bloco de imagens x inclui unidades de informação de movimento de x1 amostras de pixels, em que as x1 amostras de pixels incluem pelo menos uma amostra de pixels espacialmente adjacente à amostra de pixels esquerda superior do bloco de imagens x e / ou pelo menos uma amostra de pixels temporalmente adjacente à amostra de pixels esquerda superior do bloco de imagens x, e x1 é um número inteiro positivo.

[352] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, as x1 amostras de pixels incluem pelo menos uma de uma amostra de pixels que tem a mesma localização que a amostra de pixels esquerda superior do bloco de imagens x, uma amostra de pixels espacialmente adjacente a uma borda esquerda do bloco de imagens x, uma amostra de pixels espacialmente adjacente a uma parte esquerda superior do bloco de imagens x, ou uma amostra de pixels espacialmente adjacente a uma borda superior do bloco de imagens x, em um quadro de vídeo temporalmente adjacente a um quadro de vídeo ao qual o bloco de imagens x pertence.

[353] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, um conjunto de unidades de informação de movimento candidatas correspondente à amostra de pixels direita superior do bloco de imagens x inclui unidades de informação de movimento de x2 amostras de pixels, em que as x2 amostras de pixels incluem pelo menos uma amostra de pixels espacialmente adjacente à amostra de pixels direita superior do bloco de imagens x e / ou pelo menos uma amostra de pixels temporalmente adjacente à amostra de pixels direita superior do bloco de imagens x, e x2 é um número inteiro positivo.

[354] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, as x2 amostras de pixels incluem pelo menos uma de uma amostra de pixels que tem a mesma localização que a amostra de pixels direita superior do bloco de imagens x, uma amostra de pixels espacialmente adjacente a uma borda direita do bloco de imagens x, uma amostra de pixels espacialmente adjacente a uma parte direita superior do bloco de imagens x, ou uma amostra de pixels espacialmente adjacente à borda superior do bloco de imagens x, em um quadro de vídeo temporalmente adjacente ao quadro de vídeo ao qual o bloco de imagens x pertence.

[355] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, um conjunto de unidades de informação de movimento candidatas correspondente à amostra de pixels esquerda inferior do bloco de imagens x inclui unidades de informação de movimento de x3 amostras de pixels, em que as x3 amostras de pixels incluem pelo menos uma amostra de pixels espacialmente adjacente à amostra de pixels esquerda inferior do bloco de imagens x e / ou pelo menos uma amostra de pixels temporalmente adjacente à amostra de pixels esquerda inferior do bloco de imagens x, e x3 é um número inteiro positivo.

[356] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, as x3 amostras de pixels incluem pelo menos uma de uma amostra de pixels que tem a mesma localização que a amostra de pixels esquerda inferior do bloco de imagens x, uma amostra de pixels espacialmente adjacente à borda esquerda do bloco de imagens x, uma amostra de pixels espacialmente adjacente a uma parte esquerda inferior do bloco de imagens x, ou uma amostra de pixels espacialmente adjacente a uma borda inferior do bloco de imagens x, em um quadro de vídeo temporalmente adjacente ao quadro de vídeo ao qual o bloco de imagens x pertence.

[357] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, um conjunto de unidades de informação de movimento candidatas correspondente à amostra de pixels central a1 do bloco de imagens x inclui unidades de informação de movimento de x5 amostras de pixels, em que uma amostra de pixels nas x5 amostras de pixels é uma amostra de pixels a2.

[358] Uma localização da amostra de pixels central a1 no quadro de vídeo ao qual o bloco de imagens x pertence é a mesma que uma localização da amostra de pixels a2 em um quadro de vídeo adjacente ao quadro de vídeo ao qual o bloco de imagens x pertence, e x5 é um número inteiro positivo.

[359] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, o processador 602 pode ser configurado para: quando vetores de movimento cujas direções de predição são uma primeira direção de predição no conjunto de unidades de informação de movimento fundidas i correspondem a diferentes índices de quadro de referência, realizar processamento de escalonamento no conjunto de unidades de informação de movimento fundidas i, de modo que os vetores de movimento cujas direções de predição são a primeira direção de predição no conjunto de unidades de informação de movimento fundidas i são escalonados para baixo para um mesmo quadro de referência, e prever o valor de pixel do bloco de imagens x por utilizar o modelo de movimento não translacional e um conjunto de unidades de informação de movimento fundidas escalonado i, em que a primeira direção de predição é direta ou inversa; ou o processador 602 pode ser configurado para: quando vetores de movimento cujas direções de predição são diretas no conjunto de unidades de informação de movimento fundidas i correspondem a diferentes índices de quadro de referência e vetores de movimento cujas direções de predição são inversas no conjunto de unidades de informação de movimento fundidas i correspondem a diferentes índices de quadro de referência, realizar processamento de escalonamento no conjunto de unidades de informação de movimento fundidas, de modo que vetores de movimento cujas direções de predição são diretas no conjunto de unidades de informação de movimento fundidas i são escalonados para baixo para um mesmo quadro de referência e que os vetores de movimento cujas direções de predição são inversas no conjunto de unidades de informação de movimento fundidas i são escalonados para baixo para um mesmo quadro de referência, e prever o valor de pixel do bloco de imagens x por utilizar o modelo de movimento não translacional e um conjunto de unidades de informação de movimento fundidas escalonado i.

[360] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, o processador 602 pode ser configurado para obter um vetor de movimento de cada pixel no bloco de imagens x através de computação por utilizar o modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas i, e determinar um valor de pixel previsto de cada pixel no bloco de imagens x por utilizar o vetor de movimento obtido de cada pixel no bloco de imagens x; ou o processador 602 pode ser configurado para obter um vetor de movimento de cada bloco de pixels no bloco de imagens x através de computação por utilizar o modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas i, e determinar um valor de pixel previsto de cada pixel em cada pixel no bloco de imagens x por utilizar o vetor de movimento obtido de cada bloco de pixels no bloco de imagens x.

[361] Opcionalmente, em algumas formas possíveis de implementação da presente invenção o processador 602 é ainda configurado para: determinar K2 amostras de pixels em um bloco de imagens y, e determinar um conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels nas K2 amostras de pixels, em que K2 é um número inteiro maior do que 1, o bloco de imagens y é espacialmente adjacente ao bloco de imagens x, e o conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels nas K2 amostras de pixels inclui pelo menos uma unidade de informação de movimento candidata; determinar um conjunto de unidades de informação de movimento fundidas j incluindo K2 unidades de informação de movimento, em que um conjunto de unidades de informação de movimento candidatas correspondente a uma amostra de pixels z1 nas K2 amostras de pixels inclui uma unidade de informação de movimento a2, e a unidade de informação de movimento a2 é obtida com base em uma unidade de informação de movimento de uma amostra de pixels z2, em que a amostra de pixels z2 é uma amostra de pixels no bloco de imagens x e uma distância entre a amostra de pixels z2 e a amostra de pixels z1 é menor que um limiar, ou a amostra de pixels z2 é uma amostra de pixels no bloco de imagens x e uma distância entre a amostra de pixels z2 e a amostra de pixels z1 é mais curta; e as K2 unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas j são respectivamente selecionadas a partir de pelo menos uma parte de unidades de informação de movimento compatíveis com restrições no conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels nas K2 amostras de pixels; e prever um valor de pixel do bloco de imagens y por utilizar o modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas j.

[362] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, o modelo de movimento não translacional pode ser qualquer um dos seguintes modelos: um modelo de movimento afim, um modelo de movimento parabólico, um modelo de movimento rotacional, um modelo de movimento de perspectiva, um modelo de movimento de cisalhamento, um modelo de movimento de escalonamento, ou um modelo de movimento bilinear.

[363] O aparelho de predição de imagem 600 pode ser aplicado a um aparelho de codificação de vídeo, ou o aparelho de predição de imagem 600 pode ser aplicado a um aparelho de decodificação de vídeo.

[364] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, quando o aparelho de predição de imagem é aplicado ao aparelho de codificação de vídeo, o processador 602 pode ser especificamente configurado para determinar, a partir dos N conjuntos de unidades de informação de movimento fundidas candidatas, de acordo com distorção ou O conjunto de unidades de informação de movimento fundidas i incluindo as K1 unidades de informação de movimento.

[365] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, quando o aparelho de predição de imagem é aplicado ao aparelho de codificação de vídeo, o processador 602 pode ainda ser configurado para escrever um identificador do conjunto de unidades de informação de movimento fundidas i em um fluxo de bits de vídeo.

[366] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, quando o aparelho de predição de imagem é aplicado ao aparelho de decodificação de vídeo, o processador 602 pode ser especificamente configurado para determinar, a partir dos N conjuntos de unidades de informação de movimento fundidas candidatas, com base em um identificador que é do conjunto de unidades de informação de movimento fundidas i e é obtido a partir de um fluxo de bits de vídeo, o conjunto de unidades de informação de movimento fundidas i incluindo as K1 unidades de informação de movimento.

[367] Pode ser entendido que, funções de cada módulo funcional do aparelho de predição de imagem 600 nesta modalidade podem ser especificamente implementadas de acordo com o método na modalidade de método anterior. Para um processo de implementação específico do mesmo, pode ser feita referência à descrição relacionada na modalidade de método anterior, e os detalhes não são aqui descritos de novo. O aparelho 600 de predição de imagem pode ser qualquer aparelho que necessite de saída e reprodução de um vídeo, por exemplo, um dispositivo tal como um computador portátil, um computador tablet, um computador pessoal ou um telefone móvel.

[368] Pode ser visto que um aparelho de predição de imagem 600 desta modalidade prediz um valor de pixel do bloco de imagens x por utilizar um modelo de movimento não translacional e um conjunto de unidades de informação de movimento fundidas i, em que cada unidade de informação de movimento no conjunto de unidades de informação de movimento fundidas i é selecionada a partir de pelo menos uma parte das unidades de informação de movimento em conjuntos de unidades de informação de movimento candidatas correspondentes a diferentes amostras de pixels nas K1 amostras de pixels. Porque um intervalo de seleção do conjunto de unidades de informação de movimento fundidas i é relativamente pequeno, um mecanismo utilizado em uma tecnologia convencional para remover unidades de informação de movimento de K1 amostras de pixels apenas por executar uma quantidade enorme de cálculo em todos os conjuntos de unidades de informação de movimento candidatas correspondentes às K1 amostras de pixels é abandonado. Isso ajuda a melhorar eficiência de codificação, também ajuda a reduzir complexidade computacional de predição de imagem realizada com base no modelo de movimento não translacional, torna ainda possível introduzir o modelo de movimento não translacional em um padrão de codificação de vídeo, e porque o modelo de movimento não translacional é introduzido, ajuda a descrever movimento de um objeto com mais precisão e, portanto, ajuda a melhorar a precisão de predição.

[369] Com referência à Figura 7, Figura 7 é um diagrama de blocos estrutural de um aparelho de predição de imagem 700 de acordo com outra modalidade da presente invenção. O aparelho de predição de imagem 700 pode incluir pelo menos um processador 701, uma memória 705 e pelo menos um barramento de comunicações 702. O barramento de comunicações 702 é configurado para implementar conexões e comunicação entre os componentes. O aparelho de predição de imagem 700 pode opcionalmente incluir pelo menos uma interface de rede 704 e / ou uma interface de usuário 703. A interface de usuário 703 pode incluir uma tela (por exemplo, uma tela sensível ao toque, um LCD, um dispositivo de formação de imagem holográfico (holográfico), um dispositivo de ponteiro (por exemplo, um mouse, uma “trackball”, uma almofada sensível ao toque ou uma tecla sensível ao toque), uma câmera, e / ou um aparelho de captação, e semelhantes.

[370] A memória 705 pode incluir uma memória somente de leitura e uma memória de acesso aleatório, e fornecer uma instrução e dados ao processador 701. Uma parte da memória 705 pode ainda incluir uma memória de acesso aleatório não volátil.

[371] Em algumas maneiras de implementação, a memória 705 armazena os seguintes elementos: módulos executáveis ou estruturas de dados, ou um seu subconjunto, ou um conjunto estendido: um sistema operacional 7051, incluindo vários programas de sistema, configurado para implementar vários serviços básicos e processar tarefas baseadas em hardware; e um módulo de programa de aplicação 7052, incluindo vários programas de aplicação, configurado para implementar vários serviços de aplicação.

[372] Nesta modalidade da presente invenção, por invocar um programa ou uma instrução armazenada na memória 705, o processador 701 é configurado para: determinar K1 amostras de pixels em um bloco de imagens x, e determinar um conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels nas K1 amostras de pixels, em que o conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels inclui pelo menos uma unidade de informação de movimento candidata e K1 é um número inteiro que é maior ou igual a 2; determinar um conjunto de unidades de informação de movimento fundidas i incluindo K1 unidades de informação de movimento, em que cada unidade de informação de movimento no conjunto de unidades de informação de movimento fundidas i é selecionada de pelo menos uma parte de unidades de informação de movimento em conjuntos de unidades de informação de movimento candidatas correspondentes a diferentes amostras de pixels nas K1 amostras de pixels, e a unidade de informação de movimento inclui um vetor de movimento cuja direção de predição é direta e / ou um vetor de movimento cuja direção de predição é inversa; e prever um valor de pixel do bloco de imagens x por utilizar um modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas i.

[373] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, o processador 701 pode ser configurado para determinar, a partir de N conjuntos de unidades de informação de movimento fundidas candidatas, o conjunto de unidades de informação de movimento fundidas i incluindo as K1 unidades de informação de movimento, em que cada unidade de informação de movimento incluída em cada conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas é selecionada a partir de pelo menos uma parte de unidades de informação de movimento compatíveis com restrições nos conjuntos de unidades de informação de movimento candidatas correspondentes a amostras de pixels diferentes nas K1 amostras de pixels, N é um número inteiro positivo, os N conjuntos de unidades de informação de movimento fundidas candidatas são diferentes uns dos outros, e cada conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas inclui K1 unidades de informação de movimento.

[374] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, os N conjuntos de unidades de informação de movimento fundidas candidatas satisfazem pelo menos uma de uma primeira condição, uma segunda condição, uma terceira condição, uma quarta condição, ou uma quinta condição.

[375] A primeira condição inclui que um modo de movimento do bloco de imagens x indicado por uma unidade de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas seja movimento não translacional.

[376] A segunda condição inclui que direções de predição de pelo menos duas unidades de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas são iguais.

[377] A terceira condição inclui que índices de quadro de referência correspondentes a pelo menos duas unidades de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas particular nos N conjuntos de unidades de informação de movimento fundidas candidatas são iguais.

[378] A quarta condição inclui que um valor absoluto de uma diferença entre componentes horizontais de duas unidades de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas seja menor ou igual a um limiar de componente horizontal.

[379] A quinta condição inclui que um valor absoluto de uma diferença entre componentes verticais de duas unidades de informação de movimento em qualquer conjunto de unidades de informação de movimento fundidas candidatas nos N conjuntos de unidades de informação de movimento fundidas candidatas é menor ou igual a um limiar de componente vertical.

[380] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, as K1 amostras de pixels incluem pelo menos duas amostras de pixels em uma amostra de pixels esquerda superior, uma amostra de pixels direita superior, uma amostra de pixels esquerda inferior, e uma amostra de pixels central a1 do bloco de imagens x.

[381] A amostra de pixels esquerda superior do bloco de imagens x é um vértice esquerdo superior do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e incluindo um vértice esquerdo superior do bloco de imagens x; a amostra de pixels esquerda inferior do bloco de imagens x é um vértice esquerdo inferior do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e incluindo um vértice esquerdo inferior do bloco de imagens x; a amostra de pixels direita superior do bloco de imagens x é um vértice direito superior do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e incluindo um vértice direito superior do bloco de imagens x; e a amostra de pixels central a1 do bloco de imagens x é um pixel central do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e incluindo um pixel central do bloco de imagens x.

[382] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, um conjunto de unidades de informação de movimento candidatas correspondente à amostra de pixels esquerda superior do bloco de imagens x inclui unidades de informação de movimento de x1 amostras de pixels, em que as x1 amostras de pixels incluem pelo menos uma amostra de pixels espacialmente adjacente à amostra de pixels esquerda superior do bloco de imagens x e / ou pelo menos uma amostra de pixels temporalmente adjacente à amostra de pixels esquerda superior do bloco de imagens x, e x1 é um número inteiro positivo.

[383] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, as x1 amostras de pixels incluem pelo menos uma de uma amostra de pixels que tem a mesma localização que a amostra de pixels esquerda superior do bloco de imagens x, uma amostra de pixels espacialmente adjacente a uma borda esquerda do bloco de imagens x, uma amostra de pixels espacialmente adjacente a uma parte esquerda superior do bloco de imagens x, ou uma amostra de pixels espacialmente adjacente a uma borda superior do bloco de imagens x, em um quadro de vídeo temporalmente adjacente a um quadro de vídeo ao qual o bloco de imagens x pertence.

[384] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, um conjunto de unidades de informação de movimento candidatas correspondente à amostra de pixels direita superior do bloco de imagens x inclui unidades de informação de movimento de x2 amostras de pixels, em que as x2 amostras de pixels incluem pelo menos uma amostra de pixels espacialmente adjacente à amostra de pixels direita superior do bloco de imagens x e / ou pelo menos uma amostra de pixels temporalmente adjacente à amostra de pixels direita superior do bloco de imagens x, e x2 é um número inteiro positivo.

[385] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, as x2 amostras de pixels incluem pelo menos uma de uma amostra de pixels que tem a mesma localização que a amostra de pixels direita superior do bloco de imagens x, uma amostra de pixels espacialmente adjacente a uma borda direita do bloco de imagens x, uma amostra de pixels espacialmente adjacente a uma parte direita superior do bloco de imagens x, ou uma amostra de pixels espacialmente adjacente à borda superior do bloco de imagens x, em um quadro de vídeo temporalmente adjacente ao quadro de vídeo ao qual o bloco de imagens x pertence.

[386] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, um conjunto de unidades de informação de movimento candidatas correspondente à amostra de pixels esquerda inferior do bloco de imagens x inclui unidades de informação de movimento de x3 amostras de pixels, em que as x3 amostras de pixels incluem pelo menos uma amostra de pixels espacialmente adjacente à amostra de pixels esquerda inferior do bloco de imagens x e / ou pelo menos uma amostra de pixels temporalmente adjacente à amostra de pixels esquerda inferior do bloco de imagens x, e x3 é um número inteiro positivo.

[387] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, as x3 amostras de pixels incluem pelo menos uma de uma amostra de pixels que tem a mesma localização que a amostra de pixels esquerda inferior do bloco de imagens x, uma amostra de pixels espacialmente adjacente à borda esquerda do bloco de imagens x, uma amostra de pixels espacialmente adjacente a uma parte esquerda inferior do bloco de imagens x, ou uma amostra de pixels espacialmente adjacente a uma borda inferior do bloco de imagens x, em um quadro de vídeo temporalmente adjacente ao quadro de vídeo ao qual o bloco de imagens x pertence.

[388] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, um conjunto de unidades de informação de movimento candidatas correspondente à amostra de pixels central a1 do bloco de imagens x inclui unidades de informação de movimento de x5 amostras de pixels, em que uma amostra de pixels nas x5 amostras de pixels é uma amostra de pixels a2.

[389] Uma localização da amostra de pixels central a1 no quadro de vídeo ao qual o bloco de imagens x pertence é a mesma que uma localização da amostra de pixels a2 em um quadro de vídeo adjacente ao quadro de vídeo ao qual o bloco de imagens x pertence, e x5 é um número inteiro positivo.

[390] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, o processador 701 pode ser configurado para: quando vetores de movimento cujas direções de predição são uma primeira direção de predição no conjunto de unidades de informação de movimento fundidas i correspondem a diferentes índices de quadro de referência, realizar processamento de escalonamento no conjunto de unidades de informação de movimento fundidas i, de modo que os vetores de movimento cujas direções de predição são a primeira direção de predição no conjunto de unidades de informação de movimento fundidas i são escalonados para baixo para um mesmo quadro de referência, e prever o valor de pixel do bloco de imagens x por utilizar o modelo de movimento não translacional e um conjunto de unidades de informação de movimento fundidas escalonado i, em que a primeira direção de predição é direta ou inversa; ou o processador 701 pode ser configurado para: quando vetores de movimento cujas direções de predição são diretas no conjunto de unidades de informação de movimento fundidas i correspondem a diferentes índices de quadro de referência e vetores de movimento cujas direções de predição são inversas no conjunto de unidades de informação de movimento fundidas i correspondem a diferentes índices de quadro de referência, realizar processamento de escalonamento no conjunto de unidades de informação de movimento fundidas, de modo que vetores de movimento cujas direções de predição são diretas no conjunto de unidades de informação de movimento fundidas i são escalonados para baixo para um mesmo quadro de referência e que os vetores de movimento cujas direções de predição são inversas no conjunto de unidades de informação de movimento fundidas i são escalonados para baixo para um mesmo quadro de referência, e prever o valor de pixel do bloco de imagens x por utilizar o modelo de movimento não translacional e um conjunto de unidades de informação de movimento fundidas escalonado i.

[391] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, o processador 701 pode ser configurado para obter um vetor de movimento de cada pixel no bloco de imagens x através de computação por utilizar o modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas i, e determinar um valor de pixel previsto de cada pixel no bloco de imagens x por utilizar o vetor de movimento obtido de cada pixel no bloco de imagens x; ou o processador 701 pode ser configurado para obter um vetor de movimento de cada bloco de pixels no bloco de imagens x através de computação por utilizar o modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas i, e determinar um valor de pixel previsto de cada pixel em cada pixel no bloco de imagens x por utilizar o vetor de movimento obtido de cada bloco de pixels no bloco de imagens x.

[392] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, o processador 701 é ainda configurado para determinar K2 amostras de pixels em um bloco de imagens y, e determinar um conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels nas K2 amostras de pixels, em que K2 é um número inteiro maior do que 1, o bloco de imagens Y é espacialmente adjacente ao bloco de imagens x, e o conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels nas K2 amostras de pixels inclui pelo menos uma unidade de informação de movimento candidata; determinar um conjunto de unidades de informação de movimento fundidas j incluindo K2 unidades de informação de movimento, em que um conjunto de unidades de informação de movimento candidatas correspondente a uma amostra de pixels z1 nas K2 amostras de pixels inclui uma unidade de informação de movimento a2, e a unidade de informação de movimento a2 é obtida com base em uma unidade de informação de movimento de uma amostra de pixels z2, em que a amostra de pixels z2 é uma amostra de pixels no bloco de imagens x e uma distância entre a amostra de pixels z2 e a amostra de pixels z1 é menor que um limiar, ou a amostra de pixels z2 é uma amostra de pixels no bloco de imagens x e uma distância entre a amostra de pixels z2 e a amostra de pixels z1 é mais curta; e as K2 unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas j são respectivamente selecionadas a partir de pelo menos uma parte de unidades de informação de movimento compatíveis com restrições no conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels nas K2 amostras de pixels; e prever um valor de pixel do bloco de imagens y por utilizar o modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas j.

[393] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, o modelo de movimento não translacional pode ser qualquer um dos seguintes modelos: um modelo de movimento afim, um modelo de movimento parabólico, um modelo de movimento rotacional, um modelo de movimento de perspectiva, um modelo de movimento de cisalhamento, um modelo de movimento de escalonamento, ou um modelo de movimento bilinear.

[394] O aparelho de predição de imagem 700 pode ser aplicado a um aparelho de codificação de vídeo, ou o aparelho de predição de imagem 700 pode ser aplicado a um aparelho de decodificação de vídeo.

[395] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, quando o aparelho de predição de imagem é aplicado ao aparelho de codificação de vídeo, o processador 701 pode ser configurado especificamente para determinar, a partir dos N conjuntos de unidades de informação de movimento fundidas candidatas, de acordo com distorção ou o conjunto de unidades de informação de movimento fundidas i incluindo as K1 unidades de informação de movimento.

[396] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, quando o aparelho de predição de imagem é aplicado ao aparelho de codificação de vídeo, o processador 701 pode ainda ser configurado para escrever um identificador do conjunto de unidades de informação de movimento fundidas i em um fluxo de bits de vídeo.

[397] Opcionalmente, em algumas formas possíveis de implementação da presente invenção, quando o aparelho de predição de imagem é aplicado ao aparelho de decodificação de vídeo, o processador 701 pode ser configurado especificamente para determinar, a partir dos N conjuntos de unidades de informação de movimento fundidas candidatas, com base em um identificador que é do conjunto de unidades de informação de movimento fundidas i e é obtido a partir de um fluxo de bits de vídeo, o conjunto de unidades de informação de movimento fundidas i incluindo as K1 unidades de informação de movimento.

[398] Pode ser entendido que, funções de cada módulo funcional do aparelho de predição de imagem 700 nesta modalidade podem ser especificamente implementadas de acordo com o método na modalidade de método anterior. Para um processo de implementação específico do mesmo, pode ser feita referência à descrição relacionada na modalidade de método anterior, e os detalhes não são aqui descritos de novo. O aparelho de predição de imagem 700 pode ser qualquer aparelho que necessite de saída e reprodução de um vídeo, por exemplo, um dispositivo tal como um computador portátil, um computador tablet, um computador pessoal ou um telefone móvel.

[399] Pode ser visto que um aparelho de predição de imagem 700 desta modalidade prediz um valor de pixel do bloco de imagens x por utilizar um modelo de movimento não translacional e um conjunto de unidades de informação de movimento fundidas i, em que cada unidade de informação de movimento no conjunto de unidades de informação de movimento fundidas i é selecionada a partir de pelo menos uma parte das unidades de informação de movimento em conjuntos de unidades de informação de movimento candidatas correspondentes a diferentes amostras de pixels nas K1 amostras de pixels. Porque um intervalo de seleção do conjunto de unidades de informação de movimento fundidas i é relativamente pequeno, um mecanismo utilizado em uma tecnologia convencional para remover unidades de informação de movimento de K1 amostras de pixels apenas por executar uma quantidade enorme de cálculo em todos os conjuntos de unidades de informação de movimento candidatas correspondentes às K1 amostras de pixels é abandonado. Isso ajuda a melhorar eficiência de codificação, também ajuda a reduzir complexidade computacional de predição de imagem realizada com base no modelo de movimento não translacional, torna ainda possível introduzir o modelo de movimento não translacional em um padrão de codificação de vídeo, e porque o modelo de movimento não translacional é introduzido, ajuda a descrever movimento de um objeto com mais precisão e, portanto, ajuda a melhorar a precisão de predição.

[400] Deve ser notado que, para facilidade de descrição, as modalidades de método anteriores são expressas como uma série de ações. No entanto, as pessoas especializadas na técnica devem apreciar que a presente invenção não está limitada à sequência de ação descrita, porque de acordo com a presente invenção, alguns passos podem ser realizados em outras sequências ou realizados simultaneamente. Além disso, as pessoas especializadas na técnica devem também apreciar que todas as modalidades descritas na especificação são modalidades preferidas, e as ações e módulos relacionados não são necessariamente obrigatórios para a presente invenção.

[401] Nas modalidades anteriores, todas as modalidades têm respectivos focos de descrição. Para uma parte que não está descrita em detalhe em uma modalidade, consulte as descrições relacionadas em outras modalidades.

[402] Nas modalidades fornecidas nesta aplicação, deve ser entendido que o aparelho descrito pode ser implementado de outras maneiras. Por exemplo, a modalidade de aparelho descrita é meramente um exemplo. Por exemplo, a divisão de unidade é meramente divisão de função lógica e pode ser outra divisão na implementação real. Por exemplo, uma pluralidade de unidades ou componentes podem ser combinados ou integrados em um outro sistema, ou algumas características podem ser ignoradas ou não executadas. Além disso, acoplamentos mútuos ou acoplamentos diretos ou conexões de comunicação exibidos ou discutidos podem ser implementados através de algumas interfaces. Os acoplamentos indiretos ou conexões de comunicação entre os aparelhos ou unidades podem ser implementados em formas eletrônicas ou outras.

[403] As unidades descritas como partes separadas podem ou não estar fisicamente separadas e as partes apresentadas como unidades podem ou não ser unidades físicas, podem estar localizadas em uma posição ou podem ser distribuídas em uma pluralidade de unidades de rede. Algumas ou todas as unidades podem ser selecionadas de acordo com as necessidades reais para atingir os objetivos das soluções nas modalidades.

[404] Além disso, as unidades funcionais nas modalidades da presente invenção podem ser integradas em uma unidade de processamento, ou cada uma das unidades pode existir isoladamente fisicamente, ou duas ou mais unidades estão integradas em uma unidade. A unidade integrada pode ser implementada em uma forma de hardware, ou pode ser implementada sob a forma de uma unidade funcional de software.

[405] Quando a unidade integrada anterior é implementada na forma de uma unidade funcional de software e vendida ou utilizada como um produto independente, a unidade integrada pode ser armazenada em um meio de armazenamento legível por computador. Com base neste entendimento, as soluções técnicas da presente invenção essencialmente, ou a parte que contribui para a técnica anterior, ou todas ou algumas das soluções técnicas podem ser implementadas na forma de um produto de software. O produto de software é armazenado em um meio de armazenamento e inclui instruções para instruir um dispositivo de computador (que pode ser um computador pessoal, um servidor ou um dispositivo de rede) para executar todos ou alguns dos passos dos métodos descritos nas modalidades da presente invenção. O meio de armazenamento anterior inclui qualquer meio que pode armazenar código de programa, tal como uma unidade flash USB, uma memória somente de leitura (ROM), uma memória de acesso aleatório (RAM), um disco rígido removível, um disco magnético ou um disco ótico.

[406] As modalidades anteriores destinam-se apenas a descrever as soluções técnicas da presente invenção, mas não para limitar a presente invenção. Embora a presente invenção seja descrita em detalhe com referência às modalidades anteriores, pessoas com conhecimentos normais na técnica entenderão que podem ainda fazer modificações nas soluções técnicas descritas nas modalidades anteriores ou fazer substituições equivalentes a algumas das suas características técnicas, sem se afastar do espírito e do âmbito das soluções técnicas nas modalidades da presente invenção.

Claims

1. Método de predição de imagem caracterizado pelo fato de: determinar (101) K1 amostras de pixels em um bloco de imagens x, e determinar um conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels nas K1 amostras de pixels, em que o conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels compreende uma unidade de informação de movimento candidata, e K1 é um número inteiro que é maior ou igual a 2; determinar (102) um conjunto de unidades de informação de movimento fundidas i compreendendo K1 unidades de informação de movimento, em que cada unidade de informação de movimento no conjunto de unidades de informação de movimento fundidas i é a unidade de informação de movimento candidata no conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels nas K1 amostras de pixels, e a unidade de informação de movimento compreende um vetor de movimento cuja direção de predição é direta e / ou um vetor de movimento cuja direção de predição é inversa; em que índices de quadro de referência correspondentes às K1 unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas i são iguais; e prever (103) um valor de pixel do bloco de imagens x pela utilização de um modelo de movimento não translacional e do conjunto de unidades de informação de movimento fundidas i, em que o conjunto de unidades de informação de movimento fundidas i é indicado por um identificador.

2. Método, de acordo com a reivindicação 1, em que as K1 amostras de pixels compreendem pelo menos duas amostras de pixels em uma amostra de pixels esquerda superior, uma amostra de pixels direita superior, uma amostra de pixels esquerda inferior, e uma amostra de pixels central a1 do bloco de imagens x, caracterizado pelo fato de que: a amostra de pixels esquerda superior do bloco de imagens x é um vértice esquerdo superior do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e compreendendo um vértice esquerdo superior do bloco de imagens x; a amostra de pixels esquerda inferior do bloco de imagens x é um vértice esquerdo inferior do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e compreendendo um vértice esquerdo inferior do bloco de imagens x; a amostra de pixels direita superior do bloco de imagens x é um vértice direito superior do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e compreendendo um vértice direito superior do bloco de imagens x; e a amostra de pixels central a1 do bloco de imagens x é um pixel central do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e compreendendo um pixel central do bloco de imagens x.

3. Método, de acordo com a reivindicação 2, caracterizado pelo fato de que: um conjunto de unidades de informação de movimento candidatas correspondente à amostra de pixels esquerda superior do bloco de imagens x compreende unidades de informação de movimento de x1 amostras de pixels, em que as x1 amostras de pixels compreendem pelo menos uma amostra de pixels espacialmente adjacente à amostra de pixels esquerda superior do bloco de imagens x e / ou pelo menos uma amostra de pixels temporalmente adjacente à amostra de pixels esquerda superior do bloco de imagens x, e x1 é um número inteiro positivo, em que: as x1 amostras de pixels compreendem pelo menos uma de uma amostra de pixels que tem uma mesma localização que a amostra de pixels esquerda superior do bloco de imagens x, uma amostra de pixels espacialmente adjacente a uma borda esquerda do bloco de imagens x, uma amostra de pixels espacialmente adjacente a uma parte esquerda superior do bloco de imagens x, ou uma amostra de pixels espacialmente adjacente a uma borda superior do bloco de imagens x, em um quadro de vídeo temporalmente adjacente a um quadro de vídeo ao qual o bloco de imagens x pertence.

4. Método, de acordo com a reivindicação 2 ou 3, caracterizado pelo fato de que: um conjunto de unidades de informação de movimento candidatas correspondente à amostra de pixels direita superior do bloco de imagens x compreende unidades de informação de movimento de x2 amostras de pixels, em que as x2 amostras de pixels compreendem pelo menos uma amostra de pixels espacialmente adjacente à amostra de pixels direita superior do bloco de imagens x e / ou pelo menos uma amostra de pixels temporalmente adjacente à amostra de pixels direita superior do bloco de imagens x, e x2 é um número inteiro positivo, em que: as x2 amostras de pixels compreendem pelo menos uma de uma amostra de pixels que tem uma mesma localização que a amostra de pixels direita superior do bloco de imagens x, uma amostra de pixels espacialmente adjacente a uma borda direita do bloco de imagens x, uma amostra de pixels espacialmente adjacente a uma parte direita superior do bloco de imagens x, ou uma amostra de pixels espacialmente adjacente à borda superior do bloco de imagens x, em um quadro de vídeo temporalmente adjacente ao quadro de vídeo ao qual o bloco de imagens x pertence.

5. Método, de acordo com qualquer uma das reivindicações 2 a 4, caracterizado pelo fato de que: um conjunto de unidades de informação de movimento candidatas correspondente à amostra de pixels esquerda inferior do bloco de imagens x compreende unidades de informação de movimento de x3 amostras de pixels, em que as x3 amostras de pixels compreendem pelo menos uma amostra de pixels espacialmente adjacente à amostra de pixels esquerda inferior do bloco de imagens x e / ou pelo menos uma amostra de pixels temporalmente adjacente à amostra de pixels esquerda inferior do bloco de imagens x, e x3 é um número inteiro positivo, em que: as x3 amostras de pixels compreendem pelo menos uma de uma amostra de pixels que tem uma mesma localização que a amostra de pixels esquerda inferior do bloco de imagens x, uma amostra de pixels espacialmente adjacente à borda esquerda do bloco de imagens x, uma amostra de pixels espacialmente adjacente a uma parte esquerda inferior do bloco de imagens x, ou uma amostra de pixels espacialmente adjacente a uma borda inferior do bloco de imagens x, em um quadro de vídeo temporalmente adjacente ao quadro de vídeo ao qual o bloco de imagens x pertence.

6. Método, de acordo com qualquer uma das reivindicações 2 a 5, caracterizado pelo fato de que: um conjunto de unidades de informação de movimento candidatas correspondente à amostra de pixels central a1 do bloco de imagens x compreende unidades de informação de movimento de x5 amostras de pixels, em que uma amostra de pixels nas x5 amostras de pixels é uma amostra de pixels a2, em que: uma localização da amostra de pixels central a1 no quadro de vídeo ao qual o bloco de imagens x pertence é a mesma que uma localização da amostra de pixels a2 em um quadro de vídeo adjacente ao quadro de vídeo ao qual o bloco de imagens x pertence, e x5 é um número inteiro positivo.

7. Método, de acordo com qualquer uma das reivindicações 1 a 6, caracterizado pelo fato de que a predição do valor de pixel do bloco de imagens x pela utilização do modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas i compreende: quando vetores de movimento cujas direções de predição são uma primeira direção de predição no conjunto de unidades de informação de movimento fundidas i correspondem a diferentes índices de quadro de referência, realizar processamento de escalonamento no conjunto de unidades de informação de movimento fundidas i, de modo que os vetores de movimento cujas direções de predição são a primeira direção de predição no conjunto de unidades de informação de movimento fundidas i são escalonados para baixo para um mesmo quadro de referência, e prever o valor de pixel do bloco de imagens x pela utilização do modelo de movimento não translacional e de um conjunto de unidades de informação de movimento fundida escalonadas i, em que a primeira direção de predição é direta ou inversa; ou a predição do valor de pixel do bloco de imagens x pela utilização do modelo de movimento não translacional e do conjunto de unidades de informação de movimento fundidas i compreende: quando vetores de movimento cujas direções de predição são diretas no conjunto de unidades de informação de movimento fundidas i correspondem a diferentes índices de quadro de referência e vetores de movimento cujas direções de predição são inversas no conjunto de unidades de informação de movimento fundidas i correspondem a diferentes índices de quadro de referência, realizar processamento de escalonamento no conjunto de unidades de informação de movimento fundidas i, de modo que os vetores de movimento cujas direções de predição são diretas no conjunto de unidades de informação de movimento fundidas i são escalonados para baixo para um mesmo quadro de referência e que os vetores de movimento cujas direções de predição são inversas no conjunto de unidades de informação de movimento fundidas i são escalonados para baixo para um mesmo quadro de referência, e prever o valor de pixel do bloco de imagens x pela utilização do modelo de movimento não translacional e de um conjunto de unidades de informação de movimento fundidas escalonado i.

8. Método, de acordo com qualquer uma das reivindicações 1 a 7, caracterizado pelo fato de que compreende ainda: determinar K2 amostras de pixels em um bloco de imagens y, e determinar um conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels nas K2 amostras de pixels, em que K2 é um número inteiro maior do que 1, e o bloco de imagens y é espacialmente adjacente ao bloco de imagens x, e o conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels nas K2 amostras de pixels compreende pelo menos uma unidade de informação de movimento candidata; determinar um conjunto de unidades de informação de movimento fundidas j que compreende K2 unidades de informação de movimento; em que um conjunto de unidades de informação de movimento candidatas correspondente a uma amostra de pixels z1 nas K2 amostras de pixels compreende uma unidade de informação de movimento a2, e a unidade de informação de movimento a2 é obtida com base em uma unidade de informação de movimento de uma amostra de pixels z2, em que a amostra de pixels z2 é uma amostra de pixels no bloco de imagens x e uma distância entre a amostra de pixels z2 e a amostra de pixels z1 é menor que um limiar, ou a amostra de pixels z2 é uma amostra de pixels no bloco de imagens x e uma distância entre a amostra de pixels z2 e a amostra de pixels z1 é mais curta; e as K2 unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas j são respectivamente selecionadas a partir de pelo menos uma parte de unidades de informação de movimento compatíveis com restrições no conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels nas K2 amostras de pixels; e prever um valor de pixel do bloco de imagens y pela utilização do modelo de movimento não translacional e do conjunto de unidades de informação de movimento fundidas j.

9. Método, de acordo com qualquer uma das reivindicações 1 a 8, caracterizado pelo fato de que o modelo de movimento não translacional é qualquer um dos seguintes modelos: um modelo de movimento afim, um modelo de movimento parabólico, um modelo de movimento rotacional, um modelo de movimento de perspectiva, um modelo de movimento de cisalhamento, um modelo de movimento de escalonamento, ou um modelo de movimento bilinear.

10. Método, de acordo com qualquer uma das reivindicações 1 a 9, caracterizado pelo fato de que: a predição do valor de pixel do bloco de imagens x pela utilização do modelo de movimento não translacional e do conjunto de unidades de informação de movimento fundidas i compreende: obter um vetor de movimento de cada pixel no bloco de imagens x através de computação pela utilização do modelo de movimento não translacional e do conjunto de unidades de informação de movimento fundidas i, e determinar um valor de pixel previsto de cada pixel no bloco de imagens x pela utilização do vetor de movimento obtido de cada pixel no bloco de imagens x; ou obter um vetor de movimento de cada bloco de pixels no bloco de imagens x através de computação pela utilização do modelo de movimento não translacional e do conjunto de unidades de informação de movimento fundidas i, e determinar um valor de pixel previsto de cada pixel em cada bloco de pixels no bloco de imagens x pela utilização do vetor de movimento obtido de cada bloco de pixels no bloco de imagens x.

11. Método, de acordo com qualquer uma das reivindicações 1 a 10, caracterizado pelo fato de que o método de predição de imagem é aplicado a um processo de codificação de vídeo, ou o método de predição de imagem é aplicado a um processo de decodificação de vídeo em que, quando o método de predição de imagem é aplicado ao processo de codificação de vídeo, o método compreende ainda: escrever o identificador do conjunto da unidade de informação de movimento fundido i em um fluxo de bits de vídeo.

12. Aparelho de predição de imagem caracterizado pelo fato de que: uma primeira unidade de determinação (510), configurada para determinar K1 amostras de pixels em um bloco de imagens x, e determinar um conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels nas K1 amostras de pixels, em que o conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels compreende uma unidade de informação de movimento candidata, e K1 é um número inteiro que é maior ou igual a 2; uma segunda unidade de determinação (520), configurada para determinar um conjunto de unidades de informação de movimento fundidas i compreendendo K1 unidades de informação de movimento, em que cada unidade de informação de movimento no conjunto de unidades de informação de movimento fundidas i é a unidade de informação de movimento candidata no conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels nas K1 amostras de pixels, e a unidade de informação de movimento compreende um vetor de movimento cuja direção de predição é direta e / ou um vetor de movimento cuja direção de predição é inversa, em que índices de quadro de referência correspondentes às K1 unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas i são iguais; e uma unidade de predição (530), configurada para prever um valor de pixel do bloco de imagens x pela utilização de um modelo de movimento não translacional e do conjunto de unidades de informação de movimento fundidas i, em que o conjunto de unidades de informação de movimento fundidas i é indicado por um identificador.

13. Aparelho, de acordo com a reivindicação 12, em que as K1 amostras de pixels compreendem pelo menos duas amostras de pixels em uma amostra de pixels esquerda superior, uma amostra de pixels direita superior, uma amostra de pixels esquerda inferior, e uma amostra de pixels central a1 do bloco de imagens x, caracterizado pelo fato de que: a amostra de pixels esquerda superior do bloco de imagens x é um vértice esquerdo superior do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e compreendendo um vértice esquerdo superior do bloco de imagens x; a amostra de pixels esquerda inferior do bloco de imagens x é um vértice esquerdo inferior do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e compreendendo um vértice esquerdo inferior do bloco de imagens x; a amostra de pixels direita superior do bloco de imagens x é um vértice direito superior do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e compreendendo um vértice direito superior do bloco de imagens x; e a amostra de pixels central a1 do bloco de imagens x é um pixel central do bloco de imagens x, ou um bloco de pixels no bloco de imagens x e que compreende um pixel central do bloco de imagens x.

14. Aparelho, de acordo com a reivindicação 13, caracterizado pelo fato de que um conjunto de unidades de informação de movimento candidatas correspondente à amostra de pixels esquerda superior do bloco de imagens x compreende unidades de informação de movimento de x1 amostras de pixels, em que as x1 amostras de pixels compreendem pelo menos uma amostra de pixels espacialmente adjacente à amostra de pixels esquerda superior do bloco de imagens x e / ou pelo menos uma amostra de pixels temporalmente adjacente à amostra de pixels esquerda superior do bloco de imagens x, e x1 é um número inteiro positivo, em que as x1 amostras de pixels compreendem pelo menos uma de uma amostra de pixels que tem uma mesma localização que a amostra de pixels esquerda superior do bloco de imagens x, uma amostra de pixels espacialmente adjacente a uma borda esquerda do bloco de imagens x, uma amostra de pixels espacialmente adjacente a uma parte esquerda superior do bloco de imagens x, ou uma amostra de pixels espacialmente adjacente a uma borda superior do bloco de imagens x, em um quadro de vídeo temporalmente adjacente a um quadro de vídeo ao qual o bloco de imagens x pertence.

15. Aparelho, de acordo com a reivindicação 13 ou 14, caracterizado pelo fato de que um conjunto de unidades de informação de movimento candidatas correspondente à amostra de pixels direita superior do bloco de imagens x compreende unidades de informação de movimento de x2 amostras de pixels, em que as x2 amostras de pixels compreendem pelo menos uma amostra de pixels espacialmente adjacente à amostra de pixels direita superior do bloco de imagens x e / ou pelo menos uma amostra de pixels temporalmente adjacente à amostra de pixels direita superior do bloco de imagens x, e x2 é um número inteiro positivo, em que as x2 amostras de pixels compreendem pelo menos uma de uma amostra de pixels que tem uma mesma localização que a amostra de pixels direita superior do bloco de imagens x, uma amostra de pixels espacialmente adjacente a uma borda direita do bloco de imagens x, uma amostra de pixels espacialmente adjacente a uma parte direita superior do bloco de imagens x, ou uma amostra de pixels espacialmente adjacente à borda superior do bloco de imagens x, em um quadro de vídeo temporalmente adjacente ao quadro de vídeo ao qual o bloco de imagens x pertence.

16. Aparelho, de acordo com qualquer uma das reivindicações 13 a 15, caracterizado pelo fato de que um conjunto de unidades de informação de movimento candidatas correspondente à amostra de pixels esquerda inferior do bloco de imagens x compreende unidades de informação de movimento de x3 amostras de pixels, em que as x3 amostras de pixels compreendem pelo menos uma amostra de pixels espacialmente adjacente à amostra de pixels esquerda inferior do bloco de imagens x e / ou pelo menos uma amostra de pixels temporalmente adjacente à amostra de pixels esquerda inferior do bloco de imagens x, e x3 é um número inteiro positivo, em que as x3 amostras de pixels compreendem pelo menos uma de uma amostra de pixels que tem uma mesma localização que a amostra de pixels esquerda inferior do bloco de imagens x, uma amostra de pixels espacialmente adjacente à borda esquerda do bloco de imagens x, uma amostra de pixels espacialmente adjacente a uma parte esquerda inferior do bloco de imagens x, ou uma amostra de pixels espacialmente adjacente a uma borda inferior do bloco de imagens x, em um quadro de vídeo temporalmente adjacente ao quadro de vídeo ao qual o bloco de imagens x pertence.

17. Aparelho, de acordo com qualquer uma das reivindicações 13 a 16, caracterizado pelo fato de que um conjunto de unidades de informação de movimento candidatas correspondente à amostra de pixels central a1 do bloco de imagens x compreende unidades de informação de movimento de x5 amostras de pixels, em que uma amostra de pixels nas x5 amostras de pixels é uma amostra de pixels a2, em que uma localização da amostra de pixels central a1 no quadro de vídeo ao qual o bloco de imagens x pertence é a mesma que uma localização da amostra de pixels a2 em um quadro de vídeo adjacente ao quadro de vídeo ao qual o bloco de imagens x pertence, e x5 é um número inteiro positivo.

18. Aparelho, de acordo com qualquer uma das reivindicações 12 a 17, caracterizado pelo fato de que a unidade de predição é especificamente configurada para: quando vetores de movimento cujas direções de predição são uma primeira direção de predição no conjunto de unidades de informação de movimento fundidas i correspondem a diferentes índices de quadro de referência, realizar processamento de escalonamento no conjunto de unidades de informação de movimento fundidas i, de modo que os vetores de movimento cujas direções de predição são a primeira direção de predição no conjunto de unidades de informação de movimento fundidas i são escalonados para baixo para um mesmo quadro de referência, e prever o valor de pixel do bloco de imagens x por utilizar o modelo de movimento não translacional e um conjunto de unidades de informação de movimento fundida escalonadas i, em que a primeira direção de predição é direta ou inversa; ou a unidade de predição é especificamente configurada para: quando vetores de movimento cujas direções de predição são diretas no conjunto de unidades de informação de movimento fundidas i correspondem a diferentes índices de quadro de referência e vetores de movimento cujas direções de predição são inversas no conjunto de unidades de informação de movimento fundidas i correspondem a diferentes índices de quadro de referência, realizar processamento de escalonamento no conjunto de unidades de informação de movimento fundidas, de modo que os vetores de movimento cujas direções de predição são diretas no conjunto de unidades de informação de movimento fundidas i são escalonados para baixo para um mesmo quadro de referência e que os vetores de movimento cujas direções de predição são inversas no conjunto de unidades de informação de movimento fundidas i são escalonados para baixo para um mesmo quadro de referência, e prever o valor de pixel do bloco de imagens x por utilizar o modelo de movimento não translacional e um conjunto de unidades de informação de movimento fundidas escalonado i.

19. Aparelho, de acordo com qualquer uma das reivindicações 12 a 18, caracterizado pelo fato de que a unidade de predição é especificamente configurada para obter um vetor de movimento de cada pixel no bloco de imagens x através de computação por utilizar o modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas i, e determinar um valor de pixel previsto de cada pixel no bloco de imagens x por utilizar o vetor de movimento que é de cada bloco de pixel no bloco de imagem x e é obtido através da computação; ou a unidade de predição é especificamente configurada para obter um vetor de movimento de cada bloco de pixels no bloco de imagens x através de computação por utilizar o modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas i, e determinar um valor de pixel previsto de cada pixel em cada pixel no bloco de imagens x por utilizar o vetor de movimento que é de cada bloco de pixel no bloco de imagem x e é obtido através da computação.

20. Aparelho, de acordo com qualquer uma das reivindicações 12 a 19, caracterizado pelo fato de que a primeira unidade de determinação é ainda configurada para determinar K2 amostras de pixels em um bloco de imagens y, e determinar um conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels nas K2 amostras de pixels, em que K2 é um número inteiro maior do que 1, o bloco de imagens y é espacialmente adjacente ao bloco de imagens x, e o conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels nas K2 amostras de pixels compreende pelo menos uma unidade de informação de movimento candidata; a segunda unidade de determinação é ainda configurada para determinar um conjunto de unidades de informação de movimento fundidas j que compreende K2 unidades de informação de movimento, em que um conjunto de unidades de informação de movimento candidatas correspondente a uma amostra de pixels z1 nas K2 amostras de pixels compreende uma unidade de informação de movimento a2, e a unidade de informação de movimento a2 é obtida com base em uma unidade de informação de movimento de uma amostra de pixels z2, em que a amostra de pixels z2 é uma amostra de pixels no bloco de imagens x e uma distância entre a amostra de pixels z2 e a amostra de pixels z1 é inferior a um limiar, ou a amostra de pixels z2 é uma amostra de pixels no bloco de imagens x e uma distância entre a amostra de pixels z2 e a amostra de pixels z1 é mais curta; e as K2 unidades de informação de movimento no conjunto de unidades de informação de movimento fundidas j são respectivamente selecionadas a partir de pelo menos uma parte de unidades de informação de movimento compatíveis com restrições no conjunto de unidades de informação de movimento candidatas correspondente a cada amostra de pixels nas K2 amostras de pixels; e a unidade de predição é ainda configurada para prever um valor de pixel do bloco de imagens y por utilizar o modelo de movimento não translacional e o conjunto de unidades de informação de movimento fundidas j.

21. Aparelho, de acordo com qualquer uma das reivindicações 12 a 20, caracterizado pelo fato de que o modelo de movimento não translacional é qualquer um dos seguintes modelos: um modelo de movimento afim, um modelo de movimento parabólico, um modelo de movimento rotacional, um modelo de movimento de perspectiva, um modelo de movimento de cisalhamento, um modelo de movimento de escalonamento, ou um modelo de movimento bilinear.

22. Aparelho, de acordo com qualquer uma das reivindicações 12 a 21, caracterizado pelo fato de que o aparelho de predição de imagem é aplicado a um aparelho de codificação de vídeo, ou o aparelho de predição de imagem é aplicado a um aparelho de decodificação de vídeo.