BRPI0616426A2

BRPI0616426A2 - técnicas de escalabilidade baseadas em informações de conteúdo

Info

Publication number: BRPI0616426A2
Application number: BRPI0616426-9A
Authority: BR
Inventors: Vijaylakshmi R Raveendran; Tao Tian; Phanikumar Bhamidipati; Peisong Chen; Sitaraman Ganapathy Subramania; Gordon Kent Walker; Fang Shi; Seufullah Halit Oguz
Original assignee: Qualcomm Inc
Priority date: 2005-09-27
Filing date: 2006-09-27
Publication date: 2011-06-21
Also published as: TW200742442A; AR056100A1; EP2227019A1; TWI348866B; CA2623929C; CN101982977B; JP2009510937A; AU2006294509A1; NO20081605L; JP2012199961A; WO2007038725A3; TW200803517A; EP1929784B1; JP2009510936A; KR20080066716A; JP2012110038A; KR101197508B1; KR20080066718A; EP2302932A1; CA2805916A1

Abstract

TéCNICAS DE ESCALABILIDADE BASEADAS EM INFORMAçõES DE CONTEúDO. São descritos equipamento e métodos de utilizar informações de conteúdo para codificar dados de multimídia. Um método de processar dados de multimídia inclui classificar conteúdo de dados de multimídia, e codificar os dados de multimídia em um primeiro grupo de dados e em um segundo grupo de dados com base na classificação de conteúdo, em que o primeiro grupo de dados compreende um coeficiente e o segundo grupo de dados compreende um primeiro refinamento diferencial associado ao primeiro coeficiente de grupo de dados. Um equipamento para utilizar informações de conteúdo para codificar dados de multimídia inclui um módulo de classificação de conteúdo configurado para classificar conteúdo de dados de multimídia e fornecer dados de classificação de conteúdo, e um codificador configurado para codificar os dados de multimidia em um primeiro grupo de dados e em um segundo grupo de dados com base na classificação de conteúdo, em que o primeiro grupo de dados compreende um coeficiente e o segundo grupo de dados compreende um primeiro refinamento diferencial associado ao primeiro coeficiente de grupo de dados.

Description

"TÉCNICAS DE ESCALABILIDADE BASEADAS EM INFORMAÇÕES DECONTEÚDO"

CAMPO DA INVENÇÃO

O presente pedido se refere ao equipamento emétodos para transcodificação de vídeo de dados de vídeo

para fluxo contínuo em tempo real e, mais especificamente,à transcodificação de dados de vídeo para fluxo contínuo emtempo real em aplicação de transmissão móvel.

DESCRIÇÃO DA TÉCNICA ANTERIOR

A compactação eficiente de vídeo é útil em muitasaplicações de multimídia tal como fluxo contínuo de vídeosem fio e vídeo telefonia, devido aos recursos limitados delargura de banda e à variabilidade da largura de bandadisponível. Certos padrões de codificação de vídeo, talcomo MPEG-4 (ISO/IEC), H.264 (ITU), ou codificação de vídeosimilar proporcionam codificação de alta eficiênciaadequada para aplicações tais como transmissão sem fio.Alguns dados de multimídia, por exemplo, apresentações detelevisão digital, geralmente são codificadas de acordo comoutros padrões tal como MPEG-2. Conseqüentemente,transcodificadores são usados para transcodificar ouconverter os dados de multimídia codificados de acordo comum padrão (por exemplo, MPEG-2) para outro padrão (porexemplo, H.264) antes da transmissão sem fio.Codecs otimizados de taxa aperfeiçoada poderiam

oferecer vantagens em flexibilidade de erro, recuperação deerro, e escalabilidade. Além disso, o uso de informaçõesdeterminado a partir dos próprios dados de multimídiatambém poderia oferecer aperfeiçoamentos adicionais paracodificação, incluindo flexibilidade de erro, recuperaçãode erro, e escalabilidade. Conseqüentemente, existe anecessidade de um transcodificador que proporcioneprocessamento e compactação altamente eficientes dos dadosde multimídia que utiliza as informações determinadas apartir dos próprios dados de multimídia, é escalável, e éflexível em termos de erro para uso em muitas aplicações dedados de multimídia incluindo transmissão móvel deinformações de multimídia de fluxo contínuo.

RESUMO DA INVENÇÃO

Cada um dos equipamentos e métodos detranscodificação baseados em conteúdo inventivo, descritose ilustrados tem vários aspectos, nenhum dos quais éexclusivamente responsável por seus atributos desejáveis.

Sem limitar o escopo dessa revelação, suas característicasmais proeminentes serão discutidas agora resumidamente.

Após considerar essa discussão, e particularmente apósleitura da seção intitulada "Descrição Detalhada" seentenderá como as características dessa transcodificaçãoguiada por conteúdo proporcionam aperfeiçoamentos paraequipamentos e métodos de processamento de dados demultimídia.

Os aspectos inventivos aqui descritos se referemao uso de informações de conteúdo para vários métodos decodificação de dados de multimídia e em vários módulos oucomponentes de um codificador, por exemplo, um codificadorusado em um transcodificador. Um transcodificador podeorquestrar dados de multimídia de transcodificaçãoutilizando informações de conteúdo. As informações deconteúdo podem ser recebidas a partir de outra fonte, porexemplo, metadados que são recebidos com o vídeo. 0transcodificador pode ser configurado para gerarinformações de conteúdo através de uma variedade dediferentes operações de processamento. Em alguns aspectos,o transcodificador gera uma classificação de conteúdo dosdados de multimídia, a qual é então usada em um ou maisprocessos de codificação. Em alguns aspectos, umtranscodificador guiado por conteúdo pode determinarinformações de conteúdo espacial e temporal dos dados demultimídia e utilizar as informações de conteúdo paracodificação de qualidade uniforme ciente de conteúdoatravés dos canais, e compactação/alocação de bits com baseem classificação de conteúdo.

Em alguns aspectos, as informações de conteúdo(por exemplo, metadados, métricas de conteúdo e/ou umaclassificação de conteúdo) de dados de multimídia sãoobtidas ou calculadas, e então providas aos componentes dotranscodificador para uso no processamento dos dados demultimídia para codificação. Por exemplo, um pré-processador pode utilizar certas informações de conteúdopara detecção de mudança de cena, realizar telecine inverso("IVTC"), desentrelaçamento, compensação de movimento esupressão de ruído (por exemplo, transformada de pequenasondas ("wavelet") 2D) e redução de ruído espaço-temporal,por exemplo, remoção de artefatos, remoção de ressonâncias("ringing"), remoção de blocos, e/ou remoção de ruído. Emalguns aspectos, um pré-processador também pode usar asinformações de conteúdo para amostragem descendente ("down-sampling") de resolução espacial, por exemplo, determinandoáreas "seguras" e "de manejo de ação", apropriadas, aoamostrar descendentemente a partir de definição padrão (SD)para Quarter Vide Graphics Array (QVGA).

Em alguns aspectos, um codificador inclui ummódulo de classificação de conteúdo que é configurado paracalcular informações de conteúdo. O codificador pode usarclassificação de conteúdo para controle de taxa de bit (porexemplo, alocação de bit) na determinação de parâmetros dequantização (QP) para cada MB, para estimativa demovimento, por exemplo, realizando estimativa de movimentode cor (ME), realizando predição de vetor de movimento(MV), escalabilidade na provisão de uma camada base e umacamada de aperfeiçoamento, e para flexibilidade de erromediante uso de uma classificação de conteúdo para realizaresquemas de flexibilidade de erro e hierarquia de prediçãoincluindo, por exemplo, intra-renovação adaptativa,processos de alinhamento de limite, e proporcionar dados deI-quadro redundantes em uma camada de aperfeiçoamento. Emalguns aspectos, o transcodificador utiliza a classificaçãode conteúdo em combinação com um multiplexador de dadospara manter ótima qualidade de dados de multimídia atravésdos canais. Em alguns aspectos, o codificador pode usarinformações de classificação de conteúdo para forçarquadros-I a aparecer periodicamente nos dados codificadospara permitir rápida mudança de canal. Tais implementaçõestambém podem fazer uso de I-blocos que podem ser exigidosnos dados codificados para flexibilidade de erro, de talmodo que a mudança de acesso aleatório e a flexibilidade deerro (com base, por exemplo, na classificação de conteúdo)podem ser combinadas efetivamente através da hierarquia depredição para melhorar a eficiência de codificação enquantoaumentando a robustez para os erros.

Em um aspecto um método de processar dados demultimídia compreende classificar o conteúdo dos dados demultimídia, e codificar os dados de multimídia em umprimeiro grupo de dados e em um segundo grupo de dados combase na classificação de conteúdo, em que o primeiro grupode dados compreende um coeficiente e o segundo grupo dedados compreende um primeiro refinamento diferencialassociado ao coeficiente do primeiro grupo de dados. Acodificação pode incluir determinar uma taxa de bits combase na classificação de conteúdo dos dados de multimídia,e codificar os dados de multimídia com base na taxa debits. Classificar o conteúdo pode compreender determinar acomplexidade dos dados de multimídia, e em que os dados demultimídia selecionados são codificados com base nacomplexidade dos dados de multimídia. A complexidade podecompreender complexidade temporal ou complexidade espacial,ou complexidade temporal e complexidade espacial. Acodificação pode incluir codificar os dados de multimídiade modo a permitir a decodificação apenas do primeiro grupode dados ou do primeiro grupo de dados e do segundo grupode dados em um único grupo de dados combinado. O primeirorefinamento diferencial pode indicar uma diferença entre umquadro de vídeo selecionado e os dados de quadro resultanteda decodificação do primeiro grupo de dados. 0 primeirogrupo de dados pode ser uma camada base e o segundo grupode dados pode ser uma camada de aperfeiçoamento. Alémdisso, o método pode incluir selecionar o coeficiente apartir de um coeficiente de erro residual de camada baseoriginal ou de um coeficiente de erro residual de camada deaperfeiçoamento original, e calcular o primeiro refinamentodiferencial com base no coeficiente e no coeficiente deerro residual de camada de aperfeiçoamento original. Acodificação pode originalmente compreender codificarinformações de cabeçalho de macrobloco e informações devetor de movimento no primeiro grupo de dados. Acodificação pode compreender ainda quantizar o primeirogrupo de dados em um primeiro tamanho de etapa, e quantizaro segundo grupo de dados em um segundo tamanho de etapa, emque o primeiro tamanho de etapa e o segundo tamanho deetapa são relacionados por um fator de escala. Acodificação pode incluir ainda determinar um primeiroparâmetro de quantização tendo um primeiro tamanho de etapade quantização para uso na codificação do primeiro grupo dedados, e determinar um segundo parâmetro de quantizaçãotendo um segundo tamanho de etapa de quantização para usona codificação do segundo grupo de dados, em que o primeiroe o segundo parâmetros de quantização são determinados combase nas informações de conteúdo de dados de quadroselecionado, e em que o primeiro tamanho de etapa dequantização é mais grosseiro ("coarser") do que o segundotamanho de etapa de quantização. Em outro aspecto, acodificação inclui codificar o primeiro grupo de dadosutilizando I-quadros, e P-quadros ou qualquer combinaçãodos mesmos e codificar o segundo grupo de dados utilizandoI-quadros, P-quadros, e B-quadros ou qualquer combinaçãodos mesmos.

Em outro aspecto, um equipamento para codificardados de multimídia inclui meios para classificar conteúdode dados de multimídia, meios para codificar os dados demultimídia em um primeiro grupo de dados e em um segundogrupo de dados com base na classificação de conteúdo, émque o primeiro grupo de dados compreende um coeficiente eum segundo grupo de dados compreende um primeirorefinamento diferencial associado ao primeiro coeficientede grupo de dados. Os meios para codificar podemcompreender meios para determinar uma taxa de bits com basena classificação de conteúdo dos dados de multimídia, ecodificar os dados de multimídia com dados na taxa de bits.Os meios de conteúdo de classificação podem incluir meiospara determinar a complexidade dos dados de multimídia, -eem que os dados de multimídia selecionados são codificadoscom base na complexidade dos dados de multimídia, acomplexidade compreendendo complexidade temporal oucomplexidade espacial, ou complexidade temporal ecomplexidade espacial. Os meios para codificar podemcompreender meios para permitir a decodificação apenas doprimeiro grupo de dados ou do primeiro grupo de dados e dosegundo grupo de dados em um único grupo de dadoscombinado.

Em outro aspecto, o equipamento inclui um módulode classificação de conteúdo configurado para classificarconteúdo de dados de multimídia e prover dados declassificação de conteúdo, e um codificador configurado

para codificar os dados de multimídia em um primeiro grupode dados e em um segundo grupo de dados com base naclassificação de conteúdo, em que o primeiro grupo de dadoscompreende um coeficiente e o segundo grupo de dadoscompreende um primeiro refinamento diferencial associado ao

coeficiente do primeiro grupo de dados. 0 codificador podeincluir um componente de taxa de bits configurado para umaalocação de bits com base na classificação de conteúdo, eem que o componente de codificação é configuradoadicionalmente para codificar os dados de multimídia

selecionados utilizando a alocação de bits.

Em outro aspecto, o meio legível por máquinacompreende instruções que a partir da execução fazem comque uma máquina classifique o conteúdo dos dados demultimídia, e codifique os dados de multimídia em um

primeiro grupo de dados e em um segundo grupo de dados combase na classificação de conteúdo, em que o primeiro grupode dados compreende um coeficiente e o segundo grupo dedados compreende um primeiro refinamento diferencialassociado ao coeficiente do primeiro grupo de dados.

Outro aspecto, um processador sendo configuradopara classificar conteúdo de dados de multimídia, ecodificar os dados de multimídia em um primeiro grupo dedados e em um segundo grupo de dados com base naclassificação de conteúdo, em que o primeiro grupo de dados

compreende um coeficiente e o segundo grupo de dadoscompreende um primeiro refinamento diferencial associado aocoeficiente do primeiro grupo de dados.BREVE DESCRIÇÃO DAS FIGURAS

A Figura IA é um diagrama de blocos de um sistemade transmissão de mídia incluindo um transcodificador paratranscodificar entre diferentes formatos de vídeo.

A Figura IB é um diagrama de blocos de umcodificador configurado para codificar dados de multimídiae prover um primeiro grupo de dados codificados e umsegundo grupo de dados codificados.

A Figura IC é um diagrama de blocos de umprocessador configurado para codificar dados de multimídia.

A Figura 2 é um diagrama de blocos de um exemplodo transcodificador do sistema da Figura 1.

A Figura 3 é um fluxograma ilustrando a operaçãode um segmentador ("parser") usado dentro dotranscodificador da Figura 2.

A Figura 4 é um fluxograma ilustrando a operaçãode um decodificador usado dentro do transcodificador daFigura 2.

A Figura 5 é um diagrama de temporização desistema ilustrando uma seqüência de operações realizadaspelo transcodificador da Figura 2.

A Figura 6 é um fluxograma ilustrando umaseqüência de operações e funções de um processador que podeser usado no transcodificador da Figura 2.

A Figura 7 é um diagrama de blocos de umcodificador de duas passagens exemplar que pode ser usadono transcodificador da Figura 2.

A Figura 8 ilustra um exemplo de um gráfico declassificação que ilustra um aspecto de como associarvalores de movimento e textura com classificação deconteúdo.

A Figura 9 é um fluxograma ilustrando umaoperação exemplar para classificação de conteúdo, tal comopara uso no codificador da Figura 7.

A Figura 10 é um fluxograma ilustrando a operaçãode um controle de taxa, tal como para uso com o codificadorda Figura 7.

A Figura 11 é um fluxograma ilustrando a operaçãode um estimador de movimento exemplar, tal como para usocom o codificador da Figura 7.

A Figura 12 é um fluxograma ilustrando a operaçãode uma função de codificador de decisão de modo exemplar,tal como para uso com o codificador da Figura 7.

A Figura 13 é um fluxograma ilustrando umaoperação exemplar efetuando escalabilidade para uso nocodificador da Figura 7.

A Figura 14 é um fluxograma ilustrando umaoperação exemplar efetuando fluxo de dados de distorção detaxa conforme ocorre no codificador da Figura 7, porexemplo.

A Figura 15 é um gráfico ilustrando a relaçãoentre a complexidade de codificação, bits alocados, equalidade visual humana.

A Figura 16 é um gráfico ilustrando uma fórmulade detecção de cena não-linear.

A Figura 17A é um fluxograma ilustrando oprocessamento de dados de multimídia que foram obtidos,recebidos, ou de outro modo estão acessíveis.

A Figura 17B é um diagrama de blocos de umsistema de codificação de multimídia.

A Figura 18 é um diagrama ilustrando um processode desentrelaçamento utilizando estimação/compensação demovimento.

A Figura 19 é um diagrama de blocos de um sistemade comunicação de multimídia.

A Figura 20 é um diagrama ilustrando aorganização de um fluxo de bits de video em uma camada deaperfeiçoamento e em uma camada base.

A Figura 21 é um diagrama ilustrando oalinhamento de fatias para limites de quadro de video.

A Figura 22 é um diagrama de blocos ilustrandohierarquia de predição.

A Figura 23 é um fluxograma de processoilustrando um método de codificar dados de multimídia combase na Informações de conteúdo.

A Figura 24 é um fluxograma de processoilustrando um método de codificar dados de multimídia demodo a alinhar os limites de dados com base no nível deInformações de conteúdo.

A Figura 25 é um gráfico ilustrando uma área deação segura e uma área de título segura de um quadro dedados. ·

A Figura 26 é um gráfico ilustrando uma área deação segura de um quadro de dados.

A Figura 27 é um fluxograma de processoilustrando um processo de codificar dados de multimídiautilizando intra-renovação adaptativa com base nasinformações de conteúdo de multimídia.

A Figura 28 é um fluxograma de processoilustrando um processo de codificar dados de multimídiautilizando quadros-I redundantes com base nas informaçõésde conteúdo de multimídia.

A Figura 2 9 ilustra vetores de compensação demovimento entre um quadro atual e um quadro anterior MVp eum quadro atual e um quadro seguinte MVn.

A Figura 30 é um fluxograma de processoilustrando detecção de seqüência.

A Figura 31 é um fluxograma de processoilustrando a codificação de camadas base e deaperfeiçoamento.

A Figura 32 é um desenho esquemático ilustrando acodificação de um macrobloco.

A Figura 33 é um desenho esquemático ilustrandomódulos para codificar uma camada base e uma camada deaperfeiçoamento.

A Figura 34 mostra um exemplo de um processoseletor de coeficiente de camada base e de camada deaperfeiçoamento.

A Figura 35 mostra outro exemplo de um processoseletor de coeficiente de camada base e de camada deaperfeiçoamento.

A Figura 36 mostra outro exemplo de um processoseletor de coeficiente de camada base e de camada deaperfeiçoamento.

A Figura 37 é um fluxograma de processoilustrando a codificação de dados de multimídia com base naInformações de conteúdo.

A Figura 38 é um diagrama ilustrando possíveisdecisões de sistema em um processo de telecine inverso.

A Figura 39 ilustra limites em um macrobloco aser filtrado por um processo de remoção de blocos.

A Figura 40 é um diagrama ilustrando um processode desentrelaçamento espaço-temporal.

A Figura 41 ilustra um exemplo de re-amostragémpolifásica 1-D.

A Figura 42 é um fluxograma ilustrando um exemplode estrutura GOP adaptativa em fluxo contínuo de vídeo.

Observa-se que, onde apropriado, numeraissemelhantes se referem a partes semelhantes ao longo dasvárias vistas dos desenhos.

DESCRIÇÃO DETALHADA DA INVENÇÃO

A descrição detalhada seguinte se refere a certosaspectos discutidos nessa revelação. Contudo, a invençãopode ser incorporada em diversas formas diferentes.Referência nesse relatório descritivo a "um aspecto" ou"algum aspecto" significa que um recurso, estrutura oucaracterística específica descrita em conexão com o aspectoé incluída no pelo menos um aspecto. Os surgimentos dafrase "em um aspecto", "de acordo com um aspecto", ou "emalguns aspectos" em vários pontos no relatório descritivonão estão necessariamente se referindo ao mesmo aspecto,nem são aspectos separados ou alternativos mutuamenteexclusivos de outros aspectos. Além disso, váriascaracterísticas são descritas as quais podem ser exibidaspor alguns aspectos e não por outros. Similarmente, váriasexigências são descritas as quais podem ser exigências paraalguns aspectos, porém não para outros aspectos.

A descrição a seguir inclui detalhes para proverum entendimento completo dos exemplos. Contudo, é entendidopor aqueles versados na técnica que os exemplos podem serpraticados mesmo se cada detalhe de um processo oudispositivo em um exemplo ou aspecto não for aqui descritoou ilustrado. Por exemplo, componentes elétricos podem sermostrados em diagramas de blocos que não ilustram cadaconexão elétrica ou cada elemento elétrico do componentepara não obscurecer os exemplos com detalhesdesnecessários. Em outras ocorrências, tais componentes,outras estruturas, e técnicas, podem ser mostrados emdetalhe para explicar adicionalmente os exemplos.

A presente revelação se refere ao controle deequipamento e métodos de codificação e transcodificaçãoutilizando informações de conteúdo dos dados de multimídiasendo codificados. "Informações de conteúdo" ou "conteúdo"(dos dados de multimídia) são termos amplos significandoinformações relacionadas ao conteúdo dos dados demultimídia e podem incluir, por exemplo, metadados,métricas calculadas a partir dos dados de multimídia einformações relacionadas a conteúdo associado a uma ou maismétricas, por exemplo, uma classificação de conteúdo. Asinformações de conteúdo podem ser providas a um codificador

ou determinadas por um codificador, dependendo da aplicaçãoespecífica. As informações de conteúdo podem ser usadaspara muitos aspectos da codificação de dados de multimídia,incluindo, detecção de mudança de cena, processamentotemporal, redução de ruído espaço-temporal, amostragemdescendente, determinação de taxas de bits paraquantização, escalabilidade, flexibilidade de erro,manutenção de qualidade de multimídia ótima através decanais de transmissão, e mudança rápida de canais.

Utilizando um ou mais desses aspectos, um transcodificadorpode orquestrar o processamento dos dados de multimídia eproduzir dados de multimídia codificados relacionados aoconteúdo. As descrições e figuras aqui presentes quedescrevem aspectos de transcodificação também podem seraplicáveis aos aspectos de codificação e aspectos dedecodificação.

0 equipamento de transcodificador e métodos sereferem à transcodificação a partir de um formato paraoutro, e são descritos especificamente aqui como sereferindo à transcodificação de vídeo MPEG-2 para o formato

H.264 redimensionável, aperfeiçoado para transmissãoatravés de canais sem fio para dispositivos móveis,ilustrativos de alguns aspectos. Contudo, a descrição datranscodificação de vídeo MPEG-2 para o formato H.264 nãotem o propósito de limitar o escopo da invenção, porém, ésimplesmente exemplar de alguns aspectos da invenção. 0equipamento e métodos revelados proporcionam umaarquitetura altamente eficiente que suporta codificaçãoflexível de erro com capacidades de disposição em camadas eacesso aleatório, e pode ser aplicável também àtranscodificação e/ou codificação de formatos de vídeosdiferentes de MPEG-2 e H.264.

"Dados de multimídia" ou simplesmente"multimídia" conforme aqui usado, é um termo amplo queinclui dados de vídeo (os quais podem incluir dados deáudio), dados de áudio, ou ambos, dados de vídeo e dados deáudio. "Dados de vídeo" ou "vídeo" conforme aqui usado comoum termo amplo se referindo a dados baseados em quadro oudados baseados em campo, que incluem uma ou mais imagens ouseqüências relacionadas de imagens, contendo texto,informações de imagem e/ou dados de áudio, e podem serusados para se referir aos dados de multimídia (porexemplo, os termos podem ser usados permutavelmente) amenos que de outra forma especificado.

São descritos abaixo exemplos de várioscomponentes de um transcodificador e exemplos de processosque podem usar informações de conteúdo para codificar dadosde multimídia.

A Figura IA é um diagrama de blocos ilustrando umfluxo de dados de alguns aspectos de um sistema detransmissão de dados de multimídia 100. No sistema 100, umprovedor de dados de multimídia 106 comunica os dados demultimídia codificados 104 a um transcodificador 200. Osdados de multimídia codificados 104 são recebidos pelotranscodificador 200, o qual processa os dados demultimídia 104 em dados brutos de multimídia no bloco 110.

O processamento no bloco 110 decodifica e segmenta os dadosde multimídia codificados 104, e adicionalmente processa òsdados de multimídia para prepará-los para codificação emoutro formato. Os dados de multimídia decodificados sãoprovidos ao bloco 112 onde os dados de multimídia sãocodificados para um formato ou padrão de multimídiapredeterminado. Quando os dados de multimídia tiverem sidocodificados, no bloco 114 eles são preparados paratransmissão, por intermédio, por exemplo, de um sistema detransmissão sem fio (por exemplo, uma rede de transmissãode telefonia celular, ou por intermédio de outra rede decomunicação). Em alguns aspectos, os dados de multimídiarecebidos 104 foram codificados de acordo com o padrãoMPEG-2. Após os dados de multimídia transcodifiçados 104terem sido decodificados, o transcodificador 200 codificaos dados de multimídia para um padrão H.2 64.

A Figura IB é um diagrama de blocos de umtranscodificador 130 que pode ser configurado para realizaro processamento nos blocos 110 e 112 da Figura IA. Otranscodificador 130 pode ser configurado para receberdados de multimídia, decodificar e segmentar os dados demultimídia em fluxos elementares empacotados (por exemplo,subtítulos, áudio, metadados, vídeo "bruto", dados CC, emarcas de tempo de apresentação), codificar em um formatodesejado, e prover os dados codificados para processamentoou transmissão adicional. 0 transcodificador 130 pode serconfigurado para prover dados codificados em dois ou maisgrupos de dados, por exemplo, um primeiro grupo de dadoscodificados e um segundo grupo de dados codificados, o queé referido como codificação em camadas. Em alguns exemplosde aspectos, os vários grupos de dados (ou camadas) em umesquema de codificação em camadas podem ser codificados emdiferentes níveis de qualidade, e formatados de tal modoque os dados codificados em um primeiro grupo de dados sãode uma qualidade inferior (por exemplo, proporcionam umnível de qualidade visual inferior quando exibidos) do queos dados codificados em um segundo grupo de dados.

A Figura IC é um diagrama de blocos de umprocessador 140 que pode ser configurado paratranscodificar dados de multimídia, e pode ser configuradopara realizar uma parte ou todo o processamento ilustradonos blocos 110 e 112 da Figura IA. O processador 140 podeincluir módulos 124a...n, realizar um ou mais dos processos

de transcodificação aqui descritos, incluindo decodificar,segmentar, pré-processar, e codificar, e usar informaçõesde conteúdo para processamento. O processador 140 incluitambém a memória interna 122 e pode ser configurado para secomunicar com a memória externa 120, seja direta ou

indiretamente através de outro dispositivo. O processador140 inclui também um módulo de comunicação 126 configuradopara se comunicar com um ou mais dispositivos externos aoprocessador 14 0, incluindo para receber dados de multimídiae para prover dados codificados, tal como dados codificadósem um primeiro grupo de dados e dados codificados em umsegundo grupo de dados. Em alguns exemplos de aspectos, osvários grupos de dados (ou camadas) em um esquema decodificação em camadas podem ser codificados em diferentesníveis de qualidade, e formatados de tal modo que os dadoscodificados em um primeiro grupo de dados são de umaqualidade inferior (por exemplo, proporciona um nível dequalidade visual inferior quando exibidos) do que os dadoscodificados em um segundo grupo de dados.

0 transcodificador 130 ou o pré-processador 140(configurado para transcodificação), seus componentes, eprocessos contidos no mesmo, podem ser implementados porhardware, software, firmware, middleware, microcódigo, ouqualquer combinação dos mesmos. Por exemplo, umsegmentador, decodificador, pré-processador, ou codificadorpodem ser componentes independentes, incorporados comohardware, fi rmware, middleware em um componente e outrodispositivo, ou ser implementados em microcódigo óusoftware que é executado em um processador ou umacombinação dos mesmos. Quando implementado em software,firmware, middleware ou microcódigo, o código de programaou segmentos de código que realizam a compensação demovimento, classificação de seqüência e processos decodificação pode ser armazenado em um meio legível pormáquina tal como um meio de armazenamento. Um segmento decódigo pode representar um procedimento, uma função, umsubprograma, um programa, uma rotina, uma sub-rotina, ummódulo, um pacote de software, uma classe, ou qualquercombinação de instruções, estrutura de dados, oudeclarações de programa. Um segmento de código pode seracoplado a outro segmento de código ou a um circuito dehardware mediante passagem e/ou recepção de informações,dados, argumentos, parâmetros, ou conteúdo de memória.

EXEMPLO ILUSTRATIVO DE UMA ARQUITETURA DE TRANSCODIFICADOR

A Figura 2 ilustra um diagrama de blocos de umexemplo de um transcodificador que pode ser usado para otranscodificador 200 ilustrado no sistema de transmissão demultimídia 100 da Figura 1. O transcodificador 200compreende um segmentador/decodificador 202, um pré-processador 226, um codificador 228, e uma camada desincronização 240, descrita adicionalmente abaixo. 0transcodificação 200 é configurado para usar informações deconteúdo dos dados de multimídia 104 para um ou maisaspectos do processo de transcodificação, como é aquidescrito. As informações de conteúdo podem ser obtidas apartir de uma fonte externa ao transcodificador 200,através de metadados de multimídia, ou calculada pelotranscodificador, por exemplo, pelo pré-processador 226 oupelo codificador 228. Os componentes mostrados na Figura 2são ilustrativos de um componente que pode ser incluído emum transcodificador que usas informações de conteúdo paraum ou mais processos de transcodif icação. Em umaimplementação especifica, um ou mais dos componentes dotranscodificador 200 podem ser excluídos ou componentesadiei onais podem ser incluídos. Adicionalmente, porções dotranscodificador e processos de transcodificação sãodescritas de modo a permitir que aqueles versados natécnica pratiquem a invenção mesmo se cada detalhe de umprocesso ou dispositivo não for aqui descrito.

A Figura 5 ilustra um diagrama de temporizaçãocomo uma ilustração gráfica de relações temporais daoperação dos vários componentes e/ou processos dotranscodificador 200. Conforme mostrado na Figura 5, ovídeo de fluxo contínuo codificado 104 (dados de multimídiacodificados), tal como vídeo MPEG-2, é primeiramenterecebido em um tempo arbitrário zero (0) pelo segmentador205 (Figura 2) . A seguir, o fluxo de vídeo é segmentado(501), demultiplexado 502 e decodificado 503, tal como porintermédio de um segmentador 205 em combinação com odecodificador 214. Conforme ilustrado, esses processospodem ocorrer em paralelo, com ligeiro deslocamento detemporização, para prover saída de fluxo dos dados deprocessamento para o processador 226 (Figura 2) . Em umtempo Ti 504 quando o pré-processador 226 tiver recebidodados suficientes a partir do decodificador 214 paracomeçar a produzir os resultados de processamento, asetapas de processamento restantes se tornam de naturezaseqüencial, com a primeira codificação de passagem 505,segunda codificação de passagem 506, e re-codificação 507ocorrendo em seqüência após o pré-processamento até otérmino da re-codificação em um tempo Tf 508.

O transcodificador 200, aqui descrito, pode serconfigurado para transcodificar uma variedade de dados demultimídia, e muitos dos processos se aplicam a qualquertipo de dados de multimídia que sejam transcodifiçados.Embora alguns dos exemplos aqui providos se refiramparticularmente à transcodificação de dados MPEG-2 paradados H.264, não se pretende que esses exemplos limitem arevelação aos tais dados. Aspectos de codificação descritos

abaixo podem ser aplicados à transcodificação de qualquerpadrão de dados de multimídia adequado para outro padrão dedados de multimídia adequado.

SEGMENTADOR/DECODIFICADOR

Com referência outra vez à Figura 2, osegmentador/decodificador 202 recebe dados de multimídia104. 0 segmentador/decodificador 202 inclui um segmentadorde fluxo de transporte ("parser") 205 que recebe os dadosde multimídia 104 e segmenta os dados em um fluxo elementarde vídeo (ES) 206, um ES de áudio 208, marcas de tempo deapresentação (PTS) 210 e outros dados tais como subtítulos212. Um ES carrega um tipo de dados (vídeo ou áudio) apartir de um único codificador de vídeo ou áudio. Porexemplo, um ES de vídeo compreende os dados de vídeo parauma seqüência de dados, incluindo o cabeçalho de seqüênciae todas as sub-partes da seqüência. Um fluxo elementar empacotes, ou PES, consiste em um único ES o qual foi feitoem pacotes, cada um deles tipicamente começando com umcabeçalho de pacote adicionado. Um fluxo PES contém apenasum tipo de dados a partir de uma fonte, por exemplo, apartir de um codificador de vídeo ou áudio. Os pacotes PEStêm comprimento variável, não correspondendo ao comprimentode pacote fixo dos pacotes de transporte, e podem ser muitomais longos do que um pacote de transporte. Quando ospacotes de transporte são formados a partir de um fluxoPES, o cabeçalho PES pode ser colocado no início de umacarga útil de pacote de transporte, imediatamente após ocabeçalho de pacote de transporte. O conteúdo de pacote PESrestante preenche as cargas úteis dos pacotes de transportesucessivos até que o pacote PES esteja todo usado. O pacotede transporte final pode ser preenchido com um comprimentofixo, por exemplo, mediante preenchimento com bytes, porexemplo, bytes = OxFF (todos).

0 segmentador 205 comunica o video ES 206 a umdecodificador 214 o qual é parte dosegmentador/decodificador 202, aqui mostrado. Em outrasconfigurações o segmentador 205 e o decodificador 214 sãocomponentes separados. 0 PTS 210 é enviado a um gerador dePTS de transcodificador 215, o qual pode gerar marcas detempo de apresentação separadas especificas para -otranscodificador 200 para uso no arranjo de dados a serenviado a partir do transcodificador 200 para um sistema detransmissão. O gerador 215 de transcodificador PTS pode serconfigurado para prover dados a uma camada de sincronização240 do transcodificador 200 para coordenar a sincronizaçãodos dados transmitidos.

A Figura 3 ilustra um fluxograma de um exemplo deum processo 300 que o segmentador 205 pode seguir aorealizar segmentação dos vários fluxos elementares émpacotes descritos acima. O processo 300 começa no bloco 302quando os dados de multimídia 104 são recebidos a partir deum provedor de um conteúdo 106 (Figura 1) . O processo 300prossegue para o bloco 304 onde é realizada a inicializaçãodo segmentador 205. A inicialização pode ser ativada por umcomando de aquisição independentemente gerado 306. Porexemplo, um processo que é independente do segmentador 205e se baseia em uma programação de TV externamente recebidae informações de alinhamento de canal pode gerar o comandode aquisição. Adicionalmente, descritores de armazenamento308 de fluxo de transporte em tempo real (TS) podem serintroduzidos para auxiliar em ambos, inicialização e paraprocessamento principal.

Conforme ilustrado no bloco 304, a inicializaçãopode incluir adquirir uma verificação de sintaxe decomando, realizar um processamento PSI/PSIP/SI de primeirapassagem (informações especifica de programa/protocolo deinformações de programa e sistema/informações de sistema),realizar processamento relacionado especificamente a, querseja o comando de aquisição ou a verificação deconsistência de PSI/PSIP/SI, alocar um armazenador de PES acada PES, e definir a temporização (por exemplo, paraalinhamento com o instante de inicio de aquisiçãodesejada). Os armazenadores PES contêm os dados ESsegmentados e comunicam cada dado PES segmentado a umdecodificador de áudio correspondente 216, codificador deteste 220, decodificador 214, ou gerador 215 PTS detranscodificador.

Após inicialização, o processo 300 prossegue parao bloco 310 para processamento principal dos dados demultimídia recebidos 104. O processamento no bloco 310 podeincluir filtragem de identificador de pacote alvo (PID),monitoração e processamento de PSI/PSIP/SI continuo, e umprocesso de temporização (por exemplo, para realizar umaduração de aquisição desejada) de modo que os dados demultimídia que chegam sejam passados para os armazenadorésde PES apropriados. Como resultado do processamento dosdados de multimídia no bloco 310, um descritor de programae indicação da "leitura" do armazenador de PES são gerados,os quais estabelecerão interface com o decodificador 214(Figura 2) como descrito abaixo.

Após o bloco 310, o processo 300 prossegue para obloco 314, onde ocorre o término das operações desegmentação, incluindo gerar uma interrupção de dispositivode marcação de tempo e liberação dos armazenadores PES emconseqüência de seu consumo. Observa-se que os armazenadosPES existirão para todos os fluxos elementares relevantesdo programa citado em seu descritor tal como fluxos deáudio, video e subtítulo.

Com referência outra vez à Figura 2, osegmentador 205 envia o ES de áudio 208 para umdecodificador de áudio 216 para corresponder àimplementação de transcodificador e prover o textocodificado 216 para a camada de sincronização 240 edecodificação da informações de áudio. A informações desubtítulo 212 é entregue a um codificador de texto 220. Osdados de legenda oculta (CC - closed caption) 218 a partirde um decodificador 214 também são providos ao codificadorde texto 220, o qual codifica a informações de subtítulo212 e os dados CC 218 em um formato realizado pelotranscodificador 200.

o segmentador/decodificador 202 inclui também odecodificador 214, o qual recebe o ES de vídeo 206. 0decodificador 214 pode gerar metadados de vídeo, decodificao fluxo elementar em pacotes de vídeo codificado em vídeobruto 224 (por exemplo, no formato de definição padrão) , eprocessa os dados de legenda oculta de vídeo no fluxo ES devídeo.

A Figura 4 mostra um fluxograma ilustrando umexemplo de um processo de decodif icação 400 que pode serrealizado pelo decodificador 214. 0 processo 400 começa cóma entrada de dados de fluxo elementar de vídeo 206 no bloco402. O processo 400 prossegue para o bloco 404 onde odecodificador é inicializado. A inicialização pode incluirum número de tarefas, incluindo a detecção de um cabeçalhode seqüência de vídeo (VSH), realizar VSH de primeirapassagem, seqüência de vídeo (VS), e Processamento deExtensão de Exibição VS (incluindo formato de vídeo,primários de cor, e coeficientes de matriz), e alocandoarmazenadores de dados para respectivamente armazenar aimagem decodificada, metadados associados e dados delegenda oculta (CC). Adicionalmente, a informações de"leitura" de armazenador PES de video 406 provida pelosegmentador 205 é introduzida (por exemplo, a qual pode sergerada pelo processo 300 no bloco 310 da Figura 3).

Após inicialização no bloco 404, o processo 400prossegue para o bloco 408 onde o processamento principaldo ES de video é realizado pelo decodificador 214.

Processamento principal inclui pesquisar a informações de"leitura" de armazenador de PES de video ou "interface"para disponibilidade de novos dados, decodificar o ES devideo, reconstruir e armazenar dados de pixel emsincronização de limites de imagem, metadados de geração devideo e a/v e armazenar em limites de imagem, earmazenamento de dados CC em limites de imagem. O bloco deresultados 410, do processamento principal 408 inclui ageração de descritores de seqüência, descritores dearmazenador de imagem decodificada, descritores dearmazenado de metadados, e descritores de armazenador dedados CC.

Após o processamento principal 408, o processo400 prossegue para o bloco 412 onde ele realiza um processode terminação. O processo de terminação pode incluirdeterminar as condições de terminação, incluindo nenhumdado novo ocorrendo por uma duração especifica acima de umlimite predeterminado, detecção de um código de extremidadede seqüência, e/ou detecção de um sinal de terminaçãoexplicita. O processo de terminação pode incluiradicionalmente liberar a imagem decodificada, metadadosassociados, e armazenadores de dados CC como conseqüênciade seu consumo por um pré-processador a ser descritoabaixo. O processo 400 termina no bloco 414, onde ele podeentrar em um estado de espera para ES de vídeo a serrecebido como entrada.

PRÉ-PROCESSADOR

A Figura 2, e em mais detalhe a Figura 6, ilustraum aspecto de amostra de um pré-processador 226 que podeusar informações de conteúdo para uma ou mais operações depré-processamento. O pré-processador 226 recebe osmetadados 222 e dados de vídeo "bruto" decodificado 224 apartir do segmentador/decodificador 202. O pré-processador226 é configurado para realizar certos tipos deprocessamento nos dados de vídeo 224 e nos metadados 222 eprover multimídia processada (por exemplo, quadros dereferência de camada base, quadros de referência de camadade aperfeiçoamento, informações de largura de banda,Informações de conteúdo) e vídeo para o codificador 228.Tal pré-processamento de dados de multimídia pode melhorara clareza visual, anti-serrilhado, e eficiência decompactação dos dados. Geralmente, o préOprocessador 226recebe seqüências de vídeo providas pelo decodificador 214no decodificador de segmentação 202 e converte asseqüências de vídeo em seqüências progressivas de vídeopara processamento adicional (por exemplo, codificação)pelo codificador 228. Em alguns aspectos, o pré-processador226 pode ser configurado para diversas operações, incluindotelecine inverso, desentrelaçamento, filtragem (porexemplo, remoção de artefatos; remoção de ressonância desinal; remoção de blocos, e remoção de ruído)',redimensionamento (por exemplo, amostragem descendente deresolução espacial a partir de definição padrão paraQuarter Video Graphics Array (QVGA)), e geração deestrutura GOP (por exemplo, calcular a geração de mapa decomplexidade, detecção de mudança de cena, e detecção dedesvanecimento/flash).

0 pré-processador 226 pode utilizar metadados apartir do decodif icador para realizar uma ou mais dasoperações de pré-processamento. Os metadados podem incluirinformações relacionada a, descrever, ou classificar oconteúdo dos dados de multimídia ("Informações deconteúdo"); especificamente os metadados podem incluir umaclassificação de conteúdo. Em alguns aspectos, os metadadosnão incluem informações de conteúdo desejada para operaçõesde codificação. Em tais casos o pré-processador 226 podeser configurado para determinar informações de conteúdo eusar as informações de conteúdo para operações de pré-processamento e/ou proporcionar informações de conteúdo aoutros componentes do transcodificador 200, por exemplo, odecodificador 228. Em alguns aspectos, o pré-processador226 pode usar tal informações de conteúdo para influenciara partição de GOP, determinar tipo apropriado de filtragem,e/ou determinar os parâmetros de codificação que sãocomunicados a um codificador.

A Figura 6 mostra um exemplo ilustrativo devários blocos de processo que podem ser incluídos no pré-processador 226 e ilustra processamento que pode serrealizado pelo pré-processador 226. Nesse exemplo, o pré-processador 226 recebe metadados e vídeo 222, 224 e provêdados de saída 614 compreendendo metadados (processados) evídeo para o codificador 228. Tipicamente, existem trêstipos de vídeo que podem ser recebidos. Em primeiro lugar,o vídeo recebido pode ser vídeo progressivo, onde odesentrelaçamento é exigido. Em segundo lugar, os dados devídeo podem ser vídeo de telecine, vídeo entrelaçadoconvertido a partir de seqüências de filme de 24 fps, emcujo caso o vídeo. Em terceiro lugar, o vídeo pode servídeo entrelaçado não telecinematográfico. O processador226 pode processar esses tipos de vídeo conforme descritoabaixo.

No bloco 601, o pré-processador 226 determina seos dados de vídeo recebidos 222, 224 constituem vídeoprogressivo. Em alguns casos, isso pode ser determinado apartir dos metadados se os metadados contêm talinformações, ou mediante processamento dos próprios dadosde vídeo. Por exemplo, um processo telecinematográficoinverso, descrito abaixo, pode determinar se o vídeorecebido 222 é vídeo progressivo. Se for, o processoprossegue para o bloco 607 onde operações de filtragem (porexemplo, remoção de ruído) são realizadas no vídeo parareduzir o ruído, tal como ruído branco Gaussiano. Se osdados de vídeo 222, 224 não são vídeo progressivo, no bloco601 o processo prossegue para o bloco 604 para um detectorde fase 604.

O detector de fase 604 distingue entre vídeo quese originou em um telecine e aquele que começou em umformato de transmissão padrão. Se for tomada uma decisão nosentido de que o vídeo era telecinematográfico (o caminhode decisão SIM saindo do detector de fase 604), o vídeotelecinematográfico é retornado ao seu formato original emtelecine inverso 606. Os quadros redundantes sãoidentificados e eliminados e campos derivados do mesmoquadro de vídeo são re-entrelaçados em uma imagem completa.

Como a seqüência de imagens de filme, reconstruídas, foiregistrada fotograficamente em intervalos regulares de 1/24de um segundo, o processo de avaliação de movimentorealizado em um dispositivo de partição GOP 612 ou nodecodificador 228 é mais exato utilizando as imagenstelecinematográficas inversas mais propriamente do que osdados telecinematográficos, os quais têm uma base de tempoirregular.Em um aspecto, o detector de fase 604 toma certasdecisões após o recebimento de um quadro de vídeo. Essasdecisões incluem: (i) se o presente vídeo a partir de umasaída telecinematográfica e a fase Pull Down 3:2 é uma dascinco fases P0, Pi, P2, e P4 mostradas na Figura 38; e (ii)

o vídeo foi gerado como NTSC convencional. Essa decisão édenotada como fase P5. Essas decisões aparecem como saídasdo detector de fase 604 mostrado na Figura 2. 0 caminho apartir do detector de fase 604 rotulado "SIM" aciona otelecine inverso 606 indicando que ele foi provido com afase pull down correta de modo que ele pode separar oscampos que foram formados a partir da mesma imagemfotográfica e combinar os mesmos. O caminho a partir dodetector de fase 604 rotulado "NÃO" similarmente aciona odispositivo de desentrelaçamento 605 para separar um quadro

NTSC aparente em campos para processamento ótimo. Odetector de fase 604 pode continuamente analisar os quadrosde vídeo que devido aos diferentes tipos de vídeo podem serrecebidos em qualquer tempo. Como um exemplo, vídeo deacordo com o padrão NTSC pode ser inserido no vídeo como umcomercial. Após telecine inverso, o vídeo progressivoresultante é envido para um removedor de ruído (filtro) 607o qual pode ser usado para reduzir ruído branco Gaussiano.

Quando vídeo NTSC convencional é reconhecido (ocaminho NÃO a partir do detector de fase 601), ele étransmitido para o dispositivo de desentrelaçamento 6Ó5para compactação. O dispositivo de desentrelaçamento 605transforma os campos entrelaçados em vídeo progressivo, eoperações de remoção de ruído podem ser então realizadas novídeo progressivo. Um exemplo ilustrativo do processamentode desentrelaçamento é descrito abaixo.

Dispositivos de vídeo analógico tradicionais comoas televisões renderizam o vídeo de uma maneiraentrelaçada, isto é, tais dispositivos transmitem linhas devarredura de números pares (campos par), e linhas devarredura de números impares (campo impar). Do ponto devista de amostragem de sinal, isso é equivalente a uma sub-amostragem espaço-temporal em um padrão descrito por:

<formula>formula see original document page 29</formula>

Apagame rvto, caso contrário,onde Θ significa a imagem de quadro original, F significao campo entrelaçado, e (x, y, n) representa a posiçãohorizontal, vertical, e temporal de um pixel,respectivamente.

Sem perda de generalidade, se pode supor que n=0é um campo par ao longo dessa revelação de modo que aequação 1 acima é simplificada como

<formula>formula see original document page 29</formula>

Como a dizimação não é conduzida na dimensãohorizontal, o padrão de sub-amostragem pode ser ilustradona próxima coordenada n~y.

0 objetivo de um dispositivo de desentrelaçamentoé o de transformar o video entrelaçado (uma seqüência decampos) em quadros progressivos não-entrelaçados (umaseqüência de quadros). Em outras palavras, interpolarcampos pares e impares para "recuperar" ou gerar imagens dequadros completos. Isso pode ser representado pela equação-3:

<formula>formula see original document page 29</formula>

onde Figura representa resultados de desentrelaçamento parapixels ausentes.A Figura 40 é um diagrama de blocos ilustrandocertos aspectos de um aspecto de um dispositivo dedesentrelaçamento 605 que utiliza filtragem Wmed eestimação de movimento para gerar um quadro progressivo apartir de dados de multimídia entrelaçados. A partesuperior da Figura 40 mostra um mapa de intensidade demovimento 402 que pode ser gerado utilizando informações apartir de um campo atual, dois campos anteriores (Campo PPe Campo Ρ) , e dois campos subseqüentes (Próximo Campo ePróximo Campo Próximo). O mapa de intensidade de movimento402 categoriza, ou divide, o quadro atual em dois ou maisníveis diferentes de movimento, e pode ser gerado mediantefiltragem espaço temporal, descrita em detalhe adicionalabaixo. Em alguns aspectos, o mapa de intensidade demovimento 4002 é gerado para identificar áreas estáticas,áreas de movimento lento, e áreas de movimento rápido,conforme descrito com referência à Equação 4-8 abaixo. Umfiltro espaço-temporal, por exemplo, filtro Wmed 404,filtra os dados de multimídia entrelaçados utilizandocritérios baseados no mapa de intensidade de movimento, eproduz um quadro desentrelaçado provisional espaçotemporal. Em alguns aspectos, o processo de filtragem Wmedenvolve uma vizinhança horizontal de [-1, 1], umavizinhança vertical de [-3, 3], e uma vizinhança temporalde cinco campos adjacentes, os quais são representadospelos cinco campos (Campo PP, Campo P, Campo Atual, PróximoCampo, Próximo Campo Próximo) ilustrados na Figura 40, comZ"1 representando um retardo de um campo. Em relação aoCampo Atual, o Próximo Campo e o Campo P são campos de não—paridade e o Campo PP e o Próximo Campo Próximo são camposde paridade. A "vizinhança" usada para filtragem espaço-temporal se refere à localização espacial e temporal doscampos e pixels atualmente usados durante a operação de30/118filtragem, e pode ser ilustrada como uma "abertura",conforme mostrado, por exemplo, nas Figuras 6 e 7.

O dispositivo de desentrelaçamento 605 tambémpode incluir um removedor de ruido (filtro de remoção deruido) 4006 configurado para filtrar o quadrodesentrelaçado provisional espaço-temporal pelo filtro Wmed4004. A remoção do ruido do quadro desentrelaçadoprovisional espaço-temporal torna o processo de pesquisa demovimento subseqüente mais exato especialmente se aseqüência de dados de multimídia entrelaçados originais forcontaminada por ruído branco. Ele também pode pelo menosparcialmente remover nomes alternativos entre fileiraspares e ímpares em uma imagem Wmed. 0 removedor de ruído4006 pode ser implementado como uma variedade de filtrosincluindo um removedor de ruído à base de filtro Wiener deondas pequenas e encolhimento de ondas pequenas. Umremovedor de ruído pode ser usado para remover o ruído apartir do quadro Wmed candidato antes dele ser processadoadicionalmente utilizando informações de compensação demovimento, e pode remover o ruído que esteja presente noquadro Wmed e reter o sinal presente independente doconteúdo de freqüência do sinal. Diversos tipos de filtrose remoção de ruído podem ser utilizados, incluindo filtrosde onda pequena. Ondas pequenas constituem um tipo defunções usadas para localizar um determinado sinal em ambosos domínios, de espaço e redimensionamento. A idéiafundamental por trás das ondas pequenas é a de analisar osinal em escalas e resoluções diferentes de tal modo quepequenas mudanças na representação de ondas pequenasproduzem uma pequena mudança correspondente no sinaloriginal.

Um filtro Wiener de encolhimento de ondaspequenas ou de onda pequena também pode ser empregado comoo removedor de ruído. Encolhimento de ondas pequenasconsiste em uma transformação de ondas pequenas no sinalruidoso, seguido por um encolhimento dos coeficientes deondas pequenas para zero (ou valor menor), enquantodeixando não afetados os coeficientes grandes. Finalmente,uma transformação inversa é realizada para aquisição dosinal estimado.

A filtragem de remoção de ruído reforça aexatidão da compensação de movimento em ambientes ruidosos.

A remoção de ruído de encolhimento de ondas pequenas podeenvolver um encolhimento no domínio de transformação deondas pequenas, e compreende tipicamente três etapas: umatransformada de ondas pequenas de avanço linear, umaremoção de ruído de encolhimento não-linear, e umatransformada de onda pequena inversa linear. O filtroWiener é um filtro linear MSE-ótimo que pode ser usado paramelhorar as imagens degradadas por ruído aditivo eembaçamento. Tais filtros geralmente são conhecidos natécnica e são descritos, por exemplo, em "Ideal spatialadaptation by wavelet shrinkage", referido acima, e por S.P. Ghael, A. M. Sayeed e R. G. Baraniu, "ImprovementWavelet denoising via empirical Wiener filtering",Proceedings of SPIEf vol 3169, págs. 389-399, San Diego,julho de 1997, que é expressamente incorporado aqui comoreferência integralmente.

Em alguns aspectos, um filtro de remoção de ruídose baseia em um aspecto de um filtro de ondas pequenas deranhura-B biortogonal, cúbico. Tal filtro pode ser definidopelas seguintes transformadas, direta e inversa:

<formula>formula see original document page 32</formula><formula>formula see original document page 33</formula>

A aplicação de um filtro de remoção de ruido podeaumentar a exatidão da compensação de movimento em umambiente ruidoso. As implementações de tais filtros sãodescritas adicionalmente em "Ideal spatial adaptation bywavelet shrinkage", D. L. Donoho e L. M. Johnstone,Biometrikaf vol. 8, págs. 425-455, 1994, que éexpressamente incorporada aqui como referênciaintegralmente.

A parte inferior da Figura 40 ilustra um aspectopara determinar informações de movimento (por exemplo,candidatos de vetor de movimento, estimativa de movimento,compensação de movimento) de dados de multimídiaentrelaçados. Especificamente, a Figura 40 ilustra umesquema de compensação de movimento e estimação demovimento que é usado para gerar um quadro progressivoprovisional de movimento compensado do quadro selecionado,e então combinado com o quadro provisional Wmed para formarum quadro progressivo "final" resultante, mostrado comoquadro atual desentrelaçado 4014. Em alguns aspectos, oscandidatos de vetor de movimento ("MV") (ou estimativas)dos dados de multimídia entrelaçados são providos aodispositivo de desentrelaçamento a partir de estimadores demovimento externo e usados para prover um ponto de partidapara o estimador de movimento bidirecional e compensador("ME/MC") 4018. Em alguns aspectos, um seletor de candidatoMV 4022 utiliza os MV's determinados previamente parablocos contíguos para candidatos MV dos blocos sendoprocessados; tal como os MVs de blocos processadosanteriores, por exemplo, blocos em um quadro anteriordesentrelaçado 4020. A compensação de movimento pode serfeita bidirecional, com base no quadro desentrelaçadoanterior 70 e em um próximo quadro Wmed (por exemplo,futuro) 4008. Um quadro Wmed atual 4010 e um quadro atualde movimento compensado ("MC") 4 016 são fundidos oucombinados por intermédio de um combinador 4012. Um quadroatual desentrelaçado resultante 4014, agora um quadroprogressivo, é provido de volta ao ME/MC 4018 para serusado como um quadro anterior desentrelaçado 4020 e tambémcomunicado externo ao dispositivo de desentrelaçamento 605para processamento subseqüente.

É possível desacoplar os esquemas de predição dedesentrelaçamento compreendendo interpolação entre campos apartir da interpolação intracampo com um esquema dedesentrelaçamento Wmed + MC. Em outras palavras, afiltragem Wmed espaço-temporal pode ser usadaprincipalmente para fins de interpolação intracampo,enquanto que a interpolação entre os campos pode serrealizada durante compensação de movimento. Isso reduz arelação de sinal/ruído de pico do resultado Wmed, mas aqualidade visual após compensação de movimento é empregadade forma mais agradável, porque os pixels ruins a partirdas decisões de modo de predição entre campos imprecisasserão removidas do processo de filtragem Wmed.

Após o processamento apropriado de telecine oudesentrelaçamento apropriado, no bloco 608 o vídeoprogressivo é processado para supressão e re-amostragem denome alternativo (por exemplo, redimensionamento) . Emalguns aspectos de re-amostragem, um dispositivo de re-amostragem polifásico é implementado para redimensionamentode tamanho de imagem. Em um exemplo de amostragemdescendente, a razão entre a imagem original e a imagemredimensionada pode ser de ρ / g, onde ρ e g sãorelativamente números primos inteiros. O número total defases é ρ. A freqüência de interrupção do filtro polifásicoem alguns aspectos é 0,6 para redimensionamento de fatoresem torno de 0,5. A freqüência de interrupção não combinaexatamente com a razão de redimensionamento para reforçar aresposta de alta freqüência da seqüência redimensionada.

Isso inevitavelmente permite certo serrilhado. Contudo, ésabido que a visão humana prefere imagens nítidas, porém umpouco serrilhado às imagens embaçadas e sem alias.

A Figura 41 ilustra um exemplo de re-amostragempolifásica, mostrando as fases se a razão deredimensionamento for de Η. A freqüência de interrupçãoilustrada na Figura 1 também é de H. Pixels originais sãoilustrados na figura acima com eixos verticais. Uma funçãode sincronização também é traçada centralizada em torno doseixos para representar a forma de onda de filtro. Comoescolhemos a freqüência de interrupção para ser exatamenteidêntica à razão de re-amostragem, os zeros da função desincronização se sobrepõem à posição dos pixels apósredimensionamento, ilustrado na Figura 41 com cruzes. Paraachar um valor de pixel após redimensionamento, acontribuição pode ser resumida a partir dos pixelsoriginais como mostrado na equação a seguir:

<formula>formula see original document page 35</formula>

onde fc é a freqüência de interrupção. O filtro polifásicoI-D acima pode ser empregado tanto para dimensão horizontalcomo para dimensão vertical.

Outro aspecto da reamostragem (redimensionamento)é o de considerar a sobrevarredura. Em um sinal detelevisão NTSC, uma imagem tem 486 linhas de varredura, eno vídeo digital poderia ter 720 pixels em cada linha devarredura. Contudo, nem toda a imagem completa é visível natelevisão devido aos desacordos entre o formato da tela e otamanho. A parte da imagem que não é visível é chamada desobrevarredura.

Para ajudar as transmissoras a colocarinformações útil na área visivel em tantas televisõesquanto possível, a Society of Motion Imagem & TelevisiónEngineers (SMPTE) definiu tamanhos específicos do quadro deação denominada área de ação segura e área de títulosegura. Vide prática recomendada pela SMPTE RP 27.3-1989 emSpecifications for Safe Action and Safe Title Areas TestPattern for Televisión Systems. A área de ação segura édefinida pela SMPTE como a área na qual "toda a açãosignificativa deve ocorrer". A área de título segura édefinida como a área onde "toda a informações útil pode serconfinada para garantir visibilidade na maior parte dosreceptores de televisão domésticos".

Por exemplo, com referência à Figura 25, a áreade ação segura 2510 ocupa 90% do centro da tela, fornecendo5% de borda ao redor. A área de título segura 2505 ocupa80% do centro da tela, proporcionando uma borda de 10%. Comreferência agora à Figura 26, como a área de título seguraé muito pequena, para acrescentar mais conteúdo na imagem,algumas estações colocarão texto na área de atuação segura,a qual está dentro da janela retangular branca 2615.

Comumente bordas pretas podem ser vistas nasobrevarredura. Por exemplo, na Figura 26, bordas pretasaparecem no lado superior 2620 e no lado inferior 2625 daimagem. Essas bordas pretas podem ser removidas nasobrevarredura, porque o vídeo H.264 utiliza extensão delimite na estimação de movimento. Bordas pretas estendidaspodem aumentar o residual. De forma conservadora, o limitepode ser cortado em 2%, e então realizar oredimensionamento. Os filtros para redimensionamento podemser gerados conformemente. 0 truncamento é realizado parase remover a sobrevarredura antes da amostragem descendentepolifásica.

Com referência outra vez à Figura 6, o vídeoprogressivo então prossegue para o bloco 610 onde odispositivo de remoção de blocos e operações de remoção deressonâncias de sinal são realizados. Dois tipos deartefatos, "blocagem" e "ressonâncias de sinal", comumenteocorrem nas aplicações de compactação de vídeo. Osartefatos de blocagem ocorrem porque os algoritmos decompactação dividem cada quadro em blocos (por exemplo,blocos 8x8). Cada bloco é reconstruído com alguns pequenoserros, e os erros nas bordas de um bloco freqüentementecontrastam com os erros nas bordas de blocos vizinhos,tornando visíveis os limites de blocos. Ao contrário, osartefatos de ressonâncias de sinal aparecem como distorçõesem torno das bordas de características de imagem. Osartefatos de ressonâncias de sinal ocorrem porque όcodificador descarta muitas informações na quantização doscoeficientes DCP de alta freqüência. Em alguns exemplosilustrativos, ambos, remoção de blocos e remoção deressonâncias de sinal podem utilizar filtros FRI passa-baixa (resposta de impulso finito) para ocultar essesartefatos visíveis.

Em um exemplo de processamento de remoção deblocos, um filtro de remoção de blocos pode ser empregadoem todas as bordas de blocos 4x4 de um quadro, exceto asbordas no limite do quadro e quaisquer bordas para as quaiso processo de filtragem de remoção de blocos édesabilitado. O processo de filtragem deve ser realizado naforma de macroblocos após a conclusão do processo deconstrução de quadros com todos os macroblocos em um quadroprocessados para aumentar os endereços de macroblocos. Paracada macrobloco, bordas verticais são filtradas em primeirolugar, da esquerda para a direita, e então bordashorizontais são filtradas de cima para baixo. 0 processo defiltragem de remoção de blocos Iuma é realizado nas quatrobordas de 16 amostras e o processo de filtragem de remoçãode blocos para cada componente croma é realizado em duasbordas de 8 amostras, para a direção horizontal e para adireção vertical, conforme mostrado na Figura 39. Valoresde amostra acima e para a esquerda do macrobloco atual quejá podem ter sido modificados pela operação do processo deremoção de blocos em macroblocos anteriores serão usadoscomo entrada para o processo de filtragem de remoção deblocos no macrobloco atual e podem ser modificadosadicionalmente durante a filtragem do macrobloco atual.

Valores de amostra modificados durante filtragem de bordasverticais podem ser usados como entrada para a filtragemdas bordas horizontais para o mesmo macrobloco. Um processode remoção de blocos pode ser invocado para os componentes,Iuma e croma, separadamente.

Em um exemplo de processamento de remoção deressonâncias de sinal, um filtro 2-D pode ser empregadoadaptativamente para suavizar as áreas próximas às bordas.

Pixels de borda são submetidos a pouca ou nenhuma filtragempara evitar embaçamento.

DISPOSITIVO DE PARTIÇÃO GOP

Após remoção de blocos e remoção de ressonânciasde sinal, o video progressivo é processado por umdispositivo de partição GOP 612. Partição GOP pode incluirdetectar mudanças de seqüência, gerar mapas de complexidade(por exemplo, mapas de largura de banda espacial,temporal), e partição GOP adaptativo. Cada uma das mesmas édescrita abaixo.

A. DETECÇÃO DE MUDANÇA DE CENA

Detecção de seqüência se refere a determinarquando um quadro em um grupo de imagens (GOP) exibe dadosque indicam que ocorreu uma mudança de cena. Geralmente,dentro de um GOP, os quadros podem não ter mudançassignificativas em quaisquer dois ou três (ou mais) quadrosadjacentes, ou pode haver mudanças lentas, ou mudançasrápidas. Evidentemente, essas classificações de mudança decena podem ser adicionalmente decompostas em um nivel maiorde mudanças dependendo da aplicação especifica, senecessário.

Detectar mudanças de seqüência ou cena éimportante para codificação eficiente do vídeo.

Tipicamente, quando um GOP não está mudandosignificativamente, um quadro-I no início do GOP é seguidode alguns quadros preditivos que podem codificarsuficientemente o vídeo de modo que a decodificaçãosubseqüente e exibição do vídeo são visualmente aceitáveis.

Contudo, quando uma cena está mudando, seja subitamente òulentamente, quadros-I adicionais e codificação menospreditiva (quadros-P e quadros-B) podem ser necessáriospara produzir resultados visualmente aceitáveissubseqüentemente decodificados.

Sistemas de detecção e codificação de seqüência emétodos que melhoram a performance dos sistemas decodificação existentes são descritos abaixo. Tais aspectospodem ser implementados no dispositivo de partição GOP 612do pré-processador 226 (Figura 7), ou incluídos em umdispôs itivo codificador que pode operar com ou sem um pré-processador. Tais aspectos utilizam estatísticas (oumétricas) que incluem comparações estatísticas entrequadros adicionais de dados de vídeo para determinar seocorreu uma mudança súbita de cena, se uma cena estámudando lentamente, ou se existem luzes de flash de câmerana cena que podem tornar especialmente complexa acodificação do vídeo. As estatísticas podem ser obtidas apartir de um pré-processador e então enviadas para umdispositivo de codificação, ou elas podem ser geradas em umdispositivo de codificação (por exemplo, por intermédio deum processador configurado para realizar compensação demovimento). As estatísticas resultantes auxiliam na decisãode detecção de mudança de cena. Em um sistema que realizatranscodificação, freqüentemente existe um pré-processadorou processador configurável adequado. Se o pré-processadorrealiza desentrelaçamento auxiliado por compensação demovimento, as estatísticas de compensação de movimentoestão disponíveis e prontas para uso. Em tais sistemas, umalgoritmo de detecção de seqüência pode aumentarligeiramente a complexidade do sistema.

o exemplo ilustrativo de um detector de seqüênciadescrito aqui precisa apenas utilizar as estatísticas apartir de um quadro anterior, de um quadro atual, e de umpróximo quadro, e conseqüentemente tem latência muitobaixa. o detector de seqüência diferencia vários tiposdiferentes de eventos de seqüência, incluindo mudançasúbita de cena, desvanecimento cruzado e outra mudança decena lenta, e luz de flash de câmera. Mediante determinaçãodo tipo diferente de eventos de seqüência com diferentesestratégias no codificador, a eficiência de codificação e aqualidade visual são melhoradas.

A detecção de mudança de cena pode ser usada paraqualquer sistema de codificação de vídeo para que eleconserve inteligentemente os bits mediante inserção de umquadro-I em um intervalo fixo. Em alguns aspectos, asinformações de conteúdo obtidas pelo pré-processador (porexemplo, seja incorporado em metadados ou calculado pelopré-processador 226) podem ser usadas para detecção demudança de cena. Por exemplo, dependendo das Informações deconteúdo, valores de limite e outros critérios descritosabaixo podem ser ajustados dinamicamente para diferentestipos de conteúdo de video.

Codificação de video normalmente opera em umgrupo estruturado e imagens (GOP). Um GOP normalmentecomeça com um quadro intracodifiçado (quadro-I), seguido deuma série de quadros P (preditivos) ou B (bidirecionais).Tipicamente, um quadro-I pode armazenar todos os dadosexigidos para exibição do quadro, um quadro-B se baseia nosdados nos quadros precedentes e seguintes (por exemplo,apenas contendo dados mudados a partir do quadro precedenteou é diferente dos dados no próximo quadro), e um quadro-Pcontém os dados que mudaram a partir do quadro precedente.Em utilização comum, os quadros-I são intercalados com osquadros-P e quadros-B no video codificado. Em termos detamanho (por exemplo, número de bits usados para codificaro quadro), os quadros-I são tipicamente muito maiores doque os quadros-P, os quais por sua vez são maiores do queos quadros-B. Para codificação, transmissão e processamentode decodificação, eficientes, o comprimento de um GOP deveser longo o suficiente para reduzir a perda eficiente apartir dos quadros-I grandes, e curto o suficiente paracombater o desacordo entre o codificador e o decodificador,ou dano ao canal. Além disso, os macroblocos (MB) nos Pquadros podem ser intracodifiçados pela mesma razão.

Detecção de mudança de cena pode ser usada paraum codificador de video para determinar um comprimento GOPadequado e inserir quadros-I com base no comprimento G0P,em vez de inserir um quadro-I freqüentemente não necessárioem um intervalo fixo. Em um sistema de video de fluxocontinuo prático, o canal de comunicação normalmente éprejudicado pelos erros de bit ou perdas de pacote. Ondecolocar os quadros I, ou MBs I pode significativamenteafetar a qualidade do video decodificado e a experiência devisualização. Um esquema de codificação é o de utilizarquadros intracodifiçados para imagens ou porções de imagensque têm mudança significativa a partir das imagens préviascolocadas ou porções de imagem. Normalmente essas regiõesnão podem ser efetivamente e eficientemente previstas comestimação de movimento, e a codificação pode ser feita maiseficientemente se tais regiões forem isentas das técnicasde codificação entre quadros (por exemplo, codificaçãoutilizando quadros-B e quadros-P). No contexto de dano aocanal, aquelas regiões provavelmente sofrerão propagação deerro, a qual pode ser reduzida ou eliminada (ou quase)mediante codificação intraquadro.

Porções do video GOP podem ser classificadas emduas ou mais categorias, onde cada região pode terdiferentes critérios de codificação intraquadro que podemdepender da implementação especifica. Como um exemplo, ovideo pode ser classificado em três categorias: mudançassúbitas de cena, desvanecimento e outras mudanças lentas decena, e luzes de flash de câmera.

Mudanças súbitas de cena incluem quadros que sãosignificativamente diferentes do quadro anterior,normalmente causadas por uma operação da câmera. Como oconteúdo desses quadros é diferente do conteúdo do quadroanterior, os quadros de mudança súbita de cena devem sercodificados como quadros-I.

Desvanecimento cruzado e outras mudanças lentasde cena incluem mudança lenta de cenas, normalmentecausadas por processamento em computador de seqüências decâmera. Mistura gradual de duas cenas diferentes podeparecer mais agradável aos olhos humanos, mas apresenta umdesafio para a codificação de video. Compensação demovimento não pode reduzir a taxa de bits daqueles quadrosde forma efetiva e mais intra MBs podem ser atualizadospara esses quadros.

Luzes de flash de câmera ou eventos de flash decâmera ocorrem quando o conteúdo de um quadro incluiflashes de câmera. Tais flashes são de duraçãorelativamente curta (por exemplo, um quadro); e

extremamente claros de tal modo que os pixels em um quadroretratando os flashes exibem luminância incomumenteelevadas em relação a uma área correspondente de um quadroadjacente. Luzes de flash de câmera mudam a luminância deuma imagem subitamente e rapidamente. Normalmente a duraçãode uma luz de flash de câmera é mais curta do que a duraçãode mascaramento temporal do sistema de visão humana (HVS),o qual é definido tipicamente como sendo de 44 ms. Os olhoshumanos não são sensíveis à qualidade dessas rajadas curtasde claridade e, portanto, eles podem ser codificados deforma grosseira. Como os quadros de luz de flash não podemser manejados efetivamente com compensação de movimento eeles constituem candidatos inadequados de predição paraquadros futuros, a codificação grosseira desses quadros nãoreduz a eficiência de codificação de quadros futuros. Cenasclassificadas como luzes de flash não deve ser usadas parapredizer outros quadros devido à luminância elevada"artificial" e outros quadros não podem ser usadosefetivamente para predizer esses quadros pela mesma razão.

Quando identificados, esses quadros podem ser retiradosporque eles podem exigir uma quantidade relativamenteelevada de processamento. Uma opção é a de remover osquadros de luz de flash de câmera e codificar umcoeficiente DC no lugar dos mesmos; tal solução é simples,computacionalmente rápida e economiza muitos bits.

Quando qualquer das categorias acima de quadros édetectada, um evento de seqüência é declarado. Detecção deseqüência não é apenas útil para melhorar a qualidade decodificação, ela também pode auxiliar a identificar a buscae indexação de conteúdo de video. Um aspecto ilustrativo deum processo de detecção de cena é descrito aqui abaixo.

Nesse exemplo, um processo de detecção de seqüênciaprimeiramente calcula a informações, ou métricas, para umquadro selecionado sendo processado para detecção deseqüência. As métricas podem incluir informações a partirde estimação de movimento bidimensional e processamento decompensação do video, e outras métricas baseadas em luminância.

Para realizar estimação/compensação de movimentobidimensional, uma seqüência de video pode ser pré-processada por intermédio de um compensador de movimentobidirecional que combina cada um dos blocos de 8x8 doquadro atual, com os blocos em dois, dos quadros maisadjacentes aos quadros vizinhos, um no passado, e um nofuturo. O compensador de movimento produz vetores demovimento e métricas de diferença para cada bloco. A Figura29 é uma ilustração que mostra um exemplo de combinação depixels de um quadro C atual com um quadro P passado e umquadro N futuro (ou seguinte), e ilustra vetores demovimento para os pixels combinados (vetor MVp de movimentopassado e vetor MVn de movimento futuro). Uma descriçãogeral da geração de vetores de movimento bidirecional ecodificação relacionada são geralmente apresentadas aquiabaixo com referência à Figura 32.

Após determinar a informações de movimentobidirecional (por exemplo, informações de movimento queidentifica MBs (melhor combinados) em quadros adjacentescorrespondentes, métricas adicionais podem ser geradas (porexemplo, mediante um compensador de movimento nodispositivo de partição GOP 612 ou outro componenteadequado) mediante diversas comparações do quadro atual como próximo quadro e o quadro anterior. 0 compensador demovimento pode produzir uma métrica de diferença para cadabloco. A métrica de diferença pode ser a soma da diferençaquadrada (SSD) ou uma soma da diferença absoluta (SAD). Semperda de generalidade, aqui a SAD é usada como um exemplo.

Para cada quadro, a relação SAD, também referidacomo uma "relação de contraste", é calculada como abaixo:

<formula>formula see original document page 45</formula>

onde SADp e SADn são a soma de diferenças absolutas damétrica de diferença de avanço e de recuo, respectivamente.

Deve ser observado que o denominador contém um pequenonúmero positivo ε para impedir o erro de "dividir porzero". O nominador também contém um ε para equilibrar oefeito da unidade no denominador. Por exemplo, se o quadroanterior, o quadro atual, e o próximo quadro são idênticos,a pesquisa de movimento deve produzir SADp= SADn = 0. Nessecaso, o cálculo acima gera γ = 1 em vez de 0 ou infinito.

Um histograma de luminância pode ser calculadopara cada quadro. Tipicamente as imagens de multimídia têmuma profundidade de luminância (por exemplo, número de"faixas") de oito bits. A profundidade de luminância usadapara calcular o histograma de luminância de acordo comalguns aspectos pode ser ajustada para 16 para obter ohistograma. Em outros aspectos, a profundidade deluminância pode ser ajustada em um número apropriado, oqual pode depender do tipo de dados sendo processados, dapotência computacional disponível, ou de outros critériospredeterminados. Em alguns aspectos, a profundidade deluminância pode ser ajustada dinamicamente com base em umamétrica calculada ou recebida, tal como o conteúdo dosdados.A equação abaixo ilustra um exemplo do cálculo deuma diferença de histograma de luminância (Iambda):

<formula>formula see original document page 46</formula>

onde Npi é o número de blocos na i-ésima faixa para oquadro anterior, e Ncl é o número de blocos no i-ésimafaixa para o quadro atual, e N é o número total de blocosem um quadro. Se a diferença do histograma de luminância doquadro anterior e do quadro atual for completamentedissimilar (ou desarticulado), então λ = 2.

Utilizando essas informações, uma métrica dediferença de quadro (D) é calculada como a seguir:

<formula>formula see original document page 46</formula>

onde A é uma constante escolhida por intermédio de

<formula>formula see original document page 46</formula>

aplicaçao,

O quadro selecionado (atual) é classificado comoum quadro de mudança súbita de cena se a métrica dediferença de quadro satisfizer o critério mostrado na

Equação 9:

<formula>formula see original document page 46</formula>

onde A é uma constante escolhida pela aplicação, e Ti é umlimite.

Uma simulação exemplar mostra, estabelecendo A =1, e Ti = 5 se obtém bom desempenho de detecção. Se oquadro atual é um quadro de mudança súbita de cena, entãoyc deve ser grande e γΡ deve ser pequeno. A relação— podeser usada em vez de yc isoladamente de modo que a métrica énormalizada para o nivel de atividade do contexto.

Deve ser observado que o critério acima utiliza adiferença de histograma de luminância lambda (λ) em umaforma não-linear. A Figura 16 ilustra λ * (2λ + 1) como umafunção convexa. Quando λ é pequeno (por exemplo, próximo dezero), ele é escassamente pré-ênfase. Quanto maior setornar λ, mais ênfase é conduzida pela função. Com essapré-ênfase, para qualquer λ maior do que 1.4, uma mudançasúbita de cena é detectada se o limite Ti for definido em 5.

O quadro atual é determinado como sendo umdesvanecimento cruzado ou mudança lenta de cena se amétrica D de intensidade de cena satisfizer o critériomostrado na Equação 5:

<formula>formula see original document page 47</formula>

para um certo número de quadros contínuos, onde Ti é omesmo limite usado acima e T2 é outro valor de limite.

Um evento de luz de flash normalmente faz com queo histograma de luminância mude para o lado mais claro.

Nessa câmera de aspecto ilustrativo, a estatística dohistograma de luminância é usada para determinar se oquadro atual compreende luzes de flash de câmera. Umprocesso de detecção de seqüência pode determinar se aluminância do quadro menos atual é maior do que aluminância do quadro anterior por certo limite T3, e aluminância do quadro atual é maior do que a luminância dopróximo quadro pelo limite T3, como mostrado nas Equações11 e 12:Yc-YpZT3 [11]

Yc-YNZT3 [12]

Se o critério acima não for satisfeito, o quadroatual não é classificado como compreendendo luzes de flashde câmera. Se o critério for satisfeito, o processo dedetecção de seqüência determina se métrica de diferençaretroativa SADp e métrica de diferença de avanço SADn sãomaiores do que certo limite T4, conforme ilustrado nasEquações abaixo:

<formula>formula see original document page 48</formula>

Onde: Yc é a luminância média do quadro atual, Yp é aluminância média do quadro anterior, Yn é a luminânciamédia do próximo quadro, e SADP e SADN são as métricas dediferença de avanço e de recuo associadas ao quadro atual.

O processo de detecção de seqüência determinaeventos de flash de câmera mediante primeiramentedeterminação se a luminância de um quadro atual é maior doque a luminância do quadro anterior e a luminância dopróximo quadro. Se não for, o quadro não é um evento deflash de câmera; mas, se for assim, ele pode ser. Oprocesso de detecção de seqüência então pode avaliar se amétrica de diferença de recuo é maior do que um limite T3 ese a métrica de diferença de avanço é maior do que umlimite T4; se ambas as condições são satisfeitas, -oprocesso de detecção de seqüência classifica o quadro atualcomo tendo luzes de flash de câmera. Se o critério não forsatisfeito, o quadro não é classificado como qualquer tipode evento de seqüência, ou ele pode receber umaclassificação padrão que identifica a codificação comosendo feita no quadro (por exemplo, descartar quadro,codificar como quadro-I).

Alguns valores exemplares para Ti, T2, T3 e T4 sãomostrados acima. Tipicamente, esses valores de limite sãoselecionados através do teste de uma implementaçãoespecifica de detecção de seqüência. Em alguns aspectos, umou mais dos valores limite Ti, T2, T3 e T4 sãopredeterminados e tais valores são incorporados noclassificador de seqüência no dispositivo de codificação.

Em alguns aspectos, um ou mais dos valores limite Ti, T2, T3e T4 podem ser estabelecidos durante processamento (porexemplo, dinamicamente) com base no uso de informações (porexemplo, metadados) fornecida ao classificador de seqüênciaou com base nas informações calculadas pelo próprioclassificador de seqüência.

Codificar o video utilizando a informações dedetecção de seqüência é realizado tipicamente nocodificador, porém é descrito aqui para integridade darevelação de detecção de seqüência. Com referência à Figura30, um processo de codificação 301 pode usar a informaçõesde detecção de seqüência para codificar o video com basenos seqüências detectadas na seqüência de quadros. 0processo 301 prossegue para o bloco 303, e verifica se oquadro atual é classificado como uma mudança súbita decena. Se for, no bloco 305 o quadro atual pode sercodificado como um quadro-I, e um limite GOP pode serdeterminado. Caso contrário, o processo 301 prossegue parao bloco 307; se o quadro atual for classificado como umaparte de uma cena que muda lentamente no bloco 309 ouquadro atual, e outros quadros na cena de mudança lentapodem ser codificados como um quadro preditivo (porexemplo, quadro-P ou quadro-B) . 0 processo 301 prossegueentão para o bloco 311 onde ele verifica se o quadro atualdeve ser classificado como uma cena de luz de flashcompreendendo flashes de câmera. Se for, no bloco 313 oquadro pode ser identificado para processamento especial,por exemplo, remoção ou codificação de um coeficiente DCpara o quadro; caso contrário, nenhuma classificação doquadro atual foi feita e o quadro atual pode ser codificadode acordo com outros critérios, codificado como um quadro-I, ou descartado.

No aspecto descrito acima, a quantidade dediferença entre o quadro a ser compactado e seus doisquadros adjacentes é indicada por uma métrica D dediferença de quadro. Se uma quantidade significativa de umamudança de luminância em um sentido for detectada, issosignifica um efeito de desvanecimento cruzado no quadro.

Quanto mais notável for o desvanecimento cruzado, maisganho pode ser conseguido mediante uso de quadros-B. Emalguns aspectos, uma métrica de diferença de quadromodificada é usada como mostrado na equação abaixo

<formula>formula see original document page 50</formula>

onde dP = | Yc - Yp I e dN = | Yc - Yp I constituem a diferençaIuma entre o quadro atual e o quadro anterior, e adiferença Iuma entre o quadro atual e o próximo quadro,respectivamente, Δ representa uma constante que pode serdeterminada em experimentação normal uma vez que podedepender da implementação, e α é uma variável de ponderaçãotendo um valor entre 0 e 1.

B. GERAÇÃO DE MAPA DE LARGURA DE BANDA

o pré-processador 226 (Figura 6) também pode serconfigurado para gerar um mapa de largura de banda que podeser usado para codificar os dados de multimídia. Em algunsaspectos, um módulo de classificação de conteúdo 712 nocodificador 228 (Figura 7) gera em vez disso o mapa delargura de banda.

A qualidade visual humana V pode ser uma funçãode ambos, complexidade C de codificação e bits alocados B(também referido como largura de banda) . A Figura 15 é umgráfico ilustrando essa relação. Deve ser observado que amétrica C de complexidade de codificação considerafreqüências espaciais e temporais do ponto de vista davisão humana. Para distorções mais sensíveis aos olhoshumanos, o valor de complexidade é correspondentementesuperior. Pode-se supor tipicamente que V está diminuindomonotonicamente em C, e monotonicamente aumentando em B.

Para obter qualidade visual constante, umalargura de banda (Bi) é atribuída ao i° objeto (quadro ouMB) a ser codificado que satisfaz os critérios expressosnas duas equações imediatamente abaixo:

<formula>formula see original document page 51</formula>

Nas duas equações imediatamente acima, Ci é acomplexidade de codificação do i° objeto, B é a largura debanda disponível total, e V é a qualidade visual obtidapara um objeto. A qualidade visual humana é difícil deformular como uma equação. Portanto, o conjunto de equaçõesacima não é definido de forma precisa. Contudo, se forsuposto que o modelo 3-D é contínuo em todas as variáveis,a razão de largura de banda pode ser tratada comoinalterada dentro da vizinhança de um par (C, V) . A razãode largura de banda β± é definida na equação mostradaabaixo:

<formula>formula see original document page 52</formula>

A alocação de bits pode ser então definidaconforme expressa nas seguintes equações:

<formula>formula see original document page 52</formula>

onde δ indica a "vizinhança".

A complexidade de codificação é realizada pelasensibilidade visual humana, ambas, espacial e temporal. 0modelo de visão humana de Girod é um exemplo de um modeloque pode ser usado para definir a complexidade espacial.

Esse modelo considera a freqüência espacial local e ailuminação ambiente. A métrica resultante é denominadaDcsat- Em um ponto de pré-processamento no processo, se umaimagem deve ser intracodifiçada ou intercodificada não ésabido e as razões de largura de banda para ambos sãogeradas. Os bits são alocados de acordo com a razão entreβ xNTRA de diferentes objetos de video. Para imagensintracodificadas, a razão de largura de banda é expressa naseguinte equação:

<formula>formula see original document page 52</formula>

Na equação acima, Y é o componente de luminânciamédio de um macrobloco, aINTRA é um fator de ponderação parao quadrado da luminância e Dcsat é o termo após o mesmo,Pojwtka é um fator de normalização para garantir 1 = ^jPi. Porexemplo, um valor de aINTRA = 4 consegue boa qualidadevisual. As informações de conteúdo (por exemplo, umaclassificação de conteúdo) pode ser usada para estabelecero-intra em um valor que corresponde a um nível de boaqualidade visual desejada para o conteúdo específico dovídeo. Em um exemplo, se o conteúdo do vídeo compreenderuma transmissão de noticiário de "cabeça falante", o nível

de qualidade visual pode ser estabelecido como inferiordevido ao fato da imagem de informações ou parte que podeser exibida do vídeo pode ser considerada de menorimportância do que a parte de áudio, e um número menor debits podem ser alocados para codificar os dados. Em outroexemplo, se o conteúdo de vídeo compreende um eventoesportivo, as informações de conteúdo pode ser usada paraajustar (Xintra em um valor que corresponde a um nível dequalidade visual superior porque as imagens exibidas podemser mais importantes para um espectador, e conseqüentementeum número maior de bits pode ser alocado para codificar osdados.

Para entender essa relação, se deve observar quea largura de banda é alocada de forma logarítmica comcomplexidade de codificação. 0 termo de luminância elevadoao quadrado Y2 reflete o fato de que os coeficientes commagnitude maior utilizam mais bits para codificar. Paraimpedir que o logaritmo obtenha valores negativos, aunidade é adicionada ao termo entre parênteses. Oslogaritmos com outras bases também podem ser usados.

A complexidade temporal é determinada por umamedida de uma métrica de diferença de quadro, que mede :adiferença entre dois quadros consecutivos considerando aquantidade de movimento (por exemplo, vetores de movimento)junto com uma métrica de diferença de quadro tal como asoma das diferenças absolutas (SAD).

A alocação de bits para imagens intercodifiçadaspode considerar complexidade espacial assim comocomplexidade temporal. Isso é expresso abaixo:

<formula>formula see original document page 54</formula>

Na equação acima, MVp e MVn são os vetores demovimento para frente e de recuo para o MB atual (videFigura 29). Pode ser observado que Y2 na fórmula de largurade banda intracodifiçada é substituído pela soma dasdiferenças ao quadrado (SSD) . Para entender a função deIMVp + MVn Ρ na equação acima, observar as próximascaracterísticas do sistema visual humano: áreas submetidasa movimento suave, previsível (||MVP + MVn||2 pequeno) atraema atenção e podem ser rastreadas pelo olho e tipicamentenão podem tolerar qualquer distorção a mais do que asregiões estacionárias. Contudo, as áreas submetidas a ummovimento rápido ou não previsível (||MVp + MVN||2grande) nãopodem ser rastreadas e podem tolerar quantizaçãosignificativa. Os experimentos mostram que aINTER=1,y=0.001obtêm boa qualidade visual.

C. PARTICIONAMENT0 GOP ADAPTATIVO

Em outro exemplo ilustrativo de processamento quepode ser realizado pelo pré-processador 226, o dispositivode partição GOP 612 da Figura 6 também pode mudaradaptativamente a composição de um grupo de imagenscodificadas juntas, e é discutido na referência a umexemplo utilizando MPEG2. Alguns padrões de compactação devídeo mais antigos (por exemplo, MPEG2) não exigem que umGOP tenha uma estrutura regular, embora uma delas possa serimposta. A seqüência MPEG2 sempre começa com um quadro I,isto é, aquele que foi codificado sem referência às imagensanteriores. O formato MPEG2 GOP é normalmente pré-arranjadono codificador mediante fixação do espaçamento no GOP dasimagens P ou preditivas que seguem o quadro I. Os quadros Psão imagens que foram em parte previstas a partir dasimagens I ou Ρ. Os quadros entre o quadro I inicial, e osquadros P posteriores são codificados como quadros-B. Umquadro "Β" (B significa bidirecional) pode usar as imagensI ou P anteriores e próximas seja individualmente ousimultaneamente como referência. 0 número de bitsnecessários para codificar um quadro I na média excede onúmero de bits necessários para codificar um quadro P;similarmente o número de bits necessário para codificar umquadro P na média excede aquele exigido para um quadro-B.

Um quadro pulado, se usado, não exigiria bits para a suarepresentação.

O conceito que dá sustentação ao uso dos quadrosPeB, e em algoritmos de compactação mais recentes, :osalto de quadros para reduzir a taxa dos dados necessáriospara representar o vídeo é a eliminação de redundânciatemporal. Quando a redundância temporal é elevada - isto é,existe pouca mudança de imagem para imagem - o uso de Ρ, B,ou imagens puladas representa eficientemente o fluxo devideo, porque as imagens I ou P decodificadas anteriormentesão usadas posteriormente como referências para decodificaroutras imagens P ou B.

Posicionamento GOP adaptativo se baseia no usodesse conceito adaptativamente. Diferenças entre quadrossão quantificadas e uma decisão para representar a imagempor um quadro I, Ρ, B, ou quadro pulado é automaticamentefeita após testes adequados serem realizados nas diferençasquantificadas. Uma estrutura adaptativa tem vantagens quenão estão disponíveis em uma estrutura GOP fixa. Umaestrutura fixa ignoraria a possibilidade de que poucamudança no conteúdo ocorreu; um procedimento adaptativopermitiria que muito mais quadros-B fossem inseridos entrecada quadro I e P, ou dois quadros P, desse modo reduzindoo número de bits necessários para representar adequadamentea seqüência de quadros. Inversamente quando a mudança noconteúdo de vídeo é significativa, a eficiência dos quadrosP é grandemente reduzida porque a diferença entre osquadros preditos e os quadros de referência é muito grande.

Sob essas condições, a combinação de objetos pode sair dasregiões de pesquisa de movimento, ou a similaridade entreos objetos coincidentes é reduzida devido à distorçãocausada pelas mudanças no ângulo da câmera. Nesse ponto osquadros Peo quadro Ieo seu quadro P adjacente devem serescolhidos de modo a estarem mais próximos mutuamente emenos quadros-B devem ser inseridos. Um GOP fixo poderianão fazer esse ajuste.

No sistema aqui revelado, essas condições sãodetectadas automaticamente. A estrutura GOP é flexível e éfeita para se adaptar a essas mudanças em conteúdo. 0sistema avalia uma métrica de diferença de quadro, a qualpode ser considerada como medida da distância entrequadros, com as mesmas propriedades aditivas de distância.Em conceito, dados os quadros Fi, F2 e F3 tendo asdistâncias entre quadros di2 e d23; a distância entre Fi e F3é considerada como sendo de pelo menos di2 + d23.Atribuições de quadros são feitas com base nessa métricasemelhante à distância.

0 dispositivo de partição GOP opera medianteatribuição de tipos de imagem aos quadros à medida que elessão recebidos. 0 tipo de imagem indica o método de prediçãoque pode ser exigido na codificação de cada bloco:

Imagens-I são codificadas sem referência a outrasimagens. Uma vez que elas são independentes elasproporcionam pontos de acesso no fluxo de dados onde adecodificação pode começar. E o tipo de codificação I éatribuído ao quadro se a "distância" até seu quadropredecessor exceder um limite de mudança de cena.As imagens P podem usar as imagens anteriores Iou P para predição de movimento compensado. Elas usamblocos nos campos ou quadros anteriores que podem serdeslocados a partir do bloco sendo previsto como uma basepara codificação. Após o bloco de referência ser subtraídodo bloco sendo considerado, o bloco residual é codificado,usando tipicamente a transformada discreta de co-seno paraa eliminação de redundância espacial. Um tipo decodificação P é atribuído a um quadro se a "distância"entre ele e o último quadro atribuído para ser um quadro Pexceder um segundo limite, o qual tipicamente é inferior aoprimeiro.

Imagens de quadro-B podem utilizar as imagens iPou I anteriores e seguintes para compensação de movimentoconforme descrito acima. Um bloco em uma imagem B pode serprevisto para avanço, recuo ou bidirecionalmente; ou elepoderia ser intracodificado sem referência a outrosquadros. Em H.2 64 um bloco de referência pode ser umacombinação linear de 32 blocos a partir do mesmo número dequadros. Se o quadro não pode ser atribuído para ser um dotipo I ou P, ele é designado para ser um tipo B, se a"distância" a partir dele até seu predecessor imediato formaior do que um terceiro limite, o qual tipicamente é menordo que o segundo limite.

Se o quadro não pode ser designado para se tornarum quadro B codificado, é atribuído a ele um status de"pular quadro". Esse quadro pode ser pulado porque ele évirtualmente uma cópia de um quadro anterior.

Avaliar uma métrica que quantifica a diferençaentre quadros adjacentes na ordem de exibição é a primeiraparte desse processamento que ocorre. Essa métrica é adistância referida acima; com ela, cada quadro é avaliadoem relação ao seu próprio tipo. Desse modo, o espaçamentoentre quadro IeP adjacente, ou dois quadros P sucessivos,pode ser variável. A computação da métrica começa peloprocessamento dos quadros de video com um compensador demovimento baseado em bloco, um bloco sendo a unidade básicada compactação de video, composta normalmente de 16x16pixels, embora outros tamanhos de bloco tal como 8x8, 4x4 e8x16 sejam possíveis. Para quadros consistindo em doiscampos desentrelaçados, a compensação de movimento pode serfeita em uma base de campo, a pesquisa para os blocos dereferência ocorrendo nos campos mais propriamente do quenos quadros. Para um bloco no primeiro campo do quadroatual um bloco de referência de avanço é encontrado noscampos do quadro que vem após ele; similarmente, um blocode referência de recuo encontrado nos campos do quadro queprecede imediatamente o campo atual. Os blocos atuais sãomontados em um campo compensado. 0 processo continua com osegundo campo do quadro. Os dois campos compensados sãocombinados para formar um quadro compensado de avanço e umquadro compensado de recuo.

Para os quadros criados no telecine inverso 606,a pesquisa para os blocos de referência é feita apenas emuma base de quadro, uma vez que apenas quadros de filmereconstruídos. Dois blocos de referência e duas diferenças,de avanço e de recuo, são encontrados, levando a um quadrocompensado de avanço e de recuo. Resumidamente, ocompensador de movimento produz vetores de movimento emétricas de diferença para cada bloco; porém um bloco éparte de um campo NTSC no caso da saída do dispositivo dedesentrelaçamento 605 sendo processado e é parte de umquadro de filme se a saída do telecine inversa forprocessada. Observar que as diferenças na métrica sãoavaliadas entre um bloco no campo ou quadro sendoconsiderado e um bloco que melhor combina com o mesmo, sejaem um campo ou quadro precedente ou em um campo ou quadroque vem imediatamente após ele, dependendo de se umadiferença de avanço ou recuo está sendo avaliada. Após osvalores de luminância entram nesse cálculo.

A etapa de compensação de movimento desse modogera dois conjuntos de diferenças. Existem entre os blocosde valores atuais de luminância e os valores de luminâncianos blocos de referência considerados a partir dos quadrosque estão imediatamente à frente e imediatamente atrásdaquele atual em tempo. 0 valor absoluto de cada diferençade avanço e de recuo é determinado para cada pixel e cadaum deles é somado separadamente para o quadro inteiro.Ambos os campos são incluídos nas duas somas quando oscampos desentrelaçados NTSC que compreendem um quadro sãoprocessados. Desse modo, SADp, e SADn, os valores absolutossomados das diferenças de avanço e recuo são encontrados. ·

Para cada quadro uma relação SAD é calculadautilizando a relação,

<formula>formula see original document page 59</formula>

onde SADp e SADn são os valores absolutos somadosdas diferenças de avanço e recuo respectivamente. Umpequeno número positivo é adicionado ao numerador ε paraimpedir o erro de "dividir por zero". Um termo ε similar éadicionado ao denominador, reduzindo adicionalmente asensibilidade de γ quando ou SADp ou SADn está próximo dezero.

Em um aspecto alternativo, a diferença pode ser oSSD, a soma das diferenças ao quadrado, e SAD, a soma dasdiferenças absolutas, ou o SATD, no qual os blocos devalores de pixel são transformados mediante aplicação daTransformada de Co-Seno Discreta bidimensional aos mesmosantes das diferenças nos elementos de bloco ser tiradas. Assomas são avaliadas em relação à área de vídeo ativo,embora uma área menor possa ser usada em outros aspectos.

0 histograma de luminância de cada quadroconforme recebido (não compensado em movimento) também écomputador. 0 histograma opera no coeficiente DC, isto é, ocoeficiente (0,0), no arranjo 16x16 de coeficientes que é oresultado de aplicar as duas Transformadas Discretas de Co-Seno bidimensionais ao bloco de valores de luminância seelas estiverem disponíveis. Equivalentemente o valor médiodos 256 valores de luminância no bloco 16x16 pode ser usadono histograma. Para imagens cuja profundidade de luminânciaé de 8 bits, o número de faixas é estabelecido em 16. Apróxima métrica avalia a diferença de histograma

<formula>formula see original document page 60</formula>

No exposto acima, Npi é o número de blocos a partir doquadro anterior na i-ésima faixa, e Nci é o número deblocos a partir do quadro corrente que pertence a i-ésimafaixa, N é o número total de blocos em um quadro.

Esses resultados intermediários são montados paraformar a métrica de diferença de quadro atual como

<formula>formula see original document page 60</formula>

onde yc é a razão SAD com base no quadro atua e γρé a razão SAD baseada no quadro anterior. Se uma cena temmovimento suave e seu histograma Iuma escassamente muda,então D « 1. Se o quadro atual exibe uma mudança de cenasúbita, então yc será grande e γρ deve ser pequeno. A razão— em vez de yc isoladamente é usada de modo que a métricaé normalizada para o nível de atividade do contexto.

A Figura 42 ilustra um processo de atribuir tiposde compactação aos quadros. D, a diferença de quadro atualdefinida na Equação 19, é a base para as decisões tomadascom relação às atribuições de quadro. Como indicado pelobloco de decisão 4202, se um quadro sob consideração é oprimeiro em uma seqüência, o caminho de decisão marcado SIMé seguido para o bloco 4206, desse modo declarando o quadrocomo sendo um quadro I. As diferenças de quadro acumuladassão ajustadas em zero no bloco 4208, e o processo retorna(no bloco 4210) ao bloco inicial. Se o quadro sendoconsiderado não é o primeiro quadro em uma seqüência, ocaminho marcado NÃO é seguido a partir do bloco 4202 onde adecisão foi tomada, e no bloco de teste 4202 a diferença dequadro atual é testada contra o limite de mudança de cena.Se a diferença de quadro atual for maior do que aquelelimite, o caminho de decisão marcado SIM é seguido para obloco 4206, outra vez levando a uma atribuição de um quadro-I.

Se a diferença de quadro atual for menor do que olimite de mudança de cena, o caminho NÃO é seguido para obloco 4212 onde a diferença de quadro atual é adicionada àdiferença de quadro acumulada. Continuando através dofluxograma no bloco de decisão 4214, a diferença de quadroacumulada é comparada com o limite t, o qual em geral émenor do que o limite de mudança de cena. Se a diferença dequadro acumulada for maior do que t, o controle transferepara o bloco 4216, e o quadro é designado para ser umquadro P; a diferença de quadro acumulada é entãoreajustada para zero na etapa 4218. Se a diferença dequadro acumulada for menor do que t, o controle transferedo bloco 4214 par o bloco 4220. Lá a diferença de quadroacumulada é comparada com τ, o qual é menor do que t. Se adiferença de quadro atual for menor do que τ, o quadro édesignado para ser pulado no bloco 4222 e então o processoretorna; se a diferença de quadro atual for maior do que τ,o quadro é designado para ser um quadro-B no bloco 4226.

CODIFICADOR

Com referência de volta à Figura 2, otranscodificador 200 inclui um codificador 228 que recebemetadados processados e video bruto a partir do processador226. Os metadados podem incluir qualquer informaçõesoriginalmente recebida no video original 104 e qualquerinformações calculada pelo pré-processador 226. 0codificador 228 inclui um codificador de primeira passagem230, um codificador de segunda passagem 232, e um re-codificador 234. 0 codificador 228 recebe também entrada apartir do controle e transcodificador 231 que pode proverinformações (por exemplo, metadados, informações deflexibilidade de erro, Informações de conteúdo, informaçõesde taxa de bits codificada, informações de equilíbrio decamaa base e de camada de aperfeiçoamento, e informaçõesde quantização) a partir do codificador de segunda passagem232 para o codificador de primeira passagem 230, do re-codificador 234, assim como do pré-processador 226. 0codificador 228 codifica o vídeo recebido utilizandoinformações de conteúdo recebida a partir do pré-processador 226 e/ou informações de conteúdo que é geradapelo próprio codificador 228, por exemplo, por intermédiodo módulo de classificação de conteúdo 712 (Figura 7).

A Figura 7 ilustra um diagrama de blocos demódulos funcionais que podem ser incluídos em umcodificador de duas passagens exemplar que pode ser usadopara o codificador 228 ilustrado na Figura 2. Váriosaspectos dos módulos funcionais são mostrados na Figura 7,embora a Figura Iea presente descrição não tratemnecessariamente de toda funcionalidade que pode serincorporada em um codificador. Conseqüentemente, certosaspectos dos módulos funcionais são descritos abaixo após adiscussão da codificação de camada base e deaperfeiçoamento abaixo.

CODIFICAÇÃO DE CAMADA BASE E DE CAMADA DE APERFEIÇOAMENTO

O codificador 228 pode ser um codificadorescalonável SNR, o qual pode codificar o video bruto e osmetadados a partir do processador 226 em um primeiro grupode dados codificados, também referidos aqui como uma camadabase, e um ou mais grupos adicionais de dados codificados,também referidos aqui como camadas de aperfeiçoamento. Umalgoritmo de codificação gera coeficiente de camada base "ede camada de aperfeiçoamento os quais, quandodecodificados, podem ser combinados no decodificador quandoambas as camadas estão disponíveis para decodificação.

Quando ambas as camadas não estão disponíveis, acodificação da camada base permite que ela sejadecodificada como uma camada única.

Um aspecto de tal processo de codificação demúltiplas camadas é descrito com referência à Figura 31. Nobloco 321, um quadro I é codificado com macroblocoscompletamente intracodifiçados (MBs intracodifiçados). EmH.264, os MBs intracodifiçados nos quadros I sãocodificados com predição espacial totalmente explorada, oque provê uma quantidade significativa de ganho decodificação. Existem dois submodos: Intra4x4 e Intral6xl6.

Se a camada base deve tirar proveito do ganho decodificação provido pela predição espacial, então a camadabase precisa ser codificada e decodificada antes de secodificar e decodificar a camada de aperfeiçoamento. Acodificação e decodificação de duas passagens dos quadros Isão usadas. Na camada base, um parâmetro de quantização decamada base QPb proporciona aos coeficientes detransformação um tamanho de etapa de quantização grosseira.

A diferença em termos de pixel entre o quadro original e oquadro de camada base reconstruído será codificada nacamada de aperfeiçoamento. A camada de aperfeiçoamentoutiliza um parâmetro de quantização QPe o qual proporcionaum tamanho de etapa de quantização melhor. O meio decodificação, tal como o codificador 228 na Figura 2 poderealizar a codificação no bloco 321.

No bloco 323, um codificador codifica os dados dacamada base e os dados da camada de aperfeiçoamento para osquadros P e/ou B no GOP sendo processado. 0 meio decodificação, tal como o codificador 228 pode realizar acodificação no bloco 323. No bloco 325, o processo decodificação verifica se existem mais quadros P ou B paracodificar. 0 meio de codificação, tal como o codificadorescalonável SNR 228 pode realizar a ação 325. Se restaremmais quadros P ou B, a etapa 323 é repetida até que todosos quadros no GOP sejam acabados sendo codificados. Osquadros PeB são compreendidos de macroblocosintercodifiçados (MBs intercodifiçados), embora possa haverMBs intracodifiçados nos quadros PeB como será descritoabaixo.

Para que um decodificador distinga entre os dadosde camada base e os dados de camada de aperfeiçoamento, ocodificador 228 codifica a informações de overhead, bloco327. Os tipos de informações de overhead incluem, porexemplo, dados identificando o número de camadas, dadosidentificando uma camada como uma camada base, dadosidentificando uma camada como uma camada deaperfeiçoamento, dados identificando inter-relações entrecamadas (tal como, a camada 2 é uma camada deaperfei çoamento para camada base 1, ou camada 3 é umacamada de aperfeiçoamento para camada de aperfeiçoamento2), ou dados identificando uma camada como uma camada deaperfeiçoamento final em uma seqüência de camadas deaperfeiçoamento. As informações de overhead podem estarcontidas em cabeçalhos conectados com os dados de cabeçabase e/ou de aperfeiçoamento a qual elas pertencem, oucontidas em mensagens de dados separadas. Meio decodificação, tal como codificador 228 da Figura 2 poderealizar o processo no bloco 327.

Para ter decodificação de camada única, oscoeficientes de duas camadas devem ser combinados antes daquantização inversa. Portanto, os coeficientes das duascamadas têm que ser gerados interativamente; casocontrário, isso poderia introduzir uma quantidadesignificativa de overhead. Uma razão para o overheadaumentado é que a codificação de camada base e acodificação de camada de aperfeiçoamento poderiam utilizarreferências temporais diferentes. Um algoritmo é necessáriopara gerar coeficientes de camada base e de camada deaperfeiçoamento, o qual pode ser combinado no decodificadorantes da desquantização quando ambas as camadas estãodisponíveis. Ao mesmo tempo, o algoritmo deve prover vídeode camada base aceitável quando a camada de aperfeiçoamentonão está disponível ou o decodificador decide nãodecodificar a camada de aperfeiçoamento por razões talcomo, por exemplo, economia de energia. Os detalhes de umexemplo ilustrativo de tal processo são discutidosadicionalmente abaixo no contexto da discussão resumida decodificação preditiva padrão imediatamente abaixo.

Os quadros-P (ou quaisquer seçõesintercodifiçadas) podem explorar a redundância temporalentre uma região em uma imagem atual e uma região depredição de melhor combinação em uma imagem de referência.

0 local da região de predição de melhor combinação noquadro de referência pode ser codificado em um vetor demovimento. A diferença entre a região atual e a região depredição de referência de melhor combinação é conhecidacomo erro residual (ou erro de predição).

A Figura 32 é uma ilustração de um exemplo de umprocesso de construção de quadro-P, por exemplo, em MPEG-4.

O processo 331 é uma ilustração mais detalhada de um'processo exemplar que poderia ocorrer no bloco 323 daFigura 31. O processo 331 inclui a imagem atual 333composta de macroblocos 5x5, onde o número de macroblocosnesse exemplo é arbitrário. Um macrobloco é composto de16x16 pixels. Os pixels podem ser definidos por um valor deluminância de 8 bits (Y) e dois valores de crominância de·8bits (Cr e Cb). Em MPEG, os componentes Y, Cr e Cb podemser armazenados em um formato 4:2:0, onde os componentes Cre Cb são amostrados descendentemente por 2 nas direções X eY. Portanto, cada macrobloco consistiria em 256 componentesY, 64 componentes Cr e 64 componentes Cb. O macrobloco 335da imagem atual 333 é previsto a partir da imagem dereferência 337 em um ponto de tempo diferente do que aimagem atual 333. Uma pesquisa é feita na imagem dereferência 337 para localizar o macrobloco de melhorcombinação 339 que está mais próximo, em termos de valoresde Y, Cr e Cb ao macrobloco atual 335 sendo codificado. 0local do macrobloco de melhor combinação 339 na imagem dereferência 337 é codificado no vetor de movimento 341. Aimagem de referência 337 pode ser um quadro-I ou Quadro Pque um decodificador terá reconstruído antes da construçãoda imagem atual 333. O macrobloco de melhor combinação 339é subtraído do macrobloco atual 335 (uma diferença paracada um dos componentes Y, Cr e Cb é calculado) resultandoem erro residual 343. 0 erro residual 343 é codificado comTransformada Discreta de Co-Seno 2D (DCT) 345 e entãoquantificado 347. A quantização 347 pode ser realizada paraprover compactação espacial mediante, por exemplo, alocaçãode um número menor de bits para os coeficientes de altafreqüência enquanto alocando mais bits para os coeficientesde baixa freqüência. Os coeficientes quantizados de erroresidual 343, junto com o vetor de movimento 341 e imagemde referência 333 junto com informações de identificação devetor de movimento 341 e imagem de referência 333,constituem informações codificadas representando ·οmacrobloco atual 333. As informações codificadas podem serarmazenadas na memória para uso futuro ou trabalhadas com afinalidade, por exemplo, de correção de erro ou demelhoramento de imagem, ou transmitido através da rede 34 9.

Os coeficientes quantizados codificados de erroresidual 343, junto com o vetor de movimento codificado 341podem ser usados para reconstruir o macrobloco atual 335 nocodificador para uso como parte de um quadro de referênciapara estimação de movimento subseqüente e compensação. iOcodificador pode emular os procedimentos de umdecodificador para essa reconstrução de Quadro Ρ. Aemulação do decodificador resultará em ambos, o codificadore o decodificador, trabalhando com a mesma imagem dereferência. 0 processo de reconstrução, seja ele feito emum codificador, para intercodificação adicional, ou em umdecodificador, é apresentado aqui. A reconstrução de umQuadro P pode ser iniciada após o quadro de referência (ou

uma parte de uma imagem ou quadro que está sendo usada comoreferência) ser reconstruído. Os coeficientes quantizados,codificados são desquantizados 351 e então DCT inverso 2D,ou IDCT, 353 é realizado resultando no erro residualdecodificado ou reconstruído 355. O vetor de movimentocodificado 341 é decodificado e usado para localizar omacrobloco de melhor combinação já reconstruído 357 naimagem de referência já reconstruída 337. O erro residualreconstruído 355 é então adicionado ao macrobloco de melhorcombinação reconstruído 357 para formar o macroblocoreconstruído 359. O macrobloco reconstruído 359 pode serarmazenado na memória, exibido independentemente ou em umaimagem com outros macroblocos reconstruídos, ou processadosadicionalmente para melhoramento da imagem.

Quadros-B (ou qualquer seção codificada compredição bidirecional) pode explorar a redundância temporalentre uma região em uma imagem atual e uma região depredição de melhor combinação em uma imagem prévia e umaregião de predição de melhor combinação em uma imagemsubseqüente. A região de predição de melhor combinaçãosubseqüente, e a região de predição de melhor combinaçãoanterior, são combinadas para formar uma região prevista,combinada, bidirecional. A diferença entre a região deimagem atual e a região de predição bidirecional combinada,de melhor combinação é um erro residual (ou erro depredição). Os locais da região de predição de melhorcombinação na imagem de referência subseqüente e a regiãode predição de melhor combinação na imagem de referênciaanterior podem ser codificados em dois vetores demovimento.

A Figura 33 ilustra um exemplo de um processo decodificador para codificação de coeficientes de camada basee de camada de melhoramento que podem ser realizados pelocodificador 228. As camadas de aperfeiçoamento e base sãocodificadas para prover um fluxo de bits escalonável SNR. AFigura 33 ilustra um exemplo para codificação decoeficientes de erro residual MB tal como seria feito naetapa 323 da Figura 31. Contudo, métodos similares poderiamser usados também para codificar coeficientes intra MB.Meio de codificação tal como componente de codificador 228da Figura 2 pode realizar o processo ilustrado na Figura33' e etapa 323 da Figura 32. Dados de vídeo originais (aserem codificados) 406 (dados de vídeo compreendeminformações Iuma e croma nesse exemplo) são introduzidos emum Ioop de macrobloco de melhor combinação de camada base302 em um Ioop de macrobloco de melhor combinação de camadade aperfeiçoamento 365. 0 objetivo de ambos os loops 363 e365 é o de minimizar o erro residual que é calculado nossomadores 367 e 369, respectivamente. Os loops 363 e 365podem ser realizados em paralelo, conforme mostrado, ouseqüencialmente. Os loops 363 e 365 incluem lógica parapesquisa de armazenadores 371 e 373, respectivamente, quecontêm quadros de referência, para identificar o macroblocode melhor combinação que minimiza o erro residual entre omacrobloco de melhor combinação e os dados originais 361(os armazenadores 371 e 373 podem ser o mesmo armazenador).

Os erros residuais do Ioop 363 e do Ioop 365 serãodiferentes uma vez que o Ioop de camada base 363 geralmenteutilizará um tamanho de etapa de quantização mais grosseiro(um valor QP superior) do que o Ioop de camada deaperfeiçoamento 365. Os blocos de transformação 375 e 377transformam os erros residuais de cada Ioop.

Os coeficientes transformados são entãosegmentados em coeficientes de camada base e de camada deaperfeiçoamento no seletor 379. A segmentação do seletor379 pode assumir várias formas, conforme discutido abaixo.Uma característica comum das técnicas de segmentação é queo coeficiente de camada de aperfeiçoamento, C'enh/ écalculado de tal modo que ele é um refinamento diferencialpara o coeficiente de camada base C'base. Calcular a camadade aperfeiçoamento para ser um refinamento para a camadabase permite que um decodificador decodifique o coeficientede camada base por si próprio e tenha uma representaçãorazoável da imagem, ou combine os coeficientes de camada ede camada de aperfeiçoamento e tenha uma representaçãorefinada da imagem. Os coeficientes selecionados peloseletor 379 são então quantizados pelos quantizadores 381 e

383. Os coeficientes quantizados base e (calculadoscom quantizadores 381 e 383, respectivamente) podem serarmazenados na memória ou transmitidos através de uma redepara um decodificador.

Para combinar a reconstrução do macrobloco em umdecodificador, o desquantizador 385 desquantiza oscoeficientes de erro residual de camada base. Oscoeficientes de erro residual desquantizados sãotransformados inversamente 387 e adicionados 389 aomacrobloco de melhor combinação encontrado no armazenador371, resultando em um macrobloco reconstruído que combinacom o que será reconstruído no decodif icador. 0quantificador 383, o desquantizador 391, transformadorinverso 393, somador 397 e armazenador 373 realizamcálculos similares em Ioop de aperfeiçoamentos 365 como foifeito no Ioop de camada base 363. Além disso, o somador 393é usado para combinar os coeficientes de camada deaperfeiçoamento e de camada base, desquantizados usados nareconstrução da camada de aperfeiçoamento. 0 quantificadore o desquantizador de camada de aperfeiçoamento geralmenteutilizam um tamanho de etapa de quantificador mais refinado(um QP inferior) do que a camada base.

As Figuras 34, 35 e 36 mostram exemplos dosprocessos de seletor de coeficiente de camada base e decamada de aperfeiçoamento que podem ser empregados noseletor 379 da Figura 33. Meio de seleção tal comocodificador 228 da Figura 2 pode realizar os processosilustrados nas Figuras 34, 35 e 35. Utilizando a Figura 34como um exemplo, os coeficientes transformados sãosegmentados em coeficientes de camada base e de camada deaperfeiçoamento como mostrado nas equações a seguir:

<formula>formula see original document page 71</formula>

onde a função "min" pode ser um mínimo matemático ou umamagnitude mínima dos dois argumentos. A Equação 25 éilustrada como bloco 401 e a Equação 26 é ilustrada comosomador 510 na Figura 34. Na Equação 26, Qb significa oquantificador de camada base 381, e Qb"1 significa íodesquantizador 385 da camada base. A Equação 2 6 converte :.ocoefi ciente de camada de aperfeiçoamento em um refinamentodiferencial do coeficiente de camada base calculado com aEquação 25.

A Figura 35 é uma ilustração de outro exemplo deum seletor de coeficiente de camada base e de camada deaperfeiçoamento 379. Nesse exemplo, a Equação (.) contidano bloco 405 representa o seguinte:

<formula>formula see original document page 71</formula>

O somador 407 computa o coeficiente de camada deaperfeiçoamento conforme mostrado nas duas equaçõesseguintes:

<formula>formula see original document page 71</formula>onde Cbase é dado pela Equação 27.

A Figura 36 é uma ilustração de outro exemplo deum seletor de camada base e camada de aperfeiçoamento 37 9.

Nesse exemplo, o coeficiente de camada base é inalterado ea camada de aperfeiçoamento é igual à diferença entre ocoeficiente de camada base quantificado/desquantizado e ocoeficiente de camada de aperfeiçoamento original.

Além dos coeficientes de erro residual de camadabase e de camada de aperfeiçoamento o decodificador precisade informações identificando como os MB's são codificados.

Meio de codificação tal como o componente de codificador228 da Figura 2 pode codificar informações de overhead quepode incluir um mapa de porções intracodifiçadas eintercodifiçadas, tal como, por exemplo, um mapa MB onde osmacroblocos (ou sub-macroblocos) são identificados comosendo intracodifiçados ou intercodifiçados (tambémidentificando qual tipo de intercodificação incluindo, porexemplo, de avanço, de recuo ou bidirecional) e a qualquadro(s) as porções intercodifiçadas são usadas comoreferência. Em um aspecto exemplar, o mapa MB e oscoeficientes de camada base são codificados na camada base,e o coeficiente de camada de aperfeiçoamento é codificadona camada de aperfeiçoamento.

Os quadros P e os quadros B podem conter MBsintracodifiçados assim como MBs intercodifiçados. É comumque os codificadores de video híbrido utilizem otimizaçãode distorção de taxa (RD) para decidir codificar certosmacroblocos nos quadros P ou B como MBs intracodifiçados.

Para ter decodificação de camada única onde os MB'sintracodificados não dependem dos MB's intercodifiçados decamada de aperfeiçoamento, qualquer MBs intercodifiçadosvizinhos não são usados para predição espacial dos MBsintracodificados de camada base. Para manter a complexidadecomputacional inalterada para a decodificação de camada deaperfeiçoamento, para os MBs intracodifiçados no quadro Pou B de camada base, o refinamento na camada deaperfeiçoamento poderia ser pulado.

Os MBs intracodifiçado nos quadros P ou Brequerem muitos mais bits do que os MBs intercodifiçados.

Por essa razão, os MBs intracodifiçados nos quadros P ou Bpoderiam ser codificados apenas em qualidade de camada baseem um QP superior. Isso introduzirá alguma deterioração naqualidade de video, porém essa deterioração poderia serimperceptível se fosse refinada em um quadro posterior comos coeficientes MB de intercodificação na camada base e deaperfeiçoamento conforme discutido acima. Duas razõestornam essa deterioração imperceptível. A primeira é umacaracterística do sistema visual humano (HVS) e a outra éque os MBs intercodifiçados refinam os MBsintracodifiçados. Com os objetos que mudam de posição apartir de um primeiro quadro para um segundo quadro, algunspixels o primeiro quadro são invisíveis no segundo quadro(informações a ser coberta), e alguns pixels no segundoquadro são visíveis para o primeiro tempo (informações não-coberta). Os olhos humanos não são sensíveis à informaçõesvisual não-coberta e a ser coberta. Desse modo para "ainformações não-coberta, embora ela seja codificada em umaqualidade inferior, os olhos podem não perceber adiferença. Se a mesma informações permanece no quadro Pseguinte, haverá uma elevada chance de que o quadro Pseguinte na camada de aperfeiçoamento possa refinar o mesmoporque a camada de aperfeiçoamento tem QP inferior.

Outra técnica comum que introduz os MBsintracodificados nos quadros P ou B é conhecida como Intra-renovação. Nesse caso, alguns MBs são codificados como MBsintracodificados, embora otimização R-D padrãodeterminariam que eles devam ser MBs intercodifiçados.Esses MBs intracodifiçados, contidos na camada base, podemser codificados seja com QPb ou QPe. Se QPe for utilizadopara a camada base, então nenhum refinamento é necessáriona camada de aperfeiçoamento. Se QPb for utilizado paracamada base, então o refinamento pode ser necessário, casocontrário, a camada de aperfeiçoamento, a queda dequalidade será perceptível. Como a intercodificação é maiseficiente do que a intracodificação no sentido deeficiência de codificação, esses refinamentos na camada deaperfeiçoamento serão intercodifiçados. Desse modo, oscoeficientes da camada base não serão usados para a camadade aperfeiçoamento. Portanto, a qualidade é aperfeiçoada nacamada de aperfeiçoamento sem a introdução de novasoperações.

Os quadros-B são comumente usados nas camadas deaperfeiçoamento devido às qualidades de elevada compactaçãoque eles oferecem. Contudo, os quadros-B podem ter que usarcomo referência os MBs intracodifiçados de um quadro P. Seos pixels do quadro-B devem ser codificados em qualidade de

camada de aperfeiçoamento, isso pode exigir muitos bitsdevido à qualidade inferior dos MBs intracodifiçados doquadro P, conforme discutido acima. Por tirar proveito dasqualidades do HVS, conforme discutido acima, os MBs dequadro B poderiam ser codificados em uma qualidade inferiorao usar como referência os MBs intracodif içados dequalidade inferior dos quadros P.

Um caso extremo dos MBs intracodifiçados emquadros P ou B é quando todos os MBs em um quadro P ou Bsão codificados no intramodo devido à presença de umamudança de cena no vídeo sendo codificado. Nesse caso oquadro inteiro pode ser codificado na qualidade de camadabase e nenhum refinamento na camada de aperfeiçoamento. Seuma mudança de cena ocorre em um quadro-B, e supondo que osquadros-B são codificados apenas na camada deaperfeiçoamento, então o quadro-B poderia ser codificado naqualidade de camada base ou simplesmente descartado. Se umamudança de cena ocorre em um quadro P, nenhuma mudança pode

ser necessária, porém o quadro P poderia ser descartado oucodificado na qualidade de camada base. Codificação decamada escalonável é descrita adicionalmente no Pedido dePatente US co-pendente [N° de referência doadvogado/referência n° 050078] intitulado "SCALABLE VIDEOCODING WITH TWO LAYER ENCODING AND SINGLE LAYER DECODING" ede propriedade do cessionário do presente pedido, e que éincorporado aqui como referência integralmente.

PARTE DE PRIMEIRA PASSAGEM DO CODIFICADOR

A Figura 7 mostra um exemplo ilustrativo docodificador 228 da Figura 2. Os blocos mostrados ilustramdiversos processamentos de codificador que podem serincluídos no codificador 228. Nesse exemplo, o codificador228 inclui uma parte de primeira passagem 706 acima de umalinha de demarcação 704, e uma parte de segunda passagem706 (incluindo funcionalidade do codificador de segundapassagem 232 e re-codificador 234 na Figura 2) abaixo dalinha 704.

O codificador 228 recebe os metadados e vídeobruto a partir do pré-processador 226. Os metadados podemincluir quaisquer metadados recebidos ou calculados pelopré-processador 226, incluindo os metadados relacionados ;àinformações de conteúdo do vídeo. A parte de primeirapassagem 702 do codificador 228 ilustra processosexemplares que podem ser incluídos na codificação deprimeira passagem 702, que é descrita abaixo em termos desua funcionalidade. Quando aqueles versados na técnicasaberão, tal funcionalidade pode ser incorporada dediversas formas (por exemplo, em hardware, software,firmware, ou uma combinação dos mesmos).

A Figura 7 ilustra um módulo de intra-renovaçãoadaptativa (AIR). O módulo AIR 710 provê uma entrada paraum módulo de instanciação de quadro-I 708 que instancia umquadro I com base nos metadados. A parte de primeirapassagem 702 também pode incluir um módulo de classificaçãode conteúdo 712 configurado para receber os metadados evideo e determinar informações de conteúdo relacionada aovideo. A informações de conteúdo pode ser provida a ummódulo de alocação de bit de controle de taxa 714, o qualtambém recebe os metadados e o video. O módulo de alocaçãode bits de controle 714 determina a informações de controlede bits de taxa e provê a mesma ao módulo de decisão demodo 715. A informações de conteúdo e o video podem serprovidos a um módulo de intramodelo (distorção) 716, o qualprovê informações de distorção de intracodificação aomódulo de decisão de modo 715 e uma distorção de taxa deescalabilidade para o módulo de camada base e deaperfeiçoamento 718. O video e os metadados são providos aum módulo de estimação de movimento (distorção) 720 o qualprovê informações de distorção de intercodificação para adistorção de taxa de escalabilidade para o módulo de camadabase de aperfeiçoamento 718. A distorção de taxa deescalabilidade para o módulo de camada base e deaperfeiçoamento 718 determina a informações de distorção detaxa de escalabilidade utilizando estimativas de distorçãoa partir do módulo de estimação de movimento 720 e módulode distorção intramodelo 716 que é provido ao módulo dedecisão de modo 715. O módulo de decisão de modo 715 tambémrecebe entrada a partir do módulo de ordenação departição/MB 722. O módulo de ordenamento de fatia/MB 722recebe entrada a partir de um módulo de flexibilidade deerro 740 (mostrado na parte de segunda passagem 706), eprovê informações sobre alinhamento de porçõesindependentemente codificáveis de video (partições) comlimites de unidades de acesso para flexibilidade de erro aomódulo de decisão de modo 715. O módulo de decisão de modo715 determina informações de modo de codificação com baseem suas entradas e provê o "melhor" modo de codificação àparte de segunda passagem 706. Explanação ilustrativaadicional de alguns exemplos de tal codificação de parte deprimeira passagem 702 é descrita abaixo.

Como declarado acima, o módulo de classificaçãode conteúdo 712 recebe os metadados e o vídeo brutofornecido pelo pré-processador 226. Em alguns exemplos, opré-processador 22 6 calcula as informações de conteúdo apartir dos dados de multimídia e provê as informações deconteúdo ao módulo de classificação de conteúdo 712 (porexemplo, nos metadados), o qual pode usar as informações deconteúdo para determinar uma classificação de conteúdo paraos dados de multimídia. Em alguns outros aspectos, o módulode classificação de conteúdo 712 é configurado paradeterminar diversas informações de conteúdo a partir dosdados de multimídia, e também pode ser configurado paradeterminar uma classificação de conteúdo.

O módulo de classificação de conteúdo 712 podeser configurado para determinar uma classificação deconteúdo diferente para vídeo tendo diferentes tipos deconteúdo. A classificação de conteúdo diferente poderesultar em diferentes parâmetros usados em aspectos decodificação dos dados de multimídia, por exemplo,determinando uma taxa de bits (por exemplo, alocação debits) para determinar parâmetros de quantização, estimaçãode movimento, escalabilidade, flexibilidade de erro,mantendo qualidade de dados de multimídia ótima através dóscanais, e para esquemas de rápida mudança de canal (porexemplo, forçando os quadros-I a permitir periodicamente amudança rápida de canal. De acordo com um exemplo, ocodificador 228 é configurado para determinar a otimizaçãode distorção de taxa (R-D) e alocações de taxa de bit combase na classificação de conteúdo. Determinar umaclassificação de conteúdo permite que os dados demultimídia sejam compactados até um nível de qualidadedeterminado correspondendo a uma taxa de bits desejada combase em uma classificação de conteúdo. Além disso, medianteclassificação do conteúdo dos dados de multimídia (porexemplo, determinando uma classificação de conteúdo combase no Sistema Visual Humano), a qualidade de percepçãoresultante dos dados de multimídia comunicados em umaexibição de um dispositivo recebedor é tornada independenteno conteúdo de vídeo.

Como um exemplo de um procedimento ao qual omódulo de classificação de conteúdo 712 é submetido paraclassificar conteúdo, a Figura 9 mostra um processo 900ilustrando um processo exemplar através do qual o módulo declassificação de conteúdo 712 pode operar. Conformemostrado, o processo 900 começa no bloco de entrada 902onde o módulo de classificação de conteúdo 712 recebe osdados brutos de multimídia e os metadados. O processo 900então prossegue para o bloco 904 onde o módulo declassificação de conteúdo 712 determina informaçõesespacial e informações temporal dos dados de multimídia. Emalguns aspectos, as informações espaciais e as informaçõestemporais são determinadas mediante mascaramentos espaciaise temporais (por exemplo, filtragem). As informaçõesespaciais e temporais podem ser determinadas com base emmetadados que incluem dados de mudança de cena e suavizaçãode vetor de movimento (MV). 0 processo 900 prossegue entãopara o bloco 912 o qual realiza estimativas de complexidadeespacial, de complexidade temporal, e de sensibilidade. 0processo 900 prossegue então para o bloco 916 onde oconteúdo dos dados de multimídia é classificado com basenos resultados dos dados espaciais, temporais, e desensibilidade nos blocos 904 e 912. Além disso, no bloco916 uma curva de distorção de taxa específica (R-D) podeser selecionada e/ou dados de curva R-D podem seratualizados. O processo 900 prossegue então para o bloco desaída 918, onde a saída pode incluir um mapa decomplexidade-distorção ou valor indicando atividadeespacial e temporal (por exemplo, uma classificação deconteúdo), e/ou as curvas de R-D selecionadas, Comreferência de volta à Figura 7, o módulo de classificaçãode conteúdo 712 provê uma saída para um módulo de alocaçãode bits de controle de taxa 714, um módulo intramodelo(distorção) 716, e também para o módulo 708 de instanciaçãode quadro I, discutido acima.

INFORMAÇÕES DE CONTEÚDO

O módulo de classificação de conteúdo 712 podeser configurado para calcular uma variedade de informaçõesde conteúdo a partir dos dados de multimídia, incluindo umavariedade de métricas relacionadas a conteúdo, incluindocomplexidade espacial, complexidade temporal, valores derazão de contraste, métrica de diferença de quadro edesvios padrão, descritos adicionalmente abaixo.

O módulo de classificação de conteúdo 712 podeser configurado para determinar a complexidade espacial e acomplexidade temporal dos dados de multimídia, e tambémpara associar um valor de textura à complexidade espacial eum valor de movimento à complexidade temporal. O módulo declassificação de conteúdo 712 recebe informações deconteúdo pré-processadas relacionadas aos conteúdos dósdados de multimídia sendo codificados a partir do pré-processador 226, ou alternativamente, o pré-processador 226pode ser configurado para calcular a Informações deconteúdo. Conforme descrito acima, as informações deconteúdo podem incluir, por exemplo, um ou mais valoresDcsat/ valores de razão de contraste, vetores de movimento(MVs), e soma de diferenças absolutas (SADs).

Em geral, os dados de multimídia incluem uma oumais seqüências de imagens, ou quadros. Cada quadro podeser decomposto em blocos de pixels para processamento. Acomplexidade espacial é um termo amplo que descrevegeralmente uma medida do nível de detalhes espaciais dentrode um quadro. Cenas com áreas principalmente planas ouinalteradas ou de pouca mudança de luminância e crominânciaterão baixa complexidade espacial. A complexidade espacialé associada com a textura dos dados de vídeo. Acomplexidade espacial se baseia, nesse aspecto, em umamétrica da sensibilidade visual humana denominada Dcsatf aqual é calculada para cada bloco como uma função dailuminação ambiente e freqüência espacial local. Aquelesversados na técnica têm conhecimento das técnicas para usarpadrões de freqüência espacial e características deiluminação e contraste das imagens visuais para tirarproveito do sistema visual humano. Algumas métricas desensibilidade são conhecidas para se tirar proveito daslimitações de perspectiva do sistema visual humano epoderiam ser usadas com o método aqui descrito.

A complexidade temporal é um termo amplo o qual éusado para descrever geralmente uma medida do nível demovimento em dados de multimídia conforme referido entrequadros em uma seqüência de quadros. Cenas (por exemplo,seqüências de quadros de dados de vídeo) com pouco ounenhum movimento têm uma baixa complexidade temporal. Acomplexidade temporal pode ser calculada para cadamacrobloco, e pode se basear no valor Dcsat, vetores demovimento e na soma das diferenças de pixels absolutosentre um quadro e outro quadro (por exemplo, um quadro dereferência).

A métrica de diferença de quadro proporciona umamedida da diferença entre dois quadros consecutivosconsiderando a quantidade de movimento (por exemplo, vetorde movimento ou MV) junto com a energia residualrepresentada como soma da diferença absoluta (SAD) entre umpreditor e o macrobloco atual. Diferença de quadro tambémproporciona uma medida das eficiências de prediçãobidirecional ou unidirecional.

Um exemplo de uma métrica de diferença de quadrocom base na informações de movimento recebida a partir deum pré-processador realizando potencialmentedesentrelaçamento de movimento compensado é como a seguir.

O dispositivo de desentrelaçamento realiza uma estimação domovimento bidirecional e desse modo o vetor de movimentobidirecional e a informações SAD estão disponíveis. Umadiferença de quadro representada por SAD_MV para cadamacrobloco pode ser derivada a seguir:

<formula>formula see original document page 81</formula>

onde MV = Square_root (MVx2 + MVy2), SAD = minCSAE^, SADP), Qnde SADn é qSAD computado a partir do quadro de referência de recuo, eSADp é o SAD computado a partir do quadro de referência deavanço.

Outra abordagem de estimar uma diferença dequadro foi descrita acima com referência às Equações 6-8.

Uma razão SAD (ou razão de contraste) γ pode ser calculadacomo descrito anteriormente acima na Equação 6. Umhistograma de luminância de cada quadro também pode serdeterminado, a diferença do histograma λ sendo calculadautilizando a Equação 7. A métrica D de diferença de quadropode ser calculada conforme mostrado na Equação 8.

Em um exemplo ilustrativo, uma razão de contrastee uma métrica de diferença de quadro são utilizadas daseguinte maneira para obter uma classificação de conteúdode video, a qual poderia predizer de forma segura ascaracterísticas em uma determinada seqüência de vídeo.Embora descrito aqui como ocorrendo no codificador 228, umpré-processador 226 também pode ser configurado paradeterminar uma classificação de conteúdo (ou outraInformações de conteúdo) e passar a classificação deconteúdo para o codificador 228 por intermédio demetadados. O processo descrito no exemplo abaixo classificao conteúdo em oito classes possíveis, similar àclassificação obtida a partir da análise baseada em curvaR-D. O processo de classificação produz um valor na faixaentre Oel para cada superquadro dependendo dacomplexidade da cena e do número de ocorrências de mudançade cena naquela superquadro. 0 módulo de classificação deconteúdo no pré-processador pode executar as seguintesetapas (1) — (5) para cada superquadro para obter uma métricade classificação de conteúdo a partir dos valores dediferença de quadro e contraste de quadro.

1. Calcular Contraste de Quadro Médio e Desvio deContraste de Quadro a partir dos valores de contraste demacrobloco.

2. Normalizar os Valores de Contraste de Quadro ede Diferença de Quadro utilizando os valores obtidos apartir de simulações, os quais são 40 e 5 respectivamente.

3. Computar uma métrica de classificação deconteúdo utilizando, por exemplo, a equação generalizada:<formula>formula see original document page 83</formula>

onde CCWl, CCW2, CCW3 e CCW4 são os fatores de ponderação.Nesse exemplo, os valores são escolhidos para ser 0.2 paraCCW1, 0.9 para CCW2, 0.1 para CCW3 e -0.00009 para CCW4.

4. Determinar o número de mudanças de cena nosuperquadro. Geralmente, um superquadro se refere a umgrupo de imagens ou quadros que podem ser exibidos em umperíodo de tempo específico. Tipicamente, o período detempo é de um segundo. Em alguns aspectos, um superquadrocompreende 30 quadros (para vídeo de 30/fps). Em outrosaspectos um superquadro compreende 24 quadros (vídeo de24/fps). Dependendo do número de mudanças de cena, um doscasos a seguir é executado.

(a) Nenhuma Mudança de Cena: Quando não hámudança de cena em um superquadro, a métrica écompletamente dependente apenas dos valores dediferença de quadro conforme mostrado na equaçãoa seguir:

<formula>formula see original document page 83</formula>

(b) Mudança de Cena Única: Quando há um quadro demudança de cena única observado no superquadro, aequação padrão seria usada para computar amétrica, como mostrado abaixo:

<formula>formula see original document page 83</formula>

(c) Duas Mudanças de Cena: Quando é observada queexistem no máximo duas mudanças de cena nosuperquadro determinado, ao último superquadro éconcedido mais peso do que ao primeirosuperquadro uma vez que o primeiro superquadroseria de qualquer forma renovado pelo mencionadopor último, rapidamente, conforme mostrado naequação a seguir:

<formula>formula see original document page 84</formula>

(d) Três ou mais Mudanças de Cena: Se forobservado que o superquadro determinado tem maisdo que 3 quadros I (diz-se Ν) , o último quadro Ίrecebe mais peso e todos os outros quadros Irecebem um peso de 0.05, conforme mostrado riaequação a seguir:

<formula>formula see original document page 84</formula>

5. Uma correção pode ser usada para a métrica nocaso de cenas de movimento lento quando o meio de Diferençade Quadro é inferior a 0.05. Um deslocamento de (CCOFFSET)0.33 seria adicionado a CCMetric.

O módulo de classificação de conteúdo 712 utilizao valor Dcsat/ vetores de movimento e/ou a soma dásdiferenças absolutas para determinar um valor indicando umacomplexidade espacial para o macrobloco (ou quantidadedesignada de dados de video). A complexidade temporal édeterminada por uma medida da métrica de diferença dequadro (a diferença entre dois quadros consecutivosconsiderando a quantidade de movimento, com vetores demovimento, e a soma das diferenças absolutas entre osquadros).

Em alguns aspectos, o módulo de classificação deconteúdo 712 pode ser configurado para gerar um mapa delargura de banda. Por exemplo, a geração do mapa de largurade banda pode ser realizada por intermédio do módulo declassificação de conteúdo 712 se o pré-processador 226 nãogerar um mapa de largura de banda.

DETERMINANDO VALORES DE TEXTURA E MOVIMENTO

Para cada macrobloco nos dados de multimídia, omódulo de classificação conteúdo 712 associa um valor detextura com a complexidade espacial e um valor de movimentocom a complexidade temporal. O valor de textura se refereaos valores de luminescência nos dados de multimídia, ondeum valor de textura baixo indica pequenas mudanças nosvalores de luminescência de pixels vizinhos dos dados, e umvalor de elevada textura indica grandes mudanças nosvalores de luminescência de pixels vizinhos dos dados.Quando os valores de textura e movimento são calculados, omódulo de classificação de conteúdo 712 determina umaclassificação de conteúdo mediante consideração de ambas asinformações, de movimento e de textura. O módulo declassificação de conteúdo 712 associada a textura para osdados de vídeo sendo classificada com um valor de texturarelativo, por exemplo, "Baixa" textura, "Média" textura, ou"Elevada" textura, o que geralmente indica os valores decomplexidade de luminância dos macroblocos. Além disso, ;omódulo de classificação de conteúdo 712 associa o valor demovimento calculado para os dados de vídeo sendoclassificados como um valor de movimento relativo, porexemplo, "Pouco" movimento, "Médio" movimento, ou "Grande"movimento o que geralmente indica a quantidade de movimentodos macroblocos. Em aspectos alternativos, podem ser usadasmais ou menos categorias para movimento e textura. Então,uma métrica de classificação de conteúdo é entãodeterminada mediante consideração dos valores associados detextura e movimento.

A figura 8 ilustra um exemplo de um gráfico declassificação que ilustra como os valores de movimento etextura são associados a uma classificação de conteúdo. Umapessoa com conhecimentos comuns na técnica estáfamiliarizada com muitos modos para implementar tal gráficode classificação, por exemplo, em uma tabela de consulta ouum banco de dados. 0 gráfico de classificação é gerado combase em avaliações predeterminadas de conteúdo de dados devideo. Para determinar a classificação de dados de video,um valor de textura de "Baixo", "Médio" ou "elevado" (rto"eixo geométrico-x") é referenciado cruzado com um valor demovimento de "Baixo", "Médio" ou "elevado" (no "eixogeométrico-y"). Uma classificação de conteúdo indicada nobloco de interseção é atribuída aos dados de vídeo. Porexemplo, um valor de textura de "Elevado" e um valor demovimento de "Médio" resulta em uma classificação de sete(7) . A figura 8 ilustra várias combinações de valores demovimento e textura relativos que são associados a oitoclassificações de conteúdo diferentes, nesse exemplo. Emalguns outros aspectos, um número maior ou menor declassificações pode ser utilizado. A descrição adicional deum aspecto ilustrativo de classificação de conteúdo :érevelada no pedido de patente US copendente no. 11/373.577intitulado "CONTENT CLASSIFICATION FOR MULTIMEDIAPROCESSING" depositado em 10 de março de 2006, cedido aocessionário do presente e pela presente incorporadaexpressamente a título de referência aqui.ALOCAÇÃO DE BIT DE CONTROLE DE TAXA

Como descrito aqui, uma classificação de conteúdode dados de multimídia pode ser utilizada na codificação dealgoritmos para melhorar eficazmente o gerenciamento debits enquanto mantém uma constante a qualidade perceptivade video. Por exemplo, a métrica de classificação pode serutilizada em algoritmos para detecção de mudança de cena,codificação de controle de alocação de taxa de bits e

conversão ascendente de taxa de quadro (FRUC). Sistemas decompactador/descompactador (codec) e algoritmos deprocessamento de sinais digitais são comumente utilizadosem comunicações de dados de video, e podem ser configuradospara conservar largura de banda, porém há um equilíbrioentre qualidade e conservação de largura de banda. Osmelhores codecs fornecem conservação máxima de largura debanda enquanto produzem degradação mínima de qualidade devídeo.

Em um exemplo ilustrativo, o módulo de alocaçãode bit de controle de taxa 714 utiliza a classificação deconteúdo para determinar uma taxa de bits (por exemplo, onúmero de bits alocado para codificar os dados demultimídia) e armazena a taxa de bits na memória para usopor outro processo e componentes do codificador 228. Umataxa de bits determinada a partir da classificação dosdados de vídeo pode ajudar a conservar largura de bandaenquanto fornece dados de multimídia em um nível dequalidade compatível. Em um aspecto, uma taxa de bitsdiferente pode ser associada a cada uma das oitoclassificações de conteúdo diferentes e então aquela taxade bits é utilizada para codificar os dados de multimídia.0 efeito resultante é que embora as classificações deconteúdo diferentes de dados de multimídia sejam alocadasum número diferente de bits para codificação, a qualidadepercebida é similar ou compatível quando visualizada em umdisplay.

Genericamente, dados de multimídia com umaclassificação de conteúdo mais elevada são indicativos deum nivel mais elevado de movimento e/ou textura e sãoalocados mais bits quando codificados. Dados de multimídiacom uma classificação mais baixa (indicativa de menostextura e movimento) são alocados menos bits. Para dados demultimídia de uma classificação específica de conteúdo, ataxa de bits pode ser determinada com base em um nívelselecionado de qualidade percebida alvo para visualizar osdados de multimídia. A determinação de qualidade de dadosde multimídia pode ser feita por seres humanos visualizandoe classificando os dados de multimídia. Em alguns aspectosalternativos, estimativas de qualidade de dados demultimídia podem ser feitas por sistemas de testeautomático utilizando, por exemplo, algoritmos de relaçãode sinal para ruído. Em um aspecto, um conjunto de níveisde qualidade padrão (por exemplo, cinco) e uma taxa de bitscorrespondente necessária para obter cada nível dequalidade específico são predeterminados para dados demultimídia de cada classificação de conteúdo. Paradeterminar um conjunto de níveis de qualidade, dados demultimídia de uma classificação de conteúdo específicapodem ser avaliados por geração de uma Marcação de Opiniãomédia (MOS) que provê uma indicação numérica de umaqualidade visualmente percebida dos dados de multimídiaquando codificados utilizando certa taxa de bits. A MOSpode ser expressa como um único número na faixa de 1 a 5,onde 1 é a qualidade mais baixa percebida, e 5 é aqualidade mais alta percebida. Em outros aspectos, a MOSpode ter mais de cinco ou menos de cinco níveis dequalidade, e diferentes descrições de cada nível dequalidade podem ser utilizadas.

A determinação da qualidade de dados demultimídia pode ser feita por seres humanos visualizando eclassificando os dados de multimídia. Em alguns aspectosalternativos, estimativas de qualidade de dados demultimídia podem ser feitas por sistemas de testeautomático utilizando, por exemplo, algoritmos de relaçãode sinal para ruído. Em um aspecto, um conjunto de níveisde qualidade padrão (por exemplo, cinco) e uma taxa de bitscorrespondente necessária para obter cada nível dequalidade específico são predeterminados para dados demultimídia de cada classificação de conteúdo.

0 conhecimento da relação entre o nível dequalidade visualmente percebido e uma taxa de bits paradados de multimídia de certa classificação de conteúdo podeser determinado pela seleção de um nível de qualidade alvo(por exemplo, desejado). O nível de qualidade alvoutilizado para determinar a taxa de bits pode ser pré-selecionado, selecionado por um usuário, selecionadoatravés de um processo automático ou um processo semi-automático exigindo uma entrada a partir de um usuário ou apartir de outro processo, ou ser selecionado dinamicamentepelo dispositivo de codificação ou sistema com base emcritérios predeterminados. Um nível de qualidade alvo podeser selecionado com base, por exemplo, no tipo de aplicaçãode codificação, ou tipo de dispositivo de cliente queestará recebendo os dados de multimídia.

No exemplo ilustrado na figura 7, o módulo dealocação de bits de controle de taxa 714 recebe tanto osdados a partir do módulo de classificação de classificarconteúdo 712 como os metadados diretamente a partir do pré-processador 226. 0 módulo de alocação de bit de controle detaxa 714 reside na parte de primeira passagem docodificador 228, e um módulo de sintonização precisa decontrole de taxa 738 reside na parte de segunda passagem706. Esse aspecto de controle de taxa de duas passagens éconfigurado de tal modo que a primeira passagem (módulo dealocação de bit de controle de taxa 714) executa alocaçãode bit adaptativa e de contexto com uma antecipação desuperquadro (por exemplo, tendo como alvo taxas médias debit de longa duração de 256kbps) e limita a taxa de pico, ea segunda passagem (módulo de sintonização precisa decontrole de taxa 738) refina os resultados de primeirapassagem para escalabilidade de duas camadas e executaadaptação de taxa. 0 controle de taxa opera em quatroníveis: (1) nível GOP - controla distribuição de bits dequadros I, P, BeF para serem não uniformes dentro de umGOP; (2) nível de superquadro - controla limites rígidos émtamanho máximo de superquadro; (3) nível de quadrocontrola exigências de bit de acordo com a complexidadetemporal e espacial dos quadros de dados de multimídia, quesão baseados nas informações de conteúdo (por exemplo, umaclassificação de conteúdo); e (4) nível de macrobloco -controla alocação de bits de macroblocos baseados em mapasde complexidade temporal e espacial, que são baseados nasinformações de conteúdo (por exemplo, uma classificação deconteúdo). ·

Um fluxograma exemplar da operação do módulo decontrole de taxa 714 é ilustrado na figura 10. Comomostrado na figura 10, o processo 1000 começa em um blocode entrada 1002. O módulo de controle de taxa 714 recebevárias entradas, nem todas são necessariamente ilustradaspela figura 7. Por exemplo, informações de entrada podemincluir metadados a partir do pré-processador 226 uma taxade bits alvo, tamanho de armazenador de codificador (oucomo equivalente, o tempo máximo de retardo para controlede taxa), um retardo inicial de controle de taxa, einformações de taxa de quadro. Informações de entradaadicionais podem incluir entradas no nível de grupo deimagens (GOP), incluindo, por exemplo, tamanho máximo desuperquadro, comprimento e distribuição de quadro P/B doGOP (incluindo informações de mudança de cena), disposiçãode camadas de aperfeiçoamento e base desejadas, uma métriqade distorção de complexidade para imagens no GOP para 30quadros futuros. Ouras informações de entrada incluementradas no nível de imagem, incluindo mapa de distorção decomplexidade para a imagem atual (recebido do módulo declassificação de conteúdo 712), parâmetros de quantização(QP), e quebra de bits dos 30 quadros passados (encaixesobre uma janela deslizante). Finalmente, informações deentrada no nível de macrobloco (MB) incluem, por exemplo, adiferença absoluta média (MAD) de macroblocos colocados(MB) em uma imagem de referência, e um padrão de blococodificado (CBP) de macroblocos após quantização (sejam ounão pulados).

Após as entradas no bloco 1002, o processo 1000prossegue para o bloco 1004 para inicialização paracodificar o fluxo de bits. Simultaneamente, umainicialização de armazenador 1006 é executada. A seguir, umGOP é inicializado como mostrado no bloco 1008, comalocação de bits GOP 1010 recebida como parte dainicialização. Após inicialização de GOP, o fluxo prosseguepara o bloco 1012, onde uma partição é inicializada. Essainicialização inclui uma atualização dos bits de cabeçalho,como mostrado pelo bloco 1014. Após as inicializações dobloco 1004, 1008 e 1012 serem executadas, o controle detaxa (RC) para uma unidade básica ou macrobloco (MB) érealizado como mostrado pelo bloco 1016. Como parte dadeterminação de controle de taxa de um macrobloco no bloco1016, entradas são recebidas através de interfaces nocodificador 228. Essas entradas podem incluir alocação debit de macrobloco (MB) 1018, uma atualização de parâmetrosde modelo quadrático 1020, e uma atualização de desvioabsoluto mediano a partir dos parâmetros medianos ("MAD",uma estimativa robusta de dispersão) 1022. O processoseguinte 1000 prossegue para o bloco 1024 para execução deoperações após codificar uma imagem 1024. Esse procedimentoinclui receber uma atualização de parâmetros de armazenadorcomo mostrado pelo bloco 1026. O processo 1000 entãoprossegue para o bloco de saida 1028 onde o módulo decontrole de taxa 714 transmite parâmetros de quantização QPpara cada macrobloco MB a ser utilizado por um módulo dedecisão de modo 715 como mostrado na figura 7.

ESTIMAÇÃO DE MOVIMENTO

O módulo de estimação de movimento 720 recebeentradas de metadados e video bruto a partir do pré-processador 226, e provê saida que pode incluir o tamanhode bloco, vetores de movimento métricas de distorção, eidentificadores de quadro de referência para um módulo dedecisão de modo 715. A figura 11 ilustra uma operaçãoexemplar do módulo de estimação de movimento 720. Comomostrado, o processo 1100 começa com uma entrada 1102. Nonivel de quadro, o módulo 720 recebe entrada do ID dequadro de referência e vetores de movimento. NO nivel demacrobloco, a entrada 1102 inclui pixels de entrada epixels de quadro de referência. O processo 1100 continuapara a etapa 1104 onde estimação de movimento de cor (ME) epredição de vetor de movimento são executados. Pararealizar esse processo, várias entradas são recebidasincluindo vetores de movimento MPEG-2, e vetores demovimento Iuma MVs 1106, suavização de vetor de movimento1108, e vetores de movimento não causai 1110. A seguir, 'oprocesso 1100 prossegue para o bloco 1112 onde um algoritmode busca de vetor de movimento ou metodologia é executado,como métodos de busca hexagonais. Entradas para o processono bloco 1112 podem incluir soma de diferença absoluta(SAD) , soma de diferença ao quadrado (SSD) e/ou outramétrica como mostrado pelo bloco 1114. Após execução de umabusca de vetor de movimento, o processo 1100 prossegue parao bloco de terminação 1116, onde o processamento de

terminação é executado. O processo 100 termina então nobloco de saida 1118, que fornece uma saida de tamanho debloco, vetor de movimento (MV), métrica de distorção, eidentificadores de Quadro de referência.

ESCALABILIDADE R-D PARA CAMADA DE APERFEIÇOAMENTO E BASE

A figura 13 ilustra um fluxograma exemplar de umprocesso de escalabilidade 1300 que pode ser executado pelomódulo de escalabilidade R-D 718. O processo 1300 começa nobloco de iniciar 1302 e prossegue para o bloco 1304 onde omódulo de escalabilidade R-D 718 recebe uma entrada apartir do módulo de estimação de movimento 720 e executaestimação de movimento. A estimação de movimento se baseiana entrada de quadros de referência de camada de base,quadros de referência de camada de aperfeiçoamento, e20 quadro original a ser codificado como indicado pelo bloco

1306. Tais informações podem ser calculadas peloparticionador GOP 612 e comunicadas para o móduloescalabilidade R-D 718 através, por exemplo, de metadados.O processo 1300 prossegue para o bloco 1308 para determinarinformações de escalabilidade da camada de base de dados ecamada de aperfeiçoamento, dados. A codificação de camadade base é executada a seguir conforme mostrado no bloco1310, seguido por codificação da camada de aperfeiçoamentono bloco 1312. A codificação da camada de aperfeiçoamentopode utilizar os resultados de codificação de camada debase para predição intercamadas como em entrada, comoilustrado pelo bloco 1314, desse modo temporalmente éexecutado após codificação de camada de base. Isso estádescrito adicionalmente no pedido de patente US copendenteno. [dossiê do procurador]/ref. No. 050078] intitulado"SCALABLE VIDEO CODING WITH TWO LAYER ENCODING AND SINGLELAYER DECODING." Após término de codificação, o processo1300 termina no bloco 1316.

ORDENAÇÃO DE MACROBLOCOS/PARTIÇÃO

A parte de primeira passagem 702 também inclui ummódulo de ordenação de macroblocos/partição 722, que recebeuma entrada a partir de um módulo de flexibilidade de erro740 na parte de segunda passagem e provê uma informações dealinhamento de partição para o módulo de decisão de modo715. Partições são pedaços de dados de video codificados,independentemente decodificáveis (decodificação deentropia). Unidades de acesso (AU) são quadros de videocodificados, cada um compreendendo um conjunto de unidadesNAL sempre contendo exatamente uma imagem codificadaprimária. Além da imagem codificada primária, uma unidadede acesso também pode conter uma ou mais imagenscodificadas redundantes ou outras unidades NAL não contendopartições ou partições de dados de partição de uma imagemcodificada. A decodificação de uma unidade de acessoresulta sempre em uma imagem decodificado.

Os quadros podem ser blocos multiplexados pordivisão de tempo de pacotes de camada física (denominadoscápsula TDM) que oferecem a diversidade de tempo maiselevada. Um superquadro corresponde a uma unidade de tempo(por exemplo, 1 s) e contém quatro quadros. Alinhamento departição e limites de AU com limites de quadro no domíniode tempo resulta na separação mais eficiente e localizaçãode dados corrompidos. Durante desvanecimento profundei,grande parte dos dados contíguos em uma cápsula TDM éafetada por erros. Devido à diversidade de tempo, ãscápsulas TDM restantes têm elevada probabilidade de estaremintactas. Os dados não corrompidos podem ser utilizadospara recuperar e ocultar os dados perdidos a partir dacápsula TDM afetada. Lógica similar se aplica amultiplexação de domínio de freqüência (FDM) ondediversidade de freqüência é obtida através de separação emsubportadoras de freqüência que os símbolos de dadosmodulam. Além disso, lógica similar se aplica à espacial(através de separação em antenas de transmissores ereceptores) e outras formas de diversidade freqüentementeaplicadas em redes sem fio.

Para alinhar as partições e AU com os quadros, acriação de bloco de código externo (FEC) e encapsulamentode camada MAC também devem ser alinhadas. A figura 20ilustra a organização de dados de vídeo codificados ou umfluxo de bits de vídeo em partições e Aus. O vídeocodificado pode ser constituído em ou mais fluxos de bits,por exemplo, fluxo de bits de camada de base e fluxo debits de camada de aperfeiçoamento onde se aplicacodificação de vídeo em camadas.

O fluxo de bits de vídeo compreende Aus comoilustrado na figura 20 por Quadro 1'2005, Quadro 3'2010 eQuadro M'2015. Os Aus compreendem partições de dados, comoilustrado por Partição 1 2020, partição 2 2025, e partiçãoN 2030. Cada início de partição é identificado por umcódigo de iniciar e provê adaptação de rede. Em geral,quadro-I ou Aus intracodifiçados são grandes, seguido porquadros-P ou quadros preditos, antecipados, seguidos porquadros-B. A codificação de um AU em múltiplas partiçõesincorre em um custo overhead significativo em termos dataxa de bits codificada porque predição espacial através departições é restrita e cabeçalhos de partição contribuemtambém para overhead. Como os limites de partição sãopontos de ressincronização, restringindo pacotes de camadafísica contíguos a erros de controles de partições uma vezque quando um PLP é corrompido, o erro é confinado apartição no PLP ao passo que se o PLP contivesse múltiplaspartições, ou partes de múltiplas partições, o erroimpactaria todas as partições ou porções de partições no PLP.

Uma vez que quadros-I são tipicamente grandes,por exemplo, da ordem de 10' de kbits, o overhead devido amúltiplas partições não é uma proporção grande do tamanhototal de quadro-I ou taxa total de bits. Além disso, ofazer de ter mais partições em um AU intracodif içadopermite nova sincronização melhor e mais freqüente eocultação de erro especial mais eficiente. Também, osquadros-I contêm as informações mais importantes no fluxode bit de vídeo uma vez que os quadros PeB são preditosfora de quadros-I. Os quadros-I servem também como pontosde acesso aleatório para aquisição de canal.

Com referência agora à figura 21, o alinhamentocuidadoso dos quadros-I com limites de quadro e aspartições com um I AU também com limites de quadro, permitecontrole mais eficiente de erro, proteção de erro (uma vezque se uma partição que pertencia ao Quadro 1 205 forperdida, as partições que pertencem ao Quadro 2 2100 têmuma elevada probabilidade de estarem intactas porque o

Quadro 2 2110 tem uma separação de tempo significativa 'apartir do Quadro 1 2105 a recuperação de erro pode serexecutada através de nova sincronização e ocultação deerro.

Como os quadros-P são tipicamente dimensionadosna ordem de alguns kbits, o alinhamento de partições de ümquadro-P e número inteiro de quadros-P com limites dequadro permite flexibilidade de erro sem perda prejudicialde eficiência (por motivos similares como aqueles paraquadros-I). A ocultação de erro temporal pode ser empregadaem tais aspectos. Alternativamente, a dispersão de quadros-P consecutivos de tal modo que chequem em quadrosdiferentes fornece diversidade de tempo adicionado entre osquadros-P, que pode ser porque a ocultação temporal se

baseia em vetores de movimento e dados a partir de quadrosP ou I anteriormente reconstruídos. Quadros-B podem serextremamente pequenos (100's de bits) a moderadamentegrandes (poucos 1000 bits). Conseqüentemente, o alinhamentode número inteiro de quadros-B com limites de quadro édesejável para obter flexibilidade de erro sem perdaprejudicial de eficiência.

MÓDULO DE DECISÃO DE MODO

A figura 12 ilustra alguns exemplos da operaçãodo módulo de decisão de modo 715. Como mostrado, o processo1200 começa em um bloco de entrada 1202. Em um exemploilustrativo, as várias entradas de informações no módulo dedecisão de modo 715 incluem tipo de partição, Intra4x4cost, Intra 16xl6cost, IntraUV 8x8cost, Intra Y 16x16

Modo, IntraUV Modo, dados de vetor de movimento (MVD),parâmetros de quantização (QP), SpPredMB4x4Y,SpPredMBl6x16Y, SpPredMB8x8U, SpPredMB8x8V, Indicador dedistorção de taxa, pixels YMB bruto, Pixels UMB bruto, epixels VNB bruto. O processo 120 prossegue então para obloco 1204 codificando a inicialização, que pode seriniciada por um sinal de entrada ou interface orientando ainicialização de codificador, como indicado pelo bloco1206. A inicialização pode incluir modos permitidos dedefinição (incluindo saltar, dirigir), pesos de mododefinidos (se necessário, o default serão pesos iguais paratodos os modos), e armazenadores de definição. Apósinicialização, o processo 1200 prossegue para o bloco 1208onde o processamento principal para a decisão de modo éexecutado, incluindo: computar custos de modo de macrobloco(MB) para cada modo permitido, ponderar cada custo de modoMB com um fator de ponderação e selecionar um modo de custode modo MB mínimo. Entradas envolvidas com essas operaçõesincluem estimação de movimento (por exemplo, MVD epredições) e predição espacial (por exemplo, todos osintracustos e predições) como ilustrado pelos blocos 1210 e1212. Em interface com o módulo de decisão de modo 715encontra-se a codificação de entropia em bloco 1214 que,entre outras coisas, melhora a taxa de compressão. Oprocesso 1200 prossegue para o bloco 1216 ondearmazenadores são atualizados para passar informações paraa parte de segunda passagem de codificador, 706.Finalmente, o processo 1200 prossegue para o bloco 1218onde o "melhor" modo de codificação pode ser comunicadopara a parte de segunda passagem de codificador 706.

PARTE DE SEGUNDA PASSAGEM DE CODIFICADOR

Com referência novamente à figura 7, a parte desegunda passagem 706 do codificador 228 inclui um módulo decodificador de segunda passagem 232 para executar a segundapassagem de codificação. O codificador de segunda passagem232 recebe a saída a partir do módulo de decisão de modo715. O codificador de segunda passagem 232 inclui um módulode Quantização de transformação/MC 726 e um codificador deentropia/ziguezague (ZZ) 728. Os resultados do codificadorde segunda passagem 232 são transmitidos para um módulo dedimensionamento 7 30 e um módulo adensamento de fluxo debits 731, que transmite uma base codificada e camada deaperfeiçoamento para transmissão pelo transcodificador 200através de uma camada de sincronização 240 (ilustrada nafigura 2) . Como mostrado na figura 2, observa-se que ascamadas de aperfeiçoamento e base a partir do codificadorde segunda passagem 232 e codificador 234 são montadas pelacamada de sincronização 24 0 em um PES empacotado 242incluindo camadas de base e aprimorada, um PES de dados 244(por exemplo, CC e outros dados de texto, e um PES de áudio246. Observa-se que o codificador de áudio 236 recebeinformações de áudio decodificadas 218 e, por sua vez,codifica as informações e transmite as informaçõescodificadas 238 para a camada de sincronização 240.

RECODIFICADOR

Com referência novamente à figura 7, a parte desegunda passagem de codificador 706 também inclui umrecodificador 234, que corresponde ao recodificador 234 nafigura 2. O recodificador 234 também recebe a saida daparte de primeira passagem 702 e inclui uma Quantização detransformação/MC 726 e porções de codificação deEntropia/ZZ 728. Adicionalmente, o módulo dedimensionamento 730 transmite para o recodificador 234. Orecodificador 234 transmite a camada de base e aprimoradaresultante a partir da recodificação para o módulo deadensamento de fluxo de bits 731 para transmissão para umsincronizador (por exemplo, camada de sincronização 240(mostrada na figura 2). O exemplo de codificador 228 riafigura 7 também inclui um módulo de sintonização precisa decontrole de taxa 738 que provê realimentação de adensamentode fluxo de bits tanto para o módulo de quantização deTransformação/MC 234 no codificador de segunda passagem 232como para o módulo de Entropia/ZZ 736 no recodificador 234para ajudar a sintonizar a codificação de segunda passagem(por exemplo, aumentar a eficiência de compressão).

MÓDULO DE FLEXIBILIDADE DE ERRO

O exemplo de codificador 228 ilustrado na figura7 também inclui um módulo de flexibilidade de erro 740 naparte de segunda passagem 706. 0 módulo de flexibilidade deerro 740 comunica-se com o módulo de adensamento de fluxode bits 731 e com o módulo de ordenação MB/partição 722. 0módulo de flexibilidade de erro 740 recebe metadados apartir do pré-processador 228 e seleciona um esquema deflexibilidade de erro, por exemplo, alinhar unidades deacesso e partição com limites de quadro, hierarquiapreditiva e intra-renovação adotiva. A seleção do esquemade flexibilidade de erro pode ser baseada em informaçõesrecebidas nos metadados, ou a partir de informaçõescomunicadas para o módulo de flexibilidade de erro a partirdo módulo de adensamento de fluxo de bits 731 e módulo deordenação de MB/partição 722. O módulo de flexibilidade deerro 740 provê informações para o módulo de ordenação demacrobloco (MB)/partição na parte de primeira passagem 702para implementar os processos de flexibilidade de erroselecionados. Transmissões de video através de ambientespropensos a erro podem empregar estratégias deflexibilidade de erro e algoritmos que podem resultar naapresentação de dados mais claros e menos cheios de errospara um usuário espectador. A descrição de flexibilidade deerro abaixo pode se aplicar a qualquer aplicação individualou combinação de aplicação existente ou futura, camadafi sica e transporte ou outras tecnologias. Os algoritmos derobustez de erro efetivo integram uma compreensão depropriedades de suscetibilidade de erro e capacidades deproteção contra erro entre as camadas OSI em combinação compropriedades desejáveis do sistema de comunicação comobaixa latência e elevada capacidade de transmissão. 0processamento de flexibilidade de erro pode ser baseado nasinformações de conteúdo dos dados de multimídia, porexemplo, na classificação de conteúdo dos dados demultimídia. Uma das principais vantagens é a capacidade derecuperação a partir de desvanecimento e erros de canal demultipercurso. As abordagens de flexibilidade de errodescritas abaixo se referem especificamente a processos quepodem ser incorporados no codificador 228 (por exemplo, emparticular no módulo de flexibilidade de erro 740 e módulode ordenação de MB/partição 722) e podem ser estendidosgenericamente à comunicação de dados em ambientes propensosa erros.

FLEXIBILIDADE DE ERRO

Para um sistema de compressão híbrido baseado empredição, quadros intracodifiçados são independentementecodificados sem nenhuma predição temporal. Quadrosintercodifiçados podem ser preditos de forma temporal apartir de quadros passados (quadros-P) e quadros futuros(quadros-B). 0 melhor preditor pode ser identificadoatravés de um processo de busca no quadro de referência (umou mais) e uma medida de distorção como SAD é utilizadapara identificar o melhor casamento. A região codificadapreditiva do quadro atual pode ser um bloco de tamanho eformato variáveis (16x16, 32x32, 8x4, etc.) ou um grupo depixels identificado como um objeto através, por exemplo, desegmentação.

A predição temporal estende-se tipicamenteatravés de muitos quadros (por exemplo, 10 para 10's dequadros) e termina quando um quadro é codificado como Umquadro-I, o GOP sendo tipicamente definido pela freqüênciade quadros-I. Para eficiência máxima de codificação, um GOPé uma cena, por exemplo, limites de GOP são alinhados comlimites de cena e quadros de mudança de cena sãocodificados como quadros-I. Em pouco movimento asseqüências compreendem um fundo relativamente estático e omovimento é genericamente restrito ao objeto em primeiroplano. Os exemplos de conteúdo de tais seqüências de poucomovimento incluem notícias e programas de previsão do tempoonde mais de 30% do conteúdo mais visualizado são dessa101/118natureza. Em seqüências de pouco movimento, grande partedas regiões são intercodifiçadas e os quadros preditos sereferem de volta ao quadro-I através de quadros preditosintermediários.

Com referência à figura 22, o blocointracodifiçado 2205 no quadro-I é o preditor para o blocointercodifiçado 2210 no quadro codificado (ou AU) PL. Nesseexemplo, a região desses blocos é uma parte estacionária dosegundo plano. Através de predição temporal consecutiva, asensibilidade do bloco intracodifiçado 2205 a erros aumentauma vez que é um "bom" preditor o que também significa quesua "importância" é mais elevada. Adicionalmente, o blocointracodifiçado 2205, em virtude dessa cadeia de prediçãotemporal denominada a cadeia de predição, persiste por maistempo no display (pela duração da cena no exemplo nafigura).

Hierarquia de predição é definida como a árvorede blocos criada com base nesse nivel de importância oumedida de persistência com o pai no topo (blocointracodificado 2205) e os filhos na parte inferior.

Observe que o bloco intercodif içado 2215 em PI está nosegundo nivel da hierarquia e assim por diante. As folhassão blocos que terminam uma cadeia de predição.

Hierarquia de predição pode ser criada paraseqüências de video independente de tipo de conteúdo (comomúsica e esportes também e não somente noticias) e éaplicável à compressão de video (e dados) baseada empredição em geral (isto se aplica a todas as invençõesdescritas nesse pedido). Após estabelecimento da hierarquiade predição, algoritmos de flexibilidade de erro comointra-renovação adaptativa, descrito abaixo, podem seraplicados de forma mais eficaz. A medição de importânciapode ser baseada em capacidade de recuperação de um dadobloco a partir de erros como através de operações deocultação e aplicação de intra-renovação adaptativa paraaumentar a flexibilidade do fluxo de bits codificados aerros. Uma estimativa da medida de importância pode serbaseada em número de vezes que um bloco é utilizado comopreditor também mencionado como a métrica de persistência.A métrica de persistência também é utilizada para melhorara eficiência de codificação por deter a propagação de errode predição. A métrica de persistência também aumenta aalocação de bits para os blocos com importância maiselevada.

INTRA-RENOVAÇÃO ADAPTATIVA

Intra-renovação adaptativa é uma técnica deflexibilidade de erro que pode ser baseada em informaçõesde conteúdo dos dados de multimídia. Em um processo deintra-renovação, alguns MBs são intracodifiçados embora aotimização R-D padrão determinasse que eles devessem serMBs intercodifiçados. AIR emprega intra-renovação ponderadoem movimento para introduzir MBs intracodifiçados emquadros B ou P. Esses MBs intracodifiçados, contidos nacamada de base, podem ser codificados com QPb ou QPe. SeQPe for utilizado para a camada de base, então refinamentopode ser apropriado, de outro modo na camada deaperfeiçoamento, a queda de qualidade será perceptível. Uniavez que intercodif icação é mais eficiente do queintracodificação no sentido de eficiência de codificação,esses refinamentos na camada de aperfeiçoamento serãointercodifiçados. Desse modo, os coeficientes de camada debase não serão utilizados para a camada de aperfeiçoamento,e a qualidade é aperfeiçoada na camada de aperfeiçoamentosem introduzir novas operações.

Em alguns aspectos, intra-renovação adaptativapode ser baseada em informações de conteúdo dos dados demultimídia (por exemplo, uma classificação de conteúdo) emvez de, ou além de, uma base ponderada em movimento. Porexemplo, se a classificação de conteúdo for relativamentealta (por exemplo, cenas tendo alta complexidade temporal eespacial) intra-renovação adaptativa pode introduzir umaquantidade relativamente maior de MB's intracodifiçados nosquadros-B ou P. Alternativamente, se a classificação deconteúdo fosse relativamente baixa (indicando uma cenamenos dinâmica com baixa complexidade espacial e/outemporal) intra-renovação adaptativa pode introduzir umnúmero menor de MB's intracodifiçados nos quadros Be P.Tal métrica e métodos para melhorar a flexibilidade de erropodem ser aplicados não apenas no contexto de comunicaçõesde multimídia sem fio como em direção à compressão de dadose processamento de multimídia em geral (Por exemplo, emrenderização gráfica).

QUADRO DE MUDANÇA DE CANAIS

Um quadro de comutação de canal (CSF), comodefinido aqui, é um termo amplo que descreve um quadro deacesso aleatório inserido em um local apropriado em umfluxo de broadcast para aquisição rápida de canal e dessemodo mudança rápida de canal entre fluxos em um Multiplexde broadcast. Os quadros de mudança de canais tambémaumentam a robustez de erro, visto que fornecem dadosredundantes que podem ser utilizados se o quadro primáriofor transmitido com um erro. Um quadro-I ou um quadro-Iprogressivo como é o quadro de renovação de decodificador,progressivo, em H.264, serve tipicamente como um ponto deacesso aleatório. Entretanto, quadros-I freqüentes (ou GOPscurtos, mais curtos do que durações de cena) resultam émuma redução significativa em eficiência de compressão. Comoblocos intracodifiçados podem ser utilizados paraflexibilidade de erro, acesso aleatório e flexibilidade deerro podem ser combinados de forma eficaz através dehierarquia de predição para melhorar a eficiência decodificação enquanto aumenta a robustez a erros.

O aperfeiçoamento de comutação de acessoaleatório e robustez de erro podem ser obtidos em conjunto,e pode ser baseado em informações de conteúdo como umaclassificação de conteúdo. Para seqüências de poucomovimento, cadeias de predição são longas e uma partesignificativa das informações necessárias para reconstruirum superquadro ou cena está contida no quadro-I que ocorreuno inicio da cena. Erros de canal tendem a ser em rajadas equando um desvanecimento ocorre e FEC e codificação decanal falham, há erro residual intenso que a ocultaçãofalha. Isso é particularmente grave para seqüências depouco movimento (e conseqüentemente baixa taxa de bits) umavez que a quantidade de dados codificados não ésignificativa o bastante para fornecer boa diversidade detempo no fluxo de bits e porque essas são seqüênciasaltamente compressiveis que tornam cada bit útil parareconstrução. Seqüências de movimento elevado são maisrobustas a erros devido à natureza do conteúdo - maisinformações novas em cada quadro aumentam o número deintrablocos codificados os quais são independentementedecodificáveis e mais flexível a erros de forma inerente.

Intra-renovação adaptativa com base em hierarquia depredição obtém alto desempenho para seqüências de movimentoelevado e melhora de desempenho não é significativa paraseqüências de pouco movimento. Conseqüentemente, um quadrode comutação de canal contendo a maior parte dos quadros-Ié uma boa fonte de diversidade para seqüências de poucomovimento. Quando um erro atinge um superquadro, adecodificação no quadro consecutivo começa a partir do CSFque recupera a informações perdida devido à predição eflexibilidade de erro é obtido.

No caso de seqüências de movimento elevado comoseqüências tendo uma classificação de conteúdorelativamente elevada (por exemplo, 6-8), o CSF podeconsistir em blocos que persistem no SF - aqueles que sãobons preditores. Todas as outras regiões do CSF não têm deser codificadas uma vez que esses são blocos que têmcadeias de predição curta o que significa que sãoterminadas com intrablocos. Conseqüentemente, CSF aindareserve para recuperar a partir de informações perdidasdevido à predição quando ocorre um erro. CSFs paraseqüências de pouco movimento estão no mesmo nivel que otamanho de quadros-I, e podem ser codificadas em uma taxade bits mais baixa através de quantização mais intensa,onde CSFs para seqüências de movimento elevado são muitomenores do que os quadros-I correspondentes.

Flexibilidade de erro baseado em hierarquia depredição pode funcionar bem com escalabilidade e pode obteruma codificação em camadas altamente eficiente.

Escalabilidade para suportar modulação hierárquica emtecnologias de camada física pode exigir divisão de dadosdo fluxo de bits de vídeo com relações específicas delargura de banda. Essas podem nem sempre ser as relaçõesideais para escalabilidade ótima (por exemplo, com o mínimode overhead). Em alguns aspectos, um escalabilidade de 2camadas com relação de largura de banda de 1:1 é utilizada.

A divisão de fluxo de bits de vídeo para 2-camadas detamanho igual pode não ser tão eficiente para seqüências depouco movimento. Para seqüências de pouco movimento, acamada de base contendo todas as informações de metadados ecabeçalho é maior do que a camada de aperfeiçoamento.

Entretanto, uma vez que CSFs para seqüências de poucomovimento são maiores, se encaixam bem na largura de bandarestante na camada de aperfeiçoamento.

Seqüências de movimento elevado têm informaçõesresidual suficiente que a divisão de dados para 1:1 podeser obtida com o mínimo overhead. Adicionalmente, um quadrode comutação de canal para tais seqüências é muito menorpara seqüências de movimento elevado. Conseqüentemente, aflexibilidade de erro com base em hierarquia de prediçãopode funcionar bem também com escalabilidade paraseqüências de movimento elevado. A extensão dos conceitosdiscutidos acima para clipes de movimento moderado épossível com base nas descrições desses algoritmos, e osconceitos propostos se aplicam para codificação de vídeo emgeral.

MULTIPLEXADOR

Em alguns aspectos de codificador, ummultiplexador pode ser utilizado para codificar múltiplosfluxos de multimídia produzidos pelo codificador eutilizados para preparar bits codificados para broadcast.Por exemplo, no aspecto ilustrativo do codificador 228mostrado I figura 2, a camada de sincronização 240compreende um multiplexador. O multiplexador pode serimplementado para fornecer o controle de alocação de taxade bits. A complexidade estimada pode ser fornecida para omultiplexador, que pode então alocar a largura de bandadisponível para uma coleção de canais de vídeomultiplexados de acordo com a complexidade de codificaçãoprevista para aqueles canais de vídeo, que então permiteque a qualidade de um canal específico permaneçarelativamente constante mesmo se a largura de banda para acoleção de fluxos de vídeo multiplexados for relativamenteconstante. Isso provê que um canal dentro de uma coleção decanais tenha uma taxa de bits variável e qualidade visualrelativamente constante, em vez de uma taxa de bitsrelativamente constante e uma qualidade visual variável.

A figura 18 é um diagrama de blocos ilustrando umsistema de codificar múltiplos canais ou fluxos demultimídia 1802. Os fluxos de multimídia 1802 sãocodificados por codificadores respectivos 1804, que estãoem comunicação quando um multiplexador (MUX) 1806, que porsua vez está em comunicação com um meio de transmissão1808. Por exemplo, os fluxos de multimídia 1802 podemcorresponde a vários canais de conteúdo, como canais denotícias, canais de esportes, canais de filmes, esimilares. Os codificadores 1804 codificam os fluxos demultimídia 1802 no formato de codificação especificado parao sistema. Embora descrito no contexto de codificação defluxos de vídeo, os princípios e vantagens das técnicasreveladas são genericamente aplicáveis a fluxos demultimídia incluindo, por exemplo, fluxos de áudio. Osfluxos de multimídia codificados são fornecidos para ummultiplexador 1806, que combina os vários fluxos demultimídia codificados e envia o fluxo combinado para omeio de transmissão 1808 para transmissão.

0 meio de transmissão 1808 pode corresponder auma variedade de meios, como, porém não limitado a,comunicação por satélite digital, como DirecTV®, cabodigital, comunicações de Internet com fio e sem fio, redesópticas, redes de telefone celular e similares. O meio detransmissão 1808 pode incluir, por exemplo, modulação pararadiofreqüência (RF). Tipicamente, devido às limitaçõesespectrais e similares, o meio de transmissão tem umalargura de banda limitada e os dados a partir domultiplexador 1806 para o meio de transmissão são mantidosem uma taxa de bits relativamente constante (CBR).

Em sistemas convencionais, o uso de taxa de bitsconstante (CBR) na saída do multiplexador 1806 pode exigirque os fluxos de vídeo ou multimídia codificados que sãoentrados no multiplexador 1806 sejam também CBR. Comodescrito nos FUNDAMENTOS, o uso de CBR ao codificarconteúdo de vídeo pode resultar em uma qualidade visualvariável, que é tipicamente indesejável.

No sistema ilustrado, dois ou mais doscodificadores 1804 comunicam uma complexidade decodificação prevista de dados de entrada. Um ou mais doscodificadores 1804 podem receber controle de taxa de bitsadaptado a partir do multiplexador 1806 em resposta. Issopermite que um codificador 1804 que se espera que codifiquevídeo relativamente complexo receba uma taxa de bits maisalta ou largura de banda mais elevada (mais bits porquadro) para aqueles quadros de vídeo em um modo de taxa debits quase-variável. Isso permite que o fluxo de multimídia1802 seja codificado com uma qualidade visual compatível. Alargura de banda extra que é utilizada por um codificadorespecífico 1804 codificando vídeo relativamente complexovem dos bits que teriam sido, de outro modo, utilizadospara codificar outros fluxos de vídeo 1804 se oscodificadores fossem implementados para operar em taxas debit constantes. Isso mantém a saída do multiplexador 1806na taxa de bits constante (CBR).

Embora um fluxo de multimídia individuais 802possa ser relativamente "em rajadas", isso é, varie emlargura de banda utilizada, a soma cumulativa de múltiplosfluxos de vídeo pode ser menos em rajadas. A taxa de bits apartir de canais que estão codificando vídeo menos complexoque pode ser realocada, por exemplo, pelo multiplexador1806, para canais que estão codificando vídeo relativamentecomplexo, e isso pode aumentar a qualidade visual dosfluxos de vídeo combinados como um todo.

Os codificadores 1804 dotam o multiplexador 1806de uma indicação da complexidade de um conjunto de quadrosde video a serem codificados e multiplexados juntos. Asaída do multiplexador 1806 deve fornecer uma saída que nãoé mais elevada do que a taxa de bits especificada para omeio de transmissão 1808. As indicações da complexidadepodem ser baseadas na classificação de conteúdo comodiscutido acima, para fornecer um nível de qualidadeselecionado. O multiplexador 1006 analisa as indicações decomplexidade, e dota os vários codificadores 1004 de umnúmero alocado de bits ou largura de banda, e oscodificadores 1804 utilizam essas informações paracodificar os quadros de vídeo no conjunto. Isso permite queum conjunto de quadros de vídeo seja individualmente taxade bits variável, e ainda assim obtenha taxa de bitsconstante como um grupo.

A classificação de conteúdo pode ser tambémutilizada na habilitação de compressão de multimídia emgeral, baseada em qualidade, para qualquer compressorgenérico. A Classificação de conteúdo e os métodos eequipamentos descritos aqui podem ser utilizados emprocessamento de multimídia baseados em qualidade e/oubaseados em conteúdo de quaisquer dados de multimídia. Ümexemplo é seu uso em compressão de multimídia em geral paraqualquer compressor genérico. Outro exemplo está emdescompressão ou decodificação em qualquer descompactadorou decodificador ou pós-processador como operações deinterpolação, re-amostragem, aperfeiçoamento, recuperação eapresentação.

Com referência agora à figura 19, um sistema decomunicação de vídeo típico inclui um sistema de compressãode vídeo que consiste em um codificador de vídeo, e umdecodificador de vídeo, conectados por uma rede decomunicação. Redes sem fio são uma classe de redespropensas a erro onde o canal de comunicação apresentadesvanecimento log-normal ou sorabrearaento e desvanecimentode multipercurso em cenários móveis além de perda depercurso. Para combater erros de canal e fornecer umacomunicação segura para dados de camada de aplicação, omodulador RF inclui correção antecipada de erros incluindointercaladores e codificação de canal como codificaçãoturbo ou de convolução.

A compactação de video reduz redundância no videode fonte e aumenta a quantidade de informações contidas emcada bit dos dados de video codificados. Isso aumenta oimpacto em qualidade quando mesmo uma parte pequena dovideo codificado é perdida. Predição temporal e espacialinerente em sistemas de compressão de video agrava a perdae causa propagação de erros resultando em artefatosvisíveis no vídeo reconstruído. Algoritmos de flexibilidadede erro no codificador de vídeo e algoritmos de recuperaçãode erro no decodificador de vídeo aumentam a robustez deerro do sistema de compressão de vídeo.

Tipicamente, o sistema de compressão de vídeo éagnóstico à rede subjacente. Entretanto, em redes propensasa erro, a integração ou alinhamento de algoritmos deproteção contra erro na camada de aplicação com FEC ecodificação de canal nas camadas física/link é altamentedesejável e fornece eficiência máxima em aumento dedesempenho de erro do sistema.

A figura 14 ilustra um exemplo de um fluxo dedados de distorção de taxa que pode ocorrer no codificador228 para codificar quadros. 0 processo 1400 começa noinício 1402, e prossegue para o bloco de decisão 1404, onderecebe entrada de detector de mudança de cena 1410 a partirdo pré-processador 226 (por exemplo, via metadados) eentrada de flexibilidade de erro 1406 é adquirida. Se asinformações indicarem que um quadro selecionado é um quadroI, o processo intracodifica o quadro. Se as informaçõesindicarem que o quadro selecionado é um quadro P ou Β, oprocesso utiliza intracodificação e (inter) codificação deestimação de movimento para codificar o quadro.

Após ocorrer uma condição afirmativa para ascondições do bloco 1404, o processo 1400 prossegue para umbloco de preparação 1414 onde a taxa R é definida no valorR = Rqual, a qualidade alvo desejada, baseada em curvas R-D. Essa definição é recebida a partir de um bloco de dados1416 compreendendo curvas R-D. 0 processo 1400 prossegueentão a partir do bloco 1418 onde a Alocação de Bits decontrole de taxa {Qpi} é executada com base em informaçõesde atividade de video/imagem (por exemplo, umaclassificação de conteúdo) a partir de um processo declassificação de conteúdo no bloco 1420.

O bloco de alocação de bits de controle de taxa1418 é utilizado, por sua vez, para estimação de movimentono bloco 1422. A estimação de movimento 1422 pode recebertambém entrada de metadados a partir do pré-processador1412, suavização de vetor de movimento (MPEG-2 + Histórico)a partir do bloco 1424 e múltiplos quadros de referência(causai + macrobloco não causai MBs) a partir do bloco1426. O processo 1400 prossegue então para o bloco 1428onde cálculos de taxa para modos intracodifiçados sãodeterminados para a alocação de bit de controle de taxa(Qpi). O processo 1400 prossegue a seguir para o bloco 1430onde parâmetros de quantização e modo são determinados. Adecisão de modo do bloco 1430 é feita com base na estimaçãode movimento da entrada de bloco 1422, entrada deflexibilidade de erro 1406, e escalabilidade R-D, que édeterminada no bloco 1432. Após o modo ser decidido, ofluxo prossegue para o bloco 1432. Observa-se que o fluxo apartir do bloco 1430 para 1432 ocorre quando dados sãopassados a partir das porções de primeira passagem parasegunda passagem do codificador.

No bloco 1432, a transformação e a quantizaçãosão executadas pela segunda passagem do codificador 228. Oprocesso de transformação/quantização é ajustado ousintonizado de forma precisa como indicado com o bloco1444. Esse processo de transformação/quantização pode serinfluenciado por um módulo de sintonização perfeita decontrole de taxa (figura 7). O processo 1400 prossegueentão para o bloco 1434 para separação de ziguezague ecodificação de entropia para fornecer a camada de basecodificada. A separação de ziguezague prepara os dadosquantizados em um formato eficiente para codificação.

Codificação de entropia é uma técnica de compressão queutiliza uma série de códigos de bit para representar umconjunto de possíveis símbolos. 0 resultado de camadaaprimorada de bloco de transformação/quantização 1432 éenviado também para um somador 1436, que subtrai a camadade base e envia o resultado para um codificador deentropia/ZZ 1438 para a camada aprimorada; comoanteriormente descrito com referência às figuras 31-36.

Como observado adicionalmente, a camada aprimorada érealimentada (vide a atualização de taxa verdadeira dalinha 1440) para atualizar a classificação de conteúdo 1420de taxa verdadeira e uma operação para determinarhistóricos de longa e curta duração de taxas de bitutilizados pelo controle de taxa.

A figura 17A é um fluxograma ilustrandoprocessamento de dados de multimídia que foram obtidos,recebidos ou são acessíveis de outro modo. O processo 1700começa e no bloco 1702 classifica o conteúdo dos dados demultimídia. Em um aspecto ilustrativo, a classificação deconteúdo pode ser executada por meio de classificação, porexemplo, o módulo de classificação de conteúdo 712 nafigura 7. 0 processo 1700 continua para o bloco 1704 ondecodifica os dados de multimídia em um primeiro grupo dedados e um segundo grupo de dados com base na classificaçãode conteúdo. Essa codificação é executada de tal modo que oprimeiro grupo de dados compreende um coeficiente e osegundo grupo de dados compreende um primeiro refinamentodiferencial associado ao primeiro coeficiente de grupo dedados. Isso pode ser executado por meio de codificação,descrita aqui, por exemplo, o codificador 228 na figura Ί.-Ά figura 17B é um diagrama de blocos de umsistema de codificação de multimídia 1710 que pode executaro processo ilustrado na figura 17A. Em alguns aspectos, osistema de codificação de multimídia 1710 pode ser umtranscodificador, como transcodificador 200. Em outrosaspectos, o sistema de codificação 1710 pode compreenderuma parte de um transcodificador. 0 sistema de codificaçãode multimídia 1710 inclui meio para classificar o conteúdode dados de multimídia, módulo para classificar conteúdo dedados de multimídia 1712. O meio para classificar conteúdopode ser, por exemplo, um módulo de classificação em ümpré-processador (por exemplo, pré-processador 226) ou umcodificador (por exemplo, codificador 228) . O sistema decodificação 1710 também inclui meio para codificar os dadosde multimídia, módulo para codificar os dados de multimídia1714, que pode ser configurado para codificar os dados demultimídia em um primeiro grupo de dados e um segundo grupode dados com base na classificação de conteúdo, onde essacodificação é executada de tal modo que o primeiro grupo dedados compreenda um coeficiente e o segundo grupo de dadoscompreenda um primeiro refinamento diferencial associado aoprimeiro coeficiente de grupo de dados. Outros componentesde transcodificador, como descrito aqui, também podem serincluídos no sistema de codificação 1710.

As figuras 23, 24, 27 e 28 são diagramas de fluxode processo exemplificando métodos de codificar dados demultimídia que incorporam os aspectos descritos aqui. A

figura 23 é um fluxograma de processo que ilustra umprocesso 2300 de codificar dados de multimídia com base nasinformações de conteúdo. No bloco 2305 o processo 2300recebe dados de multimídia codificados, e no bloco 2310 oprocesso 2300 decodifica os dados de multimídia. No bloco2315, o processo 2300 determinas informações de conteúdoassociadas aos dados de multimídia decodificados. No bloco2320, o processo 2300 codifica os dados de multimídia combase nas informações de conteúdo.

A figura 24 é um fluxograma de processo queilustra um processo 2400 de codificar dados de multimídiade modo a alinhar limites de dados com base em nível deInformações de conteúdo. No bloco 2405, o processo 2400obtém informações de conteúdo associadas aos dados demultimídia, que pode ser feito, por exemplo, pelo pré-processador 226 ou módulo de classificação de conteúdo 712mostrado na figura 7. No bloco 2410, o processo 2400codifica os dados de multimídia de modo a alinhar limitesde dados com base nas informações de conteúdo. Por exemplo,limites de partição e limites de unidade de acesso sãoalinhados com limites de quadro com base em umaclassificação de conteúdo dos dados de multimídia sendocodificados. Os dados codificados são então disponíveispara processamento e/ou transmissão subseqüente para umdispositivo móvel, e o processo 2400 termina.

A figura 27 é um fluxograma de processo queilustra um processo 2700 para codificar os dados,utilizando um esquema de intra-renovação adaptativa combase em informações de conteúdo. Quando o processo 2700começa os dados de multimídia foram obtidos. No bloco 2705,o processo 2700 obtém informações de conteúdo dos dados demultimídia. A obtenção das informações de conteúdo pode serexecutada, por exemplo, pelo pré-processador 226 ou módulode classificação de conteúdo 712 como descrito acima. 0processo 2700 prossegue para o bloco 2710, onde codifica osdados de multimídia utilizando um esquema de flexibilidadede erro intra-renovação adaptativa, onde o esquema deflexibilidade de erro de intra-renovação adaptativa sebaseia nas informações de conteúdo. A funcionalidade dobloco 2710 pode ser executada pelo codificador 228. Osdados codificados são tornados disponíveis paraprocessamento e transmissão subseqüentes, e o processo 2700então termina.

A figura 28 é um fluxograma de processo queilustra um processo de codificar dados de multimídiautilizando quadros I redundantes com base em informações deconteúdo de multimídia. Quando o processo 2800 começa osdados de multimídia são disponíveis para processamento. Nobloco 2805, o processo 2800 obtém informações de conteúdodos dados de multimídia. Como descrito acima, isso pode serfeito, por exemplo, pelo processador 226 e/ou codificador228. No bloco 2810, o processo 2800 codifica os dados demultimídia de modo a inserir um ou mais quadros-Iadicionais nos dados codificados com base nas informaçõesde conteúdo. Isso pode ser feito pelo codificador 228 comodescrito acima, com relação a um esquema de flexibilidadede erro, inserindo os quadros-I na camada de base ou camadade aperfeiçoamento dependendo do esquema de flexibilidadede erro empregado. Após o bloco 2810, os dados codificadossão disponíveis para processamento e/ou transmissãosubseqüente para um dispositivo móvel.Deve ser observado que os métodos descritos aquipodem ser implementados em uma variedade de hardware decomunicação, processadores e sistemas conhecidos por umapessoa com conhecimentos comuns na técnica. Por exemplo, aexigência geral para o cliente operar como descrito aqui éque o cliente tenha um display para exibir conteúdo einformações, um processador para controlar a operação docliente e uma memória para armazenar dados e programasrelacionados à operação do cliente. Em um aspecto, ocliente é um telefone celular. Em outro aspecto, o clienteé um computador portátil tendo capacidades de comunicações.Ainda em outro aspecto, o cliente é um computador pessoaltendo capacidades de comunicação. Além disso, hardware comoum receptor GPS pode ser incorporado no cliente paraimplementar os vários aspectos. As várias lógicasilustrativas, blocos lógicos, módulos e circuitos descritoscom relação aos aspectos revelados aqui podem serimplementados ou executados com um processador de propósitogeral, um processador de sinais digitais (DSP), um circuitointegrado de aplicação especifica (ASIC), uma disposição deporta programável em campo (FPGA) ou outro dispositivo delógica programável, porta discreta ou lógica de transistor,componentes de hardware discretos, ou qualquer combinaçãodos mesmos projetados para executar as funções descritasaqui. Um processador de propósito geral pode ser ummicroprocessador, porém na alternativa, o processador podeser qualquer processador convencional, controlador,microcontrolador, ou máquina de estado. Um processadortambém pode ser implementado como uma combinação dedispositivos de computação, por exemplo, uma combinação deum DSP e um microprocessador, uma pluralidade demicroprocessadores, um ou mais microprocessadores emcombinação com um núcleo de DSP, ou qualquer outra talconfiguração.

As várias lógicas ilustrativas, blocos lógicos,módulos e circuitos descritos com relação aos aspectosrevelados aqui podem ser implementados ou executados com umprocessador de propósito geral, um processador de sinaisdigitais (DSP), um circuito integrado de aplicaçãoespecifica (ASIC), uma disposição de porta programável emcampo (FPGA) ou outro dispositivo de lógica programável,porta discreta ou lógica de transistor, componentes dehardware discretos, ou qualquer combinação dos mesmosprojetados para executar as funções descritas aqui. Umprocessador de propósito geral pode ser ummicroprocessador, porém na alternativa, o processador podeser qualquer processador convencional, controlador,microcontrolador, ou máquina de estado. Um processadortambém pode ser implementado como uma combinação dedispositivos de computação, por exemplo, uma combinação deum DSP e um microprocessador, uma pluralidade demicroprocessadores, um ou mais microprocessadores emcombinação com um núcleo de DSP, ou qualquer outra talconfiguração.

Os métodos e equipamentos revelados fornecemtranscodifi cação de dados de video codificados em umformato em dados de video codificados em outro formato ondea codificação se baseia no conteúdo dos dados de video e acodificação é flexível a erro. Os métodos ou algoritmodescritos com relação aos exemplos revelados aqui podem serincorporados diretamente em hardware, em um módulo desoftware executado por um processador, firmware, ou em umacombinação de dois ou mais desses. Um módulo de softwarepode residir em memória RAM, memória flash, memória ROM,memória EPROM, memória EEPROM, registros, um disco rígido,um disco removível, um CD-ROM, ou qualquer outra forma demeio de armazenagem conhecido na técnica. Um meio dearmazenagem exemplar é acoplado ao processador, de tal modoque o processador possa ler informações a partir de, egravar informações para, o meio de armazenagem. Naalternativa, o meio de armazenagem pode ser integral com oprocessador. O processador e o meio de armazenagem podemresidir em um ASIC. O ASIC pode residir em um terminal deusuário. Na alternativa, o processador e o meio dearmazenagem podem residir como componentes discretos em umterminal de usuário.

Os exemplos descritos acima são meramenteexemplares e aqueles versados na técnica podem fazerinúmeros usos de, e afastamentos a partir dos, exemplosdescritos acima sem se afastar dos conceitos inventivosaqui revelados. Várias modificações nesses exemplos podemser facilmente evidentes para aqueles versados na técnica,e os princípios genéricos definidos aqui podem seraplicados em outros exemplos, por exemplo, em um serviço deenvio de mensagem instantânea ou quaisquer aplicaçõesgerais de comunicação de dados sem fio; sem se afastar doespírito ou escopo dos aspectos novos aqui descritos. Dessemodo, o escopo da revelação não pretende ser limitado aosexemplos mostrados aqui, porém deve ser acordado o escopomais amplo compatível com os princípios e aspectos novosaqui revelados. O termo "exemplar" é utilizadoexclusivamente aqui para significar "servir como exemplo,instância ou ilustração." Qualquer exemplo descrito aquicomo "exemplar" não deve ser necessariamente interpretadocomo preferido ou vantajoso em relação a outros exemplos1.

Consequentemente, os aspectos novos descritos aqui devemser definidos exclusivamente pelo escopo das reivindicaçõesa seguir.

Claims

1. Método de codificar dados de multimídia,compreendendo:classificar conteúdo de dados de multimídia; ecodifi car os dados de multimídia em um primeirogrupo de dados e em um segundo grupo de dados com base naclassificação de conteúdo, em que o primeiro grupo de dadoscompreende um coeficiente e o segundo grupo de dadoscompreende um primeiro refinamento diferencial associado aoprimeiro coeficiente de grupo de dados.

2. Método, de acordo com a reivindicação 1, emque a codificação compreende determinar uma taxa de bitscom base na classificação de conteúdo dos dados demultimídia, e codificar os dados de multimídia com base nataxa de bits.

3. Método, de acordo com a reivindicação 1, emque a classificação de conteúdo compreende determinarcomplexidade dos dados de multimídia, e em que os dados demultimídia selecionados são codificados com base nacomplexidade dos dados de multimídia.

4. Método, de acordo com a reivindicação 3, emque a complexidade compreende complexidade temporal oucomplexidade espacial.

5. Método, de acordo com a reivindicação 3, emque a complexidade compreende complexidade temporal ecomplexidade espacial.

6. Método, de acordo com a reivindicação 1, emque a codificação compreende codificar os dados demultimídia de modo a permitir decodificação somente doprimeiro grupo de dados ou do primeiro grupo de dados esegundo grupo de dados em um único grupo de dadoscombinado.

7. Método, de acordo com a reivindicação 1, emque o primeiro refinamento diferencial indica uma diferençaentre um quadro de video selecionado, e os dados de quadroresultantes da decodificação do primeiro grupo de dados.

8. Método, de acordo com a reivindicação 1, emque o primeiro grupo de dados é uma camada base e o segundogrupo de dados é uma camada de aprimoramento.

9. Método, de acordo com a reivindicação 8,compreendendo ainda:selecionar o coeficiente a partir de um entre umcoeficiente de erro residual de camada base original ou umcoeficiente de erro residual de camada de aprimoramentooriginal; e !calcular o primeiro refinamento diferencial combase no coeficiente e no coeficiente de erro residual decamada de aprimoramento original.

10. Método, de acordo com a reivindicação 1, emque a codificação compreende ainda codificar informações decabeçalho de macrobloco e informações de vetor de movimentono primeiro grupo de dados.

11. Método, de acordo com a reivindicação 1, emque a codificação compreende ainda quantizar o primeirogrupo de dados em um primeiro tamanho de etapa, e quantizaro segundo grupo de dados em um segundo tamanho de etapa, emque o primeiro tamanho de etapa e segundo tamanho de etapa são relacionados por um fator de escala.

12. Método, de acordo com a reivindicação 1, emque a codificação compreende ainda determinar um primeifoparâmetro de quantização tendo um primeiro tamanho de etapade quantização para uso na codificação do primeiro grupo dedados, e determinar um segundo parâmetro de quantizaçãotendo um segundo tamanho de etapa de quantização para usona codificação do segundo grupo de dados, em que osprimeiro e segundo parâmetros de quantização sãodeterminados com base em informações de conteúdo de dadosde quadro selecionados, e em que o primeiro tamanho daetapa de quantização é inferior ao segundo tamanho da etapade quantização.

13. Método, de acordo com a reivindicação 1, emque a codificação compreende codificar o primeiro grupo dedados utilizando quadros-I, e quadros-P ou qualquercombinação dos mesmos e codificar o segundo grupo de dadosutilizando quadros-I, quadros-P e quadros-B ou qualquercombinação dos mesmos.

14. Equipamento para codificar dados demultimídia, compreendendo:meios para classificar conteúdo de dados demultimídia;meios para codificar os dados de multimídia em umprimeiro grupo de dados e em um segundo grupo de dados combase na classificação de conteúdo, em que o primeiro grupode dados compreende um coeficiente e o segundo grupo dedados compreende um primeiro refinamento diferencialassociado ao primeiro coeficiente de grupo de dados.

15. Equipamento, de acordo com a reivindicação-14, em que o meio de codificação compreende meio paradeterminar uma taxa de bits com base na classificação deconteúdo dos dados de multimídia, e codificar os dados demultimídia com base na taxa de bits.

16. Equipamento, de acordo com a reivindicação-14, em que o meio de classificação de conteúdo compreendemeio para determinar complexidade dos dados de multimídia,e em que os dados de multimídia selecionados sãocodificados com base na complexidade dos dados demultimídia.

17. Equipamento, de acordo com a reivindicação-16, em que a complexidade compreende complexidade temporalou complexidade espacial.

18. Equipamento, de acordo com a reivindicação 16, em que a complexidade compreende complexidade temporale complexidade espacial.

19. Equipamento, de acordo com a reivindicação 14, em que o meio de codificação compreende meio paracodificar os dados de multimídia de modo a permitirdecodificação somente do primeiro grupo de dados ou doprimeiro grupo de dados e segundo grupo de dados em umúnico grupo de dados combinado.

20. Equipamento, de acordo com a reivindicação 14, em que o primeiro refinamento diferencial indica umadiferença entre um quadro de vídeo selecionado e dados dequadro resultando da decodificação do primeiro grupo de dados.

21. Equipamento, de acordo com a reivindicação 14, em que o primeiro grupo de dados é uma camada base e osegundo grupo de dados é uma camada de aprimoramento.

22. Equipamento, de acordo com a reivindicação 14, em que o meio de codificação compreende ainda meio paracodificar informações de cabeçalho de macrobloco einformações de vetor de movimento no primeiro grupo dedados.

23. Equipamento, de acordo com a reivindicação 14, em que o meio de codificação compreende ainda meio paraquantizar o primeiro grupo de dados em um primeiro tamanhode etapa, e quantizar o segundo grupo de dados em umsegundo tamanho de etapa, em que o primeiro tamanho deetapa e segundo tamanho de etapa são relacionados por umfator de escala.

24. Equipamento, de acordo com a reivindicação 14, em que o meio de decodif icação compreende meio pairadeterminar um primeiro parâmetro de quantização tendo umprimeiro tamanho de etapa de quantização para uso nacodificação do primeiro grupo de dados, e determinar umsegundo parâmetro de quantização tendo um segundo tamanhode etapa de quantização para uso na codificação do segundogrupo de dados, em que os primeiro e segundo parâmetros dequantização são determinados com base em informações deconteúdo de dados de quadro selecionados, e em que oprimeiro tamanho de etapa de quantização é inferior aosegundo tamanho de etapa de quantização.

25. Equipamento, de acordo com a reivindicação-14, em que o meio de codificação compreende:meio para codificar o primeiro grupo de dadosutilizando quadros-I e quadros-P; emeio para codificar o segundo grupo de dadosutilizando quadros-I, quadros-P e quadros-B.

26. Equipamento, de acordo com a reivindicação-21, em que o meio de codificação compreende:meio para selecionar o coeficiente a partir de umentre um coeficiente de erro residual de camada base original ou um coeficiente de erro residual de camada deaprimoramento original; emeio para calcular o primeiro refinamentodiferencial com base no coeficiente e coeficiente de erroresidual de camada de aprimoramento original.

27. Equipamento configurado para codificar dadosde multimídia, compreendendo:um módulo de classificação de conteúdoconfigurado para classificar conteúdo de dados demultimídia e fornecer dados de classificação de conteúdo; eum codificador configurado para codificar osdados de multimídia em um primeiro grupo de dados e em umsegundo grupo de dados com base na classificação deconteúdo, em que o primeiro grupo de dados compreende umcoeficiente e o segundo grupo de dados compreende umprimeiro refinamento diferencial associado ao primeirocoeficiente de grupo de dados.

28. Equipamento, de acordo com a reivindicação-27, em que o codificador compreende um componente de taxade bits configurado para determinar uma alocação de bitsbaseada na classificação de conteúdo, e em que o componentede codificação é adicionalmente configurado para codificaros dados de multimídia selecionados utilizando a alocaçãode bits.

29. Equipamento, de acordo com a reivindicação-27, em que a classificação de conteúdo compreendedete rminar complexidade dos dados de multimídia, e em queos dados de multimídia selecionados são codificados combase na complexidade dos dados de multimídia.

30. Equipamento, de acordo com a reivindicação-29, em que a complexidade compreende complexidade temporalou complexidade espacial.

31. Equipamento, de acordo com a reivindicação-29, em que a complexidade compreende complexidade temporale complexidade espacial.

32. Equipamento, de acordo com a reivindicação-27, em que a codificação compreende codificar os dados demultimídia de modo a permitir decodificação somente doprimeiro grupo de dados ou do primeiro grupo de dados esegundo grupo de dados em um único grupo de dadoscombinado.

33. Equipamento, de acordo com a reivindicação-27, em que o primeiro refinamento diferencial indica umadiferença entre um quadro de vídeo selecionado e os dadosde quadro resultantes da decodificação do primeiro grupo dedados.

34. Equipamento, de acordo com a reivindicação- 27, em que o primeiro grupo de dados é uma camada base e osegundo grupo de dados é uma camada de aprimoramento.

35. Meio legível por máquina compreendendoinstruções que após execução fazem com que uma máquina:classifique conteúdo de dados de multimídia; ecodifique os dados de multimídia em um primeirogrupo de dados e em um segundo grupo de dados com base naclassificação de conteúdo, em que o primeiro grupo de dadoscompreende um coeficiente e o segundo grupo de dadoscompreende um primeiro refinamento diferencial associado aoprimeiro coeficiente de grupo de dados.

36. Meio legível por máquina, de acordo com areivindicação 35, em que as instruções para codificarcompreendem instruções para determinar uma alocação de bitscom base na classificação de conteúdo, e em que ocomponente de codificação é adicionalmente configurado paracodificar os dados de multimídia selecionados utilizando aalocação de bits.

37. Meio legível por máquina, de acordo com areivindicação 35, em que a classificação de conteúdocompreende determinar complexidade dos dados de multimídia,e em que os dados de multimídia selecionados sãocodificados com base na complexidade dos dados demultimídia.

38. Meio legível por máquina, de acordo com areivindicação 37, em que a complexidade compreendecomplexidade temporal ou complexidade espacial.

39. Meio legível por máquina, de acordo com areivindicação 37, em que a complexidade compreendecomplexidade temporal e complexidade espacial.

40. Processador, sendo configurado para:classificar conteúdo de dados de multimídia; ecodificar os dados de multimídia em um primeirogrupo de dados e em um segundo grupo de dados com base naclassificação de conteúdo, em que o primeiro grupo de dadoscompreende um coeficiente e o segundo grupo de dadoscompreende um primeiro refinamento diferencial associado aoprimeiro coeficiente de grupo de dados.

41. Processador, de acordo com a reivindicação-40, em que o processador é adicionalmente configurado paradeterminar uma alocação de bits com base na classificaçãode conteúdo, e em que o componente de codificação éadicionalmente configurado para codificar os dados demultimídia selecionados utilizando a alocação de bits.

42. Processador, de acordo com a reivindicação-40, em que o processador é adicionalmente configurado paradeterminar complexidade dos dados de multimídia, e em que aclassificação de conteúdo se baseia na complexidade dosdados de multimídia.

43. Processador, de acordo com a reivindicação-42, em que a complexidade compreende complexidade temporalou complexidade espacial.

44. Processador, de acordo com a reivindicação-42, em que a complexidade compreende complexidade temporale complexidade espacial.