BR112013014366B1

BR112013014366B1 - Método e aparelho para avaliar a qualidade de uma sequência transmitida de sinais de vídeo no lado do receptor

Info

Publication number: BR112013014366B1
Application number: BR112013014366-5A
Authority: BR
Inventors: Savvas Argyropoulos; Bernhard Feiten; Marie-Neige Garcia; Peter List; Alexander Raake
Original assignee: Deutsche Telekom Ag
Priority date: 2010-12-10
Filing date: 2011-09-02
Publication date: 2022-07-12
Also published as: CN103270765B; JP5964852B2; US20130265445A1; WO2012076202A1; HUE039252T2; EP2649807B1; CN103270765A; HRP20181099T1; US9232216B2; EP2649807A1; KR20140027080A; DK2649807T3; BR112013014366A2; ES2675806T3; PL2649807T3; KR101834031B1; JP2014500677A

Abstract

MÉTODO E APARELHO PARA AVALIAR A QUALIDADE DE UMA SEQUÊNCIA TRANSMITIDA DE SINAIS DE VÍDEO NO LADO DO RECEPTOR. A presente invenção refere-se a um método e aparelho para avaliar a qualidade de uma sequência transmitida de sinais de vídeo no lado do receptor, o método compreendendo as etapas de: a) capturar o fluxo de bits de vídeo de entrada recebido antes da decodificação e fornecer o mesmo para um analisador de fluxo bits de vídeo; b) extrair, durante uma janela de tempo de medição, um ou mais aspectos a partir dos cabeçalhos de pacote do fluxo de bits de vídeo de entrada capturado pelo analisador de fluxo de bits; c) determinar a partir do um ou mais aspectos, e opcionalmente a partir de meta-informações conhecidas sobre o fluxo de mídia tal como a configuração do fracionamento, um único parâmetro, xwpSEQ, representando a magnitude de degradação de sinal devido à perda de pacote; d) fornecer o parâmetro determinado para um módulo de estimativa de qualidade; e e) calcular, pelo módulo de estimativa de qualidade, uma medida de qualidade devido á perda de pacote, Qtrans, baseado no parâmetro único representando a magnitude de degradação do sinal, xwpSEQ, devido à perda de pacote e baseado na informação de resolução de vídeo e no codec de vídeo empregado.

Description

Campo da Invenção

[0001] A presente invenção refere-se a um método e aparelho para avaliar a qualidade de um sinal de vídeo como ele resulta após a codificação, transmissão e decodificação do sinal de vídeo. A invenção foca em particular a avaliação e a modelagem da qualidade percebida do sinal de vídeo no caso em que o sinal de vídeo é prejudicado por perda de pacote durante a transmissão.

Antecedentes da Invenção

[0002] Dentre os vários serviços de distribuição de vídeo, o vídeo baseado em IP como ele é utilizado, por exemplo, para IPTV (TV com Protocolo Internet) está se tornando crescentemente importante, e está cada vez mais substituindo os métodos de transmissão analógicos ou que não são baseados em pacote. Uma responsabilidade principal do provedor de difusão em relação tanto ao provedor de conteúdo como ao cliente é manter um alto nível de qualidade de seu serviço. Nas redes de distribuição de vídeo em grande escala, à medida que elas estão envolvidas, por exemplo, nos serviços IPTV, somente sondas de monitoramento de qualidade totalmente automatizadas podem atender a este requerimento.

[0003] De modo a obter um alto grau de satisfação do usuário de serviços de vídeo tal como vídeo de fluxo contínuo não interativo (IPTV, VoD) ou vídeo estático (DVD), além dos indicadores de performance técnica, tais sondas de monitoramento também precisam proporcionar estimativas de qualidade de vídeo que os usuários dos serviços percebem durante um dado intervalo de monitoramento.

[0004] Para este fim, são desenvolvidos modelos de qualidade técnica de vídeo que proporcionam estimativas instrumentais da qualidade de vídeo como percebida pelo usuário e assim, são modelos técnicos do usuário. Por exemplo, estes modelos podem emitir um grau de similaridade entre o vídeo recebido no lado do usuário e o vídeo original não degradado. Em adição, representando uma solução mais sofisticada, o Sistema Visual Humano (HVS) pode ser modelado utilizando um sistema técnico. Finalmente, tal modelo deve proporcionar estimativas de qualidade que correspondam às classificações dadas pelos usuários, o que é obtido pelo treinamento dos modelos técnicos em relação aos resultados dos testes de qualidade subjetivos extensivos.

[0005] Modelos de qualidade de vídeo e assim, sistemas de medição, geralmente são classificados como a seguir: Tipos de Modelo de Qualidade • Referência Plena (FR): um sinal de referência é requerido. • Referência Reduzida (RR): informação parcial extraída a partir do sinal fonte é requerida. • Sem Referência (NR): nenhum sinal de referência é requerido. Tipos de Parâmetro de Entrada • Baseado e sinal / mídia: a imagem decodificada (informação de pixel) é requerida. • Baseado em parâmetro: A informação em nível de fluxo de bits é requerida. A informação pode variar de informação de cabeçalho do pacote, requerendo somente os cabeçalhos de pacote, ate a decodificação parcial até plena do fluxo de bits. Tipo de Aplicação • Planejamento de Rede: o modelo ou sistema de medição é utilizado antes da implementação do serviço na fase de planejamento, de modo a identificar a melhor implementação possível. • Monitoramento de Serviço: o modelo é utilizado durante a operação do serviço.

[0006] Informações relacionadas com os tipos de modelos de qualidade de vídeo podem ser encontradas nas referências [1], [2] ou [3] .

[0007] No contexto de IPTV, distorções principais são causadas pela compactação do vídeo e pela perda de pacote de vídeo. Elementos influenciando a qualidade percebida do vídeo no caso de perda de pacote de vídeo são: a) A quantidade de pacotes perdidos. b) A distribuição de perda de pacote, a qual pode, por exemplo, ser descrita em termos do número médio de pacotes perdidos em uma dada rajada de perda, e da distribuição de tais rajadas. c) A estrutura GOP, incluindo: i) O comprimento GOP, isto é, a distância entre os quadros que não requerem que quadros anteriores ou adicionais sejam decodificados, os assim chamados “quadros chave” ou “quadros I”. Um Grupo de Imagens cobre um quadro I e todos os quadros até o próximo quadro I da sequência de vídeo. ii) O número e a repartição de quadros B e P em cada GOP, que são quadros preditos (P) e bidirecionais (B). iii) O “tipo” GOP: GOP aberto ou GOP fechado; quando o GOP é aberto, quadros pertencendo a um GOP podem ser codificados utilizando quadros de referência a partir do GOP seguinte ou anterior; quando o GOP é fechado, somente quadros de referência a partir do GOP corrente podem ser utilizados como referência para codificar quadros do GOP corrente. d) O tipo de quadro do quadro prejudicado pela perda de pacote. Se a perda ocorrer em um quadro I ou em um quadro P, a perda é propagada para todos os quadros fazendo referência ao quadro prejudicado, tipicamente até o próximo quadro I (referência), enquanto se a perda ocorrer em um quadro B, a perda não é propagada, exceto no caso da codificação de quadro B hierárquico. No caso de codificação hierárquica, alguns dos quadros B também são utilizados como quadros de referência para outros quadros B. A perda nos quadros B de referência são assim propagados para os quadros B dependentes. e) O número de pacotes por quadro. Este número depende da taxa de bits e da complexidade espaço-temporal do vídeo. Quanto maior a taxa de bits, mais pacotes são requeridos para transmitir o quadro. A complexidade espaço-temporal do vídeo influencia na distribuição de pacotes entre os quadros: basicamente, quanto maior for a complexidade espacial do vídeo, mais pacotes são requeridos para Quadros I ou para quadros P e B (se macroblocos espacialmente / intra preditos são requeridos para capturar a informação), e quanto maior for a complexidade temporal do vídeo, mais pacotes são requeridos para transmitir quadros P e B. Por sua vez, quanto maior o número de pacotes por quadro, menor a quantidade correspondente de pixels contidos no pacote. Considerando alguma probabilidade de perda, quanto mais pacotes um quadro contém, maior será a probabilidade de ter perda de pacote neste quadro, e maior será a probabilidade de que a perda se propague se este quadro for um quadro de referência. f) Encobrimento da perda de pacote, isto é, a estratégia implementada no decodificador para encobrir a perda. O encobrimento de perda de pacote pode grosseiramente ser categorizado em termos de fracionamento ou congelamento. Uma fração é definida como uma área do quadro de vídeo que pode ser decodificada independentemente. Assim, se ela for afetada por uma perda de pacote - o decodificador preenche esta área com dados (espacialmente ou temporalmente) a partir de áreas vizinhas corretamente recebidas. O fracionamento precisa ser implementado pelo codificador que introduz os cabeçalhos de fração que o decodificador irá utilizar como pontos de sincronização. No caso de perda de pacote e de encobrimento de perda do tipo congelamento, p último quadro de vídeo corretamente recebido tipicamente é repetido até que o próximo quadro I intacto chegue, ou que outro quadro de referência intacto a partir do qual o quadro é predito. Nos serviços de difusão, o congelamento inclui saltar os quadros errôneos. No serviços que não são de difusão, pacotes perdidos podem ser reenviados e reproduzidos mesmo após uma recepção atrasada. Isto pode ser considerado como uma nova colocação em memória temporária, e a informação perdida não é saltada. Observe que o último caso não é considerado por esta invenção. g) Se o fracionamento for utilizado como encobrimento de perda de pacote, o número de frações por quadro (veja a Figura 2) é selecionado no estágio do codificador. No caso de perda de pacote e se o fracionamento for utilizado como encobrimento de perda de pacote, este número influencia a extensão espacial da perda. Na verdade, se ocorrer uma perda de pacote em uma fração, a perda é propagada até a próxima fração, isto é, até o decodificador poder sincronizar novamente baseado no próximo cabeçalho de fração disponível. Como consequência, aumentar o número de frações por quadro reduz a extensão espacial da perda. Entretanto, isto também aumenta o número de cabeçalhos de fração e assim, diminui a eficiência da codificação em uma dada taxa de bits geral. Isto reflete que existe uma troca entre a eficiência da codificação e a robustez para a perda de pacote. h) O tipo de controle de taxa empregado pelo codificador, ou seja, codificação com taxa de bits constante versus variável. Especificamente, o tipo de controle de taxa (codificação com taxa de bits constante ou variável) empregado pelo codificador junto com a complexidade espaço-temporal do conteúdo afeta muito o mapeamento da informação espaço-temporal em bytes ou, em outros termos, o número de pacotes requeridos para uma dada área espaço- temporal. Observe que a presente invenção tem como objetivo tanto o caso de codificação com taxa de bits constante como variável, mas devido à validade reduzida da estimativa da extensão espaço-temporal de eventos de perda baseado na informação de cabeçalho em casos de codificação com taxa de bits fortemente variável, as predições de qualidade proporcionadas pelo modelo técnico do usuário descrito nesta invenção será menos próximo da percepção real.

[0008] Os métodos de estimativa de qualidade normalmente suportam uma estimativa separada da qualidade relacionada com a codificação (compactação, Qcod) do sinal de vídeo, e a qualidade devido à perda de pacote durante a transmissão (Qtrans). Os métodos de estimativa de qualidade normalmente utilizam uma dentre duas abordagens para combinar uma estimativa com respeito à qualidade da compactação e da qualidade de transmissão. A Equação (1) e (2) ilustram as duas diferentes abordagens, onde as respectivas faixas de valores representam implementações ilustrativas:

[0009] Aqui, Q0 representa a qualidade base, ou uma função da qualidade base. Aqui, a qualidade base se refere à qualidade percebida do vídeo antes da codificação, transmissão e decodificação.

[00010] Na literatura, a qualidade devido à perda de pacote (Qtrans) é normalmente estimada a partir da taxa de bits e da taxa de perda de pacote, como em [4]. Para considerar a distribuição de perda de pacote, parâmetros descrevendo a repartição de perda dentro da sequência de vídeo, tal como a densidade da rajada e a duração da rajada como em [5] ou o número de pacotes perdidos em uma fileira como em [6], também são considerados. Alternativamente, parâmetros descrevendo a frequência de perda de pacote (isto é número de eventos de perda de pacote dentro de um dado período de tempo) como em [7] têm sido proposto. Estes parâmetros são úteis no caso de planejamento de rede, mas podem ser insuficientes no caso de monitoramento de serviço. Por exemplo, eles não capturam qual proporção do quadro atingido é prejudicada, desde que eles não consideram o número total de pacotes e o número de pacotes de perda no quadro atingido pela perda. Assim, eles são cegos em relação à extensão espacial real da perda. Em adição, eles não consideram o tipo de quadro do quadro atingido pela perda, e assim, cegos à propagação temporal e assim, em relação à duração da perda.

[00011] Um parâmetro descrevendo a duração temporal da perda tem sido proposto e, [8], mas este parâmetro cobre somente congelamento como encobrimento de perda de pacote. Uma proposta interessante foi feita em [10] para estimar a área em um quadro que é afetada por uma perda no caso em que o fracionamento é aplicado. Aqui, a abordagem proposta não é aplicada para a predição de qualidade como é sugerido na presente invenção, e somente cobre um dos vários subcasos que a presente invenção manipula. Em [9], é proposto um método utilizando uma abordagem similar a [10], mas em um contexto alguma coisa diferente. Ele utiliza parâmetros que descrevem a extensão espacial da perda por quadro e o tipo de quadro e calcula a qualidade do quadro baseado nestes parâmetros. Entretanto, a sincronização de quadro e a propagação de perda não são explicitamente consideradas em termos de um único parâmetro para descrever a distorção induzida pela perda.

[00012] Entretanto, um modelo do usuário perceptivamente adequado precisa utilizar um mapeamento quantitativo entre a descrição da perda e a o impacto da qualidade em termos da quantidade de degradação perceptual. No modelo da invenção, é assumido que a combinação da extensão espacial com a duração da perda tem impacto sobre a qualidade percebida. Como uma consequência, a invenção define um parâmetro que precisamente e explicitamente descreve a extensão espacial e a duração da perda e um modelo que mapeia este parâmetro para a qualidade da sequência de vídeo considerando a dada janela de medição.

Sumário da Invenção

[00013] O método da invenção é focado na estimativa de qualidade do termo caracterizando a eficiência da transmissão Qtrans no caso do fracionamento ou do congelamento ser aplicado como o encobrimento de perda de pacote. O método da invenção pode ser combinado com diferentes métodos para estimativa de qualidade relacionados com a compactação nos fluxos de vídeo Qcod. As etapas envolvidas quando aplicando o método para determinar Qtrans no caso de fracionamento são ilustradas utilizando o fluxograma apresentado na Figura 8.

[00014] O método da invenção é um modelo de qualidade de vídeo baseado em parâmetro com parâmetros com pouco peso e assim, proporciona uma solução técnica adequada para monitoramento de serviço que pode ser implementada, por exemplo, em dispositivos de usuário final tal como decodificadores ou dispositivos domésticos de interconexão de redes. Como apresentado na Figura 1, como entrada, o modelo pega parâmetros extraídos a partir do fluxo de bits. Em princípio, o sistema de medição no qual o método da invenção é incorporado pode ser colocado em diferentes localizações na rede. Entretanto, quanto mais próximo do dispositivo do usuário a sonda estiver localizada, mais representativa da qualidade real no lado do usuário é a qualidade predita. Os parâmetros não exigem acesso à carga útil e, portanto, não exigem uma decodificação parcial ou total do fluxo de bits. Como consequência, o método pode ser utilizado para predição de qualidade para fluxos criptografados, onde nenhum acesso à carga útil é possível na localização de medição na rede. Uma análise superficial dos cabeçalhos de pacote é suficiente para acessar os parâmetros a serem enviados para o modelo. Observe que se análise mais profunda for permitida, como com dados não criptografados, os parâmetros também podem ser utilizados isoladamente ou juntos com parâmetros adicionais extraídos a partir do fluxo de bits baseado na decodificação parcial ou total.

[00015] O método da invenção considera os parâmetros do processo de transmissão em detalhes. Na seção “Antecedentes da Invenção”, uma lista de elementos é enumerada, tais elementos influenciando na qualidade percebida do vídeo no caso de perda de pacote. Estes elementos também são adequados para descrever o impacto da qualidade devido à perda de pacote e assim, podem ser utilizados em termos de parâmetros de entrada de um modelo de qualidade de vídeo baseado em parâmetro. Entretanto, a lista correspondente de parâmetros é longa, reduzindo a flexibilidade de tal modelo, desde que os parâmetros devem ser ajustados cada vez que os parâmetros do codificador, a distribuição de perda de pacote ou a estrutura do GOP são alterados, o que aumenta o risco de gerar predições de qualidade incorretas.

[00016] Com a presente invenção, um parâmetro alternativo é introduzido, o qual reduz o número de parâmetros de entrada a serem utilizados em um modelo de qualidade de foram significativa. Este único parâmetro implementa uma descrição mais genérica da extensão espacial e da duração da perda do que é possível baseado nos respectivos parâmetros normalmente utilizados.

[00017] O objetivo da invenção é proporcionar um método e aparelho para avaliar no lado do receptor a qualidade de uma sequência de sinais de vídeo transmitida através de um link que introduz perdas de pacote, e no caso de fracionamento ou congelamento ser aplicado como encobrimento de perda de pacote (Qtrans nas equações (1) ou (2)). A invenção utiliza um parâmetro único, o qual captura a magnitude de degradação, a qual é mapeada para a qualidade. O objetivo a invenção é alcançado com os aspectos das reivindicações.

[00018] De acordo com um primeiro aspecto, a invenção proporciona um método para avaliar a qualidade de uma sequência transmitida de sinais de vídeo no lado do receptor, o método compreendendo as etapas de: a) capturar o fluxo de bits de vídeo de entrada recebido antes da decodificação e fornecer o mesmo para um analisador de fluxo de bits de vídeo; b) extrair, durante uma janela de tempo de medição, um ou mais aspectos a partir dos cabeçalhos de pacote do fluxo de bits de vídeo de entrada capturado pelo analisador de fluxo de bits; c) determinar a partir do um ou mais aspectos, e opcionalmente a partir de meta-informações conhecidas sobre o fluxo de mídia tal como a configuração do fracionamento, um único parâmetro, xwpSEQ, representando a magnitude de degradação de sinal devido à perda de pacote; d) fornecer o parâmetro determinado para um módulo de estimativa de qualidade; e e) calcular, pelo módulo de estimativa de qualidade, uma medição de qualidade devido à perda de pacote, Qtrans, baseado no parâmetro único representando a magnitude de degradação do sinal, xwpSEQ, devido à perda de pacote e baseado na informação de resolução de vídeo e na codec de vídeo empregada.

[00019] O parâmetro único, xwpSEQ, determinado na etapa c), representa a extensão espacial e a duração da perda. De preferência, o parâmetro único, xwpSEQ, é baseado no número, N, de Grupos de Imagens, GOPs, na janela de medição e na extensão espaço temporal, xl_k, das perdas ocorrendo no Grupo de Imagens afetado, k.

[00020] A extensão espaço-temporal, xl_k, das perdas ocorrendo em um Grupo de Imagens, k, pode ser calculada baseada na proporção de pixels prejudicados no quadro atingido devido a um evento de perda, xl_i, na localização da perda em relação ao início do GOP, t_i e no comprimento do GOP, T_k.

[00021] A proporção de pixels prejudicados no quadro atingido, xl_i, também pode ser calculada baseada no número de bytes de vídeo perdidos devido ao evento de perda i no quadro atingido corrente dividido pelo número de bytes perdidos e corretamente recebidos no quadro atingido corrente.

[00022] De acordo com outra concretização, a proporção de pixels prejudicados no quadro atingido, xl_i, é calculada baseada no número de pacotes que contêm o quadro corrente, no número de pacotes de vídeo perdidos no quadro atingido corrente que são perdidos no evento de perda i, no número de frações por quadro, e no número estimado de pacotes por fração.

[00023] Também é preferido que a proporção de pixels prejudicados no quadro atingido, xl_i, seja calculada baseada no tamanho total em bytes dos pacotes que contêm o quadro corrente, no número de bytes de vídeo perdidos devido ao evento de perda i no quadro atingido corrente, e no número estimado de pacotes ou bytes por fração.

[00024] Alternativamente, a proporção de pixels prejudicados no quadro atingido, xl_i, é calculada baseada no número de pacotes que contêm o quadro corrente, no número de pacotes de vídeo que pertencem a um evento de perda combinado ij, no caso em que dois ou mais eventos de perda ocorrem neste quadro, no número de pacotes de vídeo no quadro atingido corrente que são encontrados durante o evento de perda ij, no número de frações por quadro, e no número estimado de pacotes por fração.

[00025] O método também abrange uma alternativa onde a proporção de pixels prejudicados no quadro atingido, xl_i, é calculada baseada no número de pacotes de fluxo de transporte de vídeo perdidos na sequência, no número de frações por quadro e em um termo de correção refletindo a propagação de perda no quadro atingido pela perda.

[00026] Ainda em uma concretização adicional, a proporção de pixels prejudicados no quadro atingido, xl_i, é calculada baseada no número de bytes de vídeo nos pacotes de fluxo de transporte perdidos na sequência, e no número total de bytes de vídeo contidos no quadro atingido corrente.

[00027] Alternativamente, a proporção de pixels prejudicados no quadro atingido, xl_i, é calculada baseada no número de pacotes de fluxo de transporte de vídeo que pertencem ao evento de perda combinado ij, o número de pacotes de fluxo de transporte de vídeo encontrados entre a parte de perda de um evento de perna combinado i, j, no número de frações por quadro, e em um termo de correção refletindo a propagação de perda no quadro atingido pela perda.

[00028] Uma concretização alternativa manipula o caso em que uma fração é utilizada por quadro. Aqui, a contribuição xl_i de um evento de perda i de preferência é calculada como a área espacial entre o primeiro pacote perdido e o fim do quadro.

[00029] O método pode na etapa (c) adicionalmente considerar um fator de correção representando a complexidade espaço-temporal da sequência de vídeo, pelo qual a contribuição xl_i do respectivo evento de perda i do parâmetro geral é corrigida. O fator de correção de preferência depende da complexidade temporal do vídeo calculada por Grupo de Imagens. Alternativamente, o fato de correção depende da localização temporal do quadro no Grupo de Imagens atingido pelo evento de perda i. Adicionalmente, o fator de correção pode depender da localização temporal do quadro no Grupo de Imagens atingido pelo evento de perda i e da complexidade temporal do vídeo calculado por Grupo de Imagens.

[00030] Na invenção, a etapa e) pode adicionalmente considerar o número de Grupos de Imagens com eventos de perda.

[00031] É adicionalmente preferido que uma variável seja armazenada por evento de perda, a qual captura uma posição estimada da área afetada no respectivo quadro, e é utilizada para corrigir a contribuição xl_i de um evento de perda i, ou para corrigir as contribuições de uma dada parte temporal da sequência para o parâmetro geral de acordo com a etapa c).

[00032] De acordo com uma concretização preferida, no caso em que o congelamento é utilizado como o tipo de encobrimento de perda de pacote, o parâmetro de acordo com a etapa c) se refere à duração temporal ponderada dos congelamento nas sequências, calculada de acordo com qualquer um dos métodos de acordo com a invenção.

[00033] De acordo com um segundo aspecto, a invenção proporciona um aparelho para avaliar a qualidade de uma sequência transmitida de sinais de vídeo no lado do receptor, compreendendo: um analisador de fluxo de bits de vídeo capturando o fluxo e bits de vídeo de entrada recebido antes da decodificação, e configurador para extrair, durante uma janela de tempo de medição, um ou mais aspectos a partir dos cabeçalhos de pacote do fluxo de bits de vídeo de entrada capturado; meios para determinar a partir do um ou mais aspectos, e adicionalmente a partir de meta-informação conhecida sobre o fluxo de mídia, tal como a configuração de fracionamento, um parâmetro único, xwpSEQ, representando a magnitude de degradação de sinal devido à perda de pacote; um módulo de estimativa de qualidade configurado para receber o parâmetro determinado, o módulo de estimativa de qualidade sendo configurado para calcular uma medição de qualidade devido |à perda de pacote, Qtrans, baseada no parâmetro único representando a magnitude de degradação de sinal, xwpSEQ, devido à perda de pacote e baseada na informação de resolução de vídeo e na codec de vídeo empregada.

[00034] As concretizações preferidas mencionadas acima do primeiro aspecto da invenção também são concretizações preferidas do segundo aspecto a invenção.

Descrição Detalhada da Invenção 1. Fracionamento 1.1 Extensão espaço-temporal xl k de degradação por perda por GOP k e por sequência (xwpSEQ)

[00035] A invenção é primeiro descrita para o fracionamento. O método para congelamento é posteriormente apresentado como um subcaso do método para fracionamento.

[00036] A extensão espacial e a duração da perda são calculadas a partir do número de pacotes consecutivamente perdidos nos quadro atingidos, no número de pacotes no quadro atingido, no número de frações por quadro, e o tipo de quadro dos quadros atingidos.

[00037] Assim, Qtrans pode ser escrito como na equação (3).

[00038] Observe que no dito a seguir, todos os cálculos são executados em relação ao fluxo de bits no nível de entrada do decodificador, e assim, o quadros seguem a ordem codificada, não a ordem de exibição (veja a Figura 3).

na qual f ... é, por exemplo, uma função logarítmica e

(veja também a Figura 4 para um ilustrção do cálculo de xwpSEQ) onde N ... é o número de GOPs na janela de medição xZjv é- é a extensão espaço-temporal das perdas ocorrendo no GOP k

onde é é o índice de um novo evento de perda (isto é, não resultando a partir da propagação de perda); se o evento de perda ocorrer em um quadro B (quadro B que não é de referência no caso de codificação hierárquica), a perda não propaga, assim, o evento de perda é ignorado no calculo de xl_k. Z-r’ é o índice do quadro (relativo ao início do GOP) no qual o noo eento de perda ocorre. T k é a duração ou comprimento do GOP k, tipicamente expresso em termos de número de quadros. I xl i -- ’ é a proporção de pixels prejudicados no quadro atingido deido ao eento de perda i.

[00039] Deixe xl_ii ser a contribuição individual a partir do evento de perda i, e xl_iw a contribuição a partir de quaisquer eventos de perda anteriores w < i. Desde que em princípio

para vários eventos de perda em um GOP k pode ser tornar maior do que 1, a soma na Equação (5) pode ser calculada de uma maneira gradual, com

onde xl_ki é a área espacial relativa acumulada até o evento de perda corrente i no GOP k.

[00040] Em uma concretização alternativa e para o caso de comprimentos de GOP muito diferentes, a duração de cada GOP pode explicitamente ser considerada na Equação (4), produzindo (5a):

[00041] Aqui, Tk é a duração geral da sequência, a qual pode, por exemplo, ser expressa pelo número de quadros.

[00042] Outra concretização da invenção é válida para o caso em que quadros B hierárquicos estão sendo utilizados. Neste caso, um evento de perda em um quadro B de referência pode ser assumido como se propagando até o próximo quadro P intacto chegar, enquanto a perda afeta tanto os quadros B que seguem e precede o respectivo quadro B. Como consequência, as contribuições individuais xl_i a partir de cada evento de perda i são coletadas em um vetor xl_k, onde cada entrada caracteriza a extensão espacial de cada evento de perda, e as respectivas durações são coletadas em um vento t_k.

e onde Tp_i é a localização do quadro no GOP k do quadro P seguindo o quadro atingido pela perda B de referência. Aqui, a indexação de quadro na ordem de transmissão é assumida.

[00043] Então, o cálculo de xl_k de acordo com as Equações (5) ou (5a) envolve o produto escalar dos vetores xl_k e t_k:

[00044] ou seguindo a mesma argumentação que proporcionada acima, limitando o erro de inovação espacial devido a um novo evento de perda i em um quadro já afetado por uma perda ou sua propagação de tal modo, que no máximo todo o quadro é afetado, veja, por exemplo, a Equação (5a).

1.1.1 Determinação da contribuição xl i para a extensão espaço-temporal do evento de perda i 1.1.1.1 Uma Fração por pacote

[00045] Existem diferentes modos para determinar uma proporção estimada de pixels prejudicados xl_i, dependendo do esquema empregado de empacotamento.

[00046] Por exemplo, o parâmetro xl_i pode ser calculado como: onde

nlp i ... é o número de pacotes de vídeo perdidos para o evento de perda de pacote i no quadro atingido corrente. " é o número de pacotes (perdido + atualmente recebido) no quadro atingido corrente. I xZ i ... é a proporção estimada de pixels prejudicados no quadro atingido corrente, correspondendo aos pacotes perdidos no evento de perda i.

[00047] Esta concretização representa o caso em que o empacotamento é feito de um modo tal que um pacote IP contém exatamente uma fração (isto é, uma Unidade de Camada de Abstração de Rede, NALU, no caso da codec de vídeo H.264). Neste caso, as frações tipicamente são escolhidas para corresponder ao tamanho MTU de rede em bytes. Por consequência, uma perda de pacote corresponde a uma perda de fração, e uma perda de nlp pacotes corresponde à perda de nlp frações. Neste caso, a área afetada por uma perda é calculada como o número de pacotes perdidos dividido pelo número de pacotes do qual o quadro é composto. É óbvio que ó número de pacotes do qual o quadro é composto corresponde ao número de pacotes perdidos mais o número de pacotes recebidos.

[00048] De acordo com uma concretização alternativa, a área perdida em um quadro de referência pode ser estimada como o número estimado de bytes perdidos dividido pelo número estimado de bytes requerido para o dado quadro, como descrito em [10]:

na qual él-O_n ^ - é o número de bytes de vídeo perdido devido ao evento de perda i no quadro atingido corrente. é o número de bytes (perdidos + atualmente recebidos) no quadro atingido corrente. Àé - ' é a proporção estimada de pixels prejudicados no quadro atingido corrente correspondendo aos bytes perdidos com o evento de perda i.

1.1.1.2 Número fixo de frações por quadro, sem fluxo de transporte

[00049] A seguir, será considerado o caso em que o empacotamento é feito de um modo tal que frações contêm uma quantidade fixa de pixels. Este é o caso, por exemplo, para a transmissão baseada em IP/UDP/RTP com frações que não são forçadas a mapear para o tamanho do MTU. É assumido que nlp_i pacotes são perdidos em uma fileira em um dado evento de perda i atingindo o quadro corrente. Dois casos podem ser distinguidos: a) O tamanho do pacote é maior do que o tamanho da fração, b) o tamanho do pacote é igual ou menor do que o tamanho de uma fração, desde que de outro modo é esperado que o empacotamento produza pacotes de tamanho (pacote) = min(MTU, fração). No caso a), pode ser assumido que um número inteiro de frações está contido em cada pacote, e a fragmentação em fração não será executada. Este caso a) é conceitualmente muito similar às descrições anteriores, onde existia uma fração por pacote. De forma similar. No presente caso a) de um número inteiro de frações contido em um pacote, a quantidade relativa de pixels perdidos com um evento de perda i corresponde ao número relativo de pacotes nlpi perdidos dividido pelo número de pacotes do qual todo o quadro é composto, veja as Equações (6) e (6a).

[00050] No caso b), com a fragmentação em fração, a Equação (6) precisa ser reescrita como

onde ép - é o número de pacotes que contêm o quadro corrente ' ' é o número de pacotes de vídeo perdidos no quadro atingido corrente que são perdidos no evento de perda i, como anteriormente. ‘ ' é o número de frações por quadro np/nsc ... , , x. _ ~ é é o número estimado de pacotes por fração.

[00051] Este caso é ilustrado na Figura 6. O desenho esquemático apresenta a proporção de área espacial que é afetada por um evento de perda com nlp_i pacotes perdidos em uma fileira em função da posição da perda relativa a uma estrutura de fração ilustrativa. A Equação (6b), e de forma similar outras equações nesta patente, pode ser derivada por calcular um comportamento médio.

[00052] Em uma concretização alternativa deste caso, ao invés de pegar os números de pacotes, os respectivos números de bytes nestes pacotes podem ser utilizados, como no caso anterior, veja as Equações (6) e (6a). Então:

onde bp ... é o tamanho total em bytes dos pacotes que contêm o quadro corrente. éipj ... é o número de bytes de vídeo perdidos devido ao evento de perda i no quadro atingido corrente. np/w.s- .. é o numero estimado de pacotes por quadro.

[00053] Se somente uma fração for utilizada por quadro, a colocação exata de um evento de perda neste quadro pode ser conhecida. Neste caso, xl_i corresponde à área espacial entre o primeiro pacote perdido e o final do quadro:

onde sap_i é a superfície afetada pela perda e sf toda a superfície do quadro.

[00054] É óbvio para os versados na técnica calcular sap_i e sf baseado nos tamanhos de pacote e/ou nos tamanhos de carga útil como foi explicado anteriormente nesta patente.

[00055] Deve ser observado que somente quando os primeiros pacotes perdidos p_i e p_j de dois eventos de perda subsequentes i e j ~ „. „ , são separados por um

, ou seja, um número de pacotes maior ou igual ao número estimado de pacotes requeridos para uma fração, os dois eventos de perda são considerados como subsequentes. Caso contrário, os dois eventos são tratados aqui como parte de um único evento de perda combinado ij que é caracterizado por um número de pacotes encontrado entre os mesmos. Neste caso, (6b) se torna:

onde ep e e o número de pacotes que contêm o quadro corrente. nlp ij _ . . . _ é •' e o número de pacotes de vídeo que pertencem ao evento de perda combinado ij, ou seja, todos os pacotes, bem como os pacotes encontrados no espaço incluído entre os dois eventos de perda de pacote i e j (no quadro atingido corrente). efpjj —e o número de pacotes de vídeo no quadro atingido corrente que são encontrados durante o evento de perda ij. Aqui, o evento de correspondendo a pacote encontrado. uma perda, com nfp_ij pacotes encontrados entre o mesmo. wc ,, é e o número de frações por quadro. é. é o número estimado de pacotes por fração. É óbvio que (6e) tambem pode ser expressa em termos do tamanho em bytes das partes respectivamente perdidas e encontradas de um quadro de vídeo.

1.1.1.3 Número fixo de frações por quadro, com Fluxos de Transporte

[00056] No caso em que Fluxo de Transporte (TS), pacotes TS com carga útil tipicamente corresponde à área espacial fixa no respectivo quadro de vídeo, como no caso anterior. Aqui, também, pode ser requerido que uma te vários pacotes para transmitir a respectiva fração, dependendo da complexidade espacial ou temporal do vídeo para o dado quadro.

[00057] Como mencionado no ponto g), da seção “Antecedentes da Invenção”, se existir um evento de perda em uma fração, toda a área de pixel a partir da área de pixel correspondendo aos pacotes perdidos até a próxima fração é prejudicada.

[00058] Neste caso, quando existe um evento de perda i de nlp_i pacotes perdidos em uma fileira, na média, metade de uma fração é perdida em adição à proporção de pixels prejudicados correspondendo ao número de pacotes perdidos no evento i neste quadro atingido. Isto pode ser refletido por modificar a equação (6) para a equação (7):

onde nip i ... é o número de pacotes TS de vídeo e perdidos na sequência. é é o número de frações por quadro. 1/Í2 * JISC1') - é assim, o termo de correção refletindo a propagação de perda na fração atingida pela perda.

[00059] A situação é ilustrada na Figura 7, onde a área espacial afetada por um dado evento de perda de nlp_i pacotes perdidos é apresentada em função de como o evento de perda é posicionado no quadro e em relação a um conjunto ilustrativo de frações. Aqui, proporções espaciais são expressas em relação ao número geral de pacotes do qual o quadro é composto, de modo que todo o quadro corresponde a uma proporção de 1. A Equação (7) segue quando calculando a área que é afetada na média, interando a curva apresentada através da posição inicial do evento de perda em relação ao início do quadro. O dado exemplo é escolhido para o caso em que a área espacial contida nos pacotes perdidos é menor do que uma fração, mas pode ser facilmente apresentado que as mesmas relações se aplicam quando ela é maior do que uma fração.

[00060] Em uma concretização alternativa, os tamanhos de pacote em bytes ao invés dos números de pacotes podem ser utilizados:

onde élo é é-o o número de bytes de vídeo nos pacotes TS perdids na sequência. ép .--é o número total de bytes de vídeo contidos no quadro atingido corrente.

[00061] Como em outros casos de empacotamento, os pontos iniciais de dois eventos de perda i e j põem ser menores do que uma fração em bytes ou que o número de pacotes TS separados uns dos outros. Neste caso, a invenção sugere considerar os dois eventos de perda como um único evento de perda com um número nfp ou tamanho bfp de pacotes encontrados entre as duas séries de pacotes perdidos nlp_i e nlp_j (ou blp_i e blp_j, respectivamente). Neste caso, como em uma concretização comparável descrita anteriormente, os nfp_i pacotes encontrados entre as duas ocorrências de perda reduzem a proporção de pixels prejudicados no respectivo quadro, como pode ser descrito por (7b):

onde em adição às definições anteriores, temos fílP é -- é o número de pacotes TS de vídeo que pertencem ao evento de perda combinado ij, incluindo os pacotes sendo encontrados no meio (aqui assumindo somente um espaço no meio de dois eventos de perda i, j). éfp. é - é o número de pacotes TS de vídeo encontrados entre a parte de perda de um evento de perda combinado i, j. ' é o número de frações por quadro. l.-(2 */?.«.:') ... é assim o termo de correção refletindo a propagação de perda na fração atingida pela perda.

[00062] No caso particular em que somente alguns, ou seja, por exemplo, um, dois ou três frações são utilizadas por quadro, o cálculo de xl_i pode ser mais exato, quando a posição de um evento de perda i na sequência de pacotes pertencendo ao quadro é considerada. Isto é particularmente significativo para o caso de uma fração por quadro, onde toda a informação de pixel seguindo o pacote perdido neste quadro pode ser considerada como degradada. Neste caso, a equação (7) se torna a equação (7c):

onde édpj. ... é o número de pacotes a partir do primeiro pacote perdido no quadro até o fim do quadro.

[00063] Em geral, para o caso de fluxo de transporte, se o número de pacotes de vídeo perdidos com o evento de perda i exceder um número assumido de pacotes pertencendo ao quadro, ou a área afetada (como assumido, por exemplo, a partir do número estimado de bytes sendo perdidos) exceder a área do quadro, e assim o evento de perda se estender até o próximo quadro, uma respectiva consideração de área de perda afetada para o próximo quadro precisa ser feita. Tal cálculo pode ser feito utilizando, por exemplo, a equação (7), (7a), (7b) ou (7c) em relação ao quadro afetado (seguinte).

[00064] Outros aspectos sobre explicitamente considerar a localização de perda no quadro são descritos na Seção 1.3.2.

1.2 Modelo de Qualidade

[00065] Agora, para todos os casos acima, seguindo a invenção, temos, por exemplo:

[00066] Na equação (8), os valores dos coeficientes a e b dependem da resolução de vídeo e da codec de vídeo empregada. Para uma dada resolução e codec de vídeo, com somente um conjunto de coeficientes, o modelo cobre várias taxas de bits, tipos de conteúdo de vídeo (em termos de complexidade espaço-temporal), escolhas de estrutura GOP, taxa de perda de pacote e distribuição e número de frações por quadro.

[00067] Observe que os coeficiente de preferência são obtidos em um procedimento de ajuste de curva de mínimos quadrados utilizando as classificações de testes de percepção como valores alvo. Temos, por exemplo, a = 7,79 e b = 0,002 para resolução HD (1920 x 1080 pixels) com a codec de vídeo H.264 correspondendo a uma implementação do codificador x264.

1.3 Refinamentos do Modelo 1.3.1 Comportamento da área afetada pela perda durante a propagação de erro

[00068] Se ocorrer uma perda de pacote em um quadro P ou I de referência no tempo t_i no GOP k, o erro é propagado até o próximo quadro I. O número de pixels prejudicados no quadro originalmente atingido no tempo t_i é nos quadros dependentes até o próximo quadro I é até o momento considerado constante. Em outros termos, a extensão espacial da perda é considerada constante enquanto propagando (veja a Figura 5 (a)). Esta suposição é na maior parte dos casos não precisa. Na verdade, desde que existe movimento no vídeo, e devido à natureza do processo de codificação, a extensão espacial da perda está se alterando de um quadro dependente para outro (veja a Figura 5(b) e (c)). A expansão (Figura 5(c)) ou diminuição (Figura 5(b)) desta extensão espacial depende da quantidade e da complexidade temporal do movimento. Se o movimento for caótico, por exemplo, se diferentes partes da imagem se movem em diferentes direções, a perda pode se propagar através de todo o quadro (Figura 5(c)), mas se o movimento do objeto prejudicado for consistente e rápido, o objeto prejudicado pode desaparecer da imagem antes do próximo quadro I (Figura 5(b)). Este aspecto pode ser ajustado pela inserção de um fator de correção ai,k para xl_k na equação (4) e para todas as equações relacionadas, e/ou de um fator de correção a2,i para xl_i na equação (5) e para todas as equações relacionadas, como apresentado nas equações (9a), (9a2) e (9b):

ou relacionada com a Equação (5a)

onde

[00069] O fator de correção ai,k depende da complexidade temporal do vídeo tcomp. A complexidade temporal é calculada por GOP k.

[00070] O fator de correção a2,i é aplicado por evento de perda xl_i e depende da localização temporal do quadro atingido pelo evento de perda i, isto é, de t_i e da complexidade temporal do vídeo tcomp. Assim, os fatores de correção podem ser escritos como nas equações (i0a) e (i0b).

onde écaarp ... θ a complexidade temporal do GOP, por exemplo, uma função dos tamanhos de quadro para os quadros I, P e B. e onde é é é é a posição do quadro no GOP no qual ocorre o novo evento de perda. Assim, ‘ “ é uma função de tcomp. «. é uma função da localização do quadro entre t_i e T e de tcomp.

[00071] Os fatores de correção a1,k e a2,i podem ser obtidos estatisticamente em um estágio anterior (off-line) por comparar para cada evento de perda e para uma ampla faixa de conteúdo de vídeo os xl_i valores calculados utilizando a equação (6) - ou qualquer uma das outras equações proporcionadas acima que permita calcular xl_i - e o número real de pixel prejudicados. O número real de pixels prejudicados é, por exemplo, calculado por comparar quadro a quadro o vídeo codificado com a perda de pacote e o vídeo codificado livre de perda de pacote. Este número é armazenado para cada evento de perda junto com os valores t_i, tcomp e xl_i. Assim, temos um mapeamento entre o número real de pixels prejudicados e xl_i para vários valores tcomp e t_i que precisam ser derivados utilizando abordagens heurísticas conhecidas pelos versados na técnica. Assim, sabemos quanto xl_i deve ser atenuado ou expandido para cada um dos valores t_i e tcomp.

[00072] Observe que a visibilidade do erro depende da complexidade espaço-temporal do conteúdo. Por exemplo, para conteúdo com baixa complexidade temporal e no caso do fracionamento ser utilizado como parte do encobrimento de perda de pacote, este encobrimento de perda pode funcionar muito bem, e o erro induzido pela perda pode não ficar visível. O erro também pode ficar não visível quando ocorrendo em áreas espaciais com alta quantidade de detalhes. Como consequência, em uma concretização alternativa, os fatores αi,k e a2,i também poderiam representar a visibilidade do erro a ser calculado baseado nas complexidades temporal e espacial da sequência de vídeo. Neste caso, as equações (9a) e (9a2) podem ser utilizadas, e o fator de correção αi,k depende da complexidade espaço-temporal do vídeo stcomp. A complexidade espaço-temporal é calculada por GOP k, e a equação (i0a) se torna

onde étcomp ... é a complexidade espaço-temporal do GOP, por exemplo, uma função dos tamanhos de quadro para quadros I, P e B.

[00073] Os versados na técnica facilmente estarão aptos a combinar os aspectos expressos pelas Equações (9a) até (i0a2) com a integração temporal de perda ligeiramente diferente quando a codificação de quadro B hierárquica for empregada, veja, por exemplo, as Equações (5b2) e (5c).

1.3.2 Área espacial afetada pelo evento de perda

[00074] Utilizando os mesmos fatores de ponderação que introduzidos acima, a posição da degradação em um quadro causada pelo evento de perda i pode explicitamente ser levada em consideração. Isto pode ser significativo por diferentes razões: I) É esperado que a atenção do observador esteja focada principalmente no meio do quadro. Este efeito é diminuído pela ocorrência de erros visíveis, os quais são prováveis de atrair a atenção do observador. Entretanto, erros visíveis ocorrendo em alguns erros do quadro podem produzir um impacto mais forte sobre a qualidade do que erros em outras áreas do quadro. Este aspecto é bem conhecido; a invenção feita nesta patente consiste em como este efeito pode ser incluído no cálculo de xl_k e xwpSEQ, utilizando os fatores ai ou «2 introduzidos acima, de uma maneira apropriada, utilizando uma representação de localização espacial como é esboçado abaixo. II) Quando ocorrem vários eventos de perda em localizações espaciais similares em um GOP, é provável que a área espacial afetada não corresponda ao acúmulo de contribuições individuais a partir destes eventos de perda. Ao invés disso, é provável que o impacto seja combinado, e por consequência o xl_k resultante para o GOP k seja menor do que quando todos os eventos de perda afetam diferentes áreas espaciais. Desde que este efeito interage com a complexidade temporal na cena, ou seja, será menos expresso quando a localização de degradação se desloca com movimentos na cena, existe uma dependência do conteúdo adicional. Todos estes aspectos podem ser manipulados por apropriadamente escolher o fator de ponderação a2 introduzido acima. III) Quando vários GOPs apresentam degradações em localizações espaciais similares, como é, por exemplo, o caso para transmissão com uma fração por quadro (devido às estatísticas, a parte inferior será sempre mais afetada), pode ser assumido que a degradação resultante será diferente do caso em que diferentes GOPs são degradados em diferentes áreas espaciais. Por exemplo, a atenção visual será focada sobre área ocorrendo novamente com perda, e por consequência, o impacto da qualidade muito provavelmente será mais proeminente neste caso. Este efeito pode ser modelado, por exemplo, com uma escolha apropriada do fato de ponderação ai.

[00075] Para todos os casos (I) até (III), é requerido manter o rastro da localização espacial da degradação causada por um evento de perda i no quadro j e a localização espacial acumulada para os diferentes GOPs k. Baseado nas mesmas considerações que esboçadas nas partes anteriores da patente, é óbvio que a localização pode ser rastreada por utilizar a distância de um evento de perda i a partir do início do quadro j em termos da posição vertical no quadro, do tamanho geral da área de perda em relação ao tamanho total (ou extensão espacial) do quadro, e assim, do tamanho da área no fim do quadro que não é afetada pela perda.

[00076] Em uma concretização, a abordagem seguinte é feita por manter o rastro da localização de degradação devido às perdas no quadro e no GOP:

[00077] Deixe xl_i ser a extensão espacial da área afetada pelo evento de perda i, como acima. Agora, adicionalmente introduzimos as proporções seguintes que são extraídas a partir do tamanho do pacote ou da informação de número do pacote como acima: é a área espacial relativa no começo do quadro j, a qual não é afetada pelo evento de perda i. Observe que A/ÒIÍRÍ//Í p pode ser igual a 0. é a área espacial relativa no fim do quadro j, a qual não é afetada pelo evento de perda i. Observe que J pode ser igual a 0. SZZ Í é um vetor de coluna que contém, em cada linha, informação sobre se e, se desejado, até qual extensão a respectiva parte do quadro contém partes de evento de perda i. Para este objetivo, o quadro j é dividido em M linhas horizontais igualmente grandes, com M correspondendo à dimensionalidade do vetor sll_i. Agora, em uma concretização da invenção, as entradas do vetor sll_i podem ser calculadas como a seguir: ∑ é é a proporção no começo do quadro não afetada pela perda, em termos de amostragem de linha em M linhas, e expressa em relação ao tamanho total do quadro. é^- é a proporção no fim do quadro não afetada pela perda, em termos de amostragem de linha em M linhas, e expressa em relação ao tamanho total do quadro.

[00078] Adicionalmente:

[00079] Uma expressão mais simples para (10e) é:

x com c1 sendo uma constante escolhida apropriadamente.

[00080] Agora, a Equação (10h) pode, por exemplo, envolver uma soma de todos sll_i para um dado GOP k. Então, a distribuição de valores em M compartimentos descritos por sll_i pode ser uma medida de se diferentes eventos de perda i afetando um dado GOP atingindo áreas similares ou dissimilares. Então, quanto menor o espalhamento de valores, mais as perdas estão concentradas em certa área, produzindo uma ponderação menor de eventos individuais.

[00081] Para a Equação (10f), o sll_ik somado para um dado GOP k pode ser acumulado através dos GOPs, proporcionando uma medida de se áreas diferentes ou similares são afetadas para diferentes GOPs afetados. Por consequência, a contribuição de GOPs pode ser ponderada mais ou menos intensamente.

[00082] Os versados na técnica facilmente estarão aptos a combinar estes métodos com contribuições de ponderação adicionais em termos de movimento contido na cena, ou qualquer outro dos aspectos pode ser manipulado por uma ponderação apropriada, como descrita acima.

1.3.3 Impacto devido ao número de GOPs afetados

[00083] Um modo adicional para melhorar a predição do modelo é inserir como parâmetro de entrada o número de GOPs com eventos de perda. Na verdade, como pode ser visto na equação (4), o modelo não distingue até agora o impacto da qualidade de um único evento de perda longo com uma grande extensão espacial a partir de eventos de perda muito curtos e menores (em termos de extensão espacial). Assumimos que vários pequenos eventos de perda degradam mais a qualidade do que um único evento de perda maior, mas esta diferença depende da extensão espacial dos próprios eventos de perda. Como consequência, inserimos um fator de correção β na equação (4), como apresentado na equação (11):

Com

na qual é o número de GOPs com eventos de perda na janela de medição. é - é a extensão espaço-temporal das perdas ocorrendo no GOP k (veja as equações (5) e (9) e todas as equações relacionadas).

[00084] Isto também pode ser combinado com a forma de (4) que inclui GOPs diferentemente longos como é dado em (5a), produzindo (11a):

[00085] De forma similar a α, β _k pode ser obtido estatisticamente em um estágio anterior por comparar os valores xwpSEQ de um conjunto de sequências de vídeo que obteve a mesma qualidade percebida e por armazenar para cada um dos valores xwpSEQ e de qualidade percebida os parâmetros Ngl_e xl_k Observe que a qualidade percebida foi anteriormente obtida por conduzir testes subjetivos, desde que a invenção pode ser considerada como um modelo técnico do processo de percepção de sujeitos humanos. O valor β é ajustado para obter o melhor mapeamento entre xwpSEQ calculado utilizando a equação (11) e a qualidade percebida.

2. Congelamento

[00086] O método foi até agora descrito assumindo que o fracionamento foi utilizado como o tipo de encobrimento de perda de pacote. O parâmetro xwpSEQ entretanto também é valido no caso em que congelamento é utilizado como o tipo de encobrimento de perda de pacote. Se os GOPs da janela de medição possuírem o mesmo comprimento, e como mencionado no ponto f) na seção “Antecedentes da Invenção”, no caso de congelamento, se um quadro for atingido por perda de pacote, o último quadro não prejudicado congela até o próximo quadro I. A extensão espacial da perda descrita no xwpSEQ não se aplica, ao contrário do aspecto temporal da perda coberta por este parâmetro. Isto pode ser refletido na equação (5) por forçar para 1, (e refletindo a Equação 5a), levando à equação (12);

[00087] Na equação (12), o xl_k representa a duração da perda no GOP em relação à duração do GOP k.

[00088] Quando utilizando (12) junta com (4) ou (5a), ou qualquer outra das equações relacionadas, tanto o caso de GOPs igualmente longos como de GOPs diferentemente longos, pode ser considerado. Além disso, correções do parâmetro relacionado com o congelamento em termos de complexidade espaço-temporal do conteúdo podem ser implementadas como no caso de degradação por fracionamento como é esboçado nas seções anteriores.

Breve Descrição dos Desenhos

[00089] A Figura 1 apresenta um diagrama de blocos da estrutura geral da estimativa de qualidade relacionada com as distorções de compactação e de transmissão. Em particular, ela apresenta a estrutura geral para estimar a qualidade percebida do vídeo no caso de degradação de compactação (Qcod) e de transmissão (Qtrans) no caso de monitoramento de serviço. Parâmetros tais como o número de pacotes perdidos e tipo de quadro, etc., são extraídos a partir do fluxo de bits e utilizados para calcular o parâmetro xwpSEQ, e predizer o impacto da qualidade devido à perda de pacote Qtrans.

[00090] A Figura 2 apresenta o impacto do número de frações por quadro no caso de perda de pacote e o fracionamento como encobrimento de perda de pacote; em particular, apresenta como a perda se propaga até a próxima fração em um dado quadro, no caso de 3 frações por quadro (imagem do meio) e no caso de 1 fração por fileira de Macrobloco (direita). Um macrobloco é um bloco de 16 x 16 pixels. Diferentes áreas são afetadas dependendo de quantos pacotes um quadro é composto e de quantas frações são utilizadas para o quadro.

[00091] A Figura 3 compara a ordem codificada do fluxo de vídeo em relação à ordem de exibição.

[00092] A Figura 4 ilustra o cálculo do parâmetro xwpSEQ. Ela apresenta quadros de vídeo dentro de uma janela de medição e a perda no GOP k.

[00093] A Figura 5 apresenta diferentes variantes de propagação de perda dependendo do tipo de movimento em um dado GOP atingido por perda de pacote. Por exemplo, ela apresenta uma propagação de erro (a) sem considerar atenuação ou expansão de perda, (b) considerando atenuação de perda e (c) considerando expansão de perda.

[00094] A Figura 6 ilustra como xl_i, a extensão espaço-temporal do evento de perda i, pode ser calculada para o caso de fragmentação em fração para o exemplo de nlp_i = 2 para pacotes perdidos em uma fileira, e quatro pacotes requeridos para transmitir uma fração. Observe que para a imagem superior, todas as frações para o quadro são representadas uma ao lado da outra em termos dos pacotes dos quais elas são compostas. Adicionalmente, observe que para propósito de ilustração, uma situação idealizada é assumida com igual número de pacotes por fração para todo o quadro.

[00095] A Figura 7 detalha o cálculo de xl_i, a extensão espaço- temporal do evento de perda i, para o caso de TS. Uma área perdida pode se situar em uma posição arbitrária através do quadro. Aqui, a área perdida é expressa como a proporção relativa para todo o tamanho do quadro. A posição de perda é expressa em termos da posição do início da perda.

[00096] A Figura 8 resume as etapas principais da invenção por meio de um fluxograma. O fluxograma ilustra o método para o exemplo de determinar Qtrans no caso em que o fracionamento é utilizado com o encobrimento de perda de pacote. Observe que os blocos com preenchimento cinza juntos formam o modo básico da patente. Os blocos em branco refletem etapas opcionais adicionais.

[00097] Apesar de a invenção ter sido ilustrada e descrita em detalhes nos desenhos e na descrição anterior, tais ilustração e descrição são para serem consideradas ilustrativas ou como exemplos e não restritivas. Será entendido que alterações e modificações podem ser feitas pelos versados na técnica dentro do escopo das reivindicações seguintes. Em particular, a presente invenção cobre concretizações adicionais com qualquer combinação de aspectos a partir de diferentes concretizações descritas acima e abaixo.

[00098] Adicionalmente, nas reivindicações, a palavra “compreendendo” não exclui outros elementos ou etapas, e o artigo indefinido “um” ou “uma” não exclui vários. Uma única unidade pode atender às funções de vários aspectos citados nas reivindicações. Os termos “essencialmente”, “ao redor”, “aproximadamente” e assim por diante em conexão com um atributo ou com um valor particularmente também definem exatamente o atributo ou exatamente o valor, respectivamente. Quaisquer sinais de referência nas reivindicações não devem ser construídos como limitando o escopo. Referência Bibliográfica [1] A. Takahashi, D. Hands, and V. Barriac, “Standardization Activities in the ITU for a QoE Assessment of IPTV,” in IEEE Communication Magazine, 2008. [2] S. Winkler and P. Mohandas, “The Evolution of Video Quality Measurement: From PSNR to Hybrid Metrics,” in IEEE Trans. Broadcasting, 2008. [3] A. Raake, M.N. Garcia, S. Moeller, J. Berger, F. Kling, P. List, J. Johann, and C. Heidemann, “T-V-MODEL: Parameter-based prediction of IPTV quality,” in Proc, of ICASSP, 2008. [4] O. Verscheure, P. Frossard, and M. Hamdi “User-Oriented QoS Analysis in MPEG-2 Video Delivery”, in Real-Time Imaging 5, 305-314 (1999) [5] F. You, W. Zhang, J. Xiao, "Packet Loss Pattern and Parametric Video Quality Model for IPTV", in Proc, of Eigth IEEE/ACIS International Conference on Computer and Information Science, pp. 824-828, 2009. [6] M.-N. Garcia and A. Raake, “Parametric Packet-Layer Video Quality Model For IPTV”, in Proc of Tenth International Conference on Information Science, Signal Processing and their Applications (ISSPA) 2010 [7] K. Yamagishi and T. Hayashi, “Parametric Packet-Layer Model for Monitoring Video Quality of IPTV Services,” IEEE ICC 2008, CQ04-3, pp. 110-114, Beijing, China, 2008. [8] Q. Huynh-Thu, Quan, and B. Pemot, “Method and apparatus for generation of a video quality parameter”, Patent EP 2 112 835 Al [9] A. Clark, “Method and system for viewer quality estimation of packet video streams”, US 2009/0041114 Al, WO 2009/012302 [10] P. Frossard, O. Verscheure, “Joint Sourc/FEC Rate Selection for Quality-optimal MPEG-2 Video Delivery. IEEE Trans. Image Proc., Vol. 10, No. 12, Dec. 2001.

Claims

1. Método para avaliar a qualidade de uma sequência transmitida de sinais de vídeo no lado do receptor, o método caracterizado pelo fato de que compreende as etapas de: a) capturar o fluxo de bits de vídeo de entrada recebido antes da decodificação e fornecer o mesmo para um analisador de fluxo de bits de vídeo; b) extrair, durante uma janela de tempo de medição, um ou mais aspectos a partir dos cabeçalhos de pacote capturados pelo analisador de fluxo de bits, sem analisar ou decodificar a carga útil do pacote; c) calcular a partir do um ou mais aspectos, um único parâmetro, xwpSEQ, representando uma estimativa da extensão espaço temporal da degradação de sinal devido à perda de pacote, em que o parâmetro único, xwpSEQ, é baseado no número, N, de Grupo de Imagens, GOPs, na janela de medição e na extensão espaço- temporal, xl_k, destas perdas ocorrendo no Grupo de Imagens afetado, k, utilizando a relação .

' , em que a extensão espaço-temporal, xl_k, destas perdas ocorrendo em um Grupo de Imagens, k, é calculada baseada na proporção de pixels prejudicados no quadro atingido devido a um evento de perda, xl_i, na localização de perda em relação ao início do GOP, t_i e no comprimento do GOP, T_k, utilizando a relação

, em que o cálculo adicionalmente considera um fator de correção, au, representando a complexidade espaço-temporal da sequência de vídeo, pelo qual a contribuição xl_k das perdas no GOP k para o parâmetro geral xwpSEQ é corrigida, utilizando a relação

, ' , em que N é o número de GOPs na janela de medição e Tk é o comprimento do GOP k; d) fornecer o parâmetro determinado para um módulo de estimativa de qualidade; e e) calcular, pelo módulo de estimativa de qualidade, uma medida de qualidade devido à perda de pacote, Qtrans, baseada somente no parâmetro único representando a estimativa da extensão espaço-temporal da degradação do sinal, xwpSEQ, devido à perda de pacote e baseada na informação de resolução de vídeo e no codec de vídeo empregado.

2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o parâmetro único, xwpSEQ, determinado na etapa c), também é calculado a partir de meta-informação sobre o fluxo de mídia tal como a configuração do fracionamento e o encobrimento de perda de pacote.

3. Método, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que a proporção de pixels prejudicados no quadro atingido, xl_i, é calculada baseada no número de pacotes de vídeo perdidos para o evento de perda de pacote i no quadro atingido corrente, nlp_i, dividido pelo número de pacotes perdidos e corretamente recebidos no quadro atingido corrente, np, utilizando a relação xl_i = nlp_i/np.

4. Método, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que a proporção de pixels prejudicados no quadro atingido, xl_i, é calculada baseada no número de bytes de vídeo perdidos devido ao evento de perda i no quadro atingido corrente, blp_i, dividido pelo número de bytes perdidos e corretamente recebidos no quadro atingido corrente, bp, utilizando a relação xl_i = blp_i/bp.

5. Método, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que a proporção de pixel prejudicados no quadro atingido, xl_i, é calculada baseada no número de pacotes que contêm o quadro corrente, np, no número de pacotes de vídeo perdidos no quadro atingido corrente que são perdidos no evento de perda i, nlp_i, no número de frações por quadro, nsc, e no número estimado de pacotes por fração, np/nsc, utilizando a relação

6. Método, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que a proporção de pixel prejudicados no quadro atingido, xl_i, é calculada baseada no tamanho total em bytes dos pacotes que contêm o quadro corrente, bp, no número de bytes de vídeo perdidos devido ao evento de perda i no quadro corrente atingido, blp_i, e no número estimado de pacotes ou bytes por fração, np/nsc, utilizando a relação

7. Método, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que a proporção de pixel prejudicados no quadro atingido, xl_i, é calculada baseada no número de pacotes que contêm o quadro corrente, np, no número de pacotes de vídeo que pertencem ao evento de perda combinado ij, nlp_ij, no número de pacotes de vídeo no quadro corrente atingido que são encontrados durante o evento de perda ij, nfp_ij, no número de frações por quadro, nsc, e no número estimado de pacotes por quadro, np/nsc, utilizando a relação

8. Método, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que a proporção de pixel prejudicados no quadro atingido, xl_i, é calculada baseada no número de pacotes de fluxo de transporte de vídeo perdidos na sequência, nlp_i, no número de frações por quadro, nsc, e em um termo de correção refletindo a propagação de perda no quadro atingido pela perda, 1/(2 * nsc), utilizando a relação

9. Método, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que a proporção de pixel prejudicados no quadro atingido, xl_i, é calculada baseada no número de bytes de vídeo nos pacotes de fluxo de transporte perdidos na sequência, blp_i, no número total de bytes de vídeo contidos no quadro corrente atingido, bp, no número de frações por quadro, nsc, e em um termo de correção refletindo a propagação de perda no quadro atingido pela perda, 1/(2 * nsc), utilizando a relação

10. Método, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que a proporção de pixel prejudicados no quadro atingido, xl_i, é calculada baseada no número de pacotes de fluxo de transporte de vídeo que pertencem ao evento de perda combinado, ij, nlp_ij, no número de pacotes de fluxo de transporte de vídeo entre a parte de perda de um evento de perda combinado i,j, nfp_ij, no número de frações por quadro, nsc, e em um termo de correção refletindo a propagação de perda no quadro atingido pela perda, 1/(2 * nsc), utilizando a relação

11. Método, de acordo a reivindicação 1 ou 2, caracterizado pelo fato de que no caso em que uma fração é utilizada por quadro, a contribuição xl_i de um evento de perda i é calculada como a área espacial entre o primeiro pacote perdido e o fim do quadro.

12. Método, de acordo com qualquer uma das reivindicações 1 a 11, caracterizado pelo fato de que a etapa (c) adicionalmente considera um fator de correção, aa, representando a complexidade espaço-temporal da sequência de vídeo, pelo qual a contribuição xl_i do respectivo evento de perda i localizado no quadro t_i no GOP k, para o parâmetro xl_k é corrigida, utilizando a relação

em que T_k é o comprimento do GOP k.

13. Método, de acordo com qualquer uma das reivindicações 1 a 12, caracterizado pelo fato de que o fator de correção depende da complexidade temporal do vídeo calculada por Grupo de Imagens.

14. Método, de acordo com qualquer uma das reivindicações 1 a 12, caracterizado pelo fato de que o fator de correção depende da localização temporal no quadro no Grupo de Imagens atingido pelo evento de perda i.

15. Método, de acordo com qualquer uma das reivindicações 1 a 12, caracterizado pelo fato de que o fator de correção depende da localização temporal do quadro no Grupo de Imagens atingido pelo evento de perda i e da complexidade temporal do vídeo computada por Grupo de Imagens.

16. Método, de acordo com qualquer uma das reivindicações 1 a 12, caracterizado pelo fato de que o fator de correção depende da complexidade espaço-temporal computada por Grupo de Imagens.

17. Método, de acordo com qualquer uma das reivindicações 1 a 16, caracterizado pelo fato de que a etapa e) adicionalmente considera o número de Grupos de Imagens com eventos de perda, Ngl, utilizando as relações

.

18. Método, de acordo com qualquer uma das reivindicações 1 a 17, caracterizado pelo fato de que uma variável é armazenada por evento de perda, a qual captura uma posição estimada da área afetada no respectivo quadro, e é utilizada para corrigir a contribuição xl_i de um evento de perda i, ou para corrigir as contribuições de uma dada parte temporal da sequência para o parâmetro geral de acordo com c).

19. Método, de acordo com qualquer uma das reivindicações 1 a 18, caracterizado pelo fato de que o congelamento é utilizado como o tipo de encobrimento de perda de pacote, e o parâmetro c) se refere à duração temporal ponderada total dos eventos de congelamento de acordo com as reivindicações 1 a 16, e x] k - íT k-t íVT k utilizando a relação

em que t_i é a localização de perda relativa ao início do GOP, T_k é o comprimento do GOP k.

20. Aparelho para avaliar a qualidade de uma sequência transmitida de sinais de vídeo no lado do receptor, caracterizado pelo fato de que compreende: um analisador de fluxo de bits de vídeo capturando o fluxo de bits de vídeo de entrada recebido antes da decodificação, e configurado para extrair, durante uma janela de tempo de medição, um ou mais aspectos a partir dos cabeçalhos de pacote capturados do fluxo de bits de vídeo de entrada capturado sem analisar ou decodificar a carga útil do pacote; meios para calcular a partir do um ou mais aspectos, um parâmetro único, xwpSEQ, representando uma estimativa de extensão espaço-temporal de degradação do sinal devido à perda de pacote, em que o parâmetro único, xwpSEQ, é baseado no número, N, de Grupos de Imagens, GOPs, na janela de medição e na extensão espaço- temporal, xl_k, das perdas ocorrendo no Grupo de Imagens afetado, k, utilizando a relação

em que a extensão espaço- temporal, xl_k, das perdas ocorrendo em um Grupo de Imagens, k, é calculada baseada na proporção de pixels prejudicados no quadro atingido devido a um evento de perda, xl_i, na localização da perda em relação ao início do GOP, t_i, e no comprimento do GOP, T_k, utilizando a relação

em que o cálculo adicionalmente considera um fator de correção, au, representando a complexidade espaço-temporal da sequência de vídeo, pelo qual a contribuição xl_k das perdas no GOP k para o parâmetro geral xwpSEQ é corrigida, utilizando a relação

ou

I , em que N é o número de GOPs na janela de medição e T_k é o comprimento do GOP k; um módulo de estimativa de qualidade configurado para receber o parâmetro determinado, o módulo de estimativa de qualidade sendo configurado para calcular uma medida de qualidade devido à perda de pacote, Qtrans, baseada somente no parâmetro único representando a estimativa da extensão espaço-temporal da degradação de sinal, xwpSEQ, devido à perda de pacote e baseada na informação de resolução de vídeo e no codec de vídeo empregado.