BR112013014367B1

BR112013014367B1 - Método e aparelho para avaliar a qualidade de uma sequência de sinal de vídeo transmitida no lado de receptor

Info

Publication number: BR112013014367B1
Application number: BR112013014367-3A
Authority: BR
Inventors: Savvas Agryropoulos; Bernhard Feiten; Alexander Raake; Marie-Neige Garcia; Peter List
Original assignee: Deutsche Telekom Ag
Priority date: 2010-12-10
Filing date: 2011-09-02
Publication date: 2022-07-12
Also published as: CN103283239A; KR101857842B1; JP2014502113A; EP2649801A1; US9232217B2; WO2012076203A1; ES2541282T3; JP6022473B2; PL2649801T3; HUE026522T2; KR20140008508A; EP2649801B1; BR112013014367A2; CN103283239B; HRP20150481T1; US20130271668A1

Abstract

MÉTODO E APARELHO PARA AVALIAÇÃO DE QUALIDADE DE VÍDEO OBJETIVA EM ESTIMATIVAS CONTÍNUAS DE VISIBILIDADE DE PERDA DE PACOTE. A invenção refere-se a um método e aparelho para avaliar a qualidade de uma sequência de sinal de vídeo transmitida no lado receptor, o método compreendendo as etapas de: a) capturar o fluxo de bits de vídeo de entrada e supri-lo para um analisador de fluxo de bits de vídeo; b) extrair pelo menos uma característica ou um conjunto de características do fluxo de bits de vídeo de entrada capturado pelo analisador de fluxo de bits; c) suprir a característica ou conjunto de características extraído para um módulo de estimativa de visibilidade de perda de pacote; d) determinar, pelo módulo de estimativa de visibilidade de perda de pacote, a visibilidade de uma perda de pacote ocorrida durante a transmissão do sinal de vídeo atribuindo uma estimativa contínua para cada evento de perda de pacote ocorrido dentro de um intervalo de tempo específico; e) combinar a estimativa de visibilidade de perda de pacote determinada pelo módulo de estimativa com a extraída pelo menos uma característica ou conjunto de característica ou conjunto de características para avaliar a qualidade total, Q, da sequência de sinal de vídeo transmitida.

Description

CAMPO DA TÉCNICA

[001] A presente invenção refere-se a um método e aparelho ava liação de qualidade de vídeo com base na análise da visibilidade de perdas de pacote que podem ocorrer durante a transmissão de uma sequência de vídeo através de uma rede com tendência de erro.

ANTECEDENTES DA TÉCNICA

[002] A proliferação de fornecimento de conteúdo de vídeo durante os últimos anos necessitou o desenvolvimento de métodos de avaliação de qualidade de vídeo objetivos. Tornou-se evidente que os parâmetros de rede os quais definem a Qualidade de Serviço (QoS) não são suficientes para estimar a qualidade de serviço percebida pelo usuário, tipicamente referida como Qualidade de Experiência (QoE). Os métodos de estimativa de qualidade comumente suportam uma estimativa distinguida da qualidade relativa à codificação (compressão, Qcod) do sinal de vídeo e a qualidade devida à perda de pacote durante a transmissão (Qtrans). É uma propriedade inerente das redes de IP que (principalmente devido à sobrecarga temporal em algum ponto na rede) os pacotes de IP podem ser perdidos. Algumas destas perdas podem ser quase invisíveis para o cliente enquanto outras podem causar uma severa degradação da qualidade de vídeo. Mesmo se contramedidas contra estas perdas fazem parte de um sistema de distribuição de IPTV, estes meios nunca podem garantir uma solução absoluta. Por exemplo, uma solicitação de retransmissão pode demorar muito, ou o próprio pacote retransmitido pode ser perdido. Portanto, existe sempre uma probabili-dade não zero, que fluxos de bit fragmentários sejam transmitidos para o dispositivo de usuário final. Estes por sua vez podem causar degrada- ções visíveis ou audíveis no vídeo reconstruído. As categorias de medição podem, portanto, também incluir valores para expressar a probabilidade para perdas. Tais valores podem incluir a expressão de uma "taxa de perda de pacote" e a "rajada de eventos perdidos". Em Y. J. Liang et al., "Analysis of Packet Loss for Compressed Video: Effect of Burst Losses and Correlation between Error Frames," IEEE Trans. on Circuits and Systems for Video Technology, vol. 18, no. 7, Jul. 2008, o impacto de perdas de rajada sobre a qualidade de vídeo foi investigado. Foi mostrado que o padrão de perda tem um efeito significativo sobre a distorção total e que as perdas de rajada têm um impacto mais severo do que as perdas individuais. No entanto, este estudo não considera a distorção percebida da perspectiva de um usuário e é principalmente proposto para a estimativa da distorção no lado de codificador, onde as perdas de pacote reais não são conhecidas.

[003] Os modelos de qualidade de vídeo paramétricos para as apli cações de IPTV levam em consideração a distorção devida tanto à com-pressão quanto à transmissão errônea (ver, por exemplo, K. Yamagishi e T. Hayashi, "Parametric Packet-Layer Model for Monitoring Video Quality of IPTV Services," in Proc. of IEEE Int. Conf. on Communications, 2008, ou M. N. Garcia e A. Raake, "Parametric packet-layer video quality model for IPTV," Int. Conf. on Information Science, Signal Processing and their Applications (ISSPA), Kuala-Lumpur, Maio 2010).

[004] No entanto, os modelos puramente baseados em cabeçalho não podem cobrir precisamente o impacto de prejuízos sobre a qualidade visual em termos das características espaço - temporais da sequência de vídeo e as propriedades estatísticas das perdas de pacote. Assim, os modelos de avaliação de qualidade de vídeo objetiva devem analisar a relação entre as perdas de pacote e a degradação visual e fatorar no fato que as perdas de pacote não produzem uma quantidade igual de degradação percebida. Uma visão geral de diferentes tipos de modelos baseados em pacote, fluxo de bits ou híbridos objetivos e a diferente quantidade de informações que está disponível para cada um destes é apresentada em S. Winkler e P. Mohandas, "The Evolution of Video Quality Measurement: From PSNR to Hybrid Metrics" IEEE Trans. on Broadcasting, vol. 54, no. 3. Set. 2008. Uma visão mais detalhada das diferentes camadas de informações para os algoritmos de monitoramento de qualidade de vídeo de não referência é apresentada em A. Takahashi, et al. "Standardization activities in ITU for a QoE assessment of IPTV" IEEE Communications Magazine, vol. 46, no. 2, Fev. 2008.

[005] O problema de predizer a visibilidade de perda de pacote foi tratado na literatura somente em termos de classificação de perdas de pacote em um modo binário: visível ou invisível. Em S. Kanumuri, P. C. Cosman, A. R. Reibman, V. A. Vaisharnpayan, "Modeling packet-loss visibility in MPEG-2 video," IEEE Trans. On Multimedia, vol. 8, no. 2, Abril 2004, pp. 341-355, um conjunto de características foi extraído do fluxo de bits de MPEG-2 e duas propostas de modelagem, um Modelo Linear Generalizado (GLM) foi utilizado para estimar o número relativo de expectadores que detectaram um erro, e um classificador de árvore para determinar se uma perda de pacote resulta em uma degradação visível. O algoritmo foi estendido para vídeo H.264/AVC em S. Kanumuri, et al., "predicting H.624 Packet Loss Visibility using a Gener-alized Linear Model", in Proc. of ICIP, Out. 2006. A primeira classificação foi estendida para vídeo H.264/AVC em S. Kanumuri, S. B. Subrama- nian, P. C. Cosman, A. R. Reibman, "Predicting H.264 packet loss visibility using a generalized linear model," in Proc. of IEEE Int. Conf. on Image Processing (ICIP), Atlanta, Georgia, Out. 2006, no qual o efeito de perdas de pacote duplo foi examinado, e em T.L. LS. Kanumuri, Y. Zhi, D. Poole, P.C. Cosman, e A.R Reibman, "A versatile model for packet loss visibility and its application to packet prioritization," IEEE Trans. on Image Processing, vol. 19, no. 3, pp. 722-735, Mar. 2010, onde a estrutura proposta foi utilizada para a priorização de pacotes nos roteadores intermediários de uma rede.

[006] Além disso, um classificador de árvore de decisão baseada em fluxo de bits de não referência para as sequências CIF foi desenvolvido por N. Staelens et al., "Viqid: A no-reference bit stream-based visual quality impairment detector," in IEEE Workshop on Quality of Multimedia Experience, Trondheim, Norway, Jun. 2010. Aqui, o efeito do padrão de perda de pacote e o comprimento sobre a qualidade subjetiva ainda permanece uma questão aberta. Em Y. J. Liang, J. G. Apostolopoulos, e B. Girod, "Analysis of packet loss for compressed video: effect of burst losses and correlation between error frames," IEEE Trans. on Circuits and Systems for Video Technology, vol. 18, no. 7, pp. 861-874, Jul. 2008, o efeito de perdas de rajada sobre a qualidade de vídeo reconstruído foi analisado e foi mostrado que um padrão de perda específico produz uma maior degradação do que um número igual de perdas isoladas. Também, a correlação entre os quadros de erro foi considerada na modelagem da distorção induzida. No entanto, o algoritmo somente testado em sequência de QCIF e, assim, com um esquema de empacotamento no qual um quadro individual está contido em um pacote. Mais ainda, o impacto sobre as classificação subjetivas não foi testado.

[007] Mais ainda, em F. Yang, et al., "No-reference quality asses sment for Networked Video via Primary Analysis of the Bit-Stream", IEEE Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 15441554, Nov. 2010, um algoritmo de monitoramento de qualidade [e apresentado para levar em conta a degradação devido a erros de quantiza- ção e transmissão. O impacto de perda de pacote sobre a qualidade percebida é ponderado pela complexidade temporal das quadros onde a perda ocorre.

[008] Ainda outro método para o monitoramento de qualidade de vídeo foi apresentado em M. MU et al., "A discrete perceptual impact evaluation quality assessment framework for IPTV services", in Proc. of ICME, 2010, baseado na agregação de degradações de vídeo devido a defeitos de rede.

[009] A principal diferença da presente invenção é que a visibili dade de cada evento de perda de pacote é atribuída a um único "valor de visibilidade" o qual é adicionalmente explorado na fórmula de avaliação de qualidade de vídeo para levar em consideração o impacto da perda de pacote sobre a qualidade percebida. Também, as características empregadas, as quais são extraídas e computadas do fluxo de bits de vídeo, e o algoritmo para a fusão destas características para a computação da estimativa de visibilidade de cada perda é novidade em relação aos métodos anteriores.

SUMÁRIO DA INVENÇÃO

[0010] É o objeto da presente invenção provê um método e apare lho para a avaliação de qualidade objetiva de uma sequência de vídeo. Este objeto é conseguido com as características das reivindicações.

[0011] O método e aparelho da invenção proveem a avaliação de qualidade objetiva de uma sequência de vídeo com base em pelo menos uma ou um conjunto de características extraídas do fluxo de bits de vídeo e a predição de estimativas probabilísticas contínuas para a visibilidade de perdas de pacote que podem ocorrer devido à transmissão da sequência de vídeo sobre uma rede com tendência de erro. Aparentemente, o método da invenção é um método de avaliação de qualidade de vídeo baseado em fluxo de bits de não referência, já que este extrai as informações somente do fluxo de bits recebido sem a necessidade de uma sequência de referência explícita.

[0012] De acordo com o seu primeiro aspecto, a invenção provê um método para avaliar a qualidade de uma sequência de sinal de vídeo transmitida no lado de receptor, o método compreendendo as etapas de: a) capturar o fluxo de bits de vídeo de entrada e supri-lo para um analisador de fluxo de bits de vídeo; b) extrair pelo menos uma característica ou um conjunto de características do fluxo de bits de vídeo de entrada capturado pelo analisador de fluxo de bits; c) suprir a característica ou conjunto de características extraído para um módulo de estimativa de visibilidade de perda de pacote; d) determinar, pelo módulo de estimativa de visibilidade de perda de pacote, a visibilidade de uma perda de pacote ocorrida durante a transmissão do sinal de vídeo atribuindo uma estimativa contínua para cada evento de perda de pacote ocorrido dentro de um intervalo de tempo específico; e) combinar a estimativa de visibilidade de perda de pacote determinada pelo módulo de estimativa com a extraída pelo menos uma característica ou conjunto de características para avaliar a qualidade total, Q, da sequência de sinal de vídeo transmitida.

[0013] De acordo com a invenção, a extração de característica de acordo com a etapa (b) pode ser executada diretamente decodificando parcialmente o fluxo de bits de vídeo. Alternativamente, a extração de ca-racterística de acordo com a etapa (b) é executada pela decodificação total do fluxo de bits de vídeo e combinando as informações dos pixels reconstruídos do sinal de vídeo.

[0014] De acordo com uma modalidade preferida da invenção, a etapa (e), além disso, pondera a(s) característica(s) extraída(s) para refletir que cada perda de pacote produz degradações desigualmente percebidas para a sequência de sinal de vídeo transmitida.

[0015] A pelo menos uma característica ou conjunto de caracterís ticas é selecionada do grupo que compreende: tipo de quadro, magnitude média de vetores de movimento (AvgMv), diferença de vetor de movimento média (AvgMvDiff), energia de resíduos (ResEnergy), número máximo de partições (MaxPartNr), número de macroblocos não decodificáveis (LostMbs), informações de vetor de movimento (mv), e tipo de macroblocos (mb type). De acordo com uma modalidade adicionalmente preferida, uma combinação de todas estas características é utilizada.

[0016] Em uma modalidade preferida, com base na característica extraída "frame type" o número de quadros (ErrDur) degradados por uma perda de pacote é determinado.

[0017] O método ainda abrange que um mapa de propagação de erro binário seja gerado para cada imagem da sequência de sinal de vídeo com base nas informações de vetor de movimento e no tipo de macroblocos.

[0018] Mais ainda, com base no mapa de propagação de erro e nas informações de tipo de quadro o número de quadros (ErrDur) degradados por uma perda de pacote pode ser determinado.

[0019] De acordo com uma modalidade preferida adicional, com base no mapa de propagação de erro binário o número total de pixels prejudicados devido à perda de pacote (ErrProp) é computado.

[0020] É adicionalmente preferido que a magnitude de distorção (EstErr) induzida devido à perda de pacote e propagação de erro seja determinada com base nos vetores de movimento, nos tipos de macro- bloco, e nos resíduos.

[0021] A etapa (d) pode ser executada utilizando uma técnica de regressão de vetor de suporte mapeando o vetor de característica de entrada para um espaço de característica altamente dimensional utilizando uma função de mapeamento não linear, e construindo um modelo linear no espaço de característica.

[0022] Mais ainda, a etapa (e) pode combinar a estimativa de visibi- lidade de perda de pacote (V) com a magnitude de distorção determinada (EstErr) e o número total computado de pixels prejudicados devido à perda de pacote (ErrProp).

[0023] O método pode ainda compreender entre as etapas d) e e) a etapa de estimar a distorção visível total gerada pela combinação temporal de todas as perdas de pacote que ocorrem dentro da sequência de sinal de vídeo.

[0024] De acordo com o seu segundo aspecto, a invenção provê um aparelho para avaliar a qualidade de uma sequência de sinal de vídeo transmitida no lado de receptor, o aparelho compreendendo:

[0025] um analisador de fluxo de bits de vídeo que recebe o fluxo de bits de vídeo de entrada capturado, e configurado para extrair pelo menos uma característica ou um conjunto de características do fluxo de bits de vídeo de entrada capturado;

[0026] um módulo de estimativa de visibilidade de perda de pacote que recebe a característica ou conjunto de características extraídas, o módulo de estimativa de visibilidade de perda de pacote configurado para determinar a visibilidade de uma perda de pacote ocorrida durante a transmissão do sinal de vídeo atribuindo uma estimativa contínua para cada evento de perda de pacote ocorrido dentro de um intervalo de tempo específico;

[0027] um combinador para combinar a estimativa de visibilidade de perda de pacote determinada pelo módulo de estimativa com a extraída pelo menos uma característica ou conjunto de características para avaliar a qualidade total, Q, da sequência de sinal de vídeo transmitida.

[0028] De acordo com a invenção, o analisador de fluxo de bits de vídeo está configurado para executar a extração de característica diretamente parcialmente decodificando o fluxo de bits de vídeo. Alternativamente, analisador de fluxo de bits de vídeo está configurado para executar a extração de característica decodificando totalmente o fluxo de bits de vídeo e combinando as informações dos pixels reconstruídos do sinal de vídeo.

[0029] De acordo com uma modalidade proferida da invenção, o combinador está configurado para, além disso, ponderar a(s) caracte- rística(s) extraída(s) para refletir que cada perda de pacote produz de-gradações desigualmente percebidas para a sequência de sinal de vídeo transmitida.

[0030] De acordo com um segundo aspecto da invenção, a pelo me nos uma característica ou conjunto de características é selecionada do grupo que compreende: tipo de quadro, magnitude média de vetores de movimento (AvgMv), diferença de vetor de movimento média (AvgMv- Diff), energia de resíduos (ResEnergy), número máximo de partições (MaxPartNr), número de macroblocos não decodificáveis (LostMbs), informações de vetor de movimento (mv), e tipo de macroblocos (mb type). De acordo com uma modalidade adicionalmente preferida, uma combinação de todas estas características é utilizada.

[0031] Em uma modalidade preferida, o aparelho ainda compre ende um meio sendo configurado para determinar, com base na característica extraída "frame type" o número de quadros (ErrDur) degradados por uma perda de pacote.

[0032] De acordo com uma modalidade preferida, o aparelho com preende um estimador de propagação de erro sendo configurado para gerar um mapa de propagação de erro binário para cada imagem da sequência de sinal de vídeo com base nas informações de vetor de movimento e no tipo de macroblocos.

[0033] Mais ainda, com base no mapa de propagação de erro e nas informações de tipo de quadro o número de quadros (ErrDur) degradados por uma perda de pacote pode ser determinado.

[0034] De acordo com uma modalidade preferida adicional, o esti- mador de propagação de erro está ainda configurado para computar, com base no mapa de propagação de erro binário, o número total de pixels prejudicados devido à perda de pacote (ErrProp).

[0035] É adicionalmente preferido que o aparelho compreenda um estimador de distorção sendo configurado para determinar a magnitude de distorção (EstErr) induzida devido à perda de pacote e propagação de erro com base nos vetores de movimento extraídos, nos tipos de macrobloco extraídos, e nos resíduos extraídos.

[0036] O módulo de estimativa de visibilidade de perda de pacote pode estar ainda configurado para determinar a visibilidade da perda de pacote utilizando uma técnica de regressão de vetor de suporte mapeando o vetor de característica para um espaço de característica altamente dimensional utilizando uma função de mapeamento não linear, e construindo um modelo linear no espaço de característica.

[0037] Mais ainda, o combinador pode ainda estar configurado para combinar a estimativa de visibilidade de perda de pacote (V) com a magnitude de distorção determinada (EstErr) e o número total computado de pixels prejudicados devido à perda de pacote (ErrProp).

[0038] O aparelho pode ainda estar configurado para estimar a dis torção visível total gerada pela combinação temporal de todas as perdas de pacote que ocorrem dentro da sequência de sinal de vídeo antes de combinar a estimativa de visibilidade de perda de pacote determinada pelo módulo de estimativa com pelo menos uma característica ou conjunto de características extraída.

[0039] O método e aparelho de acordo com a invenção diferenciam das abordagens propostas na literatura em três pontos principais. Pri-meiramente, o método é diferente dos modelos paramétricos ([1, 2]) já que este explora as informações do fluxo de bits para determinar a qualidade de vídeo objetiva e não está baseado nas informações de cabeçalho de pacote somente. As características extraídas do fluxo de bits permitem a consideração de dependência de conteúdo, a adaptação da medida de qualidade de vídeo para as características espaço - temporais das sequências de vídeo e se aproveitam das propriedades do sistema visual humano (HVS) as quais são ignoradas nos modelos paramétricos.

[0040] Segundamente, a visibilidade de perda de pacote de cada perda de pacote não é estimada em um modo binário (visível ou invisível) mas ao invés com um valor contínuo o qual denota quão provável é a perda de pacote sob investigação resultar em uma degradação percebível e detectável da sequência de vídeo. A granularidade do método proposto permite uma predição mais precisa da visibilidade de perdas de pacote devido aos prejuízos de rede. Em contraste, todos os métodos anteriormente apresentados na literatura proveem saídas binárias para a estimativa de visibilidade de perda de pacote.

[0041] Terceiramente, todos os métodos acima mencionados não consideram o efeito de visibilidade de perda de pacote sobre a qualidade de vídeo percebida; estes somente examinam a visibilidade de perdas de pacote com base em características extraídas do fluxo de bits recebido. No entanto, na presente invenção, a saída do módulo de classificador de visibilidade de perda de pacote está incorporada no modelo de avaliação de qualidade de vídeo objetiva para avaliar a qualidade do fluxo de bits. Até onde vai o conhecimento dos inventores, este é o primeiro método para avaliação de qualidade de vídeo o qual explora explicitamente a estimativa de visibilidade de perda de pacote com estimativas contínuas para uma avaliação de qualidade de vídeo objetiva.

[0042] Outros aspectos, características, e vantagens ficarão apa rentes do sumário acima, assim como da descrição que segue, incluindo as figuras e as reivindicações.

[0043] Figura 1 mostra a arquitetura do modelo de avaliação de qua lidade de vídeo proposto;

[0044] Figura 2 mostra como os quadros são organizados em um "grupo de imagens" (GOP) para codificação de vídeo;

[0045] Figura 3 mostra o particionamento de macroblocos de acordo com o padrão H.264/AVC e a derivação dos coeficientes de transformada após a aplicação da transformada de inteiro 4x4;

[0046] Figura 4 mostra os mapas de propagação de erro para qua tro quadros consecutivos na sequência de vídeo;

[0047] Figura 5 apresenta o diagrama de blocos da segunda modalidade da presente invenção para a avaliação de qualidade de vídeo; e

[0048] Figura 6 apresenta um exemplo para a estimativa de distor ção visível induzida devido à perda(s) de pacote nos quadros de uma sequência de vídeo.

DESCRIÇÃO DETALHADA

[0049] A arquitetura do modelo de avaliação de qualidade de vídeo de acordo com uma modalidade preferida da invenção está apresentada na Figura 1. A Figura 1 apresenta o diagrama de blocos do método e aparelho preferidos para a avaliação de qualidade de vídeo objetiva com base na estimativa da visibilidade de eventos de perda de pacote. Especificamente, está mostrado que este é um método baseado em fluxo de bits de não referência o qual extrai ou computa oito características do fluxo de bit recebido para avaliar o impacto perceptivo de cada perda de pacote. Subsequentemente, as características extraídas e o valor predito para a visibilidade da perda de pacote são utilizados para avaliar a qualidade total do fluxo de bits de vídeo.

[0050] No receptor, um dispositivo de sonda captura o fluxo de bits e extrai ou computa um número de características que são utilizadas para a avaliação de qualidade de vídeo. As características são ou extraídas diretamente decodificando parcialmente o fluxo de bits ou combinando as informações dos pixels reconstruídos (decodificação total do fluxo de bits). Então, as características extraídas são alimentadas para o módulo o qual é responsável por determinar a visibilidade de cada evento de perda de pacote. Este módulo atribui uma estimativa de visibilidade contínua para cada evento de perda de pacote (perdas de pacote isoladas ou combinação de eventos) que ocorre dentro de uma duração de tempo específica. Subsequentemente, a estimativa de probabilidade do módulo de visibilidade de perda de pacote é combinada com as características previamente extraídas para avaliar a qualidade total da sequência. Especificamente, com base nas estimativas de probabilidade da visibilidade de cada perda de pacote, as características extraídas são ponderadas no algoritmo final para refletir que cada perda de pacote produz degradações desigualmente percebidas na sequência de vídeo. Finalmente, o dispositivo de sonda emite o valor predito de qualidade de vídeo, Q.

MÉTODO PARA EXTRAÇÃO DE CARACTERÍSTICA E COMPUTAÇÃO DO FLUXO DE BITS

[0051] O seguinte descreve as características preferivelmente ex traídas do fluxo de bits para determinar a visibilidade de perdas de pacote e a qualidade objetiva das sequências de vídeo. Deve ser notado que neste exemplo a análise está baseada em fluxos codificados de acordo com o padrão de codificação de vídeo H.264/AVC (T. Wiegand, G. J. Sullivan, G. Bjontegaard, e A. Luthra, "Overview of the H.264/AVC video coding standard," IEEE Trans. on Circuits and Systems for Video Technology, vol. 13, no. 7, Jul. 2003), mas o método poderia ser aplicado a qualquer padrão de codificação de vídeo com modificações menores para a computação das características correspondentes.

[0052] Uma das propriedades que precisam ser computadas para a estimativa da degradação perceptiva causada por uma perda de pacote é o "frame type" de todos os quadros e especificamente o quadro afetado pela perda. Os valores possíveis para a propriedade "frame type" incluem "Intraframe" ou "Key-Frame" (abaixo denominado I-frame), "Predicted-Frame" (abaixo denominado P-frame) e "Bidirectional Frame" (abaixo denominado B-frame). Somente os I-frames podem ser decodificados sem informações de referenciamento de quaisquer quadros anteriores. Ao contrário, os P-frames dependem de um ou mais predecessores denominados "quadros de referência", porque as informações transmitidas para um P-frame principalmente consistem na diferença entre o quadro de vídeo que estas descrevem e suas referências. Portanto, as perdas de pacote dentro de um I-frame ou seus P- frames consecutivos propagam em quadros seguintes, mesmo se estes quadros seguintes estes próprios não contiverem nenhum pacote perdido. Devido a este mecanismo um único erro de perda de pacote pode se prolongar através de partes longas de uma sequência de vídeo, até que o próximo I-frame livre de erros ocorra. Os erros em P-frames e especificamente m I-frames podem portanto ter uma alta visibilidade. O mesmo mecanismo de quadro de referência é verdadeiro para os B- frames, mas, como os B-frames não servem estes próprios como referências, um erro em um B-frame causará somente degradação neste único quadro.

[0053] A cadeia de quadros de vídeo entre dois I-frames sucessivos é denominada "Grupo de Imagens" (GoP). Na maioria dos casos os P e B-frames em um GoP seguem um padrão mais ou menos estrito como um padrão GoP típico: "I, B, B, P, B, B, P ... ". Façamos N denotar o comprimento de GOP, isto é, a distância entre dois I-frames sucessivos. Então, se a primeira perda de pacote ocorrer a t quadros após o primeiro I-frame de um GOP específico, a primeira característica que é extraída é o número de quadros que são degradados devido à perda de pacote, denominado ErrDur. Esta propriedade é computada como (ver Figura 2):

[0054] Assim, se a perda de pacote ocorrer no primeiro quadro (o qual é um I-frame) então t = 1, e o número de quadros que são prejudi-cados pela perda de pacote é N, isto é, igual ao número de quadros no GOP.

[0055] Subsequentemente, a magnitude média de vetores de movi mento, AvgMv, é de preferência computada o que reflete o vetor de mo-vimento médio nas direções horizontal e vertical de todos os macroblo- cos (mb) afetados pela perda. Façamos vn = [vn,x, vn,y] denotar o vetor de movimento do enésimo macrobloco no quadro no qual a perda de pacote ocorreu. Então, o termo AvgMv é computado como:

[0056] onde L é a cardinalidade do conjunto dos macroblocos que são perdidos no quadro n devido à perda de pacote. Aparentemente, como as informações de vetor de movimento para os macroblocos per-didos não podem ser recuperadas, estas informações são estimadas de seus vizinhos temporais. Isto é, para cada macrobloco faltante, as infor-mações de vetor de movimento são recuperadas do macrobloco colo- calizado no quadro corretamente recebido anterior.

[0057] Além disso, a diferença de vetor de movimento médio, Avg- MvDiff, pode ser computada do fluxo de bits. Em H.264/AVC, para ex-plorar a redundância entre os vetores de movimento, somente a diferença entre o vetor de movimento de um bloco e seu vetor de movimento predito de macroblocos vizinhos está incluída no fluxo de bits. Esta ca-racterística é extremamente significativa em sequências com movimento preditível (por exemplo, panorama), onde o movimento médio pode ser grande, mas as diferenças de vetor de movimento codificadas no fluxo de vídeo são pequenas. Façamos vdn = [vdn,x, vdn,y] denotar a diferença de vetor de movimento do enésimo macrobloco no quadro no qual a perda de pacote ocorreu. Então, o termo AvgMvDiff é computado como

[0058] onde L é a cardinalidade do conjunto dos macroblocos que são perdidos no quadro n devido à perda de pacote. Similarmente ao caso acima, como as informações de vetor de movimento para os ma- croblocos perdidos não podem ser recuperadas, estas informações são estimadas de seus vizinhos temporais. Isto é, para cada macrobloco fal- tante, as informações de vetor de movimento são recuperadas do ma- crobloco colocalizado no quadro corretamente recebido anterior.

[0059] Outra característica que é de preferência extraída do fluxo de bits recebido é a energia do resíduo, ResEnergy, a qual está contida nos macroblocos faltantes e é computada dos coeficientes de transfor-mada do erro de predição. Façamos cb.i,j, b=0, ...,3, i=0, ...,3, e j=0, ..., 3 denotar o coeficiente de transformada na linha i e coluna j do bo bloco 4x4 de um macrobloco (ver Figura 3). Então, a energia residual é computada como:

[0060] onde l e L são definidos como acima.

[0061] Outra característica que pode ser extraída é o número má ximo de partições, denominado MaxPartNr, no quadro onde a perda ocorre. Em H.264/AVC, cada macrobloco de 16x16 pode ser adicional-mente dividido em macroblocos menores para o processo de estimativa de movimento, isto é, blocos de tamanho 16x8, 8x16, ou 8x8. Se o ta-manho de partição de 8x8 for escolhido, cada partição de 8x8 pode ser adicionalmente dividida em subpartições de tamanho 8x8, 8x4, 4x8, ou amostras luma de 4x4. Assim, o parâmetro MaxPartNr é igual ao número máximo de partições dos macroblocos corretamente recebidos no quadro onde a perda ocorre. Se todos os macroblocos forem apagados (isto é, se todo o quadro for perdido) então o parâmetro é derivado do quadro recebido anterior.

[0062] A sexta característica que é extraída do fluxo de bits recebido é o número de macroblocos que não são decodificáveis devido à perda de pacote e precisam ser ocultos, denominados LostMbs abaixo.

[0063] Além disso, com base nas informações de vetor de movi mento e no tipo de macroblocos, um mapa de propagação de erro binário pode ser gerado para cada imagem, o qual denota os pixels em cada imagem que são impactados pela(s) perda(s) de pacote ou devido ao erro de inovação ou devido à propagação do erro para os quadros sub-sequentes do mesmo GOP devido à codificação preditiva. Façamos I(x,y,k) denotar o valor do mapa de erro binário na localização (x,y) do ko quadro, x = 1, 2, ..., H, e y = 1, 2,..., W onde H, W são a altura e a largura de cada quadro da sequência de vídeo, respectivamente. Tam-bém, k=1,...,K, onde K é o número de quadros que contêm pixels preju-dicados devido à perda de pacote. O valor para estes pixels que são ou prejudicados devido à perda de pacote ou referenciam estas áreas e são prováveis de serem errôneos é ajustado para um, de outro modo o valor é ajustado para zero. Assim:

[0064] Em outras palavras, o valor na rede de mapa de propagação é ajustado para um para todos os pixels que não são idênticos entre a sequência de vídeo original e a imagem reconstruída do decodificador dentro da sonda devido ao erro causado pela perda de pacote e sua propagação. Um exemplo da derivação dos mapas de propagação de erro está apresentado na Figura 4.

[0065] A Figura 4 apresenta os mapas de propagação de erro para quatro quadros consecutivos na sequência de vídeo para demonstrar como o erro inicial causado por uma perda de pacote expande para den-tro dos quadros seguintes que referenciam o quadro inicial para a sua predição. Especificamente, na Figura 4a, a região escura corresponde à área que não pode ser decodificada porque as informações para estes pixels estavam contidas em um pacote o qual foi apagado. Como um resultado, o decodificador precisa ocultar (usualmente utilizando vizinhos temporais ou espaciais) esta área para substituir os pixels faltan- tes. Como a ocultação não pode recuperar as informações originais exa-tamente, alguma degradação é introduzida nestes quadros. As Figuras 4b, 4c, e 4d mostram como este erro propaga para dentro dos quadros seguintes. As áreas escuras correspondem a pixels que referenciam in-formações da região inicialmente perdida (e oculta) e são assim tenden-tes a erros também.

[0066] A perda de pacote ocorre no primeiro quadro (a área escura na figura denota os macroblocos que foram apagados devido à perda de pacote) e propaga para os quadros subsequentes que referencial a área afetada do primeiro quadro para o processo de predição. É notado que em modalidades alternativas o mapa de propagação de erro pode ser estimado no nível de macrobloco, significando que a propagação é rastreada para cada macrobloco ao invés de para cada pixel.

[0067] Com base nos mapas de propagação de erro, o número total de pixels prejudicados devido a uma perda de pacote, denominado Err- Prop, é computado como:

[0068] Finalmente, outra característica pode ser extraída com base nos vetores de movimento, nos tipos de macrobloco e nos resíduos, de- nominada EstErr, para quantificar a magnitude da distorção induzida de-vido à perda de pacote e devido à propagação de erro o que permite a estimativa do erro quadrático médio (MSE) induzido em um modo de não referência. O método para estimar a distorção induzida está fora do escopo desta invenção, assim qualquer método conhecido para a pessoa versada na técnica poderia ser utilizado, por exemplo, o método proposto em M. Naccari, M. Tagliasacchi, e S. Tubaro, "No-reference video quality monitoring for H.264/AVC coded video," IEEE Trans. on Multimedia, vol. 11, no. 5, pp. 932-946, Ago. 2009.

[0069] No exemplo mostrado, as oito características acima mencio nadas são extraídas para cada perda de pacote que ocorre em um GOP. Quando mais do que uma perda de pacote aparece no mesmo GOP, então na modalidade preferida o valor máximo é selecionado para o Er-rorDur, e MaxPartNr, enquanto que para as outras características a sua soma é considerada como as características finais. No entanto, em ou-tras modalidades, as características extraídas de cada perda de pacote dentro de um GOP podem ser combinadas diferentemente, por exemplo, computando a média, a mediana, ou qualquer outra função. Assim, dentro de cada GOP, o seguinte vetor de característica é extraído o qual é utilizado para a estimativa da visibilidade de eventos de perda de pa-cote:

[0070] Deve ser notado, que em outras modalidades da presente invenção, qualquer número e combinação das características acima mencionadas poderiam ser utilizados. Isto é principalmente significativo quando é desejado não computar algumas características (por exemplo, devido a razões de complexidade ou implementação de custo). ESTIMATIVA CONTÍNUA DE VISIBILIDADE DE PERDA DE PACOTE UTILIZANDO REGRESSÃO DE VETOR DE SUPORTE

[0071] Para a classificação de visibilidade de perda de pacote com base nas características extraídas de cada evento de perda de pacote, uma técnica baseada em Regressão de Vetor de Suporte (SVR) é em-pregada. Com este método, o vetor de característica de entrada é ma-peado para um espaço de característica altamente dimensional utilizando uma função de mapeamento não linear e então um modelo linear é construído neste espaço de característica. O algoritmo opera em dois estágios: o estágio de treinamento no qual os dados de treinamento são utilizados para sintonizar os parâmetros do modelo, e o estágio de ava-liação no qual o modelo emite o valor predito para o vetor de caracterís-tica de entrada. Estes dois estágios estão descritos em detalhes a se-guir.

[0072] No estágio de treinamento, um conjunto de n dados de trei namento, denotado por {(fi, yi), (f2, y2), ..., (fn, yn),}, fi e ^8, yi e ^, i = 1, ..., n, onde fi é um vetor de característica descrito na Eq. (7), e yi é o valor de saída alvo, é utilizado para estimar os parâmetros de modelo que maximizam a sua precisão de predição. O método para treinar o algoritmo de SVR está fora do escopo desta invenção, assim qualquer método conhecido da pessoa versada na técnica poderia ser utilizado. O resultado do algoritmo de treinamento com os dados de treinamento inseridos resulta na computação de um conjunto de parâmetros, ai, i=1,...,n, βi, i=1,...n, e b e ^, os quais são utilizados durante o estágio de avaliação. Na presente invenção o valor de b é selecionado para ser igual a 1,27. No entanto, qualquer outro valor poderia ser utilizado.

[0073] No estágio de avaliação, o algoritmo recebe um vetor de ca racterística de entrada f (como descrito na Eq. (7)) e o valor predito da visibilidade de cada perda, V, é dado por:

[0074] onde K(.,.) é a função de núcleo, e fi, i=1, n, são os vetores de característica utilizados como dados de treinamento. Na presente invenção, a seguinte função foi selecionada como a função de núcleo a qual é também conhecida como a Função de Base Radial (RBF):

[0075] Na presente invenção, o valor de y é selecionado para ser igual a 2. Também, qualquer outra função de núcleo poderia ser utilizada em outras modalidades. Mais ainda, o valor predito V para a visibilidade de uma perda de pacote pode ser convertido em um valor binário, se for desejável classificar uma perda de pacote em um dos seguintes dois casos: visível ou invisível. Neste caso, o valor predito binário de uma perda de pacote, denotado como VB, pode ser computador como:

[0076] onde T é um valor limite para classificar a estimativa contínua de visibilidade de perda de pacote em um valor binário. Dentro da pre-sente invenção, o valor sugerido é 0,7, mas qualquer outro valor poderia ser utilizado.

[0077] Quando o algoritmo opera no estágio de avaliação somente e não precisa treinar sobre novos dados, os parâmetros armazenados são utilizados e a visibilidade V de cada evento de perda de pacote é predita como definido na Eq. (8). As características extraídas que foram acima mencionadas são refinadas de modo que estas reflitam o valor predito da visibilidade de cada perda de pacote e sejam ponderadas consequentemente, como analisado na seção seguinte.

MÉTODO DE AVALIAÇÃO DE QUALIDADE DE VÍDEO

[0078] O modelo de avaliação de qualidade de vídeo baseado em fluxo de bits proposto é uma combinação da degradação causada pela compressão das sequências de vídeo, Qcod, e a degradação de quali-dade devido à perda de pacote durante a transmissão (Qtrans). Assim, a qualidade total é dada por:

[0079] onde Q denota a qualidade total da sequência e Q0 denota a qualidade de fonte do vídeo inserido na cadeia de transmissão. O termo Qcod é computado por:

[0080] onde B é a taxa de bits da sequência de vídeo, e a1, a2, e a3 são constantes. No presente exemplo, os valores de a1, a2, e a3 são selecionados iguais a 89,33, -1,21, e 11,47.

[0081] O termo de degradação visual induzido por canal reflete a distorção que é causada pela perda de pacote, a extensão de sua pro-pagação e a intensidade em percepção visual humana. Por esta razão, a seguinte fórmula é utilizada para Qtrans:

[0082] Aqui, o índice i é utilizado para denotar um único evento de perda de pacote específico que ocorre durante a sequência e f(.,.) re-presenta qualquer função adequada. Em outras palavras, a degradação total devida a erros de transmissão é uma função da visibilidade de cada perda de pacote, o erro que é induzido no quadro onde a perda de pacote ocorre e a propagação do erro para dentro dos quadros subsequentes.

[0083] A seguir, duas modalidades da presente invenção estão apresentadas para representar a função f(.,.) acima mencionada com fórmulas específicas.

[0084] Na primeira modalidade, a Eq. (13) é reescrita como:

[0085] onde a4, a5, e a6 são constantes determinadas por regressão, i é um índice que refere a cada perda de pacote individual, EstErri e ErrPropi são as características extraídas como acima mencionado as-sociadas com cada perda de pacote. Assim, o modelo leva em conside-ração a importância de cada perda de pacote para a determinação da degradação visual e utiliza a saída da estimativa de visibilidade para ponderar a distorção induzida de cada perda de pacote. Na presente modalidade, os valores de a4, a5, e a6 são selecionados iguais a 0,023, 0,000176, e 0,0000465.

[0086] Na segunda modalidade, a qual está apresentada na Figura 5, outra implementação é empregada para a função f(.,.) da Eq. (14). Façamos i denotar o índice de uma perda de pacote individual que ocorre dentro de um GOP. Também, EstErri é a distorção induzida no quadro aonde a ia perda de pacote ocorreu, estimado como acima explicado na seção de extração de característica. Então, a degradação visível associada com esta perda de pacote é dada por:

[0087] Também, NrImpPxik denota o número de pixels prejudicados no quadro k causado pela ia perda de pacote, ou equivalentemente

I

[0088] onde I(x,y, k) denota o valor do mapa de erro binário na lo calização (x,y) do ko quadro, x = 1, 2, ..., H, e y = 1, 2,..., W onde H, W são a altura e a largura de cada quadro da sequência de vídeo, respec-tivamente. Então, a degradação percebida no quadro subsequente k, k>0, devido à propagação de erro da ia perda de pacote é dada por

[0089] Aqui, NrImpPxi0 é o número de pixels prejudicados causados pelo erro de inovação (o erro no primeiro quadro o qual foi afetado pela perda de pacote sob consideração) devido ao evento de perda de pacote i, ao é dado o índice de quadro relativo k = 0. Um exemplo da com-putação do termo VisEstErrik para os quadros subsequentes com índice k, está apresentado na Figura 6. Nesta figura, a área escura com índice t corresponde ao termo NrImpPxi0, enquanto que a área escura nos qua-dros subsequentes (índices t+1, ..., t+m) corresponde aos termos NrImpPxik, k=1, ...m.

[0090] Então, a degradação visual total causada pela ia perda de pacote denominada VisEstErri, pode ser considerada como o somatório das degradações causadas para todos os quadros Ki que foram preju-dicados devido a esta perda de pacote, assim:

[0091] Note que o somatório começa do índice zero para fatorar a distorção inicial como descrito na Eq. (15). A distorção total dentro de um GOP específico é computada como o somatório das distorções geradas por todas as perdas de pacote que ocorrem dentro deste GOP, assim:

[0092] Finalmente, G denota o número total de GOPs dentro de uma sequência, e T denotar a duração total da sequência. Então, a distorção total devida a erros de transmissão é dada por:

[0093] Na modalidade preferida deste segundo tipo, ajustamos

[0094] Onde v e ε, são constantes que são, por exemplo, determina das em um procedimento de regressão que utiliza classificações de qua-lidade como valores-alvo.

[0095] Apesar da invenção ter sido ilustrada e descrita em detalhes nos desenhos e na descrição acima, tal ilustração e descrição devem ser consideradas ilustrativas ou exemplares e não restritivas. Deve ser compreendido que mudanças e modificações podem ser feitas por aqueles versados na técnica dentro do escopo das reivindicações se-guintes. A presente invenção cobre modalidades adicionais com qualquer combinação de características de diferentes modalidades acima e abaixo descritas.

[0096] Mais ainda, nas reivindicações a palavra "compreendendo" não exclui outros elementos ou etapas, e o artigo indefinido "um" ou "uma" não exclui uma pluralidade. Uma única unidade pode preencher as funções de diversas características recitadas nas reivindicações. Os termos "essencialmente", "cerca de", "aproximadamente" e similares em conexão com um atributo ou um valor especificamente também definem exatamente o atributo ou exatamente o valor, respectivamente. Quais-quer símbolos de referência nas reivindicações não devem ser conside-rados como limitando o escopo.

Claims

1. Método para avaliar a qualidade de uma sequência de sinal de vídeo transmitida no lado de receptor, o método caracterizado por compreender as etapas de: a) capturar o fluxo de bits de vídeo de entrada e supri-lo para um analisador de fluxo de bits de vídeo; b) extrair pelo menos uma característica ou um conjunto de características do fluxo de bits de vídeo de entrada capturado pelo analisador de fluxo de bits; c) suprir a característica ou conjunto de características extraído para um módulo de estimativa de visibilidade de perda de pacote; d) determinar, pelo módulo de estimativa de visibilidade de perda de pacote, a probabilidade de visibilidade para cada evento de perda de pacote, o qual ocorreu dentro de um intervalo de tempo específico; e) empregar a probabilidade de visibilidade de perda de pacote, determinada pelo módulo de estimativa de visibilidade de perda de pacote, como um fator de ponderação de pelo menos uma característica ou conjunto de características extraídas do fluxo de bits de vídeo para calcular e estimar a qualidade total, Q, da sequência de vídeo transmitida, a etapa (d) emprega pelo menos uma característica de fluxo de bits do grupo que compreende: tipo de quadro, magnitude média de vetores de movimento (AvgMv), diferença de vetor de movimento média (AvgMvDiff), energia de resíduos (ResEnergy), número máximo de partições (MaxPartNr), número de macroblocos não-decodificáveis (LostMbs), informações de vetor de movimento (mv), e tipo de macroblocos (mb type), e a etapa (e) combina a estimativa de visibilidade de perda de pacote (V) com a magnitude de distorção determinada (EstErr) e o número total computado de pixels prejudicados devido à perda de pacote (ErrProp).

2. Método de acordo com a reivindicação 1, caracterizado pelo fato de que a extração de característica de acordo com a etapa (b) é executada diretamente decodificando parcialmente o fluxo de bits de vídeo, onde "parcialmente" significa sem decodificar o fluxo de bits no nível de pixel.

3. Método de acordo com a reivindicação 1, caracterizado pelo fato de que a extração de característica de acordo com a etapa (b) é executada pela decodificação total do fluxo de bits de vídeo e combinando as informações dos pixels reconstruídos do sinal de vídeo.

4. Método de acordo com qualquer uma das reivindicações 1 a 3, caracterizado pelo fato de que, com base na característica extraída "frame type" o número de quadros (ErrDur) degradados por uma perda de pacote é determinado e utilizado para a predição da probabilidade de visibilidade de perda de pacote assim como para combiná-lo com a probabilidade de visibilidade para estimar o impacto de perda de pacote sobre a qualidade visual.

5. Método de acordo com qualquer uma das reivindicações 1 a 4, caracterizado pelo fato de que um mapa de propagação de erro binário é gerado para cada imagem da sequência de sinal de vídeo com base nas informações de vetor de movimento e no tipo de macroblocos.

6. Método de acordo com a reivindicação 5, caracterizado pelo fato de que com base no mapa de propagação de erro e nas informações de tipo de quadro o número de quadros (ErrDur) degradados por uma perda de pacote é determinado.

7. Método de acordo com qualquer uma das reivindicações 5 ou 6, caracterizado pelo fato de que com base no mapa de propagação de erro binário o número total de pixels prejudicados devido à perda de pacote (ErrProp) é computado.

8. Método de acordo com qualquer uma das reivindicações 1 a 7, caracterizado pelo fato de que a magnitude de distorção (EstErr) induzida devido à perda de pacote e propagação de erro é determinada com base nos vetores de movimento, nos tipos de macrobloco, e nos resíduos.

9. Método de acordo com qualquer uma das reivindicações 1 a 8, caracterizado pelo fato de que a etapa (d) é executada utilizando uma técnica de regressão de vetor de suporte mapeando o vetor de característica de entrada, compreendido das características acima mencionada, para um espaço de característica altamente dimensional utilizando uma função de mapeamento não linear, e construindo um modelo linear no espaço de característica.

10. Método de acordo com qualquer uma das reivindicações 1 a 9, caracterizado por ainda compreender, entre as etapas d) e e), a etapa de estimar a distorção visível total gerada pela combinação temporal de todas as perdas de pacote que ocorrem dentro da sequência de sinal de vídeo.

11. Aparelho para avaliar a qualidade de uma sequência de sinal de vídeo transmitida no lado de receptor, o aparelho caracterizado por compreender: um analisador de fluxo de bits de vídeo que recebe o fluxo de bits de vídeo de entrada capturado, e configurado para extrair pelo menos uma característica ou um conjunto de características do fluxo de bits de vídeo de entrada capturado; um módulo de estimativa de visibilidade de perda de pacote que recebe a característica ou conjunto de características extraídas, o módulo de estimativa de visibilidade de perda de pacote configurado para determinar a visibilidade de uma perda de pacote ocorrida durante a transmissão do sinal de vídeo atribuindo uma estimativa contínua para cada evento de perda de pacote ocorrido dentro de um intervalo de tempo específico; um combinador para combinar a probabilidade contínua de visibilidade de perda de pacote, determinada pelo módulo de visibilidade de perda de pacote, como um fator de ponderação de pelo menos uma característica ou conjunto de características extraídas do fluxo de bits de vídeo para calcular uma estimativa da qualidade total, Q, da sequência de sinal de vídeo transmitida, em que o módulo de estimativa de visibilidade de perda de pacote emprega pelo menos uma característica de fluxo de bits do grupo que compreende: tipo de quadro, magnitude média de vetores de movimento (AvgMv), diferença de vetor de movimento média (AvgMvDiff), energia de resíduos (ResEnergy), número máximo de partições (MaxPartNr), número de macroblocos não-decodificáveis (LostMbs), informações de vetor de movimento (mv), e tipo de macroblocos (mb type), e em que o combinador combina a estimativa de visibilidade de perda de pacote (V) com a magnitude de distorção determinada (EstErr) e o número total computado de pixels prejudicados devido à perda de pacote (ErrProp).