BRPI0417594B1

BRPI0417594B1 - dispositivo e método para criar um mapa de saliência de uma imagem

Info

Publication number: BRPI0417594B1
Application number: BRPI0417594A
Authority: BR
Inventors: Dominique Barba; Dominique Thoreau; Edouard Francois; Olivier Le Meur; Patrick Le Callet
Original assignee: Thomson Licensing
Priority date: 2003-12-18
Filing date: 2004-12-14
Publication date: 2016-11-22
Also published as: EP1695288B1; WO2005059832A1; US7853076B2; EP1544792A1; US20070116361A1; CN1894721A; CN100478991C; BRPI0417594A; JP2007515009A; EP1695288A1; JP4598778B2; DE602004006306D1; DE602004006306T2

Abstract

"dispositivo método para criar um mapa de saliência de uma imagem". a invenção se relaciona com um dispositivo e método para criar um mapa de saliência de uma imagem. ela compreende as etapas de: projeção (e1) da dita imagem de acordo com o componente de luminância (a) e se a dita imagem for uma imagem colorida, de acordo com o componente de luminância (a) e de acordo com os componentes de crominância (cr1, cr2); decomposição em sub-bandas perceptivas (e3, t2, t<39>2, t<39><39> 2) dos ditos componentes (a, cr1, cr2) de acordo com o limite de visibilidade de um olho humano; extração (e7) dos elementos salientes das sub-bandas relacionadas com o componente de luminância (a) ; aprimoramento de contorno (e8, t7) dos ditos elementos salientes em cada sub-banda relacionada com o componente de luminância (a); cálculo (t7) de um mapa de saliência a partir do aprimoramento de contorno, para cada sub-banda relacionada com o componente de luminância (a) . criação (t8) do mapa de saliência em função dos mapas de saliência obtidos para cada sub-banda.

Description

"DISPOSITIVO E MÉTODO PARA CRIAR UM MAPA DE SALIÊNCIA DE UMA IMAGEM" A invenção está relacionada com um dispositivo e um método para criar um mapa de saliência de uma imagem. 0 sistema de processamento de informações humano é intrinsecamente um sistema limitado e especialmente para o sistema visual. A despeito dos limites de nossos recursos cognitivos, este sistema tem que enfrentar uma grande quantidade de informações contidas em nosso ambiente visual. No entanto, e de forma paradoxal, os humanos parecem ter sucesso na solução deste problema, desde que nós estamos aptos a entender nosso ambiente visual. É normalmente assumido que certos aspectos visuais são tão elementares para o sistema visual que eles não necessitam de recursos de atenção para serem percebidos. Estes aspectos visuais são chamados aspectos de pré-atenção.

De acordo com este princípio de pesquisa sobre a visão, o comportamento de atenção humano é compartilhado entre o processamento de pré-atenção e de atenção. Como explicado antes, o processamento de pré-atenção, assim chamado processamento de baixo para cima, está ligado com a atenção involuntária. Nossa atenção é facilmente atraída para partes salientes de nosso campo de visão. Quando considerando o processamento de atenção, o assim chamado processamento de cima para baixo, é provado que nossa a-tenção está ligada com uma tarefa particular que nós temos em mente. Deste modo, esta segunda forma de atenção é uma forma mais premeditada e poderosa a medida que esta forma de atenção requer esforço para direcionar nosso o-lhar em direção a uma direção particular. A detecção dos pontos salientes em uma imagem permite o aprimoramento de etapas adicionais, tais como notificação de imagem, criação de marca d'água, e estimativa da qualidade de vídeo.

As abordagens conhecidas são mais ou menos baseadas em aspectos visuais não psíquicos. Em oposição a tais métodos, o método proposto recorre ao fato de que o modelo é totalmente baseado no sistema visual humano (HVS), tal como o cálculo de aspectos visuais antecipados.

Em um primeiro aspecto, a invenção propõe um método para criar um mapa de saliência de uma imagem compreendendo as etapas de: - projeção da dita imagem, de acordo com o componente de luminância, e se a dita imagem for uma imagem colorida, de acordo com o componente de luminância e de acordo com os componentes de crominância, - decomposição em sub-bandas perceptivas dos ditos componentes de acordo com o limite de visibilidade de um olho humano, extração dos elementos salientes das sub-bandas relacionadas com o componente de luminância, - aprimoramento de contorno dos ditos elementos salientes em cada sub-banda relacionada com o componente de luminância, - calculo de um mapa de saliência a partir do aprimoramento de contorno, para cada sub-banda relacionada com o componente de luminância. - criação do mapa de saliência em função dos mapas de saliência obtidos para cada sub-banda.

Em um segundo aspecto, a invenção propõe um dispositivo para criar um mapa de saliência de uma imagem caracterizado pelo fato de que ele compreende o meio para: - Projetar a dita imagem de acordo com o componente de luminância, e se a dita imagem for uma imagem colorida, de acordo com o componente de luminância e de acordo com os componentes de crominância, - Transpor, nos domínios de freqüência, a dita luminância e os sinais de crominância, - Decompor, em sub-bandas perceptivas, os ditos componentes do domínio de freqüência de acordo com o limite de visibilidade de um olho humano, - Extrair os elementos salientes das sub-bandas relacionadas com o componente de luminância, - Aprimorar o contorno dos ditos elementos salientes em cada sub-banda relacionada com o componente de luminância, - Calcular um mapa de saliência a partir do a-primoramento de contorno, para cada sub-banda relacionada com o componente de luminância. - Criar o mapa de saliência em função dos mapas de saliência obtidos para cada sub-banda.

Outras características e vantagens da invenção aparecerão por meio da descrição de uma modalidade não limitativa da invenção, a qual será ilustrada, com a ajuda dos desenhos incluídos, nos quais: - A Figura 1 representa um fluxograma geral de uma modalidade preferida do método de acordo com a invenção aplicado para uma imagem em preto e branco, - A Figura 2 representa um fluxograma geral de uma modalidade preferida do método de acordo com a invenção aplicado para uma imagem em preto e branco. - A Figura 3 representa a divisão de frequência espacial visual psíquica para o componente acromático, - A Figura 4 representa a divisão de freqüência espacial visual psíquica para os componentes cromáticos, - A Figura 5 representa a Função de Sensibilidade ao Contraste de Daily, - A Figura 6a e 6b representa, respectivamente, o mascaramento visual e um modelo não linear de mascara-mento, - A Figura 7 representa o fluxograma da etapa de normalização de acordo com a modalidade preferida, - A Figura 8 representa a etapa de inibição / excitação, - A Figura 9 representa o perfil dos filtros para modelar interações facilitadoras para θ=0, - A Figura 10 representa uma ilustração do operador D ( z) , - A Figura 11 representa a etapa de reforço cromático, - A Figura 12 representa a exibição não CRF cau- sada pelas áreas adjacentes dos flancos CRF, - A Figura 13 representa um exemplo de perfil da função de ponderação normalizada para uma orientação e frequência radial particulares. A Figura 1 representa o fluxograma geral de uma modalidade preferida do método de acordo com a invenção aplicado para uma imagem em preto e branco. O algoritmo está dividido em três partes princi- pais. A primeira, denominada visibilidade, é baseada no fato de que o sistema visual humano (HVS) tem uma sensibilidade limitada. Por exemplo, o HVS não está apto a perceber com uma boa precisão todos os sinais em seu ambiente real e é insensível a estímulos pequenos. O objetivo desta primeira etapa tem que considerar estas limitações intrínsecas por meio da utilização de decomposição perceptiva, de funções de sensibilidade ao contraste (CSF) e de funções de mascaramento. A segunda parte é dedicada ao conceito de percepção. A percepção é um processo que produz, a partir das imagens do mundo externo, uma descrição que é útil para o observador, e não tumultuada com informações irrelevantes. Para selecionar as informações relevantes, um mecanismo central de ambiente envolvente é particularmente utilizado de acordo com as evidências biológicas. A última etapa diz respeito a alguns aspectos do domínio de agrupamento perceptivo. 0 agrupamento percep-tivo se refere à capacidade visual humana de extrair re- lações imagens significantes a partir de aspectos primitivos de imagem de nível inferior sem qualquer conhecimento do conteúdo da imagem, e agrupá-las para obter uma estrutura de nível superior significativa. 0 método proposto simplesmente foca-se na integração de contornos e na ligação de bordas.

As etapas E3, E4 são executadas no sinal no domínio de freqüência.

As etapas El, Ξ6 e E9 são realizadas no domínio espacial.

As etapas E7 e E8 são realizadas no domínio de freqüência ou espacial. Se elas forem realizadas no domínio de freqüência, uma transformação de Fourier deverá ser feita antes da etapa E7, e uma transformação de Fourier invertida deverá ser feita antes da etapa E9.

Na etapa El, o componente de luminância é extraído da imagem considerada.

Na etapa E2, o componente de luminância é transposto no domínio de freqüência por utilizar transformações conhecidas, tal como a transformação de Fourier, de modo a estar apto a aplicar na imagem, na etapa E3, a decomposição perceptiva em sub-banda.

Na etapa E3, uma decomposição perceptiva é aplicada no componente de luminância. Esta decomposição é inspirada na transformação de córtex e é baseada na decomposição proposta no documento "The computation of visual bandwidths and their impact in image decomposition and coding", da International Conference and Signal Pro- cessing Applications and Technology, em Santa-Clara, Califórnia, págs. 776 a 770, 1993. Esta decomposição é fei- ta de acordo com o limite de visibilidade de um olho humano . A decomposição, baseado em diferentes experiências psicofxsicas, é obtida por subdividir o domínio de frequência tanto na frequência radial espacial como na orientação. A decomposição perceptiva do componente A leva a 17 sub-bandas visuais psíquicas distribuídas em 4 coroas, como apresentado na figura 3. A região sombreada na figura 3 indica o suporte espectral da sub-banda pertencendo a terceira coroa e possuindo uma seletividade angular de 30 graus, variando de 14 a 45 graus.

Quatro domínios (coroas) de frequência espacial são rotulados, de I a IV: I: freqüências espaciais de 0 a 1,5 ciclos por grau; II: freqüências espaciais de 1,5 a 5,7 ciclos por grau; III freqüências espaciais de 5,7 a 14,2 ciclos por grau; IV: freqüências especiais de 14,2 a 28,2 ciclos por grau. A seletividade angular depende do domínio de freqüência considerado. Para freqüências baixas, não e-xiste seletividade angular.

As propriedades principais destas decomposições e as diferenças principais em relação â transformação de córtex são uma seletividade radial não díade e uma seletividade de orientação que aumenta conforme a freqüência radial.

Cada sub-banda resultante pode ser referida como a imagem neural correspondendo a uma população de células visuais sintonizadas com uma faixa de freqüência especial e uma orientação particular. Na verdade, estas células pertencem ao córtex visual primário (também chamado de córtex esfriado ou VI para a área visual 1). Ele consiste em cerca de 200 milhões de neurônios no total e recebe sua entrada a partir do núcleo articulado lateral. Cerca de 80 por cento das células são seletivas para orientação e freqüência especial do estímulo visual.

No espectro espacial da imagem, é aplicada uma propriedade bem conhecida do HVS, a qual é conhecida como a função de sensibilidade ao contraste (CSF). A CSF aplicada é uma função multivariada que depende principalmente da freqüência espacial, da orientação e da distância de visualização.

Evidências biológicas têm mostrado que as células visuais respondem a um estímulo acima de um certo contraste. O valor de contraste para o qual uma da célula visual responde é chamado de limite de visibilidade (acima deste limite, o estímulo é visível). Este limite varia com numerosos parâmetros, tal como a freqüência espacial do estímulo, a orientação do estímulo, a distância de visualização, . . . Esta capacidade de variação nos leva ao conceito de CSF, que expressa a sensibilidade do olho humano (a sensibilidade é igual ao inverso do limite de contraste) como uma função muitivariada. Consequentemente, a CSF permite estimar a sensibilidade dos olhos humanos para um certo estímulo.

Em uma etapa E4, uma CSF anisotrópica 2D projetada por Daily é aplicada. Tal CSF é descrita no documento "the visible different predictor: an algorithm for the assessment of image fidelity", nos procedimentos de SPIE Human vision, visual processing and digital display III, volume 1666, páginas 2 a 15, 1992. A CSF permite a modelagem de uma propriedade importante dos olhos, a medida que as células SVH são muito sensíveis âs freqüências espaciais.

Na figura 5, a CSF de Daily é ilustrada.

Uma vez que a função de Daily tenha sido aplicada, uma Transformação de Fourrier inversa é aplicada no sinal na etapa E5, de modo a estar apto a aplicar a próxima etapa E6.

Para imagens naturais, a sensibilidade pode ser modulada (aumentada ou diminuída em relação ao limite de visibilidade) pela presença de outro estímulo. Esta modulação da sensibilidade dos olhos humanos é chamada de mascaramento visual, como feito na etapa E6.

Uma ilustração do efeito de mascaramento é apresentada nas figuras 6a e 6b. duas indicações são consideradas, um alvo e um mascarador, onde CT e CM são o limite de contraste do alvo na presença do mascarador e do con- traste do mascarador, respectivamente. Além disso, GTo é o limite de contraste medido por uma CSF (sem o efeito de mascaramento).

Quando CM varia, três regiões podem ser definidas : • Nos valores baixos de CM/ o limite de detecção permanece constante. A visibilidade do alvo não é modificada pelo mascarador. • Quando CM tende em direção a CTo, o mascarador facilita a detecção do alvo por diminuir o limite de visibilidade. Este fenômeno é chamado de efeito facilitador ou de suporte. • Quando CM aumenta, o alvo é mascarado pelo mascarador. Seu limite de contraste aumenta. 0 método de mascaramento visual baseia-se na detecção de um sinal simples como padrões sinusoidais.

Existem vários outros métodos para alcançar a modelagem de mascaramento visual baseados em experiências psicofísicas: por exemplo, um método melhor se refere à detecção do ruído de quantização. É óbvio que o método preferido é uma simplificação forte com respeito â complexidade intrínseca das imagens naturais. No entanto, várias aplicações (criação de marca d'água, estimativa de qualidade de vídeo) são construídas ao redor de tal princípio, com resultados interessantes, comparados com a complexidade.

No contexto de decomposição em sub-banda, o mascaramento tem sido estudada de forma intensa, levando â definição de três tipos de mascaramento: mascaramento in-tra-canal, mascaramento inter-canal e mascaramento inter-componente. 0 mascaramento intra-canal ocorre entre sinais possuindo as mesmas características (freqüência e orientação) e conseqüentemente pertencendo ao mesmo canal. É o efeito de mascaramento mais importante. 0 mascaramento inter-canal ocorre entre sinais pertencendo a diferentes canais do mesmo componente. O mascaramento inter-componente ocorre entre canais de componentes diferentes (por exemplo, o componente A e um componente cromático). Estas duas últimas criações de máscara visual são colocadas juntas e são simplesmente chamadas de inter-mascaramento no que segue.

Para o componente acromátíco, nós utilizamos a função de mascaramento projetada por Daily em um documento intitulado "A visual model for Optimizing the Design of Image Processing Algorithms", na IEEE International conferences on image Processing, páginas 16 a 20, 1994, a despeito do fato de que este modelo não considera o efeito de suporte. A força deste modelo encontra-se no fato de que ele foi otimizado com uma grande quantidade de resultados experimentais. A variação do limite de visibilidade é dada por: Tintrai.j,a (m, η) - (1 + <ki (k2 | Ri,j (m, n) | )s)b)1/b onde Ti,j é uma derivação de canal visual psíquico da decomposição de canal perceptivo (por exemplo, a região sombreada na figura 2.1 leva ao canal Rm,2) . Os valores Κι, k2, s, b são dados abaixo: kl = 0,0153 k2 = 392.5 A tabela abaixo fornece os valores de s e b de acordo com a sub-banda considerada: Nós obtemos o sinal R'i(j (x, j) na saída da e-tapa de mascaramento. T'i,j (x, y) = Ti,j (x, y) / Ti.j (x, y) Então, na etapa E7, a etapa de normalização permite extrair a informação principal importante a partir da sub-banda. A etapa E7 é detalhada na figura 7.

Na etapa Sl, uma primeira sub-banda R'i,;j(x,y) é selecionada. As etapas S2 a S4 e S8 são executadas para cada sub-banda R'i,j (x, y) das 17 sub-bandas.

As etapas S5 a S7 são executadas para a segunda coroa (II). I representa a banda de frequência radial espacial, I pertence a {i, II, II, IV}. J representa a orientação, j pertence a {l, 2, 3 , 4 , 5 , 6 } , (x, y) representa as coordenadas espaciais.

Em outras modalidades, as diferentes etapas podem ser realizadas em todas as sub-bandas.

As etapas S2 e S3 almejam modelar o comportamento do campo receptivo clássico (CRF). 0 conceito de CRF permite estabelecer uma ligação entre uma imagem da retina e a percepção global da cena. 0 CRF é definido como uma região particular do campo visual dentro da qual um estímulo apropriado (com a orientação e freqüência preferidas) provoca uma derivação de resposta relevante a partir da célula visual. Consequentemente, por definição, um estímulo na região externa (denominada ambiente envolvente) não pode ativar a célula diretamente. A inibição e excitação nas etapas S2 e S3 são obtidas por um filtro de Gabor, o qual é sensível quanto a orientação e a freqüência. 0 filtro de Gabor pode ser representado como segue : gabor (x, y, σχ, σγ, /, θ) = Gax, αγ (χθ, ye) co-seno (2π/χθ) f sendo a freqüência espacial da modulação de co-seno em ciclos por grau (ci/°) . {χθ, ye) são obtidos por uma translação das coordenadas originais (x0/ yo) e por uma rotação de Θ, A representando a amplitude, σχ e oy representando a largura do envelope de gaussian ao longo dos eixos x e y, respectivamente. íeabor(x,v,oj(.ay,fJ0)se-l/(4f) < x9 < l/(4f) Excitação (χ,γ,σ,,σ,,/,θ) = {senSo, 0 De modo a obter formatos elípticos, consideramos as variações diferentes σχ - ay.

Finalmente, obtemos a saída: Rexci,j (x,y) = R'i,j (x, y) * excitação (x, y, σχ, σγ, /, θ) Na etapa S3, a inibição é calculada pela seguinte fórmula: inibição (x, y, σχ, ay, /, Θ) = {0 se -1/(4/) <_ x& < 1/ (4/) {senão, |gabor (x, y, σχ, oy/ /, Θ) j . E finalmente: Rinhi,j (x, y) = R'i,j (x, y) * inibição (x, y, σχ, oy, /, Θ) Na etapa S4, é feita a diferença entre a excitação e a inibição. Os componentes positivos são mantidos, os componentes negativos são estabelecidos para "0". Isto é a seguinte operação, Rni,j (x, y) = | RSxci, j (x, y) - RInhi,j (x, y) | > o Na etapa S5, para cada orientação, para cada sub-banda do segundo domínio, dois produtos de convolução são calculados: L°i,j (x, y) = Rni,j (x, y) * B°i(j (x, y) LVj (x, y) = Rni(j (x, y) * BYj (x, y) B°i(j (x, y) e B1!, j (x, y) são 2 filtros meia-borboleta. 0 perfil destes filtros permite a modelagem de interações facilitadoras para 0=0 dado na figura 9. Estes filtros são definidos por utilizar um filtro bipolar / filtro borboleta.

Ele consiste de uma termo direcional De (x, y) e de um termo de proximidade gerado por um círculo Cr embaçado por um filtro de gaussian Gq-x r Q<jyr y) . B0i,j,a,r,a (x, y) = Dgi,j (X| γ) ' Cr * Gox / ay Υ) com DeiJ(x,y) = “>^φ)όφ<α senão, 0 e φ = arctang (y'/x') , onde (x', y')T é o vetor (x, y)T girado por θί,-j. 0 parâmetro ct define o ângulo de abertura 2a do filtro bipolar. Ele depende da seletividade angular y da sub-banda considerada. Consideramos α = 0,4χγ. 0 tamanho do filtro bipolar é cerca de duas vezes o tamanho do CRF de uma célula visual.

Na etapa S6, calculamos o coeficiente facilita- dor: com, β uma constante, Uma ilustração do operador D{z) é fornecida na figura 9.

Para facilitar a aplicação do coeficiente faci-litador, o operador D(z) garante que o coeficiente faci-litador seja constante por pedaço, como apresentado na figura 9.

Na etapa S7, o coeficiente facilitador é aplica- do para o resultado normalizado obtido na etapa S4.

Ru (x> J) = Ri',j (x> J)x (1 + fij° (χ> y)) Voltando para a etapa E8 da figura 1, após a e-tapa S7 da figura 7, os quatro mapas de saliências obtidos para o domínio II são combinados para obter todo o mapa de saliência, de acordo com a seguinte fórmula: fíxação(x, y) = α x (x, y) + β x R „t, (x, y) + χ x R’JU (x, y) + δ x R"i>3 (x, y) α, β, χ, δ representam os coeficientes de ponderação que dependem da aplicação {criação de marca d'água, codificação. . .} .

Em outras modalidades, o mapa de saliência pode ser obtido por um cálculo utilizando todas as 17 sub-bandas e não somente as sub-bandas do domínio II. A Figura 2 representa o fluxograma geral de uma modalidade preferida do método de acordo com a invenção aplicado para uma imagem colorida.

As etapas ΤΙ, T4, T'4, T''4, T5 e T8 são execu- tadas no domínio espacial.

As etapas T2, T'2, T''2, T3, T'3, Τ'' 3 são exe- cutadas no domínio de frequência.

Uma transformação de Fouríer é aplicada nos três componentes entre a etapa TI e as etapas T2, T'2, T''2.

Uma transformação de Fouríer inversa é aplicada, respectívamente, entre T3, T'3, Τ''3 e T4, T'4 e Τ' '4.

As etapas T6 e T7 podem ser executadas no domínio de freqüência ou espacial. Se elas forem executadas no domínio de freqüência, uma transformação de Fouríer é feita no sinal entre as etapas T5 e T6 e uma transforma- ção de Fourier inversa é executada entre as etapas T7 e T8 . A etapa TI consiste em converter as luminâncias RGB no espaço de cores opostas de Krauskopf composto pelas direções cardinais A, Cri e Cr2.

Esta transformação para o espaço de cores opostas é uma maneira para desfazer a correlação da informação de cor. Na verdade, é acreditado que o cérebro utiliza 3 vias diferentes para codificar a informação: a pri- meira conduz o sinal de luminância (A) , a segunda os componentes de vermelho e verde (Cri) e a terceira os componentes de azul e amarelo (Cr2).

Estas direções cardinais estão em correspondência próxima com os sinais sendo derivados dos três tipos de cones (L, M, S) .

Cada um dos três componentes RGB primeiramente passa por uma não linearidade de princípio de potência (denominada princípio gama) da forma xY com γ « 2,4. Esta etapa é necessária de modo a considerar a função de transferência do sistema de exibição. O valor de três estímulos XYZ da CIE (acrônimo Francês para "comission Internationale de 1' éclairage") que forma a base para a conversão para um espaço de cores HVS é então calculado pela seguinte equação: A resposta dos cones (L, M, S) é calculada como segue: A partir do espaço LMS, deve-se obter um espaço de cores oposto- Existe uma variedade de espaços de cores opostos, os quais se diferenciam na maneira de combinar as diferentes respostas dos cones. A partir de experiências experimentais, o espaço de cores projetado por Krauskopf foi validado e é dado pela seguinte transformação : Então, na etapa T2, uma decomposição perceptiva é aplicada para o componente de luminância. Antes da etapa T2 e após a etapa Tl, o componente de luminância é transposto no domínio de freqüência por utilizar transformações conhecidas, tal como a transformação de Fouri-er, de modo a estar apto a aplicar na imagem, na etapa T2, a decomposição em sub-banda perceptiva. A decomposição em sub-banda perceptiva da etapa T2 é a mesma que a da etapa E3 da figura 1, e, deste modo, não será descrita aqui, como descrito anteriormente.

Com respeito à decomposição dos componentes cromáticos Cr2 e Cri das etapas Τ'2 e Τ''2, como apresentado na figura 4, a decomposição leva a 5 sub-bandas psicovi-suais para cada um destes componentes distribuídos em 2 coroas. Antes das etapas T'2, Τ''2 e após a etapa Tl, os componentes de crominância são transpostos no domínio de freqüência por utilizar transformações conhecidas, tal como a transformação de Fourier, de modo a estar apto a aplicar na imagem, nas etapas T'2 e T' '2, a decomposição em sub-banda perceptiva.

Dois domínios de freqüência espacial são rotulados, de I a II: I: freqüências espaciais a partir de 0 a 1,5 ci- clos por grau, II: freqüências espaciais a partir de 1,5 a 5,7 ciclos por grau.

Nas etapas T3, T'3 e T''3, uma função de sensibilidade ao contraste (CSF) é aplicada.

Na etapa T3, é executada a mesma sensibilidade ao contraste como na etapa E4 da figura 1 no componente de luminância, e, deste modo, não será descrito aqui.

Na etapa T'3 e T' '3, a mesma CSF é aplicada nos dois componentes cromáticos Cri e Cr2. Nos dois componentes cromáticos, uma CSF anisotrópica bidimensional projetada por Le Callet é aplicada. Ela é descrita no documento « critères objectifs avec références de qualité visu-elle dês images couleurs » de Mr Le Callet, university of Nantes, 2001.

Esta CSF utiliza dois filtros de passa baixa com uma freqüência de corte de cerca de 5,5 ciclos por grau e 4,1 ciclos por grau, respectivamente, para os componentes Cri e Cr2.

De modo a permitir a comparação direta entre os aspectos visuais iniciais derivados de modalidades visu- ais diferentes {componentes acromáticos e cromáticos), as sub-bandas relacionadas com a visibilidade são ponderadas. 0 limite de visibilidade sendo definido como o contraste do estímulo em um ponto particular para o qual o estímulo acabou de se tornar visível.

Uma transformação de Fourier inversa é então a-plicada nos diferentes componentes {não apresentados na figura 2) de modo a estar apto a aplicar o mascaramento no domínio espacial.

Então, uma intra-mascaramento é aplicada nas diferentes sub-bandas para os componentes cromáticos Cri e Cr2 durante a etapa T'4 e Τ''4 e para o componente acro-mãtico na etapa T4. Esta última etapa já foi explicada na descrição da figura 1, etapa B6 . Assim, ela não será descrita aqui novamente. 0 mascaramento intra-canal é incorporada como uma ponderação das saídas da função CSF. O mascaramento é um fenômeno muito importante na percepção, à medida que ela descreve as interações entre os estímulos. Na verdade, o limite de visibilidade de um estímulo pode ser afetado pela presença de outro estímulo. 0 mascaramento é mais forte entre os estímulos localizados no mesmo canal perceptivo ou na mesma sub-banda. Nós aplicamos a função de intra-mascaramento projetada por Daily no componente acromãtico, como descrito na figura 1, etapa E6, e, no componente colorido, a função de intra-mascaramento descrita no documento de P. Le Callet e D. Barba, "Frequency and spatial pooling of vi- suai differences for still image quality assessment", em Proc. SPIE Human Vision and Electronic Imaging Confer-ence, San José, CA, Vol. 3959, Janeiro de 2000.

Estas funções de mascaramento consistem de um transdutor não linear como expresso no documento de Legge e Foley, "Contrast Masking in Human Vision", Journal of the Optical Society of América, Vol. 70, , N° 12, páginas 1458 a 1471, Dezembro de 1980. O mascaramento visual é mais forte entre estímulos localizados no mesmo canal perceptivo (intra-mascaramento}. No entanto, como apresentado em numerosos estudos, existem várias interações denominadas mascaramento inter-componente proporcionando um efeito de mascaramento ou de suporte. A partir de experiências psicofí-sicas, interações significativas entre componentes envolvendo os componentes cromáticos foram preferidas. Conse-qüentemente, a sensibilidade do componente acromático podería ser aumentada ou diminuída pelo componente Cri. A influência do Cr2 sobre o componente acromático é considerada insignificante. Finalmente, o Cri também pode modular a sensibilidade do componente Cr2 (e vice versa).

Então, na etapa T5, é realizado um reforço cromático . A cor é um dos elementos de atração mais fortes da atenção e a invenção almeja obter vantagem desta força de atração por apresentar a seguinte propriedade: a existência de regiões apresentando uma cor acentuada e totalmente circundada por áreas possuindo muitas outras cores implica em uma atração particular para as bordas desta região.

Para evitar a difícil questão de agregar medidas derivando dos componentes acromãticos e cromáticos, a fa-cilitação de cor consiste em aprimorar a saliência da estrutura acromãtica por meio da utilização de um coeficiente facilitador calculado nas frequências baixas dos componentes cromáticos.

Na modalidade preferida, somente um subconjunto do conjunto de canais acromáticos é reforçado. Este subconjunto contém 4 canais possuindo uma seletividade angular igual a π/4 e uma freqüência radial espacial {expressa em ciclos / grau) pertencendo a [1,5 , 5,7] . Observe estes canais Ri,j, onde i representa a freqüência radial espacial e j pertence â orientação. Em nosso exemplo, j é igual a {0, π / 4, π / 2, 3π / 4}. De modo a calcular um < coeficiente facilitador, determina-se para cada pixel da freqüência baixa de Cri e Cr2 o valor de contraste relacionado com o conteúdo das áreas adjacentes e com a orientação atual do canal acromático reforçado, como ilustrado na figura 11. Na figura 11, o valor de contraste é obtido por calcular a diferença absoluta entre o valor médio do conjunto A e o valor médio do conjunto B. Os conjuntos A e B pertencem â freqüência baixa de Cri ou Cr2 e são orientados na orientação preferida do canal a-cromático considerado. 0 reforço cromático é alcançado pela seguinte equação, no canal (de luminância) acromático Ri,j(x,y) . RU)i,j (x, y) -Ri, j (x, y) x {1+ | A-B | Cri+ | A-B | Cr2) | í=ii onde, R'i, j(x,y) representa a sub-banda acromática reforçada, Ri,j(x,y) representa uma sub-banda acromática. A-B j k representa o valor de contraste calculado ao redor do ponto atual no componente cromático k na orientação preferida da sub-banda Riq (x, y) , como apresentado na figura 7. Na modalidade, os conjuntos A e B pertencem a sub-banda da primeira coroa (sub-banda de baixa freqüêncía) do componente cromático k com uma orientação igual a π/4.

Em outras modalidades, todas as sub-bandas podem ser consideradas.

Na etapa T6, uma interação supressiva central / de ambiente envolvente é realizada.

Esta operação consiste, em primeiro lugar, em uma etapa de inibição / excitação.

Uma diferença-de-Gaussians (DoG) bidimensional é utilizada para modelar o comportamento de inibição não CRF das células. A DoG „ i„b ,ib(x,y) é dada pela seguinte σχ σν equação: uma gaussian bidimensional.

Os parâmetros (aexx, aexy) e (ainhx, ainhy) correspondem a extensões especiais do envelope de Gaussian ao longo dos eixos geométricos x e y do Gaussian central (o centro CRF) e do Gaussian inibitório (o ambiente envolvente), respectivamente. Estes parâmetros foram determinados experimentalmente de acordo com a freqüência radial da segunda coroa (a freqüência radial / e [1,5 , 5,7] é expressa em ciclos / grau). Finalmente, a inibição de ambiente envolvente não clássica pode ser modelada pela função de ponderação normalizada w B cx ,lb iab(x,y) dada pela ,CTy ,fJy seguinte equação: com, f 0, z < 0 H(z) = W [z, z > 0’ (x' , y') é obtido por transladar o sistema de coordenadas original por (x0, yo) e girã-lo por 9i,j expresso em radiano, ll-H denota o termo Li, isto é, o valor absoluto. A Figura 12 apresenta a estrutura da inibição não CRF. A Figura 13 apresenta um exemplo de perfil da função de ponderação normalizada w « es „lab _lab (^j * O, .ny A resposta R(2)i,j (x, y) das células corticais para uma sub-banda particular RU)i(j (x, y) é calculada pela convolução da sub-banda R(1>i,j (x, y) com a função de ponderação w „ lab ,ab(x,y) : σχ -°y ·σϊ Rg1 (x, y) = H(Rg (x, y) - Rg (x, y) * (x. y))| i-h com H(z) definido como foi descrito acima.

Na etapa T7, uma interação facilitadora é executada .

Esta interação facilitadora ê normaimente denominada aprimoramento de contorno ou integração de contorno.

As interações faci1itadoras aparecem fora do CRF ao longo do eixo de orientação preferido. Estes tipos de interações são máximos quando estímulos centrais e de ambiente envolvente são iso-orientados e co-alinhados. Em outras palavras, como apresentado por várias observações feitas fisiologicamente, a atividade da célula é melhorada quando os estímulos dentro do CRF e um estímulo dentro do ambiente envolvente são ligados para formar um contorno. A integração de contorno no pré-processamento visual antecipado ê simulada utilizando dois filtros meia-borboleta B°i,j e B1!^ . Os perfis destes filtros são apresentados em 9 e eles são definidos por utilizar um filtro bipolar / de borboleta. Ele consiste de um termo direcional De (x, y) e um termo de proximidade gerado por um círculo Cr embaçado por um filtro de gaussian Gax, Gay (x, y) - e tp = arctangente (y'/x') , onde (x' , y')T é o vetor (x, y)T girado por 9i, j. O parâmetro a define o ângulo de abertura 2a do filtro bipolar. Ele depende da seletividade angular γ da sub-banda considerada. Obtém-se α = 0,4 x γ. O tamanho do filtro bipolar é cerca de duas vezes o tamanho do CRF de uma célula visual.

Os dois filtros meia borboleta B°i,j e B1^ são deduzidos posteriormente a partir do filtro de borboleta por utilizar janelas apropriadas.

Para cada orientação, sub-banda e localização, calcula-se o coeficiente facilitador: com, β uma constante, L°i,j (x, y) = Rt2>i, j (x, y) * B°i,j (x, y) , L1!,j (x, y) = R(2)i,j (x, y) * B1!,j (x, y) , Uma ilustração do operador D(z) á fornecida na figura 9. A sub-banda R{3)íj resultando da interação faci-litadora é finalmente obtida por ponderar a sub-banda R<2)i,j por um fator dependendo da proporção do máximo local do coeficiente facilitador /lsoi,j (x, y) e do máximo global do coeficiente facilitador calculado em todas as sub-bandas pertencendo a mesma faixa de freqüência espa- risl · A partir de um formato de borboleta padrão, este fator Êacilitador permite melhorar a saliência de linhas retas isoladas. η135σ permite controlar a força desta interação facilitadora.

Na etapa E8, o mapa de saliência é obtido por somar todas as sub-bandas resultantes obtidas na etapa E7.

Nas outras modalidades da invenção, podem-se u-tilizar todas as sub-bandas e não somente as sub-bandas da segunda coroa.

Apesar das células corticais direcionadas para as orientações horizontal e vertical serem quase tão numerosas quanto as células direcionadas para outras orientações, nós não introduzimos qualquer ponderação. Este recurso do HVS é implicitamente aparente pela aplicação da CSF anisotrópica 2D.

REIVINDICAÇÕES

Claims

1. Método para criar um mapa de saliência de uma imagem, CARACTERIZADO pelo fato de que ele compreende as etapas de: - Projeção (El) da dita imagem, de acordo com o componente de luminância (A) , e se a dita imagem for uma imagem colorida, de acordo com o componente de luminância (A) e de acordo com os componentes de crominância (Cri, Cr2) , Decomposição em sub-bandas perceptivas (E3, T2., T'2, T''2) dos ditos componentes (A, Cri, Cr2), de acordo com o limite de visibilidade de um olho humano, - Extração (E7) dos elementos salientes das sub-bandas relacionadas com o componente de luminância (A), - Aprimoramento de contorno (E8, T7) dos ditos elementos salientes em cada sub-banda relacionada com o componente de luminância (A), - Cálculo (T7) de um mapa de saliência a partir do aprimoramento de contorno, para cada sub-banda relacionada com o componente de luminância (A). - Criação (T8) do mapa de saliência em função dos mapas de saliência obtidos para cada sub-banda.

2. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que ele compreende, em adição à decomposição em sub-bandas perceptivas, - uma etapa da função de sensibilidade ao contraste (CSF) acromática para o componente de luminância (A) , e se a dita imagem for uma imagem colorida, - uma etapa da função de sensibilidade cromática para os componentes cromáticos (Cri, Cr2).

3. Método, de acordo com a reivindicação 2, CARACTERIZADO pelo fato de que ele compreende uma etapa (E6, T4, TM, T"4) de mascaramento visual, em adição à etapa de função de sensibilidade ao contraste, para cada sub-banda do componente de luminância (A) e dos componentes cromáticos (Cri, Cr2) .

4. Método, de acordo com a reivindicação 3, CARACTERIZADO pelo fato de que, quando a dita imagem é uma imagem colorida, ele compreende uma etapa (T5) de reforço cromático das sub-bandas de luminância (A).

5. Método, de acordo com qualquer uma das reivindicações precedentes, CARACTERIZADO pelo fato de que a decomposição em sub-bandas perceptivas é obtida por subdividir o domínio de frequência tanto na freqüência radial espacial como na orientação.

6. Método, de acordo com a reivindicação 5, CARACTERIZADO pelo fato de que a decomposição perceptiva do componente de luminância (A) leva a 17 sub-bandas visuais psíquicas distribuídas em quatro coroas.

7. Método, de acordo com a reivindicação 5 ou 6, CARACTERIZADO pelo fato de que a decomposição perceptiva dos componentes acromáticos (Cri, Cr2) leva a 5 sub-bandas visuais psíquicas distribuídas em duas coroas para cada componente cromático (Cri, Cr2) .

8. Método, de acordo com as reivindicações 4 a 7, CARACTERIZADO pelo fato de que o reforço cromático do componente de luminância (A) é feito nas sub-bandas da segunda coroa e baseado nas sub-bandas da primeira coroa dos componentes cromáticos (Cri, Cr2).

9. Dispositivo para criar um mapa de saliência de uma imagem, CARACTERIZADO pelo fato de que ele compreende o meio para: - Projetar a dita imagem de acordo com o componente de luminância (A) , e se a dita imagem for uma imagem colorida, de acordo com o componente de luminância (A) e de acordo com os componentes de crominância (Cri, Cr2) , - Transpor, nos domínios de freqüência, a dita luminância e os sinais de crominância, - Decompor, em sub-bandas perceptivas, os ditos componentes do domínio de freqüência de acordo com o limite de visibilidade de um olho humano, - Extrair os elementos salientes das sub-bandas relacionadas com o componente de luminância, - Aprimorar o contorno dos ditos elementos salientes em cada sub-banda relacionada com o componente de luminância, - Calcular um mapa de saliência a partir do a-primoramento de contorno, para cada sub-banda relacionada com o componente de luminância. - Criar o mapa de saliência em função dos mapas de saliência obtidos para cada sub-banda.