BR112015019787B1

BR112015019787B1 - PICTURE ENCODER, PICTURE DECODER, PICTURE CODING METHOD, PICTURE DECODING METHOD, PICTURE SIGNAL, AND, MEMORY OBJECT

Info

Publication number: BR112015019787B1
Application number: BR112015019787-6A
Authority: BR
Inventors: Mark Jozef Willem Mertens
Original assignee: Koninklijke Philips N.V.
Priority date: 2013-02-21
Filing date: 2014-02-07
Publication date: 2023-05-30

Abstract

CODIFICADOR DE IMAGEM, DECODIFICADOR DE IMAGEM, MÉTODO DE CODIFICAÇÃO DE IMAGEM, MÉTODO DE DECODIFICAÇÃO DE IMAGEM, SINAL DE IMAGEM, E, OBJETO DE MEMÓRIA. Para permitir que classificadores produzam conteúdo visualmente ótimo de cenas em HDR para vários dispositivos de exibição com renderização, os inventores inventaram um codificador de imagem (202) que compreende: uma entrada (240) para uma imagem de entrada com alta faixa dinâmica (M_HDR); uma unidade de classificação de imagem (201) disposta de modo a permitir que um classificador de cores humano especifique um mapeamento de cores a partir de uma representação (HDR_REP) da imagem de entrada com alta faixa dinâmica, definida de acordo com uma exatidão predefinida, para uma imagem com baixa faixa dinâmica (Im_LDR), por meio de um algoritmo de mapeamento de cores determinado por um ser humano, e disposta de modo a produzir dados que especificam o mapeamento de cores (Fi(MP_DH); e uma unidade de classificação automática (203), disposta de modo a derivar uma segunda imagem com baixa faixa dinâmica (GT_IDR), mediante a aplicação de um algoritmo de mapeamento de cores automático a uma dentre a imagem de entrada com alta faixa dinâmica (M_HDR) ou a imagem com baixa faixa dinâmica (Im_LDR) (...).PICTURE ENCODER, PICTURE DECODER, PICTURE CODING METHOD, PICTURE DECODING METHOD, PICTURE SIGNAL, AND, MEMORY OBJECT. To enable classifiers to output visually optimal content from HDR scenes to various display devices with rendering, the inventors invented an image encoder (202) comprising: an input (240) for an input image with high dynamic range (M_HDR); an image classification unit (201) arranged to allow a human color classifier to specify a color mapping from a representation (HDR_REP) of the high dynamic range input image set to a predefined accuracy to a low dynamic range image (Im_LDR) via a human determined color mapping algorithm and arranged to produce data specifying the color mapping (Fi(MP_DH); and an automatic classification unit (203) arranged so to derive a second low dynamic range (GT_IDR) image by applying an automatic color mapping algorithm to one of the input high dynamic range (M_HDR) or low dynamic range (Im_LDR) images (...).

Description

FIELD OF THE INVENTION

[001] A invenção refere-se a aparelhos e a métodos e produtos resultantes como produtos para armazenamento de dados ou sinais codificados, por exemplo como armazenados em memórias, para codificação aprimorada de pelo menos uma imagem ou um vídeo com uma faixa de luminância dinâmica aumentada, em comparação a imagens legadas denominadas imagens com baixa faixa dinâmica (LDR).[001] The invention relates to apparatus and methods and resulting products as products for storing data or encoded signals, for example as stored in memories, for improved encoding of at least one image or a video with an increased dynamic luminance range, compared to legacy images called images with low dynamic range (LDR).

BACKGROUND OF THE INVENTION

[002] O campo recém-surgido da captura de imagens com alta faixa dinâmica (HDR, de “High Dynamic Range”) contrasta com os sistemas legados que, atualmente, em comparação, pode-se chamar de captura de imagens com baixa faixa dinâmica (LDR) (que compreende sistemas de codificação de imagens ou vídeo como PAL ou MPEG2, AVC, HEVC ou um outro membro da família MPEG, ou padrões de vídeo similares, por exemplo VC1, VC2, etc., ou JPEG para imagens estáticas, etc.)[002] The newly emerging field of high dynamic range (HDR) image capture contrasts with legacy systems that today, by comparison, might be called low dynamic range (LDR) image capture (comprising image or video encoding systems such as PAL or MPEG2, AVC, HEVC or another member of the MPEG family, or similar video standards, e.g. VC1, VC2, etc., or JPEG for still images, etc.)

[003] Ao falar sobre HDR, é necessário olhar para os vários componentes da cadeia. Como esta é uma área muito recente da tecnologia, em que talvez nem todas as pessoas estejam na mesma linha, deseja-se estabelecer rapidamente uma mentalidade de referência com algumas definições importantes, para evitar mal-entendidos. Por fim, há a faixa dinâmica de renderização, que o meio de exibição pode gerar. A faixa dinâmica de renderização é, de modo geral, definida como RDR= luminância_do_branco_mais_brilhante/luminância_do_preto_mais_e scuro de todos os pixels em uma imagem (RDR intraimagens), ou de pixels em imagens sucessivas (RDR interimagens, por exemplo quando o dispositivo de exibição está (quase) desligado, e somente se vê o reflexo do ambiente circundante no vidro frontal). Entretanto, é mais significativa quando também acoplada a um valor de pico_de_branco (isto é, o valor de luminância_do_branco_mais_brilhante). Os renderizadores LDR geralmente ficam em uma faixa definida pelo pico_de_branco de 100 nits, ou em torno dessa faixa, e uma faixa dinâmica de cerca de 100:1. Isso é o que um dispositivo de exibição de TRC poderia ter produzido, onde obviamente a luminância_do_preto_mais_escuro depende fortemente da iluminação no ambiente de visualização, então pode-se optar por 40:1 por uma questão de segurança, e também 2:1 pode ser uma faixa dinâmica prática quando são visualizadas imagens em um dispositivo de exibição sob o sol. O ambiente de visualização que condiciona a adaptação a brilho do observador humano está relacionado a isso, por exemplo, tipicamente 20% do pico_de_branco. Vários padrões de EBU, SMPTE etc. especificam como se deve classificar um sinal de vídeo para que o mesmo possa ser usado de maneira convencional, por exemplo para que seja ótimo se mostrado no ambiente de visualização prescrito. O termo classificar significa produzir uma imagem com cores de pixel alteradas, as quais são alteradas/especificadas de acordo com alguma preferência. Por exemplo, uma câmera pode automaticamente classificar uma imagem de câmera em formato RAW (que depende apenas das características específicas da câmera como um instrumento de medição da luminância linear) dada uma intenção de renderização em uma codificação diretamente usável direcionada a um dispositivo de exibição, com a qual se pode manipular, por exemplo, esse tipo de dispositivo de exibição de TRC sob condições de referência, de modo que o mesmo mostre ao observador uma imagem nítida.[003] When talking about HDR, it is necessary to look at the various components of the chain. As this is a very new area of technology where perhaps not everyone is on the same page, we want to quickly establish a reference mindset with some important definitions to avoid misunderstandings. Finally, there is the rendering dynamic range, which the display medium can generate. The rendering dynamic range is generally defined as RDR= luminance_of_brightest_white/luminance_of_darker_black of all pixels in an image (intra-image RDR), or of pixels in successive images (inter-image RDR, for example when the display device is (almost) off, and only the reflection of the surrounding environment is seen in the front glass). However, it is most meaningful when also coupled with a peak_white value (ie, the luminance_value of_brightest_white). LDR renderers are generally in a range defined by peak_white of 100 nits or so and a dynamic range of around 100:1. This is what a TRC display device could have produced, where obviously the luminance_of_darkest_black depends heavily on the lighting in the viewing environment, so one might opt for 40:1 for safety, and also 2:1 might be a practical dynamic range when viewing images on a display device in the sun. The viewing environment that conditions the brightness adaptation of the human observer is related to this, for example, typically 20% of white_peak. Various standards of EBU, SMPTE etc. specify how to classify a video signal so that it can be used in a conventional way, for example so that it is optimal if shown in the prescribed viewing environment. The term classify means to produce an image with altered pixel colors which are changed/specified according to some preference. For example, a camera can automatically classify a camera image in RAW format (which only depends on the specific characteristics of the camera as a linear luminance measuring instrument) given a rendering intent into a directly usable encoding directed to a display device, with which one can manipulate, for example, this type of CRT display device under reference conditions, so that it shows the viewer a clear image.

[004] Muitas vezes, a classificação por um ser humano envolve escolhas mais artísticas. Por exemplo, o classificador quer transformar a cor de uma planta em uma bela cor arroxeada, mas isto precisa ser especificado sob condições de referência (tanto da tecnologia do dispositivo de exibição como do ambiente de visualização e, em teoria, também outras condições que afetam o estado do observador, como consumo de medicamento mas, é óbvio estas são tipicamente, em grande parte ignoradas), pois um dispositivo de exibição específico pode tornar essa cor mais azulada, e nesse caso o efeito artístico desejado (de criar uma imagem bonita) pode deixar de existir. Não é típico que uma câmera crie automaticamente o tipo ótimo de roxo, sendo esse o motivo do classificador fazer isso com software de processamento de imagens. Esse classificador pode ser tanto um fotógrafo como um artista visual trabalhando em um filme, ou mesmo alguém trabalhando em um programa de televisão (potencialmente, até mesmo ao vivo). É claro que várias aplicações terão vários graus de complexidade de classificação ligados à qualidade técnica e/ou artística desejada para aquelas aplicações. Tipicamente, os padrões acima recomendam que uma classificação deve ser feita em um monitor de referência com cerca de 100 nits, em um ambiente de referência. A questão é, então, como uma cor será renderizada e vista na prática. Os artistas gráficos para publicações impressas também geram seu trabalho sob condições de referência, para ter alguma base comum, e evitar fontes de erro desnecessárias, por exemplo na impressão. Entretanto, isso obviamente não significa que todos os leitores do livro ou da revista lerão o livro sob uma lâmpada D50 calibrada, mas que eles poderão ver cores mais desbotadas quando lendo na cama, sob iluminação inadequada. O mesmo ocorre quando um filme ou programa de televisão, ou uma foto de consumidor, é mostrado em um dispositivo de exibição que não é de referência, dentre os muitos diferentes dispositivos de exibição que estão disponíveis atualmente. Por exemplo, a imagem (classificação) pode ser mostrada em um dispositivo de exibição com pico_de_branco de 500 nits. O que acontece, então, é que se aumenta o brilho de todas as cores de pixel pelo menos com estiramento linear, o que ocorre mediante o acionamento do dispositivo de exibição com a classificação, isto é, mapeando o branco máximo (por exemplo, valor R=G=B=255) ao pico_de_branco do dispositivo de exibição (é claro que pode haver deformação de brilho adicional para as várias cores de pixel da imagem, se o dispositivo de exibição tiver uma função de transferência eletro-óptica (electro-optical transfer function) EOTF nativa especial mas, geralmente, isso é manuseado internamente para fazer com que o dispositivo de exibição se comporte como uma versão mais brilhante de um TRC de referência, isto é, com uma gama de exibição de cerca de 2,5).[004] Often, classification by a human involves more artistic choices. For example, the classifier wants to turn the color of a plant into a beautiful purplish color, but this needs to be specified under reference conditions (both the display device technology and the viewing environment, and in theory also other conditions that affect the viewer's state, such as drug consumption, but of course these are typically largely ignored), as a particular display device may make that color more bluish, in which case the desired artistic effect (of creating a beautiful image) may no longer exist. It is not typical for a camera to automatically create the optimal type of purple, which is why the classifier does this with image processing software. That classifier could be either a photographer or a visual artist working on a film, or even someone working on a television show (potentially even live). Of course, various applications will have varying degrees of classification complexity linked to the technical and/or artistic quality desired for those applications. Typically, the standards above recommend that a rating should be made on a reference monitor with around 100 nits, in a reference environment. The question then is how a color will be rendered and seen in practice. Graphic artists for print publications also generate their work under reference conditions, to have some common ground, and to avoid unnecessary sources of error, for example in print. However, this obviously does not mean that all readers of the book or magazine will read the book under a calibrated D50 lamp, but that they may see more washed out colors when reading in bed under inadequate lighting. The same is true when a movie or television show, or a consumer photo, is shown on a non-reference display device, one of the many different display devices that are available today. For example, the image (rating) can be displayed on a display device with a white_peak of 500 nits. What happens then is that you increase the brightness of all pixel colors with at least linear stretching, which is done by triggering the display device with the classification, i.e. mapping the maximum white (e.g. R=G=B=255 value) to the display device's white_peak (of course there may be additional brightness skew for the various pixel colors in the image if the display device has an electro-optical transfer function). Special native OTF, but usually this is handled internally to make the display device behave like a brighter version of a reference TRC, i.e. with a display gamma of about 2.5).

[005] Agora, essas classificações de LDR padronizadas (produzidas em um ambiente de referência, entre outras coisas, em um dispositivo de exibição de referência com 100 nits) podem ser usadas (isto é, ter uma aparência razoavelmente boa, isto é, ainda razoavelmente similar à aparência que teriam sob condições de referência) em uma faixa de dispositivos de exibição e/ou condições de ambiente em torno do sistema de exibição de referência (isto é, pico_de_branco com 100 nits, etc.). Isso se deve ao fato de que a maioria dos seres humanos não é tão supercrítica em relação à aparência exata (absoluta) das cores, já que o cérebro funciona relativamente (por exemplo, dependendo dos critérios para permissibilidade, as cores de face, que são umas das cores mais críticas, podem variar de pálidas a quase brancas, a bastante alaranjadas, etc., antes que a maioria menos crítica da população comece a desaprovar), mas também porque, para muitos objetos, ninguém sabe quais eram as cores originais na cena. Parcialmente, isso também se deve ao fato de que cenas em LDR são produzidas com uma estratégia de cores de objeto “em torno da média” (a qual é obtida, entre outras coisas, com iluminação de estúdio bem controlada, talvez já nem sempre com os vários conteúdos instantâneos que se tem atualmente), o que significa que todas as cores são vívidas, e pode-se mesmo aumentar um tanto o brilho da imagem, até acima do nível de 18%, com algumas sombras, porém não muito profundas ou importantes, etc., e isso é muito bem reproduzido, tanto fisicamente como psicologicamente, em vários sistemas. É assim, por exemplo, que trabalham os pintores naive antes de descobrirem assuntos complexos como claro-escuro, etc. Assim, dependendo do critério de qualidade que define a similaridade aceitável, a classificação LDR_100 nits pode ser usada, por exemplo, em dispositivos de exibição de 30 nits até 600 nits, e em ambientes de visualização de 3x menos brilhantes a 5x mais brilhantes. A latitude para uso de uma classificação pode ser aumentada mediante a modificação da mesma com uma assim chamada transformação do dispositivo de exibição. O brilho de um dispositivo de exibição e do ambiente circundante (relacionado ao efeito de Stevens e ao efeito de Bartleson_Brenneman) pode ser corrigido a um grau razoável muito mais facilmente que as questões relacionadas às restrições de gama de um dispositivo de exibição, e pode-se tipicamente processar a imagem com funções gama ou similares. Por exemplo, ao se mover um dispositivo de exibição de um ambiente com luz moderada para um ambiente escuro (ou, de fato, apagar as luzes suaves da sala de estar), passa-se de um gama extra de 1,25 para 1,5, isto é, usa-se a gama residual para aumentar o contraste das imagens renderizadas, pois a visão humana é mais sensível no escuro e, portanto, percebe os pretos da imagem renderizada como mais cinzentos, o que equivale a uma redução do contraste visto, o que precisa ser compensado. Uma tecnologia de LDR similar é a impressão. Nesse caso, obviamente não se tem, a priori, um controle sobre a iluminância do ambiente que determine o pico_de_branco da impressão, mas pelo menos, como com todos os objetos reflexivos, a RDR branco-preto é de cerca de 100:1 (dependendo da qualidade do papel, por exemplo lustroso versus fosco, tintas, etc.).[005] These standardized LDR ratings (produced in a reference environment, among other things, on a 100-nit reference display device) can now be used (i.e., look reasonably good, i.e., still reasonably similar to how they would look under reference conditions) across a range of display devices and/or ambient conditions around the reference display system (i.e., 100 nits_white_peak, etc.). This is due to the fact that most humans are not so supercritical about the exact (absolute) appearance of colors, as the brain works relatively (for example, depending on the criteria for permissibility, face colors, which are one of the most critical colors, can range from pale to almost white to quite orange, etc. Partly this is also due to the fact that LDR scenes are produced with an "around average" object color strategy (which is achieved, among other things, with well-controlled studio lighting, perhaps not always with the various instantaneous content you currently have), which means that all colors are vivid, and you can even increase the brightness of the image quite a bit, even above the 18% level, with some shadows, but not too deep or important, etc., and this is reproduced very well , both physically and psychologically, in various systems. This is how, for example, naive painters work before discovering complex subjects such as chiaroscuro, etc. Thus, depending on the quality criteria that define acceptable similarity, the LDR_100 nits rating can be used, for example, on display devices from 30 nits to 600 nits, and in viewing environments from 3x less bright to 5x brighter. The latitude for using a classification can be increased by modifying it with a so-called display device transformation. The brightness of a display device and the surrounding environment (related to the Stevens effect and the Bartleson_Brenneman effect) can be corrected to a fair degree much more easily than issues related to the gamma constraints of a display device, and one can typically process the image with gamma functions or similar. For example, when moving a display device from a moderately lit environment to a dark environment (or, in fact, turning off the soft lights in the living room), it goes from an extra gamma of 1.25 to 1.5, i.e., it uses the residual gamma to increase the contrast of the rendered images, as human vision is more sensitive in the dark and therefore perceives the blacks in the rendered image as grayer, which is equivalent to a reduction in the contrast seen, which needs to be compensated for. A similar LDR technology is printing. In this case, you obviously don't have a priori control over the ambient illuminance that determines the white_peak of the print, but at least, as with all reflective objects, the white-black RDR is around 100:1 (depending on the quality of the paper, e.g. glossy versus matte, inks, etc.).

[006] Uma complicação surge quando é necessário reproduzir uma imagem de uma cena com enorme faixa dinâmica e, tipicamente, também condições de cena muito diferentes das condições de renderização. Por exemplo, em uma cena noturna os olhos podem estar observando uma faixa dinâmica da cena, SDR, entre faróis de carro de 100.000 nits (ou, por exemplo, ainda mais para uma lâmpada de mercúrio ou de sódio de alta pressão na cena) versus regiões escuras em sombras com frações de um nit. Mesmo à luz do dia, onde pode ser mais difícil criar sombras escuras a partir da iluminação que se espalha sobre tudo, um ambiente interno pode ser tipicamente 100x mais escuro que um ambiente externo, e também nuvens escuras e cobertura florestal, entre outros, podem influenciar as luminâncias necessárias (sejam estas capturadas ou a serem renderizadas), se não em reprodução intracena, pelo menos em reprodução interimagens, isto é, em reprodução temporalmente sucessiva. Citações para a “faixa dinâmica nativa” da visão humana variam entre 10.000:1 e 100.000:1, e mesmo 1.000.000:1, pois isso obviamente depende das condições (por exemplo, se é necessário ver uma pequena região mais escura nas áreas brilhantes, ou vice-versa, se é possível ver algum pequeno objeto brilhante no escuro, seja este talvez parcialmente um clareamento da rodopsina; se uma quantidade de ofuscamento é considerada desconfortável, etc.; e, então, há obviamente também um fator psicológico [levando-se em conta coisas como a importância de certos objetos, sua visibilidade perfeita ou suficiente, impacto emocional sobre o observador, etc.], que leva à questão de quanto daquilo precisaria ser renderizado em um dispositivo de exibição [por exemplo, um observador pode rapidamente descartar uma área como “apenas preta”, sem se importar com qual preto, exatamente], posto que o observador está de qualquer modo em uma situação totalmente diferente [não realmente em férias, ou não realmente interrogado por um policial apontando uma luz para seu rosto], mas se deseja uma certa quantidade de realismo, o que pode ser adicionalmente uma compensação com outros fatores, por exemplo consumo de energia, de modo que se poderia pragmaticamente de fato definir várias faixas dinâmicas da visão humana, por exemplo uma para um certo tipo de visualização de cena real, e uma para visualização de televisor). Por exemplo, se uma pessoa está adaptada ao céu escuro da noite, mas vê a lua no canto do olho, isso tem menos influência sobre como os bastonetes em outras partes da retina podem ver as estrelas fracas, isto é, a faixa dinâmica visível “simultânea” será alta. Por outro lado, quando o olho é banhado em forte luz do dia (sobre uma grande área de seu campo de visão), é mais difícil discriminar as cores mais escuras em um interior mais escuro, visto e iluminado através de um pequeno orifício ou janela, especialmente se uma fonte brilhante está em posição adjacente àquela área escura. Os sistemas ópticos mostrarão, então, vários fenômenos de ofuscamento. De fato, o cérebro de modo geral pode nem mesmo se importar quanto àquele interior escuro, e simplesmente chamar todas aquelas cores de pretos psicológicos. Em outro exemplo de como o vazamento de luz influencia e determina a faixa dinâmica da cena, a partir da perspectiva de um observador humano, considere-se um arbusto escuro e mal iluminado à noite, atrás de um poste de luz. A lâmpada no poste de luz cria um perfil de dispersão de luz nas arranhaduras dos óculos do observador (ou, se ele não usa óculos, nas irregularidades de sua lente ocular, por exemplo partículas submicrométricas, água entre as células, ...) , em particular sob a forma de um halo em torno da lâmpada, o que reduz a possibilidade de discriminação entre as cores escuras do arbusto atrás da mesma. Porém, quando o observador caminha por alguns segundos, a lâmpada se move para trás dele e para fora da zona de captura da lente ocular, e os olhos podem rapidamente se ajustar para encontrar o predador à espreita no escuro.[006] A complication arises when it is necessary to reproduce an image of a scene with enormous dynamic range and, typically, also scene conditions very different from the rendering conditions. For example, in a night scene the eyes might be looking at a dynamic range of the scene, SDR, between 100,000 nits car headlights (or, say, even more for a mercury or high pressure sodium lamp in the scene) versus dark regions in shadows with fractions of a nit. Even in daylight, where it can be more difficult to create dark shadows from the lighting that spreads over everything, an indoor environment can typically be 100x darker than an outdoor environment, and also dark clouds and forest cover, among others, can influence the necessary luminances (whether these are captured or to be rendered), if not in intra-scene playback, at least in inter-frame playback, that is, in temporally successive playback. Citations for the “native dynamic range” of human vision vary between 10,000:1 and 100,000:1, and even 1,000,000:1, as this obviously depends on conditions (e.g., whether it is necessary to see a small darker region in bright areas, or vice versa, whether it is possible to see some small bright object in the dark, whether this is perhaps partially a rhodopsin lightening; whether an amount of glare is considered uncomfortable, etc.; and then , there is obviously also a psychological factor [taking into account things like the importance of certain objects, their perfect or sufficient visibility, emotional impact on the viewer, etc.], which leads to the question of how much of that would need to be rendered on a display device [e.g., a viewer might quickly dismiss an area as "just black", no matter which black, exactly], since the viewer is in an entirely different situation anyway [not really on vacation, or not really interrogated by a policeman shining a light in their face], but if you want a certain amount of realism , which may additionally be a trade-off with other factors, e.g. power consumption, so that one could pragmatically indeed define several dynamic ranges of human vision, e.g. one for a certain type of real scene viewing, and one for television viewing). For example, if a person is adapted to the dark night sky but sees the moon in the corner of the eye, this has less influence on how rods in other parts of the retina can see the faint stars, i.e. the "simultaneous" visible dynamic range will be high. On the other hand, when the eye is bathed in strong daylight (over a large area of its field of vision), it is more difficult to discriminate the darkest colors in a darker interior viewed and lit through a small hole or window, especially if a bright source is adjacent to that dark area. Optical systems will then show various glare phenomena. In fact, the brain at large may not even care about that dark interior, and simply call all those colors psychological blacks. In another example of how light leakage influences and determines the dynamic range of the scene, from the perspective of a human observer, consider a dark, poorly lit bush at night, behind a lamp post. The lamp on the lamp post creates a light scattering profile on the scratches of the viewer's glasses (or, if he does not wear glasses, on the irregularities of his eye lens, for example submicrometer particles, water between the cells, ...), in particular in the form of a halo around the lamp, which reduces the possibility of discrimination between the dark colors of the bush behind it. However, when the observer walks for a few seconds, the lamp moves behind him and out of the eyepiece lens capture zone, and the eyes can quickly adjust to find the predator lurking in the dark.

[007] Portanto, independentemente de como se defina a faixa dinâmica útil de uma cena para codificação e renderização para consumo por seres humanos (pode-se mesmo considerar não apenas codificar as luminâncias intraimagem com um fator de alteração de escala da luminosidade global, mas as luminâncias que realmente ocorrem de um ambiente tropical ensolarado à mais escura noite nublada), está claro que é necessário mais de 100:1 para uma renderização fiel ou pelo menos plausível desses ambientes. Por exemplo, deseja- se que o objeto mais brilhante em um dispositivo de exibição para ambiente a meia luz tenha em torno de 10.000 nits, e o mais escuro 0,01 nit (ou pelo menos 0,1 nit), pelo menos se fosse possível, por exemplo, reduzir as luzes caso se tenha cenas totalmente ou predominantemente escuras no filme ou nas uma ou mais imagens.[007] Therefore, regardless of how one defines the usable dynamic range of a scene for encoding and rendering for human consumption (one could even consider not just encoding the intra-image luminances with a global luminosity scaling factor, but the luminances that actually occur from a sunny tropical environment to the darkest cloudy night), it is clear that more than 100:1 is needed for a faithful or at least plausible rendering of these environments. For example, you'd want the brightest object on a dim display device to be around 10,000 nits, and the darkest 0.01 nit (or at least 0.1 nit), at least if you could, for example, dim the lights if you have totally or predominantly dark scenes in your movie or one or more images.

[008] Aí é que entra a HDR. Além disso, quando é capturado esse tipo de cena, é necessário um mapeamento matemático muito complexo para aproximar o mesmo (ou mesmo para ser possível renderizar o mesmo) em um dispositivo de exibição LDR (isso, de fato, muitas vezes não é realmente possível). Por exemplo, alguns algoritmos de mapeamento de HDR para LDR usam adaptação local para mais ou menos equalizar o campo de iluminação, deixando na renderização em LDR principalmente uma impressão dos reflexos do objeto, isto é, das cores. Em vista do vazamento (múltiplos reflexos, espalhamento, etc.) de luz de partes mais brilhantes para partes mais escuras de uma cena, não é fácil criar cenas com faixa dinâmica extremamente alta, mas uma diferença de iluminação de 100:1 pode facilmente ser obtida em muitas situações práticas. Por exemplo, uma cena em ambiente interno pode ter (é claro, dependendo da profundidade do espaço, do tamanho e da posição das janelas, da refletividade das paredes, etc.) uma fração ou múltiplo de cerca de 1/100 da (i)luminância do ambiente externo (que é também como se define o fator de luz do dia para iluminação de edifícios). SDRs mais altas podem ser obtidas ao se observar um ambiente externo ensolarado a partir do interior de uma caverna através de uma pequena fenda, etc. Além disso, no lado de renderização no dispositivo de exibição, uma faixa em HDR tem início onde se começa a ver novos conceitos de aparência. Por exemplo, em dispositivos de exibição brilhantes, como um dispositivo de exibição SIM2 de 5.000 nits, pode-se, com as imagens de entrada corretas (corretamente classificadas), renderizar realisticamente a impressão de lâmpadas acesas reais, ou paisagens ensolaradas reais. Distintamente da faixa de LDR, acima, pode-se tipicamente dizer que a HDR tem início, para condições normais de visualização de televisor em sala de estar, a partir de um pico_de_branco de cerca de 1.000 nits e acima, porém mais precisamente isso depende, também, das exatas condições de visualização (por exemplo, a renderização para cinema, embora com um pico_de_branco de 50 nits, já mostra várias aparências de HDR). Para ser ainda mais preciso em vista da adaptação dos olhos e do cérebro, a aparência similar a HDR em detalhes numéricos dependeria um pouco, também, não só das luminâncias físicas, como também do conteúdo de imagem, isto é, a classificação escolhida. Porém, em qualquer caso, há uma clara discriminação entre renderização em LDR, que mostra principalmente uma versão opaca e sem luz da cena, como se a mesma estivesse iluminada quase homogeneamente e mostrando apenas as reflectâncias dos objetos, e em HDR, em que é sobreposta uma aparência de campo de iluminação completo. Se é possível, então, renderizar pretos razoáveis, por exemplo com 1 nit ou abaixo, pode-se de fato chegar acima de uma faixa de contraste em LDR de kx100:1, onde k é tipicamente 2-3 (o que, sob um paradigma específico de quase semelhante, isto é, com apenas talvez um pequeno estiramento de contraste, a renderização relativa das luminâncias exibidas em comparação às luminâncias de cena corresponderiam a uma DR similar na cena). No limite superior dos brilhos, é parcialmente uma questão de gosto onde o brilho deve terminar, particularmente onde o brilho adicional se torna apenas incômodo. Descobriu-se que, para classificar vários tipos de cena em HDR, 5.000 nits ainda estão um tanto no limite inferior, particularmente quando é preciso lidar com limitações adicionais do dispositivo de exibição, como resolução da iluminação de fundo. Em experimentos, descobriu-se que se pode definitivamente ir até 10.000 nits em visualização no escuro, sem que o brilho se torne supérfluo ou irritante (pelo menos para alguns observadores). Usar um pico_de_branco acima de 20.000 nits pode ser uma consideração prática de design técnico quanto ao que renderizar com realismo, em termos de luminância, e o que aproximar, obtendo pelo menos uma aparência de brilho. Observe-se que não se deve, tipicamente, conduzir um dispositivo de exibição tão brilhante sempre no brilho máximo, ao invés disso, para criar uma ótima experiência em HDR, deve-se usar a renderização mais brilhante somente em certos locais e momentos, de modo conservador, e também bem escolhido em termos de sua evolução temporal. Não se deve focalizar apenas na DR intraimagem, mas também em como os diferentes ambientes de brilho devem ser renderizados em sucessão, levando em conta a adaptação visual humana.[008] That's where HDR comes in. Furthermore, when this type of scene is captured, a very complex mathematical mapping is required to approximate the same (or even to be able to render the same) on an LDR display device (this, in fact, is often not really possible). For example, some HDR to LDR mapping algorithms use local adaptation to more or less equalize the lighting field, leaving in the LDR rendering mainly an impression of the reflections of the object, that is, the colors. In view of the light leakage (multiple reflections, scattering, etc.) For example, an indoor scene can have (of course, depending on the depth of the space, the size and position of the windows, the reflectivity of the walls, etc.) a fraction or multiple of about 1/100 of the (i)luminance of the outdoor environment (which is also how you define the daylight factor for lighting buildings). Higher SDRs can be obtained by viewing a sunny outdoor environment from inside a cave through a small slit, etc. Also, on the rendering side on the display device, an HDR streak starts where you start to see new concepts of appearance. For example, on bright display devices such as a 5000 nit SIM2 display device, one can, with the right input images (correctly classified), realistically render the impression of real light bulbs lit, or real sunny landscapes. Unlike the LDR range above, HDR can typically be said to start, for normal living room TV viewing conditions, from a white_peak of around 1,000 nits and above, but more precisely this depends, too, on the exact viewing conditions (e.g. cinema rendering, although with a white_peak of 50 nits, already shows various appearances of HDR). To be even more precise in view of the adaptation of the eyes and the brain, the HDR-like appearance in numerical details would also somewhat depend not only on the physical luminances, but also on the image content, i.e. the chosen classification. However, in any case, there is a clear discrimination between rendering in LDR, which mainly shows an opaque and lightless version of the scene, as if it were lit almost homogeneously and showing only the reflectances of objects, and in HDR, in which an appearance of a full field of illumination is superimposed. If it is possible, then, to render reasonable blacks, for example at 1 nit or below, one can indeed get above an LDR contrast range of kx100:1, where k is typically 2-3 (which, under a specific near-similar paradigm, i.e., with only perhaps a small contrast stretch, the relative rendering of the displayed luminances compared to the scene luminances would correspond to a similar DR in the scene). At the upper end of the glosses, it's partly a matter of taste where the gloss should end, particularly where the added shine just becomes bothersome. It turned out that for classifying various scene types in HDR, 5,000 nits is still somewhat on the lower end, particularly when additional display device limitations such as backlight resolution have to be dealt with. In experiments, it was found that one can definitely go up to 10,000 nits in dark viewing without the glare becoming superfluous or annoying (at least for some viewers). Using a white_peak above 20,000 nits can be a practical technical design consideration as to what to realistically render in terms of luminance, and what to approximate, achieving at least an appearance of brightness. Note that one should not typically drive such a bright display device always at maximum brightness, instead, to create a great HDR experience, one should use the brightest rendering only at certain locations and times, conservatively, and also well chosen in terms of its temporal evolution. One should not only focus on intraimage DR, but also on how the different brightness environments should be rendered in succession, taking human visual adaptation into account.

[009] Uma outra faixa dinâmica é a faixa dinâmica da câmera CDR, a qual é determinada (dadas as configurações de exposição) somente pela carga de saturação do fotodiodo do pixel, e pelo ruído no lado escuro. Ao usar truques como múltipla exposição ou matrizes de pixels passíveis de exposição diferente (por exemplo, em câmeras com 3 circuitos integrados), a CDR se torna limitada pelos elementos ópticos (por exemplo, espalhamento pela lente, reflexo sobre a lente ou o corpo da câmera, etc.), mas isso também pode ser aprimorado por técnicas computacionais de imageamento adequadas, que tentam separar a iluminação real das regiões de cena escura de irradiação errônea proveniente de luz difusa. É claro que, quando a fonte da imagem é uma rotina de computação gráfica (por exemplo em efeitos especiais ou em uma aplicação de jogo) pode-se facilmente criar HDR muito além daquelas limitações. Deve-se ignorar a CDR, e apenas presumir que é muito alta ou talvez um fator limitante, porém em um sistema que se destina a lidar com situações de originais de qualidade muito alta. Em particular, quando for introduzido um corte, será presumido que não se deve à captura por uma câmera de baixa qualidade, mas a um manuseio prático de algumas outras limitações na totalidade da cadeia de captura de imagens, como a incapacidade de um dispositivo de exibição para renderizar cores muito vivas.[009] Another dynamic range is the dynamic range of the CDR camera, which is determined (given the exposure settings) only by the saturation charge of the pixel photodiode, and by the noise on the dark side. When using tricks like multiple exposure or arrays of pixels amenable to different exposure (for example, in cameras with 3 integrated circuits), the CDR becomes limited by the optical elements (for example, scattering by the lens, reflection on the lens or camera body, etc.), but this can also be improved by adequate computational imaging techniques, which try to separate the real illumination from the dark scene regions of erroneous irradiation from diffused light. Of course, when the image source is a computer graphics routine (for example in special effects or in a game application) one can easily create HDR far beyond those limitations. One should ignore the CDR, and just assume it is too high or perhaps a limiting factor, but in a system that is intended to handle very high quality originals situations. In particular, where clipping is introduced, it will be assumed that it is not due to capture by a poor quality camera, but a practical handling of some other limitations in the entire image capture chain, such as the inability of a display device to render very vivid colors.

[010] Agora, separadamente da RDR do ambiente de dispositivo de exibição, que realmente gera a correta distribuição de fótons de modo a estimular o observador para que tenha a sensação correta (essa também dependente do estado de adaptação daquele observador), quando se fala sobre manuseio ou codificação da HDR, há um outro aspecto interessante, o qual pode também ser resumido em uma faixa dinâmica, a qual será denominada faixa dinâmica de codificação, CODR. Alguns experimentos mentais devem esclarecer esse importante conceito. Suponha-se que se desenhe em um painel branco retroiluminado brilhante com um marcador preto altamente absorvente, de modo que se tenha uma transmissão de 1/16.000 do branco do circundante do painel (e presumindo-se que o espaço circundante e o observador sejam objetos perfeitamente absorventes). No mundo dos bits lineares (o que significa que todos os valores são linearmente representados entre, diga-se, 0 e 2^B, onde A é a operação de potência e B é o número de bits), por exemplo da câmera capturando (seu ADC) seriam necessários, portanto, 14 bits para representar esse sinal. Entretanto, como esse codec desperdiçaria uma grande quantidade de códigos para valores que, de qualquer modo, não ocorrem, pode-se dizer que para representar fielmente aquele sinal específico, teoricamente se necessita apenas da codificação de 1 bit. Seria atribuído ao preto o código 0, e ao branco um 1 e, então, seriam convertidos a qualquer luminância real à qual os mesmos correspondem. Observe-se também que um dispositivo de exibição não precisa, de fato, renderizar aqueles valores com exatamente as mesmas luminâncias presentes na cena. De fato, como esse sinal pode não parecer melhor (psicologicamente e semanticamente) que uma equivalente de DR mais baixa do mesmo (realmente, esse tipo de desenho em preto e branco de alto contraste pode mesmo parecer estranho), pode-se igualmente renderizá-lo em um dispositivo de exibição com valores de 1 nit e 2.000 nits. Observa-se aqui, pela primeira vez, uma interessante distinção que é importante quando se fala sobre codificação em HDR: a diferença entre faixa dinâmica fisiológica e psicológica (ou semântica). A visão humana consiste em duas partes, os olhos e o cérebro. Os olhos podem precisar, como um precursor, da faixa dinâmica fisiológica, PDR, adequada para estimular adequadamente os cones e/ou os bastonetes (e, assim, células ganglionares etc.), mas é por fim o cérebro que determina a aparência final da imagem ou cena (faixa dinâmica psicológica, PSDR). Embora isso não dê completamente a exata impressão de uma região muito luminosa, pintores como Petrus Van Schendel podem jogar com os princípios psicológicos da PSDR para emular, em um meio LDR, cenas de alta faixa dinâmica, por exemplo um incêndio em uma paisagem urbana noturna escura. É isso, também, o que algoritmos de mapeamento de gama complexos tentam fazer ao precondicionar uma imagem em HDR para renderização em um dispositivo de exibição LDR. O outro lado deste princípio, porém, é que algumas cenas parecerão mais similares a HDR que outras, mesmo em um dispositivo de exibição HDR (por exemplo, uma paisagem de inverno ensolarada com arbustos secos pálidos e algumas árvores ao fundo pode aparentar alto brilho, mas não HDR). Para ações em HDR, por exemplo apontar uma lâmpada brilhante na direção do observador, emulações psicológicas são geralmente não tão convincentes quanto a renderização realmente brilhante das regiões.[010] Now, separately from the RDR of the display device environment, which actually generates the correct distribution of photons in order to stimulate the observer to have the correct sensation (this also depends on the adaptation state of that observer), when talking about handling or encoding of HDR, there is another interesting aspect, which can also be summarized in a dynamic range, which will be called dynamic range of encoding, CODR. A few thought experiments should clarify this important concept. Suppose you draw on a bright white backlit panel with a highly absorbent black marker, so that you have a transmission of 1/16,000 the white of the panel's surroundings (and assuming the surrounding space and the viewer are perfectly absorbing objects). In the world of linear bits (meaning that all values are linearly represented between, say, 0 and 2^B, where A is the power operation and B is the number of bits), for example the camera capturing (its ADC) would therefore need 14 bits to represent this signal. However, as this codec would waste a large amount of codes for values that, in any case, do not occur, it can be said that to faithfully represent that specific signal, theoretically, only 1 bit encoding is needed. Black would be assigned a code 0, and white a 1, and would then be converted to whatever real luminance they correspond to. Note also that a display device need not actually render those values with exactly the same luminances as are present in the scene. In fact, as this signal might not look any better (psychologically and semantically) than a lower DR equivalent of it (indeed, this kind of high-contrast black-and-white drawing might even look weird), one might as well render it on a display device with values of 1 nit and 2000 nits. We observe here for the first time an interesting distinction that is important when talking about HDR coding: the difference between physiological and psychological (or semantic) dynamic range. Human vision consists of two parts, the eyes and the brain. The eyes may need, as a precursor, adequate physiological dynamic range, PDR, to properly stimulate the cones and/or rods (and thus ganglion cells, etc.), but it is ultimately the brain that determines the final appearance of the image or scene (psychological dynamic range, PSDR). Although this does not quite give the exact impression of a very bright region, painters such as Petrus Van Schendel can play with the psychological principles of PSDR to emulate, in an LDR medium, high dynamic range scenes, for example a fire in a dark night cityscape. This, too, is what complex gamma mapping algorithms attempt to do when preconditioning an HDR image for rendering on an LDR display device. The flip side of this principle, however, is that some scenes will look more HDR-like than others, even on an HDR display device (for example, a sunny winter landscape with pale dry bushes and a few trees in the background may appear high-bright but not HDR). For HDR actions, for example pointing a bright light bulb towards the viewer, psychological emulations are generally not as convincing as really bright rendering of regions.

[011] Considere-se agora, ao longo das mesmas linhas, um segundo exemplo: tem-se uma cena em ambiente interno com luminâncias de, diga-se, entre 200 nits e 5 nits, e uma cena em ambiente externo com luminâncias de, diga-se, entre 1.500 e 20.000 nits. Isto significa que, novamente, têm- se dois histogramas de luminância separados por códigos inexistentes. Pode-se codificá-los nativamente em uma faixa de, diga-se, 16 bits lineares (em que o código máximo corresponde, por exemplo a 32.768 nits), embora fosse preferencial usar alguma não linearidade para se ter exatidão suficiente nos pretos, se não houver demasiado ruído de captura. Mas também se poderia codificar isto de um modo diferente. Por exemplo, seria possível sacrificar 1 bit de precisão, e dividir uma faixa de luminância JPEG não linear de 8 bits em duas partes adjacentes em contato, sendo a inferior para a parte mais escura da cena acima, e a superior para a parte mais clara (pode-se não querer cortar exatamente no meio, tendo em vista a alocação de JND não linear). Se houver preocupação quanto à perda de detalhes precisos quando se tem menos bits, pode-se considerar que pode ser frequentemente melhor usar, em vez disso, os bits disponíveis para efeitos em HDR. Esse tipo de alocação corresponderia, tipicamente, a um deslocamento e estiramento (não linear) dos valores de luminância (L) da captura de entrada em formato RAW para os valores de luminância de 8 bits (Y). Agora, pode-se novamente perguntar qual é a faixa dinâmica desse tipo de cena, se a mesma pode ser “arbitrariamente” comprimida ou estirada (tornando ainda mais brilhante o ambiente externo brilhante, pelo menos até que isso se torne, por exemplo irreal), pelo menos em pós-processamento para renderização. Aqui, o conceito de diferentes aparências pode ajudar. Tem-se, em ambos os sub- histogramas, um certo número de diferentes valores de luminância para diferentes pixels ou regiões que, supostamente, são todos ou quase todos relevantes (se não, não é necessário codificá-los, e pode-se por exemplo, eliminar um ou mais bits de precisão). Além disso, a separação (por exemplo, medida como uma diferença na luminância média) dos dois histogramas quando, por fim, renderizada em um dispositivo de exibição, tem algum significado de aparência. É fato conhecido que a visão humana desconta a iluminação até um certo ponto, porém não totalmente (especialmente se há duas regiões de brilho), então é necessário renderizar/gerar essas entradas para os olhos, pelo menos até um certo ponto. Portanto, trabalhar com aparências diferentes e significativas de cor (ou pelo menos de brilho ou luminosidade) de pixels ou objetos em uma cena renderizável (por exemplo, quando renderizada no melhor cenário possível de dispositivo de exibição) oferece um entendimento sobre a faixa dinâmica de codificação, CODR, e como é necessário, consequentemente, codificar as imagens em HDR. Se a imagem tiver diferentes aparências, está em HDR, e estas precisam estar de algum modo presentes em qualquer codificação razoavelmente fiel.[011] Consider now, along the same lines, a second example: there is an indoor scene with luminances of, say, between 200 nits and 5 nits, and an outdoor scene with luminances of, say, between 1,500 and 20,000 nits. This means that, again, we have two luminance histograms separated by non-existent codes. One could encode them natively in a range of, say, 16 linear bits (where the maximum code corresponds to, say, 32,768 nits), although it would be preferable to use some non-linearity to get enough accuracy in the blacks if there isn't too much capture noise. But one could also code this in a different way. For example, it would be possible to sacrifice 1 bit of precision, and divide an 8-bit non-linear JPEG luminance strip into two adjacent touching parts, the bottom one for the darkest part of the scene above, and the top one for the brightest part (one might not want to cut exactly in the middle, in view of the non-linear JND allocation). If there is concern about losing fine detail when having fewer bits, it may be considered that it may often be better to use available bits for HDR effects instead. This type of allocation would typically correspond to a shift and stretch (non-linear) of the luminance values (L) of the input capture in RAW format to the 8-bit luminance values (Y). Now, one might again ask what is the dynamic range of this type of scene, whether it can be “arbitrarily” compressed or stretched (making the bright external environment even brighter, at least until it becomes, for example, unrealistic), at least in post-processing for rendering. Here, the concept of different appearances can help. One has, in both sub-histograms, a certain number of different luminance values for different pixels or regions that, supposedly, are all or almost all relevant (if not, it is not necessary to encode them, and one can, for example, eliminate one or more bits of precision). Also, the separation (eg measured as a difference in average luminance) of the two histograms when ultimately rendered on a display device has some appearance significance. It is a known fact that human vision discounts lighting to some extent, but not fully (especially if there are two brightness regions), so it is necessary to render/generate these inputs to the eyes, at least to some extent. Therefore, working with different and meaningful appearances of color (or at least brightness or luminosity) of pixels or objects in a renderable scene (for example, when rendered in the best possible display device scenario) provides an understanding of the dynamic range of encoding, CODR, and how it is necessary, consequently, to encode the images in HDR. If the image has different appearances, it's in HDR, and these need to be somehow present in any reasonably faithful encoding.

[012] Como as tecnologias clássicas de codificação de imagem ou vídeo (por exemplo, PAL, JPEG, etc.) estavam primariamente dedicadas a renderizar principalmente a luminosidade do objeto (reflexo) em uma faixa de 100:1 sob condições de visualização originalmente relativamente fixas (um TRC em um ambiente doméstico, e não um OLED no trem, ou o mesmo consumidor tendo em seu sótão uma sala de cinema escura dedicada, com iluminação controlável de modo instantâneo e dinâmico, a qual pode se ajustar ao conteúdo de vídeo), aqueles sistemas codificavam o vídeo de modo bastante fixo, particularmente com uma gama de codificação principal universal fixa, a qual imita a sensibilidade a brilho dos olhos, por exemplo V_709=1,099LA0,45-0,099, que é aproximadamente uma função de raiz quadrada. Entretanto, esses sistemas não estão bem adaptados para lidar com uma ampla faixa de CODRs. Nos últimos anos, ocorreram tentativas de codificar HDR, seja de um modo nativo de codificar linearmente com referência à cena todas as possíveis luminâncias de entrada, como no sistema OpenEXR (F. Kainz e R. Bogart: http://www.openexr.com/TechnicalIntroduction.pdf). Ou, há sistemas em 2 camadas com base na filosofia clássica da escalabilidade. Estas precisam de pelo menos duas imagens: uma imagem de base que será tipicamente uma imagem em LDR que pode ser usada por sistemas legados, e uma imagem para reconstruir as uma ou mais imagens em HDR principais. Um exemplo desse tipo é US2012/0314944, que precisa da imagem LDR, um reforço logarítmico ou imagem de razão (obtida mediante a divisão das luminâncias em HDR pelas luminâncias em LDR obtidas após classificar adequadamente uma imagem em LDR para sistemas de renderização em LDR), e um imagem de correção de cortes de cor por imagem em HDR a ser codificada. Com uma imagem de reforço pode-se reforçar todas as regiões (dependendo da subamostragem) a partir de sua faixa limitada, seja qual for a posição de luminância que devam ocupar na faixa HDR. Observe-se que, por uma questão de simplicidade, todas essas operações são descritas em uma visualização de luminância, já que o versado na técnica pode imaginar como estas precisam ser formuladas em uma visualização de luminância de uma definição de codificação específica. Essas multi-imagens são, pelo menos nos anos vindouros, pouco práticas pois precisam de ICs de (de)codificação com sérias atualizações em aparelhos existentes, já que é necessário o manuseio de imagens adicionais, em adição à imagem em LDR.[012] Since classical image or video coding technologies (e.g. PAL, JPEG, etc.) were primarily dedicated to rendering primarily object luminosity (reflection) in a 100:1 range under originally relatively fixed viewing conditions (a CRT in a domestic environment, not an OLED on the train, or the same consumer having a dedicated dark movie theater in his attic, with instantaneously and dynamically controllable lighting which can adjust to the video content), those systems encoded the video quite fixed, particularly with a fixed universal main coding range which mimics the brightness sensitivity of the eyes, for example V_709=1.099LA0.45-0.099, which is approximately a square root function. However, these systems are not well adapted to handle a wide range of CODRs. In recent years, there have been attempts to encode HDR, either in a native way of encoding linearly with reference to the scene all possible input luminances, as in the OpenEXR system (F. Kainz and R. Bogart: http://www.openexr.com/TechnicalIntroduction.pdf). Or, there are 2-tier systems based on the classic philosophy of scalability. These need at least two images: a base image which will typically be an LDR image that can be used by legacy systems, and an image to reconstruct the one or more main HDR images. One such example is US2012/0314944, which needs the LDR image, a logarithmic boost or ratio image (obtained by dividing the HDR luminances by the LDR luminances obtained after properly classifying an LDR image for LDR rendering systems), and a color clipping correction image per HDR image to be encoded. With a boost image you can boost all regions (depending on the subsampling) from its limited range, whatever the luminance position they should occupy in the HDR range. Note that, for the sake of simplicity, all these operations are described in a luminance view, as one skilled in the art can imagine how these need to be formulated in a luminance view of a particular encoding definition. These multi-pictures are, at least in the coming years, impractical as they need (de)coding ICs with serious upgrades in existing devices, as additional image handling is required in addition to the LDR image.

[013] Recentemente, e conforme descrito em WO2013/046095, foi desenvolvido um modo de otimizar a codificação de vídeo clássica (de preferência com modificações menores, de preferência com principalmente metadados para aplicar transformações relacionadas a duas classificações da mesma cena para duas condições de renderização muito diferentes, por exemplo permitir transformar um classificação LDR codificada em uma classificação HDR, ou vice-versa, e talvez com algumas variantes tendo espaço para armazenar nos metadados algumas imagens pequenas adicionais para fazer um ajuste final, se for desejado esse tipo de modificação adicional, por exemplo uma correção aditiva ou multiplicativa em pequenas regiões que contêm um objeto, por exemplo uma face iluminada com muito brilho em uma tomada ou cena do filme, em que os fatores corretivos por pixels podem, então, ser codificados por exemplo, em 200 imagens com 120x60 pixels a serem mapeadas sobre as posições de pixel da atual reconstrução em HDR por meio de transformação de cores, ou mesmo alguma representação subamostrada daquelas pequenas imagens corretivas, a ser aplicada como mapeamentos grossos de sintonia fina, descritos como imagens) para ser capaz de codificar imagens com alta faixa dinâmica. Neste sistema, tipicamente um classificador humano pode determinar uma função de mapeamento ótima a partir da imagem de entrada em HDR (classificação de HDR principal) para, por exemplo codificação em LDR 8 ou 10 (ou 12 ou, em princípio, um outro valor pelo menos para os códigos de luminância, mas sendo este valor tipicamente o que é reservado para codificação de imagem “clássica” em LDR) bits, o que pode ser codificado por meio de compressão de vídeo clássica (DCT etc.), a função de mapeamento ótima (por exemplo, uma função gama ou similar com coeficiente de gama ótimo, parte linear etc., ou uma função multissegmentos, por exemplo uma curva S etc.) tipicamente dependendo de qual era o conteúdo na HDR principal (por exemplo, um plano de fundo escuro, com uma região muito brilhantemente iluminada), e como este será renderizado em condições de LDR. Isso é denominado codificação simultânea de uma classificação LDR e HDR por mapeamento da classificação HDR em uma imagem em LDR passível de uso em sistemas legados, e codificação de HDR em recipiente LDR. Tinha-se a intenção de assegurar que esta tecnologia fosse compatível com sistemas anteriores, de modo que a imagem em LDR assim gerada ofereça resultados razoáveis quando renderizada por exemplo, em um sistema legado em LDR (isto é, a imagem tem uma aparência razoavelmente boa, se não perfeita, tipicamente de modo que não muitas pessoas venham a considerar as cores de alguns objetos completamente erradas). Se for aceito algo como uma diminuição da precisão, o presente sistema pode até mesmo codificar cenas ou efeitos em HDR em sistemas legados de 8 bits. Por resultados razoáveis, quer-se dizer que as imagens renderizadas em LDR, embora talvez não sejam o melhor que se poderia teoricamente obter, em termos de aparência artística, serão aceitáveis para um criador de conteúdo e/ou observador, dependendo é claro da aplicação (por exemplo, para um serviço mais barato baseado em internet ou telefonia móvel, as restrições de qualidade podem ter importância menos crítica). Pelo menos a classificação LDR oferecerá boa visibilidade de todos ou quase todos os objetos (pelo menos os objetos de principal importância para a história da imagem ou do vídeo) na cena imageada, quando renderizada em um sistema LDR com propriedades que não se desviam muito da renderização em LDR padronizada. Por outro lado, para dispositivos de exibição em HDR, a HDR principal original pode ser aproximada em uma aproximação mediante o mapeamento com o reverso invertível da função de mapeamento cocodificada a partir da imagem em LDR para a imagem em HDR reconstruída. Pode-se definir essa aproximação com tolerância matemática, por exemplo em termos de diferenças apenas perceptíveis (JND - just noticeable differences) entre a HDR principal original fornecida e sua reconstrução. Tipicamente, qualquer sistema como esse será projetado mediante a realização de testes para um certo número de cenas, ações e situações adicionais em HDR típicas, para saber quão diferente parece a HDR reconstruída (se isso ainda será aceitável para certas classes de usuários, por exemplo criadores de conteúdo para televisão ou filmes) e validar uma classe de operações como mapeamentos de gama específicos dentro de certas faixas de parâmetro a partir da mesma. Isso garante que será sempre possível obter uma certa qualidade da aproximação.[013] Recently, and as described in WO2013/046095, a way has been developed to optimize classical video encoding (preferably with minor modifications, preferably with mainly metadata to apply transformations related to two ratings of the same scene for two very different rendering conditions, for example allowing to transform an LDR encoded rating into an HDR rating, or vice versa, and perhaps with some variants having space to store in the metadata some additional small images to make a final adjustment, if this type of additional modification is desired, for example an additive or multiplicative correction on small regions containing an object, for example a brightly lit face in a shot or scene of the film, where the per-pixel corrective factors can then be encoded into e.g. 200 120x60 pixel images to be mapped onto the pixel positions of the current HDR reconstruction via color transform, or even some sub-sampled representation of those small corrective images, to be applied as fine-tuned coarse mappings, described as images) to be capable of encoding images with high dynamic range. In this system, typically a human classifier can determine an optimal mapping function from the input HDR image (main HDR classification) to e.g. LDR encoding 8 or 10 (or 12 or in principle another value at least for the luminance codes, but this value being typically what is reserved for “classic” LDR image encoding) bits, which can be encoded by means of classical video compression (DCT etc.), the optimal mapping function (e.g. a gamma function or similar with optimal gamma coefficient, linear part etc., or a multisegment function, e.g. an S-curve, etc.) typically depending on what the content was in the main HDR (e.g. a dark background, with a very brightly lit region), and how it will be rendered under LDR conditions. This is called simultaneous encoding of an LDR and HDR classification by mapping the HDR classification into an LDR image usable in legacy systems, and encoding the HDR into an LDR container. It was intended to ensure that this technology was backwards compatible, so that the LDR image so generated would provide reasonable results when rendered on, for example, a legacy LDR system (i.e., the image looks reasonably good, if not perfect, typically so that not many people will find the colors of some objects completely wrong). If something like a decrease in accuracy is accepted, the present system can even encode scenes or effects in HDR on legacy 8-bit systems. By reasonable results, it is meant that images rendered in LDR, while perhaps not the best that could theoretically be achieved in terms of artistic appearance, will be acceptable to a content creator and/or viewer, depending of course on the application (e.g. for a cheaper internet-based or mobile phone service, quality restrictions may be of less critical importance). At least the LDR classification will provide good visibility of all or most objects (at least those objects of primary importance to the image or video story) in the imaged scene, when rendered in an LDR system with properties that do not deviate too much from standardized LDR rendering. On the other hand, for HDR display devices, the original main HDR can be approximated in an approximation by mapping with the invertible reverse of the cocoded mapping function from the LDR image to the reconstructed HDR image. This approximation can be defined with mathematical tolerance, for example in terms of just noticeable differences (JND) between the supplied original main HDR and its reconstruction. Typically, any such system will be designed by running tests for a number of additional scenes, actions and situations in typical HDR, to see how different the reconstructed HDR looks (whether this will still be acceptable for certain classes of users, for example content creators for television or film) and validating a class of operations as specific gamma mappings within certain parameter ranges from it. This guarantees that it will always be possible to obtain a certain quality of approximation.

[014] É um objetivo das tecnologias apresentadas abaixo oferecer ao classificador uma versatilidade ainda maior na definição de pelo menos duas classificações, LDR e HDR.[014] It is an objective of the technologies presented below to offer the classifier even greater versatility in defining at least two classifications, LDR and HDR.

SUMMARY OF THE INVENTION

[015] O objetivo acima é alcançado ao se ter um codificador de imagem (202) que compreende: - uma entrada (240) para uma imagem de entrada com alta faixa dinâmica (M_HDR); - uma unidade de classificação de imagem (201) disposta de modo a permitir que um classificador de cores humano especifique um mapeamento de cores a partir de uma representação (HDR_REP) da imagem de entrada com alta faixa dinâmica, definida de acordo com uma exatidão predefinida, para uma imagem com baixa faixa dinâmica (Im_LDR), por meio de um algoritmo de mapeamento de cores determinado por um ser humano, e disposta de modo a produzir dados que especificam o mapeamento de cores (Fi(MP_DH); e - uma unidade de classificação automática (203), disposta de modo a derivar uma segunda imagem com baixa faixa dinâmica (GT_IDR), mediante a aplicação de um algoritmo de mapeamento de cores automático a uma dentre a imagem de entrada com alta faixa dinâmica (M_HDR) ou a imagem com baixa faixa dinâmica (Im_LDR).[015] The above objective is achieved by having an image encoder (202) comprising: - an input (240) for an input image with high dynamic range (M_HDR); - an image classification unit (201) arranged to allow a human color classifier to specify a color mapping from a representation (HDR_REP) of the input image with high dynamic range, defined according to a predefined accuracy, to an image with low dynamic range (Im_LDR), by means of a color mapping algorithm determined by a human being, and arranged to produce data specifying the color mapping (Fi(MP_DH); and - an automatic classification unit (203), arranged in order to derive a second image with low dynamic range (GT_IDR) by applying an automatic color mapping algorithm to one of the input image with high dynamic range (M_HDR) or image with low dynamic range (Im_LDR).

[016] A classificação GT_IDR é tipicamente feita a partir ou da imagem com alta faixa dinâmica (tipicamente a classificação principal) ou da classificação LDR, mas é claro que pode também ser vantajoso levar em conta com a mesma as características da imagem, particularmente a aparência de brilho ou luminosidade de vários objetos, da outra classificação (isto é, qual deve ser a aparência da classificação LDR se GT_IDR for mapeada a partir de M_HDR, de modo que GT_IDR possa representar algum tipo de equilíbrio, mas é claro que pode ser formado por todos os tipos de outras condições/fatores colaterais, também). Presume-se que a imagem em HDR principal seja codificada em qualquer formato que permita esse tipo de codificação (por exemplo, isso pode ser OpenEXR, ou um sistema conforme explicado na Figura 7 deste documento, em geral qualquer coisa preferencial, por exemplo para o fabricante do software de classificação). Ou seja, a codificação em M_HDR pode ser de um tipo linear, com referência à cena, ou já ter alguma função de alocação de código interessante aplicada à mesma, mas para as presentes explicações pode-se presumir com segurança que seja uma codificação de luminância linear. Tipicamente, essa imagem em HDR principal não virá direto da câmera (já que as câmeras são apenas ferramentas automáticas de captura, com características, por exemplo filtros de cor não similares ao olho humano, porém, o que é mais importante, seus circuitos não são como o cérebro humano, o que provém das mesmas por mera gravação pode ser bom, mas não necessariamente ótimo), porém um classificação artística ótima (que, por exemplo escurece o ambiente de fundo de um porão para criar um estado de humor ótimo para aquela cena), porém, a classificação por um ser humano poderia ser um simples mapeamento funcional da imagem de uma câmera em algum lugar (sendo esta, então, a entrada em HDR principal), por exemplo apenas para obter uma primeira visualização em um certo renderizador, depois do que uma imagem em HDR de alta qualidade é codificada (por meio de uma imagem em LDR e parâmetros de mapeamento). Uma unidade de classificação de imagem consiste, tipicamente, em software sendo executado em um computador, que permite o mapeamento de cores a partir de cores iniciais de pixels para cores finais de pixels, por exemplo mediante a alteração de um correlato de luminância daqueles pixels de um valor inicial para um valor final, por exemplo mediante a aplicação de uma função de mapeamento de tons (por exemplo, uma curva S) naquele correlato de luminância ou, por exemplo curvas de definição de cores (como R,G,B), simultaneamente. O versado na técnica precisa entender por que foi usado o termo correlato de luminância para representar qualquer codificação matemática que se correlacione a uma luminância de um pixel (quando capturado em uma cena, ou renderizado em uma renderização da mesma) já que, dada a complexidade das tecnologias de cores, existem algumas variantes similares das mesmas, como luminâncias, valores (V), definições funcionais para correlatos denominadas luminosidade, etc. De fato, um componente linear ou não linear da cor, como uma quantidade de vermelho, pode também ser usado como um correlato de luminância. Portanto, o correlato de luminância deve ser entendido como qualquer função de mapeamento monotônico entre o eixo de luminância (luminância conforme definida pelo CIE) e um outro eixo, de modo que qualquer valor naquele outro eixo possa ser imediatamente convertido em um valor de luminância, e vice- versa. Embora as formulações para vários correlatos variem quanto a seus detalhes precisos, o princípio permanece o mesmo. No entanto, introduziu-se o termo também para indicar que, embora os princípios das presentes modalidades possam ser definidos em mapeamentos de luminância, os mesmos podem de fato ser fisicamente construídos mediante a aplicação de operações matemáticas a outros correlatos de luminância ou, em geral, a qualquer codificação de cores. O classificador de cores humano pode, por exemplo ser dirigido parcialmente pelo diretor de um filme para produzir uma certa aparência visual para o filme capturado.[016] The GT_IDR rating is typically made from either the high dynamic range image (typically the main rating) or the LDR rating, but of course it can also be advantageous to take into account with the same image characteristics, particularly the appearance of brightness or luminosity of various objects, from the other rating (i.e., what the LDR rating should look like if GT_IDR is mapped from M_HDR, so that GT_IDR may represent some kind of balance, but of course it can be formed by all kinds of other conditions/side factors, too). It is assumed that the main HDR image is encoded in whatever format allows this type of encoding (for example this could be OpenEXR, or a system as explained in Figure 7 of this document, generally anything preferred, for example for the grading software manufacturer). That is, the encoding in M_HDR can be of a linear type, with reference to the scene, or already have some interesting code allocation function applied to it, but for the present explanations it can be safely assumed that it is a linear luminance encoding. Typically, this master HDR image will not come straight from the camera (since cameras are just automatic capture tools, with characteristics, for example color filters not similar to the human eye, but more importantly, their circuitry is not like the human brain, what comes out of them by mere recording can be good, but not necessarily great), but an optimal artistic classification (which, for example darkens the background environment of a basement to create an optimal mood state for that scene), however, the classification by a human being could be a simple one functional mapping of the image from a camera somewhere (this then being the main HDR input), for example just to get a first preview on a certain renderer, after which a high quality HDR image is encoded (by means of an LDR image and mapping parameters). An image classification unit typically consists of software running on a computer, which allows color mapping from initial pixel colors to final pixel colors, for example by changing a luminance correlate of those pixels from an initial value to a final value, for example by applying a tone mapping function (e.g. an S curve) to that luminance correlate or, for example color definition curves (such as R,G,B), simultaneously. One skilled in the art needs to understand why the term luminance correlate was used to represent any mathematical encoding that correlates to a luminance of a pixel (when captured in a scene, or rendered in a render of the same) since, given the complexity of color technologies, there are some similar variants of them, such as luminances, values (V), functional definitions for correlates called luminosity, etc. In fact, a linear or nonlinear component of color, such as an amount of red, can also be used as a correlate of luminance. Therefore, the luminance correlate should be understood as any monotonic mapping function between the luminance axis (luminance as defined by the CIE) and another axis, such that any value on that other axis can be immediately converted to a luminance value, and vice versa. Although the formulations for various correlates vary in their precise details, the principle remains the same. However, the term was also introduced to indicate that, although the principles of the present modalities can be defined in luminance mappings, they can in fact be physically constructed by applying mathematical operations to other luminance correlates or, in general, to any color coding. The human color sorter can for example be partially driven by a film director to produce a certain visual appearance for the captured film.

[017] O princípio da modalidade acima é que, ao contrário dos sistemas legados com uma função de mapeamento fixa relacionando uma classificação LDR e uma HDR (por exemplo, codificando qualquer imagem de entrada, quer esta tenha ou não uma faixa dinâmica aumentada, em uma codificação LDR), tem-se agora um sistema duplo. Isto criará também, tipicamente, dois conjuntos de parâmetros de mapeamento (por exemplo, funções de mapeamento de correlato de luminância ou, em geral dados que definem transformações matemáticas realizadas por software para transformar as cores de entrada nas cores de saída) em vez de somente uma função reversível para criar a imagem a ser renderizada (no caso de PCT/2012/054984, uma reconstrução em HDR a ser usada em um dispositivo de exibição HDR para acioná-lo, diretamente ou após processamento de cores adicional).[017] The principle of the above embodiment is that, unlike legacy systems with a fixed mapping function relating an LDR and an HDR classification (for example, encoding any input image, whether or not it has an increased dynamic range, into an LDR encoding), we now have a dual system. This will also typically create two sets of mapping parameters (e.g. luminance correlate mapping functions or in general data defining mathematical transformations performed by software to transform input colors into output colors) rather than just one reversible function to create the image to be rendered (in the case of PCT/2012/054984, an HDR reconstruction to be used on an HDR display device to drive it, either directly or after additional color processing).

[018] Nesse sistema duplo, há também duas classificações relacionáveis à HDR principal. Primeiramente, há uma classificação automática, que crua uma primeira imagem em LDR de boa qualidade, a qual se denomina segunda imagem com baixa faixa dinâmica, GT_IDR. Isso pode ser (parcialmente) influenciado pelo classificador de cores (por exemplo, mediante a seleção de uma função preferencial a partir de um conjunto de funções de mapeamento que normalmente renderiam bons resultados em todas as imagens de entrada) mas, tipicamente, é vantajoso que essa classificação automática fique nos bastidores no aparelho, fora da vista e da preocupação do classificador que pode, então, focalizar em seus desejos artísticos. O ponto desta classificação técnica consiste em criar uma imagem GT_IDR que, embora talvez não seja totalmente ótima de acordo com os desejos artísticos específicos do classificador, produza uma imagem em LDR com boa visualização quando renderizada em um sistema LDR (com boa visualização, novamente, significando não só que qualquer imagem será exibida, mas que o observador poderá acompanhar a maior parte do que estiver ocorrendo no filme, pois a visibilidade de todos os objetos é boa, ainda que, devido a alguma descoloração em comparação ao ótimo, o estado de humor da cena possa ficar um pouco alterado). Em grande parte, porém, isso define sua derivação matemática para que essa segunda imagem em LDR GT_IDR seja tecnicamente ótima, posto que é fácil reconstruir, a partir da mesma, uma reconstrução REC_HDR da HDR principal com ótima qualidade. Isto significa que a perda de informações em GT_IDR devida a, por exemplo quantização após o uso do mapeamento ótimo específico para esta, a partir de M_HDR, deveria ser mínima, de modo que haja uma quantidade mínima aceitável na HDR reconstruída para todas as imagens de entrada em HDR típicas possíveis.[018] In this dual system, there are also two ranks relating to the main HDR. First, there is an automatic classification, which generates a first image in good quality LDR, which is called a second image with low dynamic range, GT_IDR. This can be (partly) influenced by the color classifier (for example, by selecting a preferred function from a set of mapping functions that would normally yield good results on all input images) but typically it is advantageous to have this automatic classification behind the scenes on the instrument, out of sight and concern of the classifier who can then focus on his artistic desires. The point of this technical classification is to create a GT_IDR image that, although perhaps it is not totally great according to the classifier's specific artistic desires, produces an LDR image with good viewing when rendered in an LDR system (with good viewing, meaning not only that any image will be displayed, but the observer can follow most of what is occurring in the movie, because the visibility of all objects is good, even due to some discoloration Great feed, the scene's mood state can be a little altered). In large part, however, this defines its mathematical derivation so that this second image in LDR GT_IDR is technically optimal, since it is easy to reconstruct, from it, a REC_HDR reconstruction of the main HDR with great quality. This means that the loss of information in GT_IDR due to e.g. quantization after using the specific optimal mapping for it, from M_HDR, should be minimal, so that there is a minimum acceptable amount in the reconstructed HDR for all possible typical HDR input images.

[019] Então, por outro lado, há uma classificação artística do classificador humano. Ele pode derivar qualquer imagem que deseje, de acordo com suas preferências, para visualização em sistemas de renderização LDR. Por exemplo, pode-se ter uma ação ocorrendo em um porão escuro, em um filme de horror. O sistema de renderização em HDR pode ser capaz de renderizar o ambiente escuro como muito escuro, enquanto ainda retém a visibilidade da maioria dos objetos (por exemplo, equipamentos de tortura em prateleiras nas sombras, contra a parede, ou o interior de uma sala adjacente não iluminada, para além de uma porta aberta). E, ao mesmo tempo, este pode ser capaz de renderizar objetos muito brilhantes, como uma única lâmpada oscilando no teto daquela sala escura, ou uma tocha nas mãos de uma pessoa caminhando através da mesma. Entretanto, o sistema de renderização LDR pode ter capacidades menores para renderização do ambiente escuro, particularmente porque também precisa deixar espaço em sua limitada faixa de luminância para os objetos mais brilhantes, como a lâmpada e a face da pessoa caminhando sob a mesma, e o classificador pode querer emular o brilho mediante o aumento do contraste com as luminâncias dos objetos circundantes, isto é, o plano de fundo escuro. O classificador pode, por exemplo decidir artisticamente tornar esse plano de fundo totalmente preto para a classificação LDR, Im_HDR. Deve ficar claro que essa imagem com baixa faixa dinâmica, Im_HDR, pode então não ser usada para reconstruir uma REC_HDR com informações suficientes no plano de fundo para ter todos os objetos ali visíveis. Como uma generalização disto, pode-se notar que a unidade de classificação automática precisa certificar-se de que não ocorra qualquer perda de informações relevantes, de modo que uma reconstrução em HDR ainda possa ser derivada com boa exatidão de aproximação a partir da imagem em LDR codificada, GT_IDR. Observe-se que a GT_IDR dessa imagem em LDR não precisa, por si só, ser definido com as mesmas restrições de ambiente (por exemplo, pico_de_branco de 100 nits do dispositivo de exibição pretendido), mas pode também ser, por exemplo para um dispositivo de exibição de referência de 200 nits.[019] Then, on the other hand, there is an artistic classification of the human classifier. He can derive any image he wants, according to his preferences, for viewing in LDR rendering systems. For example, you might have an action take place in a dark basement in a horror movie. The HDR rendering system may be able to render the dark environment as very dark, while still retaining the visibility of most objects (e.g., torture equipment on shelves in shadows, against a wall, or the interior of an adjacent unlit room beyond an open doorway). And at the same time, this might be able to render very bright objects, like a single light bulb flickering on the ceiling of that dark room, or a torch in the hands of a person walking through it. However, the LDR rendering system may have lesser capabilities for rendering the dark environment, particularly as it also needs to leave room in its limited luminance range for the brightest objects, such as the lamp and the face of the person walking under it, and the classifier may want to emulate the brightness by increasing the contrast with the luminances of the surrounding objects, i.e., the dark background. The classifier can, for example, artistically decide to make this background completely black for the LDR classification, Im_HDR. It should be clear that this image with low dynamic range, Im_HDR, can then not be used to reconstruct a REC_HDR with enough information in the background to have all objects visible there. As a generalization of this, it can be noted that the automatic classification unit needs to make sure that no relevant information is lost, so that an HDR reconstruction can still be derived with good approximation accuracy from the encoded LDR image, GT_IDR. Note that the GT_IDR of this LDR image need not, by itself, be defined with the same environment constraints (e.g., 100 nits_white_peak as the intended display device), but could also be, for example, for a 200 nit reference display device.

[020] Como pode ser entendido pelo versado na técnica, há duas maneiras de realizar um sistema como esse. Ou a unidade de classificação automática que classifica tecnicamente faz seu mapeamento primeiro e, então, o classificador humano trabalha naquela GT_IDR para criar sua classificação LDR preferencial, IM_LDR, ou o classificador humano primeiro faz sua classificação Im_LDR e, então, a unidade de classificação automática deriva da mesma uma GT_IDR tecnicamente mais adequada para codificar todos os dados de HDR relevantes em um formato de LDR_container. Assim, de fato, isso logicamente corresponde a que o classificador humano trabalhará, em ambos os casos, com a representação da HDR principal. No primeiro caso de classificação por ser humano será a própria HDR principal (infinitamente acurada) que formará o ponto de partida. No segundo caso, a GT_IDR resultante da classificação técnica automática será uma boa representação da HDR principal, já que contém a maior parte (pelo menos a parte relevante) dos dados da HDR principal, seja em uma representação diferente de correlato de luminância mapeado (por exemplo, uma luminância de uma lâmpada de 10.000 nits na HDR principal pode ser representada como um código de luminância 253 na GT_IDR). De acordo com uma exatidão predefinida, novamente isso significa que são colocados limites técnicos no quanto uma reconstrução REC_HDR a partir da GT_IDR pode se desviar da M_HDR originalmente fornecida. Tipicamente, o versado na técnica sabe que se pode (se não somente definido de acordo com a preferência de examinadores humanos) caracterizar matematicamente esses desvios, por exemplo por meio da diferença ponderada entre as cores de pixel de REC_HDR e de M_HDR. Por exemplo, pode-se usar funções matemáticas que caracterizam uma diferença seguindo princípios visuais humanos, por exemplo observando-se cores em regiões e, por exemplo penalizando menos as diferenças se estas ocorrem em áreas texturizadas, etc. Pode-se permitir diferenças maiores a alguns objetos semânticos, por exemplo lâmpadas, já que a luminância real renderizada para aqueles objetos pode ser menos importante. Em resumo, o versado na técnica entenderá que, tipicamente, a classificação técnica realizará quaisquer dentre um conjunto de mapeamentos pré-acordados, o que para qualquer, ou para a maioria, das imagens M_HDR de entrada de ocorrência típica produzirá erros de reconstrução abaixo de um certo limiar (o qual pode ou ser um valor subjetivo acordado pelo painel de avaliação por seres humanos, ou um valor matemático acordado). Tipicamente haverá, por exemplo um conjunto de funções similares a gama (isto é, tipicamente iniciando com uma parte linear nos pretos e, então, fazendo uma curva para mostrar um coeficiente angular cada vez menor da saída versus a entrada), ou curvas paramétricas em três segmentos para afetar os escuros/sombras, as subfaixas de tons médios e brilhantes da luminância ou eixo do correlato de luminância, todos os quais se comportam razoavelmente, e em que alguns podem resultar em menores erros de reconstrução em uma região de luminância específica de um tipo específico de M_HDR. O classificador humano pode, então, selecionar essa curva. Ou, alternativamente, a unidade de classificação automática pode selecionar esse tipo de curva ótima, por exemplo mediante a observação do histograma de cor ou luminância do M_HDR, ou realizando uma análise mais complicada da mesma (por exemplo, determinando onde estão as uma ou mais faces). Assim, a representação HDR_REP de M_HDR de acordo com uma exatidão predefinida significa que essa imagem contém substancialmente todos os dados de M_HDR, seja de um modo codificado diferentemente, para que se possa obter inversamente a M_HDR fornecida, dentro de uma exatidão predefinida, isto é, com erros de reconstrução que, no pior dos casos, tipicamente não excedem um nível acordado.[020] As can be understood by the person skilled in the art, there are two ways to realize such a system. Either the automatic classification unit that sorts technically does its mapping first, and then the human classifier works on that GT_IDR to create its preferred LDR classification, IM_LDR, or the human classifier first does its Im_LDR classification, and then the automatic classification unit derives a technically more suitable GT_IDR from it to encode all relevant HDR data into an LDR_container format. So, in fact, this logically corresponds to that the human classifier will work, in both cases, with the main HDR representation. In the first case of classification by human being it will be the main HDR itself (infinitely accurate) that will form the starting point. In the second case, the GT_IDR resulting from the automatic technical classification will be a good representation of the main HDR, as it contains most (at least the relevant part) of the main HDR data, either in a different mapped luminance correlate representation (for example, a luminance of a lamp of 10,000 nits in the main HDR can be represented as a luminance code 253 in the GT_IDR). According to a predefined accuracy, again this means that technical limits are placed on how much a REC_HDR reconstruction from the GT_IDR can deviate from the originally given M_HDR. Typically, the person skilled in the art knows that one can (if not just defined according to the preference of human examiners) mathematically characterize these deviations, for example by means of the weighted difference between the pixel colors of REC_HDR and M_HDR. For example, one can use mathematical functions that characterize a difference following human visual principles, for example observing colors in regions and, for example, penalizing differences less if they occur in textured areas, etc. Some semantic objects, for example light bulbs, may be allowed greater differences, as the actual rendered luminance for those objects may be less important. In summary, one skilled in the art will understand that, typically, the technical classification will perform any one of a set of pre-agreed mappings, which for any, or most, typically occurring input M_HDR images will produce reconstruction errors below a certain threshold (which may either be a subjective value agreed upon by the human evaluation panel, or an agreed mathematical value). Typically there will be, for example a set of gamma-like functions (i.e. typically starting with a linear part in the blacks and then making a curve to show an ever-smaller slope of the output versus the input), or three-segment parametric curves to affect the darks/shadows, midtones and brightest sub-ranges of the luminance or luminance correlate axis, all of which behave reasonably, and some of which may result in minor reconstruction errors in a specific luminance region of a type specific to M_HDR. The human classifier can then select this curve. Or, alternatively, the automatic classification unit can select this type of optimal curve, for example by observing the color or luminance histogram of the M_HDR, or performing a more complicated analysis of it (for example, determining where one or more faces are). Thus, the HDR_REP representation of M_HDR according to a predefined accuracy means that this image contains substantially all of the M_HDR data, either in a differently coded way, so that the given M_HDR can be inversely obtained, within a predefined accuracy, i.e. with reconstruction errors that, in the worst case, typically do not exceed an agreed level.

[021] Assim, o classificador humano trabalha, portanto, ou com o M_HDR, ou com a GT_IDR, para obter sua imagem com baixa faixa dinâmica Im_LDR preferencial, a ser usada para sistemas de renderização em LDR. Ele pode usar qualquer mapeamento de cores que deseje, a partir de um conjunto de mapeamentos disponíveis no software de classificação, por exemplo ele pode ajustar um mapeamento de tons global específico (isto é, mapeamento de luminância) ou uma função de mapeamento de cores a ser aplicada em todos os pixels em qualquer posicionar espacial na imagem, com base apenas em seu valor de cor de entrada. Ou, ele pode usar mapeamentos localmente ajustados. Por exemplo, ele pode, em uma região geométrica específica da imagem (por exemplo, especificada dentro de um formato delimitador retangular ou de outro modo definido), selecionar somente aqueles pixels que são mais brilhantes que um valor de luminância específico (ou dentro de faixas de cores especificadas) e transformar somente aqueles pixels de acordo com uma estratégia local de mapeamento de cores, etc. Ele gravará, então, todas as coisas que fez sob a forma de metadados, por exemplo a função de alteração global do correlato de luminância pode ser gravada de uma forma paramétrica (por exemplo, coeficientes da função de potência para três regiões de uma curva similar a S, como um ponto final das sombras, partes lineares de cada lado, um coeficiente de curvatura parabólico, etc.). Se essas funções forem (amplamente) reversíveis, o lado de recepção pode, então, usar as mesmas para reconstruir, usando essa imagem de saída como uma imagem de entrada, e usando a estratégia inversa de mapeamento de cores, a imagem original a partir da qual essa imagem de saída foi obtida, pelo menos dentro de uma certa exatidão (depois de, por exemplo terem sido introduzidos quantização e/ou artefatos DCT etc.).[021] Thus, the human classifier works, therefore, either with the M_HDR, or with the GT_IDR, to obtain its image with low dynamic range Im_LDR preferred, to be used for rendering systems in LDR. It can use any color mapping it wants, from a set of mappings available in the classification software, for example it can adjust a specific global tone mapping (i.e. luminance mapping) or a color mapping function to be applied to all pixels at any spatial position in the image, based only on its input color value. Or, it can use locally tuned mappings. For example, it can, in a specific geometric region of the image (e.g., specified within a rectangular or otherwise defined bounding format), select only those pixels that are brighter than a specific luminance value (or within specified color ranges) and transform only those pixels according to a local color mapping strategy, etc. It will then record all the things it has done in the form of metadata, for example the global change function of the luminance correlate can be recorded in a parametric way (e.g. power function coefficients for three regions of a curve similar to S, such as an endpoint of the shadows, linear parts on each side, a parabolic curvature coefficient, etc.). If these functions are (largely) reversible, the receiving side can then use them to reconstruct, using this output image as an input image, and using the inverse color mapping strategy, the original image from which this output image was obtained, at least within a certain accuracy (after, for example, having introduced quantization and/or DCT artifacts, etc.).

[022] Nas modalidades em que o ser humano faz primeiro a classificação, o classificador humano produzirá os parâmetros de mapeamento Fi(MP_DH) a partir do mapeamento M_HDR. Entretanto, como a classificação automática ainda modificará a classificação LDR, estes não são os parâmetros interessantes, no final. A unidade de classificação automática derivará disso dois conjuntos de novos parâmetros. Ela derivará um mapeamento diferente de HDR para a nova classificação LDR sendo GT_IDR, com parâmetros de mapeamento Fi(MP_T). Ela derivará, também, novos parâmetros de mapeamento Fi(MP_DL) para criar a classificação LDR preferencial para seres humanos, Im_LDR, a partir da segunda imagem em LDR tecnicamente classificada, GT_IDR. Ao armazenar os dados necessários para um lado de recepção trabalhar com a imagem M_HDR codificada, isto é, particularmente permitindo que o receptor recrie uma reconstrução REC_HDR, um formatador tipicamente codificará a GT_IDR (para a textura dos objetos), e dois conjuntos de dados de mapeamento, Fi(MP_T) e Fi(MP_DL), em uma codificação adequada definida na especificação de qualquer padrão de sinais, isto é, tipicamente em metadados do sinal TSIG de imagem (ou de vídeo). No caso de a classificação automática ocorrer primeiro, o classificador humano trabalhará na GT_IDR para produzir parâmetros de mapeamento Fi(MP_DL) e, então, estes serão gravados no sinal (em adição à imagem GT_IDR e Fi(MP_T)).[022] In the modalities in which the human being does the classification first, the human classifier will produce the mapping parameters Fi(MP_DH) from the M_HDR mapping. However, as the automatic classification will still modify the LDR classification, these are not the interesting parameters in the end. The automatic classification unit will derive from this two sets of new parameters. It will derive a different mapping from HDR to the new LDR classification being GT_IDR, with mapping parameters Fi(MP_T). It will also derive new mapping parameters Fi(MP_DL) to create the preferred LDR classification for humans, Im_LDR, from the second technically classified LDR image, GT_IDR. When storing the data necessary for a receiving side to work with the encoded M_HDR image, i.e. particularly allowing the receiver to recreate a REC_HDR reconstruction, a formatter will typically encode the GT_IDR (for texture objects), and two sets of mapping data, Fi(MP_T) and Fi(MP_DL), into a suitable encoding defined in the specification of any signal standard, i.e. typically into picture (or video) TSIG signal metadata. In case the automatic classification occurs first, the human classifier will work on the GT_IDR to produce mapping parameters Fi(MP_DL) and then these will be written to the signal (in addition to the GT_IDR image and Fi(MP_T)).

[023] Dependendo de qual variante for o sistema, a unidade de classificação automática aplicará, então, como uma pré-especificação, a segunda imagem em LDR, GT_IDR, diretamente a partir da HDR principal, M_HDR, ou como uma pós-correção baseada em uma Im_LDR anteriormente classificada por ser humano como entrada. O termo dados especificando um mapeamento de cores precisa estar claro para o versado na técnica para qualquer das muitas possíveis variantes de mapeamento de cores. Tipicamente, o software de classificação pode armazenar os parâmetros das funções que usa e, particularmente, pode usar funções de mapeamento que são precondicionadas para serem boas para codificação. Por exemplo, pode-se projetar um certo número de funções locais ou globais que são reversíveis (dentro de uma exatidão especificada) quando usadas de forma conservadora, isto é, com valores dentro de uma faixa, e podem se tornar (parcialmente) irreversíveis quando usadas agressivamente pelo classificador. Um exemplo disso pode ser uma função gama. Os coeficientes de gama até um valor de 3,0 podem ser vistos como reversíveis para um sistema específico (isto é, partindo de uma faixa dinâmica inicial específica, por exemplo CODR, ou por exemplo, com dados importantes significativos em várias subfaixas de uma faixa de referência definida de 5.000 nits, até uma situação de referência em LDR específica, por exemplo uma definição de sistema legado em LDR, por exemplo a especificação do ambiente de visualização de sRGB), mas os gamas acima de 3,0 podem ser vistos como graves para pelo menos uma subfaixa da faixa de luminância de entrada (isto é, para reconstrução reversível). Ou, em um conjunto estendido para produzir classificações LDR a posteriori a partir da GT_IDR automática, pode haver funções que não existem na classificação automática, e criar perda significativa de informações nas informações de HDR de entrada ao criar com a mesma uma imagem em LDR classificada desejada. O sistema pode, tipicamente, funcionar em um modo ou fase em que o classificador tenha uma liberdade limitada para criar imagens em LDR, mas com boas propriedades técnicas (isto é, perto de uma GT_IDR com bom funcionamento), e um modo ou fase em que o classificador tem liberdade (quase) ilimitada, ou pelo menos maior liberdade na determinação de sua imagem classificada em LDR ótima, Im_LDR.[023] Depending on which variant the system is, the automatic classification unit will then apply, as a pre-specification, the second image in LDR, GT_IDR, directly from the main HDR, M_HDR, or as a post-correction based on a previously human-classified Im_LDR as input. The term data specifying a color mapping needs to be clear to the skilled person for any of the many possible variants of color mapping. Typically, classification software may store the parameters of the functions it uses and, in particular, may use mapping functions that are preconditioned to be good for encoding. For example, one can design a number of local or global functions that are reversible (within a specified accuracy) when used conservatively, that is, with values within a range, and may become (partially) irreversible when used aggressively by the classifier. An example of this might be a gamma function. Gamma coefficients up to a value of 3.0 can be seen as reversible for a specific system (i.e. starting from a specific initial dynamic range, e.g. CODR, or e.g. with significant important data in several subbands of a defined reference range of 5000 nits, up to a specific reference situation in LDR, e.g. a legacy system definition in LDR, e.g. the specification of the sRGB viewing environment), but gammas above 3.0 can be seen as bass for at least a subband of the input luminance range (ie, for reversible reconstruction). Or, in an extended set to produce a posteriori LDR classifications from auto GT_IDR, there may be functions that do not exist in auto classification, and create significant loss of information in the input HDR information when creating a desired classified LDR image with it. The system can typically operate in a mode or phase where the classifier has limited freedom to create LDR images, but with good technical properties (i.e. close to a well-functioning GT_IDR), and a mode or phase where the classifier has (almost) unlimited freedom, or at least greater freedom in determining its optimal LDR-classified image, Im_LDR.

[024] Em modalidades vantajosas, a unidade de classificação automática (203) está disposta de modo a determinar seu algoritmo de mapeamento de cores automático mediante o atendimento de uma condição de que uma imagem reconstruída HDR (REC_HDR) que se enquadre em uma segunda exatidão predefinida a partir da imagem de entrada com alta faixa dinâmica (M_HDR) possa ser calculada mediante a aplicação de um segundo algoritmo de mapeamento de cores (CMAP_2) à segunda imagem com baixa faixa dinâmica (GT_IDR).[024] In advantageous embodiments, the automatic classification unit (203) is arranged so as to determine its automatic color mapping algorithm by meeting a condition that a reconstructed HDR image (REC_HDR) that fits a second predefined accuracy from the input image with high dynamic range (M_HDR) can be calculated by applying a second color mapping algorithm (CMAP_2) to the second image with low dynamic range (GT_IDR).

[025] Assim, a unidade de classificação automática manterá a qualidade da segunda imagem em LDR GT_IDR para permitir a boa reconstrução da HDR principal. Ela atenderá a essa condição mediante a restrição das funções que podem ser usadas para relacionar a M_HDR à GT_IDR. Em particular, uma quantidade não muito grande de dados (significativos) deverá ser perdida por essas ações, por exemplo a quantização de componentes de cor, por exemplo (R,G,B) ou (Y,Cr,Cb), etc. Assim, suas funções de mapeamento serão tipicamente selecionadas com base nessa avaliação, quer tenha sido um cálculo a priori (por exemplo, por um algoritmo que é pré-testado no laboratório de modo que, ao operar sobre imagens em HDR com, por exemplo certas propriedades de distribuição de histograma de luminância, produzirá boa capacidade de reconstrução para certas funções ou algoritmos de mapeamento), ou um pós-cálculo, por exemplo em um circuito iterativo que seleciona a melhor dentre um número de possíveis funções de mapeamento. A segunda exatidão predeterminada é a exatidão final, que pode ser obtida mediante reconstrução da REC_HDR a partir dos dados codificados com o algoritmo de mapeamento escolhido, isto é, mediante a aplicação do inverso de Fi(MP_T) na GT_IDR, cujo inverso se denomina segundo algoritmo de mapeamento de cores, CMAP_2. Para as primeiras modalidades de classificação automática, isto significará que a unidade de classificação automática irá somente determinar o mapeamento entre M_HDR e GT_IDR (e o usuário não precisa, de fato, se incomodar com essa relação). Então a mesma selecionará, por exemplo uma função gama adequada, de modo que a GT_IDR ainda tenha uma aproximação razoável com a aparência escura na M_HDR, mas ainda assim nenhum dos valores de luminância relevantes são demasiadamente agrupados uns aos outros em uma luminância de GT_IDR. Na situação da classificação por ser humano primeiro, a unidade de classificação automática ainda precisa determinar um mapeamento final Fi(MP_T) entre M_HDR e GT_IDR. Isso corresponde a redeterminar uma nova segunda imagem classificada em LDR, GT_IDR, depois do classificador humano (mas isto não destruirá a classificação por ser humano, já que também são determinados os parâmetros de mapeamento para reconstrução a partir da GT_IDR). Podem existir várias estratégias para isso. Por exemplo, a unidade de classificação automática pode consultar a função de mapeamento, e desviá-la um pouco em regiões que levam a grave perda de dados, por exemplo devido a quantização. Com isso, a unidade de classificação automática poderia estudar as imagens obtidas (Im_LDR versus GT_IDR, em comparação a M_HDR) mas também a própria curva de mapeamento (observando o quanto a mesma se desvia de curvas de mapeamento com desempenho genericamente bom). Uma outra possibilidade é que a unidade de classificação automática selecione uma dentre um conjunto de funções de mapeamento que esteja próxima àquela selecionada pelo classificador humano, e ainda assim com bom desempenho. A partir daí, usa-se cálculo matemático para obter o sistema final. Por exemplo, GT_IDR será obtida mediante a aplicação de uma função de desvio na função de mapeamento Fi(MP_DH) de M_HDR para Im_LDR dos classificadores humanos. Realmente, a unidade de classificação automática pode, então, aplicar diretamente essa função final a M_HDR, para obter GT_IDR, diretamente com erro mínimo. Im_LDR pode ser derivada a partir da mesma, mediante o uso da função de desvio. O versado na técnica entende como, de maneira similar em outras estruturas matemáticas, a unidade de classificação automática pode determinar um mapeamento Fi(MP_T) ótimo e corresponder ao mesmo um mapeamento da GT_IDR para a Im_LDR do classificador (isto é, Fi(MP_DL)). Isto é mostrado esquematicamente na Figura 6, como a aplicação de uma deformação técnica DEF_TECH à classificação do classificador humano, para se obter a imagem em LDR tecnicamente classificada GT_IDR. Ou seja, a unidade de classificação automática pode funcionar ou iniciando a partir da imagem em LDR Im_LDR e trabalhar em uma filosofia de deformação, e derivar disso Fi(MP_T), ou pode observar diretamente a aparência da Im_LDR classificada por ser humano, e fazer uma aproximação da mesma iniciando a partir de M_HDR, dadas as limitações técnicas de sua classificação técnica, levando a uma Fi(MP_T), e determinar a partir da mesma uma Fi(MP_DL) para derivar a classificação por ser humano a partir de GT_IDR (mapeamento esse que pode, então, ser tecnicamente muito liberal), etc. Assim, deve ficar claro para o versado na técnica de que maneiras a condição pode ser, e será, atendida. Novamente, a exatidão pode ser predefinida como qualquer medida, por exemplo para uma classe de qualidade de tecnologia (por exemplo, filme de alta qualidade para usuários premium versus codificação HDR de baixa qualidade que dá em grande parte a impressão, mas não a qualidade definitiva), por exemplo especificando que certos mapeamentos irão, em uma imagem em HDR que seja um caso difícil, criar artefatos que não são maiores que os artefatos de uma magnitude pré-acordada. Outras estratégias de mapeamento que não se comportam de acordo com a especificação não devem, então, ser usadas. Em qualquer caso, exceto por detalhes minuciosamente acurados em definições, deve ficar claro para qualquer infrator se ele está usando o sistema de cadeia técnica de classificação dupla, conforme descrito acima.[025] Thus, the automatic classification unit will maintain the quality of the second image in LDR GT_IDR to allow good reconstruction of the main HDR. It will meet this condition by restricting the functions that can be used to relate M_HDR to GT_IDR. In particular, not a very large amount of (significant) data should be lost by these actions, for example the quantization of color components, for example (R,G,B) or (Y,Cr,Cb), etc. Thus, your mapping functions will typically be selected based on this assessment, whether it was an a priori calculation (e.g. by an algorithm that is pre-tested in the lab so that when operating on HDR images with e.g. certain luminance histogram distribution properties will yield good reconstructability for certain mapping functions or algorithms), or a post-calculation, e.g. in an iterative circuit that selects the best of a number of possible mapping functions. The second predetermined accuracy is the final accuracy, which can be obtained by reconstructing the REC_HDR from the data encoded with the chosen mapping algorithm, that is, by applying the inverse of Fi(MP_T) to the GT_IDR, whose inverse is called the second color mapping algorithm, CMAP_2. For the first modes of automatic classification, this will mean that the automatic classification unit will only determine the mapping between M_HDR and GT_IDR (and the user does not really need to bother with this relationship). Then it will select, for example a suitable gamma function, so that the GT_IDR still has a reasonable approximation with the dark appearance in the M_HDR, but still none of the relevant luminance values are too closely grouped together in a luminance GT_IDR. In the situation of human-first classification, the automatic classification unit still needs to determine a final mapping Fi(MP_T) between M_HDR and GT_IDR. This corresponds to redetermining a new second image classified in LDR, GT_IDR, after the human classifier (but this will not destroy the classification by human being, since the mapping parameters for reconstruction from the GT_IDR are also determined). There may be several strategies for this. For example, the automatic classification unit can query the mapping function, and slightly deviate it in regions that lead to severe data loss, for example due to quantization. With this, the automatic classification unit could study the obtained images (Im_LDR versus GT_IDR, compared to M_HDR) but also the mapping curve itself (noting how much it deviates from mapping curves with generally good performance). Another possibility is that the automatic classification unit selects one of a set of mapping functions that is close to the one selected by the human classifier, and still performs well. From there, mathematical calculation is used to obtain the final system. For example, GT_IDR will be obtained by applying a shift function in the mapping function Fi(MP_DH) from M_HDR to Im_LDR of human classifiers. Indeed, the automatic classification unit can then directly apply this final function to M_HDR, to obtain GT_IDR, directly with minimal error. Im_LDR can be derived from it using the offset function. The skilled person understands how, similarly to other mathematical structures, the automatic classification unit can determine an optimal Fi(MP_T) mapping and correspond to the same a mapping from the GT_IDR to the Im_LDR of the classifier (i.e., Fi(MP_DL)). This is shown schematically in Figure 6, as the application of a technical deformation DEF_TECH to the classification of the human classifier, to obtain the technically classified LDR image GT_IDR. That is, the automatic classification unit can work either starting from the image in LDR Im_LDR and working on a deformation philosophy, and deriving from this Fi(MP_T), or it can directly observe the appearance of the Im_LDR classified by human being, and make an approximation of the same starting from M_HDR, given the technical limitations of its technical classification, leading to an Fi(MP_T), and determine from it an Fi(MP_DL) to derive the classification by human being from GT_IDR (mapping which can then be technically very liberal), etc. Thus, it should be clear to one skilled in the art in what ways the condition can be, and will be, met. Again, the accuracy can be preset to any measure, for example for a quality class of technology (e.g. high quality film for premium users versus low quality HDR encoding which mostly gives the impression but not ultimate quality), for example specifying that certain mappings will, in an HDR image that is a hard case, create artifacts that are no greater than artifacts of a pre-agreed magnitude. Other mapping strategies that do not behave according to the specification should therefore not be used. In any case, other than minutely accurate details in definitions, it should be clear to any infringer whether he is using the double rating technical chain system as described above.

[026] Conforme já apresentado acima, pode ser vantajoso se pelo menos a unidade de classificação automática (203) e, possivelmente, também a unidade de classificação de imagem (201), estiverem dispostas de modo a aplicar uma função de mapeamento monotônico em pelo menos um correlato de luminância de pixels em sua respectiva imagem de entrada, em pelo menos uma região geométrica da respectiva imagem de entrada correspondente à mesma região geométrica da imagem de entrada com alta faixa dinâmica (M_HDR). Ter esse tipo de definição funcional de um para um em regiões unicamente identificáveis da imagem (por exemplo, a totalidade da imagem), significa que pelo menos em um eixo de infinita precisão, pode-se facilmente inverter essas funções. É especialmente vantajoso se também os derivados ou coeficientes angulares dessas funções forem tais que não integrem muitas das luminâncias de M_HDR em um único código de Im_LDR, ou pelo menos GT_IDR. Além disso, essas funções monotônicas são fáceis de calcular tecnicamente, por exemplo com uma tabela de pesquisa. Por exemplo, isso pode tomar um correlato de luminância, como uma luminância Y, como entrada e saída. Um exemplo de cena em HDR que ocorre frequentemente, a qual pode ser feita com duas regiões espaciais, é uma imagem com ambiente interno e externo, por exemplo fotografada de dentro de um carro, de uma sala, etc. Com “regiões geométricas correspondentes a” quer-se dizer que, se a região for definida em, diga-se, Im_LDR, então os pixels são identificáveis com pixels em M_HDR. Por exemplo, se a imagem tiver a mesma geometria (resolução e corte), as posições de pixel podem estar colocadas, mas em caso de transformações geométrica, por exemplo alteração de escala, deve também ficar claro o que isso significa para o versado na técnica.[026] As already shown above, it may be advantageous if at least the automatic classification unit (203) and possibly also the image classification unit (201) are arranged to apply a monotonic mapping function on at least one luminance correlate of pixels in their respective input image, in at least one geometric region of the respective input image corresponding to the same geometric region of the input image with high dynamic range (M_HDR). Having this kind of one-to-one functional definition on uniquely identifiable regions of the image (eg, the entirety of the image), means that at least on an infinite-precision axis, one can easily invert these functions. It is especially advantageous if also the derivatives or slopes of these functions are such that they do not integrate many of the M_HDR luminances into a single Im_LDR code, or at least GT_IDR. Furthermore, these monotonic functions are easy to compute technically, for example with a lookup table. For example, this could take a luminance correlate, such as Y-luminance, as input and output. An example of a frequently occurring HDR scene, which can be made with two spatial regions, is an image with an indoor and outdoor environment, for example shot from inside a car, a room, etc. By "geometric regions corresponding to" is meant that if the region is defined in, say, Im_LDR, then the pixels are identifiable with pixels in M_HDR. For example, if the image has the same geometry (resolution and cropping), the pixel positions can be placed, but in case of geometric transformations, for example scaling, it should also be clear what this means for the technically-versed person.

[027] Embora sistemas simples possam, por exemplo usar funções de mapeamento Fi(MP_T) fixas, pré- acordadas, que sempre funcionam corretamente, é vantajoso que sistemas mais avançados possam otimamente determinar por si os mapeamentos, particularmente se a unidade de classificação automática (203) estiver disposta de modo a determinar seu algoritmo de mapeamento de cores automático de acordo com um critério de qualidade que estima uma diferença entre uma quantidade de informações nos correlatos de luminância de pixels na imagem de entrada com alta faixa dinâmica (M_HDR) e uma quantidade de informações nos correlatos de luminância de pixels na segunda imagem com baixa faixa dinâmica (GT_IDR).[027] Although simple systems can, for example, use fixed, pre-agreed Fi(MP_T) mapping functions, which always work correctly, it is advantageous that more advanced systems can optimally determine the mappings themselves, particularly if the automatic classification unit (203) is arranged in such a way as to determine its automatic color mapping algorithm according to a quality criterion that estimates a difference between an amount of information in the luminance correlates of pixels in the input image with high dynamic range (M_HDR) and an amount of information in the luminance correlates of pixels in the second image with low dynamic range (GT_IDR).

[028] O versado na técnica entenderá que há diferentes maneiras de definir quantidades de informação, mas todas envolvem medir quantos dados há em uma representação (especialmente dados significativos). Pode haver métodos semanticamente cegos, que somente medem as cores disponíveis, mas não de qual região ou objeto elas vêm. Por exemplo, pode- se medir quantas das luminâncias de M_HDR são mapeadas a uma única luminância de GT_IDR. Se, por exemplo a maioria das luminâncias é mapeada somente de duas em duas, mas em uma certa região do eixo de luminância M_HDR, 5 valores digitais de luminância em HDR (ou em uma representação flutuante de uma extensão de luminâncias excedendo um certo tamanho) são mapeados a uma única luminância GT_IDR, isto pode ser visto como uma perda de informações muito grande. Assim, o tamanho dos vãos, ou a quantidade de luminâncias digitalizadas em M_HDR é um exemplo de uma possível quantidade de medidas de informação. É claro que essas medidas podem ser tornadas mais inteligentes, por exemplo observando como as mesmas se comportam sub-regiões particularmente interessantes da faixa de luminância M_HDR, ou mesmo objetos semânticos, por exemplo uma face. Pode ser prescrito que, por exemplo cada face deva ser representada por ao menos 50 códigos de luminância em GT_IDR, ou cada região de uma face tendo N luminâncias digitais em M_HDR (ou uma extensão contínua equivalente às mesmas) não deva ser representada em GT_IDR por uma quantidade M de luminâncias menor que metade daquela quantidade N. Isso pode ser submetido a ajuste fino com base na significância não linear para seres humanos, dada a função de mapeamento não linear. Por exemplo, pode-se especificar a quantas diferenças meramente perceptíveis JNDs corresponderia uma certa codificação GT_IDR, quando reconstruída para REC_HDR sob um ambiente de visualização em HDR de referência. E, então, pode- se especificar que a face deveria ser reconstruível com pelo menos R JNDs discrimináveis. Ou uma estrutura em uma face, como uma ruga, deveria mudar de um valor mais escuro dentro da ruga para um valor mais brilhante fora da ruga, por uma etapa reconstruível de, no máximo S (diga-se, 3) JNDs. Introduz-se, também, o conceito de diferenças que meramente importam (just careable differences) JCDs, que pode ser usado para alguns objetos semânticos. Por exemplo, em uma luminária, pode ser suficiente que a luminária seja brilhante, e ainda algo da estrutura interior (como um formato de lâmpada) seja distinguível, mas nem o valor exato da luminária, nem o da lâmpada, nem suas luminâncias relativas podem ser de importância crítica. Nesse caso, ambas as regiões podem ser codificadas como sendo consideradas precisas se dentro de, por exemplo 1 JCD, o que pode ser, por exemplo 20 JNDs, ou especificado como uma diferença ou fração de luminâncias (para luminâncias que se enquadrem em uma subfaixa definida de luminâncias brilhantes a serem usadas para renderização de luzes). Assim, os critérios de informação podem ser determinados somente com base em binagem unidimensional ou tridimensional (formato e/ou tamanho) dos dados de cores em ambas as imagens, em critérios estatísticos como a luminância ou o histograma de cores e, em particular, informações semânticas de quais regiões podem ser mais gravemente deformadas (por exemplo, o classificador humano pode desenhar rapidamente um rabisco sobre as regiões da imagem que precisam ser codificadas com alta precisão, como a região principal da ação, que pode ser especialmente iluminada durante a captura, ou uma face), informações geométricas, por exemplo bordas ou formatos de estruturas em regiões de objeto, e como elas se deformam (por exemplo, visibilidade nítida, ou contraste) sob certas classes de mapeamentos, ou caracterizadores de textura (por exemplo, em texturas complexas uma quantidade maior de artefatos é admissível), ou informações semânticas como detecção automática de objetos específicos, ou a caracterização humana dos mesmos (mediante a marcação pelo menos aproximada de uma região e classe como “lâmpada menos importante”), etc. Portanto, o versado na técnica pode entender que pode haver várias maneiras de predefinir um sistema de funções matemáticas que especifica quando demasiados dados foram perdidos, por exemplo reduzindo a qualidade de uma iluminação variável sem textura sobre um objeto, etc. Pode haver um único critério, ou um conjunto de critérios que resulta em uma análise completa da imagem GT_IDR, e marca que uma certa região da mesma precisa ser refeita. Com essa informação, a unidade de classificação de imagem pode determinar se um mapeamento satisfaz o requisito técnico, ou pode determinar um novo mapeamento, por exemplo ajustando ligeiramente o antigo. Por exemplo, caso uma região da GT_IDR ainda reconstrua uma região (por exemplo, um objeto) de M_HDR muito grosseiramente, a unidade de classificação de imagem pode ou redeterminar totalmente, por exemplo um mapeamento global (tipicamente, é claro que a mesma pode apenas realizar um ajuste fino no mapeamento para aquelas regiões de luminância M_HDR que representam um problema, por exemplo a mesma pode aumentar o derivado da função de mapeamento Fi(MP_T) para baixo, para a subfaixa de luminância problemático, o que tipicamente corresponde a deslocamento para fora - respectivamente para valores mais escuros em relação a valores mais brilhantes - das outras cores de pixel, e ajustar à nova faixa disponível para as mesmas mediante uma flexão suave daquelas partes da função de mapeamento). Ou, a unidade de classificação de imagem pode derivar uma classificação local adicional a ser aplicada em sucessão temporal, por exemplo um pré-reforço daquela região, e salvar a mesma em uma imagem parcial (correção) cocodificada, etc. Tipicamente, é vantajoso quando a unidade de classificação de imagem, mesmo quando cria a GT_IDR com uma estratégia de mapeamento de cores adequada pré-reconhecida, pós-determina quando a imagem GT_IDR de fato satisfaz a condição de que REC_HDR é uma aproximação com qualidade suficiente.[028] One skilled in the art will understand that there are different ways of defining amounts of information, but all involve measuring how much data there is in a representation (especially meaningful data). There may be semantically blind methods, which only measure what colors are available, but not what region or object they come from. For example, one can measure how many of the M_HDR luminances are mapped to a single GT_IDR luminance. If, for example most luminances are only mapped by twos, but in a certain region of the luminance axis M_HDR, 5 digital values of luminance in HDR (or a floating representation of a range of luminances exceeding a certain size) are mapped to a single luminance GT_IDR, this can be seen as a very large loss of information. Thus, the size of spans, or the amount of luminances digitized in M_HDR is an example of a possible amount of information measurements. Of course, these measures can be made smarter, for example by observing how they behave particularly interesting sub-regions of the M_HDR luminance range, or even semantic objects, for example a face. It may be prescribed that, for example, each face should be represented by at least 50 luminance codes in GT_IDR, or each region of a face having N digital luminances in M_HDR (or an equivalent continuous range thereof) should not be represented in GT_IDR by an M quantity of luminance less than half of that N quantity. For example, one can specify how many barely perceptible differences JNDs would correspond to a certain GT_IDR encoding when reconstructed to REC_HDR under a reference HDR viewing environment. And then one can specify that the face should be reconstructable with at least R discriminable JNDs. Or a structure on a face, such as a wrinkle, should change from a darker value inside the wrinkle to a brighter value outside the wrinkle, by a reconstructable step of at most S (say, 3) JNDs. It also introduces the concept of just careable differences JCDs, which can be used for some semantic objects. For example, in a luminaire, it may be sufficient that the luminaire is bright, and yet something of the interior structure (such as a lamp shape) is distinguishable, but neither the exact value of the luminaire nor that of the lamp nor their relative luminances can be of critical importance. In this case, both regions can be coded as being considered accurate if within, say, 1 JCD, which could be, say, 20 JNDs, or specified as a difference or fraction of luminances (for luminances falling within a defined subrange of bright luminances to be used for light rendering). Thus, information criteria can be determined only on the basis of one-dimensional or three-dimensional binning (shape and/or size) of the color data in both images, statistical criteria such as luminance or color histogram, and in particular semantic information of which regions may be most severely deformed (e.g. the human classifier can quickly draw a squiggle over the regions of the image that need to be coded with high accuracy, such as the main action region, which may be especially illuminated during capture, or a face), information geometric features, e.g. edges or shapes of structures in object regions, and how they deform (e.g. sharp visibility, or contrast) under certain classes of mappings, or texture characterizers (e.g. in complex textures a higher amount of artifacts is admissible), or semantic information such as automatic detection of specific objects, or the human characterization of them (by at least approximate marking of a region and class as “least important lamp”), etc. Therefore, the person skilled in the art can understand that there can be several ways to predefine a system of mathematical functions that specify when too much data has been lost, for example reducing the quality of a textureless variable lighting on an object, etc. There may be a single criterion, or a set of criteria that results in a complete analysis of the GT_IDR image, and marks that a certain region of it needs to be redone. With this information, the image classification unit can determine whether a mapping satisfies the technical requirement, or it can determine a new mapping, for example adjusting the old one slightly. For example, if a region of GT_IDR still reconstructs a region (e.g. an object) of M_HDR very roughly, the image classification unit may either redetermine entirely, for example a global mapping (typically, of course, it may only fine-tune the mapping for those M_HDR luminance regions that pose a problem, for example it may increase the derivative of the mapping function Fi(MP_T) downwards, for the problematic luminance subband, which typically corresponds shifting outwards - respectively towards darker values versus brighter values - of the other pixel colors, and adjusting to the new range available for them by gently flexing those parts of the mapping function). Or, the image classification unit may derive an additional local classification to be applied in temporal succession, for example a pre-boost of that region, and save it in a cocoded partial (correction) image, etc. Typically, it is advantageous when the image classification unit, even when creating the GT_IDR with a pre-recognized suitable color mapping strategy, post-determines when the GT_IDR image actually satisfies the condition that REC_HDR is an approximation with sufficient quality.

[029] Vantajosamente, a unidade de classificação automática (203) está disposta de modo a determinar a função de mapeamento monotônico (Fi(MP_T)) dos correlatos de luminância de pixels da imagem de entrada com alta faixa dinâmica (M_HDR) aos correlatos de luminância de pixels da segunda imagem com baixa faixa dinâmica (GT_IDR), de acordo com um critério que determina as respectivas faixas de correlatos de luminância de pixels da imagem de entrada com alta faixa dinâmica (M_HDR) alocadas aos respectivos valores únicos de um correlato de luminância de pixels da segunda imagem com baixa faixa dinâmica (GT_IDR), em que as respectivas faixas formam um conjunto de faixas de correlato de luminância que cobre a totalidade da faixa de possíveis valores de correlato de luminância para a imagem de entrada com alta faixa dinâmica (M_HDR). Esse é um modo simples de determinar a perda de informações, por exemplo devido a quantização excessiva. Por exemplo, pode ser definido um tamanho de faixa predefinido para mapear em um único valor versus luminância M_HDR de entrada ao longo do eixo de luminância M_HDR de todos os possíveis valores, o que permite especificar que os objetos mais brilhantes podem ser mais grosseiramente quantizados. Pode ser que já estejam aproximados com erro significativo em comparação à cena original capturada (por exemplo, não é preciso renderizar os faróis de um carro exatamente com 100.000 nits no dispositivo de exibição HDR), então pode-se aceitar um erro adicional em REC_HDR. Esse critério pode, então, ser facilmente convertido, por exemplo na determinação de um formato de uma função de mapeamento, já que não deveria em ponto algum fletir tão fortemente a ponto de mapear uma faixa maior do que o permitido para um único valor quantizado, dadas as configurações conhecidas do codificador GT_IDR (por exemplo, valores de quantização de MPEG2).[029] Advantageously, the automatic classification unit (203) is arranged to determine the monotonic mapping function (Fi(MP_T)) of the luminance correlates of pixels of the input image with high dynamic range (M_HDR) to the luminance correlates of pixels of the second image with low dynamic range (GT_IDR), according to a criterion that determines the respective ranges of luminance correlates of pixels of the input image with high dynamic range (M_HDR) allocated to the respective unique values of a luminance correlate of pixels of the second low dynamic range (GT_IDR) image, where the respective ranges form a set of luminance correlate ranges covering the entire range of possible luminance correlate values for the high dynamic range (M_HDR) input image. This is a simple way to determine information loss, for example due to excessive quantization. For example, a preset range size can be set to map onto a single value versus input M_HDR luminance along the M_HDR luminance axis of all possible values, allowing you to specify that brighter objects can be more coarsely quantized. It may be that they are already approximated with significant error compared to the original captured scene (for example, you don't need to render a car's headlights at exactly 100,000 nits on the HDR display device), so you can accept an additional error in REC_HDR. This criterion can then easily be converted, for example in determining a format of a mapping function, as it should at no point bend so strongly as to map a larger range than is allowed to a single quantized value, given the known settings of the GT_IDR encoder (e.g. MPEG2 quantization values).

[030] O apresentado acima descreve o funcionamento interno de um codificador que pode ser usado em vários instrumentos, por exemplo um sistema intermediário em uma unidade de cálculo de imagem, mas é vantajoso se os dados codificados obtidos são enviados para fora, por exemplo sob a forma de um sinal que pode ser usado por um receptor, isto é, o codificador de imagem (202) compreende um formatador de dados (220) disposto de modo a dar saída, em um sinal de imagem (TSIG), à segunda imagem com baixa faixa dinâmica (GT_IDR) e pelo menos um dentre, ou ambos dentre, os dados que descrevem o mapeamento de cores (Fi(MP_T)) entre a imagem de entrada com alta faixa dinâmica (M_HDR) e a segunda imagem com baixa faixa dinâmica (GT_IDR), e os dados que descrevem o mapeamento de cores (Fi(MP_DL)) entre a imagem com baixa faixa dinâmica (Im_LDR) e a segunda imagem com baixa faixa dinâmica (GT_IDR). Em princípio, nem todos os receptores precisariam de ambos os conjuntos de parâmetros, mas é vantajoso se um receptor receber ambos, e pode então, por exemplo determinar otimamente como usar todas as informações disponíveis para chegar a um sinal de acionamento final para um dispositivo de exibição e ambiente de visualização específicos (por exemplo, poderia misturar as informações das classificações HDR e LDR codificadas, para chegar a uma nova classificação, o que se chama de capacidade de sintonização do dispositivo de exibição). Note-se que, embora se tenha descrito o presente sistema básico com somente duas classificações, no mesmo sistema pode haver classificações adicionais, por exemplo uma segunda classificação HDR para dispositivo de exibição HDR ultrabrilhante, ou uma terceira classificação LDR, ou uma classificação para um dispositivo de exibição MDR (de um pico_de_branco intermediário entre, diga-se, referências de 100 nits e 5.000 nits das classificações LDR e HDR), ou para dispositivos de exibição sub_LDR, e estes podem ser interpretados como suplementos independentemente projetados, mas também de acordo com as filosofias da invenção apresentadas, por exemplo pode-se derivar uma segunda classificação técnica GT_IDR2, que é uma classificação HDR tecnicamente derivada a partir da M_HDR, e que serve para definir as classificações ultraHDR. Por exemplo, a GT_IDR2 pode ser derivada por meio de simples estiramento matemático das regiões de luz mais brilhante, mas o classificador pode corrigir isso mediante a definição de dados de mapeamento Fi(MP_DHH) adicionais, por exemplo para corrigir mediante o mapeamento a partir da GT_IDR2.[030] The above describes the inner workings of an encoder that can be used in several instruments, for example an intermediate system in an image calculation unit, but it is advantageous if the encoded data obtained is sent out, for example in the form of a signal that can be used by a receiver, that is, the image encoder (202) comprises a data formatter (220) arranged so as to output, in a image signal (TSIG), the second image with low dynamic range (GT_IDR) and at least one of, or both of, the data describing the color mapping (Fi(MP_T)) between the input image with high dynamic range (M_HDR) and the second image with low dynamic range (GT_IDR), and the data describing the color mapping (Fi(MP_DL)) between the image with low dynamic range (Im_LDR) and the second image with low dynamic range (GT_IDR). In principle, not all receivers would need both sets of parameters, but it is advantageous if a receiver receives both, and can then, for example, determine optimally how to use all available information to arrive at a final triggering signal for a specific display device and viewing environment (for example, it could mix the encoded HDR and LDR rating information, to arrive at a new rating, which is called the display device's tuning capability). Note that while the present basic system has been described with only two ratings, within the same system there may be additional ratings, for example a second HDR rating for an ultra-bright HDR display device, or a third LDR rating, or a rating for an MDR display device (of a white_peak intermediate between, say, 100 nits and 5,000 nits references of the LDR and HDR ratings), or for sub_LDR display devices, and these may be interpreted as supplements independently designed, but also according to the philosophies of the invention presented, for example a second technical classification GT_IDR2 can be derived, which is an HDR classification technically derived from M_HDR, and which serves to define the ultraHDR classifications. For example, GT_IDR2 can be derived through simple mathematical stretching of the brightest light regions, but the classifier can correct this by defining additional mapping data Fi(MP_DHH), for example to correct by mapping from GT_IDR2.

[031] O codificador de imagem corresponde a um decodificador de imagem (401), que está disposto de modo a receber, por meio de uma entrada de sinal de imagem (405), um sinal de imagem que compreende uma segunda imagem com baixa faixa dinâmica (GT_IDR), e dados que descrevem um primeiro mapeamento de cores (Fi(MP_T)) que permite a reconstrução de uma reconstrução (REC_HDR) de uma imagem com alta faixa dinâmica (M_HDR) com base na segunda imagem com baixa faixa dinâmica (GT_IDR), e dados que descrevem um segundo mapeamento de cores (Fi(MP_DL)) que permite o cálculo de uma imagem com baixa faixa dinâmica (Im_LDR) com base na segunda imagem com baixa faixa dinâmica (GT_IDR), em que o decodificador de imagem compreende uma unidade de derivação de imagem (403), disposta de modo a derivar pelo menos a imagem com baixa faixa dinâmica (Im_LDR) com base nos dados que descrevem o segundo mapeamento de cores (Fi(MP_DL)) e as cores de pixel codificadas na segunda imagem com baixa faixa dinâmica (GT_IDR). Pode-se ver, a partir desse decodificador, que o mesmo pode acessar parâmetros de mapeamento para mapear as cores de uma imagem em LDR, tanto para cima, para uma REC_HDR, como “para baixo” para obter uma classificação LDR, Im_LDR, desejável para criadores de conteúdo. A unidade de derivação de imagem terá funcionalidade (por exemplo, software carregado ou peças de hardware de um IC) para realizar os mapeamentos de cor para decodificação necessários (por exemplo, pré-acordados). Pode-se, também, ver que a classificação técnica GT_IDR é uma classificação técnica, já que terá menor carga de estado de humor (mesmo sem comparar à ótima Im_LDR), já que as luminâncias dos objetos não estão no local ótimo ao longo do eixo de luminância, e tipicamente terá um contraste um pouco menor, escuros um pouco mais brilhantes, etc. e, é claro, uma quantidade limitada de códigos para as várias regiões de objeto na imagem.[031] The image encoder corresponds to an image decoder (401), which is arranged to receive, via an image signal input (405), an image signal comprising a second image with low dynamic range (GT_IDR), and data describing a first color mapping (Fi(MP_T)) that allows the reconstruction of a reconstruction (REC_HDR) of an image with high dynamic range (M_HDR) based on the second image with low dynamic range (GT) _IDR), and data describing a second color mapping (Fi(MP_DL)) that allows the calculation of a low dynamic range image (Im_LDR) based on the second low dynamic range image (GT_IDR), wherein the image decoder comprises an image derivation unit (403), arranged to derive at least the low dynamic range image (Im_LDR) based on the data describing the second color mapping (Fi(MP_DL)) and the pixel colors encoded in the second image with low dynamic range (GT_IDR). It can be seen from this decoder that it can access mapping parameters to map the colors of an LDR image both upwards to a REC_HDR and “downwards” to obtain an LDR classification, Im_LDR, desirable for content creators. The image derivation unit will have functionality (eg loaded software or hardware parts of an IC) to perform the necessary decoding color mappings (eg pre-arranged). One can also see that the technical classification GT_IDR is a technical classification, as it will have lower mood load (even without comparing to the optimal Im_LDR), since the objects' luminances are not in the optimal location along the luminance axis, and will typically have slightly lower contrast, slightly brighter darks, etc. and, of course, a limited amount of codes for the various object regions in the image.

[032] Vantajosamente, o decodificador de imagem (401) compreende uma unidade de configuração do sistema (402), disposta de modo a determinar se o decodificador está conectado a, e/ou se deve derivar uma imagem para, pelo menos um dentre um dispositivo de exibição com alta faixa dinâmica (411) e um dispositivo de exibição com baixa faixa dinâmica (416), em que a unidade de configuração do sistema (402) está disposta de modo a configurar a unidade de derivação de imagem (403) para determinar pelo menos a reconstrução (REC_HDR), em caso de uma conexão ao dispositivo de exibição com alta faixa dinâmica (411), e disposta para configurar a unidade de derivação de imagem (403) para determinar pelo menos a imagem com baixa faixa dinâmica (Im_LDR), em caso de uma conexão ao dispositivo de exibição com baixa faixa dinâmica (416). O presente sistema (ou seja, o sinal codificado e vários tipos de decodificador) precisa ser capaz de trabalhar com decodificadores simples que, por exemplo recebem uma HDR codificada como o presente LDR_container, acima, em GT_IDR, mas deste precisa somente da LDR para um dispositivo de exibição LDR. Os mesmos irão, então, ignorar a maior parte das informações, e extrair somente GT_IDR e FI(MP_DL), e calcular Im_LDR a partir das mesmas. Os decodificadores mais sofisticados determinarão, por exemplo instantaneamente com o dispositivo de exibição ao qual estão conectados, por exemplo sem o uso de fios, e fornecerão várias combinações de todas as informações codificadas recebidas, otimamente para os vários dispositivos de exibição conectados (por exemplo, o mesmo filme enviado aos pais na sala de cinema do sótão, e ao filho na cama, assistindo em seu dispositivo portátil LDR).[032] Advantageously, the image decoder (401) comprises a system configuration unit (402) arranged to determine whether the decoder is connected to, and/or whether to derive an image for, at least one of a high dynamic range display device (411) and a low dynamic range display device (416), wherein the system configuration unit (402) is arranged to configure the image derivation unit (403) to determine at least the reconstruction (REC_HDR), in case of a connection to the display device with high dynamic range (411), and arranged to configure the image derivation unit (403) to determine at least the image with low dynamic range (Im_LDR), in case of a connection to the display device with low dynamic range (416). The present system (i.e. the encoded signal and various decoder types) needs to be able to work with simple decoders that for example receive an HDR encoded like the present LDR_container above in GT_IDR, but this needs only the LDR for an LDR display device. They will then ignore most of the information, and extract only GT_IDR and FI(MP_DL), and calculate Im_LDR from them. The most sophisticated decoders will determine, for example instantaneously with the display device they are connected to, for example wirelessly, and will deliver various combinations of all received encoded information, optimally for the various connected display devices (for example, the same movie sent to the parents in the attic cinema room, and to the child in bed, watching on his portable LDR device).

[033] Então, vantajosamente, o decodificador de imagem (401), de acordo com qualquer das reivindicações anteriores, tem como saída uma conexão com fio (410) ou uma conexão sem fio (415) a qualquer dispositivo de exibição conectável, e um formatador de sinal (407) disposto para transmitir pelo menos uma ou ambas dentre a reconstrução (REC_HDR) e a imagem com baixa faixa dinâmica (Im_LDR) a qualquer dispositivo de exibição conectado.[033] So, advantageously, the image decoder (401), according to any of the preceding claims, outputs a wired connection (410) or a wireless connection (415) to any connectable display device, and a signal formatter (407) arranged to transmit at least one or both of the reconstruction (REC_HDR) and the image with low dynamic range (Im_LDR) to any connected display device.

[034] Também vantajosamente, a unidade de derivação de imagem (403) está disposta de modo a determinar uma imagem adicional (FURTHGR), com base na reconstrução (REC_HDR) e na imagem com baixa faixa dinâmica (Im_LDR), ou na segunda imagem com baixa faixa dinâmica (GT_IDR) e nos dados que descrevem o primeiro mapeamento de cores (Fi(MP_T)) e nos dados que descrevem o segundo mapeamento de cores (Fi(MP_DL)). Isso permite determinar as classificações finais ótimas (por exemplo, sinais de acionamento direto) para vários dispositivos de exibição conectados (capacidade de sintonização do dispositivo de exibição, por exemplo obter através de uma medição do dispositivo de exibição um valor da iluminação circundante etc., e otimizar com o mesmo o sinal de acionamento de dispositivo de exibição).[034] Also advantageously, the image derivation unit (403) is arranged to determine an additional image (FURTHGR), based on the reconstruction (REC_HDR) and the image with low dynamic range (Im_LDR), or on the second image with low dynamic range (GT_IDR) and the data describing the first color mapping (Fi(MP_T)) and the data describing the second color mapping (Fi(MP_DL)). This makes it possible to determine the optimal final ratings (e.g. direct trigger signals) for various connected display devices (tuning capability of the display device, e.g. obtaining a value of the surrounding lighting by measuring the display device, etc., and optimizing the display trigger signal with the same).

[035] O codificador de imagem pode ser compreendido em vários aparelhos, por exemplo sua entrada de sinal de imagem (405) pode ser conectada a uma unidade de leitura (409) disposta de modo a ler o sinal de imagem a partir de um objeto de memória (102), por exemplo um disco blu-ray.[035] The image encoder can be understood in various devices, for example its image signal input (405) can be connected to a reading unit (409) arranged to read the image signal from a memory object (102), for example a blu-ray disc.

[036] Todas as modalidades dos aparelhos acima podem ser adicionalmente realizadas como métodos, sinais e produtos para armazenamento de sinal equivalentes, em vários usos ou aplicações, etc.[036] All embodiments of the above apparatus can be additionally realized as equivalent methods, signals and signal storage products, in various uses or applications, etc.

BRIEF DESCRIPTION OF THE DRAWINGS

[037] Estes e outros aspectos do método e do aparelho de acordo com a presente invenção ficarão evidentes e esclarecidos com referência às implementações e modalidades descritas mais adiante neste documento, e com referência aos desenhos em anexo, os quais servem meramente como ilustrações específicas não limitadoras, exemplificando o conceito mais geral, e em que traços são usados para indicar que um componente é opcional, sendo os componentes sem traço não necessariamente essenciais. Os traços podem também ser usados para indicar que elementos, os quais são explicados como sendo essenciais, estão ocultos no interior de um objeto, ou para coisas intangíveis, por exemplo seleções de objetos/regiões (e como estas podem ser mostradas em um dispositivo de exibição).[037] These and other aspects of the method and apparatus according to the present invention will be evident and clarified with reference to the implementations and embodiments described later in this document, and with reference to the accompanying drawings, which serve merely as specific non-limiting illustrations, exemplifying the more general concept, and in which dashes are used to indicate that a component is optional, with components without a dash not necessarily essential. Strokes can also be used to indicate which elements, which are explained as being essential, are hidden inside an object, or for intangible things, for example selections of objects/regions (and how these can be shown on a display device).

IN THE DRAWINGS:

[038] A Figura 1 ilustra esquematicamente um sistema legado de codificação de imagem ou vídeo, conforme exemplificado por uma câmera com ponto de joelho ajustável;[038] Figure 1 schematically illustrates a legacy image or video coding system, as exemplified by a camera with an adjustable knee point;

[039] A Figura 2 ilustra esquematicamente uma primeira possível realização do presente sistema de codificação de imagem, em que a unidade de classificação automática deriva a segunda imagem em LDR automaticamente classificada GT_IDR com base em uma classificação de LDR anterior por ser humano;[039] Figure 2 schematically illustrates a first possible embodiment of the present image coding system, in which the automatic classification unit derives the second automatically classified LDR image GT_IDR based on a previous LDR classification by a human being;

[040] A Figura 3 ilustra esquematicamente uma segunda possível realização do presente sistema de codificação de imagem, em que uma segunda imagem em LDR automaticamente classificada GT_IDR, a partir de uma unidade de classificação automática, serve como base para classificação adicional que define uma classificação de LDR final Im_LDR por um classificador humano;[040] Figure 3 schematically illustrates a second possible embodiment of the present image coding system, in which a second LDR image automatically classified GT_IDR, from an automatic classification unit, serves as the basis for additional classification that defines a final LDR classification Im_LDR by a human classifier;

[041] A Figura 4 ilustra esquematicamente uma possível variante de um sistema de decodificação de imagem, em que um aparelho de decodificação de alto padrão lê os dados codificados de acordo com qualquer das presentes modalidades de codificação, e deriva a partir dos mesmos os sinais adequados para vários dispositivos de exibição conectados diferentes;[041] Figure 4 schematically illustrates a possible variant of a picture decoding system, in which a high-end decoding apparatus reads the data encoded according to any of the present encoding modalities, and derives signals suitable therefrom for several different connected display devices;

[042] A Figura 5 ilustra esquematicamente uma modalidade de codificador de acordo com os princípios da presente invenção, o qual está incorporado em uma câmera;[042] Figure 5 schematically illustrates an encoder modality according to the principles of the present invention, which is incorporated in a camera;

[043] A Figura 6 ilustra esquematicamente um princípio por trás de uma variante da presente codificação, mostrado como um gráfico lógico de relações de mapeamento de cores entre classificações;[043] Figure 6 schematically illustrates a principle behind a variant of the present coding, shown as a logical graph of color mapping relationships between ranks;

[044] A Figura 7 ilustra esquematicamente um modo para definir a presente entrada inicial, a qual é uma HDR principal com classificação M_HDR, e mostra como os dados provenientes de uma câmera ou de um sistema de computação gráfica podem ser gravados nesse tipo de especificação matemática de cores, em particular ao longo da faixa de seu correlato de luminância;[044] Figure 7 schematically illustrates a way to define the present initial input, which is a main HDR with M_HDR classification, and shows how data from a camera or a computer graphics system can be recorded in this type of mathematical specification of colors, in particular along the range of its luminance correlate;

[045] A Figura 8 ilustra esquematicamente um exemplo de uma estratégia de mapeamento de cores, especificamente uma parte de mapeamento de luminância da mesma;[045] Figure 8 schematically illustrates an example of a color mapping strategy, specifically a luminance mapping part thereof;

[046] A Figura 9 ilustra esquematicamente um exemplo de como determinar se qualquer função ou algoritmo de mapeamento tem exatidão adequada para reconstrução de REC_HDR;[046] Figure 9 schematically illustrates an example of how to determine whether any mapping function or algorithm has adequate accuracy for REC_HDR reconstruction;

[047] A Figura 10 ilustra esquematicamente um exemplo de como transformar uma função inadequada em uma adequada;[047] Figure 10 schematically illustrates an example of how to transform an inadequate function into an adequate one;

[048] A Figura 11 ilustra esquematicamente alguns exemplos de como manipular o mapeamento de cores em um espaço de cor tridimensional;[048] Figure 11 schematically illustrates some examples of how to manipulate color mapping in a three-dimensional color space;

[049] A Figura 12b ilustra esquematicamente como um classificador pode interagir com uma curva de alocação de código para sintonia fina da mesma, e na Figura 12a é esquematicamente mostrado como regiões da curva de alocação de código podem ser selecionadas por (co)interação com os objetos na imagem atualmente observada;[049] Figure 12b schematically illustrates how a classifier can interact with a code allocation curve to fine tune it, and in Figure 12a it is schematically shown how regions of the code allocation curve can be selected by (co)interaction with objects in the currently observed image;

[050] A Figura 13 ilustra esquematicamente como se pode ir de uma classificação técnica que, neste exemplo, já seria útil para renderização em LDR, para uma classificação em LDR com melhor aparência, por meio de uma transformação paramétrica muito simples, realizando um estiramento de contraste de boa qualidade e adaptativo ao conteúdo;[050] Figure 13 schematically illustrates how one can go from a technical classification that, in this example, would already be useful for rendering in LDR, to a classification in LDR with better appearance, through a very simple parametric transformation, performing a good quality contrast stretching and adaptive to the content;

[051] A Figura 14 oferece um exemplo de como se pode manipular limitações colorimétricas adicionais na classificação técnica, o que pode então, ao ser recebido, ser usado para gerar a imagem ótima para renderização em um dispositivo de exibição específico;[051] Figure 14 provides an example of how one can handle additional colorimetric limitations in the technical classification, which can then, upon receipt, be used to generate the optimal image for rendering on a specific display device;

[052] A Figura 15 ilustra esquematicamente uma nova estratégia útil para processamento da saturação, que é especialmente interessante para classificação para representações de cores que têm uma estrutura de luminância diferente, por exemplo devido a uma renderização pretendida em um dispositivo de exibição com faixa dinâmica de luminância diferente;[052] Figure 15 schematically illustrates a useful new strategy for saturation processing, which is especially interesting for classification for color representations that have a different luminance structure, for example due to an intended rendering on a display device with different luminance dynamic range;

[053] A Figura 16 ilustra esquematicamente um aparelho da parte de criação e uso para esse processamento da saturação inovador; e[053] Figure 16 schematically illustrates an apparatus of the creation and use part for this innovative saturation processing; It is

[054] A Figura 17 ilustra esquematicamente apenas dois usos possíveis quando são necessárias classificações para uma situação de renderização de faixa dinâmica mais alta e mais baixa.[054] Figure 17 schematically illustrates just two possible uses when classifications are required for a higher and lower dynamic range rendering situation.

DETAILED DESCRIPTION OF THE DRAWINGS

[055] A Figura 1 apresenta um resumo das ideias por trás de todas as codificações clássicas de imagem e vídeo, as quais são denominadas codificação em LDR. Suponha-se que se tem uma câmera de televisão profissional (embora considerações similares se apliquem a câmeras fotográficas para consumidores) capturando luz com um sensor de imagem 104, por exemplo um sensor de CMOS. Essa luz estará, após um ADC, em um espaço linear que se correlaciona à luminância (em princípio sendo a luminância vezes um fator de escala quando se ignora o ruído, as não linearidades do ADC, etc.) e será, por exemplo um sinal R,G,B assim chamado em bruto (raw) (ou ciano, magenta, amarelo e verde, ou similares para outros sensores, mas estes serão então convertidos em matriz para RGB, então se pode focalizar nisso). O princípio dessa captura em LDR é que um sinal precisa ter uma boa aparência em um televisor doméstico (que costumava consistir em um TRC com aproximadamente 100 nits de pico_de_branco, ou um pouco mais escuro ou mais brilhante). Em um estúdio, um diretor, um operador de câmera ou pessoa similar assistirá diretamente a saída da câmera em um TRC de referência, para verificar se o programa capturado tem, de fato, uma boa aparência. A captura desse tipo de programa em LDR (de fato, a exposição automática conforme primariamente determinada mediante a seleção de uma configuração de abertura) é determinada pelo princípio de ter um brilho adequado renderizado para cinza médio. Como esse cinza médio é, pela não linearidade da visão humana, diretamente ligado aos brancos em partes similarmente iluminadas da cena (e presumindo-se uma reprodução (quase)linear, tipicamente até um fator de escala, também no TRC), o mesmo corresponde especificamente a objetos refletindo aproximadamente 18% da luz incidente. O designer de iluminação ajusta sua iluminação de palco para que, em torno da ação, a iluminação seja relativamente uniforme (por exemplo, razão de contraste de 3:1), e talvez também ilumine alguns cantos da cena para evitar “buracos negros” na renderização final. Agora, ter um dispositivo de exibição 110 com um pico_de_branco máximo obtenível (isso é especialmente verdadeiro com, por exemplo LCDs com alguma iluminação de fundo TL fixa, mas também com um TRC no qual a intensidade do feixe poderia ser controlada por meio de um ajuste de contraste, para qualquer configuração ainda há um brilho máximo obtenível), não significa que isso tenha que corresponder exatamente ao branco de, diga-se, um papel de alta reflexão no ponto ideal da cena. Devido à sempre existente variação de iluminação, especialmente para a ação em movimento no vídeo, isso seria pouco prático, e quando alguém move o papel para uma zona com iluminância um pouco mais alta, pode rapidamente ocorrer um corte indesejável. Assim, é necessário um pouco de cuidado com o lado brilhante, embora para cenas e programas típicos em LDR, não seja preciso tanto. No lado escuro, simplesmente se deixa o sinal desaparecer no ruído da câmera. Assim, no lado brilhante se renderiza o branco em uma posição W abaixo do pico_de_branco PW. Não muito, de preferência, de modo que ainda pareça branco e não cinza claro (há alguma latitude quanto a isso para imagens naturais composta de objetos). Além disso, o cinza médio MG, e as cores de faces humanas que se enquadram em torno disso, serão então razoavelmente visíveis, já que ficarão razoavelmente brilhantes na renderização. Assim, esse é o requisito mínimo de qualquer captura ou classificação, que se possa ver claramente a atuação dos atores em suas faces (e olhos, os quais podem ser um pouco mais sombreados devido a sua localização protuberante na cavidade ocular) e, mais especificamente, as cores das faces de todos aqueles belos atores terão uma aparência atraente (e não muito escurecidas ou pálidas). O restante das cores (por exemplo, mais escuras) se tornam, então, automaticamente razoáveis ao longo da curva. Tipicamente, usa-se uma curva que tem cerca de uma raiz quadrada, historicamente devido ao comportamento do TRC (não linearidade do canhão de elétrons modulada pela iluminação da placa frontal etc.), e ainda se usa essa curva muito útil porque a mesma modela a caracterização de luminosidade da visão humana (isto é, valores de luminância são aproximadamente luminosidades, sendo a primeira o valor matemático codificado em, por exemplo um espaço Rec. 709, e sendo a segunda a aparência psicovisual de um ser humano). Agora, o televisor pode fazer algumas transformações simples naquela curva, por exemplo podem reforçar todos os valores por um fator multiplicativo. Essas operações, por exemplo para compensar uma alteração no ambiente de visualização, têm um impacto sobre as propriedades de aparência da imagem psicovisual, como o contraste da imagem, e os contrastes de seus objetos. A câmera pode realizar operações similares. Agora, a questão é onde posicionar otimamente as luminâncias, como MG, e como fazê-lo facilmente. Em um sistema simples, um codificador 101 na câmera pode transformar todos os valores entre Máxima Luminância (Max_Luminance) do sinal em bruto e o que quer que esteja abaixo, mediante a flexão dos mesmos com uma função de raiz quadrada definida a partir daquela Max_Luminance. Então, todos os possíveis valores capturados pela câmera a partir da cena serão codificados em uma imagem Im_LDR (aqui mostrada em uma imagem codificada que compreende o meio 102, como um disco blu-ray, mas poderia também ser um sinal transmitido por um cabo ou pelo ar) assim gerada (tipicamente, são quantizados os valores para, por exemplo 8 bits, e podem ser executadas outras operações, como operações de codificação de imagem, como decomposições de aproximação com transformação de cosseno discreto, DCT). Ao elevar ao quadrado os valores das luminâncias codificadas, um decodificador 103 pode recuperar com o dispositivo de exibição as luminâncias originais da cena, conforme capturadas novamente sob a forma de luminâncias renderizadas pelo dispositivo de exibição. Agora, nesse sistema estritamente controlado, há um grau de liberdade para acomodar as variações mínimas em uma típica cena em LDR. Com o uso cego dessa alocação em raiz quadrada, pode ocorrer (se for determinado o máximo da cena em objetos altamente iluminados, mediante a determinação da exposição para aqueles objetos de modo a ainda tê-los bem capturados) que o cinza médio e as cores de face fiquem muito escuros em uma curva como essa. Se houver muitos objetos brilhante que precisam ser razoavelmente bem capturados, seria bom ter uma curva para definição de código, a qual diminui um pouco mais lentamente, iniciando a partir do código RAW mais brilhante. Isso pode ser feito oferecendo-se ao operador de câmera um ponto de joelho controlável. Pode-se, por exemplo selecionar com o joelho o nível de luminância de entrada correspondente a seu ponto ideal de branco para ação, e colocar isso, por exemplo a 90% do código de luminância máxima (correspondente ao pico_de_branco no dispositivo de exibição). Tem-se, então, 10% de códigos restantes para codificação de todos os valores acima disso, e pode-se ajustar o coeficiente angular da parte da curva acima do joelho, para incorporar por exemplo, as luminâncias até um máximo de 600% do ponto ideal de luminância do branco. Desse modo, pode-se ajustar essa curva correspondendo a uma iluminação mais simples ou mais contrastada de uma cena em LDR. Se é uma cena de baixo contraste, pode-se colocar o ponto de joelho próximo à luminância máxima, e dificilmente codificar quaisquer luminâncias acima do branco do ponto ideal, e caso se deseje ter muita informação de alta luminância, por exemplo em um show de entrevistas onde se fala sobre pratarias brilhantes, pode-se incorporar algumas das altas luzes brilhantes no sinal de luminância codificado. Esse sistema simples se adapta automaticamente à melhor classificação de uma cena em LDR específica no lado do dispositivo de exibição, isto é, deixa um pouco de espaço extra para as altas luzes da prataria, escurecendo um pouco as cores mais escuras, e empurra algo da estrutura visível para dentro dos objetos mais brilhantes (severamente deformados em comparação às luminâncias da cena original daqueles objetos brilhantes, e frequentemente com cores pastel devido ao formato de gama dos sistemas RGB, mas ainda assim existindo até um certo grau). Entretanto, esse tipo de sistema LDR rapidamente corta os brilhos mais altos, e não é adequado para codificar, por exemplo o mundo exterior visível através das janelas do estúdio, mundo esse com o qual não se importam. Às vezes, isso leva a situações estranhas, quando um operador de câmera que trabalha em campo decide fotografar uma pessoa do outro lado de sua sala de estar, onde está relativamente escuro. Então, metade da imagem capturada que mostra as partes mais claras da sala serão cortados para branco quando a exposição estiver correta para a face. Embora isso ainda possa ser um pequeno incômodo em uma tela LDR, onde os brancos simplesmente aparecem como alguns “objetos de cor branca”, mas não regiões realmente luminosas, isso leva à uma situação bem estranha em um dispositivo de exibição de 5.000 nits, onde metade da imagem apresenta um brilho extremo.[055] Figure 1 presents a summary of the ideas behind all the classic image and video encodings, which are called LDR encoding. Suppose you have a professional television camera (although similar considerations apply to consumer still cameras) capturing light with an image sensor 104, for example a CMOS sensor. That light will, after an ADC, be in a linear space that correlates to luminance (in principle being luminance times a scale factor when ignoring noise, ADC non-linearities, etc.) and will be, for example, a so-called raw R,G,B signal (or cyan, magenta, yellow and green, or similar for other sensors, but these will then be matrix converted to RGB, so you can focus on that). The principle behind this LDR capture is that a signal needs to look good on a home TV (which used to consist of a TRC with approximately 100 nits of peak_white, or slightly darker or brighter). In a studio, a director, camera operator or similar person will directly watch the camera output on a reference CRT to verify that the captured program does indeed look good. Capturing this type of program in LDR (indeed, auto exposure as primarily determined by selecting an aperture setting) is determined by the principle of having a suitable brightness rendered for mid-grey. As this average gray is, due to the non-linearity of human vision, directly linked to the whites in similarly illuminated parts of the scene (and assuming a (quasi)linear reproduction, typically up to a scale factor, also in the TRC), it specifically corresponds to objects reflecting approximately 18% of the incident light. The lighting designer adjusts your stage lighting so that around the action the lighting is relatively even (e.g. 3:1 contrast ratio), and perhaps also brightens some corners of the scene to avoid “black holes” in the final render. Now, having a 110 display device with a maximum obtainable white_peak (this is especially true with, for example LCDs with some fixed TL backlighting, but also with a TRC in which the beam intensity could be controlled via a contrast adjustment, for any setting there is still a maximum obtainable brightness), does not mean that this has to exactly match the white of, say, a high reflective paper in the sweet spot of the scene. Due to the ever-existing variation in lighting, especially for moving action in video, this would be impractical, and when one moves the paper to an area of slightly higher illuminance, undesirable clipping can quickly occur. Thus, a little care is needed on the bright side, although for typical LDR scenes and programs, not as much is needed. On the dark side, you simply let the signal fade into camera noise. So on the bright side it renders white at a W position below the white_peak PW. Not too much, preferably, so that it still looks white and not light gray (there is some latitude in this for natural images composed of objects). Also, the mid-grey MG, and the human face colors that frame around it, will then be reasonably visible, as they will be reasonably bright in the render. So that's the minimum requirement of any capture or rating, that you can clearly see the acting of the actors in their faces (and eyes, which could be a bit more shaded due to their protruding location in the eye socket) and, more specifically, the face colors of all those beautiful actors will look attractive (and not too dark or pale). The rest of the colors (eg darker) then automatically become reasonable along the curve. Typically, a curve that is about a square root is used, historically due to the behavior of the TRC (non-linearity of the electron gun modulated by faceplate illumination, etc.), and this curve is still used very usefully because it models the luminosity characterization of human vision (i.e., luminance values are approximately luminosities, the first being the mathematical value encoded in, for example, a Rec. 709 space, and the second being the psychovisual appearance of a human being). Now the TV can do some simple transformations on that curve, for example it can boost all the values by a multiplicative factor. These operations, for example to compensate for a change in the viewing environment, have an impact on the appearance properties of the psychovisual image, such as the contrast of the image, and the contrasts of its objects. The camera can perform similar operations. Now the question is where to optimally place the luminances like MG and how to do it easily. In a simple system, an encoder 101 in the camera can transform all values between Maximum Luminance (Max_Luminance) of the raw signal and whatever is below, by bending them with a square root function defined from that Max_Luminance. Then, all possible values captured by the camera from the scene will be encoded in an Im_LDR image (here shown in an encoded image comprising medium 102, like a blu-ray disc, but could also be a signal transmitted over a cable or over the air) thus generated (typically, the values are quantized to, for example, 8 bits, and other operations can be performed, such as image encoding operations, such as approximation decompositions with discrete cosine transform, DCT). By squaring the values of the encoded luminances, a decoder 103 can retrieve with the display device the original luminances of the scene, as recaptured as luminances rendered by the display device. Now, in this tightly controlled system, there is a degree of freedom to accommodate the slightest variations in a typical LDR scene. With the blind use of this square root allocation, it can happen (if you determine the maximum of the scene on highly illuminated objects, by determining the exposure for those objects in order to still have them captured well) that the middle gray and face colors are too dark on a curve like this. If there are a lot of shiny objects that need to be captured reasonably well, it would be nice to have a curve for code definition, which decreases a bit more slowly starting from the brightest RAW code. This can be done by offering the cameraman a controllable knee point. You can, for example, knee select the input luminance level corresponding to your ideal white point for action, and set this to, say, 90% of the maximum luminance code (corresponding to the peak_of_white on the display device). You then have 10% of codes remaining for encoding all values above that, and you can adjust the slope of the above-the-knee part of the curve, to incorporate, for example, luminances up to a maximum of 600% of the ideal white luminance point. This way, you can adjust this curve corresponding to a simpler or more contrasted lighting of a scene in LDR. If it's a low contrast scene, you can put the knee point close to the maximum luminance, and hardly encode any luminances above the white of the ideal point, and if you want to have a lot of high luminance information, for example in a talk show where you talk about shiny silverware, you can incorporate some of the bright highlights into the encoded luminance signal. This simple system automatically adapts to the best rating of a particular LDR scene on the display device side, i.e. leaves a little extra room for the silver highlights, darkens the darker colors a bit, and pushes some of the visible structure into the brighter objects (severely warped compared to the original scene luminances of those bright objects, and often pastel colored due to the gamma format of RGB systems, but still existing to some degree). However, this type of LDR system quickly cuts out the highest brightness, and is not suitable for encoding, for example, the outside world visible through studio windows, which they don't care about. This sometimes leads to awkward situations, when a cameraman working in the field decides to photograph a person from across their living room, where it is relatively dark. So half of the captured image that shows the brightest parts of the room will be clipped to white when the exposure is correct for the face. While this can still be a minor annoyance on an LDR screen, where whites simply appear as some "white colored objects" but not really bright regions, it leads to a rather odd situation on a 5,000 nit display device, where half of the image is extremely bright.

[056] Então, o sistema LDR, com sua filosofia e também as capacidades inerentes de sua construção técnica, não é adequado para captura em HDR, onde ao mesmo tempo se deseja capturar uma primeira parte iluminada de uma cena, e uma segunda parte muito mais (por exemplo, 100 vezes) iluminada de uma cena e, talvez, simultaneamente mesmo uma parte muito escura, etc.[056] So, the LDR system, with its philosophy and also the inherent capabilities of its technical construction, is not suitable for capturing in HDR, where at the same time you want to capture a first illuminated part of a scene, and a much more (for example, 100 times) illuminated second part of a scene and, perhaps, simultaneously even a very dark part, etc.

[057] Com a Figura 2 esclarecem-se agora alguns dos princípios por trás das variantes da presente invenção, especificamente uma modalidade específica de um codificador de imagem 202 incorporado em um sistema de classificação. É mostrada a presente unidade de classificação automática 203, como sendo parte de um sistema de classificação. Esse tipo de sistema pode, por exemplo ser um computador executando software de classificação, mas poderia também ser um sistema menos complexo no qual um ser humano, por exemplo somente às vezes modifica algumas configurações de um mapeamento de cores a partir de um local remoto. Um classificador humano pode especificar seus mapeamentos de cor desejados por meio de um sistema de interface de usuário 230, que pode por exemplo, compreender um console de classificação dedicado, com trackballs etc. Acoplado ao software, pode-se aumentar, por exemplo a saturação de cores de uma região de imagem selecionada, ou arrastar para cima um ponto marcado em uma curva de mapeamento de tons (por exemplo, entrada de componente vermelho (red component_in) versus saída de componente vermelho (red component_out) resultante, para todos os pixels). A presente descrição será focalizada no que ocorre tipicamente em uma imagem em HDR principal já otimamente pré-classificada (por exemplo, recebida via entrada 240 conectável por exemplo, a um servidor de dados, ou uma conexão de Internet, etc.), embora possa, também, vir direto de uma câmera, que pode por exemplo, ter feito internamente alguma classificação. Com a Figura 7, descreve- se um sistema exemplificador de como se pode definir essas classificações ou imagens de HDR principal. Qualquer captura ou classificação por câmera é, de fato, apenas uma representação de uma cena do mundo, que precisa estimular um ser humano a obter uma impressão razoável daquela cena do mundo, então não precisa ser necessariamente uma representação exatamente acurada. De fato, é sempre necessário cruzar o difícil limite da cena como referência, em que a câmera simplesmente age como um dispositivo de medição linear, para o dispositivo de exibição como referência, em que um dispositivo de exibição precisa emular para um ser humano a cena original em uma configuração muito diferente (embora parte dessa complexidade não precise ser manipulada na codificação principal, mas pode ser deixada para as transformações do dispositivo de exibição). Pode-se discutir se uma codificação principal deveria ser capaz de codificar com precisão, por exemplo o sol, onde um dispositivo de exibição jamais poderá renderizar com precisão o sol (o que, mesmo quando possível e sensato, em termos de consumo de energia, seria muito irritante para o observador em telas menores). Então porque não alocá-lo mesmo a, por exemplo um código fixo de alta luminância (por exemplo, um pseudo sol de 20.000 nits em vez de 1 bilhão de nits). Além do mais, um problema com sistemas em que a cena é referência, que são capazes de codificar todos os tipos de valores que não são fáceis de tornar visíveis, é que não é fácil trabalhar com esses espaços de cor. Por exemplo, se um classificador precisasse ajustar as saturações de algumas flores saturadas que ele não pode perceber em seu atual dispositivo de exibição de classificação, ele pode estar fazendo cores feias para quando aquela imagem for mostrada em um dispositivo de exibição melhor, que pode mostrar aquelas cores. Talvez essa seja uma operação que possa ser consertada depois, mas poderia se perguntar o porquê de isso ter sido feito, em primeiro lugar, pelo menos com aquelas cores. Na modalidade de codificação em HDR da Figura 7, dá-se muito valor a uma grande faixa de luminâncias, as quais podem ser codificadas (/classificadas) com razoável precisão em uma faixa de luminâncias de um dispositivo de exibição de referência HDR de alta qualidade, por exemplo com 10.000 nits de pico_de_branco (correspondente a um valor de luminância MAX_REF em uma representação de HDR completa HDR_FREP). A ideia é que se possa ter pelo menos as cores mais interessantes caracterizadas em uma especificação de alta faixa dinâmica, e que o classificador possa realmente vê-las, e otimamente posicionar as luminâncias de vários objetos de cena, um em comparação ao outro (por exemplo, escurecer as nuvens). Essa faixa de, por exemplo 0,01 nit (que se pode chamar simplesmente de 0) a 10.000 nits de cores que podem ser mostradas será a classificação principal M_HDR* em questão, já que se pode classificá-la otimamente. A ideia é que qualquer dispositivo de exibição com menor faixa dinâmica possa derivar suas cores a serem renderizadas iniciando a partir da especificação das cores dentro de M_HDR* (tipicamente se extrai da representação completa da imagem em HDR, HDR_FREP, essa faixa como entrada M_HDR para o presente sistema, por exemplo da Figura 2). Essa especificação provavelmente também funcionará razoavelmente bem para dispositivos de exibição com faixa dinâmica mais alta. Por exemplo, o classificador pode classificar aproximadamente algumas luzes brilhantes da cena, de modo que pelo menos apareçam brilhantes em qualquer renderização de dispositivo de exibição. Ele pode codificar, na classificação de referência M_HDR* para o dispositivo de exibição de referência HDR, a luz mais brilhante a, diga-se 99% (linear) de MAX_REF, e pode codificar uma outra luz brilhante para que ainda seja brilhante, mas em contraste, definitivamente menos brilhante, a diga-se 80% de MAX_REF. Um dispositivo de exibição real de 20.000 nits pode usar simples alteração de escala nos códigos daquelas luzes, por exemplo reforçando ambos com um fator 2, o que meramente corresponde a referenciá-las similarmente (porcentualmente) a seu mais alto pico_de_branco. Nesse caso, ambas as luzes podem ser um pouco mais brilhantes - como poderiam ter sido na cena original - mas em grande parte a aparência daquela renderização em HDR ainda é similar à aparência de referência no monitor de referência de 10.000 nits do classificador. Realmente, caso se deseje codificar com maior precisão os valores mais altos do que o que pode ser aproximadamente codificado na M_HDR* (por exemplo, escurecendo adequadamente uma luz, de modo que fique dentro da faixa, ainda que com uma aparência similar, isto é, a exata luminância da cena daquela luz é irrelevante) pode-se fazê-lo na definição de espaço de cor da Figura 7, independentemente se gostaria de usar aqueles valores mais tarde, para um dispositivo de exibição com faixa dinâmica mais alta, de modo a renderizar aquelas cores brilhantes com maior precisão que com um estiramento dos valores codificados em M_HDR*. Assim, ainda se pode adicionar algumas cores realmente brilhantes (ou realmente escuras) fora da faixa de M_HDR* do que tipicamente resultaria em uma renderização realmente boa de uma cena em HDR, e pode-se tipicamente comprimir fortemente aquelas cores, isto é, representá-las somente com um par de valores, com os códigos em HDR_FREP sendo relacionado de modo altamente não linear com as luminâncias reais da cena. Por exemplo, ao observar uma cena com contraste muito alto, por exemplo uma cena de soldagem à noite, pode haver um longo período de tempo sem nada acima da faixa M_HDR* que codifica os objetos úteis e, então, há as luminâncias do arco. Pode-se representar aquelas com um formato fortemente posterizado do arco (isto é, alguns códigos) e colocá-los logo acima de MAX_REF. Isto já seria um modo de ter representações razoáveis daquele arco (já com a gama mapeada para cores que estão próximas daquelas que são tipicamente renderizáveis em um dispositivo de exibição em HDR) mas, se quiser, também se pode deslocar em metadados uma função de como deslocar os mesmos para luminâncias mais próximas das luminâncias reais na cena (por exemplo, uma constante de deslocamento de luminância). É mostrada uma faixa de luminâncias capturáveis CAM_1 de uma câmera HDR que podem realizar essa captura, e uma parte da mesma está codificada em M_HDR*, por exemplo diretamente mediante a alocação (possivelmente com um multiplicador de contraste linear) dos valores de luminância relativos para valores de luminância dentro de M_HDR*, ou se pode usar alguma função de mapeamento que realize automaticamente um primeiro tipo de classificação (por exemplo, aproximando um pouco umas das outras as luminâncias mais brilhantes ou mais escuras). As luminâncias mais brilhantes capturadas pela câmera são, então, armazenadas na faixa de transbordamento RW_STR_HI até o máximo MAX_REP da codificação de cor. Foi mostrado um exemplo onde se codifica um certo nível de escuros no código 0, e com algum mapeamento se podem armazenar luminâncias ainda mais escuras em valores negativos até MIN_REP. Também foi mostrado, por exemplo como profissionais de efeitos especiais podem desenhar na computação gráfica, CG, da codificação de cores em HDR, como explosões brilhantes.[057] With Figure 2, some of the principles behind the variants of the present invention are now clarified, specifically a specific embodiment of an image encoder 202 incorporated into a classification system. The present automatic sorting unit 203 is shown as being part of a sorting system. This type of system could, for example, be a computer running sorting software, but it could also be a less complex system in which a human being, for example, only occasionally changes some settings of a color mapping from a remote location. A human classifier may specify its desired color mappings via a user interface system 230, which may for example comprise a dedicated classification console, with trackballs etc. Coupled to the software, you can increase, for example, the color saturation of a selected image region, or drag upwards a marked point on a tone mapping curve (for example, red component input (red component_in) versus resulting red component output (red component_out), for all pixels). The present description will focus on what typically happens in a main HDR image already optimally pre-classified (for example, received via input 240 connectable for example, to a data server, or an Internet connection, etc.), although it may also come directly from a camera, which may, for example, have done some classification internally. With Figure 7, an example system is described of how to define these classifications or main HDR images. Any camera capture or classification is, in fact, just a representation of a world scene, which needs to encourage a human being to get a reasonable impression of that world scene, so it need not necessarily be an exactly accurate representation. Indeed, it is always necessary to cross the difficult boundary from scene-as-reference, where the camera simply acts as a linear measurement device, to display-as-reference, where a display device needs to emulate for a human being the original scene in a very different configuration (although some of this complexity need not be handled in the main coding, but can be left to display device transformations). It can be argued whether a core encoding should be able to accurately encode e.g. the sun, where a display device will never be able to accurately render the sun (which, even when possible and sensible, in terms of power consumption, would be very irritating to the viewer on smaller screens). So why not allocate it yourself to, for example, a fixed high luminance code (for example, a pseudo sun of 20,000 nits instead of 1 billion nits). Furthermore, a problem with scene-referenced systems, which are capable of encoding all sorts of values that are not easy to make visible, is that these color spaces are not easy to work with. For example, if a classifier needed to adjust the saturations of some saturated flowers that it can't see on its current sorting display device, it might be making ugly colors for when that image is shown on a better display device, which might show those colors. Perhaps this is an operation that can be fixed later, but one might wonder why this was done in the first place, at least with those colors. In the HDR encoding mode of Figure 7, a large range of luminances are given a lot of value, which can be encoded (/classified) with reasonable accuracy into a luminance range of a high quality HDR reference display device, for example with 10,000 nits of white_peak (corresponding to a MAX_REF luminance value in a full HDR representation HDR_FREP). The idea is that you can have at least the most interesting colors characterized in a high dynamic range specification, and that the classifier can actually see them, and optimally position the luminances of various scene objects, one against the other (e.g. darkening clouds). This range of, for example, 0.01 nit (which you can simply call 0) to 10,000 nits of colors that can be displayed will be the main M_HDR* classification in question, since you can classify it optimally. The idea is that any display device with lower dynamic range can derive its colors to be rendered starting from the specification of the colors within M_HDR* (typically it is extracted from the complete HDR image representation, HDR_FREP, this range as M_HDR input for the present system, for example in Figure 2). This spec will also likely work reasonably well for display devices with higher dynamic range. For example, the classifier can roughly classify some bright lights in the scene so that they at least appear bright on any display device rendering. It can encode, in the M_HDR* reference rating for the HDR reference display device, the brightest light at, say 99% (linear) of MAX_REF, and it can encode another bright light so that it's still bright, but in contrast, definitely less bright, at, say, 80% of MAX_REF. A real 20,000 nit display device could use simple scaling on the codes for those lights, for example boosting both by a factor of 2, which merely corresponds to referencing them similarly (percentage) to their highest white_peak. In that case, both lights might be a little brighter - as they could have been in the original scene - but for the most part that rendering in HDR still looks similar to the reference look on the classifier's 10,000-nit reference monitor. Indeed, if you want to more accurately encode values higher than what can be roughly encoded in M_HDR* (e.g. properly dimming a light so that it is in-range yet similar in appearance, i.e. the exact scene luminance of that light is irrelevant) you can do so in the color space definition of Figure 7, regardless of whether you would like to use those values later on, for a display device with higher dynamic range, in order to render those bright colors more accurately than with a stretch of the encoded values in M_HDR*. Thus, you can still add some really bright (or really dark) colors outside the M_HDR* range of what would typically result in a really good rendering of an HDR scene, and you can typically compress those colors heavily, i.e., represent them with just a couple of values, with the codes in HDR_FREP being highly non-linearly related to the actual luminances in the scene. For example, when looking at a scene with very high contrast, for example a welding scene at night, there can be a long period of time with nothing above the M_HDR* range that encodes the useful objects, and then there are the arc luminances. One could represent those with a strongly posterized arc format (that is, some code) and place them just above MAX_REF. This would already be a way to have reasonable representations of that arc (already with the gamma mapped to colors that are close to those that are typically renderable on an HDR display device) but, if you want, you can also shift in metadata a function of how to shift them to luminances closer to the real luminances in the scene (for example, a luminance shift constant). It is shown a range of capturable luminances cam_1 of an HDR camera that can perform this capture, and part of it is encoded in M_HDR*, for example directly through allocation (possibly with a linear contrast multiplier) of luminance values for luminance values within M_HDR*, or if you can use some mapping function that automatically performs a first type of classification (for example, for example, for example, for example a little of each other the brightest or darker luminances). The brightest luminances captured by the camera are then stored in the overflow range RW_STR_HI up to the maximum MAX_REP of the color encoding. An example was shown where a certain level of darkness is encoded in code 0, and with some mapping even darker luminance can be stored in negative values up to MIN_REP. It was also shown, for example, how special effects professionals can draw in computer graphics, CG, HDR color coding, as bright explosions.

[058] Novamente com referência à Figura 2, o classificador humano usa a unidade de classificação de imagem 201, que está disposta de modo a realizar qualquer dentre um conjunto de transformações de cores. Este pode ser um conjunto limitado de funções de transformação de cores seguindo critérios matemáticos, por exemplo reversibilidade (o termo reversibilidade normalmente significa que, em uma codificação de cores suficientemente precisa, como com flutuadores, é possível reverter a função para rederivar uma imagem de entrada a partir de sua imagem de saída, após aplicar a transformação; o termo cor significa pelo menos um correlato de luminância da especificação de cor de um pixel, uma região ou um objeto) ou, de preferência, é um conjunto amplo de funções que permitem que o classificador classifique a imagem de qualquer maneira que deseje. Os exemplos de funções típicas são aquelas suportadas, por exemplo por Da Vinci Resolve, ou Adobe Photoshop. Internamente, neste estágio, pode-se presumir que todo o processamento ainda ocorra nas codificações flutuantes [0,0, 1,0] dos coeficientes de cor, com a definição precisa incluindo a quantização que é ativada em um estágio posterior na unidade de classificação de imagem 201. Entretanto, a imagem em LDR de saída, Im_LDR, tipicamente já estará codificada de acordo com o padrão de codificação de imagem ou vídeo, por exemplo para sinais não comprimidos pode ser quantizada em um espaço de cor YCrCb, ou pode ser comprimida com o uso de ondas pequenas, etc. A formatação real dessa imagem, por exemplo a divisão em blocos de dados, embora insira cabeçalhos e outros metadados, será tipicamente manuseada por um formatador 220, o qual produz um sinal de imagem TSIG, por exemplo em direção a uma memória para imagens 102. Esse sinal pode ser armazenado naquela memória de acordo com, por exemplo as especificações de disco blu-ray, ou de acordo com alguma definição para armazenamento em um cartão flash ou disco rígido, etc. O versado na técnica entenderá que, de maneira similar, o sinal de imagem TSIG pode ser enviado através de alguma conexão de dados, por exemplo sem o uso de fios a um servidor doméstico com memória permanente ou temporária para armazenamento do TSIG ou das uma ou mais imagens.[058] Again referring to Figure 2, the human classifier uses the image classification unit 201, which is arranged to perform any one of a set of color transformations. This can be a limited set of color transform functions following mathematical criteria, for example reversibility (the term reversibility usually means that in a sufficiently accurate color coding, such as with floats, it is possible to reverse the function to redeliver an input image from its output image, after applying the transform; the term color means at least a luminance correlate of the color specification of a pixel, region or object) or, preferably, it is a broad set of functions that allow the classifier to classify the image in any way that you wish. Examples of typical functions are those supported, for example by Da Vinci Resolve, or Adobe Photoshop. Internally, at this stage, it can be assumed that all processing still takes place on the floating [0,0, 1,0] color coefficients encodings, with the precise definition including quantization being activated at a later stage in the image classification unit 201. However, the output LDR image, Im_LDR, will typically already be encoded according to the image or video encoding standard, e.g. for uncompressed signals it may be quantized in a YCrCb color space, or it may be compressed using small waves, etc. The actual formatting of this image, e.g. splitting it into blocks of data, whilst inserting headers and other metadata, will typically be handled by a formatter 220 which outputs a TSIG image signal, e.g. to a memory for images 102. This signal may be stored in that memory according to e.g. One skilled in the art will understand that, similarly, the TSIG image signal can be sent over some data connection, for example wirelessly to a home server with permanent or temporary memory for storage of the TSIG or the one or more images.

[059] Na Figura 8, é apresentado um exemplo de como um classificador pode classificar iniciando a partir de uma imagem de entrada para criar uma imagem de saída. Focaliza-se na relação entre os brilhos da subfaixas e, posteriormente, em apresentar alguns exemplos de como manusear os componentes cromáticos das cores de pixel. Presume-se que os pixels da imagem em HDR de entrada (In) tenham sido codificados com suas luminâncias L_HDR, e que os valores de saída em LDR sejam codificações, então podemos chamá-los de luminâncias Y_LDR. Embora os presentes métodos não sejam, de qualquer modo, limitados a profundidades de bit específicas, presume-se que as luminâncias estejam na faixa de [0,255]. Agora o classificador estudará a imagem de entrada específica para processar (para vídeo esta será uma imagem-chave em uma tomada de imagens a terem suas cores similarmente mapeadas), e projetará um mapeamento de cores ótimo, no exemplo um mapeamento multissegmentos, de acordo com sua preferência. Suponha-se que se tem uma parte coberta (por exemplo, sob a sombra de árvores, onde reside o ator principal) abaixo da luminância em HDR Lt_1, e algumas casas no plano de fundo que são mais brilhantes. Assim, suas luminâncias de pixel em HDR se enquadrarão acima de Lt_1, mas não é necessário que a mais escura fique diretamente acima de Lt_1. Além do mais, pode haver uma lâmpada muito brilhante, com luminâncias acima de Lt_3. Agora essa cena é diferente da cena clássica em LDR em questão, acima. Têm-se duas cenas interessantes, a sombra em torno do ator (na qual se deseja deixar o ator bem visível, mas ainda assim claramente mais escuro que a maior parte da cena) e as casas iluminadas pelo sol no plano de fundo circundante. O classificador pode, por exemplo escolher tornar a região entre Lt_11 e Lt_12, a qual contém as cores da face, suficientemente brilhantes e contrastadas, para deixar a face claramente visível. Ele pode fazê-lo em detrimento das cores mais escuras, que precisam ser codificadas com poucos valores de código Y_LDR, e abaixo de Lt_13 as mesmas serão até mesmo cortadas para Y_LDR=0. Ele também codificará/classificará com menos contraste/precisão as luminâncias entre Lt_12 e Lt_1, baixando o coeficiente angular daquele segmento. Isso cria espaço na faixa de Y_LDR para as casas iluminadas pelo sol, as quais ele grava com a curva definida mediante o arrasto de um ponto de controle CP. As cores da lâmpada, após uma descontinuidade de luminância de cores sem ocorrência, podem ser codificadas logo acima do final da luminância Y_H das casas, ou iniciar um par de códigos (por exemplo, 10) acima disso.[059] In Figure 8, an example of how a classifier can classify starting from an input image to create an output image is presented. It focuses on the relationship between subband brightnesses and, later, presents some examples of how to handle the chromatic components of pixel colors. It is assumed that the pixels of the input HDR image (In) have been encoded with their L_HDR luminances, and that the output LDR values are encodings, so we can call them Y_LDR luminances. Although the present methods are by no means limited to specific bit depths, it is assumed that the luminances are in the range of [0.255]. Now the classifier will study the specific input image to process (for video this will be a key image in a shot of images to be similarly color mapped), and design an optimal color mapping, in the example a multisegment mapping, according to your preference. Suppose you have a covered part (for example, under the shade of trees, where the main actor resides) below the luminance in HDR Lt_1, and some houses in the background that are brighter. So your pixel luminances in HDR will fall above Lt_1, but you don't need the darkest to be directly above Lt_1. Furthermore, there may be a very bright lamp, with luminances above Lt_3. Now this scene is different from the classic LDR scene in question above. You have two interesting scenes, the shadow around the actor (where you want to make the actor very visible, but still clearly darker than most of the scene) and the sunlit houses in the surrounding background. The classifier may, for example, choose to make the region between Lt_11 and Lt_12, which contains the face colors, sufficiently bright and contrasted to make the face clearly visible. It can do this to the detriment of darker colors, which need to be encoded with few Y_LDR code values, and below Lt_13 they will even be clipped to Y_LDR=0. It will also encode/classify with less contrast/accuracy the luminances between Lt_12 and Lt_1, lowering the slope of that segment. This makes room in the Y_LDR range for the sunlit houses, which it records with the curve defined by dragging a CP control point. Lamp colors, after a non-occurring color luminance discontinuity, can be coded just above the Y_H luminance end of the houses, or start a couple of codes (eg 10) above that.

[060] Agora, na filosofia de recipiente de LDR em questão, essa curva de mapeamento de cores pode tanto funcionar como uma curva de otimização da aparência da cor para a imagem de saída, isto é, por exemplo tipicamente uma classificação em LDR derivada de uma classificação em HDR, como também funcionar como uma curva de definição de código. Análogo às curvas de gama 0,45 de, por exemplo MPEG, que definem uma codificação de luminância para cada luminância inserida ou renderizada, a curva ótima em questão define a alocação de valores de código específico às várias luminâncias na imagem em HDR de entrada. Porém, portanto, simultaneamente os vários objetos de imagem ou suas subfaixas de luminância também já são corretamente posicionados ao longo do eixo de luminância para acionar diretamente (ou talvez com pequena transformação, o que pode envolver pré- correção de características do dispositivo de exibição físico, como manipulação de EOTF, ou pequenos ajustes em direção a, por exemplo um ambiente de visualização escurecido específico, por meio de uma simples transformação do dispositivo de exibição) um dispositivo de exibição LDR.[060] Now, in the LDR container philosophy in question, this color mapping curve can both function as a color appearance optimization curve for the output image, i.e. for example typically an LDR classification derived from an HDR classification, and also function as a code definition curve. Analogous to the 0.45 gamma curves of, for example, MPEG, which define a luminance encoding for each input or rendered luminance, the optimal curve in question defines the allocation of specific code values to the various luminances in the input HDR image. However, therefore, simultaneously the various image objects or their luminance subranges are also already correctly positioned along the luminance axis to drive directly (or perhaps with minor transformation, which may involve pre-correction of physical display device characteristics, such as EOTF manipulation, or small adjustments towards, for example a specific dimmed viewing environment, via a simple display device transformation) an LDR display device.

[061] Assim, alteraram-se ou generalizaram-se algumas verdades fundamentais da tecnologia de codificação em LDR. Em particular, perguntando o que vem a ser branco em HDR (o papel branco no ponto ideal de iluminação em ambiente interno, onde a ação ocorre, ou a tinta branca das casas ensolaradas no ambiente externo; com a visão humana também capaz de lidar muito habilmente com tudo isso de maneira semântica), abandonou-se a visão de prender tudo a um branco específico, ou a um correlato do mesmo, como “o” cinza médio da cena/imagem. Como alternativa a isso, apresentam-se regimes de cores, os quais podem funcionar em si mesmos, qualquer que seja a relação de luminância com cores específicas, como algum branco. Por exemplo, pode haver o regime para as casas ensolaradas ou para a lâmpada, os quais podem ter seu próprio tratamento que, agora, sem necessariamente fazer referências precisas, pode ser semântico-relacional em vez de numérico preciso. Já foi apresentado o exemplo de um ambiente externo brilhante, ou de uma luz muito brilhante. Em vez de, usando uma relação de luminância fixa, tornar o brilho (por exemplo, médio, ou mais baixo) do ambiente externo por exemplo, 5x mais brilhante, pode-se simplesmente torná-lo “mais brilhante por uma quantidade razoável”. A quantidade razoável pode, então, ser determinada por fim no lado do dispositivo de exibição. Por exemplo, um dispositivo de exibição HDR muito brilhante de 15.000 nits pode tornar o ambiente externo 20x mais brilhante, mas um que seja limitado pode precisar comprimir todas as cores das casas ensolaradas em uma faixa superior que é apenas 1,5x mais brilhante, em média, que as cores do ambiente interno, dando apenas uma simulação inicial do fato de que está ensolarado do lado de fora. De maneira similar, uma região escura pode ser renderizada não tão exatamente com luminâncias Lx, Ly, etc., mas como “apenas distinguível”. Sistemas inteligentes de decodificação e otimização de HDR podem levar em conta as especificidades do dispositivo de exibição e do ambiente, e podem otimizar ainda mais, iniciando a partir do ajuste de classificação definido, os sinais de acionamento finais.[061] Thus, some fundamental truths of LDR coding technology were altered or generalized. In particular, by asking what is white in HDR (the white paper in the sweet spot of lighting indoors, where the action takes place, or the white paint of sunny houses outdoors; with human vision also able to handle all of this very deftly semantically), the view of pinning everything to a specific white, or a correlate of it, as “the” middle gray of the scene/image was abandoned. As an alternative to this, color schemes are presented, which can work on their own, whatever the luminance ratio with specific colors, such as some white. For example, there may be the regime for the sunny houses or the light bulb, which may have their own treatment which, now, without necessarily making precise references, may be semantic-relational rather than numerically precise. The example of a bright outdoor environment, or a very bright light, has already been given. Instead of, using a fixed luminance ratio, making the brightness (eg medium, or lower) of the external environment for example 5x brighter, one can simply make it “brighter by a fair amount”. The reasonable amount can then be ultimately determined on the display device side. For example, a very bright 15,000 nit HDR display device might make the outdoor environment 20x brighter, but one that is limited might need to compress all sunny house colors into a higher range that is only 1.5x brighter, on average, than the indoor environment colors, giving only an initial simulation of the fact that it is sunny outside. Similarly, a dark region can be rendered not so exactly with luminances Lx, Ly, etc., but as "only distinguishable". Intelligent HDR decoding and optimization systems can take into account the specifics of the display device and the environment, and can further optimize, starting from the defined classification adjustment, the final trigger signals.

[062] Assim, em segundo lugar isto significa que se abandona o conceito de um único código fixo que define a curva como uma gama geral principal de 0,45 que, estando próxima da visão humana, é considerada adequada pelo menos para toda a faixa de luminâncias LDR. Quer se use qualquer classificação de cores tão restrita (ou seja, o dispositivo de exibição precisa tentar renderizar tão próximo quanto possível da aparência que teria, por exemplo em um monitor de referência LDR, isto é, com mínimo ajuste próprio) ou tão liberal (onde a classificação é apenas uma orientação relativa, declarando aproximadamente como se pode deformar as cores para manter algo da intenção artística em, por exemplo uma faixa física de luminâncias mais limitada), será permitido que o classificador crie, em algumas modalidades, até mesmo funções de definição de código arbitrárias, as quais podem até mesmo ser funções descontínuas.[062] So, secondly this means that it abandons the concept of a single fixed code that defines the curve as a main general range of 0.45 which, being close to human vision, is considered adequate at least for the entire range of LDR luminance. Whether you use any color classification as strict (i.e., the display device needs to try to render as close as possible to how it would look, for example on an LDR reference monitor, i.e., with minimal self-adjustment) or as liberal (where the classification is just a relative orientation, roughly declaring how it can deform the colors to keep something of the artistic intent in, for example, a more limited physical range of luminance), the classifier will be allowed, in some embodiments, even arbitrary code definition functions, which may even be discontinuous functions.

[063] E, em terceiro lugar, declara-se que não deve mais haver uma única imagem classificada, mas ao invés disso as classificações precisam ser otimizadas para cada situação de renderização. E a visão humana sendo complexa, especialmente quanto mais os sistemas de renderização variam quanto a suas propriedades, menos corretamente isso poderá ser feito com mapeamentos automáticos de cor (especialmente os simples), e tanto mais as várias classificações deverão ser produzidas otimamente mediante classificações por seres humanos. Na prática, porém, nota-se que para muitos cenários, dados os investimentos necessários, será suficiente ter somente duas classificações (uma clássica para LDR, e uma classificação HDR para os sistemas em HDR), e quando for necessário um ajuste mais preciso, os sistemas podem então se aproximar mais das boas classificações interpolando ou extrapolando tecnicamente as mesmas, com base nessas duas classificações a partir de suas informações artísticas incluídas.[063] And thirdly, it is stated that there should no longer be a single classified image, but instead the classifications need to be optimized for each rendering situation. And human vision being complex, especially the more rendering systems vary in their properties, the less correctly this can be done with automatic color mappings (especially simple ones), and the more the various classifications must be produced optimally by classifications by humans. In practice, however, it is noticed that for many scenarios, given the necessary investments, it will be sufficient to have only two classifications (a classic one for LDR, and an HDR classification for the systems in HDR), and when a more precise adjustment is necessary, the systems can then get closer to the good classifications by technically interpolating or extrapolating them, based on these two classifications from their included artistic information.

[064] Parar após a classificação de Im_LDR, e gravar aquela imagem recipiente em LDR em uma memória de imagem, juntamente com uma função de previsão para reconstruir reversivelmente uma aproximação da HDR principal M_HDR a partir da mesma (talvez para alguns sistemas um classificador usando mapeamentos de cor estritamente reversíveis não seja necessário, já que, para sistemas de menor qualidade pode ser suficiente reconstruir uma REC_HDR com desvios significativa em relação a M_HDR, contanto que os efeitos em HDR derivados dos dados de Im_LDR ainda produzam uma aparência razoavelmente similar a HDR, caso no qual pode-se cocodificar essas funções de mapeamento de cores para reconstrução de HDR, que têm aproximações inversas dos mapeamentos de cor reais usados pelo classificador humano), seria bom para sistemas com, por exemplo 12 ou 14 bits (não lineares) definindo a codificação Im_LDR (dependendo dos requisitos das várias aplicações). Ao se decidir por especificações mais rígidas, por exemplo 8 ou 10 bits (dos quais a maioria das pessoas diria ser difícil codificar imagens em HDR, mas já que os seres humanos discriminam somente alguns milhões de cores e, dependendo da aplicação, como um vídeo com movimentos rápidos e ruído considerável, a quantidade de cores necessárias pode ser ainda menor, portanto se fosse o caso de codificar as cores necessárias mais importantes corretamente nos 8 bits, isso seria possível), pode ser útil seguir as etapas adicionais da presente invenção para garantir uma qualidade aprimorado tanto da classificação LDR como da classificação HDR, enquanto se permite ao classificador um máximo de flexibilidade quanto a que aparência deverão ter aquelas classificações (isto é, em quais subfaixas de luminância (correlato de luminância) deverão se enquadrar todos os objetos).[064] Stopping after classification of Im_LDR, and recording that container image in LDR in an image memory, together with a prediction function to reversibly reconstruct an approximation of the main HDR M_HDR from it (perhaps for some systems a classifier using strictly reversible color mappings is not necessary, since, for lower quality systems it may be sufficient to reconstruct a REC_HDR with significant deviations from M_HDR, as long as the HDR effects derived from the Im_ data LDR still produce a reasonably HDR-like appearance, in which case one could cocode those color mapping functions for HDR reconstruction, which have inverse approximations of the actual color mappings used by the human classifier), it would be fine for systems with e.g. 12 or 14 bit (non-linear) defining Im_LDR encoding (depending on the requirements of the various applications). When deciding on more rigid specifications, for example 8 or 10 bits (which most people would say is difficult to encode images in HDR, but since humans only discriminate a few million colors and depending on the application, such as a video with fast movements and considerable noise, the amount of colors needed may be even less, so if it were the case to encode the most important colors needed correctly in 8 bits, this would be possible), it may be useful to follow the additional steps of the present invention to ensure an improved quality of both the LDR classification and the classification. HDR, while allowing the classifier maximum flexibility as to what those classifications should look like (ie, what luminance subbands (luminance correlate) should all objects fall into).

[065] Presume-se, agora, na continuação do exemplo da Figura 2 em questão, que o classificador classifique de modo muito liberal, com uma função arbitrária de mapeamento de luminância, e as luminâncias em LDR são quantizadas para apenas 8 bits. O coeficiente angular da curva de mapeamento entre Lt12 e Lt_1 pode ser tão baixo que há demasiadamente poucos códigos para representar fielmente aquelas cores, por exemplo de vegetação na sombra. Em uma renderização em LDR que pode não ser tão desagradável (de fato não é, ou o classificador não teria especificado a curva dessa maneira), porém, após reconstruir as luminâncias em HDR para esses objetos, a posterização pode conferir uma qualidade de textura desagradavelmente baixa àqueles objetos em uma renderização de tão alta qualidade.[065] It is now assumed, in the continuation of the example in Figure 2 in question, that the classifier classifies very liberally, with an arbitrary luminance mapping function, and the luminances in LDR are quantized to only 8 bits. The slope of the mapping curve between Lt12 and Lt_1 can be so low that there are too few codes to faithfully represent those colors, for example of vegetation in the shade. In an LDR render that might not be that unpleasant (in fact it isn't, or the classifier wouldn't have specified the curve that way), however, after reconstructing the HDR luminances for these objects, posterization can impart unpleasantly low texture quality to those objects in such a high quality render.

[066] Portanto, a unidade de classificação automática 203 analisará a classificação de LDR Im_LDR do classificador humano, e identificará e resolverá esses problemas. Há várias maneiras para que a unidade 203 possa fazê-lo. Ela pode, por exemplo simplesmente analisar as próprias imagens, e comparar as regiões espaciais das mesmas. Por exemplo, a mesma pode examinar uma região em Im_LDR (como uma face escura) e contar o número de códigos de luminância que a representam. As regras internas da unidade podem especificar que qualquer região, ou especialmente uma região de face, não deveria ser representada com menos que MB (por exemplo, 10) diferentes valores de código (ou, em geral, um certo número de cores, tipicamente com base no número de luminâncias da mesma, porém restrições similares podem ser contadas no número de saturações diferentes representáveis, por exemplo). Ou, a unidade 203 pode comparar a quantidade de códigos na região em Im_LDR com a quantidade de diferentes códigos (tipicamente luminâncias, mas M_HDR poderia estar codificado com diferentes correlatos de luminância, também) na imagem em HDR. Se houver muitos valores diferentes em M_HDR, deve haver um número razoável de luminâncias em Im_LDR para aquela região, também. Por exemplo, a regra pode ser que a fração das luminâncias de Im_LDR versus as luminâncias de HDR não deve ser menor que 1/5, ou 1/10 etc. De maneira similar, pode-se definir relações com base em faixas no espaço de luminância em ponto flutuante para M_HDR. Uma análise de imagens mais complexa pode ser feita, por exemplo estudando-se os formatos geométricos e estimando como esses formatos se desviam quando representados por menos cores. Por exemplo, um detector pode identificar manchas disformes em formatos. Essa é uma generalização de um detector de bandas, que verifica se há fileiras de um número de pixels tendo o mesmo valor posterizado em Im_LDR ou, de fato, REC_HDR, onde os mesmos não existem, e são de fato transições funcionais suaves em M_HDR. Informações adicionais podem ser obtidas a partir de estimadores de textura, os quais podem determinar, por exemplo a complexidade local de regiões da imagem, etc. Mesmo se a determinação da classificação automática GT_IDR não vá se basear somente na análise de qualquer das imagens obteníveis (classificações) propriamente ditas, é útil se a unidade de classificação automática 203 compreender uma unidade de análise de imagens 213 capaz de realizar qualquer das análises acima, já que os dados resultantes são úteis mesmo quando se especifica uma curva-modelo, em um sistema que trabalha nas curvas de mapeamento de cores das classificações.[066] Therefore, the automatic classification unit 203 will analyze the LDR Im_LDR classification of the human classifier, and identify and solve these problems. There are several ways that unit 203 can do this. It can, for example, simply analyze the images themselves, and compare their spatial regions. For example, it can examine a region in Im_LDR (such as a dark face) and count the number of luminance codes that represent it. The unit's internal rules may specify that any region, or especially a face region, should not be represented with less than MB (e.g. 10) different code values (or, in general, a certain number of colors, typically based on the number of luminances thereof, but similar restrictions can count on the number of different saturations representable, for example). Or, unit 203 may compare the amount of codes in the region in Im_LDR with the amount of different codes (typically luminances, but M_HDR could be encoded with different luminance correlates, too) in the HDR image. If there are many different values in M_HDR, there should be a fair number of luminances in Im_LDR for that region, too. For example, the rule might be that the fraction of Im_LDR luminances versus HDR luminances should not be less than 1/5, or 1/10, etc. Similarly, you can define range-based ratios in the floating-point luminance space for M_HDR. More complex image analysis can be done, for example by studying geometric shapes and estimating how these shapes deviate when represented by fewer colors. For example, a detector can identify misshapen patches in shapes. This is a generalization of a band detector, which checks for rows of a number of pixels having the same posterized value in Im_LDR or, in fact, REC_HDR, where they do not exist, and are in fact smooth functional transitions in M_HDR. Additional information can be obtained from texture estimators, which can determine, for example, the local complexity of image regions, etc. Even if the determination of the automatic GT_IDR classification is not going to be based solely on the analysis of any of the obtainable images (classifications) themselves, it is useful if the automatic classification unit 203 comprises an image analysis unit 213 capable of performing any of the above analyzes, as the resulting data is useful even when specifying a model curve, in a system working on the color mapping curves of the classifications.

[067] Para isso está compreendida uma unidade de determinação de curvas 211, e deve-se esclarecer algumas das possíveis modalidades da mesma com as Figuras 9 e 10. Em qualquer caso, se a determinação da classificação automática for realizada com base em análise de imagens, algoritmos de mapeamento como funções de mapeamento de luminância, ou ambos, ou qualquer outra análise ou prescrição, tipicamente a unidade de análise de curva 211 terá uma unidade determinando e produzindo um algoritmo ou função de mapeamento de cor final Fi(MP_T) (e, possivelmente também, uma unidade executando um ou mais dentre vários algoritmos de curva de mapeamento de cores ou análise de algoritmo, pela qual o algoritmo possa ser analisado em si mesmo, ou quanto a como se comporta com cores quando representadas por uma ou mais curvas). Esse mapeamento automático é, agora, como se pode derivar GT_IDR a partir de M_HDR, portanto uma unidade de mapeamento de cores 215 derivará GT_IDR mediante a aplicação do mapeamento Fi(MP_T) a M_HDR. É claro que é necessário levar em conta, nessa nova formulação, qual foi a classificação por ser humano Im_LDR, agora que tudo será em referência a GT_IDR. Assim, uma unidade de mapeamento de LDR 217 analisará como a Im_LDR pode ser obtida a partir de GT_IDR, e derivar disso os parâmetros. Se uma luminância de pixel mapeia de L_HDR = 2.000 para Y_Im_LDR = 180, e para Y_GT_IDR = 200, então pode-se derivar um mapeamento entre esses últimos. Nesse tipo de forma funcional, os valores de Y_Im_LDR ao longo da faixa podem ser derivados mediante a aplicação de uma função por luminância que multiplica Y_GT_IDR por (Y_Im_LDR/Y_GT_IDR). Estratégias similares podem ser derivadas para outros mapeamentos.[067] For this, a curve determination unit 211 is understood, and some of the possible modalities of the same should be clarified with Figures 9 and 10. In any case, if the automatic classification determination is carried out based on image analysis, mapping algorithms such as luminance mapping functions, or both, or any other analysis or prescription, typically the curve analysis unit 211 will have a unit determining and producing a final color mapping algorithm or function Fi(MP_T) (and possibly also, a unit performing one or more of several color mapping curve algorithms or algorithm analysis, by which the algorithm can be analyzed on its own, or for how it behaves with colors when represented by one or more curves). This automatic mapping is now how GT_IDR can be derived from M_HDR, so a color mapping unit 215 will derive GT_IDR by applying the mapping Fi(MP_T) to M_HDR. It is clear that it is necessary to take into account, in this new formulation, what was the classification by human being Im_LDR, now that everything will be in reference to GT_IDR. Thus, an LDR mapping unit 217 will analyze how Im_LDR can be obtained from GT_IDR, and derive parameters therefrom. If a pixel luminance maps from L_HDR = 2000 to Y_Im_LDR = 180, and to Y_GT_IDR = 200, then a mapping between the latter can be derived. In this type of functional form, Y_Im_LDR values across the range can be derived by applying a function per luminance that multiplies Y_GT_IDR by (Y_Im_LDR/Y_GT_IDR). Similar strategies can be derived for other mappings.

[068] Com a Figura 9 esclarece-se um modo computacionalmente simples de redeterminar a classificação por ser humano em uma classificação técnica, mediante o estudo da curva de classificação do classificador humano (seja por si só, ou com o auxílio de análise de imagens ou, potencialmente, mesmo por interação com o classificador humano). Será usado um exemplo de deformação de curva, mas o versado na técnica pode entender que uma análise similar pode ser usada para selecionar uma dentre um conjunto de curvas com bom funcionamento (uma ou mais curvas CRV_i na Figura 2). Se o classificador deseja um comportamento suave e sem contraste em uma região média, e um comportamento estirado em regiões externas (por exemplo, na HDR as regiões predominantes, onde ocorre a ação principal, podem precisar ser suaves como seda, mas lâmpadas no plano de fundo podem ser renderizadas mais grosseiramente, e até mesmo a formação de bandas pode não ser perceptível ou nem ao menos importante, pelo menos em algumas situações), pode-se selecionar (com base, por exemplo em um cálculo de uma correlação funcional) uma dentre um conjunto de curvas pré-acordadas, a qual melhor corresponda a esse comportamento, mas que não tenha uma quantização muito alta para a parte central. Esse tipo de seleção pode ser guiada por análise de imagens adicional, como determinar a qual classe uma imagem pertence (ambiente externo ensolarado, ou paisagem noturna com algumas luzes brilhantes), observar a distribuição do histograma e seus parâmetros (por exemplo, locais e tamanhos dos lóbulos estimado, etc., seja de modo (semi)automático, seja pela experiência do classificador de cores humano). Ou seja, pode haver algumas curvas predefinida 901 que oferecem um comportamento razoável, pelo menos de um ponto de vista de precisão. Uma imagem real precisa ser coordenada em torno desse comportamento, levando em conta os desejos do classificador quanto à aparência da classificação. É claro que, se uma quantização real for boa em comparação a uma situação teórica ótima ou razoavelmente funcional, isso dependerá também de quantos pixels de uma cor específica há em uma imagem específica. Por exemplo, se a parte escura for apenas um pequeno pedaço de olhar através de uma grade para dentro de um esgoto, diga-se 50 x 50 pixels no ângulo inferior direito de uma imagem, então alguma quantização pode ser bastante admissível para o classificador, pelo menos para aquela imagem, tomada ou cena. Ou seja, as várias curvas podem funcionar como uma seleção final para a classificação técnica (caso haja uma, ou algumas curvas-guia principais - por exemplo, dependendo do ponto de branco do dispositivo de exibição pretendido, como se a imagem se destina primariamente a dispositivos de exibição de 1.000 nits ou 10.000 nits, ou características adicionais do ambiente de renderização ou propriedades de imagem - determinando a precisão da quantização em relação à luminância ou faixa de luminância), ou podem funcionar como pontos de partida a partir dos quais a curva de classificação técnica pode ser submetida a ajuste fino, até que a mesma estire ao máximo suas deformações de precisão do código para as classificações de imagem mais críticas (tipicamente, a HDR a ser reconstruída) e, a partir daí, pode-se codificar os requisitos adicionais na outra aparência de classificação (tipicamente uma LDR) meramente pelas funções de transformação a serem aplicadas àquela classificação técnica GT_IDR.[068] Figure 9 clarifies a computationally simple way to redetermine the classification by human being in a technical classification, by studying the classification curve of the human classifier (either by itself, or with the aid of image analysis, or, potentially, even by interaction with the human classifier). An example of curve deformation will be used, but those skilled in the art will appreciate that a similar analysis can be used to select one from a set of well-functioning curves (one or more CRV_i curves in Figure 2). If the classifier wants smooth, non-contrast behavior in a middle region, and stretched behavior in outer regions (for example, in HDR the predominant regions, where the main action takes place, may need to be silky smooth, but background lamps may be rendered more coarsely, and even banding may not be noticeable or not at all important, at least in some situations), one can select (based on, for example, a calculation of a functional correlation) one among a set of pre-agreed curves, which best matches this behavior, but which doesn't have too high a quantization for the middle part. This type of selection can be guided by further image analysis, such as determining which class an image belongs to (sunny outdoor environment, or nightscape with some bright lights), looking at the histogram distribution and its parameters (e.g. estimated lobe locations and sizes, etc. That is, there may be some predefined 901 curves that offer reasonable behavior, at least from an accuracy point of view. A real image needs to be coordinated around this behavior, taking into account the classifier's wishes for what the classification looks like. Of course, whether an actual quantization is good compared to a theoretically optimal or reasonably functional situation will also depend on how many pixels of a particular color are in a particular image. For example, if the dark part is just a small piece of looking through a grate into a sewer, say 50 x 50 pixels in the bottom right corner of an image, then some quantization might be quite allowable for the classifier, at least for that image, shot, or scene. That is, the various curves can function as a final selection for the technical classification (if there is one, or a few key guide curves - for example, depending on the white point of the intended display device, such as whether the image is primarily intended for 1000-nit or 10,000-nit display devices, or additional characteristics of the rendering environment or image properties - determining quantization accuracy with respect to luminance or luminance range), or they can function as starting points to from which the technical classification curve can be subjected to fine-tuning, until it stretches its code accuracy deformations to the maximum for the most critical image classifications (typically the HDR to be reconstructed) and, from there, one can encode the additional requirements into the other classification appearance (typically an LDR) merely by the transform functions to be applied to that technical classification GT_IDR.

[069] Agora, porém, será descrito um algoritmo de deformação de curva exemplificador. Será calculada uma modalidade específica de uma quantidade de informações, a qual consiste em uma quantidade de códigos usados NC por subfaixa de luminância (e pode-se digitalizar uma faixa contínua em M_HDR, também, tipicamente mediante a distribuição uniforme de alguns códigos de número inteiro ao longo daquela faixa). Será observada uma faixa de teste específica sob estudo (entre L3 e L4) mas, embora algumas modalidades possam testar somente algumas faixas, como as faixas escuras, é vantajoso se todas as faixas de luminância de M_HDR forem assim testadas. Pode-se formular, de maneira similar, se alguma faixa de M_HDR for mapeada a, diga-se, 5 códigos Y_LDR, ou se uma subfaixa da mesma for mapeada a um único valor de Y_LDR.[069] Now, however, an exemplary curve deformation algorithm will be described. A specific modality will be calculated from a quantity of information, which consists of a quantity of used NC codes per luminance subband (and one can digitize a continuous band in M_HDR, too, typically by evenly distributing a few integer codes over that band). A specific test band under study (between L3 and L4) will be observed, but although some modalities may only test certain bands, such as the dark bands, it is advantageous if all M_HDR luminance bands are thus tested. One can similarly formulate if any M_HDR range is mapped to, say, 5 Y_LDR codes, or if a subrange thereof is mapped to a single Y_LDR value.

[070] O método tem início a partir de uma função de codificação de referência 901 (REF_CODF na Figura 2), o que especifica quantos códigos são necessários para cada intervalo para ser bem reconstruível em REC_HDR. O versado na técnica deve entender que isso depende de, e pode ser calculado a partir de, parâmetros técnicos como a faixa dinâmica do dispositivo de exibição de referência que pertence a M_HDR, as especificidades pretendidas da classificação Im_LDR etc. Essas uma ou mais funções de codificação de referência, embora possam ser calculadas em qualquer codificador instantâneo (e possam, então, ser opcionalmente transmitidas no sinal TSIG sob a forma de metadados) podem, tipicamente, ser pré- calculadas em um laboratório de design de, por exemplo um fabricante de software de classificação e, consequentemente, em um modo acordado armazenado em uma memória pelo menos do codificador (em princípio o decodificador não precisa dessas informações, mas pode também tê-las, por exemplo no caso de funções como Fi(MP_T) são definidas como relações a essa função de referência, mas que tipicamente não será o caso, por uma questão de simplicidade). O codificador pode, se tiver algumas variantes, escolher uma, dependendo de como Im_LDR e REC_HDR finais devam ser renderizadas, e isto pode acontecer com algumas seleções de software do classificador humano. A função 901 especifica como muitos códigos são necessários para cada intervalo de luminâncias. Por exemplo, no exemplo foi decidido que somente três códigos da Y_LDR_min de 8 bits (o número mínimo de códigos necessários, dados uma reconstrução permitida ou um erro de representação), ou seja, de fato da Im_LDR, serão usados para todas as luminâncias de HDR mais escuras que L1. Assim, essas regiões escuras serão grosseiramente quantizadas, mas ainda assim terão alguma estrutura. Se essas regiões forem tornadas brilhantes, pode ocorrer uma grave posterização dos objetos de imagem local (seja em uma renderização reconstruída em HDR, ou uma renderização modificada em LDR por meio de uma transformação de aumento de brilho no dispositivo de exibição), mas isso pode ter sido uma decisão final para ser possível codificar suficientes imagens em HDR nesse código de 8 bits (se o conjunto de imagens codificáveis contém imagens críticas em regimes múltiplos de alto contraste, tipicamente pode ser preciso sacrificar pelo menos alguma qualidade). Entretanto, muitas vezes as regiões escuras serão renderizadas tão escuras que, de qualquer modo, não se pode ver muitos detalhes nos reflexos do ambiente de visualização na placa frontal do dispositivo de exibição. Para ser capaz de renderizar com razoável fidelidade (dado o olho humano sensível quando a REC_HDR reconstruída é mostrada em um ambiente de visualização escuro) as cores escuras no intervalo de até L2, a curva prescreve que são necessários os códigos de luminância C2-3 no mínimo (pode-se usar mais códigos, é claro). Definir essa curva significa que se pode codificar imagens em HDR até uma LDR máxima de luminância Cmax igual a, por exemplo 255 (se o recipiente de LDR tiver 8 bits disponíveis para sua luminância; note-se que isso pode ser simplesmente visto como o losango de gama até 1,0 sendo fixo, e quantizado com bins equidistantes, mas a distribuição dos pixels da imagem varia dependendo das transformações aplicadas, as imagens em HDR, por exemplo muitas vezes têm uma grande porcentagem dos pixels abaixo de 0,1), o que corresponde, se esse recipiente de 8 bits estiver realmente codificando uma imagem em HDR, a uma luminância máxima L_HDR de, por exemplo 10.000 nits, dependendo da curva. Note-se que a curva pode ser ajustada para levar em conta a natureza em escala relativa das luminâncias renderizadas, e na presente descrição quer-se dizer que se podem representar luminâncias HDR do dispositivo de exibição de referência entre por exemplo, L1/10 (como um preto razoável ainda quantizável na luminância 0) e 10.000 nits, mas sempre se pode, é claro, adaptar mediante alteração de escala, de modo que outras luminâncias sejam representadas. Por uma questão de simplicidade, pode-se presumir com segurança que tanto L_HDR como Y_HDR têm eixos entre 0,0 e 1,0, sendo, então, quantizados com alguma precisão.[070] The method starts from a reference coding function 901 (REF_CODF in Figure 2), which specifies how many codes are needed for each range to be well reconstructed into REC_HDR. One skilled in the art should understand that this depends on, and can be calculated from, technical parameters such as the dynamic range of the reference display device belonging to M_HDR, the intended specifics of the Im_LDR rating, etc. These one or more reference coding functions, although they can be computed in any instantaneous encoder (and can then optionally be transmitted in the TSIG signal in the form of metadata) can typically be pre-computed in a design laboratory of e.g. a classification software manufacturer and hence in an agreed way stored in a memory at least of the encoder (in principle the decoder does not need this information, but it may also have it, e.g. in case functions like Fi(MP_T) are defined as relations to that reference function, but that typically won't be the case, for the sake of simplicity). The encoder may, if it has a few variants, choose one depending on how the final Im_LDR and REC_HDR are to be rendered, and this may happen with some human classifier software selections. Function 901 specifies how many codes are needed for each luminance range. For example, in the example it was decided that only three codes from the 8-bit Y_LDR_min (the minimum number of codes needed, given an allowable reconstruction or a representation error), i.e. actually from Im_LDR, will be used for all HDR luminances darker than L1. So these dark regions will be roughly quantized but still have some structure. If these regions were brightened, severe posterization of the local image objects could occur (either in a reconstructed rendering in HDR, or a modified rendering in LDR via a brightening transform on the display device), but it may have been a final decision to be able to encode enough HDR images into this 8-bit code (if the set of encodable images contains critical images in multiple high-contrast regimes, it typically may have to sacrifice at least some quality). However, many times the dark regions will be rendered so dark that you can't see much detail in the reflections of the viewing environment on the display device's faceplate anyway. To be able to render with reasonable fidelity (given the sensitive human eye when the reconstructed REC_HDR is shown in a dark viewing environment) the dark colors in the range up to L2, the curve prescribes that C2-3 luminance codes at minimum are needed (more codes can be used of course). Defining this curve means that one can encode HDR images up to a maximum LDR of luminance Cmax equal to, say 255 (if the LDR container has 8 bits available for its luminance; note that this can simply be seen as the gamma diamond up to 1.0 being fixed, and quantized with equidistant bins, but the distribution of pixels in the image varies depending on the transformations applied, HDR images for example often have a large percentage of pixels below 0.1 ), which corresponds, if this 8-bit container is actually encoding an HDR image, to a maximum L_HDR luminance of, say, 10,000 nits, depending on the curve. Note that the curve can be adjusted to take into account the relative scaled nature of the rendered luminances, and in the present description it is meant that one can represent HDR luminances of the reference display device between e.g. L1/10 (as a reasonable black still quantifiable at 0 luminance) and 10,000 nits, but one can of course always adapt by scaling so that other luminances are represented. For the sake of simplicity, it can be safely assumed that both L_HDR and Y_HDR have axes between 0.0 and 1.0, and are therefore quantized with some precision.

[071] O versado na técnica entenderá que esta função de codificação de referência 901 pode ser especificada por vários fatores. Por exemplo, quando o classificador humano rabisca sobre uma região da imagem (por exemplo, M_HDR), a qual pode ser por exemplo, uma região de face, a unidade de análise de imagens 213 pode, a partir da mesma, determinar uma faixa de luminâncias em HDR nas quais se enquadram as cores daquela face. Ela pode, então, reespecificar a curva de modo que mais luminâncias sejam necessárias para representá-la. Ela pode saber que, por exemplo se o classificador pressiona um botão de indicação de “face”, quantos códigos (isto é, bins de quantização) são tipicamente necessários para qualquer situação (isto é, por exemplo uma face não tão bem iluminada de acordo com a especificação de 36%, mas que por exemplo, se enquadra em uma área de sombra mais escura da cena, tornando sua luminância média por exemplo, 10%, e o recipiente de LDR tendo, por exemplo 10 bits e uma renderização em HDR ótima necessária para, por exemplo 4.000 a 5.000 nits). Isso levaria a uma prescrição de um número de bins (tipicamente no eixo HDR, mas também poderia ser no eixo Y_LDR) em torno do ponto de cor média atual da face. Isso pode ser automático (por exemplo, duplicando ou modificando a quantidade de JNDs para renderização de referência em HDR, coberta por essa faixa), ou o classificador pode influenciar diretamente ou especificar o formato da função 901 naquela região. A curva pode ser especificada ou reespecificada (se necessário) em muitas propriedades, por exemplo nas medições de HDR_image. Agora em relação à curva de mapeamento de luminância real 902 da classificação que produz Im_LDR (isto é, o classificador atualmente sem considerar nada quanto à quantização e perda de dados e similares, apenas definindo artisticamente onde ele quer que as cores de seus objetos estejam na gama normalizada para esta imagem para obter, por exemplo uma aparência de sonho, com muitos altos brilhos denominados chaves altas), descobre-se que no intervalo [L3,L4] a quantidade de códigos que realmente ocorrem, dada essa curva de mapeamento a partir da classificação em HDR principal para a aparência de LDR escolhida, é menor que a quantidade mínima necessária NC para aquela região (desloca- se a curva para obter uma sobreposição clara, mas é claro que a determinação de luminâncias usadas pode ser simplesmente feita para qualquer curva). Note-se que se presume que as luminâncias são determinadas de modo equidistante nas faixas, mas de modo similar podem ser levadas em conta as não linearidades, por exemplo focalizando nos mapeamentos (in)admissíveis para luminâncias únicas. Normalmente, porém, no eixo Y_LDR têm-se bins equidistantes, portanto pode-se discutir nesse sentido sem perder a generalidade do ensinamento.[071] One skilled in the art will understand that this reference encoding function 901 can be specified by various factors. For example, when the human classifier scribbles over an image region (e.g., M_HDR), which may be, for example, a face region, the image analysis unit 213 can, from this, determine a range of HDR luminances in which the colors of that face fall. She can then respecify the curve so that more luminances are needed to represent it. She can know that, for example if the classifier presses a “face” indication button, how many codes (i.e. quantization bins) are typically needed for any given situation (i.e. a face not as well lit as per the 36% specification, but which for example falls into a darker shadow area of the scene, making its average luminance e.g. 4000 to 5000 nits). This would lead to a prescription of a number of bins (typically on the HDR axis, but could also be on the Y_LDR axis) around the face's current average color point. This can be automatic (eg doubling or modifying the amount of JNDs for reference rendering in HDR covered by this range), or the classifier can directly influence or specify the format of function 901 in that region. The curve can be specified or re-specified (if necessary) in many properties, for example HDR_image measurements. Now regarding the actual luminance mapping curve 902 of the classification that produces Im_LDR (i.e. the classifier actually not considering anything about quantization and data loss and the like, just artistically defining where it wants the colors of its objects to be in the normalized range for this image to get, say, a dreamlike look, with lots of high brightnesses called high keys), it turns out that in the interval [L3,L4] the amount of codes that actually occur, given this mapping curve from the HD classification R principal for the chosen LDR appearance, is less than the minimum amount required NC for that region (one shifts the curve to get a clear overlap, but of course the determination of luminances used can simply be done for any curve). Note that luminances are assumed to be determined equidistantly across bands, but similarly non-linearities can be taken into account, for example by focusing on (in)permissible mappings for single luminances. Normally, however, on the Y_LDR axis there are equidistant bins, so it can be discussed in this sense without losing the generality of the teaching.

[072] Portanto, atualmente são usados demasiadamente poucos códigos naquele intervalo (o qual poderia aparecer como um baixo contraste na renderização de LDR, mas provavelmente não, já que o classificador acabou de otimizar essa curva, mas tipicamente aparecerá como uma quantização grosseira para as imagens em HDR reconstruídas), sendo necessário estirar o coeficiente angular local da curva 902. Há várias maneiras de fazer isto, por exemplo com funções de erro elásticas as quais penalizam erros de quantização ao longo de qualquer intervalo. Em geral, pode-se ter qualquer matemática levando em conta por um lado o tamanho dos intervalos particulares e, por outro lado, a luminância média/posições luminância daqueles intervalos, isto é, quanto a curva desvia de sua classificação pretendida. É claro que, se a classificação técnica exige, é necessário um formato de curva de mapeamento específico que seja bem afastado do formato que o classificador desejava para a aparência da LDR (isto é, os requisitos técnico de dados de HDR ou o propósito de alocação de código da função de mapeamento estando muito longe dos requisitos de “LDR” ou do propósito de aparência da renderização do mapeamento), então o classificador continuará a definir sua aparência em uma outra maneira adicional, por meio de funções de mapeamento adicionais. Assim, em princípio nenhuma especificação restrita ou matemática crítica é necessária para este método, mas é claro que alguns métodos serão menos complexos em termos de cálculo, ou mais fáceis de usar em termos de quão rapidamente o classificador chega no resultado de codificação+classificação desejado (como o tempo do classificador é dispendioso, pelo menos para alguns tipos de programa).[072] Therefore, currently too few codes are used in that range (which could show up as low contrast in the LDR rendering, but probably won't, as the classifier has just optimized this curve, but will typically show up as a rough quantization for the reconstructed HDR images), necessitating stretching the local slope of the 902 curve. There are several ways to do this, for example with elastic error functions which penalize quantization errors over any range. In general, one can do any math taking into account the size of the particular intervals on the one hand and the average luminance/luminance positions of those intervals on the other hand, ie how much the curve deviates from its intended classification. Of course, if the technical classification calls for it, a specific mapping curve shape is required that is far removed from the shape that the classifier wanted for the appearance of the LDR (i.e., the technical requirements of HDR data or the code allocation purpose of the mapping function being too far from the requirements of “LDR” or the appearance purpose of the rendering of the mapping), so the classifier will continue to define its appearance in an additional way, through additional mapping functions. So in principle no strict specification or critical mathematics is needed for this method, but it is clear that some methods will be less complex in terms of computation, or easier to use in terms of how quickly the classifier arrives at the desired coding+sorting result (as the classifier time is expensive, at least for some types of programs).

[073] Uma transformação de curva simples é esclarecida na Figura 10. Se Nc1 é a quantidade atual de luminâncias alocadas ao intervalo, e Nc2 é a quantidade necessária de códigos (seja minimamente necessária, ou um tanto maior), pode-se estirar aquela parte da curva, por exemplo mediante a multiplicação em torno do ponto médio com Nc2/Nc1. O restante da curva precisa ser modificado, e presume-se que a redistribuição da quantização para caber na quantidade total de códigos já dará um resultado satisfatório. Pode-se, por exemplo derivar a parte da curva acima L4, tomando-se essa curva, deslocando a mesma com OFF_1, e alterando-se sua escala, de modo que o máximo ainda se enquadre na luminância máxima. Ao fazer isso em todas as partes, se obtém a curva de classificação técnica 903, que á a curva de mapeamento de cores Fi(MP_T). As luminâncias no eixo Y_LDR_min formarão, então, a imagem GT_IDR. O sistema pode verificar se há uma outra faixa que, então, se torna crítica e, então, por exemplo equilibra o erro entre as duas regiões. Por exemplo, idealmente Nc2 deveria ter 10 códigos, e Nc2* em uma outra faixa de L_HDR (isto é, também Y_LDR) pode precisar ter idealmente 8, mas se houver espaço apenas para um total de 16 códigos, pode-se distribuir o erro de quantização mínima como 9 códigos e 7 códigos. É claro que isso pode ser ponderado por fatores como faixa das duas regiões, significância semântica (há cores de face), etc. Se necessário, o sistema pode instruir o classificador a escolher qual das duas áreas deve ser melhor, por exemplo com uma interface de usuário que lhe permita aumentar o número de códigos Nc2 (isto é, o coeficiente angular local) em etapas, o que então significa menos códigos para Nc2*, que o classificador pode pensar ser visualmente aceitável. É claro que algumas modalidades podem funcionar de modo totalmente automático nos bastidores, ao selecionar a curva de mapeamento técnico e a classificação GT_IDR e, nesse caso, o sistema pode por exemplo, simplesmente abandonar o ajuste fino em torno de uma curva de classificação LDR preferencial, e imediatamente passar a uma das curvas técnicas predefinidas que funcionam bem (por exemplo, uma que tenha a menor deformação, comparada à curva que define a aparência da LDR (902), conforme calculado como SUM(wi*[FT(L_HDR)-FL(L_HDR]), em que os colchetes indicam alguma função como um valor absoluto ou quadrado, em que FT é a função técnica atualmente selecionada por valor L_HDR, e FL é o mapeamento da classificação de aparência preferencial de LDR, e os pesos wi podem ser uniformes, mas também pesam mais em certas áreas de L_HDR, por exemplo onde residem as faces), caso no qual a aparência é, então, definida pela função de mapeamento adicional Fi(MP_DL). As medições de erro podem, também, levar em conta os coeficientes angulares, já que o coeficiente angular local identifica a quantidade de códigos disponíveis na representação em LDR versus os códigos necessários na região de HDR. Note-se que mesmo alterando um intervalo de fato se distribui um erro por toda a faixa, em comparação ao que o classificador gostaria de ver, mas este não precisa ser necessariamente um grande erro, pois é distribuído e visto relativamente, já que o olho não é de qualquer forma realmente projetado para funcionar como um medidor de luminância absoluto e, de qualquer modo isso pode ser, na maioria dos sistemas práticos, calculado novamente no lado receptor com Fi(MP_DL). O versado na técnica entende que pode haver muitas outras maneiras de realizar funções similares. Por exemplo, pode ser que haja códigos suficientes (porque a imagem M_HDR não chega a L_HDR_MAX, correspondendo a Y_LDR_MAX), e pode-se ter muita liberdade para reespecificar pelo menos algumas partes da função 903, mas ainda assim a curva 902 ainda estava demasiadamente quantizada no intervalo [L3,L4], e precisou ser corrigida. Nesse tipo de cenário, pode-se deslocar mais livremente a luminância de ponto médio do intervalo [L3,L4], e as outras regiões de curva. Esses cenários correspondem a aumentar o brilho de alguns objetos etc. O outro cenário é onde o sistema é realmente crítico, e a redistribuição da quantização fora do intervalo [L3,L4] pode levar a quantização inadequada no mesmo. Nesse caso, estratégias de mitigação podem ser usadas para determinar uma curva final. Um exemplo de uma estratégia de mitigação consiste em dividir os erros restantes sobre as faixas mais críticas, como [L3,L4] e [Lx,Ly], fora de onde ocorre o maior erro de quantização para a atual curva de classificação, ou qualquer curva tentando manter uma aproximação razoavelmente próxima da atual curva do classificador humano. Pode-se decidir, também, alocar fortemente os erros para algumas regiões. Por exemplo, pode-se cortar as luminâncias mesmo para algo acima de L1 para o único valor de luminância 0, ou pode-se decidir cortar na extremidade brilhante, mesmo na classificação técnica GT_IDR. A imagem REC_HDR não é, então, perfeitamente reconstruível, mas esses cenários podem ser usados em sistemas que têm uma correção de transbordamento. Por exemplo, os valores cortados podem ser codificados em uma segunda imagem, separada de GT_IDR, que contém somente os dados para uma região brilhante e cortada em GT_IDR. Ao comparar a atual curva de mapeamento com uma que tem boas propriedades técnicas (caracterizada por ter pelo menos uma quantidade mínima de códigos por intervalo) é claro que a unidade de classificação automática irá verificar se há realmente quaisquer cores de pixel naquele intervalo, de outro modo isso pode distorcer seriamente a função naquela faixa.[073] A simple curve transformation is clarified in Figure 10. If Nc1 is the current amount of luminances allocated to the interval, and Nc2 is the required amount of codes (either minimally required, or somewhat larger), one can stretch that part of the curve, for example by multiplying around the midpoint with Nc2/Nc1. The remainder of the curve needs to be modified, and it is assumed that redistributing the quantization to fit the total amount of codes will already give a satisfactory result. One can, for example, derive the part of the curve above L4, taking this curve, shifting it with OFF_1, and changing its scale, so that the maximum still fits the maximum luminance. By doing this everywhere, you get the technical classification curve 903, which is the Fi(MP_T) color mapping curve. The luminances on the Y_LDR_min axis will then form the GT_IDR image. The system can check if there is another lane which then becomes critical and then for example balance the error between the two regions. For example, ideally Nc2 should have 10 codes, and Nc2* in another range of L_HDR (i.e. also Y_LDR) may ideally need to have 8, but if there is only room for a total of 16 codes, one can distribute the minimum quantization error as 9 codes and 7 codes. Of course, this can be weighted by factors such as the range of the two regions, semantic significance (there are face colors), etc. If necessary, the system can instruct the classifier to choose which of the two areas should be better, for example with a user interface that allows it to increase the number of Nc2 codes (i.e. the local slope) in steps, which then means fewer codes for Nc2*, which the classifier might think is visually acceptable. Of course, some modalities may work fully automatically behind the scenes when selecting the technical mapping curve and the GT_IDR classification, in which case the system may for example simply abandon fine-tuning around a preferred LDR classification curve, and immediately switch to one of the predefined technical curves that works well (e.g. one that has the least strain, compared to the curve that defines the appearance of the LDR (902), as calculated as SUM(wi*[FT(L_HDR)-FL(L_HDR)), where the brackets indicate some function as an absolute or squared value, where FT is the currently selected technical function per L_HDR value, and FL is the LDR preferred appearance classification mapping, and the weights wi may be uniform, but also weigh more in certain areas of L_HDR, for example where faces reside), in which case the appearance is then defined by the additional mapping function Fi(MP_DL). identifies the amount of codes available in the LDR representation versus the codes needed in the HDR region. Note that even changing an interval does in fact distribute an error over the entire range compared to what the classifier would like to see, but this need not necessarily be a large error as it is relatively distributed and seen, as the eye is not really designed to function as an absolute luminance meter anyway, and anyway this can be, in most practical systems, recalculated on the receiving end with Fi(MP_DL). One skilled in the art understands that there may be many other ways to perform similar functions. For example, there may be enough codes (because the M_HDR image does not reach L_HDR_MAX, corresponding to Y_LDR_MAX), and one may have a lot of freedom to re-specify at least some parts of function 903, but still curve 902 was still too quantized in the range [L3,L4], and needed to be corrected. In this type of scenario, you can more freely shift the midpoint luminance of the [L3,L4] range, and the other curve regions. These scenarios correspond to increasing the brightness of some objects, etc. The other scenario is where the system is really critical, and redistributing the quantization outside the [L3,L4] range can lead to inadequate quantization in the system. In that case, mitigation strategies can be used to determine a final curve. An example of a mitigation strategy is to divide the remaining errors over the most critical ranges, such as [L3,L4] and [Lx,Ly], outside of where the largest quantization error occurs for the current classification curve, or whatever curve, trying to maintain a reasonably close approximation of the current human classifier curve. You can also decide to heavily allocate the errors to some regions. For example, one could clip the luminances even to something above L1 for the only luminance value 0, or one could decide to clip on the bright end, even in the technical classification GT_IDR. The REC_HDR image is therefore not perfectly rebuildable, but these scenarios can be used on systems that have an overflow fix. For example, clipped values can be encoded into a second image, separate from GT_IDR, which contains only the data for a bright region and clipped to GT_IDR. By comparing the current mapping curve with one that has good technical properties (characterized by having at least a minimum amount of codes per range) it is clear that the automatic classification unit will check if there are actually any pixel colors in that range, otherwise this can seriously distort the function in that range.

[074] A Figura 12 (Figura 12b) mostra um exemplo de como um classificador pode influenciar a curva técnica que aloca os códigos usados para a classificação técnica GT_IDR. Conforme foi dito, tudo isso pode, em algumas modalidades, ocorrer nos bastidores sem que o classificador saiba, mas aqui é dado um exemplo de como um classificador pode especificar ou influenciar a quantidade de códigos alocada a uma região específica na faixa de luminância em HDR 1210, a qual deve-se presumir que contenha cores faciais. Suponha-se que, neste exemplo, a alocação automática de zonas de código tenha sido muito boa (possivelmente tendo em conta que se tem somente 8 bits de luminância em vez de 10 bits disponíveis, ou talvez para 10 bits um espaço de cores menos adequado, que introduz uma quantização muito grave pelo menos para algumas cores, por exemplo azul saturado), mas o classificador olhando para seu dispositivo de exibição de referência de qualidade ainda deseja um pouco mais de precisão, por exemplo para ter uma face menos manchada. Ele pode, então, considerar o coeficiente angular local na faixa de luminância 1210 como sendo demasiadamente baixo, e pode querer aumentar o mesmo através do meio de alteração de coeficiente angular 1203 da interface de usuário, que pode ser por exemplo, uma seta que aumenta quando se clica na seta superior, aumenta o coeficiente angular em X%, ou um cursor arrastável, etc. Ele pode especificar a faixa 1210 diretamente em sua janela de visualização da ferramenta de curva, e arrastar um ou mais marcadores de limite 1202. A interface de usuário pode, também, ajudar na rápida seleção, por exemplo ao permitir que se desenhe um rabisco 1215 sobre a imagem representativa atualmente classificada a partir de uma cena (consulte a Figura 12a).[074] Figure 12 (Figure 12b) shows an example of how a classifier can influence the technical curve that allocates the codes used for the GT_IDR technical classification. As stated, all of this can, in some embodiments, take place behind the scenes without the classifier knowing, but an example is given here of how a classifier can specify or influence the amount of codes allocated to a specific region in the luminance range in HDR 1210 which should be presumed to contain facial colors. Suppose that, in this example, the automatic allocation of code zones was very good (possibly bearing in mind that one only has 8 bits of luminance instead of 10 bits available, or perhaps for 10 bits a less suitable color space, which introduces very severe quantization at least for some colors, for example saturated blue), but the classifier looking at its quality reference display device still wants a little more precision, for example to have a less blurred face. He may then find the local slope in the luminance range 1210 to be too low, and may want to increase it through the user interface slope changing means 1203, which may be for example an arrow that increases when the top arrow is clicked, increases the slope by X%, or a draggable cursor, etc. He can specify range 1210 directly in his curve tool viewport, and drag one or more boundary markers 1202. The user interface can also aid in quick selection, for example by allowing one to draw a squiggle 1215 over the currently sorted representative image from a scene (see Figure 12a).

[075] Durante todo esse tempo, o classificador está olhando para a renderização da imagem em HDR reconstruída. Se ele agora quiser trabalhar novamente na imagem em LDR, passará àquela visualização e especificará adicionalmente sua classificação de LDR, outra vez começando a partir dessa curva técnica, para uma curva ou estratégia de mapeamento adicional. Os meios de rastreamento de movimentos para rastrear a face e o ajuste fino de suas propriedades caso a mesma se mova sob iluminação variável podem ajudar na determinação, se necessário, mas em geral tal complexidade não é necessária para a presente invenção, já que a curva técnica se destina somente a ser amplamente boa, e não definitivamente específica. Em qualquer caso, porém, pode ser oferecido ao classificador o ajuste fino a qualquer momento do filme em que ele considere interessante, tanto da curva técnica como da curva de mapeamento para obtenção de imagens em LDR ótimas. Agora o software pode ser configurado para alterar o coeficiente angular em comparação ao ponto médio (curva 1204). Entretanto, o classificador pode considerar isso como introdução de questões quanto à classificação de cores, que ele pode querer resolver agora (em vez de nas segundas funções de mapeamento em LDR). Por exemplo, quando o algoritmo ou o hardware calcula a nova curva, o mesmo irá, nas versões mais simples, realocar o erro, o que pode ser feito, por exemplo mediante o estiramento do formato restante da curva ao valor máximo de 1,0, iniciando a partir do novo ponto alto do intervalo localmente estirado. O classificador, porém, pode considerar que isso resulta em cores demasiadamente brilhantes nas regiões 1205. Portanto, o software pode ter meios para ajuste de posição 1206, o que permite que o classificador altere a curva local na faixa 1210 um pouco para cima ou para baixo, resultando na curva final razoável 1207. O classificador pode, também, especificar de maneira similar as regiões onde considera que os erros de quantização podem ser mais graves, por exemplo nesse caso o elemento deslizante 1201 pode permitir que se defina um limite inferior para uma faixa de cores brilhantes que pode ser um pouco mais quantizada quando necessário. Se for necessário equilibrar as propriedades de cor, dadas todas as limitações técnicas, essa pode ser uma boa maneira de chegar a um ótimo razoável, especialmente se o material original não houver sido capturado perfeitamente nas áreas brilhantes, de qualquer modo, mas, por exemplo com cores um tanto pastel. Esse elemento deslizante, então, dá por exemplo, a posição de luminância HDR de referência acima da qual estão, por exemplo 20 m de códigos, distribuídos por exemplo, via gama 2,2, ou curva psicovisual baseada em JND, etc. Nesse caso, a matemática do algoritmo pode levar isso em conta ao redistribuir os erros, por exemplo mediante a penalização de uma diferença dos 20 códigos em uma forma ponderada com os códigos restantes entre o ponto alto da faixa 1201 e aquele valor baixo do conjunto de faixas superior em 1201. É claro que o classificador, se considerar o problema suficientemente crítico para gastar mais tempo, também pode selecionar uma ou mais dessas faixas para ajuste fino e, por exemplo adicionar uma resistência de fixação às curvas já determinadas, indicando que estas não podem perder quaisquer códigos ou, no máximo, 20% dos códigos, ou perder códigos a uma taxa 10x mais baixa que o intervalo atual etc. Isso oferece alguma inércia na reespecificação de outro intervalo. De modo geral, porém, o classificador não terá que recodificar muitas regiões críticas, caso contrário ele pode simplesmente deixar que o hardware apresente uma proposta automática.[075] All this time, the classifier is looking at the reconstructed HDR image rendering. If he now wants to work on the LDR image again, he will switch to that view and further specify his LDR classification, again starting from that technical curve, for an additional curve or mapping strategy. Motion tracking means for tracking the face and fine-tuning its properties if it moves under varying lighting can help in the determination if needed, but in general such complexity is not necessary for the present invention, as the technical curve is only intended to be broadly good, and not ultimately specific. In any case, however, the classifier can be offered to fine-tune any moment in the film that he considers interesting, both the technical curve and the mapping curve to obtain optimal LDR images. The software can now be configured to change the slope compared to the midpoint (curve 1204). However, the classifier may see this as introducing issues regarding color classification, which it may want to resolve now (rather than in the second mapping functions in LDR). For example, when the algorithm or hardware calculates the new curve, it will, in simpler versions, reallocate the error, which can be done, for example, by stretching the remaining shape of the curve to a maximum value of 1.0, starting from the new high point of the locally stretched range. The classifier, however, may consider that this results in overly bright colors in regions 1205. Therefore, the software may have means for position adjustment 1206, which allows the classifier to shift the local curve in range 1210 a little up or down, resulting in the final reasonable curve 1207. set a lower bound to a range of bright colors that can be further quantized when needed. If it is necessary to balance the color properties, given all the technical limitations, this can be a good way to arrive at a reasonable optimum, especially if the source material was not captured perfectly in the bright areas anyway, but e.g. with somewhat pastel colors. This slider then gives eg the reference HDR luminance position above which are eg 20m of codes, distributed eg via gamma 2.2, or psychovisual curve based on JND, etc. In that case, the mathematics of the algorithm can take this into account when redistributing the errors, for example by penalizing a difference of the 20 codes in a weighted form with the remaining codes between the high point of the range 1201 and that low value of the upper set of ranges at 1201. Of course, the classifier, if it considers the problem critical enough to spend more time, can also select one or more of these ranges for fine-tuning and, for example, add a clamping resistance to the curves already determined, indicating that they cannot lose any codes, or, at most 20% of codes, or losing codes at a rate 10x lower than the current interval, etc. This provides some inertia in respecifying another range. In general, however, the classifier will not have to recode many critical regions, otherwise it can simply let the hardware make an automatic proposal.

[076] A Figura 3 mostra uma modalidade possível de um sistema de codificação que segue os princípios da presente invenção, onde o ser humano deriva sua classificação a partir de uma classificação técnica GT_IDR. O leitor entenderá que as variantes técnicas aqui reveladas (por exemplo, referentes a mapeamentos de cor técnicos adequados etc.) serão também aplicáveis à classe de modalidades da Figura 2 ou outras modalidades, e vice-versa.[076] Figure 3 shows a possible modality of a coding system that follows the principles of the present invention, where the human being derives his classification from a technical classification GT_IDR. The reader will understand that the technical variants disclosed herein (eg regarding proper technical color mappings, etc.) will also be applicable to the class of embodiments of Figure 2 or other embodiments, and vice versa.

[077] Uma unidade de derivação de mapeamento de cores 214 determina um mapeamento de cores adequado (por exemplo, a curva do mapeamento de luminância, e a estratégia de manuseio das coordenadas de cor cromática correspondentes) para mapear M_HDR em GT_IDR. O propósito principal disto é determinar uma classificação GT_IDR que seja mais adequada a partir de um ponto de vista técnico. Em particular, é preciso ser capaz de reconstruir uma REC_HDR (mediante a aplicação de CMAP_2 que é o mapeamento de cores inverso de Fi(MP_T)) a qual será uma aproximação a M_HDR (de acordo com alguns critérios de desvio de imagem), ou pelo menos se enquadrará em uma segunda exatidão predefinida a partir de M_HDR. O versado na técnica entende que há várias maneiras definidas para medir desvios entre imagens. Por exemplo, uma medida que tem grande aceitação é a PSNR, mas essa é uma medida cega bastante simples, que pode às vezes dar altas contribuições a diferenças em ruído, as quais são psicovisualmente pouco visíveis, enquanto medem a um menor grau alguns desvios de objetos reais. Assim, tem-se a intenção de usar medidas que medem mais justamente o que ocorre com os vários objetos, especialmente em uma estrutura matemática correlacionada a princípios psicovisuais. Por exemplo, a unidade de análise de imagens 213 pode fazer alguma segmentação aproximada de REC_HDR e M_HDR em segmentos (pseudo-objetos). Ela pode, por exemplo buscar por segmentos relativamente lisos, e medir uma quantidade de posterização ali presente. Uma quantidade pode ser, por exemplo a quantidade de cores usadas versus a área da região de gradiente suave, a qual resultará em uma medida de exatidão que é similar à contagem de comprimentos de execução de fileiras de pixels com uma mesma cor quantizada. Pode-se, também, calcular as correlações funcionais ou diferenças acumuladas entre o formato da luminância M_HDR original ao longo do espaço, e a função em escada em REC_HDR. O versado na técnica entenderá que se pode introduzir informações (pré)semânticas na presente avaliação da exatidão e nas uma ou mais escolhas resultantes de algoritmos de mapeamento. Por exemplo, se houver somente um pequeno objeto, especialmente se o mesmo estiver no plano de fundo, próximo ao lado da imagem, o objeto é provavelmente menos importante, e pode-se codificá- lo com menos códigos de luminância, deixando mais códigos disponíveis para outros códigos. O versado na técnica entenderá que uma exatidão total ou um erro (por exemplo, como uma imagem de exatidão) pode ser formado a partir de um conjunto pré-acordado (por exemplo, carregado na unidade de classificação automática 303 por meio de uma atualização de software) de algoritmos de medição, os quais podem levar em conta as propriedades geométricas como tamanho ou posição de um segmento ou objeto, propriedades estatísticas como qual tipo de textura ou cor tem o segmento/objeto, propriedades semânticas como ao se olhar para uma face ou para o céu (com um detector de face ou de céu), etc. A matemática da exatidão pode, também, ter medidas especiais para analisar os efeitos em HDR, por exemplo uma explosão pode ser caracterizada não como uma diferença absoluta das cores de pixel entre REC_HDR e M_HDR, mas com uma medida relativa que tem por base parâmetros como uma diferença entre a cor média na bola de fogo e no ambiente circundante, uma variação de cores na bola de fogo, etc. A REC_HDR será, então, vista como suficientemente acurada se uma medida da mesma estiver abaixo ou acima de um limiar, isto é, mesmo que a bola de fogo seja um pouco menos brilhante ou contrastante na reconstrução, contanto que tenha suficiente impacto pois ainda é muito mais brilhante que o ambiente circundante, a reconstrução é vista como uma boa reconstrução de HDR. Essas variantes são especialmente úteis para sistemas que são mais críticos devido à restrição de recursos físicos, como a quantidade de bits na codificação de GT_IDR. Os efeitos em HDR podem ser caracterizados de maneira complexa, ou apenas selecionados como regiões de alto brilho, por exemplo acima de um limiar relativo LT. O versado na técnica entenderá também que, por exemplo em uma estratégia recursiva para chegar em etapas ao mapeamento de cores ótimo Fi(MP_T), a unidade de derivação de mapeamento de cores 214 pode não simplesmente determinar seu mapeamento com base em uma exatidão total agregada, mas fazer um ajuste fino com base nas exatidões parciais. De maneira similar ao presente exemplo de ajuste local, nas Figuras 9 e 10, a unidade 214 pode curar uma face que é representada de modo demasiado grosseiro, porque identifica trechos na face e, então, aloca mais códigos mediante a alteração daquela parte da função. O critério de exatidão não precisa ser atendido mediante o cálculo do mesmo, por si. Ao invés disso, pode-se usar um conjunto de funções pré-acordadas ou algoritmos de mapeamento de cores ALG(CRV_i), os quais são considerados como atendendo razoavelmente ao critério de exatidão para uma aplicação específica, a partir de um ponto de vista prático. Mesmo que uma curva de mapeamento ótima selecionada ainda introduza um erro um pouco mais grave em alguma parte de alguma imagem inconveniente em M_HDR, isso é então considerado como aceitável. A determinação em qualquer daqueles cenários pode ser tanto automática dentro da unidade 303 sem qualquer intervenção manual para perturbar o classificador artístico, ou pode ser parcialmente guiada ou totalmente determinada pelo classificador, por exemplo deixando que esse classificador selecione uma dentre um número de possíveis algoritmos ou curvas de mapeamento. Tipicamente, a unidade 303 conhecerá, e o classificador terá definido, alguns parâmetros genéricos referentes à situação de mapeamento e codificação, por exemplo a faixa dinâmica (por exemplo, CODR ou CDR) da imagem M_HDR, e o classificador pode ter selecionado a partir de uma lista de menu que ele está atualmente classificando uma “imagem noturna”, etc.[077] A color mapping derivation unit 214 determines a suitable color mapping (for example, the luminance mapping curve, and the corresponding chromatic color coordinate handling strategy) to map M_HDR to GT_IDR. The main purpose of this is to determine a GT_IDR classification that is most suitable from a technical point of view. In particular, one needs to be able to reconstruct a REC_HDR (by applying CMAP_2 which is the inverse color mapping of Fi(MP_T)) which will be an approximation to M_HDR (according to some image deviation criteria), or at least will fit into a second predefined accuracy from M_HDR. One skilled in the art understands that there are several defined ways to measure deviations between images. For example, a widely accepted measure is the PSNR, but this is a rather simple blind measure, which can sometimes make high contributions to differences in noise, which are psychovisually barely visible, while measuring to a lesser extent some deviations from real objects. Thus, it is intended to use measures that more accurately measure what happens to the various objects, especially in a mathematical framework correlated to psychovisual principles. For example, the image analysis unit 213 can do some approximate segmentation of REC_HDR and M_HDR into segments (pseudo-objects). It can, for example, look for relatively smooth segments, and measure an amount of posterization present there. A quantity can be, for example, the amount of colors used versus the area of the smooth gradient region, which will result in a measure of accuracy that is similar to counting the run lengths of rows of pixels with the same quantized color. One can also calculate the functional correlations or cumulative differences between the original M_HDR luminance shape over space, and the ladder function in REC_HDR. One skilled in the art will understand that one can introduce (pre)semantic information into the present accuracy assessment and into the one or more choices resulting from mapping algorithms. For example, if there is only one small object, especially if it is in the background near the side of the image, the object is probably less important, and you can encode it with fewer luminance codes, leaving more codes available for other codes. One skilled in the art will understand that a total accuracy or an error (e.g. as an accuracy image) can be formed from a pre-agreed set (e.g. loaded into the automatic classification unit 303 via a software update) of measurement algorithms, which can take into account geometric properties such as size or position of a segment or object, statistical properties such as what type of texture or color the segment/object has, semantic properties such as looking at a face or the sky (with a detector face or sky), etc. Accuracy mathematics can also have special measures to analyze effects in HDR, for example an explosion can be characterized not as an absolute difference in pixel colors between REC_HDR and M_HDR, but with a relative measure based on parameters such as a difference between the average color in the fireball and the surrounding environment, a color variation in the fireball, etc. The REC_HDR will then be seen as sufficiently accurate if a measurement of it is below or above a threshold, i.e. even if the fireball is slightly less bright or contrasty in the reconstruction, as long as it has enough impact that it is still much brighter than the surrounding environment, the reconstruction is seen as a good HDR reconstruction. These variants are especially useful for systems that are more critical due to physical resource constraints, such as the amount of bits in the GT_IDR encoding. Effects in HDR can be characterized in a complex way, or just selected as regions of high brightness, for example above a relative LT threshold. One skilled in the art will also understand that, for example in a recursive strategy to stepwise arrive at the optimal color mapping Fi(MP_T), the color mapping derivation unit 214 may not simply determine its mapping based on an aggregated total accuracy, but fine-tune based on the partial accuracies. Similar to the present local adjustment example in Figures 9 and 10, unit 214 can heal a face that is represented too coarsely, because it identifies chunks in the face and then allocates more codes upon changing that part of the function. The accuracy criterion need not be met by calculating it per se. Instead, one can use a set of pre-agreed functions or ALG(CRV_i) color mapping algorithms, which are considered to reasonably meet the accuracy criteria for a specific application, from a practical point of view. Even if a selected optimal mapping curve still introduces a slightly more severe error somewhere in some inconvenient image in M_HDR, this is then considered acceptable. The determination in any of those scenarios can either be automatic within unit 303 without any manual intervention to disturb the artistic classifier, or it can be partially guided or fully determined by the classifier, for example letting that classifier select one of a number of possible mapping algorithms or curves. Typically, unit 303 will know, and the classifier will have defined, some generic parameters pertaining to the mapping and encoding situation, for example the dynamic range (e.g. CODR or CDR) of the M_HDR image, and the classifier may have selected from a menu list that it is currently classifying a "night image", etc.

[078] Por exemplo, a unidade de análise de imagens 213 pode examinar a imagem M_HDR, e descobrir que há dois lóbulos bem separados no histograma de luminância. Pode, então, ser derivada uma função de mapeamento (pelo menos inicial) que mapeia aqueles para subfaixas adequadas do código de luminância de 8 bits, levando em conta que o sistema visual humano é mais sensível às partes mais escuras, as quais precisarão, portanto, de uma subfaixa maior. Assim, em uma escala grosseira, o mapeamento poderia ir para, por exemplo [0,170] e [180, 255], isto é, qualquer função que realize isso é uma candidata viável. Dentro dessas faixas pode-se produzir uma flexão adicional das curvas de mapeamento de Fi(MP_T), por exemplo dando às faces um número um pouco mais alto de códigos (os quais, para ser claro, não precisam corresponder por si a um contraste mais alto na face na renderização definitiva, já que a transformação do dispositivo de exibição pode ainda reduzir o contraste sobre a face, mas então pelo menos se tem uma boa precisão da textura e da iluminação facial).[078] For example, the image analysis unit 213 may examine the M_HDR image, and find that there are two well-separated lobes in the luminance histogram. A mapping function can then be derived (at least initially) that maps those to suitable subranges of the 8-bit luminance code, taking into account that the human visual system is more sensitive to darker parts, which will therefore need a larger subrange. So, on a coarse scale, the mapping could go to eg [0,170] and [180, 255], i.e. any function that does this is a viable candidate. Within these ranges one can produce additional bending of the Fi(MP_T) mapping curves, for example by giving the faces a slightly higher number of codes (which, to be clear, need not by themselves correspond to a higher contrast on the face in the final rendering, as the display device transform can still reduce the contrast over the face, but then at least you have good texture and facial lighting accuracy).

[079] As versões mais simples podem ser, por exemplo um conjunto de curvas paramétricas similares a gama Y_LDR=k*L_HDR abaixo de L1 e l*potência(L_HDR, gama)+fora acima de L1. Nesse caso, os algoritmos determinantes do mapeamento técnico automático podem, tipicamente, avaliar qual é a estrutura da imagem nas regiões escuras, e determinar uma parte linear suficientemente bem caracterizante nas mesmas. Se houver muitos objetos, especialmente com uma estrutura geométrica complicada (como um galpão contendo muitos objetos, como tábuas de madeira armazenadas para posterior construção, estruturas de metal, ferramentas, etc. todas empilhadas e misturadas umas às outras no escuro), então a unidade/algoritmo pode decidir alocar mais códigos a isso, mediante o ajuste da primeira parte (por exemplo, linear) da curva similar a gama. De maneira similar, se houver atores no escuro, o sistema pode querer caracterizar os mesmos com códigos suficientes, mesmo que sejam por fim renderizados de modo muito escuro, e o observador não possa ver muitos detalhes nos corpos de qualquer modo (mas note-se que um observador poderia sempre, por meio de seu controle remoto, aplicar uma transformação de dispositivo de exibição para adicionar brilho, e uma boa codificação deveria atender a isso).[079] The simplest versions can be, for example, a set of parametric curves similar to gamma Y_LDR=k*L_HDR below L1 and l*power(L_HDR, gamma)+out above L1. In this case, the algorithms that determine the automatic technical mapping can, typically, evaluate what is the structure of the image in the dark regions, and determine a sufficiently well-characterized linear part in them. If there are many objects, especially with a complicated geometric structure (such as a shed containing many objects, such as wooden planks stored for later construction, metal structures, tools, etc. all stacked and mixed together in the dark), then the unit/algorithm may decide to allocate more codes to this by adjusting the first (e.g. linear) part of the gamma-like curve. Similarly, if there are actors in the dark, the system might want to characterize them with enough code, even if they are ultimately rendered too dark, and the viewer can't see much detail in the bodies anyway (but note that a viewer could always, via their remote control, apply a display device transform to add brightness, and good coding should cater for that).

[080] De maneira similar, a M_HDR da imagem pode ser analisada e segmentada em uma parte central (por exemplo, algoritmos adicionais de análise de imagens, como um analisador de movimento, podem ajudar a determinar uma região de ação principal), uma parte brilhante, e uma parte escura e, então, uma curva sigmoidal ou em três segmentos pode ser determinada para isso, etc.[080] Similarly, the M_HDR of the image can be analyzed and segmented into a central part (for example, additional image analysis algorithms such as a motion analyzer can help determine a main action region), a bright part, and a dark part, and then a sigmoidal or three-segment curve can be determined for this, etc.

[081] Alternativamente, o classificador humano pode ser instado a selecionar uma curva técnica ótima por meio de sua interface de usuário 230. Por exemplo, ele pode escolher a curva ótima a partir de um certo número de curvas similares a gama, mas o versado na técnica entende que esta poderia ser outra dentre curvas fixas pré-acordadas, e em uma otimização técnica recursiva o classificador poderia até mesmo começar a ajustar curvas, por exemplo arrastando os pontos de controle CP. As curvas podem ter, então, por exemplo algum mecanismo interno de elasticidade, impedindo que o classificador escolha segmentos com um coeficiente angular demasiadamente baixo, ou com outras características inadequadas, como inversões, alocação dupla (que não podem ser revertidas como uma CMAP_2), etc. Tipicamente, o algoritmo chegará por si mesmo a um estado estável (inicial ou transitório), por exemplo ao soar um alerta se a curva se tornar deformada a ponto de inutilizar-se e, então, retornando a mesma a uma similar com boas propriedades de reconstrução. Tipicamente, o sistema irá então gerar a REC_HDR, e permitir que o classificador alterne com M_HDR em seu dispositivo de exibição em HDR de referência, para ver a exatidão ou os erros. O sistema enviará GT_IDR a um dispositivo de exibição em LDR de referência, para que o classificador também possa verificar isso. Essa imagem já pode ser suficiente em alguns cenários e, então, o classificador já não precisa produzir uma segunda Im_LDR, mas mesmo que seja uma classificação LDR com menor qualidade, alguns sistemas receptores ainda desejarão ou precisarão usá-lo (por exemplo, devido a uma implementação compatível com versões anteriores na TSIG, para um reprodutor de BD legado que ignora os dados de mapeamento de cores e simplesmente reproduz a GT_IDR; mas também, por exemplo a GT_IDR pode conter informações úteis para ajustar/interpolar a um final a ser usado na classificação para um dispositivo de exibição com faixa dinâmica média etc.). Caso o classificador esteja satisfeito, ele continuará com a próxima imagem ou tomada de imagens e, caso contrário, ele irá alterar ainda mais algo da curva ou do algoritmo. O codificador pode ter meios para ajudá-lo com isso. Por exemplo, quando ele rabisca dentro de uma região com erros maiores, o codificador pode recorrer à curva em cujo intervalo de luminância essas cores se enquadram. Já pode até mesmo haver análises iniciais dos artefatos, e sugestões (por exemplo, “é sugerido duplicar a quantidade de códigos” e já aplicar a nova curva para obter uma segunda REC_HDR_2 (pela unidade de mapeamento de cores 215), já que a unidade/algoritmos precisam fazer o suficiente sozinhos para poupar tanto quanto possível um artista ocupado dessa classificação técnica - embora seja importante, já que é uma maneira fácil de classificação aproximada para a aparência final).[081] Alternatively, the human classifier can be asked to select an optimal technical curve via its user interface 230. For example, it can choose the optimal curve from a number of gamma-like curves, but the skilled person understands that this could be another one among pre-agreed fixed curves, and in a recursive technical optimization the classifier could even start adjusting curves, for example by dragging the CP control points. The curves may have, for example, some internal mechanism of elasticity, preventing the classifier from choosing segments with too low an angular coefficient, or with other inappropriate characteristics, such as inversions, double allocation (which cannot be reversed like a CMAP_2), etc. Typically, the algorithm will reach a steady state (initial or transient) by itself, for example by sounding an alert if the curve becomes deformed to the point of becoming unusable, and then returning it to a similar one with good reconstruction properties. Typically, the system will then generate the REC_HDR, and allow the classifier to switch with M_HDR on its reference HDR display device, to see accuracy or errors. The system will send GT_IDR to a reference LDR display device so the classifier can check that too. This image may already be enough in some scenarios, and then the classifier no longer needs to produce a second Im_LDR, but even if it is a lower quality LDR classification, some receiving systems will still want or need to use it (e.g. due to a backwards compatible implementation in TSIG, for a legacy BD player that ignores the color mapping data and simply plays the GT_IDR; but also, e.g. medium dynamic range display device, etc.). If the classifier is satisfied, it will continue with the next image or take of images, and if not, it will change something of the curve or algorithm even more. The encoder may have ways to help you with this. For example, when scribbling within a region with larger errors, the encoder can fall back on the curve whose luminance range those colors fall within. There may even already be initial analyzes of the artifacts, and suggestions (e.g. "it is suggested to double the amount of codes" and already apply the new curve to get a second REC_HDR_2 (by colormapping unit 215), as the unit/algorithms need to do enough on their own to spare a busy artist as much as possible from this technical grading - although it is important as it is an easy way of rough grading for the final look).

[082] Agora em relação à classe de modalidades na Figura 3, o classificador continuará a fazer o ajuste fino na imagem GT_IDR, mediante o uso da unidade de classificação de cores 301, para obter sua aparência ótima como a classificação Im_LDR. Em princípio ele poderia aplicar liberalmente agora qualquer transformação de cor, já que IM_LDR não é usada para reconstruir REC_HDR. Entretanto, em um sistema prático, é útil se for suportado um conjunto limitado de algoritmos de mapeamento de cores, o qual permite todas ou quase todas as alterações de cor que um classificador possa tipicamente desejar fazer, já que seus dados de definição Fi(MP_DL) precisam ser codificados no sinal TSIG. Alguns padrões de sinal poderiam ser projetados de preferência com capacidade para atualização, de modo que os dados de mapeamentos de cor novos mais recentes possam ser gravados nos metadados (com um novo tipo de indicador, ignorável pelos sistemas mais velhos). Isso é útil para futuros decodificadores que são facilmente atualizáveis, como software sendo executado em um computador para decodificar filmes comprados de uma base de dados de filmes na internet. Para sistemas com um giro mais curto, para os quais somente em certos momentos (dispendioso em relação ao custo total do sistema) um novo circuito integrado de processamento será projetado, é melhor usar um acordo a priori quanto a um conjunto fixo de mapeamentos de cor (por exemplo, funções realizadas sob a forma de LUTs etc.). Finalmente, todos os dados GT_IDR, Fi(MP_T) e Fi(MP_DL) (ou derivações dos mesmos) são formatados pelo formatador 220 para as especificidades de um ou mais formatos de sinal escolhidos, e enviados para fora por meio de algum meio de comunicação de sinais.[082] Now regarding the class of modalities in Figure 3, the classifier will continue to fine-tune the GT_IDR image, through the use of the color classification unit 301, to obtain its optimal appearance as the Im_LDR classification. In principle it could now liberally apply any color transformation, as IM_LDR is not used to reconstruct REC_HDR. However, in a practical system, it is useful if a limited set of color mapping algorithms is supported, which allows all or most of the color changes that a classifier might typically want to make, as its Fi(MP_DL) definition data needs to be encoded in the TSIG signal. Some signal patterns could preferably be designed with update capability, so that the latest new color mappings data can be written to the metadata (with a new type of flag, skippable by older systems). This is useful for future decoders that are easily upgradeable, such as software running on a computer to decode movies purchased from an internet movie database. For systems with a shorter turnaround, for which only at certain times (expensive relative to total system cost) will a new processing integrated circuit be designed, it is better to use an a priori agreement on a fixed set of color mappings (e.g. functions realized in the form of LUTs, etc.). Finally, all GT_IDR, Fi(MP_T) and Fi(MP_DL) data (or derivatives thereof) are formatted by formatter 220 to the specifics of one or more chosen signal formats, and sent out via some signal communication medium.

[083] A Figura 4 mostra uma modalidade possível de um sistema receptor, e o versado na técnica entenderá que pode haver muitos desses sistemas. Por exemplo, o decodificador de imagem 401 pode estar compreendido em uma unidade separada (como um reprodutor de BD, ou STB), e pode estar compreendido em um dispositivo de exibição ou em um aparelho que compreende um dispositivo de exibição (por exemplo, um televisor, ou telefone móvel (note-se que o telefone móvel, embora possa não ter um dispositivo de exibição em HDR, ainda pode precisar ler a codificação HDR, e extrair do mesmo a classificação Im_LDR)), um computador, etc. Pode haver sistemas profissionais que compreendem também o codificador, por exemplo um transcodificador nas instalações de um provedor de conteúdo, o qual por exemplo, cria a partir de uma primeira variante de codificação de HDR, de acordo com os presentes princípios, uma codificação de imagem em uma segunda variante, para ser distribuída por exemplo, por um sistema de pay-per-view, etc.[083] Figure 4 shows one possible embodiment of a receiver system, and the skilled person will understand that there can be many such systems. For example, the picture decoder 401 may be comprised on a separate unit (such as a BD player, or STB), and may be comprised on a display device or an apparatus comprising a display device (e.g., a television, or mobile phone (note that the mobile phone, although it may not have an HDR display device, may still need to read the HDR encoding, and extract the Im_LDR rating therefrom)), a computer, etc. There may be professional systems which also comprise the encoder, for example a transcoder on the premises of a content provider, which for example creates from a first HDR encoding variant, in accordance with the present principles, an image encoding in a second variant, to be distributed for example by a pay-per-view system, etc.

[084] O decodificador de imagem 401 compreende uma unidade de derivação de imagem 403 a qual está disposta de modo a fazer a construção de todas as imagens necessárias. Por exemplo, o mesmo pode extrair os dados de mapeamento de cores Fi(MP_DL) e fazer uma decodificação MPEG_HEVC em GT_IDR. E, então, o mesmo aplica o mapeamento de cores para derivar REC_LDR. Tem-se também, nessa modalidade, uma unidade de configuração do sistema 402, que pode ser disposta para, por exemplo verificar que tipos de dispositivos de exibição estão atualmente conectados, ou qual tipo de dispositivos de armazenamento precisam de formas específicas de imagens reconstruídas (por exemplo, uma REC_HDR, ou uma classificação REC_MDR interpolada, etc.), e pode controlar adequadamente a unidade de derivação de imagem 403 para realizar o processamento necessário. Neste exemplo, pode-se enviar dados (por exemplo, uma imagem em HDR já otimizada para o dispositivo de exibição conectado, e/ou dados intermediários, por exemplo dados de mapeamento de cores, os quais permitiriam ao televisor realizar um ajuste fino adicional da imagem em HDR recebida) por meio de uma conexão de rede com fio 410, por exemplo uma conexão de interface HDMI, a um televisor 2D LED (ou OLED, etc.) com iluminação de fundo. 411. Os dispositivos de exibição com alta faixa dinâmica podem ser produzidos de várias maneiras. Por exemplo, pode-se intercalar na estrutura do material de LC, que em RGB bloqueia muito da luz, células que transmitem a maior parte da leves se acionadas para estarem totalmente abertas. Ou pode-se ter um dispositivo de exibição iluminado por laser LED, por exemplo em um projetor no qual se pode projetar localmente mais LEDs em uma região DMD IC se, subitamente, um excesso de brilho for necessário, ou em cinemas pode-se ter uma estrutura adicional de projetor para criar altas luzes, etc. Ou pode-se enviar, sem o uso de fios, através de uma antena 415, dados a um dispositivo de exibição LDR 416, por exemplo um dispositivo de exibição de tablete, etc. Pode-se também mostrar simbolicamente um outro sinal de imagem classificado sendo fornecido pelo formatador 407, por exemplo uma imagem em faixa dinâmica média ótima para um dispositivo de exibição de, por exemplo 1.800 nits de pico_de_branco, e enviar a esse dispositivo de exibição, ou a uma memória de armazenamento para uso posterior, ou através de uma rede para um outro local do usuário, seu telefone móvel residindo em algum ponto do mundo externo, ou um de seus amigos, etc.[084] The picture decoder 401 comprises a picture derivation unit 403 which is arranged to build all the necessary pictures. For example, it can extract the Fi(MP_DL) color mapping data and do MPEG_HEVC decoding into GT_IDR. And then it applies the color mapping to derive REC_LDR. There is also, in this embodiment, a system configuration unit 402, which can be arranged to, for example, check what types of display devices are currently connected, or what type of storage devices need specific forms of reconstructed images (e.g., a REC_HDR, or an interpolated REC_MDR classification, etc.), and can appropriately control the image derivation unit 403 to perform the necessary processing. In this example, you could send data (for example, an HDR image already optimized for the connected display device, and/or intermediate data, for example color mapping data, which would allow the TV to further fine-tune the incoming HDR image) via a 410 wired network connection, for example an HDMI interface connection, to a backlit 2D LED (or OLED, etc.) TV. 411. High dynamic range display devices can be produced in several ways. For example, you can intersperse in the material structure of LC, which in RGB blocks much of the light, cells that transmit most of the light if driven to be fully open. Or you can have an LED laser-illuminated display device, for example in a projector where you can locally project more LEDs into a DMD IC region if suddenly excess brightness is needed, or in cinemas you can have an additional projector structure to create highlights, etc. Or, data can be sent wirelessly via an antenna 415 to an LDR display device 416, for example a tablet display device, etc. One could also symbolically show another classified image signal being supplied by formatter 407, for example an optimal average dynamic range image for a display device of, say, 1800 nits white_peak, and send to that display device, or to a storage memory for later use, or over a network to another location of the user, his mobile phone residing somewhere in the outside world, or one of his friends, etc.

[085] A Figura 5 mostra os componentes em questão dentro de uma câmera 501, a qual obtém uma imagem em formato RAW a partir do sensor de imagem 504, através de uma lente 502. Um mecanismo de conhecimento 520 pode ser configurado de várias maneiras para obter um conhecimento estrutural, estatístico e/ou semântico mediante o estudo de imagens em formato RAW capturadas, e guiar a derivação de mapeamento técnico pela unidade de derivação de mapeamento de cores 214, conforme exemplificado acima. A câmera pode ter sua própria interface de usuário 550 (conectada ou remota, por exemplo a partir de um aparelho de exibição para o diretor e/ou DOP para acompanhar a captura, e orientar por meio de antena de comunicações 580) para influenciar os algoritmos de mapeamento técnico, por exemplo alterar o contraste local de algum intervalo de luminância. O mapeamento para GT_IDR pode ser usado para se ter uma imagem de pré-visualização rápida, onde então uma codificação de imagem em HDR é enviada, por exemplo para gravação final ou intermediária (em alguns casos a câmera orientada pode já realizar uma classificação suficiente do recipiente LDR, isto é, codificar M_HDR e Im_LDR, mas em outros casos uma primeira codificação HDR forma uma base para ajuste fino adicional da classificação). Essa câmera exemplificadora pode transmitir para um lado receptor, por exemplo através de uma antena para comunicações via satélite 599, ou por meios de comunicação alternativos.[085] Figure 5 shows the components in question inside a camera 501, which obtains an image in RAW format from the image sensor 504, through a lens 502. A knowledge mechanism 520 can be configured in various ways to obtain structural, statistical and/or semantic knowledge by studying captured RAW format images, and guide the derivation of technical mapping by the color mapping derivation unit 214, as exemplified above. The camera may have its own user interface 550 (connected or remote, for example from a display device for the director and/or DOP to follow the capture, and guide via communications antenna 580) to influence technical mapping algorithms, for example changing the local contrast of some luminance range. Mapping to GT_IDR can be used to have a quick preview image, where then an HDR image encoding is sent, e.g. for final or intermediate recording (in some cases the targeted camera may already perform a sufficient classification of the LDR container, i.e. encode M_HDR and Im_LDR, but in other cases a first HDR encoding forms a basis for further fine-tuning of the classification). This exemplary camera can transmit to a receiving end, for example via a satellite communications antenna 599, or by alternative means of communication.

[086] Com a Figura 11 são apresentados alguns exemplos de como os vários métodos de mapeamento podem ser realizados em um espaço de cor tridimensional (ou N- dimensional). A Figura 11 mostra esquematicamente as gamas do dispositivo de exibição de referência HDR (para a classificação M_HDR) e o dispositivo de exibição de referência LDR (para, por exemplo GT_IDR ou Im_LDR), em uma fatia com luminância no eixo y, e uma das coordenadas cromáticas, especificamente uma saturação S no eixo x (estes podem ser definidos, por exemplo como em uma definição CIE, e novamente várias opções são possíveis, por exemplo espaço CIE_Lab etc.). É mostrado como uma cor definida em M_HDR, especificamente Col_HDR, é mapeada a sua cor correspondente Col_LDR do recipiente LDR. A parte superior na Figura 11a é um formato de gama de acordo com o algoritmo de mapeamento de cores conforme descrito em EP12187572 (PCT/EP2013/069203) (ainda não publicada). O princípio é que primeiro é definida uma função para transformar luminâncias, por exemplo ao longo do eixo neutro. Então, para cada cor com coordenadas cromáticas (por exemplo, matiz h e saturação S) toma-se a máxima luminância possível Lmax(h, S) para aquela cor cromática, e se escala a função de mapeamento de luminância por aquele valor. Isso garante um valor de gama dentro da LDR para todas as cores em HDR. A Figura 11b mostra uma outra possível categoria de mapeamentos de cor. Aqui, apenas se aplica qualquer transformação em Col_HDR, para que o mesmo possa terminar em Col_LDR1, fora da gama de LDR. Então, tipicamente, segue-se com um algoritmo de mapeamento de gama, o que traz a cor mediante, por exemplo dessaturação dentro da gama de LDR para Col_LDR2. Em vez de uma projeção em duas etapas, pode-se também determinar para cada luminância qual é a pior situação, isto é, qual pixel estará mais distante da saturação máxima para aquela luminância da gama de LDR. Pode- se derivar uma função de dessaturação DESATPR a partir da mesma, e remapear todas as cores levando-se em conta essa dessaturação. Há também outras maneiras para determinar um algoritmo de dessaturação. Uma terceira categoria de mapeamentos de cor funcionará no espaço RGB e, então, aplicando funções de mapeamento naqueles significa que as cores também permanecerão em ambas as gamas. Qualquer função pode ser usada para manuseio de cores, por exemplo o remapeamento funcional local de um correlato de saturação, somente ao longo daquelas regiões do eixo de luminância onde é desejável, termina especialmente em uma classificação técnica em que os valores reais importam menos, contanto que, para as classificações a serem usadas, cores razoáveis possam ser derivadas das mesmas por meio de estratégias de mapeamento adicionais adequadas.[086] Figure 11 presents some examples of how the various mapping methods can be performed in a three-dimensional (or N-dimensional) color space. Figure 11 schematically shows the gamma of the HDR reference display (for the M_HDR classification) and the LDR reference display (for e.g. GT_IDR or Im_LDR), on a slice with luminance on the y-axis, and one of the chromatic coordinates, specifically an S saturation on the x-axis (these can be defined e.g. as in a CIE definition, and again several options are possible, e.g. CIE_Lab space etc.). It is shown how a color defined in M_HDR, specifically Col_HDR, is mapped to its corresponding color Col_LDR from the LDR container. The upper part in Figure 11a is a gamma format according to the color mapping algorithm as described in EP12187572 (PCT/EP2013/069203) (not yet published). The principle is that first a function is defined to transform luminances, for example along the neutral axis. Then, for each color with chromatic coordinates (eg, hue h and saturation S) take the maximum possible luminance Lmax(h, S) for that chromatic color, and scale the luminance mapping function by that value. This ensures a gamma value within LDR for all colors in HDR. Figure 11b shows another possible category of color mappings. Here, just apply any transformation on Col_HDR, so that it can end up in Col_LDR1, outside the range of LDR. Then, typically, one follows with a gamma mapping algorithm, which brings the color through, for example, desaturation within the range of LDR to Col_LDR2. Instead of a two-step projection, one can also determine for each luminance what is the worst case, that is, which pixel will be farthest from the maximum saturation for that luminance in the LDR range. You can derive a DESATPR desaturation function from it, and remap all colors taking that desaturation into account. There are also other ways to determine a desaturation algorithm. A third category of color mappings will work in RGB space and so applying mapping functions on those means that colors will also remain in both gamuts. Any function can be used for color handling, for example the local functional remapping of a saturation correlate, only along those regions of the luminance axis where it is desirable, especially in a technical classification where the actual values matter less, provided that, for the classifications to be used, reasonable colors can be derived from them by means of suitable additional mapping strategies.

[087] Agora será apresentada uma elaboração adicional quanto aos mapeamentos de saturação úteis em uma estrutura de HDR, a qual pode ser vista em separado de outros ensinamentos no presente pedido. O brilho e a luminosidade são derivados das respostas dos cones do ser humano, que têm um estado de ativação de moléculas de cone- opsina, e mostra quanta luz está chegando a partir das várias cores sendo uma função tanto das características de refletividade do objeto como de sua iluminação (sendo a luminosidade uma estimativa de acinzentamento em comparação a um branco de referência pelo cérebro, analisando todos os sinais espaciais do cone a partir de uma imagem de cena complexa geometricamente estendida). O matiz é uma função das proporções de ativação espectral (de acordo com a ativação monocromática ou policromática) dos diferentes cones, e pode ser estimado a partir das diferenças nessas ativações de cone. Isto serve para a determinação das cores dominantes, por exemplo a natureza de banda larga de várias moléculas permite a identificação de conteúdo químico específico, por exemplo o amadurecimento vermelho de uma maçã. Sob iluminantes lentamente variáveis e relativamente fáceis de estimar, como sol+claraboia, os vários matizes discerníveis podem servir bem para muitas tarefas visuais. A saturação ou pureza é uma medida de como os canais de cores das células ganglionares e de partes adicionais do sistema visual são excitadas, em comparação a um estímulo neutro (cinza). Ou seja, é a quantidade de cor pura (por exemplo, uma cor do espectro de banda estreita) adicionada a uma cor neutra, ou vice-versa. Com os matizes topologicamente ordenados em um círculo no espaço de cor, foi necessária uma dimensão radial representando uma saturação. Os pintores usam o princípio pela adição de uma cor branca a uma cor pura, como vermelho, produzindo uma sequência de tonalizações. Na natureza, a saturação é determinada por dois princípios importantes. Primeiramente, em meios especulares/lustrosos o iluminante branco é fortemente adicionado à luz na cor do objeto a partir de interações mais profundas, levando a uma forte dessaturação, porém com alta saturação em direções não especulares. O que é mais importante, a saturação está relacionada a uma quantidade de pigmento, e isso pode ser usado, por exemplo por um animal para julgar a saúde de um potencial parceiro. A saturação existe em duas “variantes”. Primeiramente, há a saturação dependente de brilho, que pode ser modelada com coloração ou croma, já que cores mais brilhantes parecem mais saturadas. Isso pode ser modelado em espaços de cor em formato de cone, em que um plano de cor (por exemplo, uv) se torna progressivamente mais largo ao longo do eixo do brilho. O cérebro humano pode, novamente, descontar a iluminação e julgar o quão intrinsecamente saturado é um objeto, com reflexões monocromáticas sendo a situação teoricamente mais saturada. Isso pode ser modelado em espaços cilíndricos, em que o formato do plano de cor permanece o mesmo ao longo do eixo do brilho.[087] A further elaboration on useful saturation mappings in an HDR structure will now be presented, which can be seen separately from other teachings in the present application. Brightness and luminosity are derived from the responses of human cones, which have an activation state of cone-opsin molecules, and show how much light is arriving from the various colors as a function of both the reflectivity characteristics of the object and its illumination (luminosity being an estimate of grayness compared to a reference white by the brain, analyzing all cone spatial signals from a geometrically extended complex scene image). Hue is a function of the spectral activation ratios (according to monochromatic or polychromatic activation) of the different cones, and can be estimated from the differences in these cone activations. This serves for the determination of dominant colors, for example the broadband nature of various molecules allows the identification of specific chemical content, for example the red ripeness of an apple. Under relatively easy to estimate slowly varying illuminants such as sun+skylight, the various discernible hues can serve well for many visual tasks. Saturation or purity is a measure of how excited the color channels of ganglion cells and additional parts of the visual system are compared to a neutral (gray) stimulus. That is, it is the amount of pure color (for example, a narrowband spectrum color) added to a neutral color, or vice versa. With the hues topologically ordered on a circle in the color space, a radial dimension representing a saturation was required. Painters use the principle by adding a white color to a pure color such as red, producing a sequence of shades. In nature, saturation is determined by two important principles. First, in specular/glossy media the white illuminant is strongly added to the light in the object color from deeper interactions, leading to strong desaturation, but with high saturation in non-specular directions. More importantly, saturation is related to an amount of pigment, and this can be used, for example, by an animal to judge the health of a potential mate. Saturation exists in two “variants”. First, there is brightness-dependent saturation, which can be modeled with hue or chroma, as brighter colors appear more saturated. This can be modeled in cone-shaped color spaces, where a color plane (eg uv) becomes progressively wider along the brightness axis. The human brain can, again, discount lighting and judge how intrinsically saturated an object is, with monochromatic reflections being the theoretically more saturated situation. This can be modeled in cylindrical spaces, where the shape of the color plane remains the same along the brightness axis.

[088] Fisicamente, esse cone ou cilindro poderia ser estendido em direção ao infinito, já que se pode produzir cores cada vez mais brilhantes, mas tecnologicamente isso não faz muito sentido, já que qualquer gravação ou sistema de reprodução real tem limites. Já os cones dos olhos, em um certo estado de adaptação (uma quantidade de cone-opsina preparada no cone, e moléculas intermediárias estando em um estado para multiplicar qualquer sensação de ativação do cone, até que por fim é obtido um sinal “digital” de uma quantidade de pulsos ao longo dos neurônios) irão em um certo momento descolorir, de modo que tantas moléculas de cone-opsina foram ativadas que a detecção acurada das cores já não é possível durante algum tempo, o que ocorre quando se olha para uma lâmpada brilhante. Algo similar ocorre, por exemplo com um registro fotográfico (diga-se, um slide). Em um certo momento, algum branco máximo precisa ser registrado (e depois reproduzido), e as luminâncias dos objetos da cena acima daquilo serão cortadas para o pico de branco. O mesmo ocorre para qualquer espaço de RGB aditivo, seja somente um espaço de codificação que pode estar relacionado a um monitor de referência para torná-lo absoluto, ou um espaço real de sinal de acionamento para um dispositivo de exibição real. Esses espaços podem ser topologicamente equiparados a espaços de duplo cone. Por exemplo, os pintores sabem que podem produzir sombras com um croma diminuído porém a mesma saturação, pela adição de preto a cores puras, e produzir tonalizações em direção um branco puro no topo do cone superior. Ou seja, no topo desse tipo de espaço pode haver somente cores insaturadas (zero croma), o que é inconveniente em relação a outras cores que possam existir na natureza, por exemplo aquelas em uma gama mais ampla de, por exemplo um dispositivo de exibição com faixa dinâmica mais alta. Por exemplo, o que fazer com uma cor que foi esmaecida em termos de brilho para a LDR (faixa dinâmica mais baixa), mas que ainda reside no cone superior? Altera-se pesadamente sua saturação, ou talvez se diminua ainda mais? E se essa cor estiver somente em um espaço intermediário que serve para ainda ser mapeado para reforço para um espaço maior, novamente?[088] Physically, this cone or cylinder could be extended towards infinity, as it can produce brighter and brighter colors, but technologically this doesn't make much sense, as any real recording or reproduction system has limits. Already the cones of the eye, in a certain state of adaptation (a quantity of cone-opsin prepared in the cone, and intermediate molecules being in a state to multiply any sense of activation of the cone, until finally a "digital" signal is obtained from a number of pulses along the neurons) will eventually discolor, so that so many molecules of cone-opsin have been activated that accurate color detection is no longer possible for some time, which occurs when looking into a bright lamp. Something similar happens, for example, with a photographic record (say, a slide). At a certain point, some maximum white needs to be registered (and then reproduced), and the luminances of scene objects above that will be clipped to the white peak. The same goes for any additive RGB space, whether it's just a coding space that can be referenced to a reference monitor to make it absolute, or a real trigger signal space for a real display device. These spaces can be topologically equated to double-cone spaces. For example, painters know that they can produce shadows with lowered chroma but the same saturation by adding black to pure colors and producing tonalities towards pure white at the top of the upper cone. That is, at the top of this type of space there can only be unsaturated colors (zero chroma), which is inconvenient compared to other colors that may exist in nature, for example those in a wider range of, for example, a display device with a higher dynamic range. For example, what to do with a color that has been dimmed in terms of brightness to the LDR (lower dynamic range) but still resides in the upper cone? Does your saturation change heavily, or maybe even lower? What if that color is only in an in-between space that serves to still map for reinforcement to a larger space, again?

[089] Assim, para essas situações, em adição a saturações teóricas de qualquer cor, pode ser necessário olhar para a saturação e as modificações de saturação em qualquer espaço limitado de cores admissíveis. Ter qualquer transformação matemática dentro desse tipo de espaço (tipicamente em formato de cilindro), especialmente útil quando se mapeia entre espaços que podem pelo menos ser amplamente colocados (como, por exemplo um espaço RGB em HDR em escala [0,1] em um espaço RGB em LDR) tem a vantagem de produzir cores existentes, em vez de transformações que saem do espaço e ainda precisam ser traduzidas em cores realizáveis, mas a natureza não linear da matemática pode distorcer outros correlatos de aparência, como luminosidade ou matiz. Se é possível desenhar gama/espaço com início e fim em 3D em qualquer formato, em princípio não é necessário preocupar-se tanto com isso, já que se pode desenhar qualquer estratégia de mapeamento.[089] Thus, for these situations, in addition to theoretical saturations of any color, it may be necessary to look at saturation and saturation changes in any limited space of permissible colors. Having any math transforms within this type of space (typically cylinder-shaped), especially useful when mapping between spaces that can at least be widely placed (such as a scaled [0,1] RGB HDR space into an LDR RGB space) has the advantage of producing existing colors, rather than transformations that run out of space and have yet to be translated into realizable colors, but the non-linear nature of the math can distort other correlates of appearance such as lightness or hue. If it is possible to draw gamma/space with beginning and end in 3D in any format, in principle it is not necessary to worry so much about it, since any mapping strategy can be designed.

[090] Pode-se lidar com muitas dessas complicações ao se ter um classificador de cores para fazer as transformações desejáveis, desde que ele tenha um mínimo (embora tipicamente simples, é preciso também considerar que essas transformações tipicamente indicam mapeamentos necessários para renderizações suficientemente fiéis, ou pelo menos aprimoradas em comparação à renderização cega, determinando as cores correspondentes dependentes da situação de renderização para vários dispositivos de exibição, isto é, os ICs de hardware ou o software nesses dispositivos de exibição ou caixas de processamento de vídeo conectadas, deveria de preferência usar somente funções matemáticas simples, com a complexidade sendo manipulada mediante a amostragem de todos os cenários de renderização de cores possíveis a serem relacionados pelo classificador, que define algumas situações de classificação importantes entre as quais pode-se, então, ser interpolada para outras situações de renderização intermediárias) conjunto de funções matemáticas para determinar saturação que ele possa especificar.[090] One can deal with many of these complications by having a color sampler do the desired transformations, provided it has a minimum (while typically simple, one must also consider that these transforms typically indicate mappings needed for sufficiently faithful renderings, or at least improved compared to blind rendering, by determining the corresponding colors dependent on the rendering situation for various display devices, i.e. the hardware ICs or software on those display devices or connected video processing boxes, should preferably only use simple mathematical functions , with the complexity being handled by sampling all possible color rendering scenarios to be related by the classifier, which defines some important classification situations between which it can then be interpolated to other intermediate rendering situations) set of mathematical functions to determine saturation that it can specify.

[091] É fato conhecido que o mapeamento entre diferentes faixas dinâmicas pode levar a cores que são ou muito pastel, ou muito saturadas como uma revista em quadrinhos, e a situação pode ser complexa com alguns classificadores tendo potencialmente desejos críticos (por exemplo, um pode ser crítico em relação a faces, mas também em relação aos tons de azul na água, ou mesmo a aparência de cor de nuvens escuras).[091] It is a known fact that mapping between different dynamic ranges can lead to colors that are either too pastel, or too saturated like a comic book, and the situation can be complex with some classifiers potentially having critical desires (for example, one might be critical about faces, but also about the shades of blue in water, or even the color appearance of dark clouds).

[092] O presente processamento inovador da saturação pode ser usado não apenas em classificações técnicas, mas de fato em qualquer imagem classificada (por exemplo, HDR principal, ou uma classificação em LDR; para se obter qualquer outra classificação de imagem, com uma faixa dinâmica diferente ou similar; isto é, com aparência ótima quando renderizado, por exemplo em um dispositivo de exibição HDR 2000 nit), e mesmo em capturas da câmera em formato bruto, sejam introduzidas em um outro aparelho como um computador de classificação, ou mesmo ainda na câmera. Para descrever o processamento em princípio não se necessita do espaço de cor de entrada (o qual pode ser o mesmo que o espaço de saída, ou de qualquer outra coisa, por exemplo um espaço maior), portanto o mesmo será descrito com o espaço de saída de qualquer codificação de cores (seja como intermediário, ou dependente de dispositivo diretamente passível de uso para renderização). Será descrito o princípio com um espaço Luv do tipo cilíndrico, isto é, as direções planas das quais se mostra somente o eixo u (vermelho-verde) na Figura 15a, formam triângulos do mesmo tamanho ao longo do eixo de luminância normalizado L, até que a tenda comece a se encolher em direção ao branco. É claro que outras possibilidades podem ser similarmente implementadas, e em vez de uma luminância física pode-se usar uma quantidade mais psicológica, por exemplo uma luminosidade como o terceiro eixo. A gama de todas as cores realmente realizáveis é 1501. Agora, pode-se aplicar uma transformação matemática que move as cores (seja dentro ou fora da gama) em uma direção de aumento ou diminuição da saturação, o que é representado pela curva 1503. Embora isso ilustre o princípio matemático, a Figura 15a pode, tipicamente, também ser a vista da interface de usuário que um classificador de cores vê em uma de suas subjanelas, uma janela principal obviamente mostrando o efeito sobre a aparência da cor das transformações em uma imagem a ser classificada ou reclassificada. Em princípio, pode-se usar qualquer matemática para a saturação, mas de preferência será uma função que amplamente desacopla as coordenadas, isto é, tem majoritariamente um efeito sobre a saturação, em pouco ou nada alterando o matiz, a luminância ou a luminosidade. Na prática (embora o espaço seja obviamente apenas um modelo simplista da real aparência da cor, ao final ainda pode haver algum efeito colateral visível sobre os aspectos das cores não relacionados à saturação) a matemática pode ser uma matemática ortogonal, portanto embora seja mostrada uma variante genérica com uma curva de alteração de saturação ligeiramente fletida (isto é, também ligeiramente clareando as cores ao saturá-las), muitas vezes isto será apenas uma linha no plano ortogonal ao eixo L. Para ter um controle fácil e, ainda assim, poderoso sobre as saturações dos objetos ou regiões, conferindo uma aparência total a uma imagem, o classificador tem agora uma possibilidade de não somente definir um multiplicador de saturação global, como um multiplicador que depende da luminância das cores a serem processadas. Essa função a_s=f(L) pode ser registrada como uma função paramétrica ou uma tabela de pesquisa. A luminância relevante Li, que define quais cores devem ser selecionadas para processamento, é determinada pela cor acromática na curva 1503. Agora, a única coisa necessária é algum nível de saturação de referência S_ref (1502), o qual poderia ser equiparado a um valor normalizado 1. Presume-se, nessa modalidade exemplificadora, que a saturação seja definida como o comprimento Euclidiano, isto é, sqrt(u*u+v*v) e, por exemplo em um espaço Lab que seria sqrt(a*a+b*b), mas é claro que outras definições seriam possíveis. Uma escolha prática para esse nível de referência seria colocá-lo na posição (u,v) da mais saturada das três (R,G,B) ou mais cores primárias que definem o espaço de cor. Agora, uma maneira rápida e simples, e em geral suficientemente precisa, para definir a curva de saturação a_s=f(L) consistiria na determinação, pelo classificador, de pontos de amostra para um certo número de luminâncias (nível 1504 etc.) no eixo de luminância. Ele os marca com pontos 1505. A posição desses pontos determina a saturação, e se consiste em um reforço ou uma redução. A distância Euclidiana do ponto 1505 ao eixo L é comparada à distância da manga cilíndrica de referência, S_ref, e é por exemplo, 0,3 com S_ref=1, então isso significa que todas as cores com aquela luminância deveriam ser esmaecidas multiplicando-se sua saturação por 0,3 (note-se que operações multiplicativas devem ser suficientes para processamento da saturação, embora outras funções também possam ser similarmente usadas, é claro). Na região mais escura, o ponto 1513 especifica um reforço de saturação para aqueles vermelhos.[092] The present innovative saturation processing can be used not only in technical classifications, but in fact on any classified image (e.g. prime HDR, or an LDR classification; to obtain any other image classification, with a different or similar dynamic range; i.e., looking great when rendered, for example on a 2000 nit HDR display device), and even on camera captures in raw format, whether inputted into another device such as a classification computer, or even still in the camera. To describe the rendering in principle one does not need the input color space (which can be the same as the output space, or anything else, for example a larger space), so it will be described with the output space of any color encoding (either as an intermediary, or device dependent directly usable for rendering). The principle will be described with a Luv space of the cylindrical type, that is, the plane directions of which only the u axis (red-green) is shown in Figure 15a, form triangles of the same size along the normalized luminance axis L, until the tent starts to shrink towards white. Of course other possibilities can be similarly implemented, and instead of a physical luminance one can use a more psychological quantity, for example a luminosity as the third axis. The gamut of all actually achievable colors is 1501. We can now apply a mathematical transformation that moves colors (whether in or out of gamut) in a direction of increasing or decreasing saturation, which is represented by curve 1503. While this illustrates the mathematical principle, Figure 15a can typically also be the view of the user interface that a color sampler sees in one of its subwindows, a main window obviously showing the effect on the color appearance of transformations on an image to be classified or reclassified. In principle, any mathematics can be used for saturation, but preferably it will be a function that largely decouples the coordinates, that is, it has a major effect on saturation, with little or no change in hue, luminance or lightness. In practice (although space is obviously just a simplistic model of what color actually looks like, in the end there may still be some visible side effects on non-saturation aspects of colors) the math can be orthogonal math, so while a generic variant is shown with a slightly bent saturation change curve (that is, also slightly lightening the colors by saturating them), often this will just be a line in the plane orthogonal to the L-axis. saturations of objects or regions, giving a total appearance to an image, the classifier now has the possibility of not only defining a global saturation multiplier, but also a multiplier that depends on the luminance of the colors to be processed. This a_s=f(L) function can be registered as a parametric function or a lookup table. The relevant luminance Li, which defines which colors should be selected for processing, is determined by the achromatic color in the curve 1503. Now, the only thing needed is some reference saturation level S_ref (1502), which could be equated to a normalized value 1. It is assumed, in this exemplary embodiment, that the saturation is defined as the Euclidean length, that is, sqrt(u*u+v*v) and, for example in a Lab space which would be sqrt(a*a+b*b), but of course other definitions would be possible. A practical choice for this reference level would be to place it at the position (u,v) of the most saturated of the three (R,G,B) or more primary colors that define the color space. Now, a quick and simple way, and in general accurate enough, to define the saturation curve a_s=f(L) would consist in the determination, by the classifier, of sample points for a certain number of luminances (level 1504 etc.) on the luminance axis. He marks them with 1505 points. The position of these points determines the saturation, and whether it consists of a boost or a cut. The Euclidean distance from point 1505 to the L axis is compared to the distance of the reference cylindrical sleeve, S_ref, and is for example 0.3 with S_ref=1, so this means that all colors with that luminance should be faded by multiplying their saturation by 0.3 (note that multiplicative operations should be sufficient for processing the saturation, although other functions can also be similarly used, of course). In the darkest region, point 1513 specifies a saturation boost for those reds.

[093] Então diga-se, por exemplo que - não importando como foi gerada a imagem de entrada, por exemplo mediante submapeamento a partir de uma imagem principal em HDR - se o classificador considera que as cores mais claras têm suficiente qualidade, mas as cores mais escuras se beneficiariam de um reforço na saturação, ele pode determinar um nível de luminância (por exemplo, 0,25) e, para aquela posição, especificar um ponto em, diga-se, 1,8. Para poupar tempo, o algoritmo determinará uma curva completa abrangendo a totalidade da faixa de luminância de 0,0 a 1,0 a partir daquilo, por exemplo pode-se aplicar uma interpolação linear que é 1,8 de redução para pretos, e aplicar um multiplicador de 1,0 a cores acima do nível L- 0,25 (é claro que podem ser usadas outras estratégias de interpolação pelo software, por exemplo estrias, e o classificador pode adicionar pontos adicionais se quiser um ajuste fino adicional da aparência da cor). Embora não seja necessário, pode ser vantajoso se o classificador também observar o volume das cores realmente ocorrendo na imagem 1506. Na Figura 1506, é mostrada somente a situação inicial antes do processamento da saturação, mas tipicamente a situação final (ou um volume em alteração contínua) também será mostrado, o qual em adição a observar a imagem processada real (intermediária ou de saída), oferece ao classificador uma ideia de onde as cores se movem para perto do limite da gama e pode ocorrer corte ou corte suave (pode haver uma estratégia integrada para alterar não linearmente o multiplicador quando dentro de uma certa região em relação ao limite de gama; e essas opções para definição de comportamento serão tipicamente ativadas ou desativadas no software pelo classificador, antes de iniciar sua classificação). Embora essas dependências somente de luminância sejam suficientes para muitas situações, pode ser vantajoso se o classificador puder definir comportamentos diferentes para matizes diferentes. Por exemplo, ele pode especificar 4 LUTs para 4 setores de matiz. Conforme explicado acima, o mesmo reforço ou diminuição da saturação seria aplicável às direções de vermelho e verde a partir do eixo L mas, conforme visto, o volume de cores 1506 pode estar mais próximo ao limite da gama na direção do verde que na direção do vermelho, por exemplo pois a tomada atual do filme, ou a imagem estática atual, é de uma cena de floresta (e, em uma saturação de classificação anterior pode ter sido ajustada para cima, para emular uma aparência ensolarada em uma codificação em LDR). Então, o classificador pode demarcar setores de matiz, e especificar o processamento da saturação de maneira similar ao descrito acima. Um exemplo mais complexo é apresentado, também, onde um único comportamento multiplicativo não é suficiente para pelo menos um nível de luminância (e, talvez, setor de matiz) na imagem. Por exemplo, os vermelhos escuros podem ser intensificados para fazer com que uma Ferrari parada em uma parte mais escura da imagem (diga-se, uma garagem) pareça mais bonita, mas quando essas cores também ocorrem em rostos, estes podem se tornar muito avermelhados. Para tanto, o classificador pode definir uma segunda referência de saturação S_ref2 (1510), a qual irá agora, tipicamente, também servir como uma demarcação de região de cor determinando quais cores de “face” serão processadas. Em comparação a esse nível, o pentágono 1511 agora mostra que as saturações ali deveriam ser esmaecidas em, por exemplo 0,75. A Figura 15b mostra, então, como esse comportamento irá, então, modificar a saturação das cores com luminâncias similares àquelas do nível L correspondente ao pentágono 1511. Em várias situações, um comportamento descontínuo pode ser suficiente, já que a face pode ocupar uma parte do espaço de cor e, então, pode não haver outras cores até a Ferrari, mas a suavização de transições 1520 pode, também, ser aplicada, seja automaticamente pelo software, ou ajustada nesse tipo de gráfico em uma subjanela, pelo classificador. Também nas outras direções, pelo menos na luminância e, se necessário, também no matiz, o classificador pode determinar em que faixa esse comportamento deveria ser aplicado, por exemplo um nível de luminância superior 1512 (e, de maneira similar, um nível de luminância inferior poderia ser especificado). Fora dessa faixa, o processamento da saturação pode passar de maneira descontínua ao outro comportamento especificado, ou isso pode ocorrer mais gradualmente, se necessário.[093] So let's say, for example that - no matter how the input image was generated, for example by submapping from a main image in HDR - if the classifier considers that the lighter colors have sufficient quality, but the darker colors would benefit from a boost in saturation, it can determine a luminance level (for example, 0.25) and, for that position, specify a point at, say, 1.8. To save time, the algorithm will determine a full curve spanning the entire luminance range from 0.0 to 1.0 from that, for example you can apply a linear interpolation which is 1.8 off for blacks, and apply a multiplier of 1.0 to colors above the L-0.25 level (of course other interpolation strategies can be used by the software, for example streaks, and the classifier can add additional points if you want further fine-tuning of the color appearance). While not necessary, it may be advantageous if the classifier also observes the volume of colors actually occurring in image 1506. In Figure 1506, only the initial situation is shown before saturation processing, but typically the final situation (or a continuously changing volume) will also be shown, which in addition to observing the actual processed image (intermediate or output), gives the classifier an idea of where colors move closer to the gamma limit and clipping or smooth clipping may occur (there may be a built-in strategy to change not linearly the multiplier when within a certain region in relation to the range limit; and these options for defining behavior will typically be turned on or off in the software by the classifier, before starting its classification). While these luminance-only dependencies are sufficient for many situations, it can be advantageous if the classifier can define different behaviors for different hues. For example, he might specify 4 LUTs for 4 hue sectors. As explained above, the same boost or decrease in saturation would apply to the red and green directions from the L-axis but, as seen, the color volume 1506 may be closer to the gamma boundary in the green direction than in the red direction, for example because the current shot of the movie, or the current still image, is of a forest scene (and, in an earlier rank saturation may have been adjusted upwards, to emulate a sunny look in an LDR encode). Then, the classifier can demarcate hue sectors, and specify saturation processing in a similar way as described above. A more complex example is presented, too, where a single multiplicative behavior is not sufficient for at least one luminance level (and perhaps hue sector) in the image. For example, dark reds can be intensified to make a Ferrari parked in a darker part of the image (say, a garage) appear prettier, but when these colors also occur in faces, the faces can become very reddish. To this end, the classifier may define a second saturation reference S_ref2 (1510), which will now typically also serve as a color region demarcation determining which “face” colors will be processed. Compared to this level, pentagon 1511 now shows that the saturations there should be dimmed by, say, 0.75. Figure 15b then shows how this behavior will then modify the saturation of the colors with luminances similar to those of the L level corresponding to pentagon 1511. In many situations, a discontinuous behavior can be sufficient, as the face can occupy a part of the color space and, therefore, there can be no other colors until the Ferrari, but the smoothing of transitions 1520 can, also, be applied, either automatically by the software, or adjusted in this type of graphic in a subwindow , by the classifier. Also in the other directions, at least in luminance and, if necessary, also in hue, the classifier can determine in which range this behavior should be applied, for example a higher luminance level 1512 (and similarly a lower luminance level could be specified). Outside this range, saturation processing can be discontinuously transitioned to the other specified behavior, or it can happen more gradually if necessary.

[094] Embora esse processamento possa, em princípio, ser aplicado a qualquer situação de processamento da saturação de qualquer imagem, é particularmente útil quando se alterando entre classificações para renderização de cenários com diferentes faixas dinâmicas (isto é, por exemplo determinar uma codificação otimamente classificada, adequada para acionar um dispositivo de exibição HDR de 4.000 nits em um ambiente de visualização à meia-luz, com base em uma codificação LDR, ou vice-versa). O espaço HDR pode, então, ser normalizado para a mesma faixa [0,0, 1,0] que o espaço LDR, embora isso não seja necessário. Se isto for feito em um cenário de possibilidade de ajuste (no qual as classificações são definidas para serem capazes de realizar uma renderização de boa qualidade sob vários cenários de renderização, tipicamente o pico_de_branco do dispositivo de exibição e o ambiente circundante, onde essas classificações realmente constituem uma amostragem aprovada pelo criador de conteúdo de como a cena deveria parecer sob várias situações, evitando o problema de modelagem da aparência de cores complexas e convertendo o mesmo em simples interpolação entre classificações representativas), o processamento será tipicamente cocodificado sob a forma de metadados para uma codificação da imagem de entrada, para que qualquer sistema de renderização o aplique adequadamente (por exemplo, se um televisor tiver um brilho intermediário às duas classificações, por exemplo sendo o original uma classificação LDR de 100 ou 500 nits, e o processamento da saturação fazendo parte de uma estratégia de mapeamento para obter uma classificação de 4.000 nits, um dispositivo de exibição de 2.000 nits pode decidir aplicar, por exemplo metade da quantidade de reforço sugerida, ou determinar uma estratégia não linear iniciando a partir das informações cocodificadas de comportamento de saturação).[094] While this processing can in principle be applied to any situation of processing the saturation of any image, it is particularly useful when switching between classifications for rendering scenarios with different dynamic ranges (i.e., determining an optimally classified encoding suitable for driving a 4000-nit HDR display device in a dim viewing environment, based on an LDR encoding, or vice versa). The HDR space can then be normalized to the same range [0.0, 1.0] as the LDR space, although this is not necessary. If this is done in a tweakable scenario (where the ratings are set to be able to render well under various rendering scenarios, typically the display device's white_peak and the surrounding environment, where those ratings actually constitute a content creator-approved sampling of how the scene should look under various situations, avoiding the problem of modeling the appearance of complex colors and converting the same to simple interpolation between representative ratings), the processing will typically be co-coded in the form of metadata to an encoding of the input image, for any rendering system to apply it accordingly (for example, if a TV has a brightness intermediate to the two ratings, for example the original being an LDR rating of 100 or 500 nits, and the saturation processing being part of a mapping strategy to obtain a rating of 4000 nits, a display device of 2000 nits may decide to apply, for example, half the amount of suggested boosting, or determine a non-linear strategy starting from the co-coded behavior information of saturation).

[095] A Figura 16a mostra uma modalidade exemplificadora de um aparelho de classificação 1600, disposto de modo a ser capaz de aplicar um processamento da saturação a uma imagem de entrada Im_i (diga-se, por exemplo uma classificação LDR que precisa ser convertida em uma imagem em faixa dinâmica média, MDR, para um dispositivo de exibição de 1.200 nits; em que o classificador tem (pelo menos) esse dispositivo de exibição de 1.200 nits 1602 conectado para ver o resultado de suas especificações) e, adicionalmente codificando, também, a especificação em um sinal de vídeo S_o, o qual tipicamente codifica os pixels de vídeo de acordo com um padrão, como um padrão MPEG, e o processamento da saturação funciona como metadados para o mesmo, por exemplo em partes do sinal, ou pacotes de transporte separados que podem ser associados ao vídeo por meios como um PMT e um tempo de apresentação, ou outros meios para definir um número de imagem específico no vídeo ao qual o processamento corresponde (por exemplo, todas as imagens até o tempo de apresentação dos próximos dados de função de processamento da saturação). O aparelho de classificação compreende pelo menos uma unidade de processamento da saturação 1601, a qual está disposta de modo a aplicar a alteração de saturação a uma imagem de entrada, de acordo com qualquer dos métodos esclarecidos acima. Como saída, o mesmo pode produzir uma imagem de saída Im_o (por exemplo, com saturação reforçada), mas também uma codificação P_s da função de processamento, por exemplo um LUT a=ai(Li). Um codificador 1610 formatará isso de acordo com os requisitos de uma codificação padronizada de sinal de vídeo acordada (atual ou futura). Pode ser vantajoso facilitar a interação do usuário se houver uma unidade de análise de imagens 1603. Essa unidade examinará pelo menos a definição de como a imagem é codificada, por exemplo para determinar os pontos triangulares de R,G e B da gama 1501, porém pode também gerar, por exemplo o volume 1506. Uma unidade de interação do usuário 1605 implementa (tipicamente em software) todas as funções que permitem ao usuário especificar um comportamento de modificação da saturação e, em geral, interage com a imagem (por exemplo, define os limites de matiz para um processamento específico). Assim, isso permitirá que, com base em informações inseridas pelo usuário usr_inp (por exemplo, a partir de um teclado ou de um teclado especial de classificação), por exemplo sejam colocados os pontos indicando a quantidade de reforço ou diminuição da saturação.[095] Figure 16a shows an exemplary embodiment of a classification apparatus 1600, arranged in such a way as to be able to apply saturation processing to an input image Im_i (say, for example, an LDR classification that needs to be converted into an image in average dynamic range, MDR, for a display device of 1,200 nits; where the classifier has (at least) this display device of 1,200 nits 160 2 connected to see the result of your specifications) and further encoding also the specification into an S_o video signal, which typically encodes the video pixels according to a standard, such as an MPEG standard, and the saturation processing works as metadata for it, for example in parts of the signal, or separate transport packets that can be associated with the video by means such as a PMT and a presentation time, or other means to define a specific image number in the video to which the processing corresponds (e.g. all images until the time presentation of the next saturation processing function data). The classification apparatus comprises at least one saturation processing unit 1601 which is arranged to apply the saturation change to an input image according to any of the methods explained above. As output, it can produce an Im_o output image (eg with enhanced saturation), but also a P_s encoding of the processing function, for example a LUT a=ai(Li). An encoder 1610 will format this to the requirements of an agreed (current or future) standardized video signal encoding. It may be advantageous to facilitate user interaction if there is an image analysis unit 1603. This unit will at least examine the definition of how the image is encoded, for example to determine the triangular points of R,G and B of the gamma 1501, but may also generate, for example the volume 1506. for example, defines the hue limits for a specific processing). Thus, this will allow, based on information entered by the usr_inp user (for example, from a keyboard or a special classification keyboard), for example, to place points indicating the amount of reinforcement or decrease of saturation.

[096] Qualquer aparelho de recepção, por exemplo um aparelho de processamento de vídeo 1650, pode receber esse tipo de sinal codificado S_o, e aplicar o processamento de saturação especificado, ou diretamente, ou derivando seu próprio processamento de saturação ótimo com base no mesmo. O aparelho de processamento de vídeo compreende pelo menos uma unidade de processamento da saturação 1651, disposta de modo a aplicar essa estratégia de saturação dependente da luminância, conforme descrito acima, na imagem de entrada Im_i. Essa imagem de entrada pode ser obtida de várias maneiras mas, tipicamente, o aparelho de processamento de vídeo 1650 pode compreender um decodificador 1653, disposto de modo a realizar, por exemplo a decodificação de vídeo em AVC ou HEVC para obter uma imagem colorida pixelizada Im_i, e a decodificação de metadados das funções de processamento da saturação, convertendo em um formato utilizável internamente (por exemplo, essas informações poderiam ser codificadas de várias maneiras, como codificação de comprimento de execução, ou o decodificador pode querer converter a especificação em uma outra com precisão diferente, etc.). Em geral, o processamento da saturação formará parte de um processamento/mapeamento geral de cores realizado por uma unidade de processamento de cores 1652, a qual pode também mapear as luminâncias das cores de Im_1 para novos valores (por exemplo, se a imagem de entrada for uma imagem em HDR codificada em [0,0-1,0], as partes mais escuras podem ser demasiadamente escuras para serem usadas para renderização em LDR, e podem precisar ser tornadas mais brilhantes, seja antes (de preferência) ou depois do processamento da saturação). O aparelho de processamento de vídeo 1650 produz uma imagem de saída Im_o, a qual pode por exemplo, ser diretamente adequada em um dispositivo de exibição específico (pode, é claro, haver conversão adicional, como para levar em conta aspectos do dispositivo de exibição, como seu EOTF interno, mas isso não é importante para a presente discussão), ou a Im_o pode ser produzida para outro uso, por exemplo para armazenamento em uma memória, como um disco blu-ray, ou em um servidor de vídeo etc. Esse aparelho de processamento de vídeo 1650 pode, por exemplo ser incorporado a um televisor, computador ou conversor, ou um aparelho profissional, por exemplo um manipulador de vídeo de cinema digital para uso em cinemas, ou um sistema de computador de um departamento de análise de imagens etc.[096] Any receiving apparatus, for example a video processing apparatus 1650, can receive this type of S_o encoded signal, and apply the specified saturation processing, either directly, or deriving its own optimal saturation processing based thereon. The video processing apparatus comprises at least one saturation processing unit 1651 arranged to apply such luminance-dependent saturation strategy as described above to the input image Im_i. This input image can be obtained in a number of ways, but typically the video processing apparatus 1650 may comprise a decoder 1653, arranged to perform e.g. video decoding in AVC or HEVC to obtain a pixelated color image Im_i, and decoding metadata from the saturation processing functions, converting it into an internally usable format (for example, this information could be encoded in various ways, such as run-length encoding, or the decoder could want to convert the spec to one with a different precision, etc.). In general, the saturation processing will form part of an overall color processing/mapping performed by a color processing unit 1652, which may also map the luminances of the colors of Im_1 to new values (e.g., if the input image is an HDR image encoded at [0.0-1.0], the darkest parts may be too dark to use for LDR rendering, and may need to be brightened either before (preferably) or after the saturation processing). The video processing apparatus 1650 produces an output image Im_o, which may for example be directly fitted to a specific display device (there may of course be further conversion, such as to take into account aspects of the display device such as its internal EOTF, but this is not important for the present discussion), or the Im_o may be output for another use, for example for storage in a memory such as a blu-ray disk, or on a video server etc. Such video processing apparatus 1650 may, for example, be incorporated into a television, computer or converter, or a professional apparatus, for example a digital cinema video manipulator for use in cinemas, or a computer system of an image analysis department, etc.

[097] Para esclarecimentos adicionais, são oferecidos dois exemplos de possível uso em um cenário de possibilidade de ajuste, na Figura 17. Na Figura 17a, deseja- se derivar cores em LDR a partir de uma classificação HDR principal, de acordo com critérios do classificador como bom contraste local, aparência simulada de fontes de luz ou áreas brilhantes, etc. Para o mapeamento de tons na direção de luminância, presume-se o uso de uma cromaticidade (u,v) preservando o mapeamento, mas não se deseja escalar tudo até o máximo da gama de saída, como em EP12187572. Isso apresenta o risco que algumas cores caiam fora da gama de saída G_LDR, mesmo que todas as luminâncias sejam colocadas dentro da faixa encimada por L_LDRm. O classificador pode resolver esse problema técnico por um equilíbrio ótimo artístico de brilho versus saturação ao, antes de submapear a luminância, fazer uma diminuição da saturação no espaço de cor de entrada HDR (seta 1701). A Figura 17b oferece um outro exemplo, desta vez com uma codificação intermediária. O que se vê é o espaço de entrada e de saída (e a gama) sendo definidos de uma maneira similarmente normalizada e, consequentemente, colocada. Tem-se uma codificação de imagem intermediária de uma imagem em HDR (isto é, uma imagem com suficiente informação de luminância para ser usada em renderização HDR), a qual foi porém codificada (ajustada) um tanto para ser também ainda razoavelmente renderizável em um dispositivo de exibição com faixa dinâmica mais baixa (ou diretamente ou com alguma otimização final de mapeamento de cores, tipicamente implementado por uma unidade de mapeamento de cores no lado do dispositivo de exibição, por exemplo dentro do dispositivo de exibição). Isto significa que, por exemplo uma região brilhante de ambiente externo foi codificada com valores de luminância no ponto onde se inicia a seta de mapeamento de luminância TM_L2H. A compensação consistiu em dar algum reforço de brilho nessas regiões da imagem e suas cores (quando usadas, por exemplo diretamente em uma renderização de faixa dinâmica mais baixa), e então a saturação precisou ser reduzida devido ao formato matemático da gama. Para renderização em HDR, deseja-se que essas regiões sejam brilhantes, porém não perto do máximo da gama, já que essas luminâncias são reservadas para lâmpadas e explosões, isto é, na gama G_HDR da saída HDR normalizada, é necessário transformar as cores, dando às mesmas luminâncias mais baixas (em regiões de luminância L_os). Agora, essas cores parecem mais pálidas do que deveriam (poderiam) ser, então o classificador irá coespecificar um reforço de saturação para obter a renderização final, mas para aquelas luminâncias (pelo menos), pois outras regiões do espaço de cor podem estar bem.[097] For further clarification, two examples of possible use in a tunable scenario are offered in Figure 17. In Figure 17a, we want to derive colors in LDR from a main HDR classification, according to classifier criteria such as good local contrast, simulated appearance of light sources or bright areas, etc. For tone mapping in the luminance direction, it is assumed to use a (u,v) chromaticity preserving mapping, but you do not want to scale everything up to the maximum of the output gamma, as in EP12187572. This presents the risk that some colors will fall outside the G_LDR output range, even if all luminances are placed within the range surmounted by L_LDRm. The classifier can solve this technical problem by artistically optimal balance of brightness versus saturation by, before submapping the luminance, doing a saturation decrease in the HDR input color space (arrow 1701). Figure 17b offers another example, this time with an intermediate encoding. What you see is the input and output space (and range) being defined in a similarly normalized and hence collocated manner. You have an intermediate image encoding of an HDR image (i.e. an image with enough luminance information to be used in HDR rendering), which has however been encoded (tweaked) somewhat to also still be reasonably renderable on a display device with lower dynamic range (either directly or with some final color mapping optimization, typically implemented by a color mapping unit on the display device side, for example inside the display device). This means that, for example, an outdoor bright region has been encoded with luminance values at the point where the luminance mapping arrow TM_L2H starts. The compensation consisted of giving some brightness boost to these regions of the image and their colors (when used, for example directly in a lower dynamic range rendering), and then the saturation needed to be reduced due to the mathematical format of the gamma. For HDR rendering, you want these regions to be bright, but not close to the maximum of gamma, as these luminances are reserved for lamps and explosions, i.e. in the G_HDR range of the normalized HDR output, you need to transform the colors, giving the same lower luminances (in L_os luminance regions). Now those colors look paler than they should (could) be, so the classifier will co-specify a saturation boost to get the final rendering, but for those luminances (at least) as other regions of the color space might be fine.

[098] Tipicamente, o exposto acima será realizado sob a forma de várias modalidades de um aparelho de classificação de cores da imagem (1600), o qual compreende: - uma entrada (240) para uma imagem de entrada colorida (Im_i), e - unidade de interação do usuário (1605) disposta de modo a permitir que um classificador de cores especifique uma estratégia de processamento da saturação que compreende pelo menos um primeiro fator de alteração de saturação para uma primeira faixa de luminâncias de cores a serem processadas, e um segundo fator de alteração de saturação diferente para uma segunda faixa de luminâncias das cores a serem processadas, em que o primeiro e o segundo fatores de alteração de saturação são, de preferência, multiplicativos.[098] Typically, the above will be realized in the form of various embodiments of an image color classification apparatus (1600), which comprises: - an input (240) for a color input image (Im_i), and - user interaction unit (1605) arranged to allow a color classifier to specify a saturation processing strategy comprising at least a first saturation change factor for a first range of color luminances to be processed, and a second different saturation change factor for a second luminance range of the colors to be processed, wherein the first and second saturation change factors are preferably multiplicative.

[099] O pelo menos um fator caracterizante para a alteração de saturação dependente de luminância poderia consistir em vários, por exemplo um coeficiente poderia especificar um comportamento de alteração de saturação parabólico ou sigmoidal ao longo de pelo menos uma linha de luminância constante (ou aproximadamente constante) (por exemplo, o comportamento sigmoidal em uma plotagem como na Figura 15b pode iniciar com uma pequena diminuição da saturação e, então, um crescimento sigmoidal até um grande reforço para valores mais altos, até algum máximo que teria início cortando uma quantidade considerável de cores altamente saturadas na imagem de entrada, mas é claro que um parâmetro adicional poderia ser codificado para aquele nível de luminância, para diminuir novamente o reforço de saturação naquelas áreas para 1,0 ou mesmo abaixo, para fazer com que aquelas cores se encaixem melhor na gama disponível), mas em muitas situações um fator multiplicativo alterando uma saturação de entrada s_in em uma saturação de saída s_out=a*s_in terá suficiente complexidade de controle e precisão visual.[099] The at least one characterizing factor for the luminance-dependent saturation change could consist of several, for example a coefficient could specify a parabolic or sigmoidal saturation change behavior along at least one line of constant (or nearly constant) luminance (e.g. sigmoidal behavior in a plot as in Figure 15b might start with a small decrease in saturation and then a sigmoidal increase to a large boost to higher values, up to some maximum which would start by clipping a considerable amount of highly saturated colors in the input image, but of course an additional parameter could be coded for that luminance level, to again decrease the saturation boost in those areas to 1.0 or even below, to make those colors fit better in the available gamut), but in many situations a multiplicative factor changing an input saturation s_in into an output saturation s_out=a*s_in will have enough control complexity and visual precision .

[0100] Embora algumas modalidades possam apenas especificar para uma ou uma pequena região de luminâncias um fator caracterizante do processamento da saturação (o restante das cores, por exemplo ficando no padrão de permanecer igual, o que seria idêntico a multiplicar por um fator de 1,0), pode ser vantajoso especificar fatores para a totalidade da faixa de luminância de cores possível na imagem de entrada (por exemplo, 0,0-1,0) ou alguma outra faixa de luminância, da qual algumas cores podem ter o processamento da saturação definido, mesmo que não ocorram na imagem de entrada. Isso pode ser feito, seja realmente especificando as mesmas (por exemplo, o algoritmo criando uma interpolação contínua e o classificador aceitando ou corrigindo isso), o que pode ser cocodificado no sinal de imagem S_o, por exemplo sob a forma de um LUT de precisão suficiente (o qual ainda poderia ser adicionalmente interpolado em um lado de recepção), mas é suficiente se o processamento necessário para cada cor possível com a luminância Li for derivável, isto é, os metadados especificando a estratégia de processamento da saturação para um receptor pode apenas compreender os parâmetros funcionais, ou as posições dos pontos como 1505 etc.[0100] Although some modalities may only specify for one or a small region of luminances a characterizing factor of saturation processing (the rest of the colors, for example staying in the default of remaining the same, which would be identical to multiplying by a factor of 1.0), it may be advantageous to specify factors for the entire range of possible color luminance in the input image (for example, 0.0-1.0) or some other range of luminance, from which some colors may have defined saturation processing , even if they do not occur in the input image. This can be done either by actually specifying them (e.g. the algorithm creating a continuous interpolation and the classifier accepting or correcting this), which can be co-coded into the image signal S_o, e.g. in the form of a LUT of sufficient precision (which could still be further interpolated on a receiving side), but it is sufficient if the processing required for each color possible with the luminance Li is derivable, i.e. the metadata specifying the saturation processing strategy for a receiver it can only understand the functional parameters, or the positions of the points like 1505 etc.

[0101] Se for necessária mais precisão, pode ser vantajoso se aquela unidade de interação do usuário (1605) permitir a especificação do processamento da saturação com base em propriedades adicionais das cores no espaço de cor, por exemplo uma dependência de matiz, por exemplo s_out=fi(L, h_i), em que há um conjunto de h_i’s sendo matizes centroides para os setores de matiz, e uma cor (u,v) é processada por um mapeamento de saturação com base na proximidade mais próxima a todos aqueles matizes centroides, ou uma outra definição dependente de matiz s_out=fi(L, f_hi()), em que f_hi() é alguma função ou estratégia algorítmica mapeando o matiz de uma cor de entrada para algum coeficiente i, o qual define uma estratégia específica de processamento da saturação. De maneira similar, pode haver várias estratégias para diferentes subfaixas de saturação de pelo menos uma faixa de luminância (em, ou em torno de, Li), e pode-se tratar os matizes complementares como se tivessem saturação negativa. Isso pode ser matematicamente definido, por exemplo s_out=fi(L, f_si()), em que agora há uma alocação categórica (por exemplo, booleana, se duas regiões estiverem envolvidas) com base na saturação de cores (u,v) da imagem de entrada a ser processada. Embora essa precisão seja de modo geral suficiente, pode-se em geral definir estratégias que diferem com base tanto no matiz como na saturação das cores nas subfaixas de luminância selecionadas.[0101] If more precision is needed, it may be advantageous if that user interaction unit (1605) allows specification of saturation processing based on additional properties of colors in the color space, for example a hue dependency, for example s_out=fi(L, h_i), where there is a set of h_i's being centroid hues for the hue sectors, and a color (u,v) is processed by a saturation mapping based on the closest proximity to all those centroid hues, or another hue-dependent definition s_out=fi(L, f_hi()), where f_hi() is some algorithmic function or strategy mapping the hue of an input color to some coefficient i, which defines a specific saturation processing strategy. Similarly, there can be multiple strategies for different saturation subranges of at least one luminance range (at or around Li), and one can treat complementary hues as if they had negative saturation. This can be mathematically defined, for example s_out=fi(L, f_si()), where there is now a categorical allocation (eg boolean if two regions are involved) based on the color saturation (u,v) of the input image to be processed. While this accuracy is generally sufficient, you can generally define strategies that differ based on both the hue and saturation of colors in selected luminance subbands.

[0102] Assim, foi descrito um método para especificar uma estratégia de processamento da saturação para uma imagem de entrada (Im_i), o qual compreende especificar pelo menos um primeiro fator de alteração de saturação para uma primeira faixa de luminâncias de cores da imagem de entrada a serem processadas, e um segundo fator de alteração de saturação diferente para uma segunda faixa de luminâncias de outras cores da imagem de entrada a serem processadas e, de preferência, compreendendo uma codificação dessa estratégia sob a forma de metadados associados à imagem de entrada, e variantes do mesmo.[0102] Thus, a method has been described for specifying a saturation processing strategy for an input image (Im_i), which comprises specifying at least a first saturation change factor for a first luminance range of colors of the input image to be processed, and a second different saturation change factor for a second luminance range of other colors of the input image to be processed, and preferably comprising an encoding of this strategy in the form of metadata associated with the input image, and variants thereof.

[0103] Um aparelho complementar ao mesmo será um aparelho de processamento de vídeo (1650), que compreende; - uma entrada para uma imagem de entrada (Im_i), e - uma unidade de processamento da saturação (1651), disposta de modo a aplicar uma primeira alteração de saturação às cores da imagem de entrada que se enquadram em uma primeira faixa de luminâncias, e uma segunda alteração de saturação diferente às cores da imagem de entrada que se enquadram em uma segunda faixa de luminâncias, em que o aparelho de processamento de vídeo compreende meios para obter um primeiro e um segundo fatores de alteração de saturação que caracterizam a primeira e respectivamente a segunda alteração de saturação, em que esses meios compreendem, de preferência, um decodificador para decodificar o primeiro e um segundo fatores de alteração de saturação a partir dos metadados em um sinal de imagem (S_o). Embora esse aparelho possa fazer parte de um sistema em uma única localização ou em uso único, tipicamente um classificador ou reclassificador para conteúdo existente especificará as classificações uma vez e, então, em uma ocasião posterior e diferente, o uso dessas classificações ocorrerá pelo aparelho de processamento de vídeo. Isto pode ser, por exemplo tipicamente um aparelho destinado ao consumidor. O consumidor pode ter comprado um filme através da internet, o qual ele assistiu, por exemplo há 5 anos em seu dispositivo de exibição LDR. Agora, ainda tendo os direitos para assistir o conteúdo, ele indica ao módulo de gerenciamento no servidor que comprou um dispositivo de exibição HDR, e que deseja receber os metadados para as imagens do programa de vídeo, especificando entre outras coisas essa saturação. É claro que o usuário pode, também, comprar os metadados de processamento da codificação de vídeo (cores de imagem pixelizadas) + as cores (saturação) em um único produto de memória, por exemplo um disco blu-ray, um bastão de memória em estado sólido ou pré-instalado, por exemplo em um dispositivo reprodutor de vídeo, como um reprodutor portátil, etc.[0103] An apparatus complementary thereto will be a video processing apparatus (1650), comprising; - an input for an input image (Im_i), and - a saturation processing unit (1651), arranged so as to apply a first saturation change to the input image colors falling within a first luminance range, and a second different saturation change to the input image colors falling into a second luminance range, wherein the video processing apparatus comprises means for obtaining first and second saturation change factors characterizing the first and respectively the second saturation change factors, wherein said means preferably comprise a decoder for decoding the first and a second saturation change factors from the metadata in an image signal (S_o). While this apparatus may form part of a single location or single use system, typically a classifier or reclassifier for existing content will specify the classifications once and then, on a later and different occasion, the use of those classifications will be by the video processing apparatus. This may for example typically be a consumer appliance. The consumer may have purchased a movie over the internet, which he watched for example 5 years ago on his LDR display device. Now, still having the rights to watch the content, he indicates to the management module on the server that he has purchased an HDR display device, and that he wants to receive the metadata for the video program images, specifying among other things this saturation. Of course, the user can also buy the video encoding processing metadata (pixelized image colors) + the colors (saturation) on a single memory product, e.g. a blu-ray disc, a solid state memory stick or pre-installed, e.g. on a video player device such as a portable player, etc.

[0104] Isso corresponde a um método de processamento de vídeo que compreende aplicar uma primeira alteração de saturação a cores de uma imagem de entrada que se enquadram em uma primeira faixa de luminâncias, e uma segunda alteração de saturação diferente a cores da imagem de entrada que se enquadram em uma segunda faixa de luminâncias, e as várias modalidades das mesmas de acordo com os princípios esclarecedores explicados acima.[0104] This corresponds to a video processing method that comprises applying a first saturation change to colors of an input image that fall within a first luminance range, and a second different saturation change to colors of the input image that fall into a second luminance range, and the various modalities thereof in accordance with the clarifying principles explained above.

[0105] A Figura 13 mostra um exemplo de como diferentes imagens em LDR podem ser obtidas para renderização. Neste exemplo, foi escolhida uma curva suave 1301 para classificação técnica, a qual permite recuperar todas as faixas de luminância da imagem em HDR principal original a ser codificada (qualquer que seja a faixa que esta possa ter tido) com uma precisão razoável. Quando isso é salvo na imagem em LDR tecnicamente classificada GT_IDR, um sistema legado “burro” renderizará, embora a imagem seja reconhecível, uma imagem um tanto suave em um dispositivo de exibição LDR, com contraste não preferencial nas regiões principais, como o ator. Qualquer sistema desse tipo poderia usar processamento automático para aumentar esse contraste ou, de outro modo, tentar otimizar a imagem, porém teria que fazê-lo às cegas. Seria muito melhor se o provedor de conteúdo pudesse codificar o que o lado de recepção pode fazer para obter uma classificação LDR melhor que a classificação técnica. Os dados necessários para especificar esse segundo mapeamento de tons a partir da GT_IDR com classificação técnica podem ser tão simples quanto especificar dois limites, gt_Mh e gt_Ml, os quais indicam onde residem as informações principais no espaço de código, e quais outras cores podem ser (seriamente) deterioradas às custas de outras. O sistema do lado de recepção precisa, então, apenas estirar as luminâncias levando em conta esses importantes valores. Isso foi mostrado em um gráfico 1302 que, quando aplicado diretamente ao dispositivo de exibição (com propriedades calibradas conhecidas, por exemplo comportamento padrão de gama e de ambiente de visualização) resultam em luminâncias renderizadas em x, de acordo com aquele gráfico. Neste exemplo, o mapeador de cores da extremidade de recepção decidiu estirar majoritariamente os pretos, ainda retendo um pouco da informação posterizada da HDR, porém isso pode ser renderizado sob o ambiente circundante dado, e decidiu usar uma estratégia de cortes duros, mapeando gt_Mh para branco (isto é, definindo o mesmo como o branco em LDR no espaço de cor total em HDR). Todas as cores acima podem, então, não ser renderizadas nesse dispositivo de exibição com, por exemplo 700 nits. É claro que podem ser cocodificadas especificações mais complexas sobre o que um mapeamento de cores do lado de recepção deveria fazer com a imagem codificada GT_IDR recebida, para obter aparência visual ótima em um ou mais dispositivos de exibição pretendidos (por exemplo, 700 nits fazem o processamento de X, 1.500 nits fazem o de Y), e tudo isso pode ser definido em funções de mapeamento de cores e aplicado com base na imagem GT_IDR recebida (por exemplo, valores de cinza característicos adicionais podem ajudar no aprimoramento parametricamente especificado adicional da classificação LDR a ser obtida, ou 1 estratégia de mapeamento explícita pode ser especificada para toda a faixa, por categoria de dispositivo de exibição receptor, e isso pode ser feito, por exemplo com um LUT de fatores de reforço [entre 1/X e Y] por valor de luminância). Assim, os sistemas de decodificação simples renderizarão uma imagem em LDR razoável, e decodificadores capazes de lidar com todas as presentes possibilidades produzirão ótimas imagens em LDR ou HDR, ou qualquer MDR (faixa dinâmica média), ou ODR (faixa dinâmica típica externa, como subLDR com contraste extremamente baixo). Embora a presente estrutura permita a especificação de classificações exatas para N LDR (e outros) cenários de visualização (por exemplo, televisor de 100 nits e 500 nits sob cenários de visualização escuro, à meia-luz e brilhante = 6 classificações), é claro que nem sempre é necessário renderizar uma classificação ótima, mas sim uma imagem de boa qualidade também serve, em alguns cenários. Isso foi ilustrado com a Figura 13, como mero exemplo. Suponha-se que se tem um programa jornalístico com iluminação em HDR que supostamente tem uma aparência muito boa, mas como a LDR é uma aproximação terá uma apenas uma aparência boa, e o classificador precisa ser capaz de definir seu sistema em um par de segundos antes de iniciar o programa jornalístico no estúdio. Para isso, pode-se definir dois limiares de demarcação adicionais, gt_H2 e gt_L2, de modo que o lado de recepção pode decidir como mapear as cores da GT_IDR para obter sua imagem de acionamento do dispositivo de exibição. Por exemplo, pode ser definido (mediante a cocodificação desses valores em códigos especificamente reservados, como MINIMAL_LDR_Low e MINIMAL_LDR_High, ou BROAD_LDR_Low e BROAD_LDR_High, ou mesmo mais delimitadores da subfaixa de LDR) que gt_ML e gt_Mh são os delimitadores “definitivos” da subfaixa de LDR da ação principal da cena em HDR, a qual ainda contém algumas das informações de HDR (como algumas partes já mais brilhantes no estúdio), e gt_L2 e gt_L2 contêm o “mínimo absoluto” necessário para renderização em LDR (por exemplo, nenhum corte (grave) das altas luzes nas faces). O mapeamento de cores no lado de recepção pode, então, selecionar sua estratégia para produzir uma imagem em LDR. Por exemplo, o mesmo pode definir uma estratégia proprietária de cortes suaves nas regiões entre gt_ML e gt_L2, e gt_H2 e gt_H2, após ter definido uma estratégia de estiramento para a faixa média de cores com boa renderização absolutamente necessária entre gt_L2 e gt_H2 (por exemplo, mapear estas para os valores 20 e 220). Mas se o sistema de recepção decidir fazer um mapeamento de estiramento duro da faixa [gt_L2, gt_H2] para [0,255] e corte externo, a renderização de LDR também terá uma aparência razoável. O lado de recepção poderia decidir escolher uma opção, por exemplo com base na quantidade de iluminação circundante disponível. Assim, observa-se que o sistema permite muitas possibilidades, desde sistemas de definição de classificação complexa rigorosamente controlados, a sistemas realmente simples que têm somente alguns parâmetros-guia cocodificados. A aparência de faixa dinâmica de uma classificação técnica pode, por exemplo ser LDR ou MDR (isto é, ter uma boa aparência em um dispositivo de exibição de referência de, por exemplo 1.200 nits). Mas o princípio é sempre desacoplar os requisitos técnicos (como reversibilidade, a qual é manipulada na relação HDR-GT_IDR) da liberdade artística (fazer uma recoloração arbitrária de todos os objetos de imagem em LDR, tanto quanto desejado pelo classificador a partir da GT-IDR, e uma função de mapeamento tão complexa quanto for necessário, embora tipicamente com um certo número de funções de base suportadas (as quais o decodificador precisa suportar), por exemplo mapeamento de luminância e cores multissubfunção (por exemplo, com LUTs), definição de segmentos de objeto local e funções de mapeamento para os mesmos, etc.). As interfaces de usuário podem ser muito simples para o classificador, por exemplo já que para muitos sistemas a posição precisa e com ajuste fino de gt_Mh, gt_H2 etc. podem não ter importância crítica, ele pode defini-las mediante a rápida marcação de um par de regiões da imagem atualmente capturada de uma cena, por exemplo o rosto da jornalista, a mesa atrás da qual ela está sentada e, se necessário, com uma outra caneta (definindo as regiões externas, como os brilhos acima de gt_Mh) a tela luminosa atrás de suas costas. É claro que mais informações podem ser fornecidas - por exemplo, com mais pontos característicos gt - por exemplo, sombras ou altas luzes na iluminação em HDR de sua face, ou da mesa, e isso tudo pode ser usado para estratégias mais complexas de mapeamento de cores. Além disso, podem ser feitas especificações adicionais dessas regiões, por exemplo uma função geométrica através de sua face, definindo uma trajetória de contraste, e funções para redefinir/remapear aquelas sob várias condições (por exemplo, deixar a extremidade da curva referente aos brilhos, mas clarear um pouco as partes escuras), etc. Tudo isso pode ser adicionado aos metadados, se necessário, mas em geral são preferidos sistemas simples com a quantidade mínima de dados necessários, e pelo menos uma faixa de LDR pode ser útil (mas uma segunda em torno das cores de uma pessoa também pode ser útil em alguns cenários).[0105] Figure 13 shows an example of how different LDR images can be obtained for rendering. In this example, a smooth curve 1301 was chosen for technical classification, which allows recovering all luminance ranges of the original main HDR image to be encoded (whatever range it may have had) with reasonable accuracy. When this is saved to the technically classified GT_IDR LDR image, a “dumb” legacy system will render, although the image is recognizable, a rather soft image on an LDR display device, with contrast not preferred in key regions such as the actor. Any such system could use automatic processing to increase this contrast, or otherwise try to optimize the image, but it would have to do so blindly. It would be much better if the content provider could encode what the receiving side can do to get a better LDR rating than the technical rating. The data needed to specify this second tone mapping from the technically classified GT_IDR could be as simple as specifying two thresholds, gt_Mh and gt_Ml, which indicate where key information resides in the code space, and which other colors can be (seriously) spoiled at the expense of others. The receive-side system then only needs to stretch the luminances taking these important values into account. This has been shown in a graph 1302 which, when applied directly to the display device (with known calibrated properties, for example default gamma and viewing environment behavior) results in luminances rendered in x as per that graph. In this example, the colormapper on the receiving end decided to mostly stretch the blacks, still retaining some of the posterized HDR information however this can be rendered under the given surrounding environment, and decided to use a hard clipping strategy, mapping gt_Mh to white (i.e. setting the same as the white in LDR in the full color space in HDR). All of the above colors may therefore not render on this display device with eg 700 nits. Of course, more complex specifications can be co-coded on what a receive-side color mapping should do with the received GT_IDR encoded image, to achieve optimal visual appearance on one or more intended display devices (e.g. 700 nits does X processing, 1500 nits does Y processing), and all of this can be defined in color mapping functions and applied based on the received GT_IDR image (e.g. additional characteristic gray values can help with further parametrically specified enhancement of the LDR rating to be obtained, or 1 explicit mapping strategy can be specified for the whole range, per receiving display device category, and this can be done, for example with a LUT of boosting factors [between 1/X and Y] per luminance value). Thus, simple decoding systems will render a reasonable LDR image, and decoders capable of handling all present possibilities will produce great images in LDR or HDR, or any MDR (medium dynamic range), or ODR (typical external dynamic range, such as subLDR with extremely low contrast). While the present framework allows for exact ratings to be specified for N LDR (and other) viewing scenarios (e.g. 100 nits TV and 500 nits under dark, dim, and bright viewing scenarios = 6 ratings), it is clear that it is not always necessary to render an optimal rating, but a good quality picture will do in some scenarios as well. This has been illustrated with Figure 13, as a mere example. Suppose you have a news program with HDR lighting that is supposed to look pretty good, but since LDR is an approximation it will only look good, and the classifier needs to be able to set your system up in a couple of seconds before starting the news program in the studio. To do this, you can define two additional demarcation thresholds, gt_H2 and gt_L2, so that the receiving side can decide how to color-map the GT_IDR to get its trigger image from the display device. For example, it can be defined (by co-coding these values into specifically reserved codes such as MINIMAL_LDR_Low and MINIMAL_LDR_High, or BROAD_LDR_Low and BROAD_LDR_High, or even more LDR subrange delimiters) that gt_ML and gt_Mh are the “definitive” LDR subrange delimiters of the HDR scene's main action, which still contains some of the HDR information (like some already brighter parts in the studio), and gt_L2 and gt_L2 contain the “absolute minimum” required for LDR rendering (e.g. no (hard) clipping of highlights on faces). Color mapping on the receiving side can then select its strategy for producing an LDR image. For example, it can define a proprietary strategy of smooth clipping in the regions between gt_ML and gt_L2, and gt_H2 and gt_H2, after having defined a stretching strategy for the middle range of colors with good rendering absolutely necessary between gt_L2 and gt_H2 (for example, mapping these to values 20 and 220). But if the receiving system decides to do a hard stretch mapping of the range [gt_L2, gt_H2] to [0.255] and outer clipping, the LDR rendering will also look reasonable. The receiving side could decide to choose an option, for example based on the amount of surrounding lighting available. Thus, it is observed that the system allows many possibilities, from rigorously controlled complex classification definition systems, to really simple systems that have only a few co-coded guide parameters. The dynamic range appearance of a technical rating can for example be LDR or MDR (ie look good on a reference display device of eg 1200 nits). But the principle is always to decouple technical requirements (such as reversibility, which is handled in the HDR-GT_IDR relation) from artistic freedom (doing arbitrary recoloring of all image objects in LDR as much as desired by the classifier from GT-IDR, and a mapping function as complex as necessary, though typically with a certain number of supported base functions (which the decoder needs to support), e.g. luminance mapping and multi-subfunction colors (e.g. with LUTs), definition of local object segments and mapping functions for them, etc.). The user interfaces can be too simple for the classifier, for example since for many systems the precise and finely tuned position of gt_Mh, gt_H2 etc. may not be of critical importance, he can define them by quickly marking a couple of regions of the currently captured image of a scene, for example the journalist's face, the table behind which she is sitting and, if necessary, with another pen (defining the external regions, like the glows above gt_Mh) the luminous screen behind her back. Of course more information can be provided - for example with more gt feature points - for example shadows or highlights in the HDR lighting of your face, or the table, and this can all be used for more complex color mapping strategies. Furthermore, additional specifications of these regions can be made, for example a geometric function across its face, defining a contrast trajectory, and functions to redefine/remap those under various conditions (e.g. leave the end of the curve referring to the highlights, but lighten the dark parts a little), etc. All of this can be added to the metadata if needed, but in general simple systems with the minimum amount of data needed are preferred, and at least one strip of LDR can be useful (but a second one around a person's colors can also be useful in some scenarios).

[0106] A Figura 14 mostra um exemplo de como as classificações técnicas também podem funcionar com princípios colorimétricos. Suponha-se que se tem um espaço de cor matemático 1401 com definição de primárias, de modo que possam ser feitas menos cores saturadas do que pode ser necessário para alguns dispositivos de exibição previstos (talvez futuros), com gama física 1402. Isso pode não ser um grande problema para as cores mais escuras, já que o dispositivo de exibição pode realizar algum reforço da saturação, e pode haver suficiente informação registrada para que isso funcione bem (talvez mediante a aplicação de um filtro de remoção pós-bandas, se necessário). Na abrangência da gama, porém, poderia haver um problema, e é aqui que se pode querer ter algumas cores saturadas de alto brilho, em vez de cores mais pastel. Se isso for um problema, o classificador pode decidir definir sua classificação até um novo ponto de branco W* (mediante o preenchimento da tenda, deixando uma possibilidade de definir cores mais saturadas próximo às cores maximamente brilhantes), mas então, para evitar confusão, esse ponto de branco W* (sendo a cor mais brilhante possível de acordo com essa definição de código) pode ser cocodificado (para declarar que não é apenas uma cena “sem branco”). É claro que o lado de recepção pode, também, apenas considerar qual é a codificação mais brilhante na imagem de entrada, e fazer uma renderização com a mesma, já que de qualquer modo o sistema visual se adapta com um cinza parecendo branco para dispositivos de exibição brilhantes, mas então um sistema LDR pode usar o mesmo para reforçar algumas partes da imagem a seu máximo brilho.[0106] Figure 14 shows an example of how technical classifications can also work with colorimetric principles. Suppose you have a mathematical color space 1401 with defined primaries, so that you can make less saturated colors than might be necessary for some anticipated (perhaps future) display devices, with physical gamma 1402. This may not be much of an issue for darker colors, as the display device can do some saturation boosting, and there may be enough information logged for this to work well (perhaps by applying a post-banding filter, if necessary). In the breadth of the gamut though, there could be a problem, and this is where one might want to have some high-gloss saturated colors rather than more pastel colors. If this is a problem, the classifier may decide to set its classification down to a new white point W* (by filling the tent, leaving a possibility to define more saturated colors close to the maximally bright colors), but then, to avoid confusion, this white point W* (being the brightest possible color according to this code definition) can be cocoded (to declare that it is not just a “no white” scene). Of course, the receiving side could also just consider what is the brightest encoding in the input image, and render with that, as anyway the visual system adapts with a gray appearing white to glossy display devices, but then an LDR system can use the same to boost some parts of the image to its maximum brightness.

[0107] O versado na técnica entenderá que muitas variantes são possíveis para os conceitos acima. Por exemplo, embora nos exemplos esclarecedores específicos nas Figuras se presuma que os dados dos mapeamentos de cores eram cocodificados com os dados de pixel da imagem (GT_IDR), por exemplo como metadados dentro de lugares reservados definidos no padrão de codificação da imagem, por exemplo mensagens SEI ou similares, ou dentro de uma seção reservada da memória, por exemplo uma seção do BD, é claro que outros exemplos podem transmitir os dados de mapeamento de cores por meio de um outro canal de comunicação diferente da GT_IDR. Por exemplo, o criador de conteúdo pode colocar restrições adicionais nas propriedades dos mapeamentos de cores ou na GT_IDR resultante, por exemplo pode dar ao mesmo uma aparência totalmente diferente daquela de M_HDR e Im- LDR, ou mesmo uma imagem feia, e fornecer os dados de mapeamento de cores por meio de um canal seguro mediante a verificação do receptor, ou do pagamento, etc.[0107] The skilled person will understand that many variants are possible for the above concepts. For example, although in the specific illuminating examples in the Figures it was assumed that the colormapping data was co-coded with the image pixel data (GT_IDR), for example as metadata within reserved places defined in the image encoding standard, for example SEI messages or similar, or within a reserved section of memory, for example a DB section, it is clear that other examples may transmit the colormapping data via a communication channel other than the GT_IDR. For example, the content creator can place additional restrictions on the properties of the color mappings or the resulting GT_IDR, for example he can give it a totally different appearance than that of M_HDR and Im-LDR, or even an ugly image, and deliver the color mapping data through a secure channel upon receiver verification, or payment, etc.

[0108] Os componentes algorítmicos revelados neste texto podem (totalmente ou em parte) ser realizados na prática sob a forma de hardware (por exemplo, partes de um circuito integrado (IC) específico para aplicação) ou sob a forma de software em funcionamento em um processador de sinal digital especial, ou um processador genérico, etc. Os mesmos podem ser semiautomáticos em um sentido de que pelo menos algumas informações inseridas pelo usuário podem estar/estiveram presentes (por exemplo, na fábrica, ou inseridos pelo consumidor, ou outra informação inserida por um ser humano).[0108] The algorithmic components disclosed in this text can (wholly or in part) be realized in practice in the form of hardware (for example, parts of an application-specific integrated circuit (IC)) or in the form of software running on a special digital signal processor, or a generic processor, etc. They can be semi-automatic in the sense that at least some user-entered information may be/were present (eg factory-entered, or consumer-entered, or other human-entered information).

[0109] Deve ser compreensível para o versado na técnica, a partir da presente apresentação, quais componentes podem ser aprimoramentos opcionais e podem ser realizados em combinação com outros componentes, e como etapas (opcionais) de métodos correspondem aos respectivos meios de aparelhos, e vice-versa. O fato de que alguns componentes são revelados na invenção em uma certa relação (por exemplo, em uma única figura em uma certa configuração) não significa que outras configurações não sejam possíveis como modalidades sob o mesmo pensamento da invenção, conforme revelado para patente, no presente documento. Além disso, o fato de que, por razões pragmáticas, foi descrito somente um espectro limitado de exemplos, não significa que outras variantes não possam enquadrar-se no escopo das reivindicações. De fato, os componentes da presente invenção podem ser incorporados em diferentes variantes ao longo de qualquer cadeia de uso, por exemplo todas as variantes de um lado de criação, como um codificador, podem ser similares a, corresponderem a, aparelhos correspondentes em um lado de consumo de um sistema decomposto, por exemplo um decodificador, e vice-versa. Vários componentes das modalidades podem ser codificados conforme dados de sinal específicos em um sinal para transmissão, ou para uso adicional como coordenação, em qualquer tecnologia de transmissão entre codificador e decodificador, etc. A palavra “aparelho”, neste pedido, é usada em seu sentido mais amplo, especificamente um grupo de meios que permitem a realização de um objetivo específico, e consequentemente pode, por exemplo ser um (ou uma pequena parte de um) IC, ou um aparelho dedicado (como um aparelho com um dispositivo de exibição), ou parte de um sistema em rede, etc. Os termos “disposição” ou “sistema” também se destinam a serem usados em seu sentido mais amplo, então podem compreender, entre outras coisas, um único aparelho físico que pode ser comprado, uma parte de um aparelho, uma coleção de (partes de) aparelhos em cooperação, etc.[0109] It should be understandable to the person skilled in the art, from the present presentation, which components can be optional enhancements and can be performed in combination with other components, and how (optional) steps of methods correspond to the respective apparatus means, and vice versa. The fact that some components are disclosed in the invention in a certain relationship (for example, in a single figure in a certain configuration) does not mean that other configurations are not possible as modalities under the same thought of the invention, as disclosed for patent, in the present document. Furthermore, the fact that, for pragmatic reasons, only a limited spectrum of examples has been described does not mean that other variants cannot fall within the scope of the claims. Indeed, the components of the present invention can be incorporated in different variants along any chain of use, for example all variants of a creation side, such as an encoder, can be similar to, correspond to, corresponding appliances on a consumption side of a decomposed system, for example a decoder, and vice versa. Various components of the embodiments can be encoded as specific signal data into one signal for transmission, or for further use as coordination, in any transmission technology between encoder and decoder, etc. The word "apparatus", in this application, is used in its broadest sense, specifically a group of means that enable the achievement of a specific objective, and consequently may, for example, be a (or a small part of an) IC, or a dedicated apparatus (such as an apparatus with a display device), or part of a networked system, etc. The terms "arrangement" or "system" are also intended to be used in their broadest sense, so they can include, among other things, a single physical device that can be purchased, a part of a device, a collection of (parts of) devices in cooperation, etc.

[0110] A denotação de produto de programa de computador precisa ser entendida como abrangendo qualquer realização física de uma coleção de comandos que permitem que um processador genérico ou para propósitos especiais, após uma série de etapas de carregamento (as quais podem incluir etapas intermediárias de conversão, como tradução para uma linguagem intermediária, e uma linguagem final de processador) envie comandos ao processador, para executar qualquer das funções características de uma invenção. Em particular, o produto de programa de computador pode ser realizado sob a forma de dados em um suporte, por exemplo um disco ou fita, dados presentes em uma memória, dados se deslocando por meio de uma conexão de rede - com fio ou sem fio - ou um código de programa em papel. Exceto pelo código de programa, os dados característicos necessários para o programa podem, também, ser incorporados sob a forma de um produto de programa de computador. Esses dados podem ser (parcialmente) fornecidos de qualquer maneira.[0110] The computer program product denotation needs to be understood as encompassing any physical realization of a collection of commands that allow a generic or special purpose processor, after a series of loading steps (which may include intermediate conversion steps, such as translation into an intermediate language, and a final processor language) to send commands to the processor, to perform any of the characteristic functions of an invention. In particular, the computer program product can be realized in the form of data on a medium, for example a disk or tape, data present in a memory, data traveling through a network connection - wired or wireless - or a program code on paper. Except for the program code, the characteristic data needed for the program can also be incorporated in the form of a computer program product. This data can be (partially) provided in any way.

[0111] A invenção ou quaisquer dados passíveis de uso, de acordo com qualquer filosofia das presentes modalidades, como dados de vídeo, pode também ser incorporada sob a forma de sinaliza em suportes de dados, os quais podem ser memórias removíveis como discos ópticos, memórias flash, discos rígidos removíveis, dispositivos portáteis graváveis por meios sem fio, etc.[0111] The invention or any usable data, according to any philosophy of the present modalities, such as video data, can also be incorporated in the form of signals on data carriers, which can be removable memories such as optical discs, flash memories, removable hard disks, portable devices recordable by wireless means, etc.

[0112] Algumas das etapas necessárias para o funcionamento de qualquer método apresentado podem já estar presentes na funcionalidade do processador ou quaisquer modalidades de aparelho da invenção, em vez de descritas no produto de programa de computador ou em qualquer unidade, aparelho ou método aqui descrito (com detalhes das modalidades da invenção), como etapas de entrada e saída de dados, etapas de processamento bem conhecidas e tipicamente incorporadas como acionamento de dispositivo de exibição convencional, etc. Os inventores desejam proteção, também, para produtos resultantes e resultantes similares, por exemplo os sinais inovadores específicos envolvidos em qualquer etapa dos métodos ou em qualquer subparte dos instrumentos, bem como quaisquer novos usos desses sinais, ou quaisquer métodos relacionados.[0112] Some of the steps necessary for the operation of any presented method may already be present in the functionality of the processor or any apparatus embodiments of the invention, rather than described in the computer program product or in any unit, apparatus or method described herein (with details of the embodiments of the invention), such as data input and output steps, processing steps well known and typically incorporated as triggering a conventional display device, etc. The inventors also want protection for resultant and similar resultant products, for example the specific innovative signals involved in any step of the methods or any subpart of the instruments, as well as any new uses of those signals, or any related methods.

[0113] O termo sinal de imagem tipicamente significa, no presente documento, qualquer das maneiras existentes ou similares para comprimir dados de imagem. Exceto por uma estrutura pixelizada de tuplas de cor, as quais se chama de imagem (ou figura), esse tipo de sinal pode conter metadados como descritores para o significado dos dados, por exemplo a razão de aspecto da imagem, e metadados adicionais contendo informações úteis relacionadas à imagem codificada, como para modificar a mesma em um lado de recepção, etc. Os sinais podem ter várias formas físicas/técnicas de modalidades, por exemplo podem ser definidos como modulações elétricas de uma onda portadora, ou bits representados sob a forma de depressões mecânicas, ou modificações de material, por exemplo um estado local de magnetização, etc.[0113] The term image signal typically means, herein, any of the existing or similar ways to compress image data. Except for a pixelated structure of color tuples, which is called an image (or picture), this type of signal can contain metadata such as descriptors for the meaning of the data, for example the aspect ratio of the image, and additional metadata containing useful information related to the encoded image, such as modifying it on a receiving side, etc. Signals can have various physical/technical forms of modalities, for example they can be defined as electrical modulations of a carrier wave, or bits represented in the form of mechanical depressions, or material changes, for example a local state of magnetization, etc.

[0114] Deve-se notar que as supracitadas modalidades ilustram a invenção, ao invés de limitá-la. Onde o versado na técnica pode facilmente realizar um mapeamento dos exemplos apresentados a outras regiões das reivindicações, por uma questão de concisão não foram mencionadas todas essas opções em profundidade. Exceto pelas combinações de elementos da presente invenção, conforme combinadas nas reivindicações, outras combinações dos elementos são possíveis. Qualquer combinação de elementos pode ser realizada em um único elemento dedicado.[0114] It should be noted that the aforementioned embodiments illustrate the invention, rather than limiting it. Where the person skilled in the art can easily map the presented examples to other regions of the claims, for the sake of brevity all these options have not been mentioned in depth. Except for the combinations of elements of the present invention as combined in the claims, other combinations of the elements are possible. Any combination of elements can be realized in a single dedicated element.

[0115] Qualquer sinal de referência entre parênteses na reivindicação não se destina a limitar a reivindicação, nem é qualquer símbolo específico nos desenhos. A palavra “compreende” não exclui a presença de elementos ou aspectos não mencionados em uma reivindicação. A palavra “um” ou “uma” antes de um elemento não exclui a presença de uma pluralidade de tais elementos.[0115] Any reference sign in parentheses in the claim is not intended to limit the claim, nor is any specific symbol in the drawings. The word “comprises” does not exclude the presence of elements or aspects not mentioned in a claim. The word "a" or "an" before an element does not exclude the presence of a plurality of such elements.

Claims

1. IMAGE ENCODER (202), characterized in that it comprises: - an input (240) for an input image with high dynamic range (M_HDR); - an image classification unit (201, 301) arranged to allow a human color classifier to specify a color mapping from a representation (HDR_REP) of the input image with high dynamic range, to an image with low dynamic range (Im_LDR), by means of a color mapping algorithm determined by a human being, and arranged to produce data specifying the color mapping (Fi(MP_DH), Fi(MP_DL)); and - an automatic classification unit (203, 303) arranged to derive a second low dynamic range (GT_IDR) image by applying an automatic color mapping algorithm Fi(MP_T) to the input high dynamic range (M_HDR) image, with a color mapping algorithm meeting a condition that a reconstructed HDR image (REC_HDR) that fits a second predefined accuracy from the input high dynamic range (M_HDR) image ) can be calculated by applying a second color mapping algorithm (CMAP_2), which is the inverse of the automatic color mapping algorithm Fi(MP_T), to the second image with low dynamic range (GT_IDR).

2. IMAGE ENCODER (202), according to claim 1, characterized in that it is arranged to use as the representation (HDR_REP) the input image with high dynamic range (M_HDR) or the second image with low dynamic range (GT_IDR).

3. IMAGE ENCODER (202), according to claim 1, characterized in that the image classification unit (201) and the automatic classification unit (203) are arranged to apply a monotonic mapping function on a luminance correlate of pixels in their respective input image, in at least one geometric region of the respective input image corresponding to the same geometric region of the input image with high dynamic range (M_HDR).

4. IMAGE ENCODER (202), according to claim 3, characterized in that the automatic classification unit (203) is arranged to determine the monotonic mapping function (Fi(MP_T)) of the luminance correlates of pixels in the input image with high dynamic range (M_HDR) to the luminance correlates of pixels in the second image with low dynamic range (GT_IDR), according to a criterion that determines the respective ranges of luminance correlates of pixels in the image high dynamic range (M_HDR) input images allocated to the respective unique values of a pixel luminance correlate of the second low dynamic range (GT_IDR) image, where the respective ranges form a set of luminance correlate ranges covering the entire range of possible luminance correlate values for the high dynamic range (M_HDR) input image.

5. IMAGE ENCODER (202), according to any one of claims 1 to 4, characterized in that it comprises a data formatter (220) arranged so as to produce, in an image signal (TSIG), the second image with low dynamic range (GT_IDR) and at least one of, or both of, data describing the color mapping (Fi(MP_T)) between the input image with high dynamic range (M_HDR) and the second image with low dynamic range (GT) _IDR), and data describing the color mapping (Fi(MP_DL)) between the image with low dynamic range (Im_LDR) and the second image with low dynamic range (GT_IDR).

6. IMAGE DECODER (401), characterized in that it is arranged to receive, via an image signal input (405), an image signal comprising a second image with low dynamic range (GT_IDR), and data describing a first color mapping (Fi(MP_T)) allowing the reconstruction of a reconstruction (REC_HDR) of an image with high dynamic range (M_HDR) based on the second image with low dynamic range (GT_IDR), and data describing a second color mapping (Fi(MP_DL)) that allows the calculation of a low dynamic range image (Im_LDR) based on the second low dynamic range image (GT_IDR), wherein the image decoder comprises an image derivation unit (403), arranged to derive at least the low dynamic range image (Im_LDR) based on the data describing the second color mapping (Fi(MP_DL)) and the pixel colors encoded in the second image with low dynamic range (GT_IDR).

7. IMAGE DECODER (401), according to claim 6, characterized in that it comprises a system configuration unit (402) arranged to determine whether the decoder is connected to at least one of a high dynamic range display device (411) and a low dynamic range display device (416), and wherein the system configuration unit (402) is arranged to configure the image derivation unit (403) to determine at least the reconstruction (RE C_HDR), in case of a connection to the display device with high dynamic range (411), and arranged to configure the image derivation unit (403) to determine at least the image with low dynamic range (Im_LDR), in case of a connection to the display device with low dynamic range (416).

8. IMAGE DECODER (401), according to claims 6 or 7, characterized in that it has as an output a wired connection (410) or a wireless connection (415) to any connectable display device, and a signal formatter (407) arranged to transmit at least one or both of the reconstruction (REC_HDR) and the image with low dynamic range (Im_LDR) to any connected display device.

9. IMAGE DECODER (401), according to claims 6 or 7, characterized in that the image derivation unit (403) is arranged in such a way as to determine an additional image (FURTHGR), based on the reconstruction (REC_HDR) and on the image with low dynamic range (Im_LDR), or on the second image with low dynamic range (GT_IDR) and on the data describing the first color mapping (Fi(MP_T)) and on the data describing the second color mapping (Fi(MP_DL)).

10. IMAGE DECODER (401), according to claims 6 or 7, characterized in that the image signal input (405) is connected to a reading unit (409) arranged to read the image signal from a memory object (102) such as, for example, a blu-ray disk.

11. IMAGE DECODER (401), according to claims 6 or 7, characterized in that the image signal input (405) is connectable to a network connection (408) for a source of an image signal.

12. IMAGE CODING METHOD, characterized by comprising: - accessing an input image with high dynamic range (M_HDR); - specifying, by a human color classifier, a color mapping from a representation (HDR_REP) of the input image with high dynamic range to an image with low dynamic range (Im_LDR), as a color mapping algorithm determined by a human, and producing data specifying the color mapping determined by a human (Fi(MP_DH)); and - automatically derive, by means of image processing software and/or hardware, a second low dynamic range (GT_IDR) image by applying an automatic color mapping algorithm to the input high dynamic range (M_HDR) image, with a color mapping algorithm meeting a condition that a reconstructed HDR image (REC_HDR) that falls within a second predefined accuracy from the input high dynamic range (M_HDR) image can be calculated by applying a second color mapping algorithm (CMAP_2), which is the inverse of the automatic Fi(MP_T) color mapping algorithm, to the second image with low dynamic range (GT_IDR).

13. IMAGE DECODING METHOD, characterized by comprising: - receiving an image signal comprising a second image with low dynamic range (GT_IDR), and data describing a first color mapping (Fi(MP_T)) that allows the reconstruction of a reconstruction (REC_HDR) of a high dynamic range (M_HDR) based on the second image with low dynamic range (GT_IDR), and data describing a second color mapping (Fi(MP_DL)) that allows the calculation of an image with low dynamic range (Im_LDR) based on the second image with low dynamic range (GT_IDR), and - deriving at least the image with low dynamic range (Im_LDR) based on the data describing the second color mapping (Fi(MP_DL)) and the encoded pixel colors in the second image with low dynamic range (GT_IDR) and optionally also the reconstruction (REC_HDR) based on the data describing the first color mapping (Fi( MP_T)) and the pixel colors encoded in the second image with low dynamic range (GT_IDR).

14. IMAGE SIGNAL, characterized by comprising a second image with low dynamic range (GT_IDR), and data describing a first color mapping (Fi(MP_T)) that allows the reconstruction of a reconstruction (REC_HDR) of a high dynamic range (M_HDR) based on the second image with low dynamic range (GT_IDR), and data describing a second color mapping (Fi(MP_DL)) that allows the calculation of an image with low dynamic range (Im_LDR) ) based on the second image with low dynamic range (GT_IDR).

15. MEMORY OBJECT, for example a Blu-ray disc, characterized by storing an image signal as defined in claim 14.