BR112021007522A2

BR112021007522A2 - aparelho gerador de imagens, método de geração de imagens e produto de programa de computador

Info

Publication number: BR112021007522A2
Application number: BR112021007522-4A
Authority: BR
Inventors: Christiaan Varekamp
Original assignee: Koninklijke Philips N.V.
Priority date: 2018-10-23
Filing date: 2019-10-23
Publication date: 2021-07-27
Also published as: CN112913230B; US11368663B2; JP7377861B2; TW202027500A; JP2022504883A; EP3644604A1; EP3871408A1; KR20210076975A; US20210385422A1; WO2020083950A1; KR102659115B1; EP3871408B1; CN112913230A

Abstract

APARELHO GERADOR DE IMAGENS, MÉTODO DE GERAÇÃO DE IMAGENS E PRODUTO DE PROGRAMA DE COMPUTADOR. A presente invenção se refere a um aparelho que compreende um determinador (305) que determina uma pose de visualização do primeiro olho e uma pose de visualização do segundo olho. Um receptor (301) recebe uma imagem do primeiro olho de referência com valores de profundidade associados e uma imagem do segundo olho de referência com valores de profundidade associados, a imagem do primeiro olho de referência sendo para uma pose de referência do primeiro olho e a imagem do segundo olho de referência sendo para uma pose de referência do segundo olho. Um processador de profundidade (311) determina um valor de profundidade de referência, e modificadores (307) geram valores de profundidade modificados mediante a redução de uma diferença entre os valores de profundidade recebidos e o valor de profundidade de referência por uma quantidade que depende de uma diferença entre a pose de visualização do segundo ou do primeiro olho e a pose de referência do segundo ou do primeiro olho. Um sintetizador (303) sintetiza uma imagem do primeiro olho de saída para a pose de visualização do primeiro olho mediante o deslocamento de vista da imagem do primeiro olho de referência e uma imagem do segundo olho de saída para a pose de visualização do segundo olho mediante o deslocamento de vista da imagem do segundo olho de referência com base nos valores de profundidade modificados. Os termos primeiro e segundo podem ser substituídos por esquerdo e direito, respectivamente ou vice-versa. Por exemplo, os termos pose de visualização do primeiro olho, pose de visualização do segundo olho, imagem do primeiro olho de referência e imagem do segundo olho de referência podem ser substituídos por pose de visualização do olho esquerdo, pose de visualização do olho direito, imagem do olho esquerdo de referência e imagem do olho direito de referência, respectivamente.

Description

APARELHO GERADOR DE IMAGENS, MÉTODO DE GERAÇÃO DE IMAGENS E PRODUTO DE PROGRAMA DE COMPUTADOR CAMPO DA INVENÇÃO

[001] A invenção se refere à geração de imagens a partir de imagens do primeiro olho e do segundo olho e profundidade associada e, em particular, mas não exclusivamente, à geração de imagens para, por exemplo, aplicações e serviços de realidade virtual limitados.

ANTECEDENTES DA INVENÇÃO

[002] A variedade e o alcance de aplicações de imagem e vídeo aumentaram substancialmente nos últimos anos com novos serviços e maneiras de usar e consumir vídeo sendo continuamente desenvolvidos e introduzidos.

[003] Por exemplo, um serviço cada vez mais popular é o fornecimento de sequências de imagens de tal forma que o observador seja capaz de interagir de maneira ativa e dinâmica com o sistema para alterar parâmetros da renderização. Um recurso muito interessante em muitas aplicações é a capacidade de se alterar a posição de visualização e a direção de visualização efetivas (a pose de visualização) do observador como, por exemplo, possibilitando que o observador se mova e “olhe ao redor” na cena que é apresentada. Tal recurso pode, especificamente, possibilitar que uma experiência de realidade virtual seja fornecida a um usuário.

[004] É também desejável para muitas aplicações que a imagem que é apresentada seja uma imagem tridimensional. De fato, para otimizar a imersão do observador, é geralmente preferencial que o usuário experimente a cena apresentada como uma cena tridimensional.

[005] Uma grande questão no suporte de vários serviços com base, em particular, em representações tridimensionais de uma cena é que uma grande quantidade de dados é necessária. Isso resulta em altos requisitos de recursos, como uma necessidade de grandes recursos de armazenamento. Entretanto, em muitos cenários, a restrição maior não é os requisitos de processamento ou armazenamento, mas os requisitos de comunicação. Se for exigido que os dados que representam a cena precisam ser comunicados através de um canal de comunicação limitado por largura de banda (tanto externo como interno), é altamente desejável tentar reduzir a quantidade de dados que precisam ser comunicados.

[006] Por exemplo, em muitos cenários e para muitas aplicações, pode ser usada uma abordagem de servidor- cliente em que um cliente remoto que executa, por exemplo, uma aplicação de realidade virtual é acoplado a um serviço central que fornece os dados de cena necessários sobre um enlace limitado por largura de banda.

[007] Um serviço específico proposto procura fornecer uma experiência de realidade virtual limitada ao possibilitar uma experiência 3D que se adapte aos movimentos do usuário desde que tais movimentos sejam pequenos e não se diferenciem demais de um dado ponto de referência. Por exemplo, uma experiência 3D de uma cena pode ser fornecida para um dado ponto de vista virtual, com a experiência se adaptando ao usuário quando este faz pequenos movimentos com a cabeça enquanto permanece essencialmente estacionário. Por exemplo, o serviço pode proporcionar uma experiência em que a vista 3D renderizada segue movimentos como acenar ou balançar a cabeça, mas não segue movimentos se o usuário mover sua cabeça substancialmente para o lado. Um serviço pode proporcionar uma experiência 3D completa, contanto que os olhos do usuário permaneçam em um pequeno ponto ideal. Esse ponto ideal pode, para cada olho, ter uma extensão de apenas alguns centímetros.

[008] Com tal abordagem, é possível fornecer uma experiência 3D de alta qualidade com base em uma quantidade limitada de dados, tanto em termos de dados capturados como comunicados. Tipicamente, uma imagem do olho esquerdo e uma imagem do olho direito com mapas de profundidade associados podem ser fornecidas a um renderizador local. O renderizador pode, então, gerar imagens de vista para a visualização atual com base nas imagens recebidas e nos mapas de profundidade para posições que estão muito próximas (na área de ponto ideal) à posição nominal. Isso pode proporcionar uma experiência muito natural em muitos cenários, enquanto mantém uma taxa de dados muito baixa. Por exemplo, para uma aplicação de conferência, o fornecimento de um fluxo de duas imagens (uma para cada olho) e de dados de profundidade associados pode possibilitar uma representação 3D da extremidade remota com estereopsia e paralaxe de movimento consistentes, contanto que o usuário permaneça na mesma posição e faça apenas pequenos movimentos com a cabeça. Dessa forma, uma experiência muito natural e de alta qualidade pode ser proporcionada.

[009] Entretanto, uma questão com tais serviços é que o usuário pode potencialmente se mover para fora do ponto ideal. Isso tenderá a resultar em uma degradação rápida e significativa na qualidade de imagem, incluindo a introdução de artefatos perceptíveis (por exemplo devido a uma falta de dados de desoclusão). Em muitos casos, a qualidade pode degradar muito rapidamente resultando em uma experiência de usuário muito indesejável.

[010] Diferentes soluções foram propostas para esse problema. Muitos sistemas são dispostos para embaçar ou escurecer cada vez mais a imagem à medida que o usuário se afasta da posição preferencial e do ponto ideal. Em muitos casos, quando o usuário se move para fora do ponto ideal, é apresentada ao observador uma imagem embaçada ou uma imagem preta. Isso, obviamente, oculta a degradação de qualidade e tende a influenciar também o usuário a permanecer no ponto ideal.

[011] Entretanto, as soluções atuais tendem a não ser ótimas em termos de experiência de usuário, taxa de dados, complexidade etc.

[012] Portanto, uma abordagem aprimorada para sintetizar imagens seria vantajosa. Em particular, seria vantajosa uma abordagem que possibilite uma operação aprimorada, operação facilitada, qualidade aprimorada, flexibilidade aumentada, implementação facilitada, operação facilitada, taxa de dados reduzida, armazenamento de dados, distribuição e/ou requisitos de recurso de processamento reduzidos, adaptabilidade aprimorada, qualidade de imagem aprimorada, experiência de usuário aprimorada e/ou desempenho aprimorado.

SUMÁRIO DA INVENÇÃO

[013] Consequentemente, a invenção busca, de preferência, mitigar, aliviar ou eliminar uma ou mais das desvantagens mencionadas acima, individualmente ou em qualquer combinação.

[014] De acordo com um aspecto da invenção, é apresentado um aparelho gerador de imagens que compreende: um determinador para determinar uma pose de visualização do primeiro olho e uma pose de visualização do segundo olho; um receptor para receber uma imagem do primeiro olho de referência com primeiros valores de profundidade associados e uma imagem do segundo olho de referência com segundos valores de profundidade associados, a imagem do primeiro olho de referência sendo para uma pose de referência do primeiro olho e a imagem do segundo olho de referência sendo para uma pose de referência do segundo olho; um processador de profundidade para determinar um valor de profundidade de referência; um primeiro modificador para gerar primeiros valores de profundidade modificados mediante a redução de uma diferença entre os primeiros valores de profundidade e o valor de profundidade de referência por uma primeira quantidade dependente de uma diferença entre a pose de visualização do primeiro olho e a pose de referência do primeiro olho; um segundo modificador para gerar segundos valores de profundidade modificados mediante a redução de uma diferença entre os segundos valores de profundidade e o valor de profundidade de referência por uma segunda quantidade dependente de uma diferença entre a pose de visualização do segundo olho e a pose de referência do segundo olho; e um sintetizador para sintetizar uma imagem do primeiro olho de saída para a pose de visualização do primeiro olho mediante o deslocamento de vista da imagem do primeiro olho de referência com base nos primeiros valores de profundidade modificados e uma imagem do segundo olho de saída para a pose de visualização do segundo olho mediante o deslocamento de vista da imagem do segundo olho de referência com base nos segundos valores de profundidade modificados.

[015] A invenção pode possibilitar uma experiência de usuário aprimorada em muitas modalidades e em muitos cenários. A abordagem pode, em muitos cenários, possibilitar uma maior liberdade de movimento de um observador e pode reduzir a degradação percebida quando um observador se move para fora do ponto ideal. A abordagem pode possibilitar um equilíbrio aprimorado entre degradação da qualidade da imagem do deslocamento de vista e distorção espacial. Em muitos cenários, a abordagem pode possibilitar uma deterioração gradual aprimorada da qualidade de imagem percebida com distância crescente de uma pose de visualização para uma pose de visualização de referência para a qual são fornecidos dados de imagem. A abordagem pode, ainda, possibilitar uma operação vantajosa, ao mesmo tempo em que tem baixa complexidade e/ou uso de recursos, e/ou pode possibilitar implementação facilitada.

[016] A abordagem pode, por exemplo, possibilitar a percepção tridimensional de uma cena mesmo para poses ou posições de visualização que diferem em uma quantidade em que o deslocamento de vista pode tender a ser não confiável ou introduzir artefatos substanciais.

[017] Uma pose pode ser uma posição e/ou orientação. Uma diferença entre poses pode, por exemplo, ser uma distância euclidiana entre as posições correspondentes e/ou pode, por exemplo, ser uma distância angular entre orientações correspondentes (ou, obviamente, uma medida combinada tanto de distância euclidiana quanto de distância angular).

[018] A diferença entre a pose de visualização e a pose de referência para o primeiro olho e/ou o segundo olho pode ser determinada de acordo com qualquer distância ou medida de diferença adequada. A diferença pode, por exemplo, ser determinada como uma função monotonicamente crescente de uma distância entre uma posição da pose de visualização e uma posição da pose de referência e/ou uma função monotonicamente crescente de (um valor absoluto de) uma diferença angular entre uma orientação da pose de visualização e uma orientação da pose de referência.

[019] A pose de visualização pode, por exemplo, ser determinada em relação às poses de referência. Por exemplo, em um determinado instante de tempo, a pose de visualização atual pode ser designada para corresponder à pose de visualização de referência. Dessa forma, para essa pose de visualização, nenhum deslocamento de vista é necessário para gerar as imagens de saída ou, de modo equivalente, as imagens recebidas podem ser ajustadas para representar imagens de vista para essa pose de visualização. As poses de visualização subsequentes podem, então, ser determinadas em relação à pose de visualização designada para corresponder à pose de referência. Tal processo de ligação das poses de referência às poses de visualização pode, por exemplo, ser realizado na inicialização de um serviço e/ou iterativamente em diferentes instantes de tempo durante o serviço. Deve-se considerar que o receptor não precisa receber informações específicas que indicam uma pose de referência do primeiro olho ou do segundo olho, mas que as imagens correspondem inerentemente a essas poses. As poses de referência podem ser determinadas definindo-se as mesmas como sendo iguais a uma pose de visualização atual em um instante de tempo e poses de visualização subsequentes podem ser determinadas em relação a tal pose de visualização nominal/de referência.

[020] A primeira e a segunda quantidades podem ser quantidades absolutas ou relativas. Por exemplo, a primeira e a segunda quantidades podem ser um primeiro e um segundo fatores para alteração de escala da diferença entre os valores da primeira e, respectivamente, da segunda profundidade e o valor de profundidade de referência.

[021] O primeiro olho pode ser um dentre o olho esquerdo e o olho direito de um observador e o segundo olho pode ser o outro dentre o olho esquerdo e o olho direito do observador. Em algumas modalidades, o primeiro olho pode ser o olho esquerdo e o segundo olho pode ser o olho direito, ou vice-versa. Todas as referências ao primeiro olho e ao olho esquerdo podem, em alguns exemplos, ser substituídas por referências ao olho esquerdo e ao olho direito, respectivamente, ou podem, em alguns exemplos, ser substituídas por referências ao olho direito e ao olho esquerdo, respectivamente.

[022] De acordo com um recurso opcional da invenção, o processador de profundidade é disposto para definir o valor de profundidade de referência como um valor de profundidade de referência predeterminado.

[023] Isso pode possibilitar baixa complexidade, uso de recursos e/ou facilitar a implementação ao mesmo tempo em que fornece alto desempenho e uma experiência de usuário vantajosa em muitos cenários. O valor de profundidade de referência pode, em algumas modalidades, ser um valor de profundidade constante ou fixo e/ou pode ser independente de quaisquer propriedades dos primeiros ou dos segundos valores de profundidade.

[024] De acordo com um recurso opcional da invenção, o processador de profundidade é disposto para determinar um ponto de olhar para um observador em ao menos uma dentre a imagem do primeiro olho de referência e a imagem do segundo olho de referência; e para determinar o valor de profundidade de referência em resposta a um valor de profundidade de ao menos um dentre os primeiros valores de profundidade e os segundos valores de profundidade para o ponto de olhar.

[025] Isso pode proporcionar um desempenho vantajoso em muitas modalidades e pode, especificamente, reduzir o impacto perceptível de, por exemplo, distorções de profundidade em muitos cenários.

[026] De acordo com um recurso opcional da invenção, o primeiro modificador é disposto para reduzir a diferença entre os primeiros valores de profundidade e o valor de profundidade de referência para substancialmente zero para ao menos alguns valores da diferença entre a pose de visualização do primeiro olho e a pose de referência do primeiro olho.

[027] Isso pode proporcionar uma experiência de usuário particularmente vantajosa em muitas modalidades. O recurso correspondente pode ser adotado também pelo segundo modificador.

[028] O recurso pode possibilitar especificamente que uma abordagem de baixa complexidade de redução, em particular, de artefatos de desoclusão seja introduzida para diferenças maiores entre a pose de visualização e a pose de referência.

[029] Em algumas modalidades, o segundo modificador é disposto para reduzir a diferença entre os segundos valores de profundidade e o valor de profundidade de referência para substancialmente zero para ao menos alguns valores da diferença entre a pose de visualização do segundo olho e a pose de referência do segundo olho.

[030] De acordo com um recurso opcional da invenção, o primeiro modificador é disposto para não reduzir a diferença entre os primeiros valores de profundidade e o valor de profundidade de referência para ao menos alguns valores da diferença entre a pose de visualização do primeiro olho e a pose de referência do primeiro olho.

[031] Isso pode proporcionar uma experiência de usuário particularmente vantajosa em muitas modalidades. O recurso correspondente pode ser adotado também pelo segundo modificador.

[032] O recurso pode possibilitar especificamente que uma abordagem de baixa complexidade de redução de distorções espaciais/de profundidade percebidas para diferenças menores entre a pose de visualização e a pose de referência.

[033] Em algumas modalidades, o segundo modificador é disposto para não reduzir a diferença entre os segundos valores de profundidade e o valor de profundidade de referência para ao menos alguns valores da diferença entre a pose de visualização do segundo olho e a pose de referência do segundo olho.

[034] De acordo com um recurso opcional da invenção, o primeiro modificador é disposto para determinar a primeira quantidade como uma função monotonicamente crescente da diferença entre a pose de visualização do primeiro olho e a pose de referência do primeiro olho.

[035] Isso pode proporcionar uma experiência de usuário particularmente vantajosa em muitas modalidades. O recurso correspondente pode ser adotado também pelo segundo modificador.

[036] Isso pode proporcionar um equilíbrio gradual vantajoso entre degradação de deslocamento de vista e distorção de adaptação de profundidade.

[037] Em algumas modalidades, o segundo modificador é disposto para determinar a segunda quantidade como uma função monotonicamente crescente da diferença entre a pose de visualização do segundo olho e a pose de referência do segundo olho.

[038] De acordo com um recurso opcional da invenção, o primeiro modificador é disposto para gerar valores de profundidade modificados mediante a alteração de escala de uma diferença entre os primeiros valores de profundidade e o valor de profundidade de referência por um fator de escala que tem um valor entre zero e um para ao menos alguns valores da diferença entre a pose de visualização do primeiro olho e a pose de referência do primeiro olho.

[039] Em algumas modalidades, o segundo modificador é disposto para gerar valores de profundidade modificados mediante a alteração de escala de uma diferença entre os segundos valores de profundidade e o valor de profundidade de referência por um fator de escala que tem um valor entre zero e um para ao menos alguns valores da diferença entre a pose de visualização do segundo olho e a pose de referência do segundo olho.

[040] Isso pode proporcionar uma experiência de usuário particularmente vantajosa em muitas modalidades. O recurso correspondente pode ser adotado também pelo segundo modificador.

[041] De acordo com um recurso opcional da invenção, o fator de escala é uma função monotonicamente decrescente da diferença entre a pose de visualização do primeiro olho e a pose de referência do primeiro olho para ao menos uma faixa da diferença entre a pose de visualização do primeiro olho e a pose de referência do primeiro olho.

[042] Isso pode proporcionar uma experiência de usuário particularmente vantajosa em muitas modalidades. O recurso correspondente pode ser adotado também pelo segundo modificador.

[043] Isso pode proporcionar um equilíbrio gradual vantajoso entre degradação de deslocamento de vista e distorção de adaptação de profundidade.

[044] De acordo com um recurso opcional da invenção, o fator de escala tem um valor entre 0,95 e 1,05 para a diferença entre a pose de visualização do primeiro olho e a pose de referência do primeiro olho que está abaixo de um limite.

[045] Em muitas modalidades, o fator de escala tem um valor de substancialmente um para a diferença entre a pose de visualização do primeiro olho e a pose de referência do primeiro olho que está abaixo de um limite.

[046] Isso pode proporcionar uma experiência de usuário particularmente vantajosa em muitas modalidades. O recurso correspondente pode ser adotado também pelo segundo modificador.

[047] O recurso pode possibilitar especificamente que uma abordagem de baixa complexidade de redução de distorções espaciais/de profundidade percebidas para diferenças menores entre a pose de visualização e a pose de referência.

[048] De acordo com um recurso opcional da invenção, o sintetizador é disposto para deslocar a imagem do primeiro olho de referência e a imagem do segundo olho de referência na mesma direção.

[049] De acordo com um recurso opcional da invenção, o primeiro modificador é disposto para limitar a diferença entre os primeiros valores de profundidade modificados e o valor de profundidade de referência.

[050] Em algumas modalidades, o primeiro modificador é disposto para limitar a diferença entre os primeiros valores de profundidade modificados e o valor de profundidade de referência a (estar abaixo de) um limite.

[051] Isso pode proporcionar uma experiência de usuário particularmente vantajosa em muitas modalidades. O recurso correspondente pode ser adotado também pelo segundo modificador.

[052] O limite pode ser aplicado em apenas uma direção e/ou pode ser assimétrico e diferente na direção para a frente e para trás.

[053] Em muitas modalidades, o primeiro modificador pode ser disposto para limitar a diferença entre os primeiros valores de profundidade modificados e o valor de profundidade de referência, de modo que os primeiros valores de profundidade modificados sejam limitados a não estarem mais para a frente em relação ao valor de profundidade de referência do que um limite.

[054] Em muitas modalidades, o primeiro modificador pode ser disposto para limitar a diferença entre os primeiros valores de profundidade modificados e o valor de profundidade de referência, de modo que os primeiros valores de profundidade modificados sejam limitados a não estarem mais para trás do valor de profundidade de referência do que um limite.

[055] Em muitas modalidades, o primeiro modificador pode ser disposto para limitar um valor absoluto da diferença entre os primeiros valores de profundidade modificados e os valores de profundidade de referência a estar abaixo de um limite.

[056] De acordo com um recurso opcional da invenção, o primeiro modificador é disposto para aplicar uma mesma relação entre a primeira quantidade e a diferença entre a pose de visualização do primeiro olho e a pose de referência do primeiro olho como a relação aplicada pelo segundo modificador entre a segunda quantidade e a diferença entre a pose de visualização do segundo olho e a pose de referência do segundo olho.

[057] Em muitas modalidades, isso pode fornecer operação vantajosa.

[058] De acordo com um aspecto da invenção, é fornecido um método de geração de imagens, sendo que o método compreende: determinar uma pose de visualização do primeiro olho e uma pose de visualização do segundo olho; receber uma imagem do primeiro olho de referência com primeiros valores de profundidade associados e uma imagem do segundo olho de referência com segundos valores de profundidade associados, a imagem do primeiro olho de referência sendo para uma pose de referência do primeiro olho e a imagem do segundo olho de referência sendo para uma pose de referência do segundo olho; determinar um valor de profundidade de referência; gerar primeiros valores de profundidade modificados mediante a redução de uma diferença entre os primeiros valores de profundidade e o valor de profundidade de referência por uma primeira quantidade dependente de uma diferença entre a pose de visualização do primeiro olho e a pose de referência do primeiro olho; gerar segundos valores de profundidade modificados mediante a redução de uma diferença entre os segundos valores de profundidade e o valor de profundidade de referência por uma segunda quantidade dependente de uma diferença entre a pose de visualização do segundo olho e a pose de referência do segundo olho; e sintetizar uma imagem do primeiro olho de saída para a pose de visualização do primeiro olho mediante o deslocamento de vista da imagem do primeiro olho de referência com base nos primeiros valores de profundidade modificados e uma imagem do segundo olho de saída para a pose de visualização do segundo olho mediante o deslocamento de vista da imagem do segundo olho de referência com base nos segundos valores de profundidade modificados.

[059] Esses e outros aspectos, recursos e vantagens da invenção ficarão evidentes e serão elucidados com referência às uma ou mais modalidades descritas a seguir.

BREVE DESCRIÇÃO DOS DESENHOS

[060] As modalidades da invenção serão descritas, apenas a título de exemplo, com referência aos desenhos, nos quais: a Figura 1 ilustra um exemplo de elementos de um sistema de processamento de imagem de acordo com algumas modalidades da invenção;

a Figura 2 ilustra um exemplo de poses de visualização; a Figura 3 ilustra um exemplo de elementos de um aparelho gerador de imagens de acordo com algumas modalidades da invenção; a Figura 4 ilustra um exemplo de variações de profundidade e poses de visualização; a Figura 5 ilustra um exemplo de uma relação entre uma diferença entre uma pose de visualização e uma pose de referência, e um fator de escala; a Figura 6 ilustra um exemplo de variações de profundidade e poses de visualização; a Figura 7 ilustra um exemplo de uma relação entre posições de imagem e percepção de posição e profundidade para objetos de imagem; a Figura 8 ilustra um exemplo de uma relação entre posições de imagem e percepção de posição e profundidade para objetos de imagem; a Figura 9 ilustra um exemplo de uma relação entre posições de imagem e percepção de posição e profundidade para objetos de imagem; a Figura 10 ilustra um exemplo de uma relação entre posições de imagem e percepção de posição e profundidade para objetos de imagem; a Figura 11 ilustra um exemplo de variações de profundidade e poses de visualização. Descrição detalhada das modalidades

[061] A Figura 1 ilustra um exemplo de um sistema que pode incorporar exemplos e variantes de modalidades do conceito da invenção.

[062] No exemplo, um cliente sob a forma de um aparelho gerador de imagens 101 é disposto para sintetizar localmente imagens com base nas imagens recebidas de um aparelho de fonte de imagem 103. No exemplo, as imagens podem ser fornecidas em um fluxo de dados de imagem transmitido (ou possivelmente difundido) a partir do aparelho de fonte de imagem 103 que opera como um servidor remoto. O aparelho de fonte de imagem 103 é disposto para fornecer o fluxo de dados de imagem através de uma rede 105 que pode ser, por exemplo, a Internet. A disposição pode corresponder a uma disposição de servidor-cliente e, consequentemente, o aparelho gerador de imagens 101 pode ser chamado também de o cliente, e o aparelho de fonte de imagem 103 pode ser chamado também de o servidor.

[063] Como exemplo, a abordagem pode ser usada para fornecer um serviço ou uma aplicação de conferência remota, e o aparelho de fonte de imagem 103 pode, por exemplo, funcionar como uma ponte de conferência fornecendo um fluxo de vídeo ao aparelho gerador de imagens 101, que pode funcionar como um cliente de conferência. Deve-se considerar que o aparelho gerador de imagens 101 pode, em algumas modalidades, ser disposto também para capturar vídeo local e transmiti-lo ao aparelho de fonte de imagem 103 que opera como uma ponte de conferência. Deve-se considerar também que o fluxo de dados de imagem é, em muitas aplicações, como em uma aplicação de conferência, dotado de um fluxo de áudio associado, fornecendo assim uma representação audiovisual completa.

[064] Deve-se considerar ainda que a abordagem descrita não depende de uma configuração servidor-cliente, mas pode ser usada em qualquer configuração. Por exemplo, em algumas modalidades, dois aparelhos de conferência idênticos podem se comunicar diretamente para habilitar um serviço de conferência. Em tal exemplo, cada aparelho pode compreender funcionalidade conforme descrito a seguir, tanto para o aparelho gerador de imagens 101 como para o aparelho de fonte de imagem 103.

[065] O aparelho de fonte de imagem 103 fornece um fluxo de dados de imagem que compreende imagens da cena capturada a partir de diferentes poses. Em particular, ele inclui ao menos uma imagem do primeiro olho (câmera) que corresponde a uma pose do primeiro olho e uma imagem do segundo olho (câmera) que corresponde a uma pose do segundo olho. O fluxo de dados de imagem pode fornecer especificamente uma imagem estereoscópica compreendendo a imagem do primeiro olho e a imagem do segundo olho, ou uma sequência em movimento de imagens estereoscópicas (vídeo estereoscópico).

[066] As referências ao primeiro olho e ao segundo olho se referem, nos exemplos e figuras a seguir, principalmente ao olho esquerdo e ao olho direito de um observador, respectivamente, mas será reconhecido que este pode não ser o caso em todos os exemplos. Por exemplo, em outros exemplos, as referências ao primeiro olho e ao segundo olho podem se referir ao olho direito e ao olho esquerdo de um observador, respectivamente.

[067] No campo, os termos “posicionamento” e “pose” são usados como um termo comum para a posição e/ou direção/orientação e a combinação da posição e direção/orientação de, por exemplo, um objeto, uma câmera ou uma visualização é de fato tipicamente chamada de uma pose ou um posicionamento. Dessa forma, uma indicação de posicionamento ou pose pode compreender seis valores/componentes/graus de liberdade com cada valor/componente descrevendo tipicamente uma propriedade individual da posição/localização ou da orientação/direção do objeto correspondente. Certamente, em muitas situações, um posicionamento ou pose pode ser considerado ou representado com um menor número de componentes, por exemplo se um ou mais componentes forem considerados fixos ou irrelevantes (por exemplo, se todos os objetos forem considerados como estando na mesma altura e tiverem uma orientação horizontal, quatro componentes podem fornecer uma representação completa da pose de um objeto). No texto a seguir, o termo “pose” é usado para se referir a uma posição e/ou orientação que pode ser representada por um a seis valores (correspondentes ao número máximo de graus de liberdade possíveis). A descrição se concentrará em modalidades e exemplos nos quais uma pose tem o número máximo de graus de liberdade, isto é, três graus de liberdade de cada uma dentre a posição e a orientação resultando em um total de seis graus de liberdade (6DoF). A pose pode, dessa forma, ser representada por um conjunto ou vetor de seis valores que representam os seis graus de liberdade e, dessa forma, o vetor de pose pode fornecer uma posição tridimensional e/ou uma indicação de direção tridimensional. Entretanto, deve-se considerar que, em outras modalidades, a pose pode ser representada por menos valores.

[068] Deve-se considerar que, em algumas modalidades, mais de duas imagens simultâneas podem ser fornecidas. Por exemplo, imagens podem ser fornecidas a partir de uma matriz linear de câmeras e a imagem do primeiro olho e a imagem do segundo olho podem ser selecionadas como imagens de duas dessas câmeras (com a seleção tipicamente sendo realizada pelo aparelho gerador de imagens 101 com base na posição de um observador).

[069] Além da imagem do primeiro olho e da imagem do segundo olho, o fluxo de dados de imagem compreende um conjunto de valores de profundidade para a imagem do primeiro olho, deste ponto em diante chamado de primeiros valores de profundidade, e um conjunto de valores de profundidade para a imagem do segundo olho, deste ponto em diante chamado de segundos valores de profundidade. Os valores de profundidade podem ser quaisquer valores adequados e sob qualquer forma adequada. Especificamente, os valores de profundidade podem estar sob a forma de um mapa de profundidade do primeiro olho e de um mapa de profundidade do segundo olho para a imagem do primeiro olho e para a imagem do segundo olho, respectivamente. Os mapas de profundidade podem compreender diretamente valores de distância (na direção z, isto é, perpendicular ao plano da imagem) ou de disparidade.

[070] As poses para as quais são fornecidas a imagem do primeiro olho e a imagem do segundo olho, isto é, a pose do primeiro olho e a pose do segundo olho recebidas, são poses de referência para as quais a imagem do primeiro olho e a imagem do segundo olho recebidas fornecem diretamente uma visualização estereoscópica para a cena.

[071] Em muitas modalidades, o fluxo de dados de imagem pode compreender apenas a imagem do primeiro olho de referência e a imagem do segundo olho de referência sem indicação específica de poses de referência associadas específicas, exceto que elas correspondem a vistas da mesma cena para, respectivamente, o primeiro olho e o segundo olho de um observador, por exemplo os olhos esquerdo e direito de um observador (nominal). O aparelho gerador de imagens 101 pode, consequentemente, ligar as imagens a poses de referência localmente determinadas que possam ser usadas como base para determinar alterações nas poses de visualização. Por exemplo, no início de um serviço, a pose atual de um observador pode ser considerada uma pose nominal para a qual as imagens recebidas são apresentadas diretamente, isto é, as poses de visualização nominais determinadas localmente para o primeiro e para o segundo olho são consideradas correspondentes às poses das imagens de referência recebidas. Dessa forma, a pose de referência do primeiro olho é determinada como a pose de visualização do primeiro olho nominal e a pose de referência do segundo olho é determinada como a pose de visualização do segundo olho nominal, por exemplo, a pose de referência do primeiro olho é determinada como a pose de visualização do olho esquerdo nominal e a pose de referência do segundo olho é determinada como a pose de visualização do olho direito nominal. Os movimentos do usuário a partir dessa pose nominal resultam, consequentemente, em poses de visualização de alteração dinâmica que são determinadas em relação às poses nominais/de referência.

[072] Para poses de visualização que correspondem diretamente às poses de referência, o aparelho gerador de imagens 101 pode gerar diretamente imagens de saída que correspondem à imagem do primeiro olho e à imagem do segundo olho recebidas (que podem, consequentemente, ser chamadas também de imagens de referência), e quando apresentadas ao olho esquerdo e ao olho direito de um usuário (por exemplo por um headset dedicado ou por uma tela estereoscópica (por exemplo que exija que o usuário use óculos)), elas podem fornecer diretamente uma vista 3D da cena.

[073] Entretanto, se o usuário mover sua cabeça, o ponto de vista e a pose de visualização serão alterados e, para uma experiência natural, deseja-se que as imagens apresentadas ao usuário sejam alteradas para refletir essa alteração. Isso pode ser obtido mediante a execução de um deslocamento de ponto de vista que corresponde à alteração em poses de visualização a partir das poses de visualização de referência com o uso dos dados de profundidade associados. Entretanto, a qualidade de tais imagens sintetizadas pode deteriorar substancialmente a menos que a alteração em poses seja muito pequena. Portanto, o deslocamento do ponto de vista é, em muitos cenários, de preferência, limitado a um ponto ideal relativamente pequeno.

[074] Por exemplo, quando múltiplas câmeras são usadas para capturar uma representação 3D de uma cena, a reprodução em um headset de realidade virtual é frequentemente limitada em espaço a pontos de vista virtuais que ficam próximos aos locais de câmera originais. Isso assegura que a qualidade de renderização dos pontos de vista virtuais não mostre artefatos, tipicamente o resultado de informações faltantes (dados ocluídos) ou erros de estimativa 3D. Dentro do assim chamado ponto ideal, a renderização pode ser feita diretamente a partir de uma ou múltiplas imagens de câmera de referência com mapa de profundidade ou malha associada ao uso de mapeamento de textura padrão em combinação com a mescla de vistas.

[075] Isso pode ser ilustrado pelo exemplo na Figura 2. No exemplo, as posições/poses de olho são ilustradas por triângulos. No exemplo, uma pose de visualização do primeiro olho 201 (no exemplo, uma pose de visualização do olho esquerdo) e uma pose de visualização do segundo olho 203 (no exemplo, uma pose de visualização do olho direito) estão situadas a uma distância de 2 cm em relação a uma pose do primeiro olho de referência 205 (no exemplo, uma pose do olho esquerdo de referência) e a uma pose do segundo olho de referência 207 (no exemplo, uma pose de visualização do olho esquerdo). Consequentemente, as imagens podem ser geradas para as poses de visualização 201, 203 com o deslocamento de vista das imagens recebidas para as poses de referência 205, 207. No exemplo, considera-se que as poses de visualização atuais 201, 203 estão na borda de um ponto ideal para o qual a qualidade de imagem das imagens é considerada aceitável. Consequentemente, surgirá um problema se o observador se afastar um pouco mais, uma vez que a redução da qualidade da imagem e os artefatos podem se tornar inaceitáveis.

[076] Diferentes soluções podem ser contempladas para tal questão. Uma abordagem pode ser mudar as poses de referência para coincidir com as poses de visualização atuais, isto é, mudar do fornecimento de imagens deslocadas para o fornecimento das imagens de referência recebidas para as poses de visualização atuais. Assim, de modo eficaz, para poses imediatamente fora do ponto ideal, as poses de visualização e as poses de referência são realinhadas e movimentos ao redor da nova pose de referência são, então, seguidos de deslocamento de vista em relação à nova pose de referência. Contudo, tal abordagem resultará em um salto repentino na pose de visualização percebida para o usuário (um deslocamento de paralaxe significativo) que tende a ser percebido como uma experiência altamente não natural e desagradável.

[077] Outras soluções podem incluir apresentar imagens embaçadas ou escurecidas (ou pretas) quando as poses de visualização se moverem para fora do ponto ideal. Entretanto, isso também tende a proporcionar uma experiência não natural e limita a liberdade de movimento para tipicamente uma região muito pequena.

[078] A Figura 3 ilustra um exemplo de um aparelho gerador de imagens 101 que pode proporcionar uma experiência de usuário aprimorada em muitas modalidades e cenários, e que pode, em muitos cenários, proporcionar uma solução aprimorada para a questão acima descrita (bem como, tipicamente, outras vantagens e outros benefícios).

[079] O aparelho gerador de imagens 101 compreende um receptor 301 que recebe o fluxo de dados de imagem enviado do aparelho de fonte de imagem 103. Dessa forma, o receptor 301 recebe ao menos uma imagem do primeiro olho com primeiros valores de profundidade e uma imagem do segundo olho com segundos valores de profundidade. Consequentemente, a imagem e a profundidade são fornecidas para ao menos uma pose do primeiro olho de referência e uma pose do segundo olho de referência. A seguir, para fins de brevidade e clareza, será considerado que os valores de profundidade são valores de distância fornecidos em um mapa de profundidade para cada uma das imagens.

[080] A seguir, serão descritos exemplos nos quais uma imagem do primeiro olho e uma imagem do segundo olho são recebidas, as quais são consideradas como tendo sido capturadas diretamente, por exemplo, por duas câmeras com uma distância adequada entre elas. Entretanto, deve-se considerar que a imagem do primeiro olho e a imagem do segundo olho podem ser geradas de qualquer maneira adequada e, por exemplo, que um número maior de imagens para diferentes poses pode ser recebido, e a imagem do primeiro olho e a imagem do segundo olho podem ser selecionadas ou, de fato, geradas a partir das mesmas.

[081] Por exemplo, a abordagem pode ser usada para um equipamento de captura com muitas câmeras. A lógica de seleção de câmera pode, então, ser adicionada de modo que uma imagem de olho seja sintetizada a partir de um subconjunto próximo de imagens de câmera de referência. O ponto ideal pode, então, ser definido como uma função de distância a partir das múltiplas posições da câmera de referência.

[082] O receptor 301 é acoplado a um sintetizador 303 que é disposto para gerar imagens de saída para poses de observador. Consequentemente, o sintetizador de imagem 303 é alimentado com a imagem do primeiro olho e com a imagem do segundo olho para gerar uma imagem do primeiro olho de saída e uma imagem do segundo olho de saída, e, especificamente, imagens do olho esquerdo e do olho direito de saída podem ser geradas.

[083] O sintetizador 303 é acoplado a um determinador de pose 305 que é disposto para determinar uma pose de visualização do primeiro olho e uma pose de visualização do segundo olho. A pose de visualização do primeiro olho é uma pose que corresponde à pose de um primeiro olho de observador pretendido (por exemplo, o esquerdo) e a pose de visualização do segundo olho é uma pose que corresponde ao segundo olho de observador pretendido (por exemplo, o direito). Dessa forma, a pose de visualização do primeiro olho e a pose de visualização do segundo olho correspondem às poses para as quais as imagens de vista devem ser renderizadas pelo aparelho gerador de imagens 101 para fornecer uma percepção da imagem 3D correspondente à pose atual do observador.

[084] Em algumas modalidades, a pose de visualização do segundo olho e a pose de visualização do primeiro olho podem ser determinadas individual e separadamente, por exemplo, com base em medições individuais que rastreiam as poses de olho individuais. Entretanto, em muitas modalidades, a pose de visualização do primeiro olho e a pose de visualização do segundo olho podem ser determinadas juntas e representadas por dados comuns combinados com, por exemplo, informações predeterminadas das diferenças de pose relativas entre os olhos de um observador. Por exemplo, uma única posição do observador, e possivelmente a rotação da cabeça, pode ser determinada e ser indicativa da pose de visualização do primeiro olho e da pose de visualização do segundo olho. Por exemplo, pode-se assumir que os olhos de um usuário têm uma distância predeterminada (por exemplo, 6,3 cm no exemplo da Figura 2) e que a pose de visualização do primeiro olho e a pose de visualização do segundo olho são, dessa forma, exclusivamente conhecidas a partir de uma posição de cabeça que indica a posição de um olho e de uma rotação de cabeça que indica a orientação da cabeça. Consequentemente, em algumas modalidades, pode ser estimada uma única pose de visualização, e a pose de visualização do primeiro olho e a pose de visualização do segundo olho podem ser determinadas e dadas por essa pose de visualização. Portanto, por uma questão de simplicidade, a descrição pode se referir também a uma única pose de visualização representativa da pose de visualização do primeiro olho e da pose de visualização do segundo olho, mas será reconhecido que tal referência a uma única pose de visualização inclui uma referência a poses de visualização do primeiro olho e do segundo olho separadas.

[085] Uma entrada de pose de visualização pode ser determinada de modos diferentes em aplicações diferentes. Em muitas modalidades, o movimento físico de um usuário pode ser diretamente rastreado. Por exemplo, uma câmera inspecionando uma área de usuário pode detectar e rastrear a cabeça do usuário (ou mesmo seus olhos). Em muitas modalidades, o usuário pode usar um headset de RV que pode ser rastreado por meios externos e/ou internos. Por exemplo, o headset pode compreender acelerômetros e giroscópios que fornecem informações sobre o movimento e a rotação do headset e, dessa forma, sobre a cabeça. Em alguns exemplos, o headset de RV pode transmitir sinais ou incluir identificadores (por exemplo, visuais) que possibilitam que um sensor externo determine a posição do headset de RV.

[086] Em alguns sistemas, a pose de visualização de renderização pode ser fornecida por meios manuais, por exemplo, quando o usuário controla manualmente um joystick ou uma entrada manual similar. Por exemplo, o usuário pode mover manualmente o observador virtual pela cena virtual mediante o controle de um primeiro joystick com uma mão e o controle manual da direção na qual o observador virtual está olhando movendo manualmente um segundo joystick com a outra mão.

[087] Em algumas aplicações, uma combinação de abordagens manuais e automatizadas pode ser usada para gerar a pose de visualização de renderização. Por exemplo, um headset pode rastrear a orientação da cabeça e o movimento/posição do observador na cena pode ser controlado pelo usuário mediante o uso de um joystick.

[088] O determinador de pose 305 é acoplado ao sintetizador de imagem 303 que é alimentado com a pose de visualização do primeiro olho e com a pose de visualização do segundo olho. O sintetizador de imagem 303 é disposto para sintetizar uma imagem do primeiro olho de saída para a pose do primeiro olho a partir da imagem do primeiro olho de referência. Especificamente, com base em dados de profundidade adequados, o sintetizador de imagem 303 pode executar uma operação de deslocamento de vista para modificar a imagem do primeiro olho de referência para corresponder a uma imagem de vista para a pose do primeiro olho atual. Tal deslocamento de vista é executado com base em dados de profundidade adequados e inclui o deslocamento horizontal de objetos de imagem com base em sua profundidade, conforme será conhecido pelo versado na técnica.

[089] De modo similar, o sintetizador de imagem 303 é disposto para sintetizar uma imagem do segundo olho de saída para a pose do segundo olho a partir da imagem do segundo olho de referência. Especificamente, com base em dados de profundidade adequados, o sintetizador de imagem 303 pode executar uma operação de deslocamento de vista para modificar a imagem do segundo olho de referência para corresponder a uma imagem de vista para a pose do segundo olho atual.

[090] Será entendido que o versado na técnica estará ciente de muitas abordagens e algoritmos diferentes para tal síntese/deslocamento de vista e que qualquer abordagem adequada pode ser usada. Deve-se considerar também que, embora,

em muitas modalidades, a imagem do primeiro olho de saída seja gerada apenas a partir da imagem do primeiro olho de referência e a imagem do segundo olho de saída seja gerada apenas a partir da imagem do segundo olho de referência, outras imagens podem, em algumas modalidades, ser consideradas também. Por exemplo, para um único olho, a imagem de saída poderia ser gerada mediante a combinação/o uso/a mescla de múltiplas imagens de referência.

[091] A geração da imagem do primeiro olho de saída e da imagem do segundo olho de saída pode, dessa forma, ser processos separados. A imagem do primeiro olho de saída é gerada a partir da imagem do primeiro olho de referência com base nas poses e nos valores de profundidade do primeiro olho correspondentes, enquanto que a imagem do segundo olho de saída é gerada a partir da imagem do segundo olho de referência com base nas poses e nos valores de profundidade do segundo olho correspondentes. Dessa forma, a imagem do primeiro olho de referência é deslocada para fornecer a imagem do primeiro olho de saída, e a segunda imagem de referência é deslocada para fornecer a imagem do segundo olho de saída.

[092] O deslocamento de vista pode, em alguns casos, ser o mesmo tanto para a imagem do primeiro olho como para a imagem do segundo olho e, dessa forma, a diferença entre a pose do primeiro olho de saída e a pose do primeiro olho de referência pode ser igual à diferença entre a pose do segundo olho de saída e a imagem do segundo olho de referência (como, por exemplo, no exemplo da Figura 2). Entretanto, em geral, as diferenças de pose podem ser diferentes, por exemplo uma rotação da cabeça ao redor de um ponto próximo ao primeiro olho resultará em nenhuma ou pouca alteração de posição para a imagem do primeiro olho, mas em uma alteração significativa na posição para a imagem do segundo olho. A geração individual da imagem do primeiro olho de saída e da imagem do segundo olho pode possibilitar que tais diferenças sejam facilmente refletidas nas imagens de saída geradas.

[093] Qualquer medida de diferença indicativa da diferença entre duas poses pode ser usada. Por exemplo, pode ser utilizada uma medida de diferença determinada como uma distância (por exemplo euclidiana e/ou angular) entre as duas poses. Na maioria das modalidades, a medida de diferença pode ser um valor escalar indicativo de uma magnitude ou um valor absoluto da diferença (como, por exemplo, uma simples medida de distância).

[094] A diferença entre a pose de visualização e a pose de referência para o primeiro e/ou o segundo olho pode ser determinada de acordo com qualquer distância ou medida de diferença adequada. A diferença pode, por exemplo, ser determinada como uma função monotonicamente crescente da distância entre uma posição da pose de visualização e uma posição da pose de referência e/ou uma função monotonicamente crescente de (um valor absoluto de) uma diferença angular entre uma orientação da pose de visualização e uma orientação da pose de referência.

[095] Por exemplo, em algumas modalidades, a diferença entre a pose de visualização e a pose de referência pode ser uma diferença entre uma posição de visualização e uma posição de referência. Nesse caso, qualquer medida de distância espacial pode ser usada. Por exemplo, uma distância euclidiana pode ser determinada, ou uma distância ao longo de um eixo geométrico/uma direção específica pode ser usada (por exemplo apenas a distância na direção x ou na direção z pode ser usada).

[096] Em algumas modalidades, a diferença entre a pose de visualização e a pose de referência pode ser uma diferença entre uma orientação de vista e uma orientação de referência. Nesse caso, qualquer medida de diferença angular ou de distância pode, por exemplo, ser usada. Por exemplo, cada uma das orientações pode ser representada por uma direção sob a forma de um vetor, e a medida de diferença pode ser determinada como o (valor absoluto do) ângulo entre os dois vetores no plano que compreende os dois vetores (ou como uma função monotônica dos mesmos).

[097] Em algumas modalidades, a diferença entre a pose de visualização e a pose de referência pode refletir uma diferença tanto entre uma orientação de vista e uma orientação de referência quanto entre uma posição de visualização e uma posição de referência. Por exemplo, as medidas de distância mencionadas nos parágrafos anteriores podem ser medidas de diferença intermediárias que são combinadas para gerar a medida de distância final, por exemplo, por uma soma ponderada com os pesos ajustados adequadamente entre as medidas de diferença de distância angular e de posição. Os pesos podem, por exemplo, refletir a importância perceptiva relativa esperada de cada uma das medidas (e considerar as unidades para que os valores forneçam uma conversão adequada). Em algumas modalidades, obviamente podem ser usadas funções de combinação mais complexas. Por exemplo, os pesos da combinação ponderada podem ser dependentes da medida de diferença de distância angular e de posição.

[098] Como outro exemplo, em algumas modalidades em que as poses de visualização e as poses de referência são dadas por vetores que compreendem várias coordenadas de posição e/ou de orientação, a diferença pode, por exemplo, ser determinada como: 𝑛 𝐷 = ∑ 𝛼𝑖 𝑓𝑖 (𝑝𝑖,𝑣 − 𝑝𝑖,𝑟 ) 𝑖=0 em que n é o número de coordenadas nos vetores menos um, 𝑝𝑖,𝑣 é a coordenada i do vetor de pose de visualização, 𝑝𝑖,𝑟 é a coordenada i do vetor de pose de referência, 𝑓𝑖(𝑝𝑖,𝑣−𝑝𝑖,𝑟 ) é uma função monotônica do valor absoluto de 𝑝𝑖,𝑣 − 𝑝𝑖,𝑟 e 𝛼𝑖 é um fator de ponderação para a coordenada i. Em tal modalidade, a medida de diferença pode, por exemplo, ser reduzida para uma medida de distância de posição ajustando-se o fator de ponderação para zero para todas as coordenadas de orientação, e a medida de diferença pode, por exemplo, ser reduzida para uma diferença de orientação ajustando-se o fator de ponderação para zero para todas as coordenadas de posição.

[099] Dessa forma, o sintetizador de imagem 303 gera uma imagem estereoscópica de saída que corresponde à pose de visualização atual. Contanto que a diferença entre as poses de visualização de referência e de saída/síntese seja suficientemente pequena (dentro do ponto ideal), isso pode ser feito com alta qualidade de imagem e, tipicamente, sem ser perceptível para o observador que as imagens são sintetizadas por deslocamento de vista. Consequentemente, em uma aplicação dinâmica e em tempo real, as imagens estereoscópicas de saída podem ser atualizadas dinamicamente de acordo para seguir pequenos movimentos com a cabeça do usuário. Por exemplo, estereopsia e paralaxe de movimento corretas podem ser fornecidas para um usuário acenando ou balançando sua cabeça etc.

[100] Entretanto, o aparelho da Figura 3 compreende adicionalmente meios para adaptar a operação com base na diferença entre a pose de referência e a pose de visualização. Especificamente, em vez de usar os valores de profundidade recebidos diretamente durante a síntese das imagens, o aparelho pode adaptar/modificar os valores de profundidade dependendo da diferença entre as poses de visualização de referência e de síntese/saída.

[101] Especificamente, o aparelho compreende um primeiro modificador 307, que é disposto para gerar primeiros valores de profundidade modificados a partir dos primeiros valores de profundidade recebidos, e um segundo modificador 309, que é disposto para gerar segundos valores de profundidade modificados a partir dos segundos valores de profundidade recebidos. Os valores de profundidade modificados são alimentados ao sintetizador de imagem 303 onde eles são usados para a síntese, respectivamente, da imagem do primeiro olho de saída e da imagem do segundo olho de saída.

[102] A modificação tem por base um valor de profundidade de referência e, dessa forma, o aparelho compreende adicionalmente um processador de profundidade 311 que é disposto para determinar um valor de profundidade de referência e alimentar o primeiro e o segundo modificadores 307, 309 com tal valor.

[103] O primeiro modificador 307 é disposto para gerar os primeiros valores de profundidade modificados mediante a redução de uma diferença entre os primeiros valores de profundidade de referência recebidos e o valor de profundidade de referência por uma quantidade que depende de uma diferença entre a pose de visualização do primeiro olho e a pose de referência do primeiro olho. De modo similar, o segundo modificador 309 é disposto para gerar segundos valores de profundidade modificados mediante a redução de uma diferença entre os segundos valores de profundidade de referência recebidos e o valor de profundidade de referência por uma quantidade que depende de uma diferença entre a pose de visualização do segundo olho e a pose de referência do segundo olho. A quantidade da redução pode, em alguns cenários, ser a mesma, mas tipicamente não será idêntica (e, de fato, a diferença entre as poses de visualização e as poses de referência será tipicamente diferente).

[104] No aparelho, os valores de profundidade que são usados para síntese podem, dessa forma, ser modificados de modo que a diferença para um valor de profundidade de referência seja reduzida em uma quantidade que depende da diferença entre a pose de visualização e a pose de referência para aquele olho. A quantidade da redução pode, tipicamente, ser uma função monotônica do (valor absoluto) da diferença (por exemplo distância). Os valores de profundidade para uma dada imagem podem, dessa forma, ser aproximados a um valor de profundidade de referência quanto maior a diferença entre a pose de visualização e a pose de referência para o olho.

[105] Entretanto, a redução é aplicada individualmente aos valores de profundidade para a imagem do primeiro olho e para a imagem do segundo olho. Dessa forma, a redução da profundidade em relação ao valor de profundidade de referência para uma das imagens pode reduzir a quantidade de deslocamento de vista que é aplicada à imagem individual. No entanto, as disparidades entre as imagens de olhos diferentes não são removidas e, portanto, a percepção de profundidade em 3D permanece.

[106] Como exemplo de baixa complexidade, o valor de profundidade de referência pode ser ajustado para um valor de profundidade predeterminado. Por exemplo, para uma aplicação de conferência, pode ser presumido que a distância típica de uma câmera estereoscópica até a pessoa sendo capturada seja, digamos, de 1,2 m. Consequentemente, o valor de profundidade de referência pode ser ajustado para o valor de profundidade correspondente a essa distância, isto é, correspondente a 1,2 m.

[107] O primeiro modificador 307 e o segundo modificador 309 podem, tipicamente, aplicar a mesma função para determinar a quantidade de redução a ser aplicada de modo que a mesma diferença entre a pose de visualização e a pose de referência resulte na mesma redução (seja em termos absolutos ou relativos). Como exemplo de baixa complexidade, pode ser considerado que, para poses dentro do ponto ideal, nenhuma redução é aplicada e, para poses fora do ponto ideal, todos os valores de profundidade são definidos iguais ao valor de profundidade de referência. Dessa forma, se a pose de visualização do primeiro olho estiver dentro do ponto ideal da pose do primeiro olho de referência (por exemplo, a distância é menor que 2 cm), então nenhuma alteração é aplicada aos primeiros valores de profundidade. Entretanto, se estiver fora do ponto ideal, então todos os valores de profundidade são ajustados constantes em relação ao valor de profundidade de referência, por exemplo, em relação a um valor de profundidade que corresponda a uma distância de 1,2 m.

[108] Consequentemente, ao executar o deslocamento de vista com a imagem do primeiro olho de referência, uma pose de vista do primeiro olho dentro do ponto ideal resultará em um deslocamento de pose de vista total que resulta na imagem de saída sendo gerada correspondente à nova pose. Entretanto, se a pose de visualização do primeiro olho estiver fora do ponto ideal, então o deslocamento de vista pode ser baseado no mesmo valor de profundidade para todos os pixels e objetos de imagem. Isso resultará simplesmente na imagem de saída que é gerada sendo correspondente à imagem de entrada de referência, mas com todos os pixels deslocados na mesma direção e na mesma quantidade.

[109] A mesma abordagem é executada independentemente para a imagem do segundo olho.

[110] Dessa forma, para aumentar a distância até a pose de referência, a variação de profundidade é reduzida para cada uma dentre a imagem do primeiro olho e a imagem do segundo olho individualmente. Isso resulta em menos diferenciação no deslocamento de objetos na imagem, reduzindo assim a degradação da qualidade da imagem e a introdução de artefatos (por exemplo há menos desoclusão).

[111] Entretanto, a redução de profundidade não resulta em uma imagem estereoscópica de saída sendo gerada com falta de profundidade, isto é, não resulta em uma imagem estereoscópica 2D sendo gerada. Ao invés disso, as imagens de saída geradas para as imagens do primeiro e do segundo olhos podem conter menos variação de profundidade em termos de variações individuais dentro da imagem, mas a diferença de profundidade representada pelas disparidades entre a imagem do segundo olho e a imagem do primeiro olho de referência recebidas é mantida.

[112] De fato, descobriu-se na prática que, embora a abordagem possa introduzir alguma distorção quando a distância entre poses de visualização e poses de referência aumentar demais, o efeito geral é percebido como altamente vantajoso. De fato, o efeito é descrito como uma percepção natural e degradação gradual. Descobriu-se que uma experiência 3D de usuário satisfatória pode ser percebida com variações de pose maiores. Em particular, descobriu-se que a abordagem pode fornecer consistência percebida aprimorada entre indicações de estereopsia e paralaxe de movimento para poses fora do ponto ideal.

[113] Deve-se notar que o sintetizador de imagem 303 desloca a imagem do primeiro olho de referência e a imagem do segundo olho de referência na mesma direção para a mesma direção da diferença entre a pose de referência e a pose de visualização. Dessa forma, frequentemente, um movimento com a cabeça resulta na pose de visualização do primeiro olho e na pose de visualização do segundo olho se movendo na mesma direção, e os deslocamentos resultantes aplicados pelo sintetizador de imagem 303 podem, consequentemente, estar na mesma direção. Dessa forma, a pose de vista eficaz muda em conformidade. Isso contrasta, por exemplo, com situações em que o deslocamento de disparidade entre imagens do primeiro e do segundo olhos é adaptado para alterar a profundidade que corresponde ao plano de tela/imagem (isto é, mover as coisas para a frente ou para trás em relação à tela). Nesses casos,

a disparidade é alterada movendo-se pixels/objetos de imagem correspondentes em direções opostas.

[114] Em muitas modalidades, a quantidade de redução em relação a um nível de profundidade de referência muda gradualmente em relação à diferença entre a pose de visualização e a pose de referência para ao menos alguns valores da diferença. Dessa forma, para ao menos alguns valores da diferença, a quantidade de redução pode ser uma função de um para um da diferença e vice-versa, isto é, pode ter uma correspondência de um para um e ser uma função bijetora. Assim, para uma faixa de valores para a diferença, pode haver um mapeamento de um para um para uma faixa correspondente da quantidade de redução. O mapeamento de um para um pode ser especificamente um mapeamento de um para um monotonicamente crescente para uma faixa da quantidade. Dessa forma, uma diferença crescente resulta em uma quantidade crescente de redução (e, dessa forma, em uma diferença decrescente entre o valor modificado e o valor de profundidade de referência). O mapeamento de um para um pode especificamente estar em uma faixa da quantidade que varia de nenhuma redução (isto é, nenhuma alteração no valor de profundidade) até uma redução de 100% (ajustando-se o valor de profundidade modificado igual ao valor de profundidade de referência).

[115] Em muitas modalidades, a redução na diferença entre o valor de profundidade recebido e o valor de profundidade de referência pode ser obtida mediante a alteração de escala da diferença entre o valor de profundidade e o valor de profundidade de referência por um valor positivo menor que um. Dessa forma, o primeiro modificador 307 pode ser disposto para gerar valores de profundidade modificados mediante a alteração de escala de uma diferença entre os primeiros valores de profundidade e o valor de profundidade de referência por um fator de escala que tem um valor entre zero e um para ao menos alguns valores da diferença entre a pose de visualização do primeiro olho e a pose de referência do primeiro olho. De modo similar, o segundo modificador 309 pode ser disposto para gerar valores de profundidade modificados mediante a alteração de escala de uma diferença entre os segundos valores de profundidade e o valor de profundidade de referência por um fator de escala que tem um valor entre zero e um para ao menos alguns valores da diferença entre a pose do segundo olho de vista e a pose de referência do segundo olho.

[116] A alteração de escala pode, tipicamente, ser igual tanto para o primeiro modificador 307 como para o segundo modificador 309, isto é, elas podem ser idênticas e aplicar a mesma alteração de escala para a mesma diferença.

[117] Um exemplo da abordagem é mostrado na Figura 4. No exemplo, um valor de profundidade de referência é indicado pela linha de profundidade 3, enquanto que a profundidade de entrada é indicada pela linha de profundidade

1. Conforme ilustrado pelo exemplo, quando as poses de visualização são tais que elas coincidam com as poses de referência (situação 1), então, os valores de profundidade de saída podem ser gerados para serem idênticos aos valores de profundidade de entrada, isto é, um fator de escala de 1 é aplicado. Quando as poses de visualização estão muito distantes das poses de referência (situação 3), todos os valores de profundidade modificados podem ser ajustados para serem idênticos ao valor de profundidade de referência, isto é, um fator de escala de zero é aplicado à diferença entre o valor de profundidade recebido e o valor de profundidade de referência. Para uma pose de visualização intermediária (situação 2 no exemplo, imediatamente fora do ponto ideal), um valor de alteração de escala entre 0 e 1 pode ser aplicado, influenciando assim os valores de profundidade em direção ao valor de profundidade de referência.

[118] Em muitas modalidades, a diferença entre o valor de profundidade de referência e os valores de profundidade reduzidos pode ser reduzida para substancialmente zero, isto é, os valores de profundidade modificados podem ser ajustados substancialmente idênticos ao valor de profundidade de referência, para ao menos alguns valores da diferença. Especificamente, se a (magnitude/o valor absoluto) da diferença entre a pose de visualização e a pose de referência exceder um limite, os valores de profundidade modificados podem ser ajustados idênticos ao valor de profundidade de referência. Isso pode ser obtido, por exemplo, definindo-se o fator de escala como zero para esses valores. Como resultado, todos os valores de profundidade modificados serão constantes, e o deslocamento de vista realizado pelo sintetizador de imagem 303 resultará em todos os pixels sendo deslocados na mesma quantidade.

[119] Em muitas modalidades, o primeiro modificador 307 e o segundo modificador 309 podem ser dispostos para não modificar os valores de profundidade para ao menos alguns valores da diferença entre a pose de visualização e a pose de referência correspondentes. Especificamente, o primeiro modificador 307 pode ser disposto para não reduzir a diferença entre os primeiros valores de profundidade e o valor de profundidade de referência para ao menos alguns valores da diferença entre a pose de visualização do primeiro olho e a pose de referência do primeiro olho. De modo similar, o segundo modificador 309 pode ser disposto para não reduzir a diferença entre os valores da segunda profundidade e o valor de profundidade de referência para ao menos alguns valores da diferença entre a pose de visualização do segundo olho e a pose de referência do segundo olho. Especificamente, os modificadores 307 e 309 podem gerar os valores de profundidade modificados para serem idênticos aos valores de profundidade recebidos se a (magnitude/o valor absoluto da) diferença for menor que um limite. O limite pode ser selecionado para corresponder à região para a qual é considerado que a qualidade de imagem resultante do deslocamento de vista é suficiente (por exemplo sem degradação sendo perceptível), isto é, ele pode ser selecionado para corresponder ao ponto ideal.

[120] Especificamente, isso pode ser obtido mediante o ajuste do fator de escala igual a um para a diferença entre a pose de visualização e a pose de referência que satisfaz um critério, como a diferença que está abaixo de um limite que corresponde ao ponto ideal.

[121] A seguir, será apresentado um exemplo específico no qual tal abordagem é usada para modificar valores de profundidade. No exemplo, 𝑑𝑜𝑙ℎ𝑜 é usado para denotar a diferença entre a pose de visualização e a pose de referência que, no exemplo específico, é determinada como a distância euclidiana entre a posição 3D do (primeiro ou do segundo) olho atual e a posição de visualização da câmera de referência para a câmera que é usada para síntese de uma nova vista para esse olho. É introduzido agora um parâmetro de raio 𝑅1 para o ponto ideal esférico. Um valor típico para 𝑅1 = 0,01 m durante a renderização de cenas capturadas com objetos tão próximos quanto 0,25 m. É introduzido também um segundo parâmetro de raio 𝑅2 com um valor típico de 𝑅2 = 0,1 que é a distância além da qual a escala do mapa de profundidade terá sido alterada de volta para um plano (sem variação de profundidade restante).

[122] Suponha que 𝑧𝑟𝑒𝑓 denote o plano de referência presumido em direção ao qual se deseja alterar a escala do mapa de profundidade, isto é, ele representa o valor de profundidade de referência. Observe que a profundidade de referência pode ser um valor que muda constantemente que corresponde à profundidade observada na direção do olhar do observador. Para cada pixel (𝑖, 𝑗) no mapa de profundidade (isto é, para cada valor de profundidade no mapa de profundidade), calcula-se agora a diferença com a profundidade de referência: ∆(𝑖, 𝑗) = 𝑧(𝑖, 𝑗) − 𝑧𝑟𝑒𝑓 .

[123] Calculamos também o fator de escala que aplicamos dependendo da distância do olho até o centro do ponto ideal: 1 𝑖𝑓 𝑑𝑜𝑙ℎ𝑜 < 𝑅1 𝑠={ 𝑑 . 1 − 𝑚𝑖𝑛 ( 𝑜𝑙ℎ𝑜 , 1) 𝑖𝑓 𝑑𝑜𝑙ℎ𝑜 ≥ 𝑅1 𝑅 2

[124] O fator de escala s reduz para 0 quando 𝑑𝑜𝑙ℎ𝑜 = 𝑅2 . A Figura 5 mostra o fator de escala como uma função da diferença 𝑑𝑜𝑙ℎ𝑜 .

[125] A profundidade é agora modificada como: 𝑧𝑠𝑎í𝑑𝑎(𝑖,𝑗) = 𝑧𝑟𝑒𝑓 + 𝑠∆(𝑖, 𝑗).

[126] No exemplo, a mesma relação entre a quantidade de redução (o fator de escala) e as diferenças em pose é usada tanto para a imagem do primeiro olho quanto para a imagem do segundo olho, isto é, a descrição acima pode ser considerada para se aplicar individualmente tanto ao primeiro modificador 307 quanto ao segundo modificador 309.

[127] Deve-se considerar que, embora o exemplo específico use um fator de escala para reduzir a diferença entre valores de profundidade e o valor de profundidade de referência, outras abordagens podem ser usadas em outras modalidades. Por exemplo, um deslocamento de profundidade variável pode ser subtraído dos valores de profundidade recebidos, sendo esse deslocamento dependente da diferença entre a pose de visualização e a pose de referência.

[128] No exemplo anterior, o valor de profundidade de referência foi determinado como um valor fixo predeterminado que é selecionado dependendo da configuração específica. Por exemplo, 0,75 m para uma distância de conferência típica de 0,75 m ou 1,5 m para uma distância de conferência típica de 1,5 m. Entretanto, em muitas modalidades, o valor de profundidade de referência pode ser um valor determinado dinamicamente.

[129] Por exemplo, em muitas modalidades o processador de profundidade 311 pode ser disposto para determinar o valor de profundidade de referência em resposta aos primeiros e/ou aos segundos valores de profundidade para as imagens de referência. Por exemplo, o valor de profundidade de referência pode ser determinado como o valor de profundidade médio ou o valor de profundidade de um objeto de imagem. Por exemplo, a detecção de face pode ser usada para detectar um objeto de imagem correspondente a uma face, e o valor de profundidade de referência pode ser ajustado para o valor de profundidade médio para o objeto de imagem identificado.

[130] Em muitas modalidades, o processador de profundidade 311 pode ser disposto para determinar o valor de profundidade de referência com base em um olhar do observador.

[131] O processador de profundidade 311 pode compreender especificamente um estimador de olhar que é disposto para estimar um ponto de olhar na imagem do primeiro olho e/ou na imagem do segundo olho. O ponto de olhar é indicativo do olhar do observador na imagem e, dessa forma, reflete para onde na imagem o usuário está olhando.

[132] O ponto de olhar pode, por exemplo, ser determinado capturando-se imagens da câmera do observador e extraindo-se as regiões de imagem do olho após a detecção da face. A pupila pode, então, ser detectada, uma vez que essa é uma região relativamente escura. A posição da pupila em relação à região do olho pode ser usada para calcular a direção do olhar no espaço 3D. Isso pode ser feito com o uso de câmeras que estão integradas a uma tela ou com o uso de câmeras que são integradas a um headset de realidade virtual. Uma abordagem ainda mais simples é supor que a direção do olhar corresponde à direção do observador (orientação da cabeça). Pode ser presumido que o ponto de olhar corresponde ao ponto central para cada imagem do primeiro/segundo olho.

[133] O valor de profundidade de referência pode, então, ser ajustado para um valor de profundidade para o ponto de olhar. Por exemplo, se o ponto de olhar for considerado para definir um pixel específico, o valor de profundidade de referência pode ser ajustado para o valor de profundidade desse pixel. Se for considerado que o ponto de olhar tem uma extensão espacial, o valor de profundidade de referência pode, por exemplo, ser ajustado para a média dos valores de profundidade em uma área que corresponde ao ponto de olhar. O valor de profundidade de referência pode, em algumas modalidades, ser determinado com base na imagem do primeiro olho e, em outras modalidades, com base na imagem do segundo olho, ou pode, de fato, ser baseado em ambas. Por exemplo, um ponto de olhar pode ser determinado tanto na imagem do primeiro olho como na imagem do segundo olho, e o valor de profundidade de referência pode ser ajustado como a média dos valores de profundidade correspondentes nas duas imagens.

[134] Isso pode, em muitas modalidades, proporcionar uma experiência de usuário substancialmente aprimorada e pode reduzir substancialmente a perceptibilidade de qualquer distorção resultante das modificações de valores de profundidade para distâncias maiores até a pose de referência.

[135] A abordagem reflete especificamente a percepção de que o efeito percebido de distorções espaciais depende fortemente de onde, na cena, o observador está olhando. Por exemplo, quando acontece de o observador estar olhando para um objeto distante, ele não observa alterações de paralaxe devido ao deslocamento de pose de visualização. As partes mais importantes de uma imagem estão concentradas em um pequeno ângulo sólido em torno da direção/do ponto de olhar. Portanto, a redução de alterações e de distorções de paralaxe na direção do olhar pode melhorar substancialmente a qualidade da imagem percebida.

[136] A Figura 6 ilustra a situação correspondente à Figura 5, mas com o observador mudando seu ponto de olhar para a parte mais para a frente da cena. Como resultado, o valor de profundidade de referência muda para a profundidade mais para a frente, e a alteração de escala que depende da diferença de pose está agora em relação a essa profundidade, isto é, em relação à parte mais para a frente da cena. O exemplo pode, dessa forma, refletir a aplicação de um fator de escala ao redor da profundidade que corresponde à direção do olhar de uma pessoa (tipicamente o objeto de atenção). Como resultado, a alteração de paralaxe percebida diminui na direção do olhar quando uma pessoa se move para fora do ponto ideal.

[137] Deve-se notar que um efeito particularmente vantajoso é que a experiência 3D percebida e a profundidade da cena não são removidas mesmo com diferenças maiores entre a pose de visualização e a pose de referência. Dessa forma, embora a variação de profundidade para a imagem individual seja reduzida, reduzindo assim artefatos e degradação pela operação de deslocamento de vista individual (por exemplo devido à desoclusão), a disparidade entre a imagem do primeiro olho de saída e a imagem do segundo olho é mantida, mantendo assim um efeito 3D estereoscópico quando apresentadas aos dois olhos de um observador.

[138] De um modo simples, isso pode ser exemplificado considerando-se que, embora o efeito sobre cada imagem individual seja reduzir a profundidade para uma imagem “plana”, as duas imagens juntas ainda fornecem uma imagem estereoscópica com disparidade entre a imagem esquerda e a direita (entre a primeira e a segunda imagem ou vice-versa) e, dessa forma, fornecem uma percepção de profundidade na cena. A imagem do primeiro olho de saída e a imagem do segundo olho de saída incluem, consequentemente, indicações de estereopsia.

[139] Isso pode ser ilustrado considerando-se um exemplo específico.

[140] A Figura 7 mostra um cenário no qual uma tela estereoscópica tradicional pode apresentar uma imagem estereoscópica em um painel de exibição adequado 701 a uma dada distância de um observador. Nesse caso, dois pontos de imagem 𝑖1𝐿 e 𝑖1𝑅 , que correspondem a um ponto em um objeto, são apresentados, respectivamente, ao olho esquerdo e ao olho direito de um observador. Um usuário com olhos nas posições (𝑝𝐿 , 𝑝𝑅 ) perceberá que o ponto/objeto está em uma posição de profundidade 𝑝1. Nesse exemplo, não há dados de profundidade fornecidos com as imagens estereoscópicas e, consequentemente, nenhum deslocamento de vista é realizado, e os pontos de imagem não mudam de posição. Como resultado, se o observador mover seus olhos das posições (𝑝𝐿 , 𝑝𝑅 ) para as posições (𝑝𝐿̃ , 𝑝𝑅̃ ), o ponto de objeto 3D virtual se move também da posição 𝑝1 para a posição 𝑝̃1. Consequentemente, uma alteração na posição que inclui uma alteração da profundidade do objeto ocorre quando o usuário altera o ponto de vista. Entretanto, para uma paralaxe de movimento correta, o ponto de objeto deve permanecer estacionário quando o observador move sua cabeça. As indicações estereoscópicas e de paralaxe de movimento não são consistentes em tal abordagem tradicional.

[141] A Figura 8 ilustra um exemplo correspondente, mas onde os dados de profundidade estão disponíveis e o deslocamento de vista adequado é executado com base nas alterações na pose de observador. Nesse exemplo, quando o observador move sua cabeça, os pontos de imagem são movidos de acordo no painel de exibição (setas curvas). Como resultado, o ponto de objeto 𝑝1 permanece estacionário quando o observador move sua cabeça e as indicações estereoscópicas e de paralaxe de movimento são consistentes. Entretanto, para deslocamentos maiores, o deslocamento de vista pode introduzir erros, degradações ou artefatos.

[142] A Figura 9 ilustra o exemplo da Figura 8, mas considerando adicionalmente um segundo ponto de objeto 𝑝2 que está a uma profundidade 𝑧2 . Quando o observador move a cabeça, os dados de profundidade são novamente usados para executar deslocamento de vista. Entretanto, o tamanho do deslocamento necessário depende da profundidade do ponto e, uma vez que o segundo ponto fica em uma profundidade maior, sua paralaxe de movimento (setas curvas) para cada olho será menor do que para o primeiro ponto. As indicações estereoscópicas e de paralaxe de movimento permanecem consistentes para ambos os pontos de objeto, mas ocorre degradação devido ao deslocamento da vista para deslocamentos de vista maiores.

[143] A Figura 10 ilustra a abordagem do aparelho descrito onde as variações de profundidade foram reduzidas para cada imagem individual. Como consequência da variação de profundidade reduzida em torno do valor de profundidade de referência, a diferença na variação no deslocamento de vista aplicado para pontos em diferentes profundidades na cena é reduzida e, especificamente, se a profundidade for ajustada para ser a mesma para todos os valores (isto é, os valores de profundidade modificados são ajustados como iguais ao valor de profundidade de referência), então, os deslocamentos serão idênticos. Um avanço substancial é que isso pode reduzir a degradação na qualidade de imagem resultante do deslocamento de vista. Em particular,

isso pode reduzir ou, de fato, remover a desoclusão à medida que todos os pixels são movidos na mesma direção e possivelmente na mesma quantidade.

[144] Entretanto, conforme ilustrado na Figura 10, o segundo ponto de objeto 𝑝2 será deslocado por uma quantidade errada para a profundidade 𝑧2 . Isso resultará no ponto de objeto deslocado sendo percebido como estando em uma posição 𝑝̃2 diferente. Além de a uma profundidade 𝑧̃2 diferente. As indicações estereoscópicas e de paralaxe de movimento são, consequentemente, consistentes para o primeiro ponto, mas não para o segundo ponto.

[145] Entretanto, a cena percebida ainda é uma cena tridimensional e, de fato, o deslocamento de posição percebido pode frequentemente ser relativamente pequeno. Adicionalmente, na abordagem descrita, o equilíbrio entre a degradação de qualidade da imagem e a consistência de posição pode ser adaptado de modo flexível dependendo da diferença entre a pose de visualização e a pose de referência.

[146] Além disso, se o valor de profundidade de referência for adaptado com base no ponto de olhar, o impacto perceptível de distorções para objetos em outras profundidades pode ser substancialmente reduzido e, de fato, tipicamente, se o observador olhar na direção do primeiro ponto no exemplo, ele poderá nem notar a inconsistência em relação ao segundo ponto.

[147] Em muitas modalidades, o primeiro modificador 307 pode ser disposto para aplicar um limite à diferença entre os primeiros valores de profundidade modificados gerados e o valor de profundidade de referência. De modo similar, o segundo modificador 309 pode ser disposto para aplicar um limite à diferença entre os segundos valores de profundidade modificados gerados e o valor de profundidade de referência. Dessa forma, os valores de profundidade podem ser restritos em relação ao valor de profundidade de referência mediante a aplicação de um valor de profundidade máximo e/ou mínimo. Em algumas modalidades, um limite pode ser aplicado apenas em uma direção (por exemplo, pode ser definido um valor máximo para a frente ou para trás) mas, em outras modalidades, os limites podem ser aplicados tanto para aumentar como para diminuir os valores de profundidade.

[148] Um exemplo de um cenário com limites de profundidade é ilustrado na Figura 11. No exemplo, o corte dos valores de profundidade para valores entre zdistante e zpróximo é aplicado para reduzir ainda mais artefatos de deslocamento de vista.

[149] No exemplo específico, os objetos próximos ao observador são exibidos com sua paralaxe de movimento induzida por profundidade verdadeira, uma vez que o plano de corte próximo fica mais próximo do observador do que o objeto mais próximo. Entretanto, a profundidade de objetos que ficam apenas uma pequena distância atrás do plano de referência será cortada no plano de corte distante z distante. Como resultado, não será permitida muita variação de profundidade atrás do plano de referência, o que reduzirá erros de renderização e artefatos de desoclusão.

[150] Como a profundidade de referência pode mudar continuamente dependendo da direção de visualização dinâmica ou da direção de olhar do observador, os planos de corte próximo e distante também podem. Por exemplo, pode-se forçar a variação de profundidade na vista resultante para sempre ter uma distorção máxima (distância de empenamento) de

10 pixels e selecionar a faixa de corte de profundidade próxima e distante de modo que essa distância de empenamento máxima seja mantida. Na prática, isso poderia significar que as faixas de corte próximo e distante ficam próximas da profundidade de referência quando essa profundidade de referência fica próxima ao observador (objetos próximos rendem paralaxe maior) e, por outro lado, elas ficam mais distantes da profundidade de referência quando essa profundidade é maior. Dessa maneira, a qualidade de renderização de imagem pode ser controlada independentemente da profundidade de referência. Em algumas modalidades, os planos de corte podem ser introduzidos também de uma maneira gradual (como a alteração de escala), por exemplo quanto maior o desvio do ponto ideal, mais próximo cada plano de corte se move para seu valor fixo final.

[151] Os termos “primeiro” e “segundo” podem ser substituídos por “esquerdo” e “direito”, respectivamente ou vice-versa. Por exemplo, os termos “pose de visualização do primeiro olho”, “pose de visualização do segundo olho”, “imagem do primeiro olho de referência” e “imagem do segundo olho de referência” podem ser substituídos por “pose de visualização do olho esquerdo”, “pose de visualização do olho direito”, “imagem do olho esquerdo de referência” e “imagem do olho direito de referência”, respectivamente (ou vice-versa).

[152] Deve-se considerar que as abordagens e os princípios descritos podem ser aplicados em muitas aplicações e muitos cenários diferentes e variados, e que a descrição anterior, para fins de clareza, teve como foco um exemplo menos complexo.

[153] Por exemplo, a abordagem poderia ser usada para reprodução do formato de estereoscopia omnidirecional (ODS,

ou omnidirectional stereo) 360 amplamente usado. De fato, seria possível usar os princípios descritos mesmo sem a transmissão de mapas de profundidade densa. Por exemplo, um tocador de ODS poderia incluir código sombreador de cartão gráfico que poderia executar uma única medição de disparidade em um pequeno fragmento de imagem (por exemplo uma região de 32x32 pixels) no centro do par de olhos estereoscópicos que já está sendo extraído do formato de ODS durante a renderização (isto é, essencialmente na extremidade final do pipeline de renderização). Esse único valor de profundidade pode, então, ser aplicado a todos os pixels com o uso de um outro sombreador (deslocamento global em ambas as imagens). Ao olhar ao redor em 360, o efeito de paralaxe de movimento será adotado para a profundidade total em uma certa direção (por exemplo, uma pessoa próxima em relação a tudo que está distante em uma outra direção).

[154] A invenção pode ser implementada em qualquer forma adequada, incluindo hardware, software, firmware ou qualquer combinação dos mesmos. A invenção pode, opcionalmente, ser implementada ao menos parcialmente como software de computador que é executado em um ou mais processadores de dados e/ou processadores de sinal digital. Os elementos e componentes de uma modalidade da invenção podem ser física, funcional e logicamente implementados de qualquer forma adequada. De fato, a funcionalidade pode ser implementada em uma única unidade, em uma pluralidade de unidades ou como parte de outras unidades funcionais. Assim, a invenção pode ser implementada em uma unidade única ou pode ser distribuída física e funcionalmente entre diferentes unidades, circuitos e processadores.

[155] Embora a presente invenção tenha sido descrita em conexão com algumas modalidades, não se pretende limitá-la à forma específica aqui apresentada. Ao invés disso, o escopo da presente invenção é limitado apenas pelas reivindicações em anexo. Adicionalmente, embora possa parecer que um recurso é descrito em conexão com modalidades específicas, o versado na técnica reconhecerá que vários recursos das modalidades descritas podem ser combinados de acordo com a invenção. Nas reivindicações, o termo “que compreende” não exclui a presença de outros elementos ou outras etapas.

[156] Além disso, embora individualmente mencionados, uma pluralidade de meios, elementos, circuitos ou etapas de métodos podem ser implementados, por exemplo, por meio de um único circuito, uma única unidade ou um único processador. Adicionalmente, embora recursos individuais possam estar incluídos em reivindicações diferentes, eles podem ser vantajosamente combinados, e sua inclusão em reivindicações diferentes não implica que uma combinação de recursos não seja viável e/ou vantajosa. Além disso, a inclusão de um recurso em uma categoria de reivindicações não implica na limitação a tal categoria, mas, ao invés disso, indica que o recurso é igualmente aplicável a outras categorias das reivindicações, conforme for adequado. Além disso, a ordem dos recursos nas reivindicações não implica em nenhuma ordem específica na qual os recursos precisam ser trabalhados e, em particular, a ordem das etapas individuais em uma reivindicação de método não implica que as etapas precisam ser executadas nessa ordem. As etapas podem, na verdade, ser executadas em qualquer ordem adequada. Além disso, referências no singular não excluem uma pluralidade. Dessa forma, as referências a “um(a)”, “uns/umas”, “primeiro(a)”, “segundo(a)” etc., não excluem uma pluralidade. Os sinais de referência nas reivindicações são fornecidos meramente como um exemplo de esclarecimento e não devem ser considerados como limitantes ao escopo das reivindicações.

Claims

REIVINDICAÇÕES

1. APARELHO GERADOR DE IMAGENS, caracterizado por compreender: um determinador (305) para determinar uma pose de visualização do primeiro olho e uma pose de visualização do segundo olho; um receptor (301) para receber uma imagem do primeiro olho de referência com primeiros valores de profundidade associados e uma imagem do segundo olho de referência com segundos valores de profundidade associados, a imagem do primeiro olho de referência sendo para uma pose de referência do primeiro olho e a imagem do segundo olho de referência sendo para uma pose de referência do segundo olho; um processador de profundidade (311) para determinar um valor de profundidade de referência; um primeiro modificador (307) para gerar primeiros valores de profundidade modificados mediante a redução de uma diferença entre os primeiros valores de profundidade e o valor de profundidade de referência por uma primeira quantidade dependente de uma diferença entre a pose de visualização do primeiro olho e a pose de referência do primeiro olho; um segundo modificador (309) para gerar segundos valores de profundidade modificados mediante a redução de uma diferença entre os segundos valores de profundidade e o valor de profundidade de referência por uma segunda quantidade dependente de uma diferença entre a pose de visualização do segundo olho e a pose de referência do segundo olho; e um sintetizador (303) para sintetizar uma imagem do primeiro olho de saída para a pose de visualização do primeiro olho mediante o deslocamento de vista da imagem do primeiro olho de referência com base nos primeiros valores de profundidade modificados e uma imagem do segundo olho de saída para a pose de visualização do segundo olho mediante o deslocamento de vista da imagem do segundo olho de referência com base nos segundos valores de profundidade modificados.

2. APARELHO, de acordo com a reivindicação 1, caracterizado por o processador de profundidade (311) ser disposto para determinar o valor de profundidade de referência como um valor de profundidade de referência predeterminado.

3. APARELHO, de acordo com a reivindicação 1, caracterizado por o processador de profundidade (311) ser disposto para determinar um ponto de olhar para um observador em ao menos uma dentre a imagem do primeiro olho de referência e a imagem do segundo olho de referência; e para determinar o valor de profundidade de referência em resposta a um valor de profundidade de ao menos um dentre os primeiros valores de profundidade e os segundos valores de profundidade para o ponto de olhar.

4. APARELHO, de acordo com qualquer uma das reivindicações 1 a 3, caracterizado por o primeiro modificador (307) ser disposto para reduzir a diferença entre os primeiros valores de profundidade e o valor de profundidade de referência para substancialmente zero para ao menos alguns valores da diferença entre a pose de visualização do primeiro olho e a pose de referência do primeiro olho.

5. APARELHO, de acordo com qualquer uma das reivindicações 1 a 4, caracterizado por o primeiro modificador (307) ser disposto para não reduzir a diferença entre os primeiros valores de profundidade e o valor de profundidade de referência para ao menos alguns valores da diferença entre a pose de visualização do primeiro olho e a pose de referência do primeiro olho.

6. APARELHO, de acordo com qualquer uma das reivindicações 1 a 5, caracterizado por o primeiro modificador (307) ser disposto para determinar a primeira quantidade como uma função monotonicamente crescente da diferença entre a pose de visualização do primeiro olho e a pose de referência do primeiro olho.

7. APARELHO, de acordo com qualquer uma das reivindicações 1 a 6, caracterizado por o primeiro modificador ser disposto para gerar valores de profundidade modificados mediante a alteração de escala de uma diferença entre os primeiros valores de profundidade e o valor de profundidade de referência por um fator de escala que tem um valor entre zero e um para ao menos alguns valores da diferença entre a pose de visualização do primeiro olho e a pose de referência do primeiro olho.

8. APARELHO, de acordo com a reivindicação 7, caracterizado pelo fator de escala ser uma função monotonicamente decrescente da diferença entre a pose de visualização do primeiro olho e a pose de referência do primeiro olho para ao menos uma faixa da diferença entre a pose de visualização do primeiro olho e a pose de referência do primeiro olho.

9. APARELHO, de acordo com qualquer uma das reivindicações 7 ou 8, caracterizado por o fator de escala ter um valor entre 0,95 e 1,05 para a diferença entre a pose de visualização do primeiro olho e a pose de referência do primeiro olho que está abaixo de um limite.

10. APARELHO, de acordo com qualquer uma das reivindicações 1 a 9, caracterizado por o sintetizador (303) ser disposto para deslocar a imagem do primeiro olho de referência e a imagem do segundo olho de referência na mesma direção.

11. APARELHO, de acordo com qualquer uma das reivindicações 1 a 10, caracterizado por o primeiro modificador (307) ser disposto para limitar a diferença entre os primeiros valores de profundidade modificados e o valor de profundidade de referência.

12. APARELHO, de acordo com qualquer uma das reivindicações 1 a 11, caracterizado por o primeiro modificador (307) ser disposto para aplicar uma mesma relação entre a primeira quantidade e a diferença entre a pose de visualização do primeiro olho e a pose de referência do primeiro olho como a relação aplicada pelo segundo modificador (309) entre a segunda quantidade e a diferença entre a pose de visualização do segundo olho e a pose de referência do segundo olho.

13. MÉTODO DE GERAÇÃO DE IMAGENS, caracterizado por compreender: determinar uma pose de visualização do primeiro olho e uma pose de visualização do segundo olho; receber uma imagem do primeiro olho de referência com primeiros valores de profundidade associados e uma imagem do segundo olho de referência com segundos valores de profundidade associados, a imagem do primeiro olho de referência sendo para uma pose de referência do primeiro olho e a imagem do segundo olho de referência sendo para uma pose de referência do segundo olho;

determinar um valor de profundidade de referência; gerar primeiros valores de profundidade modificados mediante a redução de uma diferença entre os primeiros valores de profundidade e o valor de profundidade de referência por uma primeira quantidade dependente de uma diferença entre a pose de visualização do primeiro olho e a pose de referência do primeiro olho; gerar segundos valores de profundidade modificados mediante a redução de uma diferença entre os segundos valores de profundidade e o valor de profundidade de referência por uma segunda quantidade dependente de uma diferença entre a pose de visualização do segundo olho e a pose de referência do segundo olho; e, sintetizar uma imagem do primeiro olho de saída para a pose de visualização do primeiro olho mediante o deslocamento de vista da imagem do primeiro olho de referência com base nos primeiros valores de profundidade modificados e uma imagem do segundo olho de saída para a pose de visualização do segundo olho mediante o deslocamento de vista da imagem do segundo olho de referência com base nos segundos valores de profundidade modificados.

14. PRODUTO DE PROGRAMA DE COMPUTADOR, caracterizado por compreender meios de código de programa de computador adaptados para executar todas as etapas, conforme definido na reivindicação 13, quando o dito programa for executado em um computador.