BR112021004495A2

BR112021004495A2 - apparatus for processing audiovisual data for a scene and method of processing audiovisual data

Info

Publication number: BR112021004495A2
Application number: BR112021004495-7A
Authority: BR
Inventors: Werner Paulus Josephus De Bruijn; Jeroen Gerardus Henricus Koppens
Original assignee: Koninklijke Philips N.V.
Priority date: 2018-09-13
Filing date: 2019-09-10
Publication date: 2021-06-08
Also published as: CN112740150B; US11856386B2; EP3850470B1; EP3623913A1; JP2022500917A; MX2021002765A; EP3850470A1; CN112740150A; WO2020053182A1; US20220053282A1

Abstract

APARELHO PARA PROCESSAR DADOS AUDIOVISUAIS PARA UMA CENA E MÉTODO DE PROCESSAMENTO DE DADOS AUDIOVISUAIS. A presente invenção se refere a um aparelho para processamento de dados audiovisuais para uma cena que compreende um receptor (201) para receber dados audiovisuais para a cena. Os dados audiovisuais compreendem dados de áudio para a cena que compreendem uma pluralidade de elementos de áudio e dados de imagem para pelo menos uma primeira imagem da cena sendo que a primeira imagem tem uma primeira razão de aspecto. Um remapeador de imagens (203) executa um mapeamento não uniforme dependente de conteúdo da primeira imagem para uma segunda imagem que tem uma razão de aspecto diferente. O remapeador de imagens (207) é disposto de modo a gerar dados de mapeamento que descrevem o mapeamento não uniforme dependente de conteúdo. Um remapeador de áudio (207) substitui um primeiro elemento de áudio da pluralidade de elementos de áudio por um segundo elemento de áudio gerado pela modificação de uma propriedade espacial para o primeiro elemento de áudio em resposta aos dados de mapeamento. A propriedade espacial que está sendo modificada pode ser uma posição e/ou distribuição espacial do primeiro elemento de áudio. APPARATUS FOR PROCESSING AUDIOVISUAL DATA FOR AN AUDIOVISUAL DATA PROCESSING SCENE AND METHOD. The present invention relates to an apparatus for processing audiovisual data for a scene which comprises a receiver (201) for receiving audiovisual data for the scene. The audiovisual data comprises audio data for the scene which comprises a plurality of audio elements and image data for at least a first image of the scene the first image having a first aspect ratio. An image remapper (203) performs a content-dependent non-uniform mapping of the first image to a second image that has a different aspect ratio. The image remapper (207) is arranged to generate mapping data describing the content-dependent non-uniform mapping. An audio remapper (207) replaces a first audio element of the plurality of audio elements with a second audio element generated by modifying a spatial property for the first audio element in response to the mapping data. The spatial property being modified can be a position and/or spatial distribution of the first audio element.

Description

APPARATUS FOR PROCESSING AUDIOVISUAL DATA FOR A SCENE AND METHOD OF PROCESSING AUDIOVISUAL DATA FIELD OF INVENTION

[001] A invenção se refere a um aparelho e a um método de processamento de dados audiovisuais e, em particular, mas não exclusivamente, ao processamento de dados audiovisuais, por exemplo, para proporcionar uma experiência de realidade virtual.[001] The invention relates to an apparatus and a method of processing audiovisual data and, in particular, but not exclusively, the processing of audiovisual data, for example, to provide a virtual reality experience.

BACKGROUND OF THE INVENTION

[002] A variedade e o alcance de aplicativos de imagem e vídeo aumentaram substancialmente nos últimos anos com novos serviços e maneiras de usar e consumir vídeo sendo continuamente desenvolvidos e introduzidos. Em particular, muitos serviços, aplicativos e experiências espaciais e interativas estão sendo desenvolvidos para dar aos usuários uma experiência mais envolvente e imersiva.[002] The variety and reach of imaging and video applications has increased substantially in recent years with new services and ways of using and consuming video continually being developed and introduced. In particular, many spatial and interactive services, applications and experiences are being developed to give users a more immersive and immersive experience.

[003] Exemplos de tais aplicativos são aplicativos de Realidade Virtual (VR, Virtual Reality) e Realidade Aumentada (RA), que estão se tornando populares rapidamente, com várias soluções voltadas para o mercado consumidor. Vários padrões também estão sendo desenvolvidos por vários organismos de padronização. Tais atividades de padronização estão desenvolvendo ativamente padrões para os vários aspectos de sistemas de VR/RA, incluindo, por exemplo, streaming, radiodifusão, renderização etc.[003] Examples of such applications are Virtual Reality (VR, Virtual Reality) and Augmented Reality (AR) applications, which are quickly becoming popular with various solutions aimed at the consumer market. Various standards are also being developed by various standards bodies. Such standardization activities are actively developing standards for the various aspects of VR/AR systems, including, for example, streaming, broadcasting, rendering, etc.

[004] Os aplicativos de VR tendem a fornecer experiências de usuário que correspondem ao fato de o usuário estar em um mundo/ambiente/cena diferente, enquanto os aplicativos de RA tendem a fornecer experiências de usuário que correspondem ao usuário estar no ambiente atual, mas com informações adicionais ou objetos virtuais ou informações sendo adicionadas. Dessa forma, as aplicações de VR tendem a fornecer um mundo/cena gerado sinteticamente totalmente inclusivo, enquanto as aplicações RA tendem a fornecer um mundo/cena parcialmente sintético que é sobreposto à cena real na qual o usuário está fisicamente presente. Entretanto, os termos são frequentemente usados de forma intercambiável e têm um alto grau de sobreposição. A seguir, o termo Realidade Virtual/VR será usado para denotar tanto a Realidade Virtual quanto a Realidade Aumentada.[004] VR apps tend to provide user experiences that correspond to the user being in a different world/environment/scene, whereas AR apps tend to provide user experiences that correspond to the user being in the current environment, but with additional information or virtual objects or information being added. In this way, VR applications tend to provide a fully inclusive synthetically generated world/scene, while RA applications tend to provide a partially synthetic world/scene that is superimposed on the real scene in which the user is physically present. However, the terms are often used interchangeably and have a high degree of overlap. Next, the term Virtual Reality/VR will be used to denote both Virtual Reality and Augmented Reality.

[005] Como um exemplo, um serviço cada vez mais popular é o fornecimento de imagens e áudio de tal forma que um usuário seja capaz de interagir ativa e dinamicamente com o sistema para alterar parâmetros da renderização, de modo que isso se adapte ao movimento e às alterações na posição e orientação do usuário. Um recurso muito interessante em muitas aplicações é a capacidade de alterar a posição de visualização e a direção de visualização efetivas do observador, por exemplo, possibilitando que o mesmo se mova e “olhe ao redor” na cena que está sendo apresentada.[005] As an example, an increasingly popular service is providing images and audio in such a way that a user is able to actively and dynamically interact with the system to change rendering parameters so that it adapts to movement and changes in the user's position and orientation. A very interesting feature in many applications is the ability to change the viewer's effective viewing position and viewing direction, for example, enabling the viewer to move and “look around” in the scene being presented.

[006] Esse recurso pode, especificamente, possibilitar que uma experiência de realidade virtual seja fornecida a um usuário. Isso pode possibilitar que o usuário se mova de forma (relativamente) livre em um ambiente virtual e altere dinamicamente sua posição e a direção na qual ele está olhando. Geralmente, tais aplicações de realidade virtual são baseadas em um modelo tridimensional da cena, com o modelo sendo calculado dinamicamente para fornecer a visualização específica solicitada. Essa abordagem é também bem conhecida,[006] This feature can specifically enable a virtual reality experience to be provided to a user. This can enable the user to move (relatively) freely in a virtual environment and dynamically change their position and the direction in which they are looking. Generally, such virtual reality applications are based on a three-dimensional model of the scene, with the model being dynamically calculated to provide the specific visualization requested. This approach is also well known,

por exemplo, em aplicações de jogos, como na categoria de atiradores em primeira pessoa, para computadores e consoles.for example, in gaming applications, as in the first-person shooter category, for computers and consoles.

[007] É também desejável, em particular, para aplicações de realidade virtual, que a imagem que é apresentada seja uma imagem tridimensional. De fato, para otimizar a imersão do espectador, é geralmente preferencial que o usuário experimente a cena apresentada como uma cena tridimensional. De fato, uma experiência de realidade virtual deve, de preferência, possibilitar que um usuário selecione sua própria posição, ponto de visualização da câmera e momento no tempo em relação a um mundo virtual.[007] It is also desirable, in particular, for virtual reality applications, that the image that is presented is a three-dimensional image. In fact, to optimize viewer immersion, it is generally preferred that the user experience the scene presented as a three-dimensional scene. In fact, a virtual reality experience should preferably allow a user to select their own position, camera viewpoint and moment in time in relation to a virtual world.

[008] Além da renderização visual, a maioria das aplicações de VR/RA proporciona adicionalmente uma experiência de áudio correspondente. Em muitas aplicações, o áudio proporciona, de preferência, uma experiência de áudio espacial onde percebe-se que as fontes de áudio chegam a partir de posições que correspondem às posições dos objetos correspondentes na cena visual. Dessa forma, as cenas de áudio e vídeo são, de preferência, percebidas como sendo consistentes, sendo que ambas fornecem uma experiência espacial completa.[008] In addition to visual rendering, most VR/RA applications additionally provide a corresponding audio experience. In many applications, the audio preferably provides a spatial audio experience where audio sources are perceived to arrive from positions that correspond to the positions of the corresponding objects in the visual scene. In this way, audio and video scenes are preferably perceived as being consistent, both of which provide a complete spatial experience.

[009] O conteúdo de vídeo, como aquele, por exemplo, utilizado em aplicações de realidade virtual), está sendo cada vez mais capturado com uma ampla variedade de diferentes tipos de dispositivos, desde sistemas de câmeras profissionais até smartphones, tablets, câmeras de ação, complementos de câmera (360 graus) para smartphones, etc. Além disso, todo este conteúdo de vídeo está sendo consumido em uma gama igualmente ampla de dispositivos de exibição, por exemplo,[009] Video content, such as that used in virtual reality applications, for example), is increasingly being captured with a wide variety of different types of devices, from professional camera systems to smartphones, tablets, video cameras. action, camera add-ons (360 degrees) for smartphones, etc. Furthermore, all of this video content is being consumed on an equally wide range of display devices, for example,

smartphones, TVs, tablets, monitores usados na cabeça (“HMD” - head mounted displays) para RV, etc.smartphones, TVs, tablets, head mounted displays (HMD) for RV, etc.

[010] Todos esses dispositivos têm propriedades específicas em relação às razões de aspecto nativas e/ou suportadas do conteúdo do vídeo. Para capturar dispositivos, isso é definido principalmente pelo tamanho e formato do chip do sensor de vídeo, enquanto para exibir dispositivos, o tamanho e a forma do monitor determinam a razão de aspecto ideal do conteúdo de vídeo a ser exibido no dispositivo.[010] All of these devices have specific properties regarding the native and/or supported aspect ratios of the video content. For capturing devices, this is primarily defined by the size and shape of the video sensor chip, while for displaying devices, the size and shape of the monitor determines the optimal aspect ratio of the video content to be displayed on the device.

[011] O resultado é que muitas vezes as razões de aspecto do conteúdo do vídeo e do dispositivo no qual o conteúdo é exibido não correspondem, especialmente com mais e mais conteúdos gerados pelo usuário (“UGC” - User Generated Content) sendo capturados pelos consumidores em uma miríade de dispositivos.[011] The result is that often the aspect ratios of the video content and the device on which the content is displayed do not match, especially with more and more User Generated Content (“UGC”) being captured by the consumers on a myriad of devices.

[012] Para evitar que uma grande parte do monitor não seja utilizada ou, por outro lado, que parte da imagem do vídeo seja “cortada”, uma conversão da razão de aspecto (“upscaling”) pode ser aplicada à imagem do vídeo. No entanto, quando feito da maneira mais direta por meio de estiramento linear ou compressão de uma (ou mais) dimensões, isso geralmente resulta em uma distorção indesejável da imagem.[012] To prevent a large part of the monitor from being unused or otherwise “cropping” part of the video image, an aspect ratio conversion (“upscaling”) can be applied to the video image. However, when done most directly by linearly stretching or compressing one (or more) dimensions, this often results in undesirable image distortion.

[013] Para resolver este problema de distorção da imagem, foram desenvolvidos, nos últimos anos, algoritmos de upscaling de vídeo “inteligentes” mais avançados, que aplicam um remapeamento não uniforme à imagem que leva em conta as características de diferentes partes da imagem de vídeo, por exemplo, fazendo uma distinção entre o primeiro plano e o plano de fundo, entre partes “centrais” e “periféricas” e/ou entre “objetos” e “texturas”. Essas distinções podem ser feitas com base em parâmetros visuais puros, como, por exemplo, contraste local, mas também com base em algoritmos de análise mais avançados baseados em Inteligência Artificial (IA)/aprendizagem de máquina, por exemplo, reconhecimento de objetos como “pessoa” ou “carro”.[013] To solve this image distortion problem, more advanced "smart" video upscaling algorithms have been developed in recent years, which apply a non-uniform remapping to the image that takes into account the characteristics of different parts of the image. video, for example, making a distinction between foreground and background, between “centers” and “peripheral” parts, and/or between “objects” and “textures”. These distinctions can be made based on pure visual parameters such as local contrast, but also based on more advanced analysis algorithms based on Artificial Intelligence (AI)/machine learning, eg object recognition such as " person” or “car”.

[014] A análise de imagens necessária para realizar esse upscaling de vídeo “inteligente” é computacionalmente intensiva, e para análises baseadas em IA, ela também requer uma base de dados de aprendizagem bastante grande.[014] The image analysis required to perform this “smart” video upscaling is computationally intensive, and for AI-based analyses, it also requires a fairly large learning database.

[015] Por esse motivo, o algoritmo baseado em IA não é, de preferência, executado diretamente no dispositivo do usuário final, mas em uma rede de computador distribuída (remota). Essa rede pode ser “a nuvem” ou alguma rede de computador definida. Isso também tem a vantagem de que o algoritmo de IA pode se beneficiar do feedback de muitos usuários para, ao longo do tempo, melhorar a qualidade subjetiva do upscaling inteligente.[015] For this reason, the AI-based algorithm is preferably not run directly on the end-user device, but on a distributed (remote) computer network. This network can be “the cloud” or some defined computer network. This also has the advantage that the AI algorithm can benefit from feedback from many users to, over time, improve the subjective quality of intelligent upscaling.

[016] A MPEG iniciou recentemente uma nova atividade de padronização no “Network-Based Media Processing” (“NBMP”) que tem como objetivo possibilitar a análise distribuída e o processamento de conteúdo de mídia, como o upscaling inteligente descrito acima. Esta atividade faz parte do novo padrão MPEG-I para mídia imersiva (VR, AR, MR).[016] MPEG has recently started a new standardization activity in “Network-Based Media Processing” (“NBMP”) which aims to enable distributed analysis and processing of media content such as the intelligent upscaling described above. This activity is part of the new MPEG-I standard for immersive media (VR, AR, MR).

[017] No entanto, embora essa adaptação inteligente da razão de aspecto possa muitas vezes fornecer uma melhor experiência ao usuário pela adaptação do vídeo apresentado à razão de aspecto específica, a abordagem pode, por si só, não fornecer uma experiência de uso ideal.[017] However, although this intelligent aspect ratio adaptation can often provide a better user experience by adapting the presented video to the specific aspect ratio, the approach alone may not provide an optimal usage experience.

[018] Assim, seria vantajosa uma abordagem melhorada para o processamento de dados audiovisuais para uma cena. Em particular, seria vantajosa uma abordagem que possibilite uma operação aprimorada, maior flexibilidade, complexidade reduzida, implementação facilitada, uma experiência de uso aprimorada, uma percepção de cena mais consistente, uma experiência de realidade virtual aprimorada e/ou um desempenho e/ou uma operação melhores.[018] Thus, an improved approach for processing audiovisual data for a scene would be advantageous. In particular, an approach that enables improved operation, greater flexibility, reduced complexity, easier implementation, an improved user experience, a more consistent scene perception, an improved virtual reality experience, and/or performance and/or a operation better.

SUMMARY OF THE INVENTION

[019] Consequentemente, a invenção busca, de preferência, mitigar, aliviar ou eliminar uma ou mais das desvantagens mencionadas acima, individualmente ou em qualquer combinação.[019] Consequently, the invention preferably seeks to mitigate, alleviate or eliminate one or more of the above mentioned disadvantages, individually or in any combination.

[020] De acordo com um aspecto da invenção, existe um aparelho para o processamento de dados audiovisuais para uma cena, sendo que o aparelho compreende: um receptor para recepção de dados audiovisuais para a cena, sendo que os dados audiovisuais compreendem dados de áudio para a cena compreendendo uma pluralidade de elementos de áudio e dados de imagem para pelo menos uma primeira imagem da cena, sendo que a primeira imagem tem uma primeira razão de aspecto; um remapeador de imagens para executar um mapeamento não uniforme dependente de conteúdo da primeira imagem para uma segunda imagem com uma segunda razão de aspecto, sendo que a segunda razão de aspecto é diferente da primeira razão de aspecto, e o remapeador de imagens é disposto de modo a gerar dados de mapeamento que descrevem o mapeamento não uniforme dependente de conteúdo; e um remapeador de áudio disposto de modo a substituir um primeiro elemento de áudio da pluralidade de elementos de áudio por um segundo elemento de áudio gerado pela modificação de uma propriedade espacial para o primeiro elemento de áudio em resposta aos dados de mapeamento.[020] According to an aspect of the invention, there is an apparatus for processing audiovisual data for a scene, the apparatus comprising: a receiver for receiving audiovisual data for the scene, the audiovisual data comprising audio data for the scene comprising a plurality of audio elements and image data for at least a first image of the scene, the first image having a first aspect ratio; an image remapper to perform content-dependent non-uniform mapping of the first image to a second image with a second aspect ratio, the second aspect ratio being different from the first aspect ratio, and the image remapping is arranged in order to generate mapping data describing content-dependent non-uniform mapping; and an audio remapper arranged to replace a first audio element of the plurality of audio elements with a second audio element generated by modifying a spatial property for the first audio element in response to the mapping data.

[021] Isso pode proporcionar uma experiência de uso aprimorada em muitas modalidades e pode, em muitos cenários, fornecer uma percepção aprimorada e mais consistente de áudio e vídeo, o que tipicamente pode levar a uma experiência mais realista e imersiva. Isso pode fornecer ainda uma implementação prática e de baixa complexidade.[021] This can provide an improved user experience in many modalities and can, in many scenarios, provide an improved and more consistent perception of audio and video, which typically can lead to a more realistic and immersive experience. This can still provide a practical and low-complexity implementation.

[022] Uma percepção melhorada e mais natural da cena pode ser tipicamente alcançada e, em muitos cenários, a interferência e a inconsistência resultantes da representação de cena audiovisual podem ser atenuadas ou reduzidas. A abordagem pode ser particularmente vantajosa para aplicações de Realidade Virtual, VR (incluindo Realidade Aumentada, RA).[022] An improved and more natural perception of the scene can typically be achieved and, in many scenarios, interference and inconsistency resulting from the audiovisual scene representation can be mitigated or reduced. The approach can be particularly advantageous for Virtual Reality, VR (including Augmented Reality, RA) applications.

[023] A abordagem pode, em muitas modalidades, proporcionar desempenho aprimorado ao mesmo tempo em que mantém baixa complexidade e baixo uso de recursos.[023] The approach can, in many modalities, provide improved performance while maintaining low complexity and low resource usage.

[024] Os inventores perceberam que ao mesmo tempo que a adaptação da razão de aspecto adaptável ao conteúdo pode levar a uma melhor adaptação do vídeo renderizado aos meios específicos de exibição de renderização, ela também pode resultar, em algumas situações, em uma experiência geral do usuário degradada devido à adaptação, resultando em uma potencial discrepância entre as percepções espaciais do áudio e do vídeo. Além disso, os inventores perceberam que uma abordagem de uma adaptação predeterminada do áudio para corresponder aos meios de exibição específicos e à razão de aspecto tenderá a resultar em resultados abaixo do ideal. Os inventores perceberam que a percepção geral do usuário aprimorada, e especificamente uma abordagem mais consistente,[024] The inventors realized that while adapting the adaptive aspect ratio to the content can lead to better adaptation of the rendered video to the specific rendering display media, it can also result, in some situations, in an overall experience degraded due to adaptation, resulting in a potential discrepancy between the spatial perceptions of audio and video. Furthermore, the inventors have realized that an approach of pre-determined tailoring the audio to match the specific display media and aspect ratio will tend to result in sub-optimal results. The inventors realized that improved overall user perception, and specifically a more consistent approach,

pode ser obtida mediante aplicação de um remapeamento ao áudio, em que um remapeador de imagens gera dados de mapeamento que descrevem o remapeamento específico realizado, e o remapeamento de áudio é adaptado com base nesses dados de mapeamento.it can be achieved by applying a remapping to the audio, where an image remapper generates mapping data that describes the specific remapping performed, and the audio remapping is adapted based on that mapping data.

[025] O mapeamento não uniforme dependente de conteúdo pode ser um mapeamento não linear que é adaptado em resposta ao conteúdo da primeira imagem. Os dados de mapeamento podem indicar como diferentes segmentos de imagem se deslocaram da primeira para a segunda imagem. O deslocamento pode ser, por exemplo, um deslocamento absoluto ou um deslocamento relativo entre diferentes segmentos/posições/pixels da imagem. O mapeamento não uniforme dependente de conteúdo pode ser um mapeamento bidimensional das posições da primeira imagem para as posições na segunda imagem (para pelo menos algumas posições). O mapeamento bidimensional pode estar no plano de exibição, e as posições podem ser posições do plano de exibição. O mapeamento não uniforme dependente de conteúdo pode ser uma razão de aspecto da imagem que altera o mapeamento não uniforme dependente de conteúdo.[025] The content-dependent non-uniform mapping can be a non-linear mapping that is adapted in response to the content of the first image. Mapping data can indicate how different image segments have moved from the first to the second image. The offset can be, for example, an absolute offset or a relative offset between different image segments/positions/pixels. Content-dependent non-uniform mapping can be a two-dimensional mapping from positions in the first image to positions in the second image (for at least some positions). Two-dimensional mapping can be on the display plane, and positions can be display plane positions. Content-dependent non-uniform mapping can be an image aspect ratio that alters content-dependent non-uniform mapping.

[026] Os dados de mapeamento podem descrever o mapeamento não uniforme dependente de conteúdo mediante descrição de uma relação entre posições na primeira imagem e posições na segunda imagem (para pelo menos algumas posições). As posições na primeira imagem e/ou na segunda imagem podem ser posições bidimensionais no plano de exibição. As posições na primeira imagem e/ou na segunda imagem podem ser posições absolutas e/ou relativas.[026] The mapping data can describe the content-dependent non-uniform mapping by describing a relationship between positions in the first image and positions in the second image (for at least some positions). The positions in the first image and/or in the second image can be two-dimensional positions in the display plane. The positions in the first image and/or in the second image can be absolute and/or relative positions.

[027] O segundo elemento de áudio pode representar o mesmo conteúdo de áudio que o primeiro elemento de áudio, mas com uma propriedade espacial diferente, como uma propriedade de posição e/ou distribuição espacial diferente.[027] The second audio element can represent the same audio content as the first audio element, but with a different spatial property, such as a different position and/or spatial distribution property.

[028] Em muitas modalidades, o aparelho pode compreender uma funcionalidade para renderização da cena com base nos dados de áudio e dados visuais (após modificação pelo remapeador de imagens e pelo remapeador de áudio). Entretanto, em outras modalidades, essa renderização pode ser externa ao aparelho.[028] In many embodiments, the apparatus can comprise a functionality for rendering the scene based on the audio data and visual data (after modification by the image remapper and by the audio remapper). However, in other modalities, this rendering may be external to the device.

[029] Uma razão de aspecto pode ser a razão entre a largura e a altura de uma imagem ou tela.[029] An aspect ratio can be the ratio between the width and height of an image or screen.

[030] De acordo com um recurso opcional da invenção, o remapeador de áudio é disposto de modo a gerar o segundo elemento de áudio mediante modificação de uma propriedade de posição espacial do primeiro elemento de áudio em resposta aos dados de mapeamento.[030] According to an optional feature of the invention, the audio remapper is arranged to generate the second audio element by modifying a spatial position property of the first audio element in response to the mapping data.

[031] Isso pode proporcionar uma experiência de uso e/ou um desempenho particularmente vantajosos em muitas modalidades. Normalmente, isso pode proporcionar uma melhor consistência entre a representação audiovisual da cena.[031] This can provide a particularly beneficial user experience and/or performance in many modalities. This can typically provide better consistency between the audiovisual representation of the scene.

[032] De acordo com um recurso opcional da invenção, o remapeador de áudio é disposto de modo a gerar o segundo elemento de áudio mediante alteração de uma posição espacial para o primeiro elemento de áudio de uma posição correspondente a uma posição de imagem na primeira razão de aspecto para uma posição de imagem na segunda imagem.[032] According to an optional feature of the invention, the audio remapper is arranged to generate the second audio element by changing a spatial position for the first audio element from a position corresponding to an image position in the first aspect ratio for an image position in the second image.

[033] Isso pode proporcionar uma experiência de uso e/ou um desempenho particularmente vantajosos em muitas modalidades.[033] This can provide a particularly beneficial user experience and/or performance in many modalities.

[034] De acordo com um recurso opcional da invenção, o remapeador de áudio é disposto de modo a gerar o segundo elemento de áudio mediante modificação de uma propriedade de distribuição espacial do primeiro elemento de áudio em resposta aos dados de mapeamento.[034] According to an optional feature of the invention, the audio remapper is arranged to generate the second audio element by modifying a spatial distribution property of the first audio element in response to the mapping data.

[035] Isso pode proporcionar uma experiência de uso aprimorada em muitas modalidades e pode fornecer flexibilidade adicional na adaptação do estágio de som para fornecer uma experiência compatível com a saída visual fornecida. A propriedade de distribuição espacial pode ser indicativa de um grau de tamanho físico ou percebido, indicando a quantidade de área que um objeto audiovisual cobre da visualização do usuário, exibição e/ou faixa de direções de chegada de ondas de pressão sonora de entrada. Uma indicação de quão maior o elemento de som é, ou deveria ser quando renderizado, do que uma fonte pontual, sua difusão. Em diferentes modalidades, uma medida adequada para a distribuição espacial pode ser, por exemplo, dimensão(ões) absoluta(s), ângulo(s), raio(s).[035] This can provide an improved user experience in many modalities and can provide additional flexibility in adapting the sound stage to provide an experience compatible with the visual output provided. The spatial distribution property can be indicative of a degree of physical or perceived size, indicating the amount of area that an audiovisual object covers from the user's viewing, display, and/or range of incoming sound pressure wave arrival directions. An indication of how much larger the sound element is, or should be when rendered, than a point source, its diffusion. In different modalities, a suitable measure for the spatial distribution can be, for example, absolute dimension(s), angle(s), radius(s).

[036] De acordo com um recurso opcional da invenção, o remapeador de áudio é ainda disposto de modo a gerar o segundo elemento de áudio mediante modificação da propriedade espacial em resposta a uma propriedade de áudio do primeiro elemento de áudio.[036] According to an optional feature of the invention, the audio remapper is further arranged to generate the second audio element by modifying the spatial property in response to an audio property of the first audio element.

[037] Isso pode fornecer um desempenho e/ou uma experiência de uso aprimorados. A propriedade de áudio pode ser uma propriedade acústica.[037] This can provide improved performance and/or user experience. The audio property can be an acoustic property.

[038] De acordo com um recurso opcional da invenção, a propriedade acústica compreende um grau de distribuição espacial para o primeiro elemento de áudio.[038] According to an optional feature of the invention, the acoustic property comprises a degree of spatial distribution for the first audio element.

[039] Isso pode possibilitar uma adaptação mais precisa da determinação da propriedade espacial modificada.[039] This can enable a more accurate adaptation of the determination of the modified spatial property.

[040] De acordo com um recurso opcional da invenção, o remapeador de áudio é disposto de modo a reduzir uma mudança de posição entre o segundo elemento de áudio e o primeiro elemento de áudio para um grau crescente de distribuição espacial para o primeiro elemento de áudio.[040] According to an optional feature of the invention, the audio remapper is arranged to reduce a change of position between the second audio element and the first audio element to an increasing degree of spatial distribution for the first audio element. audio.

[041] Isso pode proporcionar um desempenho e/ou uma experiência de uso melhorados em muitas modalidades.[041] This can provide improved performance and/or user experience in many modalities.

[042] De acordo com um recurso opcional da invenção, o remapeador de áudio é disposto de modo a selecionar se é desejado aplicar a modificação à propriedade espacial ou não, dependendo do grau de distribuição espacial.[042] According to an optional feature of the invention, the audio remapper is arranged to select whether it is desired to apply the modification to the spatial property or not, depending on the degree of spatial distribution.

[043] Isso pode proporcionar um desempenho e/ou uma experiência de usuário melhorados em muitas modalidades. Em algumas modalidades, o remapeador de áudio pode ser disposto de modo a selecionar se é desejado ou não substituir o primeiro elemento de áudio pelo segundo elemento de áudio, dependendo do grau de distribuição espacial.[043] This can provide improved performance and/or user experience in many modalities. In some embodiments, the audio remapper can be arranged to select whether or not it is desired to replace the first audio element with the second audio element, depending on the degree of spatial distribution.

[044] De acordo com um recurso opcional da invenção, o remapeador de áudio é disposto de modo a modificar a propriedade espacial em resposta a um tipo de áudio do primeiro elemento de áudio.[044] According to an optional feature of the invention, the audio remapper is arranged to modify the spatial property in response to an audio type of the first audio element.

[045] Isso pode proporcionar um desempenho e/ou uma experiência de uso melhorados em muitas modalidades. Os tipos de áudio podem incluir um ou mais dentre o grupo de um canal de áudio, um elemento de áudio ambissônico de ordem superior e um objeto de áudio.[045] This can provide improved performance and/or user experience in many modalities. Audio types can include one or more from an audio channel group, a higher-order ambisonic audio element, and an audio object.

[046] De acordo com um recurso opcional da invenção, o remapeador de áudio é disposto de modo a modificar a propriedade espacial em resposta a se o primeiro elemento de áudio está ou não vinculado a um objeto de imagem na primeira imagem.[046] According to an optional feature of the invention, the audio remapper is arranged to modify the spatial property in response to whether or not the first audio element is linked to an image object in the first image.

[047] Isso pode proporcionar um desempenho e/ou uma experiência de uso melhorados em muitas modalidades.[047] This can provide improved performance and/or user experience in many modalities.

[048] De acordo com um recurso opcional da invenção, o remapeador de áudio é disposto de modo a modificar a propriedade espacial, dependendo se o primeiro elemento de áudio é ou não designado como áudio de plano de fundo.[048] According to an optional feature of the invention, the audio remapper is arranged to modify the spatial property depending on whether or not the first audio element is designated as background audio.

[049] Isso pode proporcionar um desempenho e/ou uma experiência de uso melhorados em muitas modalidades.[049] This can provide improved performance and/or user experience in many modalities.

[050] Em algumas modalidades, o remapeador de áudio pode ser disposto de modo a aplicar uma ampliação espacial não uniforme aos elementos de áudio dentre a pluralidade de elementos de áudio que são canais de áudio.[050] In some embodiments, the audio remapper can be arranged to apply a non-uniform spatial amplification to the audio elements among the plurality of audio elements that are audio channels.

[051] De acordo com um recurso opcional da invenção, o remapeador de áudio é disposto de modo a modificar a propriedade espacial em resposta a uma propriedade de um monitor para renderização da segunda imagem.[051] According to an optional feature of the invention, the audio remapper is arranged to modify the spatial property in response to a property of a monitor for rendering the second image.

[052] Isso pode proporcionar um desempenho e/ou uma experiência de uso melhorados em muitas modalidades. A propriedade do monitor pode ser especificamente um tamanho do monitor.[052] This can provide improved performance and/or user experience in many modalities. The monitor property can be specifically a monitor size.

[053] De acordo com um recurso opcional da invenção, o remapeador de áudio é disposto de modo a modificar a propriedade espacial em resposta a uma posição do espectador em relação a um monitor para renderizar a segunda imagem.[053] According to an optional feature of the invention, the audio remapper is arranged to modify the spatial property in response to a viewer's position in relation to a monitor to render the second image.

[054] Isso pode proporcionar um desempenho e/ou uma experiência de uso melhorados em muitas modalidades. A posição do espectador pode ser uma posição nominal ou presumida do espectador ou pode, por exemplo, ser uma posição do espectador medida e identificada.[054] This can provide improved performance and/or user experience in many modalities. The spectator position can be a nominal or assumed spectator position or it can, for example, be a measured and identified spectator position.

[055] De acordo com um aspecto da invenção, é fornecido um método de processamento de dados audiovisuais para uma cena, sendo que o método compreende: receber dados audiovisuais para a cena, sendo que os dados audiovisuais compreendem dados de áudio para a cena que compreendem uma pluralidade de elementos de áudio e dados de imagem para pelo menos uma primeira imagem da cena, sendo que a primeira imagem tem uma primeira razão de aspecto; executar um mapeamento não uniforme dependente de conteúdo da primeira imagem para uma segunda imagem com uma segunda razão de aspecto, sendo que a segunda razão de aspecto é diferente da primeira razão de aspecto, e o mapeamento não uniforme dependente de conteúdo compreende a geração de dados de mapeamento que descrevem o mapeamento não uniforme dependente de conteúdo; e substituir um primeiro elemento de áudio da pluralidade de elementos de áudio por um segundo elemento de áudio gerado pela modificação de uma propriedade espacial para o primeiro elemento de áudio em resposta aos dados de mapeamento.[055] According to an aspect of the invention, a method of processing audiovisual data for a scene is provided, the method comprising: receiving audiovisual data for the scene, the audiovisual data comprising audio data for the scene that comprise a plurality of audio and image data elements for at least a first image of the scene, the first image having a first aspect ratio; performing a content-dependent non-uniform mapping of the first image to a second image with a second aspect ratio, where the second aspect ratio is different from the first aspect ratio, and the content-dependent non-uniform mapping comprises data generation of mappings that describe content-dependent non-uniform mapping; and replacing a first audio element of the plurality of audio elements with a second audio element generated by modifying a spatial property for the first audio element in response to the mapping data.

[056] Esses e outros aspectos, recursos e vantagens da invenção ficarão evidentes e serão elucidados com referência às uma ou mais modalidades descritas a seguir.[056] These and other aspects, features and advantages of the invention will become evident and will be elucidated with reference to one or more modalities described below.

BRIEF DESCRIPTION OF THE DRAWINGS

[057] As modalidades da invenção serão descritas, apenas a título de exemplo, com referência aos desenhos, nos quais: a Figura 1 ilustra um exemplo de uma disposição de cliente-servidor para fornecer uma experiência de realidade virtual;[057] The embodiments of the invention will be described, by way of example only, with reference to the drawings, in which: Figure 1 illustrates an example of a client-server arrangement to provide a virtual reality experience;

a Figura 2 ilustra um exemplo de elementos de um aparelho de áudio de acordo com algumas modalidades da invenção; a Figura 3 ilustra um exemplo de uma renderização de um aparelho de áudio de acordo com algumas modalidades da invenção; e a Figura 4 ilustra um exemplo de uma renderização de um aparelho de áudio de acordo com algumas modalidades da invenção.Figure 2 illustrates an example of elements of an audio device according to some embodiments of the invention; Figure 3 illustrates an example of a rendering of an audio apparatus according to some embodiments of the invention; and Figure 4 illustrates an example of a rendering of an audio apparatus in accordance with some embodiments of the invention.

DETAILED DESCRIPTION OF SOME MODALITIES OF THE INVENTION

[058] A descrição a seguir enfoca as modalidades da invenção aplicáveis a um sistema de realidade virtual. Entretanto, deve-se considerar que a invenção não se limita a essa aplicação, mas pode ser aplicada a muitos outros sistemas para distribuição, processamento e/ou renderização de dados audiovisuais.[058] The following description focuses on the embodiments of the invention applicable to a virtual reality system. However, it should be considered that the invention is not limited to this application, but can be applied to many other systems for distribution, processing and/or rendering of audiovisual data.

[059] A descrição enfocará adicionalmente o manuseio e tratamento de dados audiovisuais no contexto de abordagens de cliente-servidor apoiadas por uma rede que pode ser especificamente uma rede pública, como a Internet. No entanto, deve-se reconhecer novamente que se trata apenas de uma aplicação exemplificadora dos princípios e abordagens descritos e que estes podem ser utilizados em muitos outros sistemas e aplicações. incluindo, por exemplo, sistemas em que os dados audiovisuais são fornecidos sob a forma de um fluxo de dados dedicado transmitido diretamente para um dispositivo de processamento/renderização ou modalidades em que o próprio dispositivo de renderização recupera ou gera os dados audiovisuais.[059] The description will additionally focus on the handling and processing of audiovisual data in the context of client-server approaches supported by a network that can be specifically a public network, such as the Internet. However, it should be recognized again that this is only an exemplary application of the principles and approaches described and that these can be used in many other systems and applications. including, for example, systems where the audiovisual data is provided in the form of a dedicated data stream transmitted directly to a rendering/rendering device or modalities where the rendering device itself retrieves or generates the audiovisual data.

[060] As experiências virtuais (incluindo aumentadas) que possibilitam que um usuário se mova em um mundo virtual estão se tornando cada vez mais populares e os serviços estão sendo desenvolvidos para satisfazer tal demanda. Em muitas dessas abordagens, dados visuais e de áudio podem ser gerados dinamicamente para refletir a pose atual de um usuário (ou observador).[060] Virtual (including augmented) experiences that enable a user to move in a virtual world are becoming increasingly popular and services are being developed to satisfy such demand. In many of these approaches, visual and audio data can be dynamically generated to reflect the current pose of a user (or viewer).

[061] No campo, os termos “posicionamento” e “pose” são usados como um termo comum para posição e/ou direção/orientação. A combinação da posição e da direção/orientação, por exemplo de um objeto, uma câmera, uma cabeça ou uma vista, pode ser chamada de uma pose ou posicionamento. Dessa forma, uma indicação de posicionamento ou pose pode compreender seis valores/componentes/graus de liberdade com cada valor/componente descrevendo tipicamente uma propriedade individual da posição/localização ou da orientação/direção do objeto correspondente. Naturalmente, em muitas situações, um posicionamento ou uma pose podem ser considerados ou representados com menos componentes, por exemplo se um ou mais componentes forem considerados fixos ou irrelevantes (por exemplo se todos os objetos forem considerados como estando na mesma altura e tiverem uma orientação horizontal, quatro componentes podem fornecer uma representação completa da pose de um objeto). No texto a seguir, o termo “pose” é usado para se referir a uma posição e/ou orientação que pode ser representada por um a seis valores (correspondentes ao número máximo de graus de liberdade possíveis).[061] In the field, the terms "positioning" and "pose" are used as a common term for position and/or direction/orientation. The combination of position and direction/orientation, for example of an object, a camera, a head or a view, can be called a pose or placement. Thus, an indication of positioning or pose can comprise six values/components/degrees of freedom with each value/component typically describing an individual property of the corresponding object's position/location or orientation/direction. Of course, in many situations a placement or pose can be considered or represented with fewer components, for example if one or more components are considered fixed or irrelevant (for example if all objects are considered to be at the same height and have an orientation horizontally, four components can provide a complete representation of an object's pose). In the following text, the term “pose” is used to refer to a position and/or orientation that can be represented by one to six values (corresponding to the maximum number of possible degrees of freedom).

[062] Tipicamente, a aplicação de realidade virtual gera uma saída tridimensional na forma de imagens de visualização separadas para os olhos esquerdo e direito. Essas podem então ser apresentadas ao usuário por meios adequados, como, por exemplo, indicações individuais de olho esquerdo e direito de um headset de VR. Em outras modalidades, uma ou mais imagens de visualização podem, por exemplo, ser apresentadas em uma exibição autoestereoscópica ou, de fato, em algumas modalidades, apenas uma única imagem bidimensional pode ser gerada (por exemplo, com o uso de uma exibição bidimensional convencional).[062] Typically, the virtual reality application generates three-dimensional output in the form of separate visualization images for the left and right eyes. These can then be presented to the user by appropriate means, such as individual left and right eye indications from a VR headset. In other modalities, one or more preview images can, for example, be presented in an autostereoscopic display, or indeed, in some modalities, only a single two-dimensional image can be generated (for example, using a conventional two-dimensional display ).

[063] De modo similar, para uma pose de determinado usuário/observador/ouvinte, uma representação de áudio da cena pode ser fornecida. A cena de áudio é tipicamente renderizada para fornecer uma experiência espacial onde as fontes de áudio são entendidas como originadas de posições desejadas. Como as fontes de áudio podem ser estáticas na cena, as alterações na pose do usuário resultarão em uma alteração na posição relativa da fonte de áudio em relação à pose do usuário. Consequentemente, a percepção espacial da fonte de áudio deve mudar para refletir a nova posição em relação ao usuário. A renderização de áudio pode, consequentemente, ser adaptada de acordo com a pose do usuário.[063] Similarly, for a pose of a given user/viewer/listener, an audio representation of the scene can be provided. The audio scene is typically rendered to provide a spatial experience where audio sources are understood to originate from desired positions. As audio sources can be static in the scene, changes in the user's pose will result in a change in the relative position of the audio source in relation to the user's pose. Consequently, the spatial perception of the audio source must change to reflect the new position in relation to the user. The audio rendering can therefore be adapted according to the user's pose.

[064] Em muitas modalidades, a renderização de áudio é uma renderização binaural que usa funções de transferência relacionadas à cabeça (HRTFs - Head Related Transfer Functions) ou Respostas de Impulso de Ambiente Binaural (BRIRs - Binaural Room Impulse Responses) (ou similares) para fornecer o efeito espacial desejado para um usuário que usa um fone de ouvido. No entanto, deve-se considerar que, em alguns sistemas, o áudio pode ser emitido com o uso de um sistema de alto-falantes e que os sinais para cada alto-falante podem ser transmitidos de forma que o efeito global no usuário corresponda à experiência espacial pretendida.[064] In many embodiments, audio rendering is a binaural rendering that uses Head Related Transfer Functions (HRTFs) or Binaural Room Impulse Responses (BRIRs) (or similar) to provide the desired spatial effect for a user wearing a headset. However, it should be noted that, in some systems, audio can be output using a speaker system and that the signals for each speaker can be transmitted in such a way that the overall effect on the user matches the intended spatial experience.

[065] A entrada da pose do observador ou usuário pode ser determinada de diferentes maneiras em diferentes aplicações. Em muitas modalidades, o movimento físico de um usuário pode ser rastreado diretamente. Por exemplo, uma câmera inspecionando uma área de usuário pode detectar e rastrear a cabeça do usuário (ou mesmo seus olhos). Em muitas modalidades, o usuário pode usar um headset de VR que pode ser rastreado por meios externos e/ou internos. Por exemplo, o headset pode incluir acelerômetros e giroscópios que fornecem informações sobre o movimento e a rotação do headset e, portanto, da cabeça. Em alguns exemplos, o headset de VR pode transmitir sinais ou incluir identificadores (por exemplo, visuais) que possibilitam que um sensor externo determine a posição do headset de VR.[065] The input of the pose of the observer or user can be determined in different ways in different applications. In many modalities, a user's physical movement can be tracked directly. For example, a camera inspecting a user's area can detect and track the user's head (or even their eyes). In many modalities, the user can wear a VR headset that can be tracked by external and/or internal means. For example, the headset may include accelerometers and gyroscopes that provide information about the movement and rotation of the headset and therefore the head. In some instances, the VR headset may transmit signals or include identifiers (eg, visuals) that allow an external sensor to determine the position of the VR headset.

[066] Em alguns sistemas, a pose de observador pode ser fornecida por meios manuais, por exemplo, quando o usuário controla manualmente um joystick ou entrada manual similar. Por exemplo, o usuário pode mover manualmente o observador virtual pela cena virtual mediante o controle de um primeiro joystick analógico com uma mão e o controle manual da direção na qual o observador virtual está olhando ao mover manualmente uma segunda alavanca analógica com a outra mão.[066] In some systems, the observer pose can be provided by manual means, for example, when the user manually controls a joystick or similar manual input. For example, the user can manually move the virtual viewer around the virtual scene by controlling a first analog joystick with one hand and manually controlling the direction in which the virtual viewer is looking by manually moving a second analog stick with the other hand.

[067] Em alguns sistemas, o aplicativo de RV pode ser implementado e executado remotamente a partir do espectador. Por exemplo, um dispositivo local para o usuário pode detectar/receber movimento/apresentar dados que são transmitidos para um dispositivo remoto que processa os dados para gerar a pose do espectador. O dispositivo remoto pode então gerar imagens de visualização adequadas para a pose do espectador com base nos dados da cena que descrevem a cena. As imagens de visualização são então transmitidas para o dispositivo local para o observador onde são apresentadas. Por exemplo, o dispositivo remoto pode gerar diretamente uma transmissão de vídeo (tipicamente uma transmissão de vídeo estéreo/3D) que é apresentada diretamente pelo dispositivo local. De modo similar, o dispositivo remoto pode gerar uma cena de áudio refletindo o ambiente de áudio virtual. Isso pode, em muitas modalidades, ser feito mediante a geração de sinais de áudio que correspondem à posição relativa de diferentes fontes de áudio no ambiente de áudio virtual, por exemplo, aplicando-se processamento binaural aos componentes de áudio individuais que correspondem à posição atual destes em relação à pose da cabeça. Assim, nesse exemplo, o dispositivo local não pode executar nenhum processamento de VR, exceto para transmitir dados de movimento e apresentar dados de vídeo e áudio recebidos.[067] On some systems, the VR application can be deployed and executed remotely from the viewer. For example, a device local to the user can detect/receive motion/present data that is transmitted to a remote device that processes the data to generate the pose of the viewer. The remote device can then generate visualization images suitable for the viewer's pose based on scene data describing the scene. The preview images are then transmitted to the local device to the viewer where they are presented. For example, the remote device can directly generate a video stream (typically a stereo/3D video stream) that is directly presented by the local device. Similarly, the remote device can generate an audio scene reflecting the virtual audio environment. This can, in many modalities, be done by generating audio signals that correspond to the relative position of different audio sources in the virtual audio environment, for example by applying binaural processing to the individual audio components that correspond to the current position. of these in relation to the pose of the head. So, in this example, the local device cannot perform any VR processing except to transmit motion data and present received video and audio data.

[068] Em muitos sistemas, a funcionalidade pode ser distribuída em um dispositivo local e um dispositivo remoto. Por exemplo, o dispositivo local pode processar dados de entrada e de sensor recebidos para gerar poses de observador que são transmitidas continuamente para o dispositivo de VR remoto. O dispositivo de RV remoto pode gerar então as imagens de vista correspondentes e transmiti- las ao dispositivo local para apresentação. Em outros sistemas, o dispositivo de RV remoto pode não gerar diretamente as imagens de vista, mas pode selecionar dados de cena relevantes e transmiti-los para o dispositivo local que poderá então gerar as imagens de vista que serão apresentadas. Por exemplo, o dispositivo de RV remoto pode identificar o ponto de captura mais próximo e extrair os dados de cena correspondentes (por exemplo, dados de imagem esférica e de profundidade a partir do ponto de captura) e transmiti-los ao dispositivo local. O dispositivo local pode então processar os dados de cena recebidos para gerar as imagens para a atual pose de visualização específica.[068] On many systems, functionality can be distributed across a local device and a remote device. For example, the local device can process incoming sensor and input data to generate observer poses that are continuously transmitted to the remote VR device. The remote VR device can then generate the corresponding view images and transmit them to the local device for presentation. In other systems, the remote VR device may not directly generate the view images, but may select relevant scene data and transmit it to the local device which can then generate the view images that will be presented. For example, the remote VR device can identify the closest capture point and extract the corresponding scene data (eg spherical and depth image data from the capture point) and transmit it to the local device. The local device can then process the received scene data to generate the images for the current specific viewing pose.

[069] Da mesma forma, o dispositivo de RV remoto pode gerar dados de áudio que representam uma cena de áudio por vários elementos de áudio, que podem ser diferentes componentes de áudio, objetos de áudio, sinais de áudio, sinais de canal de áudio, etc., que correspondem a diferentes fontes de áudio na cena de áudio. Para alguns ou todos esses elementos de áudio, os dados audiovisuais podem, em algumas modalidades, compreender informações de posição indicativas da posição das fontes de áudio (que podem, por exemplo, mudar dinamicamente para objetos em movimento), bem como potencialmente outros dados espaciais ou metadados acústicos (por exemplo, como é a difusão ou reverberação de uma determinada fonte de áudio). O dispositivo de VR local pode então processar esses sinais de forma adequada, por exemplo, mediante a aplicação de um processamento binaural adequado que reflita a posição relativa das fontes de áudio para os componentes de áudio.[069] Likewise, the remote VR device can generate audio data representing an audio scene by various audio elements, which can be different audio components, audio objects, audio signals, audio channel signals , etc., which correspond to different audio sources in the audio scene. For some or all of these audio elements, audiovisual data can, in some modalities, comprise positional information indicative of the position of audio sources (which can, for example, dynamically change to moving objects) as well as potentially other spatial data or acoustic metadata (for example, how is the broadcast or reverberation of a particular audio source). The local VR device can then process these signals properly, for example, by applying suitable binaural processing that reflects the relative position of the audio sources to the audio components.

[070] A Figura 1 ilustra o exemplo de um sistema de RV em que um servidor remoto 101 se comunica com um dispositivo de cliente 103 através, por exemplo, de uma rede 105, como a Internet. O servidor remoto 101 pode ser disposto de modo a suportar simultaneamente um número potencialmente grande de dispositivos de cliente 103.[070] Figure 1 illustrates the example of a VR system in which a remote server 101 communicates with a client device 103 through, for example, a network 105, such as the Internet. Remote server 101 can be arranged to simultaneously support a potentially large number of client devices 103.

[071] Tal abordagem pode, em muitos cenários, proporcionar um melhor acordo, por exemplo, entre a complexidade e as exigências de recursos para diferentes dispositivos, requisitos de comunicação etc. por exemplo, a pose do observador e os dados de cena correspondentes podem ser transmitidos com intervalos maiores com o dispositivo local que processa os dados da pose do observador e da cena recebidos localmente para proporcionar uma experiência em tempo real com pouco atraso. Isso pode, por exemplo, reduzir substancialmente a largura de banda de comunicação necessária, ao mesmo tempo em que proporciona uma experiência de atraso baixo e ao mesmo tempo possibilita que os dados de cena sejam armazenados, gerados e mantidos centralmente. Pode, por exemplo, ser adequado para aplicações em que é fornecida uma experiência de VR a uma pluralidade de dispositivos remotos.[071] Such an approach can, in many scenarios, provide a better compromise, for example, between complexity and resource requirements for different devices, communication requirements, etc. for example, observer pose and corresponding scene data can be transmitted at longer intervals with the local device that processes locally received observer pose and scene data to provide a real-time experience with little delay. This can, for example, substantially reduce the required communication bandwidth, while providing a low-delay experience and at the same time enabling scene data to be centrally stored, generated and maintained. It may, for example, be suitable for applications where a VR experience is provided to a plurality of remote devices.

[072] Em algumas modalidades, o servidor 101 pode gerar um fluxo contínuo de dados audiovisuais que compreende um fluxo de vídeo em tempo real e um fluxo de áudio em tempo real associado que corresponde à postura atual dos espectadores (conforme determinado a partir dos dados recebidos do cliente 103). Este fluxo audiovisual em tempo real pode ser gerado de modo que possa ser renderizado diretamente pelo cliente 103 e especificamente nenhum processamento de pose ou deslocamento de ponto de vista ou de ambiente de realidade virtual pode, em algumas modalidades, ser executado ou exigido no cliente 103. Isso pode ser adequado para muitos dispositivos de baixo processamento de recursos, como, por exemplo, muitos dispositivos móveis ou dispositivos de headset de baixo recurso. O processamento necessário no cliente pode ser reduzido ao mínimo.[072] In some embodiments, the server 101 can generate a continuous stream of audiovisual data that comprises a real-time video stream and an associated real-time audio stream that corresponds to the viewers' current posture (as determined from the data received from the customer 103). This real-time audiovisual stream can be generated so that it can be rendered directly by the client 103 and specifically no posing or point of view or virtual reality environment displacement processing can, in some modalities, be performed or required by the client 103 This can be suitable for many low-end processing devices, such as many low-end mobile devices or headset devices. The processing required at the client can be kept to a minimum.

[073] Tal abordagem pode também ser particularmente adequada para cenários em que a experiência é uma experiência compartilhada, na qual uma pluralidade de pessoas se interessa por ter a mesma percepção de uma cena.[073] Such an approach may also be particularly suitable for scenarios where the experience is a shared experience, in which a plurality of people are interested in having the same perception of a scene.

Esse cenário é típico na transmissão, incluindo, por exemplo, transmissão 3D de um evento esportivo. Esta abordagem não se limita às transmissões audiovisuais tradicionais, mas também pode ser utilizada em sistemas em que a pose de visualização é dinamicamente determinada e variável. A experiência compartilhada também pode ser aplicável a algumas experiências e serviços de RV.This scenario is typical in broadcast, including, for example, 3D broadcast of a sporting event. This approach is not limited to traditional audiovisual broadcasts, but can also be used in systems where the viewing pose is dynamically determined and variable. Shared experience may also be applicable to some VR experiences and services.

[074] Por exemplo, para uma transmissão de esporte eletrônico (ou eSport), o jogador pode controlar o movimento em um ambiente de realidade virtual com os dados audiovisuais resultantes para as poses específicas sendo também distribuídos pelo servidor 101 para um grande número de clientes passivos 103. Um usuário no cliente passivo individual pode, em tal modalidade, ver essencialmente o esporte eletrônico através dos olhos do jogador.[074] For example, for an electronic sport (or eSport) broadcast, the player can control movement in a virtual reality environment with the resulting audiovisual data for the specific poses being also distributed by server 101 to a large number of clients passive 103. A user on the individual passive client can, in such a modality, see essentially the electronic sport through the player's eyes.

[075] Por exemplo, para um esporte eletrônico em que os jogadores estão jogando um jogo de tiro em primeira pessoa, o jogador individual está controlando seu avatar e se movendo em uma cena na qual a batalha ocorre. Outros jogadores poderão ver o avatar, mas o próprio jogador não vê seu próprio avatar (ou pelo menos não vê o avatar todo), mas vê a visualização da cena que seu avatar experimentaria (isto é, que uma pessoa na cena virtual veria desse ponto de vista). Os esportes eletrônicos tornaram-se recentemente um esporte muito popular, com eventos muito grandes atraindo dezenas de milhares de espectadores que podem ver diretamente o jogo em grandes exposições no local onde ele está sendo jogado. As exibições podem, por exemplo, apresentar uma visão geral da cena com uma indicação da posição dos jogadores individuais e com as visualizações dos jogadores individuais.[075] For example, for an electronic sport where players are playing a first-person shooter, the single player is controlling their avatar and moving into a scene in which the battle takes place. Other players will be able to see the avatar, but the player himself doesn't see his own avatar (or at least doesn't see the entire avatar), but sees the view of the scene that his avatar would experience (that is, what a person in the virtual scene would see from that point by sight). Electronic sports have recently become a very popular sport, with very large events attracting tens of thousands of spectators who can directly see the game in large exhibitions where it is being played. Views can, for example, present an overview of the scene with an indication of the position of individual players and with views of individual players.

[076] Além disso, esses eventos de esporte eletrônico também podem, muitas vezes, ser transmitidos para espectadores que não estão no local, e, muitas vezes, podem ser transmitidos para um grande número de espectadores, o que, em alguns casos, pode ser centenas de milhares ou até milhões de espectadores assistindo em tempo real. Nesses casos, a visualização gerada para um dos jogadores que dependem da entrada e do controle daquele jogador pode resultar em imagens de visualização (sequência de vídeo) que não são apenas apresentadas ao jogador, mas também são transmitidas ao vivo para um grande número de espectadores separados em diferentes locais e circunstâncias, e com o uso de diferentes equipamentos para visualização.[076] In addition, these e-sports events can also often be broadcast to viewers who are not on site, and can often be broadcast to a large number of viewers, which, in some cases, may be hundreds of thousands or even millions of viewers watching in real time. In such cases, the preview generated for one of the players that depends on that player's input and control can result in preview images (video footage) that are not only presented to the player, but are also streamed live to a large number of viewers separated in different places and circumstances, and with the use of different equipment for visualization.

[077] Um problema com a comprovação de conteúdo para vários, e especialmente para um grande número de clientes, é que as características dos clientes, e especificamente os meios de renderização, podem variar substancialmente para diferentes dispositivos e podem não ser conhecidas no servidor. Consequentemente, em muitas abordagens, o servidor 101 gerará o fluxo de dados audiovisuais para um determinado dispositivo nominal ou padronizado. Especificamente, o fluxo de dados pode ser gerado para um determinado monitor de renderização nominal. Tais considerações podem incluir a resolução, a profundidade de cor, a razão de aspecto, o tamanho, etc. Se o método de renderização local não corresponder às características presumidas, uma adaptação poderá ser realizada localmente no dispositivo 103.[077] One problem with proving content to many, and especially to a large number of clients, is that the characteristics of the clients, and specifically the means of rendering, can vary substantially for different devices and may not be known on the server. Consequently, in many approaches, the server 101 will generate the audiovisual data stream for a particular nominal or standardized device. Specifically, the data stream can be generated for a given nominal render monitor. Such considerations can include resolution, color depth, aspect ratio, size, etc. If the local rendering method does not match the assumed characteristics, an adaptation can be performed locally on the device 103.

[078] Em particular, a adaptação da razão de aspecto para corresponder à exibição específica utilizada no cliente individual pode ter um impacto significativo na experiência de uso, pois isso afeta muito diretamente a apresentação visual. Por exemplo, o uso da razão de aspecto errada pode resultar em barras pretas ao redor da imagem, e muitas adaptações de aspecto de baixa complexidade resultam em distorções geométricas significativas.[078] In particular, adapting the aspect ratio to match the specific display used on the individual client can have a significant impact on the usage experience as this very directly affects the visual presentation. For example, using the wrong aspect ratio can result in black bars around the image, and many low-complexity aspect adjustments result in significant geometric distortions.

[079] A Figura 2 ilustra um exemplo de um dispositivo de cliente 103 que é disposto de modo a adaptar um fluxo de dados audiovisuais recebido para corresponder à razão de aspecto específica de um monitor no qual os dados visuais serão apresentados.[079] Figure 2 illustrates an example of a client device 103 that is arranged to adapt a received audiovisual data stream to match the specific aspect ratio of a monitor on which the visual data will be presented.

[080] O dispositivo de cliente 103 compreende um receptor 201, que está disposto para receber dados audiovisuais para uma cena com os dados audiovisuais compreendendo dados que descrevem os aspectos visuais e sonoros da cena. Os dados audiovisuais compreendem especificamente dados de imagem para pelo menos uma primeira imagem da cena, e especificamente nas modalidades descritas, compreendem um fluxo de vídeo que fornece imagens sob a forma de quadros de uma sequência de vídeo. A primeira imagem tem uma determinada razão de aspecto (ou seja, uma determinada razão de aspecto entre a largura e a altura da imagem). Em muitas modalidades, uma transmissão de vídeo 3D pode ser fornecida com quadros para as imagens dos olhos esquerdo e direito correspondentes a uma pose de visualização específica para a cena.[080] The client device 103 comprises a receiver 201, which is arranged to receive audiovisual data for a scene with the audiovisual data comprising data describing the visual and sonic aspects of the scene. The audiovisual data specifically comprises image data for at least a first image of the scene, and specifically in the described embodiments comprises a video stream which provides images in the form of frames of a video sequence. The first image has a certain aspect ratio (that is, a certain aspect ratio between the width and height of the image). In many modalities, a 3D video stream can be provided with frames for the left and right eye images corresponding to a specific viewing pose for the scene.

[081] Além disso, os dados audiovisuais compreendem dados de áudio para a cena, sendo que os dados de áudio descrevem vários elementos de áudio para a cena. Por exemplo, dados de áudio que compreendem diferentes elementos de áudio sob a forma de canais de áudio, objetos de áudio, canal de áudio, ambissônicos de ordem superior, etc. Em algumas modalidades, os elementos de áudio dos dados de áudio podem ser todos do mesmo tipo, mas, em muitas modalidades, a cena de áudio pode representar a cena de áudio pelos dados de áudio que compreendem diferentes tipos de elementos de áudio para diferentes fontes de áudio.[081] In addition, audiovisual data comprises audio data for the scene, with the audio data describing various audio elements for the scene. For example, audio data comprising different audio elements in the form of audio channels, audio objects, audio channel, higher order ambisonics, etc. In some modalities the audio elements of the audio data can all be the same type, but in many modalities the audio scene can represent the audio scene by the audio data comprising different types of audio elements for different sources of audio.

[082] Dessa forma, em muitas modalidades, os dados de áudio recebidos descrevem uma cena de áudio que corresponde à cena visualmente representada pelos dados de vídeo por vários elementos de áudio diferentes, que podem ser tipos diferentes de elementos de áudio.[082] Thus, in many embodiments, the received audio data describes an audio scene that corresponds to the scene visually represented by the video data by several different audio elements, which can be different types of audio elements.

[083] Por exemplo, alguns elementos de áudio podem corresponder a uma única fonte de áudio com uma posição espacial específica e bem definida na cena (ou seja, potencialmente uma posição espacial virtual em uma cena virtual). Essa fonte de áudio pode, por exemplo, ser representada por um objeto de áudio específico e individual com dados de posição associados. Por exemplo, um objeto de áudio pode ser fornecido para cada instrumento em uma orquestra e/ou para cada pessoa em uma determinada cena. Outros elementos de áudio podem corresponder a uma combinação de diferentes fontes de áudio e, tipicamente, podem ter posições espaciais não tão definidas. Por exemplo, pode ser fornecido um sinal de ambiente de áudio de plano de fundo que representa o plano de fundo geral ou o som ambiente na cena. Esse sinal de áudio pode ser mais difuso e distribuído do que um objeto de áudio que representa diretamente uma única fonte de áudio.[083] For example, some audio elements may correspond to a single audio source with a specific and well-defined spatial position in the scene (ie potentially a virtual spatial position in a virtual scene). This audio source can, for example, be represented by a specific and individual audio object with associated position data. For example, an audio object can be provided for each instrument in an orchestra and/or for each person in a given scene. Other audio elements may correspond to a combination of different audio sources and typically may have less defined spatial positions. For example, a background audio ambient signal can be provided that represents the overall background or ambient sound in the scene. This audio signal can be more diffused and distributed than an audio object that directly represents a single audio source.

[084] O receptor 201 é acoplado a um remapeador de imagens 203 que recebe os dados da imagem, ou seja, recebe dados de imagem para pelo menos uma imagem, mas tipicamente para um grande número de quadros de uma sequência de vídeo. O remapeador de imagens 203 é disposto de modo a executar um mapeamento não uniforme dependente de conteúdo da primeira imagem para uma segunda imagem com uma razão de aspecto diferente da razão de aspecto original (uma segunda razão de aspecto). Por exemplo, os dados audiovisuais recebidos podem incluir imagens ou quadros em uma determinada razão de aspecto, como, por exemplo, a razão de aspecto generalizada de 16:9. No entanto, o aparelho da Figura 2 pode ser disposto de modo a acionar um monitor com uma razão de aspecto diferente. Por exemplo, o monitor pode ser uma razão de aspecto de 4:3, uma razão de aspecto de 21:9 ou uma razão de aspecto de 18:9 (que é frequentemente utilizada para headsets de RV).[084] The receiver 201 is coupled to an image remapper 203 that receives the image data, i.e., receives image data for at least one image, but typically for a large number of frames of a video sequence. The image remapper 203 is arranged to perform a content-dependent non-uniform mapping of the first image to a second image with an aspect ratio different from the original aspect ratio (a second aspect ratio). For example, received audiovisual data may include images or frames in a certain aspect ratio, such as the generalized aspect ratio of 16:9. However, the apparatus of Figure 2 can be arranged to drive a monitor with a different aspect ratio. For example, the monitor can be a 4:3 aspect ratio, a 21:9 aspect ratio, or an 18:9 aspect ratio (which is often used for VR headsets).

[085] O remapeador de imagens 203 é disposto de modo a gerar uma imagem modificada que tenha uma razão de aspecto diferente. Por exemplo, uma primeira imagem recebida nos dados audiovisuais recebidos pode ser modificada para fornecer uma segunda imagem com uma razão de aspecto diferente. A conversão da razão de aspecto não é apenas uma extensão/compressão padrão predeterminada da imagem da razão de aspecto de entrada para a razão de exibição, mas é um mapeamento não uniforme e dependente de conteúdo de uma razão de aspecto para outra. No mapeamento, algumas partes da imagem são esticadas/reposicionadas de acordo com uma função diferente das outras peças. O remapeador de imagens 203 não aplica apenas um mapeamento predeterminado, mas adapta o mapeamento aplicado dependendo do conteúdo das imagens.[085] The image remapper 203 is arranged to generate a modified image having a different aspect ratio. For example, a first image received in the received audiovisual data can be modified to provide a second image with a different aspect ratio. Aspect ratio conversion is not just a predetermined default extension/compression of the input aspect ratio image to display ratio, but it is a non-uniform and content-dependent mapping of one aspect ratio to another. In mapping, some parts of the image are stretched/repositioned according to a different function than other parts. The image remapper 203 not only applies a predetermined mapping, but adapts the applied mapping depending on the content of the images.

[086] Por exemplo, em muitas modalidades, o remapeador de imagens 203 pode ser disposto de modo a dividir a imagem em segmentos e pode aplicar mapeamentos diferentes a pelo menos dois segmentos diferentes da imagem. Por exemplo, o remapeador de imagens 203 pode dividir os segmentos em várias categorias ou tipos e pode aplicar um algoritmo de remapeamento específico a cada tipo de segmento. Os segmentos remapeados resultantes podem, então, ser combinados na segunda imagem, por exemplo, mediante seleção do segmento do primeiro plano para áreas dos segmentos que, após o remapeamento, ficam sobrepostas e preenchem orifícios que ocorrem no mapeamento (por exemplo, a partir de um segmento do plano de fundo).[086] For example, in many embodiments, the image remapper 203 can be arranged to divide the image into segments and can apply different mappings to at least two different segments of the image. For example, the image remapper 203 can divide the segments into various categories or types and can apply a specific remapping algorithm to each type of segment. The resulting remapped segments can then be combined in the second image, for example, by selecting the foreground segment for areas of the segments that, after remapping, overlap and fill holes that occur in the mapping (for example, from a segment of the background).

[087] Como um exemplo específico de baixa complexidade, o remapeador de imagens 203 pode realizar a segmentação de uma imagem recebida. A segmentação pode ser baseada no conteúdo da imagem (por exemplo, cores, brilho, etc.) e possivelmente em um mapa de profundidade associado a uma imagem recebida, como será bem conhecido pelo versado na técnica. Com base na segmentação, os segmentos podem ser divididos em um grupo que compreende os segmentos que correspondem a objetos salientes, respectivamente (por exemplo, objetos de primeiro plano, objetos correspondentes a pessoas, rostos detectados, etc.) e objetos não salientes (incluindo, por exemplo, o plano de fundo). Uma imagem intermediária pode ser formada por todos os objetos/segmentos não salientes e um mapeamento de taxa de aspecto predeterminado (por exemplo, um estiramento predeterminado) pode ser aplicado a essa imagem. Por exemplo, um simples estiramento uniforme predeterminado ou um estiramento anamórfico predeterminado pode ser aplicado para gerar uma segunda imagem intermediária com uma razão de aspecto correspondente ao monitor. Os orifícios na imagem podem, então, ser preenchidos, por exemplo,[087] As a specific example of low complexity, the image remapper 203 can perform the segmentation of a received image. Targeting can be based on image content (eg colors, brightness, etc.) and possibly a depth map associated with an incoming image, as will be well known to the skilled person. Based on segmentation, segments can be divided into a group comprising segments corresponding to protruding objects, respectively (eg foreground objects, objects corresponding to people, detected faces, etc.) and non-protruding objects (including , for example, the background). An intermediate image can be made up of all non-salient objects/segments and a predetermined aspect ratio mapping (eg a predetermined stretch) can be applied to that image. For example, a simple predetermined uniform stretch or a predetermined anamorphic stretch can be applied to generate a second intermediate image with an aspect ratio corresponding to the monitor. The holes in the image can then be filled in, for example,

por preenchimento com o uso de extrapolação de áreas vizinhas, conforme conhecido na técnica, ou por estiramento da imagem de plano de fundo entre eles.by filling using extrapolation from neighboring areas, as known in the art, or by stretching the background image between them.

[088] Novas posições podem ser determinadas para os objetos salientes e elas serão tipicamente determinadas com menos distorção em comparação com a imagem original do que para o mapeamento predeterminado da imagem não saliente. Por exemplo, os objetos/imagens salientes podem ser determinados como tendo posições que não mudam umas em relação às outras, ou seja, as distâncias entre os objetos salientes podem ser mantidas para permanecerem as mesmas. A posição absoluta pode, por exemplo, ser determinada para ter o mesmo deslocamento a partir do centro da imagem. Finalmente, os objetos salientes podem ser sobrepostos na segunda imagem intermediária para gerar uma imagem de saída correspondente à imagem original, mas com a razão de aspecto desejada, como tipicamente a do monitor no qual a imagem/vídeo será renderizado.[088] New positions can be determined for the salient objects and they will typically be determined with less distortion compared to the original image than for the predetermined non-salient image mapping. For example, the protruding objects/images can be determined to have positions that do not change relative to each other, ie the distances between the protruding objects can be kept to remain the same. The absolute position can, for example, be determined to have the same offset from the center of the image. Finally, protruding objects can be superimposed on the second intermediate image to generate an output image corresponding to the original image, but with the desired aspect ratio, such as typically that of the monitor on which the image/video will be rendered.

[089] Tal exemplo pode, por exemplo, resultar em objetos salientes que permanecem na mesma posição uns em relação aos outros e no centro da imagem, mas com o plano de fundo sendo estendido para corresponder à nova razão de aspecto. Por exemplo, no caso de duas pessoas em pé em uma praia, a imagem gerada pode ter as duas pessoas em pé na mesma posição na imagem exibida e com a mesma proximidade uma da outra, mas com a praia e o mar no plano de fundo sendo estendidos de forma a preencher toda a imagem.[089] Such an example can, for example, result in protruding objects that remain in the same position relative to each other and in the center of the image, but with the background being stretched to match the new aspect ratio. For example, in the case of two people standing on a beach, the generated image might have the two people standing in the same position in the displayed image and with the same proximity to each other, but with the beach and sea in the background being extended to fill the entire image.

[090] Deve-se considerar que este é apenas um exemplo de baixa complexidade e que muitos algoritmos diferentes, e frequentemente mais complexos, podem ser utilizados em vez disso. Exemplos podem ser encontrados, por exemplo, em ““Use cases and draft requirements for Network Based Media Processing (v1)”, documento gerado na 119a reunião MPEG, em Torino (Itália), julho de 2017.[090] It should be noted that this is just an example of low complexity and that many different, and often more complex, algorithms can be used instead. Examples can be found, for example, in ““Use cases and draft requirements for Network Based Media Processing (v1)”, document generated at the 119th MPEG meeting, in Turin (Italy), July 2017.

[091] O remapeador de imagens 203 está acoplado a um renderizador de vídeo 205 que recebe as imagens/os quadros remapeados do remapeador de imagens 203 e gera um sinal de unidade adequado para um monitor (não mostrado) no qual as imagens/os quadros são exibidos. Deve-se reconhecer que a função exata do renderizador de vídeo depende das propriedades/características do monitor específico e das propriedades específicas da imagem. Por exemplo, o renderizador de vídeo 205 pode ser disposto de modo a gerar um sinal de saída de acordo com um padrão de acionador de tela/vídeo específico.[091] The image remapper 203 is coupled to a video renderer 205 which receives the remapped images/frames from the image remapper 203 and generates a unit signal suitable for a monitor (not shown) on which the images/frames are displayed. It should be recognized that the exact function of the video renderer depends on the properties/characteristics of the specific monitor and the specific properties of the image. For example, the video renderer 205 can be arranged to generate an output signal in accordance with a specific screen/video trigger pattern.

[092] Por exemplo, o remapeador de imagens 203 pode, em algumas modalidades, operar em dados não codificados, ou seja, as imagens podem ser representadas por valores de pixel não codificados (por exemplo, valores de pixel RGB diretos) e a saída do remapeador de imagens 203 pode ser, consequentemente, composta de valores de pixels não codificados. O aparelho pode ser disposto de modo a acionar um monitor com o uso de um padrão de exibição que inclui compressão de vídeo (por exemplo, Display Stream Compression VESA), e o renderizador de vídeo pode ser disposto de modo a compactar os dados do remapeador de imagens 203 para gerar um fluxo de vídeo compactado de acordo com o padrão específico.[092] For example, the image remapper 203 can, in some embodiments, operate on uncoded data, that is, the images can be represented by uncoded pixel values (eg direct RGB pixel values) and the output of the image remapper 203 can therefore be composed of uncoded pixel values. The apparatus can be arranged to drive a monitor using a display standard that includes video compression (eg Display Stream Compression VESA), and the video renderer can be arranged to compress the remapper data of 203 images to generate a video stream compressed according to the specific standard.

[093] Como outro exemplo, se o dispositivo acionar um headset de RV dedicado e proprietário e as imagens fornecidas pelo remapeador de imagens 203 forem codificadas, o renderizador de vídeo 205 pode decodificar as imagens de vídeo para renderizar, por exemplo, valores RGB para cada pixel e eles podem ser convertidos em sinais de acionamento adequados para cada pixel do monitor do headset de RV. Os sinais da unidade podem, então, ser enviados para um acionador de painel de exibição externo para acionar diretamente a(s) exibição(ões) do headset.[093] As another example, if the device powers a dedicated, proprietary VR headset and the images provided by the image remapper 203 are encoded, the video renderer 205 can decode the video images to render, for example, RGB values to each pixel and they can be converted into trigger signals suitable for each pixel of the VR headset monitor. The unit's signals can then be sent to an external display panel trigger to directly trigger the headset display(s).

[094] Como outro exemplo, o renderizador de vídeo 205 pode ser disposto de modo a gerar um fluxo de dados adequado para um monitor pela adição e estruturação dos dados de imagem do remapeador de imagens 203. Por exemplo, para se comunicar com um monitor com o uso, por exemplo, de interfaces HDMI ou DisplayPort, o renderizador de vídeo 205 pode adicionar um relógio, uma correção de erros, dados de controle, etc., para gerar um fluxo de bits correspondente ao padrão específico.[094] As another example, the video renderer 205 can be arranged to generate a stream of data suitable for a monitor by adding and structuring the image data from the image remapper 203. For example, to communicate with a monitor using, for example, HDMI or DisplayPort interfaces, the 205 video renderer can add a clock, an error correction, control data, etc., to generate a bitstream corresponding to the specific standard.

[095] O renderizador de vídeo 205 pode, portanto, executar a conversão, o processamento e a tradução necessários entre os dados de imagem das imagens do remapeador de imagens 203 e o fluxo de sinal/dados exigido por um monitor subsequente.[095] The video renderer 205 can therefore perform the necessary conversion, processing and translation between the image data of the images of the image remapper 203 and the signal/data flow required by a subsequent monitor.

[096] O aparelho da Figura 2 pode, consequentemente, adaptar os dados visuais recebidos ao monitor específico utilizado e fornecer uma melhor experiência visual e de imagem. Entretanto, os inventores perceberam ainda que um problema com tal mapeamento de razão de aspecto flexível e baseado em conteúdo é que ele pode degradar o lado de áudio da experiência de uso. Os inventores perceberam que o remapeamento da imagem pode resultar em uma experiência perceptiva maior do áudio sendo imprecisa ou artificial e que a experiência geral pode ser considerada menos natural. Para abordar, por exemplo, tais questões, o aparelho da Figura 2 compreende uma funcionalidade para modificar o lado de áudio antes da renderização.[096] The device in Figure 2 can, therefore, adapt the visual data received to the specific monitor used and provide a better visual and image experience. However, the inventors further realized that a problem with such flexible, content-based aspect ratio mapping is that it can degrade the audio side of the user experience. The inventors realized that image remapping can result in a greater perceptual experience of the audio being inaccurate or artificial and that the overall experience can be considered less natural. To address, for example, such issues, the device in Figure 2 comprises a functionality to modify the audio side before rendering.

[097] O aparelho compreende um remapeador de áudio 207 que recebe os dados de áudio do receptor 201. Consequentemente, o remapeador de áudio 207 recebe dados de áudio que descrevem vários elementos de áudio da cena de áudio. O remapeador de áudio 207 é disposto de modo a modificar uma propriedade espacial de um ou mais elementos de áudio recebidos. Especificamente, o remapeador de áudio 207 pode substituir um primeiro elemento de áudio na cena de áudio/nos dados de áudio por um segundo elemento de áudio que tenha uma propriedade espacial modificada, como, por exemplo, uma posição diferente ou uma posição/distribuição diferente.[097] The apparatus comprises an audio remapper 207 which receives the audio data from the receiver 201. Accordingly, the audio remapper 207 receives audio data describing various audio elements of the audio scene. Audio remapper 207 is arranged to modify a spatial property of one or more received audio elements. Specifically, the audio remapper 207 can replace a first audio element in the audio scene/audio data with a second audio element that has a modified spatial property, such as a different position or a different position/distribution .

[098] O remapeador de áudio 207 é acoplado a um renderizador de áudio 209 que recebe os dados de áudio, incluindo os elementos de áudio modificados (ou seja, o segundo elemento de áudio é recebido em vez do primeiro elemento de áudio, uma vez que ele foi substituído). O renderizador de áudio 209 é disposto de modo a renderizar os dados de áudio recebidos com o uso de qualquer abordagem de renderização adequada. O renderizador de áudio 209 pode gerar sinais de áudio para, por exemplo, renderização de áudio espacial com o uso de alto- falantes ou, por exemplo, com o uso de headsets (renderização binaural).[098] The audio remapper 207 is coupled to an audio renderer 209 which receives the audio data including the modified audio elements (ie the second audio element is received instead of the first audio element once that it has been replaced). The audio renderer 209 is arranged to render the received audio data using any suitable rendering approach. The audio renderer 209 can generate audio signals for eg spatial audio rendering using speakers or eg headsets (binaural rendering).

[099] Deve-se reconhecer que muitos algoritmos e abordagens para a renderização de áudio espacial que usam alto- falantes, especificamente em sistemas de som surround, são conhecidos pelo versado na técnica e que qualquer abordagem adequada pode ser utilizada sem se desviar da invenção.[099] It should be recognized that many algorithms and approaches for rendering spatial audio that use speakers, specifically in surround sound systems, are known to the person skilled in the art and that any suitable approach can be used without deviating from the invention .

[0100] Por exemplo, o renderizador de áudio 209 pode gerar sinais de áudio para cinco alto-falantes em uma configuração de som surround com um alto-falante central, alto-falante frontal esquerdo, alto-falante frontal direito, alto-falante surround esquerdo e alto-falante surround direito. O renderizador de áudio 209 pode gerar um conjunto de sinais de áudio compreendendo um sinal de áudio para cada alto-falante. Os sinais podem, então, ser amplificados para gerar sinais de acionamento para o alto-falante individual.[0100] For example, the audio renderer 209 can output audio signals for five speakers in a surround sound configuration with a center speaker, left front speaker, right front speaker, surround speaker left and right surround speaker. The audio renderer 209 can generate a set of audio signals comprising an audio signal for each speaker. The signals can then be amplified to generate trigger signals for the individual speaker.

[0101] Em algumas modalidades, um elemento de áudio que está sendo renderizado com o uso de alto-falantes pode ser recebido como, por exemplo, um downmix estéreo, e o renderizador de áudio 209 pode executar uma upmixagem para gerar os sinais surround que, em alguns casos, podem ser renderizados diretamente. Essa abordagem pode, por exemplo, ser útil para elementos de áudio que representam um som difuso que não está diretamente relacionado à pose do usuário. Por exemplo, um elemento de áudio que representa o áudio ambiente difuso genérico pode ser fornecido como um downmix estéreo que pode ser diretamente upmixado para fornecer os canais de áudio de som surround apropriados. Cada um dos sinais upmixados resultantes pode ser combinado com sinais para os alto-falantes correspondentes gerados a partir de outros elementos de áudio para gerar o conjunto de sinais de saída.[0101] In some embodiments, an audio element being rendered using speakers can be received, such as a stereo downmix, and the audio renderer 209 can perform an upmix to generate the surround signals that , in some cases, can be rendered directly. This approach can, for example, be useful for audio elements that represent a diffuse sound that is not directly related to the user's pose. For example, an audio element that represents generic diffuse ambient audio can be provided as a stereo downmix that can be directly upmixed to provide the appropriate surround sound audio channels. Each of the resulting upmixed signals can be combined with corresponding speaker signals generated from other audio elements to generate the set of output signals.

[0102] Alguns elementos de áudio que são renderizados por meio da configuração do alto-falante podem, por exemplo, ser fornecidos sob a forma de objetos de áudio. Esse objeto de áudio pode ser representado por dados de áudio que descrevem o áudio específico e os dados de posição associados que descrevem a posição da fonte de áudio. Com base nos dados de posição e nas posições dos alto-falantes (quer sejam posições reais ou nominais para a configuração do alto-falante de som surround), o renderizador de áudio 209 pode determinar coeficientes para uma matriz ou um vetor que mapeia o sinal de áudio para os diferentes canais de som surround.[0102] Some audio elements that are rendered via the speaker configuration can, for example, be provided in the form of audio objects. This audio object can be represented by audio data that describes the specific audio and the associated position data that describes the position of the audio source. Based on the position data and the positions of the speakers (whether they are actual or nominal positions for the surround sound speaker setup), the audio renderer 209 can determine coefficients for a matrix or vector that maps the signal. audio for the different surround sound channels.

[0103] Em muitas modalidades, a renderização de áudio pelo renderizador de áudio 209 é um processo de renderização binaural que utiliza funções de transferência binaural adequadas para fornecer o efeito espacial desejado para um usuário que usa fones de ouvido. Por exemplo, o renderizador de áudio 209 pode ser disposto de modo a gerar um componente de áudio que é percebido quando chega de uma posição específica com o uso de processamento binaural.[0103] In many embodiments, audio rendering by audio renderer 209 is a binaural rendering process that utilizes suitable binaural transfer functions to provide the desired spatial effect for a user wearing headphones. For example, the audio renderer 209 can be arranged to generate an audio component that is perceived when arriving from a specific position using binaural processing.

[0104] O processamento binaural é conhecido por ser utilizado para fornecer uma experiência espacial mediante posicionamento virtual de fontes de som que utilizam sinais individuais para os ouvidos do ouvinte. Com um processamento de renderização binaural adequado, os sinais necessários nos tímpanos para que o ouvinte perceba o som vindo de qualquer direção desejada, podem ser calculados e os sinais podem ser renderizados, de modo que forneçam o efeito desejado. Esses sinais são, então, recriados no tímpano com o uso de headsets ou de um método de cancelamento de diafonia (adequado para renderização em alto-falantes que estão muito próximos). A renderização binaural pode ser considerada uma abordagem para gerar sinais para os ouvidos de um ouvinte, resultando em enganar o sistema auditivo humano para pensar que um som está vindo das posições desejadas.[0104] Binaural processing is known to be used to provide a spatial experience through virtual positioning of sound sources that use individual signals to the listener's ears. With proper binaural rendering processing, the signals needed in the eardrums for the listener to perceive sound coming from any desired direction can be calculated and the signals can be rendered so that they provide the desired effect. These signals are then recreated in the eardrum using headsets or a crosstalk cancellation method (suitable for rendering on speakers that are very close together). Binaural rendering can be considered an approach to generating signals to a listener's ears, resulting in tricking the human auditory system into thinking that a sound is coming from the desired positions.

[0105] A renderização binaural se baseia em funções de transferência binaural que variam de pessoa para pessoa devido às propriedades acústicas da cabeça, dos ouvidos e das superfícies reflexivas, como os ombros. Por exemplo, podem ser usados filtros binaurais para criar uma gravação binaural que simule múltiplas fontes em vários locais. Isso pode ser feito mediante convolução de cada sinal de fonte de som com o par de, por exemplo, respostas de impulso relacionadas à cabeça (HRIRs) que correspondem à posição da fonte de som.[0105] Binaural rendering relies on binaural transfer functions that vary from person to person due to the acoustic properties of the head, ears, and reflective surfaces such as the shoulders. For example, binaural filters can be used to create a binaural recording that simulates multiple sources at multiple locations. This can be done by convoluting each sound source signal with the pair of, for example, head-related impulse responses (HRIRs) that correspond to the position of the sound source.

[0106] Um método bem conhecido para determinar as funções de transferência binaural é a gravação binaural. É um método de gravação de som que utiliza um arranjo de microfone dedicado e é destinado à reprodução com o uso de fones de ouvido. A gravação é feita mediante colocação de microfones no canal auditivo de um indivíduo ou com o uso de uma cabeça de boneco com microfones embutidos, um busto que inclui pinnas (ouvidos externos). O uso de tal cabeça de boneco, incluindo a pinna, fornece uma impressão espacial muito similar a como se a pessoa que escuta as gravações estivesse presente durante a gravação.[0106] A well-known method of determining binaural transfer functions is binaural recording. It is a method of sound recording that uses a dedicated microphone arrangement and is intended for playback using headphones. Recording is done by placing microphones in an individual's ear canal or using a doll's head with built-in microphones, a bust that includes pinnas (external ears). The use of such a puppet's head, including the pinna, provides a spatial impression very similar to as if the person listening to the recordings were present during the recording.

[0107] Medindo-se, por exemplo, as respostas de uma fonte de som em um local específico em espaço 2D ou 3D para microfones colocados dentro ou perto dos ouvidos humanos, os filtros binaurais apropriados podem ser determinados. Com base nessas medidas, podem ser gerados filtros binaurais que refletem as funções de transferência acústica para os ouvidos do usuário. Os filtros binaurais podem ser usados para criar uma gravação binaural que simule múltiplas fontes em vários locais. Isso pode ser feito, por exemplo, por meio da convolução de cada fonte de som com o par de respostas de impulso medidas para uma posição desejada da fonte de som. Para criar a ilusão de que uma fonte de som é movida em torno do ouvinte, é tipicamente necessário um grande número de filtros binaurais com resolução espacial adequada, por exemplo, 10 graus.[0107] By measuring, for example, the responses from a sound source at a specific location in 2D or 3D space to microphones placed in or near the human ears, the appropriate binaural filters can be determined. Based on these measurements, binaural filters can be generated that reflect the acoustic transfer functions to the user's ears. Binaural filters can be used to create a binaural recording that simulates multiple sources at multiple locations. This can be done, for example, by convoluting each sound source with the measured impulse response pair to a desired sound source position. To create the illusion that a sound source is moved around the listener, a large number of binaural filters with adequate spatial resolution is typically needed, eg 10 degrees.

[0108] As funções de transferência binaural relacionadas à cabeça podem ser representadas, por exemplo, como Respostas de Impulso Relacionado à Cabeça (Head Related Impulse Responses (HRIR)), ou equivalentemente, como Funções de Transferência Relacionada à Cabeça (Head Related Transfer Functions (HRTFs)) ou, Respostas de Impulso Ambiente Binaural (Room Impulse Responses (BRIRs)), ou Funções de Transferência Ambiente Binaurais (Binaural Room Transfer Functions (BRTFs)). A função de transferência (por exemplo, estimada ou presumida) de uma determinada posição para os ouvidos (ou tímpanos) do ouvinte pode, por exemplo, ser fornecida no domínio de frequência, caso em que é tipicamente chamada de HRTF ou BRTF, ou no domínio do tempo, nesse caso, ela é tipicamente chamada de HRIR ou BRIR. Em alguns cenários, as funções de transferência binaural relacionadas à cabeça são determinadas como incluindo aspectos ou propriedades do ambiente acústico e, especificamente, do ambiente no qual as medições são feitas, enquanto, em outros exemplos, apenas as características de usuário são consideradas. Exemplos do primeiro tipo de funções são as BRIRs e BRTFs.[0108] The head-related binaural transfer functions can be represented, for example, as Head Related Impulse Responses (HRIR), or equivalently, as Head Related Transfer Functions (HRTFs) or, Room Impulse Responses (BRIRs), or Binaural Room Transfer Functions (BRTFs). The transfer function (eg, estimated or assumed) from a given position to the listener's ears (or eardrums) can, for example, be provided in the frequency domain, in which case it is typically called HRTF or BRTF, or in the time domain, in this case, it is typically called the HRIR or BRIR. In some scenarios, head-related binaural transfer functions are determined to include aspects or properties of the acoustic environment and specifically the environment in which measurements are taken, while in other examples only user characteristics are considered. Examples of the first type of functions are BRIRs and BRTFs.

[0109] O renderizador de áudio 209 pode, consequentemente, compreender um dispositivo de armazenamento com funções de transferência binaural para um número tipicamente alto de posições diferentes, com cada função de transferência binaural fornecendo informações sobre como um sinal de áudio deve ser processado/filtrado para que seja percebido como originado daquela posição. A aplicação individual do processamento binaural a uma pluralidade de sinais/fontes de áudio e a combinação do resultado podem ser utilizados para gerar uma cena de áudio com várias fontes de áudio posicionadas nas posições apropriadas no estágio de som.[0109] The audio renderer 209 can therefore comprise a storage device with binaural transfer functions for a typically high number of different positions, with each binaural transfer function providing information on how an audio signal should be processed/filtered so that it is perceived as originating from that position. Individually applying binaural processing to a plurality of audio signals/sources and combining the result can be used to generate an audio scene with multiple audio sources positioned at the appropriate positions on the sound stage.

[0110] O renderizador de áudio 209 pode, para um determinado elemento de áudio que deve ser percebido como se originando de uma determinada posição em relação à cabeça do usuário, selecionar e recuperar a função de transferência binaural armazenada que mais corresponde à posição desejada (ou, em alguns casos, pode gerar isso mediante interpolação entre uma pluralidade de funções de transferência binaural próximas). Ele pode, então, aplicar a função de transferência binaural selecionada ao sinal de áudio do elemento de áudio, gerando, assim, um sinal de áudio para o ouvido esquerdo e um sinal de áudio para o ouvido direito.[0110] The audio renderer 209 can, for a given audio element that is to be perceived as originating from a given position in relation to the user's head, select and retrieve the stored binaural transfer function that most closely matches the desired position ( or, in some cases, it can generate this by interpolating between a plurality of closely related binaural transfer functions). It can then apply the selected binaural transfer function to the audio signal from the audio element, thereby generating an audio signal for the left ear and an audio signal for the right ear.

[0111] O sinal estéreo de saída gerado sob a forma do sinal de ouvido esquerdo e direito é adequado para a renderização do fone de ouvido e pode ser amplificado para gerar sinais de acionamento que são fornecidos ao fone de ouvido de um usuário. Em seguida, o usuário perceberá que o elemento de áudio se origina da posição desejada.[0111] The output stereo signal generated as the left and right ear signal is suitable for headphone rendering and can be amplified to generate trigger signals that are supplied to a user's headphone. Next, the user will notice that the audio element originates from the desired position.

[0112] No aparelho da Figura 2, o remapeador de imagens 203 é disposto de modo a gerar dados de mapeamento que descrevem pelo menos parte do remapeamento de imagens que foi executado pelo remapeador de imagens 203 para alterar a razão de aspecto. Por exemplo, o remapeador de imagens 203 pode fornecer informações que indicam as posições modificadas ou novas de objetos de imagem específicos na segunda imagem e/ou pode, por exemplo, incluir dados indicando o mapeamento que foi utilizado para a imagem de plano de fundo ou para um determinado segmento da imagem.[0112] In the apparatus of Figure 2, the image remapper 203 is arranged to generate mapping data describing at least part of the image remapping that was performed by the image remapper 203 to change the aspect ratio. For example, the image remapper 203 may provide information indicating the modified or new positions of specific image objects in the second image and/or may, for example, include data indicating the mapping that was used for the background image or for a particular segment of the image.

[0113] Os dados de mapeamento podem ser quaisquer dados que descrevam uma propriedade do mapeamento da primeira imagem até a segunda imagem executada pelo mapeamento não uniforme dependente de conteúdo. Os dados de mapeamento podem incluir especificamente dados que descrevem uma relação entre posições na primeira imagem e posições na segunda imagem para pelo menos algumas posições. Os dados de mapeamento podem, por exemplo, descrever como as posições da imagem na primeira imagem são mapeadas para as posições da imagem na segunda imagem pelo mapeamento não uniforme dependente de conteúdo. As posições podem ser de duas dimensões e podem ser posições absolutas e/ou relativas tipicamente em relação a um sistema de coordenadas para a primeira ou a segunda imagem correspondente.[0113] Mapping data can be any data that describes a property of the mapping from the first image to the second image performed by content-dependent non-uniform mapping. The mapping data can specifically include data describing a relationship between positions in the first image and positions in the second image for at least some positions. The mapping data can, for example, describe how image positions in the first image are mapped to image positions in the second image by content-dependent non-uniform mapping. The positions can be two-dimensional and can be absolute and/or relative positions typically with respect to a coordinate system for the corresponding first or second image.

[0114] Os dados de mapeamento são fornecidos do remapeamento de imagens 203 para o remapeamento de áudio 207, e o remapeamento de áudio 207 é disposto de modo a modificar a propriedade espacial dos elementos de áudio dependendo da/em resposta a/como uma função de/com base nos dados de mapeamento (e, portanto, com base no mapeamento não uniforme dependente de conteúdo da razão de aspecto da imagem). Por exemplo, um mapeamento de posição pode ser aplicado ao primeiro elemento de áudio para gerar o segundo elemento de áudio, e o mapeamento de posição pode ser adaptado com base nos dados de mapeamento recebidos.[0114] Mapping data is provided from image remapping 203 to audio remapping 207, and audio remapping 207 is arranged to modify the spatial property of the audio elements depending on/in response to/as a function from/based on the mapping data (and therefore based on the content-dependent non-uniform mapping of the image's aspect ratio). For example, a position mapping can be applied to the first audio element to generate the second audio element, and the position mapping can be adapted based on the received mapping data.

[0115] Por exemplo, os dados de mapeamento podem descrever uma relação entre as posições na primeira imagem e na segunda imagem, e o remapeador de áudio 207 pode ser disposto de modo a modificar as posições dos elementos de áudio com base na mudança de posição entre a primeira imagem e a segunda imagem, conforme descrito pelos dados de mapeamento.[0115] For example, the mapping data can describe a relationship between the positions in the first image and the second image, and the audio remapper 207 can be arranged to modify the positions of the audio elements based on the position change between the first image and the second image as described by the mapping data.

[0116] Como exemplo específico, se os dados de mapeamento indicarem que a posição de um objeto de imagem correspondente a um determinado objeto na cena é movida para uma posição diferente na imagem, o remapeador de áudio 207 pode ser disposto de modo a modificar a posição espacial do elemento de áudio que representa o som gerado por esse objeto para que ele corresponda à nova posição. Por exemplo, em algumas modalidades, um elemento de áudio pode compreender metadados de posição associados que são utilizados pelo renderizador de áudio 209 para renderizar o elemento de áudio de modo que ele seja percebido como originado da posição determinada. Em tais modalidades, o remapeador de áudio 207 pode alterar diretamente os metadados de posição antes de ser fornecido ao renderizador de áudio 209. Especificamente, o remapeador de áudio 207 pode recuperar a posição do elemento de áudio e, em seguida, pode deslocá-lo por uma quantidade que corresponde ao deslocamento do objeto de imagem correspondente na razão de aspecto alterada. A posição modificada pode, então, ser fornecida ao renderizador de áudio 209 e utilizada por ele ao renderizar o elemento de áudio. Consequentemente, o elemento de áudio será renderizado para aparecer como originado da posição modificada. Essa abordagem geralmente pode ser particularmente adequada para objetos de áudio que geralmente recebem dados de posição explícita.[0116] As a specific example, if the mapping data indicates that the position of an image object corresponding to a certain object in the scene is moved to a different position in the image, the audio remapper 207 can be arranged to modify the spatial position of the audio element that represents the sound generated by that object so that it matches the new position. For example, in some embodiments, an audio element may comprise associated position metadata that is used by the audio renderer 209 to render the audio element such that it is perceived as originating from the given position. In such modalities, the audio remapper 207 can directly change the position metadata before it is provided to the audio renderer 209. Specifically, the audio remapper 207 can retrieve the position of the audio element and then can shift it by an amount that corresponds to the offset of the corresponding image object in the changed aspect ratio. The modified position can then be given to audio renderer 209 and used by it when rendering the audio element. Consequently, the audio element will be rendered to appear as originating from the modified position. This approach can often be particularly suitable for audio objects that often receive explicit position data.

[0117] Em outras modalidades, a posição exata pode não ser conhecida, mas pode ser derivada dos dados de áudio recebidos. Por exemplo, se o elemento de áudio for representado por, digamos, cinco canais de som surround (ou um downmix dos mesmos), o nível de sinal relativo e o tempo em cada um dos canais de áudio indicarão a posição espacial da fonte de áudio correspondente. Essa posição pode, então, ser estimada e modificada, e os sinais dos canais de áudio podem ser compensados para refletir a nova posição. Em muitas modalidades, a modificação da posição espacial pode ser realizada diretamente pelo processamento dos sinais de áudio e sem qualquer derivação explícita da posição original. Por exemplo, se um elemento de áudio de canal surround for recebido, que esteja vinculado a um objeto de imagem indicado pelos dados de mapeamento a serem deslocados, por exemplo, 10 graus para a esquerda, o remapeador de áudio 207 pode aplicar uma operação de matriz aos sinais do canal de áudio que giram esses 10 graus na direção correta.[0117] In other embodiments, the exact position may not be known, but it may be derived from the received audio data. For example, if the audio element is represented by, say, five surround sound channels (or a downmix thereof), the relative signal level and time in each of the audio channels will indicate the spatial position of the audio source. corresponding. That position can then be estimated and modified, and the signals from the audio channels can be compensated to reflect the new position. In many embodiments, the modification of the spatial position can be performed directly by processing the audio signals and without any explicit derivation from the original position. For example, if a surround channel audio element is received that is linked to an image object indicated by the mapping data to be shifted, for example, 10 degrees to the left, the audio remapper 207 can apply an operation of matrix to the audio channel signals that rotate these 10 degrees in the correct direction.

[0118] De fato, no caso do conteúdo de áudio que é definido em um formato baseado em canal, a distribuição espacial das fontes de áudio na cena audiovisual é tipicamente definida implicitamente por relações de nível e tempo relativas entre os canais, por exemplo, devido a algoritmos de panorâmica utilizados na geração de elementos de áudio baseados em canal. Além disso, o som de várias fontes pode ser misturado nos canais, de modo que os sinais das fontes individuais podem não estar prontamente disponíveis separadamente, como no caso de objetos de áudio.[0118] In fact, in the case of audio content that is defined in a channel-based format, the spatial distribution of audio sources in the audiovisual scene is typically defined implicitly by relative level and time relationships between channels, for example, due to panning algorithms used in the generation of channel-based audio elements. Also, sound from multiple sources can be mixed into channels, so signals from individual sources may not be readily available separately, as in the case of audio objects.

[0119] No caso baseado em canal, o remapeamento dos elementos de áudio pode, por exemplo, ser obtido com o uso de um algoritmo de ampliação espacial, do qual existe uma grande variedade. Entretanto, ao contrário de como tais algoritmos de ampliação espacial são comumente utilizados (ou seja, esticando ou comprimindo a cena de áudio espacial uniformemente ao longo da dimensão espacial), o algoritmo de ampliação espacial pode ser aplicado de forma não uniforme, correspondendo ao remapeamento não uniforme da imagem de vídeo.[0119] In the channel-based case, the remapping of the audio elements can, for example, be obtained with the use of a spatial amplification algorithm, of which there is a great variety. However, unlike how such spatial magnification algorithms are commonly used (ie, stretching or compressing the spatial audio scene evenly across the spatial dimension), the spatial magnification algorithm can be applied non-uniformly, corresponding to the remapping non-uniform video image.

[0120] As diferenças de nível de canal entre os canais podem ser calculadas em blocos de tempo-frequência e utilizadas para combinar esses blocos de tempo-frequência com objetos visuais ou segmentos de imagem representados nos dados de mapeamento. Além disso, as diferenças de fase nos blocos de tempo-frequência e sua estabilidade ao longo do tempo podem indicar se um bloco de tempo-frequência representa uma fonte pontual isolada (nenhuma diferença de fase ou diferença de fase estável ao longo do tempo) ou um som difuso ou uma mistura de várias fontes pontuais (tipicamente diferente de zero, diferença de fase instável ao longo do tempo).[0120] Channel level differences between channels can be calculated in time-frequency blocks and used to combine these time-frequency blocks with visual objects or image segments represented in the mapping data. Furthermore, the phase differences in the time-frequency blocks and their stability over time can indicate whether a time-frequency block represents an isolated point source (no phase difference or stable phase difference over time) or a diffuse sound or a mix of multiple point sources (typically non-zero, unstable phase difference over time).

[0121] As diferenças de nível de canal e as diferenças de fase podem orientar a adaptação dos elementos de áudio. Por exemplo, as diferenças de nível de canal para um bloco de tempo-frequência entre vários pares de canais podem determinar uma correspondência com um segmento da primeira imagem, mediante combinação das posições do canal em relação às dimensões da imagem. Isso pode ser conhecido, medido ou presumido. Especificamente, por exemplo, um canal esquerdo pode corresponder ao limite esquerdo da imagem, um canal direito, ao limite direito da imagem e um canal central, ao meio da imagem. Essa correspondência pode ser diferente para a primeira e a segunda imagens.[0121] Channel level differences and phase differences can guide the adaptation of audio elements. For example, channel level differences for a time-frequency block between several pairs of channels can determine a correspondence with a segment of the first image, by combining the positions of the channel in relation to the dimensions of the image. This can be known, measured or assumed. Specifically, for example, a left channel can correspond to the left edge of the image, a right channel to the right edge of the image, and a center channel to the middle of the image. This correspondence may be different for the first and second images.

[0122] Neste exemplo, a diferença de nível de canal max(𝑃 ,10−6 ) entre esquerda e centro (𝐶𝐿𝐷𝐿𝐶 = 10 ∗ log10 (max(𝑃𝐿 ,10−6)) com PL e PC[0122] In this example, the max(𝑃 ,10−6) channel level difference between left and center (𝐶𝐿𝐷𝐿𝐶 = 10 ∗ log10 (max(𝑃𝐿 ,10−6)) with PL and PC

𝐶 sendo a potência de sinal nos canais esquerdo e central, respectivamente) pode corresponder a uma posição na metade esquerda da imagem. Por exemplo, um CLDLC de −60 corresponde ao meio da imagem, e um CLDLC de 60 corresponde ao limite esquerdo. Os valores de CLDLC no meio podem ser interpolados, linear ou não linearmente. Com canais de altura adicionais, pode ser derivada uma posição bidimensional em relação à imagem.𝐶 being the signal strength in the left and center channels respectively) can correspond to a position in the left half of the image. For example, a CLDLC of −60 corresponds to the middle of the image, and a CLDLC of 60 corresponds to the left edge. CLDLC values in the middle can be interpolated linearly or non-linearly. With additional height channels, a two-dimensional position relative to the image can be derived.

[0123] A posição estimada para cada bloco de tempo-frequência pode ser combinada com um objeto ou segmento na imagem e os dados de mapeamento correspondentes fornecidos pelo remapeador de imagens. A adaptação do áudio pode seguir o mesmo mapeamento de, por exemplo, alteração de posição do objeto ou segmento. Por exemplo, ̅̅̅ 𝑏2 = 𝑏̅1 ∙ 𝑀, em que 𝑏̅1 e ̅̅̅ 𝑏2 representam os vetores da base do canal de um bloco de tempo-frequência do primeiro e do segundo elementos de áudio, respectivamente, e M é uma matriz de modificação que modifica a potência do sinal nos blocos de tempo-frequência dos canais para atingir um valor de CLD desejado para o segundo elemento de áudio.[0123] The estimated position for each time-frequency block can be combined with an object or segment in the image and the corresponding mapping data provided by the image remapper. Adapting the audio can follow the same mapping as, for example, changing the position of the object or segment. For example, ̅̅̅ 𝑏2 = 𝑏̅1 ∙ 𝑀, where 𝑏̅1 and ̅̅̅ 𝑏2 represent the channel base vectors of a time-frequency block of the first and second audio elements, respectively, and M is a modification matrix that modifies the signal strength in the time-frequency blocks of the channels to achieve a desired CLD value for the second audio element.

[0124] Em um exemplo em que CLDLC1 corresponde à posição 𝑝 ̅̅̅1 na imagem, que, de acordo com os dados de mapeamento, é movida para a posição ̅̅̅ 𝑝2 na imagem, que corresponde a CLDLC2, de acordo com o esquema de interpolação utilizado acima, as modificações 𝑃𝐿2 = 𝛼𝐿 ∙ 𝑃𝐿1 e 𝑃𝐶2 = 𝛼𝐶 ∙ 𝑃𝐶1 podem ser derivadas sob o requisito geral de que a potência permanece potência igual: 𝑃𝐿1 + 𝑃𝐶1 = 𝑃𝐿2 + 𝑃𝐶2 .[0124] In an example where CLDLC1 corresponds to position 𝑝 ̅̅̅1 in the image, which, according to the mapping data, is moved to position ̅̅̅ 𝑝2 in the image, which corresponds to CLDLC2, according to the used interpolation scheme above, the modifications 𝑃𝐿2 = 𝛼𝐿 ∙ 𝑃𝐿1 and 𝑃𝐶2 = 𝛼𝐶 ∙ 𝑃𝐶1 can be derived under the general requirement that the power remains equal power: 𝑃𝐿1 + 𝑃𝐶1 = 𝑃𝐿2 + 𝑃𝐶2 .

(𝑃𝐿1 + 𝑃𝐶1 ) ∙ 10𝐶𝐿𝐷𝐿𝐶2⁄10 𝛼𝐿 = 𝑃𝐿1 ∙ 10𝐶𝐿𝐷𝐿𝐶2⁄10 + 𝑃𝐶1 ∙ 10𝐶𝐿𝐷𝐿𝐶1⁄10 (𝑃𝐿1 + 𝑃𝐶1 ) ∙ 10𝐶𝐿𝐷𝐿𝐶1 ⁄10 𝛼𝐶 = 𝑃𝐿1 ∙ 10𝐶𝐿𝐷𝐿𝐶2⁄10 + 𝑃𝐶1 ∙ 10𝐶𝐿𝐷𝐿𝐶1 ⁄10(𝑃𝐿1 + 𝑃𝐶1 ) ∙ 10𝐶𝐿𝐷𝐿𝐶2⁄10 𝛼𝐿 = 𝑃𝐿1 ∙ 10𝐶𝐿𝐷𝐿𝐶2⁄10 + 𝑃𝐶1 ∙ 10𝐶𝐿𝐷𝐿𝐶1⁄10 (𝑃𝐿1 + 𝑃𝐶1 ) ∙ 10𝐶𝐿𝐷𝐿𝐶1 ⁄10 𝛼𝐶 = 𝑃𝐿1 ∙ 10𝐶𝐿𝐷𝐿𝐶2⁄10 + 𝑃𝐶1 ∙ 10𝐶𝐿𝐷𝐿𝐶1 ⁄10

[0125] Se esta for a única adaptação para este bloco de tempo-frequência, a matriz de adaptação M para 5 canais (L, R, C, LS, RS) pode ser: √𝛼𝐿 0 0 0 0 0 1 0 0 0 𝑀= 0 0 √𝛼𝐶 0 0 0 0 0 1 0 ( 0 0 0 0 1)[0125] If this is the only adaptation for this time-frequency block, the M adaptation matrix for 5 channels (L, R, C, LS, RS) can be: √𝛼𝐿 0 0 0 0 0 1 0 0 0 𝑀= 0 0 √𝛼𝐶 0 0 0 0 0 1 0 ( 0 0 0 0 1)

[0126] Se houver mais adaptações, as matrizes de adaptação individuais podem ser multiplicadas, por exemplo: 𝑀 = 𝑀𝐿𝐶 𝑀𝑅𝐶 𝑀𝐿𝐿𝑠 𝑀𝑅𝑅𝑠 .[0126] If there are more adaptations, the individual adaptation matrices can be multiplied, for example: 𝑀 = 𝑀𝐿𝐶 𝑀𝑅𝐶 𝑀𝐿𝐿𝑠 𝑀𝑅𝑅𝑠 .

[0127] No sistema descrito, o mapeamento não uniforme dependente de conteúdo é inerentemente um mapeamento dinâmico, uma vez que depende do conteúdo e, portanto, varia dependendo do conteúdo da imagem. O mapeamento não é um mapeamento fixo ou predeterminado, mas o mapeamento que é aplicado à primeira imagem para gerar a segunda imagem depende da primeira imagem e tipicamente, portanto, não é conhecido antecipadamente. O mapeamento real que é aplicado no caso específico e para esta imagem específica pode ser, assim, descrito, e na abordagem, o remapeador de imagens 203 gera dados de mapeamento que descrevem o mapeamento não uniforme dependente de conteúdo específico que é aplicado à primeira imagem. Dessa forma, os dados podem descrever o mapeamento específico aplicado a essa imagem, possibilitando, assim, que o remapeador de áudio 207 execute um remapeamento de áudio que corresponde ao remapeamento de imagens. Dessa forma, os dados de mapeamento que descrevem o mapeamento de imagem possibilitam que o remapeamento de áudio por dinâmico e se adapte às razões de aspecto de imagens específicas.[0127] In the described system, the content-dependent non-uniform mapping is inherently a dynamic mapping, since it depends on the content and, therefore, varies depending on the image content. The mapping is not a fixed or predetermined mapping, but the mapping that is applied to the first image to generate the second image depends on the first image and is typically therefore not known in advance. The actual mapping that is applied in the specific case and for this specific image can thus be described, and in the approach, the image remapper 203 generates mapping data that describes the specific content-dependent non-uniform mapping that is applied to the first image . In this way, the data can describe the specific mapping applied to that image, thus enabling the audio remapper 207 to perform an audio remapping that corresponds to the image remapping. In this way, the mapping data describing the image mapping makes it possible to remap audio by dynamic and adapt to the aspect ratios of specific images.

[0128] Será reconhecido que existem muitas formas de os dados de mapeamento poderem descrever o mapeamento não uniforme dependente de conteúdo e que a abordagem específica utilizada dependerá das preferências e dos requisitos da implementação e aplicação individuais. Por exemplo, os dados de mapeamento podem descrever como as posições de imagens/pixels na primeira imagem são mapeadas para as posições de imagens/pixels na segunda imagem. Os dados de mapeamento podem, por exemplo, ser fornecidos como posições absolutas nas duas imagens ou como imagens relativas.[0128] It will be recognized that there are many ways that mapping data can describe content-dependent non-uniform mapping and that the specific approach used will depend on the preferences and requirements of the individual implementation and application. For example, the mapping data can describe how the image/pixel positions in the first image are mapped to the image/pixel positions in the second image. Mapping data can, for example, be provided as absolute positions in the two images or as relative images.

[0129] Quando o remapeador de áudio 207 recebe esses dados de mapeamento, ele pode remapear os elementos de áudio concordemente. Por exemplo, para uma fonte de áudio que corresponde a um objeto de imagem em uma posição que não mudou muito, o remapeador de áudio 207 pode prosseguir para não fazer nenhuma alteração espacial no elemento de áudio correspondente. Entretanto, se os dados de mapeamento em vez disso descreverem isso para essa imagem específica, sendo que a posição da imagem correspondente à fonte de áudio foi alterada drasticamente, o remapeador de áudio 207 pode prosseguir para fazer uma alteração correspondente à posição do elemento de áudio correspondente. Por exemplo, se o mapeamento não uniforme dependente de conteúdo tiver deslocado a posição correspondente substancialmente na direção mais oposta a partir do meio em direção à borda direita da segunda imagem, o remapeador de áudio 207 poderá alterar a posição do elemento de áudio correspondente para que ela fique mais à direita.[0129] When the audio remapper 207 receives this mapping data, it can remap the audio elements accordingly. For example, for an audio source that matches an image object at a position that hasn't changed much, audio remapper 207 can proceed to make no spatial changes to the corresponding audio element. However, if the mapping data instead describes this for that specific image, and the position of the image corresponding to the audio source has changed drastically, the audio remapper 207 can proceed to make a corresponding change to the position of the audio element. corresponding. For example, if the content-dependent non-uniform mapping has shifted the corresponding position substantially in the most opposite direction from the middle towards the right edge of the second image, the audio remapper 207 may change the position of the corresponding audio element so that it is more to the right.

[0130] Dessa forma, além de executar um mapeamento não uniforme dependente de conteúdo para uma imagem, o remapeador de imagens 203 também gera dados de mapeamento que descrevem o mapeamento específico que é aplicado à imagem. Esses dados de mapeamento são fornecidos ao remapeador de áudio 207, que pode modificar a propriedade espacial dos elementos de áudio com base na descrição fornecida pelo mapeamento, ou seja, as modificações da propriedade espacial podem ser adaptadas para se ajustarem ao mapeamento não uniforme dependente de conteúdo específico que foi executado a fim de fornecer a alteração da razão de aspecto entre a primeira e a segunda imagens. Obviamente, os dados exatos de mapeamento (por exemplo, o que é descrito e como é descrito) e a adaptação específica das propriedades espaciais são específicos em relação à aplicação e à implementação, e dependerão dos resultados e das propriedades que são desejados na modalidade específica.[0130] Thus, in addition to performing a content-dependent non-uniform mapping for an image, the image remapper 203 also generates mapping data that describes the specific mapping that is applied to the image. This mapping data is provided to the audio remapper 207, which can modify the spatial property of the audio elements based on the description provided by the mapping, that is, the spatial property modifications can be adapted to fit the non-uniform mapping dependent on specific content that was executed in order to provide the aspect ratio change between the first and second images. Obviously, the exact mapping data (eg what is described and how it is described) and the specific adaptation of spatial properties are application and implementation specific, and will depend on the results and properties that are desired in the specific modality .

[0131] Em algumas modalidades, a quantidade de adaptação pode ser controlada ainda mais pela diferença de fase correspondente e/ou variação de diferença de fase no bloco de tempo-frequência ou na faixa de frequência correspondentes. Por exemplo, quando a diferença de fase correspondente é zero, a adaptação completa é feita e a adaptação é reduzida à medida que a diferença de fase aumenta.[0131] In some embodiments, the amount of adaptation can be further controlled by the corresponding phase difference and/or phase difference variation in the corresponding time-frequency block or frequency range. For example, when the corresponding phase difference is zero, full adaptation is done and the adaptation is reduced as the phase difference increases.

[0132] Alternativa ou adicionalmente à aplicação de um algoritmo de ampliamento espacial, um algoritmo de separação de fonte (do qual também existe uma ampla variedade) pode ser utilizado para extrair fontes individuais juntamente com informações direcionais a partir do conteúdo baseado em canal. Essas fontes individuais extraídas e suas informações direcionais correspondentes podem ser, então, remapeadas de maneira similar à descrita acima para objetos de áudio.[0132] As an alternative or in addition to applying a spatial amplification algorithm, a source separation algorithm (of which there is also a wide variety) can be used to extract individual sources along with directional information from the channel-based content. These individual extracted sources and their corresponding directional information can then be remapped in a similar manner as described above for audio objects.

[0133] Dessa forma, em muitas modalidades, o remapeador de áudio 207 pode ser disposto de modo a alterar uma posição espacial para o primeiro elemento de áudio de uma posição correspondente para uma posição de imagem na primeira imagem para uma posição de imagem na segunda imagem.[0133] Thus, in many embodiments, the audio remapper 207 can be arranged to change a spatial position for the first audio element from a corresponding position to an image position in the first image to an image position in the second Image.

[0134] Em muitas modalidades, os dados recebidos podem incluir metadados que vinculam elementos de áudio a objetos de imagem. O remapeador de áudio 207 pode usar essas informações de conexão para determinar o mapeamento que deve ser aplicado ao elemento de áudio individual. Em outras modalidades, nenhum dado de conexão explícito pode ser fornecido, e o aparelho pode ser disposto de modo a analisar os dados audiovisuais recebidos para vincular elementos de áudio e objetos de imagem. Por exemplo, depois de identificar objetos salientes, o mapeador de áudio 207 pode, para um determinado objeto de imagem, analisar os elementos de áudio a fim de determinar um elemento de áudio que corresponda às propriedades esperadas para o objeto de imagem. Especificamente, o elemento de áudio que tem uma posição indicada mais próxima ao objeto saliente na primeira imagem pode ser selecionado. Em algumas modalidades, as características do objeto de imagem e dos elementos de áudio podem ser adicionalmente levadas em consideração. Por exemplo, se o objeto de imagem for identificado como correspondente a uma face (por exemplo, o objeto de imagem pode ter sido determinado pela detecção de face), o elemento de áudio pode ser selecionado como um elemento de áudio que tem propriedades que são indicativas de fala.[0134] In many embodiments, the received data can include metadata that link audio elements to image objects. Audio Remapper 207 can use this connection information to determine the mapping that should be applied to the individual audio element. In other embodiments, no explicit connection data can be provided, and the apparatus can be arranged to analyze the received audiovisual data to link audio elements and image objects. For example, after identifying protruding objects, the audio mapper 207 can, for a given image object, analyze the audio elements in order to determine an audio element that matches the expected properties for the image object. Specifically, the audio element that has an indicated position closest to the protruding object in the first image can be selected. In some embodiments, the characteristics of the image object and the audio elements can be additionally taken into account. For example, if the image object is identified as corresponding to a face (for example, the image object may have been determined by face detection), the audio element can be selected as an audio element that has properties that are indicative of speech.

[0135] No aparelho da Figura 2, a alteração da razão de aspecto de áudio/vídeo está associada a uma alteração nas propriedades espaciais do conteúdo de áudio espacial associado. O conteúdo de áudio pode ser modificado para manter uma melhor qualidade da experiência geral. Descobriu-se que a modificação vinculada da razão de aspecto do conteúdo de áudio fornece uma experiência de uso substancialmente aprimorada, especialmente para o conteúdo de mídia imersivo, como conteúdo de filmes com RV e 360 graus.[0135] In the device in Figure 2, the change in the audio/video aspect ratio is associated with a change in the spatial properties of the associated spatial audio content. Audio content can be modified to maintain a better quality of overall experience. Linked modification of the audio content aspect ratio has been found to provide a substantially improved user experience, especially for immersive media content such as VR and 360 degree movie content.

[0136] A abordagem mais direta seria aplicar um remapeamento linear das posições espaciais dos elementos de áudio de acordo com a relação entre a razão de aspecto original e modificada. No entanto, no aparelho da Figura 2, uma abordagem mais avançada é utilizada, sendo que o conteúdo, dependente do remapeamento da razão de aspecto, é executado no lado visual, e com esse mapeamento dinâmico se controla ainda mais o remapeamento do lado do áudio. Isso pode fornecer um efeito aprimorado e, em particular, pode proporcionar uma experiência de uso mais consistente.[0136] The most direct approach would be to apply a linear remapping of the spatial positions of the audio elements according to the relationship between the original and modified aspect ratio. However, in the device in Figure 2, a more advanced approach is used, with the content, dependent on the aspect ratio remapping, performed on the visual side, and with this dynamic mapping the remapping of the audio side is further controlled. . This can provide an enhanced effect and, in particular, can provide a more consistent user experience.

[0137] A abordagem pode, portanto, vincular o remapeamento dos elementos de áudio diretamente ao remapeamento não linear da imagem de vídeo. Por exemplo, se as posições horizontal e vertical x e y de um determinado pixel ou objeto visual na imagem de vídeo forem remapeadas para as posições ax e by, o áudio correspondente à posição (x, y) também pode ser remapeado para a posição modificada (ax, by).[0137] The approach can, therefore, link the remapping of the audio elements directly to the non-linear remapping of the video image. For example, if the horizontal and vertical x and y positions of a certain pixel or visual object in the video image are remapped to the ax and by positions, the audio corresponding to the position (x, y) can also be remapped to the modified position (ax , by).

[0138] Na abordagem, o remapeamento espacial dos elementos de áudio de um item de conteúdo audiovisual pode ser executado dependendo de uma operação de remapeamento de vídeo/imagem dependente de conteúdo não uniforme que é realizada para adaptar a razão de aspecto da imagem de vídeo à razão de aspecto de um monitor.[0138] In the approach, the spatial remapping of the audio elements of an audiovisual content item can be performed depending on a non-uniform content dependent video/image remapping operation that is performed to adapt the video image aspect ratio to the aspect ratio of a monitor.

[0139] Em muitas modalidades, o remapeador de áudio 207 pode ser combinado adicional ou alternativamente para modificar uma propriedade de distribuição espacial do primeiro elemento de áudio em resposta aos dados de mapeamento. A propriedade de distribuição espacial pode refletir o grau de localização do elemento de áudio e, portanto, o grau no qual o elemento de áudio renderizado é considerado originário de um único ponto. A dispersão pode ser tipicamente indicada por parâmetros de tamanho ou por um ou mais raios, indicando o tamanho ou a extensão física ou acusticamente percebida de um objeto. Alternativamente, ela pode ser uma taxa de imersão ou uma faixa de ângulo para a qual o usuário está recebendo ou percebendo ondas sonoras recebidas. Como outro exemplo, ela pode ser um valor que indica a difusão do objeto como um valor, por exemplo, entre 0 e 1, que o renderizador converte em uma renderização entre uma renderização pura de fonte pontual e uma renderização difusa totalmente imersiva. Normalmente, isso significa renderizar para várias posições ou para vários alto- falantes. Distribuições maiores exigirão correlações menores entre várias posições renderizadas para evitar artefatos e melhorar a naturalidade.[0139] In many embodiments, the audio remapper 207 can be combined additionally or alternatively to modify a spatial distribution property of the first audio element in response to the mapping data. The spatial distribution property can reflect the degree of location of the audio element and therefore the degree to which the rendered audio element is considered to originate from a single point. Dispersion can typically be indicated by size parameters or by one or more radii, indicating the size or physical or acoustically perceived extent of an object. Alternatively, it can be an immersion rate or an angle range for which the user is receiving or sensing received sound waves. As another example, it might be a value that indicates the object's diffusion as a value, for example, between 0 and 1, that the renderer converts to a render between a pure point source rendering and a fully immersive fuzzy rendering. Typically this means rendering to multiple positions or to multiple speakers. Larger distributions will require smaller correlations between various rendered positions to avoid artifacts and improve naturalness.

[0140] O remapeador de áudio 207 pode, portanto, ser disposto de modo a alterar a largura ou a difusão percebida para um determinado elemento de áudio.[0140] The audio remapper 207 can therefore be arranged to change the perceived width or spread for a given audio element.

[0141] Por exemplo, a distribuição de um determinado elemento de áudio pode ser obtida pela renderização do objeto em várias posições. Por exemplo, mediante convolução do sinal do objeto com vários HRTFs para processamento binaural. Os ganhos podem ser aplicados às renderizações nas várias posições para variar a distribuição de energia espacialmente. Diferentes implementações podem fazer diferentes compensações entre a renderização da faixa de posição (distância máxima entre posições de renderização) e a localização da distribuição de energia espacial pelos ganhos. Tipicamente, essa abordagem funciona bem para pequenos valores de distribuição e renderização em várias posições relativamente próximas umas das outras, por exemplo, dentro de um ângulo de 30 graus como visto a partir do ouvinte.[0141] For example, the distribution of a certain audio element can be obtained by rendering the object in several positions. For example, by convoluting the object's signal with multiple HRTFs for binaural processing. Gains can be applied to renderings at various positions to vary the energy distribution spatially. Different implementations can make different tradeoffs between rendering the position range (maximum distance between render positions) and locating the spatial energy distribution by gains. Typically, this approach works well for small distribution and rendering values in several positions relatively close to each other, for example within a 30 degree angle as seen from the listener.

[0142] Outras modalidades, tipicamente para renderização de alta qualidade e grandes valores de distribuição, podem gerar várias versões mutuamente decorrelacionadas (ou parcialmente decorrelacionadas) do objeto e renderizá-las em uma variedade de locais dependentes dos dados de distribuição.[0142] Other modalities, typically for high quality rendering and large distribution values, can generate multiple mutually decorrelated (or partially decorrelated) versions of the object and render them in a variety of locations dependent on the distribution data.

[0143] Alternativamente, isso pode ser obtido mediante a aplicação de um algoritmo de ampliação espacial aos canais de áudio do elemento de áudio. Para um objeto de áudio, um sinal decorrelacionado pode, por exemplo, ser gerado, e o sinal de saída (por exemplo, um sinal binaural) pode ser gerado como uma combinação do sinal decorrelacionado com o sinal original.[0143] Alternatively, this can be achieved by applying a spatial amplification algorithm to the audio channels of the audio element. For an audio object, a de-correlated signal can, for example, be generated, and the output signal (eg, a binaural signal) can be generated as a combination of the de-correlated signal with the original signal.

[0144] O algoritmo para modificar a distribuição de um elemento de áudio é adaptado com base nos dados de mapeamento fornecidos pelo remapeamento de imagens 203. Por exemplo, se o objeto ou segmento visual correspondente da imagem for esticado ou compactado, a distribuição do elemento de áudio também poderá ser respectivamente aumentada. Esse cenário geralmente ocorre para recursos de plano de fundo não salientes da cena.[0144] The algorithm for modifying the distribution of an audio element is adapted based on the mapping data provided by the image remapping 203. For example, if the corresponding object or visual segment of the image is stretched or compressed, the element distribution of audio can also be respectively increased. This scenario typically occurs for background features that do not protrude from the scene.

[0145] Como um exemplo de baixa complexidade, conforme ilustrado nas Figuras 3 e 4, o aparelho pode renderizar um objeto de áudio como tendo uma distribuição média, mediante sua renderização a partir de quatro posições diferentes e renderização de um objeto de áudio como tendo uma grande distribuição média mediante sua renderização a partir de quatro posições diferentes que são mais distribuídas e podem, além disso, adicionar decorrelação entre as diferentes posições. O objeto de áudio no segundo exemplo será percebido como tendo uma distribuição muito maior do que no primeiro exemplo.[0145] As an example of low complexity, as illustrated in Figures 3 and 4, the device can render an audio object as having an average distribution, by rendering it from four different positions and rendering an audio object as having a large average distribution by rendering it from four different positions that are more distributed and can further add decorrelation between the different positions. The audio object in the second example will be perceived as having a much larger distribution than in the first example.

[0146] Em muitas modalidades, a modificação espacial do elemento de áudio pode depender também das propriedades acústicas/de áudio dos elementos de áudio, por exemplo, as propriedades de áudio podem ser avaliadas para decidir se a propriedade espacial deve ser alterada e como isso deve ser feito. Dessa forma, em muitas modalidades, a modificação espacial dos elementos de áudio pode depender de uma característica do áudio representada pelo elemento de áudio.[0146] In many modalities, the spatial modification of the audio element can also depend on the acoustic/audio properties of the audio elements, for example, the audio properties can be evaluated to decide if the spatial property should be changed and how. must be done. Thus, in many modalities, the spatial modification of audio elements may depend on an audio characteristic represented by the audio element.

[0147] Em particular, em muitas modalidades, a modificação espacial de um determinado elemento de áudio executada pelo remapeador de áudio 207 pode depender do grau de distribuição espacial do elemento de áudio. Dessa forma, a modificação espacial pode depender do grau de localização ou da extensão espacial do elemento de áudio. Isso pode, por exemplo, ser representado ou estimado pelo grau de difusão do elemento de áudio. Quanto mais difuso for o áudio renderizado pelo renderizador de áudio 209, menos a fonte de áudio correspondente a esse elemento de áudio será percebida como estando em um local específico e mais ela será percebida como sendo distribuída ao longo de uma área maior.[0147] In particular, in many embodiments, the spatial modification of a particular audio element performed by the audio remapper 207 may depend on the degree of spatial distribution of the audio element. Thus, the spatial modification may depend on the degree of location or the spatial extent of the audio element. This can, for example, be represented or estimated by the degree of diffusion of the audio element. The more diffuse the audio rendered by the audio renderer 209, the less the audio source corresponding to that audio element will be perceived as being in a specific location and the more it will be perceived as being distributed over a larger area.

[0148] Em algumas modalidades, o remapeador de áudio 207 pode ser disposto de modo a aplicar, por exemplo, uma mudança maior na posição para um grau maior de distribuição espacial do elemento de áudio. Por exemplo, um elemento de áudio com um alto grau de distribuição pode ser movido mais para o lado após uma alteração na razão de aspecto para fornecer uma impressão espacial mais ampla que pode corresponder ao maior ângulo de visão. Por exemplo, um monitor mais amplo pode se beneficiar do áudio gerado que se estende ainda mais para o lado e com mais fontes de áudio posicionadas ao lado do ouvinte, em vez de na frente. No entanto, uma maior consistência entre áudio e vídeo é mantida se essa maior largura do estágio de som for alcançada por fontes de áudio que não estejam associadas a posições específicas, estreitas e bem definidas, mas sim a fontes de áudio que não estejam diretamente vinculadas a posições específicas na cena de áudio.[0148] In some embodiments, the audio remapper 207 can be arranged to apply, for example, a larger shift in position to a greater degree of spatial distribution of the audio element. For example, an audio element with a high degree of distribution can be moved further to the side after an aspect ratio change to provide a wider spatial impression that can match the wider viewing angle. For example, a wider monitor can benefit from generated audio that extends further to the side and with more audio sources positioned to the side of the listener rather than in front. However, greater consistency between audio and video is maintained if this greater sound stage width is achieved by audio sources that are not associated with specific, narrow, well-defined positions, but rather with audio sources that are not directly linked to specific positions in the audio scene.

[0149] Em muitas modalidades, o remapeador de áudio 207 é disposto de modo a reduzir o nível de alteração na posição de um elemento de áudio em resposta a um grau crescente de distribuição espacial para o elemento de áudio. Isso pode, por exemplo, ser particularmente adequado para elementos de áudio que estão diretamente vinculados a objetos de imagem que são movidos pelo remapeamento de imagens 203. Por exemplo, um objeto de áudio específico, bem definido e localizado pode ser movido para corresponder diretamente à nova posição. No entanto, se o objeto de imagem estiver vinculado a um elemento de áudio que é mais difuso e distribuído ao longo de um domínio maior, o remapeador de áudio 207 poderá reduzir a alteração de posição. Por exemplo, a nova posição pode ser determinada como estando em algum lugar entre a posição original e a posição modificada. Isso pode, em muitos cenários, fornecer uma percepção aprimorada, pois pode fornecer um melhor comprometimento entre o estágio original do som e o estágio modificado do som. Isso pode, por exemplo, refletir que há um vínculo perceptivo reduzido entre um objeto de imagem específico e o som vinculado a esse objeto de imagem para uma maior distribuição do áudio.[0149] In many embodiments, the audio remapper 207 is arranged to reduce the level of change in the position of an audio element in response to an increasing degree of spatial distribution for the audio element. This can, for example, be particularly suitable for audio elements that are directly linked to image objects that are moved by remapping images 203. For example, a specific, well-defined and localized audio object can be moved to directly match the new position. However, if the image object is linked to an audio element that is more diffuse and spread over a larger domain, the audio remapper 207 can reduce the position shift. For example, the new position can be determined to be somewhere between the original position and the modified position. This can, in many scenarios, provide improved perception as it can provide a better compromise between the original sound stage and the modified sound stage. This may, for example, reflect that there is a reduced perceptual link between a specific image object and the sound linked to that image object for greater audio distribution.

[0150] De fato, em muitas modalidades, o remapeador de áudio 207 pode ser disposto de modo a selecionar se se deseja aplicar uma modificação à propriedade espacial ou não dependendo do grau de distribuição espacial. Por exemplo, para os elementos de áudio que têm uma medida de distribuição que está abaixo de um determinado limite, pode ser considerado vinculado suficientemente de modo rigoroso a um objeto de cena específico de modo que quando o objeto de imagem correspondente ao objeto de cena é movido pelo remapeador de imagens 203, o elemento de áudio é movido de forma correspondente para manter a rigorosa correspondência entre o objeto de imagem e o objeto de áudio, ou seja, entre a experiência visual e de áudio. Entretanto, para um elemento de áudio para o qual a medida de distribuição está acima do limite, nenhuma modificação de posição pode ser introduzida pelo remapeador de áudio 207. Isso pode resultar em o elemento de áudio ser renderizado para ser percebido como sendo da posição original em vez de ser da nova posição do objeto de imagem, mas como a percepção da posição será difusa e imprecisa, qualquer inconsistência entre o lado visual e o lado de áudio pode ser insignificante e pode ser sobrepujada pela probabilidade de fornecer uma maior consistência entre elementos de áudio, como especificamente entre fontes de áudio ambiente. Assim, isso pode fornecer uma consistência aprimorada do estágio de áudio renderizado.[0150] In fact, in many embodiments, the audio remapper 207 can be arranged to select whether to apply a modification to the spatial property or not depending on the degree of spatial distribution. For example, for audio elements that have a distribution measure that is below a certain threshold, it can be considered sufficiently tightly linked to a specific scene object so that when the image object corresponding to the scene object is moved by the image remapper 203, the audio element is correspondingly moved to maintain the strict correspondence between the image object and the audio object, that is, between the visual and audio experience. However, for an audio element for which the distribution measure is above the threshold, no position modification can be introduced by the audio remapper 207. This can result in the audio element being rendered to be perceived as being of the original position rather than being from the image object's new position, but as the perception of the position will be fuzzy and imprecise, any inconsistencies between the visual side and the audio side may be insignificant and may be outweighed by the probability of providing greater consistency between elements such as specifically between ambient audio sources. Thus, this can provide improved consistency of the rendered audio stage.

[0151] Em algumas modalidades, o remapeador de áudio 207 pode ser disposto de modo a modificar a propriedade espacial em resposta a se o primeiro elemento de áudio é designado como áudio de plano de fundo ou não. Por exemplo, os elementos de áudio podem ser divididos em duas categorias que correspondem a objetos de primeiro plano e a objetos de plano de fundo, e os elementos de áudio das duas categorias podem ser processados de forma diferente. Como exemplo de baixa complexidade, todos os elementos de áudio categorizados como objetos de primeiro plano podem ser reposicionados para corresponder diretamente ao reposicionamento dos elementos de imagem correspondentes, enquanto nenhuma alteração de posição pode ser aplicada a elementos de áudio categorizados como elementos de plano de fundo. Isso pode, em muitos cenários, proporcionar uma experiência de percepção aprimorada.[0151] In some embodiments, the audio remapper 207 can be arranged to modify the spatial property in response to whether the first audio element is designated as background audio or not. For example, audio elements can be divided into two categories that correspond to foreground objects and background objects, and audio elements from the two categories can be processed differently. As an example of low complexity, all audio elements categorized as foreground objects can be repositioned to directly match the repositioning of the corresponding image elements, while no position changes can be applied to audio elements categorized as background elements . This can, in many scenarios, provide an enhanced sensing experience.

[0152] Dessa forma, pode ser feita uma distinção entre os elementos de áudio “de primeiro plano” e “de plano de fundo”. Os elementos de áudio de “primeiro plano” podem ser determinados como elementos de áudio distintos e localizados, enquanto os elementos de áudio de “plano de fundo” podem ser determinados como elementos de áudio não localizados, como sons “ambiente” ou música de fundo. Por exemplo, em um caso de uso de áudio baseado em objeto, uma distinção pode ser feita entre fontes (pontuais) altamente localizadas que podem ser consideradas como correspondendo a elementos de “primeiro plano” e objetos não localizados (ou seja, difusos) que podem ser considerados como correspondendo a elementos de “plano de fundo”.[0152] In this way, a distinction can be made between “foreground” and “background” audio elements. "Foreground" audio elements can be determined as distinct and localized audio elements, while "background" audio elements can be determined as nonlocalized audio elements, such as "ambient" sounds or background music . For example, in an object-based audio use case, a distinction can be made between highly localized (point) sources that can be considered to correspond to “foreground” elements and non-localized (i.e., fuzzy) objects that can be considered as corresponding to “background” elements.

[0153] Em outras modalidades, a categorização como elementos de áudio de “primeiro plano” ou “plano de fundo” pode ser baseada em indicações explícitas no fluxo de bits recebido, por exemplo, metadados podem ser fornecidos para cada elemento de áudio indicando se este é um objeto de áudio de primeiro plano ou de plano de fundo. De fato, vários formatos de áudio padronizados já fornecem elementos de metadados para sinalizar que um objeto de áudio é uma fonte de som pontual ou difusa, que pode ser utilizada como uma indicação de se o objeto de áudio é um objeto de áudio de primeiro plano ou de plano de fundo.[0153] In other embodiments, categorization as "foreground" or "background" audio elements may be based on explicit indications in the received bit stream, eg metadata may be provided for each audio element indicating whether this is a foreground or background audio object. In fact, several standardized audio formats already provide metadata elements to signal that an audio object is a punctual or diffuse sound source, which can be used as an indication of whether the audio object is a foreground audio object or background.

[0154] Como mencionado, o remapeador de áudio 207 pode simplesmente considerar que somente os elementos de áudio de primeiro plano devem ser submetidos a um possível remapeamento de posição, enquanto a distribuição espacial dos sons de plano de fundo/elementos de áudio pode ser mantida sem modificações. Deve-se reconhecer que, em outras realizações, outras adaptações podem ser usadas, por exemplo, um efeito de ampliação ou maior difusão pode ser adicionado aos elementos de áudio de plano de fundo, mas não aos elementos de áudio de primeiro plano.[0154] As mentioned, the audio remapper 207 can simply consider that only the foreground audio elements should be subjected to a possible position remapping, while the spatial distribution of the background sounds/audio elements can be maintained without modification. It should be recognized that, in other embodiments, other adaptations can be used, for example, a magnification or widening effect can be added to the background audio elements but not to the foreground audio elements.

[0155] Em algumas modalidades, o remapeador de áudio 207 pode ser disposto de modo a modificar a propriedade espacial em resposta a um tipo de áudio do primeiro elemento de áudio. O tipo de áudio pode ser determinado especificamente como um tipo a partir de um grupo que compreende pelo menos um objeto de áudio, um canal de áudio e um elemento de áudio ambissônico de ordem superior.[0155] In some embodiments, the audio remapper 207 can be arranged to modify the spatial property in response to an audio type of the first audio element. The audio type can be specifically determined as a type from a group comprising at least one audio object, one audio channel, and one higher-order ambisonic audio element.

[0156] Por exemplo, os objetos de áudio são frequentemente utilizados para representar fontes de áudio individuais e específicas, enquanto os canais de áudio e os ambissônicos são utilizados para representar um áudio mais ambiente, incluindo uma pluralidade (e tipicamente muitas) fontes de áudio diferentes. Portanto, os objetos de áudio podem, por exemplo, em algumas modalidades, estar sujeitos a uma alteração na posição correspondente à alteração da razão de aspecto, enquanto os canais de áudio e/ou os elementos ambissônicos podem ser deixados sem modificações.[0156] For example, audio objects are often used to represent individual and specific audio sources, while audio and ambisonic channels are used to represent more ambient audio, including a plurality (and typically many) audio sources many different. Therefore, audio objects can, for example, in some modalities, be subject to a change in position corresponding to the change in aspect ratio, while audio channels and/or ambisonic elements can be left unmodified.

[0157] Como outro exemplo, em algumas modalidades, o remapeador de áudio 207 pode ser disposto de modo a aplicar uma ampliação espacial não uniforme a elementos de áudio que são canais de áudio, enquanto nenhuma ampliação espacial é aplicada a objetos de áudio.[0157] As another example, in some embodiments, the audio remapper 207 can be arranged to apply non-uniform spatial magnification to audio elements that are audio channels, while no spatial magnification is applied to audio objects.

[0158] Em um caso de uso híbrido em que o elemento de áudio pode compreender objetos de áudio e elementos de áudio baseados em canais e/ou cena (por exemplo, ambissônicos de ordem superior), uma distinção pode ser feita entre, por um lado, objetos (“primeiro plano”) e, por outro lado, elementos baseados em canais/cena (“plano de fundo”). Como um refinamento disso, para os objetos de áudio, uma distinção também pode ser feita entre fontes pontuais e difusas, conforme descrito acima. Da mesma forma, elementos baseados em cena, como elementos ambissônicos de ordem superior, podem ser separados em componentes “primários” e “ambientais”. Essas diferentes categorias podem, então, ser processadas de forma diferente pelo remapeador de áudio 207.[0158] In a hybrid use case where the audio element may comprise audio objects and audio elements based on channels and/or scene (eg higher order ambisonics), a distinction can be made between, by a on the one hand, objects (“foreground”) and, on the other hand, channel/scene-based elements (“background”). As a refinement of this, for audio objects, a distinction can also be made between point and diffuse sources, as described above. Likewise, scene-based elements, such as higher-order ambisonic elements, can be separated into “primary” and “environmental” components. These different categories can then be processed differently by the audio remapper 207.

[0159] Por exemplo, os objetos de áudio podem ser renderizados de acordo com os dados de mapeamento de sua primeira posição correspondente em relação à imagem, enquanto os canais de áudio, como os canais frontais esquerdo e direito, são renderizados em ângulos maiores ou menores do que suas posições nominais, dependendo de uma alteração de posição média ou máxima resultante da alteração de razão de aspecto. Os elementos ambissônicos de ordem superior (“HOA” - Higher Order Ambisonics) podem ser renderizados sem modificações ou com o mínimo de estiramento espacial ou compressão para evitar artefatos. Os elementos HOA podem ser convertidos em componentes direcionais para renderização com HRTFs ou algoritmos de renderização de alto-falantes, como VBAP. Os sinais do componente direcional de estágio frontal podem ser renderizados em ângulos mais amplos ou mais estreitos para esticar ou comprimir o estágio frontal de acordo com a alteração da razão de aspecto. Se os componentes direcionais HOA tiverem uma resolução espacial suficiente, as atualizações da posição de renderização podem ser variadas para corresponder à variação de remapeamento espacial da imagem.[0159] For example, audio objects can be rendered according to the mapping data of their corresponding first position in relation to the image, while audio channels, such as the front left and right channels, are rendered at larger angles or smaller than their nominal positions, depending on an average or maximum position change resulting from the aspect ratio change. Higher Order Ambisonics (“HOA”) elements can be rendered unmodified or with minimal spatial stretch or compression to avoid artifacts. HOA elements can be converted to directional components for rendering with HRTFs or loudspeaker rendering algorithms such as VBAP. Front stage directional component signals can be rendered at wider or narrower angles to stretch or compress the front stage according to changing the aspect ratio. If the HOA directional components have sufficient spatial resolution, the render position updates can be varied to match the spatial remapping variation of the image.

[0160] As posições renderizadas dos componentes direcionais fora do estágio frontal podem ser deixadas inalteradas ou podem ser renderizadas em ângulos mais amplos menores ou mais estreitos, similar ao que acontece com o estágio frontal, para se obter um esmorecimento espacial do efeito de estiramento/compressão em direção a posições mais distantes do estágio frontal.[0160] The rendered positions of the directional components outside the front stage can be left unchanged or can be rendered at smaller or narrower wider angles, similar to what happens with the front stage, to obtain a spatial fading of the stretch effect / compression towards positions further away from the front stage.

[0161] O estágio frontal pode ser definido como a parte do espaço 3D que é visível pelo usuário. Por exemplo, a parte que é exibida no monitor 2D ou HMD.[0161] The front stage can be defined as the part of 3D space that is visible to the user. For example, the part that is displayed on the 2D or HMD monitor.

[0162] Em algumas modalidades, o remapeador de áudio 207 pode ser disposto de modo a modificar a propriedade espacial em resposta a se o primeiro elemento de áudio está vinculado a um objeto de imagem na primeira imagem ou não. Por exemplo, se o fluxo de dados for composto por metadados que indicam que um determinado elemento de áudio está vinculado a um objeto de imagem específico (ou mesmo que ele tem apenas um objeto de imagem correspondente na imagem sem qualquer indicação adicional do que é essa imagem), o remapeador de áudio 207 pode modificar a posição espacial do elemento de áudio para que ele siga o segmento de imagem que tem uma posição correspondente na imagem de entrada original. No entanto, para elementos de áudio que não estão vinculados a objetos na imagem, o remapeador de áudio 207 pode prosseguir para não modificar nenhuma posição, mas possivelmente aumentar a distribuição espacial/difusão. Isso pode ser benéfico, pois uma maior distribuição difunde a localização do objeto e, portanto, reduz a probabilidade de uma incompatibilidade com uma potencial contrapartida visual que é modificada pelo remapeador de imagens.[0162] In some embodiments, the audio remapper 207 can be arranged to modify the spatial property in response to whether the first audio element is linked to an image object in the first image or not. For example, if the data stream is composed of metadata that indicates that a certain audio element is linked to a specific image object (or even that it only has a corresponding image object in the image without any further indication of what that is. image), the audio remapper 207 can modify the spatial position of the audio element so that it follows the image segment that has a corresponding position in the original input image. However, for audio elements that are not linked to objects in the image, the audio remapper 207 can proceed to not change any position but possibly increase the spatial distribution/spread. This can be beneficial as a wider distribution diffuses the object's location and therefore reduces the likelihood of a mismatch with a potential visual counterpart that is modified by the image remapper.

[0163] Em algumas modalidades, a modificação do remapeador de áudio 207 pode ser baseada em uma indicação explícita no fluxo de bits de que um elemento de áudio específico (por exemplo, um objeto de áudio) está vinculado a um elemento visual específico (por exemplo, um objeto visual) na imagem visual. Dessa forma, é possível identificar elementos de áudio que devem ser modificados de acordo com um possível remapeamento do objeto visual vinculado. Portanto, nesse caso, um elemento de áudio pode ser modificado e remapeado somente se o elemento visual vinculado for remapeado pelo algoritmo de upscaling de vídeo inteligente executado pelo remapeador de imagens 203. Os elementos de áudio que não estão vinculados a nenhum elemento visual ou os elementos de áudio que estão vinculados a elementos visuais que não são remapeados pelo algoritmo de upscaling de vídeo inteligente do remapeador de imagens 203 podem não ser remapeados neste exemplo.[0163] In some embodiments, the modification of the 207 audio remapper may be based on an explicit indication in the bitstream that a specific audio element (for example, an audio object) is linked to a specific visual element (by example, a visual object) in the visual image. In this way, it is possible to identify audio elements that must be modified according to a possible remapping of the linked visual object. So, in this case, an audio element can be modified and remapped only if the linked visual is remapped by the intelligent video upscaling algorithm performed by the 203 image remapper. audio elements that are linked to visual elements that are not remapped by the image remapper 203 intelligent video upscaling algorithm might not be remapped in this example.

[0164] Em uma variação deste exemplo, a indicação explícita no fluxo de bits pode, menos especificamente, simplesmente indicar que um elemento de áudio está “relacionado à tela” (o que implica que um upscaling da imagem visual deve resultar em um remapeamento similar desse elemento de áudio).[0164] In a variation of this example, explicit indication in the bitstream may, less specifically, simply indicate that an audio element is "screen-related" (which implies that an upscaling of the visual image should result in a similar remapping of that audio element).

[0165] Em algumas modalidades, o remapeador de áudio 207 pode ser disposto para modificar a propriedade espacial em resposta a uma propriedade do monitor utilizada para renderizar a segunda imagem. Além de adaptar indiretamente o processamento dependente da razão de aspecto do monitor por meio dos dados de mapeamento do remapeador de imagens 203, o remapeador de áudio 207 também pode considerar outras propriedades do monitor, como especificamente o tamanho do monitor.[0165] In some embodiments, the audio remapper 207 may be arranged to modify the spatial property in response to a monitor property used to render the second image. In addition to indirectly adapting the monitor's aspect-ratio-dependent processing through the mapping data of the image remapper 203, the audio remapper 207 can also consider other monitor properties, such as specifically the monitor size.

[0166] Por exemplo, em muitas modalidades, o remapeador de áudio 207 pode receber dados que indicam o tamanho do monitor. Se o monitor for um monitor pequeno destinado à visualização a certa distância, o remapeador de áudio 207 pode ser disposto de modo a não aumentar a distribuição espacial (ou pode até reduzir a mesma) mesmo para áudio de plano de fundo e ambiente. Entretanto, se o monitor for grande, o remapeador de áudio 207 pode aumentar substancialmente a distribuição espacial (por exemplo,[0166] For example, in many embodiments, the audio remapper 207 can receive data indicating the size of the monitor. If the monitor is a small monitor intended for viewing from a distance, the audio remapper 207 can be arranged so as not to increase the spatial distribution (or may even reduce it) even for background and ambient audio. However, if the monitor is large, the 207 audio remapper can substantially increase the spatial distribution (eg,

aumentar a difusão ou realizar ampliação espacial). Dessa forma, para um monitor pequeno, uma experiência de áudio pode ser fornecida, a qual é percebida como menos expansiva do que para um monitor grande, correspondendo, assim, com a experiência visual.increase diffusion or perform spatial expansion). In this way, for a small monitor, an audio experience can be provided which is perceived as less expansive than for a large monitor, thus corresponding with the visual experience.

[0167] Em algumas modalidades, o remapeador de áudio 207 pode ser disposto de modo a modificar a propriedade espacial em resposta a uma posição do espectador em relação ao monitor. O remapeador de áudio 207 pode, por exemplo, adaptar o processamento para refletir a orientação e a posição do usuário em relação ao monitor de modo que o áudio renderizado é percebido como proveniente da posição apropriada. Por exemplo, se o usuário estiver localizado na lateral do monitor e visualizar o monitor em um ângulo, o posicionamento das fontes de áudio poderá ser corrigido para refletir isso.[0167] In some embodiments, the audio remapper 207 can be arranged to modify the spatial property in response to a viewer's position in relation to the monitor. The audio remapper 207 can, for example, adapt the processing to reflect the user's orientation and position relative to the monitor so that rendered audio is perceived as coming from the proper position. For example, if the user is located on the side of the monitor and views the monitor at an angle, the placement of audio sources can be corrected to reflect this.

[0168] Como outro exemplo, a distância da posição do espectador até o monitor pode ser considerada. Por exemplo, para um usuário sentado perto do monitor, a posição da maioria dos elementos de áudio, incluindo muito mais elementos de áudio difusos, pode ser modificada para seguir as alterações correspondentes na posição da imagem. Isso pode possibilitar uma correspondência mais próxima entre a experiência visual e a experiência de áudio, pois sons ainda mais difusos são percebidos como provenientes da parte “direita” do monitor. No entanto, para um usuário posicionado mais longe do monitor, pode não ser possível diferenciar o áudio proveniente de diferentes partes do monitor e pode ser mais atraente gerar uma experiência de uso que forneça uma maior cena de áudio do que aquela que corresponde diretamente ao tamanho do monitor.[0168] As another example, the distance from the viewer's position to the monitor can be considered. For example, for a user sitting close to the monitor, the position of most audio elements, including many more fuzzy audio elements, can be modified to follow corresponding changes in image position. This can allow for a closer match between the visual experience and the audio experience as even more diffuse sounds are perceived as coming from the “right” part of the monitor. However, for a user positioned further away from the monitor, it may not be possible to differentiate the audio coming from different parts of the monitor and it may be more attractive to generate a user experience that provides a larger audio scene than one that directly matches the size of the monitor.

Portanto, a ampliação espacial e outros algoritmos para aumentar a distribuição espacial de um áudio mais ambiente podem ser aplicados pelo remapeador de áudio 207, resultando em uma experiência mais imersiva.Therefore, spatial magnification and other algorithms to increase the spatial distribution of more ambient audio can be applied by Audio Remapper 207, resulting in a more immersive experience.

[0169] O tamanho do monitor e/ou a posição do espectador podem, por exemplo, ser utilizados para estimar ou determinar uma janela de visão ou abertura para o espectador. O remapeador de áudio 207 pode adaptar o processamento com base nessa janela de visão. A adaptação pode, adicional ou alternativamente, depender da posição do elemento de áudio em relação à janela de visão da primeira imagem.[0169] The size of the monitor and/or the position of the viewer can, for example, be used to estimate or determine a viewing window or opening for the viewer. Audio Remapper 207 can adapt processing based on this viewport. The fit may additionally or alternatively depend on the position of the audio element in relation to the viewport of the first image.

[0170] Por exemplo, os elementos de áudio que estão posicionados fora da janela de visão original podem não ser modificados, enquanto o elemento de áudio dentro da janela de visão é modificado para refletir as alterações no remapeamento da razão de aspecto. Por exemplo, objetos de áudio que são posicionados atrás ou acima do usuário podem não ser modificados. Outro exemplo é um componente de áudio ambiente que está presente em torno do usuário, por exemplo, um elemento ambiente HOA. Isso não requer que o componente de ambiente seja o mesmo em todas as direções. Ele pode ser, por exemplo, um elemento HOA que contém uma gravação 3D completa da ambiência do plano de fundo de um restaurante).[0170] For example, audio elements that are positioned outside the original viewport may not be modified, while the audio element within the viewport is modified to reflect the aspect ratio remapping changes. For example, audio objects that are placed behind or above the user may not be modified. Another example is an ambient audio component that is present around the user, for example an ambient HOA element. This does not require the environment component to be the same in all directions. It could be, for example, an HOA element that contains a complete 3D recording of a restaurant's background ambiance).

[0171] Deve-se considerar que, para maior clareza, a descrição acima descreveu as modalidades da invenção com referência a diferentes circuitos, unidades e processadores funcionais. Entretanto, ficará evidente que qualquer distribuição adequada de funcionalidade entre os diferentes circuitos, unidades ou processadores funcionais pode ser usada sem se desviar da invenção. Por exemplo, a funcionalidade ilustrada a ser executada por processadores ou controladores separados pode ser executada pelo mesmo processador ou pelos mesmos controladores. Por isso, as referências a unidades ou circuitos funcionais específicos devem ser consideradas apenas como referências a meios adequados para fornecer a funcionalidade descrita e não como indicativas de uma estrutura ou organização lógica ou física estrita.[0171] It should be considered that, for clarity, the above description described the embodiments of the invention with reference to different circuits, units and functional processors. However, it will be evident that any suitable distribution of functionality between different functional circuits, units or processors can be used without departing from the invention. For example, illustrated functionality being performed by separate processors or controllers may be performed by the same processor or by the same controllers. Therefore, references to specific functional units or circuits should be considered only as references to suitable means of providing the described functionality and not as indicative of a strict logical or physical structure or organization.

[0172] A invenção pode ser implementada em qualquer forma adequada, incluindo hardware, software, firmware ou qualquer combinação dos mesmos. A invenção pode, opcionalmente, ser implementada ao menos parcialmente como software de computador que é executado em um ou mais processadores de dados e/ou processadores de sinal digital. Os elementos e componentes de uma modalidade da invenção podem ser física, funcional e logicamente implementados de qualquer forma adequada. De fato, a funcionalidade pode ser implementada em uma unidade única, em uma pluralidade de unidades ou como parte de outras unidades funcionais. Assim, a invenção pode ser implementada em uma unidade única ou pode ser distribuída física e funcionalmente entre diferentes unidades, circuitos e processadores.[0172] The invention may be implemented in any suitable form, including hardware, software, firmware or any combination thereof. The invention may optionally be implemented at least partially as computer software that runs on one or more data processors and/or digital signal processors. The elements and components of an embodiment of the invention may be physically, functionally and logically implemented in any suitable way. In fact, functionality can be implemented in a single unit, in a plurality of units, or as part of other functional units. Thus, the invention can be implemented in a single unit or it can be physically and functionally distributed among different units, circuits and processors.

[0173] Embora a presente invenção tenha sido descrita em conexão com algumas modalidades, não se pretende limitá-la à forma específica aqui apresentada. Ao invés disso, o escopo da presente invenção é limitado apenas pelas reivindicações em anexo. Adicionalmente, embora possa parecer que um recurso é descrito em conexão com modalidades específicas, o versado na técnica reconhecerá que vários recursos das modalidades descritas podem ser combinados de acordo com a invenção. Nas reivindicações, o termo “que compreende” não exclui a presença de outros elementos ou outras etapas.[0173] Although the present invention has been described in connection with some embodiments, it is not intended to limit it to the specific form presented here. Rather, the scope of the present invention is limited only by the appended claims. Additionally, although it may appear that a feature is described in connection with specific embodiments, one skilled in the art will recognize that various features of the described embodiments may be combined in accordance with the invention. In the claims, the term “comprising” does not exclude the presence of other elements or other steps.

[0174] Além disso, embora individualmente mencionados, uma pluralidade de meios, elementos, circuitos ou etapas de métodos podem ser implementados, por exemplo, por meio de um único circuito, uma única unidade ou um único processador.[0174] Furthermore, although individually mentioned, a plurality of means, elements, circuits or method steps can be implemented, for example, by means of a single circuit, a single unit or a single processor.

Adicionalmente, embora recursos individuais possam estar incluídos em reivindicações diferentes, eles podem ser vantajosamente combinados, e sua inclusão em reivindicações diferentes não implica que uma combinação de recursos não seja viável e/ou vantajosa.Additionally, although individual features may be included in different claims, they may be advantageously combined, and their inclusion in different claims does not imply that a combination of features is not feasible and/or advantageous.

Além disso, a inclusão de um recurso em uma categoria de reivindicações não implica na limitação a tal categoria, mas, ao invés disso, indica que o recurso é igualmente aplicável a outras categorias das reivindicações, conforme for adequado.In addition, the inclusion of an appeal in a category of claims does not imply limitation to that category, but rather indicates that the appeal is equally applicable to other categories of claims, as appropriate.

Além disso, a ordem dos recursos nas reivindicações não implica em nenhuma ordem específica na qual os recursos precisam ser trabalhados e, em particular, a ordem das etapas individuais em uma reivindicação de método não implica que as etapas precisam ser executadas nessa ordem.Furthermore, the order of features in claims does not imply any specific order in which the features need to be worked and, in particular, the order of individual steps in a method claim does not imply that the steps need to be performed in that order.

As etapas podem, na verdade, ser executadas em qualquer ordem adequada.The steps can actually be performed in any suitable order.

Além disso, referências no singular não excluem uma pluralidade.Furthermore, singular references do not exclude a plurality.

Dessa forma, as referências a “um(a)”, “uns/umas”, “primeiro(a)”, “segundo(a)” etc., não excluem uma pluralidade.Thus, references to “a”, “some”, “first”, “second”, etc., do not exclude a plurality.

Os sinais de referência nas reivindicações são fornecidos meramente como exemplos esclarecedores e não devem ser interpretados como limitadores do escopo das reivindicações de forma alguma.Reference signs in the claims are provided merely as illustrative examples and are not to be construed as limiting the scope of the claims in any way.

Claims

1. APPARATUS FOR PROCESSING AUDIOVISUAL DATA FOR A SCENE, characterized in that it comprises: a receiver (201) for receiving audiovisual data for the scene, the audiovisual data comprising audio data for the scene comprising a plurality of audio and data elements image for at least one first image of the scene, the first image having a first aspect ratio; an image remapper (203) for performing content-dependent non-uniform mapping of the first image to a second image with a second aspect ratio, the second aspect ratio being different from the first aspect ratio, and the image remapping ( 203) is arranged to generate mapping data describing the content-dependent non-uniform mapping; and an audio remapper (207) arranged to replace a first audio element of the plurality of audio elements with a second audio element generated by modifying a spatial property for the first audio element based on the mapping data.

Apparatus according to claim 1, characterized in that the audio remapper (207) is arranged to generate the second audio element by modifying a spatial position property of the first audio element in response to the mapping data.

3. APPARATUS according to any one of claims 1 or 2, characterized in that the audio remapper (207) is arranged to generate the second audio element by changing a spatial position to the first audio element of a corresponding position to an image position in the first aspect ratio to an image position in the second image.

Apparatus according to any one of claims 1 to 3, characterized in that the audio remapper (207) is arranged to generate the second audio element by modifying a spatial distribution property of the first audio element in response to the mapping data.

APPARATUS according to any one of claims 1 to 4, characterized in that the audio remapper (207) is arranged to generate the second audio element by modifying the spatial property in response to an audio property of the first element of audio.

Apparatus according to claim 5, characterized in that the acoustic property comprises a degree of spatial distribution for the first audio element.

Apparatus according to claim 6, characterized in that the audio remapper (207) is arranged to reduce a change in position between the second audio element and the first audio element to an increasing degree of spatial distribution to the first audio element.

8. APPARATUS according to any one of claims 6 or 7, characterized in that the audio remapper (207) is arranged to select whether or not the modification should be applied to the spatial property depending on the degree of spatial distribution.

9. APPARATUS according to any one of claims 1 to 8, characterized by the audio remapper

(207) be arranged to modify the spatial property in response to an audio type of the first audio element.

10. APPARATUS according to any one of claims 1 to 9, characterized in that the audio remapper (207) is arranged to modify the spatial property in response to whether or not the first audio element is linked to an image object On the first image.

Apparatus according to any one of claims 1 to 10, characterized in that the audio remapper (207) is arranged to modify the spatial property depending on whether the first audio element is designated as background audio or not .

Apparatus according to any one of claims 1 to 11, characterized in that the audio remapper (207) is arranged to modify the spatial property in response to a property of a monitor to render the second image.

Apparatus according to any one of claims 1 to 12, characterized in that the audio remapper (207) is arranged to modify the spatial property in response to a position of the viewer in relation to a monitor to render the second image.

14. METHOD OF PROCESSING AUDIOVISUAL DATA FOR A SCENE, characterized in that it comprises: receiving audiovisual data for the scene, the audiovisual data comprising audio data for the scene comprising a plurality of audio elements and image data for at least a first image of the scene, the first image having a first aspect ratio;

performing a content-dependent non-uniform mapping of the first image to a second image with a second aspect ratio, where the second aspect ratio is different from the first aspect ratio, and the content-dependent non-uniform mapping comprises data generation of mappings that describe content-dependent non-uniform mapping; and replacing a first audio element of the plurality of audio elements with a second audio element generated by modifying a spatial property for the first audio element based on the mapping data.

15. COMPUTER PROGRAM PRODUCT, characterized in that it comprises computer program code means adapted to perform all the steps as defined in claim 14 when said program is executed on a computer.