BR112016030349B1 - Aparelho e método de processamento de informação - Google Patents

Aparelho e método de processamento de informação Download PDF

Info

Publication number
BR112016030349B1
BR112016030349B1 BR112016030349-0A BR112016030349A BR112016030349B1 BR 112016030349 B1 BR112016030349 B1 BR 112016030349B1 BR 112016030349 A BR112016030349 A BR 112016030349A BR 112016030349 B1 BR112016030349 B1 BR 112016030349B1
Authority
BR
Brazil
Prior art keywords
audio
group
file
track
information
Prior art date
Application number
BR112016030349-0A
Other languages
English (en)
Inventor
Mitsuhiro Hirabayashi
Yuki Yamamoto
Toru Chinen
Runyu Shi
Original Assignee
Sony Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corporation filed Critical Sony Corporation
Publication of BR112016030349B1 publication Critical patent/BR112016030349B1/pt

Links

Abstract

APARELHO E MÉTODO DE PROCESSAMENTO DE INFORMAÇÃO A presente invenção refere-se a um processador de informação e um método de processamento de informação no qual um tipo prescrito de dados de áudio pode ser facilmente reproduzido a partir de múltiplos tipos de dados de áudio. Um dispositivo de criação de arquivo cria arquivos de áudio nos quais um fluxo contínuo de áudio de múltiplos grupos é arranjado como sendo dividido em trilhas para cada grupo ou para cada conjunto de mais de um grupo e informação relacionada a múltiplos grupos é arranjada. A presente invenção pode ser aplicada em um sistema de processamento de informação ou congêneres configurados, por exemplo, a partir de um dispositivo de criação de arquivo para criar arquivos, um servidor da Internet para gravação de arquivos criados pelo dispositivo de criação de arquivo e um terminal de reprodução de vídeo para reproduzir os arquivos.

Description

CAMPO
[001] A presente descrição refere-se a um aparelho de processamento de informação e a um método de processamento de informação e, especialmente, refere-se a um aparelho de processamento de informação e a um método de processamento de formação que habilita a fácil reprodução de dados de áudio de um tipo predeterminado de dados de áudio de uma pluralidade de tipos.
FUNDAMENTOS DA TÉCNICA
[002] Nos últimos anos, a tendência de serviços de transferência contínua na Internet foi vídeo over the top (OTT-V). Uma tecnologia que cresce popular como uma tecnologia básica é transferência contínua adaptativa em fase dinâmica sobre HTTP do grupo de especialistas em imagem em movimento (MPEG-DASH) (por exemplo, veja Documento Não Patente 1).
[003] Em MPEG-DASH, um servidor de distribuição prepara grupos de dados de imagem em movimento com diferentes tamanhos de visor e velocidades de codificação, para uma peça de conteúdo de imagem em movimento e um terminal de reprodução exige o grupo de dados de imagem em movimento com um tamanho de visor ideal e uma velocidade de codificação ideal de acordo com um estado de um caminho de transmissão, de forma que distribuição por transferência contínua adaptativa seja realizada.
LISTA DE CITAÇÃO DOCUMENTO NÃO PATENTE
[004] Documento Não Patente 1: Dynamic Adaptive Streaming over HTTP (MPEG-DASH) (URL:http://mpeg.chiariglione.org/standards/mpeg- dash/media-presentation-description-and-segment-formats/text-isoiec-23009- 12012-dam-1)
SUMÁRIO DA INVENÇÃO PROBLEMAS A SER RESOLVIDOS PELA INVENÇÃO
[005] Entretanto, a fácil reprodução de dados de áudio de um grupo predeterminado, de dados de áudio de uma pluralidade de grupos, não foi considerada.
[006] A presente descrição foi feita em vista do exposto e habilita a fácil reprodução de dados de áudio de um grupo desejado, de dados de áudio de uma pluralidade de grupos.
SOLUÇÃO PARA PROBLEMAS
[007] Um aparelho de processamento de informação de um primeiro aspecto da presente descrição é um aparelho de processamento de informação que inclui uma unidade de geração de arquivo que gera um arquivo no qual dados de áudio de uma pluralidade de tipos são divididos em faixas para cada um ou mais dos tipos e arranjados e informação relacionada à pluralidade de tipos é arranjada.
[008] Um método de processamento de informação do primeiro aspecto da presente descrição corresponde ao aparelho de processamento de informação do primeiro aspecto da presente descrição.
[009] No primeiro aspecto da presente descrição, o arquivo no qual dados de áudio de uma pluralidade de tipos são divididos em faixas para cada um ou mais dos tipos e arranjados e informação relacionada à pluralidade de tipos é arranjada é gerado.
[0010] Um aparelho de processamento de informação de um segundo aspecto da presente descrição é um aparelho de processamento de informação que inclui uma unidade de reprodução que reproduz, a partir de um arquivo no qual dados de áudio de uma pluralidade de tipos são divididos em faixas para cada um ou mais dos tipos e arranjados e informação relacionada à pluralidade de tipos é arranjada, os dados de áudio em uma faixa predeterminada.
[0011] Um método de processamento de informação do segundo aspecto da presente descrição corresponde ao aparelho de processamento de informação do segundo aspecto da presente descrição.
[0012] No segundo aspecto da presente descrição, os dados de áudio de uma faixa predeterminada são reproduzidos a partir do arquivo no qual dados de áudio de uma pluralidade de tipos são divididos em faixas para cada um ou mais dos tipos e arranjados e informação relacionada à pluralidade de tipos é arranjada.
[0013] Note que os aparelhos de processamento de informação do primeiro e do segundo aspectos podem ser realizados fazendo com que um computador execute um programa.
[0014] Adicionalmente, para realizar os aparelhos de processamento de informação do primeiro e do segundo aspectos, o programa executado pelo computador pode ser transmitido através de uma mídia de transmissão, ou pode ser gravado em uma mídia de gravação e provido.
Efeitos da Invenção
[0015] De acordo com o primeiro aspecto da presente descrição, um arquivo pode ser gerado. Adicionalmente, de acordo com o primeiro aspecto da presente descrição, um arquivo que habilita a fácil reprodução de dados de áudio de um tipo predeterminado, de dados de áudio de uma pluralidade de tipos, pode ser gerado.
[0016] De acordo com o segundo aspecto da presente descrição, dados de áudio podem ser reproduzidos. Adicionalmente, de acordo com o segundo aspecto da presente descrição, dados de áudio de um tipo predeterminado, de dados de áudio de uma pluralidade de tipos, podem ser facilmente reproduzidos.
BREVE DESCRIÇÃO DOS DESENHOS
[0017] A figura 1 é um diagrama que ilustra uma estrutura de um arquivo MPD.
[0018] A figura 2 é um diagrama que ilustra o relacionamento entre “Período”, “Representação” e “Segmento”.
[0019] A figura 3 é um diagrama que ilustra uma estrutura hierárquica do arquivo MPD.
[0020] A figura 4 é um diagrama que ilustra o relacionamento entre uma estrutura e um eixo geométrico do tempo do arquivo MPD.
[0021] A figura 5 é um diagrama para descrever um esboço de uma faixa de um formato de arquivo de áudio 3D de MP4.
[0022] A figura 6 é um diagrama que ilustra uma estrutura de uma caixa moov.
[0023] A figura 7 é um diagrama que ilustra uma estrutura hierárquica de áudio 3D.
[0024] A figura 8 é um diagrama para descrever um esboço de um sistema de processamento de informação em uma primeira modalidade na qual a presente descrição é aplicada.
[0025] A figura 9 é um diagrama para descrever um esboço de um primeiro exemplo de uma faixa na primeira modalidade na qual a presente descrição é aplicada.
[0026] A figura 10 é um diagrama que ilustra um exemplo de sintaxe da entrada de amostra de uma faixa de base.
[0027] A figura 11 é um diagrama que ilustra um exemplo de sintaxe da entrada de amostra de uma faixa de um grupo que forma Grupo de comutação.
[0028] A figura 12 é um diagrama que ilustra um primeiro exemplo de uma estrutura de segmento.
[0029] A figura 13 é um diagrama que ilustra um segundo exemplo da estrutura de segmento.
[0030] A figura 14 é um diagrama que ilustra um exemplo de descrição de uma caixa de atribuição de nível.
[0031] A figura 15 é um diagrama que ilustra um primeiro exemplo de descrição do arquivo MPD na primeira modalidade na qual a presente descrição é aplicada.
[0032] A figura 16 é um diagrama de blocos que ilustra um exemplo de configuração de um dispositivo de geração de arquivo da figura 8.
[0033] A figura 17 é um fluxograma para descrever o processamento de geração de arquivo do dispositivo de geração de arquivo da figura 16.
[0034] A figura 18 é um diagrama de blocos que ilustra um exemplo de configuração de uma unidade de reprodução em transferência contínua realizada com um terminal de reprodução de imagem em movimento da figura 8.
[0035] A figura 19 é um fluxograma para descrever o processamento de reprodução da unidade de reprodução em transferência contínua da figura 18.
[0036] A figura 20 é um diagrama para descrever um esboço de um segundo exemplo da faixa na primeira modalidade na qual a presente descrição é aplicada.
[0037] A figura 21 é um diagrama que ilustra um exemplo de sintaxe da entrada do grupo de amostra de uma faixa de um grupo que forma Grupo de comutação.
[0038] A figura 22 é um diagrama que ilustra um exemplo de sintaxe da entrada de amostra de uma faixa de cada um dos grupos.
[0039] A figura 23 é um diagrama para descrever um esboço de um terceiro exemplo da faixa de um arquivo de áudio.
[0040] A figura 24 é um diagrama que ilustra um segundo exemplo de descrição do arquivo MPD.
[0041] A figura 25 é um diagrama que ilustra um outro exemplo do segundo exemplo de descrição do arquivo MPD.
[0042] A figura 26 é um diagrama para descrever um esboço de um quarto exemplo da faixa do arquivo de áudio.
[0043] A figura 27 é um diagrama que ilustra um terceiro exemplo de descrição do arquivo MPD.
[0044] A figura 28 é um diagrama para descrever um esboço de um quinto exemplo da faixa do arquivo de áudio.
[0045] A figura 29 é um diagrama que ilustra um exemplo de sintaxe da entrada de amostra em que 4cc é “mha3”.
[0046] A figura 30 é um diagrama que ilustra um outro exemplo de sintaxe da entrada de amostra em que 4cc é “mha3”.
[0047] A figura 31 é um diagrama que ilustra um quarto exemplo de descrição de um arquivo MPD.
[0048] A figura 32 é um diagrama para descrever um esboço de um outro exemplo do terceiro exemplo da faixa do arquivo de áudio.
[0049] A figura 33 é um diagrama para descrever um esboço de um outro exemplo do quarto exemplo da faixa do arquivo de áudio.
[0050] A figura 34 é um diagrama para descrever um esboço de um outro exemplo do quinto exemplo da faixa do arquivo de áudio.
[0051] A figura 35 é um diagrama para descrever um esboço de um sexto exemplo da faixa do arquivo de áudio.
[0052] A figura 36 é um diagrama que ilustra um exemplo de sintaxe da entrada de amostra de uma faixa de base e uma faixa de grupo da figura 35.
[0053] A figura 37 é um diagrama que ilustra ainda um outro exemplo de sintaxe da entrada de amostra em que 4cc é “mha3”.
[0054] A figura 38 é um diagrama para descrever um esboço de uma faixa em uma segunda modalidade na qual a presente descrição é aplicada.
[0055] A figura 39 é um diagrama que ilustra um primeiro exemplo de descrição de um arquivo MPD na segunda modalidade na qual a presente descrição é aplicada.
[0056] A figura 40 é um diagrama para descrever um esboço de um sistema de processamento de informação na segunda modalidade na qual a presente descrição é aplicada.
[0057] A figura 41 é um diagrama de blocos que ilustra um exemplo de configuração de um dispositivo de geração de arquivo da figura 40.
[0058] A figura 42 é um fluxograma para descrever o processamento de geração de arquivo do dispositivo de geração de arquivo da figura 41.
[0059] A figura 43 é um diagrama de blocos que ilustra um exemplo de configuração de uma unidade de reprodução em transferência contínua realizada com um terminal de reprodução de imagem em movimento da figura 40.
[0060] A figura 44 é um fluxograma para descrever um exemplo de processamento de reprodução da unidade de reprodução em transferência contínua da figura 43.
[0061] A figura 45 é um diagrama que ilustra um segundo exemplo de descrição do arquivo MPD na segunda modalidade na qual a presente descrição é aplicada.
[0062] A figura 46 é um diagrama que ilustra um terceiro exemplo de descrição do arquivo MPD na segunda modalidade na qual a presente descrição é aplicada.
[0063] A figura 47 é um diagrama que ilustra um quarto exemplo de descrição do arquivo MPD na segunda modalidade na qual a presente descrição é aplicada.
[0064] A figura 48 é um diagrama que ilustra um quinto exemplo de descrição do arquivo MPD na segunda modalidade na qual a presente descrição é aplicada.
[0065] A figura 49 é um diagrama que ilustra um sexto exemplo de descrição do arquivo MPD na segunda modalidade na qual a presente descrição é aplicada.
[0066] A figura 50 é um diagrama que ilustra um sétimo exemplo de descrição do arquivo MPD na segunda modalidade na qual a presente descrição é aplicada.
[0067] A figura 51 é um diagrama que ilustra um exemplo de uma estrutura de faixa de um arquivo de áudio que inclui uma pluralidade de faixas de base.
[0068] A figura 52 é um diagrama que ilustra um outro exemplo da estrutura de faixa do arquivo de áudio que inclui a pluralidade de faixas de base.
[0069] A figura 53 é um diagrama de blocos que ilustra um exemplo de configuração de hardware de um computador.
MODO PARA REALIZAR A INVENÇÃO
[0070] A seguir, pressupostos da presente descrição e de modalidades para implementar a presente descrição (a seguir, referidas como modalidades) serão descritos. Note que a descrição será dada como segue: 0. Pressupostos da Presente Descrição (figuras 1 a 7) 1. Primeira Modalidade (figuras 8 a 37) 2. Segunda Modalidade (figuras 38 a 50) 3. Um Outro Exemplo da Faixa de Base (figuras 51 e 52) 4. Terceira Modalidade (figura 53) <Pressupostos da Presente Descrição> (Descrição da Estrutura do Arquivo MPD)
[0071] A figura 1 é um diagrama que ilustra uma estrutura de um arquivo de descrição de apresentação de mídia (MPD) de MPEG-DASH.
[0072] Em uma análise (análise sintática) de um arquivo MPD, um atributo ideal é selecionado a partir de atributos de “Representação” incluídos em “Períodos” do arquivo MPD (Apresentação de Mídia da figura 1).
[0073] Então, um arquivo é adquirido e processado pela referência a um localizador de recurso uniforme (URL) e congêneres de “Segmento de Inicialização” em um cabeçalho da “Representação” selecionada. Seguinte a isto, um arquivo é adquirido e reproduzido pela referência a um URL e congêneres do subsequente “Segmento de Mídia”.
[0074] Note que o relacionamento entre “Período”, “Representação” e “Segmento” no arquivo MPD é ilustrado na figura 2. Isto é, uma peça do conteúdo de imagem em movimento pode ser gerenciada em unidades de um tempo mais longo do que o segmento por “Período” e pode ser gerenciada em unidades de um segmento por “Segmento” em cada um dos “Períodos”. Adicionalmente, em cada um dos “Períodos”, o conteúdo de imagem em movimento pode ser gerenciado em unidades de um atributo de um fluxo contínuo por “Representação”.
[0075] Portanto, o arquivo MPD tem uma estrutura hierárquica ilustrada na figura 3 em e sob “Período”. Adicionalmente, o arranjo da estrutura do arquivo MPD em um eixo geométrico do tempo é ilustrado no exemplo da figura 4. Como fica claro a partir da figura 4, uma pluralidade de “Representações” existe em relação ao mesmo segmento. Pela seleção adaptativa de qualquer uma destas “Representações”, um fluxo contínuo de um atributo desejado de um usuário pode ser adquirido e reproduzido. (Esboço do Formato do Arquivo de Áudio 3D)
[0076] A figura 5 é um diagrama para descrever um esboço de uma faixa de um formato de arquivo de áudio 3D de MP4.
[0077] Em um arquivo MP4, informação de codec do conteúdo de imagem em movimento e informação de posição que indica uma posição em um arquivo podem ser gerenciadas para cada faixa. Em um formato de arquivo de áudio 3D de MP4, todos os fluxos contínuos de áudio (fluxos contínuos elementares (ESs)) de áudio 3D (áudio de canal/áudio de objeto/áudio de objeto SAOC/áudio HOA/metadados) são gravados como uma faixa em unidades de uma amostra (quadro). Adicionalmente, a informação de codec (Perfil/nível/configuração de áudio) do áudio 3D é armazenada como entrada de amostra.
[0078] O áudio de canal que configura o áudio 3D compreende dados de áudio em unidades de um canal e o áudio de objeto compreende dados de áudio em unidades de um objeto. Note que um objeto é uma fonte de som e os dados de áudio em unidades de um objeto são adquiridos com um microfone ou congêneres anexados no objeto. O objeto pode ser uma substância, tais como uma plataforma de microfone fixo ou um corpo em movimento, tal como uma pessoa.
[0079] Adicionalmente, o áudio de objeto SAOC compreende dados de áudio de codificação de objeto de áudio espacial (SAOC), o áudio HOA compreende dados de áudio de ambisonics de ordem superior (HOA) e os metadados são metadados do áudio de canal, do áudio de objeto, do áudio de objeto SAOC e do áudio HOA.
(Estrutura da caixa moov)
[0080] A figura 6 é um diagrama que ilustra uma estrutura de uma caixa moov do arquivo MP4.
[0081] Da forma ilustrada na figura 6, no arquivo MP4, dados de imagem e dados de áudio são gravados como faixas diferentes. Na figura 6, embora detalhes não sejam descritos, a faixa dos dados de áudio é similar à faixa dos dados de imagem. A entrada de amostra é incluída na descrição de amostra arranjada em uma caixa stsd na caixa moov.
[0082] A propósito, em difusão ou reprodução de armazenamento local do arquivo MP4, tipicamente, um lado do servidor envia os fluxos contínuos de áudio de todos os áudios 3D. Então, um lado do cliente decodifica e transmite apenas os fluxos contínuos de áudio de áudio 3D necessário durante a análise sintática dos fluxos contínuos de áudio de todos os áudios 3D. Entretanto, em um caso em que uma taxa de bits for alta ou houver uma restrição em uma taxa de leitura do armazenamento local, é desejável reduzir uma carga do processamento de decodificação pela aquisição apenas dos fluxos contínuos de áudio do áudio 3D necessário.
[0083] Adicionalmente, na reprodução em fluxo contínuo do arquivo MP4 conformável com MPEG-DASH, o lado do servidor prepara os fluxos contínuos de áudio em uma pluralidade de velocidades de codificação. Portanto, o lado do cliente pode selecionar e adquirir os fluxos contínuos de áudio em uma velocidade de codificação ideal para um ambiente de reprodução pela aquisição apenas dos fluxos contínuos de áudio do áudio 3D necessário.
[0084] Da forma supradescrita, na presente descrição, pela divisão dos fluxos contínuos de áudio do áudio 3D em faixas de acordo com tipos e arranjo dos fluxos contínuos de áudio em um arquivo de áudio, apenas os fluxos contínuos de áudio de um tipo predeterminado do áudio 3D podem ser eficientemente adquiridos. Desta maneira, na difusão ou na reprodução de armazenamento local, a carga do processamento de decodificação pode ser reduzida. Adicionalmente, na reprodução em fluxo contínuo, os fluxos contínuos de áudio com qualidade mais alta, dos fluxos contínuos de áudio do áudio 3D necessário, podem ser reproduzidos de acordo com uma banda. (Descrição da Estrutura Hierárquica do Áudio 3D)
[0085] A figura 7 é um diagrama que ilustra uma estrutura hierárquica do áudio 3D.
[0086] Da forma ilustrada na figura 7, os dados de áudio do áudio 3D é um elemento (Elemento) de áudio que é diferente em cada um dos dados de áudio. Tipos dos elementos de áudio incluem um elemento de canal individual (SCE) e um elemento de par de canal (CPE). O tipo do elemento de áudio dos dados de áudio de um canal é o SCE e o tipo do elemento de áudio correspondente aos dados de áudio de dois canais é o CPE.
[0087] Os elementos de áudio do mesmo tipo de áudio (Canal/Objeto/Objeto SAOC/HOA) formam um grupo. Portanto, exemplos de um tipo de grupo (GroupType) incluem Canais, Objetos, Objetos SAOC e HOA. Dois ou mais grupos podem formar grupo de comutação ou predefinição de grupo, conforme necessário.
[0088] O grupo de comutação é um grupo (grupo de reprodução exclusivo) no qual um fluxo contínuo de áudio do grupo incluído no mesmo é exclusivamente reproduzido. Isto é, da forma ilustrada na figura 7, em um caso em que houver um grupo do áudio de objeto para inglês (EN) e um grupo do áudio de objeto para francês (FR), apenas um dos grupos deve ser reproduzido. Portanto, o grupo de comutação é formado pelo grupo do áudio de objeto para inglês com um ID de grupo de 2 e o grupo do áudio de objeto para francês com um ID de grupo de 3. Desta maneira, o áudio de objeto para inglês ou o áudio de objeto para francês são exclusivamente reproduzidos.
[0089] Neste particular, a predefinição de grupo define uma combinação dos grupos pretendida por um criador de conteúdo.
[0090] Adicionalmente, os metadados do áudio 3D é Extelement (Elemento Ext) que é diferente em cada um dos metadados. Tipos do Extelement incluem Metadados de Objeto, Metadados SAOC 3D, Metadados HOA, Metadados DRC, SpatialFrame, SaocFrame e congêneres. O Extelement dos metadados de Objeto são metadados de todos os áudios de objeto e o Extelement dos metadados SAOC 3D são metadados de todos os áudios SAOC. Adicionalmente, o Extelement dos metadados HOA são metadados de todos os áudios HOA e o Extelement dos metadados do controle de faixa dinâmica (DRC) são metadados de todos os áudios de objeto, o áudio SAOC e o áudio HOA.
[0091] Da forma supradescrita, unidades de divisão dos dados de áudio, do áudio 3D, incluem o elemento de áudio, o tipo de grupo, o grupo, o grupo de comutação e a predefinição de grupo. Portanto, os fluxos contínuos de áudio dos dados de áudio, do áudio 3D, podem ser divididos em faixas diferentes em cada tipo, em que o tipo é o elemento de áudio, o tipo de grupo, o grupo, o grupo de comutação ou a predefinição de grupo.
[0092] Adicionalmente, unidades de divisão dos metadados, do áudio 3D, incluem um tipo do Extelement e o elemento de áudio correspondente aos metadados. Portanto, os fluxos contínuos de áudio dos metadados do áudio 3D podem ser divididos em faixas diferentes em cada tipo, em que o tipo é o Extelement ou o elemento de áudio correspondente aos metadados.
[0093] Na modalidade exposta, os fluxos contínuos de áudio dos dados de áudio são divididos nas faixas em cada um ou mais grupos e os fluxos contínuos de áudio dos metadados são divididos nas faixas em cada tipo do Extelement.
<Primeira Modalidade> (Esboço do Sistema do Processamento de Informação)
[0094] A figura 8 é um diagrama para descrever um esboço de um sistema de processamento de informação em uma primeira modalidade na qual a presente descrição é aplicada.
[0095] Um sistema de processamento de informação 140 da figura 8 é configurado de maneira tal que um servidor da Internet 142 conectado com um dispositivo de geração de arquivo 141 e um terminal de reprodução de imagem em movimento 144 sejam conectados através da Internet 13.
[0096] No sistema de processamento de informação 140, o servidor da Internet 142 distribui os fluxos contínuos de áudio das faixas no grupo a ser reproduzidas para o terminal de reprodução de imagem em movimento 144 por um método em conformidade com MPEG-DASH.
[0097] Para ser específico, o dispositivo de geração de arquivo 141 codifica os dados de áudio e os metadados do áudio 3D do conteúdo de imagem em movimento na pluralidade de velocidades de codificação para gerar os fluxos contínuos de áudio. O dispositivo de geração de arquivo 141 faz arquivos de todos fluxos contínuos de áudio nas velocidades de codificação e, em cada unidade de tempo de diversos segundos até dez segundos, que é segmento chamado, para gerar o arquivo de áudio. Neste tempo, o dispositivo de geração de arquivo 141 divide os fluxos contínuos de áudio para cada grupo e cada tipo do Extelement e arranja os fluxos contínuos de áudio no arquivo de áudio como os fluxos contínuos de áudio nas faixas diferentes. O dispositivo de geração de arquivo 141 carrega o arquivo de áudio gerado sobre o servidor da Internet 142.
[0098] Adicionalmente, o dispositivo de geração de arquivo 141 gera o arquivo MPD (arquivo de gerenciamento) que gerencia o arquivo de áudio e congêneres. O dispositivo de geração de arquivo 141 carrega o arquivo MPD sobre o servidor da Internet 142.
[0099] O servidor da Internet 142 armazena o arquivo de áudio de cada velocidade de codificação e segmento e o arquivo MPD carregado pelo dispositivo de geração de arquivo 141. O servidor da Internet 142 transmite o arquivo de áudio armazenado, o arquivo MPD e congêneres para o terminal de reprodução de imagem em movimento 144, em resposta a uma solicitação proveniente do terminal de reprodução de imagem em movimento 144.
[00100] O terminal de reprodução de imagem em movimento 144 executa software de controle de dados em transferência contínua (a seguir, referido como software de controle) 161, software de reprodução de imagem em movimento 162, software cliente para acesso pelo protocolo de transferência em hipertexto (HTTP) (a seguir, referido como software de acesso) 163 e congêneres.
[00101] O software de controle 161 é software que controla dados transmitidos em fluxo contínuo a partir do servidor da Internet 142. Para ser específico, o software de controle 161 faz com que o terminal de reprodução de imagem em movimento 144 adquira o arquivo MPD a partir do servidor da Internet 142.
[00102] Adicionalmente, o software de controle 161 comanda o software de acesso 163 para enviar uma solicitação de transmissão do grupo a ser reproduzido especificada pelo software de reprodução de imagem em movimento 162 e os fluxos contínuos de áudio das faixas do tipo de Extelement correspondente ao grupo, com base no arquivo MPD.
[00103] O software de reprodução de imagem em movimento 162 é software que reproduz os fluxos contínuos de áudio adquiridos a partir do servidor da Internet 142. Para ser específico, o software de reprodução de imagem em movimento 162 especifica o grupo a ser reproduzido e o tipo do Extelement correspondente ao grupo, para o software de controle 161. Adicionalmente, o software de reprodução de imagem em movimento 162 decodifica os fluxos contínuos de áudio recebidos a partir do terminal de reprodução de imagem em movimento 144 durante a recepção da notificação do início de recepção a partir do software de acesso 163. O software de reprodução de imagem em movimento 162 sintetiza e transmite os dados de áudio obtidos em decorrência da decodificação, conforme necessário.
[00104] O software de acesso 163 é software que controla a comunicação entre o terminal de reprodução de imagem em movimento 144 e o servidor da Internet 142 através da Internet 13 usando o HTTP. Para ser específico, o software de acesso 163 faz com que o terminal de reprodução de imagem em movimento 144 transmita uma solicitação de transmissão do fluxo contínuo de áudio da faixa a ser reproduzida incluída no arquivo de áudio em resposta ao comando do software de controle 161. Adicionalmente, o software de acesso 163 faz com que o terminal de reprodução de imagem em movimento 144 inicie a recepção dos fluxos contínuos de áudio transmitidos a partir do servidor da Internet 142 em resposta à solicitação de transmissão e supre notificação do início de recepção para o software de reprodução de imagem em movimento 162.
[00105] Note que, no presente relatório descritivo, apenas o arquivo de áudio do conteúdo de imagem em movimento será descrito. Entretanto, na realidade, um correspondente arquivo de imagem é gerado e reproduzido juntamente com o arquivo de áudio.
(Esboço do Primeiro Exemplo da Faixa do Arquivo de Áudio)
[00106] A figura 9 é um diagrama para descrever um esboço de um primeiro exemplo da faixa do arquivo de áudio.
[00107] Note que, na figura 9, apenas a faixa dos dados de áudio, do áudio 3D, é ilustrada por conveniência de descrição. O mesmo se aplica às figuras 20, 23, 26, 28, 30, 32 a 35 e 38.
[00108] Da forma ilustrada na figura 9, os fluxos contínuos de áudio de todos os áudios 3D são armazenados em um arquivo de áudio (3dauio.mp4). No arquivo de áudio (3dauio.mp4), os fluxos contínuos de áudio dos grupos do áudio 3D são respectivamente divididos nas faixas diferentes e arranjados. Adicionalmente, informação relacionada à íntegra do áudio 3D é arranjada como a faixa de base (Faixa de Base).
[00109] Referência de Faixa é arranjada em uma caixa track de cada uma das faixas. A Referência de Faixa indica o relacionamento de referência entre uma faixa correspondente e uma outra faixa. Para ser específico, a Referência de Faixa indica um ID de uma outra faixa no relacionamento de referência, exclusivo para a faixa (a seguir, referido como ID de faixa).
[00110] No exemplo da figura 9, os IDs de faixa da faixa de base, da faixa em um grupo n° 1 com um ID de grupo de 1, da faixa em um grupo n° 2 com um ID de grupo de 2, da faixa em um grupo n° 3 com um ID de grupo de 3, da faixa em um grupo n° 4 com um ID de grupo de 4, são 1, 2, 3, 4 e 5. Adicionalmente, a Referência de Faixa da faixa de base é 2, 3, 4 e 5 e a Referência de Faixa das faixas nos grupos n° 1 a n° 4 é 1, que é o ID de faixa da faixa de base. Portanto, a faixa de base e as faixas nos grupos n° 1 a n° 4 estão no relacionamento de referência. Isto é, a faixa de base é referenciada no momento da reprodução das faixas nos grupos n° 1 a n° 4.
[00111] Adicionalmente, 4cc (código de caractere) da entrada de amostra da faixa de base é “mha2” e, na entrada de amostra da faixa de base, uma caixa mhaC que inclui informação de configuração de todos os grupos do áudio 3D ou informação de configuração necessária para decodificação apenas da faixa de base e uma caixa mhas que inclui informação relacionada a todos os grupos e ao grupo de comutação do áudio 3D são arranjadas. A informação relacionada aos grupos é configurada a partir dos IDs dos grupos, informação que indica conteúdo de dados do elemento classificado nos grupos e congêneres. A informação relacionada ao grupo de comutação é configurada a partir de um ID do grupo de comutação, dos IDs dos grupos que formam o grupo de comutação e congêneres.
[00112] O 4cc da entrada de amostra da faixa de cada um dos grupos é “mhg1” e, na entrada de amostra da faixa de cada um dos grupos, uma caixa mhgC que inclui informação relacionada ao grupo pode ser arranjada. Em um caso em que um grupo formar o grupo de comutação, uma caixa mhsC que inclui informação relacionada ao grupo de comutação é arranjada na entrada de amostra da faixa no grupo.
[00113] Em uma amostra da faixa de base, informação de referência em relação às amostras das faixas nos grupos ou informação de configuração necessária para decodificação da informação de referência são arranjadas. Pelo arranjo das amostras dos grupos referenciados pela informação de referência na ordem de arranjo da informação de referência, os fluxos contínuos de áudio do áudio 3D antes de ser dividido nas faixas podem ser gerados. A informação de referência é configurada a partir de posições e tamanhos das amostras das faixas dos grupos, dos tipos de grupo e congêneres.
(Exemplo de Sintaxe da Entrada de Amostra da Faixa de Base)
[00114] A figura 10 é um diagrama que ilustra um exemplo de sintaxe da entrada de amostra da faixa de base.
[00115] Da forma ilustrada na figura 10, na entrada de amostra da faixa de base, a caixa mhaC (caixa MHAConfigration), a caixa mhas (caixa MHAAudioSceneInfo) e congêneres são arranjadas. Na caixa mhaC, a informação de configuração de todos os grupos do áudio 3D ou a informação de configuração necessária para decodificação apenas da faixa de base são descritas. Adicionalmente, na caixa mhas, informação AudioScene que inclui a informação relacionada a todos os grupos e ao grupo de comutação do áudio 3D é descrita. A informação AudioScene descreve a estrutura hierárquica da figura 7.
(Exemplo de Sintaxe da Entrada de Amostra da Faixa de Cada um dos Grupos)
[00116] A figura 11 é um diagrama que ilustra um exemplo de sintaxe da entrada de amostra da faixa de cada um dos grupos.
[00117] Da forma ilustrada na figura 11, na entrada de amostra da faixa de cada um dos grupos, a caixa mhaC (caixa MHAConfigration), a caixa mhgC (caixa MHAGroupDefinition), a caixa mhsC (caixa MHASwitchGropuDefinition) e congêneres são arranjadas.
[00118] Na caixa mhaC, informação de configuração necessária para decodificação da faixa correspondente é descrita. Adicionalmente, na caixa mhgC, informação AudioScene relacionada ao grupo correspondente é descrita como GroupDefinition. Na caixa mhsC, informação AudioScene relacionada ao grupo de comutação é descrita em SwitchGroupDefinition em um caso em que o grupo correspondente formar o grupo de comutação.
(Primeiro Exemplo da Estrutura de Segmento do Arquivo de Áudio)
[00119] A figura 12 é um diagrama que ilustra um primeiro exemplo de uma estrutura de segmento do arquivo de áudio.
[00120] Na estrutura de segmento da figura 12, um segmento Inicial é configurado a partir de uma caixa ftyp e uma caixa moov. Na caixa moov, uma caixa trak é arranjada para cada faixa incluída no arquivo de áudio. Adicionalmente, na caixa moov, uma caixa mvex que inclui informação que indica relacionamento correspondente entre o ID de faixa de cada uma das faixas e um nível usado em uma caixa ssix em um segmento de mídia e congêneres são arranjados.
[00121] Adicionalmente, o segmento de mídia é configurado a partir de uma caixa sidx, uma caixa ssix e um ou mais subsegmentos. Na caixa sidx, informação de posição que indica posições dos subsegmentos no arquivo de áudio é arranjada. Na caixa ssix, informação de posição dos fluxos contínuos de áudio dos níveis arranjados em uma caixa mdat é arranjada. Note que o nível corresponde à faixa. Adicionalmente, a informação de posição da primeira faixa é a informação de posição de dados feitos de uma caixa moof e do fluxo contínuo de áudio da primeira faixa.
[00122] O subsegmento é provido para cada duração de tempo arbitrária e o subsegmento é provido com um par da caixa moof e da caixa mdat, que é comum a todas as faixas. Na caixa mdat, os fluxos contínuos de áudio de todas as faixas são coletivamente arranjados por uma duração de tempo arbitrária e, na caixa moof, informação de gerenciamento dos fluxos contínuos de áudio é arranjada. Os fluxos contínuos de áudio das faixas arranjados na caixa mdat são sucessivos em cada faixa.
[00123] No exemplo da figura 12, Track1 com o ID de faixa de 1 é a faixa de base e Track2 a TrackN com as faixas ID de 2 a N são faixas nos grupos com o ID de grupo de 1 a N - 1. O mesmo se aplica à figura 13 descrita a seguir.
(Segundo Exemplo da Estrutura de Segmento do Arquivo de Áudio)
[00124] A figura 13 é um diagrama que ilustra um segundo exemplo da estrutura de segmento do arquivo de áudio.
[00125] A estrutura de segmento da figura 13 é diferente da estrutura de segmento da figura 12 em que a caixa moof e a caixa mdat são providas para cada faixa.
[00126] Isto é, o segmento inicial da figura 13 é similar ao segmento inicial da figura 12. Adicionalmente, o segmento de mídia da figura 13 é configurado a partir da caixa sidx, da caixa ssix e um ou mais subsegmentos, similarmente ao segmento de mídia da figura 12. Na caixa sidx, a informação de posição dos subsegmentos é arranjada, similarmente à caixa sidx da figura 12. Na caixa ssix, informação de posição dos dados dos níveis feita a partir da caixa moof e da caixa mdat é incluída.
[00127] O subsegmento é provido para cada duração de tempo arbitrária e o subsegmento é provido com um par da caixa moof e da caixa mdat para cada faixa. Isto é, na caixa mdat de cada uma das faixas, os fluxos contínuos de áudio das faixas são coletivamente arranjados (armazenamento em intercalação) por uma duração de tempo arbitrária e, na caixa moof, informação de gerenciamento dos fluxos contínuos de áudio é arranjada.
[00128] Da forma ilustrada nas figuras 12 e 13, os fluxos contínuos de áudio das faixas são coletivamente arranjados por uma duração de tempo arbitrária. Portanto, eficiência de aquisição do fluxo contínuo de áudio através do HTTP ou congêneres é melhorada, se comparada com um caso em que os fluxos contínuos de áudio são coletivamente arranjados em unidades de uma amostra.
(Exemplo de Descrição da Caixa mvex)
[00129] A figura 14 é um diagrama que ilustra um exemplo de descrição de uma caixa de atribuição de nível arranjada na caixa mvex das figuras 12 e 13.
[00130] A caixa de atribuição de nível é uma caixa que associa o ID de faixa de cada uma das faixas e o nível usado na caixa ssix. No exemplo da figura 14, a faixa de base com o ID de faixa de 1 é associado com um nível 0 e uma faixa de áudio do canal com o ID de faixa de 2 é associada com um nível 1. Adicionalmente, uma faixa de áudio HOA com o ID de faixa de 3 é associada com um nível 2 e uma faixa de metadados de objeto com o ID de faixa de 4 é associada com um nível 3. Adicionalmente, uma faixa de áudio do objeto com o ID de faixa de 5 é associada com um nível 4. (Primeiro Exemplo de Descrição do Arquivo MPD)
[00131] A figura 15 é um diagrama que ilustra um primeiro exemplo de descrição do arquivo MPD.
[00132] Da forma ilustrada na figura 15, no arquivo MPD, “Representação” que gerencia o segmento do arquivo de áudio (3daudio.mp4) do áudio 3D, “Sub-Representação” que gerencia a faixa incluída no segmento e congêneres são descritos.
[00133] A “Representação” e a “Sub-Representação” incluem “codecs” que indicam o tipo (perfil ou nível) de codec do segmento correspondente como um todo ou a faixa em um formato de arquivo de áudio 3D.
[00134] A “Sub-Representação” inclui um “nível”, que é um valor definido na caixa de atribuição de nível como um valor que indica o nível da faixa correspondente. “Sub-Representação” inclui “dependencyLevel”, que é um valor que indica o nível correspondente a uma outra faixa (a seguir, referida como faixa de referência) que tem o relacionamento de referência (que tem dependência).
[00135] Adicionalmente, a “Sub-Representação” inclui <EssentialProperty schemeIdUri = “urn:mpeg:DASH:3daudio:2014” value = “dataType,definition”>.
[00136] O “dataType” é um número que indica um tipo de conteúdo (definição) da informação da Cena de Áudio descrita na entrada de amostra da faixa correspondente e a definição é seu conteúdo. Por exemplo, em um caso em que GroupDefinition for incluído na entrada de amostra da faixa, 1 é descrito como “dataType” da faixa e o GroupDefinition é descrito como “definição”. Adicionalmente, em um caso em que o SwitchGroupDefinition for incluído na entrada de amostra da faixa, 2 é descrito como o “dataType” da faixa e o SwitchGroupDefinition é descrito como a “definição”. Isto é, o “dataType” e a “definição” são informações que indicam se o SwitchGroupDefinition existe na entrada de amostra da faixa correspondente. A “definição” compreende dados binários e é codificada por um método base64.
[00137] Note que, no exemplo da figura 15, todos os grupos formam o grupo de comutação. Entretanto, em um caso em que um grupo que não forma o grupo de comutação existir, <EssentialProperty schemeIdUri = “urn:mpeg:DASH:3daudio:2014” value = “2,SwitchGroupDefinition”>não é descrito em “Sub-Representação” correspondente ao grupo. O mesmo se aplica às figuras 24, 25, 31, 39, 45, 47, 48 e 50, descritas a seguir.
(Exemplo de Configuração do Dispositivo de Geração de Arquivo)
[00138] A figura 16 é um diagrama de blocos que ilustra um exemplo de configuração do dispositivo de geração de arquivo 141 da figura 8.
[00139] O dispositivo de geração de arquivo 141 da figura 16 é configurado a partir de uma unidade de processamento de codificação de áudio 171, uma unidade de geração de arquivo de áudio 172, uma unidade de geração de MPD 173 e uma unidade de processamento de carregamento do servidor 174.
[00140] A unidade de processamento de codificação de áudio 171 do dispositivo de geração de arquivo 141 codifica os dados de áudio e os metadados do áudio 3D do conteúdo de imagem em movimento em uma pluralidade de velocidades de codificação para gerar os fluxos contínuos de áudio. A unidade de processamento de codificação de áudio 171 supre o fluxo contínuo de áudio de cada velocidade de codificação para a unidade de geração de arquivo de áudio 172.
[00141] A unidade de geração de arquivo de áudio 172 aloca a faixa no fluxo contínuo de áudio suprido a partir da unidade de processamento de codificação de áudio 171 para cada grupo e cada tipo do Extelement. A unidade de geração de arquivo de áudio 172 gera o arquivo de áudio na estrutura de segmento da figura 12 ou 13, em que os fluxos contínuos de áudio das faixas são arranjados em unidades do subsegmento, para cada velocidade de codificação e segmento. A unidade de geração de arquivo de áudio 172 supre o arquivo de áudio gerado para a unidade de geração de MPD 173.
[00142] A unidade de geração de MPD 173 determina o URL do servidor da Internet 142 em que o arquivo de áudio suprido a partir da unidade de geração de arquivo de áudio 172 deve ser armazenado e congêneres. Então, a unidade de geração de MPD 173 gera o arquivo MPD no qual o URL do arquivo de áudio e congêneres são arranjados no “Segmento” da “Representação” para o arquivo de áudio. A unidade de geração de MPD 173 supre o arquivo MPD gerado e o arquivo de áudio para a unidade de processamento de carregamento do servidor 174.
[00143] A unidade de processamento de carregamento do servidor 174 carrega o arquivo de áudio e o arquivo MPD supridos a partir da unidade de geração de MPD 173 sobre o servidor da Internet 142.
(Descrição do Processamento do Dispositivo de Geração de Arquivo)
[00144] A figura 17 é um fluxograma para descrever o processamento de geração de arquivo do dispositivo de geração de arquivo 141 da figura 16.
[00145] Na etapa S191 da figura 17, a unidade de processamento de codificação de áudio 171 codifica os dados de áudio e os metadados do áudio 3D do conteúdo de imagem em movimento em uma pluralidade de velocidades de codificação para gerar os fluxos contínuos de áudio. A unidade de processamento de codificação de áudio 171 supre o fluxo contínuo de áudio de cada velocidade de codificação para a unidade de geração de arquivo de áudio 172.
[00146] Na etapa S192, a unidade de geração de arquivo de áudio 172 aloca a faixa no fluxo contínuo de áudio suprido a partir da unidade de processamento de codificação de áudio 171 para cada grupo e cada tipo do Extelement.
[00147] Na etapa S193, a unidade de geração de arquivo de áudio 172 gera o arquivo de áudio na estrutura de segmento da figura 12 ou 13, em que os fluxos contínuos de áudio das faixas são arranjados em unidades do subsegmento, para cada velocidade de codificação e segmento. A unidade de geração de arquivo de áudio 172 supre o arquivo de áudio gerado para a unidade de geração de MPD 173.
[00148] Na etapa S194, a unidade de geração de MPD 173 gera o arquivo MPD que inclui o URL do arquivo de áudio e congêneres. A unidade de geração de MPD 173 supre o arquivo MPD gerado e o arquivo de áudio para a unidade de processamento de carregamento do servidor 174.
[00149] Na etapa S195, a unidade de processamento de carregamento do servidor 174 carrega o arquivo de áudio e o arquivo MPD supridos a partir da unidade de geração de MPD 173 sobre o servidor da Internet 142. Então, o processamento é terminado.
(Exemplo de Configuração Funcional do Terminal de Reprodução de Imagem em Movimento)
[00150] A figura 18 é um diagrama de blocos que ilustra um exemplo de configuração de uma unidade de reprodução em transferência contínua realizada de maneira tal que o terminal de reprodução de imagem em movimento 144 da figura 8 execute o software de controle 161, o software de reprodução de imagem em movimento 162 e o software de acesso 163.
[00151] Uma unidade de reprodução em transferência contínua 190 da figura 18 é configurada a partir de uma unidade de aquisição MPD 91, uma unidade de processamento MPD 191, uma unidade de aquisição de arquivo de áudio 192, uma unidade de processamento de decodificação de áudio 194 e uma unidade de processamento de síntese de áudio 195.
[00152] A unidade de aquisição MPD 91 da unidade de reprodução em transferência contínua 190 adquire o arquivo MPD a partir do servidor da Internet 142 e supre o arquivo MPD para a unidade de processamento MPD 191.
[00153] A unidade de processamento MPD 191 extrai a informação do URL do arquivo de áudio do segmento a ser reproduzido descrito no “Segmento” para o arquivo de áudio e congêneres a partir do arquivo MPD suprido a partir da unidade de aquisição MPD 91 e supre a informação para a unidade de aquisição de arquivo de áudio 192.
[00154] A unidade de aquisição de arquivo de áudio 192 solicita o servidor da Internet 142 e adquire o fluxo contínuo de áudio da faixa para ser reproduzido no arquivo de áudio identificado com o URL suprido a partir da unidade de processamento MPD 191. A unidade de aquisição de arquivo de áudio 192 supre o fluxo contínuo de áudio adquirido para a unidade de processamento de decodificação de áudio 194.
[00155] A unidade de processamento de decodificação de áudio 194 decodifica o fluxo contínuo de áudio suprido a partir da unidade de aquisição de arquivo de áudio 192. A unidade de processamento de decodificação de áudio 194 supre os dados de áudio obtidos em decorrência da decodificação para a unidade de processamento de síntese de áudio 195. A unidade de processamento de síntese de áudio 195 sintetiza os dados de áudio supridos a partir da unidade de processamento de decodificação de áudio 194, conforme necessário, e transmite os dados de áudio.
[00156] Da forma supradescrita, a unidade de aquisição de arquivo de áudio 192, a unidade de processamento de decodificação de áudio 194 e a unidade de processamento de síntese de áudio 195 funcionam como uma unidade de reprodução, e adquirem e reproduzem o fluxo contínuo de áudio da faixa a ser reproduzido a partir do arquivo de áudio armazenado no servidor da Internet 142.
(Descrição do Processamento do Terminal de Reprodução de Imagem em Movimento)
[00157] A figura 19 é um fluxograma para descrever o processamento de reprodução da unidade de reprodução em transferência contínua 190 da figura 18.
[00158] Na etapa S211 da figura 19, a unidade de aquisição MPD 91 da unidade de reprodução em transferência contínua 190 adquire o arquivo MPD a partir do servidor da Internet 142 e supre o arquivo MPD para a unidade de processamento MPD 191.
[00159] Na etapa S212, a unidade de processamento MPD 191 extrai a informação do URL do arquivo de áudio do segmento a ser reproduzido descrito no “Segmento” para o arquivo de áudio e congêneres a partir do arquivo MPD suprido a partir da unidade de aquisição MPD 91 e supre a informação para a unidade de aquisição de arquivo de áudio 192.
[00160] Na etapa S213, a unidade de aquisição de arquivo de áudio 192 solicita o servidor da Internet 142 e adquire o fluxo contínuo de áudio da faixa a ser reproduzido no arquivo de áudio identificado pelo URL com base no URL suprido a partir da unidade de processamento MPD 191. A unidade de aquisição de arquivo de áudio 192 supre o fluxo contínuo de áudio adquirido para a unidade de processamento de decodificação de áudio 194.
[00161] Na etapa S214, a unidade de processamento de decodificação de áudio 194 decodifica o fluxo contínuo de áudio suprido a partir da unidade de aquisição de arquivo de áudio 192. A unidade de processamento de decodificação de áudio 194 supre os dados de áudio obtidos em decorrência da decodificação para a unidade de processamento de síntese de áudio 195. Na etapa S215, a unidade de processamento de síntese de áudio 195 sintetiza os dados de áudio supridos a partir da unidade de processamento de decodificação de áudio 194, conforme necessário, e transmite os dados de áudio.
(Esboço do Segundo Exemplo da Faixa de Arquivo de Áudio)
[00162] Note que, na descrição exposta, o GroupDefinition e o SwitchGroupDefinition são arranjados na entrada de amostra. Entretanto, da forma ilustrada na figura 20, o GroupDefinition e o SwitchGroupDefinition podem ser arranjados na entrada do grupo de amostra que é a entrada de amostra de cada grupo de uma subamostra na faixa.
[00163] Neste caso, da forma ilustrada na figura 21, a entrada do grupo de amostra da faixa do grupo que forma o grupo de comutação inclui o GroupDefinition e o SwitchGroupDefinition. Embora a ilustração seja omitida, a entrada do grupo de amostra da faixa do grupo que não forma o grupo de comutação inclui apenas o GroupDefinition.
[00164] Adicionalmente, a entrada de amostra da faixa de cada um dos grupos se torna um ilustrado na figura 22. Isto é, da forma ilustrada na figura 22, na entrada de amostra da faixa de cada um dos grupos, MHAGroupAudioConfigrationBox, em que Informação de Configuração, tal como um perfil (MPEGHAudioProfile) do fluxo contínuo de áudio da faixa correspondente, um nível (MPEGHAudioLevel) e congêneres são descritos. (Esboço do Terceiro Exemplo da Faixa do Arquivo de Áudio)
[00165] A figura 23 é um diagrama para descrever um esboço de um terceiro exemplo da faixa do arquivo de áudio.
[00166] A configuração da faixa dos dados de áudio da figura 23 é diferente da configuração da figura 9, em que os fluxos contínuos de áudio de um ou mais grupos do áudio 3D são incluídos na faixa de base e o número de grupos correspondentes aos fluxos contínuos de áudio divididos nas faixas (a seguir, referidos como faixas de grupo) que não incluem a informação relacionada ao áudio 3D como um todo é 1 ou mais.
[00167] Isto é, a entrada de amostra da faixa de base da figura 23 é a entrada de amostra com o 4cc de “mha2”, que inclui a sintaxe para faixa de base de quando os fluxos contínuos de áudio dos dados de áudio, do áudio 3D, forem divididos em uma pluralidade de faixas e arranjados, similarmente à figura 9 (figura 10).
[00168] Adicionalmente, a entrada de amostra da faixa de grupo é a entrada de amostra com o 4cc de “mhg1”, que inclui a sintaxe para faixa de grupo de quando os fluxos contínuos de áudio dos dados de áudio, do áudio 3D, forem divididos em uma pluralidade de faixas e arranjados, similarmente à figura 9 (figura 11). Portanto, a faixa de base e a faixa de grupo são identificadas com o 4cc da entrada de amostra e a dependência entre as faixas pode ser reconhecida.
[00169] Adicionalmente, similarmente à figura 9, a Referência de Faixa é arranjada na caixa track de cada uma das faixas. Portanto, mesmo em um caso em que qual de “mha2” e “mhg1” é o 4cc da entrada de amostra da faixa de base ou da faixa de grupo for desconhecido, a dependência entre as faixas pode ser reconhecida com a Referência de Faixa.
[00170] Note que a caixa mhgC e a caixa mhsC podem não ser descritas na entrada de amostra da faixa de grupo. Adicionalmente, em um caso em que a caixa mhaC que inclui a informação de configuração de todos os grupos do áudio 3D for descrita na entrada de amostra da faixa de base, a caixa mhaC pode não ser descrita na entrada de amostra da faixa de grupo. Entretanto, em um caso em que a caixa mhaC que inclui a informação de configuração que pode reproduzir independentemente a faixa de base é descrita na entrada de amostra da faixa de base, a caixa mhaC que inclui a informação de configuração que pode reproduzir independentemente a faixa de grupo é descrita na entrada de amostra da faixa de grupo. Se ela está no estado anterior ou no estado posterior pode ser reconhecido de acordo com existência/não existência da informação de configuração na entrada de amostra. Entretanto, o reconhecimento pode ser feito pela descrição de um indicador na entrada de amostra ou pela mudança do tipo da entrada de amostra. Note que, embora a ilustração seja omitida, em um caso de tornar o estado anterior e o estado posterior reconhecíveis pela mudança do tipo da entrada de amostra, o 4cc da entrada de amostra da faixa de base é “mha2” no caso do estado anterior e é “mha4” no caso do estado posterior. (Segundo Exemplo de Descrição do Arquivo MPD)
[00171] A figura 24 é um diagrama que ilustra um exemplo de descrição do arquivo MPD em um caso em que a configuração das faixas do arquivo de áudio for a configuração da figura 23.
[00172] O arquivo MPD da figura 24 é diferente do arquivo MPD da figura 15 em que a “Sub-Representação” da faixa de base é descrita.
[00173] Na “Sub-Representação” da faixa de base, os “codecs”, o “nível”, o “dependencyLevel” da faixa de base e <EssentialProperty schemeIdUri = “urn:mpeg:DASH:3daudio:2014” value = “dataType,definition”>são descritos, similarmente à “Sub-Representação” da faixa de grupo.
[00174] No exemplo da figura 24, os “codecs” da faixa de base compreende “mha2.2.1” e o “nível” é “0” como um valor que indica o nível da faixa de base. O “dependencyLevel” é “1” e “2” como valores que indicam os níveis da faixa de grupo. Adicionalmente, o “dataType” é “3” como um número que indica a informação AudioScene como um tipo descrito na caixa mhas da entrada de amostra da faixa de base e a “definição” compreende dados binários da informação AudioScene codificada pelo método base64.
[00175] Note que, da forma ilustrada na figura 25, na “Sub- Representação” da faixa de base, a informação AudioScene pode ser dividida e descrita.
[00176] No exemplo da figura 25, “1” é definido como um número que indica “Atmo” como um tipo, “Atmo” indicando conteúdo do grupo com o ID de grupo “1”, da informação AudioScene (figura 7) descrita na caixa mhas da entrada de amostra da faixa de base.
[00177] Adicionalmente, “2” a “7” são definidos como números que, respectivamente, indicam, como tipos, “Diálogo EN” que indica o conteúdo do grupo com o ID de grupo “2”, “Diálogo FR” que indica o conteúdo do grupo com o ID de grupo “3”, “VoiceOver GE” que indica o conteúdo do grupo com o ID de grupo “4”, “Efeitos” que indica o conteúdo do grupo com o ID de grupo “5”, “Efeito” que indica o conteúdo do grupo com o ID de grupo “6” e “Efeito” que indica o conteúdo do grupo com o ID de grupo “7”.
[00178] Portanto, na “Sub-Representação” da faixa de base da figura 25, <EssentialProperty schemeIdUri = “urn:mpeg:DASH:3daudio:2014” value = “dataType,definition”> em que o “dataType” é “1” e a “definição” é “Atmo” é descrito. Similarmente, “urn:mpeg:DASH:3daudio:2014” value = “dataType,definition”> em que o “dataType” é “2”, “3”, “4”, “5”, “6” e “7” e a “definição” é “Diálogo EN”, “Diálogo FR”, “VoiceOver GE”, “Efeitos”, “Efeito” e “Efeito” é descrito. No exemplo da figura 25, um caso no qual a informação AudioScene da faixa de base é dividida e descrita foi descrito. Entretanto, o GroupDefinition e o SwitchGroupDefinition da faixa de grupo podem ser similarmente divididos e descritos.
(Esboço do Quarto Exemplo da Faixa do Arquivo de Áudio)
[00179] A figura 26 é um diagrama para descrever um esboço de um quarto exemplo da faixa do arquivo de áudio.
[00180] A configuração da faixa dos dados de áudio da figura 26 é diferente da configuração da figura 23, em que a entrada de amostra da faixa de grupo é a entrada de amostra com o 4cc de “mha2”.
[00181] No caso da figura 26, os 4ccs tanto das entradas de amostra da faixa de base quanto da faixa de grupo são “mha2”. Portanto, a faixa de base e a faixa de grupo não podem ser identificadas e a dependência entre as faixas não pode ser reconhecida com o 4cc da entrada de amostra. Portanto, a dependência entre as faixas é reconhecida com a Referência de Faixa arranjada na caixa track de cada uma das faixas.
[00182] Adicionalmente, em virtude dos 4ccs das entradas de amostra serem “mha2”, a faixa correspondente que é a faixa de quando os fluxos contínuos de áudio dos dados de áudio, do áudio 3D, forem divididos e arranjados em uma pluralidade de faixas, pode ser reconhecida.
[00183] Note que, na caixa mhaC da entrada de amostra da faixa de base, a informação de configuração de todos os grupos do áudio 3D ou a informação de configuração que pode reproduzir independentemente a faixa de base são descritas, similarmente aos casos das figuras 9 e 23. Adicionalmente, na caixa mhas, a informação AudioScene que inclui a informação relacionada a todos os grupos e ao grupo de comutação do áudio 3D é descrita.
[00184] Neste particular, na entrada de amostra da faixa de grupo, a caixa mhas não é arranjada. Adicionalmente, em um caso em que a caixa mhaC que inclui a informação de configuração de todos os grupos do áudio 3D for descrita na entrada de amostra da faixa de base, a caixa mhaC pode não ser descrita na entrada de amostra da faixa de grupo. Entretanto, em um caso em que a caixa mhaC que inclui a informação de configuração que pode reproduzir independentemente a faixa de base for descrita na entrada de amostra da faixa de base, a caixa mhaC que inclui a informação de configuração que pode reproduzir independentemente a faixa de base é descrita na entrada de amostra da faixa de grupo. Se ela está no estado anterior ou no estado posterior pode ser reconhecido de acordo com a existência/não existência da informação de configuração na entrada de amostra. Entretanto, o estado anterior e o estado posterior podem ser identificados pela descrição de um indicador na entrada de amostra ou pela mudança do tipo da entrada de amostra. Note que, embora ilustração seja omitida, em um caso de tornar o estado anterior e o estado posterior reconhecíveis pela mudança do tipo da entrada de amostra, o 4cc da entrada de amostra da faixa de base e o 4cc da entrada de amostra da faixa de grupo são, por exemplo, “mha2” no caso do estado anterior e “mha4” no caso do estado posterior.
(Terceiro Exemplo de Descrição do Arquivo MPD)
[00185] A figura 27 é um diagrama que ilustra um exemplo de descrição do arquivo MPD em um caso em que a configuração das faixas do arquivo de áudio for a configuração da figura 26.
[00186] O arquivo MPD da figura 27 é diferente do arquivo MPD da figura 24 em que os “codecs” da “Sub-Representação” da faixa de grupo são “mha2.2.1” e <EssentialProperty schemeIdUri = “urn:mpeg:DASH:3daudio:2014” value = “dataType,definition”>não é descrito na “Sub-Representação” da faixa de grupo.
[00187] Note que, embora ilustração seja omitida, a informação AudioScene pode ser dividida e descrita na “Sub-Representação” da faixa de base, similarmente ao caso da figura 25.
(Esboço do Quinto Exemplo da Faixa do Arquivo de Áudio)
[00188] A figura 28 é um diagrama para descrever um esboço de um quinto exemplo da faixa do arquivo de áudio.
[00189] A configuração das faixas dos dados de áudio da figura 28 é diferente da configuração da figura 23 em que as entradas de amostra da faixa de base e da faixa de grupo são a entrada de amostra que inclui sintaxe adequada tanto para a faixa de base quanto para a faixa de grupo de um caso em que os fluxos contínuos de áudio dos dados de áudio, do áudio 3D, forem divididos na pluralidade de faixas.
[00190] No caso da figura 28, o s4ccs tanto das entradas de amostra da faixa de base quanto da faixa de grupo são “mha3”, que é o 4cc da entrada de amostra que inclui a sintaxe adequada tanto para a faixa de base quanto para a faixa de grupo.
[00191] Portanto, similarmente ao caso da figura 26, a dependência entre as faixas é reconhecida com a Referência de Faixa arranjada na caixa track em cada uma das faixas. Adicionalmente, em virtude dos 4ccs das entradas de amostra serem “mha3”, a faixa correspondente que é a faixa de quando os fluxos contínuos de áudio dos dados de áudio, do áudio 3D, forem divididos na pluralidade de faixas e arranjados pode ser reconhecida.
(Exemplo de Sintaxe da Entrada de Amostra em que 4cc é “mha3”)
[00192] A figura 29 é um diagrama que ilustra um exemplo de sintaxe da entrada de amostra com o 4cc de “mha3”.
[00193] Da forma ilustrada na figura 29, a sintaxe da entrada de amostra com o 4cc de “mha3” é sintaxe obtida pela síntese da sintaxe da figura 10 e da sintaxe da figura 11.
[00194] Isto é, na entrada de amostra com o 4cc de “mha3”, a caixa mhaC (Caixa MHAConfigration), a caixa mhas (Caixa MHAAudioSceneInfo), a caixa mhgC (MHAGroupDefinitionBox), a caixa mhsC (Caixa MHASwitchGropuDefinition) e congêneres são arranjadas.
[00195] Na caixa mhaC da entrada de amostra da faixa de base, a informação de configuração de todos os grupos do áudio 3D ou a informação de configuração que pode reproduzir independentemente a faixa de base é descrita. Adicionalmente, na caixa mhas, a informação AudioScene que inclui a informação relacionada a todos os grupos e o grupo de comutação do áudio 3D é descrita e a caixa mhgC e a caixa mhsC não são arranjadas.
[00196] Em um caso em que a caixa mhaC que inclui a informação de configuração de todos os grupos do áudio 3D for descrita na entrada de amostra da faixa de base, a caixa mhaC pode não ser descrita na entrada de amostra da faixa de grupo. Entretanto, em um caso em que a caixa mhaC que inclui a informação de configuração que pode reproduzir independentemente a faixa de base for descrita na entrada de amostra da faixa de base, a caixa mhaC que inclui a informação de configuração que pode reproduzir independentemente a faixa de grupo é descrita na entrada de amostra da faixa de grupo. Se ela está no estado anterior ou no estado posterior pode ser reconhecido de acordo com existência/não existência da informação de configuração na entrada de amostra. Entretanto, o estado anterior e o estado posterior podem ser reconhecidos pela descrição de um indicador na entrada de amostra, ou pela mudança do tipo da entrada de amostra. Note que, embora ilustração seja omitida, em um caso de tornar o estado anterior e o estado posterior reconhecíveis pela mudança do tipo da entrada de amostra, os 4ccs das entradas de amostra da faixa de base e da faixa de grupo são, por exemplo, “mha3” no caso do estado anterior e são “mha5” no caso do estado posterior. Adicionalmente, a caixa mhas não é arranjada na entrada de amostra da faixa de grupo. A caixa mhgC e a caixa mhsC podem ser ou podem não ser arranjadas.
[00197] Note que, da forma ilustrada na figura 30, na entrada de amostra da faixa de base, a caixa mhas, a caixa mhgC e a caixa mhsC são arranjadas e tanto a caixa mhaC na qual informação de configuração que pode reproduzir independentemente apenas a faixa de base é descrita quanto a caixa mhaC que inclui a informação de configuração de todos os grupos do áudio 3D podem ser arranjadas. Neste caso, a caixa mhaC na qual a informação de configuração de todos os grupos do áudio 3D é descrita e a caixa mhaC na qual informação de configuração que pode reproduzir independentemente apenas a faixa de base é descrita são reconhecidas com indicadores incluídos nestas caixas mhaC. Adicionalmente, neste caso, a caixa mhaC pode não ser descrita na entrada de amostra da faixa de grupo. Se a caixa mhaC for descrita na entrada de amostra da faixa de grupo pode ser reconhecido de acordo com existência/não existência da caixa mhaC na entrada de amostra da faixa de grupo. Entretanto, se a caixa mhaC é descrita na entrada de amostra da faixa de grupo pode ser reconhecido pela descrição de um indicador na entrada de amostra, ou pela mudança do tipo da entrada de amostra. Note que, embora ilustração seja omitida, em um caso de tornar reconhecível se a caixa mhaC é descrita na entrada de amostra da faixa de grupo pela mudança do tipo da entrada de amostra, os 4ccs das entradas de amostra da faixa de base e da faixa de grupo são, por exemplo, “mha3” em um caso em que a caixa mhaC for descrita na entrada de amostra da faixa de grupo e são “mha5” em um caso em que a caixa mhaC não for descrita na entrada de amostra da faixa de grupo. Note que, na figura 30, a caixa mhgC e a caixa mhsC podem não ser descritas na entrada de amostra da faixa de base.
(Quarto Exemplo de Descrição do Arquivo MPD)
[00198] A figura 31 é um diagrama que ilustra um exemplo de descrição do arquivo MPD em um caso em que a configuração das faixas do arquivo de áudio for a configuração das figuras 28 ou 30.
[00199] O arquivo MPD da figura 31 é diferente do arquivo MPD da figura 24 em que os “codecs” da “Representação” são “mha3.3.1” e os “codecs” da “Sub-Representação” são “mha3.2.1”.
[00200] Note que, embora ilustração seja omitida, a informação AudioScene pode ser dividida e descrita na “Sub-Representação” da faixa de base, similarmente ao caso da figura 25.
[00201] Adicionalmente, na descrição exposta, a Referência de Faixa é arranjada na caixa track em cada uma das faixas. Entretanto, a Referência de Faixa pode não ser arranjada. Por exemplo, as figuras 32 a 34 são diagramas que ilustram, respectivamente, casos nos quais a Referência de Faixa não é arranjada nas caixas track das faixas dos arquivos de áudio das figuras 23, 26 e 28. No caso da figura 32, a Referência de Faixa não é arranjada, mas os 4ccs das entradas de amostra da faixa de base e da faixa de grupo são diferentes e, assim, a dependência entre as faixas pode ser reconhecida. Nos casos das figuras 33 e 34, em virtude de a caixa mhas ser arranjada, se a faixa é a faixa de base pode ser reconhecido.
[00202] Os arquivos MPD dos casos em que as configurações das faixas do arquivo de áudio forem as configurações das figuras 32 a 34 são, respectivamente, iguais aos arquivos MPD das figuras 24, 27 e 31. Note que, neste caso, a informação AudioScene pode ser dividida e descrita na “Sub- Representação” da faixa de base, similarmente ao caso da figura 25.
(Esboço do Sexto Exemplo da Faixa do Arquivo de Áudio)
[00203] A figura 35 é um diagrama para descrever um esboço de um sexto exemplo da faixa do arquivo de áudio.
[00204] A configuração das faixas dos dados de áudio da figura 35 é diferente da configuração da figura 33 em que a informação de referência às amostras das faixas dos grupos e a informação de configuração necessária para decodificação da informação de referência não são arranjadas na amostra da faixa de base, os fluxos contínuos de áudio de 0 ou mais grupos são incluídos e a informação de referência às amostras das faixas dos grupos é descrita na entrada de amostra da faixa de base.
[00205] Para ser específico, uma caixa mhmt que descreve em quais faixas os grupos descritos na informação AudioScene são divididos é novamente arranjada na entrada de amostra com o 4cc de “mha2”, que inclui a sintaxe para faixa de base de quando os fluxos contínuos de áudio dos dados de áudio, do áudio 3D, forem divididos em uma pluralidade de faixas. (Um Outro Exemplo de Sintaxe da Entrada de Amostra com 4cc de “mha2”)
[00206] A figura 36 é um diagrama que ilustra um exemplo de sintaxe das entradas de amostra da faixa de base e da faixa de grupo da figura 35 em que o 4cc é “mha2”.
[00207] A configuração da entrada de amostra com o 4cc de “mha2” da figura 36 é diferente da configuração da figura 10 em que uma caixa MHAMultiTrackDescription (caixa mhmt) é arranjada.
[00208] Na caixa mhmt, como a informação de referência, relacionamento correspondente entre o ID de grupo (group_ID) e o ID de faixa (track_ID) é descrito. Note que, na caixa mhmt, o elemento de áudio e o ID de faixa podem ser descritos em associação um com o outro.
[00209] Em um caso em que a informação de referência não for mudada em cada amostra, a informação de referência pode ser eficientemente descrita pelo arranjo da caixa mhmt na entrada de amostra.
[00210] Note que, embora ilustração seja omitida, nos casos das figuras 9, 20, 23, 26, 28, 30, 32 e 34, a caixa mhmt pode ser similarmente arranjada na entrada de amostra da faixa posterior, em vez de descrever a informação de referência às amostras das faixas dos grupos, em relação a amostra da faixa de base.
[00211] Neste caso, a sintaxe da entrada de amostra com o 4cc de “mha3” se torna aquela ilustrada na figura 37. Isto é, a configuração da entrada de amostra com o 4cc de “mha3” da figura 37 é diferente da configuração da figura 29 em que a caixa MHAMultiTrackDescription (caixa mhmt) é arranjada.
[00212] Adicionalmente, nas figuras 23, 26, 28, 30, 32 até 34 e 35, os fluxos contínuos de áudio de um ou mais grupos do áudio 3D podem não ser incluídos na faixa de base, similarmente à figura 9. Adicionalmente, o número dos grupos correspondentes aos fluxos contínuos de áudio divididos nas faixas de grupo pode ser 1.
[00213] Adicionalmente, nas figuras 23, 26, 28, 30, 32 até 34 e 35, o GroupDefinition e o SwitchGroupDefinition podem ser arranjados na entrada do grupo de amostra, similarmente ao caso da figura 20.
<Segunda Modalidade> (Esboço da Faixa)
[00214] A figura 38 é um diagrama para descrever um esboço de faixas em uma segunda modalidade na qual a presente descrição é aplicada.
[00215] Da forma ilustrada na figura 38, a segunda modalidade é diferente da primeira modalidade em que as faixas são gravadas como diferentes arquivos (3da_base.mp4/3da_group1.mp4/3da_group2.mp4/3da_group3.mp4/3da_grou p 4.mp4). Neste caso, pela aquisição de um arquivo de uma faixa desejada através de um HTTP, apenas dados da faixa desejada podem ser adquiridos. Portanto, os dados da faixa desejada através do HTTP podem ser eficientemente adquiridos.
(Exemplos de Descrição do Arquivo MPD)
[00216] A figura 39 é um diagrama que ilustra exemplos de descrição do arquivo MPD na segunda modalidade na qual a presente descrição é aplicada.
[00217] Da forma ilustrada na figura 39, em um arquivo MPD, “Representação” que gerencia segmentos dos arquivos de áudio (3da_base.mp4/3da_group1.mp4/3da_group2.mp4/3da_group3.mp4/3da_grou p4.mp4) de áudio 3D e congêneres é descrito.
[00218] A “Representação” inclui “codecs”, “id”, “associationId” e “assciationType”. O “id” é um ID da “Representação” que inclui a mesma. O “associationId” é informação que indica relacionamento de referência entre faixa correspondente e uma outra faixa e é “id” de uma faixa de referência. O “assciationType” é um código que indica o significado do relacionamento de referência (dependência) com a faixa de referência e, por exemplo, um valor que é igual a um valor de referência de faixa de MP4 é usado.
[00219] Adicionalmente, a “Representação” das faixas de grupos inclui <EssentialProperty schemeIdUri = “urn:mpeg:DASH:3daudio:2014” value = “dataType,definition”>. No exemplo da figura 39, as “Representações” que gerenciam os segmentos dos arquivos de áudio são providas sob um “AdaptationSet”. Entretanto, o “AdaptationSet” pode ser provido para cada um dos segmentos dos arquivos de áudio e a “Representação” que gerencia o segmento pode ser provida sob o mesmo. Neste caso, no “AdaptationSet”, o “associationId” e <EssentialProperty schemeIdUri = “urn:mpeg:DASH:3daudioAssociationData:2014” value = “dataType,id”> que indica o significado do relacionamento de referência com a faixa de referência pode ser descrito, similarmente ao “assciationType”. Adicionalmente, informação AudioScene, GroupDefinition e SwitchGroupDefinition descrita nas “Representações” de uma faixa de base e uma faixa de grupo pode ser dividida e descrita, similarmente ao caso da figura 25. Adicionalmente, a informação AudioScene, o GroupDefinition e o SwitchGroupDefinition divididos e descritos nas “Representações” podem ser descritos em “AdaptationSets”.
(Esboço do Sistema de Processamento de Informação)
[00220] A figura 40 é um diagrama para descrever um esboço de um sistema de processamento de informação na segunda modalidade na qual a presente descrição é aplicada.
[00221] As mesmas configurações, das configurações ilustradas na figura 40, com as configurações da figura 8, são denotadas com os mesmos sinais de referência. Descrição sobreposta é apropriadamente omitida.
[00222] Um sistema de processamento de informação 210 da figura 40 é configurado de maneira tal que um servidor da Internet 212 conectado em um dispositivo de geração de arquivo 211 seja conectado com um terminal de reprodução de imagem em movimento 214 através da Internet 13.
[00223] No sistema de processamento de informação 210, o servidor da Internet 142 distribui um fluxo contínuo de áudio do arquivo de áudio do grupo a ser reproduzido para o terminal de reprodução de imagem em movimento 144 por um método em conformidade com MPEG-DASH.
[00224] Para ser específico, o dispositivo de geração de arquivo 211 codifica dados de áudio e metadados do áudio 3D do conteúdo de imagem em movimento em uma pluralidade de velocidades de codificação para gerar os fluxos contínuos de áudio. O dispositivo de geração de arquivo 211 divide os fluxos contínuos de áudio para cada grupo e cada tipo de Extelement para ter os fluxos contínuos de áudio em faixas diferentes. O dispositivo de geração de arquivo 211 faz arquivos dos fluxos contínuos de áudio em cada velocidade de codificação, para cada segmento e para cada faixa, para gerar os arquivos de áudio. O dispositivo de geração de arquivo 211 carrega os arquivos de áudio obtido em decorrência disto sobre o servidor da Internet 212. Adicionalmente, o dispositivo de geração de arquivo 211 gera um arquivo MPD e carrega o arquivo MPD sobre o servidor da Internet 212.
[00225] O servidor da Internet 212 armazena os arquivos de áudio em cada velocidade de codificação, para cada segmento e para cada faixa e o arquivo MPD carregado a partir do dispositivo de geração de arquivo 211. O servidor da Internet 212 transmite os arquivos de áudio armazenados, o arquivo MPD armazenado e congêneres para o terminal de reprodução de imagem em movimento 214, em resposta a uma solicitação proveniente do terminal de reprodução de imagem em movimento 214.
[00226] O terminal de reprodução de imagem em movimento 214 executa software de controle 221, software de reprodução de imagem em movimento 162, software de acesso 223 e congêneres.
[00227] O software de controle 221 é software que controla dados transmitidos em fluxo contínuo a partir do servidor da Internet 212. Para ser específico, o software de controle 221 faz com que o terminal de reprodução de imagem em movimento 214 adquira o arquivo MPD a partir do servidor da Internet 212.
[00228] Adicionalmente, o software de controle 221 comanda o software de acesso 223 para enviar uma solicitação de transmissão do grupo a ser reproduzido especificado com o software de reprodução de imagem em movimento 162 e o fluxo contínuo de áudio do arquivo de áudio do tipo de Extelement correspondente ao grupo, com base no arquivo MPD.
[00229] O software de acesso 223 é software que controla a comunicação entre o terminal de reprodução de imagem em movimento 214 e o servidor da Internet 212 através da Internet 13 usando o HTTP. Para ser específico, o software de acesso 223 faz com que o terminal de reprodução de imagem em movimento 144 transmita uma solicitação de transmissão do fluxo contínuo de áudio do arquivo de áudio a ser reproduzido em resposta ao comando do software de controle 221. Adicionalmente, o software de acesso 223 faz com que o terminal de reprodução de imagem em movimento 144 inicie a recepção do fluxo contínuo de áudio transmitido a partir do servidor da Internet 212, em resposta à solicitação de transmissão, e supre notificação do início de recepção para o software de reprodução de imagem em movimento 162.
(Exemplo de Configuração do Dispositivo de Geração de Arquivo)
[00230] A figura 41 é um diagrama de blocos que ilustra um exemplo de configuração do dispositivo de geração de arquivo 211 da figura 40.
[00231] As mesmas configurações, das configurações ilustradas na figura 41, com as configurações da figura 16, são denotadas com os mesmos sinais de referência. Descrição sobreposta é apropriadamente omitida.
[00232] A configuração do dispositivo de geração de arquivo 211 da figura 41 é diferente do dispositivo de geração de arquivo 141 da figura 16 em que uma unidade de geração de arquivo de áudio 241 e uma unidade de geração de MPD 242 são providas no lugar da unidade de geração de arquivo de áudio 172 e da unidade de geração de MPD 173.
[00233] Para ser específico, a unidade de geração de arquivo de áudio 241 do dispositivo de geração de arquivo 211 aloca uma faixa no fluxo contínuo de áudio suprido a partir da unidade de processamento de codificação de áudio 171 para cada grupo e cada tipo do Extelement. A unidade de geração de arquivo de áudio 241 gera o arquivo de áudio no qual o fluxo contínuo de áudio é arranjado, em cada velocidade de codificação, para cada segmento e para cada faixa. A unidade de geração de arquivo de áudio 241 supre os arquivos de áudio gerados para a unidade de geração de MPD 242.
[00234] A unidade de geração de MPD 242 determina um URL do servidor da Internet 142 no qual os arquivos de áudio supridos a partir da unidade de geração de arquivo de áudio 172 devem ser armazenados e congêneres. A unidade de geração de MPD 242 gera o arquivo MPD no qual o URL do arquivo de áudio e congêneres são arranjados no “Segmento” da “Representação” para o arquivo de áudio. A unidade de geração de MPD 173 supre o arquivo MPD gerado e os arquivos de áudio gerados para a unidade de processamento de carregamento do servidor 174.
(Descrição do Processamento do Dispositivo de Geração de Arquivo)
[00235] A figura 42 é um fluxograma para descrever o processamento de geração de arquivo do dispositivo de geração de arquivo 211 da figura 41.
[00236] O processamento das etapas S301 e S302 da figura 42 é similar ao processamento das etapas S191 e S192 da figura 17 e, assim, descrição é omitida.
[00237] Na etapa S303, a unidade de geração de arquivo de áudio 241 gera o arquivo de áudio no qual o fluxo contínuo de áudio é arranjado em cada velocidade de codificação, para cada segmento e para cada faixa. A unidade de geração de arquivo de áudio 241 supre os arquivos de áudio gerados para a unidade de geração de MPD 242.
[00238] O processamento das etapas S304 e S305 é similar ao processamento das etapas S194 e S195 da figura 17 e, assim, descrição é omitida.
(Exemplo de Configuração Funcional do Terminal de Reprodução de Imagem em Movimento)
[00239] A figura 43 é um diagrama de blocos que ilustra um exemplo de configuração de uma unidade de reprodução em transferência contínua realizada de maneira tal que o terminal de reprodução de imagem em movimento 214 da figura 40 execute o software de controle 221, o software de reprodução de imagem em movimento 162 e o software de acesso 223.
[00240] As mesmas configurações, das configurações ilustradas na figura 43, com as configurações da figura 18, são denotadas com os mesmos sinais de referência.
Descrição sobreposta é apropriadamente omitida.
[00241] A configuração de uma unidade de reprodução em transferência contínua 260 da figura 43 é diferente da configuração da unidade de reprodução em transferência contínua 190 da figura 18 em que uma unidade de aquisição de arquivo de áudio 264 é provida no lugar da unidade de aquisição de arquivo de áudio 192.
[00242] A unidade de aquisição de arquivo de áudio 264 solicita que o servidor da Internet 142 adquira o fluxo contínuo de áudio do arquivo de áudio com base no URL do arquivo de áudio da faixa a ser reproduzido, dos URLs supridos a partir da unidade de processamento MPD 191. A unidade de aquisição de arquivo de áudio 264 supre o fluxo contínuo de áudio adquirido para a unidade de processamento de decodificação de áudio 194.
[00243] Isto é, a unidade de aquisição de arquivo de áudio 264, a unidade de processamento de decodificação de áudio 194 e a unidade de processamento de síntese de áudio 195 funcionam como uma unidade de reprodução e adquirem o fluxo contínuo de áudio do arquivo de áudio da faixa a ser reproduzido, a partir dos arquivos de áudio armazenados no servidor da Internet 212, e reproduzem o fluxo contínuo de áudio.
(Descrição do Processamento do Terminal de Reprodução de Imagem em Movimento)
[00244] A figura 44 é um fluxograma para descrever o processamento de reprodução da unidade de reprodução em transferência contínua 260 da figura 43.
[00245] O processamento das etapas S321 e S322 da figura 44 é similar ao processamento das etapas S211 e S212 da figura 19 e, assim, descrição é omitida.
[00246] Na etapa S323, a unidade de aquisição de arquivo de áudio 192 solicita que o servidor da Internet 142 adquira o fluxo contínuo de áudio do arquivo de áudio, dos URLs supridos a partir da unidade de processamento MPD 191, com base no URL do arquivo de áudio da faixa a ser reproduzido. A unidade de aquisição de arquivo de áudio 264 supre o fluxo contínuo de áudio adquirido para a unidade de processamento de decodificação de áudio 194.
[00247] O processamento das etapas S324 e S325 é similar ao processamento das etapas S214 e S215 da figura 19 e, assim, descrição é omitida.
[00248] Note que, na segunda modalidade, o GroupDefinition e o SwitchGroupDefinition também podem ser arranjados na entrada do grupo de amostra, similarmente à primeira modalidade.
[00249] Adicionalmente, na segunda modalidade, as configurações da faixa dos dados de áudio também podem ser as configurações ilustradas nas figuras 23, 26, 28, 30, 32 a 34 e 35, similarmente à primeira modalidade.
[00250] As figuras 45 a 47 são diagramas que ilustram, respectivamente, MPD em um caso em que as configurações da faixa dos dados de áudio na segunda modalidade forem as configurações ilustradas nas figuras 23, 26 e 28. Na segunda modalidade, o MPD em um caso em que as configurações da faixa dos dados de áudio forem a configuração ilustrada nas figuras 32, 33, 34 ou 35 é igual ao MPD no caso das configurações ilustrado nas figuras 23, 26 e 28.
[00251] O MPD da figura 45 é diferente do MPD da figura 39 nos “codecs” e no “associationId” da faixa de base e em que <EssentialProperty schemeIdUri = “urn:mpeg:DASH:3daudio:2014” value = “dataType,definition”>é incluído na “Representação” da faixa de base. Para ser específico, os “codecs” da “Representação” da faixa de base do MPD da figura 45 compreendem “mha2.2.1” e o “associationId” é “g1” e “g2” que são os “ids” das faixas de grupo.
[00252] Adicionalmente, o MPD da figura 46 é diferente do MPD da figura 45 nos “codecs” da faixa de grupo e em que <EssentialProperty schemeIdUri = “urn:mpeg:DASH:3daudio:2014” value = “dataType,definition”>não é incluído na “Representação” da faixa de grupo. Para ser específico, os “codecs” da faixa de grupo do MPD da figura 46 compreendem “mha2.2.1”.
[00253] Adicionalmente, o MPD da figura 47 é diferente do MPD da figura 45 nos “codecs” da faixa de base e da faixa de grupo. Para ser específico, os “codecs” da faixa de grupo do MPD da figura 47 compreendem “mha3.2.1”.
[00254] Note que, no MPD das figuras 45 a 47, “AdaptationSet” pode ser dividido para cada “Representação”, da forma ilustrada nas figuras 48 a 50.
<Um Outro Exemplo de Faixa de Base>
[00255] Na descrição exposta, apenas uma faixa de base é provida. Entretanto, uma pluralidade das faixas de base pode ser provida. Neste caso, a faixa de base é provida para cada ponto de visualização do áudio 3D (detalhes serão dados a seguir), por exemplo, e, nas faixas de base, caixas mhaC que incluem informação de configuração de todos os grupos do áudio 3D dos pontos de visualização são arranjadas. Note que, nas faixas de base, caixas mhas que incluem a informação AudioScene dos pontos de visualização podem ser arranjadas.
[00256] O ponto de visualização do áudio 3D é uma posição em que o áudio 3D pode ser ouvido, tal como um ponto de visualização de uma imagem reproduzida ao mesmo tempo com o áudio 3D ou uma posição predeterminada definida em antecipação.
[00257] Da forma supradescrita, em um caso em que a faixa de base for dividida para cada ponto de visualização, áudio diferente para cada ponto de visualização pode ser reproduzido a partir do fluxo contínuo de áudio do mesmo áudio 3D com base na posição de um objeto em um visor e congêneres incluídos na informação de configuração de cada um dos pontos de visualização. Em decorrência disto, uma quantidade de dados dos fluxos contínuos de áudio do áudio 3D pode ser reduzida.
[00258] Isto é, em um caso em que os pontos de visualização do áudio 3D forem uma pluralidade de pontos de visualização de imagens de um estádio de beisebol, que podem ser reproduzidas ao mesmo tempo com o áudio 3D, uma imagem que tem um ponto de visualização em um visor posterior central é preparada como uma imagem principal que é uma imagem de um ponto de visualização básico. Adicionalmente, imagens que têm pontos de visualização em um assento atrás do home plate, um assento na arquibancada no campo interno da primeira base, um assento na arquibancada no campo interno da terceira base, um assento na arquibancada no campo externo esquerdo, um assento na arquibancada no campo externo direito e congêneres são preparados como múltiplas imagens, que são imagens dos pontos de visualização diferentes do ponto de visualização básico.
[00259] Neste caso, se o áudio 3D de todos os pontos de visualização for preparado, a quantidade de dados do áudio 3D fica grande. Portanto, pela descrição, nas faixas de base, das posições do objeto no visor e congêneres nos pontos de visualização, os fluxos contínuos de áudio, tais como áudio de objeto e áudio de objeto SAOC, que são trocados de acordo com as posições do objeto no visor, podem ser compartilhados pelos pontos de visualização. Em decorrência disto, a quantidade de dados dos fluxos contínuos de áudio do áudio 3D pode ser reduzida.
[00260] No momento da reprodução do áudio 3D, por exemplo, áudio diferente é reproduzido de acordo com o ponto de visualização, usando os fluxos contínuos de áudio, tais como o áudio de objeto e o áudio de objeto SAOC, do ponto de visualização básico e a faixa de base correspondente ao ponto de visualização da imagem principal ou das múltiplas imagens reproduzidas ao mesmo tempo com o fluxo contínuo de áudio.
[00261] Similarmente, por exemplo, em um caso em que os pontos de visualização do áudio 3D forem posições de uma pluralidade de assentos de um estádio definidos em antecipação, a quantidade de dados do áudio 3D fica grande se o áudio 3D de todos os pontos de visualização for preparado. Portanto, pela descrição, nas faixas de base, as posições do objeto no visor, nos pontos de visualização, os fluxos contínuos de áudio, tais como o áudio de objeto e o áudio de objeto SAOC, podem ser compartilhados pelos pontos de visualização. Em decorrência disto, áudio diferente pode ser reproduzido de acordo com o assento selecionado pelo usuário que usa um esquema de localização de assentos, usando o áudio de objeto e o áudio de objeto SAOC de um ponto de visualização e a quantidade de dados dos fluxos contínuos de áudio do áudio 3D pode ser reduzida.
[00262] Em um caso em que a faixa de base for provida para cada ponto de visualização do áudio 3D na estrutura de faixa da figura 28, a estrutura de faixa se torna aquela ilustrada na figura 51. No exemplo da figura 51, o número de pontos de visualização do áudio 3D é três. Adicionalmente, no exemplo da figura 51, áudio de canal é gerado para cada ponto de visualização do áudio 3D e outros dados de áudio são compartilhados pelos pontos de visualização do áudio 3D. O mesmo se aplica ao exemplo da figura 52 descrito a seguir.
[00263] Neste caso, três faixas de base são providas para cada ponto de visualização do áudio 3D, da forma ilustrada na figura 51. Referência de Faixa é arranjada na caixa track de cada uma das faixas de base. Adicionalmente, sintaxe de entrada de amostra de cada uma das faixas de base é igual à sintaxe da entrada de amostra com 4cc de “mha3”. O 4cc é “mhcf” que indica que a faixa de base é provida para cada ponto de visualização do áudio 3D.
[00264] A caixa mhaC que inclui informação de configuração de todos os grupos do áudio 3D de cada um dos pontos de visualização é arranjada na entrada de amostra de cada uma das faixas de base. Como a informação de configuração de todos os grupos do áudio 3D de cada um dos pontos de visualização, há a posição do objeto no visor, no ponto de visualização, por exemplo. Adicionalmente, a caixa mhas que inclui a informação AudioScene de cada um dos pontos de visualização é arranjada em cada uma das faixas de base.
[00265] Os fluxos contínuos de áudio dos grupos do áudio de canal dos pontos de visualização são arranjados nas amostras das faixas de base.
[00266] Note que, em um caso em que Metadados de Objeto que descrevem a posição do objeto no visor, em cada um dos pontos de visualização, em unidades de uma amostra, existirem, os Metadados de Objeto também são arranjados na amostra de cada uma das faixas de base.
[00267] Isto é, em um caso em que o objeto for um corpo em movimento (por exemplo, um atleta esportivo), a posição do objeto no visor em cada um dos pontos de visualização é temporariamente mudada. Portanto, a posição é descrita como Metadados de Objeto em unidades da amostra. Neste caso, os Metadados de Objeto em unidades da amostra são arranjados, para cada ponto de visualização, na amostra da faixa de base correspondente ao ponto de visualização.
[00268] As configurações das faixas de grupo da figura 51 são iguais à configuração da figura 28, exceto em que o fluxo contínuo de áudio do grupo do áudio de canal não é arranjado e, assim, descrição é omitida.
[00269] Note que, na estrutura de faixa da figura 51, os fluxos contínuos de áudio dos grupos do áudio de canal dos pontos de visualização podem não ser arranjados na faixa de base e podem ser arranjados nas faixas de grupo diferentes. Neste caso, a estrutura de faixa se torna aquela ilustrada na figura 52.
[00270] No exemplo da figura 52, o fluxo contínuo de áudio do grupo do áudio de canal do ponto de visualização correspondente à faixa de base com o ID de faixa de “1” é arranjado na faixa de grupo com o ID de faixa de “4”. Adicionalmente, o fluxo contínuo de áudio do grupo do áudio de canal do ponto de visualização correspondente à faixa de base com o ID de faixa de “2” é arranjado na faixa de grupo com o ID de faixa de “5”.
[00271] Adicionalmente, o fluxo contínuo de áudio do grupo do áudio de canal do ponto de visualização correspondente à faixa de base com o ID de faixa de “3” é arranjado na faixa de grupo com o ID de faixa de “6”.
[00272] Note que, nos exemplos das figuras 51 e 52, o 4cc da entrada de amostra da faixa de base é “mhcf”. Entretanto, o 4cc pode ser “mha3” que é igual ao caso da figura 28.
[00273] Adicionalmente, embora ilustração seja omitida, um caso no qual a faixa de base é provida para cada ponto de visualização do áudio 3D em todas as estruturas de faixa supradescritas diferentes da estrutura de faixa da figura 28 é similar ao caso das figuras 51 e 52.
<Terceira Modalidade> (Descrição do Computador no qual a Presente Descrição é Aplicada)
[00274] A série de processamento do servidor da Internet 142 (212) pode ser executada por hardware ou pode ser executada por software. Em um caso de execução da série de processamento por software, um programa que configura o software é instalado no computador. Aqui, o computador inclui um computador incorporado em hardware especial e um computador pessoal de uso geral que pode executar vários tipos de funções pela instalação de vários tipos de programas e congêneres.
[00275] A figura 53 é um diagrama de blocos que ilustra um exemplo de configuração de hardware do computador que executa a série de processamento do servidor da Internet 142 (212) com um programa.
[00276] No computador, uma unidade de processamento central (CPU) 601, uma memória exclusiva de leitura (ROM) 602 e uma memória de acesso aleatório (RAM) 603 são mutuamente conectadas por um barramento 604.
[00277] Uma interface de entrada/saída 605 é adicionalmente conectada no barramento 604. Uma unidade de entrada 606, uma unidade de saída 607, uma unidade de armazenamento 608, uma unidade de comunicação 609 e uma unidade 610 são conectadas na interface de entrada/saída 605.
[00278] A unidade de entrada 606 é feita por um teclado, um mouse, um microfone e congêneres. A unidade de saída 607 é feita por um visor, um alto-falante e congêneres. A unidade de armazenamento 608 é feita por um disco rígido, uma memória não volátil e congêneres. A unidade de comunicação 609 é feita por uma interface de rede e congêneres. A unidade 610 aciona uma mídia removível 611, tais como um disco magnético, um disco óptico ou um disco magneto-óptico, ou uma memória semicondutora.
[00279] No computador configurado como exposto, a CPU 601 carrega o programa armazenado na unidade de armazenamento 608 sobre a RAM 603 através da interface de entrada/saída 605 e do barramento 604 e executa o programa, de forma que a série de processamento seja realizada.
[00280] O programa executado pelo computador (CPU 601) pode ser provido por ser gravado na mídia removível 611 como uma mídia em pacote, por exemplo. Adicionalmente, o programa pode ser provido através de uma mídia de transmissão com fios ou sem fio, tais como uma rede de área local, a Internet ou difusão por satélite digital.
[00281] No computador, o programa pode ser instalado na unidade de armazenamento 608 através da interface de entrada/saída 605 pela anexação da mídia removível 611 na unidade 610. Adicionalmente, o programa pode ser recebido pela unidade de comunicação 609 através de uma mídia de transmissão com fios ou sem fio e instalado na unidade de armazenamento 608. Além do mais, o programa pode ser instalado na ROM 602 ou na unidade de armazenamento 608 em antecipação.
[00282] Note que o programa executado pelo computador pode ser um programa processado em série temporal de acordo com a ordem descrita no presente relatório descritivo, ou pode ser um programa processado em paralelo ou em sincronização necessária, tal como quando chamado.
[00283] Adicionalmente, a configuração de hardware do terminal de reprodução de imagem em movimento 144 (214) pode ter uma configuração similar ao computador da figura 53. Neste caso, por exemplo, a CPU 601 executa o software de controle 161 (221), o software de reprodução de imagem em movimento 162 e o software de acesso 163 (223). O processamento do terminal de reprodução de imagem em movimento 144 (214) pode ser executado por hardware.
[00284] No presente relatório descritivo, um sistema significa um coletivo de uma pluralidade de elementos de configuração (dispositivos, módulos (componentes) e congêneres) e todos os elementos de configuração podem ou não estar no mesmo invólucro. Portanto, tanto uma pluralidade de dispositivos acomodados em invólucros separados e conectados por meio de uma rede quanto um único dispositivo no qual uma pluralidade de módulos é acomodada em um único invólucro são sistemas.
[00285] Note que modalidades da presente descrição não são limitadas às supradescritas modalidades e várias mudanças podem ser feitas sem fugir do espírito e do escopo da presente descrição.
[00286] Adicionalmente, a presente descrição pode ser aplicada em um sistema de processamento de informação que realiza difusão ou reprodução de armazenamento local, em vez de reprodução por transferência contínua.
[00287] Nas modalidades do MPD, a informação é descrita por EssentialProperty que tem definição do descritor que pode ser ignorada quando o conteúdo descrito pelo esquema não puder ser entendido. Entretanto, a informação pode ser descrita por SupplementalProperty que tem definição do descritor que pode ser reproduzida mesmo se o conteúdo descrito pelo esquema não puder ser entendido. Este método de descrição é selecionado pelo lado que cria o conteúdo com intenção.
[00288] Adicionalmente, a presente descrição pode empregar as configurações como a seguir.
[00289] (1) Um aparelho de processamento de informação, que inclui: uma unidade de geração de arquivo configurada para gerar um arquivo no qual dados de áudio de uma pluralidade de tipos são divididos em faixas para cada um ou mais dos tipos e arranjados e informação relacionada à pluralidade de tipos é arranjada.
[00290] (2) O aparelho de processamento de informação de acordo com (1), em que a informação relacionada à pluralidade de tipos é arranjada na entrada de amostra de uma faixa predeterminada.
[00291] (3) O aparelho de processamento de informação de acordo com (2), em que a faixa predeterminada é uma das faixas nas quais os dados de áudio de uma pluralidade de tipos são divididos e arranjados.
[00292] (4) O aparelho de processamento de informação de acordo com qualquer um de (1) a (3), em que, para cada uma das faixas, informação relacionada ao tipo correspondente à faixa é arranjada no arquivo.
[00293] (5) O aparelho de processamento de informação de acordo com (4), em que, para cada uma das faixas, informação relacionada a um tipo de reprodução exclusivo feito do tipo correspondente à faixa e ao tipo correspondente aos dados de áudio exclusivamente reproduzidos a partir dos dados de áudio do tipo correspondente à faixa é arranjada no arquivo.
[00294] (6) O aparelho de processamento de informação de acordo com (5), em que informação relacionada ao tipo correspondente à faixa e a informação relacionada a um tipo de reprodução exclusivo são arranjadas na entrada de amostra da faixa correspondente.
[00295] (7) O aparelho de processamento de informação de acordo com (5) ou (6), em que a unidade de geração de arquivo gera um arquivo de gerenciamento que gerencia o arquivo que inclui informação que indica se a informação relacionada a um tipo de reprodução exclusivo existe para cada uma das faixas.
[00296] (8) O aparelho de processamento de informação de acordo com qualquer um de (1) a (7), em que informação de referência às faixas correspondentes à pluralidade de tipos é arranjada no arquivo.
[00297] (9) O aparelho de processamento de informação de acordo com (8), em que a informação de referência é arranjada em uma amostra da faixa predeterminada.
[00298] (10) O aparelho de processamento de informação de acordo com (9), em que a faixa predeterminada é uma das faixas nas quais os dados de áudio de uma pluralidade de tipos são divididos e arranjados.
[00299] (11) O aparelho de processamento de informação de acordo com qualquer um de (1) a (10), em que informação que indica relacionamento de referência entre as faixas é arranjada no arquivo.
[00300] (12) O aparelho de processamento de informação de acordo com qualquer um de (1) a (11), em que a unidade de geração de arquivo gera um arquivo de gerenciamento que gerencia o arquivo que inclui informação que indica relacionamento de referência entre as faixas.
[00301] (13) O aparelho de processamento de informação de acordo com qualquer um de (1) a (12), em que o arquivo é um arquivo.
[00302] (14) O aparelho de processamento de informação de acordo com qualquer um de (1) a (12), em que o arquivo é um arquivo de cada uma das faixas.
[00303] (15) Um método de processamento de informação, que inclui a etapa de: por um aparelho de processamento de informação, gerar um arquivo no qual dados de áudio de uma pluralidade de tipos são divididos em faixas para cada um ou mais dos tipos e arranjados e informação relacionada à pluralidade de tipos é arranjada.
[00304] (16) Um aparelho de processamento de informação, que inclui: uma unidade de reprodução configurada para reproduzir, a partir de um arquivo no qual dados de áudio de uma pluralidade de tipos são divididos em faixas para cada um ou mais dos tipos e arranjados e informação relacionada à pluralidade de tipos é arranjada, os dados de áudio de uma faixa predeterminada.
[00305] (17) Um método de processamento de informação, que inclui a etapa de: por um aparelho de processamento de informação, reproduzir, a partir do arquivo no qual dados de áudio de uma pluralidade de tipos são divididos em faixas para cada um ou mais dos tipos e arranjados e informação relacionada à pluralidade de tipos é arranjada, os dados de áudio de uma faixa predeterminada. LISTA DOS SINAIS DE REFERÊNCIA 11 Dispositivo de geração de arquivo 192 Unidade de aquisição de arquivo de áudio 194 Unidade de processamento de decodificação de áudio 195 Unidade de processamento de síntese de áudio 211 Dispositivo de geração de arquivo 264 Unidade de aquisição de arquivo de áudio

Claims (12)

1. Aparelho de processamento de informação (141), caracterizadopelo fato de que compreende: uma unidade de geração de arquivo (172) configurada para gerar, a partir de uma pluralidade de fluxos de áudio existentes, um arquivo que compreende um único fluxo de áudio compreendendo elementos de áudio de cada uma da pluralidade de fluxos de áudio existentes, em que cada uma da pluralidade de fluxos de áudio existentes compreende áudio 3D codificado em uma taxa de codificação respectiva diferente, áudio 3D compreendendo uma pluralidade de elementos de áudio de uma pluralidade de tipos codificados como uma única faixa, e em que o único fluxo de áudio compreende uma pluralidade de faixas organizadas em uma pluralidade de grupos, cada grupo compreendendo um ou mais elementos de áudio do mesmo tipo dispostos como uma ou mais faixas, e informações que identificam cada um dos grupos no fluxo; e a unidade de geração de arquivo (172) é adicionalmente configurada para designar uma faixa correspondente a uma ID de grupo, na ID de grupo, a ID de grupo é designada para a informação de grupo sobre cada grupo, cada grupo da pluralidade de grupos é o grupo do elemento de áudio agrupado ao tipo de mesma voz, em que a ID de grupo é a informação de identificação sobre cada elemento de áudio agrupado, e as informações que descrevem as informações da cena de áudio são a estrutura dos vários grupos dentro do arquivo de áudio.
2. Aparelho de processamento de informação de acordo com a reivindicação 1, caracterizadopelo fato de que o arquivo inclui informação que indica correspondência entre a pluralidade de grupos e a pluralidade de faixas.
3. Aparelho de processamento de informação de acordo com a reivindicação 2, caracterizadopelo fato de que a informação que indica correspondência entre a pluralidade de grupos e a pluralidade de faixas inclui os IDs de grupo da pluralidade de grupos e IDs de faixa correspondentes à pluralidade de faixas.
4. Aparelho de processamento de informação de acordo com a reivindicação 1, caracterizadopelo fato de que a informação relacionada à pluralidade de grupos é arranjada em entrada de amostra de uma faixa predeterminada no arquivo.
5. Aparelho de processamento de informação de acordo com a reivindicação 1, caracterizadopelo fato de que, para cada uma das faixas, informação relacionada ao grupo que corresponde à faixa é arranjada no arquivo.
6. Aparelho de processamento de informação de acordo com a reivindicação 1, caracterizadopelo fato de que a informação é fornecida para um ou mais grupos de comutação, indicando que apenas um grupo no grupo de comutação deve ser reproduzido.
7. Aparelho de processamento de informação de acordo com a reivindicação 1, caracterizadopelo fato de que a informação de referência à pluralidade de faixas é arranjada no arquivo.
8. Aparelho de processamento de informação de acordo com a reivindicação 1, caracterizadopelo fato de que a unidade de geração de arquivo gera um arquivo de descrição de apresentação de mídia que inclui informação indicando relação de referência entre as faixas.
9. Aparelho de processamento de informação de acordo com a reivindicação 1, caracterizadopelo fato de que o arquivo é um arquivo de cada uma das faixas.
10. Método de processamento de informação, caracterizado pelo fato de que compreende a etapa de: gerar, a partir de uma pluralidade de fluxos de áudio existentes, um arquivo que compreende um único fluxo de áudio compreendendo elementos de áudio de cada uma da pluralidade de fluxos de áudio existentes, em que cada uma da pluralidade de fluxos de áudio existentes compreende áudio 3D codificado em uma taxa de codificação respectiva diferente, áudio 3D compreendendo uma pluralidade de elementos de áudio de uma pluralidade de tipos codificados como uma única faixa, e em que o único fluxo de áudio compreende uma pluralidade de faixas organizadas em uma pluralidade de grupos, cada grupo compreendendo um ou mais elementos de áudio do mesmo tipo dispostos como uma ou mais faixas, e informações que identificam cada um dos grupos no fluxo; e a unidade de geração de arquivo (172) é adicionalmente configurada para designar uma faixa correspondente a uma ID de grupo, na ID de grupo, a ID de grupo é designada para a informação de grupo sobre cada grupo, cada grupo da pluralidade de grupos é o grupo do elemento de áudio agrupado ao tipo de mesma voz, em que a ID de grupo é a informação de identificação sobre cada elemento de áudio agrupado, e as informações que descrevem as informações da cena de áudio são a estrutura dos vários grupos dentro do arquivo de áudio.
11. Aparelho de processamento de informação (144), caracterizado pelo fato de que compreende: uma unidade de reprodução (190) configurada para reproduzir uma faixa predeterminada de um arquivo que compreende um único fluxo de áudio gerado a partir de uma pluralidade de fluxos de áudio existentes, em que o único fluxo de áudio compreende elementos de áudio de cada uma da pluralidade de fluxos de áudio existentes, em que cada uma da pluralidade de fluxos de áudio existentes compreende áudio 3D codificado em uma taxa de codificação respectiva diferente, áudio 3D compreendendo uma pluralidade de elementos de áudio de uma pluralidade de tipos codificados como uma única faixa, e em que o único fluxo de áudio compreende uma pluralidade de faixas dispostas em uma pluralidade de grupos, cada grupo compreendendo um ou mais elementos de áudio do mesmo tipo dispostos como uma ou mais faixas e informações que identificam cada um dos grupos no fluxo; e a unidade de geração de arquivo (172) é adicionalmente configurada para designar uma faixa correspondente a uma ID de grupo, na ID de grupo, a ID de grupo é designada para a informação de grupo sobre cada grupo, cada grupo da pluralidade de grupos é o grupo do elemento de áudio agrupado ao tipo de mesma voz, em que a ID de grupo é a informação de identificação sobre cada elemento de áudio agrupado, e as informações que descrevem as informações da cena de áudio são a estrutura dos vários grupos dentro do arquivo de áudio.
12. Método de processamento de informação, caracterizado pelo fato de que compreende a etapa de: reproduzir uma faixa predeterminada a partir de um arquivo feito de uma pluralidade de faixas, o arquivo compreende um único fluxo de áudio gerado a partir de uma pluralidade de fluxos de áudio existentes, em que o único fluxo de áudio compreende elementos de áudio de cada uma da pluralidade de fluxos de áudio existentes, em que cada uma da pluralidade de fluxos de áudio existentes compreende áudio 3D codificado em uma taxa de codificação respectiva diferente, áudio 3D compreendendo uma pluralidade de elementos de áudio de uma pluralidade de tipos codificados como uma única faixa, e em que o único fluxo de áudio compreende uma pluralidade de faixas dispostas em uma pluralidade de grupos, cada grupo compreendendo um ou mais elementos de áudio dispostos como uma ou mais faixas e informações que identificam cada um dos grupos no fluxo; e a unidade de geração de arquivo (172) é adicionalmente configurada para designar uma faixa correspondente a uma ID de grupo, na ID de grupo, a ID de grupo é designada para a informação de grupo sobre cada grupo, cada grupo da pluralidade de grupos é o grupo do elemento de áudio agrupado ao tipo de mesma voz, em que a ID de grupo é a informação de identificação sobre cada elemento de áudio agrupado, e as informações que descrevem as informações da cena de áudio são a estrutura dos vários grupos dentro do arquivo de áudio.
BR112016030349-0A 2015-05-27 2015-06-30 Aparelho e método de processamento de informação BR112016030349B1 (pt)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2015-107970 2015-05-27
JP2015-109838 2015-05-29
JP2015-119359 2015-06-12
JP2015-121336 2015-06-16
JP2015-124453 2015-06-22

Publications (1)

Publication Number Publication Date
BR112016030349B1 true BR112016030349B1 (pt) 2023-08-15

Family

ID=

Similar Documents

Publication Publication Date Title
JP7424420B2 (ja) 情報処理装置および情報処理方法
BR112016027506B1 (pt) Aparelho e método de processamento de informação
JP5635097B2 (ja) オーディオオブジェクトを適応的にストリーミングするためのシステム
US11393483B2 (en) Method for transmitting and receiving audio data and apparatus therefor
CN114339297B (zh) 音频处理方法、装置、电子设备和计算机可读存储介质
EP2205007A1 (en) Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
BR112013033386B1 (pt) sistema e método para geração, codificação e renderização de sinal de áudio adaptável
TWI607655B (zh) Coding apparatus and method, decoding apparatus and method, and program
BR112016022078B1 (pt) Aparelho e método para renderização de áudio empregando uma definição da distância geométrica
KR20180100716A (ko) 이벤트 스트리밍 프레젠테이션 확립
BR112017007267B1 (pt) Adaptação de conteúdo de hoa relacionada a tela
JPWO2015182492A1 (ja) 情報処理装置および情報処理方法
JP6809463B2 (ja) 情報処理装置、および情報処理方法、並びにプログラム
BR112016030349B1 (pt) Aparelho e método de processamento de informação
KR20240112224A (ko) 오디오 신호를 생성하는 방법 및 장치, 그리고 오디오 신호를 재생하는 방법 및 장치