BR112021005241A2 - dispositivo, método e programa de processamento de informações - Google Patents

dispositivo, método e programa de processamento de informações Download PDF

Info

Publication number
BR112021005241A2
BR112021005241A2 BR112021005241-0A BR112021005241A BR112021005241A2 BR 112021005241 A2 BR112021005241 A2 BR 112021005241A2 BR 112021005241 A BR112021005241 A BR 112021005241A BR 112021005241 A2 BR112021005241 A2 BR 112021005241A2
Authority
BR
Brazil
Prior art keywords
information
metadata
processing device
information processing
distribution
Prior art date
Application number
BR112021005241-0A
Other languages
English (en)
Inventor
Yuki Yamamoto
Toru Chinen
Minoru Tsuji
Original Assignee
Sony Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corporation filed Critical Sony Corporation
Publication of BR112021005241A2 publication Critical patent/BR112021005241A2/pt

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Stereophonic System (AREA)

Abstract

A presente invenção se refere a um dispositivo, método e programa de processamento de informações, de modo que seja possível a fácil produção de conteúdo de áudio 3D. O dispositivo de processamento de informações compreende uma unidade de determinação que determina, com base em um ou em uma pluralidade de itens de informação de atributo de um objeto, um ou uma pluralidade de parâmetros que constituem os metadados do objeto. A presente invenção pode ser aplicada a um dispositivo de processamento de informações.

Description

1 / 34 DISPOSITIVO, MÉTODO E PROGRAMA DE PROCESSAMENTO DE
INFORMAÇÕES CAMPO TÉCNICO
[001] A presente tecnologia se refere a dispositivos, métodos e programas de processamento de informações e, em particular, a dispositivos, métodos e programas de processamento de informações que permitem a fácil produção de conteúdo de áudio 3D.
FUNDAMENTOS DA TÉCNICA
[002] Convencionalmente, o padrão de Áudio 3D do Grupo de Especialistas em Imagens com Movimento (MPEG)-H é conhecido (consulte, por exemplo, o Documento Não Patentário 1 e o Documento Não Patentário 2).
[003] O áudio 3D, que é controlado pelo padrão de Áudio 3D da MPEG-H e similares, pode reproduzir a direção, distância e propagação do som tridimensional, tornando possível reproduzir o áudio com uma sensação mais realista do que a reprodução estéreo convencional.
LISTA DE CITAÇÕES DOCUMENTO NÃO PATENTÁRIO
[004] Documento Não Patentário 1: ISO/IEC 23008-3, 3D MPEG-H Audio. Documento Não Patentário 2: ISO/IEC 23008-3: 2015/AMENDMENT3, MPEG-H 3D Audio Phase 2.
SUMÁRIO DA INVENÇÃO PROBLEMAS A SEREM RESOLVIDOS PELA INVENÇÃO
[005] No entanto, com áudio 3D, um custo temporal para a produção de conteúdo (conteúdo de áudio 3D) aumenta.
[006] Por exemplo, no Áudio 3D, as informações de posição do objeto, ou seja, as informações de posição da fonte de som, têm um número maior de dimensões do que estéreo (Áudio 3D é tridimensional e estéreo é
2 / 34 bidimensional). Portanto, o áudio 3D aumenta um custo temporal, especialmente na determinação de parâmetros que constituem metadados para cada objeto, como um ângulo horizontal, um ângulo vertical e uma distância que indica uma posição do objeto e um ganho para o objeto.
[007] Além disso, no conteúdo de áudio 3D, tanto o número de conteúdo quanto o número de produtores são muito menores do que em conteúdo estéreo. Portanto, a situação atual é que existe pouco conteúdo de áudio 3D de alta qualidade.
[008] Do exposto acima, deseja-se que seja possível produzir conteúdo de Áudio 3D de qualidade suficientemente alta com mais facilidade, ou seja, em menos tempo.
[009] A presente tecnologia foi desenvolvida tendo em vista de tal situação e permite a fácil produção de conteúdo de Áudio 3D.
SOLUÇÕES PARA PROBLEMAS
[0010] O dispositivo de processamento de informações de um aspecto da presente tecnologia inclui uma unidade de determinação que determina um ou mais parâmetros que constituem metadados de um objeto com base em uma ou mais partes de informações de atributos do objeto.
[0011] Um método ou programa de processamento de informações de um aspecto da presente tecnologia inclui uma etapa de determinação de um ou mais parâmetros que constituem metadados de um objeto com base em uma ou mais partes de informações de atributos do objeto.
[0012] Em um aspecto da presente tecnologia, um ou mais parâmetros que constituem os metadados de um objeto são determinados com base em uma ou mais informações de atributos do objeto.
BREVE DESCRIÇÃO DOS DESENHOS
[0013] A Fig. 1 é um diagrama para explicar a determinação de metadados por uma árvore de decisão.
[0014] A Fig. 2 é um diagrama que ilustra o ajuste de distribuição de
3 / 34 metadados.
[0015] A Fig. 3 é um diagrama que ilustra o ajuste de distribuição de metadados.
[0016] A Fig. 4 é um diagrama que mostra um exemplo de configuração de um dispositivo de processamento de informações.
[0017] A Fig. 5 é um fluxograma que ilustra um processo de determinação de metadados.
[0018] A Fig. 6 é um diagrama que mostra um exemplo de configuração de um computador.
MODO PARA REALIZAR A INVENÇÃO
[0019] Doravante, as modalidades às quais a presente tecnologia é aplicada serão descritas com referência aos desenhos. <Primeira Modalidade> <Sobre a tecnologia atual>
[0020] A presente tecnologia possibilita a produção de conteúdo de Áudio 3D de qualidade suficientemente alta com mais facilidade, ou seja, em menor tempo por meio da determinação de metadados, mais especificamente, de um ou mais parâmetros que constituem os metadados de cada objeto.
[0021] Em particular, a tecnologia atual possui as seguintes características (F1) a (F5).
[0022] Característica (F1): Determinar os metadados das informações dadas a cada objeto Característica (F2): Determinar os metadados a partir de um sinal de áudio para cada objeto Característica (F3): Determinar os metadados a partir de outra parte de informação Característica (F4): Modificar os metadados para obter a distribuição desejada Característica (F5): Existe uma pluralidade de padrões de
4 / 34 determinação de metadados
[0023] Com a tecnologia atual, o conteúdo de áudio 3D de alta qualidade pode ser produzido em um curto espaço de tempo, determinando os metadados do objeto a partir das informações mostradas abaixo. Com este arranjo, espera-se que o número de conteúdo de Áudio 3D de alta qualidade e o número de produtores de conteúdo de Áudio 3D aumentem.
[0024] A seguir, um exemplo específico de determinação de metadados de objeto será descrito para cada tipo de informação usada para cálculo automático (determinação automática) dos metadados de objeto.
[0025] Observe que, na tecnologia atual, o objeto pode ser qualquer objeto, como um objeto de áudio ou um objeto de imagem, desde que tenha parâmetros como informações de posição e ganho como metadados.
[0026] Por exemplo, a presente tecnologia também é aplicável a um caso em que um parâmetro que indica uma posição de um objeto de imagem, como um modelo 3D no espaço, é usado como metadados e os metadados do objeto de imagem são determinados com base em informações de atributos indicando um atributo do objeto de imagem. Observe que as informações de atributos do objeto de imagem podem ser um tipo (espécie), uma prioridade ou similares do objeto de imagem.
[0027] A seguir, um caso em que o objeto é um objeto de áudio será descrito como um exemplo.
[0028] Em um caso em que o objeto é um objeto de áudio, os metadados incluem um ou mais parâmetros (informações) usados para processamento para reproduzir som com base em um sinal de áudio do objeto, mais especificamente, processamento para renderizar o objeto.
[0029] Especificamente, os metadados incluem, por exemplo, um ângulo horizontal, um ângulo vertical e uma distância que constituem informações de posição que indicam a posição do objeto no espaço tridimensional e um ganho do sinal de áudio do objeto. Observe que, a seguir,
5 / 34 um exemplo em que os metadados incluem um total de quatro parâmetros de um ângulo horizontal, um ângulo vertical, uma distância e um ganho serão descritos, mas o número de parâmetros de metadados pode ser qualquer número contanto que ele seja um ou mais.
[0030] O ângulo horizontal é um ângulo que indica uma posição horizontal do objeto conforme visto a partir de uma posição de referência predeterminada, como a posição de um usuário, e o ângulo vertical é um ângulo que indica uma posição vertical do objeto conforme visto a partir da posição de referência. Além disso, a distância que constitui as informações de posição é uma distância da posição de referência até o objeto. (Determinação a partir da informação dada a cada objeto)
[0031] Em primeiro lugar, será descrito um método de determinação de metadados, mais especificamente, parâmetros dos metadados, a partir das informações dadas a cada objeto.
[0032] Os metadados do objeto são frequentemente determinados com base nas informações relacionadas aos atributos do objeto, como informações dos instrumentos musicais, informações dos efeitos acústicos e informações de prioridade. No entanto, as regras para determinar os metadados de acordo com essas informações de instrumentos musicais e similares variam dependendo do produtor do conteúdo de Áudio 3D.
[0033] As informações do instrumento musical são informações que indicam que tipo de objeto (fonte de som) é, como um vocal “vocal”, bateria “bateria”, baixo “baixo”, guitarra “guitarra” e piano “piano”. Ou seja, são informações que indicam um tipo de fonte de som. Mais especificamente, as informações do instrumento musical são as informação que indicam um tipo de objeto, como um instrumento musical, uma parte da voz e um gênero da voz, como um homem ou uma mulher, ou seja, o atributo do próprio objeto a ser uma fonte de som.
[0034] Por exemplo, no caso de um determinado produtor, para um
6 / 34 objeto cujas informações de instrumento musical são “vocal”, o ângulo horizontal que constitui os metadados costuma ser definido como zero grau (0°) e o ganho tende a ser definido como um valor maior que 1,0. Além disso, por exemplo, no caso de um certo produtor, para um objeto cujas informações de instrumento musical são “baixo”, o ângulo vertical que constitui os metadados é frequentemente definido como um valor negativo.
[0035] Desta forma, para o produtor individual de conteúdo de Áudio 3D, os valores dos parâmetros que constituem os metadados para as informações do instrumento musical e uma faixa que os valores dos parâmetros que constituem os metadados podem assumir podem ser determinados com certa antecedência. Nesse caso, é possível determinar os metadados do objeto a partir das informações do instrumento musical.
[0036] Além disso, as informações de efeito acústico são informações que indicam um efeito acústico, como um efeito adicionado ao sinal de áudio do objeto, ou seja, aplicado ao sinal de áudio. Em outras palavras, as informações do efeito acústico são informações que indicam atributos relacionados ao efeito acústico do objeto. Em particular, aqui, entre as informações de efeito acústico que indicam o efeito acústico, um efeito de reverberação como o efeito acústico, ou seja, aquelas que mostram a característica de reverberação são referidas como as informações de reverberação e aquelas que mostram o efeito acústico diferente do efeito de reverberação são referidas como informação de acústica.
[0037] As informações de reverberação são informações que indicam o efeito de reverberação adicionado (dado) ao sinal de áudio do objeto, ou seja, a característica de reverberação do sinal de áudio, como seco “seco”, reverberação curta “reverberação curta” e reverberação longa “reverberação longa”. Observe que, por exemplo, “seco” indica que nenhum efeito de reverberação é aplicado ao sinal de áudio.
[0038] Por exemplo, no caso de um determinado produtor, para um
7 / 34 objeto cuja informação de reverberação é “seca”, o ângulo horizontal que constitui os metadados é frequentemente definido com um valor na faixa de - 90 graus a 90 graus, e para um objeto cuja informação de reverberação é “reverberação longa”, o ângulo vertical que constitui os metadados é frequentemente definido com um valor positivo.
[0039] Desta forma, também para as informações de reverberação, como acontece com as informações do instrumento musical, os valores dos parâmetros dos metadados e uma faixa que os valores dos parâmetros dos metadados podem assumir podem ser determinados para as informações de reverberação até certo ponto para cada produtor com antecedência. Portanto, é possível determinar os metadados usando informações de reverberação também.
[0040] Além disso, as informações de acústica são informações que indicam um efeito acústico diferente da reverberação adicionada (dada) ao sinal de áudio do objeto, como natural “natural” e distorção “dist”. Observe que “natural” indica que nenhum efeito é aplicado particularmente ao sinal de áudio.
[0041] Por exemplo, no caso de um determinado produtor, para um objeto cuja informação de acústica é “natural”, o ângulo horizontal que constitui os metadados é frequentemente definido para um valor na faixa de - 90 graus a 90 graus, e para um objeto cuja informação de acústica é “dist”, o ângulo vertical que constitui os metadados costuma ser definido como um valor positivo. Portanto, é possível determinar os metadados usando informações de acústica também.
[0042] Além disso, as informações de prioridade são informações que indicam a prioridade do objeto. Por exemplo, as informações de prioridade são definidas com qualquer valor de 0 a 7 e, quanto maior o valor, maior a prioridade do objeto. Pode-se dizer que tal prioridade é também uma informação que indica o atributo do objeto.
8 / 34
[0043] Por exemplo, no caso de um determinado produtor, para um objeto cujo valor de informação de prioridade é inferior a seis, o ângulo horizontal que constitui os metadados é frequentemente definido para um valor fora da faixa de -30 graus a 30 graus, e o vertical ângulo tende a ser definido para não menos do que zero graus, a menos que o valor da informação de prioridade seja seis ou mais. Portanto, é possível determinar os metadados usando informações de prioridade também.
[0044] Utilizando as informações do instrumento musical, as informações de reverberação, as informações de acústica, e as informações de prioridade dessa forma, é possível determinar os metadados do objeto para cada produtor.
[0045] Além disso, no caso em que um objeto é gravado na premissa de um determinado arranjo de alto-falante, ou seja, uma certa configuração de canal, os metadados são frequentemente determinados com base nas informações de canal do objeto.
[0046] Aqui, as informações do canal são informações que indicam os atributos relacionados a um canal correspondente a um alto-falante ao qual um sinal de áudio de um objeto é fornecido, como L, R para estéreo (estéreo) e C, L, R, Ls, Rs para Canal 5.1 (5.1 canais), ou seja, um canal do objeto.
[0047] Por exemplo, no caso de um determinado produtor, para um objeto de canal R cuja informação de canal é “estéreo R” e um objeto de canal L cuja informação de canal é “estéreo L”, os ângulos horizontais que constituem os metadados do canal L e canal R têm uma relação de inversão positiva-negativa, e os ângulos verticais são frequentemente definidos para o mesmo ângulo.
[0048] Além disso, por exemplo, para um objeto de canal Ls cuja informação de canal é “canal Ls 5.1” e um objeto de canal Rs cuja informação de canal é “canal Rs 5.1”, os ângulos horizontais que constituem os metadados do canal Ls e do canal Rs têm uma relação de inversão positiva-
9 / 34 negativa e os ângulos verticais são frequentemente definidos para o mesmo ângulo.
[0049] A partir desses fatos, pode-se ver que os metadados podem ser determinados também usando as informações do canal.
[0050] Na presente tecnologia, os metadados de cada objeto, mais especificamente, os parâmetros que constituem os metadados são determinados com base em pelo menos uma das informações de instrumento musical, informação de reverberação, informação de acústica, informação de prioridade e informação de canal.
[0051] Especificamente, na presente tecnologia, os metadados são determinados usando, por exemplo, uma árvore de decisão que é um método de aprendizagem supervisionado.
[0052] Na árvore de decisão, as informações do instrumento musical, informações de reverberação, informações de acústica, informações de prioridade e informações de canal para cada objeto coletado com antecedência para uma pluralidade de conteúdo de Áudio 3D e os valores de parâmetros de metadados são usados como dados para aprendizagem (dados de aprendizagem)
[0053] Em seguida, um modelo de árvore de decisão é aprendido no qual as informações do instrumento musical, as informações de reverberação, as informações de acústica, as informações de prioridade e as informações do canal são inseridas e os metadados transmitidos. Utilizando o modelo de árvore de decisão obtido desta forma, é possível determinar (prever) facilmente os metadados de cada objeto.
[0054] Aqui, a Fig. 1 mostra um exemplo de uma árvore de decisão que determina os ângulos horizontal e vertical que constituem os metadados.
[0055] No exemplo mostrado na Fig. 1, é primeiro determinado se as informações do instrumento musical são ou não “vocal” para cada objeto na árvore de decisão.
10 / 34
[0056] No caso em que é determinado que a informação do instrumento musical é “vocal”, é determinado se a “informação de reverberação” é ou não “seca”. Neste momento, no caso em que é determinado que a “informação de reverberação” é “seca”, o ângulo horizontal do objeto é determinado como zero grau e o ângulo vertical é determinado como zero grau, e o processamento da árvore de decisão termina.
[0057] Por outro lado, no caso em que é determinado que a informação de reverberação não é “seca”, é determinado se a informação de reverberação é ou não “reverberação longa”. Então, no caso em que é determinado que a informação de reverberação é “reverberação longa”, o ângulo horizontal do objeto é determinado como sendo zero grau e o ângulo vertical é determinado como sendo 30 graus, e o processamento da árvore de decisão termina.
[0058] Desta forma, na árvore de decisão, a determinação é realizada continuamente até o término da árvore de decisão de acordo com o resultado da determinação com base em cada tipo de informação como informações de instrumento musical, informações de reverberação, informações de acústica, informações de prioridade, e informações de canal e ângulo horizontal final e ângulo vertical final são determinadas.
[0059] Usando tal árvore de decisão, é possível determinar os ângulos horizontal e vertical que constituem os metadados para cada objeto a partir das informações dadas a cada objeto, como informações de instrumentos musicais, informações de reverberação, informações de acústica, informações de prioridade e informações de canal.
[0060] Observe que o método de determinação de metadados não se limita à árvore de decisão e pode ser outros métodos de aprendizagem supervisionada, como determinação linear, máquina de vetor de suporte e rede neural. (Determinação a partir do sinal de áudio para cada objeto)
11 / 34
[0061] Em seguida, um método para determinar metadados do sinal de áudio de cada objeto será descrito.
[0062] Por exemplo, os metadados de um objeto podem ser determinados com base em informações, como pressão sonora (informações de pressão sonora) e tom (informações de tom) obtidas do sinal de áudio do objeto. Uma vez que essas partes de informações, como pressão do som e tom (tom), representam as características do som de um objeto, também podem ser consideradas informações que indicam os atributos do objeto.
[0063] Especificamente, por exemplo, no caso de um determinado produtor, quanto maior a pressão do som do sinal de áudio, mais próximo o ângulo vertical que constitui os metadados está de zero grau, e quanto maior a pressão do som, o ganho que constitui os metadados geralmente é definido com um valor inferior a 1,0.
[0064] Além disso, por exemplo, no caso de um determinado produtor, quando o sinal de áudio é um sinal de tom baixo, o ângulo vertical que constitui os metadados tende a ser definido para um valor negativo e, inversamente, quando o sinal de áudio é um sinal de tom alto, o ângulo vertical tende a ser definido para um valor positivo.
[0065] Portanto, ao adicionar essas partes de informações relacionadas à pressão sonora e ao tom para a entrada do método para determinar os metadados a partir das informações dadas para cada objeto (doravante, também referido como método de determinação de metadados), é possível melhorar a precisão da determinação dos metadados.
[0066] Especificamente, por exemplo, para pressão sonora e tom, é suficiente que a quantidade de característica calculada pelo método descrito abaixo seja adicionada à entrada do método de determinação de metadados mencionado acima, isto é, a entrada da árvore de decisão ou similar.
[0067] Por exemplo, para pressão sonora, é suficiente que o nível de quantidade de característica (i_obj) calculado pela seguinte fórmula (1) seja
12 / 34 usado como uma das entradas do método de determinação de metadados. [Fórmula 1]
[0068] Observe que, na fórmula (1), i_obj indica o índice do objeto e i_sample indica o índice de uma amostra de sinal de áudio.
[0069] Além disso, na fórmula (1), pcm (i_obj, i_sample) indica o valor da amostra de uma amostra cujo índice é i_sample no sinal de áudio do objeto cujo índice é i_obj e n_sample indica o número total de amostras do sinal de áudio.
[0070] Além disso, para o tom (tom), por exemplo, é suficiente que a quantidade de característica level_sub (i_obj, i_band) calculada pela seguinte fórmula (2) seja usada como uma das entradas do método de determinação de metadados. [Fórmula 2]
[0071] Observe que, na fórmula (2), o índice i_obj, índice i_sample e n_sample são os mesmos que na fórmula (1), e i_band é um índice que indica a banda.
[0072] Por exemplo, ao realizar o processamento de filtragem no sinal de áudio com um filtro passa-banda, o sinal de áudio de cada objeto é dividido em sinais de áudio em três bandas de 0kHz a 2kHz, 2kHz a 8kHz e 8kHz a 15kHz. Além disso, aqui, o sinal de áudio de cada banda é representado como pcm_sub (i_obj, i_band, i_sample).
13 / 34
[0073] Além disso, o índice i_band = 1 indica uma banda de 0 kHz a 2 kHz, o índice i_band = 2 indica uma banda de 2 kHz a 8 kHz e o índice i_band = 3 indica uma banda de 8 kHz a 15 kHz.
[0074] Nesse caso, o valor do recurso level_sub (i_obj, 1), o valor do recurso level_sub (i_obj, 2) e o valor do recurso level_sub (i_obj, 3) são obtidos pela fórmula (2) e usados como a entrada do método de determinação de metadados. (Determinação a partir de outra parte de informação)
[0075] Além disso, um método para determinar metadados de outra informação será descrito.
[0076] Por exemplo, os metadados do objeto podem ser determinados com base nas respectivas partes de informações, como o número de objetos em conteúdo de Áudio 3D, os metadados de outros objetos, nomes de objetos e o gênero de conteúdo de Áudio 3D constituído por objetos. Portanto, ao adicionar as respectivas partes de informações descritas acima também à entrada do método de determinação de metadados, é possível melhorar a precisão da determinação.
[0077] Como o nome do objeto geralmente contém informações que substituem as informações do instrumento musical ou do canal, como o nome do instrumento do objeto ou o canal correspondente, ou seja, informações que indicam o atributo do objeto, ele pode ser usado para determinar os metadados.
[0078] Além disso, as informações que indicam o gênero de conteúdo de Áudio 3D, como música, como jazz, o número de objetos que é o número total de objetos que constituem o conteúdo de Áudio 3D e similares são informações que indicam os atributos do conteúdo constituído pelos objetos. Portanto, as informações sobre os atributos do conteúdo, como o gênero e a quantidade de objetos, também podem ser utilizadas para determinar os metadados como informações de atributos do objeto.
14 / 34
[0079] Por exemplo, no caso de um determinado produtor, se o número de objetos (o número de objetos) arranjados no espaço for grande, cada objeto é frequentemente arranjado em intervalos desiguais no espaço e, inversamente, se o número de objetos for pequeno , cada objeto é frequentemente arranjado em intervalos iguais.
[0080] Portanto, por exemplo, o número de objetos que constituem o conteúdo de áudio 3D pode ser adicionado como uma das entradas do método de determinação de metadados. Nesse caso, por exemplo, o ângulo horizontal, o ângulo vertical e a distância que constituem os metadados são determinados de modo que os objetos sejam dispostos em intervalos iguais ou desiguais no espaço.
[0081] Além disso, por exemplo, no caso de um certo produtor, é frequente o caso de outro objeto não estar arranjado na mesma posição que o objeto cuja posição no espaço já foi determinada.
[0082] Portanto, por exemplo, os metadados de outro objeto cujos metadados já foram determinados também podem ser usados como a entrada do método de determinação de metadados.
[0083] Observe que as informações dadas para cada objeto, as informações obtidas a partir do sinal de áudio e outras informações, como o número de objetos descritos acima, podem ser usadas independentemente como a entrada do método de determinação de metadados, ou essas informações podem ser combinadas e usado como entrada do método de determinação de metadados. <Modificação de metadados>
[0084] Aliás, é possível determinar os metadados do objeto a partir de cada tipo de informação descrito acima. No entanto, no conteúdo de áudio 3D (doravante, também simplesmente referido como conteúdo) com um pequeno número de objetos, os parâmetros de metadados determinados podem ser determinados de forma desigual em um lugar. Esse exemplo é mostrado na
15 / 34 Fig. 2.
[0085] Na Fig. 2, o eixo geométrico horizontal mostra os ângulos horizontais que constituem os metadados e o eixo geométrico vertical mostra os ângulos verticais que constituem os metadados.
[0086] Além disso, na Fig. 2, um círculo indica um objeto, e o padrão adicionado a cada círculo é diferente para cada uma das partes de informação do instrumento musical dada aos objetos correspondentes a esses círculos.
[0087] Aqui, os círculos C11 e C12 indicam objetos para os quais o vocal “vocal” é dado como informação de instrumento musical, e os círculos C13 e C14 indicam objetos para os quais o baixo “baixo” é dado como informação de instrumento musical. Além disso, os círculos C15 a C20 indicam objetos para os quais o piano “piano” é dado como informação de instrumento musical.
[0088] Cada um desses círculos é arranjado em uma posição determinada pelos ângulos horizontal e vertical determinados pela previsão para o objeto correspondente. Ou seja, a posição de cada círculo na direção do eixo geométrico horizontal é a posição indicada pelo ângulo horizontal do objeto correspondente a cada círculo, e a posição de cada círculo na direção do eixo geométrico vertical é a posição indicada pelo ângulo vertical do objeto correspondente a cada círculo.
[0089] Além disso, o tamanho de cada círculo indica a magnitude (altura) de uma pressão sonora do sinal de áudio do objeto, e o tamanho do círculo é feito para aumentar em proporção à pressão sonora.
[0090] Portanto, pode-se dizer que a Fig. 2 mostra a distribuição dos parâmetros (metadados) de cada objeto em um espaço de parâmetros (espaço de parâmetros) centrado nos ângulos horizontal e vertical, e a magnitude da pressão sonora do sinal do objeto de cada objeto.
[0091] Por exemplo, em um conteúdo com um pequeno número de objetos, como mostrado na Fig. 2, apenas instrumentos musicais que são
16 / 34 importantes em muitos conteúdos, como vocal, piano e baixo, são frequentemente incluídos como objetos. No caso de um determinado produtor, o arranjo desses instrumentos musicais tende a ser colocado na posição central da frente e, como resultado, os metadados determinados são polarizados em um lugar.
[0092] Neste exemplo, os círculos C11 a C18 estão concentrados no centro da Fig. 2, podendo-se observar que os metadados dos objetos correspondentes a esses círculos possuem valores próximos. Em outras palavras, a distribuição dos metadados de cada objeto está concentrada em posições próximas umas das outras no espaço de parâmetros. Nesse caso, se a renderização for realizada usando os metadados determinados como estão, o conteúdo obtido será de baixa qualidade sem direção, distância e propagação de som tridimensional.
[0093] Portanto, na presente tecnologia, ao ajustar a distribuição de objetos, ou seja, a distribuição de metadados de objetos, é possível obter conteúdo de alta qualidade com direção, distância e propagação sonora tridimensional.
[0094] No ajuste de distribuição, os metadados já determinados pela entrada do produtor ou similar ou os metadados determinados pela predição pela árvore de decisão ou similar são usados como a entrada. Portanto, ele pode ser aplicado independentemente do método de determinação de metadados mencionado acima. Ou seja, a distribuição dos metadados pode ser ajustada independentemente do método de determinação dos metadados.
[0095] A distribuição dos metadados pode ser ajustada por um método manual (doravante referido como um método de ajuste manual) ou um método automático (doravante referido como um método de ajuste automático). Cada método será descrito abaixo. (Método de ajuste manual)
[0096] Primeiro, um método de ajuste manual de metadados será
17 / 34 descrito.
[0097] No método de ajuste manual, um valor predeterminado para adição é adicionado ao valor do parâmetro dos metadados do objeto, um valor predeterminado para multiplicação é multiplicado, ou tanto a adição quanto a multiplicação são realizadas e, assim, a distribuição dos metadados é ajustado.
[0098] Por exemplo, é suficiente que o valor adicionado pelo processo de adição ou o valor multiplicado pelo processo de multiplicação do método de ajuste manual seja ajustado operando uma barra ou similar em uma ferramenta de produção de conteúdo de Áudio 3D da Interface Gráfica do Usuário (GUI).
[0099] Isso possibilita realizar ajustes de alargamento ou estreitamento da distribuição de todos os objetos, ou seja, a distribuição dos metadados mantendo a relação posicional dos objetos, sendo possível ajustar facilmente aos metadados pretendidos pelo produtor em um curto espaço de tempo.
[00100] Aqui, por exemplo, em um caso onde a distribuição de metadados é ajustada apenas pelo processo de adição, quando entre os parâmetros dos metadados, um valor negativo é adicionado a um parâmetro de valor negativo e um valor positivo é adicionado a um parâmetro tendo um valor positivo, é possível ajustar (corrigir) a distribuição dos metadados para uma distribuição com uma propagação mais espacial.
[00101] Além disso, por exemplo, em um caso onde a distribuição de metadados é ajustada apenas pelo processo de adição, adicionando o mesmo valor a cada parâmetro, é possível realizar o ajuste de distribuição para traduzir esses objetos no espaço, mantendo a relação posicional de cada objeto. (Método de ajuste automático)
[00102] No método de ajuste automático, cada um dos objetos é considerado um vetor representado pelo ângulo horizontal, ângulo vertical e
18 / 34 distância que constituem os metadados. A seguir, um vetor com um ângulo horizontal, um ângulo vertical e uma distância como elementos será referido como um vetor de objeto.
[00103] No método de ajuste automático, o valor médio dos vetores de objetos de todos os objetos é obtido como um vetor médio de objetos.
[00104] Então, o vetor de diferença entre o vetor de média de objeto e cada um dos vetores de objeto é obtido, e um vetor tendo um valor médio do quadrado desses vetores de diferença como um elemento é obtido. Ou seja, para cada ângulo horizontal, ângulo vertical e distância, um vetor tendo o valor médio do quadrado da diferença de cada valor do objeto como um elemento é obtido a partir do valor médio.
[00105] O valor médio do quadrado para cada ângulo horizontal, ângulo vertical e a distância assim obtida corresponde à variância para cada um do ângulo horizontal, ângulo vertical e distância, e um vetor tendo o valor médio do quadrado para cada um o ângulo horizontal, o ângulo vertical e a distância como um elemento são chamados de vetor de variância do objeto. Pode-se dizer que o vetor de variância do objeto mostra a distribuição de metadados de uma pluralidade de objetos.
[00106] Além disso, os metadados são ajustados de modo que o vetor de variância do objeto obtido pelo cálculo acima tenha um valor desejado, isto é, um valor de variância alvo. Ao ajustar os metadados, um parâmetro (elemento), como um ângulo horizontal que constitui os metadados, pode ser ajustado ou uma pluralidade de parâmetros pode ser ajustada. Além disso, todos os parâmetros que constituem os metadados podem ser ajustados.
[00107] Aqui, é suficiente que o valor desejado que é o alvo do vetor de variância do objeto seja obtido, por exemplo, calculando vetores de variância do objeto para uma pluralidade de conteúdo de Áudio 3D com antecedência e definindo o valor médio dos vetores de variância do objeto como o valor alvo desejado.
19 / 34
[00108] Da mesma forma, no método de ajuste automático, os metadados podem ser ajustados de modo que o vetor médio do objeto tenha o valor alvo, ou os metadados podem ser ajustados de modo que tanto o vetor médio do objeto quanto o vetor de variação do objeto tenham os valores alvo.
[00109] Além disso, os valores do vetor de média do objeto e do vetor de variância do objeto que são direcionados no momento do ajuste no método de ajuste automático podem ser obtidos com antecedência, aprendendo, etc. para cada gênero de conteúdo de Áudio 3D, cada produtor e cada número de objetos de conteúdo de Áudio 3D. Ao fazer isso, é possível realizar um ajuste de distribuição adequado ao gênero do conteúdo e um ajuste de distribuição que reflita a singularidade do produtor.
[00110] Além disso, a pressão sonora de cada objeto pode ser ponderada em relação ao vetor do objeto. Ou seja, o vetor de objeto obtido para um objeto pode ser multiplicado por um peso correspondente à pressão sonora do sinal de áudio do objeto, e o vetor resultante pode ser usado como o vetor de objeto final.
[00111] Nesse caso, a distribuição da pressão sonora pode ser um valor desejado, ou seja, a distribuição da pressão sonora alvo, e metadados de maior qualidade podem ser ajustados (corrigidos). Isso ocorre porque o conteúdo de áudio com uma distribuição de pressão sonora apropriada é considerado conteúdo de alta qualidade.
[00112] Além disso, no ajuste de distribuição dos metadados por estes métodos de ajuste manual e de ajuste automático, pode haver objetos que não estão sujeitos a ajuste.
[00113] Para objetos que não estão sujeitos ao ajuste de distribuição, os metadados do objeto não são usados para calcular o vetor médio do objeto. No entanto, os metadados do objeto que não estão sujeitos a ajustes podem ser utilizados no cálculo do vetor médio do objeto.
[00114] Por exemplo, um objeto cujas informações de instrumento
20 / 34 musical são “vocal” geralmente é importante no conteúdo, e a qualidade pode ser maior se a distribuição de metadados for polarizada em um lugar. Nesse caso, o objeto cujas informações de instrumento musical são “vocal” não pode estar sujeito ao ajuste de distribuição de metadados.
[00115] Observe que o objeto que não está sujeito ao ajuste de distribuição de metadados pode ser um objeto no qual as informações dadas a cada objeto, como informações de instrumento musical, indicam um predeterminado (valor, etc.), ou pode ser um objeto especificado pelo produtor ou similar.
[00116] Pelo ajuste de distribuição acima, a distribuição mostrada na Fig. 2 torna-se, por exemplo, aquela mostrada na Fig. 3. Note que, na Fig. 3, os mesmos números de referência são dados às partes correspondentes àquelas da Fig. 2, e a descrição das mesmas será omitida conforme apropriado. Além disso, também na Fig. 3, o eixo geométrico horizontal indica o ângulo horizontal que constitui os metadados e o eixo geométrico vertical indica o ângulo vertical que constitui os metadados.
[00117] No exemplo da Fig. 3, os objetos cujas informações de instrumento musical são “vocal”, ou seja, os objetos indicados pelos círculos C11 e C12, não estão sujeitos ao ajuste de distribuição de metadados.
[00118] Conforme mostrado na Fig. 3, pode ser visto que pelo ajuste de distribuição de metadados, cada objeto, ou seja, os metadados de cada objeto são distribuídos a uma distância apropriada do caso mostrado na Fig. 2. Como resultado, é possível obter conteúdo de alta qualidade com direção, distância e propagação de som tridimensional. <Exemplo de configuração de dispositivo de processamento de informações>
[00119] Em seguida, um dispositivo de processamento de informações que determina metadados pelo método de determinação de metadados descrito acima e ajusta adicionalmente a distribuição dos metadados determinados será descrito.
21 / 34
[00120] Por exemplo, em um caso em que um método de determinação de metadados por uma árvore de decisão é usado como um método de determinação de metadados, o dispositivo de processamento de informações é configurado como mostrado na Fig. 4.
[00121] Um dispositivo de processamento de informações 11 mostrado na Fig. 4 tem uma unidade de determinação de metadados 21 e uma unidade de ajuste de distribuição 22.
[00122] Para cada objeto, a unidade de determinação de metadados 21 determina por metadados de predição de cada objeto com base nas informações sobre os atributos do objeto fornecidos de fora, ou seja, uma ou mais partes de informações de atributos do objeto, e emite os dados determinados metadados. Observe que, o número de objetos cujos metadados devem ser determinados pode ser um ou mais, mas aqui, é assumido que os metadados são determinados para uma pluralidade de objetos.
[00123] Além disso, a informação de atributo do objeto é pelo menos uma das informações de instrumento musical, informações de reverberação, informações de acústica, informações de prioridade, informações de canal, número de objetos, metadados de outro objeto, nome de objeto e informações indicando um gênero. A unidade de determinação de metadados 21 também é fornecida com um sinal de áudio para calcular uma quantidade de característica relacionada a uma pressão sonora e um tom como a informação de atributo do objeto.
[00124] Além disso, a unidade de determinação de metadados 21 tem uma unidade de processamento de árvore de decisão 31. A unidade de determinação de metadados 21 calcula apropriadamente a quantidade de característica relacionada à pressão sonora e tom como a informação de atributo de objeto com base no sinal de áudio e insere a quantidade de característica calculada e a informação de atributo de objeto fornecida de fora para o processamento da árvore de decisão unidade 31. Observe que uma ou
22 / 34 mais informações de atributo pode(m) ser inserida(s) na unidade de processamento de árvore de decisão 31.
[00125] A unidade de processamento de árvore de decisão 31 realiza um processo de determinação de metadados pela árvore de decisão com base na informação de atributo de objeto de entrada e fornece os metadados de cada objeto obtido como resultado da determinação para a unidade de ajuste de distribuição 22. A unidade 31 de processamento de árvore de decisão contém uma árvore de decisão (modelo de árvore de decisão) obtida antecipadamente pela aprendizagem.
[00126] Observe que, aqui, um exemplo em que o ângulo horizontal, o ângulo vertical e a distância são determinados como os parâmetros de metadados na unidade de processamento de árvore de decisão 31, mas os parâmetros determinados podem incluir o ganho. Além disso, qualquer um ou mais parâmetros entre a pluralidade de parâmetros que constituem os metadados podem ser determinados pela unidade de processamento de árvore de decisão 31.
[00127] A unidade de ajuste de distribuição 22 realiza o ajuste de distribuição acima mencionado nos metadados de cada objeto da pluralidade de objetos fornecidos a partir da unidade de processamento de árvore de decisão 31 e fornece (emite) os metadados após o ajuste de distribuição como os metadados finais de cada objeto para o último estágio.
[00128] A unidade de ajuste de distribuição 22 tem uma unidade de cálculo de vetor de variação de objeto 32, uma unidade de cálculo de vetor de coeficiente 33 e uma unidade de aplicação de vetor de coeficiente 34.
[00129] A unidade de cálculo de vetor de variância de objeto 32 usa um vetor cujos elementos são o ângulo horizontal, o ângulo vertical e a distância que constituem os metadados de cada objeto fornecido a partir da unidade de processamento de árvore de decisão 31 como um vetor de objeto e calcula um vetor de média de objeto com base no vetor de objeto de cada
23 / 34 objeto. Além disso, a unidade de cálculo de vetor de variância de objeto 32 calcula um vetor de variância de objeto com base no vetor de média de objeto calculado e cada vetor de objeto e fornece o vetor de variância de objeto para a unidade de cálculo de vetor de coeficiente 33.
[00130] A unidade de cálculo de vetor de coeficiente 33 divide cada um dos elementos de um vetor de valor predeterminado tendo valores predeterminados obtidos antecipadamente para cada um do ângulo horizontal, ângulo vertical e distância como elementos por cada um dos elementos do vetor de variância de objeto fornecido a partir de a unidade de cálculo de vetor de variação de objeto 32, desse modo, calcula um vetor de coeficiente tendo um coeficiente como um elemento para cada ângulo horizontal, ângulo vertical e distância, e fornece o vetor de coeficiente para a unidade de aplicação de vetor de coeficiente 34.
[00131] Aqui, o vetor de valor predeterminado obtido antecipadamente é um vetor de variância do objeto alvo, e é obtido por aprendizado, etc. para cada gênero ou cada produtor, por exemplo. Especificamente, por exemplo, o valor do vetor de variância do objeto alvo é um vetor com o valor médio de cada elemento do vetor de variância do objeto obtido para uma pluralidade de conteúdo de Áudio 3D do mesmo gênero que um elemento.
[00132] A unidade de aplicação de vetor de coeficiente 34 calcula os metadados após o ajuste de distribuição multiplicando os metadados fornecidos a partir da unidade de processamento de árvore de decisão 31 pelo vetor de coeficiente fornecido a partir da unidade de cálculo de vetor de coeficiente 33 para cada elemento e emite os metadados obtidos para o último estágio. Na unidade de aplicação de vetor de coeficiente 34, a distribuição dos metadados é ajustada multiplicando os metadados pelo vetor de coeficiente para cada elemento. Como resultado, a distribuição dos metadados torna-se a distribuição correspondente ao vetor de variância do objeto de destino.
[00133] Por exemplo, no último estágio da unidade de aplicação de
24 / 34 vetor de coeficiente 34, o processo de renderização é realizado com base no sinal de áudio e nos metadados de cada objeto, e os metadados são ajustados manualmente pelo produtor.
[00134] Note que, a unidade de processamento de árvore de decisão 31 pode fornecer a unidade de cálculo de vetor de variância de objeto 32 e a unidade de aplicação de vetor de coeficiente 34 com não apenas metadados, mas também informações de atributos de objetos, tais como informações de instrumentos musicais, um objeto que não está sujeito a ajuste de distribuição pode ser determinado com base nas informações do atributo do objeto. Neste caso, a distribuição dos metadados não é ajustada para o objeto que não está sujeito ao ajuste de distribuição e os metadados determinados pela unidade de processamento da árvore de decisão 31 são produzidos como são os metadados finais.
[00135] Além disso, como o ajuste de distribuição dos metadados, o vetor de média do objeto pode ser ajustado, ou tanto o vetor de variância do objeto quanto o vetor da média do objeto podem ser ajustados. Além disso, aqui, um exemplo em que a unidade de ajuste de distribuição 22 realiza o ajuste de distribuição pelo método de ajuste automático foi descrito, mas na unidade de ajuste de distribuição 22, o ajuste de distribuição pode ser realizado pelo método de ajuste manual de acordo com a entrada de o produtor ou similar.
[00136] Nesse caso, por exemplo, a unidade de ajuste de distribuição 22 adiciona ou multiplica um valor predeterminado especificado pelo produtor ou similar para ou pelos metadados do objeto, realiza uma operação com base no valor predeterminado e os metadados para obter os metadados após o ajuste da distribuição. Além disso, mesmo neste caso, o objeto especificado pelo produtor ou o objeto determinado pela informação de atributo do objeto ou similar pode não estar sujeito ao ajuste de distribuição. <Explicação do processo de determinação de metadados>
25 / 34
[00137] Subsequentemente, a operação do dispositivo de processamento de informação 11 mostrado na Fig. 4 será descrita. Ou seja, o processo de determinação de metadados pelo dispositivo de processamento de informações 11 será descrito abaixo com referência ao fluxograma da Fig. 5.
[00138] Na etapa S11, a unidade de processamento de árvore de decisão 31 determina os metadados com base na informação de atributo do objeto e fornece o resultado da determinação para a unidade de cálculo de vetor de variância de objeto 32 e a unidade de aplicação de vetor de coeficiente 34.
[00139] Ou seja, a unidade de determinação de metadados 21 calcula as quantidades de características de pressão sonora e tom calculando as fórmulas acima mencionadas (1) e (2) com base nos sinais de áudio fornecidos conforme necessário. Em seguida, a unidade de determinação de metadados 21 insere as quantidades de características calculadas, as informações do instrumento musical fornecidas de fora e similares para a unidade de processamento de árvore de decisão 31 como as informações de atributo do objeto.
[00140] A unidade de processamento de árvore de decisão 31 determina metadados pela árvore de decisão com base na informação de atributo de objeto fornecida. Além disso, a unidade de determinação de metadados 21 também fornece a informação de atributo de objeto para a unidade de cálculo de vetor de variância de objeto 32 e a unidade de aplicação de vetor de coeficiente 34 conforme necessário.
[00141] Na etapa S12, a unidade de cálculo de vetor de variância de objeto 32 obtém o vetor de média de objeto com base em cada metadado de objeto fornecido a partir da unidade de processamento de árvore de decisão 31, calcula o vetor de variância de objeto a partir do vetor de média de objeto e o vetor de objeto e fornece o vetor de variância de objeto para a unidade de cálculo de vetor de coeficiente 33.
26 / 34
[00142] Na etapa S13, a unidade de cálculo de vetor de coeficiente 33 calcula um vetor de coeficiente dividindo um vetor com valores predeterminados obtidos antecipadamente para cada ângulo horizontal, ângulo vertical e distância como elementos, isto é, um vetor de variância do objeto alvo obtido antecipadamente pelo vetor de variância de objeto fornecido a partir da unidade de cálculo de vetor de variância de objeto 32 para cada elemento, e fornece o vetor de coeficiente para a unidade de aplicação de vetor de coeficiente 34.
[00143] Na etapa S14, a unidade de aplicação de vetor de coeficiente 34 ajusta a distribuição dos metadados fornecidos a partir da unidade de processamento de árvore de decisão 31 com base no vetor de coeficiente fornecido a partir da unidade de cálculo de vetor de coeficiente 33 e emite os metadados resultantes após o ajuste de distribuição para encerrar o processo de determinação de metadados.
[00144] Por exemplo, a unidade de aplicação de vetor de coeficiente 34 ajusta a distribuição dos metadados multiplicando os metadados pelo vetor de coeficiente para cada elemento. Observe que, conforme descrito acima, o objeto predeterminado pode não estar sujeito ao ajuste de distribuição dos metadados.
[00145] Conforme descrito acima, o dispositivo de processamento de informação 11 determina os metadados de cada objeto com base na informação de atributo do objeto e ajusta a distribuição dos metadados. Ao fazer isso, o produtor não precisa especificar (inserir) os metadados de cada objeto a cada vez, para que seja possível produzir facilmente conteúdo de Áudio 3D de alta qualidade em um curto espaço de tempo. <Sobre a aprendizagem da árvore de decisão>
[00146] A propósito, embora os metadados possam ser determinados pelo método acima mencionado, é preferível que o padrão de determinação, isto é, a árvore de decisão ou similar usada para determinar os metadados, não
27 / 34 seja um, mas uma pluralidade. Isso ocorre porque é difícil lidar com uma grande variedade de conteúdo com um padrão de determinação (árvore de decisão, etc.), e torna-se possível produzir conteúdo de Áudio 3D de alta qualidade, tornando possível selecionar o mais adequado para o produtor de uma pluralidade de padrões de determinação.
[00147] Conforme descrito acima, uma vez que a determinação de metadados é baseada em dados de aprendizagem, torna-se possível realizar a determinação com uma pluralidade de padrões, dividindo os dados de aprendizagem em uma pluralidade de dados e realizando a aprendizagem de um modelo de árvore de decisão usando cada parte dos dados de aprendizagem divididos. Neste momento, as vantagens diferem dependendo de como os dados de aprendizagem são divididos.
[00148] Especificamente, por exemplo, se os dados de aprendizagem são divididos para cada produtor, a precisão da determinação dos metadados para cada produtor pode ser melhorada. Ou seja, torna-se possível obter uma árvore de decisão (modelo de árvore de decisão) para determinar os metadados que mais reflitam as características do produtor.
[00149] As características do produtor são um dos fatores mais importantes na determinação da qualidade do conteúdo e, ao dividir os dados de aprendizagem de cada produtor, é possível aumentar a variação da qualidade com o padrão de determinação. Além disso, ao utilizar os dados produzidos pelo próprio produtor como dados de aprendizagem, é possível fazer uma determinação que mais reflete as características do produtor no passado, e é possível encurtar o tempo de produção.
[00150] Nesse caso, por exemplo, se uma árvore de decisão for aprendida e preparada para cada produtor de uma pluralidade de produtores, um usuário geral ou similar pode selecionar uma árvore de decisão de seu produtor favorito entre as árvores de decisão dos respectivos produtores da pluralidade de produtores e podem determinar os metadados usando a árvore
28 / 34 de decisão selecionada. Com isso, é possível obter um conteúdo que reflete as características de seu produtor preferido.
[00151] Além disso, por exemplo, se os dados de aprendizagem são divididos de acordo com o gênero (tipo) do conteúdo, como rock, pop e clássico, a precisão da determinação dos metadados pode ser melhorada. Ou seja, se a árvore de decisão for aprendida para cada gênero de conteúdo, metadados adequados para o gênero de conteúdo podem ser obtidos.
[00152] Além disso, como descrito acima, os valores alvo do vetor de média de objeto e o vetor de variância de objeto usados para ajustar a distribuição de metadados também podem ser obtidos por aprendizagem ou similar para cada gênero, cada produtor e cada número de objetos que constituem o conteúdo.
[00153] Conforme descrito acima, de acordo com a presente tecnologia, conteúdo de Áudio 3D de alta qualidade pode ser produzido em um curto espaço de tempo, determinando metadados com base na informação de atributo do objeto e realizando ajuste de distribuição no resultado determinado.
[00154] Observe que, a presente tecnologia pode ser aplicada, mesmo no caso em que a posição de cada objeto no espaço é sempre a mesma independentemente do tempo, ou seja, o objeto não se move, ou a posição do objeto no espaço muda com o tempo.
[00155] Em um caso onde a posição do objeto muda, por exemplo, é suficiente que o processo de determinação de metadados descrito com referência à Fig. 5 seja realizado para cada vez, e os metadados entre os dois tempos sejam obtidos por processamento de interpolação ou similar como necessário. <Exemplo de configuração de computador>
[00156] A propósito, uma série de processos descritos acima podem ser executados por hardware ou software. No caso em que uma série de processos
29 / 34 é executada por software, os programas que constituem o software são instalados em um computador. Aqui, o computador inclui um computador embutido em hardware dedicado e, por exemplo, um computador pessoal de uso geral capaz de executar várias funções instalando vários programas.
[00157] A Fig. 6 é um diagrama de blocos que mostra um exemplo de configuração do hardware de um computador que executa a série de processos acima mencionada de acordo com os programas.
[00158] No computador, uma Unidade de Processamento Central (CPU) 501, uma Memória de Somente Leitura (ROM) 502 e uma Memória de Acesso Aleatório (RAM) 503 são conectadas entre si por um barramento 504.
[00159] Uma interface de entrada/saída 505 é ainda conectada ao barramento 504. Uma unidade de entrada 506, uma unidade de saída 507, uma unidade de gravação 508, uma unidade de comunicação 509 e um drive 510 são conectadas à interface de entrada/saída 505.
[00160] A unidade de entrada 506 inclui um teclado, um mouse, um microfone, um sensor de imagem e similares. A unidade de saída 507 inclui um visor, um alto-falante e similares. A unidade de gravação 508 inclui um disco rígido, uma memória não volátil ou similar. A unidade de comunicação 509 inclui uma interface de rede ou similar. O drive 510 aciona uma mídia de gravação removível 511, como um disco magnético, um disco óptico, um disco magneto-óptico ou uma memória semicondutora.
[00161] No computador configurado conforme descrito acima, a CPU 501 carrega o programa gravado na unidade de gravação 508 na RAM 503 através da interface de entrada/saída 505 e o barramento 504 e executa o programa, realizando assim a série de processos descritos acima, por exemplo.
[00162] O programa executado pelo computador (CPU 501) pode ser fornecido sendo gravado na mídia de gravação removível 511 como uma mídia de pacote ou similar, por exemplo. Adicionalmente, o programa pode
30 / 34 ser fornecido por mídia de transmissão com ou sem fio, como uma rede local, Internet ou transmissão digital por satélite.
[00163] No computador, o programa pode ser instalado na unidade de gravação 508 através da interface de entrada/saída 505 montando a mídia de gravação removível 511 no drive 510. Adicionalmente, o programa pode ser recebido pela unidade de comunicação 509 por meio de uma mídia de transmissão com ou sem fio e instalado na unidade de gravação 508. Além disso, o programa pode ser instalado na ROM 502 ou na unidade de gravação 508 com antecedência.
[00164] O programa executado pelo computador pode ser um programa pelo qual o processamento é realizado em séries temporais na ordem descrita no presente relatório descritivo, ou um programa pelo qual o processamento é realizado em paralelo ou em um tempo necessário, como quando uma chamada é feita.
[00165] Além disso, a modalidade da presente tecnologia não está limitada à modalidade acima descrita e várias alterações podem ser feitas sem se afastar da essência da presente tecnologia.
[00166] Por exemplo, a presente tecnologia pode ser configurada como computação em nuvem na qual uma função é compartilhada por uma pluralidade de dispositivos por meio de uma rede e processada em conjunto.
[00167] Além disso, cada etapa descrita no fluxograma acima descrito pode ser executada por um dispositivo ou compartilhada e executada por uma pluralidade de dispositivos.
[00168] Além disso, em um caso em que uma etapa inclui uma pluralidade de processos, a pluralidade de processos incluídos em uma etapa pode ser executada por um dispositivo ou compartilhada e executada por uma pluralidade de dispositivos.
[00169] Além disso, a presente tecnologia também pode ser configurada como segue.
31 / 34 (1)
[00170] Um dispositivo de processamento de informações incluindo uma unidade de determinação que determina um ou mais parâmetros que constituem os metadados de um objeto com base em uma ou mais informações de atributos do objeto. (2)
[00171] O dispositivo de processamento de informações de acordo com (1), no qual o parâmetro é uma informação de posição que indica a posição do objeto. (3)
[00172] O dispositivo de processamento de informações de acordo com (1) ou (2), no qual o parâmetro é um ganho de um sinal de áudio do objeto. (4)
[00173] O dispositivo de processamento de informações de acordo com qualquer um de (1) a (3), no qual as informações do atributo são informações que indicam um tipo de objeto. (5)
[00174] O dispositivo de processamento de informações de acordo com qualquer um de (1) a (4), no qual a informação de atributo é a informação de prioridade que indica uma prioridade do objeto. (6)
[00175] O dispositivo de processamento de informações de acordo com qualquer um de (1) a (5), no qual o objeto é um objeto de áudio. (7)
32 / 34
[00176] O dispositivo de processamento de informações de acordo com (6), no qual a informação de atributo é a informação que indica um tipo de fonte sonora do objeto. (8)
[00177] O dispositivo de processamento de informações de acordo com (7), no qual o tipo de fonte sonora é a informação que indica um instrumento musical, uma parte de voz ou o gênero de uma voz. (9)
[00178] O dispositivo de processamento de informações de acordo com qualquer um de (6) a (8), no qual a informação de atributo é a informação que indica um efeito acústico aplicado ao sinal de áudio do objeto. (10)
[00179] O dispositivo de processamento de informações de acordo com (9), no qual o efeito acústico é um efeito de reverberação. (11)
[00180] O dispositivo de processamento de informações de acordo com qualquer um de (6) a (10), no qual a informação de atributo é a informação sobre a pressão do som ou um tom do sinal de áudio do objeto. (12)
[00181] O dispositivo de processamento de informações de acordo com qualquer um de (6) a (11), no qual a informação de atributo é a informação referente a um atributo de conteúdo constituído pelo objeto. (13)
33 / 34
[00182] O dispositivo de processamento de informações de acordo com (12), no qual a informação referente ao atributo do conteúdo é um gênero do conteúdo ou o número de objetos que constituem o conteúdo. (14)
[00183] O dispositivo de processamento de informações de acordo com qualquer um de (1) a (13), incluindo adicionalmente uma unidade de ajuste de distribuição que ajusta a distribuição dos parâmetros de uma pluralidade de objetos. (15)
[00184] O dispositivo de processamento de informações de acordo com (14), no qual a unidade de ajuste de distribuição ajusta a distribuição ajustando a variância ou média dos parâmetros. (16)
[00185] O dispositivo de processamento de informação de acordo com (15), no qual a unidade de ajuste de distribuição ajusta a distribuição de modo que a variância ou a média dos parâmetros seja um valor determinado para o número de objetos que constituem o conteúdo, um produtor de conteúdo ou o gênero do conteúdo. (17)
[00186] O dispositivo de processamento de informações de acordo com qualquer um de (1) a (16), no qual a unidade de determinação determina o parâmetro por uma árvore de decisão que insere as informações de atributo e emite o parâmetro. (18)
[00187] O dispositivo de processamento de informação de acordo com (17), no qual
34 / 34 a árvore de decisão é aprendida para cada gênero de conteúdo constituído pelo objeto ou para cada produtor de conteúdo. (19)
[00188] Um método de processamento de informações, incluindo, através de dispositivo de processamento de informações, determinar um ou mais parâmetros que constituem metadados de um objeto com base em uma ou mais partes de informações de atributo do objeto. (20)
[00189] Um programa que faz com que um computador execute o processamento, incluindo uma etapa de determinação de um ou mais parâmetros que constituem os metadados de um objeto com base em uma ou mais informações de atributo do objeto.
LISTA DE SINAIS DE REFERÊNCIA
[00190] 11 Dispositivo de processamento de informações 21 Unidade de determinação de metadados 22 Unidade de ajuste de distribuição 31 Unidade de processamento da árvore de decisão 32 Unidade de cálculo do vetor de variância do objeto 33 Unidade de cálculo de vetor de coeficiente 34 Unidade de aplicação de vetor de coeficiente

Claims (20)

REIVINDICAÇÕES
1. Dispositivo de processamento de informações, caracterizado pelo fato de que compreende uma unidade de determinação que determina um ou mais parâmetros que constituem metadados de um objeto com base em uma ou mais partes de informações de atributo do objeto.
2. Dispositivo de processamento de informações de acordo com a reivindicação 1, caracterizado pelo fato de que o parâmetro é uma informação de posição que indica uma posição do objeto.
3. Dispositivo de processamento de informações de acordo com a reivindicação 1, caracterizado pelo fato de que o parâmetro é um ganho de um sinal de áudio do objeto.
4. Dispositivo de processamento de informações de acordo com a reivindicação 1, caracterizado pelo fato de que a informação de atributo é a informação que indica um tipo de objeto.
5. Dispositivo de processamento de informações de acordo com a reivindicação 1, caracterizado pelo fato de que a informação de atributo é a informação de prioridade que indica uma prioridade do objeto.
6. Dispositivo de processamento de informações de acordo com a reivindicação 1, caracterizado pelo fato de que o objeto é um objeto de áudio.
7. Dispositivo de processamento de informações de acordo com a reivindicação 6, caracterizado pelo fato de que a informação de atributo é a informação que indica um tipo de fonte de som do objeto.
8. Dispositivo de processamento de informações de acordo com a reivindicação 7, caracterizado pelo fato de que o tipo de fonte de som é a informação que indica um instrumento musical, uma parte de voz ou o gênero de uma voz.
9. Dispositivo de processamento de informações de acordo com a reivindicação 6, caracterizado pelo fato de que a informação de atributo é a informação que indica um efeito acústico aplicado a um sinal de áudio do objeto.
10. Dispositivo de processamento de informações de acordo com a reivindicação 9, caracterizado pelo fato de que o efeito acústico é um efeito de reverberação.
11. Dispositivo de processamento de informações de acordo com a reivindicação 6, caracterizado pelo fato de que a informação de atributo é a informação sobre a pressão do som ou um tom de um sinal de áudio do objeto.
12. Dispositivo de processamento de informações de acordo com a reivindicação 6, caracterizado pelo fato de que a informação de atributo é a informação referente a um atributo de um conteúdo constituído pelo objeto.
13. Dispositivo de processamento de informações de acordo com a reivindicação 12, caracterizado pelo fato de que a informação referente ao atributo do conteúdo é um gênero do conteúdo ou o número dos objetos que constituem o conteúdo.
14. Dispositivo de processamento de informações de acordo com a reivindicação 1, caracterizado pelo fato de que compreende adicionalmente uma unidade de ajuste de distribuição que ajusta uma distribuição dos parâmetros de uma pluralidade de objetos.
15. Dispositivo de processamento de informações de acordo com a reivindicação 14, caracterizado pelo fato de que a unidade de ajuste de distribuição ajusta a distribuição ajustando a variância ou uma média dos parâmetros.
16. Dispositivo de processamento de informações de acordo com a reivindicação 15, caracterizado pelo fato de que a unidade de ajuste de distribuição ajusta a distribuição de modo que a variância ou a média dos parâmetros seja um valor determinado para o número de objetos que constituem o conteúdo, um produtor de conteúdo ou um gênero do conteúdo.
17. Dispositivo de processamento de informações de acordo com a reivindicação 1, caracterizado pelo fato de que a unidade de determinação determina o parâmetro por uma árvore de decisão que insere as informações de atributo e produz o parâmetro.
18. Dispositivo de processamento de informações de acordo com a reivindicação 17, caracterizado pelo fato de que a árvore de decisão é aprendida para cada gênero de conteúdo constituído pelo objeto ou para cada produtor de conteúdo.
19. Método de processamento de informações, caracterizado pelo fato de que compreende, através de um dispositivo de processamento de informações, determinar um ou mais parâmetros que constituem metadados de um objeto com base em uma ou mais partes de informações de atributo do objeto.
20. Programa, caracterizado pelo fato de que faz com que um computador execute o processamento, incluindo uma etapa de determinação de um ou mais parâmetros que constituem os metadados de um objeto com base em uma ou mais informações de atributo do objeto.
BR112021005241-0A 2018-09-28 2019-09-13 dispositivo, método e programa de processamento de informações BR112021005241A2 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018-184161 2018-09-28
JP2018184161 2018-09-28
PCT/JP2019/036032 WO2020066681A1 (ja) 2018-09-28 2019-09-13 情報処理装置および方法、並びにプログラム

Publications (1)

Publication Number Publication Date
BR112021005241A2 true BR112021005241A2 (pt) 2021-06-15

Family

ID=69952679

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112021005241-0A BR112021005241A2 (pt) 2018-09-28 2019-09-13 dispositivo, método e programa de processamento de informações

Country Status (7)

Country Link
US (1) US11716586B2 (pt)
EP (1) EP3860156A4 (pt)
JP (1) JP7363795B2 (pt)
KR (1) KR20210066807A (pt)
CN (1) CN112740721A (pt)
BR (1) BR112021005241A2 (pt)
WO (1) WO2020066681A1 (pt)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112022004952T5 (de) 2021-10-15 2024-08-14 Sony Group Corporation Informationsverarbeitungseinrichtung, verfahren und programm
WO2024219207A1 (ja) * 2023-04-18 2024-10-24 ソニーグループ株式会社 情報処理装置および方法、並びにプログラム

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3550303B2 (ja) * 1998-07-31 2004-08-04 株式会社東芝 ピッチパターン生成方法およびピッチパターン生成装置
JP2004194108A (ja) * 2002-12-12 2004-07-08 Sony Corp 情報処理装置および情報処理方法、記録媒体、並びにプログラム
US8841535B2 (en) * 2008-12-30 2014-09-23 Karen Collins Method and system for visual representation of sound
US8938675B2 (en) * 2009-06-16 2015-01-20 Harman International Industries, Incorporated System for automated generation of audio/video control interfaces
EP2465259A4 (en) * 2009-08-14 2015-10-28 Dts Llc OBJECT-ORIENTED AUDIOSTREAMING SYSTEM
ES2871224T3 (es) 2011-07-01 2021-10-28 Dolby Laboratories Licensing Corp Sistema y método para la generación, codificación e interpretación informática (o renderización) de señales de audio adaptativo
MX368349B (es) * 2012-12-04 2019-09-30 Samsung Electronics Co Ltd Aparato de suministro de audio y metodo de suministro de audio.
EP2784955A3 (en) 2013-03-25 2015-03-18 Yamaha Corporation Digital audio mixing device
JP5713042B2 (ja) * 2013-03-25 2015-05-07 ヤマハ株式会社 デジタルオーディオミキシング装置及びプログラム
US10063207B2 (en) * 2014-02-27 2018-08-28 Dts, Inc. Object-based audio loudness management
RU2019138260A (ru) * 2015-06-24 2019-12-05 Сони Корпорейшн Устройство, способ и программа аудиообработки
EP3145220A1 (en) 2015-09-21 2017-03-22 Dolby Laboratories Licensing Corporation Rendering virtual audio sources using loudspeaker map deformation
US20170098452A1 (en) * 2015-10-02 2017-04-06 Dts, Inc. Method and system for audio processing of dialog, music, effect and height objects
EP3370437A4 (en) * 2015-10-26 2018-10-17 Sony Corporation Signal processing device, signal processing method, and program
US11290819B2 (en) * 2016-01-29 2022-03-29 Dolby Laboratories Licensing Corporation Distributed amplification and control system for immersive audio multi-channel amplifier
EP3301951A1 (en) * 2016-09-30 2018-04-04 Koninklijke KPN N.V. Audio object processing based on spatial listener information
WO2018198789A1 (ja) * 2017-04-26 2018-11-01 ソニー株式会社 信号処理装置および方法、並びにプログラム
US10735882B2 (en) * 2018-05-31 2020-08-04 At&T Intellectual Property I, L.P. Method of audio-assisted field of view prediction for spherical video streaming
US11545166B2 (en) * 2019-07-02 2023-01-03 Dolby International Ab Using metadata to aggregate signal processing operations

Also Published As

Publication number Publication date
US20220116732A1 (en) 2022-04-14
WO2020066681A1 (ja) 2020-04-02
KR20210066807A (ko) 2021-06-07
EP3860156A4 (en) 2021-12-01
EP3860156A1 (en) 2021-08-04
JP7363795B2 (ja) 2023-10-18
JPWO2020066681A1 (ja) 2021-08-30
US11716586B2 (en) 2023-08-01
CN112740721A (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
Shabtai et al. Generation and analysis of an acoustic radiation pattern database for forty-one musical instruments
US9304988B2 (en) System and method for performing automatic audio production using semantic data
US9530396B2 (en) Visually-assisted mixing of audio using a spectral analyzer
BR122020013590B1 (pt) Método para a geração de um sinal binaural em resposta a um conjunto de canais de um sinal de entrada de áudio de múltiplos canais e sistema configurado para gerar um sinal binaural em resposta a um conjunto de canais de um sinal de entrada de áudio de múltiplos canais
AU2019299453B2 (en) System for deliverables versioning in audio mastering
Ramos et al. Parametric head-related transfer function modeling and interpolation for cost-efficient binaural sound applications
Wilson et al. Variation in multitrack mixes: analysis of low-level audio signal features
BR112021005241A2 (pt) dispositivo, método e programa de processamento de informações
Thery et al. Anechoic audio and 3D-video content database of small ensemble performances for virtual concerts
US20230254655A1 (en) Signal processing apparatus and method, and program
Pezzoli et al. A comparative analysis of the directional sound radiation of historical violins
Thiergart et al. Parametric spatial sound processing using linear microphone arrays
CN115696176A (zh) 一种基于音频对象的声重放方法、装置、设备及存储介质
WO2021140959A1 (ja) 符号化装置および方法、復号装置および方法、並びにプログラム
Zieliński Feature extraction of surround sound recordings for acoustic scene classification
CN115171632A (zh) 音频处理方法、计算机设备和计算机程序产品
WO2023160782A1 (en) Upmixing systems and methods for extending stereo signals to multi-channel formats
Ackermann et al. Musical instruments as dynamic sound sources
Bauer et al. Tone onset detection using an auditory model
Ziemer Goniometers are a powerful acoustic feature for music information retrieval tasks
WO2021124919A1 (ja) 情報処理装置および方法、並びにプログラム
Marui et al. Predicting perceived sharpness of broadband noise from multiple moments of the specific loudness distribution
US20230135778A1 (en) Systems and methods for generating a mixed audio file in a digital audio workstation
WO2024177629A1 (en) Dynamic audio mixing in a multiple wireless speaker environment
Wolstanholme et al. Hearing from within a sound: A series of techniques for deconstructing and spatialising timbre

Legal Events

Date Code Title Description
B08F Application dismissed because of non-payment of annual fees [chapter 8.6 patent gazette]

Free format text: REFERENTE A 5A ANUIDADE.

B08K Patent lapsed as no evidence of payment of the annual fee has been furnished to inpi [chapter 8.11 patent gazette]

Free format text: EM VIRTUDE DO ARQUIVAMENTO PUBLICADO NA RPI 2792 DE 09-07-2024 E CONSIDERANDO AUSENCIA DE MANIFESTACAO DENTRO DOS PRAZOS LEGAIS, INFORMO QUE CABE SER MANTIDO O ARQUIVAMENTO DO PEDIDO DE PATENTE, CONFORME O DISPOSTO NO ARTIGO 12, DA RESOLUCAO 113/2013.