BR112015010954B1 - Método de codificação de um sinal de áudio. - Google Patents

Método de codificação de um sinal de áudio. Download PDF

Info

Publication number
BR112015010954B1
BR112015010954B1 BR112015010954-3A BR112015010954A BR112015010954B1 BR 112015010954 B1 BR112015010954 B1 BR 112015010954B1 BR 112015010954 A BR112015010954 A BR 112015010954A BR 112015010954 B1 BR112015010954 B1 BR 112015010954B1
Authority
BR
Brazil
Prior art keywords
encoding
encoding mode
mode
unit
audio signal
Prior art date
Application number
BR112015010954-3A
Other languages
English (en)
Inventor
Ki-hyun Choo
Anton Victorovich Porov
Konstantin Sergeevich Osipov
Nam-Suk Lee
Original Assignee
Samsung Electronics Co., Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co., Ltd filed Critical Samsung Electronics Co., Ltd
Priority to BR122020023793-7A priority Critical patent/BR122020023793B1/pt
Priority to BR122020023798-8A priority patent/BR122020023798B1/pt
Publication of BR112015010954B1 publication Critical patent/BR112015010954B1/pt

Links

Images

Abstract

MÉTODO PARA DETERMINAR UM MODO DE CODIFICAÇÃO, MÉTODO PARA CODIFICAR ÁUDIO, E MÉTODO PARA DECODIFICAR ÁUDIO São fornecidos um método e um aparelho para determinar um modo de codificação, para melhorar a qualidade do sinal de áudio reconstruído. Um método para determinar um modo de codificação inclui determinar um dentre uma pluralidade de modos de codificação, incluindo um primeiro modo de codificação e um segundo modo de codificação, como um modo de codificação inicial em correspondência com as características de um sinal de áudio, e se houver um erro na determinação do modo de codificação inicial, gerar um modo de codificação corrigido, corrigindo o modo de codificação inicial para um terceiro modo de codificação.

Description

ÁREA TÉCNICA
[0001] Aparelhos e métodos compatíveis com formas de realização exemplares se referem à codificação e decodificação de áudio e, mais particularmente, a um método e um aparelho para determinar um modo de codificação para melhorar a qualidade de um sinal de áudio reconstruído, determinando um modo de codificação adequado às características de um sinal de áudio e impedindo a frequente comutação de modo de codificação, a um método e um aparelho para codificar um sinal de áudio, e a um método e um aparelho para decodificar um sinal de áudio.
FUNDAMENTOS DA TÉCNICA
[0002] Sabe-se, amplamente, que é eficiente codificar um sinal de música do domínio de frequência, e é eficiente codificar um sinal de fala do domínio de tempo. Portanto, várias técnicas têm sido sugeridas para determinar a classe de um sinal de áudio, em que o sinal de música e o sinal de fala são misturados, e determinar um modo de codificação em correspondência com a classe determinada.
[0003] No entanto, devido à frequente comutação de modo de codificação, não apenas ocorrem atrasos, mas também a qualidade de som decodificado é deteriorada. Além disso, uma vez que não existe técnica para corrigir um modo de codificação primeiramente determinado, ou seja, classe, se ocorrer um erro durante a determinação de um modo de codificação, a qualidade de um sinal de áudio reconstruído é deteriorada.
DIVULGAÇÃOPROBLEMA TÉCNICO
[0004] Aspectos de uma ou mais formas de realizaçãoexemplares fornecem um método e um aparelho para determinar um modo de codificação para melhorar a qualidade de um sinal de áudio reconstruído, determinando um modo de codificação adequado às características de um sinal de áudio, um método eum aparelho para codificar um sinal de áudio, e um método e um aparelho para decodificar um sinal de áudio.
[0005] Aspectos de uma ou mais formas de realizaçãoexemplares fornecem um método e um aparelho para determinar um modo de codificação adequado às características de um sinal de áudio, e reduzir atrasos devido à frequente comutação de modo de codificação, um método e um aparelho para codificar um sinal de áudio, e um método e um aparelho para decodificar um sinal de áudio.
SOLUÇÃO TÉCNICA
[0006] De acordo com um aspecto de uma ou mais formas derealização exemplares, existe um método para determinar um modo de codificação, o método incluindo determinar um dentre uma pluralidade de modos de codificação, incluindo um primeiro modo de codificação e um segundo modo de codificação, como um modo de codificação inicial, em correspondência com ascaracterísticas de um sinal de áudio, e, se houver um erro na determinação do modo de codificação inicial, gerar um modo de codificação corrigido, corrigindo o modo de codificação inicial para um terceiro modo de codificação.
[0007] De acordo com um aspecto de um ou mais formas derealização exemplares, existe um método para codificar um sinal de áudio, o método incluindo determinar um dentre uma pluralidade de modos de codificação, incluindo um primeiro modo de codificação e um segundo modo de codificação como um modo de codificação inicial, em correspondência com as características de um sinal de áudio, se houver um erro na determinação do modo de codificação inicial, gerar um modo de codificação corrigido, corrigindo o modo de codificação inicial para um terceiro modo de codificação, e realizar diferentes processos de codificação no sinal de áudio, com base no modo de codificação inicial ou no modo de codificação corrigido.
[0008] De acordo com um aspecto de uma ou mais formas de realização exemplares, existe um método para decodificar um sinal de áudio, o método incluindo a análise de um fluxo de bits, compreendendo um de um modo de codificação inicial obtido pela determinação de um dentre uma pluralidade de modos de codificação, incluindo um primeiro modo de codificação e um segundo modo de codificação, em correspondência com as características de um sinal de áudio, e um terceiro modo de codificação corrigido, a partir do modo de codificação inicial, se houver um erro na determinação do modo de codificação inicial, e realizar diferentes processos de decodificação no fluxo de bits, com base no terceiro modo de codificação ou no modo de codificação inicial.
EFEITOS VANTAJOSOS
[0009] De acordo com formas de realização exemplares, determinando o modo de codificação final de um fotograma atual, com base na correção do modo de codificação inicial, e modos de codificação de fotogramas correspondentes a um comprimento em excesso, um modo de codificação adaptável às características de um sinal de áudio pode ser selecionado, evitando a frequente comutação de modo de codificação entre fotogramas.
DESCRIÇÃO DOS DESENHOS
[00010] A Fig. 1 é um diagrama de blocos, ilustrando uma configuração de um aparelho para codificar áudio, de acordo com uma forma de realização exemplar;a Fig. 2 é um diagrama de blocos, ilustrando uma configuração de um aparelho para codificar áudio, de acordo com outra forma de realização exemplar;a Fig. 3 é um diagrama de blocos, ilustrando uma configuração de uma unidade determinadora de modo de codificação, de acordo com uma forma de realização exemplar;a Fig. 4 é um diagrama de blocos, ilustrando uma configuração de uma unidade determinadora de modo de codificação inicial, de acordo com uma forma de realização exemplar;a Fig. 5 é um diagrama de blocos, ilustrando uma configuração de uma unidade para extrair parâmetros característicos, de acordo com uma forma de realização exemplar;a Fig. 6 é um diagrama, ilustrando um método de comutação adaptativa entre uma codificação do domínio de previsão linear e uma de um domínio espectral, de acordo com uma forma de realização exemplar;a Fig. 7 é um diagrama, ilustrando uma operação de uma unidade para correção de modo de codificação, de acordo com uma forma de realização exemplar;a Fig. 8 é um diagrama de blocos, ilustrando uma configuração de um aparelho para decodificar áudio, de acordo com uma forma de realização exemplar; ea Fig. 9 é um diagrama de blocos, ilustrando uma configuração de um aparelho para decodificar áudio, de acordo com outra forma de realização exemplar.
MODO PARA INVENÇÃO
[00011] Referência será feita agora, em detalhes, às formas de realização, cujos exemplos são ilustrados nos desenhos anexos, em que números de referência similares se referem a elementos similares ao longo do documento. Nesse sentido, as presentes formas de realização podem ter diferentes formas e não devem ser interpretadas como sendo limitadas às descrições aqui apresentadas. Nesse sentido, as formas de realização abaixo são apenas descritas, referindo-se às figuras, para explicar aspectos da presente descrição.
[00012] Termos, como "conectado" e "ligado", podem ser usados para indicar um estado diretamente conectado ou ligado, mas deve ficar claro que outro componente pode ser interposto entre eles.
[00013] Termos, como "primeiro" e "segundo", podem ser usados para descrever vários componentes, mas os componentes não devem ser limitados aos termos. Os termos podem ser utilizados apenas para distinguir um componente de outro componente.
[00014] As unidades descritas em formas de realização exemplares são ilustradas, de forma independente, para indicar diferentes funções características, e isso não significa que cada unidade é formada por um componente de hardware ou software separado. Cada unidade é ilustrada para conveniência de explicação, e uma pluralidade de unidades pode formar uma unidade, e uma unidade pode ser dividida em uma pluralidade de unidades.
[00015] A Fig. 1 é um diagrama de blocos, ilustrando uma configuração de um aparelho para codificar áudio 100, de acordo com uma forma de realização exemplar.
[00016] O aparelho para codificar áudio 100, mostrado na Fig.1, pode incluir uma unidade determinadora de modo de codificação 110, uma unidade de comutação 120, unidade de modo de codificação do domínio espectral 130, unidade de codificação do domínio de previsão linear 140 e uma unidade geradora de fluxo de bits 150. A unidade de codificação do domínio de previsão linear 140 pode incluir uma unidade de codificação por excitação do domínio de tempo 141 e uma unidade de codificação por excitação do domínio de frequência 143, onde a unidade de codificação do domínio de previsão linear 140 pode ser incorporada a, pelo menos, uma das duas unidades de codificação por excitação 141 e 143. A menos que seja necessário que elas sejam incorporadas a um hardware separado, os componentes acima indicados podem ser integrados a, pelo menos, um módulo, e podem ser implementados como, pelo menos, um processador (não mostrado). Aqui, o termo de um sinal de áudio pode se referir a um sinal de música, um sinal de fala ou uma mistura desses sinais.
[00017] Com referência à Fig. 1, a unidade determinadora de modo de codificação 110 pode analisar características de um sinal de áudio para determinar a classe do sinal de áudio, e determinar um modo de codificação correspondente a um resultado da classificação. A determinação do modo de codificação pode ser realizada em unidades de super-fotogramas, fotogramas ou bandas. Como alternativa, a determinação do modo de codificação pode ser realizada em unidades de uma pluralidade de grupos de super-fotogramas, uma pluralidade de grupos de fotogramas ou uma pluralidade de grupos de banda. Aqui, exemplos dos modos de codificação podem incluir um domínio espectral e um domínio de tempo ou um domínio de previsão linear, mas não são limitados aos mesmos. Se a velocidade de processamento e desempenho de um processador for suficiente, e atrasos, devido à comutação de modo de codificação, puderem ser resolvidos, modos de codificação podem ser subdivididos, e esquemas de codificação também podem ser subdivididos em correspondência ao modo de codificação. De acordo com uma forma de realização exemplar, a unidade determinadora de modo de codificação 110 pode determinar um modo de codificação inicial de um sinal de áudio como um de um modo de codificação do domínio espectral e um modo de codificação do domínio de tempo. De acordo com outra forma de realização exemplar, a unidade determinadora de modo de codificação 110 pode determinar um modo de codificação inicial de um sinal de áudio como um de um modo de codificação do domínio espectral, um modo de codificação por excitação do domínio de tempo e um modo de codificação por excitação do domínio de frequência. Se o modo de codificação do domínio espectral for determinado como o modo de codificação inicial, a unidade determinadora de modo de codificação 110 pode corrigir o modo de codificação inicial para um dentre o modo de codificação do domínio espectral e o modo de codificação por excitação do domínio de frequência. Se o modo de codificação do domínio de tempo, ou seja, o modo de codificação por excitação do domínio de tempo for determinado como o modo de codificação inicial, a unidade determinadora de modo de codificação 110 pode corrigir o modo de codificação inicial para um dentre o modo de codificação por excitação do domínio de tempo e o modo de codificação por excitação do domínio de frequência. Se modo de codificação por excitação do domínio de tempo for determinado como o modo de codificação inicial, a determinação do modo de codificação final pode ser realizada de forma seletiva. Em outras palavras, o modo de codificação inicial, ou seja, o modo de codificação por excitação do domínio de tempo pode ser mantido. A unidade determinadora de modo de codificação 110 pode determinar modos de codificação de uma pluralidade de fotogramas, correspondentes a um comprimento em excesso, e pode determinar o modo de codificação final para um fotograma atual. De acordo com uma forma de realização exemplar, se o modo de codificação inicial ou um modo de codificação corrigido de um fotograma atual for idêntico aos modos de codificação de uma pluralidade de fotogramas anteriores, por exemplo, 7 fotogramas anteriores, o modo de codificação inicial correspondente ou modo de codificação corrigido pode ser determinado como o modo de codificação final do fotograma atual. Por sua vez, se o modo de codificação inicial ou um modo de codificação corrigido de um fotograma atual não for idêntico aos modos de codificação de uma pluralidade de fotogramas anteriores, por exemplo, 7 fotogramas anteriores, a unidade determinadora de modo de codificação 110 pode determinar o modo de codificação do fotograma imediatamente antes do fotograma atual, como o modo de codificação final do fotograma atual.
[00018] Conforme descrito acima, determinando o modo de codificação final de um fotograma atual, com base na correção do modo de codificação inicial e nos modos de codificação de fotogramas correspondente a um comprimento em excesso, um modo de codificação adaptável às características de um sinal de áudio pode ser selecionado, evitando a frequente comutação do modo de codificação entre os fotogramas.
[00019] Em geral, a codificação do domínio de tempo, ou seja, a codificação por excitação do domínio de tempo, pode ser eficiente para um sinal de fala, a codificação do domínio espectral pode ser eficiente para um sinal de música, e a codificação por excitação do domínio de frequência pode ser eficiente para um sinal vocal e/ou harmônico.
[00020] Em correspondência a um modo de codificação determinado através da unidade determinadora de modo de codificação 110, a unidade de comutação 120 pode fornecer um sinal de áudio para a unidade de codificação do domínio espectral 130 ou para a unidade de codificação do domínio de previsão linear 140. Se a unidade de codificação do domínio de previsão linear 140 for incorporada como a unidade de codificação por excitação do domínio de tempo 141, a unidade de comutação 120 pode incluir um total de duas ramificações. Se a unidade de codificação do domínio de previsão linear 140 for incorporada como unidade de codificação por excitação do domínio de tempo 141 e como a unidade de codificação por excitação do domínio de frequência 143, a unidade de comutação 120 pode ter um total de 3 ramificações.
[00021] A unidade de codificação do domínio espectral 130 pode codificar um sinal de áudio no domínio espectral. O domínio espectral pode se referir ao domínio de frequência ou a um domínio de transformada. Exemplos de métodos de codificação, aplicáveis à unidade de codificação do domínio espectral 130, podem incluir uma codificação de áudio avançada (AAC), ou uma combinação de uma transformada discreta de cosseno modificada (MDCT) e uma codificação de pulso fatorial (FPC), mas não são limitados aos mesmos. Em detalhes, outras técnicas de quantização e técnicas de codificação por entropia podem ser utilizadas, em vez da FPC. Isso pode ser eficiente para codificar um sinal de música na unidade de codificação do domínio espectral 130.
[00022] A unidade de codificação do domínio de previsão linear 140 pode codificar um sinal de áudio em um domínio de previsão linear. O domínio de previsão linear pode se referir a um domínio por excitação ou um domínio de tempo. A unidade de codificação do domínio de previsão linear 140 pode ser incorporada como a unidade de codificação por excitação do domínio de tempo 141 ou pode ser incorporada para incluir a unidade de codificação por excitação do domínio de tempo 141 e a unidade de codificação por excitação do domínio de frequência 143. Exemplos de métodos de codificação aplicáveis à unidade de codificação por excitação do domínio de tempo 141 podem incluir previsão linear excitada por código (CELP) ou uma CELP algébrica (ACELP), mas não são limitados às mesmas. Exemplos de métodos de codificação aplicáveis à unidade de codificação por excitação do domínio de frequência 143 podem incluir codificação de sinal genérico (GSC) ou transformação por excitação codificada (TCX), mas não são limitados às mesmas. Isso pode ser eficiente para codificar um sinal de fala na unidade de codificação por excitação do domínio de tempo 141, considerando que isso pode ser eficiente para codificar um sinal vocal e/ou harmônico na unidade de codificação por excitação do domínio de frequência 143.
[00023] A unidade geradora de fluxo de bits 150 pode gerar um fluxo de bits para incluir o modo de codificação fornecido pela unidade determinadora de modo de codificação 110, um resultado da codificação fornecida pela unidade de codificação do domínio espectral 130, e um resultado de codificação fornecido pela unidade de codificação do domínio de previsão linear 140.
[00024] A Fig. 2 é um diagrama de blocos, ilustrando uma configuração de um aparelho para codificar áudio 200, de acordo com outra forma de realização exemplar.
[00025] O aparelho para codificar áudio 200, mostrado na Fig. 2, pode incluir um módulo de pré-processamento comum 205, uma unidade determinadora de modo de codificação 210, uma unidade de comutação 220, unidade de modo de codificação do domínio espectral 230, uma unidade de codificação do domínio de previsão linear 240 e uma unidade geradora de fluxo de bits 250. Aqui, a unidade de codificação do domínio de previsão linear 240 pode incluir uma unidade de codificação por excitação do domínio de tempo 241 e uma unidade de codificação por excitação do domínio de frequência 243, e a unidade de codificação do domínio de previsão linear 240 pode ser incorporada como unidade de codificação por excitação do domínio de tempo 241 ou como unidade de codificação por excitação do domínio de frequência 143. Em comparação com o aparelho para codificar áudio, mostrado na Fig. 1, o aparelho para codificar áudio 200 também pode incluir o módulo de pré- processamento comum 205, e, portanto, descrições de componentes idênticos àqueles do aparelho para codificar áudio 100 serão omitidas.
[00026] Com referência à Fig. 2, o módulo de pré- processamento comum 205 pode executar processamento estéreo conjunto, processamento surround, e/ou processamento de extensão de largura de banda. O processamento estéreo conjunto, o processamento de surround e o processamento de extensão de largura de banda podem ser idênticos àqueles utilizados por um padrão específico, por exemplo, o padrão MPEG, mas não são limitados aos mesmos. A saída do módulo de pré-processamento comum 205 pode ser em um canal mono, um canal estéreo ou multicanais. De acordo com o número de canais de um sinal emitido pelo módulo de pré-processamento comum 205, a unidade de comutação 220 pode incluir, pelo menos, um comutador. Por exemplo, se o módulo de pré-processamento comum 205 emitir um sinal de dois ou mais canais, ou seja, um canal estéreo ou um multicanal, comutadores, correspondentes aos respectivos canais, podem ser dispostos. Por exemplo, o primeiro canal de um sinal estéreo pode ser um canal de fala, e o segundo canal do sinal estéreo pode ser um canal de música. Nesse caso, um sinal de áudio pode ser fornecido, de forma simultânea, para os dois comutadores. Informações adicionais, geradas pelo módulo de pré-processamento comum 205, podem ser fornecidas à unidade geradora de fluxo de bits 250 e incluídas em um fluxo de bits. As informações adicionais podem ser necessárias para executar o processamento estéreo conjunto, o processamento surround e/ou o processamento de extensão de largura de banda em uma decodificação final, e podem incluir parâmetros espaciais, informações de envelope, informação de energia etc.. No entanto, podem existir várias informações adicionais, com base em técnicas de processamento aplicadas aos mesmos.
[00027] De acordo com uma forma de realização exemplar, no módulo de pré-processamento comum 205, o processamento de extensão de largura de banda pode ser executado, de maneira diferente, com base em domínios de codificação. O sinal de áudio em uma banda central pode ser processado usando o modo de codificação por excitação do domínio de tempo ou o modo de codificação por excitação do domínio de frequência, considerando que um sinal de áudio, em uma banda com largura de banda estendida, pode ser processado no domínio do tempo. O processamento de extensão de largura de banda no domínio de tempo pode incluir uma pluralidade de modos, incluindo um modo de voz ou um modo sem voz. Como alternativa, um sinal de áudio na banda central pode ser processado usando o modo de codificação do domínio espectral, considerando que um sinal de áudio, na banda com largura de banda estendida, pode ser processado no domínio da frequência. O processamento de extensão de largura de banda no domínio de frequência pode incluir uma pluralidade de modos, incluindo um modo transiente, um modo normal ou um modo harmônico. Para executar o processamento de extensão de largura de banda em diferentes domínios, um modo de codificação, determinado pela unidade determinadora de modo de codificação, pode ser fornecido para o módulo de pré-processamento comum 205 como uma informação de sinalização. De acordo com uma forma de realização exemplar, a última parte da banda central e a parte inicial da banda com largura de banda estendida podem se sobrepor, uma à outra, até certo ponto. Localização e tamanho das partes sobrepostas podem ser definidos com antecedência.
[00028] A Fig. 3 é um diagrama de blocos, ilustrando uma configuração de uma unidade determinadora de modo de codificação 300, de acordo com uma forma de realização exemplar.
[00029] A unidade determinadora de modo de codificação 300, mostrada na Fig. 3, pode incluir uma unidade determinadora de modo de codificação inicial 310 e uma unidade para correção de modo de codificação 330.
[00030] Com referência à Fig. 3, a unidade determinadora de modo de codificação inicial 310 pode determinar se um sinal de áudio é um sinal de música ou um sinal de fala, usando parâmetros característicos extraídos do sinal de áudio. Se o sinal de áudio for determinado como um sinal de fala, codificação do domínio de previsão linear pode ser adequada. Por sua vez, se o sinal de áudio for determinado como um sinal de música, codificação do domínio espectral pode ser adequada. A unidade determinadora de modo de codificação inicial 310 podedeterminar a classe do sinal de áudio, indicando se a codificação do domínio espectral, a codificação por excitaçãodo domínio de tempo ou a codificação por excitação do domíniode frequência são apropriadas para o sinal de áudio, usando parâmetros característicos extraídos do sinal de áudio. Um modode codificação correspondente pode ser determinado, com base naclasse do sinal de áudio. Se uma unidade de comutação (120 daFig. 1) tiver duas ramificações, um modo de codificação pode ser expresso em 1 bit. Se a unidade de comutação (120 da Fig. 1) tiver três ramificações, um modo de codificação pode ser expresso em 2 bits. A unidade determinadora de modo de codificação inicial 310 pode determinar, se um sinal de áudio éum sinal de música ou um sinal de fala, usando qualquer uma dasvárias técnicas conhecidas na arte. Exemplos associados podem incluir classificação FD/LPD ou classificação ACELP/TCX, descritas em uma parte do codificador do padrão USAC e classificação ACELP/TCX, usados nos padrões AMR, mas não são limitados aos mesmos. Em outras palavras, o modo de codificação inicial pode ser determinado usando qualquer um dos vários métodos, diferentes do método de acordo com formas de realização descritas nesse documento.
[00031] A unidade para correção de modo de codificação 330 pode determinar um modo de codificação corrigido, corrigindo o modo de codificação inicial determinado pela unidade determinadora de modo de codificação inicial 310, usando parâmetros de correção. De acordo com uma forma de realização exemplar, se o modo de codificação do domínio espectral for determinado como o modo de codificação inicial, o modo de codificação inicial pode ser corrigido para o modo de codificação por excitação do domínio de frequência, com base em parâmetros de correção. Se o modo de codificação do domínio de tempo for determinado como o modo de codificação inicial, o modo de codificação inicial pode ser corrigido para o modo de codificação por excitação do domínio de frequência, com base em parâmetros de correção. Em outras palavras, é determinado se há um erro na determinação do modo de codificação inicial, usando parâmetros de correção. Se for determinado que não há nenhum erro na determinação do modo de codificação inicial, o modo de codificação inicial pode ser mantido. De forma contrária, se for determinado que há um erro na determinação do modo de codificação inicial, o modo de codificação inicial pode ser corrigido. A correção do modo de codificação inicial pode ser obtida, do modo de codificação do domínio espectral para o modo de codificação por excitação de domínio de frequência, e do modo de codificação por excitação do domínio do tempo para o modo de codificação por excitação do domínio da frequência.
[00032] Por sua vez, o modo de codificação inicial ou o modo de codificação corrigido pode ser um modo de codificação temporário para um fotograma atual, onde o modo de codificação temporário para o fotograma atual pode ser comparado a modos de codificação para fotogramas anteriores, dentro de um comprimento em excesso predefinido, e o modo de codificação final para o fotograma atual pode ser determinado.
[00033] A Fig. 4 é um diagrama de blocos, ilustrando uma configuração de uma unidade determinadora de modo de codificação inicial 400, de acordo com uma forma de realização exemplar inicial.
[00034] A unidade determinadora de modo de codificação inicial 400, mostrada na Fig. 4, pode incluir uma unidade para extrair parâmetro característico 410 e uma unidade determinadora 430.
[00035] Com referência à Fig. 4, a unidade para extrair parâmetro característico 410 pode extrair parâmetros característicos necessários para determinar um modo de codificação, a partir de um sinal de áudio. Exemplos dos parâmetros característicos extraídos incluem, pelo menos, um ou dois dentre um parâmetro de pitch (frequência percebida), um parâmetro de vocalização, um parâmetro de correlação e um erro de previsão linear, mas não são limitados aos mesmos. Descrições detalhadas de parâmetros individuais serão dadas a seguir.
[00036] Em primeiro lugar, um primeiro parâmetro característico F1 se refere a um parâmetro de pitch, onde um comportamento de pitch pode ser determinado usando valores de pitch N, detectados em um fotograma atual, e, pelo menos, um fotograma anterior. Para evitar um efeito de um desvio aleatório ou um valor de pitch errado, valores de pitch M, significativamente diferentes da média dos valores de pitch N, podem ser removidos. Aqui, N e M podem ser valores obtidos através de experimentos ou simulações prévias. Além disso, N pode ser definido com antecedência, e a diferença entre um valor de pitch a ser removido e a média dos valores de pitch N pode ser determinada através de experimentos ou simulações prévias. O primeiro parâmetro característico F1 pode ser expresso, como mostrado abaixo na Equação 1, usando a média mp' e a variante ap‘, no que diz respeito a valores de pitch (N - M).
Figure img0001
[00037] Um segundo parâmetro característico F2 também se refere a um parâmetro de pitch e pode indicar a confiabilidade de um valor de pitch detectado em um fotograma atual. O segundo parâmetro característico F2 pode ser expresso, como mostrado abaixo na Equação 2, usando variâncias oSF1 e oSF2 de valores de pitch, respectivamente, detectados em dois subfotogramas SF1 e SF2 de um fotograma atual.
Figure img0002
[00038] Aqui, cov(SF1, SF2) denota a covariância entre os subfotogramas SF1 e SF2. Em outras palavras, o segundo parâmetro característico F2 indica a correlação entre dois subfotogramas como uma distância de pitch. De acordo com uma forma de realização exemplar, um fotograma atual pode incluir dois ou mais subfotogramas, e a Equação 2 pode ser modificada, com base no número de subfotogramas.
[00039] Um terceiro parâmetro característico F3 pode ser expresso, como mostrado abaixo na Equação 3, com base em um parâmetro de vocalização Voicing e em um parâmetro de correlação Corr.
Figure img0003
[00040] Aqui, o parâmetro de vocalização Voicing se refere às características vocais de som, e pode ser obtido por qualquer um dos vários métodos conhecidos na técnica, enquanto que o parâmetro de correlação Corr pode ser obtido através da soma de correlações entre fotogramas para cada banda.
[00041] Um quarto parâmetro característico F4 se refere a um erro de previsão linear ELPC e pode ser expresso, como mostrado abaixo na Equação 4.
Figure img0004
Aqui, M(ELPC) denota a média de erros de previsãolinear N.
[00042] A unidade determinadora 430 pode determinar a classe de um sinal de áudio usando, pelo menos, um parâmetro característico fornecido pela unidade para extrair parâmetro característico 410 e pode determinar o modo de codificação inicial, com base na classe determinada. A unidade determinadora 430 pode empregar o mecanismo de fácil decisão, onde, pelo menos, uma mistura pode ser formada por parâmetro característico. De acordo com uma forma de realização exemplar, a classe de um sinal de áudio pode ser determinada usando o modelo de mistura Gaussiana (GMM), com base em probabilidades de mistura. Uma probabilidade f(x), em relação a uma mistura, pode ser calculada, de acordo com a Equação 5 abaixo.
Figure img0005
[00043] Aqui, x denota um vetor de entrada de um parâmetro característico, m denota uma mistura, e c denota uma matriz de covariância.
[00044] A unidade determinadora 430 pode calcular uma probabilidade de música Pm e uma probabilidade de fala Os, usando a Equação 6 abaixo.
Figure img0006
[00045] Aqui, a probabilidade de música Pm pode ser calculada pela adição de probabilidades Pi de M misturas, relacionadas aos parâmetros característicos superiores para determinação de música, enquanto que a probabilidade de fala Ps pode ser calculada, pela adição de probabilidades Pi de S misturas, relacionadas ao parâmetros característicos superiores para determinação de fala.
[00046] Por sua vez, para maior precisão, a probabilidade de música Pm e a probabilidade de fala Ps podem ser calculadas, de acordo com a Equação 7 abaixo.
Figure img0007
[00047] Aqui, denota a probabilidade de erro de cada mistura. A probabilidade de erro pode ser obtida ao classificaros dados de treinamento, incluindo sinais de fala limpos e sinais de música limpos, usando cada uma das misturas e contando o número de classificações erradas.
[00048] A seguir, a probabilidade PM de que todos os fotogramas incluam apenas sinais de música, e a probabilidade de fala PS de que todos os fotogramas incluam apenas sinais de fala, em relação a uma pluralidade de fotogramas, tantas quanto forem um comprimento em excesso constante, podem ser calculadas de acordo com a Equação 8 abaixo. O comprimento em excesso pode ser definido como 8, mas não está limitado ao mesmo. Oito fotogramas podem incluir um fotograma atual e 7 fotogramas anteriores.
Figure img0008
[00049] A seguir, uma pluralidade de conjuntos de condições
Figure img0009
pode ser calculada usando a probabilidade demúsica Pm ou a probabilidade de fala Ps, obtidas utilizando aEquação 5 ou a Equação 6. Suas descrições detalhadas serão apresentadas abaixo com referência à Fig. 6. Aqui, pode ser definido, de forma que cada condição tenha um valor 1 para música, e tenha um valor 0 para fala.
[00050] Com referência à Fig. 6, em uma operação 610 e uma operação 620, uma soma das condições de música M e uma soma das condições de voz S podem ser obtidas a partir da pluralidade de conjuntos de condições
Figure img0010
que é calculada usando aprobabilidade de música Pm e a probabilidade de fala Ps. Em outras palavras, a soma das condições de música M e a soma das condições de fala S podem ser expressas, como mostrado na Equação 9 abaixo.
Figure img0011
[00051] Em uma operação 630, a soma das condições de música M é comparada com um valor limite designado Tm. Se a soma das condições de música M for maior que o valor limite Tm, um modo de codificação de um fotograma atual é comutado para um modo de música, ou seja, o modo de codificação do domínio espectral. Se a soma das condições de música M for menor ou igual ao valor limite Tm, o modo de codificação do fotograma atual não é alterado.
[00052] Em uma operação 640, a soma das condições de fala S é comparada com um valor limite designado Ts. Se a soma das condições de fala S for maior que o valor limite Ts, um modo de codificação de um fotograma atual é comutado para um modo de fala, isto é, o modo de codificação do domínio de previsão linear. Se a soma das condições de fala S for menor ou igual ao valor limite Ts, o modo de codificação do fotograma atual não é alterado.
[00053] O valor limite Tm e o valor limite Ts podem ser definidos como valores obtidos através de experimentos ou simulações prévias.
[00054] A Fig. 5 é um diagrama de blocos, ilustrando uma configuração de uma unidade para extrair parâmetro característico 500, de acordo com uma forma de realização exemplar.
[00055] Uma unidade determinadora de modo de codificação inicial 500, mostrada na Fig. 5, pode incluir uma unidade de transformação 510, uma unidade para extrair parâmetro espectral 520, uma unidade para extrair parâmetro temporal 530 e uma unidade determinadora 540.
[00056] Na Fig. 5, a unidade de transformação 510 pode transformar um sinal de áudio original, de domínio de tempo para domínio de frequência. Aqui, a unidade de transformação 510 pode aplicar qualquer uma das várias técnicas de transformação para representar um sinal de áudio de um domínio de tempo para um domínio espectral. Exemplos das técnicas podem incluir a transformada rápida de Fourier (FFT), transformada discreta de cosseno (DCT), ou transformada discreta de cosseno modificada (TCMD), mas não são limitados às mesmas.
[00057] A unidade para extrair parâmetro espectral 520 pode extrair, pelo menos, um parâmetro espectral de um sinal de áudio do domínio de frequência, fornecido pela unidade de transformação 510. Parâmetros espectrais podem ser classificados em parâmetros característicos em curto prazo e parâmetros característicos em longo prazo. Os parâmetros característicos em curto prazo podem ser obtidos a partir de um fotograma atual, enquanto que os parâmetros característicos em longo prazo podem ser obtidos a partir de uma pluralidade de fotogramas, incluindo o fotograma atual e, pelo menos, um fotograma anterior.
[00058] A unidade para extrair parâmetro temporal 530 pode extrair, pelo menos, um parâmetro temporal de um sinal de áudio do domínio de tempo. Parâmetros temporais também podem ser classificados em parâmetros característicos em curto prazo e parâmetros característicos em longo prazo. Os parâmetros característicos em curto prazo podem ser obtidos a partir de um fotograma atual, enquanto que os parâmetros característicos em longo prazo podem ser obtidos a partir de uma pluralidade de fotogramas, incluindo o fotograma atual e, pelo menos, um fotograma anterior.
[00059] Uma unidade determinadora (430 da Fig. 4) pode determinar a classe de um sinal de áudio, usando parâmetros espectrais fornecidos pela unidade para extrair parâmetro espectral 520 e parâmetros temporais fornecidos pela unidade para extrair parâmetro temporal 530, e pode determinar o modo de codificação inicial, com base na classe determinada. A unidade determinadora (430 da Fig. 4) pode utilizar mecanismo de fácil decisão.
[00060] A Fig. 7 é um diagrama, ilustrando uma operação de uma unidade para correção do modo de codificação 310, de acordo com uma forma de realização exemplar.
[00061] Com referência à Fig. 7, em uma operação 700, um modo de codificação inicial, determinado pela unidade determinadora de modo de codificação inicial 310, é recebido, e ele pode ser determinado de acordo com a possibilidade do modo de codificação ser o modo do domínio de tempo, ou seja, o modo por excitação do domínio de tempo ou o modo do domínio espectral.
[00062] Em uma operação 701, se for determinado na operação 700 que o modo de codificação inicial é o modo do domínio espectral (stateTS == 1), um índice stateTTSS, indicando se a codificação por excitação do domínio de frequência é mais apropriada, pode ser verificado. O índice stateTTSS, indicando se a codificação por excitação do domínio de frequência (por exemplo, GSC) é mais apropriada, pode ser obtido usando tonalidades de diferentes bandas de frequência. Suas descrições detalhadas serão apresentadas abaixo.
[00063] A tonalidade de um sinal de banda baixa pode ser obtida como uma relação entre uma soma de uma pluralidade de coeficientes espectrais tendo pequenos valores, incluindo o menor valor, e o coeficiente espectral tendo o maior valor em relação a uma determinada banda. Se as bandas fornecidas forem de 0~1 kHz, 1~2 kHz e 2~4 kHz, tonalidades t01, t12 e t24, das respectivas bandas, e tonalidade tL de um sinal de banda baixa, ou seja, a banda central pode ser expressa, como mostrado na Equação 10 abaixo.
Figure img0012
[00064] Por sua vez, o erro de previsão linear (err) pode ser obtido usando um filtro de codificação linear preditiva (LPC), e pode ser usado para remover componentes de tons fortes. Em outras palavras, o modo de codificação do domínio espectral pode ser mais eficiente, em relação a componentes de tons fortes, do que o modo de codificação por excitação do domínio da frequência.
[00065] Uma primeira condição (condfront) para comutar para omodo de codificação por excitação do domínio de frequência, usando as tonalidades e o erro de previsão linear obtidos, como descrito acima, pode ser expressa, como mostrado na Equação 11 abaixo.
Figure img0013
[00066] Aqui, t12front, t24front, tLfront, e errfront são valoreslimites e podem ter valores obtidos através de experimentos ou simulações prévias.
[00067] Por sua vez, uma condição secundária (condback), paraterminar o modo de codificação por excitação do domínio de frequência, usando as tonalidades e o erro de previsão linear obtido, como descrito acima, pode ser expressa, como mostrado na Equação 12 abaixo.
Figure img0014
[00068] Aqui, t12back, t24back, tLback são valores limites e podemter valores obtidos através de experimentos ou simulações prévias.
[00069] Em outras palavras, pode ser determinado, se o índice stateTTSS, indicando se a codificação por excitação do domínio de frequência (por exemplo, GSC) é mais apropriada do que a codificação do domínio espectral, é 1, determinando se a primeira condição, mostrada na Equação 11, é satisfeita, ou se a condição secundária, mostrada na Equação 12, não é satisfeita. Aqui, a determinação da condição secundária, mostrada na Equação 12, pode ser opcional.
[00070] Em uma operação 702, se o índice stateTTSS for 1, o modo de codificação por excitação do domínio da frequência pode ser determinado como o modo de codificação final. Nesse caso, o modo de codificação do domínio espectral, que é o modo de codificação inicial, é corrigido para o modo de codificação por excitação do domínio de frequência, que é o modo de codificação final.
[00071] Numa operação 705, se for determinado na operação 701 que o índice stateTTSS é 0, um índice stateSS, para determinar se um sinal de áudio inclui uma característica de fala forte, pode ser verificado. Se houver um erro na determinação do modo de codificação do domínio espectral, o modo de codificação por excitação do domínio da frequência pode ser mais eficiente do que o modo de codificação do domínio espectral. O índice stateSS, para determinar se um sinal de áudio inclui uma característica de fala forte, pode ser obtido usando uma diferença vc, entre um parâmetro de vocalização e um parâmetro de correlação.
[00072] Uma primeira condição condfront, para comutar para um modo de fala forte, usando a diferença vc entre um parâmetro de vocalização e um parâmetro de correlação, pode ser expressa, como mostrado na Equação 13 abaixo.
Figure img0015
[00073] Aqui, vcfront é um valor limite e pode ter um valor obtido através de experimentos ou simulações prévias.
[00074] Por sua vez, uma condição secundária condback, para terminar o modo de fala forte, usando a diferença vc entre um parâmetro de vocalização e um parâmetro de correlação, pode ser expressa, como mostrado na Equação 14 abaixo.
Figure img0016
[00075] Aqui, vcback é um valor limite e pode ter um valor obtido através de experimentos ou simulações prévias.
[00076] Em outras palavras, numa operação 705, pode ser determinado se o índice stateSS, indicando se a codificação por excitação do domínio da frequência (por exemplo, GSC) é mais apropriada do que a codificação do domínio espectral, é 1, determinando se a primeira condição, mostrada na Equação 13, é satisfeita ou se a condição secundária, mostrada na Equação 14, não é satisfeita. Aqui, a determinação da condição secundária, mostrada na Equação 14, pode ser opcional.
[00077] Numa operação 706, se for determinado na operação 705 que o índice stateSS é 0, ou seja, o sinal de áudio não inclui uma característica de fala forte, o modo de codificação do domínio espectral pode ser determinado como o modo de codificação final. Nesse caso, o modo de codificação do domínio espectral, que é o modo de codificação inicial, é mantido como o modo de codificação final.
[00078] Numa operação 707, se for determinado na operação 705. que o índice stateSS é 1, ou seja, o sinal de áudio inclui uma característica de fala forte, o modo de codificação por excitação do domínio da frequência pode ser determinado, como o modo de codificação final. Nesse caso, o modo de codificação do domínio espectral, que é o modo de codificação inicial, é corrigido para o modo de codificação por excitação do domínio de frequência, que é o modo de codificação final.
[00079] Ao realizar as operações 700, 701 e 705, um erro na determinação do modo de codificação do domínio espectral, como o modo de codificação inicial, pode ser corrigido. Em detalhes, o modo de codificação do domínio espectral, que é o modo de codificação inicial, pode ser mantido ou comutado para o modo de codificação por excitação do domínio de frequência, como o modo de codificação final.
[00080] Por sua vez, se for determinado na operação 700, que o modo de codificação inicial é o modo de codificação do domínio de previsão linear (stateTS == 0), um índice stateSM, para determinar se um sinal de áudio inclui uma característica de música forte, pode ser verificado. Se houver um erro na determinação do modo de codificação do domínio de previsão linear, ou seja, o modo de codificação por excitação do domínio de tempo, o modo de codificação por excitação do domínio de frequência pode ser mais eficiente do que o modo de codificação por excitação do domínio de tempo. O stateSM, para determinar se um sinal de áudio inclui uma característica de música forte, pode ser obtido usando um valor 1-vc, obtido ao subtrair a diferença vc, entre um parâmetro de vocalização e um parâmetro de correlação, de 1.
[00081] Uma primeira condição condfront para comutar para um modo de música forte usando o valor 1-vc, obtido ao subtrair a diferença vc, entre um parâmetro de vocalização e um parâmetro de correlação, de 1, pode ser expressa, como mostrado na Equação 15 abaixo.
Figure img0017
[00082] Aqui, vcmfront é um valor limite e pode ter um valorobtido por meio de experimentos ou simulações prévias.
[00083] Por sua vez, uma condição secundária condback para terminar o modo de música forte usando o valor 1-vc, obtido ao subtrair a diferença vc, entre um parâmetro de vocalização e um parâmetro de correlação, de 1, pode ser expressa, como mostrado na Equação 16 abaixo.
Figure img0018
[00084] Aqui, vcmback é um valor limite e pode ter um valorobtido por meio de experimentos ou simulações prévias.
[00085] Em outras palavras, em uma operação 709, pode ser determinado se o índice stateSM, indicando se a codificação por excitação do domínio da frequência (por exemplo, GSC) é mais apropriada do que a codificação por excitação do domínio de tempo, é 1, determinando se a primeira condição, mostrada na Equação 15, é satisfeita, ou se a condição secundária, mostrada na Equação 16, não é satisfeita. Aqui, a determinação da condição secundária, mostrada na Equação 16, pode ser opcional.
[00086] Numa operação 710, se for determinado na operação 709 que o índice stateSM é 0, ou seja, o sinal de áudio não inclui uma característica de música forte, o modo de codificação por excitação do domínio de tempo pode ser determinado como o modo de codificação final. Nesse caso, o modo de codificação do domínio de previsão linear, que é o modo de codificação inicial, é comutado para o modo de codificação por excitação do domínio de tempo, como o modo de codificação final. De acordo com uma forma de realização exemplar, pode ser considerado que o modo de codificação inicial foi mantido sem alterações, se o modo de codificação do domínio de previsão linear corresponder ao modo de codificação por excitação do domínio de tempo.
[00087] Numa operação 707, se for determinado na operação 709 que o índice stateSM é 1, ou seja, o sinal de áudio inclui uma característica de música forte, o modo de codificação por excitação do domínio de frequência pode ser determinado como o modo de codificação final. Nesse caso, o modo de codificação do domínio de previsão linear, que é o modo de codificação inicial, é corrigido para o modo de codificação por excitação do domínio de frequência, que é o modo de codificação final.
[00088] Ao realizar as operações 700 e 709, um erro na determinação do modo de codificação inicial pode ser corrigido. Em detalhes, o modo de codificação do domínio de previsão linear (por exemplo, o modo de codificação do domínio de tempo), que é o modo de codificação inicial, pode ser mantido ou comutado para o modo de codificação por excitação do domínio de frequência, como o modo de codificação final.
[00089] De acordo com uma forma de realização exemplar, a operação 709, para determinar se o sinal de áudio inclui uma característica de música forte para corrigir um erro na determinação do modo de codificação do domínio de previsão linear, pode ser opcional.
[00090] De acordo com outra forma de realização exemplar, uma sequência para executar a operação 705, para determinar se o sinal de áudio inclui uma característica de fala forte, e a operação 701, para determinar se o modo de codificação por excitação do domínio de frequência é apropriado, pode ser revertida. Em outras palavras, após a operação 700, a operação 705 pode ser primeiramente executada, e, em seguida, a operação 701 pode ser executada. Nesse caso, parâmetros usados para as determinações podem ser alterados, conforme a necessidade.
[00091] A Fig. 8 é um diagrama de blocos, ilustrando uma configuração de um aparelho para decodificar áudio 800, de acordo com uma forma de realização exemplar.
[00092] O aparelho para decodificar áudio 800, mostrado na Fig. 8, pode incluir uma unidade para análise de fluxo de bits 810, uma unidade de decodificação do domínio espectral 820, uma unidade de decodificação do domínio de previsão linear 830 e uma unidade de comutação 840. A unidade de decodificação do domínio de previsão linear 830 pode incluir uma unidade de decodificação por excitação do domínio de tempo 831 e uma unidade de decodificação por excitação do domínio de frequência 833, onde a unidade de decodificação do domínio de previsão linear 830 pode ser incorporada a, pelo menos, uma dentre a unidade de decodificação por excitação do domínio de tempo 831 e a unidade de decodificação por excitação do domínio de frequência 833. A menos que seja necessário ser incorporados a um hardware separado, os componentes acima indicados podem ser integrados a, pelo menos, um módulo, e podem ser implementados como, pelo menos, um processador (não mostrado).
[00093] Com referência à Fig. 8, a unidade para análise de fluxo de bits 810 pode analisar um fluxo de bits recebido e informações separadas em um modo de codificação e dados codificados. O modo de codificação pode corresponder a qualquer modo de codificação inicial obtido pela determinação de um dentre uma pluralidade de modos de codificação, incluindo um primeiro modo de codificação e um segundo modo de codificação, em correspondência com as características de um sinal de áudio, ou um terceiro modo de codificação corrigido a partir do modo de codificação inicial, se houver um erro na determinação do modo de codificação inicial.
[00094] A unidade de decodificação do domínio espectral 820 pode decodificar dados codificados no domínio espectral, a partir dos dados codificados separados.
[00095] A unidade de decodificação do domínio de previsão linear 830 pode decodificar dados codificados no domínio de previsão linear, a partir dos dados codificados separados. Se a unidade de decodificação do domínio de previsão linear 830 incluir a unidade de decodificação por excitação do domínio de tempo 831 e a unidade de decodificação por excitação do domínio de frequência 833, a unidade de decodificação do domínio de previsão linear 830 pode executar a decodificação por excitação do domínio de tempo ou a decodificação por excitação do domínio de frequência, no que diz respeito aos dados codificados separados.
[00096] A unidade de comutação 840 pode comutar qualquer sinal reconstruído pela unidade de decodificação do domínio espectral 820 ou um sinal reconstruído pela unidade de decodificação do domínio de previsão linear 830, e pode fornecer o sinal comutado como um sinal reconstruído final.
[00097] A Fig. 9 é um diagrama de blocos, ilustrando uma configuração de um aparelho para decodificação de áudio 900, de acordo com outra forma de realização exemplar.
[00098] O aparelho para decodificar áudio 900 pode incluir uma unidade para análise de fluxo de bits 910, uma unidade de decodificação do domínio espectral 920, uma unidade de decodificação do domínio de previsão linear 930, uma unidade de comutação 940 e um módulo de pós-processamento comum 950. A unidade de decodificação do domínio de previsão linear 930 pode incluir uma unidade de decodificação por excitação do domínio de tempo 931 e unidade de decodificação por excitação do domínio de frequência 933, onde a unidade de decodificação do domínio de previsão linear 930 pode ser incorporada a, pelo menos, uma dentre a unidade de decodificação por excitação do domínio de tempo 931 e a unidade de decodificação por excitação do domínio de frequência 933. A menos que seja necessário ser incorporados a um hardware separado, os componentes acima indicados podem ser integrados a, pelo menos, um módulo, e podem ser implementados como, pelo menos, um processador (não mostrado). Em comparação com o aparelho para decodificar áudio 800, mostrado na Fig. 8, o aparelho para decodificar áudio 900 pode ainda incluir o módulo de pós-processamento comum 950, e, portanto, descrições de componentes idênticos àqueles do aparelho para decodificar áudio 800 serão omitidas.
[00099] Com referência à Fig. 9, o módulo de pós- processamento comum 950 pode executar processamento estéreo conjunto, processamento surround, e/ou processamento de extensão de largura de banda, em correspondência com um módulo de pré-processamento comum (205 da Fig. 2).
[000100] Os métodos, de acordo com as formas de realização exemplares, podem ser escritos como programas executáveis por computador e podem ser implementados em computadores digitais de uso geral, que executam os programas usando uma mídia de gravação permanente, legível por computador. Além disso, estruturas de dados, instruções de programa ou arquivos de dados, que podem ser usados nas formas de realização, podem ser gravados, de várias maneiras, em uma mídia de gravação permanente, legível por computador. A mídia de gravação permanente legível por computador é qualquer dispositivo de armazenamento de dados, que pode armazenar dados, que podem ser lidos posteriormente por um sistema de computador. Exemplos de mídia de gravação permanente, legível por computador, incluem mídia de armazenamento magnético, tais como discos rígidos, disquetes, e fitas magnéticas, mídias de gravação óptica, tais como CD-ROMs e DVDs, mídias magneto-ópticas, tais como discos ópticos, e dispositivos de hardware, tais como ROM, RAM e memória flash, especialmente configurados para armazenar e executar instruções de programa. Além disso, a mídia de gravação permanente legível por computador pode ser uma mídia de transmissão, para transmitir instruções de programa pela designação de sinal, estruturas de dados ou semelhantes. Exemplos das instruções de programa podem incluir, não apenas códigos de linguagem mecânica, criados por um compilador, mas também códigos de linguagem de alto nível, executáveis por um computador usando um interpretador ou semelhante.
[000101] Embora formas de realização exemplares tenham sido particularmente mostradas e descritas acima, deve ser entendido pelas pessoas versadas na técnica, que várias alterações na forma e detalhes podem ser feitas, sem se afastar do espírito e escopo do conceito inventivo, como definido pelas reivindicações acrescentadas. As formas de realização exemplares devem ser consideradas apenas em sentido descritivo e não para fins de limitação. Portanto, o escopo do conceito inventivo é definido, não pela descrição detalhada das formas de realização exemplares, mas pelas reivindicações acrescentadas, e todas as diferenças dentro do escopo serão interpretadas como sendo incluídas no presente conceito inventivo.

Claims (3)

1. MÉTODO DE CODIFICAÇÃO DE UM SINAL DE ÁUDIO, o método caracterizado pelo fato de que compreende:determinar uma classe de um quadro atual no sinal de áudio de entre uma pluralidade de classes, incluindo uma classe de música e uma classe de fala, com base nas características do sinal;obter parâmetros característicos incluindo uma tonalidade e um erro de predição linear, com base em uma pluralidade de quadros incluindo o quadro atual;determinar se um erro ocorre na determinada classe do quadro atual, com base nos parâmetros do recurso;quando o erro ocorre na determinada classe do quadro atual e a determinada classe do quadro atual é a classe de música, corrigir a determinada classe do quadro atual para a classe de fala; equando o erro ocorre na determinada classe do quadro atual e a determinada classe do quadro atual é a classe de fala, corrigindo a determinada classe do quadro atual para a classe de música.
2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que os parâmetros característicos compreendem ainda uma diferença entre um parâmetro de vocalização e um parâmetro de correlação.
3. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a correção é realizada com base em pelo menos dois estados independentes.
BR112015010954-3A 2012-11-13 2013-11-13 Método de codificação de um sinal de áudio. BR112015010954B1 (pt)

Priority Applications (2)

Application Number Priority Date Filing Date Title
BR122020023793-7A BR122020023793B1 (pt) 2012-11-13 2013-11-13 Método de codificação de um sinal de áudio
BR122020023798-8A BR122020023798B1 (pt) 2012-11-13 2013-11-13 Método de codificação de um sinal de áudio

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US61/725,694 2012-11-13

Publications (1)

Publication Number Publication Date
BR112015010954B1 true BR112015010954B1 (pt) 2021-11-09

Family

ID=

Similar Documents

Publication Publication Date Title
AU2017206243B2 (en) Method and apparatus for determining encoding mode, method and apparatus for encoding audio signals, and method and apparatus for decoding audio signals
RU2641461C2 (ru) Аудиокодер, аудиодекодер, способ обеспечения кодированной аудиоинформации, способ обеспечения декодированной аудиоинформации, компьютерная программа и кодированное представление с использованием сигнально-адаптивного расширения полосы пропускания
BR112015007649B1 (pt) Codificador, decodificador e métodos para adaptação dinâmica compatível regressiva de resolução de tempo/frequência na codificação do objeto de áudio espacial
BR122022012519B1 (pt) Codificador e decodificador de áudio utilizando um processador de domínio de frequência com preenchimento de lacuna de banda total e um processador de domínio de tempo
ES2703327T3 (es) Codificador, decodificador y métodos para codificación espacial de objetos de audio de multirresolución retrocompatible
BRPI0507207B1 (pt) equipamento e método para o processamento de um sinal multicanais
BR112015005980B1 (pt) Método para codificar sinais e codificador de áudio
BR112015010954B1 (pt) Método de codificação de um sinal de áudio.
BR122020023793B1 (pt) Método de codificação de um sinal de áudio
BR122022012597B1 (pt) Codificador e decodificador de áudio utilizando um processador de domínio de frequência com preenchimento de lacuna de banda total e um processador de domínio de tempo