BR122020023798B1 - Method of encoding an audio signal - Google Patents

Method of encoding an audio signal Download PDF

Info

Publication number
BR122020023798B1
BR122020023798B1 BR122020023798-8A BR122020023798A BR122020023798B1 BR 122020023798 B1 BR122020023798 B1 BR 122020023798B1 BR 122020023798 A BR122020023798 A BR 122020023798A BR 122020023798 B1 BR122020023798 B1 BR 122020023798B1
Authority
BR
Brazil
Prior art keywords
encoding mode
encoding
current frame
unit
audio signal
Prior art date
Application number
BR122020023798-8A
Other languages
Portuguese (pt)
Inventor
Ki-hyun Choo
Anton Victorovich Porov
Konstantin Sergeevich Osipov
Nam-Suk Lee
Original Assignee
Samsung Electronics Co., Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co., Ltd filed Critical Samsung Electronics Co., Ltd
Priority claimed from BR112015010954-3A external-priority patent/BR112015010954B1/en
Priority claimed from PCT/KR2013/010310 external-priority patent/WO2014077591A1/en
Publication of BR122020023798B1 publication Critical patent/BR122020023798B1/en

Links

Images

Abstract

São fornecidos um método e um aparelho para determinar um modo de codificação, para melhorar a qualidade do sinal de áudio reconstruído. Um método para determinar um modo de codificação inclui determinar um dentre uma pluralidade de modos de codificação, incluindo um primeiro modo de codificação e um segundo modo de codificação, como um modo de codificação inicial em correspondência com as características de um sinal de áudio, e se houver um erro na determinação do modo de codificação inicial, gerar um modo de codificação corrigido, corrigindo o modo de codificação inicial para um terceiro modo de codificação.A method and apparatus are provided for determining an encoding mode to improve the quality of the reconstructed audio signal. A method of determining an encoding mode includes determining one of a plurality of encoding modes, including a first encoding mode and a second encoding mode, as an initial encoding mode in correspondence with the characteristics of an audio signal, and if there is an error in determining the initial encoding mode, generate a corrected encoding mode by correcting the initial encoding mode to a third encoding mode.

Description

ÁREA TÉCNICATECHNICAL AREA

[0001] Aparelhos e métodos compatíveis com formas de realização exemplares se referem à codificação e decodificação de áudio e, mais particularmente, a um método e um aparelho para determinar um modo de codificação para melhorar a qualidade de um sinal de áudio reconstruído, determinando um modo de codificação adequado às características de um sinal de áudio e impedindo a frequente comutação de modo de codificação, a um método e um aparelho para codificar um sinal de áudio, e a um método e um aparelho para decodificar um sinal de áudio.[0001] Apparatus and methods compatible with exemplary embodiments relate to audio encoding and decoding, and more particularly to a method and apparatus for determining an encoding mode to improve the quality of a reconstructed audio signal by determining a encoding mode suited to the characteristics of an audio signal and preventing frequent switching of encoding mode, a method and apparatus for encoding an audio signal, and a method and apparatus for decoding an audio signal.

FUNDAMENTOS DA TÉCNICAFUNDAMENTALS OF THE TECHNIQUE

[0002] Sabe-se, amplamente, que é eficiente codificar um sinal de música do domínio de frequência, e é eficiente codificar um sinal de fala do domínio de tempo. Portanto, várias técnicas têm sido sugeridas para determinar a classe de um sinal de áudio, em que o sinal de música e o sinal de fala são misturados, e determinar um modo de codificação em correspondência com a classe determinada.[0002] It is widely known that it is efficient to encode a frequency domain music signal, and it is efficient to encode a time domain speech signal. Therefore, several techniques have been suggested to determine the class of an audio signal, in which the music signal and the speech signal are mixed, and to determine an encoding mode in correspondence with the given class.

[0003] No entanto, devido à frequente comutação de modo de codificação, não apenas ocorrem atrasos, mas também a qualidade de som decodificado é deteriorada. Além disso, uma vez que não existe técnica para corrigir um modo de codificação primeiramente determinado, ou seja, classe, se ocorrer um erro durante a determinação de um modo de codificação, a qualidade de um sinal de áudio reconstruído é deteriorada.[0003] However, due to frequent switching of encoding mode, not only delays occur, but also the decoded sound quality deteriorates. Furthermore, since there is no technique to correct a first determined encoding mode, i.e. class, if an error occurs while determining an encoding mode, the quality of a reconstructed audio signal is deteriorated.

DIVULGAÇÃO PROBLEMA TÉCNICOTECHNICAL PROBLEM DISCLOSURE

[0004] Aspectos de uma ou mais formas de realização exemplares fornecem um método e um aparelho para determinar um modo de codificação para melhorar a qualidade de um sinal de áudio reconstruído, determinando um modo de codificação adequado às características de um sinal de áudio, um método e um aparelho para codificar um sinal de áudio, e um método e um aparelho para decodificar um sinal de áudio.[0004] Aspects of one or more exemplary embodiments provide a method and apparatus for determining an encoding mode to improve the quality of a reconstructed audio signal by determining an encoding mode suited to the characteristics of an audio signal, a method and apparatus for encoding an audio signal, and a method and apparatus for decoding an audio signal.

[0005] Aspectos de uma ou mais formas de realização exemplares fornecem um método e um aparelho para determinar um modo de codificação adequado às características de um sinal de áudio, e reduzir atrasos devido à frequente comutação de modo de codificação, um método e um aparelho para codificar um sinal de áudio, e um método e um aparelho para decodificar um sinal de áudio.[0005] Aspects of one or more exemplary embodiments provide a method and apparatus for determining an encoding mode suited to the characteristics of an audio signal, and reducing delays due to frequent encoding mode switching, a method and apparatus for encoding an audio signal, and a method and apparatus for decoding an audio signal.

SOLUÇÃO TÉCNICATECHNICAL SOLUTION

[0006] De acordo com um aspecto de uma ou mais formas de realização exemplares, existe um método para determinar um modo de codificação, o método incluindo determinar um dentre uma pluralidade de modos de codificação, incluindo um primeiro modo de codificação e um segundo modo de codificação, como um modo de codificação inicial, em correspondência com as características de um sinal de áudio, e, se houver um erro na determinação do modo de codificação inicial, gerar um modo de codificação corrigido, corrigindo o modo de codificação inicial para um terceiro modo de codificação.[0006] According to one aspect of one or more exemplary embodiments, there is a method for determining an encoding mode, the method including determining one of a plurality of encoding modes, including a first encoding mode and a second encoding mode. encoding mode, as an initial encoding mode, in correspondence with the characteristics of an audio signal, and, if there is an error in determining the initial encoding mode, generate a corrected encoding mode by correcting the initial encoding mode to a third encoding mode.

[0007] De acordo com um aspecto de um ou mais formas de realização exemplares, existe um método para codificar um sinal de áudio, o método incluindo determinar um dentre uma pluralidade de modos de codificação, incluindo um primeiro modo de codificação e um segundo modo de codificação como um modo de codificação inicial, em correspondência com as características de um sinal de áudio, se houver um erro na determinação do modo de codificação inicial, gerar um modo de codificação corrigido, corrigindo o modo de codificação inicial para um terceiro modo de codificação, e realizar diferentes processos de codificação no sinal de áudio, com base no modo de codificação inicial ou no modo de codificação corrigido.[0007] According to one aspect of one or more exemplary embodiments, there is a method for encoding an audio signal, the method including determining one of a plurality of encoding modes, including a first encoding mode and a second encoding mode. encoding mode as an initial encoding mode, in correspondence with the characteristics of an audio signal, if there is an error in determining the initial encoding mode, generate a corrected encoding mode, correcting the initial encoding mode to a third encoding mode encoding, and performing different encoding processes on the audio signal, based on the initial encoding mode or corrected encoding mode.

[0008] De acordo com um aspecto de uma ou mais formas de realização exemplares, existe um método para decodificar um sinal de áudio, o método incluindo a análise de um fluxo de bits, compreendendo um de um modo de codificação inicial obtido pela determinação de um dentre uma pluralidade de modos de codificação, incluindo um primeiro modo de codificação e um segundo modo de codificação, em correspondência com as características de um sinal de áudio, e um terceiro modo de codificação corrigido, a partir do modo de codificação inicial, se houver um erro na determinação do modo de codificação inicial, e realizar diferentes processos de decodificação no fluxo de bits, com base no terceiro modo de codificação ou no modo de codificação inicial.[0008] According to one aspect of one or more exemplary embodiments, there is a method for decoding an audio signal, the method including analyzing a bit stream, comprising one of an initial encoding mode obtained by determining one of a plurality of encoding modes, including a first encoding mode and a second encoding mode, in correspondence with the characteristics of an audio signal, and a third encoding mode corrected from the initial encoding mode, if there is an error in determining the initial encoding mode, and performing different decoding processes on the bit stream, based on the third encoding mode or the initial encoding mode.

EFEITOS VANTAJOSOSADVANTAGEOUS EFFECTS

[0009] De acordo com formas de realização exemplares, determinando o modo de codificação final de um fotograma atual, com base na correção do modo de codificação inicial, e modos de codificação de fotogramas correspondentes a um comprimento em excesso, um modo de codificação adaptável às características de um sinal de áudio pode ser selecionado, evitando a frequente comutação de modo de codificação entre fotogramas.[0009] According to exemplary embodiments, determining the final encoding mode of a current frame, based on the initial encoding mode correction, and encoding modes of frames corresponding to an excess length, an adaptive encoding mode characteristics of an audio signal can be selected, avoiding frequent encoding mode switching between frames.

DESCRIÇÃO DOS DESENHOSDESCRIPTION OF DRAWINGS

[00010] A Fig. 1 é um diagrama de blocos, ilustrando uma configuração de um aparelho para codificar áudio, de acordo com uma forma de realização exemplar; a Fig. 2 é um diagrama de blocos, ilustrando uma configuração de um aparelho para codificar áudio, de acordo com outra forma de realização exemplar; a Fig. 3 é um diagrama de blocos, ilustrando uma configuração de uma unidade determinadora de modo de codificação, de acordo com uma forma de realização exemplar; a Fig. 4 é um diagrama de blocos, ilustrando uma configuração de uma unidade determinadora de modo de codificação inicial, de acordo com uma forma de realização exemplar; a Fig. 5 é um diagrama de blocos, ilustrando uma configuração de uma unidade para extrair parâmetros característicos, de acordo com uma forma de realização exemplar; a Fig. 6 é um diagrama, ilustrando um método de comutação adaptativa entre uma codificação do domínio de previsão linear e uma de um domínio espectral, de acordo com uma forma de realização exemplar; a Fig. 7 é um diagrama, ilustrando uma operação de uma unidade para correção de modo de codificação, de acordo com uma forma de realização exemplar; a Fig. 8 é um diagrama de blocos, ilustrando uma configuração de um aparelho para decodificar áudio, de acordo com uma forma de realização exemplar; e a Fig. 9 é um diagrama de blocos, ilustrando uma configuração de um aparelho para decodificar áudio, de acordo com outra forma de realização exemplar.[00010] Fig. 1 is a block diagram illustrating a configuration of an apparatus for encoding audio, according to an exemplary embodiment; the Fig. 2 is a block diagram illustrating a configuration of an apparatus for encoding audio according to another exemplary embodiment; the Fig. 3 is a block diagram illustrating a configuration of an encoding mode determining unit in accordance with an exemplary embodiment; the Fig. 4 is a block diagram illustrating a configuration of an initial encoding mode determining unit according to an exemplary embodiment; the Fig. 5 is a block diagram illustrating a configuration of a unit for extracting characteristic parameters, according to an exemplary embodiment; the Fig. 6 is a diagram illustrating a method of adaptive switching between an encoding of the linear prediction domain and one of a spectral domain, according to an exemplary embodiment; the Fig. 7 is a diagram illustrating an operation of an encoding mode correction unit according to an exemplary embodiment; the Fig. 8 is a block diagram illustrating a configuration of an apparatus for decoding audio, according to an exemplary embodiment; and Fig. 9 is a block diagram illustrating a configuration of an apparatus for decoding audio, according to another exemplary embodiment.

MODO PARA INVENÇÃOMODE FOR INVENTION

[00011] Referência será feita agora, em detalhes, às formas de realização, cujos exemplos são ilustrados nos desenhos anexos, em que números de referência similares se referem a elementos similares ao longo do documento. Nesse sentido, as presentes formas de realização podem ter diferentes formas e não devem ser interpretadas como sendo limitadas às descrições aqui apresentadas. Nesse sentido, as formas de realização abaixo são apenas descritas, referindo-se às figuras, para explicar aspectos da presente descrição.[00011] Reference will now be made in detail to the embodiments, examples of which are illustrated in the accompanying drawings, in which similar reference numerals refer to similar elements throughout the document. In that sense, the present embodiments may have different forms and should not be interpreted as being limited to the descriptions presented herein. In that sense, the embodiments below are only described, referring to the figures, to explain aspects of the present description.

[00012] Termos, como "conectado" e "ligado", podem ser usados para indicar um estado diretamente conectado ou ligado, mas deve ficar claro que outro componente pode ser interposto entre eles.[00012] Terms such as "connected" and "connected" can be used to indicate a directly connected or connected state, but it should be clear that another component may be interposed between them.

[00013] Termos, como "primeiro" e "segundo", podem ser usados para descrever vários componentes, mas os componentes não devem ser limitados aos termos. Os termos podem ser utilizados apenas para distinguir um componente de outro componente.[00013] Terms such as "first" and "second" can be used to describe various components, but components should not be limited to terms. The terms can only be used to distinguish one component from another component.

[00014] As unidades descritas em formas de realização exemplares são ilustradas, de forma independente, para indicar diferentes funções características, e isso não significa que cada unidade é formada por um componente de hardware ou software separado. Cada unidade é ilustrada para conveniência de explicação, e uma pluralidade de unidades pode formar uma unidade, e uma unidade pode ser dividida em uma pluralidade de unidades.[00014] The units described in exemplary embodiments are illustrated independently to indicate different characteristic functions, and this does not mean that each unit is formed by a separate hardware or software component. Each unit is illustrated for convenience of explanation, and a plurality of units may form a unit, and a unit may be divided into a plurality of units.

[00015] A Fig. 1 é um diagrama de blocos, ilustrando uma configuração de um aparelho para codificar áudio 100, de acordo com uma forma de realização exemplar.[00015] Fig. 1 is a block diagram illustrating a configuration of an apparatus for encoding audio 100, in accordance with an exemplary embodiment.

[00016] O aparelho para codificar áudio 100, mostrado na Fig. 1, pode incluir uma unidade determinadora de modo de codificação 110, uma unidade de comutação 120, unidade de modo de codificação do domínio espectral 130, unidade de codificação do domínio de previsão linear 140 e uma unidade geradora de fluxo de bits 150. A unidade de codificação do domínio de previsão linear 140 pode incluir uma unidade de codificação por excitação do domínio de tempo 141 e uma unidade de codificação por excitação do domínio de frequência 143, onde a unidade de codificação do domínio de previsão linear 140 pode ser incorporada a, pelo menos, uma das duas unidades de codificação por excitação 141 e 143. A menos que seja necessário que elas sejam incorporadas a um hardware separado, os componentes acima indicados podem ser integrados a, pelo menos, um módulo, e podem ser implementados como, pelo menos, um processador (não mostrado). Aqui, o termo de um sinal de áudio pode se referir a um sinal de música, um sinal de fala ou uma mistura desses sinais.[00016] The audio encoding apparatus 100, shown in Fig. 1, may include an encoding mode determining unit 110, a switching unit 120, spectral domain encoding mode unit 130, linear prediction domain encoding unit 140, and a bit stream generating unit 150. prediction domain encoding unit 140 may include a time domain excitation encoding unit 141 and a frequency domain excitation encoding unit 143, wherein the linear prediction domain encoding unit 140 may be incorporated into, at least one of the two excitation coding units 141 and 143. Unless it is required that they be incorporated into separate hardware, the above components may be integrated into at least one module, and may be implemented as, at least one processor (not shown). Here, the term of an audio signal can refer to a music signal, a speech signal, or a mixture of these signals.

[00017] Com referência à Fig. 1, a unidade determinadora de modo de codificação 110 pode analisar características de um sinal de áudio para determinar a classe do sinal de áudio, e determinar um modo de codificação correspondente a um resultado da classificação. A determinação do modo de codificação pode ser realizada em unidades de super-fotogramas, fotogramas ou bandas. Como alternativa, a determinação do modo de codificação pode ser realizada em unidades de uma pluralidade de grupos de super-fotogramas, uma pluralidade de grupos de fotogramas ou uma pluralidade de grupos de banda. Aqui, exemplos dos modos de codificação podem incluir um domínio espectral e um domínio de tempo ou um domínio de previsão linear, mas não são limitados aos mesmos. Se a velocidade de processamento e desempenho de um processador for suficiente, e atrasos, devido à comutação de modo de codificação, puderem ser resolvidos, modos de codificação podem ser subdivididos, e esquemas de codificação também podem ser subdivididos em correspondência ao modo de codificação. De acordo com uma forma de realização exemplar, a unidade determinadora de modo de codificação 110 pode determinar um modo de codificação inicial de um sinal de áudio como um de um modo de codificação do domínio espectral e um modo de codificação do domínio de tempo. De acordo com outra forma de realização exemplar, a unidade determinadora de modo de codificação 110 pode determinar um modo de codificação inicial de um sinal de áudio como um de um modo de codificação do domínio espectral, um modo de codificação por excitação do domínio de tempo e um modo de codificação por excitação do domínio de frequência. Se o modo de codificação do domínio espectral for determinado como o modo de codificação inicial, a unidade determinadora de modo de codificação 110 pode corrigir o modo de codificação inicial para um dentre o modo de codificação do domínio espectral e o modo de codificação por excitação do domínio de frequência. Se o modo de codificação do domínio de tempo, ou seja, o modo de codificação por excitação do domínio de tempo for determinado como o modo de codificação inicial, a unidade determinadora de modo de codificação 110 pode corrigir o modo de codificação inicial para um dentre o modo de codificação por excitação do domínio de tempo e o modo de codificação por excitação do domínio de frequência. Se modo de codificação por excitação do domínio de tempo for determinado como o modo de codificação inicial, a determinação do modo de codificação final pode ser realizada de forma seletiva. Em outras palavras, o modo de codificação inicial, ou seja, o modo de codificação por excitação do domínio de tempo pode ser mantido. A unidade determinadora de modo de codificação 110 pode determinar modos de codificação de uma pluralidade de fotogramas, correspondentes a um comprimento em excesso, e pode determinar o modo de codificação final para um fotograma atual. De acordo com uma forma de realização exemplar, se o modo de codificação inicial ou um modo de codificação corrigido de um fotograma atual for idêntico aos modos de codificação de uma pluralidade de fotogramas anteriores, por exemplo, 7 fotogramas anteriores, o modo de codificação inicial correspondente ou modo de codificação corrigido pode ser determinado como o modo de codificação final do fotograma atual. Por sua vez, se o modo de codificação inicial ou um modo de codificação corrigido de um fotograma atual não for idêntico aos modos de codificação de uma pluralidade de fotogramas anteriores, por exemplo, 7 fotogramas anteriores, a unidade determinadora de modo de codificação 110 pode determinar o modo de codificação do fotograma imediatamente antes do fotograma atual, como o modo de codificação final do fotograma atual.[00017] With reference to Fig. 1, the encoding mode determining unit 110 can analyze characteristics of an audio signal to determine the class of the audio signal, and determine an encoding mode corresponding to a classification result. Determining the encoding mode can be performed in units of superframes, frames or bands. Alternatively, the determination of the encoding mode may be performed in units of a plurality of groups of superframes, a plurality of groups of frames, or a plurality of band groups. Here, examples of encoding modes may include a spectral domain and a time domain or a linear prediction domain, but are not limited to them. If the processing speed and performance of a processor is sufficient, and delays, due to encoding mode switching, can be resolved, encoding modes can be subdivided, and encoding schemes can also be subdivided in correspondence to the encoding mode. According to an exemplary embodiment, the encoding mode determining unit 110 may determine an initial encoding mode of an audio signal as one of a spectral domain encoding mode and a time domain encoding mode. According to another exemplary embodiment, the encoding mode determining unit 110 may determine an initial encoding mode of an audio signal as one of a spectral domain encoding mode, a time domain excitation encoding mode and a frequency domain excitation encoding mode. If the spectral domain encoding mode is determined as the initial encoding mode, the encoding mode determining unit 110 may correct the initial encoding mode to one of the spectral domain encoding mode and the excitation encoding mode of the spectral domain. frequency domain. If the time domain encoding mode, i.e., the time domain excitation encoding mode, is determined as the initial encoding mode, the encoding mode determining unit 110 may correct the initial encoding mode to one of the time domain excitation encoding mode and the frequency domain excitation encoding mode. If time domain excitation coding mode is determined as the initial coding mode, the determination of the final coding mode can be performed selectively. In other words, the initial encoding mode, that is, the time domain excitation encoding mode, can be maintained. The encoding mode determining unit 110 may determine encoding modes of a plurality of frames corresponding to an excess length and may determine the final encoding mode for a current frame. According to an exemplary embodiment, if the initial encoding mode or a corrected encoding mode of a current frame is identical to the encoding modes of a plurality of previous frames, e.g. 7 previous frames, the initial encoding mode corresponding or corrected encoding mode can be determined as the final encoding mode of the current frame. In turn, if the initial encoding mode or a corrected encoding mode of a current frame is not identical to the encoding modes of a plurality of previous frames, e.g. 7 previous frames, the encoding mode determining unit 110 may determine the encoding mode of the frame immediately before the current frame, as the final encoding mode of the current frame.

[00018] Conforme descrito acima, determinando o modo de codificação final de um fotograma atual, com base na correção do modo de codificação inicial e nos modos de codificação de fotogramas correspondente a um comprimento em excesso, um modo de codificação adaptável às características de um sinal de áudio pode ser selecionado, evitando a frequente comutação do modo de codificação entre os fotogramas.[00018] As described above, determining the final encoding mode of a current frame, based on the correction of the initial encoding mode and the encoding modes of frames corresponding to an excess length, an encoding mode adaptable to the characteristics of a audio signal can be selected, avoiding frequent switching of encoding mode between frames.

[00019] Em geral, a codificação do domínio de tempo, ou seja, a codificação por excitação do domínio de tempo, pode ser eficiente para um sinal de fala, a codificação do domínio espectral pode ser eficiente para um sinal de música, e a codificação por excitação do domínio de frequência pode ser eficiente para um sinal vocal e/ou harmônico.[00019] In general, time domain coding, i.e. time domain excitation coding, can be efficient for a speech signal, spectral domain coding can be efficient for a music signal, and Frequency domain excitation coding can be efficient for a vocal and/or harmonic signal.

[00020] Em correspondência a um modo de codificação determinado através da unidade determinadora de modo de codificação 110, a unidade de comutação 120 pode fornecer um sinal de áudio para a unidade de codificação do domínio espectral 130 ou para a unidade de codificação do domínio de previsão linear 140. Se a unidade de codificação do domínio de previsão linear 140 for incorporada como a unidade de codificação por excitação do domínio de tempo 141, a unidade de comutação 120 pode incluir um total de duas ramificações. Se a unidade de codificação do domínio de previsão linear 140 for incorporada como unidade de codificação por excitação do domínio de tempo 141 e como a unidade de codificação por excitação do domínio de frequência 143, a unidade de comutação 120 pode ter um total de 3 ramificações.[00020] Corresponding to an encoding mode determined by the encoding mode determining unit 110, the switching unit 120 may supply an audio signal to the spectral domain encoding unit 130 or to the spectral domain encoding unit 130. linear prediction 140. If the linear prediction domain encoding unit 140 is incorporated as the time domain excitation encoding unit 141, the switching unit 120 may include a total of two branches. If the linear prediction domain encoding unit 140 is incorporated as the time domain excitation encoding unit 141 and as the frequency domain excitation encoding unit 143, the switching unit 120 can have a total of 3 branches .

[00021] A unidade de codificação do domínio espectral 130 pode codificar um sinal de áudio no domínio espectral. O domínio espectral pode se referir ao domínio de frequência ou a um domínio de transformada. Exemplos de métodos de codificação, aplicáveis à unidade de codificação do domínio espectral 130, podem incluir uma codificação de áudio avançada (AAC), ou uma combinação de uma transformada discreta de cosseno modificada (MDCT) e uma codificação de pulso fatorial (FPC), mas não são limitados aos mesmos. Em detalhes, outras técnicas de quantização e técnicas de codificação por entropia podem ser utilizadas, em vez da FPC. Isso pode ser eficiente para codificar um sinal de música na unidade de codificação do domínio espectral 130.[00021] The spectral domain encoding unit 130 can encode an audio signal in the spectral domain. The spectral domain can refer to the frequency domain or a transform domain. Examples of encoding methods applicable to the spectral domain encoding unit 130 may include advanced audio encoding (AAC), or a combination of modified discrete cosine transform (MDCT) and factorial pulse encoding (FPC), but are not limited thereto. In detail, other quantization techniques and entropy encoding techniques can be used instead of FPC. This can be efficient to encode a music signal in the spectral domain encoding unit 130.

[00022] A unidade de codificação do domínio de previsão linear 140 pode codificar um sinal de áudio em um domínio de previsão linear. O domínio de previsão linear pode se referir a um domínio por excitação ou um domínio de tempo. A unidade de codificação do domínio de previsão linear 140 pode ser incorporada como a unidade de codificação por excitação do domínio de tempo 141 ou pode ser incorporada para incluir a unidade de codificação por excitação do domínio de tempo 141 e a unidade de codificação por excitação do domínio de frequência 143. Exemplos de métodos de codificação aplicáveis à unidade de codificação por excitação do domínio de tempo 141 podem incluir previsão linear excitada por código (CELP) ou uma CELP algébrica (ACELP), mas não são limitados às mesmas. Exemplos de métodos de codificação aplicáveis à unidade de codificação por excitação do domínio de frequência 143 podem incluir codificação de sinal genérico (GSC) ou transformação por excitação codificada (TCX), mas não são limitados às mesmas. Isso pode ser eficiente para codificar um sinal de fala na unidade de codificação por excitação do domínio de tempo 141, considerando que isso pode ser eficiente para codificar um sinal vocal e/ou harmônico na unidade de codificação por excitação do domínio de frequência 143.[00022] The linear prediction domain encoding unit 140 can encode an audio signal into a linear prediction domain. The linear prediction domain can refer to an excitation domain or a time domain. The linear prediction domain encoding unit 140 may be incorporated as the time domain excitation encoding unit 141 or may be incorporated to include the time domain excitation encoding unit 141 and the excitation encoding unit of the time domain. frequency domain 143. Examples of encoding methods applicable to the time domain excitation encoding unit 141 may include code-excited linear prediction (CELP) or an algebraic CELP (ACELP), but are not limited thereto. Examples of encoding methods applicable to the frequency domain excitation encoding unit 143 may include generic signal encoding (GSC) or excitation encoded transformation (TCX), but are not limited thereto. This may be efficient to encode a speech signal in the time domain excitation encoding unit 141, whereas it may be efficient to encode a vocal and/or harmonic signal in the frequency domain excitation encoding unit 143.

[00023] A unidade geradora de fluxo de bits 150 pode gerar um fluxo de bits para incluir o modo de codificação fornecido pela unidade determinadora de modo de codificação 110, um resultado da codificação fornecida pela unidade de codificação do domínio espectral 130, e um resultado de codificação fornecido pela unidade de codificação do domínio de previsão linear 140.[00023] The bit stream generating unit 150 may generate a bit stream to include the encoding mode provided by the encoding mode determining unit 110, a result of the encoding provided by the spectral domain encoding unit 130, and a result encoding provided by the linear prediction domain encoding unit 140.

[00024] A Fig. 2 é um diagrama de blocos, ilustrando uma configuração de um aparelho para codificar áudio 200, de acordo com outra forma de realização exemplar.[00024] Fig. 2 is a block diagram illustrating a configuration of an apparatus for encoding audio 200 according to another exemplary embodiment.

[00025] O aparelho para codificar áudio 200, mostrado na Fig. 2, pode incluir um módulo de pré-processamento comum 205, uma unidade determinadora de modo de codificação 210, uma unidade de comutação 220, unidade de modo de codificação do domínio espectral 230, uma unidade de codificação do domínio de previsão linear 240 e uma unidade geradora de fluxo de bits 250. Aqui, a unidade de codificação do domínio de previsão linear 240 pode incluir uma unidade de codificação por excitação do domínio de tempo 241 e uma unidade de codificação por excitação do domínio de frequência 243, e a unidade de codificação do domínio de previsão linear 240 pode ser incorporada como unidade de codificação por excitação do domínio de tempo 241 ou como unidade de codificação por excitação do domínio de frequência 143. Em comparação com o aparelho para codificar áudio, mostrado na Fig. 1, o aparelho para codificar áudio 200 também pode incluir o módulo de pré- processamento comum 205, e, portanto, descrições de componentes idênticos àqueles do aparelho para codificar áudio 100 serão omitidas.[00025] The audio encoding apparatus 200, shown in Fig. 2, may include a common preprocessing module 205, an encoding mode determining unit 210, a switching unit 220, spectral domain encoding mode unit 230, a linear prediction domain encoding unit 240, and a bitstream generating unit 250. Here, the linear prediction domain encoding unit 240 may include a time domain excitation encoding unit 241 and a frequency domain excitation encoding unit 243, and the linear prediction domain coding 240 can be incorporated as a time domain excitation coding unit 241 or as a frequency domain excitation coding unit 143. In comparison with the apparatus for encoding audio shown in Fig. 1 , audio encoding apparatus 200 may also include common preprocessing module 205, and therefore descriptions of components identical to those of audio encoding apparatus 100 will be omitted.

[00026] Com referência à Fig. 2, o módulo de pré- processamento comum 205 pode executar processamento estéreo conjunto, processamento surround, e/ou processamento de extensão de largura de banda. O processamento estéreo conjunto, o processamento de surround e o processamento de extensão de largura de banda podem ser idênticos àqueles utilizados por um padrão específico, por exemplo, o padrão MPEG, mas não são limitados aos mesmos. A saída do módulo de pré-processamento comum 205 pode ser em um canal mono, um canal estéreo ou multicanais. De acordo com o número de canais de um sinal emitido pelo módulo de pré-processamento comum 205, a unidade de comutação 220 pode incluir, pelo menos, um comutador. Por exemplo, se o módulo de pré-processamento comum 205 emitir um sinal de dois ou mais canais, ou seja, um canal estéreo ou um multicanal, comutadores, correspondentes aos respectivos canais, podem ser dispostos. Por exemplo, o primeiro canal de um sinal estéreo pode ser um canal de fala, e o segundo canal do sinal estéreo pode ser um canal de música. Nesse caso, um sinal de áudio pode ser fornecido, de forma simultânea, para os dois comutadores. Informações adicionais, geradas pelo módulo de pré-processamento comum 205, podem ser fornecidas à unidade geradora de fluxo de bits 250 e incluídas em um fluxo de bits. As informações adicionais podem ser necessárias para executar o processamento estéreo conjunto, o processamento surround e/ou o processamento de extensão de largura de banda em uma decodificação final, e podem incluir parâmetros espaciais, informações de envelope, informação de energia etc.. No entanto, podem existir várias informações adicionais, com base em técnicas de processamento aplicadas aos mesmos.[00026] With reference to Fig. 2 , the common preprocessing module 205 can perform joint stereo processing, surround processing, and/or bandwidth extension processing. Joint stereo processing, surround processing and bandwidth extension processing may be identical to those used by a specific standard, for example the MPEG standard, but are not limited thereto. The output of the common preprocessing module 205 can be a mono channel, a stereo channel, or multichannel. According to the number of channels of a signal emitted by the common preprocessing module 205, the switching unit 220 may include at least one switch. For example, if the common preprocessing module 205 outputs a signal of two or more channels, i.e., a stereo channel or a multichannel, switches, corresponding to the respective channels, can be arranged. For example, the first channel of a stereo signal could be a speech channel, and the second channel of the stereo signal could be a music channel. In this case, an audio signal can be provided to both switches simultaneously. Additional information generated by the common preprocessing module 205 may be provided to the bitstream generating unit 250 and included in a bitstream. Additional information may be needed to perform joint stereo processing, surround processing, and/or bandwidth extension processing in a final decoding, and may include spatial parameters, envelope information, power information, etc.. However , there may be a lot of additional information, based on processing techniques applied to them.

[00027] De acordo com uma forma de realização exemplar, no módulo de pré-processamento comum 205, o processamento de extensão de largura de banda pode ser executado, de maneira diferente, com base em domínios de codificação. O sinal de áudio em uma banda central pode ser processado usando o modo de codificação por excitação do domínio de tempo ou o modo de codificação por excitação do domínio de frequência, considerando que um sinal de áudio, em uma banda com largura de banda estendida, pode ser processado no domínio do tempo. O processamento de extensão de largura de banda no domínio de tempo pode incluir uma pluralidade de modos, incluindo um modo de voz ou um modo sem voz. Como alternativa, um sinal de áudio na banda central pode ser processado usando o modo de codificação do domínio espectral, considerando que um sinal de áudio, na banda com largura de banda estendida, pode ser processado no domínio da frequência. O processamento de extensão de largura de banda no domínio de frequência pode incluir uma pluralidade de modos, incluindo um modo transiente, um modo normal ou um modo harmônico. Para executar o processamento de extensão de largura de banda em diferentes domínios, um modo de codificação, determinado pela unidade determinadora de modo de codificação, pode ser fornecido para o módulo de pré-processamento comum 205 como uma informação de sinalização. De acordo com uma forma de realização exemplar, a última parte da banda central e a parte inicial da banda com largura de banda estendida podem se sobrepor, uma à outra, até certo ponto. Localização e tamanho das partes sobrepostas podem ser definidos com antecedência.[00027] According to an exemplary embodiment, in the common preprocessing module 205, bandwidth extension processing can be performed differently based on coding domains. The audio signal in a center band can be processed using either the time domain excitation coding mode or the frequency domain excitation coding mode, whereas an audio signal, in an extended bandwidth band, can be processed in the time domain. Bandwidth extension processing in the time domain may include a plurality of modes, including a speech mode or a speechless mode. Alternatively, an audio signal in the center band can be processed using the spectral domain encoding mode whereas an audio signal in the extended bandwidth band can be processed in the frequency domain. Bandwidth extension processing in the frequency domain may include a plurality of modes, including a transient mode, a normal mode, or a harmonic mode. To perform bandwidth extension processing in different domains, an encoding mode, determined by the encoding mode determining unit, may be provided to the common preprocessing module 205 as a signaling information. According to an exemplary embodiment, the last part of the central band and the initial part of the band with extended bandwidth can overlap each other to some extent. Location and size of overlapping parts can be defined in advance.

[00028] A Fig. 3 é um diagrama de blocos, ilustrando uma configuração de uma unidade determinadora de modo de codificação 300, de acordo com uma forma de realização exemplar.[00028] Fig. 3 is a block diagram illustrating a configuration of an encoding mode determining unit 300 in accordance with an exemplary embodiment.

[00029] A unidade determinadora de modo de codificação 300, mostrada na Fig. 3, pode incluir uma unidade determinadora de modo de codificação inicial 310 e uma unidade para correção de modo de codificação 330.[00029] The encoding mode determining unit 300, shown in Fig. 3, may include an initial coding mode determining unit 310 and a coding mode correction unit 330.

[00030] Com referência à Fig. 3, a unidade determinadora de modo de codificação inicial 310 pode determinar se um sinal de áudio é um sinal de música ou um sinal de fala, usando parâmetros característicos extraídos do sinal de áudio. Se o sinal de áudio for determinado como um sinal de fala, codificação do domínio de previsão linear pode ser adequada. Por sua vez, se o sinal de áudio for determinado como um sinal de música, codificação do domínio espectral pode ser adequada. A unidade determinadora de modo de codificação inicial 310 pode determinar a classe do sinal de áudio, indicando se a codificação do domínio espectral, a codificação por excitação do domínio de tempo ou a codificação por excitação do domínio de frequência são apropriadas para o sinal de áudio, usando parâmetros característicos extraídos do sinal de áudio. Um modo de codificação correspondente pode ser determinado, com base na classe do sinal de áudio. Se uma unidade de comutação (120 da Fig. 1) tiver duas ramificações, um modo de codificação pode ser expresso em 1 bit. Se a unidade de comutação (120 da Fig. 1) tiver três ramificações, um modo de codificação pode ser expresso em 2 bits. A unidade determinadora de modo de codificação inicial 310 pode determinar, se um sinal de áudio é um sinal de música ou um sinal de fala, usando qualquer uma das várias técnicas conhecidas na arte. Exemplos associados podem incluir classificação FD/LPD ou classificação ACELP/TCX, descritas em uma parte do codificador do padrão USAC e classificação ACELP/TCX, usados nos padrões AMR, mas não são limitados aos mesmos. Em outras palavras, o modo de codificação inicial pode ser determinado usando qualquer um dos vários métodos, diferentes do método de acordo com formas de realização descritas nesse documento.[00030] With reference to Fig. 3, the initial encoding mode determining unit 310 can determine whether an audio signal is a music signal or a speech signal using characteristic parameters extracted from the audio signal. If the audio signal is determined to be a speech signal, linear prediction domain encoding may be adequate. In turn, if the audio signal is determined to be a music signal, spectral domain encoding may be adequate. The initial encoding mode determining unit 310 can determine the class of the audio signal, indicating whether spectral domain encoding, time domain excitation encoding, or frequency domain excitation encoding are appropriate for the audio signal. , using characteristic parameters extracted from the audio signal. A corresponding encoding mode can be determined, based on the class of the audio signal. If a switching unit (120 of Fig. 1) has two branches, an encoding mode can be expressed in 1 bit. If the switching unit (120 of Fig. 1) has three branches, an encoding mode can be expressed in 2 bits. The initial coding mode determining unit 310 can determine whether an audio signal is a music signal or a speech signal using any of several techniques known in the art. Associated examples may include FD/LPD classification or ACELP/TCX classification, described in an encoder part of the USAC standard and ACELP/TCX classification, used in, but not limited to, AMR standards. In other words, the initial encoding mode can be determined using any of several methods, other than the method according to embodiments described in that document.

[00031] A unidade para correção de modo de codificação 330 pode determinar um modo de codificação corrigido, corrigindo o modo de codificação inicial determinado pela unidade determinadora de modo de codificação inicial 310, usando parâmetros de correção. De acordo com uma forma de realização exemplar, se o modo de codificação do domínio espectral for determinado como o modo de codificação inicial, o modo de codificação inicial pode ser corrigido para o modo de codificação por excitação do domínio de frequência, com base em parâmetros de correção. Se o modo de codificação do domínio de tempo for determinado como o modo de codificação inicial, o modo de codificação inicial pode ser corrigido para o modo de codificação por excitação do domínio de frequência, com base em parâmetros de correção. Em outras palavras, é determinado se há um erro na determinação do modo de codificação inicial, usando parâmetros de correção. Se for determinado que não há nenhum erro na determinação do modo de codificação inicial, o modo de codificação inicial pode ser mantido. De forma contrária, se for determinado que há um erro na determinação do modo de codificação inicial, o modo de codificação inicial pode ser corrigido. A correção do modo de codificação inicial pode ser obtida, do modo de codificação do domínio espectral para o modo de codificação por excitação de domínio de frequência, e do modo de codificação por excitação do domínio do tempo para o modo de codificação por excitação do domínio da frequência.[00031] The encoding mode correction unit 330 may determine a corrected encoding mode by correcting the initial encoding mode determined by the initial encoding mode determining unit 310 using correction parameters. According to an exemplary embodiment, if the spectral domain encoding mode is determined as the initial encoding mode, the initial encoding mode can be corrected to the frequency domain excitation encoding mode, based on parameters of correction. If the time domain encoding mode is determined as the initial encoding mode, the initial encoding mode can be corrected to the frequency domain excitation encoding mode based on correction parameters. In other words, it is determined whether there is an error in determining the initial encoding mode, using correction parameters. If it is determined that there is no error in determining the initial encoding mode, the initial encoding mode can be maintained. Conversely, if it is determined that there is an error in determining the initial encoding mode, the initial encoding mode can be corrected. Initial coding mode correction can be achieved, from spectral domain coding mode to frequency domain excitation coding mode, and from time domain excitation coding mode to domain excitation coding mode. of frequency.

[00032] Por sua vez, o modo de codificação inicial ou o modo de codificação corrigido pode ser um modo de codificação temporário para um fotograma atual, onde o modo de codificação temporário para o fotograma atual pode ser comparado a modos de codificação para fotogramas anteriores, dentro de um comprimento em excesso predefinido, e o modo de codificação final para o fotograma atual pode ser determinado.[00032] In turn, the initial encoding mode or the corrected encoding mode can be a temporary encoding mode for a current frame, where the temporary encoding mode for the current frame can be compared to encoding modes for previous frames , within a predefined excess length, and the final encoding mode for the current frame can be determined.

[00033] A Fig. 4 é um diagrama de blocos, ilustrando uma configuração de uma unidade determinadora de modo de codificação inicial 400, de acordo com uma forma de realização exemplar inicial.[00033] Fig. 4 is a block diagram illustrating a configuration of an initial encoding mode determining unit 400 in accordance with an initial exemplary embodiment.

[00034] A unidade determinadora de modo de codificação inicial 400, mostrada na Fig. 4, pode incluir uma unidade para extrair parâmetro característico 410 e uma unidade determinadora 430.[00034] The initial encoding mode determining unit 400, shown in Fig. 4, may include a characteristic parameter extracting unit 410 and a determining unit 430.

[00035] Com referência à Fig. 4, a unidade para extrair parâmetro característico 410 pode extrair parâmetros característicos necessários para determinar um modo de codificação, a partir de um sinal de áudio. Exemplos dos parâmetros característicos extraídos incluem, pelo menos, um ou dois dentre um parâmetro de pitch (frequência percebida), um parâmetro de vocalização, um parâmetro de correlação e um erro de previsão linear, mas não são limitados aos mesmos. Descrições detalhadas de parâmetros individuais serão dadas a seguir.[00035] With reference to Fig. 4, the characteristic parameter extracting unit 410 can extract characteristic parameters necessary to determine an encoding mode from an audio signal. Examples of the extracted characteristic parameters include, but are not limited to, at least one or two of a pitch (perceived frequency) parameter, a vocalization parameter, a correlation parameter, and a linear prediction error. Detailed descriptions of individual parameters will be given below.

[00036] Em primeiro lugar, um primeiro parâmetro característico F1 se refere a um parâmetro de pitch, onde um comportamento de pitch pode ser determinado usando valores de pitch N, detectados em um fotograma atual, e, pelo menos, um fotograma anterior. Para evitar um efeito de um desvio aleatório ou um valor de pitch errado, valores de pitch M, significativamente diferentes da média dos valores de pitch N, podem ser removidos. Aqui, N e M podem ser valores obtidos através de experimentos ou simulações prévias. Além disso, N pode ser definido com antecedência, e a diferença entre um valor de pitch a ser removido e a média dos valores de pitch N pode ser determinada através de experimentos ou simulações prévias. O primeiro parâmetro característico F1 pode ser expresso, como mostrado abaixo na Equação 1, usando a média mp' e a variante ap‘, no que diz respeito a valores de pitch (N - M). Equação 1

Figure img0001
[00036] First, a first characteristic parameter F1 refers to a pitch parameter, where a pitch behavior can be determined using pitch values N, detected in a current frame, and at least one previous frame. To avoid an effect of random drift or a wrong pitch value, M pitch values that are significantly different from the average of N pitch values can be removed. Here, N and M can be values obtained through experiments or previous simulations. Furthermore, N can be defined in advance, and the difference between a pitch value to be removed and the average of the pitch values N can be determined through experiments or previous simulations. The first characteristic parameter F1 can be expressed, as shown below in Equation 1, using the mean mp' and the variant ap', with respect to pitch values (N - M). Equation 1
Figure img0001

[00037] Um segundo parâmetro característico F2 também se refere a um parâmetro de pitch e pode indicar a confiabilidade de um valor de pitch detectado em um fotograma atual. O segundo parâmetro característico F2 pode ser expresso, como mostrado abaixo na Equação 2, usando variâncias oSF1 e oSF2 de valores de pitch, respectivamente, detectados em dois subfotogramas SF1 e SF2 de um fotograma atual. Equação 2

Figure img0002
[00037] A second characteristic parameter F2 also refers to a pitch parameter and can indicate the reliability of a pitch value detected in a current frame. The second characteristic parameter F2 can be expressed, as shown below in Equation 2, using variances oSF1 and oSF2 of pitch values, respectively, detected in two subframes SF1 and SF2 of a current frame. Equation 2
Figure img0002

[00038] Aqui, cov(SF1, SF2) denota a covariância entre os subfotogramas SF1 e SF2. Em outras palavras, o segundo parâmetro característico F2 indica a correlação entre dois subfotogramas como uma distância de pitch. De acordo com uma forma de realização exemplar, um fotograma atual pode incluir dois ou mais subfotogramas, e a Equação 2 pode ser modificada, com base no número de subfotogramas.[00038] Here, cov(SF1, SF2) denotes the covariance between subframes SF1 and SF2. In other words, the second characteristic parameter F2 indicates the correlation between two subframes as a pitch distance. According to an exemplary embodiment, a current frame may include two or more subframes, and Equation 2 may be modified, based on the number of subframes.

[00039] Um terceiro parâmetro característico F3 pode ser expresso, como mostrado abaixo na Equação 3, com base em um parâmetro de vocalização Voicing e em um parâmetro de correlação Corr. Equação 3

Figure img0003
[00039] A third characteristic parameter F3 can be expressed, as shown below in Equation 3, based on a voicing parameter Voicing and a correlation parameter Corr. Equation 3
Figure img0003

[00040] Aqui, o parâmetro de vocalização Voicing se refere às características vocais de som, e pode ser obtido por qualquer um dos vários métodos conhecidos na técnica, enquanto que o parâmetro de correlação Corr pode ser obtido através da soma de correlações entre fotogramas para cada banda.[00040] Here, the vocalization parameter Voicing refers to the vocal characteristics of sound, and can be obtained by any of several methods known in the art, while the correlation parameter Corr can be obtained by summing correlations between frames for each band.

[00041] Um quarto parâmetro característico F4 se refere a um erro de previsão linear ELPC e pode ser expresso, como mostrado abaixo na Equação 4. Equação 4

Figure img0004
Aqui, M(ELPC) denota a média de erros de previsão linear N.[00041] A fourth characteristic parameter F4 refers to a linear prediction error ELPC and can be expressed as shown below in Equation 4. Equation 4
Figure img0004
Here, M(ELPC) denotes the mean linear forecast errors N.

[00042] A unidade determinadora 430 pode determinar a classe de um sinal de áudio usando, pelo menos, um parâmetro característico fornecido pela unidade para extrair parâmetro característico 410 e pode determinar o modo de codificação inicial, com base na classe determinada. A unidade determinadora 430 pode empregar o mecanismo de fácil decisão, onde, pelo menos, uma mistura pode ser formada por parâmetro característico. De acordo com uma forma de realização exemplar, a classe de um sinal de áudio pode ser determinada usando o modelo de mistura Gaussiana (GMM), com base em probabilidades de mistura. Uma probabilidade f(x), em relação a uma mistura, pode ser calculada, de acordo com a Equação 5 abaixo. Equação 5

Figure img0005
[00042] The determining unit 430 may determine the class of an audio signal using at least one characteristic parameter provided by the unit to extract characteristic parameter 410 and may determine the initial encoding mode, based on the determined class. The determining unit 430 can employ the easy decision mechanism, where at least one mixture can be formed by characteristic parameter. According to an exemplary embodiment, the class of an audio signal can be determined using the Gaussian mixing model (GMM), based on mixing probabilities. A probability f(x), with respect to a mixture, can be calculated, according to Equation 5 below. Equation 5
Figure img0005

[00043] Aqui, x denota um vetor de entrada de um parâmetro característico, m denota uma mistura, e c denota uma matriz de covariância.[00043] Here, x denotes an input vector of a characteristic parameter, m denotes a mixture, and c denotes a covariance matrix.

[00044] A unidade determinadora 430 pode calcular uma probabilidade de música Pm e uma probabilidade de fala Os, usando a Equação 6 abaixo. Equação 6

Figure img0006
[00044] The determining unit 430 can calculate a music probability Pm and a speech probability Os, using Equation 6 below. Equation 6
Figure img0006

[00045] Aqui, a probabilidade de música Pm pode ser calculada pela adição de probabilidades Pi de M misturas, relacionadas aos parâmetros característicos superiores para determinação de música, enquanto que a probabilidade de fala Ps pode ser calculada, pela adição de probabilidades Pi de S misturas, relacionadas ao parâmetros característicos superiores para determinação de fala.[00045] Here, the music probability Pm can be calculated by adding probabilities Pi of M mixtures, related to the upper characteristic parameters for music determination, while the speech probability Ps can be calculated by adding probabilities Pi of S mixtures, related to superior characteristic parameters for speech determination.

[00046] Por sua vez, para maior precisão, a probabilidade de música Pm e a probabilidade de fala Ps podem ser calculadas, de acordo com a Equação 7 abaixo. Equação 7

Figure img0007
err[00046] In turn, for greater accuracy, the music probability Pm and the speech probability Ps can be calculated, according to Equation 7 below. Equation 7
Figure img0007
err

[00047] Aqui

Figure img0008
denota a probabilidade de erro de cada mistura. A probabilidade de erro pode ser obtida ao classificar os dados de treinamento, incluindo sinais de fala limpos e sinais de música limpos, usando cada uma das misturas e contando o número de classificações erradas.[00047] Here
Figure img0008
denotes the error probability of each mixture. Error probability can be obtained by classifying training data, including clean speech signals and clean music signals, using each of the mixtures and counting the number of misclassifications.

[00048] A seguir, a probabilidade PM de que todos os fotogramas incluam apenas sinais de música, e a probabilidade de fala PS de que todos os fotogramas incluam apenas sinais de fala, em relação a uma pluralidade de fotogramas, tantas quanto forem um comprimento em excesso constante, podem ser calculadas de acordo com a Equação 8 abaixo. O comprimento em excesso pode ser definido como 8, mas não está limitado ao mesmo. Oito fotogramas podem incluir um fotograma atual e 7 fotogramas anteriores. Equação 8

Figure img0009
[00048] Next, the probability PM that all frames include only music signals, and the speech probability PS that all frames include only speech signals, with respect to a plurality of frames, as many as a length in constant excess, can be calculated according to Equation 8 below. The excess length can be set to 8, but is not limited to it. Eight frames can include one current frame and 7 previous frames. Equation 8
Figure img0009

[00049] A seguir, uma pluralidade de conjuntos de condições {

Figure img0010
pode ser calculada usando a probabilidade de música Pm ou a probabilidade de fala Ps, obtidas utilizando a Equação 5 ou a Equação 6. Suas descrições detalhadas serão apresentadas abaixo com referência à Fig. 6. Aqui, pode ser definido, de forma que cada condição tenha um valor 1 para música, e tenha um valor 0 para fala.[00049] The following is a plurality of condition sets {
Figure img0010
can be calculated using the music probability Pm or the speech probability Ps, obtained using Equation 5 or Equation 6. Their detailed descriptions will be given below with reference to Fig. 6. Here, it can be defined, so that each condition has a value of 1 for music, and has a value of 0 for speech.

[00050] Com referência à Fig. 6, em uma operação 610 e uma operação 620, uma soma das condições de música M e uma soma das condições de voz S podem ser obtidas a partir da pluralidade de DM ∑)s. conjuntos de condições

Figure img0011
, que é calculada usando a probabilidade de música Pm e a probabilidade de fala Ps. Em outras palavras, a soma das condições de música M e a soma das condições de fala S podem ser expressas, como mostrado na Equação 9 abaixo. Equação
Figure img0012
[00050] With reference to Fig. 6 , in an operation 610 and an operation 620, a sum of the music conditions M and a sum of the voice conditions S can be obtained from the plurality of DM ∑)s. condition sets
Figure img0011
, which is calculated using the music probability Pm and the speech probability Ps. In other words, the sum of music conditions M and the sum of speech conditions S can be expressed, as shown in Equation 9 below. Equation
Figure img0012

[00051] Em uma operação 630, a soma das condições de música M é comparada com um valor limite designado Tm. Se a soma das condições de música M for maior que o valor limite Tm, um modo de codificação de um fotograma atual é comutado para um modo de música, ou seja, o modo de codificação do domínio espectral. Se a soma das condições de música M for menor ou igual ao valor limite Tm, o modo de codificação do fotograma atual não é alterado.[00051] In an operation 630, the sum of music conditions M is compared to a threshold value designated Tm. If the sum of the music conditions M is greater than the threshold value Tm, a current frame encoding mode is switched to a music mode, i.e. the spectral domain encoding mode. If the sum of the music conditions M is less than or equal to the threshold value Tm, the encoding mode of the current frame is not changed.

[00052] Em uma operação 640, a soma das condições de fala S é comparada com um valor limite designado Ts. Se a soma das condições de fala S for maior que o valor limite Ts, um modo de codificação de um fotograma atual é comutado para um modo de fala, isto é, o modo de codificação do domínio de previsão linear. Se a soma das condições de fala S for menor ou igual ao valor limite Ts, o modo de codificação do fotograma atual não é alterado.[00052] In an operation 640, the sum of speech conditions S is compared to a threshold value designated Ts. If the sum of the speech conditions S is greater than the threshold value Ts, an encoding mode of a current frame is switched to a speech mode, i.e., the encoding mode of the linear prediction domain. If the sum of the speech conditions S is less than or equal to the threshold value Ts, the encoding mode of the current frame is not changed.

[00053] O valor limite Tm e o valor limite Ts podem ser definidos como valores obtidos através de experimentos ou simulações prévias.[00053] The threshold value Tm and the threshold value Ts can be defined as values obtained through experiments or previous simulations.

[00054] A Fig. 5 é um diagrama de blocos, ilustrando uma configuração de uma unidade para extrair parâmetro característico 500, de acordo com uma forma de realização exemplar.[00054] Fig. 5 is a block diagram illustrating a configuration of a unit for extracting characteristic parameter 500, in accordance with an exemplary embodiment.

[00055] Uma unidade determinadora de modo de codificação inicial 500, mostrada na Fig. 5, pode incluir uma unidade de transformação 510, uma unidade para extrair parâmetro espectral 520, uma unidade para extrair parâmetro temporal 530 e uma unidade determinadora 540.[00055] An initial encoding mode determining unit 500, shown in Fig. 5, may include a transforming unit 510, a spectral parameter extracting unit 520, a temporal parameter extracting unit 530, and a determining unit 540.

[00056] Na Fig. 5, a unidade de transformação 510 pode transformar um sinal de áudio original, de domínio de tempo para domínio de frequência. Aqui, a unidade de transformação 510 pode aplicar qualquer uma das várias técnicas de transformação para representar um sinal de áudio de um domínio de tempo para um domínio espectral. Exemplos das técnicas podem incluir a transformada rápida de Fourier (FFT), transformada discreta de cosseno (DCT), ou transformada discreta de cosseno modificada (TCMD), mas não são limitados às mesmas.[00056] In Fig. 5, the transform unit 510 can transform an original audio signal from time domain to frequency domain. Here, the transform unit 510 can apply any of several transform techniques to represent an audio signal from a time domain to a spectral domain. Examples of the techniques may include fast Fourier transform (FFT), discrete cosine transform (DCT), or modified discrete cosine transform (TCMD), but are not limited thereto.

[00057] A unidade para extrair parâmetro espectral 520 pode extrair, pelo menos, um parâmetro espectral de um sinal de áudio do domínio de frequência, fornecido pela unidade de transformação 510. Parâmetros espectrais podem ser classificados em parâmetros característicos em curto prazo e parâmetros característicos em longo prazo. Os parâmetros característicos em curto prazo podem ser obtidos a partir de um fotograma atual, enquanto que os parâmetros característicos em longo prazo podem ser obtidos a partir de uma pluralidade de fotogramas, incluindo o fotograma atual e, pelo menos, um fotograma anterior.[00057] The spectral parameter extracting unit 520 can extract at least one spectral parameter from a frequency domain audio signal provided by the transform unit 510. Spectral parameters can be classified into short-term characteristic parameters and characteristic parameters in long term. Short-term characteristic parameters can be obtained from a current frame, while long-term characteristic parameters can be obtained from a plurality of frames, including the current frame and at least one previous frame.

[00058] A unidade para extrair parâmetro temporal 530 pode extrair, pelo menos, um parâmetro temporal de um sinal de áudio do domínio de tempo. Parâmetros temporais também podem ser classificados em parâmetros característicos em curto prazo e parâmetros característicos em longo prazo. Os parâmetros característicos em curto prazo podem ser obtidos a partir de um fotograma atual, enquanto que os parâmetros característicos em longo prazo podem ser obtidos a partir de uma pluralidade de fotogramas, incluindo o fotograma atual e, pelo menos, um fotograma anterior.[00058] The temporal parameter extracting unit 530 can extract at least one temporal parameter from a time domain audio signal. Temporal parameters can also be classified into short-term characteristic parameters and long-term characteristic parameters. Short-term characteristic parameters can be obtained from a current frame, while long-term characteristic parameters can be obtained from a plurality of frames, including the current frame and at least one previous frame.

[00059] Uma unidade determinadora (430 da Fig. 4) pode determinar a classe de um sinal de áudio, usando parâmetros espectrais fornecidos pela unidade para extrair parâmetro espectral 520 e parâmetros temporais fornecidos pela unidade para extrair parâmetro temporal 530, e pode determinar o modo de codificação inicial, com base na classe determinada. A unidade determinadora (430 da Fig. 4) pode utilizar mecanismo de fácil decisão.[00059] A determining unit (430 of Fig. 4) can determine the class of an audio signal, using spectral parameters provided by the unit to extract spectral parameter 520 and temporal parameters provided by the unit to extract temporal parameter 530, and can determine the initial encoding mode, based on the given class. The determining unit (430 of Fig. 4) can use an easy decision mechanism.

[00060] A Fig. 7 é um diagrama, ilustrando uma operação de uma unidade para correção do modo de codificação 310, de acordo com uma forma de realização exemplar.[00060] Fig. 7 is a diagram illustrating an operation of an encoding mode correction unit 310, in accordance with an exemplary embodiment.

[00061] Com referência à Fig. 7, em uma operação 700, um modo de codificação inicial, determinado pela unidade determinadora de modo de codificação inicial 310, é recebido, e ele pode ser determinado de acordo com a possibilidade do modo de codificação ser o modo do domínio de tempo, ou seja, o modo por excitação do domínio de tempo ou o modo do domínio espectral.[00061] With reference to Fig. 7, in an operation 700, an initial encoding mode, determined by the initial encoding mode determining unit 310, is received, and it can be determined according to whether the encoding mode is the time domain mode, or that is, the time domain excitation mode or the spectral domain mode.

[00062] Em uma operação 701, se for determinado na operação 700 que o modo de codificação inicial é o modo do domínio espectral (stateTS == 1), um índice stateTTSS, indicando se a codificação por excitação do domínio de frequência é mais apropriada, pode ser verificado. O índice stateTTSS, indicando se a codificação por excitação do domínio de frequência (por exemplo, GSC) é mais apropriada, pode ser obtido usando tonalidades de diferentes bandas de frequência. Suas descrições detalhadas serão apresentadas abaixo.[00062] In an operation 701, if it is determined in operation 700 that the initial encoding mode is the spectral domain mode (stateTS == 1), a stateTTSS index, indicating whether frequency domain excitation encoding is more appropriate , can be verified. The stateTTSS index, indicating whether frequency domain excitation coding (e.g. GSC) is more appropriate, can be obtained using tones of different frequency bands. Their detailed descriptions will be presented below.

[00063] A tonalidade de um sinal de banda baixa pode ser obtida como uma relação entre uma soma de uma pluralidade de coeficientes espectrais tendo pequenos valores, incluindo o menor valor, e o coeficiente espectral tendo o maior valor em relação a uma determinada banda. Se as bandas fornecidas forem de 0~1 kHz, 1~2 kHz e 2~4 kHz, tonalidades t01, t12 e t24, das respectivas bandas, e tonalidade tL de um sinal de banda baixa, ou seja, a banda central pode ser expressa, como mostrado na Equação 10 abaixo. Equação 10

Figure img0013
[00063] The pitch of a low band signal can be obtained as a ratio between a sum of a plurality of spectral coefficients having small values, including the smallest value, and the spectral coefficient having the largest value with respect to a given band. If the given bands are 0~1 kHz, 1~2 kHz and 2~4 kHz, t01, t12 and t24 tones of the respective bands and tL tone of a low band signal, i.e. the center band can be expressed, as shown in Equation 10 below. Equation 10
Figure img0013

[00064] Por sua vez, o erro de previsão linear (err) pode ser obtido usando um filtro de codificação linear preditiva (LPC), e pode ser usado para remover componentes de tons fortes. Em outras palavras, o modo de codificação do domínio espectral pode ser mais eficiente, em relação a componentes de tons fortes, do que o modo de codificação por excitação do domínio da frequência.[00064] In turn, the linear prediction error (err) can be obtained using a linear predictive coding (LPC) filter, and can be used to remove strong tone components. In other words, the spectral domain encoding mode may be more efficient, with respect to strong tone components, than the frequency domain excitation encoding mode.

[00065] Uma primeira condição (condfront) para comutar para o modo de codificação por excitação do domínio de frequência, usando as tonalidades e o erro de previsão linear obtidos, como descrito acima, pode ser expressa, como mostrado na Equação 11 abaixo. Equação 11

Figure img0014
[00065] A first condition (condfront) to switch to frequency domain excitation encoding mode, using the pitches and linear prediction error obtained as described above, can be expressed, as shown in Equation 11 below. Equation 11
Figure img0014

[00066] Aqui, t12front, t24front, tLfront, e errfront são valores limites e podem ter valores obtidos através de experimentos ou simulações prévias.[00066] Here, t12front, t24front, tLfront, and errfront are threshold values and may have values obtained through experiments or previous simulations.

[00067] Por sua vez, uma condição secundária (condback), para terminar o modo de codificação por excitação do domínio de frequência, usando as tonalidades e o erro de previsão linear obtido, como descrito acima, pode ser expressa, como mostrado na Equação 12 abaixo. Equação 12

Figure img0015
[00067] In turn, a secondary condition (condback), to terminate the coding mode by frequency domain excitation, using the tonalities and the obtained linear prediction error, as described above, can be expressed, as shown in Equation 12 below. Equation 12
Figure img0015

[00068] Aqui, t12back, t24back, tLback são valores limites e podem ter valores obtidos através de experimentos ou simulações prévias.[00068] Here, t12back, t24back, tLback are threshold values and may have values obtained through experiments or previous simulations.

[00069] Em outras palavras, pode ser determinado, se o índice stateTTSS, indicando se a codificação por excitação do domínio de frequência (por exemplo, GSC) é mais apropriada do que a codificação do domínio espectral, é 1, determinando se a primeira condição, mostrada na Equação 11, é satisfeita, ou se a condição secundária, mostrada na Equação 12, não é satisfeita. Aqui, a determinação da condição secundária, mostrada na Equação 12, pode ser opcional.[00069] In other words, it can be determined, if the stateTTSS index, indicating whether frequency domain excitation coding (e.g. GSC) is more appropriate than spectral domain coding, is 1, determining whether the first condition, shown in Equation 11, is satisfied, or if the secondary condition, shown in Equation 12, is not satisfied. Here, the determination of the secondary condition, shown in Equation 12, may be optional.

[00070] Em uma operação 702, se o índice stateTTSS for 1, o modo de codificação por excitação do domínio da frequência pode ser determinado como o modo de codificação final. Nesse caso, o modo de codificação do domínio espectral, que é o modo de codificação inicial, é corrigido para o modo de codificação por excitação do domínio de frequência, que é o modo de codificação final.[00070] In an operation 702, if the stateTTSS index is 1, the frequency domain excitation encoding mode can be determined as the final encoding mode. In this case, the spectral domain encoding mode, which is the initial encoding mode, is corrected to the frequency domain excitation encoding mode, which is the final encoding mode.

[00071] Numa operação 705, se for determinado na operação 701 que o índice stateTTSS é 0, um índice stateSS, para determinar se um sinal de áudio inclui uma característica de fala forte, pode ser verificado. Se houver um erro na determinação do modo de codificação do domínio espectral, o modo de codificação por excitação do domínio da frequência pode ser mais eficiente do que o modo de codificação do domínio espectral. O índice stateSS, para determinar se um sinal de áudio inclui uma característica de fala forte, pode ser obtido usando uma diferença vc, entre um parâmetro de vocalização e um parâmetro de correlação.[00071] In an operation 705, if it is determined in operation 701 that the stateTTSS index is 0, a stateSS index, to determine whether an audio signal includes a strong speech characteristic, can be verified. If there is an error in determining the spectral domain encoding mode, the frequency domain excitation encoding mode may be more efficient than the spectral domain encoding mode. The stateSS index, to determine whether an audio signal includes a strong speech characteristic, can be obtained using a difference vc, between a vocalization parameter and a correlation parameter.

[00072] Uma primeira condição condfront, para comutar para um modo de fala forte, usando a diferença vc entre um parâmetro de vocalização e um parâmetro de correlação, pode ser expressa, como mostrado na Equação 13 abaixo. Equação 13

Figure img0016
[00072] A first condfront condition, to switch to a strong speech mode, using the difference vc between a vocalization parameter and a correlation parameter, can be expressed, as shown in Equation 13 below. Equation 13
Figure img0016

[00073] Aqui, vcfront é um valor limite e pode ter um valor obtido através de experimentos ou simulações prévias.[00073] Here, vcfront is a threshold value and can have a value obtained through previous experiments or simulations.

[00074] Por sua vez, uma condição secundária condback, para terminar o modo de fala forte, usando a diferença vc entre um parâmetro de vocalização e um parâmetro de correlação, pode ser expressa, como mostrado na Equação 14 abaixo. Equação 14

Figure img0017
[00074] In turn, a secondary condback condition, to terminate the strong speech mode, using the difference vc between a vocalization parameter and a correlation parameter, can be expressed, as shown in Equation 14 below. Equation 14
Figure img0017

[00075] Aqui, vcback é um valor limite e pode ter um valor obtido através de experimentos ou simulações prévias.[00075] Here, vcback is a threshold value and can have a value obtained through previous experiments or simulations.

[00076] Em outras palavras, numa operação 705, pode ser determinado se o índice stateSS, indicando se a codificação por excitação do domínio da frequência (por exemplo, GSC) é mais apropriada do que a codificação do domínio espectral, é 1, determinando se a primeira condição, mostrada na Equação 13, é satisfeita ou se a condição secundária, mostrada na Equação 14, não é satisfeita. Aqui, a determinação da condição secundária, mostrada na Equação 14, pode ser opcional.[00076] In other words, in an operation 705, it can be determined whether the stateSS index, indicating whether frequency domain excitation coding (e.g. GSC) is more appropriate than spectral domain coding, is 1 by determining if the first condition, shown in Equation 13, is satisfied or if the secondary condition, shown in Equation 14, is not satisfied. Here, the determination of the secondary condition, shown in Equation 14, may be optional.

[00077] Numa operação 706, se for determinado na operação 705 que o índice stateSS é 0, ou seja, o sinal de áudio não inclui uma característica de fala forte, o modo de codificação do domínio espectral pode ser determinado como o modo de codificação final. Nesse caso, o modo de codificação do domínio espectral, que é o modo de codificação inicial, é mantido como o modo de codificação final.[00077] In an operation 706, if it is determined in operation 705 that the stateSS index is 0, that is, the audio signal does not include a strong speech characteristic, the spectral domain encoding mode can be determined as the encoding mode Final. In this case, the spectral domain encoding mode, which is the initial encoding mode, is kept as the final encoding mode.

[00078] Numa operação 707, se for determinado na operação 705. que o índice stateSS é 1, ou seja, o sinal de áudio inclui uma característica de fala forte, o modo de codificação por excitação do domínio da frequência pode ser determinado, como o modo de codificação final. Nesse caso, o modo de codificação do domínio espectral, que é o modo de codificação inicial, é corrigido para o modo de codificação por excitação do domínio de frequência, que é o modo de codificação final.[00078] In an operation 707, if it is determined in operation 705 that the stateSS index is 1, that is, the audio signal includes a strong speech characteristic, the frequency domain excitation encoding mode can be determined, as the final encoding mode. In this case, the spectral domain encoding mode, which is the initial encoding mode, is corrected to the frequency domain excitation encoding mode, which is the final encoding mode.

[00079] Ao realizar as operações 700, 701 e 705, um erro na determinação do modo de codificação do domínio espectral, como o modo de codificação inicial, pode ser corrigido. Em detalhes, o modo de codificação do domínio espectral, que é o modo de codificação inicial, pode ser mantido ou comutado para o modo de codificação por excitação do domínio de frequência, como o modo de codificação final.[00079] By performing operations 700, 701 and 705, an error in determining the spectral domain encoding mode, such as the initial encoding mode, can be corrected. In detail, the spectral domain encoding mode, which is the initial encoding mode, can be kept or switched to the frequency domain excitation encoding mode, as the final encoding mode.

[00080] Por sua vez, se for determinado na operação 700, que o modo de codificação inicial é o modo de codificação do domínio de previsão linear (stateTS == 0), um índice stateSM, para determinar se um sinal de áudio inclui uma característica de música forte, pode ser verificado. Se houver um erro na determinação do modo de codificação do domínio de previsão linear, ou seja, o modo de codificação por excitação do domínio de tempo, o modo de codificação por excitação do domínio de frequência pode ser mais eficiente do que o modo de codificação por excitação do domínio de tempo. O stateSM, para determinar se um sinal de áudio inclui uma característica de música forte, pode ser obtido usando um valor 1-vc, obtido ao subtrair a diferença vc, entre um parâmetro de vocalização e um parâmetro de correlação, de 1.[00080] In turn, if it is determined in operation 700 that the initial encoding mode is the encoding mode of the linear prediction domain (stateTS == 0), a stateSM index, to determine whether an audio signal includes a strong music feature, can be checked. If there is an error in determining the linear prediction domain encoding mode, that is, the time domain excitation encoding mode, the frequency domain excitation encoding mode may be more efficient than the encoding mode. by time domain excitation. The stateSM, to determine whether an audio signal includes a strong music characteristic, can be obtained using a 1-vc value, obtained by subtracting the difference vc, between a vocalization parameter and a correlation parameter, from 1.

[00081] Uma primeira condição condfront para comutar para um modo de música forte usando o valor 1-vc, obtido ao subtrair a diferença vc, entre um parâmetro de vocalização e um parâmetro de correlação, de 1, pode ser expressa, como mostrado na Equação 15 abaixo. Equação 15

Figure img0018
[00081] A first condfront condition to switch to a strong music mode using the value 1-vc, obtained by subtracting the difference vc, between a vocalization parameter and a correlation parameter, from 1, can be expressed, as shown in Equation 15 below. Equation 15
Figure img0018

[00082] Aqui, vcmfront é um valor limite e pode ter um valor obtido por meio de experimentos ou simulações prévias.[00082] Here, vcmfront is a threshold value and can have a value obtained through previous experiments or simulations.

[00083] Por sua vez, uma condição secundária condback para terminar o modo de música forte usando o valor 1-vc, obtido ao subtrair a diferença vc, entre um parâmetro de vocalização e um parâmetro de correlação, de 1, pode ser expressa, como mostrado na Equação 16 abaixo. Equação 16

Figure img0019
[00083] In turn, a secondary condback condition to end the strong music mode using the value 1-vc, obtained by subtracting the difference vc, between a vocalization parameter and a correlation parameter, of 1, can be expressed, as shown in Equation 16 below. Equation 16
Figure img0019

[00084] Aqui, vcmback é um valor limite e pode ter um valor obtido por meio de experimentos ou simulações prévias.[00084] Here, vcmback is a threshold value and can have a value obtained through previous experiments or simulations.

[00085] Em outras palavras, em uma operação 709, pode ser determinado se o índice stateSM, indicando se a codificação por excitação do domínio da frequência (por exemplo, GSC) é mais apropriada do que a codificação por excitação do domínio de tempo, é 1, determinando se a primeira condição, mostrada na Equação 15, é satisfeita, ou se a condição secundária, mostrada na Equação 16, não é satisfeita. Aqui, a determinação da condição secundária, mostrada na Equação 16, pode ser opcional.[00085] In other words, in an operation 709, it can be determined whether the stateSM index, indicating whether frequency domain excitation coding (e.g. GSC) is more appropriate than time domain excitation coding, is 1, determining whether the first condition, shown in Equation 15, is satisfied, or if the secondary condition, shown in Equation 16, is not satisfied. Here, the determination of the secondary condition, shown in Equation 16, may be optional.

[00086] Numa operação 710, se for determinado na operação 709 que o índice stateSM é 0, ou seja, o sinal de áudio não inclui uma característica de música forte, o modo de codificação por excitação do domínio de tempo pode ser determinado como o modo de codificação final. Nesse caso, o modo de codificação do domínio de previsão linear, que é o modo de codificação inicial, é comutado para o modo de codificação por excitação do domínio de tempo, como o modo de codificação final. De acordo com uma forma de realização exemplar, pode ser considerado que o modo de codificação inicial foi mantido sem alterações, se o modo de codificação do domínio de previsão linear corresponder ao modo de codificação por excitação do domínio de tempo.[00086] In an operation 710, if it is determined in operation 709 that the stateSM index is 0, that is, the audio signal does not include a strong music characteristic, the time domain excitation encoding mode can be determined as the final encoding mode. In this case, the linear prediction domain encoding mode, which is the initial encoding mode, is switched to the time domain excitation encoding mode, as the final encoding mode. According to an exemplary embodiment, the initial encoding mode can be considered to have been kept unchanged, if the linear prediction domain encoding mode corresponds to the time domain excitation encoding mode.

[00087] Numa operação 707, se for determinado na operação 709 que o índice stateSM é 1, ou seja, o sinal de áudio inclui uma característica de música forte, o modo de codificação por excitação do domínio de frequência pode ser determinado como o modo de codificação final. Nesse caso, o modo de codificação do domínio de previsão linear, que é o modo de codificação inicial, é corrigido para o modo de codificação por excitação do domínio de frequência, que é o modo de codificação final.[00087] In an operation 707, if it is determined in operation 709 that the stateSM index is 1, that is, the audio signal includes a strong music characteristic, the frequency domain excitation encoding mode can be determined as the mode of final encoding. In this case, the linear prediction domain encoding mode, which is the initial encoding mode, is corrected to the frequency domain excitation encoding mode, which is the final encoding mode.

[00088] Ao realizar as operações 700 e 709, um erro na determinação do modo de codificação inicial pode ser corrigido. Em detalhes, o modo de codificação do domínio de previsão linear (por exemplo, o modo de codificação do domínio de tempo), que é o modo de codificação inicial, pode ser mantido ou comutado para o modo de codificação por excitação do domínio de frequência, como o modo de codificação final.[00088] By performing operations 700 and 709, an error in determining the initial encoding mode can be corrected. In detail, the linear prediction domain encoding mode (e.g. the time domain encoding mode), which is the initial encoding mode, can be kept or switched to the frequency domain excitation encoding mode. , as the final encoding mode.

[00089] De acordo com uma forma de realização exemplar, a operação 709, para determinar se o sinal de áudio inclui uma característica de música forte para corrigir um erro na determinação do modo de codificação do domínio de previsão linear, pode ser opcional.[00089] According to an exemplary embodiment, operation 709, for determining whether the audio signal includes a strong music feature to correct an error in determining the encoding mode of the linear prediction domain, may be optional.

[00090] De acordo com outra forma de realização exemplar, uma sequência para executar a operação 705, para determinar se o sinal de áudio inclui uma característica de fala forte, e a operação 701, para determinar se o modo de codificação por excitação do domínio de frequência é apropriado, pode ser revertida. Em outras palavras, após a operação 700, a operação 705 pode ser primeiramente executada, e, em seguida, a operação 701 pode ser executada. Nesse caso, parâmetros usados para as determinações podem ser alterados, conforme a necessidade.[00090] In accordance with another exemplary embodiment, a sequence for performing operation 705 to determine whether the audio signal includes a loud speech characteristic, and operation 701 to determine whether the domain excitation coding mode frequency is appropriate, can be reversed. In other words, after operation 700, operation 705 can be performed first, and then operation 701 can be performed. In this case, parameters used for the determinations can be changed as needed.

[00091] A Fig. 8 é um diagrama de blocos, ilustrando uma configuração de um aparelho para decodificar áudio 800, de acordo com uma forma de realização exemplar.[00091] Fig. 8 is a block diagram illustrating a configuration of an audio decoding apparatus 800 in accordance with an exemplary embodiment.

[00092] O aparelho para decodificar áudio 800, mostrado na Fig. 8, pode incluir uma unidade para análise de fluxo de bits 810, uma unidade de decodificação do domínio espectral 820, uma unidade de decodificação do domínio de previsão linear 830 e uma unidade de comutação 840. A unidade de decodificação do domínio de previsão linear 830 pode incluir uma unidade de decodificação por excitação do domínio de tempo 831 e uma unidade de decodificação por excitação do domínio de frequência 833, onde a unidade de decodificação do domínio de previsão linear 830 pode ser incorporada a, pelo menos, uma dentre a unidade de decodificação por excitação do domínio de tempo 831 e a unidade de decodificação por excitação do domínio de frequência 833. A menos que seja necessário ser incorporados a um hardware separado, os componentes acima indicados podem ser integrados a, pelo menos, um módulo, e podem ser implementados como, pelo menos, um processador (não mostrado).[00092] The audio decoding apparatus 800, shown in Fig. 8, may include a bit stream analysis unit 810, a spectral domain decoding unit 820, a linear prediction domain decoding unit 830, and a switching unit 840. The linear prediction domain decoding unit 830 may include a time domain excitation decoding unit 831 and a frequency domain excitation decoding unit 833, wherein the linear prediction domain decoding unit 830 may be incorporated into at least one of the time domain excitation decoding unit 831 and frequency domain excitation decoding unit 833. Unless it is necessary to be incorporated into separate hardware, the above components may be integrated into at least one module, and may be implemented as at least one processor (not shown).

[00093] Com referência à Fig. 8, a unidade para análise de fluxo de bits 810 pode analisar um fluxo de bits recebido e informações separadas em um modo de codificação e dados codificados. O modo de codificação pode corresponder a qualquer modo de codificação inicial obtido pela determinação de um dentre uma pluralidade de modos de codificação, incluindo um primeiro modo de codificação e um segundo modo de codificação, em correspondência com as características de um sinal de áudio, ou um terceiro modo de codificação corrigido a partir do modo de codificação inicial, se houver um erro na determinação do modo de codificação inicial.[00093] With reference to Fig. 8, the bit stream analysis unit 810 can analyze a received bit stream and separate information in an encoding mode and encoded data. The encoding mode may correspond to any initial encoding mode obtained by determining one of a plurality of encoding modes, including a first encoding mode and a second encoding mode, in correspondence with the characteristics of an audio signal, or a third encoding mode corrected from the initial encoding mode if there is an error in determining the initial encoding mode.

[00094] A unidade de decodificação do domínio espectral 820 pode decodificar dados codificados no domínio espectral, a partir dos dados codificados separados.[00094] The spectral domain decoding unit 820 can decode data encoded in the spectral domain from the separate encoded data.

[00095] A unidade de decodificação do domínio de previsão linear 830 pode decodificar dados codificados no domínio de previsão linear, a partir dos dados codificados separados. Se a unidade de decodificação do domínio de previsão linear 830 incluir a unidade de decodificação por excitação do domínio de tempo 831 e a unidade de decodificação por excitação do domínio de frequência 833, a unidade de decodificação do domínio de previsão linear 830 pode executar a decodificação por excitação do domínio de tempo ou a decodificação por excitação do domínio de frequência, no que diz respeito aos dados codificados separados.[00095] The linear prediction domain decoding unit 830 can decode data encoded in the linear prediction domain from the separate encoded data. If the linear prediction domain decoding unit 830 includes the time domain excitation decoding unit 831 and the frequency domain excitation decoding unit 833, the linear prediction domain decoding unit 830 can perform decoding time domain excitation or frequency domain excitation decoding with respect to the separate encoded data.

[00096] A unidade de comutação 840 pode comutar qualquer sinal reconstruído pela unidade de decodificação do domínio espectral 820 ou um sinal reconstruído pela unidade de decodificação do domínio de previsão linear 830, e pode fornecer o sinal comutado como um sinal reconstruído final.[00096] Switching unit 840 may switch any signal reconstructed by spectral domain decoding unit 820 or a signal reconstructed by linear prediction domain decoding unit 830, and may provide the switched signal as a final reconstructed signal.

[00097] A Fig. 9 é um diagrama de blocos, ilustrando uma configuração de um aparelho para decodificação de áudio 900, de acordo com outra forma de realização exemplar.[00097] Fig. 9 is a block diagram illustrating a configuration of an audio decoding apparatus 900 according to another exemplary embodiment.

[00098] O aparelho para decodificar áudio 900 pode incluir uma unidade para análise de fluxo de bits 910, uma unidade de decodificação do domínio espectral 920, uma unidade de decodificação do domínio de previsão linear 930, uma unidade de comutação 940 e um módulo de pós-processamento comum 950. A unidade de decodificação do domínio de previsão linear 930 pode incluir uma unidade de decodificação por excitação do domínio de tempo 931 e unidade de decodificação por excitação do domínio de frequência 933, onde a unidade de decodificação do domínio de previsão linear 930 pode ser incorporada a, pelo menos, uma dentre a unidade de decodificação por excitação do domínio de tempo 931 e a unidade de decodificação por excitação do domínio de frequência 933. A menos que seja necessário ser incorporados a um hardware separado, os componentes acima indicados podem ser integrados a, pelo menos, um módulo, e podem ser implementados como, pelo menos, um processador (não mostrado). Em comparação com o aparelho para decodificar áudio 800, mostrado na Fig. 8, o aparelho para decodificar áudio 900 pode ainda incluir o módulo de pós-processamento comum 950, e, portanto, descrições de componentes idênticos àqueles do aparelho para decodificar áudio 800 serão omitidas.[00098] The audio decoding apparatus 900 may include a bit stream analysis unit 910, a spectral domain decoding unit 920, a linear prediction domain decoding unit 930, a switching unit 940 and a common post-processing 950. Linear prediction domain decoding unit 930 may include a time domain excitation decoding unit 931 and frequency domain excitation decoding unit 933, wherein the prediction domain decoding unit linear 930 may be incorporated into at least one of the time domain excitation decoding unit 931 and the frequency domain excitation decoding unit 933. Unless it is necessary to be incorporated into separate hardware, the components above may be integrated into at least one module, and may be implemented as at least one processor (not shown). In comparison with the audio decoding apparatus 800 shown in Fig. 8, audio decoding apparatus 900 may further include common post-processing module 950, and therefore, descriptions of components identical to those of audio decoding apparatus 800 will be omitted.

[00099] Com referência à Fig. 9, o módulo de pós- processamento comum 950 pode executar processamento estéreo conjunto, processamento surround, e/ou processamento de extensão de largura de banda, em correspondência com um módulo de pré-processamento comum (205 da Fig. 2).[00099] With reference to Fig. 9, the common post-processing module 950 can perform joint stereo processing, surround processing, and/or bandwidth extension processing, in correspondence with a common pre-processing module (205 of Fig. 2).

[000100] Os métodos, de acordo com as formas de realização exemplares, podem ser escritos como programas executáveis por computador e podem ser implementados em computadores digitais de uso geral, que executam os programas usando uma mídia de gravação permanente, legível por computador. Além disso, estruturas de dados, instruções de programa ou arquivos de dados, que podem ser usados nas formas de realização, podem ser gravados, de várias maneiras, em uma mídia de gravação permanente, legível por computador. A mídia de gravação permanente legível por computador é qualquer dispositivo de armazenamento de dados, que pode armazenar dados, que podem ser lidos posteriormente por um sistema de computador. Exemplos de mídia de gravação permanente, legível por computador, incluem mídia de armazenamento magnético, tais como discos rígidos, disquetes, e fitas magnéticas, mídias de gravação óptica, tais como CD-ROMs e DVDs, mídias magneto-ópticas, tais como discos ópticos, e dispositivos de hardware, tais como ROM, RAM e memória flash, especialmente configurados para armazenar e executar instruções de programa. Além disso, a mídia de gravação permanente legível por computador pode ser uma mídia de transmissão, para transmitir instruções de programa pela designação de sinal, estruturas de dados ou semelhantes. Exemplos das instruções de programa podem incluir, não apenas códigos de linguagem mecânica, criados por um compilador, mas também códigos de linguagem de alto nível, executáveis por um computador usando um interpretador ou semelhante.[000100] The methods, according to exemplary embodiments, may be written as computer-executable programs and may be implemented on general-purpose digital computers, which execute the programs using permanent, computer-readable recording media. In addition, data structures, program instructions, or data files, which may be used in the embodiments, may be recorded, in various ways, on permanent, computer-readable recording media. Computer readable permanent recording media is any data storage device, which can store data, which can later be read by a computer system. Examples of permanent, computer-readable recording media include magnetic storage media, such as hard disks, floppy disks, and magnetic tapes, optical recording media, such as CD-ROMs and DVDs, magneto-optical media, such as optical discs. , and hardware devices, such as ROM, RAM, and flash memory, specially configured to store and execute program instructions. Furthermore, the permanent computer-readable recording medium may be a broadcast medium, for transmitting program instructions by signal designation, data structures, or the like. Examples of program instructions may include not only mechanical language code created by a compiler, but also high-level language code executable by a computer using an interpreter or the like.

[000101] Embora formas de realização exemplares tenham sido particularmente mostradas e descritas acima, deve ser entendido pelas pessoas versadas na técnica, que várias alterações na forma e detalhes podem ser feitas, sem se afastar do espírito e escopo do conceito inventivo, como definido pelas reivindicações acrescentadas. As formas de realização exemplares devem ser consideradas apenas em sentido descritivo e não para fins de limitação. Portanto, o escopo do conceito inventivo é definido, não pela descrição detalhada das formas de realização exemplares, mas pelas reivindicações acrescentadas, e todas as diferenças dentro do escopo serão interpretadas como sendo incluídas no presente conceito inventivo.[000101] Although exemplary embodiments have been particularly shown and described above, it should be understood by those skilled in the art that various changes in form and detail may be made without departing from the spirit and scope of the inventive concept as defined by the added claims. Exemplary embodiments are to be considered in a descriptive sense only and not for purposes of limitation. Therefore, the scope of the inventive concept is defined, not by the detailed description of the exemplary embodiments, but by the appended claims, and all differences within the scope will be interpreted as being included in the present inventive concept.

Claims (5)

1. MÉTODO DE CODIFICAÇÃO DE UM SINAL DE ÁUDIO, o método caracterizado pelo fato de que compreende: receber o sinal de áudio; obter, realizado por meio do pelo menos um processador, os primeiros parâmetros de um quadro atual do sinal de áudio; selecionar, realizado por meio do pelo menos um processador, uma classe do quadro atual do sinal de áudio dentre uma pluralidade de classes, incluindo uma classe de música e uma classe de fala, com base nos primeiros parâmetros do quadro atual; obter parâmetros secundários, incluindo primeira tonalidade, segunda tonalidade e terceira tonalidade; determinar, realizado por meio do pelo menos um processador, se é caso de alterar a classe selecionada do quadro atual com base nos parâmetros secundários obtidos e um parâmetro de bloqueio; quando é determinado mudar a classe selecionada do quadro atual, mudar, realizado por meio do pelo menos um processador, a classe selecionada do quadro atual para outra classe; codificar, realizado por meio do pelo menos um processador, o quadro atual, com base na classe selecionada ou em outra classe do quadro atual; e gerar um fluxo de bits com base no quadro atual codificado, em que a primeira tonalidade é obtida de uma sub-banda de 0 a 1 kHz, a segunda tonalidade é obtida de uma sub-banda de 1 a 2 kHz e a terceira tonalidade é obtida de uma sub-banda de 2 a 4 kHz.1. METHOD OF CODING AN AUDIO SIGNAL, the method characterized by the fact that it comprises: receiving the audio signal; obtaining, performed by means of the at least one processor, the first parameters of a current frame of the audio signal; selecting, performed by means of the at least one processor, a class of the current frame of the audio signal from among a plurality of classes, including a music class and a speech class, based on the first parameters of the current frame; get secondary parameters, including first tone, second tone, and third tone; determine, carried out by means of the at least one processor, whether it is necessary to change the selected class of the current frame based on the secondary parameters obtained and a blocking parameter; when it is determined to change the selected class from the current frame, change, performed by means of at least one processor, the selected class from the current frame to another class; encode, performed by means of the at least one processor, the current frame, based on the selected class or another class of the current frame; and generate a bit stream based on the current encoded frame, where the first tone is taken from a 0 to 1 kHz subband, the second tone is taken from a 1 to 2 kHz subband, and the third tone is obtained from a subband of 2 to 4 kHz. 2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a mudança é realizada com base em pelo menos dois estados independentes.2. Method according to claim 1, characterized by the fact that the change is performed based on at least two independent states. 3. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que os parâmetros secundários compreendem ainda uma diferença entre um parâmetro vocalização e um parâmetro de correlação.3. Method according to claim 1, characterized in that the secondary parameters also comprise a difference between a vocalization parameter and a correlation parameter. 4. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a determinação de se é caso de alterar a classe selecionada do quadro atual compreende: determinar se o quadro atual tem características de fala quando o quadro atual é classificado como a classe de música; e determinar se o quadro atual tem características de música quando o quadro atual é classificado como a classe de fala.4. Method according to claim 1, characterized by the fact that the determination of whether to change the selected class of the current frame comprises: determining whether the current frame has speech characteristics when the current frame is classified as the class of music; and determining whether the current frame has music characteristics when the current frame is classified as the speech class. 5. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a alteração compreende: alterar uma classificação do quadro atual, quando o quadro atual é classificado como a classe de música e possui características de fala; e alterar a classificação do quadro atual, quando o quadro atual é classificado como a classe de fala e possui características de música.5. Method, according to claim 1, characterized in that the change comprises: changing a classification of the current frame, when the current frame is classified as the music class and has speech characteristics; and change the classification of the current frame, when the current frame is classified as the speech class and has music characteristics.
BR122020023798-8A 2012-11-13 2013-11-13 Method of encoding an audio signal BR122020023798B1 (en)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201261725694P 2012-11-13 2012-11-13
US61/725,694 2012-11-13
BR112015010954-3A BR112015010954B1 (en) 2012-11-13 2013-11-13 METHOD OF ENCODING AN AUDIO SIGNAL.
PCT/KR2013/010310 WO2014077591A1 (en) 2012-11-13 2013-11-13 Method and apparatus for determining encoding mode, method and apparatus for encoding audio signals, and method and apparatus for decoding audio signals

Publications (1)

Publication Number Publication Date
BR122020023798B1 true BR122020023798B1 (en) 2022-05-24

Family

ID=81824743

Family Applications (2)

Application Number Title Priority Date Filing Date
BR122020023793-7A BR122020023793B1 (en) 2012-11-13 2013-11-13 Method of encoding an audio signal
BR122020023798-8A BR122020023798B1 (en) 2012-11-13 2013-11-13 Method of encoding an audio signal

Family Applications Before (1)

Application Number Title Priority Date Filing Date
BR122020023793-7A BR122020023793B1 (en) 2012-11-13 2013-11-13 Method of encoding an audio signal

Country Status (1)

Country Link
BR (2) BR122020023793B1 (en)

Also Published As

Publication number Publication date
BR122020023793B1 (en) 2022-05-24

Similar Documents

Publication Publication Date Title
AU2017206243B2 (en) Method and apparatus for determining encoding mode, method and apparatus for encoding audio signals, and method and apparatus for decoding audio signals
RU2641461C2 (en) Audio encoder, audio decoder, method of providing coded audio information, method of providing decoded audio information, computer program and coded presentation using signal-adaptive bandwidth extension
ES2924427T3 (en) Decoder for generating a frequency-enhanced audio signal, decoding method, encoder for generating an encoded signal, and encoding method using compact selection side information
BR122022012519B1 (en) AUDIO CODER AND DECODER USING A FREQUENCY DOMAIN PROCESSOR WITH FULL BAND GAP FILLING AND A TIME DOMAIN PROCESSOR
EP3186807B1 (en) Apparatus and method for generating an enhanced audio signal using independent noise-filling
BR122020023798B1 (en) Method of encoding an audio signal
BR112015010954B1 (en) METHOD OF ENCODING AN AUDIO SIGNAL.
BR122022012597B1 (en) AUDIO CODER AND DECODER USING A FREQUENCY DOMAIN PROCESSOR WITH FULL BAND GAP FILLING AND A TIME DOMAIN PROCESSOR

Legal Events

Date Code Title Description
B350 Update of information on the portal [chapter 15.35 patent gazette]
B07A Application suspended after technical examination (opinion) [chapter 7.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 13/11/2013, OBSERVADAS AS CONDICOES LEGAIS