ES2969736T3 - Dispositivo de decodificación y método de decodificación - Google Patents

Dispositivo de decodificación y método de decodificación Download PDF

Info

Publication number
ES2969736T3
ES2969736T3 ES15756036T ES15756036T ES2969736T3 ES 2969736 T3 ES2969736 T3 ES 2969736T3 ES 15756036 T ES15756036 T ES 15756036T ES 15756036 T ES15756036 T ES 15756036T ES 2969736 T3 ES2969736 T3 ES 2969736T3
Authority
ES
Spain
Prior art keywords
spectrum
noise
normalized
amplitude
band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES15756036T
Other languages
English (en)
Inventor
Takuya Kawashima
Hiroyuki Ehara
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2969736T3 publication Critical patent/ES2969736T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

Este dispositivo de decodificación (100) decodifica datos codificados centrales obtenidos codificando un espectro de baja frecuencia de y por debajo de una frecuencia predeterminada y datos codificados de banda expandida obtenidos codificando un espectro de alta frecuencia de al menos una frecuencia predeterminada sobre la base del núcleo. datos codificados, en donde el dispositivo de decodificación (100) tiene: una unidad de normalización de amplitud (103) para hacer que la amplitud de un espectro decodificado central obtenido decodificando los datos codificados centrales se normalice por el valor máximo de la amplitud del espectro decodificado central , y generando un espectro normalizado; una unidad de generación de ruido (104) para generar un espectro de ruido; un primer sumador (105) para sumar el espectro de ruido al espectro normalizado y generar un espectro normalizado con ruido añadido; y una unidad de decodificación de banda expandida (106) para decodificar los datos codificados de banda expandida usando el espectro normalizado con ruido agregado y generando un espectro de banda expandida con ruido agregado. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Dispositivo de decodificación y método de decodificación
Campo de la invención
La presente invención se refiere a la decodificación de las señales de audio para reducir el ruido musical en las señales de audio y las señales de música (de aquí en adelante son referidas como las señales de audio y así sucesivamente).
Antecedentes de la Invención
La tecnología de codificación de música que comprime las señales de audio a una baja velocidad de bits es una tecnología importante en el uso eficiente de las ondas de radio y similares en la comunicación móvil. Además, ha sido mayor la demanda de calidad más alta en el audio de llamada de teléfono en los años recientes, y existe el deseo de un servicio de llamada que tenga una sensación de vida real. Esto puede ser realizado mediante la codificación de las señales de audio y así sucesivamente, de una banda de frecuencia ancha a una alta velocidad de bits. Sin embargo, este procedimiento contradice el uso eficiente de las ondas de radio y las bandas de frecuencia.
En cuanto al método para codificar las señales de una banda de frecuencia ancha con alta calidad a una baja velocidad de bits, existe una tecnología donde el espectro de las señales de entrada es dividido en los dos espectros de una porción de banda baja y una porción de banda alta, con la porción de banda alta que es sustituida por el duplicado de la porción de banda baja. Es decir, la velocidad total de bits se reduce al sustituir la porción de banda baja por la porción de banda alta (PTL 1).
En función de esta tecnología, existe una tecnología, a la luz del hecho que el espectro de banda alta tiene una menor desviación que el espectro de banda baja, en la que el espectro de banda baja es normalizado (suavizado) para cada subbanda, después de lo cual es obtenida la correlación con el espectro de banda alta. En consecuencia, el deterioro de la calidad del sonido puede ser evitado copiando el espectro de banda baja que tenga características de pico alto. Sin embargo, esta tecnología tiene un inconveniente porque, debido a que el espectro de banda baja que es expresado como un flujo de impulso discreto, el envolvente de las señales de entrada en el método de estimación del envolvente del flujo de impulso discreto es totalmente diferente del envolvente original. En consecuencia, ha sido propuesto un método en lugar de este método de normalización, donde la normalización se realiza en el valor de amplitud máxima de impulsos discretos en cada subbanda (PTL 2).
En la Figura 11 se muestra el dispositivo de codificación de acuerdo con el documento PTL 2. En este dispositivo de codificación, las señales de entrada se convierten en las señales de región de frecuencia por medio de un convertidor de frecuencia-tiempo 1010 y da salida como un espectro de señal de entrada, y la región de baja frecuencia del espectro de señal de entrada se codifica en una unidad de codificación de núcleo 1020 y da salida como los datos codificados de núcleo. Los datos codificados de núcleo después son decodificados y es generado un espectro codificado de núcleo de baja frecuencia, el cual es normalizado por el valor máximo de la amplitud en una unidad de normalización de amplitud de subbanda 1030 y es generado un espectro normalizado de banda baja. La banda de la porción de banda alta donde el valor de correlación en cuanto al espectro normalizado de banda baja es el más grande, y la ganancia entre el espectro normalizado de banda baja en esta banda y la porción de banda alta del espectro de entrada, son obtenidas y estas se codifican en una unidad de codificación de banda extendida 1060 y da salida como los datos codificados de banda extendida.
En la Figura 12 se ilustra un dispositivo de decodificación que corresponde con esto. Los datos codificados se dividen en los datos codificados de núcleo y los datos codificados de banda extendida en una unidad de separación 2010, los datos codificados de núcleo se decodifican en una unidad de decodificación de núcleo 2020 y es generado un espectro de banda baja codificado de núcleo. El espectro de banda baja codificado de núcleo se somete al mismo procesamiento como en el lado de dispositivo de codificación, el cual es la normalización por medio del valor más grande de la amplitud de muestra, con lo cual, se generan los datos de espectro normalizado de banda baja. Los datos de espectro normalizado de banda baja se utilizan después para decodificar los datos codificados de banda extendida por medio de una unidad de decodificación de banda extendida 2040, con lo cual, se genera el espectro de banda extendida.
También se describe la tecnología en donde la conmutación se realiza entre la unidad de normalización de amplitud de subbanda 1030 que realiza la normalización en el valor más grande de la muestra, y la unidad de normalización de envolvente de espectro 7020 que normaliza el envolvente de la potencia espectral de la muestra, de acuerdo con la intensidad de las características pico, como se ilustra en la Figura 13.
La tecnología de normalización en el valor más grande de la muestra, que se describe en PTL 2, es efectiva en un caso donde el espectro de banda baja se dispersa, es decir, en un caso donde el valor de amplitud de parte de las muestras es grande y el valor de amplitud de las otras muestras es casi de cero. Es decir, la tecnología de acuerdo con el documento PTL 2 suprime los espectros con una amplitud extremadamente grande que sean generados incluso para dispersar los espectros (homogenización), y puede producir espectros normalizados de banda baja con características planas (suavizamiento).
Lista de Citas
Literatura de Patentes
PTL 1: Patente Publicación Japonesa de Solicitud de Patente No Examinada (Traducción de Solicitud PCT) No. 2001 521648
PTL 2: La publicación internacional No 2013/ 035257 suprime los espectros con una amplitud extremadamente grande que sean generados incluso para dispersar los espectros (homogenización), y puede producir espectros normalizados de banda baja con características planas (suavizamiento).
El documento US 2013/018660 A1 describe el relleno de ruido en combinación con la ampliación del ancho de banda para la decodificación de audio.
Sumario
Sin embargo, los agujeros espectrales se presentan radialmente cuando el flujo de impulso se dispersa, y estos agujeros espectrales provocan el ruido que es llamado el ruido musical. La publicación internacional n° 2013/035257 no divulga ninguna medida adoptada contra el ruido musical debido a los agujeros espectrales al normalizar el espectro de banda baja por la mayor amplitud de la muestra.
Es un objeto de la invención proporcionar un concepto mejorado para la decodificación. Este objeto se obtiene mediante un dispositivo de decodificación de la reivindicación 1, un método de decodificación de la reivindicación 8 o un programa informático de la reivindicación 15.
Debe observarse que estas realizaciones generales o específicas podrían ser implementadas como un sistema, un dispositivo, un método, un circuito integrado, un programa de ordenador y un medio de almacenamiento, o podrían ser implementadas como cualquier combinación selectiva de un sistema, un método, un circuito integrado, un programa informático y un medio de almacenamiento.
De acuerdo con un dispositivo de decodificación de una realización de la presente descripción, las señales de audio de alta calidad y así sucesivamente pueden ser decodificadas con el ruido musical suprimido.
Breve descripción de las figuras
[Fig. 1] En la Figura 1 se muestra un diagrama de configuración de un dispositivo de decodificación de acuerdo con una primera realización de la presente descripción.
[Fig. 2] En la Figura 2 se muestra un diagrama de configuración de un dispositivo de decodificación de acuerdo con una segunda realización de la presente descripción.
[Fig. 3] En la Figura 3 se muestra un diagrama de configuración de otro dispositivo de decodificación de acuerdo con la segunda realización de la presente descripción.
[Fig. 4] En la Figura 4 se muestra un diagrama de configuración de un dispositivo de decodificación de acuerdo con una tercera realización de la presente descripción.
[Fig. 5] En la Figura 5 se muestra un diagrama explicativo de una unidad de generación de ruido de acuerdo con la tercera realización de la presente descripción.
[Fig. 6] En la Figura 6 se muestra un diagrama de configuración de un dispositivo de decodificación de acuerdo con una cuarta realización de la presente descripción.
[Fig. 7] En la Figura 7 se muestra un diagrama explicativo de una unidad de ajuste de amplitud de acuerdo con la cuarta realización de la presente descripción.
[Fig. 8] En la Figura 8 se muestra un diagrama de configuración de otro dispositivo de decodificación de acuerdo con la cuarta realización de la presente descripción.
[Fig. 9] En la Figura 9 se muestran diagramas explicativos que ilustran las operaciones de una unidad de reajuste de amplitud de otro dispositivo de decodificación de acuerdo con la cuarta realización de la presente descripción. [Fig. 10] En la Figura 10 se muestra un diagrama de configuración de un dispositivo de decodificación de acuerdo con una quinta realización de la presente descripción.
[Fig. 11] En la Figura 11 se muestra un diagrama de configuración de un dispositivo de codificación de acuerdo con la técnica convencional.
[Fig. 12] En la Figura 12 se muestra un diagrama de configuración de un dispositivo de decodificación de acuerdo con la técnica convencional.
[Fig. 13] En la Figura 13 se muestra un diagrama de configuración de un dispositivo de codificación de acuerdo con la técnica convencional.
[Fig. 14] En la Figura 14 se muestra un diagrama de configuración de un dispositivo de decodificación de acuerdo con una sexta realización de la presente descripción.
[Fig.15] En la Figura 15 se muestra un diagrama explicativo que ilustra las operaciones de una unidad de ajuste de amplitud espectral decodificada de núcleo de acuerdo con la sexta realización de la presente descripción.
[Fig. 16] En la Figura 16 se muestra un diagrama de configuración de un dispositivo de decodificación de acuerdo con una primera de otras esta realización de la presente descripción.
[Fig. 17] En la Figura 17 se muestra un diagrama de configuración de un dispositivo de decodificación de acuerdo con una segunda de otras esta realización de la presente descripción.
[Fig. 18]En la Figura 18 se muestra un diagrama de configuración de un dispositivo de decodificación de acuerdo con una séptima realización de la presente descripción.
[Fig. 19] En la Figura 19 se muestra un diagrama de configuración de una unidad de reajuste de amplitud del dispositivo de decodificación de acuerdo con la séptima realización de la presente descripción.
Descripción detallada de la invención
Las configuraciones y operaciones de las realizaciones de la presente descripción se describen más adelante con referencia a las figuras. Los ejemplos primero a quinto y el otro ejemplo del cuarto ejemplo no están comprendidos en el enunciado de las reivindicaciones. Se observa que las señales de salida de los dispositivos de decodificación y las señales de entrada hacia los dispositivos de codificación en la presente descripción incluyen, además de los casos de las señales de audio en el sentido angosto, también los casos de las señales de música que tienen el ancho de banda más amplio y además los casos donde estas coexisten.
Se observa que en la presente descripción, las “señales de entrada” es un concepto que incluye no sólo las señales de audio, sino también las señales de música que tienen el ancho de banda más amplio que las señales de audio, y las señales donde coexisten las señales de audio y las señales de música.
El “espectro de ruido” es un espectro donde la amplitud fluctúa, de manera irregular. Si el ciclo es regular aunque lo suficientemente grande para que sea considerado que es esencialmente irregular, este se considera que es incluido en irregular.
La “generación” de un espectro de ruido incluye provocar que ocurra un espectro de ruido, y también incluye la salida de un espectro de ruido guardado en un dispositivo de almacenamiento con anticipación o similares.
Con respecto a los términos “acoplamiento” y “conversión de frecuencia-tiempo”, el primero es temporalmente opcional, y estos podrían ser al mismo tiempo como una materia de curso. Es suficiente que los términos “acoplamiento” y “conversión de frecuencia-tiempo” sean realizados como resultado.
La “información de distribución de bits” significa la información que representa el número de bits distribuidos a una banda predeterminada de un espectro decodificado de núcleo.
La “información dispersa” es la información que representa el estado de distribución de los espectros de cero o los espectros diferentes de cero en un espectro decodificado de núcleo, y por ejemplo, es la información que indica, directa o indirectamente, la proporción de los espectros diferentes de cero o los espectros de cero en cuanto a los espectros totales, una banda predeterminada de un espectro decodificado de núcleo.
La “correlación” representa la similitud de dos espectros. Esto también incluye casos en donde la similitud es evaluada, de manera cuantitativa, utilizando un índice de correlación.
El “dispositivo de terminal” es un dispositivo que el usuario utiliza, los ejemplos del mismo son teléfon os celulares, teléfonos inteligentes, dispositivos de karaoke, computadoras personales, receptores de televisión, grabadoras digitales de voz y así sucesivamente.
El “dispositivo de estación de base” es un dispositivo que transmite, directa o indirectamente, las señales a un dispositivo de terminal, o recibe, directa o indirectamente, las señales del dispositivo de terminal. Los ejemplos incluyen el eNodo B, varios tipos de servidores, puntos de acceso y así sucesivamente.
El “componente diferente de cero” es un componente en donde se considera que existe un impulso. Los impulsos que son iguales o más pequeños que la intensidad predeterminada en donde los impulsos no se considera que existan son el componente de cero, y no el componente diferente de cero. Es decir, no todos los impulsos contenidos en un espectro original normalizado son necesariamente los componentes diferentes de cero.
Primer ejemplo
En la Figura 1 se muestra un diagrama de bloque que ilustra la configuración de un dispositivo de decodificación de acuerdo con una primera realización. El dispositivo de decodificación 100 que se ilustra en la Figura 1 incluye una unidad de separación 101, una unidad de decodificación de núcleo 102, una unidad de normalización de amplitud 103, una unidad de generación de ruido 104, una primera unidad de adición 105, una unidad de decodificación de banda extendida 106 y un convertidor de frecuencia-tiempo 107. Una antena A se conecta con la unidad de separación 101.
La antena A recibe los datos codificados de núcleo y los datos codificados de banda extendida. Los datos codificados del núcleo son datos codificados obtenidos mediante la codificación de un espectro de banda baja de una frecuencia predeterminada o inferior en señales de entrada mediante un dispositivo de codificación. Los datos codificados de banda extendida son datos codificados obtenidos mediante la codificación de un espectro de banda alta de una frecuencia predeterminada o superior en señales de entrada. Los datos codificados de banda extendida son codificados en función de un espectro de banda baja codificado de núcleo obtenido al decodificar los datos codificados de núcleo de un espectro de banda alta de una frecuencia predeterminada en las señales de entrada. Como un ejemplo específico, la información de retraso que es la información que indica una banda particular donde la correlación entre un espectro de banda alta y el espectro de banda baja codificado de núcleo es la más grande, y la ganancia entre un espectro de banda alta y el espectro de banda baja codificado de núcleo en una banda particular. Esta codificación se describe por medio de un ejemplo específico en una quinta realización. Se observa que los datos codificados de banda de amplitud entrados al dispositivo de decodificación de acuerdo con la presente realización no son restringidos para este ejemplo específico.
La unidad de separación 101 separa los datos codificados de núcleo de entrada y los datos codificados de banda extendida. La unidad de separación 101 da salida a los datos codificados de núcleo hacia la unidad de decodificación de núcleo 102 y los datos codificados de banda extendida hacia la unidad de decodificación de banda extendida 106.
La unidad de decodificación de núcleo 102 decodifica los datos codificados de núcleo y genera un espectro decodificado de núcleo. La unidad de decodificación de núcleo 102 da salida al espectro decodificado de núcleo hacia la unidad de normalización de amplitud 103 y el convertidor de frecuencia-tiempo 107.
La unidad de normalización de amplitud 103 normaliza el espectro decodificado de núcleo y genera un espectro normalizado. De manera específica, la unidad de normalización de amplitud 103 divide el espectro decodificado de núcleo en múltiples subbandas, y normaliza el espectro de cada subbanda por medio del valor más grande de amplitud (valor absoluto) del espectro incluido en cada subbanda. De esta manera, el valor más grande del espectro en cada subbanda después de la normalización es unificado entre las subbandas. En consecuencia, no existen más espectros con una amplitud extremadamente grande en el espectro normalizado.
Se observa que la división del espectro decodificado de núcleo en subbandas es opcional. El método de división en subbandas también es opcional. Por ejemplo, el ancho de banda de las subbandas podría ser uniforme o no uniforme.
La unidad de normalización de amplitud 103 da salida al espectro normalizado hacia la primera unidad de adición 105 y la unidad de decodificación de banda extendida 106.
La unidad de generación de ruido 104 genera un espectro de ruido. Un espectro de ruido es un espectro donde la amplitud fluctúa, de manera irregular. Un ejemplo específico es un espectro donde el sentido positivo/negativo es aleatoriamente asignado a cada componente de frecuencia. Con la condición de que el sentido positivo/negativo sea aleatorio, la amplitud podría ser un valor constante, o podría ser un valor de amplitud generado en forma aleatoria, dentro de un intervalo.
El método de generación del espectro de ruido podría ser generado según sea necesario en función de los números aleatorios, o un arreglo donde un espectro de ruido que se genera con anticipación es guardado en un dispositivo de almacenamiento tal como en una memoria o similares, y es llamado y se deja salir. Los múltiples espectros de ruido podrían ser llamados y agregados, los componentes de número non y los componentes de número par podrían ser combinados, y la polaridad podría ser aleatoriamente asignada cuando se agreguen o combinen. En forma alterna, un componente de espectro de cero en el espectro decodificado de núcleo podría ser detectado y un espectro de ruido podría ser generado para llenar este. Además, un espectro de ruido podría ser generado de acuerdo con las características de un espectro decodificado de núcleo.
Se observa que el espectro de ruido no es restringido a uno, y que uno podría ser seleccionado y salido a partir de los múltiples espectros de ruido de acuerdo con condiciones predeterminadas. Un ejemplo de los múltiples espectros de ruido que están siendo generados se describe en una tercera realización.
La unidad de generación de ruido 104 da salida al espectro de ruido hacia la primera unidad de adición 105.
La primera unidad de adición 105 agrega el espectro normalizado y el espectro de ruido y genera un espectro normalizado agregado de ruido. En consecuencia, el espectro de ruido se agrega al menos a la región de componente cero del espectro normalizado.
La primera unidad de adición 105 después da salida al espectro normalizado agregado de ruido hacia la unidad de decodificación de banda extendida 106.
En la presente realización, el espectro de ruido se agrega al espectro normalizado que es un espectro después de la normalización en la unidad de normalización de amplitud 103, y no al espectro decodificado de núcleo que es el espectro de entrada antes de la normalización en la unidad de normalización de amplitud 103. La razón es como sigue.
La amplitud del espectro de ruido añadido suele ser menor que la amplitud del espectro decodificado del núcleo, y el espectro decodificado del núcleo es disperso, por lo que en caso de realizar la normalización para subbandas cortas de unas 15 muestras, muchas subbandas serán todas cero. La adición del espectro de ruido al núcleo antes de la normalización en este caso tiene el siguiente problema.
En primer lugar, se agrega un espectro de ruido de bajo nivel a todas las subbandas de cero. De esta manera, este espectro de ruido por sí mismo se vuelve un valor más grande y es normalizado como 1, de modo que si no existiera un pico en la subbanda, el ruido total es amplificado. Por otro lado, en un caso donde existe un pico dentro de la subbanda, el espectro del pico que originalmente existe es el valor más grande, de modo que el componente de ruido permanece en un bajo nivel mediante la normalización, o en realidad se vuelve más pequeño debido a la normalización. En consecuencia, los espectros de ruido con gran amplitud son agregados, en forma local, a las subbandas que originalmente tienen todos los componentes de cero.
Por el contrario, la presente realización agrega el espectro de ruido después de la normalización, de modo que puede evitarse la amplificación de exceso del espectro de ruido debido a la normalización.
La unidad de decodificación de banda extendida 106 decodifica los datos codificados de banda extendida utilizando el espectro normalizado agregado de ruido y el espectro normalizado.
De manera específica, la unidad de decodificación de banda extendida 106 decodifica los datos codificados de banda extendida y obtiene la información de retraso y la ganancia. La unidad de decodificación de banda extendida 106 identifica la banda del espectro normalizado agregado de ruido que será copiado con la banda extendida que es la porción de banda alta, en función de la información de retraso y el espectro normalizado, y copia una banda predeterminada del espectro normalizado agregado de ruido en la banda extendida. La unidad de decodificación de banda extendida 106 obtiene el espectro de banda extendida agregada de ruido multiplicando el espectro copiado normalizado agregado de ruido por la ganancia decodificada.
La unidad de decodificación de banda extendida 106 después da salida al espectro de banda extendida agregada de ruido hacia el convertidor de frecuencia-tiempo 107.
El convertidor de frecuencia-tiempo 107 acopla el espectro decodificado de núcleo que constituye la porción de banda baja y el espectro de banda extendida agregada de ruido que constituye la porción de banda alta, con lo cual, se genera un espectro decodificado. El convertidor de frecuencia-tiempo 107 después convierte el espectro decodificado en las señales de región de tiempo al realizar la transformada ortogonal en el espectro decodificado y da salida como las señales de salida.
Las señales de salida salidas del dispositivo de decodificación 100 pasan a través de un convertidor DA, un amplificador, un altavoz y así sucesivamente los cuales son omitidos de la ilustración y salen como las señales de audio, las señales de música o las señales donde estas coexisten.
De esta manera, de acuerdo con la presente realización, el espectro normalizado se agrega al espectro normalizado, de modo que la ocurrencia del ruido musical puede ser suprimida incluso en un caso donde el espectro normalizado se dispersa. Es decir, la presente realización produce las ventajas en las que puede ser mantenidas las ventajas de homogenización y suavizamiento que son obtenidas mediante la normalización por medio del valor más grande de un espectro, mientras se compensan los inconvenientes que tiene este método de normalización.
Asimismo, el espectro de ruido ha sido agregado al espectro normalizado después de la normalización en la unidad de normalización de amplitud 103 en la presente realización, de modo que puede ser evitada la amplificación excesiva del espectro de ruido mediante la normalización, con lo cual, se produce la ventaja que pueden ser obtenidas las señales de salida con una alta calidad de sonido.
Segunda realización
A continuación, la configuración de un dispositivo de decodificación 200 de acuerdo con una segunda realización de la presente descripción se describe con referencia a la Figura 2. Los bloques que tienen la misma configuración como en la Figura 1 se denotan mediante los mismos números de referencia. La diferencia entre el dispositivo de decodificación 200 de acuerdo con la presente realización y el dispositivo de decodificación 100 en la primera realización es que el dispositivo de decodificación 200 tiene una segunda unidad de adición 201. Otros componentes son básicamente los mismos que en la primera realización, de modo que la descripción será omitida.
La segunda unidad de adición 201 agrega el espectro de ruido generado por la unidad de generación de ruido 104 al espectro decodificado de núcleo salido de la unidad de decodificación de núcleo 102, y genera un espectro decodificado de núcleo agregado de ruido. La segunda unidad de adición 201 después da salida al espectro decodificado de núcleo agregado de ruido hacia el convertidor de frecuencia-tiempo 107.
El convertidor de frecuencia-tiempo 107 acopla el espectro decodificado de núcleo agregado de ruido que constituye la porción de banda baja y el espectro de banda extendida agregada de ruido que constituye la porción de banda alta, con lo cual, se genera un espectro decodificado. El convertidor de frecuencia-tiempo 107 después convierte el espectro decodificado en las señales de región de tiempo al realizar la transformada ortogonal en el espectro decodificado y da salida como las señales de salida.
De esta manera, de acuerdo con la presente realización, el espectro de ruido se agrega no sólo al espectro normalizado que constituye la porción de banda alta sino también al espectro decodificado de núcleo que constituye la porción de banda baja, de modo que puede ser suprimido el ruido musical que ocurre a partir del espectro de banda baja, que es importante para la escucha. Obviamente, el ruido musical puede ser suprimido incluso en un caso de generación de las señales de salida utilizando sólo el espectro decodificado de núcleo.
(Otro ejemplo del segundo ejemplo)
A continuación, la configuración de un dispositivo de decodificación 210 que es otro ejemplo de la segunda realización de la presente descripción se describe con referencia a la Figura 3. Los bloques que tienen la misma configuración como en las Figuras 1 y 2 se denotan mediante los mismos números de referencia. El dispositivo de decodificación 210 de acuerdo con la presente realización difiere del dispositivo de decodificación 200 en la segunda realización en que no da salida al espectro de ruido, que es salido hacia la primera unidad de adición 105, directamente de la unidad de generación de ruido 104, sino más bien genera el espectro de ruido sustrayendo el espectro decodificado de núcleo del espectro decodificado de núcleo agregado de ruido en la unidad de substracción 202 y da salida a este. Otros componentes son básicamente los mismos que en la segunda realización, de modo que la descripción será omitida.
La unidad de generación de ruido 104 detecta un componente de espectro de cero del espectro decodificado de núcleo y genera un espectro de ruido para llenar este.
La segunda unidad de adición 201 agrega el espectro de ruido generado por la unidad de generación de ruido 104 al espectro decodificado de núcleo salido de la unidad de decodificación de núcleo 102 y genera un espectro decodificado de núcleo agregado de ruido. La segunda unidad de adición 201 después da salida al espectro decodificado de núcleo agregado de ruido hacia el convertidor de frecuencia-tiempo 107 y una unidad de substracción 202.
La unidad de substracción 202 sustrae el espectro decodificado de núcleo del espectro decodificado agregado de ruido, y toma esta diferencia como el espectro de ruido y da salida hacia la primera unidad de adición 105.
La razón porque este procedimiento es realizado se describe más adelante. El procesamiento de adición del espectro de ruido al espectro decodificado de núcleo puede ser realizado mediante la detección de un componente de espectro de cero del espectro decodificado de núcleo, y la adición en un espectro de ruido para llenar este, como en el caso de la presente realización, además del caso de realización al agregar el espectro de ruido generado, de manera independiente, al espectro decodificado de núcleo. En este caso, el espectro normalizado es impuesto en el espectro decodificado de núcleo e inmediatamente se vuelve integral con el espectro decodificado de núcleo, de modo que el espectro de ruido que será salido hacia la primera unidad de adición 105 necesita ser obtenido mediante un método separado.
En consecuencia, la unidad de substracción 202 es proporcionada en la presente realización, y el espectro decodificado de núcleo es sustraído del espectro decodificado de núcleo agregado de ruido, con lo cual, se extrae el espectro de ruido.
En este caso, la unidad de generación de ruido 104, la segunda unidad de adición 201 y la unidad de sustracción 202 constituyen juntas la unidad de generación de ruido de acuerdo con la presente descripción.
De esta manera, de acuerdo con la presente realización, el espectro de ruido no se agrega a los espectros diferentes del espectro de cero de los espectros que constituyen el espectro decodificado de núcleo, de modo que puede ser realizada una decodificación más precisa, y pueden ser obtenidas señales de salida con una alta calidad de imagen.
(Tercer ejemplo)
A continuación, la configuración de un dispositivo de decodificación 300 de una tercera realización de acuerdo con la presente descripción se describe con referencia a la Figura 4. Los bloques que tienen la misma configuración como en las Figuras 1 y 2 se denotan mediante los mismos números de referencia. La diferencia entre el dispositivo de decodificación 300 de acuerdo con la presente realización y el dispositivo de decodificación 200 de acuerdo con la segunda realización es en que el dispositivo de decodificación 300 tiene una unidad de generación de ruido 301 en lugar de la unidad de generación de ruido 104. Otros componentes son básicamente los mismos que en la segunda realización, de modo que la descripción será omitida.
La unidad de generación de ruido 301 tiene la capacidad de generar múltiples espectros diferentes de ruido, y puede cambiar el espectro ruido de salida es de acuerdo con las características de los espectros decodificados de núcleo.
En la Figura 5 se muestra un diagrama de flujo que ilustra la operación de la unidad de generación de ruido 301. La unidad de generación de ruido 301 recibe la información de norma de banda de la unidad de decodificación de núcleo 102 (la información de amplitud promedio de banda), la información de distribución de bits, y la información dispersa (S1). Aunque la información de distribución es la información que representa el número de bits distribuidos a una banda particular del espectro decodificado de núcleo. Por ejemplo, las Recomendaciones ITU-T G.722.1 y también G.719 de la misma, la información de norma de un espectro (el valor promedio de amplitud para cada banda, o la información de acuerdo con la misma (el coeficiente de escala, por la energía, etc.)) se codifica y la distribución de bits se decide en función de esta información de norma. La información dispersa es la información que indica la proporción de los espectros diferentes de cero en cuanto a todos los espectros en una banda particular del espectro decodificado de núcleo (o por el contrario podría definirse como la proporción de los espectros de cero).
A continuación, la unidad de generación de ruido 301 calcula un primer coeficiente de ajuste de amplitud de ruido C1 utilizando la información de distribución de bits (S2). C1 se calcula utilizando una función F(b) de un recuento de bits asignado b, por ejemplo. La función F(b) da como resultado un valor fijo Nb cuando b = 0, da como resultado 0 cuando b > ns, y da como resultado un valor entre Nb y 0 cuando 0 < b < ns, en donde cuanto más cerca esté b de ns, más cerca estará el valor de 0. Por ejemplo este es una función tal como se ilustra en la siguiente Fórmula (1).
[Matemática 1]
................ ( i )
Aquí, Nb es una constante entre 0 y 1.0, y us es un valor de un coeficiente de ajuste de amplitud de ruido utilizado en un caso donde no existe distribución de bits.ns es una constante, y es un recuento de bits necesario para una cuantización de alta calidad del espectro. En el número de bits es el mismo número que este conteo de bits o más, la cuantización puede ser realizada en un nivel donde no es problemático el error de cuantización, de modo que no existe necesidad de agregar ruido. C1 podría calcularse para cada banda donde se realiza la distribución de bits, o múltiples bandas podrían ser agrupadas y calculadas para todas las bandas agrupadas.
Además, la unidad de generación de ruido 301 da salida un segundo coeficiente de ajuste de amplitud de ruido C2 utilizando la información dispersa (S3). C2 es definido como en la siguiente Fórmula (2) como una proporción de espectro cero Sp en el número total de espectros de las bandas objetivo, por ejemplo.
[Matemática 2]
Aquí, Nz representa el número de los espectros de cero, y Lb representa el número total de espectros de las bandas objetivo. Cuanto mayor sea la proporción de espectros de cero, mayor será el valor de Sp, que es una variable entre 0 y 1,0. La siguiente Expresión (3) podría utilizarse en lugar de la Expresión (2).
[Matemática 3]
Finalmente, la unidad de generación de ruido 301 utiliza el primer y segundo coeficientes de ajuste de amplitud de ruido Cl y C2 para calcular una amplitud de ruido LN en función de la siguiente Espresión (4). (S4)
[Matemática 4]
Aquí, |E(i)| es la información de norma de banda (la información de amplitud promedio de banda) para la i-enésima banda. Se observa que b y Sp representan el conteo de distribución de bits y la información de espacio con respecto a la i-enésima banda.
Aunque ambas de C1 y C2 se utilizaron en la presente realización, LN podría obtenerse utilizando sólo una o la otra. De esta manera, en la presente realización, la unidad de generación de ruido 301 decide la amplitud del espectro de ruido que será generada, en función de la información de norma de banda, la información de distribución de bits y la información dispersa. Por consiguiente, el espectro de ruido puede añadirse de forma adaptativa en función del grado de cuantización, lo que ofrece la ventaja de que puede evitarse el deterioro del ruido debido a la adición de demasiado ruido cuando se ha realizado una cuantización fina.
Aunque un ejemplo ha sido descrito en la presente realización donde la información de distribución de bits y la información dispersa son salidas de la unidad de decodificación de núcleo 102, esto no es restrictivo. Por ejemplo, un arreglo podría ser realizado donde el espectro decodificado de núcleo es entrado a la unidad de generación de ruido 301, la unidad de generación de ruido 301 analiza el espectro decodificado de núcleo y obtiene la información de norma de banda, la información de distribución de bits y la información de espacio por sí misma.
Se observa que un arreglo ha sido descrito donde la unidad de generación de ruido 104 en la segunda realización es sustituida por la unidad de generación de ruido 301, aunque la unidad de generación de ruido 104 de acuerdo con la primera realización podría ser sustituida por la unidad de generación de ruido 301.
Aunque la presente realización describe que LN es calculada y aplicada para cada banda i, múltiples bandas podrían ser agrupadas y calculadas y adaptadas, o el valor promedio de la LN calculada para cada i podría ser aplicado como una LN uniforme para todas las bandas.
(Cuarto ejemplo)
A continuación, la configuración de un dispositivo de decodificación 400 de acuerdo con una cuarta realización de la presente descripción se describe con referencia a la Figura 6. Los bloques que tienen la misma configuración que en las Figuras 1, 2, y 4 son denotados con los mismos números de referencia. La diferencia entre el dispositivo de decodificación 400 de acuerdo con la presente realización y el dispositivo de decodificación 200 de acuerdo con la segunda realización es que el dispositivo de decodificación 400 de acuerdo con la presente realización incluye una unidad de normalización de amplitud de ruido 401 y una unidad de ajuste de amplitud 402. Otros componentes son básicamente los mismos que la segunda realización, de modo que la descripción será omitida.
La unidad de normalización de amplitud de ruido 401 normaliza el espectro normalizado generado en la unidad de generación de ruido 104 y genera un espectro normalizado de ruido. Las operaciones de la unidad de normalización de amplitud de ruido 401 son las mismas que las operaciones de la unidad de normalización de amplitud 103, aunque podrían ser diferentes. Por ejemplo, en un caso donde el procesamiento es realizado en la unidad de normalización de amplitud 103 para colocar los componentes espectrales por debajo de un valor de umbral en cero con el propósito de realizar la dispersión, este valor de umbral podría ser establecido en un valor de bajo umbral en la unidad de normalización de amplitud de ruido 401 para hacer el grado de dispersión pequeño en cuanto al espectro de ruido. La unidad de normalización de amplitud de ruido 401 después da salida al espectro normalizado de ruido hacia la unidad de ajuste de amplitud 402.
La unidad de ajuste de amplitud 402 ajusta la amplitud del espectro normalizado de ruido de manera que la unidad de normalización de amplitud de ruido 401 tenga salida. El espectro normalizado de ruido del cual la amplitud ha sido ajustada después es salido hacia la primera unidad de adición 105. Los detalles de las operaciones de la unidad de ajuste de amplitud 402 se describen más adelante.
La primera unidad de adición 105 agrega el espectro normalizado y el espectro normalizado de ruido del cual la amplitud ha sido ajustada, con lo cual, se genera un espectro normalizado agregado de ruido.
La primera unidad de adición 105 después da salida al espectro normalizado agregado de ruido hacia la unidad de decodificación de banda extendida 106.
En la Figura 7 se muestra un diagrama de flujo que ilustra las operaciones de la unidad de ajuste de amplitud 402. La unidad de ajuste de amplitud 402 recibe el espectro decodificado de núcleo X(j), la información de norma de banda |E(i)|, la información de distribución de bits, y la información dispersa, salida de la unidad de decodificación de núcleo 102 (S1).
La unidad de ajuste de amplitud 402 después analiza el espectro decodificado de núcleo X(j) y la información de norma de banda |E(i)| y obtiene la diferencia entre una amplitud promedio |XE(i)| calculada a partir del espectro decodificado de núcleo X(j) y la información de norma de banda |E(i)| (la información de norma de banda). La relación entre el error obtenido y la norma decodificada (la información de norma de banda) se utiliza para calcular un coeficiente de ajuste de amplitud de ruido de acuerdo con la siguiente Fórmula (5) (S2). Se observa que i representa el número de banda, y j representa el número de espectro incluido en la i-enésima banda.
[Matemática 5]
Aquí, a es un coeficiente de ajuste que asume un valor entre 0 y 1,0.
La unidad de ajuste de amplitud 402 después calcula el coeficiente de ajuste de amplitud de ruido C1 de acuerdo con la Fórmula (1), en el mismo modo que la tercera realización, utilizando la información de distribución de bits (S3). La unidad de ajuste de amplitud 402 además calcula el coeficiente de ajuste de amplitud de ruido C2 de acuerdo con la Fórmula (2), en el mismo modo que la tercera realización, utilizando la información dispersa del espectro normalizado (S4).
Finalmente, la unidad de ajuste de amplitud 402 calcula la amplitud de ruido LN mediante la siguiente Fórmula (6) en función de los resultados de (S2), (S3), y (S4), y ajusta la amplitud del espectro normalizado de ruido (S5).
[Matemática 6]
Aunque todas de C0, C1, y C2 se utilizaron en la presente realización, LN podría obtenerse utilizando al menos una.
Aunque la información dispersa del espectro normalizado se utiliza como la información dispersa de obtención de C2 en la presente realización, la información dispersa obtenida a partir del espectro decodificado de núcleo podría utilizarse, o ambas podrían utilizarse en conjunto.
Además, un arreglo podría ser realizado donde la relación de amplitud del espectro decodificado de núcleo y el espectro de ruido agregado al espectro decodificado es un coeficiente de ajuste de amplitud de ruido C3, y la amplitud de ruido LN es obtenida de la siguiente Fórmula (7) en función de C3. Obviamente, C3 podría ser obtenida de manera independiente, y LN podría ser obtenida utilizando al menos una de C0, C1, C2, y C3.
[Matemática 7]
LN=\E(i)\• C0 ■ C1 • C2 ■ C3
...............17)
Se observa que de preferencia LN es suavizada entre los cuadros, para la estabilidad entre cuadros del nivel de ruido. Una fórmula tal como LN(f) = p x LN (f - 1) (1 - p) x LN(f) podría utilizarse para el suavizamiento. Aquí, LN(f) es LN en el número de cuadro f, y p es un coeficiente de suavizamiento. p asume un valor entre 0 y 1.
De acuerdo con la presente realización, el espectro decodificado de núcleo es normalizado en la unidad de normalización de amplitud 103, en donde el espectro de ruido es normalizado en la unidad de normalización de amplitud de ruido 401, de modo que los espectros que tienen una naturaleza común son producidos (por ejemplo, la amplitud de los espectros es generalmente uniforme) por el espectro decodificado de núcleo y el espectro de ruido que pasan a través de las vías de comparación, de modo que ambas señales puede ser realizadas para que sean señales que pueden ser manejadas en la misma etapa.
Asimismo, de acuerdo con la presente realización, el espectro de ruido agregado a la porción de banda alta (el espectro normalizado de ruido) es salido por medio de la unidad de normalización de amplitud de ruido 401 y la unidad de ajuste de amplitud 402, mientras el espectro de ruido agregado a la porción de banda baja no se dirige a través de la unidad de normalización de amplitud de ruido 401 ni la unidad de ajuste de amplitud 402, de modo que puede hacerse que las características difieran entre el espectro de ruido agregado a la porción de banda alta (el espectro normalizado de ruido) y el espectro de ruido agregado a la porción de banda baja. En consecuencia, la correlación puede ser reducida entre la porción de banda baja y la porción de banda alta, por medio de lo cual puede ser generado un espectro de ruido con más características aleatorias.
De acuerdo con la presente realización, el espectro normalizado de ruido tiene la amplitud ajustada en la unidad de ajuste de amplitud 402, de esta manera se produce la ventaja que puede ser evitado el deterioro debido a la adición de mucho ruido.
Aunque un ejemplo ha sido descrito en la presente realización donde la información de distribución de bits y la información dispersa son salidas de la unidad de decodificación de núcleo 102, esto no es restrictivo. Por ejemplo, un arreglo podría ser realizado donde el espectro decodificado de núcleo es entrado a la unidad de ajuste de amplitud 402, la unidad de ajuste de amplitud 402 analiza el espectro decodificado de núcleo y obtiene la información de norma de banda, la información de distribución de bits y la información de espacio por sí mismo.
Se observa que un arreglo ha sido descrito donde la unidad de normalización de amplitud de ruido 401 y la unidad de ajuste de amplitud 402 son agregadas a la configuración de la segunda realización, estas podrían ser agregadas a la primera realización o la tercera realización.
(Otro ejemplo del cuarto ejemplo)
A continuación, la configuración de otro dispositivo de decodificación 410 de acuerdo con la cuarta realización de la presente descripción se describe con referencia a la Figura 8. Los bloques que tienen la misma configuración que la Figura 6 se denotan mediante los mismos números de referencia. La diferencia entre el dispositivo de decodificación 410 y el dispositivo de decodificación 400 de acuerdo con la cuarta realización es que el dispositivo de decodificación 410 de acuerdo con la presente realización has una unidad de reajuste de amplitud 403. Otros componentes son básicamente los mismos que en la cuarta realización, de modo que la descripción será omitida.
La unidad de reajuste de amplitud 403 genera una banda extendida utilizando el espectro decodificado de núcleo en la cual es agregado el ruido, y posteriormente, reajusta la amplitud del componente agregado de ruido. Este reajuste puede ser realizado como se ilustra en la Figura 9.
En la Figura 9, (a) representa el espectro normalizado salido de la unidad de normalización de amplitud 103, y (b ) representa el espectro normalizado agregado de ruido salido de la primera unidad de adición 105. Como se ilustra por medio de (fig. c), el espectro normalizado agregado de ruido se desplaza hacia una banda extendida en función de la información de retraso, con lo cual, se genera un espectro de banda extendida que se multiplica por la ganancia. En (la fig. b), sólo se ilustra la i-enésima banda que es la banda más baja en la banda extendida. E(i) en esta figura representa la información de norma de banda (la energía de banda) de la i-enésima banda, y la porción rodeada por la línea punteada (fig. d) es el espectro normalizado agregado de ruido especificado por la información de retraso (especificada por la unidad de decodificación de banda extendida 106). Una correspondiente banda extendida (aquí, la i-enésima banda) se multiplica por una ganancia adecuada G es copiada. La porción rodeada por la línea punteada (fig. e) es la banda extendida. El reajuste de amplitud del componente agregado de ruido se realiza del siguiente modo. El primer lugar, se decide un valor de umbral Th. El valor Th es un valor que es, por ejemplo, la mitad de la amplitud más grande del espectro normalizado. En un caso donde la amplitud del espectro normalizado se restringe a una amplitud particular o por encima, el valor más pequeño de amplitud del espectro normalizado podría ser de Th. En forma alterna, podría utilizarse un valor de amplitud promedio de los espectros normalizados que tienen un valor. Una vez más, podría utilizarse un valor de amplitud promedio de los espectros agregados de ruido. Además, estos valores podrían ser valores multiplicados por una constante y podrían ser ajustados.
El valor Th y la amplitud del mismo en un caso donde la amplitud más pequeña del espectro normalizado se utiliza como Th se ilustran en (fig. 9B) mediante una línea separada de dos puntos.
Los componentes que tienen una amplitud más pequeña que este valor Th se definen como los componentes de ruido. A continuación, con respecto al espectro de la i-enésima banda generada por la extensión de banda, se selecciona un espectro que tenga una amplitud menor que el valor umbral G-Th y se define como componente de ruido, y se calcula la energía del componente de ruido de la i-enésima banda (establecida como EN(i)).
A continuación, es obtenida una SEN(i), que es EN(i) suavizada en la dirección axial de tiempo mediante la siguiente Expresión (8).
[Matemática 8]
SEN (i) ~ <7xpSEN(i)+ (1 - <<j>) xEN (i)
...............( 8 )
Aquí, o representa un coeficiente de suavizamiento que es una constante de 0 a 1 y cercana a 1, y pSEN(i) representa SEN(i) de un cuadro anterior.
El componente de ruido se multiplica después por VSEN(i)/V EN(i), de modo que la energía del espectro de rui do de la i-enésima banda es SEN(i).
En el mismo modo, el reajuste de amplitud se realiza en los componentes de ruido de las bandas de otras bandas extendidas. Además, en un caso donde exista una variancia en las bandas SEN(i) de otras bandas extendidas, podría ser realizado el reajuste de amplitud para suprimir esta variancia. De manera específica, es obtenido un valor promedio AEN de EN(i) en todas las bandas de la banda extendida, el componente de ruido de cada banda es multiplicado por AEN/EN(i), de modo que la EN(i) de todas las bandas es igual a AEN, y posteriormente, es realizado el procesamiento de suavizamiento entre cuadros.
Se observa que son opcionales el orden, en el cual el procesamiento de alineación de la energía del componente de ruido en cada banda y el procesamiento de suavizamiento entre cuadros, y que sólo podría ser realizado uno o el otro.
(Quinto ejemplo)
Los ejemplos de dispositivos de decodificación se han descrito en los ejemplos primero a cuarto. La presente descripción también puede aplicarse a los dispositivos de codificación. De aquí en adelante, la configuración de un dispositivo de codificación 500 de acuerdo con una quinta realización de la presente descripción se describe con referencia a la Figura 10.
En la Figura 10 se muestra un diagrama de bloque que incluye la configuración de un dispositivo de codificación de acuerdo con un quinto ejemplo. Un dispositivo de codificación 500 que se ilustra en la Figura 10 se configura para incluir un convertidor de frecuencia-tiempo 501, una unidad de codificación de núcleo 502, una unidad de normalización de amplitud 503, una unidad de generación de ruido 504, una unidad de normalización de amplitud de ruido 505, una unidad de ajuste de amplitud 506, una primera unidad de adición 507, una unidad de búsqueda de banda 508, una unidad de cálculo de ganancia 509, una unidad de codificación de banda extendida 510, un multiplexor 511 y una unidad de almacenamiento de candidata de posición de búsqueda de retraso 512. Una antena A se conecta con el multiplexor 511.
El convertidor de frecuencia-tiempo 501 convierte las señales de entrada, que son las señales de audio y de región de tiempo y así sucesivamente, en las señales de región de frecuencia y da salida al espectro obtenido de señal de entrada hacia la unidad de codificación de núcleo 502, la unidad de búsqueda de banda 508 y la unidad de cálculo de ganancia 509.
La unidad de codificación de núcleo 502 codifica el espectro de banda baja del espectro de señal de entrada y genera los datos codificados de núcleo. Un ejemplo de codificación es la codificación CELP y la codificación de transformada. La unidad de codificación de núcleo 502 da salida a los datos codificados de núcleo hacia el multiplexor 511. La unidad de codificación de núcleo 502 decodifica los datos codificados de núcleo y da salida al espectro obtenido decodificado de núcleo hacia la unidad de normalización de amplitud 503.
Las operaciones de la unidad de normalización de amplitud 503, la unidad de generación de ruido 504 y la unidad de normalización de amplitud de ruido 505 y la unidad de ajuste de amplitud 506 son las mismas que las que se describen en la tercera y cuarta realizaciones, de modo que la descripción será omitida.
La unidad de almacenamiento de candidata de posición de búsqueda de retraso 512 almacena las posiciones (frecuencias) de los componentes donde la amplitud del espectro normalizado no es de cero, como las posiciones de candidata para la búsqueda de banda. La unidad de almacenamiento de candidata de posición de búsqueda de retraso 512 después da salida a la información almacenada de posición candidata hacia la unidad de búsqueda de banda 508.
La primera unidad de adición 507 agrega el espectro normalizado y el espectro normalizado de ruido del cual la amplitud ha sido ajustada y genera un espectro normalizado agregado de ruido.
La primera unidad de adición 507 después da salida al espectro normalizado agregado de ruido hacia la unidad de búsqueda de banda 508 y la unidad de cálculo de ganancia 509.
La unidad de búsqueda de banda 508, la unidad de cálculo de ganancia 509 y la unidad de codificación de banda extendida 510 realizan el procesamiento de codificación del espectro de banda alta del espectro de señal de entrada.
La unidad de búsqueda de banda 508 busca una banda particular donde la correlación entre el espectro de banda alta y el espectro normalizado agregado de ruido sea la más grande en el espectro de señal de entrada. La búsqueda se realiza mediante la selección de candidatas de las posiciones de candidata entradas a partir de la unidad de almacenamiento de candidata de posición de búsqueda de retraso 512 donde la correlación es la más grande. La unidad de búsqueda de banda 508 después da salida a la información de retraso, la cual es la información que indica una banda particular de búsqueda, hacia la unidad de cálculo de ganancia 509 y la unidad de codificación de banda extendida 510.
La unidad de cálculo de ganancia 509 calcula la ganancia entre el espectro de banda alta en una banda particular y el espectro normalizado agregado de ruido, y da salida hacia la unidad de codificación de banda extendida 510.
La unidad de codificación de banda extendida 510 codifica la información de retraso y ganancia, y genera los datos codificados de banda extendida. La unidad de codificación de banda extendida 510 entonces, da salida a los datos codificados de banda extendida hacia el multiplexor 511.
El multiplexor 511 multiplexa los datos codificados de núcleo y los datos codificados de banda extendida y los transmite por medio de la antena A.
De esta manera, de acuerdo con la presente realización, la búsqueda (la búsqueda de retraso, la búsqueda de similitud) de un espectro de banda alta se realiza utilizando un espectro agregado de componente de ruido, de modo que puede ser mejorada la precisión de coincidencia de forma de espectro.
Se observa que mientras en la Figura 10 que ilustra la presente realización se muestra una configuración donde han sido combinadas la tercera realización y la cuarta realización, que son realizaciones de un dispositivo de decodificación, la configuración podría corresponder con la primera, segunda, tercera o cuarta realizaciones. Además, la configuración podría corresponder con una sexta realización que se describe más adelante.
(Sexta realización)
A continuación, la configuración de un dispositivo de decodificación 600 de acuerdo con una sexta realización de la presente descripción se describe con referencia a la Figura 14. Los bloques que tienen la misma configuración que aquellos del dispositivo de decodificación 400 en la Figura 6 que ilustra la cuarta realización se denotan mediante los mismos números de referencia. La diferencia entre el dispositivo de decodificación 600 de acuerdo con la presente realización y el dispositivo de decodificación 400 es que el dispositivo de decodificación 600 incluye una unidad de cálculo de valor de umbral 601 y una unidad de ajuste de amplitud de espectro decodificado de núcleo 602. Además, la unidad de ajuste de amplitud 402 ha sido reemplazada por una unidad de ajuste de amplitud de espectro de ruido 603.
El dispositivo de decodificación 600 de acuerdo con la presente realización además tiene una unidad de adición y generación de ruido 604 y la unidad de substracción 202 en lugar de la unidad de generación de ruido 104; esta es la configuración para la generación y el agregado del espectro de ruido para llenar el componente de espectro de cero del espectro decodificado de núcleo, que se describe en el otro ejemplo de la segunda realización. Otros componentes son básicamente los mismos que en la cuarta realización, de modo que la descripción será omitida.
La unidad de cálculo de valor de umbral 601 utiliza la información dispersa del espectro normalizado para calcular el valor de umbral Th de la intensidad del espectro, para distinguir entre el componente de ruido y el componente sin ruido. Más adelante se describe un método específico de cálculo. Se observa que la información dispersa del espectro decodificado de núcleo podría utilizarse en lugar de la información dispersa del espectro normalizado.
La unidad de cálculo de valor de umbral 601 después da salida al valor de umbral hacia la unidad de ajuste de amplitud de espectro decodificado de núcleo 602 y la unidad de ajuste de amplitud de espectro de ruido 603.
La unidad de ajuste de amplitud de espectro decodificado de núcleo 602 ajusta la amplitud del espectro normalizado, de modo que el componente diferente de cero del espectro normalizado es más grande que el valor de umbral. De manera específica, la totalidad del espectro normalizado es elevada al proporcionar a cada espectro un cierto desplazamiento, o mediante la amplificación a través de una cierta relación, de modo que el valor más pequeño del componente diferente de cero en el espectro normalizado es más grande que el valor de umbral, como se ilustra en la Figura 15(a).
Un ejemplo de un método de amplificación es la escala mediante Y = aX Th donde la amplitud después de la amplificación es Y, antes de la amplificación es X, y el valor de umbral es Th (se observa que a = (Xmax - Th)/Xmax, donde Xmax es el valor más grande que X puede asumir).
En forma alterna, podría ser realizado el más pequeño de un espectro que tiene una cierta intensidad o el más grande (llamado el “valor de umbral de ajuste a cero”) para que sea más grande que el valor de umbral, como se ilustra en la Figura 15(b). Por ejemplo, en un caso donde el intervalo de un espectro normalizado sea normalizado de 0 a 10, el valor de umbral de ajuste a cero es establecido en 0,95, y el más pequeño de un espectro que tiene 0,95 o el más grande podrían ser realizados más grandes que el valor de umbral Th. En este caso, los espectros iguales a 0,95 o más bajos son ajustados a cero. Es decir, en este caso, los espectros del valor de umbral de ajuste a cero o más altos son componentes diferentes de cero y los espectros iguales al valor de umbral de ajuste a cero o más bajos son los componentes de cero.
Mientras que podrían utilizarse valores fijos como el valor de umbral de ajuste a cero como se describe con anterioridad, un valor variable que varía de acuerdo con otras variables podría utilizarse como el valor de umbral de ajuste a cero. Por ejemplo, podría utilizarse el valor de umbral de ajuste a cero = el valor de umbral Th x a (donde a es una constante, a = 1/4, por ejemplo). Asimismo, un valor del límite superior o valor del límite inferior podría utilizarse en conjunto como el valor de umbral de ajuste a cero. Por ejemplo, en un caso donde el valor de umbral de ajuste a cero es 0,9 o más bajo, 0,9 podría utilizarse como el valor de umbral de ajuste a cero.
El espectro normalizado del cual la amplitud ha sido ajustada después es salido hacia la primera unidad de adición 105.
La unidad de ajuste de amplitud de espectro de ruido 603 ajusta la amplitud del espectro normalizado de ruido, de modo que el valor más grande del espectro normalizado de ruido es igual o más pequeño que el valor de umbral. De manera específica, en un caso donde el valor más grande del espectro normalizado de ruido sea más pequeño que un valor de umbral, el valor más grande del espectro normalizado es establecido en el valor de umbral o más bajo al proporcionar cada espectro con un cierto desplazamiento, o mediante la amplificación a través de una cierta velocidad. En un caso donde el valor más grande del espectro normalizado de ruido sea más grande que el valor de umbral, se aplica un desplazamiento negativo, que es la sustracción (fijación), o es realizada la amplificación por una velocidad negativa, es decir, la atenuación. Este ajuste es sinónimo para la normalización del espectro normalizado de ruido por un valor de umbral.
El espectro normalizado de ruido del cual la amplitud ha sido ajustada es entrado hacia la primera unidad de adición 105.
La primera unidad de adición 105 agrega el espectro normalizado del cual la amplitud ha sido ajustada y el espectro normalizado de ruido del cual la amplitud ha sido ajustada, y da salida hacia la unidad de decodificación de banda extendida 106 como un espectro normalizado agregado de ruido.
El siguiente es un método de obtención del valor de umbral.
El valor de umbral sirve para la separación entre el componente de ruido y el componente sin ruido. El valor de umbral Th puede ser obtenido mediante la siguiente Expresión (9), utilizando la dispersidad Sp en la Expresión (2). La letra a es una constante, y es establecida, por ejemplo, en 4 en la presente realización.
[Matemática 9]
Nz.
Th=a{1 -Sp) = a{\------ )
Se observa que el valor de umbral Th puede ser obtenido utilizando la siguiente Expresión (10) en lugar de la Expresión (9) utilizando Nz.
[Matemática 10]
Aquí, Np representa el número de espectros que no son de cero.
Asimismo, podría utilizarse un límite superior o un límite superior junto con estos como el valor de umbral Th.
Es decir, de acuerdo con la Fórmula (9), cuando es más grande la dispersidad Sp, es decir, es más discreto el flujo de impulso con más componente de cero, cuando es más baja la propiedad de ruido y cuando es más bajo el valor de umbral Th. Por el contrario, cuando es más pequeña la dispersidad Sp, es decir, es más denso el flujo de impulso con menos componente de cero, es más alta la propiedad de ruido y es más alto el valor de umbral Th.
Cuando la dispersidad Sp es grande (el valor de umbral Th es bajo), la amplitud del espectro de ruido ajustada en la unidad de ajuste de amplitud de espectro de ruido 603 es suprimida hasta un bajo nivel y es agregado un espectro de ruido con una amplitud pequeña a la unidad de adición 105. Es decir, la propiedad de ruido de las señales del espectro normalizado es baja, de modo que es pequeña la amplitud del espectro agregado de ruido, para mantener esta propiedad.
Por el contrario, cuando la dispersidad Sp es pequeña (el valor de umbral Th es alto), la amplitud del espectro de ruido ajustada en la unidad de ajuste de amplitud de espectro de ruido 603 es grande y es agregado un espectro de ruido con una gran amplitud a la unidad de adición 105. Es decir, la propiedad de ruido de las señales del espectro normalizado es alta, de modo que es grande la amplitud del espectro agregado de ruido, para mantener esta propiedad.
Se observa que ha sido utilizado un valor de umbral en común en la presente realización entre la unidad de ajuste de amplitud de espectro decodificado de núcleo 602 y la unidad de ajuste de amplitud de espectro de ruido 603. Sin embargo, la unidad de ajuste de amplitud de espectro decodificado de núcleo 602 y la unidad de ajuste de amplitud de espectro de ruido 603 podrían utilizar diferentes valores de umbral. Esto es debido a que, mientras el valor de umbral sirve para separar el componente de ruido y el componente sin ruido, la propiedad de ruido que tiene el espectro de banda baja originalmente incluyó en el espectro normalizado, y la propiedad de ruido que tiene el espectro generado de ruido podrían ser propiedades diferentes y utilizando estándares independientes para cada uno en lugar de utilizar el mismo estándar para ambos pueden elevar la calidad de la imagen en estos casos. Por ejemplo, el establecimiento del umbral utilizado con la unidad de ajuste de amplitud de espectro decodificado de núcleo 602 para que sea más grande que el umbral utilizado con la unidad de ajuste de amplitud de espectro de ruido 603 permite que sea mejorado más el componente contenido en el espectro normalizado, que es la señal original.
Aunque sólo fue utilizada la dispersidad en la Fórmula (9) para obtener el valor de umbral, la información de norma de banda y la información de distribución de bits podrían ser combinadas, utilizadas solas, como en la tercera realización y la cuarta realización. Por ejemplo, la utilización de la información de distribución de bits en conjunto es concebible en el siguiente caso.
El incremento de la distribución de bits permite que el número de impulsos sea incrementado, de modo que también son codificados los impulsos de amplitud más baja y se incrementa el número de impulsos cuantificados. Como resultado, se disminuye la dispersidad. Es decir, la dispersidad depende no sólo de las características de las señales que serán codificadas sino también de la cuenta distribuida de bits. En consecuencia, en un caso donde el número de bits distribuidos cambia en gran medida, la relación entre la dispersidad y el valor de umbral podría ser ajustada para corregir la influencia debido al cambio en la distribución de bits.
Mientras la configuración en el otro ejemplo de la segunda realización ha sido utilizada para la unidad de adición y generación de ruido en la presente realización, la unidad de generación de ruido 104 de la primera realización, la unidad de generación de ruido 104 y la segunda unidad de adición 201 de la segunda realización, y podrían utilizarse en su lugar la unidad de generación de ruido 301 y la segunda unidad de adición 201 de la tercera realización.
De acuerdo con el dispositivo de decodificación 600 que se describe con anterioridad, puede ser ajustada la amplitud de ambos del espectro normalizado y el espectro normalizado de ruido, con respecto a la amplitud del espectro normalizado y la amplitud del espectro normalizado de ruido, y éstos pueden ser ajustados, de manera sincronizada, de modo que puede ser agregado el ruido óptimo de acuerdo la propiedad del espectro normalizado, y como resultado, puede ser mejorada la calidad del sonido de las señales de salida.
De manera más específica, la propiedad de ruido del espectro normalizado es mejorada y puede ser creado un espectro adecuado para expresar un espectro de frecuencia de banda alta, de modo que puede ser mejorada la calidad de sonido de las señales de salida del dispositivo de decodificación en función del modelo de extensión de banda.
(Otro primer ejemplo de la sexta realización)
A continuación, la configuración de un dispositivo de decodificación 610 de acuerdo con otro primer ejemplo de la sexta realización de la presente descripción se describe con referencia a la Figura 16. Los bloques que tienen la misma configuración que la Figura 14 se denotan mediante los mismos números de referencia. La diferencia entre el dispositivo de decodificación 610 y el dispositivo de decodificación 600 de acuerdo con la presente realización se refiere principalmente a las operaciones de la unidad de cálculo de valor de umbral 601.
La unidad de cálculo de valor de umbral 601 del dispositivo de decodificación 610 de acuerdo con la presente realización toma, la información dispersa de entrada como la información dispersa del espectro decodificado de núcleo, obtiene el valor de umbral Th en la unidad de cálculo de valor de umbral 601 utilizando la Fórmula (9) y la Fórmula (10) en función de esta información dispersa, y también el valor de umbral de ajuste a cero es obtenido utilizando este valor de umbral Th, utilizando la computación tal como el valor de umbral de ajuste a cero = el valor de umbral Th x a, por ejemplo.
La unidad de cálculo de valor de umbral 601 después da salida al valor de umbral Th hacia la unidad de ajuste de amplitud de espectro decodificado de núcleo 602 y la unidad de ajuste de amplitud de espectro de ruido 603 y da salida al valor de umbral de ajuste a cero hacia la unidad de normalización de amplitud 103.
La unidad de normalización de amplitud 103 normaliza el espectro decodificado de núcleo, y establece espectros más pequeños que el valor de umbral de ajuste a cero, o igual o más pequeño que el valor de umbral de ajuste a cero, para el ajuste a cero (realiza el ajuste a cero), y le da salida.
Aunque la presente realización ha sido descrita con el bloque que realiza el ajuste a cero que es la unidad de normalización de amplitud 103, aunque un bloque separado que realiza el ajuste acero podría ser proporcionado ya sea corriente arriba o corriente abajo de la unidad de normalización de amplitud 103, o esto podría ser realizado en la unidad de ajuste de amplitud de espectro decodificado de núcleo 602. En este caso, el destino de salida del valor de umbral de ajuste a cero podría ser el bloque que realiza este ajuste a cero.
Otro segundo ejemplo de la sexta realización
A continuación, la configuración de un dispositivo de decodificación 620 de acuerdo con otro segundo ejemplo de la sexta realización de la presente descripción se describe con referencia a la Figura 17. Los bloques que tienen la misma configuración que la Figura 16 se denotan mediante los mismos números de referencia. La diferencia entre el dispositivo de decodificación 620 de acuerdo con la presente realización y el dispositivo de decodificación 600 o el dispositivo de decodificación 610 es que una unidad de adición y generación de ruido 605 ha sido proporcionada.
En el dispositivo de decodificación 600 y el dispositivo de decodificación 610, la unidad de adición y generación de ruido 604 genera y agrega el espectro de ruido para llenar el componente de espectro de cero del espectro decodificado de núcleo. Es decir, la configuración agrega ruido solo a posiciones que corresponden con el componente de espectro de cero del espectro decodificado de núcleo, de modo que finalmente no exista adición de ruido a las porciones espectrales ajustadas en cero después por la unidad de normalización de amplitud 103 o similares.
En consecuencia, la unidad de adición y generación de ruido 605 es proporcionada en la presente realización para agregar ruido a las porciones espectrales que han sido ajustadas a cero. La unidad de adición y generación de ruido 605 detecta un espectro de cero en el espectro normalizado agregado de ruido salido de la primera unidad de adición 105 y genera y agrega el ruido aleatorio para llenar este. El valor más grande de la amplitud que será agregado se controla como se describe con anterioridad, de modo que el valor de umbral que es generado por la unidad de cálculo de valor de umbral 601 podría ser salido hacia la unidad de adición y generación de ruido, este valor de umbral es utilizado para decidir el valor más grande de amplitud. Un valor del límite superior podría utilizarse en conjunto, separado del valor de umbral.
Se observa que en lugar de detectar los espectros de cero en el espectro normalizado agregado de ruido, podría ser realizado un arreglo donde la información de los espectros ajustados en cero es recibida de los bloques que realizan el ajuste a cero, por ejemplo, la unidad de normalización de amplitud 103, con el ruido que se agrega a las posiciones de los espectros de ajuste a cero.
Asimismo, aunque ha sido realizada la descripción en la presente realización entonces, la unidad de adición y generación de ruido 605 se proporciona corriente abajo de la primera unidad de adición 105, un arreglo podría ser realizado en su lugar donde la unidad de adición y generación de ruido 605 es proporcionada entre la unidad de ajuste de amplitud de espectro de ruido 603 y la primera unidad de adición 105, o entre la unidad de normalización de amplitud de ruido 401 y la unidad de ajuste de amplitud de espectro de ruido 603. En este caso, la información de los espectros ajustados a cero es recibida del bloque que ha realizado el ajuste a cero, y el ruido es agregado a las posiciones de los espectros ajustados a cero.
(Séptima realización)
A continuación, la configuración de un dispositivo de decodificación 700 de acuerdo con una séptima realización de la presente descripción se describe con referencia a la Figura 18. El dispositivo de decodificación 700 de acuerdo con la presente realización es el dispositivo de decodificación 620 de acuerdo con el otro segundo ejemplo de la sexta realización, en la cual ha sido agregada la unidad de reajuste de amplitud 403 que se describe en el otro ejemplo de la cuarta realización. De acuerdo con esto, el valor de umbral Th calculado en la unidad de cálculo de valor de umbral 601 también es salido hacia la unidad de reajuste de amplitud 403. Otras configuraciones son las mismas que el otro segundo ejemplo de la sexta realización, de modo que la descripción será omitida.
El espectro normalizado agregado de ruido generado en la unidad de decodificación de banda extendida 106 es salido hacia la unidad de reajuste de amplitud 403. Las operaciones de la unidad de reajuste de amplitud 403 son básicamente las mismas que el otro ejemplo de la cuarta realización, de modo que la descripción se hace más adelante principalmente con respecto a la relación en cuanto al otro segundo ejemplo de la sexta realización. La unidad de reajuste de amplitud 403 será descrita en bloques de acuerdo cada función. La unidad de reajuste de amplitud 403 está constituida de una unidad de cálculo de energía de ruido 701, una unidad de suavizamiento entre cuadros 702 y una unidad de ajuste de amplitud 703, como se ilustra en la Figura 19.
La unidad de cálculo de energía de ruido 701 calcula la energía del espectro agregado de ruido para cada subbanda. El espectro agregado de ruido puede ser detectado y separado utilizando el valor de umbral Th de acuerdo con la sexta realización. La unidad de decodificación de banda extendida 106 multiplica el espectro normalizado agregado de ruido identificado por la información de retraso decodificada a partir de los datos codificados de banda extendida, por la ganancia decodificada de los mismos datos codificados de banda extendida, con lo cual, se genera un espectro de banda extendida agregada de ruido. En consecuencia, el valor que se obtiene al multiplicar el valor de umbral Th en la sexta realización por la ganancia es el valor de umbral para la determinación del componente de ruido en el espectro de banda extendida agregada de ruido. Es decir, el valor de umbral que se obtiene por la unidad de cálculo de valor de umbral 601 se multiplica por la ganancia para obtener el valor de umbral de determinación de componente de ruido, y los componentes menores que (iguales o menores que) el valor de umbral de determinación de componente de ruido se determinan para que sean el componente de ruido en cada subbanda. La ganancia es codificada para cada subbanda, de modo que el valor de umbral de determinación de componente de ruido se calcula para cada subbanda.
La energía del espectro de ruido de cada subbanda después es salida hacia la unidad de suavizamiento entre cuadros 702.
La unidad de suavizamiento entre cuadros 702 utiliza la energía del espectro de ruido para cada subbanda que ha sido recibida para realizar el procesamiento de suavizamiento, de modo que el cambio de los espectros de ruido es suave entre las subbandas. El procesamiento de suavizamiento puede ser realizado utilizando el procesamiento de suavizamiento conocido entre cuadros.
Por ejemplo, el procesamiento de suavizamiento entre cuadros puede ser realizado de acuerdo con la siguiente Fórmula (11)
[Matemática 11]
ESc = axEc(1 - <<t>) xEScp
............... í i i )
Aquí, Esc representa la energía del espectro de ruido después del procesamiento de suavizamiento, Ec representa la energía del espectro de ruido antes de del procesamiento de suavizamiento, EScp representa la energía del espectro de ruido después del procesamiento de suavizamiento en el cuadro previo, y o representa un coeficiente de suavizamiento (0 <a< 1). Cuando es más cercano el valor deaa 0, es más fuerte el suavizamiento. Alrededor de 0,15 es la cantidad adecuada.
En un caso donde las señales del cuadro actual han sido repentinamente atenuadas en comparación con las señales del cuadro previo, la aplicación del suavizamiento fuerte originará un alto nivel de ruido que es mantenido en el área donde los niveles de la señal deben ser más bajos, lo cual es problemático. Con el propósito de manejar esta situación, en un caso donde la información de energía de subbanda que es codificada por separado sea más pequeña que la energía de subbanda del espectro de ruido después del procesamiento de suavizamiento en el cuadro previo (es decir, EScp), el valor deaes llevado más cercano a 1 para hacer más débil el procesamiento de suavizamiento. Por ejemplo, en un caso donde el EScp sea más pequeño que el 80% de la energía de subbanda decodificada en el cuadro actual, o es establecido 0,15 para realizar el procesamiento fuerte de suavizamiento, mientras en un caso donde el EScp sea del 80% de la energía de subbanda decodificada en el cuadro actual o más grande (es decir, la energía de subbanda decodificada en el cuadro actual no es suficientemente grande si se compara con la energía de subbanda de espectro de ruido suavizado en el cuadro previo),aes establecido en 0,8 para realizar el procesamiento débil de suavizamiento.
La unidad de ajuste de amplitud 703 reajusta la amplitud de la porción de ruido del espectro de banda extendida agregada de ruido entrado utilizando el ESc calculado por la unidad de suavizamiento entre cuadros 702. El método de reajuste es el mismo que el método que se describe en el otro ejemplo del cuarto ejemplo. Es decir, (VEsc/VEc) se multiplica como un coeficiente de escala, como se describe en el otro ejemplo de la cuarta realización.
En un caso donde sea grande el cambio de energía debido a la escala, existe la posibilidad que la energía de la totalidad de las señales de codificadas que incluyen otro componente de ruido se desviará, en forma marcada, de la magnitud original. En este caso, teniendo un coeficiente de escala de V(VEsc/VEc) se permite que el cambio en el coeficiente de escala sea suprimido en forma no lineal, de modo que pueden ser reducidos los efectos adversos sobre la energía de la totalidad de las señales de codificadas debido a la escala.
De acuerdo con la presente realización que se describe con anterioridad, el componente de ruido de las señales de banda alta compuesto por el procesamiento de extensión de banda es suavizado en la dirección temporal, y el procesamiento para suprimir el cambio en cuanto el cambio de amplitud sea realizado, de modo que sea establecido el nivel del componente de ruido de las señales de codificadas, y la calidad de imagen para el escucha puede ser mejorada. La utilización de este método combinado de generación de espectro normalizado agregado de ruido de acuerdo con la presente realización no elimina la necesidad de la codificación y transmisión separadas de la información de determinación de componentes de ruido, de modo que puede ser realizada la adición y estabilización eficientes del componente de ruido.
(En conclusión)
El dispositivo de decodificación y el dispositivo de codificación de acuerdo con la presente descripción han sido descritos con referencia de la primera a la séptima realizaciones. El dispositivo de decodificación y el dispositivo de codificación de acuerdo con la presente descripción son conceptos que podrían estar en la forma de los productos medio completados o en el nivel de las partes, que se representan por las tarjetas de sistema o dispositivos semiconductores, o en el nivel de tener la forma de productos completados tales como dispositivos de terminal o los dispositivos de estación de base. En un caso donde el dispositivo de decodificación y el dispositivo de codificación de acuerdo con la presente descripción se encuentren en la forma de los productos medio completados o en el nivel de las partes, estos pueden ser realizados para que esté en el nivel de tener la forma de productos completados mediante la combinación con una antena, un convertidor DA/AD, un amplificador, un altavoz, un micrófono y así sucesivamente. Los diagramas de bloque de la Figura 1 a la Figura 8, la Figura 10, la Figura 14 y de la Figura 16 a la Figura 19 representan las configuraciones de hardware de diseño dedicado y las operaciones (métodos), y también incluyen casos donde los programas que ejecutan las operaciones (método) de la presente descripción son instalados en general en el hardware y son ejecutados por medio de un procesador. Los ejemplos de calculadoras electrónicas que sirven como el hardware de uso general incluyen computadoras personales, varios tipos de terminales móviles de información galés como teléfonos inteligentes, y teléfonos celulares y similares.
El hardware de diseño dedicado no es restringido al nivel de producto completado, tal como los teléfonos celulares y los teléfonos de línea fija (electrónicos de consumo), e incluyen aquellos en la forma de los productos medio completados o en el nivel de partes, tales como las tarjetas de sistema, dispositivos semiconductores y así sucesivamente.
Aplicabilidad industrial
El dispositivo de decodificación y el dispositivo de codificación de acuerdo con la presente descripción pueden ser aplicables a dispositivos que se relacionan con la grabación, la transmisión y la reproducción de las señales de audio y las señales de música.
Lista de Signos de Referencia
100, 200, 210, 300, 400, 410, 600, 610, 620, 700 dispositivo de decodificación
101 unidad de separación
102 unidad de decodificación de núcleo
103, 503 unidad de normalización de amplitud
104, 301, 504 unidad de generación de ruido
105, 507 primera unidad de adición
106 unidad de decodificación de banda extendida
107, 501 convertidor de frecuencia-tiempo
201 segunda unidad de adición
202 unidades sustracción
401, 505 unidad de normalización de amplitud de ruido
402, 506, 703 unidad de ajuste de amplitud
403 unidad de reajuste de amplitud
500 dispositivo de codificación
601 unidad de cálculo de valor de umbral
602 unidad de ajuste de amplitud de espectro decodificado de núcleo
603 unidad de ajuste de amplitud de espectro de ruido
604 unidad de adición y generación de ruido
605 unidad de adición y generación de ruido

Claims (1)

  1. REIVINDICACIONES
    Un dispositivo de decodificación (600, 610, 620, 700) que comprende:
    una unidad de separación (101) que separa los primeros datos codificados, en los que se ha codificado un espectro que incluye un espectro de banda baja de señales de audio, y los segundos datos codificados, en los que se ha codificado un espectro de banda alta de una banda más alta que el espectro de banda baja, basándose en los primeros datos codificados;
    una primera unidad de decodificación (102) que decodifica los primeros datos codificados y genera un primer espectro decodificado;
    un primer normalizador de amplitud (103) que divide la amplitud del primer espectro decodificado en una pluralidad de sub-bandas, normaliza el espectro de cada sub-banda por el mayor valor de la amplitud del primer espectro decodificado dentro de cada sub-banda, y genera un espectro normalizado;
    una unidad de generación de ruido (604) que genera un espectro de ruido;
    una unidad de normalización de la amplitud del ruido (401) que normaliza el espectro de ruido y emite un espectro de ruido normalizado;
    una unidad de ajuste de la amplitud del espectro de ruido (603) que ajusta una amplitud del espectro de ruido normalizado para obtener un espectro de ruido normalizado ajustado;
    una unidad de adición (105) que añade el espectro de ruido normalizado ajustado a un espectro normalizado ajustado y genera un espectro normalizado con ruido añadido;
    una segunda unidad de decodificación (106) que decodifica los segundos datos codificados utilizando el espectro normalizado con ruido añadido, y genera un segundo espectro con ruido añadido; y
    un convertidor (107) que efectúa una conversión en el dominio del tiempo con respecto a un espectro generado concatenando un espectro basado en el primer espectro decodificado y un espectro basado en el segundo espectro con ruido añadido,
    caracterizado por
    una unidad de cálculo del valor umbral (601) que calcula un valor umbral de intensidad espectral que separa un componente de ruido de un componente sin ruido, utilizando información dispersa que indica un grado de escasez del espectro normalizado o del primer espectro decodificado;
    en donde la unidad de ajuste de la amplitud del espectro de ruido (603) realiza el ajuste de la amplitud del espectro de ruido normalizado de modo que el mayor valor del espectro de ruido normalizado sea igual al valor umbral o inferior; y
    una primera unidad de ajuste de la amplitud del espectro decodificado (602) que ajusta la amplitud del espectro normalizado de modo que un componente distinto de cero del espectro normalizado sea mayor que el valor umbral para obtener el espectro normalizado ajustado.
    El dispositivo de decodificación (600, 610, 620, 700) según la reivindicación 1,
    en donde el convertidor (107) realiza la conversión en el dominio del tiempo con respecto a un espectro generado concatenando un espectro basado en un primer espectro decodificado con ruido añadido obtenido añadiendo el espectro de ruido al primer espectro decodificado, y el segundo espectro con ruido añadido. El dispositivo de decodificación (600, 610, 620, 700) según la reivindicación 1,
    en donde la unidad de ajuste de la amplitud del ruido (603) está configurada para ajustar la amplitud del espectro de ruido normalizado, además, de acuerdo con al menos una de las informaciones de asignación de bits del primer espectro decodificado, y la información de escasez que indica un grado de escasez del espectro normalizado.
    El dispositivo de decodificación (610, 620, 700) según la reivindicación 1,
    en donde la unidad de cálculo del valor umbral (601) calcula además un valor umbral de ajuste a cero, para separar entre un componente cero y el componente distinto de cero del espectro normalizado, utilizando el valor umbral, y
    en donde el primer normalizador de amplitud (103) ajusta a cero el contenido cero del espectro normalizado basándose en el valor umbral de ajuste a cero para separar el contenido cero del contenido distinto de cero del espectro normalizado.
    El dispositivo de decodificación (620, 700) según la reivindicación 4, que comprende además:
    una unidad de generación y adición de ruido (605) que añade el espectro de ruido a una posición del contenido cero que se ha puesto a cero.
    El dispositivo de decodificación (700) según la reivindicación 1, que comprende además:
    una unidad de reajuste de amplitud (403) que aplica un proceso de suavizado sobre un componente de ruido del segundo espectro de ruido añadido.
    El dispositivo de decodificación (700) según la reivindicación 6, en donde la unidad de reajuste de amplitud (403) suaviza un cambio de energía entre fotogramas del primer espectro de ruido añadido utilizando una energía del componente de ruido del segundo espectro de ruido añadido calculada en función del valor umbral, y ajusta una amplitud del componente de ruido del segundo espectro de ruido añadido utilizando un coeficiente de escala que representa una relación entre la energía del componente de ruido del segundo espectro de ruido añadido y una energía del componente de ruido después del suavizado.
    Un método de decodificación que comprende:
    separar los primeros datos codificados, en los que se ha codificado un espectro que incluye un espectro de banda baja de señales de audio, y los segundos datos codificados, en los que se ha codificado un espectro de banda alta de una banda más alta que el espectro de banda baja, basándose en los primeros datos codificados;
    decodificar los primeros datos codificados para obtener un primer espectro decodificado;
    dividiendo la amplitud del primer espectro decodificado en una pluralidad de sub-bandas, normalizando el espectro de cada sub-banda por el mayor valor de la amplitud del primer espectro decodificado dentro de cada sub-banda, y generando un espectro normalizado;
    generar un espectro de ruido;
    normalizando el espectro de ruido para obtener un espectro de ruido normalizado;
    ajustando una amplitud del espectro de ruido normalizado para obtener un espectro de ruido normalizado ajustado;
    añadiendo el espectro de ruido normalizado ajustado a un espectro normalizado ajustado para obtener un espectro normalizado con ruido añadido;
    decodificando de los segundos datos codificados utilizando el espectro normalizado con ruido añadido para obtener un segundo espectro con ruido añadido; y
    realizando una conversión en el dominio del tiempo con respecto a un espectro generado concatenando un espectro basado en el primer espectro decodificado y un espectro basado en el segundo espectro con ruido añadido
    caracterizado por
    calculando un valor umbral de intensidad espectral que separa un componente de ruido de un componente sin ruido, utilizando información dispersa que indica un grado de escasez del espectro normalizado o del primer espectro decodificado;
    en donde el ajuste de la amplitud del espectro de ruido normalizado se realiza de modo que el mayor valor del espectro de ruido normalizado sea igual al valor umbral o inferior; y
    ajustando la amplitud del espectro normalizado de modo que un componente distinto de cero del espectro normalizado sea mayor que el valor umbral para obtener el espectro normalizado ajustado.
    9. El método de decodificación según la reivindicación 8,
    en donde la conversión en el dominio del tiempo se realiza respecto a un espectro generado concatenando un espectro basado en un primer espectro decodificado con ruido añadido, obtenido añadiendo el espectro de ruido al primer espectro decodificado, y el segundo espectro con ruido añadido.
    10. El método de decodificación según la reivindicación 8, que comprende además:
    ajustando la amplitud del espectro de ruido normalizado, además, de acuerdo con al menos una de las informaciones de asignación de bits del primer espectro decodificado, y la información de escasez que indica un grado de escasez del espectro normalizado.
    11. El método de decodificación según la reivindicación 8,
    calculando un valor de umbral de ajuste a cero, para separar entre un componente cero y el componente distinto de cero del espectro normalizado, utilizando el valor umbral, y
    en donde el contenido cero del espectro normalizado se reduce a cero basándose en el valor umbral de ajuste a cero para separar el contenido cero y el contenido distinto de cero del espectro normalizado.
    12. El método de decodificación según la reivindicación 11, que comprende además;
    añadir el espectro de ruido a una posición del contenido cero que se ha puesto a cero.
    13. El método de decodificación según la reivindicación 8, que comprende además:
    aplicar un proceso de suavizado a un componente de ruido del segundo espectro de ruido añadido.
    14. El método de decodificación según la reivindicación 13,
    en donde un cambio de energía se suaviza entre fotogramas del primer espectro de ruido añadido utilizando una energía del componente de ruido del segundo espectro de ruido añadido calculada en función del valor umbral, y
    en donde una amplitud del componente de ruido del segundo espectro de ruido añadido se ajusta utilizando un coeficiente de escala que representa una relación entre la energía del componente de ruido del segundo espectro de ruido añadido y una energía del componente de ruido después del suavizado.
    15. Programa informático para realizar, cuando se ejecuta en un ordenador o un procesador, el método de una cualquiera de las reivindicaciones 8 a 14.
ES15756036T 2014-02-28 2015-02-06 Dispositivo de decodificación y método de decodificación Active ES2969736T3 (es)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2014039431 2014-02-28
US201461974689P 2014-04-03 2014-04-03
JP2014137861 2014-07-03
PCT/JP2015/000537 WO2015129165A1 (ja) 2014-02-28 2015-02-06 復号装置、符号化装置、復号方法、符合化方法、端末装置、および基地局装置

Publications (1)

Publication Number Publication Date
ES2969736T3 true ES2969736T3 (es) 2024-05-22

Family

ID=54008503

Family Applications (1)

Application Number Title Priority Date Filing Date
ES15756036T Active ES2969736T3 (es) 2014-02-28 2015-02-06 Dispositivo de decodificación y método de decodificación

Country Status (10)

Country Link
US (3) US10062389B2 (es)
EP (2) EP3113181B1 (es)
JP (1) JPWO2015129165A1 (es)
KR (1) KR102185478B1 (es)
CN (2) CN105659321B (es)
ES (1) ES2969736T3 (es)
MX (1) MX361028B (es)
PL (1) PL3113181T3 (es)
RU (1) RU2662693C2 (es)
WO (1) WO2015129165A1 (es)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX361028B (es) * 2014-02-28 2018-11-26 Fraunhofer Ges Forschung Dispositivo de decodificación, dispositivo de codificación, método de decodificación, método de codificación, dispositivo de terminal y dispositivo de estación de base.
JP6795093B2 (ja) * 2017-06-02 2020-12-02 富士通株式会社 判定装置、判定方法及び判定プログラム
US11682406B2 (en) * 2021-01-28 2023-06-20 Sony Interactive Entertainment LLC Level-of-detail audio codec
KR102457573B1 (ko) * 2021-03-02 2022-10-21 국방과학연구소 잡음 신호 생성 장치 및 방법, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램
JP2022167670A (ja) * 2021-04-23 2022-11-04 富士通株式会社 情報処理プログラム、情報処理方法、および情報処理装置

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5680972A (en) 1996-01-16 1997-10-28 Clarke; George Garment hanger system
SE512719C2 (sv) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
JP3751225B2 (ja) * 2001-06-14 2006-03-01 松下電器産業株式会社 オーディオ帯域拡張装置
JP2003323199A (ja) * 2002-04-26 2003-11-14 Matsushita Electric Ind Co Ltd 符号化装置、復号化装置及び符号化方法、復号化方法
JP4296753B2 (ja) * 2002-05-20 2009-07-15 ソニー株式会社 音響信号符号化方法及び装置、音響信号復号方法及び装置、並びにプログラム及び記録媒体
WO2006049205A1 (ja) * 2004-11-05 2006-05-11 Matsushita Electric Industrial Co., Ltd. スケーラブル復号化装置およびスケーラブル符号化装置
KR101220621B1 (ko) * 2004-11-05 2013-01-18 파나소닉 주식회사 부호화 장치 및 부호화 방법
KR20070115637A (ko) * 2006-06-03 2007-12-06 삼성전자주식회사 대역폭 확장 부호화 및 복호화 방법 및 장치
EP2077550B8 (en) * 2008-01-04 2012-03-14 Dolby International AB Audio encoder and decoder
EP3273442B1 (en) 2008-03-20 2021-10-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for synthesizing a parameterized representation of an audio signal
KR101661374B1 (ko) * 2009-02-26 2016-09-29 파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카 부호화 장치, 복호 장치 및 이들 방법
JP4932917B2 (ja) * 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
US10269363B2 (en) 2010-03-09 2019-04-23 Nippon Telegraph And Telephone Corporation Coding method, decoding method, apparatus, program, and recording medium
CN102222505B (zh) 2010-04-13 2012-12-19 中兴通讯股份有限公司 可分层音频编解码方法系统及瞬态信号可分层编解码方法
CA2827482C (en) * 2011-02-18 2018-01-02 Ntt Docomo, Inc. Speech decoder, speech encoder, speech decoding method, speech encoding method, speech decoding program, and speech encoding program
AU2012256550B2 (en) * 2011-05-13 2016-08-25 Samsung Electronics Co., Ltd. Bit allocating, audio encoding and decoding
CN102208188B (zh) * 2011-07-13 2013-04-17 华为技术有限公司 音频信号编解码方法和设备
JP6010539B2 (ja) 2011-09-09 2016-10-19 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 符号化装置、復号装置、符号化方法および復号方法
CN102543086B (zh) * 2011-12-16 2013-08-14 大连理工大学 一种基于音频水印的语音带宽扩展的装置和方法
EP2830062B1 (en) * 2012-03-21 2019-11-20 Samsung Electronics Co., Ltd. Method and apparatus for high-frequency encoding/decoding for bandwidth extension
GB2506207B (en) * 2012-09-25 2020-06-10 Grass Valley Ltd Image process with spatial periodicity measure
EP3584791B1 (en) * 2012-11-05 2023-10-18 Panasonic Holdings Corporation Speech audio encoding device and speech audio encoding method
MX361028B (es) * 2014-02-28 2018-11-26 Fraunhofer Ges Forschung Dispositivo de decodificación, dispositivo de codificación, método de decodificación, método de codificación, dispositivo de terminal y dispositivo de estación de base.

Also Published As

Publication number Publication date
EP3113181A1 (en) 2017-01-04
US10672409B2 (en) 2020-06-02
US20180336908A1 (en) 2018-11-22
PL3113181T3 (pl) 2024-06-17
CN105659321A (zh) 2016-06-08
US11257506B2 (en) 2022-02-22
CN111370008A (zh) 2020-07-03
MX2016008718A (es) 2016-10-13
EP3113181A4 (en) 2017-03-08
RU2662693C2 (ru) 2018-07-26
MX361028B (es) 2018-11-26
RU2016138285A (ru) 2018-03-29
US20200160873A1 (en) 2020-05-21
KR20160120713A (ko) 2016-10-18
KR102185478B1 (ko) 2020-12-02
EP3113181B1 (en) 2024-01-03
EP4325488A2 (en) 2024-02-21
CN111370008B (zh) 2024-04-09
CN105659321B (zh) 2020-07-28
WO2015129165A1 (ja) 2015-09-03
JPWO2015129165A1 (ja) 2017-03-30
US20160284357A1 (en) 2016-09-29
US10062389B2 (en) 2018-08-28
EP3113181C0 (en) 2024-01-03
EP4325488A3 (en) 2024-05-15
RU2016138285A3 (es) 2018-03-29

Similar Documents

Publication Publication Date Title
ES2969736T3 (es) Dispositivo de decodificación y método de decodificación
JP5722912B2 (ja) 音響通信方法及び音響通信方法を実行させるためのプログラムを記録した記録媒体
JP6474874B2 (ja) ハーモニックオーディオ信号の帯域幅拡張
ES2555579T3 (es) Codificador de audio multicanal y método para codificar una señal de audio multicanal
RU2639952C2 (ru) Гибридное усиление речи с кодированием формы сигнала и параметрическим кодированием
TWI559298B (zh) 用於音訊信號之諧波頻寬延展之方法、裝置及電腦可讀儲存器件
US20170236526A1 (en) Sound quality improving method and device, sound decoding method and device, and multimedia device employing same
US20180322885A1 (en) Encoding device and method, decoding device and method, and program
US20190251979A1 (en) Encoding device, decoding device, encoding method, decoding method, and non-transitory computer-readable recording medium
US10896684B2 (en) Audio encoding apparatus and audio encoding method
ES2737889T3 (es) Codificador, decodificador, procedimiento de codificación, procedimiento de decodificación y programa
BR112016016373B1 (pt) Dispositivo de decodificação, método de decodificação e meio de armazenamento não transitório