ES2404408T3 - Dispositivo de codificación y método de codificación - Google Patents

Dispositivo de codificación y método de codificación Download PDF

Info

Publication number
ES2404408T3
ES2404408T3 ES08720311T ES08720311T ES2404408T3 ES 2404408 T3 ES2404408 T3 ES 2404408T3 ES 08720311 T ES08720311 T ES 08720311T ES 08720311 T ES08720311 T ES 08720311T ES 2404408 T3 ES2404408 T3 ES 2404408T3
Authority
ES
Spain
Prior art keywords
section
search
coding
spectrum
gain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES08720311T
Other languages
English (en)
Inventor
Toshiyuki Morii
Masahiro Oshikiri
Tomofumi Yamanashi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Original Assignee
Panasonic Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp filed Critical Panasonic Corp
Application granted granted Critical
Publication of ES2404408T3 publication Critical patent/ES2404408T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Abstract

Un aparato de codificación que comprende: una sección de 5 cuantificación de forma que codifica una forma de un espectro de frecuencia de audio; y una sección de cuantificación de ganancia que codifica una ganancia del espectro de frecuencia de audio,caracterizado por que la sección de cuantificación de forma comprende: una sección de búsqueda de intervalo que busca una primera forma de onda fija en cada una de unapluralidad de bandas de frecuencia que dividen un intervalo de búsqueda de frecuencia predeterminado; yuna sección de búsqueda minuciosa que busca segundas formas de onda fijas sobre una totalidad delintervalo de búsqueda de frecuencia predeterminado.

Description

Dispositivo de codificación y método de codificación
Campo técnico
La presente invención se refiere a un aparto de codificación y método de codificación para codificar señales del habla y señales de audio.
Antecedentes de la invención
En comunicaciones móviles, es necesario comprimir y codificar información digital tal como el habla e imágenes para uso eficaz de capacidad del canal de radio y medios de almacenamiento para ondas de radio, y se han desarrollado muchos esquemas de codificación y decodificación hasta la fecha.
Entre estos, se ha mejorado significativamente el rendimiento de la tecnología de codificación del habla mediante el esquema fundamental de “CELP (Predicción Lineal con Excitación por Código)”, que adopta hábilmente cuantificación vectorial modelando el sistema del tracto vocal del habla. Además, se ha mejorado significativamente el rendimiento de la tecnología de codificación de sonido tal como codificación de audio transformando técnicas de codificación (tales como los estándares MPEG ACC y MP3).
Por otro lado, se diseña un códec escalable, la estandarización del cual está en progreso por la ITU-T (Unión Internacional de Telecomunicaciones - Sector de Estandarización de las Telecomunicaciones) y otros, para cubrir desde la banda del habla convencional (300 Hz a 3,4 kHz) hasta la banda ancha (hasta 7 kHz), con su velocidad de bits establecida tan alta como aproximadamente 32 kbps. Es decir, un código de banda ancha tiene incluso que aplicar un cierto grado de codificación a audio y por lo tanto no se puede soportar mediante únicamente métodos de codificación del habla de baja velocidad de bits convencionales, en base al modelo de voz humana, tal como CELP. Ahora, el estándar ITU-T G.729.1, declarado anteriormente como una recomendación, usa un esquema de codificación de códec de audio de codificación por transformación, para codificar el habla de banda ancha y superior.
El Documento de Patente 1 desvela un esquema de codificación que utiliza parámetros espectrales y parámetros de paso, en los cuales se realiza una transformación ortogonal y codificación de una señal obtenida mediante filtrado inverso a una señal del habla en base a parámetros espectrales, y adicionalmente desvela, como un ejemplo de codificación, un método de codificación en base a libros de código de estructuras algebraicas.
El Documento de Patente 2 desvela un esquema de codificación de división de una señal en los parámetros de predicción lineales y los componentes residuales, realizando la transformación cuadrática de los componentes residuales y normalizando la forma de onda residual por la potencia, y a continuación cuantificando la ganancia y el residuo normalizado. Adicionalmente, el Documento de Patente 2 desvela cuantificación vectorial como un método de cuantificación para el residuo normalizado.
El Documento distinto de Patente 1 desvela un método de codificación en base a un libro de código algebraico formado con espectros de excitación mejorados en TCX (es decir un esquema de codificación fundamental modelado con una excitación sometida a una codificación por transformación y filtrado de parámetros espectrales), y se adopta este método de codificación en el estándar ITU-T G.729.1.
El Documento distinto de Patente 2 desvela la descripción del esquema del estándar MPEG “TC-WVQ”. Este esquema se usa también para transformar residuo de predicción lineal en un espectro y realizar cuantificación vectorial del espectro, usando la DCT (Transformación Discreta en Coseno) como el método de transformación ortogonal.
Por medio de las cuatro técnicas anteriores, es posible aplicar, a codificación, cuantificación de parámetros espectrales tales como parámetros de predicción lineal, que es parte de una técnica de codificación útil de señales del habla, posibilitando de esta manera la eficacia y la baja velocidad de codificación de audio a realizar.
Documento de Patente 1: Solicitud de Patente Japonesa Abierta a Inspección Pública Nº HE110-260698 Documento de Patente 2: Solicitud de Patente Japonesa Abierta a Inspección Pública Nº HE107-261800 Documento distinto de Patente 1: Xie, Adoul, “EMBEDDED ALGEBRAIC VECTOR QUANTIZERS (EAVQ) WITH APPLICATION TO WIDEBAND SPEECH CODING" ICASSP’96 Documento distinto de Patente 2: Moriya, Honda, “Transform Coding of Speech Using a Weighted Vector Quantizer” IEEE journal on selected areas in communications, Vol. 6, Nº 2, febrero 1988
Divulgación de la invención
Problemas a resolver mediante la invención
Sin embargo, el número de bits a asignar mediante un códec escalable es pequeño especialmente en una capa relativamente inferior, y, en consecuencia, el rendimiento de la codificación por transformación de excitación no es suficiente. Por ejemplo, en el estándar ITU-T G.729.1, aunque una velocidad de bits es 12 kbps en la segunda capa
o inferior que soporta la banda telefónica (300 Hz a 3,4 kHz), únicamente se asigna una velocidad de bits de 2 kbps a la siguiente, tercera capa que soporta una banda ancha (50 Hz a 7 kHz). Por lo tanto, cuando hay unos pocos bits de información, no es posible conseguir suficiente rendimiento perceptivo usando un método de codificación de un espectro, que se obtiene mediante una transformación ortogonal, con cuantificación vectorial usando un libro de código.
Es por lo tanto un objeto de la presente invención proporcionar un aparato de codificación y método de codificación que puedan conseguir buena calidad perceptiva incluso si hay pocos bits de información.
Medios para resolver el problema
Se define una solución a los problemas anteriores mediante un aparato de codificación de acuerdo con la reivindicación 1 y un método de codificación de acuerdo con la reivindicación 5.
Efectos ventajosos de la invención
De acuerdo con la presente invención, es posible codificar frecuencias (posiciones) con precisión donde la energía está presente, de modo que es posible mejorar rendimiento cualitativo, que es único para codificación de espectro, y producir buena calidad de sonido incluso a bajas velocidades de bits.
Breve descripción de los dibujos
La Figura 1 es un diagrama de bloques que muestra la configuración de un aparato de codificación del habla de acuerdo con una realización de la presente invención; La Figura 2 es un diagrama de bloques que muestra la configuración de un aparato de decodificación del habla de acuerdo con una realización de la presente invención; La Figura 3 es un diagrama de flujo que muestra el algoritmo de búsqueda en una sección de búsqueda de intervalo de acuerdo con una realización de la presente invención; La Figura 4 es un diagrama que muestra un ejemplo de un espectro representado mediante pulsos buscados en una sección de búsqueda de intervalo de acuerdo con una realización de la presente invención; La Figura 5 es un diagrama de flujo que muestra el algoritmo de búsqueda en una sección de búsqueda minuciosa de acuerdo con una realización de la presente invención; La Figura 6 es un diagrama de flujo que muestra el algoritmo de búsqueda en una sección de búsqueda minuciosa de acuerdo con una realización de la presente invención; La Figura 7 es un diagrama que muestra un ejemplo de un espectro representado mediante pulsos buscados en una sección de búsqueda de intervalo y sección de búsqueda minuciosa de acuerdo con una realización de la presente invención; La Figura 8 es un diagrama de flujo que muestra el algoritmo de decodificación en una sección de decodificación de espectro de acuerdo con una realización de la presente invención.
Mejor modo de llevar a cabo la invención
En la codificación de señal del habla en base al esquema CELP y otros, a menudo se representa una señal del habla mediante una excitación y filtro de síntesis. Si se puede decodificar un vector que tiene una forma similar a una señal de excitación, que es una secuencia vectorial en el dominio del tiempo, es posible producir una forma de onda similar al habla de entrada a través de un filtro de síntesis, y conseguir buena calidad perceptiva. Esta es la característica cualitativa que ha conducido al éxito del libro de código algebraico usado en CELP.
Por otro lado, en el caso de codificación de espectro (vector) de frecuencia, un filtro de síntesis tiene como sus componentes ganancias espectrales, y por lo tanto la distorsión de las frecuencias (es decir posiciones) de los componentes de gran potencia es más significativa que la distorsión de esas ganancias. Es decir, buscando posiciones de alta energía y decodificando los pulsos en las posiciones de alta energía, en lugar de decodificar un vector que tenga una forma similar a un espectro de entrada, es más probable conseguir buena calidad perceptiva.
Los presentes inventores se centraron en este punto y llegaron a la presente invención. Es decir, en base a un modelo de codificación de un espectro de frecuencia mediante un pequeño número de pulsos, la presente invención transforma una señal del habla para codificar (es decir secuencia vectorial en el dominio del tiempo) en una señal de dominio en frecuencia mediante una transformación ortogonal, divide el intervalo de frecuencia del objetivo de codificación en una pluralidad de bandas, y busca un pulso en cada banda, y, además, busca varios pulsos sobre el intervalo de frecuencia completo del objetivo de codificación.
Además, la presente invención separa la cuantificación de forma (apariencia) y cuantificación de ganancia (cantidad), y, en cuantificación de forma, supone una ganancia ideal y busca pulsos que tengan una amplitud “1” y una polaridad “+” o “-“, en un bucle abierto. En este punto, especialmente tras una búsqueda sobre el intervalo de frecuencia completo del objetivo de codificación, la presente invención no permite que aparezcan dos pulsos en la misma posición y permite combinaciones de las posiciones de una pluralidad de pulsos a codificar como información de transmisión acerca de posiciones de pulso.
Se explicará a continuación una realización de la presente invención usando los dibujos adjuntos.
La Figura 1 es un diagrama de bloques que muestra la configuración del aparato de codificación del habla de acuerdo con la presente realización. Se proporciona el aparato de codificación del habla mostrado en la Figura 1 con la sección 101 de análisis LPC, la sección 102 de cuantificación LPC, el filtro 103 inverso, la sección 104 de transformación ortogonal, la sección 105 de codificación de espectro y la sección 106 de multiplexación. Se proporciona la sección 105 de codificación de espectro con la sección 111 de cuantificación de forma y la sección 112 de cuantificación de ganancia.
La sección 101 de análisis LPC realiza un análisis de predicción lineal de una señal del habla de entrada y emite un parámetro envolvente espectral a la sección 102 de cuantificación LPC como un resultado de análisis. La sección 102 de cuantificación LPC realiza procesamiento de cuantificación del parámetro envolvente espectral (LPC: Coeficiente de Predicción Lineal) emitido desde la sección 101 de análisis LPC, y emite un código que representa la cuantificación LPC, a la sección 106 de multiplexación. Además, la sección 102 de cuantificación LPC emite parámetros decodificados obtenidos decodificando el código que representa el LPC cuantificado, al filtro 103 inverso. En este punto, la cuantificación de parámetro puede emplear la cuantificación vectorial (“VQ”), cuantificación de predicción, VP multi-etapa, VQ de división y otros modos.
El filtro 103 inverso filtra de manera inversa el habla de entrada usando los parámetros decodificados y emite el componente residual resultante a la sección 104 de transformación ortogonal.
La sección 104 de transformación ortogonal aplica una ventana de correspondencia, tal como una ventana seno, al componente residual, realiza una transformación ortogonal usando MDCT, y emite un espectro transformado en un espectro en dominio de frecuencia (en lo sucesivo “espectro de entrada”), a la sección 105 de codificación de espectro. En este punto, la transformación ortogonal puede emplear otras transformaciones tales como la FFT, KLT y transformación Wavelet, y, aunque su uso varía, es posible transformar el componente residual en un espectro de entrada usando cualquiera de estas.
En este punto, se puede invertir el orden de procesamiento entre el filtro 103 inverso y la sección 104 de transformación ortogonal. Es decir, dividiendo el habla de entrada sometida a una transformación ortogonal mediante el espectro de frecuencia de un filtro inverso (es decir resta en el eje logarítmico), es posible producir el mismo espectro de entrada.
La sección 105 de codificación de espectro divide el espectro de entrada cuantificando la forma y ganancia del espectro por separado, y emite los códigos de cuantificación resultantes a la sección 106 de multiplexación. La sección 111 de cuantificación de forma cuantifica la forma del espectro de entrada usando un pequeño número de posiciones de pulso y polaridades, y la sección 112 de cuantificación de ganancia calcula y cuantifica las ganancias de los pulsos averiguados mediante la sección 111 de cuantificación de forma, para cada banda. Se describirán más adelante en detalle la sección 111 de cuantificación de forma y la sección 112 de cuantificación de ganancia.
La sección 106 de multiplexación recibe como entrada un código que representa la cuantificación LPC desde la sección 102 de cuantificación LPC y un código que representa el espectro de entrada cuantificado desde la sección 105 de codificación de espectro, multiplexa esta información y emite el resultado al canal de transmisión como información de codificación.
La Figura 2 es un diagrama de bloques que muestra la configuración del aparato de decodificación del habla de acuerdo con la presente realización. Se proporciona el aparato de decodificación del habla mostrado en la Figura 2 con la sección 201 de demultiplexación, la sección 202 de decodificación de parámetro, la sección 203 de decodificación de espectro, la sección 204 de transformación ortogonal y el filtro 205 de síntesis.
En la Figura 2, se demultiplexa la información de codificación en códigos individuales en la sección 201 de demultiplexación. Se emite el código que representa el LPC cuantificado a la sección 202 de decodificación de parámetro, y el código del espectro de entrada se emite a la sección 203 de decodificación de espectro.
La sección 202 de decodificación de parámetro decodifica el parámetro envolvente espectral y emite el parámetro decodificado resultante al filtro 205 de síntesis.
La sección 203 de decodificación de espectro decodifica el vector de forma y ganancia mediante el método que soporta el método de codificación en la sección 105 de codificación de espectro mostrada en la Figura 1, obtiene un espectro decodificado multiplicando el vector de forma decodificado por la ganancia decodificada, y emite el espectro decodificado a la sección 204 de transformación ortogonal.
5 La sección 204 de transformación ortogonal realiza una transformación inversa del espectro decodificado emitido desde la sección 203 de decodificación de espectro comparado con la sección 104 de transformación ortogonal mostrada en la Figura 1, y emite la señal residual decodificada en serie temporal resultante al filtro 205 de síntesis.
El filtro 205 de síntesis produce el habla de salida aplicando filtrado de síntesis a la señal residual decodificada emitida desde la sección 204 de transformación ortogonal usando el parámetro decodificado emitido desde la sección 202 de decodificación de parámetro.
En este punto, para invertir el orden de procesamiento entre el filtro 103 inverso y la sección 104 de transformación ortogonal mostrada en la Figura 1, el aparato de decodificación del habla en la Figura 2 multiplica el espectro
15 decodificado por un espectro de frecuencia del parámetro decodificado (es decir adición en el eje logarítmico) y realiza una transformación ortogonal del espectro resultante.
A continuación, se explicarán en detalle la sección 111 de cuantificación de forma y la sección 112 de cuantificación se ganancia. Se proporciona la sección 111 de cuantificación de forma con la sección 121 de búsqueda de intervalo que busca pulsos en cada una de una pluralidad de bandas en las que se divide un intervalo de búsqueda predeterminado, y la sección 122 de búsqueda minuciosa que busca pulsos sobre el intervalo de búsqueda completo.
La siguiente ecuación 1 proporciona una referencia para búsqueda. En este punto, en la ecuación 1, E es la 25 distorsión de codificación, si es el espectro de entrada, g es la ganancia óptima, 8 es la función delta y p es la posición de pulso.
A partir de la ecuación 1 anterior, la posición de pulso para minimizar la función de coste es la posición en la que el valor absoluto |Sp| del espectro de entrada en cada banda es máximo, y su polaridad es la polaridad del valor del valor del espectro de entrada en la posición de ese pulso.
Se explicará a continuación un caso de ejemplo donde la longitud del vector de un espectro de entrada es ochenta
35 muestras, el número de bandas es cinco y se codifica el espectro usando ocho pulsos, un pulso de cada banda y tres pulsos de la banda completa. En este caso, la longitud de cada banda es dieciséis muestras. Además, se fija la amplitud de los pulsos a buscar a “1”, y su polaridad es “+” o “-”.
La sección 121 de búsqueda de intervalo busca la posición de la máxima energía y la polaridad (+/-) en cada banda, y permite que aparezca un pulso por banda. En este ejemplo, el número de bandas es cinco, y cada banda requiere cuatro bits para mostrar la posición de pulso (entradas de posiciones: 16) y un bit para mostrar la polaridad (+/-), que requiere veinticinco bits de información en total.
Se muestra el flujo del algoritmo de búsqueda de la sección 121 de búsqueda de intervalo en la Figura 3. En este 45 punto, los símbolos usados en el diagrama de flujo de la Figura 3 representan los siguientes contenidos.
i: posición
b: número de banda máx: máximo valor
c: contador pos[b]: resultado de búsqueda (posición) pol[b]: resultado de búsqueda (polaridad) s[i]: espectro de entrada
55 Como se muestra en la Figura 3, la sección 121 de búsqueda de intervalo calcula el espectro de entrada s[i] de cada muestra (0:c:15) por banda (0:b:4), y calcula el máximo valor “máx”.
La Figura 4 ilustra un ejemplo de un espectro representado mediante pulsos averiguados mediante la sección 121 de búsqueda de intervalo. Como se muestra en la Figura 4, un pulso que tiene una amplitud de “1” y una polaridad de “+” o “-” aparece en cada una de cinco bandas que tienen un ancho de banda de dieciséis muestras.
La sección 122 de búsqueda minuciosa busca las posiciones que suben tres pulsos, sobre el intervalo de búsqueda completo, y codifica las posiciones y polaridades de los pulsos. En la sección 122 de búsqueda minuciosa, se realiza una búsqueda de acuerdo con las siguientes cuatro condiciones para codificación de posición precisa con una pequeña cantidad de bits de información y una pequeña cantidad de cálculos.
(1)
Dos o más pulsos no deben aparecen en la misma posición. En este ejemplo, los pulsos no deben aparecer en las posiciones en las que se sube el pulso de cada banda en la sección 121 de búsqueda de intervalo. Con este ingenio, no se deben usar bits de información para representar el componente de amplitud, de modo que es posible usar bits de información eficazmente.
(2)
Se buscan los pulsos en orden, de uno en uno, en un bucle abierto. Durante una búsqueda, de acuerdo con la regla de (1), no se debe someter a búsqueda las posiciones de pulso que se hayan determinado.
(3)
En una búsqueda de posición, una posición en la que mejor no debería aparecer un pulso se codifica también como una pieza de información (posición).
(4)
Dadas esas ganancias se codifican para cada banda, se buscan los pulsos evaluando distorsión de codificación con respecto a la ganancia ideal de cada banda.
La sección 122 de búsqueda minuciosa realiza la siguiente evaluación de coste de dos etapas para buscar un solo pulso sobre el espectro de entrada completo. En primer lugar, en la primera etapa, la sección 122 de búsqueda minuciosa evalúa el coste en cada banda y encuentra la posición y polaridad para minimizar la función de coste. A continuación, en la segunda etapa, la sección 122 de búsqueda minuciosa evalúa el coste global cada vez que se finaliza la búsqueda anterior en una banda, y almacena la posición y polaridad del pulso para minimizar el coste, como un resultado final. Se realiza esta búsqueda por banda, en orden. Además, se realiza esta búsqueda para cumplir las condiciones anteriores (1) a (4). A continuación, cuando se finaliza una búsqueda de un pulso, suponiendo la presencia de ese pulso en la posición buscada, se realiza una búsqueda del siguiente pulso. Se realiza esta búsqueda hasta que se encuentra un número de pulsos predeterminado (tres pulsos en este ejemplo), repitiendo el procesamiento anterior.
Se muestra el flujo del algoritmo de búsqueda de la sección 122 de búsqueda minuciosa en la Figura 5. La Figura 5 es un diagrama de flujo de pre-procesamiento de una búsqueda, y la Figura 6 es un diagrama de flujo de la búsqueda. Además, se muestran las partes que corresponden a las condiciones anteriores (1), (2) y (4) en el diagrama de flujo de la Figura 6.
Los símbolos usados en el diagrama de flujo de la Figura 5 representan los siguientes contenidos.
c: contador pf[*]: bandera de existencia/no existencia de pulso
b: número de banda pos[*]: resultado de búsqueda (posición) n_s[*]: valor de correlación n_máx[*]: máximo valor de correlación n2_s[*]: valor de correlación cuadrado n2_máx[*]: máximo valor de correlación cuadrado d_s[*]: valor de potencia d_máx[*]: máximo valor de potencia s[*]: espectro de entrada
Los símbolos usados en el diagrama de flujo de la Figura 6 representan los siguientes contenidos.
i: número de pulso i0: posición de pulso cmáx: máximo valor de función de coste pf[*]: bandera de existencia/no existencia de pulso (0: no existencia, 1: existencia) ii0: posición de pulso relativa en una banda nom: amplitud espectral nom2: término numerador (potencia espectral) den: término denominador n_s[*]: valor relativo d_s[*]: valor de potencia s[*]: espectro de entrada n2_s[*]: valor de correlación cuadrado n_máx[*]: máximo valor de correlación n2_máx[*]: máximo valor de correlación cuadrado idx_máx[*]: resultado de búsqueda de cada pulso (posición) (en este punto, idx_máx[*] de 0 a 4 es equivalente a
pos[b] de la Figura 3) fd0, fd1, fd2: memoria intermedia de almacenamiento temporal (tipo número real) id0, id1: memoria intermedia de almacenamiento temporal (tipo número entero) id0_s, id1_s: memoria intermedia de almacenamiento temporal (tipo número entero) »»: desplazamiento de bit (a la derecha)
&: “y” como una secuencia de bits
En este punto, en la búsqueda en la Figura 5 y la Figura 6, el caso donde idx_máx[*] es “-1”, corresponde al caso
5 anterior de la condición (3) donde mejor no debería aparecer un pulso. El ejemplo detallado de esto es que, puesto que un espectro es suficientemente aproximado únicamente mediante el pulso buscado por banda y pulsos buscados en el intervalo completo, si se sube un pulso de la misma amplitud además, se produce un aumento proporcional de distorsión de código.
10 Las polaridades de los pulsos buscados corresponden a las polaridades del espectro de entrada en estas posiciones, y la sección 122 de búsqueda minuciosa codifica estas polaridades con 3 (pulsos) x 1 = 3 bits. En este punto, cuando la posición es “-1”, es decir, cuando no aparece un pulso, no hay diferencia si la polaridad es “+” o “-”. Sin embargo, se puede usar la polaridad para detectar errores de bit y generalmente se fija a “+” o “-”.
15 Además, la sección 122 de búsqueda minuciosa codifica información de posición de pulso en base al número de combinaciones de posiciones de pulso. En este ejemplo, puesto que el espectro de entrada contiene ochenta muestras y ya se han encontrado cinco pulsos en cinco bandas individuales, si se tienen en cuenta también casos donde los pulsos no suben, las variaciones de posiciones se pueden representar usando diecisiete bits, de acuerdo
En este punto, de acuerdo con la regla de no permitir que aparezcan dos o más pulsos en la misma posición, es posible reducir el número de combinaciones, de modo que el efecto de esta regla se vuelve mayor cuando aumenta el número de pulsos a buscar en el intervalo completo.
25 Se describirá a continuación en detalle el método de codificación en base a las posiciones de pulsos buscadas en la sección 122 de búsqueda minuciosa.
(1) Se ordenan tres posiciones de pulso en base a su magnitud y se disponen en orden desde el valor 30 numérico más bajo hasta el valor numérico más alto. En este punto, “-1” se deja como tal.
(2) Los números de pulso se alinean a la izquierda mediante el número de pulsos que hayan aparecido en bandas individuales, para reducir los valores numéricos de los números de pulso. Los valores numéricos calculados de esta manera se denominan como “números de posición”. En este punto, “-1” es se deja como tal. Por ejemplo, con referencia a la posición de pulso de “66”, cuando se proporciona cada pulso entre 0 y 15,
35 entre 16 y 31, entre 32 y 47 y entre 48 y 64, se cambia el número de posición a “66-4=62”.
(3) “-1” se establece al número de posición representado mediante “el máximo valor de un pulso + 1”. En este caso, se ajusta y determina el orden de valores de manera que no se confunda el número de posición establecido con un número de posición en el que realmente se presente un pulso. De esta manera, se limita el número de pulso del pulso Nº 0 al intervalo entre 0 y 73, se limita el número de posición del pulso Nº 1 al
40 intervalo entre el número de posición del pulso Nº 0 y 74 y se limita el número de posición del pulso Nº 2 al intervalo entre el número de posición del pulso Nº 1 y 75, es decir, se diseña el número de posición de un pulso inferior para que no exceda el número de posición de un pulso superior.
(4) A continuación, de acuerdo con procesamiento de integración mostrado en la siguiente ecuación 3 para calcular un código de combinación, se integran los números de posición (i0, i1, i2) para producir el código (c).
45 Este procesamiento de integración es el procesamiento de cálculo de integrar todas las combinaciones cuando existe el orden de magnitud.
(5) A continuación, combinando los 17 bits de este c y 3 bits para polaridad, se produce un código de 20 bits.
En este punto, en los números de posición anteriormente mencionados, el pulso Nº 0 de “73”, el pulso Nº 1 de “74” y
5 pulso Nº 2 de “75” son números de posición en los que no aparecen pulsos. Por ejemplo, si hay tres números de posición (73, -1, -1), de acuerdo con la relación anteriormente mencionada entre un número de posición y el número de posición en el que no aparece un pulso, se reordenan estos números de posición a (-1, 73, -1) y hacen (73, 73, 75).
10 Por lo tanto, en el modelo donde se representa un aspecto de entrada mediante una secuencia de 8 pulsos (cinco pulsos en bandas individuales y tres pulsos en el intervalo completo) como se muestra en este ejemplo, es posible realizar codificación mediante 45 bits de información.
La Figura 7 ilustra un ejemplo de un espectro representado mediante los pulsos averiguados en la sección 121 de
15 búsqueda de intervalo y la sección 122 de búsqueda minuciosa. También, en la Figura 7, los pulsos representados mediante líneas en negrita son pulsos averiguados en la sección 122 de búsqueda minuciosa.
La sección 112 de cuantificación de ganancia cuantifica la ganancia de cada banda. Se asignan ocho pulsos en las bandas, y la sección 112 de cuantificación de ganancia calcula las ganancias analizando la correlación entre esos
20 pulsos y el espectro de entrada.
Si la sección 112 de cuantificación de ganancia calcula las ganancias ideales y a continuación realiza codificación mediante cuantificación escalar o cuantificación vectorial, en primer lugar, la sección 112 de cuantificación de ganancia calcula las ganancias ideales de acuerdo con la siguiente ecuación 4. En este punto, en la ecuación 4, gn
25 es la ganancia ideal de la banda “n”, s(i+16n) es el espectro de entrada de la banda “n”, vn(i) es el vector obtenido decodificando la forma de la banda “n”.
30 Además, la sección 112 de cuantificación de ganancia realiza codificación realizando cuantificación escalar (“SQ”) de las ganancias ideales o realizando cuantificación vectorial de estas cinco ganancias juntas. En el caso de realizar cuantificación vectorial, es posible realizar codificación eficaz mediante cuantificación de predicción, VQ multi-etapa, VQ de división y así sucesivamente. En este punto, se puede escuchar la ganancia de manera perceptiva en base a una escala logarítmica, y, en consecuencia, realizando SQ o VQ después de realizar transformación logarítmica de
35 ganancia, es posible producir buen sonido de síntesis de manera perceptiva.
Además, en lugar de calcular ganancias ideales, hay un método de evaluar directamente distorsión de codificación. Por ejemplo, en el caso de realizar VQ de cinco ganancias, se calcula la distorsión de codificación para minimizar la siguiente ecuación 5. En este punto, en la ecuación 5, Ek es la distorsión del k-ésimo vector de ganancia, s(i+16n) es
40 el espectro de entrada de banda “n”, gn(k) es el enésimo elemento del k-ésimo vector de ganancia y vn(i) es el vector de forma obtenido decodificando la forma de la banda “n”.
A continuación, se explicará el método de decodificar tres pulsos en la sección 203 de decodificación de espectro que se averiguan mediante la búsqueda minuciosa.
En la sección 122 de búsqueda minuciosa de la sección 105 de codificación de espectro, se integran los números de posición (i0, i1, i2) en un código usando la ecuación 3 anteriormente descrita. En la sección 203 de decodificación de espectro se realiza procesamiento inverso. Es decir, la sección 203 de decodificación de espectro calcula secuencialmente el valor de la ecuación de integración a medida que cambia cada número de posición, fija el número de posición cuando el número de posición es inferior que el valor de integración y realiza este procesamiento desde el número de posición de orden inferior hasta el número de posición de orden superior uno a uno, realizando de esta manera decodificación. La Figura 8 es un diagrama de flujo que muestra el algoritmo de decodificación de la sección 203 de decodificación de espectro. Además, en la Figura 8, cuando el código de entrada “k” de la posición integrada implica error debido a error de bit, el flujo continúa a la etapa de procesamiento de error. Por lo tanto, en este caso, se debe encontrar la posición mediante procesamiento de error predeterminado.
Además, puesto que el decodificador tiene procesamiento de bucle, la cantidad de cálculos en el decodificador es mayor que en el codificador. En este punto, cada bucle es un bucle abierto, y, en consecuencia, visto desde la cantidad global de procesamiento en el códec, la cantidad de cálculos en el decodificador no es bastante grande.
Por lo tanto, la presente realización puede codificar frecuencias con precisión (posiciones) en las que está presente energía, de modo que es posible mejorar el rendimiento cualitativo, que es único a codificación en espectro y producir buena calidad de sonido incluso a bajas velocidades de bits.
Además, aunque anteriormente se ha descrito un caso con la presente realización donde se realiza codificación de ganancia después de codificación de forma, la presente invención puede proporcionar el mismo rendimiento si se realiza codificación de forma después de codificación de ganancia. Además, puede ser posible emplear un método de realización de codificación de ganancia para cada banda y a continuación normalizar el espectro mediante ganancias decodificadas y realizar codificación de forma de la presente invención.
Además, aunque anteriormente se ha descrito un caso de ejemplo con la presente realización donde, en la cuantificación de la forma de un espectro, la longitud del espectro es ochenta, el número de bandas es cinco, el número de pulsos a buscar por banda es uno y el número de pulsos a buscar en el intervalo completo es tres, la presente invención no depende de ninguna manera de los valores anteriores y puede producir los mismos efectos con diferentes valores numéricos.
Además, si el ancho de banda es suficientemente corto, se pueden codificar relativamente muchas ganancias y el número de bits de información es suficientemente grande, la presente invención puede conseguir el rendimiento anteriormente descrito únicamente realizando una búsqueda de pulso para cada banda o realizar una búsqueda de pulso en un intervalo amplio sobre una pluralidad de bandas.
Además, aunque se establece la condición de no subir dos pulsos en la misma posición en la realización anteriormente descrita, la presente invención puede relajar parcialmente esta condición. Por ejemplo, si se permite aparecer el pulso a buscar para cada banda y los pulsos a buscar en un intervalo amplio sobre la pluralidad de bandas en las mismas posiciones, es posible eliminar pulsos de bandas individuales o permitir que aparezcan pulsos de doble amplitud. Para relajar esa condición, el requisito esencial es no almacenar la bandera de existencia/no existencia de pulso pf[*] con respecto al pulso por banda. Es decir, se necesita omitir “pf[pos[b]]=1” en la última etapa en la Figura 5. Como alternativa, otro método de relajar esa condición es no almacenar una bandera de existencia/no existencia de pulso tras una búsqueda de pulso en un intervalo amplio. Es decir, se necesita omitir “pf[idx_máx[i+5]]=1” en la última etapa en la Figura 6. En este caso, aumentan las variaciones de las posiciones. Las combinaciones no son tan simples como se muestra en la presente realización y por lo tanto es necesario clasificar casos y codificar las combinaciones de acuerdo con los casos clasificados.
Además, aunque se realiza codificación mediante pulsos para un espectro sometido a una transformación ortogonal en la presente realización, la presente invención no está limitada a esto, y es también aplicable a otros vectores. Por ejemplo, se puede aplicar la presente invención a vectores de números complejos en la FFT o DCT compleja, y se puede aplicar a una secuencia vectorial en el dominio del tiempo en la transformación Wavelet o similares. Además, la presente invención es también aplicable a una secuencia vectorial en el dominio del tiempo tal como formas de onda de excitación de CELP. Al igual que para formas de onda de excitación en CELP, se implica un filtro de síntesis, y por lo tanto una función de coste implica un cálculo de matriz. En este punto, el rendimiento no es suficiente mediante una búsqueda en un bucle abierto cuando se implica un filtro, y por lo tanto se necesita realizar una búsqueda de bucle cerrado en algún grado. Cuando hay muchos pulsos, es eficaz usar una búsqueda de haz o similares para reducir la cantidad de cálculos.
Además, de acuerdo con la presente invención, no se limita una forma de onda a buscar a un pulso (impulso), y es igualmente posible buscar incluso otras formas de onda fijas (tales como pulso dual, onda triangular, onda finita de respuesta de impulso, coeficiente de filtro y formas de onda fijas que cambian la forma adaptable), y producen el mismo efecto.
Además, aunque se ha descrito un caso con la presente realización donde se aplica la presente invención a CELP, no se limita la presente invención a esto sino que es eficaz con otros códec.
Además, no se puede usar únicamente una señal del habla sino también una señal de audio como la señal de acuerdo con la presente invención. Es también posible emplear una configuración en la que se aplica la presente invención a una señal residual de predicción de LPC en lugar de una señal de entrada.
Se puede montar el aparato de codificación y aparato de decodificación de acuerdo con la presente invención en un aparato terminal de comunicación y aparato de estación base en un sistema de comunicación móvil, de modo que es posible proporcionar un aparato terminal de comunicación, aparato de estación base y sistema de comunicación móvil que tenga el mismo efecto operacional como anteriormente.
Aunque se ha descrito un caso con la anterior realización como un ejemplo donde se implementa la presente invención con hardware, la presente invención se puede implementar con software. Por ejemplo, describiendo el algoritmo de acuerdo con la presente invención en un lenguaje de programación, almacenar este programa en una memoria y hacer que la sección de procesamiento de información ejecute este programa, es posible implementar la misma función que el aparato de codificación de acuerdo con la presente invención.
Adicionalmente, típicamente se puede implementar cada bloque de función empleado en la descripción de cada una de las realizaciones anteriormente mencionadas como un LSI constituido mediante un circuito integrado. Estos pueden ser chips individuales o parcialmente o totalmente contenidos en un solo chip.
Se adopta “LSI” en este punto pero esto se puede denominar también como “IC”, “sistema LSI”, “súper LSI” o “ultra LSI” dependiendo de diferentes extensiones de integración.
Además, no se limita el método de integración de circuito a LSI, y es también posible implementación usando circuitería dedicada o procesadores de fines generales. Después de la fabricación de LSI, también es posible utilización de un FPGA (Campo de Matriz de Puertas Programables) o un procesador reconfigurable donde se pueden reconfigurar conexiones y ajustes de celdas de circuito en un LSI.
Además, si la tecnología de circuitos integrados resulta que sustituye LSI como un resultado del avance de la tecnología de semiconductores u otra tecnología derivada, naturalmente es posible también llevar a cabo integración de bloque de función usando esta tecnología. También es posible la aplicación de biotecnología.
Aplicabilidad industrial
La presente invención es adecuada para un aparato de codificación que codifica señales del habla y señales de audio, y un aparato de decodificación que decodifica estas señales codificadas.

Claims (5)

  1. REIVINDICACIONES
    1. Un aparato de codificación que comprende:
    una sección de cuantificación de forma que codifica una forma de un espectro de frecuencia de audio; y una sección de cuantificación de ganancia que codifica una ganancia del espectro de frecuencia de audio, caracterizado por que la sección de cuantificación de forma comprende:
    una sección de búsqueda de intervalo que busca una primera forma de onda fija en cada una de una pluralidad de bandas de frecuencia que dividen un intervalo de búsqueda de frecuencia predeterminado; y una sección de búsqueda minuciosa que busca segundas formas de onda fijas sobre una totalidad del intervalo de búsqueda de frecuencia predeterminado.
  2. 2.
    El aparato de codificación de acuerdo con la reivindicación 1, donde la sección de búsqueda minuciosa busca las segundas formas de onda fijas evaluando distorsión de codificación mediante una ganancia ideal por banda.
  3. 3.
    El aparato de codificación de acuerdo con la reivindicación 1, donde la sección de búsqueda minuciosa codifica información de posición de las segundas formas de onda fijas en base a un número de combinaciones de posiciones de las segundas formas de onda fijas.
  4. 4.
    El aparato de codificación de acuerdo con la reivindicación 1, donde la sección de cuantificación de ganancia calcula ganancias de la primera forma de onda fija y las segundas formas de onda fijas para cada banda.
  5. 5.
    Un método de codificación que comprende:
    una etapa de cuantificación de forma de codificación de una forma de un espectro de frecuencia de audio; y una etapa de cuantificación de ganancia de codificación de una ganancia del espectro de frecuencia de audio, caracterizado por que la etapa de cuantificación de forma comprende:
    una etapa de búsqueda de intervalo de búsqueda de una primera forma de onda fija en una pluralidad de bandas de frecuencia que dividen un intervalo de búsqueda de frecuencia predeterminado; y una etapa de búsqueda minuciosa de búsqueda de segundas formas de onda fijas sobre una totalidad del intervalo de búsqueda de frecuencia predeterminado.
ES08720311T 2007-03-02 2008-02-29 Dispositivo de codificación y método de codificación Active ES2404408T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2007053497 2007-03-02
JP2007053497 2007-03-02
PCT/JP2008/000397 WO2008108076A1 (ja) 2007-03-02 2008-02-29 符号化装置および符号化方法

Publications (1)

Publication Number Publication Date
ES2404408T3 true ES2404408T3 (es) 2013-05-27

Family

ID=39737974

Family Applications (1)

Application Number Title Priority Date Filing Date
ES08720311T Active ES2404408T3 (es) 2007-03-02 2008-02-29 Dispositivo de codificación y método de codificación

Country Status (11)

Country Link
US (1) US8719011B2 (es)
EP (1) EP2128858B1 (es)
JP (1) JP5190445B2 (es)
KR (1) KR101414359B1 (es)
CN (1) CN101622663B (es)
BR (1) BRPI0808198A8 (es)
DK (1) DK2128858T3 (es)
ES (1) ES2404408T3 (es)
MX (1) MX2009009229A (es)
RU (1) RU2463674C2 (es)
WO (1) WO2008108076A1 (es)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110035214A1 (en) * 2008-04-09 2011-02-10 Panasonic Corporation Encoding device and encoding method
US8805694B2 (en) 2009-02-16 2014-08-12 Electronics And Telecommunications Research Institute Method and apparatus for encoding and decoding audio signal using adaptive sinusoidal coding
JP5764488B2 (ja) 2009-05-26 2015-08-19 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 復号装置及び復号方法
US9076442B2 (en) 2009-12-10 2015-07-07 Lg Electronics Inc. Method and apparatus for encoding a speech signal
KR102079000B1 (ko) 2010-07-02 2020-02-19 돌비 인터네셔널 에이비 선택적인 베이스 포스트 필터
KR101850724B1 (ko) 2010-08-24 2018-04-23 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
JP6062861B2 (ja) * 2011-10-07 2017-01-18 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 符号化装置及び符号化方法
US9336788B2 (en) * 2014-08-15 2016-05-10 Google Technology Holdings LLC Method for coding pulse vectors using statistical properties
WO2017027308A1 (en) 2015-08-07 2017-02-16 Dolby Laboratories Licensing Corporation Processing object-based audio signals
JP7016660B2 (ja) * 2017-10-05 2022-02-07 キヤノン株式会社 符号化装置、その制御方法、および制御プログラム、並びに撮像装置

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5701392A (en) * 1990-02-23 1997-12-23 Universite De Sherbrooke Depth-first algebraic-codebook search for fast coding of speech
JP3264679B2 (ja) * 1991-08-30 2002-03-11 沖電気工業株式会社 コード励振線形予測符号化装置及び復号化装置
JP3343965B2 (ja) * 1992-10-31 2002-11-11 ソニー株式会社 音声符号化方法及び復号化方法
JP3186007B2 (ja) 1994-03-17 2001-07-11 日本電信電話株式会社 変換符号化方法、復号化方法
CA2154911C (en) * 1994-08-02 2001-01-02 Kazunori Ozawa Speech coding device
JP3747492B2 (ja) * 1995-06-20 2006-02-22 ソニー株式会社 音声信号の再生方法及び再生装置
TW321810B (es) * 1995-10-26 1997-12-01 Sony Co Ltd
DE69734837T2 (de) * 1997-03-12 2006-08-24 Mitsubishi Denki K.K. Sprachkodierer, sprachdekodierer, sprachkodierungsmethode und sprachdekodierungsmethode
JP3147807B2 (ja) 1997-03-21 2001-03-19 日本電気株式会社 信号符号化装置
JP3063668B2 (ja) * 1997-04-04 2000-07-12 日本電気株式会社 音声符号化装置及び復号装置
JP3185748B2 (ja) * 1997-04-09 2001-07-11 日本電気株式会社 信号符号化装置
CA2233896C (en) * 1997-04-09 2002-11-19 Kazunori Ozawa Signal coding system
JP3954716B2 (ja) * 1998-02-19 2007-08-08 松下電器産業株式会社 音源信号符号化装置、音源信号復号化装置及びそれらの方法、並びに記録媒体
JP3199020B2 (ja) 1998-02-27 2001-08-13 日本電気株式会社 音声音楽信号の符号化装置および復号装置
US6353808B1 (en) * 1998-10-22 2002-03-05 Sony Corporation Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal
US20020016161A1 (en) * 2000-02-10 2002-02-07 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for compression of speech encoded parameters
AU2001294974A1 (en) * 2000-10-02 2002-04-15 The Regents Of The University Of California Perceptual harmonic cepstral coefficients as the front-end for speech recognition
JP3582589B2 (ja) * 2001-03-07 2004-10-27 日本電気株式会社 音声符号化装置及び音声復号化装置
WO2003091989A1 (en) * 2002-04-26 2003-11-06 Matsushita Electric Industrial Co., Ltd. Coding device, decoding device, coding method, and decoding method
EP1691344B1 (en) * 2003-11-12 2009-06-24 HONDA MOTOR CO., Ltd. Speech recognition system
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
US20080275709A1 (en) * 2004-06-22 2008-11-06 Koninklijke Philips Electronics, N.V. Audio Encoding and Decoding
BRPI0607303A2 (pt) 2005-01-26 2009-08-25 Matsushita Electric Ind Co Ltd dispositivo de codificação de voz e método de codificar voz
EP1876585B1 (en) 2005-04-28 2010-06-16 Panasonic Corporation Audio encoding device and audio encoding method
RU2007139784A (ru) * 2005-04-28 2009-05-10 Мацусита Электрик Индастриал Ко., Лтд. (Jp) Устройство кодирования звука и способ кодирования звука
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US7630882B2 (en) * 2005-07-15 2009-12-08 Microsoft Corporation Frequency segmentation to obtain bands for efficient coding of digital media
EP1907812B1 (fr) * 2005-07-22 2010-12-01 France Telecom Procede de commutation de debit en decodage audio scalable en debit et largeur de bande
JP2007053497A (ja) 2005-08-16 2007-03-01 Canon Inc 映像表示装置及び映像表示方法
WO2007052612A1 (ja) 2005-10-31 2007-05-10 Matsushita Electric Industrial Co., Ltd. ステレオ符号化装置およびステレオ信号予測方法
JP5173795B2 (ja) * 2006-03-17 2013-04-03 パナソニック株式会社 スケーラブル符号化装置およびスケーラブル符号化方法
JP4823001B2 (ja) * 2006-09-27 2011-11-24 富士通セミコンダクター株式会社 オーディオ符号化装置
US20080243518A1 (en) * 2006-11-16 2008-10-02 Alexey Oraevsky System And Method For Compressing And Reconstructing Audio Files
JP5113799B2 (ja) 2009-04-22 2013-01-09 株式会社ニフコ 回転ダンパー

Also Published As

Publication number Publication date
WO2008108076A1 (ja) 2008-09-12
US20100057446A1 (en) 2010-03-04
CN101622663A (zh) 2010-01-06
BRPI0808198A2 (pt) 2014-07-08
KR20090117877A (ko) 2009-11-13
RU2009132936A (ru) 2011-03-10
EP2128858A4 (en) 2012-03-14
BRPI0808198A8 (pt) 2017-09-12
DK2128858T3 (da) 2013-07-01
EP2128858B1 (en) 2013-04-10
EP2128858A1 (en) 2009-12-02
JPWO2008108076A1 (ja) 2010-06-10
US8719011B2 (en) 2014-05-06
RU2463674C2 (ru) 2012-10-10
CN101622663B (zh) 2012-06-20
MX2009009229A (es) 2009-09-08
KR101414359B1 (ko) 2014-07-22
JP5190445B2 (ja) 2013-04-24

Similar Documents

Publication Publication Date Title
ES2404408T3 (es) Dispositivo de codificación y método de codificación
ES2473277T3 (es) Dispositivo de codificación, dispositivo de descodificaci�n y método de los mismos
AU2008222241B2 (en) Encoding device and encoding method
ES2797525T3 (es) Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC
ES2938668T3 (es) Mejorar la clasificación entre codificación en el dominio del tiempo y codificación en el dominio de la frecuencia
EP2254110B1 (en) Stereo signal encoding device, stereo signal decoding device and methods for them
ES2639572T3 (es) Cuantificador vectorial, cuantificador inverso vectorial y procedimientos para los mismos
ES2908183T3 (es) Decisión no sonora para el procesamiento de la voz
US20110004469A1 (en) Vector quantization device, vector inverse quantization device, and method thereof
ES2870487T3 (es) Clasificación de audio basada en la calidad perceptual para velocidades de bits bajas o medias
ES2749967T3 (es) Codificación de audio en base a una representación eficiente de coeficientes autorregresivos
WO2009125588A1 (ja) 符号化装置および符号化方法
EP2398149B1 (en) Vector quantization device, vector inverse-quantization device, and associated methods
EP2618331B1 (en) Quantization device and quantization method
ES2428572T3 (es) Dispositivo de codificación de audio y método de codificación de audio
ES2686889T3 (es) Dispositivo de cuantificación vectorial, dispositivo de codificación de voz, procedimiento de cuantificación vectorial y procedimiento de codificación de voz
Ozaydin Residual Lsf Vector Quantization Using Arma Prediction
WO2012053149A1 (ja) 音声分析装置、量子化装置、逆量子化装置、及びこれらの方法
TW201329960A (zh) 量化裝置及量化方法
JP2013068847A (ja) 符号化方法及び符号化装置