ES2627581T3 - Sistema y método para la excitación de libro de códigos mixto para la codificación de la voz - Google Patents

Sistema y método para la excitación de libro de códigos mixto para la codificación de la voz Download PDF

Info

Publication number
ES2627581T3
ES2627581T3 ES13874853.8T ES13874853T ES2627581T3 ES 2627581 T3 ES2627581 T3 ES 2627581T3 ES 13874853 T ES13874853 T ES 13874853T ES 2627581 T3 ES2627581 T3 ES 2627581T3
Authority
ES
Spain
Prior art keywords
codebook
vector
mixed
pulse
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES13874853.8T
Other languages
English (en)
Inventor
Yang Gao
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Application granted granted Critical
Publication of ES2627581T3 publication Critical patent/ES2627581T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/087Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering

Abstract

Un método de codificación CELP de una señal de audio/voz, el método comprende: determinar un vector del libro de códigos mixto según una señal de audio/voz entrante, el vector del libro de códigos mixto comprende una suma de una primera entrada del libro de códigos de un primer libro de códigos y una segunda entrada del libro de códigos de un segundo libro de códigos, en donde el primer libro de códigos comprende entradas tipo pulso y el segundo libro de códigos comprende entradas tipo ruido; generar una señal de audio codificada según el vector del libro de códigos mixto determinado; y transmitir un índice de excitación codificada del vector del libro de códigos mixto determinado, en donde la determinación y generación se llevan a cabo usando un codificador de audio basado en hardware; en donde el primer y segundo libros de códigos son libros de códigos fijos.

Description

imagen1
imagen2
imagen3
imagen4
imagen5
imagen6
5
10
15
20
25
30
35
40
45
la Figura 4 ilustra un descodificador de voz CELP convencional que utiliza un libro de códigos adaptativo;
la Figura 5 ilustra una estructura FCB que contiene vectores candidatos tipo ruido para construir una excitación codificada;
la Figura 6 ilustra una estructura FCB que contiene vectores candidatos tipo pulso para construir una excitación codificada;
la Figura 7 ilustra una estructura de la realización del FCB mixto pulso-ruido;
la Figura 8 ilustra una estructura de la realización de un FCB mixto pulso-ruido;
la Figura 9 ilustra una estructura general de un FCB mixto pulso-ruido de la realización;
la Figura 10 ilustra una estructura general adicional de un FCB mixto pulso-ruido de la realización;
la Figura 11 ilustra una estructura general adicional de un FCB mixto pulso-ruido de la realización;
la Figura 12 ilustra una estructura más general de un FCB mixto de la realización;
la Figura 13 ilustra un diagrama de bloques de un sistema de codificación de excitación;
la Figura 14 ilustra un diagrama de bloques de un sistema de codificación de excitación basado en un libro de códigos mixto de la realización;
las Figuras 15a-b ilustran diagramas de flujo de métodos de las realizaciones; y
la Figura 16 ilustra un sistema de comunicaciones de la realización.
Los numerales y símbolos correspondientes en las diferentes figuras se refieren, en general, a las partes correspondientes a menos que se indique lo contrario. Las figuras se dibujan para ilustrar de manera clara los aspectos relevantes de las realizaciones preferidas y no se dibujan necesariamente a escala. Con el fin de ilustrar ciertas realizaciones de manera más clara, una letra que indica variaciones de la misma estructura, material o etapa de proceso puede seguir a un número de la figura.
Descripción detallada de realizaciones ilustrativas
La realización y el uso de las realizaciones actualmente preferidas se describen en detalle más abajo. Se debe apreciar, sin embargo, que la presente invención provee muchos conceptos ingeniosos aplicables que se pueden realizar en una amplia variedad de contextos específicos. Las realizaciones específicas descritas son meramente ilustrativas de maneras específicas para llevar a cabo y usar la invención y no limitan el alcance de la invención.
La presente invención se describirá con respecto a realizaciones en un contexto específico, a saber, un codificador y descodificador de audio basado en CELP. Se debe comprender que las realizaciones de la presente invención se pueden dirigir hacia otros sistemas.
Como ya se ha mencionado, CELP se usa, principalmente, para codificar una señal de voz beneficiándose de las características específicas de la voz humana o de un modelo humano de producción de voz vocal. El algoritmo CELP es una tecnología muy popular que se ha usado en varios estándares ITU-T, MPEG, 3GPP y 3GPP2. Con el fin de codificar la señal de voz de manera más eficiente, una señal de voz se puede clasificar en diferentes clases y cada clase se codifica de manera diferente. Por ejemplo, en algunos estándares como, por ejemplo, G.718, VMR-WB o AMR-WB, una señal de voz se clasifica en NO SONORA, TRANSICIÓN, GENÉRICA, SONORA y RUIDO. Para cada clase, siempre se usa un filtro LPC o STP para representar la envolvente espectral; pero la excitación para el filtro LPC puede ser diferente. NO SONORA y RUIDO se pueden codificar con una excitación de ruido y una mejora de excitación. TRANSICIÓN se puede codificar con una excitación de pulso y una mejora de excitación sin usar el libro de códigos adaptativo o LTP. GENÉRICA se puede codificar con un enfoque CELP tradicional como, por ejemplo, CELP Algebraico, usado en G.729 o AMR-WB, en el cual una trama de 20 ms contiene cuatro subtramas de 5 ms, tanto el componente de excitación del libro de códigos adaptativo como el componente de excitación del libro de códigos fijo se producen con mejoras de excitación para cada subtrama, los retardos de tono para el libro de códigos adaptativo en la primera y tercera subtramas se codifican en un rango total desde un límite de tono mínimo TON_MIN hasta un límite de tono máximo TON_MAX, y los retardos de tono para el libro de códigos adaptativo en la segunda y cuarta subtramas se codifican de manera diferente respecto del retardo de tono codificado previo. Una señal de clase SONORA se puede codificar de manera ligeramente diferente respecto de GENÉRICA, en la cual el retardo de tono en la primera subtrama se codifica en un rango total desde un límite de tono mínimo TON_MIN hasta un límite de tono máximo TON_MAX y los retardos de tono en las otras subtramas se codifican de manera diferente respecto del retardo de tono codificado previo.
imagen7
imagen8
5
10
15
20
25
30
35
40
45
50
seleccionado 1102 se escalona entonces por la ganancia FCB Gl 1103. Como ejemplo dado para la Figura 11, si 12 bits se encuentran disponibles para codificar el FCB mixto pulso-ruido en la Figura 11, 6 bits se pueden asignar al sublibro de códigos tipo pulso 1104, en el cual 5 bits son para codificar una posición de pulso y 1 bit es para codificar una señal de los vectores tipo pulso; 6 bits se pueden asignar al sublibro de códigos tipo ruido 1105, en el cual 5 bits son para codificar 32 vectores tipo ruido diferentes y 1 bit es para codificar una señal de los vectores tipo ruido. Si la ganancia FCB Gl 1103 se señaliza, solamente una de la señal para los vectores tipo pulso y la señal para los vectores tipo ruido necesita codificarse.
La Figura 12 muestra una estructura más general de un FCB mixto de la realización. La principal diferencia entre la Figura 12 y la Figura 11 es que el Libro de Códigos 1 en el bloque 1204 puede contener vectores tipo pulso o tipo ruido y el Libro de Códigos 2 en el bloque 1205 también puede contener vectores tipo pulso o tipo ruido; ello significa que el libro de códigos mixto puede ser cualquier combinación de vectores tipo pulso y/o tipo ruido. Dado que un vector de código del FCB mixto en la Figura 12 es una combinación de un vector del Libro de Códigos 1 y un vector del Libro de Códigos 2, diferentes mejoras se pueden aplicar respectivamente al vector del Libro de Códigos 1 y al vector del Libro de Códigos 2. Por ejemplo, una mejora H1(z) que incluye filtro de paso bajo, filtro de paso alto, filtro de tono y/o filtro de los formantes se puede aplicar al vector del Libro de Códigos 1. De manera similar, una mejora H2(z) que incluye filtro de paso bajo, filtro de paso alto, filtro de tono y/o filtro de los formantes se puede aplicar al vector del Libro de Códigos 2. 1201 indica todo el FCB mixto. El vector de código seleccionado 1202 se genera combinando (adicionando) un vector mejorado del Libro de Códigos 1 y un vector mejorado del Libro de Códigos 2. 1206 indica la mejora H1(z) para los vectores del Libro de Códigos 1, los cuales pueden ser fijos o adaptativos. 1207 indica la mejora H2(z) para los vectores del Libro de Códigos 2, los cuales pueden ser fijos o adaptativos. 1208 indica la tercera mejora H3(z) para los vectores combinados, los cuales pueden también ser fijos o adaptativos. Las mejoras 1206, 1207 y 1208 no gastan, en general, bits para codificar los parámetros de mejoras, ya que los parámetros de las mejoras pueden ser adaptativos a los parámetros disponibles en el codificador y descodificador. El vector de código seleccionado 1202 se escalona entonces por la ganancia FCB Gl 1203.
Supongamos que la estructura del libro de códigos fijo es como se muestra en la Figura 11 y la señal de excitación se codifica por subtramas de 64 muestras, a saber, cuatro veces por subtrama; esta sección provee un enfoque de búsqueda rápida para un libro de códigos mixto pulso-ruido. El principio de codificación de excitación se muestra en un diagrama esquemático en la Figura 13, el cual es en realidad similar al principio que se muestra en la Figura 3. En teoría, la Figura 3 permite una optimización conjunta del componente de excitación del libro de códigos adaptativo y del componente de excitación del libro de códigos fijo (a saber, el componente de excitación de código). En la práctica, por razones de simplicidad, el componente de excitación del libro de códigos adaptativo se determina, con frecuencia, primero y luego se determina el componente de excitación del libro de códigos fijo.
Para cada subtrama, el LP residual se da por
imagen9
donde s(n) es una señal de entrada 1301 que, con frecuencia, se preenfatiza y se usa para la codificación de la voz de banda ancha pero no para la codificación de la voz de banda estrecha. Por ejemplo, el filtro de preénfasis puede ser
imagen10
y β1 es igual a 0,68. De manera alternativa, β1 puede tomar valores diferentes.
La señal objetivo 1303 x(n) para la búsqueda del libro de códigos adaptativo 1307 se puede calcular restando una respuesta de entrada cero (no se muestra en la Figura 13) del filtro de síntesis ponderada W(z)/A(z) de la señal de entrada preenfatizada ponderada que se obtiene filtrando la señal de entrada 1301 s(n) a través del filtro ponderado 1302. Ello se lleva a cabo sobre una base de subtrama. Un procedimiento equivalente para calcular la señal objetivo es filtrar la señal residual r(n) a través de la combinación del filtro de síntesis 1/A(z) y el filtro de ponderación W(z).
La respuesta impulsiva h(n) del filtro de síntesis ponderada W(z)/A(z) se calcula para cada subtrama. En la ecuación de más arriba, A(z) es el filtro LP cuantificado. La respuesta impulsiva h(n) se necesita para la búsqueda de libros de códigos adaptativos y fijos. La búsqueda de libro de código adaptativo incluye llevar a cabo una búsqueda de tono en bucle cerrado y luego calcular el vector de código adaptativo, ep(n), interpolando la excitación pasada en un retardo de tono fraccionario seleccionado P. ep(n) se puede mejorar, por ejemplo, aplicando un filtro de paso bajo adaptativo. Los parámetros del libro de códigos adaptativo (o parámetros de tono) son el tono en bucle cerrado P y la ganancia de tono 1305 gt (ganancia del libro de códigos adaptativo), calculados para cada subtrama. y(n) indica la contribución del libro de códigos adaptativo filtrado antes de aplicar la ganancia de tono 1305. Los detalles sobre el
5
10
15
20
25
30
35
40
45
cálculo de los parámetros del libro de códigos adaptativo no se describirán en la presente memoria ya que la presente sección se centra en describir la búsqueda de FCB mixto (libro de códigos mixto).
Después de restar la contribución del libro de códigos adaptativo ganada y filtrada de la señal objetivo x(n), la señal de diferencia obtenida x2(n) 1304 se convierte en la segunda señal objetivo para determinar la contribución de excitación de código. La excitación de código ec(n) 1308 y la ganancia correspondiente Gl 1306 se determinan a través de la minimización 1309 del error ponderado 1310.
La Figura 14 muestra una estructura similar a la de la Figura 13, excepto que el libro de códigos fijo o la excitación de código en la Figura 14 es, ahora, específicamente, una estructura de libro de códigos mixto. La señal objetivo 1403 x(n) para la búsqueda del libro de códigos adaptativo 1407 se calcula restando una respuesta de entrada cero (no se muestra en la Figura 14) del filtro de síntesis ponderada W(z)/A(z) de la señal de entrada preenfatizada ponderada; y la señal de entrada preenfatizada ponderada se obtiene filtrando la señal de entrada s(n) 1401 a través del filtro de ponderación 1402. Los parámetros del libro de códigos adaptativo (o parámetros de tono) son el tono en bucle cerrado P y la ganancia de tono 1405 gt (ganancia del libro de códigos adaptativo), calculados para cada subtrama. y(n) indica la contribución del libro de códigos adaptativo filtrado antes de aplicar la ganancia de tono 1405. Después de restar la contribución del libro de códigos adaptativo ganada y filtrada de la señal objetivo 1403 x(n), la señal de diferencia obtenida x2(n) 1404 se convierte en la segunda señal objetivo para determinar la contribución de excitación de libro de códigos mixto. La excitación de libro de códigos mixto 1408 ec(n) y la ganancia correspondiente 1406 Gl se determinan a través de la minimización 1409 del error ponderado 1410. z(n) indica la contribución del libro de códigos mixto filtrado antes de aplicar la ganancia 1406 Gl.
Supongamos que CB 1 en el libro de códigos mixto 1408 es un libro de códigos tipo pulso y CB 2 en el libro de códigos mixto 1408 es un libro de códigos tipo ruido. H1(z) en 1408 indica el filtro de mejora para los vectores CB 1, H2(z) en 1408 indica el filtro de mejora para los vectores CB 2 y H3(z) en 1408 indica el filtro de mejora para los vectores CB 1 y CB 2. Para facilitar la siguiente descripción, la respuesta impulsiva de H1(z), H2(z) o H3(z) se indica como h1(n), h2(n) o h3(n), respectivamente.
El índice de libro de códigos tipo pulso CB 1, o palabra de código, representa las posiciones de pulso y señales. Por consiguiente, no se necesita ningún almacenamiento de libro de códigos dado que el vector de código se puede construir en el descodificador a través de la información contenida en el propio índice (sin tablas de consulta). Los diferentes libros de códigos tipo pulso se pueden construir colocando cierto número de pulsos señalizados en cierto número de pistas. La búsqueda independiente o temporal del libro de códigos tipo pulso se puede llevar a cabo combinando, en primer lugar, los filtros de mejora H1(z) y H3(z) con el filtro de síntesis ponderada W(z)/A(z) anterior a la búsqueda del libro de códigos. Por consiguiente, la respuesta impulsiva h(n) del filtro de síntesis ponderada se debe modificar para incluir los filtros de mejora H1(z) y H3(z). Es decir,
imagen11
El índice de libro de códigos tipo ruido CB 2, o palabra de código, representa los vectores de ruido y señales. El libro de códigos tipo ruido se guarda, en general, en un almacenamiento de memoria. Con el fin de reducir el tamaño de la memoria, los vectores de ruido se pueden superponer y generar cambiando una posición del vector de ruido. La búsqueda independiente o temporal del libro de códigos tipo ruido se puede llevar a cabo combinando, en primer lugar, los filtros de mejora H2(z) y H3(z) con el filtro de síntesis ponderada W(z)/A(z) anterior a la búsqueda del libro de códigos. Por consiguiente, la respuesta impulsiva h(n) del filtro de síntesis ponderada se debe modificar para incluir los filtros de mejora H2(z) y H3(z). Es decir,
imagen12
Dado que H3(z) se usa comúnmente para los vectores tipo pulso y los vectores tipo ruido, la respuesta impulsiva de la combinación del filtro de síntesis 1/A(z), el filtro de ponderación W(z) y el filtro de mejora H3(z) se indica, específicamente, como
imagen13
El libro de códigos mixto se busca minimizando el error entre una señal objetivo actualizada 1404 x2(n) y un vector de código filtrado escalonado. La señal objetivo actualizada se da por
imagen14
donde y(n) = ep(n)*h(n) es el vector de código adaptativo filtrado y Gt es la ganancia del libro de códigos adaptativo. Es preciso dejar que la matriz H se defina como una matriz de convolución triangular inferior Toeplitz con la diagonal principal hh(0) y diagonales inferiores hh(1),...,hh(63), y d=HTx2 (también conocido como el vector objetivo filtrado hacia atrás) como la correlación entre la señal actualizada x2(n) y la respuesta impulsiva hh(n). Además, es preciso que Φ = HTH sea la matriz de las correlaciones de hh(n). En teoría, los elementos del vector d(n) se pueden calcular
imagen15
y los elementos de la matriz simétrica Φ se pueden calcular por
imagen16
En algunas realizaciones, la ecuación (13) se puede calcular usando un filtrado hacia atrás más simple y la ecuación
(14) puede no necesitarse en el caso actual para la búsqueda rápida del libro de códigos mixto pulso-ruido. Es preciso dejar que ck(n) sea un vector de código mixto que es
imagen17
Aquí, cp(n) es un vector candidato del libro de códigos tipo pulso y cn(n) es un vector candidato del libro de códigos tipo ruido. La excitación del libro de códigos mixto ck(n) o ec(n)=ck(n)*h3(n) y la ganancia correspondiente 1103 Gl de la excitación del libro de códigos mixto se pueden determinar a través de la minimización 1109 del error ponderado 1110:
imagen18
La minimización de (16) es equivalente a la maximización del siguiente criterio:
imagen19
En (17), zk es la contribución filtrada del libro de códigos de excitación mixto:
imagen20
25 En algunas realizaciones, el vector d(n) y la matriz Φ se calculan antes de la búsqueda del libro de códigos. En algunas realizaciones, el cálculo de la matriz Φ puede no necesitarse y, por lo tanto, puede omitirse.
La correlación en el numerador de ecuación (17) se da por
imagen21
imagen22
se pueden precalcular mediante un simple filtrado hacia atrás d(n) a través del filtro
H1(z) y H2(z). Si H1(z) y H2(z) se implementan usando filtros de primer orden, los procesos de filtrado hacia atrás
son simples. La energía en el denominador de ecuación (17) se da por
imagen23
En (20), Hp =HH1y Hn =HH2 se pueden precalcular por los siguientes procesos de filtrado o convoluciones:
imagen24
En algunas realizaciones, H1(z) y H2(z) se pueden implementar usando filtros de primer orden; entonces, el procesamiento de filtrado en (21) o (22) es simple dado que hh(n) ya se ha calculado en (11).
En (20), zp es la contribución de pulso filtrada:
imagen25
15 y zn es la contribución de ruido filtrada:
imagen26
La ecuación (20) se puede expresar además como,
imagen27
donde
imagen28
es la energía de la contribución de pulso filtrada y
imagen29
es la energía de la contribución de ruido filtrada. Supongamos que el vector de código cp(n) en (15) del sublibro de códigos de pulso es un vector señalizado:
imagen30
y el vector de código cn(n) en (15) del sublibro de códigos de ruido también es un vector señalizado:
imagen31
donde vp(ip) denota el vector de pulso ip-de dimensión 64 (el tamaño de la subtrama), el cual consiste en uno o varios pulsos; vr(ir) denota el in-ésimo vector de ruido de dimensión 64 (el tamaño de la subtrama), leyendo de una tabla de ruido; sp y sr son las señales, iguales a -1 o 1, e ip e ir son los índices que definen los vectores.
El objetivo del procedimiento de búsqueda es encontrar los índices ip e ir de los dos mejores vectores y sus señales
15 correspondientes, sp y sr. Ello se logra maximizando el criterio de búsqueda (17) donde el numerador se calcula usando la ecuación (19) y el denominador se calcula usando la ecuación (25). Cuando se observan el numerador
(19) y el denominador (25), el cálculo más complejo proviene del término medio del denominador (25), cual contiene todas las combinaciones posibles de las correlaciones cruzadas. Por ejemplo, si cp tiene Kimagen32p
posibilidades y cr tiene Kr posibilidades, el término medio, puede tener hasta (Kp · Kr) posibilidades.
20 La Figura 15a ilustra un diagrama de flujo 1500 de un método de la realización de una búsqueda rápida del libro de códigos mixto. En la etapa 1502, se calcula una correlación entre un vector de libro de códigos y cada vector objetivo filtrado para el libro de códigos de pulso y para el libro de códigos de ruido. En un ejemplo, después de calcular los imagen33
vectores d1 y d2 en (19), un proceso de predeterminación se usa para identificar imagen34de todos los vectores de
pulso posibles Kp y de todos los vectores de ruido posibles Kr de modo que el proceso de búsqueda se
imagen35
25 limitará a aquellos vectores de pulso posibles imagen36y vectores de ruido posibles imagen37.
imagen38
provienen de las combinaciones posibles
realización, K es mucho más pequeño que vectores de ruido y seis vectores de pulso se eligen para que sean las combinaciones posibles K y hacer, así, que se pruebe un total de 24 combinaciones. En otros ejemplos, se pueden seleccionar otros números de vectores de
5 ruido y vectores de pulso. En una realización, el número de vectores de pulso candidatos puede superar el número de vectores de ruido candidatos dado que los cálculos de vectores de pulso pueden ser computacionalmente más eficientes que llevar a cabo cálculos de vectores de ruido debido a la naturaleza dispersa de algunos vectores de pulso. (A saber, muchos de los elementos dentro de los vectores de pulso pueden establecerse en cero).
A continuación, una primera función de criterio se aplica a dichas combinaciones del primer y segundo grupos en la 10 etapa 1510. En una realización, la selección de las combinaciones posibles K se puede lograr maximizando el siguiente criterio simplificado de (17),
imagen39
imagen40
En la expresión de más arriba, Rp(i) y Rr(j) se han calculado en la etapa 1502; Ep(i) y Er(j) se han calculado en la 15 etapa 1504.
A continuación, en la etapa 1512, un primer grupo de combinaciones de vectores de pulso y vectores de ruido se determina según las primeras funciones de criterio más altas. Por ejemplo, en una realización, los índices de las combinaciones K que resultan en los valores K más grandes de Q(i,j) se retienen. Dichos índices se almacenan en la matriz del índice [ik, jk], k = 0,1,...,K-1. K es mucho más pequeño que el número de las combinaciones posibles
20 totales de los vectores de pulso y ruido.
A continuación, una segunda función de criterio se aplica al tercer grupo de combinaciones de vectores de pulso y vectores de ruido en la etapa 1514 y los índices del vector de pulso y vector de ruido que determinan el segundo criterio más alto se selecciona. Por ejemplo, en una realización, una vez que las combinaciones K más prometedoras de los vectores de pulso y ruido y sus señales correspondientes se predeterminan en las Etapas 25 1502, 1504, 1506, 1508, 1510 y 1512 de más arriba, la búsqueda procede con la selección de un vector de pulso y
imagen41
En (32), Rp(ik), Rr(jk), Ep(ik) y Er(jk) se han obtenido en las etapas 1502 y 1504, zp(ik) y zr(jk) se han calculado en la etapa 1504. En caso de que los vectores de pulso contengan solamente un pulso, el vector de pulso filtrado zp(ik) en 30 (32) podría tener ceros del primer elemento del vector hasta la posición de pulso, lo cual puede además simplificar el cálculo.
imagen42
imagen43
En la etapa 1556, calcular y elegir las posibles combinaciones K de las contribuciones del libro de códigos mixto de imagen44las combinaciones posibles que se obtienen de la etapa 1552 y la etapa 1554 se calculan y eligen. En imagen45 imagen46algunas realizaciones, K es más pequeño que es decir La selección de las combinaciones posibles K se logra maximizando el siguiente criterio simplificado de (37),
imagen47
En la expresión de más arriba, RCB1(i) y RCB2(j) se han calculado en la Etapa 1552, y ECB1(i) y ECB2(j) se han calculado en la Etapa 1554. Los índices de las combinaciones K que resultan en los valores K más grandes de Q(i,j) 10 se retienen. Dichos índices se almacenan en la matriz del índice [ik, jk], k = 0,1,...,K-1. K es mucho más pequeño que el número de las combinaciones posibles totales de los vectores del libro de códigos mixto.
A continuación, en la etapa 1558, un vector se selecciona de las combinaciones posibles K determinadas en la etapa 1556. Por ejemplo, una vez que las combinaciones K más prometedoras de los vectores del libro de códigos mixto y sus señales correspondientes se predeterminan en la Etapa 1552, Etapa 1554 y Etapa 1556 de más arriba, la
15 búsqueda procede con la selección de un vector CB 1 y un vector CB 2 entre dichas combinaciones K, las cuales maximizarán el criterio de búsqueda total Qk de (37):
imagen48
En (46), RCB1(ik), RCB2(jk), ECB1(ik) y ECB2(jk) se han obtenido en la etapa 1556, zCB1(ik) y zCB2(jk) se han calculado en la Etapa 1554.
20 En algunas realizaciones de la presente invención, el cálculo de las ecuaciones (44) y (45) se puede omitir y las ecuaciones (46) y (47) se pueden usar para determinar el vector del libro de códigos mixto seleccionado directamente para las realizaciones que tienen un libro de códigos de tamaño relativamente pequeño.
Las etapas 1510 y 1512 se pueden omitir en realizaciones que tienen un número relativamente pequeño de entradas del libro de códigos. En dicha realización, las combinaciones candidatas del primer y segundo grupos se aplican
25 directamente a la segunda función de criterio, por ejemplo, las ecuaciones (32) y (33) y los índices correspondientes al valor máximo de la segunda función de criterio se seleccionan y evalúan de la siguiente manera:
5
10
15
20
25
30
35
40
45
imagen49
Las ecuaciones (48) y (49) se pueden aplicar también al método 1500 descrito más arriba en algunas realizaciones.
La relación señal/ruido (SNR, por su sigla en inglés) es uno de los métodos de medición de prueba objetiva para la codificación de la voz. La SNR Segmental Ponderada (WsegSNR, por su sigla en inglés) es otra medición objetiva. WsegSNR podría acercarse ligeramente más a la medición de calidad perceptual real que SNR. Una pequeña diferencia en SNR o WsegSNR puede no ser audible. Una diferencia grande en SNR o WsegSNR puede ser, obviamente, audible. Para una señal de voz limpia, la SNR o WsegSNR obtenida con el FCB mixto pulso-ruido puede ser equivalente a la obtenida usando un FCB tipo pulso con el mismo tamaño FCB. Para una señal de voz ruidosa, la SNR o WsegSNR obtenida con el FCB mixto pulso-ruido puede ser ligeramente más alta que la obtenida usando un FCB tipo pulso con el mismo tamaño FCB. Además, para todos los tipos de señales de voz, la SNR o WsegSNR obtenida con la búsqueda rápida de FCB mixto es muy cercana a la obtenida con la búsqueda de FCB mixto total.
En algunas realizaciones, los resultados de la prueba de audio indican que la calidad perceptual de la señal de voz ruidosa se mejora claramente usando el FCB mixto pulso-ruido en lugar de un FCB tipo pulso, el cual suena más suave, más natural y menos filoso. Además, los resultados de la prueba muestran que la calidad perceptual con la búsqueda rápida de FCB mixto es equivalente a la obtenida con la búsqueda de FCB mixto total.
La Figura 16 ilustra un sistema de comunicaciones 10 según una realización de la presente invención. El sistema de comunicaciones 10 tiene dispositivos de acceso a audio 6 y 8 acoplados a la red 36 mediante enlaces de comunicación 38 y 40. En una realización, los dispositivos de acceso a audio 6 y 8 son dispositivos de protocolo de transmisión de la voz por internet (VOIP, por su sigla en inglés) y la red 36 es una red de área amplia (WAN, por su sigla en inglés), red telefónica pública conmutada (PTSN, por su sigla en inglés) y/o internet. Los enlaces de comunicación 38 y 40 son conexiones de banda ancha alámbrica y/o inalámbrica. En una realización alternativa, los dispositivos de acceso a audio 6 y 8 son teléfonos celulares o móviles, los enlaces 38 y 40 son canales telefónicos móviles inalámbricos y la red 36 representa una red telefónica móvil.
El dispositivo de acceso a audio 6 usa un micrófono 12 para convertir el sonido, como, por ejemplo, música o la voz de una persona, en una señal de entrada de audio analógica 28. La interfaz de micrófono 16 convierte la señal de entrada de audio analógica 28 en una señal de audio digital 32 para la entrada en el codificador 22 del CÓDEC 20. El codificador 22 produce una señal de audio codificada TX para la transmisión a una red 26 mediante una interfaz de red 26 según las realizaciones de la presente invención. El descodificador 24 dentro del CÓDEC 20 recibe la señal de audio codificada RX de la red 36 mediante la interfaz de red 26 y convierte la señal de audio codificada RX en una señal de audio digital 34. La interfaz de altavoz 18 convierte la señal de audio digital 34 en una señal de audio 30 apropiada para dirigir los altavoces 14.
En las realizaciones de la presente invención, donde el dispositivo de acceso a audio 6 es un dispositivo VOIP, algunos o todos los componentes dentro del dispositivo de acceso a audio 6 se implementan dentro de un microteléfono. En algunas realizaciones, sin embargo, el Micrófono 12 y el altavoz 14 son unidades separadas y la interfaz de micrófono 16, la interfaz de altavoz 18, el CÓDEC 20 y la interfaz de red 26 se implementan dentro de un ordenador personal. El CÓDEC 20 se puede implementar en software que se ejecuta en un ordenador o un procesador dedicado o mediante hardware dedicado, por ejemplo, en un circuito integrado para aplicaciones específicas (ASIC, por su sigla en inglés). La interfaz de micrófono 16 se implementa por un convertidor analógico a digital (A/D), así como otros circuitos de interfaz ubicados dentro del microteléfono y/o dentro del ordenador. Asimismo, la interfaz de altavoz 18 se implementa por un convertidor digital a analógico y otros circuitos de interfaz ubicados dentro del microteléfono y/o dentro del ordenador. En realizaciones adicionales, el dispositivo de acceso a audio 6 se puede implementar y dividir de otras maneras conocidas en la técnica.
En las realizaciones de la presente invención donde el dispositivo de acceso a audio 6 es un teléfono celular o móvil, los elementos dentro del dispositivo de acceso a audio 6 se implementan dentro de un microteléfono celular. El CÓDEC 20 se puede implementar por software que se ejecuta en un procesador dentro del microteléfono o por hardware dedicado. En realizaciones adicionales de la presente invención, el dispositivo de acceso a audio se puede
imagen50
5
10
15
20
25
30
35
40
45
50
segundo libro de códigos, imagen51 imagen52es un número de primeras entradas del libro de códigos en el primer grupo y
es un número de segundas entradas del libro de códigos en el segundo grupo.
En una realización, el método además incluye calcular energías de las entradas correspondientes del primer libro de códigos y del segundo libro de códigos. En algunos casos, la energía de las entradas correspondientes del primer libro de códigos y del segundo libro de códigos se almacenan en la memoria. Además, el primer grupo puede incluir más entradas que el segundo grupo.
En una realización, el método además incluye aplicar una primera función de énfasis a la primera entrada del libro de códigos y aplicar una segunda función de énfasis a la segunda entrada del libro de códigos. La primera función de énfasis puede incluir una función de filtrado de paso bajo y la segunda función de énfasis puede incluir una función de filtrado de paso alto.
Según una realización adicional, un sistema para codificar una señal de audio/voz que incluye un codificador de audio basado en hardware configurado para determinar un vector del libro de códigos mixto basado en una señal de audio/voz entrante, generar una señal de audio/voz codificada según el vector del libro de códigos mixto determinado, transmitir un índice de excitación codificada del vector del libro de códigos mixto determinado. El vector del libro de códigos mixto incluye una suma de una primera entrada del libro de códigos de un libro de códigos tipo pulso y una segunda entrada del libro de códigos de un libro de códigos tipo ruido. El codificador de audio basado en hardware puede incluir un procesador y/o hardware dedicado.
En una realización, el codificador de audio basado en hardware se configura además para calcular primeras correlaciones entre un vector objetivo filtrado y entradas en el libro de códigos tipo pulso, determinar un primer grupo de primeras correlaciones más altas, calcular correlaciones entre un vector objetivo filtrado y entradas en el libro de códigos tipo ruido, determinar un segundo grupo de segundas correlaciones más altas y calcular una primera función de criterio de combinaciones del primer y segundo grupos. La primera función de criterio incluye una función de una del primer grupo de primeras correlaciones más altas, una del segundo grupo de segundas correlaciones más altas y una energía de entradas correspondientes del libro de códigos tipo pulso y del libro de códigos tipo ruido. Además, el vector objetivo filtrado se basa en la señal de audio entrante. En algunas realizaciones, el sistema además incluye una memoria configurada para almacenar valores de la energía de entradas correspondientes del libro de códigos tipo pulso y del libro de códigos tipo ruido.
En una realización, el codificador de audio basado en hardware se puede configurar además para seleccionar el vector del libro de códigos mixto según una primera función de criterio calculada más alta. Dicha primera función de criterio se puede expresar como
imagen53
donde RCB1(i) es una correlación entre el vector objetivo filtrado y una iésima primera entrada del primer libro de códigos, RCB2(j) es una correlación entre el vector objetivo filtrado y una jésima entrada del segundo libro de códigos, ECB1(i) es una energía de la iésima imagen54entrada del primer libro de códigos y ECB2(i) es una energía de la jésima entrada del
segundo libro de códigos, y imagen55es un número de primeras entradas del libro de códigos en el primer grupo y
es un número de segundas entradas del libro de códigos en el segundo grupo.
Según una realización adicional, un método de búsqueda rápida de un libro de códigos mixto para codificar una señal de audio/voz incluye determinar un vector del libro de códigos mixto según una señal de audio/voz entrante, donde el vector del libro de códigos mixto incluye una suma de una primera entrada del libro de códigos de un primer libro de códigos y una segunda entrada del libro de códigos de un segundo libro de códigos. El método además incluye calcular primeras correlaciones entre un vector objetivo filtrado y entradas filtradas en el primer libro de códigos, determinar un primer grupo de primeras correlaciones más altas, calcular correlaciones entre un vector objetivo filtrado y entradas filtradas en el segundo libro de códigos, determinar un segundo grupo de segundas correlaciones más altas y calcular una primera función de criterio de combinaciones del primer y segundo grupos. La primera función de criterio incluye una función de una del primer grupo de primeras correlaciones más altas, una del segundo grupo de segundas correlaciones más altas y una energía de entradas correspondientes del primer libro de códigos y del segundo libro de códigos y el vector objetivo filtrado se basa en la señal de audio entrante. El método además incluye determinar un tercer grupo de correlaciones candidatas según las primeras funciones de criterio calculadas más altas, seccionar el vector del libro de códigos mixto basado en la aplicación de una segunda función de criterio al tercer grupo, en donde el vector del libro de códigos mixto corresponde a entradas del libro de códigos del primer libro de códigos y del segundo libro de códigos asociadas a un valor más alto de la segunda función de criterio. Asimismo, el método además incluye generar una señal de audio codificada según el vector del libro de
imagen56

Claims (1)

  1. imagen1
    imagen2
    imagen3
    imagen4
ES13874853.8T 2013-02-15 2013-07-29 Sistema y método para la excitación de libro de códigos mixto para la codificación de la voz Active ES2627581T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201313768814 2013-02-15
US13/768,814 US9972325B2 (en) 2012-02-17 2013-02-15 System and method for mixed codebook excitation for speech coding
PCT/CN2013/080268 WO2014124577A1 (en) 2013-02-15 2013-07-29 System and method for mixed codebook excitation for speech coding

Publications (1)

Publication Number Publication Date
ES2627581T3 true ES2627581T3 (es) 2017-07-28

Family

ID=48982948

Family Applications (2)

Application Number Title Priority Date Filing Date
ES17160978T Active ES2716462T3 (es) 2013-02-15 2013-07-29 Sistema y método para la excitación de libro de códigos mixto para la codificación de la voz
ES13874853.8T Active ES2627581T3 (es) 2013-02-15 2013-07-29 Sistema y método para la excitación de libro de códigos mixto para la codificación de la voz

Family Applications Before (1)

Application Number Title Priority Date Filing Date
ES17160978T Active ES2716462T3 (es) 2013-02-15 2013-07-29 Sistema y método para la excitación de libro de códigos mixto para la codificación de la voz

Country Status (18)

Country Link
US (1) US9972325B2 (es)
EP (2) EP3214619B1 (es)
JP (2) JP6395612B2 (es)
KR (2) KR101727577B1 (es)
CN (1) CN104126201B (es)
AU (1) AU2013378636B2 (es)
BR (1) BR112014024648B1 (es)
CA (2) CA3069661C (es)
ES (2) ES2716462T3 (es)
HK (1) HK1199542A1 (es)
IN (1) IN2014KN01667A (es)
MX (1) MX350290B (es)
MY (1) MY172894A (es)
PT (1) PT3214619T (es)
RU (2) RU2604425C2 (es)
SG (1) SG11201404753QA (es)
WO (1) WO2014124577A1 (es)
ZA (1) ZA201406064B (es)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103636129B (zh) * 2011-07-01 2017-02-15 诺基亚技术有限公司 多尺度码本搜索
EP3806094A1 (en) 2013-10-18 2021-04-14 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information
ES2839086T3 (es) 2013-10-18 2021-07-05 Fraunhofer Ges Forschung Concepto para codificar una señal de audio y decodificar una señal de audio usando información determinista y con características de ruido
EP3079151A1 (en) * 2015-04-09 2016-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and method for encoding an audio signal
JP2018526669A (ja) 2015-07-06 2018-09-13 ノキア テクノロジーズ オサケユイチア オーディオ信号デコーダのためのビット・エラー検出器
EP3413308A1 (en) * 2017-06-07 2018-12-12 Nokia Technologies Oy Efficient storage of multiple structured codebooks
EP3429230A1 (en) * 2017-07-13 2019-01-16 GN Hearing A/S Hearing device and method with non-intrusive speech intelligibility prediction
US10942914B2 (en) * 2017-10-19 2021-03-09 Adobe Inc. Latency optimization for digital asset compression
US11120363B2 (en) 2017-10-19 2021-09-14 Adobe Inc. Latency mitigation for encoding data
US11086843B2 (en) 2017-10-19 2021-08-10 Adobe Inc. Embedding codebooks for resource optimization

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6053999A (ja) 1983-09-05 1985-03-28 日本電気株式会社 音声合成器
US5602961A (en) * 1994-05-31 1997-02-11 Alaris, Inc. Method and apparatus for speech compression using multi-mode code excited linear predictive coding
JPH08179796A (ja) 1994-12-21 1996-07-12 Sony Corp 音声符号化方法
US5699485A (en) 1995-06-07 1997-12-16 Lucent Technologies Inc. Pitch delay modification during frame erasures
CN1170269C (zh) 1996-11-07 2004-10-06 松下电器产业株式会社 声源矢量生成装置以及声音编码装置和声音解码装置
DE69836624T2 (de) 1997-10-22 2007-04-05 Matsushita Electric Industrial Co., Ltd., Kadoma Audiokodierer und -dekodierer
US6714907B2 (en) * 1998-08-24 2004-03-30 Mindspeed Technologies, Inc. Codebook structure and search for speech coding
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6449313B1 (en) 1999-04-28 2002-09-10 Lucent Technologies Inc. Shaped fixed codebook search for celp speech coding
US6980948B2 (en) * 2000-09-15 2005-12-27 Mindspeed Technologies, Inc. System of dynamic pulse position tracks for pulse-like excitation in speech coding
JP3404016B2 (ja) * 2000-12-26 2003-05-06 三菱電機株式会社 音声符号化装置及び音声符号化方法
US7206739B2 (en) * 2001-05-23 2007-04-17 Samsung Electronics Co., Ltd. Excitation codebook search method in a speech coding system
US6789059B2 (en) * 2001-06-06 2004-09-07 Qualcomm Incorporated Reducing memory requirements of a codebook vector search
US7054807B2 (en) 2002-11-08 2006-05-30 Motorola, Inc. Optimizing encoder for efficiently determining analysis-by-synthesis codebook-related parameters
US7529664B2 (en) * 2003-03-15 2009-05-05 Mindspeed Technologies, Inc. Signal decomposition of voiced speech for CELP speech coding
DE602004004950T2 (de) 2003-07-09 2007-10-31 Samsung Electronics Co., Ltd., Suwon Vorrichtung und Verfahren zum bitraten-skalierbaren Sprachkodieren und -dekodieren
US7519532B2 (en) * 2003-09-29 2009-04-14 Texas Instruments Incorporated Transcoding EVRC to G.729ab
WO2006009074A1 (ja) 2004-07-20 2006-01-26 Matsushita Electric Industrial Co., Ltd. 音声復号化装置および補償フレーム生成方法
KR100657916B1 (ko) * 2004-12-01 2006-12-14 삼성전자주식회사 주파수 대역간의 유사도를 이용한 오디오 신호 처리 장치및 방법
EP1854095A1 (en) * 2005-02-15 2007-11-14 BBN Technologies Corp. Speech analyzing system with adaptive noise codebook
BRPI0608269B8 (pt) 2005-04-01 2019-09-03 Qualcomm Inc método e aparelho para quantização vetorial de uma representação de envelope espectral
US20060253421A1 (en) 2005-05-06 2006-11-09 Fang Chen Method and product for searching title metadata based on user preferences
US7707034B2 (en) * 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
JPWO2007043643A1 (ja) * 2005-10-14 2009-04-16 パナソニック株式会社 音声符号化装置、音声復号装置、音声符号化方法、及び音声復号化方法
JP5127170B2 (ja) 2006-07-07 2013-01-23 株式会社東芝 復号装置およびスペクトル整形方法
WO2008049221A1 (en) 2006-10-24 2008-05-02 Voiceage Corporation Method and device for coding transition frames in speech signals
US8175870B2 (en) * 2006-12-26 2012-05-08 Huawei Technologies Co., Ltd. Dual-pulse excited linear prediction for speech coding
US8515767B2 (en) 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
JPWO2010016270A1 (ja) * 2008-08-08 2012-01-19 パナソニック株式会社 量子化装置、符号化装置、量子化方法及び符号化方法
CN101557367B (zh) 2009-02-27 2011-10-05 东南大学 多点有限协同多输入多输出通信系统预编码方法
KR20110022252A (ko) 2009-08-27 2011-03-07 삼성전자주식회사 스테레오 오디오의 부호화, 복호화 방법 및 장치
CN102006144B (zh) 2009-09-01 2014-01-08 华为技术有限公司 预编码方法、装置及频域均衡方法、装置
JP6110314B2 (ja) 2011-02-14 2017-04-05 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 整列したルックアヘッド部分を用いてオーディオ信号を符号化及び復号するための装置並びに方法

Also Published As

Publication number Publication date
CA2864247C (en) 2020-09-08
CA3069661A1 (en) 2014-08-21
MX2014011964A (es) 2015-02-10
BR112014024648A8 (pt) 2021-06-22
CN104126201A (zh) 2014-10-29
JP2015515644A (ja) 2015-05-28
EP2805324A4 (en) 2014-12-03
EP2805324B1 (en) 2017-04-19
CN104126201B (zh) 2017-08-04
RU2604425C2 (ru) 2016-12-10
HK1199542A1 (en) 2015-07-03
JP2017134436A (ja) 2017-08-03
KR101810020B1 (ko) 2017-12-18
CA3069661C (en) 2022-05-03
US9972325B2 (en) 2018-05-15
EP3214619A1 (en) 2017-09-06
EP2805324A1 (en) 2014-11-26
BR112014024648B1 (pt) 2022-08-09
MY172894A (en) 2019-12-13
RU2633105C1 (ru) 2017-10-11
JP6392409B2 (ja) 2018-09-19
JP6395612B2 (ja) 2018-09-26
RU2014140195A (ru) 2016-04-20
AU2013378636A1 (en) 2014-09-11
AU2013378636B2 (en) 2016-05-26
PT3214619T (pt) 2019-02-06
ZA201406064B (en) 2015-04-29
BR112014024648A2 (pt) 2017-06-20
KR20150091516A (ko) 2015-08-11
US20130218578A1 (en) 2013-08-22
ES2716462T3 (es) 2019-06-12
MX350290B (es) 2017-09-04
CA2864247A1 (en) 2014-08-21
SG11201404753QA (en) 2014-10-30
KR101727577B1 (ko) 2017-04-17
EP3214619B1 (en) 2018-11-14
IN2014KN01667A (es) 2015-10-23
WO2014124577A1 (en) 2014-08-21
KR20170042816A (ko) 2017-04-19

Similar Documents

Publication Publication Date Title
ES2627581T3 (es) Sistema y método para la excitación de libro de códigos mixto para la codificación de la voz
JP4064236B2 (ja) 広帯域信号コーディング用の代数コードブック中のパルス位置と符号の索引付け方法
ES2650492T3 (es) Dispositivo y método de cuantificación de filtro LPC de múltiples referencias
AU2014391078B2 (en) Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates
ES2707888T3 (es) Sistemas y procedimientos para mitigar la inestabilidad potencial de tramas
ES2687249T3 (es) Decisión no sonora/sonora para el procesamiento de la voz
JP6174266B2 (ja) ブラインド帯域幅拡張のシステムおよび方法
TWI597721B (zh) 使用多個子頻帶之高頻帶信號寫碼
KR20160096119A (ko) 대역폭 확장 모드 선택
ES2663013T3 (es) Sistemas y procedimientos para determinar un conjunto de factores de interpolación
Krishnan A framework for low bit-rate speech coding in noisy environment
Shin et al. Signal modification for ADPCM based on analysis-by-synthesis framework
Byun et al. An Embedded ACELP Speech Coding Based on the AMR‐WB Codec
Magner Orthogonal analysis of multipulse-excited LPC speech coders
WO2018073486A1 (en) Low-delay audio coding
Gardner et al. Survey of speech-coding techniques for digital cellular communication systems