ES2627581T3

ES2627581T3 - Sistema y método para la excitación de libro de códigos mixto para la codificación de la voz

Info

Publication number: ES2627581T3
Application number: ES13874853.8T
Authority: ES
Inventors: Yang Gao
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2013-02-15
Filing date: 2013-07-29
Publication date: 2017-07-28
Anticipated expiration: 2033-07-29
Also published as: CA2864247C; CA3069661A1; MX2014011964A; BR112014024648A8; CN104126201A; JP2015515644A; EP2805324A4; EP2805324B1; CN104126201B; RU2604425C2; HK1199542A1; JP2017134436A; KR101810020B1; CA3069661C; US9972325B2; EP3214619A1; EP2805324A1; BR112014024648B1; MY172894A; RU2633105C1

Abstract

Un método de codificación CELP de una señal de audio/voz, el método comprende: determinar un vector del libro de códigos mixto según una señal de audio/voz entrante, el vector del libro de códigos mixto comprende una suma de una primera entrada del libro de códigos de un primer libro de códigos y una segunda entrada del libro de códigos de un segundo libro de códigos, en donde el primer libro de códigos comprende entradas tipo pulso y el segundo libro de códigos comprende entradas tipo ruido; generar una señal de audio codificada según el vector del libro de códigos mixto determinado; y transmitir un índice de excitación codificada del vector del libro de códigos mixto determinado, en donde la determinación y generación se llevan a cabo usando un codificador de audio basado en hardware; en donde el primer y segundo libros de códigos son libros de códigos fijos.

Description

imagen1

imagen2

imagen3

imagen4

imagen5

imagen6

5

10

15

20

25

30

35

40

45

la Figura 4 ilustra un descodificador de voz CELP convencional que utiliza un libro de códigos adaptativo;

la Figura 5 ilustra una estructura FCB que contiene vectores candidatos tipo ruido para construir una excitación codificada;

la Figura 6 ilustra una estructura FCB que contiene vectores candidatos tipo pulso para construir una excitación codificada;

la Figura 7 ilustra una estructura de la realización del FCB mixto pulso-ruido;

la Figura 8 ilustra una estructura de la realización de un FCB mixto pulso-ruido;

la Figura 9 ilustra una estructura general de un FCB mixto pulso-ruido de la realización;

la Figura 10 ilustra una estructura general adicional de un FCB mixto pulso-ruido de la realización;

la Figura 11 ilustra una estructura general adicional de un FCB mixto pulso-ruido de la realización;

la Figura 12 ilustra una estructura más general de un FCB mixto de la realización;

la Figura 13 ilustra un diagrama de bloques de un sistema de codificación de excitación;

la Figura 14 ilustra un diagrama de bloques de un sistema de codificación de excitación basado en un libro de códigos mixto de la realización;

las Figuras 15a-b ilustran diagramas de flujo de métodos de las realizaciones; y

la Figura 16 ilustra un sistema de comunicaciones de la realización.

Los numerales y símbolos correspondientes en las diferentes figuras se refieren, en general, a las partes correspondientes a menos que se indique lo contrario. Las figuras se dibujan para ilustrar de manera clara los aspectos relevantes de las realizaciones preferidas y no se dibujan necesariamente a escala. Con el fin de ilustrar ciertas realizaciones de manera más clara, una letra que indica variaciones de la misma estructura, material o etapa de proceso puede seguir a un número de la figura.

Descripción detallada de realizaciones ilustrativas

La realización y el uso de las realizaciones actualmente preferidas se describen en detalle más abajo. Se debe apreciar, sin embargo, que la presente invención provee muchos conceptos ingeniosos aplicables que se pueden realizar en una amplia variedad de contextos específicos. Las realizaciones específicas descritas son meramente ilustrativas de maneras específicas para llevar a cabo y usar la invención y no limitan el alcance de la invención.

La presente invención se describirá con respecto a realizaciones en un contexto específico, a saber, un codificador y descodificador de audio basado en CELP. Se debe comprender que las realizaciones de la presente invención se pueden dirigir hacia otros sistemas.

Como ya se ha mencionado, CELP se usa, principalmente, para codificar una señal de voz beneficiándose de las características específicas de la voz humana o de un modelo humano de producción de voz vocal. El algoritmo CELP es una tecnología muy popular que se ha usado en varios estándares ITU-T, MPEG, 3GPP y 3GPP2. Con el fin de codificar la señal de voz de manera más eficiente, una señal de voz se puede clasificar en diferentes clases y cada clase se codifica de manera diferente. Por ejemplo, en algunos estándares como, por ejemplo, G.718, VMR-WB o AMR-WB, una señal de voz se clasifica en NO SONORA, TRANSICIÓN, GENÉRICA, SONORA y RUIDO. Para cada clase, siempre se usa un filtro LPC o STP para representar la envolvente espectral; pero la excitación para el filtro LPC puede ser diferente. NO SONORA y RUIDO se pueden codificar con una excitación de ruido y una mejora de excitación. TRANSICIÓN se puede codificar con una excitación de pulso y una mejora de excitación sin usar el libro de códigos adaptativo o LTP. GENÉRICA se puede codificar con un enfoque CELP tradicional como, por ejemplo, CELP Algebraico, usado en G.729 o AMR-WB, en el cual una trama de 20 ms contiene cuatro subtramas de 5 ms, tanto el componente de excitación del libro de códigos adaptativo como el componente de excitación del libro de códigos fijo se producen con mejoras de excitación para cada subtrama, los retardos de tono para el libro de códigos adaptativo en la primera y tercera subtramas se codifican en un rango total desde un límite de tono mínimo TON_MIN hasta un límite de tono máximo TON_MAX, y los retardos de tono para el libro de códigos adaptativo en la segunda y cuarta subtramas se codifican de manera diferente respecto del retardo de tono codificado previo. Una señal de clase SONORA se puede codificar de manera ligeramente diferente respecto de GENÉRICA, en la cual el retardo de tono en la primera subtrama se codifica en un rango total desde un límite de tono mínimo TON_MIN hasta un límite de tono máximo TON_MAX y los retardos de tono en las otras subtramas se codifican de manera diferente respecto del retardo de tono codificado previo.

imagen7

imagen8

5

10

15

20

25

30

35

40

45

50

seleccionado 1102 se escalona entonces por la ganancia FCB Gl 1103. Como ejemplo dado para la Figura 11, si 12 bits se encuentran disponibles para codificar el FCB mixto pulso-ruido en la Figura 11, 6 bits se pueden asignar al sublibro de códigos tipo pulso 1104, en el cual 5 bits son para codificar una posición de pulso y 1 bit es para codificar una señal de los vectores tipo pulso; 6 bits se pueden asignar al sublibro de códigos tipo ruido 1105, en el cual 5 bits son para codificar 32 vectores tipo ruido diferentes y 1 bit es para codificar una señal de los vectores tipo ruido. Si la ganancia FCB Gl 1103 se señaliza, solamente una de la señal para los vectores tipo pulso y la señal para los vectores tipo ruido necesita codificarse.

La Figura 12 muestra una estructura más general de un FCB mixto de la realización. La principal diferencia entre la Figura 12 y la Figura 11 es que el Libro de Códigos 1 en el bloque 1204 puede contener vectores tipo pulso o tipo ruido y el Libro de Códigos 2 en el bloque 1205 también puede contener vectores tipo pulso o tipo ruido; ello significa que el libro de códigos mixto puede ser cualquier combinación de vectores tipo pulso y/o tipo ruido. Dado que un vector de código del FCB mixto en la Figura 12 es una combinación de un vector del Libro de Códigos 1 y un vector del Libro de Códigos 2, diferentes mejoras se pueden aplicar respectivamente al vector del Libro de Códigos 1 y al vector del Libro de Códigos 2. Por ejemplo, una mejora H1(z) que incluye filtro de paso bajo, filtro de paso alto, filtro de tono y/o filtro de los formantes se puede aplicar al vector del Libro de Códigos 1. De manera similar, una mejora H2(z) que incluye filtro de paso bajo, filtro de paso alto, filtro de tono y/o filtro de los formantes se puede aplicar al vector del Libro de Códigos 2. 1201 indica todo el FCB mixto. El vector de código seleccionado 1202 se genera combinando (adicionando) un vector mejorado del Libro de Códigos 1 y un vector mejorado del Libro de Códigos 2. 1206 indica la mejora H1(z) para los vectores del Libro de Códigos 1, los cuales pueden ser fijos o adaptativos. 1207 indica la mejora H2(z) para los vectores del Libro de Códigos 2, los cuales pueden ser fijos o adaptativos. 1208 indica la tercera mejora H3(z) para los vectores combinados, los cuales pueden también ser fijos o adaptativos. Las mejoras 1206, 1207 y 1208 no gastan, en general, bits para codificar los parámetros de mejoras, ya que los parámetros de las mejoras pueden ser adaptativos a los parámetros disponibles en el codificador y descodificador. El vector de código seleccionado 1202 se escalona entonces por la ganancia FCB Gl 1203.

Supongamos que la estructura del libro de códigos fijo es como se muestra en la Figura 11 y la señal de excitación se codifica por subtramas de 64 muestras, a saber, cuatro veces por subtrama; esta sección provee un enfoque de búsqueda rápida para un libro de códigos mixto pulso-ruido. El principio de codificación de excitación se muestra en un diagrama esquemático en la Figura 13, el cual es en realidad similar al principio que se muestra en la Figura 3. En teoría, la Figura 3 permite una optimización conjunta del componente de excitación del libro de códigos adaptativo y del componente de excitación del libro de códigos fijo (a saber, el componente de excitación de código). En la práctica, por razones de simplicidad, el componente de excitación del libro de códigos adaptativo se determina, con frecuencia, primero y luego se determina el componente de excitación del libro de códigos fijo.

Para cada subtrama, el LP residual se da por

imagen9

donde s(n) es una señal de entrada 1301 que, con frecuencia, se preenfatiza y se usa para la codificación de la voz de banda ancha pero no para la codificación de la voz de banda estrecha. Por ejemplo, el filtro de preénfasis puede ser

imagen10

y β1 es igual a 0,68. De manera alternativa, β1 puede tomar valores diferentes.

La señal objetivo 1303 x(n) para la búsqueda del libro de códigos adaptativo 1307 se puede calcular restando una respuesta de entrada cero (no se muestra en la Figura 13) del filtro de síntesis ponderada W(z)/A(z) de la señal de entrada preenfatizada ponderada que se obtiene filtrando la señal de entrada 1301 s(n) a través del filtro ponderado 1302. Ello se lleva a cabo sobre una base de subtrama. Un procedimiento equivalente para calcular la señal objetivo es filtrar la señal residual r(n) a través de la combinación del filtro de síntesis 1/A(z) y el filtro de ponderación W(z).

La respuesta impulsiva h(n) del filtro de síntesis ponderada W(z)/A(z) se calcula para cada subtrama. En la ecuación de más arriba, A(z) es el filtro LP cuantificado. La respuesta impulsiva h(n) se necesita para la búsqueda de libros de códigos adaptativos y fijos. La búsqueda de libro de código adaptativo incluye llevar a cabo una búsqueda de tono en bucle cerrado y luego calcular el vector de código adaptativo, ep(n), interpolando la excitación pasada en un retardo de tono fraccionario seleccionado P. ep(n) se puede mejorar, por ejemplo, aplicando un filtro de paso bajo adaptativo. Los parámetros del libro de códigos adaptativo (o parámetros de tono) son el tono en bucle cerrado P y la ganancia de tono 1305 gt (ganancia del libro de códigos adaptativo), calculados para cada subtrama. y(n) indica la contribución del libro de códigos adaptativo filtrado antes de aplicar la ganancia de tono 1305. Los detalles sobre el

5

10

15

20

25

30

35

40

45

cálculo de los parámetros del libro de códigos adaptativo no se describirán en la presente memoria ya que la presente sección se centra en describir la búsqueda de FCB mixto (libro de códigos mixto).

Después de restar la contribución del libro de códigos adaptativo ganada y filtrada de la señal objetivo x(n), la señal de diferencia obtenida x2(n) 1304 se convierte en la segunda señal objetivo para determinar la contribución de excitación de código. La excitación de código ec(n) 1308 y la ganancia correspondiente Gl 1306 se determinan a través de la minimización 1309 del error ponderado 1310.

La Figura 14 muestra una estructura similar a la de la Figura 13, excepto que el libro de códigos fijo o la excitación de código en la Figura 14 es, ahora, específicamente, una estructura de libro de códigos mixto. La señal objetivo 1403 x(n) para la búsqueda del libro de códigos adaptativo 1407 se calcula restando una respuesta de entrada cero (no se muestra en la Figura 14) del filtro de síntesis ponderada W(z)/A(z) de la señal de entrada preenfatizada ponderada; y la señal de entrada preenfatizada ponderada se obtiene filtrando la señal de entrada s(n) 1401 a través del filtro de ponderación 1402. Los parámetros del libro de códigos adaptativo (o parámetros de tono) son el tono en bucle cerrado P y la ganancia de tono 1405 gt (ganancia del libro de códigos adaptativo), calculados para cada subtrama. y(n) indica la contribución del libro de códigos adaptativo filtrado antes de aplicar la ganancia de tono 1405. Después de restar la contribución del libro de códigos adaptativo ganada y filtrada de la señal objetivo 1403 x(n), la señal de diferencia obtenida x2(n) 1404 se convierte en la segunda señal objetivo para determinar la contribución de excitación de libro de códigos mixto. La excitación de libro de códigos mixto 1408 ec(n) y la ganancia correspondiente 1406 Gl se determinan a través de la minimización 1409 del error ponderado 1410. z(n) indica la contribución del libro de códigos mixto filtrado antes de aplicar la ganancia 1406 Gl.

Supongamos que CB 1 en el libro de códigos mixto 1408 es un libro de códigos tipo pulso y CB 2 en el libro de códigos mixto 1408 es un libro de códigos tipo ruido. H1(z) en 1408 indica el filtro de mejora para los vectores CB 1, H2(z) en 1408 indica el filtro de mejora para los vectores CB 2 y H3(z) en 1408 indica el filtro de mejora para los vectores CB 1 y CB 2. Para facilitar la siguiente descripción, la respuesta impulsiva de H1(z), H2(z) o H3(z) se indica como h1(n), h2(n) o h3(n), respectivamente.

El índice de libro de códigos tipo pulso CB 1, o palabra de código, representa las posiciones de pulso y señales. Por consiguiente, no se necesita ningún almacenamiento de libro de códigos dado que el vector de código se puede construir en el descodificador a través de la información contenida en el propio índice (sin tablas de consulta). Los diferentes libros de códigos tipo pulso se pueden construir colocando cierto número de pulsos señalizados en cierto número de pistas. La búsqueda independiente o temporal del libro de códigos tipo pulso se puede llevar a cabo combinando, en primer lugar, los filtros de mejora H1(z) y H3(z) con el filtro de síntesis ponderada W(z)/A(z) anterior a la búsqueda del libro de códigos. Por consiguiente, la respuesta impulsiva h(n) del filtro de síntesis ponderada se debe modificar para incluir los filtros de mejora H1(z) y H3(z). Es decir,

imagen11

El índice de libro de códigos tipo ruido CB 2, o palabra de código, representa los vectores de ruido y señales. El libro de códigos tipo ruido se guarda, en general, en un almacenamiento de memoria. Con el fin de reducir el tamaño de la memoria, los vectores de ruido se pueden superponer y generar cambiando una posición del vector de ruido. La búsqueda independiente o temporal del libro de códigos tipo ruido se puede llevar a cabo combinando, en primer lugar, los filtros de mejora H2(z) y H3(z) con el filtro de síntesis ponderada W(z)/A(z) anterior a la búsqueda del libro de códigos. Por consiguiente, la respuesta impulsiva h(n) del filtro de síntesis ponderada se debe modificar para incluir los filtros de mejora H2(z) y H3(z). Es decir,

imagen12

Dado que H3(z) se usa comúnmente para los vectores tipo pulso y los vectores tipo ruido, la respuesta impulsiva de la combinación del filtro de síntesis 1/A(z), el filtro de ponderación W(z) y el filtro de mejora H3(z) se indica, específicamente, como

imagen13

El libro de códigos mixto se busca minimizando el error entre una señal objetivo actualizada 1404 x2(n) y un vector de código filtrado escalonado. La señal objetivo actualizada se da por

imagen14

donde y(n) = ep(n)*h(n) es el vector de código adaptativo filtrado y Gt es la ganancia del libro de códigos adaptativo. Es preciso dejar que la matriz H se defina como una matriz de convolución triangular inferior Toeplitz con la diagonal principal hh(0) y diagonales inferiores hh(1),...,hh(63), y d=HTx2 (también conocido como el vector objetivo filtrado hacia atrás) como la correlación entre la señal actualizada x2(n) y la respuesta impulsiva hh(n). Además, es preciso que Φ = HTH sea la matriz de las correlaciones de hh(n). En teoría, los elementos del vector d(n) se pueden calcular

imagen15

y los elementos de la matriz simétrica Φ se pueden calcular por

imagen16

En algunas realizaciones, la ecuación (13) se puede calcular usando un filtrado hacia atrás más simple y la ecuación

(14) puede no necesitarse en el caso actual para la búsqueda rápida del libro de códigos mixto pulso-ruido. Es preciso dejar que ck(n) sea un vector de código mixto que es

imagen17

Aquí, cp(n) es un vector candidato del libro de códigos tipo pulso y cn(n) es un vector candidato del libro de códigos tipo ruido. La excitación del libro de códigos mixto ck(n) o ec(n)=ck(n)*h3(n) y la ganancia correspondiente 1103 Gl de la excitación del libro de códigos mixto se pueden determinar a través de la minimización 1109 del error ponderado 1110:

imagen18

La minimización de (16) es equivalente a la maximización del siguiente criterio:

imagen19

En (17), zk es la contribución filtrada del libro de códigos de excitación mixto:

imagen20

25 En algunas realizaciones, el vector d(n) y la matriz Φ se calculan antes de la búsqueda del libro de códigos. En algunas realizaciones, el cálculo de la matriz Φ puede no necesitarse y, por lo tanto, puede omitirse.

La correlación en el numerador de ecuación (17) se da por

imagen21

imagen22

se pueden precalcular mediante un simple filtrado hacia atrás d(n) a través del filtro

H1(z) y H2(z). Si H1(z) y H2(z) se implementan usando filtros de primer orden, los procesos de filtrado hacia atrás

son simples. La energía en el denominador de ecuación (17) se da por

imagen23

En (20), Hp =HH1y Hn =HH2 se pueden precalcular por los siguientes procesos de filtrado o convoluciones:

imagen24

En algunas realizaciones, H1(z) y H2(z) se pueden implementar usando filtros de primer orden; entonces, el procesamiento de filtrado en (21) o (22) es simple dado que hh(n) ya se ha calculado en (11).

En (20), zp es la contribución de pulso filtrada:

imagen25

15 y zn es la contribución de ruido filtrada:

imagen26

La ecuación (20) se puede expresar además como,

imagen27

donde

imagen28

es la energía de la contribución de pulso filtrada y

imagen29

es la energía de la contribución de ruido filtrada. Supongamos que el vector de código cp(n) en (15) del sublibro de códigos de pulso es un vector señalizado:

imagen30

y el vector de código cn(n) en (15) del sublibro de códigos de ruido también es un vector señalizado:

imagen31

donde vp(ip) denota el vector de pulso ip-de dimensión 64 (el tamaño de la subtrama), el cual consiste en uno o varios pulsos; vr(ir) denota el in-ésimo vector de ruido de dimensión 64 (el tamaño de la subtrama), leyendo de una tabla de ruido; sp y sr son las señales, iguales a -1 o 1, e ip e ir son los índices que definen los vectores.

El objetivo del procedimiento de búsqueda es encontrar los índices ip e ir de los dos mejores vectores y sus señales

15 correspondientes, sp y sr. Ello se logra maximizando el criterio de búsqueda (17) donde el numerador se calcula usando la ecuación (19) y el denominador se calcula usando la ecuación (25). Cuando se observan el numerador

(19) y el denominador (25), el cálculo más complejo proviene del término medio del denominador (25), cual contiene todas las combinaciones posibles de las correlaciones cruzadas. Por ejemplo, si cp tiene Kimagen32p

posibilidades y cr tiene Kr posibilidades, el término medio, puede tener hasta (Kp · Kr) posibilidades.

20 La Figura 15a ilustra un diagrama de flujo 1500 de un método de la realización de una búsqueda rápida del libro de códigos mixto. En la etapa 1502, se calcula una correlación entre un vector de libro de códigos y cada vector objetivo filtrado para el libro de códigos de pulso y para el libro de códigos de ruido. En un ejemplo, después de calcular los imagen33

vectores d1 y d2 en (19), un proceso de predeterminación se usa para identificar imagen34de todos los vectores de

pulso posibles Kp y de todos los vectores de ruido posibles Kr de modo que el proceso de búsqueda se

imagen35

25 limitará a aquellos vectores de pulso posibles imagen36y vectores de ruido posibles imagen37.

imagen38

provienen de las combinaciones posibles

realización, K es mucho más pequeño que vectores de ruido y seis vectores de pulso se eligen para que sean las combinaciones posibles K y hacer, así, que se pruebe un total de 24 combinaciones. En otros ejemplos, se pueden seleccionar otros números de vectores de

5 ruido y vectores de pulso. En una realización, el número de vectores de pulso candidatos puede superar el número de vectores de ruido candidatos dado que los cálculos de vectores de pulso pueden ser computacionalmente más eficientes que llevar a cabo cálculos de vectores de ruido debido a la naturaleza dispersa de algunos vectores de pulso. (A saber, muchos de los elementos dentro de los vectores de pulso pueden establecerse en cero).

A continuación, una primera función de criterio se aplica a dichas combinaciones del primer y segundo grupos en la 10 etapa 1510. En una realización, la selección de las combinaciones posibles K se puede lograr maximizando el siguiente criterio simplificado de (17),

imagen39

imagen40

En la expresión de más arriba, Rp(i) y Rr(j) se han calculado en la etapa 1502; Ep(i) y Er(j) se han calculado en la 15 etapa 1504.

A continuación, en la etapa 1512, un primer grupo de combinaciones de vectores de pulso y vectores de ruido se determina según las primeras funciones de criterio más altas. Por ejemplo, en una realización, los índices de las combinaciones K que resultan en los valores K más grandes de Q(i,j) se retienen. Dichos índices se almacenan en la matriz del índice [ik, jk], k = 0,1,...,K-1. K es mucho más pequeño que el número de las combinaciones posibles

20 totales de los vectores de pulso y ruido.

A continuación, una segunda función de criterio se aplica al tercer grupo de combinaciones de vectores de pulso y vectores de ruido en la etapa 1514 y los índices del vector de pulso y vector de ruido que determinan el segundo criterio más alto se selecciona. Por ejemplo, en una realización, una vez que las combinaciones K más prometedoras de los vectores de pulso y ruido y sus señales correspondientes se predeterminan en las Etapas 25 1502, 1504, 1506, 1508, 1510 y 1512 de más arriba, la búsqueda procede con la selección de un vector de pulso y

imagen41

En (32), Rp(ik), Rr(jk), Ep(ik) y Er(jk) se han obtenido en las etapas 1502 y 1504, zp(ik) y zr(jk) se han calculado en la etapa 1504. En caso de que los vectores de pulso contengan solamente un pulso, el vector de pulso filtrado zp(ik) en 30 (32) podría tener ceros del primer elemento del vector hasta la posición de pulso, lo cual puede además simplificar el cálculo.

imagen42

imagen43

En la etapa 1556, calcular y elegir las posibles combinaciones K de las contribuciones del libro de códigos mixto de imagen44las combinaciones posibles que se obtienen de la etapa 1552 y la etapa 1554 se calculan y eligen. En imagen45 imagen46algunas realizaciones, K es más pequeño que es decir La selección de las combinaciones posibles K se logra maximizando el siguiente criterio simplificado de (37),

imagen47

En la expresión de más arriba, RCB1(i) y RCB2(j) se han calculado en la Etapa 1552, y ECB1(i) y ECB2(j) se han calculado en la Etapa 1554. Los índices de las combinaciones K que resultan en los valores K más grandes de Q(i,j) 10 se retienen. Dichos índices se almacenan en la matriz del índice [ik, jk], k = 0,1,...,K-1. K es mucho más pequeño que el número de las combinaciones posibles totales de los vectores del libro de códigos mixto.

A continuación, en la etapa 1558, un vector se selecciona de las combinaciones posibles K determinadas en la etapa 1556. Por ejemplo, una vez que las combinaciones K más prometedoras de los vectores del libro de códigos mixto y sus señales correspondientes se predeterminan en la Etapa 1552, Etapa 1554 y Etapa 1556 de más arriba, la

15 búsqueda procede con la selección de un vector CB 1 y un vector CB 2 entre dichas combinaciones K, las cuales maximizarán el criterio de búsqueda total Qk de (37):

imagen48

En (46), RCB1(ik), RCB2(jk), ECB1(ik) y ECB2(jk) se han obtenido en la etapa 1556, zCB1(ik) y zCB2(jk) se han calculado en la Etapa 1554.

20 En algunas realizaciones de la presente invención, el cálculo de las ecuaciones (44) y (45) se puede omitir y las ecuaciones (46) y (47) se pueden usar para determinar el vector del libro de códigos mixto seleccionado directamente para las realizaciones que tienen un libro de códigos de tamaño relativamente pequeño.

Las etapas 1510 y 1512 se pueden omitir en realizaciones que tienen un número relativamente pequeño de entradas del libro de códigos. En dicha realización, las combinaciones candidatas del primer y segundo grupos se aplican

25 directamente a la segunda función de criterio, por ejemplo, las ecuaciones (32) y (33) y los índices correspondientes al valor máximo de la segunda función de criterio se seleccionan y evalúan de la siguiente manera:

5

10

15

20

25

30

35

40

45

imagen49

Las ecuaciones (48) y (49) se pueden aplicar también al método 1500 descrito más arriba en algunas realizaciones.

La relación señal/ruido (SNR, por su sigla en inglés) es uno de los métodos de medición de prueba objetiva para la codificación de la voz. La SNR Segmental Ponderada (WsegSNR, por su sigla en inglés) es otra medición objetiva. WsegSNR podría acercarse ligeramente más a la medición de calidad perceptual real que SNR. Una pequeña diferencia en SNR o WsegSNR puede no ser audible. Una diferencia grande en SNR o WsegSNR puede ser, obviamente, audible. Para una señal de voz limpia, la SNR o WsegSNR obtenida con el FCB mixto pulso-ruido puede ser equivalente a la obtenida usando un FCB tipo pulso con el mismo tamaño FCB. Para una señal de voz ruidosa, la SNR o WsegSNR obtenida con el FCB mixto pulso-ruido puede ser ligeramente más alta que la obtenida usando un FCB tipo pulso con el mismo tamaño FCB. Además, para todos los tipos de señales de voz, la SNR o WsegSNR obtenida con la búsqueda rápida de FCB mixto es muy cercana a la obtenida con la búsqueda de FCB mixto total.

En algunas realizaciones, los resultados de la prueba de audio indican que la calidad perceptual de la señal de voz ruidosa se mejora claramente usando el FCB mixto pulso-ruido en lugar de un FCB tipo pulso, el cual suena más suave, más natural y menos filoso. Además, los resultados de la prueba muestran que la calidad perceptual con la búsqueda rápida de FCB mixto es equivalente a la obtenida con la búsqueda de FCB mixto total.

La Figura 16 ilustra un sistema de comunicaciones 10 según una realización de la presente invención. El sistema de comunicaciones 10 tiene dispositivos de acceso a audio 6 y 8 acoplados a la red 36 mediante enlaces de comunicación 38 y 40. En una realización, los dispositivos de acceso a audio 6 y 8 son dispositivos de protocolo de transmisión de la voz por internet (VOIP, por su sigla en inglés) y la red 36 es una red de área amplia (WAN, por su sigla en inglés), red telefónica pública conmutada (PTSN, por su sigla en inglés) y/o internet. Los enlaces de comunicación 38 y 40 son conexiones de banda ancha alámbrica y/o inalámbrica. En una realización alternativa, los dispositivos de acceso a audio 6 y 8 son teléfonos celulares o móviles, los enlaces 38 y 40 son canales telefónicos móviles inalámbricos y la red 36 representa una red telefónica móvil.

El dispositivo de acceso a audio 6 usa un micrófono 12 para convertir el sonido, como, por ejemplo, música o la voz de una persona, en una señal de entrada de audio analógica 28. La interfaz de micrófono 16 convierte la señal de entrada de audio analógica 28 en una señal de audio digital 32 para la entrada en el codificador 22 del CÓDEC 20. El codificador 22 produce una señal de audio codificada TX para la transmisión a una red 26 mediante una interfaz de red 26 según las realizaciones de la presente invención. El descodificador 24 dentro del CÓDEC 20 recibe la señal de audio codificada RX de la red 36 mediante la interfaz de red 26 y convierte la señal de audio codificada RX en una señal de audio digital 34. La interfaz de altavoz 18 convierte la señal de audio digital 34 en una señal de audio 30 apropiada para dirigir los altavoces 14.

En las realizaciones de la presente invención, donde el dispositivo de acceso a audio 6 es un dispositivo VOIP, algunos o todos los componentes dentro del dispositivo de acceso a audio 6 se implementan dentro de un microteléfono. En algunas realizaciones, sin embargo, el Micrófono 12 y el altavoz 14 son unidades separadas y la interfaz de micrófono 16, la interfaz de altavoz 18, el CÓDEC 20 y la interfaz de red 26 se implementan dentro de un ordenador personal. El CÓDEC 20 se puede implementar en software que se ejecuta en un ordenador o un procesador dedicado o mediante hardware dedicado, por ejemplo, en un circuito integrado para aplicaciones específicas (ASIC, por su sigla en inglés). La interfaz de micrófono 16 se implementa por un convertidor analógico a digital (A/D), así como otros circuitos de interfaz ubicados dentro del microteléfono y/o dentro del ordenador. Asimismo, la interfaz de altavoz 18 se implementa por un convertidor digital a analógico y otros circuitos de interfaz ubicados dentro del microteléfono y/o dentro del ordenador. En realizaciones adicionales, el dispositivo de acceso a audio 6 se puede implementar y dividir de otras maneras conocidas en la técnica.

En las realizaciones de la presente invención donde el dispositivo de acceso a audio 6 es un teléfono celular o móvil, los elementos dentro del dispositivo de acceso a audio 6 se implementan dentro de un microteléfono celular. El CÓDEC 20 se puede implementar por software que se ejecuta en un procesador dentro del microteléfono o por hardware dedicado. En realizaciones adicionales de la presente invención, el dispositivo de acceso a audio se puede

imagen50

5

10

15

20

25

30

35

40

45

50

segundo libro de códigos, imagen51 imagen52es un número de primeras entradas del libro de códigos en el primer grupo y

es un número de segundas entradas del libro de códigos en el segundo grupo.

En una realización, el método además incluye calcular energías de las entradas correspondientes del primer libro de códigos y del segundo libro de códigos. En algunos casos, la energía de las entradas correspondientes del primer libro de códigos y del segundo libro de códigos se almacenan en la memoria. Además, el primer grupo puede incluir más entradas que el segundo grupo.

En una realización, el método además incluye aplicar una primera función de énfasis a la primera entrada del libro de códigos y aplicar una segunda función de énfasis a la segunda entrada del libro de códigos. La primera función de énfasis puede incluir una función de filtrado de paso bajo y la segunda función de énfasis puede incluir una función de filtrado de paso alto.

Según una realización adicional, un sistema para codificar una señal de audio/voz que incluye un codificador de audio basado en hardware configurado para determinar un vector del libro de códigos mixto basado en una señal de audio/voz entrante, generar una señal de audio/voz codificada según el vector del libro de códigos mixto determinado, transmitir un índice de excitación codificada del vector del libro de códigos mixto determinado. El vector del libro de códigos mixto incluye una suma de una primera entrada del libro de códigos de un libro de códigos tipo pulso y una segunda entrada del libro de códigos de un libro de códigos tipo ruido. El codificador de audio basado en hardware puede incluir un procesador y/o hardware dedicado.

En una realización, el codificador de audio basado en hardware se configura además para calcular primeras correlaciones entre un vector objetivo filtrado y entradas en el libro de códigos tipo pulso, determinar un primer grupo de primeras correlaciones más altas, calcular correlaciones entre un vector objetivo filtrado y entradas en el libro de códigos tipo ruido, determinar un segundo grupo de segundas correlaciones más altas y calcular una primera función de criterio de combinaciones del primer y segundo grupos. La primera función de criterio incluye una función de una del primer grupo de primeras correlaciones más altas, una del segundo grupo de segundas correlaciones más altas y una energía de entradas correspondientes del libro de códigos tipo pulso y del libro de códigos tipo ruido. Además, el vector objetivo filtrado se basa en la señal de audio entrante. En algunas realizaciones, el sistema además incluye una memoria configurada para almacenar valores de la energía de entradas correspondientes del libro de códigos tipo pulso y del libro de códigos tipo ruido.

En una realización, el codificador de audio basado en hardware se puede configurar además para seleccionar el vector del libro de códigos mixto según una primera función de criterio calculada más alta. Dicha primera función de criterio se puede expresar como

imagen53

donde RCB1(i) es una correlación entre el vector objetivo filtrado y una iésima primera entrada del primer libro de códigos, RCB2(j) es una correlación entre el vector objetivo filtrado y una jésima entrada del segundo libro de códigos, ECB1(i) es una energía de la iésima imagen54entrada del primer libro de códigos y ECB2(i) es una energía de la jésima entrada del

segundo libro de códigos, y imagen55es un número de primeras entradas del libro de códigos en el primer grupo y

es un número de segundas entradas del libro de códigos en el segundo grupo.

Según una realización adicional, un método de búsqueda rápida de un libro de códigos mixto para codificar una señal de audio/voz incluye determinar un vector del libro de códigos mixto según una señal de audio/voz entrante, donde el vector del libro de códigos mixto incluye una suma de una primera entrada del libro de códigos de un primer libro de códigos y una segunda entrada del libro de códigos de un segundo libro de códigos. El método además incluye calcular primeras correlaciones entre un vector objetivo filtrado y entradas filtradas en el primer libro de códigos, determinar un primer grupo de primeras correlaciones más altas, calcular correlaciones entre un vector objetivo filtrado y entradas filtradas en el segundo libro de códigos, determinar un segundo grupo de segundas correlaciones más altas y calcular una primera función de criterio de combinaciones del primer y segundo grupos. La primera función de criterio incluye una función de una del primer grupo de primeras correlaciones más altas, una del segundo grupo de segundas correlaciones más altas y una energía de entradas correspondientes del primer libro de códigos y del segundo libro de códigos y el vector objetivo filtrado se basa en la señal de audio entrante. El método además incluye determinar un tercer grupo de correlaciones candidatas según las primeras funciones de criterio calculadas más altas, seccionar el vector del libro de códigos mixto basado en la aplicación de una segunda función de criterio al tercer grupo, en donde el vector del libro de códigos mixto corresponde a entradas del libro de códigos del primer libro de códigos y del segundo libro de códigos asociadas a un valor más alto de la segunda función de criterio. Asimismo, el método además incluye generar una señal de audio codificada según el vector del libro de

imagen56

Claims

imagen1

imagen2

imagen3

imagen4