ES2274873T3 - Procesamiento de voz. - Google Patents
Procesamiento de voz. Download PDFInfo
- Publication number
- ES2274873T3 ES2274873T3 ES01915443T ES01915443T ES2274873T3 ES 2274873 T3 ES2274873 T3 ES 2274873T3 ES 01915443 T ES01915443 T ES 01915443T ES 01915443 T ES01915443 T ES 01915443T ES 2274873 T3 ES2274873 T3 ES 2274873T3
- Authority
- ES
- Spain
- Prior art keywords
- representation
- filter
- parameters
- frequency
- linear prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000013213 extrapolation Methods 0.000 claims abstract description 37
- 238000005070 sampling Methods 0.000 claims abstract description 36
- 230000004044 response Effects 0.000 claims abstract description 34
- 238000000034 method Methods 0.000 claims abstract description 26
- 239000013598 vector Substances 0.000 claims description 65
- 230000001755 vocal effect Effects 0.000 claims description 43
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims 1
- 238000004458 analytical method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 230000003321 amplification Effects 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Devices For Executing Special Programs (AREA)
- Executing Machine-Instructions (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
Abstract
Dispositivo para procesar voz, que comprende - una entrada para recibir una señal vocal codificada de predicción lineal que representa una primera banda de frecuencia, - medios (103, 310) para extraer, a partir de la señal vocal codificada de predicción lineal, información que describe un primer filtro de predicción lineal asociado con la primera banda de frecuencia y - un codificador de señales vocales (105) para convertir una señal de entrada en una señal de salida que representa una segunda banda de frecuencia, el cual comprende medios (301) para generar un segundo filtro de predicción lineal, para ser utilizado por el codificador de señales vocales (105) en la segunda banda de frecuencia, extrapolando una representación vectorial del primer filtro de predicción lineal, donde dicha extrapolación implica utilizar elementos de vector obtenidos a partir de una auto-correlación de un vector de diferencia, los elementos del cual describen la diferencia entre coeficientes de dominios de frecuencia adyacentes del primer filtro de predicción lineal.
Description
Procesamiento de voz.
La invención concierne en general a la
tecnología de decodificación de voz codificada digitalmente. La
invención concierne especialmente a la tecnología de generación de
una señal de salida decodificada de banda ancha de frecuencia a
partir de una señal de entrada codificada de banda estrecha de
frecuencia.
Los sistemas de teléfonos digitales
tradicionalmente han dependido de procedimientos de codificación y
decodificación de voz estandarizados con tasas de muestreo fijas con
el fin de asegurar la compatibilidad entre parejas
transmisor-receptor, seleccionadas arbitrariamente.
La evolución de redes celulares digitales de segunda generación y
sus terminales mejorados funcionalmente ha resultado en una
situación en la que no puede garantizarse una total compatibilidad
uno-a-uno en relación a las tasas de
muestreo, es decir, el codificador vocal en el terminal transmisor
puede utilizar una tasa de muestreo de entrada que es diferente de
la tasa de muestreo de salida de la del decodificador vocal del
terminal. También puede realizarse el análisis LP o la predicción
lineal de la señal vocal original en una señal que tiene una banda
de frecuencia más estrecha que la señal de entrada real debido a las
restricciones de complejidad. El decodificador vocal de un terminal
receptor avanzado debe ser capaz de generar un filtro LP con una
banda de frecuencia más ancha que la utilizada en el análisis, y
producir una señal de salida de banda ancha a partir de parámetros
de entrada de banda estrecha. La generación de un filtro LP de banda
ancha a partir de la información existente de banda estrecha también
tiene una aplicabilidad más amplia.
La figura 1 ilustra un principio conocido para
convertir una señal vocal codificada de banda estrecha en un tren de
muestras decodificado de banda ancha que puede utilizarse en la
síntesis vocal con una tasa de muestreo mayor. En el extremo
transmisor una señal vocal original ha sido sometida a filtrado bajo
paso (LPF) en el bloque 101. La señal resultante en una
sub-banda de baja frecuencia ha sido codificada en
un codificador de banda estrecha 102. En el extremo receptor la
señal codificada es introducida en un decodificador de banda
estrecha 103, la salida del cual es un tren de muestras que
representa la sub-banda de baja frecuencia con una
tasa de muestreo relativamente baja. Con el fin de aumentar la tasa
de muestreo la señal es llevada a un interpolador de tasa de
muestreo 104.
Las frecuencias más altas que se pierden de la
señal son estimadas tomando el filtro LP (no mostrado
independientemente) del bloque 103 y utilizándolo para realizar un
filtro LP como parte de un codificador de señales vocales 105 que
utiliza una señal de ruido blanco como entrada. En otras palabras,
la curva de respuesta de frecuencia del filtro LP en la
sub-banda de baja frecuencia es ensanchada en la
dirección del eje de frecuencias para cubrir una banda de frecuencia
más ancha en la generación de una sub-banda de alta
frecuencia producida sintéticamente. La energía del ruido blanco se
ajusta de modo que la energía de la salida del codificador de
señales vocales sea adecuada. La salida del codificador de señales
vocales 105 es filtrada en paso alto (HPF) en el bloque 106 con el
fin de evitar solapamiento excesivo con la señal vocal real en la
sub-banda de baja frecuencia. Las
sub-bandas de baja y alta frecuencia se combinan en
el bloque de suma 107 y la combinación se lleva a un sintetizador
vocal (no mostrado) para generar la señal de salida acústica
final.
Podemos considerar una situación ejemplar en la
que la tasa de muestreo original de la señal vocal fuera 12,8 kHz y
la tasa de muestreo a la salida del decodificador deba ser 16 kHz.
El análisis LP ha sido realizado para frecuencias desde 0 hasta 6400
Hz, es decir, desde cero hasta la frecuencia Nyquist que es la mitad
de la tasa de muestreo original. Consecuentemente el decodificador
de banda estrecha 103 lleva a cabo un filtro LP, la frecuencia de
respuesta del cual se extiende desde 0 hasta 6.400 Hz. Con el fin de
generar la sub-banda de alta frecuencia, la
respuesta de frecuencia del filtro LP es ensanchada en el
codificador de señales vocales 105 para cubrir una banda de
frecuencia desde 0 hasta 8.000 Hz, donde el límite superior es ahora
la frecuencia Nyquist relativa a la tasa de muestreo más alta
deseada.
deseada.
Si bien no es necesario, normalmente es deseable
un cierto grado de solapamiento entre las sub-bandas
de alta y baja frecuencia; el solapamiento puede ayudar a obtener
calidad de audio subjetiva óptima. Asumamos que pretendemos un
solapamiento del 10% (es decir, 800 Hz). Esto significa que en el
decodificador de banda estrecha 103 se utiliza la respuesta de
frecuencia completa de 0 a 6.400 Hz (es decir
0-0,5F_{s} con Nyquist F_{s} = 12,8 kHz) del
filtro LP, y en el codificador de señales vocales 105 sólo se
utiliza efectivamente la respuesta de frecuencia de 5.600 a 8.000
Hz (es decir, 0,35 F_{s} -0,5 F_{s} con la tasa de muestreo
F_{s} = 16 kHz) del filtro LP. Aquí "efectivamente" significa
que debido al filtro paso alto 106, el extremo más bajo de la
respuesta de frecuencia no tiene efecto en la salida de la rama de
procesado de señal más alta. La respuesta de frecuencia del filtro
LP de banda ancha en el rango de 5.600 a 8.000 Hz es una copia
estirada de la respuesta de frecuencia del filtro LP de banda
estrecha en el rango de 4.480 a 6.400 Hz.
Las desventajas de la disposición de la técnica
anterior se vuelven destacadas en una situación en la que la
respuesta de frecuencia del filtro LP de banda estrecha tiene un
pico en su región más alta, próximo a la frecuencia Nyquist
original. La figura 2 ilustra tal situación. La curva fina 201
representa la respuesta de frecuencia del filtro LP de 0 a 8.000 Hz
el cual sería utilizado en el análisis de una señal vocal con tasa
de muestreo de 16 kHz. La curva fina 202 representa la respuesta de
frecuencia combinada que produciría la disposición de la figura 1.
Las líneas discontinuas 203 y 204 a 4.480 Hz y 6.400 Hz delimitan
respectivamente la parte de la respuesta de frecuencia de un filtro
LP de banda estrecha que es copiado y estirado en el intervalo 5.600
Hz a 8.000 Hz en el filtro LP de banda ancha implementado en el
codificador de señales vocales. Un pico a aproximadamente 4.400 Hz
en la respuesta de frecuencia de banda estrecha y la bajada continua
desde allí hacia el límite superior de la banda de frecuencia
provoca que la curva de respuesta de frecuencia combinada 202
difiera marcadamente de la respuesta de frecuencia 201 de un filtro
LP de banda ancha ideal.
Se conocen varias disposiciones de la técnica
anterior para complementar el principio de la figura 1 para superar
la desventaja presentada anteriormente. La publicación de patente US
5978759 describe un aparato para expandir voz de banda estrecha a
voz de banda ancha utilizando un libro de códigos o una tabla de
consulta. Se extrae un conjunto de parámetros característicos para
el filtro LP de banda estrecha y se coge como clave de búsqueda para
una tabla de consulta, de modo que los parámetros característicos
del correspondiente filtro LP de banda ancha pueden ser leídos desde
una entrada que coincida o casi coincida en la tabla de consulta.
Se conoce una solución similar a partir de la publicación de patente
número JP 10124089A. Se conoce una aproximación ligeramente
diferente de la publicación de patente número US 5455888, donde las
frecuencias más altas se generan utilizando un banco de filtros el
cual, no obstante, se selecciona utilizando un tipo de tabla de
consulta. La publicación de patente número US 5581652 propone la
reconstrucción de voz de banda ancha a partir de voz de banda
estrecha utilizando libros de código, de modo que se explota la
clase de forma de onda de las señales. Además, en la solicitud de
patente internacional publicada número WO99/49454A1 se ha descrito
un método en el que una señal vocal es transformada en el dominio de
la frecuencia, se identifican los picos característicos de la señal
en el dominio de la frecuencia y se selecciona un conjunto de
parámetros de filtro de banda ancha a partir de una tabla de
conversión. Una publicación WO98/57436 sugiere la replica espectral
con el fin de generar una señal de banda mayor mediante la
trasposición de una parte adecuada de la señal de banda menor.
El uso de una tabla de consulta para la búsqueda
de las características de un filtro de banda ancha adecuado puede
ayudar a evitar desastres del tipo del mostrado en la figura 2, pero
simultáneamente implica un grado considerable de falta de
flexibilidad. O bien sólo puede realizarse un número limitado de
filtros posibles de banda ancha o debe asignarse una memoria muy
grande exclusivamente para este propósito. Aumentar el número de
configuraciones almacenadas de filtros de banda ancha a elegir
también aumenta el tiempo que debe asignarse para buscar y
establecer el correcto de entre ellos, lo cual no es deseable en
operaciones en tiempo real como la telefonía vocal.
Es un objeto de la presente invención presentar
un decodificador vocal y un método para decodificación vocal en el
que la expansión de una banda de frecuencia se realiza de forma
flexible, lo que resulta económico en términos de cálculo y
reproduce bien las características que serían obtenidas utilizando
originalmente un ancho de banda más amplio.
Los objetos de la invención se consiguen
generando un filtro LP de banda ancha a partir de uno de banda
estrecha, de modo que se utiliza la extrapolación a partir de
ciertas regularidades en los polos del filtro LP de banda
estrecha.
De acuerdo con la invención, se definen un
dispositivo y un método de procesamiento de voz en las
reivindicaciones 1 y 9, respectivamente.
Existen varias formas bien conocidas de
presentación para filtros LP. Especialmente hay una conocida,
llamada representación en el dominio de la frecuencia, en la que un
filtro LP puede ser representado mediante un vector LSF (Frecuencia
Espectral de Línea) o un vector ISF (Frecuencia Espectral de
Inmitancia). La representación en el dominio de la frecuencia tiene
como ventaja ser independiente de la tasa de muestreo.
De acuerdo con la invención se utiliza
dinámicamente un filtro LP de banda estrecha como base para
construir un filtro LP de banda ancha por medio de extrapolación.
Especialmente la invención implica convertir el filtro LP de banda
estrecha en su representación en el dominio de la frecuencia, y
formar una representación en el dominio de la frecuencia de un
filtro LP de banda ancha mediante extrapolación del filtro LP de
banda estrecha. Para la extrapolación se utiliza, preferentemente,
un filtro IIR (Respuesta a Impulsos Infinitos) de un orden bastante
alto con el fin de aprovechar las regularidades características del
filtro LP de banda estrecha. El orden del filtro LP de banda ancha
se selecciona preferiblemente de modo que la proporción de los
órdenes de filtro LP de banda estrecha y banda ancha sea
esencialmente igual a la proporción de las frecuencias de muestreo
de banda estrecha y banda ancha. Se necesita un determinado conjunto
de coeficientes para el filtro IIR; estos son obtenidos
preferentemente analizando la auto-correlación de un
vector diferencia que refleja las diferencias entre elementos
adyacentes en la representación vectorial del filtro LP de banda
estrecha.
Con el fin de asegurar que el filtro LP de banda
ancha no da lugar a excesiva amplificación próxima a la frecuencia
Nyquist, resulta ventajoso situar ciertas limitaciones al
último(s) elemento(s) de la representación vectorial
del filtro LP de banda ancha. Especialmente la diferencia entre el
último elemento en la representación vectorial y la frecuencia
Nyquist, proporcionada a la frecuencia de muestreo, debe ser
aproximadamente la misma. Estas limitaciones se definen fácilmente
mediante las definiciones diferenciales de modo que se controla la
diferencia entre elementos adyacentes en la representación
vectorial.
Las nuevas características que son consideradas
como características de la invención se establecen en concreto en
las reivindicaciones adjuntas. No obstante, la invención en si
misma, ambas su construcción y su método de funcionamiento, junto
con objetos adicionales y las ventajas de ellos, serán comprendidas
mejor a partir de la siguiente descripción de realizaciones
específicas cuando se lean junto con los dibujos adjuntos.
Figura 1, ilustra un decodificador vocal
conocido,
Figura 2, muestra una respuesta de frecuencia
desfavorable de un filtro LP de banda ancha conocido,
Figura 3a, ilustra el principio de la
invención,
Figura 3b, ilustra la aplicación del principio
de la figura 3a en un decodificador vocal,
Figura 4, muestra un detalle de la disposición
de la figura 3b,
Figura 5, muestra un detalle de la disposición
de la figura 4,
Figura 6, muestra una respuesta de frecuencia
ventajosa de un filtro de acuerdo con la invención y
Figura 7, ilustra un radio teléfono digital de
acuerdo a una realización de la invención.
Las figuras 1 y 2 han sido descritas dentro de
la descripción de la técnica anterior, de modo que la siguiente
descripción de la invención y sus realizaciones ventajosas se
concentran en las figuras 3a a 6. Se utilizan los mismos indicadores
de referencia para partes similares en los dibujos.
La figura 3a ilustra el uso de una señal de
entrada de banda estrecha para extraer los parámetros de un filtro
LP de banda estrecha en un bloque de extracción 310. Los parámetros
del filtro LP de banda estrecha son llevados a un bloque de
extrapolación 301 en el que la extrapolación se utiliza para
producir los parámetros de un filtro LP de banda ancha
correspondiente. Estos son llevados a un codificador de señales
vocales 105 que utiliza una señal de banda ancha como entrada. El
codificador de señales vocales 105 genera un filtro LP de banda
ancha a partir de los parámetros y los utiliza para convertir la
señal de entrada de banda ancha en una señal de salida de banda
ancha. La extracción del bloque 310 también puede proporcionar una
salida que es una salida de banda estrecha.
La figura 3b muestra como puede aplicarse el
principio de la figura 3a a un decodificador vocal, por otra parte,
conocido. Una comparación entre la figura 1 y la figura 3b muestra
la adición presentada mediante la invención en el por otra parte
conocido principio para convertir una señal vocal codificada de
banda estrecha en un tren de muestras decodificado de banda ancha.
La invención no tiene efecto en el extremo transmisor: la señal
vocal original es filtrada de paso bajo en el bloque 101 y la señal
resultante en una sub-banda de baja frecuencia
codificada en un codificador de banda estrecha 102. También la
derivación inferior en el extremo receptor bien puede ser la misma:
la señal codificada es introducida en un decodificador de banda
estrecha 103, y con el fin de aumentar la tasa de muestreo de la
salida de sub-banda de baja frecuencia, de ahí la
señal es llevada a un interpolador de tasa de muestreo 104. No
obstante, el filtro LP de banda estrecha utilizado en el bloque 103
no se lleva directamente al codificador de señales vocales 105 sino
a un bloque de extrapolación 301 donde se genera un filtro LP de
banda ancha.
La curva de respuesta de frecuencia del filtro
LP en la sub-banda de baja frecuencia no es
simplemente estirada para cubrir una banda de frecuencia más ancha;
ni son los característicos filtros LP de banda estrecha utilizados
como clave de búsqueda para cualquier librería de los filtro LP de
banda ancha generados previamente. La extrapolación que se realiza
en el bloque 302 significa generar un filtro único LP de banda ancha
y no sólo seleccionar la coincidencia más próxima a partir de un
conjunto de alternativas. Es un método verdaderamente adaptable en
el sentido que seleccionando un algoritmo de extrapolación adecuado
es posible asegurar una relación única entre cada entrada de filtro
LP de banda estrecha y la correspondiente salida de filtro LP de
banda ancha. El método de extrapolación funciona incluso cuando se
sabe poco de antemano acerca de los filtros LP de banda estrecha que
se encontrarán como información de entrada. Esto es una clara
ventaja sobre todas las soluciones basadas en tablas de consulta, ya
que tales tablas sólo pueden construirse cuando más o menos se sabe
en que categorías se encontrarán los filtros LP de banda estrecha.
Adicionalmente, el método de extrapolación de acuerdo a la
invención sólo requiere una cantidad limitada de memoria, debido a
que sólo necesita almacenarse el propio algoritmo.
El uso del filtro LP de banda ancha obtenido del
bloque 301 en la generación de una sub-banda de alta
frecuencia producida sintéticamente puede seguir el patrón conocido
como tal de la técnica anterior. El ruido blanco se introduce como
dato de entrada en el codificador de señales vocales 105, el cual
utiliza el filtro LP de banda ancha para producir un tren de
muestras que representa la sub-banda de alta
frecuencia. La energía del ruido blanco se ajusta de modo que la
energía de salida del codificador de señales vocales sea adecuada.
La salida del codificador de señales vocales 105 se filtra en paso
alto en el bloque 106 y en el bloque de suma 107, las
sub-bandas de alta y baja frecuencia se combinan. La
combinación está lista para ser llevada a un sintetizador vocal (no
mostrado) para generar la señal de salida acústica final.
La figura 4 ilustra un modo ejemplar de llevar a
cabo el bloque de extrapolación 301. Un bloque de conversión LP a
LSF 401 convierte el filtro LP de banda estrecha obtenido del
decodificador 103 en el dominio de frecuencia. La extrapolación real
se realiza en el dominio de frecuencia mediante un bloque
extrapolador 402. La salida de éste se encuentra acoplada a un
bloque de conversión LSF a LP 403 que realiza una conversión inversa
respecto de la realizada en el bloque 401. Adicionalmente, acoplado
entre la salida del bloque 403 y una entrada de control del
codificador de señales vocales 105, existe un bloque de control de
ganancia 404 la tarea del cual es poner a escala la ganancia del
filtro LP de banda ancha a un nivel adecuado.
\newpage
La figura 5 ilustra un modo ejemplar de llevar a
cabo el dispositivo de extrapolación 402. La entrada de éste se
encuentra acoplada a la salida del bloque de conversión LP a LSF
401, de modo que una representación vectorial f_{n} del filtro LP
de banda estrecha se obtiene como una entrada al dispositivo de
extrapolación 402. Con el fin de realizar la extrapolación, se
genera un filtro de extrapolación analizando el vector f_{n} en un
bloque generador de filtro 501. El filtro también puede ser descrito
con un vector, el cual aquí se denota como el vector b. Utilizando
el filtro generado en el bloque 501, la representación vectorial
f_{n} del filtro LP de banda estrecha se convierte a una
representación vectorial f_{w} del filtro LP de banda ancha en el
bloque 502. Finalmente, con el fin de asegurar que el filtro LP de
banda ancha no incluye excesiva amplificación en la proximidad de la
frecuencia Nyquist relativa a la velocidad de muestreo mayor, la
representación vectorial f_{w} del filtro LP de banda ancha está
sujeta a ciertas funciones limitadoras en el bloque 503 antes de
pasarlo al bloque de conversión LSF a LP 403.
Ahora proporcionaremos un análisis detallado de
las operaciones realizadas en los diversos bloques funcionales
representados anteriormente en las figuras 4 y 5. Se toma como un
hecho que el decodificador 103 realiza y utiliza un filtro LP en el
curso de la decodificación de la señal vocal de banda estrecha. Este
filtro LP se designa como el filtro LP de banda estrecha, y está
caracterizado por un conjunto de coeficientes de filtro LP. Del
mismo modo, es un hecho que prácticamente todos los decodificadores
(y codificadores) vocales de alta calidad utilizan ciertos vectores
conocidos como vectores ISF o LSF para cuantificar los coeficientes
de filtro LP, de modo que funcionalmente, la conversión LP a LSF
mostrada como bloque 401 en la figura 4 puede incluso ser una parte
del decodificador 103. Mediante esta descripción hablamos acerca de
los vectores LSF con fines de consistencia, pero es obvio para una
persona versada en la técnica aplicar también la descripción a la
utilización de vectores ISF.
Los vectores LSF pueden ser representados en el
dominio de coseno, donde el vector es realmente llamado el vector
LSP (Par Espectral de Línea), o en el dominio de la frecuencia. La
representación en el dominio de coseno (el vector LSP) es
dependiente de la tasa de muestreo pero la representación en el
dominio de frecuencia no lo es, de modo que, por ejemplo, si el
decodificador 103 es algún tipo de decodificador vocal estereotipado
que sólo ofrece un vector LSP como información de entrada al bloque
de extrapolación 301, es preferible convertir primero el vector LSP
en un vector LSF. La conversión se hace fácilmente de acuerdo a la
fórmula conocida
donde el subíndice n indica
generalmente "banda estrecha", fn(i) es el elemento de
orden i del vector LSF de banda estrecha, q_{n}(i) es el
elemento de orden i del vector LSP de banda estrecha, F_{s,n} es
la tasa de muestreo de banda estrecha y n_{n} es el orden del
filtro LP de banda estrecha. Siguiendo la definición de los vectores
LSP y LSF, n_{n} también es el número de elementos en los vectores
LSP y LSF de banda
estrecha.
En la realización mostrada en las figuras 3b, 4
y 5, la extrapolación real tiene lugar en el bloque 502 utilizando
un filtro de extrapolación de orden L generado en el bloque 501. Por
el momento sólo asumimos que el bloque 501 proporciona al bloque 502
un vector de filtro b; volveremos a la generación del vector de
filtro posteriormente. Una fórmula ventajosa para generar el vector
LSF de banda ancha f_{n} es
donde el subíndice w generalmente
indica "banda ancha", f_{w}(i) es el valor de orden i
del vector LSF de banda ancha, k es un índice de suma, L es el orden
del filtro de extrapolación y
b((i-1)-k) es elemento de orden
(i-1)-k) del vector del filtro de
extrapolación. En otras palabras, tantos elementos como haya en el
vector LSF de banda estrecha son exactamente los mismos al principio
del vector LSF de banda ancha. El resto de los elementos en el
vector LSF de banda ancha se calculan de modo que cada nuevo
elemento es una suma ponderada de los L elementos previos del vector
LSF de banda ancha. Los pesos son los elementos del vector de filtro
de extrapolación en un orden de convolución, de modo que al calcular
f_{w}(i), el elemento f_{w}(i-L),
el cual es el elemento previo más distante que contribuye a la suma,
es ponderado con b(L-1) y el elemento
f_{w}(i-1), que es el elemento previo más
próximo que contribuye a la suma, es ponderado con
b(0).
La fórmula de extrapolación (2) no limita el
valor de n_{w}, es decir, el orden del filtro LP de banda ancha.
Con el fin de preservar la precisión de la extrapolación, resulta
ventajoso seleccionar el valor de n_{w} de modo que
lo que significa que los órdenes de
los filtros LP se ponen a escala de acuerdo a las magnitudes
relativas de las frecuencias de
muestreo.
El requerimiento de que el filtro LP de banda
ancha no debe producir una excesiva amplificación en las frecuencias
próximas a la frecuencia Nyquist 0,5F_{s,w} puede ser formulada
con la ayuda de la diferencia entre el último elemento de cada
vector de filtro LP y la correspondiente frecuencia Nyquist, donde
la diferencia es además puesta a escala con la frecuencia de
muestreo, de acuerdo a la fórmula
Las limitaciones dadas anteriormente (3) y (4)
para el filtro LP de banda ancha restringen la selección de n_{w}
y la definición del filtro de extrapolación. Cómo llevar a cabo
exactamente las restricciones es una cuestión de experimentación de
rutina de taller de trabajo. Una aproximación ventajosa es definir
un vector de diferencia D de modo que
y limitar el vector de diferencia
de algún modo, por ejemplo, requiriendo que ningún elemento
D(k) del vector de diferencia D pueda ser mayor que un valor
límite predeterminado, o que la suma del cuadrado de los elementos
(D(k))^{2} del vector de diferencia D no pueda ser mayor
que un valor límite predeterminado. Normalmente, un filtro LP tiene
características de filtro paso alto o paso bajo, no características
de filtro paso de banda o de banda suprimida. El valor límite
predeterminado puede tener relación con este hecho en una forma tal
que si el filtro LP de banda estrecha tiene características de
filtro paso bajo, el valor límite aumenta. Si, por otro lado, el
filtro LP de banda estrecha tiene características de filtro paso
alto, el valor límite disminuye. Otras limitaciones que pueden
aplicarse referidas al vector de diferencia D son concebidas
fácilmente por una persona versada en la
técnica.
A continuación describiremos algunas formas
ventajosas de generar el vector de filtro b. Las localizaciones de
los polos del filtro LP tienden a tener alguna correlación entre
ellos de modo que los elementos del vector de diferencia D, de los
que describe la diferencia entre elementos de vector LP adyacentes,
comprende cierta regularidad. Podemos calcular una función de
auto-correlación
donde
y encuentra su máximo, es decir, el
valor del índice k que produce el mayor grado de
auto-correlación. Podemos indicar este valor del
índice k como m. Entonces una forma ventajosa de definir el vector
de filtro b
es
De esta forma el vector de filtro b sigue la
regularidad del filtro LP de banda estrecha. Incluso los nuevos
elementos del filtro LP de banda ancha extrapolado heredan esta
característica mediante el uso del filtro b en el procedimiento de
extrapolación.
Naturalmente, es posible que la función de
auto-correlación (6) no tenga un máximo neto. Para
tener en cuenta estos casos podemos definir que el vector de filtro
de extrapolación b debe modelar todas las regularidades en el filtro
LP de banda estrecha de acuerdo con su importancia. La
auto-correlación puede utilizarse como vehículo de
tal definición, por ejemplo, de acuerdo con la fórmula
La definición más general (9) converge hacia la
definición más simple dada anteriormente (8) si existe un pico
máximo neto en la función de auto-correlación.
La representación del vector LSF del filtro LP
de banda ancha está preparado para ser convertido en un filtro LP de
banda ancha real, el cual puede usarse para procesar señales que
tienen una tasa de muestreo F_{s,w}. Para aquellos casos en los
que es preferible la representación del vector LSP del filtro LP de
banda ancha, puede realizarse una conversión LSF a LSP de acuerdo
con la fórmula
Debe indicarse que el dominio de coseno en el
que se realiza la conversión (10) tiene la frecuencia de Nyquist en
0,5F_{s,w}, mientras el dominio de coseno del cual se realizo la
conversión de banda estrecha (1) tenía la frecuencia de Nyquist en
0,5F_{s,n}.
La ganancia total del filtro LP de banda ancha
obtenido debe ajustarse de una forma conocida como tal de las
soluciones de la técnica anterior. Ajustar la ganancia puede tener
lugar en el bloque de extrapolación 301 como se mostraba como
sub-bloque 404 en la figura 4, o puede ser parte del
codificador de señales vocales 105. Como diferencia con la solución
de la técnica anterior de la figura 1 puede indicarse que la
ganancia total del filtro LP de banda ancha generado de acuerdo a la
invención puede permitirse que sea mayor que la del filtro LP de
banda ancha de la técnica anterior, debido a que no es probable que
ocurran grandes divergencias de la respuesta de frecuencia ideal,
como la mostrada en la figura 2, y no es necesario estar prevenidos
frente a ellas.
La figura 6 ilustra una respuesta de frecuencia
típica 601 la cual puede obtenerse con un filtro LP de banda ancha
generado mediante la extrapolación de acuerdo con la invención. La
respuesta de frecuencia 601 sigue bastante próximamente la curva
ideal 201, la cual representa la respuesta de frecuencia de un
filtro LP de 0 a 8.000 Hz, el cual sería utilizado en el análisis de
una señal vocal con una tasa de muestreo de 16 kHz. La aproximación
de extrapolación tiende a modelar las tendencias de escala mayores
del espectro de amplitud de forma bastante precisa y localiza
correctamente los picos en la respuesta de frecuencia. Una ventaja
significativa de la invención sobre la disposición de la técnica
anterior ilustrada en las figuras 1 y 2 también es que la respuesta
de frecuencia del filtro LP de banda ancha es continua, es decir, no
tiene cambios instantáneos en magnitud como el que se encuentra a
5.600 Hz en la respuesta de frecuencia del filtro LP de banda ancha
de la técnica anterior.
Un decodificador vocal sólo no es suficiente
para trasladar el espíritu de la invención en ventajas concebibles
para un usuario humano. La figura 7 ilustra un radio teléfono
digital en el que una antena 701 está acoplada a un filtro dúplex
702, el cual, a su vez, está acoplado a un bloque receptor 703 y un
bloque transmisor 704 para recibir y transmitir voz codificada
digitalmente a través de un interfaz radioeléctrico. El bloque
receptor 703 y el bloque transmisor 704 están ambos acoplados a un
bloque de control 707 para llevar la información de control
recibida y la información de control a transmitir, respectivamente.
Adicionalmente, el bloque receptor 703 y el bloque transmisor 704
están acoplados a un bloque de banda base 705, el cual comprende las
funciones de frecuencia de banda base para procesar voz recibida y
voz a transmitir respectivamente. El bloque de banda base 705 y el
bloque controlador 707 están acoplados a un interfaz de usuario 706
que normalmente consiste en un micrófono, un altavoz, un teclado y
una pantalla (no mostrados específicamente en la figura 7).
En la figura 7 se muestra en más detalle una
parte del bloque de banda base 705. La última parte del bloque
receptor 703 es un decodificador de canal, la salida del cual
consiste en tramas de voz decodificada de canal que necesitan estar
sujetas a síntesis y decodificación vocal. Las tramas vocales
obtenidas a partir del decodificador de canal son almacenadas
temporalmente en una memoria intermedia de tramas 710 y leídas desde
ahí al decodificador vocal real 711. Este último lleva a cabo un
algoritmo de decodificación vocal leído a partir de una memoria 712.
De acuerdo con la invención, cuando el decodificador vocal 711
encuentra que la tasa de muestreo de una señal vocal entrante debe
ser aumentada, emplea un método de extrapolación de filtro LP
descrito anteriormente para producir el filtro LP de banda ancha
requerido para la generación de la sub-banda de alta
frecuencia producida sintéticamente.
El bloque de banda base 705 normalmente es un
ASIC (Circuito Integrado Específico de Aplicación) relativamente
grande. La utilización de la invención ayuda a reducir la
complejidad y el consumo de energía del ASIC, debido a que sólo se
necesitan una cantidad limitada de memoria y un número fraccionario
de accesos memoria para utilización del decodificador vocal,
especialmente cuando se compara con aquellas soluciones de la
técnica anterior en las que se utilizaban grandes tablas de consulta
para almacenar una variedad de filtros LP de banda ancha calculados
previamente. La invención no pone requerimientos excesivos para la
realización del ASIC, debido a que los cálculos descritos
anteriormente son relativamente fáciles de realizar.
Claims (17)
1. Dispositivo para procesar voz, que
comprende
- una entrada para recibir una señal vocal
codificada de predicción lineal que representa una primera banda de
frecuencia,
- medios (103, 310) para extraer, a partir de la
señal vocal codificada de predicción lineal, información que
describe un primer filtro de predicción lineal asociado con la
primera banda de frecuencia y
- un codificador de señales vocales (105) para
convertir una señal de entrada en una señal de salida que representa
una segunda banda de frecuencia, el cual comprende medios (301) para
generar un segundo filtro de predicción lineal, para ser utilizado
por el codificador de señales vocales (105) en la segunda banda de
frecuencia, extrapolando una representación vectorial del primer
filtro de predicción lineal, donde dicha extrapolación implica
utilizar elementos de vector obtenidos a partir de una
auto-correlación de un vector de diferencia, los
elementos del cual describen la diferencia entre coeficientes de
dominios de frecuencia adyacentes del primer filtro de predicción
lineal.
2. Dispositivo para procesar voz de acuerdo a la
reivindicación 1, caracterizado porque comprende
- medios (401) para convertir la información que
describe un primer filtro de predicción lineal en una primera
representación de parámetros en el dominio de la frecuencia,
- medios (402) para extrapolar dicha primera
representación de parámetros en una segunda representación de
parámetros en el dominio de la frecuencia, y
- medios (403) para convertir dicha segunda
representación de parámetros en el segundo filtro de predicción
lineal.
3. Dispositivo para procesar voz de acuerdo a la
reivindicación 2, caracterizado porque dichos medios (402)
para extrapolar dicha primera representación de parámetros en una
segunda representación de parámetros en el dominio de la frecuencia
comprende un filtro respuesta a impulsos infinitos (502).
4. Dispositivo para procesar voz de acuerdo a la
reivindicación 3, caracterizado porque comprende medios (501)
para derivar una representación vectorial de dicho filtro respuesta
a impulsos infinitos a partir de dicha primera representación de
parámetros.
5. Dispositivo para procesar voz de acuerdo a la
reivindicación 2, caracterizado porque comprende medios (404,
503) para limitar dicha segunda representación de parámetros.
6. Dispositivo para procesar voz, de acuerdo a
la reivindicación 1, caracterizado porque comprende
- un decodificador (103) para convertir una
señal vocal codificada de predicción lineal en un primer tren de
muestras que tiene una primera tasa de muestreo y que representa una
primera banda de frecuencia,
- un codificador de señales vocales (105) para
convertir una señal de entrada en un segundo tren de muestras que
tiene una segunda tasa de muestreo y que representa una segunda
banda de frecuencia,
- medios de combinación (107) para combinar los
trenes de muestras primero y segundo en forma procesada, y
- medios (301) para generar un segundo filtro de
predicción lineal, para ser usado por el codificador de señales
vocales (105) en la segunda banda de frecuencia, a partir del primer
filtro de predicción lineal utilizado por el decodificador (103) en
la primera banda de frecuencia.
7. Dispositivo para procesar voz, de acuerdo a
la reivindicación 6, caracterizado porque comprende
- un interpolador de tasa de muestreo (104)
acoplado entre el decodificador (103) y los medios de combinación
(107) y
- un filtro paso alto (106) acoplado entre el
codificador de señales vocales (105) y los medios de combinación
(107).
8. Radio teléfono digital, caracterizado
porque comprende un dispositivo para procesar voz (711) de acuerdo a
la reivindicación 1.
9. Método para procesar voz codificada
digitalmente, comprendiendo las etapas de:
- extraer (103), a partir de una señal de voz
codificada de predicción lineal, información que describe un primer
filtro de predicción lineal asociado con una primera banda de
frecuencia y
- convertir (105) una señal de entrada en una
señal de salida que representa una segunda banda de frecuencia,
lo cual comprende generar (301) un segundo
filtro de predicción lineal, para ser utilizado en la conversión de
la señal de entrada en la señal de salida, extrapolando una
representación vectorial del primer filtro de predicción lineal,
donde dicha extrapolación implica utilizar elementos de vector
obtenidos a partir de una auto-correlación de un
vector de diferencia, los elementos del cual describen la diferencia
entre coeficientes de dominios de frecuencia adyacentes del primer
filtro de predicción lineal.
10. Método de acuerdo a la reivindicación 9,
comprendiendo las etapas de:
- convertir (103) una señal vocal codificada de
predicción lineal en un primer tren de muestras que tiene una
primera tasa de muestreo y que representa una primera banda de
frecuencia,
- convertir (105) una señal de entrada en un
segundo tren de muestras que tiene una segunda tasa de muestreo y
que representa una segunda banda de frecuencia,
- combinar (107) los trenes de muestras primero
y segundo en forma procesada,
caracterizado porque comprende la etapa
de:
- generar (301) un segundo filtro de predicción
lineal, para ser utilizado por el codificador de señales vocales en
la segunda banda de frecuencia, a partir del primer filtro de
predicción lineal utilizado por el decodificador en la primera banda
de frecuencia.
11. Método de acuerdo a la reivindicación 10,
caracterizado porque comprende las etapas de:
- convertir (401) el primer filtro de predicción
lineal en una primera representación de parámetros en el dominio de
la frecuencia,
- extrapolar (402) dicha primera representación
de parámetros en una segunda representación de parámetros en el
dominio de la frecuencia, y
- convertir (403) dicha segunda representación
de parámetros en el segundo filtro de predicción lineal.
12. Método de acuerdo a la reivindicación 10,
caracterizado porque la etapa de extrapolación (402) de dicha
primera representación de parámetros en una segunda representación
de parámetros en el dominio de la frecuencia comprende la
sub-etapa de filtrar (502) dicha primera
representación de parámetros con un filtro respuesta a impulsos
infinitos.
13. Método de acuerdo a la reivindicación 12,
caracterizado porque comprende la etapa de calcular (501) una
representación vectorial para dicho filtro respuesta a impulsos
infinitos a partir de una regularidad observada en dicha primera
representación de parámetros.
14. Método de acuerdo a la reivindicación 13,
caracterizado porque la etapa de extrapolación (402) de dicha
primera representación de parámetros en una segunda representación
de parámetros en el dominio de la frecuencia comprende la
sub-etapa de determinar (502) los valores de dicha
segunda representación de parámetros como
donde f_{w}(i) es el valor
de orden i de dicha segunda representación de parámetros, k es un
índice de suma, L es el orden de dicho filtro respuesta a impulsos
infinitos y b((i-1)-k) es elemento
de orden ((i-1)-k) de la
representación vectorial de dicho filtro respuesta a impulsos
infinitos.
15. Método de acuerdo a la reivindicación 14,
caracterizado porque comprende la sub-etapa
de calcular (501) la representación vectorial para dicho filtro
respuesta a impulsos infinitos de modo que
y m es el valor del índice k que
produce un valor máximo de una función de
auto-correlación
donde
siendo f_{n}(i) el
elemento de orden i de la primera representación de parámetros
y
siendo n_{n} el número de elementos en la
primera representación de parámetros.
16. Método de acuerdo a la reivindicación 14,
caracterizado porque comprende la sub-etapa
de calcular (501) la representación vectorial para dicho filtro
respuesta a impulsos infinitos de modo que
donde
siendo f_{n}(i) el
elemento de orden i de la primera representación de parámetros
y
siendo n_{n} el número de elementos en la
primera representación de parámetros.
17. Método de acuerdo a la reivindicación 14,
caracterizado porque comprende la etapa de limitar (503)
dicha segunda representación vectorial para cumplir las
condiciones
donde
n_{w} es el número de elementos en la segunda
representación de parámetros, n_{n} es el número de elementos en
la primera representación de parámetros, F_{s,w} es la segunda
frecuencia de muestreo, F_{s,n} es la primera frecuencia de
muestreo, f_{n}(i) es el elemento de orden i de la primera
representación de parámetros y f_{w}(i) es el elemento de
orden i de la segunda representación de parámetros.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FI20000524A FI119576B (fi) | 2000-03-07 | 2000-03-07 | Puheenkäsittelylaite ja menetelmä puheen käsittelemiseksi, sekä digitaalinen radiopuhelin |
FI20000524 | 2000-03-07 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2274873T3 true ES2274873T3 (es) | 2007-06-01 |
Family
ID=8557866
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES01915443T Expired - Lifetime ES2274873T3 (es) | 2000-03-07 | 2001-03-06 | Procesamiento de voz. |
Country Status (15)
Country | Link |
---|---|
US (1) | US7483830B2 (es) |
EP (1) | EP1264303B1 (es) |
JP (2) | JP2003526123A (es) |
KR (1) | KR100535778B1 (es) |
CN (1) | CN1193344C (es) |
AT (1) | ATE343835T1 (es) |
AU (1) | AU2001242539A1 (es) |
BR (1) | BRPI0109043B1 (es) |
CA (1) | CA2399253C (es) |
DE (1) | DE60124079T2 (es) |
ES (1) | ES2274873T3 (es) |
FI (1) | FI119576B (es) |
PT (1) | PT1264303E (es) |
WO (1) | WO2001067437A1 (es) |
ZA (1) | ZA200205089B (es) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3467469B2 (ja) * | 2000-10-31 | 2003-11-17 | Necエレクトロニクス株式会社 | 音声復号装置および音声復号プログラムを記録した記録媒体 |
US6889182B2 (en) | 2001-01-12 | 2005-05-03 | Telefonaktiebolaget L M Ericsson (Publ) | Speech bandwidth extension |
FR2852172A1 (fr) * | 2003-03-04 | 2004-09-10 | France Telecom | Procede et dispositif de reconstruction spectrale d'un signal audio |
FI119533B (fi) * | 2004-04-15 | 2008-12-15 | Nokia Corp | Audiosignaalien koodaus |
US8712768B2 (en) * | 2004-05-25 | 2014-04-29 | Nokia Corporation | System and method for enhanced artificial bandwidth expansion |
EP1785985B1 (en) * | 2004-09-06 | 2008-08-27 | Matsushita Electric Industrial Co., Ltd. | Scalable encoding device and scalable encoding method |
ATE429698T1 (de) * | 2004-09-17 | 2009-05-15 | Harman Becker Automotive Sys | Bandbreitenerweiterung von bandbegrenzten tonsignalen |
WO2006062202A1 (ja) * | 2004-12-10 | 2006-06-15 | Matsushita Electric Industrial Co., Ltd. | 広帯域符号化装置、広帯域lsp予測装置、帯域スケーラブル符号化装置及び広帯域符号化方法 |
US8010353B2 (en) * | 2005-01-14 | 2011-08-30 | Panasonic Corporation | Audio switching device and audio switching method that vary a degree of change in mixing ratio of mixing narrow-band speech signal and wide-band speech signal |
BRPI0607646B1 (pt) * | 2005-04-01 | 2021-05-25 | Qualcomm Incorporated | Método e equipamento para encodificação por divisão de banda de sinais de fala |
JP4899359B2 (ja) | 2005-07-11 | 2012-03-21 | ソニー株式会社 | 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体 |
CN103650037B (zh) * | 2011-07-01 | 2015-12-09 | 杜比实验室特许公司 | 采样率可分级的无损音频编码 |
FR3008533A1 (fr) | 2013-07-12 | 2015-01-16 | Orange | Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences |
MX362490B (es) * | 2014-04-17 | 2019-01-18 | Voiceage Corp | Metodos codificador y decodificador para la codificacion y decodificacion predictiva lineal de señales de sonido en la transicion entre cuadros teniendo diferentes tasas de muestreo. |
EP4343763A3 (en) * | 2014-04-25 | 2024-06-05 | Ntt Docomo, Inc. | Linear prediction coefficient conversion device and linear prediction coefficient conversion method |
KR102002681B1 (ko) * | 2017-06-27 | 2019-07-23 | 한양대학교 산학협력단 | 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법 |
CN108198571B (zh) * | 2017-12-21 | 2021-07-30 | 中国科学院声学研究所 | 一种基于自适应带宽判断的带宽扩展方法及系统 |
CN116110409B (zh) * | 2023-04-10 | 2023-06-20 | 南京信息工程大学 | 一种ASIP架构的大容量并行Codec2声码器系统及编解码方法 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0685607A (ja) | 1992-08-31 | 1994-03-25 | Alpine Electron Inc | 高域成分復元装置 |
JP2779886B2 (ja) | 1992-10-05 | 1998-07-23 | 日本電信電話株式会社 | 広帯域音声信号復元方法 |
US5455888A (en) | 1992-12-04 | 1995-10-03 | Northern Telecom Limited | Speech bandwidth extension method and apparatus |
DE4343366C2 (de) | 1993-12-18 | 1996-02-29 | Grundig Emv | Verfahren und Schaltungsanordnung zur Vergrößerung der Bandbreite von schmalbandigen Sprachsignalen |
JP3230790B2 (ja) | 1994-09-02 | 2001-11-19 | 日本電信電話株式会社 | 広帯域音声信号復元方法 |
JP3230791B2 (ja) | 1994-09-02 | 2001-11-19 | 日本電信電話株式会社 | 広帯域音声信号復元方法 |
JP3483958B2 (ja) | 1994-10-28 | 2004-01-06 | 三菱電機株式会社 | 広帯域音声復元装置及び広帯域音声復元方法及び音声伝送システム及び音声伝送方法 |
JP2798003B2 (ja) * | 1995-05-09 | 1998-09-17 | 松下電器産業株式会社 | 音声帯域拡大装置および音声帯域拡大方法 |
EP0732687B2 (en) * | 1995-03-13 | 2005-10-12 | Matsushita Electric Industrial Co., Ltd. | Apparatus for expanding speech bandwidth |
JPH0955778A (ja) * | 1995-08-15 | 1997-02-25 | Fujitsu Ltd | 音声信号の広帯域化装置 |
JP3301473B2 (ja) | 1995-09-27 | 2002-07-15 | 日本電信電話株式会社 | 広帯域音声信号復元方法 |
EP0878790A1 (en) * | 1997-05-15 | 1998-11-18 | Hewlett-Packard Company | Voice coding system and method |
SE512719C2 (sv) | 1997-06-10 | 2000-05-02 | Lars Gustaf Liljeryd | En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion |
EP0945852A1 (en) | 1998-03-25 | 1999-09-29 | BRITISH TELECOMMUNICATIONS public limited company | Speech synthesis |
JP3541680B2 (ja) * | 1998-06-15 | 2004-07-14 | 日本電気株式会社 | 音声音楽信号の符号化装置および復号装置 |
US6539355B1 (en) * | 1998-10-15 | 2003-03-25 | Sony Corporation | Signal band expanding method and apparatus and signal synthesis method and apparatus |
JP2000305599A (ja) * | 1999-04-22 | 2000-11-02 | Sony Corp | 音声合成装置及び方法、電話装置並びにプログラム提供媒体 |
JP2003514263A (ja) * | 1999-11-10 | 2003-04-15 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | マッピング・マトリックスを用いた広帯域音声合成 |
-
2000
- 2000-03-07 FI FI20000524A patent/FI119576B/fi not_active IP Right Cessation
-
2001
- 2001-03-01 US US09/797,115 patent/US7483830B2/en not_active Expired - Lifetime
- 2001-03-06 AT AT01915443T patent/ATE343835T1/de not_active IP Right Cessation
- 2001-03-06 CA CA2399253A patent/CA2399253C/en not_active Expired - Lifetime
- 2001-03-06 PT PT01915443T patent/PT1264303E/pt unknown
- 2001-03-06 CN CNB018061710A patent/CN1193344C/zh not_active Expired - Lifetime
- 2001-03-06 EP EP01915443A patent/EP1264303B1/en not_active Expired - Lifetime
- 2001-03-06 AU AU2001242539A patent/AU2001242539A1/en not_active Abandoned
- 2001-03-06 ES ES01915443T patent/ES2274873T3/es not_active Expired - Lifetime
- 2001-03-06 JP JP2001565171A patent/JP2003526123A/ja not_active Withdrawn
- 2001-03-06 DE DE60124079T patent/DE60124079T2/de not_active Expired - Lifetime
- 2001-03-06 WO PCT/FI2001/000222 patent/WO2001067437A1/en active IP Right Grant
- 2001-03-06 BR BRPI0109043A patent/BRPI0109043B1/pt active IP Right Grant
- 2001-03-06 KR KR10-2002-7011557A patent/KR100535778B1/ko active IP Right Grant
-
2002
- 2002-06-25 ZA ZA200205089A patent/ZA200205089B/xx unknown
-
2007
- 2007-02-14 JP JP2007033961A patent/JP4777918B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
PT1264303E (pt) | 2007-01-31 |
WO2001067437A1 (en) | 2001-09-13 |
AU2001242539A1 (en) | 2001-09-17 |
EP1264303B1 (en) | 2006-10-25 |
US20010027390A1 (en) | 2001-10-04 |
KR100535778B1 (ko) | 2005-12-12 |
KR20020081388A (ko) | 2002-10-26 |
ZA200205089B (en) | 2003-04-30 |
FI20000524A0 (fi) | 2000-03-07 |
JP2007156506A (ja) | 2007-06-21 |
DE60124079T2 (de) | 2007-03-08 |
CA2399253A1 (en) | 2001-09-13 |
CN1416561A (zh) | 2003-05-07 |
FI20000524A (fi) | 2001-09-08 |
FI119576B (fi) | 2008-12-31 |
JP2003526123A (ja) | 2003-09-02 |
US7483830B2 (en) | 2009-01-27 |
CN1193344C (zh) | 2005-03-16 |
DE60124079D1 (de) | 2006-12-07 |
ATE343835T1 (de) | 2006-11-15 |
BRPI0109043B1 (pt) | 2017-06-06 |
CA2399253C (en) | 2010-11-23 |
BR0109043A (pt) | 2003-06-03 |
JP4777918B2 (ja) | 2011-09-21 |
EP1264303A1 (en) | 2002-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2274873T3 (es) | Procesamiento de voz. | |
ES2266003T3 (es) | Suavizador de la ganancia en un descodificador de señal de habla y audio de banda ancha. | |
ES2205892T3 (es) | Aumento de la periodicidad al descodificar señales de banda ancha. | |
ES2690251T3 (es) | Ajuste del orden de predicción lineal de un codificador de audio | |
JP4064236B2 (ja) | 広帯域信号コーディング用の代数コードブック中のパルス位置と符号の索引付け方法 | |
ES2434251T3 (es) | Método y aparato para generar una capa de mejora dentro de un sistema de codificación de audio de múltiples canales | |
ES2265442T3 (es) | Aparato para la expansion del ancho de banda de una señal vocal. | |
ES2644730T3 (es) | Postfiltro de código de audio | |
ES2309315T3 (es) | Metodo y dispositivo para la potenciacion del tono del habla descodificado. | |
ES2711524T3 (es) | Generación de señal de excitación de banda alta | |
ES2750304T3 (es) | Filtración eficiente con un banco de filtros modulado complejo | |
ES2269518T3 (es) | Metodo y sistema para generar ruido de confort en comunicaciones de voz. | |
KR100361236B1 (ko) | 차분코딩원리를구현하는전송시스템 | |
ES2247466T3 (es) | Mejora de codificacion de la fuente utilizando replicacion de la banda espectral. | |
ES2880883T3 (es) | Codificador, decodificador y métodos para la adaptación dinámica compatible inversamente de resolución de tiempo/frecuencia en la codificación de objetos de audio espacial | |
ES2978715T3 (es) | Generación de señales de banda alta | |
ES2287150T3 (es) | Metodo y sistema para estimacion artificial de una señal de banda alta en un codificador-decodificador de voz. | |
ES2690096T3 (es) | Codificación de señal de banda alta usando intervalos de frecuencias no coincidentes | |
ES2432625T3 (es) | Cálculo de máscara de escalamiento selectiva basado en detección de picos | |
TWI559298B (zh) | 用於音訊信號之諧波頻寬延展之方法、裝置及電腦可讀儲存器件 | |
ES2627581T3 (es) | Sistema y método para la excitación de libro de códigos mixto para la codificación de la voz | |
PL208846B1 (pl) | Sposób przetwarzania sygnału akustycznego w urządzeniu elektronicznym i sposób generowania odtworzonego sygnału akustycznego w urządzeniu elektronicznym | |
ES2660605T3 (es) | Estimación de factores de mezcla para generar una señal de excitación de banda alta | |
ES2807258T3 (es) | Escalado para circuitería de forma de ganancia | |
ES2755364T3 (es) | Codificación de señal de banda alta que utiliza múltiples subbandas |