ES2587853T3 - Dispositivo de decodificación de habla, método de decodificación de habla y programa de decodificación de habla - Google Patents

Dispositivo de decodificación de habla, método de decodificación de habla y programa de decodificación de habla Download PDF

Info

Publication number
ES2587853T3
ES2587853T3 ES12171612.0T ES12171612T ES2587853T3 ES 2587853 T3 ES2587853 T3 ES 2587853T3 ES 12171612 T ES12171612 T ES 12171612T ES 2587853 T3 ES2587853 T3 ES 2587853T3
Authority
ES
Spain
Prior art keywords
high frequency
unit
temporary
information
wrap
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES12171612.0T
Other languages
English (en)
Inventor
Kosuke Tsujino
Kei Kikuiri
Nobuhiko Naka
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Application granted granted Critical
Publication of ES2587853T3 publication Critical patent/ES2587853T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Abstract

Un dispositivo de decodificación de habla para decodificar una señal de habla codificada, en que el dispositivo de decodificación de habla comprende: medio de separación de corriente de bits para separar una corriente de bits que incluye la señal de habla codificada en una corriente de bits codificados e información suplementaria de envoltorio temporal, en que la corriente de bits es recibida desde fuera del dispositivo de decodificación de habla: medio de decodificación central para decodificar la corriente de bits codificados separada por el medio de separación de corriente de bits para obtener un componente de baja frecuencia; medio de transformación de frecuencia para transformar el componente de baja frecuencia obtenido por el medio central de decodificación en un dominio de frecuencia; medio de generación de alta frecuencia para generar un componente de alta frecuencia copiando el componente de baja frecuencia transformado en el dominio de frecuencia por el medio de transformación de frecuencia de una banda de baja frecuencia a una banda de alta frecuencia; medio de ajuste de alta frecuencia para ajustar el componente de alta frecuencia generado por el medio de generación de alta frecuencia para generar un componente de alta frecuencia ajustado; medio de análisis de envoltorio temporal de baja frecuencia para analizar el componente de baja frecuencia transformado en el dominio de frecuencia por el medio de transformación de frecuencia para obtener información del envoltorio temporal; medio de conversión de información suplementaria para convertir la información suplementaria de envoltorio temporal en un parámetro para ajustar la información del envoltorio temporal; medio de ajuste de envoltorio temporal para ajustar la información de envoltorio temporal obtenida por el medio de análisis de envoltorio temporal de baja frecuencia, utilizando el parámetro para generar información del envoltorio temporal ajustada, y controlar un incremento de la información de envoltorio temporal ajustada, de manera que la potencia del componente de alta frecuencia en el dominio de frecuencia en un segmento de tiempo de envoltorio de SBR sea equivalente antes y después de dar forma al envoltorio temporal, para generar más información de envoltorio temporal ajustada; y medio de formación del envoltorio temporal para formar un envoltorio temporal del componente de alta frecuencia ajustado, multiplicando el componente de alta frecuencia ajustado por medio de más información de envoltorio temporal ajustada.

Description

5
10
15
20
25
30
35
40
45
50
55
Descripcion
Dispositivo de decodificacion de habla, metodo de decodificacion de habla y programa de decodificacion de habla
Ambito Tecnico
La presente invencion se refiere a un dispositivo de decodificacion de habla, a un programa de decodificacion de habla y a un metodo de decodificacion de habla
Antecedentes del Estado de la Tecnica
Las tecnicas de codificacion de habla y audio para comprimir la cantidad de senales de datos unas cuantas decenas de veces extrayendo informacion no necesaria para la percepcion humana utilizando psicoacustica son extremadamente importantes para transmitir y almacenar senales. Los ejemplos de tecnicas perceptuales de codificacion de audio ampliamente utilizadas incluyen "MPEG4 aAc" regularizado por "ISO/IEC MPEG".
Una tecnica de extension de ancho de banda para generar componentes de alta frecuencia utilizando componentes de habla de baja frecuencia ha sido utilizada ampliamente en los ultimos anos como un metodo para mejorar el rendimiento de la codificacion de habla y obtener una alta calidad de habla con un coeficiente de bits bajo. Entre los ejemplos tfpicos de la tecnica de extension de ancho de banda se encuentra la tecnica de SBR (Replicacion de Banda Espectral) que se utiliza en "MPEG4 AAC". En SBR, se genera un componente de alta frecuencia convirtiendo una senal en una region espectral utilizando un banco de filtros QMF (Filtro de Reflejo de Cuadratura) y copiando coeficientes espectrales de una banda de baja frecuencia a una banda de alta frecuencia con respecto a la senal transformada, y el componente de alta frecuencia se ajusta ajustando el envoltorio y la tonalidad espectrales de los coeficientes copiados. Dado que un metodo de codificacion de habla que utiliza la tecnica de extension de ancho de banda puede reproducir los componentes de alta frecuencia de una senal utilizando unicamente una pequena parte de informacion suplementaria, resulta efectivo a la hora de reducir el coeficiente de bits de la codificacion de habla, tal como se describe en S. Meltzer et al., “MPEG-4 HE-AAC v2 coding audio for today's digital media world”, EBU Technical Review, Enero 2006
En la tecnica de extension de ancho de banda en el campo de frecuencias representado por SBR, el envoltorio y la tonalidad espectrales de los coeficientes espectrales representados en el campo de la frecuencia se ajustan ajustando un incremento en los coeficientes espectrales, realizando un filtrado inverso de prediccion lineal en una direccion temporal, y superponiendo el ruido en el coeficiente espectral. Como resultado de este proceso de ajuste, cuando se codifica una senal con una gran variacion en el envoltorio temporal, como por ejemplo una senal de habla, un aplauso o unas castanuelas, puede percibirse un sonido de reverberacion llamado pre-eco o post eco en la senal decodificada. Este problema es debido a que el envoltorio temporal del componente de alta frecuencia se transforma durante el proceso de ajuste, y en muchos casos, el envoltorio temporal es mas liso despues del proceso de ajuste que antes del proceso de ajuste. El envoltorio temporal del componente de alta frecuencia despues del proceso de ajuste no coincide con el envoltorio temporal del componente de alta frecuencia de una senal original antes de ser codificado, provocando de esta manera el pre-eco y el post-eco.
Un problema similar al del pre-eco y el post-eco se produce tambien en la codificacion de audio multicanal que utiliza un proceso parametrico representado por "MPEG Surround" y Stereo Parametrico. Un decodificador utilizado en codificacion de audio multicanal incluye medios para realizar la descorrelacion en una senal decodificada utilizando un filtro de reverberacion. Sin embargo, el envoltorio temporal de la senal se transforma durante la descorrelacion, provocando de esta manera una degradacion de una senal de reproduccion similar a la del pre-eco y el post-eco, Las soluciones para este problema incluyen una tecnica tEs (“Temporal Envelope Shaping” formacion del envoltorio Temporal) (Literatura de Patente 1). En la tecnica TES, se realiza un analisis de prediccion lineal en una direccion de frecuencia en una senal representada en un dominio QMF sobre el cual la descorrelacion todavfa no ha tenido lugar con el fin de obtener coeficientes de prediccion lineal, y, utilizando los coeficientes de prediccion lineal, se realiza el filtrado de smtesis de prediccion lineal en la direccion de la frecuencia en la senal en la cual todavfa no se ha realizado la descorrelacion y, de acuerdo con el envoltorio temporal extrafdo, ajustar el envoltorio temporal de la senal en la cual se ha realizado la descorrelacion. Dado que la senal en la cual todavfa no se ha realizado la descorrelacion tiene un envoltorio temporal menos distorsionado, el envoltorio temporal de la senal en la cual se ha realizado la descorrelacion se ajusta a una forma menos distorsionada, obteniendo de esta forma una senal de reproduccion en la cual se mejora el pre-eco y el post-eco.
5
10
15
20
25
30
35
40
45
Lista de citas Literatura de patentes
Literatura de Patentes: 1. Publicacion de Solicitud de Patente de Estados Unidos no. 2006/0239473 Resumen de la Invencion Problema Tecnico
La tecnica TES descrita mas arriba es una tecnica que utiliza el hecho de que una senal en la cual todavfa no se ha realizado la descorrelacion tiene un envoltorio temporal menos distorsionado. Sin embargo, en un decodificador SBR, el componente de alta frecuencia de una senal se copia a partir del componente de baja frecuencia de la senal. Por consiguiente, no es posible obtener un envoltorio temporal menos distorsionado con respecto al componente de alta frecuencia. Una de las soluciones a este problema es un metodo que analiza el componente de alta frecuencia de una senal de entrada en un codificador SBR, cuantificando los coeficientes de prediccion lineal obtenidos como resultado del analisis, y multiplicandolos en una corriente de bits que va a ser transmitida. Este metodo permite que el decodificador SBR obtenga unos coeficientes de prediccion lineal que incluyen informacion con un envoltorio temporal menos distorsionado del componente de alta frecuencia. Sin embargo, en este caso, se necesita una gran cantidad de informacion para transmitir los coeficientes de prediccion lineal cuantificados, y de esta manera se incrementa de forma significativa el coeficiente de bits de toda la corriente de bits codificados. Asf, la presente invencion tiene la intencion de reducir la aparicion de pre-eco y de post-eco, a la vez que mejorar la calidad subjetiva de la senal decodificada, sin aumentar de forma significativa el coeficiente de bits en la tecnica de extension de ancho de banda en el dominio de frecuencia representado por SBR.
Solucion al Problema
La presente invencion proporciona un dispositivo de decodificacion de habla de acuerdo con la reivindicacion 1, un dispositivo de decodificacion de habla de acuerdo con la reivindicacion 2, un metodo de decodificacion de habla de acuerdo con la reivindicacion 3, un metodo de decodificacion de habla de acuerdo con la reivindicacion 4, un programa de decodificacion de habla de acuerdo con la reivindicacion 5 y un programa de decodificacion de habla de acuerdo con la reivindicacion 6.
Efectos Ventajosos de la Invencion
De acuerdo con la presente invencion, la aparicion de pre-eco y post-eco puede reducirse, y la calidad subjetiva de una senal decodificada puede mejorarse sin aumentar de forma significativa el coeficiente de bits en la tecnica de extension de ancho de banda en el dominio de frecuencia representado por SBR.
Breve Descripcion de los Dibujos
La FIG. 1 es un diagrama que ilustra un dispositivo de codificacion de habla de acuerdo con un primer ejemplo;
La FIG. 2 es un diagrama de flujo para describir un funcionamiento del dispositivo de codificacion de habla de acuerdo con el primer ejemplo;
La FIG. 3 es un diagrama que ilustra un dispositivo de decodificacion de habla de acuerdo con el primer ejemplo;
La FIG. 4 es un diagrama de flujo para describir un funcionamiento del dispositivo de decodificacion de habla de acuerdo con el primer ejemplo;
La FIG. 5 es un diagrama que ilustra un dispositivo de codificacion de habla de acuerdo con una primera modificacion del primer ejemplo;
La FIG. 6 es un diagrama que ilustra un dispositivo de codificacion de habla de acuerdo con un segundo ejemplo;
La FIG. 7 es un diagrama de flujo para describir un funcionamiento del dispositivo de codificacion de habla de acuerdo con el segundo ejemplo;
La FIG. 8 es un diagrama que ilustra un dispositivo de decodificacion de habla de acuerdo con el segundo ejemplo;
5
10
15
20
25
30
35
40
La FIG. 9 es un diagrama de flujo para describir un funcionamiento del dispositivo de decodificacion de habla de acuerdo con el segundo ejemplo;
La FIG. 10 es un diagrama que ilustra un dispositivo de codificacion de habla de acuerdo con un tercer ejemplo;
La FIG. 11 es un diagrama de flujo para describir un funcionamiento del dispositivo de codificacion de habla de acuerdo con el tercer ejemplo;
La FIG. 12 es un diagrama que ilustra un dispositivo de decodificacion de habla de acuerdo con el tercer ejemplo;
La FIG. 13 es un diagrama de flujo para describir un funcionamiento del dispositivo de decodificacion de habla de acuerdo con el tercer ejemplo;
La FIG. 14 es un diagrama que ilustra un dispositivo de decodificacion de habla de acuerdo con un cuarto ejemplo;
La FIG. 15 es un diagrama que ilustra un dispositivo de decodificacion de habla de acuerdo con una modificacion del cuarto ejemplo;
La FIG. 16 es un diagrama que ilustra un dispositivo de decodificacion de habla de acuerdo con otra modificacion del cuarto ejemplo;
La FIG. 17 es un diagrama de flujo que describe un funcionamiento del dispositivo de codificacion de habla de acuerdo con la otra modificacion del cuarto ejemplo;
La FIG. 18 es un diagrama que ilustra un dispositivo de decodificacion de habla de acuerdo con otra modificacion del primer ejemplo;
La FIG. 19 es un diagrama de flujo para describir un funcionamiento del dispositivo de decodificacion de habla de acuerdo con la otra modificacion del primer ejemplo;
La FIG. 20 es un diagrama que ilustra un dispositivo de decodificacion de habla de acuerdo con otra modificacion del primer ejemplo;
La FIG. 21 es un diagrama de flujo para describir un funcionamiento del dispositivo de decodificacion de habla de acuerdo con la otra modificacion del primer ejemplo;
La FIG. 22 es un diagrama que ilustra un dispositivo de decodificacion de habla de acuerdo con una modificacion del segundo ejemplo;
La FIG. 23 es un diagrama de flujo para describir un funcionamiento del dispositivo de decodificacion de habla de acuerdo con la modificacion del segundo ejemplo;
La FIG. 24 es un diagrama que ilustra un dispositivo de decodificacion de habla de acuerdo con otra modificacion del segundo ejemplo;
La FIG. 25 es un diagrama de flujo para describir el funcionamiento del dispositivo de decodificacion de habla de acuerdo con la otra modificacion del segundo ejemplo;
La FIG. 26 es un diagrama que ilustra un dispositivo de decodificacion de habla de acuerdo con otra modificacion del cuarto ejemplo;
La FIG. 27 es un diagrama de flujo para describir un funcionamiento del dispositivo de decodificacion de habla de acuerdo con la otra modificacion del cuarto ejemplo;
La FIG. 28 es un diagrama que ilustra un dispositivo de decodificacion de habla de acuerdo con otra modificacion del cuarto ejemplo;
La FIG. 29 es un diagrama de flujo para describir un funcionamiento del dispositivo de decodificacion de habla de acuerdo con la otra modificacion del cuarto ejemplo;
La FIG. 30 es un diagrama que ilustra un dispositivo de decodificacion de habla de acuerdo con otra modificacion del cuarto ejemplo;
5
10
15
20
25
30
35
40
45
La FIG. 31 es un diagrama que ilustra un dispositivo de decodificacion de habla de acuerdo con otra modificacion del cuarto ejemplo;
La FIG. 32 es un diagrama de flujo para describir un funcionamiento del dispositivo de decodificacion de acuerdo con la otra modificacion del cuarto ejemplo;
La FIG. 33 es un diagrama que ilustra un dispositivo de decodificacion de habla de acuerdo con otra modificacion del cuarto ejemplo;
La FIG. 34 es un diagrama de flujo para describir un funcionamiento del dispositivo de decodificacion de habla de acuerdo con la otra modificacion del cuarto ejemplo;
La FIG. 35 es un diagrama que ilustra un dispositivo de decodificacion de habla de acuerdo con otra modificacion del cuarto ejemplo;
La FIG. 36 es un diagrama de flujo para describir un funcionamiento del dispositivo de decodificacion de habla de acuerdo con la otra modificacion del cuarto ejemplo;
La FIG. 37 es un diagrama que ilustra un dispositivo de decodificacion de habla de acuerdo con otra modificacion del cuarto ejemplo;
La FIG. 38 es un diagrama que ilustra un dispositivo de decodificacion de habla de acuerdo con otra modificacion del cuarto ejemplo;
La FIG. 39 es un diagrama de flujo para describir un funcionamiento del dispositivo de decodificacion de habla de acuerdo con la otra modificacion del cuarto ejemplo;
La FIG. 40 es un diagrama que ilustra un dispositivo de decodificacion de habla de acuerdo con la otra modificacion de la realizacion;
La FIG. 41 es un diagrama de flujo para describir un funcionamiento del dispositivo de decodificacion de habla acuerdo con otra modificacion del cuarto ejemplo;
La FIG. 42 es un diagrama que ilustra un dispositivo de decodificacion de habla de acuerdo con otra modificacion del cuarto ejemplo;
La FIG. 43 es un diagrama de flujo para describir un funcionamiento del dispositivo de codificacion de acuerdo con la otra modificacion del cuarto ejemplo;
La FIG. 44 es un diagrama que ilustra un dispositivo de codificacion de habla de acuerdo con otra modificacion del primer ejemplo;
La FIG. 45 es un diagrama que ilustra un dispositivo de codificacion de habla de acuerdo con todavfa otra modificacion del primer ejemplo;
La FIG. 46 es un diagrama que ilustra un dispositivo de codificacion de habla de acuerdo con una modificacion del segundo ejemplo;
La FIG. 47 es un diagrama que ilustra un dispositivo de codificacion de habla de acuerdo con otra modificacion del segundo ejemplo;
La FIG. 48 es un diagrama que ilustra un dispositivo de codificacion de habla de acuerdo con el cuarto ejemplo;
La FIG. 49 es un diagrama que ilustra un dispositivo de codificacion de habla de acuerdo con otra modificacion del cuarto ejemplo; y
La FIG. 50 es un diagrama que ilustra un dispositivo de codificacion de habla de acuerdo con otra modificacion del cuarto ejemplo.
Descripcion de las Realizaciones
A continuacion se describen en detalle realizaciones preferentes de la presente invencion y diferentes ejemplos que resultan utiles para comprender la presente invencion en referencia a los dibujos adjuntos. En la descripcion de los dibujos, los elementos que son el mismo elemento estan etiquetados con los mismos sfmbolos de referencia, y la descripcion duplicada de los mismos ha sido omitida, en su caso.
5
10
15
20
25
30
35
40
45
50
55
60
(Primer ejemplo)
La FIG. 1 es un diagrama que ilustra un dispositivo de codificacion de habla 11 de acuerdo con un primer ejemplo. El dispositivo de codificacion de habla 11 incluye ffsicamente una CPU, una ROM, una RAM, un dispositivo de comunicacion y similares, que no se ilustran, y la CPU controla de forma integral el dispositivo de codificacion de habla 11 cargando y ejecutando un programa de ordenador predeterminado (como por ejemplo un programa de ordenador para realizar procesos, ilustrado en el diagrama de flujo de la FIG. 2) almacenado en una memoria integrada del dispositivo de codificacion de habla 11 como por ejemplo la ROM en la RAM. El dispositivo de comunicacion del dispositivo de codificacion de habla 11 recibe una senal de habla que va a ser codificada desde fuera del dispositivo de codificacion de habla 11, y produce una corriente de bits multiplicados codificados hacia fuera del dispositivo de codificacion de habla 11.
El dispositivo de codificacion de habla 11 incluye funcionalmente una unidad de transformacion de frecuencia 1a (medio de transformacion de frecuencia), una unidad de transformacion de frecuencia inversa 1b, una unidad central de codificacion de codec 1c (medio central de codificacion), una unidad de codificacion SBR 1d, una unidad de analisis de prediccion lineal 1e (medio de calculo de informacion suplementaria de envoltorio temporal), una unidad de calculo de parametros de intensidad de filtro 1f (medio de calculo de informacion suplementaria de envoltorio temporal), y una unidad de multiplicacion de corriente de bits 1g (medio de multiplicacion de corriente de bits). La unidad de transformacion de frecuencia 1a hasta la unidad de multiplicacion de corriente de bits 1g del dispositivo de codificacion de habla 11 ilustrada en la FIG. 1 son funciones realizadas cuando la CPU del dispositivo de codificacion de habla 11 ejecuta el programa de ordenador almacenado en la memoria integrada del dispositivo de codificacion de habla 11. La CPU del dispositivo de codificacion de habla 11 ejecuta procesos de forma secuencial (procesos desde la Fase Sa1 a la Fase Sa7) ilustrados en el diagrama de flujo de la FIG. 2, ejecutando el programa de ordenador (o utilizando la unidad de transformacion de frecuencia 1a hasta la unidad de multiplicacion de corriente de bits 1g ilustrada en la FIG. 1). Diferentes tipos de datos necesarios para ejecutar el programa de ordenador y diferentes tipos de datos generados por la ejecucion del programa de ordenador se almacenan en la memoria integrada, como por ejemplo la ROM y la RAM del dispositivo de codificacion de habla 11.
La unidad de transformacion de frecuencia 1a analiza una senal de entrada recibida desde fuera del dispositivo de codificacion de habla 11 a traves del dispositivo de comunicacion del dispositivo de codificacion de habla 11 utilizando un banco de filtros QMF multi-division para obtener una senal q (k, r) en un dominio QMF (proceso en la Fase Sa1). Debe observarse que k (0<k<63) es un mdice en una direccion de frecuencia, y r es un mdice que indica una ranura de tiempo. La unidad de transformacion inversa de frecuencia 1b sintetiza la mitad de los coeficientes en la parte de baja frecuencia en la senal del dominio de QMF obtenida por la unidad de transformacion de frecuencia 1a utilizando el banco de filtros QMF para obtener una senal de dominio de tiempo de submuestreo que incluye solamente componentes de baja frecuencia de la senal de entrada (proceso en la Fase Sa2). La unidad central de codificacion de codecs 1c codifica la senal de dominio de tiempo de submuestreo para obtener una corriente de bits codificados (proceso en la Fase Sa3). La codificacion realizada por la unidad central de codificacion 1c puede basarse en un metodo de codificacion de habla representado por un metodo CELP, o puede estar basada en un metodo de codificacion de audio como un codigo de transformacion representado por un metodo AAC o TCX (Transform Coded Excitation) Transformar Excitacion Codificada.
La unidad de codificacion SBR 1d recibe la senal en el dominio QMF desde la unidad de transformacion de frecuencia 1a, y realiza la codificacion SBR basada en el analisis de la potencia, el cambio de senal, la tonalidad y similares de los componentes de alta frecuencia para obtener informacion suplementaria de SBR (proceso en Fase Sa4). El metodo de analisis de QMF en la unidad de transformacion de frecuencia 1a y el metodo en la unidad de codificacion de SBR 1d se describen en detalle en, por ejemplo, la referencia de Literatura "3GPP TS 26.404: Enhanced aacPlus encoder SBR part".
La unidad de analisis de prediccion lineal 1e recibe la senal en el dominio QMF desde la unidad de transformacion de frecuencia 1a, y realiza un analisis de prediccion lineal en la direccion de frecuencia en los componentes de alta frecuencia de la senal para obtener coeficientes de prediccion lineal de alta frecuencia aH (n, r) (1<n<N) (proceso en Fase Sa5). Debe hacerse constar que N es un orden de prediccion lineal. El mdice r es un mdice en una direccion temporal para una sub-muestra de las senales en el dominio QMF. Puede utilizarse un metodo de covariacion o un metodo de autocorrelacion para el analisis de prediccion lineal de la senal. El analisis de prediccion lineal para obtener aH (n, r) se realiza en los componentes de alta frecuencia que cumplen kx<k<63 en q (k, r). Debe hacerse constar que kx es un mdice de frecuencia que corresponde a una frecuencia de lfmite superior de la banda de frecuencia codificada por la unidad central de codificacion 1c. La unidad de analisis de prediccion lineal 1e puede tambien realizar un analisis de prediccion lineal en componentes de baja frecuencia distintos de los analizados cuando se obtiene aH (n, r) para obtener coeficientes de prediccion lineal de baja frecuencia aL (n, r) distintos de aH (n, r) (los coeficientes de prediccion lineal de acuerdo con dichos componentes de baja frecuencia corresponden a informacion del envoltorio temporal, y es la misma en el primer ejemplo mas abajo). El
analisis de prediccion lineal para obtener aL (n, r) se realiza en componentes de baja frecuencia que cumplen 0<k< kx. El analisis de prediccion lineal puede realizarse tambien en una parte de la banda de frecuencia incluida en una seccion de 0<k< kx.
La unidad de calculo de parametros de intensidad de filtro 1f, por ejemplo, utiliza los coeficientes de 5 prediccion lineal obtenidos por la unidad de analisis de prediccion lineal 1e para calcular un parametro de intensidad de filtro (el parametro de intensidad de filtro corresponde a la informacion suplementaria del envoltorio temporal y es la misma en el primer ejemplo que en las siguientes) (proceso en Fase Sa6). Un incremento de prediccion Gh(0 es calculado en primer lugar a partir de aH (n, r). El metodo para calcular el incremento de prediccion se describe, por ejemplo, en "Speech Coding, Takehiro Moriya, The Institute of 10 Electronics, Information and Communication Engineers". Si se ha calculado aL(n, r), se calcula de forma similar un incremento de prediccion GL(r). El parametro de intensidad de filtro K(r) es un parametro que aumenta a medida que aumenta Gh(0, y por ejemplo, puede obtenerse de acuerdo con la expresion (1) siguiente. Aqm, max (a, b) indica el valor maximo de a y b, y min (a, b) indica el valor mmimo de a y b.
imagen1
15
Si se ha calculado GL(r), puede obtenerse K(r) como un parametro que aumenta a medida que aumenta GH(r), y disminuye a medida que aumenta GL(r). En este caso, por ejemplo, puede obtenerse K de acuerdo con la expresion (2) siguiente.
20 K(r)=max(0, min(1, GH(r)/GL(r)-1)) —(2)
K(r) es un parametro que indica la intensidad para ajustar el envoltorio temporal de los componentes de alta frecuencia durante la decodificacion de SBR. Un valor del incremento de prediccion con respecto a los coeficientes de prediccion lineal en la direccion de la frecuencia aumenta a medida que el envoltorio 25 temporal de una senal en el intervalo de analisis se hace mas agudo. K(r) es un parametro para dar instrucciones a un decodificador de reforzar el proceso para agudizar la variacion del envoltorio temporal de los componentes de alta frecuencia generados por SBR, con el incremento de su valor. K(r) puede ser tambien un parametro para dar instrucciones a un decodificador (como por ejemplo un dispositivo de decodificacion de habla 21) para debilitar el proceso para agudizar la variacion del envoltorio temporal de 30 los componentes de alta frecuencia generados por SBR, con el descenso de su valor, o puede incluir un valor para no ejecutar el proceso para agudizar la variacion del envoltorio temporal. En lugar de transmitir K(r) a cada ranura de tiempo, se puede transmitir K(r) que representa una pluralidad de ranuras de tiempo. Para determinar el segmento de las ranuras de tiempo en las cuales se comparte el mismo valor de K(r), es preferible utilizar informacion en los lfmites del envoltorio SBR (limite de tiempo de envoltorio SBR) 35 incluidos en la informacion suplementaria de SBR.
K(r) se transmite a la unidad de multiplicacion de la corriente de bits 1g despues de ser cuantificado. Es preferible calcular K(r) que representa la pluralidad de ranuras de tiempo, por ejemplo, calculando un K(r) medio de una pluralidad de ranuras de tiempo r antes de realizar la cuantificacion. Para transmitir K(r) que representa la pluralidad de ranuras de tiempo, K(r) tambien puede obtenerse a partir del resultado del 40 analisis de todo el segmento formado de la pluralidad de ranuras de tiempo, en lugar de calcular independientemente K(r) a partir del resultado de analizar cada ranura de tiempo como la expresion (2). En este caso, K(r) puede calcularse, por ejemplo, de acuerdo con la siguiente expresion (3). En que “mean” () indica un valor medio en el segmento de las ranuras de tiempo representadas por K(r).
K(r) = max( 0,^11(1,1116311(0# (r)/mean(Gi(r))-l)))
—(3)
45 K(r) puede ser transmitido de forma exclusiva con informacion de modo de filtro inverso incluida en la informacion suplementaria de SBR descrita en "ISO/IEC 14496-3 subpart 4 General Audio Coding". En otras palabras, K(r) no se transmite para las ranuras de tiempo para las cuales se transmite la informacion de modo de filtro inverso en la informacion suplementaria de SBR, y la informacion de modo de filtro inverso (modo bs_invf_ en "ISO/IEC 14496-3 subparte 4 Codificacion General de Audio") en la informacion 50 suplementaria de SBR no necesita ser transmitida para la ranura de tiempo para la cual se transmite K(r). Tambien puede anadirse informacion indicando que se transmite K(r) o la informacion de modo de filtro inverso incluida en la informacion suplementaria de SBR. K(r) y la informacion de modo de filtro inverso incluida en la informacion suplementaria de SBR pueden combinarse para ser gestionadas como informacion de vector, y realizar una codificacion de entropfa en el vector. En este caso, se puede restringir
5
10
15
20
25
30
35
40
45
50
55
60
la combinacion de K(r) y el valor de la informacion de modo de filtro inverso incluida en la informacion suplementaria de SBR.
La unidad de multiplicacion de corriente de bits 1g multiplica la corriente de bits codificados calculada por la unidad central de codificacion de codec 1c, la informacion suplementaria de SBR calculada por la unidad de codificacion de SBR 1d, y K(r) calculado por la unidad de calculo de parametros de intensidad de filtro 1f, y produce una corriente de bits multiplicados (corriente de bits multiplicados codificados) a traves del dispositivo de comunicacion del dispositivo de codificacion de habla 11 (proceso en Fase Sa7).
La FIG. 3 es un diagrama que ilustra un dispositivo de decodificacion de habla 21 de acuerdo con el primer ejemplo. El dispositivo de decodificacion de habla 21 incluye ffsicamente una CPU, una ROM, una RAM, un dispositivo de comunicacion y similares, que no se ilustran, y la CPU controla de forma integral el dispositivo de decodificacion de habla 21 cargando y ejecutando un programa de ordenador predeterminado (como un programa de ordenador para realizar procesos ilustrado en el diagrama de flujo de la FIG. 4) almacenado en una memoria integrada del dispositivo de decodificacion de habla 21, como por ejemplo la ROM en la RAM. El dispositivo de comunicacion del dispositivo de decodificacion de habla 21 recibe la salida de corriente de bits multiplicados codificados desde el dispositivo de codificacion de habla 11, un dispositivo de codificacion de habla 11a de una modificacion 1, que sera descrito mas adelante, o un dispositivo de codificacion de habla de una modificacion 2, que sera descrito mas adelante, y envfa una senal de habla decodificada hacia fuera del dispositivo de decodificacion de habla 21. El dispositivo de decodificacion de habla 21, tal como se ilustra en la FIG. 3, incluye de forma funcional una unidad de separacion de corriente de bits 2a (medio de separacion de corriente de bits), una unidad central de decodificacion de codecs 2b (medio central de decodificacion), una unidad de transformacion de frecuencia 2c (medio de transformacion de frecuencia), una unidad de analisis de prediccion lineal de baja frecuencia 2d (medio de analisis de envoltorio temporal de baja frecuencia), una unidad de detector de cambio de senal 2e, una unidad de ajuste de intensidad de filtro 2f (medio de ajuste de envoltorio temporal), una unidad de generacion de alta frecuencia 2g, (medio de generacion de alta frecuencia), una unidad de analisis de prediccion lineal de alta frecuencia 2h, una unidad de filtro inverso de prediccion lineal 2i, una unidad de ajuste de alta frecuencia 2j (medio de ajuste de alta frecuencia), una unidad de filtro de prediccion lineal 2k (medio de formacion del envoltorio temporal), una unidad de adicion de coeficiente 2m, y una unidad de transformacion inversa de frecuencia 2n. La unidad de separacion de corriente de bits 2a hasta una unidad de calculo de parametros de forma de envoltorio 1n del dispositivo de decodificacion de habla 21 ilustrado en la FIG. 3 son funciones que se realizan cuando la CPU del dispositivo de decodificacion de habla 21 ejecuta el programa de ordenador almacenado en la memoria integrada del dispositivo de decodificacion de habla 21. La CPU del dispositivo de decodificacion de habla 21 ejecuta secuencialmente procesos (procesos desde Fase Sb1 a Fase Sb11) ilustrados en el diagrama de flujo de la FIG. 4, ejecutando el programa de ordenador (o utilizando la unidad de separacion de corriente de bits 2a hasta la unidad a de transformacion de frecuencia inversa 2n ilustrada en la FIG. 3). Diferentes tipos de datos necesarios para ejecutar el programa de ordenador y diferentes tipos de datos generados por el programa de ordenador se almacenan en la memoria integrada, como por ejemplo la ROM y la RAM del dispositivo de decodificacion de habla 21.
La unidad de separacion de corriente de bits 2a separa la corriente de bits multiplicados proporcionada a traves del dispositivo de comunicacion del dispositivo de decodificacion de habla 21 en un parametro de intensidad de filtro, informacion suplementaria de SBR y la corriente de bits codificados. La unidad central de decodificacion de codecs 2b decodifica la corriente de bits codificados recibida de la unidad de separacion de corriente de bits 2a para obtener una senal decodificada que incluye solamente los componentes de baja frecuencia (proceso en la Fase Sb1). En este momento, el metodo de decodificacion puede basarse en el metodo de codificacion de habla representado por el metodo CELP, o puede basarse en una codificacion de audio como el metodo AAC o TCX (Transform Coded Excitation) Transformar Excitacion Codificada.
La unidad de transformacion de frecuencia 2c analiza la senal decodificada recibida desde la unidad central de decodificacion de codecs 2b utilizando el banco de filtros QMF multi-division para obtener una senal qdec (k, r) en el dominio QMF (proceso en Fase Sb2). Debe hacerse notar que k (0<k<63) es un mdice en la direccion de frecuencia, y r es un mdice que indica un mdice para la submuestra de la senal en el dominio QMF en la direccion temporal.
La unidad de analisis de prediccion lineal de baja frecuencia 2d realiza un analisis de prediccion lineal en la direccion de frecuencia en qdec (k, r) de cada ranura de tiempo r, obtenida a partir de la unidad de transformacion de frecuencia 2c, para obtener coeficientes de prediccion lineal de baja frecuencia adec(n, r) (proceso en Fase Sb3). El analisis de prediccion lineal se realiza para un espectro de 0<k< kx correspondiente a un ancho de banda de una senal obtenida desde la unidad central de decodificacion de codecs 2b. El analisis de prediccion lineal puede ser realizado en una parte de la banda de frecuencia incluida en la seccion de 0<k< kx.
5
10
15
20
25
30
35
40
La unidad de deteccion de cambio de senal 2e detecta la variacion temporal de la senal en el dominio QMF recibida desde la unidad de transformacion de frecuencia 2c, y la emite como resultado de deteccion T(r). El cambio de senal puede ser detectado, por ejemplo, utilizando el metodo que se describe mas abajo.
1. La potencia a corto plazo p(r) de una senal en la ranura de tiempo r se obtiene de acuerdo con la siguiente expresion (4).
Jp(r) = £krfec(^^)|2 -(4)
k-Q
2. Un envoltorio penv(r) obtenido nivelando p(r) se obtiene de acuerdo con la siguiente expresion (5). Debe hacerse notar que a es una constante que cumple 0<a<1.
imagen2
3. T(r) se obtiene de acuerdo con la siguiente expresion (6) utilizando p(r) y penv(r), en que p es una constante.
T 0) = max(l, p(r)/(j3 ■ penv (r))) -(6)
Los metodos que se han descrito anteriormente son simples ejemplos para detectar el cambio de senal basado en el cambio de potencia, y el cambio de senal puede detectarse utilizando otros metodos mas sofisticados. Asimismo, puede omitirse la unidad de deteccion de cambio de senal 2e.
La unidad de ajuste de intensidad de filtro 2f ajusta la intensidad del filtro con respecto a adec (n, r) obtenida a partir de la unidad de analisis de prediccion lineal de baja frecuencia 2d para obtener coeficientes de prediccion lineal ajustados aadj (n, r), (proceso en Fase Sb4). La intensidad de filtro se ajusta, por ejemplo, de acuerdo con la expresion (7) siguiente, utilizando un parametro de intensidad de filtro K recibido a traves de la unidad de separacion de corriente de bits 2a.
imagen3
Si se obtiene un resultado T(r) desde la unidad de deteccion de cambio de senal 2e, la intensidad puede ajustarse segun la siguiente expresion (8).
aadj(r,,r) = adec(n,r) {K(r)-nr)f &*“*»> -(8)
La unidad de generacion de alta frecuencia 2g copia la senal en el dominio QMF obtenida de la unidad de transformacion de frecuencia 2c desde la banda de baja frecuencia a la banda de alta frecuencia para generar una senal qexp (k, r) en el dominio QMF de los componentes de alta frecuencia (proceso en Fase Sb5). Los componentes de alta frecuencia se generan de acuerdo con el metodo de generacion HF en SBR en "MPEG4 aAc" . ("ISO/IEC 14496-3 subparte 4 Codificacion General de Audio").
La unidad de analisis de prediccion lineal de alta frecuencia 2h realiza un analisis de prediccion lineal en la direccion de frecuencia en qexp (k, r) de cada una de las ranuras de tiempo r generadas por la unidad de generacion de alta frecuencia 2g para obtener coeficientes de prediccion lineal de alta frecuencia aexp (n, r) (proceso en Fase Sb6). El analisis de prediccion lineal se realiza para un espectro de kx<k<63 correspondiente a los componentes de alta frecuencia generados por la unidad de generacion de alta frecuencia 2g.
La unidad de filtro inverso de prediccion lineal 2i realiza un filtrado inverso de prediccion lineal en la direccion de frecuencia en una senal en el dominio QMF de la banda de alta frecuencia generado por la unidad de
generacion de alta frecuencia 2g utilizando aexp (n, r) como coeficientes (proceso en Fase Sb7). La funcion de transferencia del filtro inverso de prediccion lineal puede expresarse mediante la siguiente expresion (9).
imagen4
El filtrado inverso de prediccion lineal puede realizarse de un coeficiente a una baja frecuencia a un 5 coeficiente de alta frecuencia, o puede realizarse en sentido inverso. El filtrado inverso de prediccion lineal es un proceso para alisar temporalmente el envoltorio temporal de los componentes de alta frecuencia, antes que se realice la formacion del envoltorio temporal en la fase siguiente, y la unidad de filtro inverso de prediccion lineal 2i puede omitirse. Tambien resulta posible realizar un analisis de prediccion lineal y filtrado inverso a partir de resultados de la unidad de ajuste de alta frecuencia 2j, que se describe mas 10 adelante, por parte de la unidad de analisis de prediccion lineal de alta frecuencia 2h y la unidad de filtro inverso de prediccion lineal 2i, en lugar de realizar un analisis de prediccion lineal y filtrado inverso en los componentes e alta frecuencia de los resultados de la unidad de generacion de alta frecuencia 2g. Los coeficientes de prediccion lineal utilizados para el filtrado inverso de prediccion lineal pueden ser tambien adec (n, r) o aadj (n, r), en lugar de aexp (n, r). Los coeficientes de prediccion lineal utilizados para el filtrado 15 inverso de prediccion lineal pueden ser tambien coeficientes de prediccion lineal aexp,adj (n, r) obtenidos realizando un ajuste de intensidad de filtro en aexp (n, r). El ajuste de intensidad se realiza de acuerdo con la siguiente expresion (10), similar a la que se utiliza cuando se obtiene aadj (n, r).
imagen5
La unidad de ajuste de alta frecuencia 2j ajusta las caracteristicas y la tonalidad de frecuencia de los 20 componentes de alta frecuencia de un resultado de la unidad de filtro inverso de prediccion lineal 2i (proceso en Fase Sb8). El ajuste se realiza de acuerdo con la informacion suplementaria de SBR recibida de la unidad de separacion de corriente de bits 2a. El proceso por parte de la unidad de ajuste de alta frecuencia 2j se realiza de acuerdo con la fase de “ajuste HF” en SBR en "MPEG4 AAC", y se ajusta realizando un filtrado inverso de prediccion lineal en la direccion temporal, el ajuste de incremento y la adiccion de ruido 25 en la senal en el dominio QMF de la banda de alta frecuencia. Los detalles de los procesos en las fases descritas anteriormente se describen en "ISO/IEC 14496-3 subparte 4 Codificacion General de Audio". Tal como se ha descrito anteriormente, la unidad de transformacion de frecuencia 2c, la unidad de generacion de alta frecuencia 2g, y la unidad de ajuste de alta frecuencia 2j operan todas ellas de acuerdo con el decodificador en "MpEG4 AAC" definido en "ISO/IEC 14496-3".
30 La unidad de filtro de prediccion lineal 2k realiza un filtrado de smtesis de prediccion lineal en la direccion de frecuencia en un componente de alta frecuencia qadj (n, r) de una senal en el resultado de dominio QMF de la unidad de ajuste de alta frecuencia 2j, utilizando aadj (n, r) obtenido de la unidad de ajuste de intensidad de filtro 2f (proceso en Fase Sb9). La funcion de transferencia del filtrado de smtesis de prediccion lineal puede expresarse como la siguiente expresion (11).
35
imagen6
Al realizar el filtrado de smtesis de prediccion lineal, la unidad de filtro de prediccion lineal 2k da forma al envoltorio temporal de los componentes de alta frecuencia generados basados en SBR.
La unidad de adicion de coeficiente 2m anade una senal en el dominio QMF que incluye los componentes de baja frecuencia producidos en la unidad de transformacion de frecuencia 2c y una senal en el dominio 40 QMF que incluye los componentes de alta frecuencia enviados desde la unidad de filtro de prediccion lineal 2k, y produce una senal en el dominio QMF que incluye tanto los componentes de baja frecuencia como los componentes de alta frecuencia (proceso en Fase Sb10).
5
10
15
20
25
30
35
40
45
50
55
La unidad de transformacion inversa de frecuencia 2n procesa la senal en el dominio QMF obtenida de la unidad de adicion de coeficiente 2m utilizando un banco de filtros de smtesis QMF. En concordancia, se produce una senal de habla decodificada del dominio de tiempo que incluye tanto los componentes de baja frecuencia obtenidos por el decodificador central de codecs y los componentes de alta frecuencia generados por SBR y cuyo envoltorio temporal esta formado por el filtro de prediccion lineal, y la senal de habla obtenida se envfa a fuera del dispositivo de decodificacion de habla 21 a traves del dispositivo de comunicacion integrado (proceso en Fase Sb11). Si K(r) y la informacion de modo de filtro inverso de la informacion suplementaria de SBR descrita en "ISO/IEC 14496-3 subparte 4 Codificacion General de Audio" se transmiten exclusivamente, la unidad de transformacion inversa de frecuencia 2n puede generar informacion de modo de filtro inverso de la informacion suplementaria de SBR para una ranura de tiempo para la cual se transmite K(r), pero la informacion de modo de filtro inverso de la informacion suplementaria de SBR no se transmite, utilizando informacion de modo de filtro inverso de la informacion suplementaria de SBR con respecto a por lo menos una ranura de tiempo de las ranuras de tiempo antes y despues de la ranura de tiempo. Tambien es posible establecer la informacion de modo de filtro inverso de la informacion suplementaria de SBR de la ranura de tiempo en un modo predeterminado con antelacion. La unidad de transformacion inversa de frecuencia 2n puede generar K(r) para una ranura de tiempo a la cual se transmiten los datos de filtrado de la informacion suplementaria de SBR, pero no se transmite K(r), utilizando K(r) para por lo menos una ranura de tiempo de las ranuras de tiempo antes y despues de la ranura de tiempo. Tambien es posible establecer K(r) de la ranura de tiempo en un valor predeterminado con antelacion. La unidad de transformacion inversa de frecuencia 2n puede tambien determinar si la informacion transmitida es K(r) o la informacion del modo de filtro inverso de la informacion suplementaria de SBR, basada en la informacion que indica si se transmite K(r) o la informacion de modo de filtro inverso de la informacion suplementaria de SBR.
(Modificacion 1 del Primer Ejemplo)
La FIG. 5 es un diagrama que ilustra una modificacion (dispositivo de codificacion de habla 11a) del dispositivo de codificacion de habla de acuerdo con el primer ejemplo. El dispositivo de codificacion de habla 11a incluye ffsicamente una CPU, una ROM, una RAM, un dispositivo de comunicacion y similares, que no se ilustran, y la CPU controla de forma integral el dispositivo de codificacion de habla 11a cargando y ejecutando un programa de ordenador predeterminado almacenado en una memoria integrada del dispositivo de codificacion de habla 11a como la ROM en la RAM. El dispositivo de comunicacion del dispositivo de codificacion de habla 11a recibe una senal de habla que va a ser codificada desde fuera del dispositivo de codificacion de habla 11a, y produce una corriente de bits multiplicados codificados hacia fuera del dispositivo de codificacion de habla 11a.
El dispositivo de codificacion de habla 11a, tal como se ilustra en la FIG. 5, incluye funcionalmente una unidad de transformacion inversa de alta frecuencia 1h, una unidad de calculo de potencia a corto plazo 1i (medio de calculo de informacion suplementaria de envoltorio temporal), una unidad de calculo de parametro de intensidad de filtro 1f1 (medio de calculo de informacion suplementaria de envoltorio temporal), y una unidad de multiplicacion de corriente de bits 1g1 (medio de multiplicacion de corriente de bits), en lugar de la unidad de analisis de prediccion lineal 1e, la unidad de calculo de parametro de intensidad de filtro 1f, y la unidad de multiplicacion de corriente de bits 1g del dispositivo de codificacion de habla 11. La unidad de multiplicacion de corriente de bits 1g1 tiene la misma funcion que 1g. La unidad de transformacion de frecuencia 1a hasta la unidad de codificacion de SBR 1d, la unidad de transformacion inversa de alta frecuencia 1h, la unidad de calculo de potencia a corto plazo 1i, la unidad de calculo de parametro de intensidad de filtro 1f1, y la unidad de multiplicacion de corriente de bits 1g1 del dispositivo de codificacion de habla 11a ilustrado en la FIG. 5 son funciones realizadas cuando la CPU del dispositivo de codificacion de habla 11a ejecuta el programa de ordenador almacenado en la memoria integrada del dispositivo de codificacion de habla 11a. Diferentes tipos de datos necesarios para ejecutar el programa de ordenador y diferentes tipos de datos generados al ejecutar el programa de ordenador se almacenan en la memoria integrada, como la ROM y la RAM del dispositivo de codificacion de habla 11a.
La unidad de transformacion inversa de alta frecuencia 1h sustituye los coeficientes de la senal en el dominio de QMF obtenidos de la unidad de transformacion de frecuencia 1a con “0”, que corresponde a los componentes de baja frecuencia codificados por la unidad central de codificacion de codecs 1c, y procesa los coeficientes utilizando el banco de filtros de smtesis QMF para obtener una senal de dominio de tiempo que incluye solamente los componentes de alta frecuencia. La unidad de calculo de potencia a corto plazo 1i divide los componentes de alta frecuencia en el dominio de tiempo obtenidos de la unidad de transformacion inversa de alta frecuencia 1h en segmentos cortos, calcula la intensidad y calcula p(r). Como metodo alternativo, la potencia a corto plazo puede calcularse tambien de acuerdo con la siguiente expresion (12) utilizando la senal en el dominio QMF.
5
10
15
20
25
30
35
40
45
imagen7
La unidad de calculo de parametros de intensidad de filtro 1f1 detecta la parte cambiada de p(r), y determina un valor de K(r), para que K(r) sea incrementado con el cambio grande. El valor de K(r), por ejemplo, tambien puede calcularse por el mismo metodo que para calcular T(r) por la unidad de deteccion de cambio de senal 2e del dispositivo de decodificacion de habla 21. El cambio de senal tambien puede detectarse utilizando otros metodos mas sofisticados. La unidad de calculo de parametros de intensidad de filtro 1f1 puede tambien obtener potencia a corto plazo de cada uno de los componentes de baja frecuencia y los componentes de alta frecuencia, obtener cambios de senal Tr(r) y Th(r) de cada uno de los componentes de baja frecuencia y de los componentes de alta frecuencia utilizando el mismo metodo que para calcular T(r) por la unidad de deteccion de cambio de senal 2e del dispositivo de decodificacion de habla 21 y determinar el valor de K(r) utilizandolos. En este caso, por ejemplo, K(r) puede obtenerse de acuerdo con la siguiente expresion (13), en que e es una constante como por ejemplo 3.0.
K(r)=max(0, e ■(Th(r)-Tr(r))) —(13)
(Modificacion 2 del Primer ejemplo)
Un dispositivo de codificacion de habla (que no se ilustra) de una modificacion 2 del primer ejemplo incluye ffsicamente una CPU, una ROM, una RAM, un dispositivo de comunicacion y similares, que no se ilustran, y la CPU controla de forma integral el dispositivo de codificacion de habla de la modificacion 2 cargando y ejecutando un programa de ordenador predeterminado almacenado en una memoria integrada del dispositivo de codificacion de habla de la modificacion 2 como la ROM en la RAM. El dispositivo de comunicacion del dispositivo de codificacion de habla de la modificacion 2 recibe una senal de habla que va a ser codificada desde fuera del dispositivo de codificacion de habla, y produce una corriente de bits multiplicados codificados hacia fuera del dispositivo de codificacion de habla.
El dispositivo de codificacion de habla de la modificacion 2 incluye funcionalmente una unidad de codificacion diferencial de coeficiente de prediccion lineal (medio de calculo de informacion suplementaria de envoltorio temporal), y una unidad de multiplicacion de corriente de bits (medio de multiplicacion de corriente de bits) que recibe una informacion de la unidad de codificacion diferencial del coeficiente de prediccion lineal, que no esta ilustrado, en lugar de la unidad de calculo de parametros de intensidad de filtro 1f y la unidad de multiplicacion de corriente de bits 1g del dispositivo de codificacion de habla 11. La unidad de transformacion de frecuencia 1a hasta la unidad de analisis de prediccion lineal 1e, la unidad de codificacion diferencial de coeficiente de prediccion lineal, y la unidad de multiplicacion de corriente de bits del dispositivo de codificacion de habla de la modificacion 2 son funciones realizadas cuando la CPU del dispositivo de codificacion de habla de la modificacion 2 ejecuta el programa de ordenador almacenado en la memoria integrada del dispositivo de codificacion de habla de la modificacion 2. Diferentes tipos de datos necesarios para ejecutar el programa de ordenador y diferentes tipos de datos generados al ejecutar el programa de ordenador se almacenan en la memoria integrada, como la ROM y la RAM del dispositivo de codificacion de habla de la modificacion 2.
La unidad de decodificacion diferencial del coeficiente de prediccion lineal calcula valores de diferencial ao (n, r) del coeficiente de prediccion lineal de acuerdo con la expresion (14) siguiente, utilizando aH (n, r) de la senal de entrada y aL (n, r) de la senal de entrada.
imagen8
A continuacion, la unidad de codificacion del diferencial de coeficiente de prediccion lineal cuantifica ao (n, r), y los transmite a la unidad de multiplicacion de corriente de bits (estructura correspondiente a la unidad de multiplicacion de corriente de bits 1g). La unidad de multiplicacion de corriente de bits multiplica ao (n, r) en la corriente de bits en lugar de K(r), y envfa la corriente de bits multiplicados a fuera del dispositivo de codificacion de habla a traves del dispositivo de comunicacion integrado.
Un dispositivo de decodificacion de habla (que no se ilustra) de la modificacion 2 del primer ejemplo incluye ffsicamente una CPU, una ROM, una RAM, un dispositivo de comunicacion y similares, que no se ilustran, y la CPU controla de forma integral el dispositivo de decodificacion de habla de la modificacion 2 cargando y ejecutando un programa de ordenador predeterminado almacenado en una memoria integrada del 5 dispositivo de decodificacion de habla de la modificacion 2 como la ROM en la RAM. El dispositivo de comunicacion del dispositivo de decodificacion de habla de la modificacion 2 recibe la salida de la corriente de bits multiplicados codificados del dispositivo de codificacion de habla 11, el dispositivo de codificacion de habla 11a de acuerdo con la modificacion 1, o el dispositivo de codificacion de habla de acuerdo con la modificacion 2, y produce una senal de habla decodificada hacia fuera del dispositivo de decodificacion de 10 habla.
El dispositivo de decodificacion de habla de la modificacion 2 incluye funcionalmente una unidad de decodificacion diferencial de coeficiente de prediccion lineal, que no se ilustra, en lugar de la unidad de ajuste de intensidad de filtro 2f del dispositivo de decodificacion de habla 21. La unidad de separacion de corriente de bits 2a hasta la unidad de deteccion de cambio de senal 2e, la unidad de decodificacion de 15 diferencial del coeficiente de prediccion lineal y la unidad de generacion de alta frecuencia 2g hasta la unidad de transformacion inversa de frecuencia 2n del dispositivo de decodificacion de habla de la modificacion 2 son funciones realizadas cuando la CPU del dispositivo de decodificacion de habla de la modificacion 2 ejecuta el programa de ordenador almacenado en la memoria integrada del dispositivo de decodificacion de habla de la modificacion 2. Diferentes tipos de datos necesarios para ejecutar el programa 20 de ordenador y diferentes tipos de datos generados al ejecutar el programa del ordenador estan almacenados en la memoria integrada como la ROM y la RAM del dispositivo de decodificacion de habla de la modificacion 2.
La unidad de decodificacion de diferencial del coeficiente de prediccion lineal obtiene aadj (n, r) decodificado de forma diferencial de acuerdo con la siguiente expresion (15), utilizando aL (n, r) obtenido de la unidad de 25 analisis de prediccion lineal de baja frecuencia 2d y ao (n, r) recibido de la unidad de separacion de corriente de bits 2a.
imagen9
La unidad de decodificacion de diferencial del coeficiente de prediccion lineal transmite aadj (n, r) decodificado diferencialmente de esta forma a la unidad de filtro de prediccion lineal 2k. ao (n, r) puede ser 30 un valor diferencial en el dominio de coeficientes de prediccion tal como se ilustra en la expresion (14). Pero, despues de convertir los coeficientes de prediccion a la otra forma de expresion, como coeficientes LSP (Linear Spectrum Pair) Par de Espectro Lineal, ISP (Immittance Spectrum Pair) Par de Espectro de Impedancia, LSF (Linear Spectrum Frequency) Frecuencia de Espectro Lineal, ISF (Immittance Spectrum Frequency) Frecuencia de Espectro de Impedancia, y PARCOR, ao (n, r) puede ser un valor que muestra 35 ferencia. En este caso, la decodificacion diferencial tambien tiene la misma forma de expresion.
(Segundo Ejemplo)
La FIG. 6 es un diagrama que ilustra un dispositivo de codificacion de habla 12 de acuerdo con un segundo ejemplo. El dispositivo de codificacion de habla 12 incluye ffsicamente una CPU, una ROM, una RAM, un dispositivo de comunicacion y similares, que no se ilustran, y la CPU controla de forma integral el dispositivo 40 de codificacion de habla 12 cargando y ejecutando un programa de ordenador predeterminado (como por ejemplo un programa de ordenador para realizar procesos, ilustrado en el diagrama de flujo de la FIG. 7) almacenado en una memoria integrada del dispositivo de codificacion de habla 12 como la ROM en la RAM. El dispositivo de comunicacion del dispositivo de codificacion de habla 12 recibe una senal de habla que va a ser codificada desde fuera del dispositivo de codificacion de habla 12, y produce una corriente de bits 45 multiplicados codificados hacia fuera del dispositivo de codificacion de habla 12.
El dispositivo de codificacion de habla 12 incluye funcionalmente una unidad de decimacion del coeficiente de prediccion lineal 1j (medio de decimacion del coeficiente de prediccion), una unidad de cuantificacion del coeficiente de prediccion lineal 1k (medio de cuantificacion del coeficiente de prediccion), y una unidad de multiplicacion de corriente de bits 1g2 (medio de multiplicacion de corriente de bits), en lugar de la unidad 50 de calculo de parametros de intensidad de filtro 1f y la unidad de multiplicacion de corriente de bits 1g del dispositivo de codificacion de habla 11. La unidad de transformacion de frecuencia 1a hasta la unidad de analisis de prediccion lineal 1e (medio de analisis de prediccion lineal), la unidad de decimacion del coeficiente de prediccion lineal 1j, la unidad de cuantificacion de coeficiente de prediccion lineal 1k y la unidad de multiplicacion de corriente de bits 1g2 del dispositivo de codificacion de habla 12 ilustradas en la 55 FIG. 6 son funciones realizadas cuando la CPU del dispositivo de codificacion de habla 12 ejecuta el programa de ordenador almacenado en la memoria integrada en el dispositivo de codificacion de habla 12. La CPU del dispositivo de codificacion de habla 12 ejecuta procesos secuencialmente (procesos desde la
5
10
15
20
25
30
35
40
45
50
55
60
Fase Sal a Fase Sa5, y procesos desde la Fase Sc1 a Fase Sc3) ilustrados en el diagrama de flujo de la FIG. 7, ejecutando el programa de ordenador (o utilizando la unidad de transformacion de frecuencia 1a hasta la unidad de analisis de prediccion lineal 1e, la unidad de decimacion del coeficiente de prediccion lineal 1j, la unidad de cuantificacion del coeficiente de prediccion lineal 1k, y la unidad de multiplicacion de corriente de bits 1g2 del dispositivo de codificacion de habla 12 ilustrado en la FIG. 6). Diferentes tipos de datos necesarios para ejecutar el programa de ordenador y diferentes tipos de datos generados al ejecutar el programa del ordenador se almacenan en la memoria integrada, como la ROM y la RAM del dispositivo de codificacion de habla 12.
La unidad de decimacion del coeficiente de prediccion lineal 1j decima aH (n, r) obtenido de la unidad de analisis de prediccion lineal 1e en la direccion temporal, y transmite un valor de aH (n, r) para una parte de la ranura de tiempo ri y un valor del ri correspondiente, a la unidad de cuantificacion del coeficiente de prediccion lineal 1k (proceso en Fase Sc1). Se observa que 0<i<Nts, y Nts es el numero de ranuras de tiempo en una secuencia para la cual se transmite aH (n, r). La decimacion de los coeficientes de prediccion lineal puede ser realizada en un intervalo de tiempo predeterminado, o puede realizarse en un intervalo de tiempo no uniforme basado en las caractensticas de aH (n, r). Por ejemplo, es posible un metodo que compare Gh(0 de aH (n, r) en una secuencia con una cierta longitud, y haga que aH (n, r), del cual Gh(0 excede un cierto valor, sea un objeto de cuantificacion. Si el intervalo de decimacion de los coeficientes de prediccion lineal es un intervalo predeterminado en lugar de utilizar las caractensticas de aH (n, r), aH (n, r) no tiene que ser calculado para la ranura de tiempo en la cual no se realiza la transmision.
La unidad de cuantificacion del coeficiente de prediccion lineal 1k cuantifica los coeficientes de prediccion lineal de alta frecuencia decimados aH (n, ri) recibidos de la unidad de decimacion del coeficiente de prediccion lineal 1j e indexa ri de las ranuras de tiempo correspondientes, y las transmite a la unidad de multiplicacion de la corriente de bits 1g2 (proceso en Fase Sc2). Como estructura alternativa, en lugar de cuantificar aH (n, ri), pueden cuantificarse valores de diferencial aD (n, n) de los coeficientes de prediccion lineal como el dispositivo de codificacion de habla de acuerdo con la modificacion 2 del primer ejemplo.
La unidad de multiplicacion de corriente de bits 1g2 multiplica la corriente de bits codificados calculada por la unidad central de codificacion de codecs 1c, la informacion suplementaria de SBR calculada por la unidad de codificacion de SBR 1d, e indexa {ri} de las ranuras de tiempo correspondientes a aH (n, ri) que se cuantifican y reciben desde la unidad de cuantificacion del coeficiente de prediccion lineal 1k en una corriente de bits, y envfa la corriente de bits multiplicados a traves del dispositivo de comunicacion del dispositivo de codificacion de habla 12 (proceso en Fase Sc3).
La FIG. 8 es un diagrama que ilustra un dispositivo de decodificacion de habla 22 de acuerdo con el segundo ejemplo. El dispositivo de decodificacion de habla 22 incluye ffsicamente una CPU, una ROM, una RAM, un dispositivo de comunicacion y similares, que no se ilustran, y la CPU controla de forma integral el dispositivo de decodificacion de habla 22 cargando y ejecutando un programa de ordenador predeterminado (como por ejemplo un programa de ordenador para realizar procesos ilustrado en el diagrama de flujo de la FIG. 9) almacenado en una memoria integrada del dispositivo de decodificacion de habla 22 como la ROM en la RAM. El dispositivo de comunicacion del dispositivo de decodificacion de habla 22 recibe la corriente de bits multiplicados codificados emitida por el dispositivo de codificacion de habla 12, y produce una senal de habla decodificada hacia fuera del dispositivo de codificacion de habla 12.
El dispositivo de decodificacion de habla 22 incluye funcionalmente una unidad de separacion de corriente de bits 2a1 (medio de separacion de corriente de bits), una unidad de interpolacion/extrapolacion del coeficiente de prediccion lineal 2p (medio de interpolacion/extrapolacion del coeficiente de prediccion lineal) y una unidad de filtro de prediccion lineal 2k1 (medio de formacion del envoltorio temporal) en lugar de la unidad de separacion de la corriente de bits 2a, la unidad de analisis de prediccion lineal de baja frecuencia 2d, la unidad de deteccion de cambio de senal 2e, la unidad de ajuste de intensidad de filtro 2f, y la unidad de filtro de prediccion lineal 2k del dispositivo de decodificacion de habla 21. La unidad de separacion de corriente de bits 2a1, la unidad central de decodificacion de codecs 2b, la unidad de transformacion de frecuencia 2c, la unidad de generacion de alta frecuencia 2g hasta la unidad de ajuste de alta frecuencia 2j,
la unidad de filtro de prediccion lineal 2k1, la unidad de adicion de coeficiente 2m, la unidad de
transformacion inversa de frecuencia 2n, y la unidad de interpolacion/extrapolacion del coeficiente de prediccion lineal 2p del dispositivo de decodificacion de habla 22 ilustrado en la FIG. 8 son funciones realizadas cuando la CPU del dispositivo de codificacion de habla 12 ejecuta el programa de ordenador almacenado en la memoria integrada del dispositivo de codificacion de habla 12. La CPU del dispositivo de decodificacion de habla 22 ejecuta secuencialmente los procesos (procesos desde Fase Sb1 a Fase Sd2, Fase Sd1, desde Fase Sb5 a Fase Sb8, Fase Sd2, y desde Fase Sb10 a Fase Sb11) ilustrados en el diagrama de flujo de la FIG. 9, ejecutando el programa de ordenador (o utilizando la unidad de separacion de corriente de bits 2a1, la unidad central de decodificacion de codecs 2b, la unidad de transformacion de frecuencia 2c, la unidad de generacion de alta frecuencia 2g hasta la unidad de ajuste de alta frecuencia 2j,
la unidad de filtro de prediccion lineal 2k1, la unidad de adicion de coeficiente 2m, la unidad de
transformacion inversa de frecuencia 2n, y la unidad de interpolacion/extrapolacion del coeficiente de
5
10
15
20
25
30
35
40
45
prediccion lineal 2p ilustradas en la FIG. 8). Diferentes tipos de datos necesarios para ejecutar el programa de ordenador y diferentes tipos de datos generados al ejecutar el programa del ordenador se almacenan en la memoria integrada, como la ROM y la RAM del dispositivo de decodificacion de habla 22.
El dispositivo de decodificacion de habla 22 incluye la unidad de separacion de corriente de bits 2a1, la unidad de interpolacion/extrapolacion del coeficiente de prediccion lineal 2p y la unidad de filtro de prediccion lineal 2k1, en lugar de la unidad de separacion de corriente de bits 2a, la unidad de analisis de prediccion lineal de baja frecuencia 2d, la unidad de deteccion de cambio de senal 2e, la unidad de ajuste de intensidad de filtro 2f y la unidad de filtro de prediccion lineal 2k del dispositivo de decodificacion de habla 22.
La unidad de separacion de corriente de bits 2a1 separa la corriente de bits multiplicados suministrada a traves del dispositivo de comunicacion del dispositivo de decodificacion de habla 22 en los indices r de las ranuras de tiempo correspondientes a aH (n, n) que se cuantifican, la informacion suplementaria de SBR y la corriente de bits codificados.
La unidad de interpolacion/extrapolacion del coeficiente de prediccion lineal 2p recibe los indices r de las ranuras de tiempo correspondientes a aH (n, n) que se cuantifican desde la unidad de separacion de corriente de bits 2a1, y obtiene aH (n, r) correspondiente a las ranuras de tiempo cuyos coeficientes de prediccion lineal no se transmiten, por interpolacion o extrapolacion (procesos en Fase Sd1). La unidad de interpolacion/extrapolacion del coeficiente de prediccion lineal 2p puede extrapolar los coeficientes de prediccion lineal, por ejemplo de acuerdo con la siguiente expresion (16).
imagen10
en que no es el valor mas proximo a r en las ranuras de tiempo {n} de las cuales se transmiten los coeficientes de prediccion lineal. 8 es una constante que cumple 0<5<1.
La unidad de interpolacion/extrapolacion del coeficiente de prediccion lineal 2p puede interpolar los coeficientes de prediccion lineal, por ejemplo de acuerdo con la siguiente expresion (17), en que se cumple rio<r<rio+1.
imagen11
La unidad de interpolacion/extrapolacion del coeficiente de prediccion lineal 2p puede convertir los coeficientes de prediccion lineal en otras formas de expresion, como coeficientes LSP (Linear Spectrum Pair) Par de Espectro Lineal, ISP (Immittance Spectrum Pair) Par de Espectro de Impedancia, LSF (Linear Spectrum Frequency) Frecuencia de Espectro Lineal, ISF (Immittance Spectrum Frequency) Frecuencia de Espectro de Impedancia, y PARCOR, interpolarlos o extrapolarlos, y convertir los valores obtenidos en coeficientes de prediccion lineal para ser utilizados. Los aH (n, r) interpolados o extrapolados se transmiten a la unidad de filtro de prediccion lineal 2k1 y se utilizan como coeficientes de prediccion lineal para el filtrado de smtesis de prediccion lineal, pero tambien pueden utilizarse como coeficientes e prediccion lineal en la unidad de filtro inverso de prediccion lineal 2i. Si ao (n, n) es multiplicado en una corriente de bits en lugar de aH (n, r), la unidad de interpolacion/extrapolacion del coeficiente de prediccion lineal 2p realiza la decodificacion del diferencial de manera parecida a la del dispositivo de decodificacion de habla segun la modificacion 2 del primer ejemplo, antes de realizar el proceso de interpolacion o extrapolacion descrito anteriormente.
La unidad de filtro de prediccion lineal 2k1 realiza un filtrado de smtesis de prediccion lineal en la direccion de frecuencia en la salida de qadj (n, r) desde la unidad de ajuste de alta frecuencia 2j, utilizando aH (n, r) que se interpola o extrapola obtenido de la unidad de interpolacion/extrapolacion de coeficiente de prediccion lineal 2p (proceso en Fase Sd2). Una funcion de transferencia de la unidad de filtro de prediccion lineal 2k1 puede expresarse como la siguiente expresion (18). La unidad de filtro de prediccion lineal 2k1 da forma al envoltorio temporal de los componentes de alta frecuencia generados por el SBR realizando un filtrado de smtesis de prediccion lineal, como la unidad de filtro de prediccion lineal 2k del dispositivo de decodificacion de habla 21.
5
10
15
20
25
30
35
40
imagen12
(Tercer Ejemplo)
La FIG. 10 es un diagrama que ilustra un dispositivo de codificacion de habla 13 de acuerdo con un tercer ejemplo. El dispositivo de codificacion de habla 13 incluye ffsicamente una CPU, una ROM, una RAM, un dispositivo de comunicacion y similares, que no se ilustran, y la CPU controla de forma integral el dispositivo de codificacion de habla 13 cargando y ejecutando un programa de ordenador predeterminado (como por ejemplo un programa de ordenador para realizar procesos, ilustrados en el diagrama de flujo de la FIG. 11) almacenado en una memoria integrada del dispositivo de codificacion de habla 13 como la ROM en la RAM. El dispositivo de comunicacion del dispositivo de codificacion de habla 13 recibe una senal de habla que va a ser codificada desde fuera del dispositivo de codificacion de habla 13, y envfa una corriente de bits multiplicados codificados hacia fuera del dispositivo de codificacion de habla 13.
El dispositivo de codificacion de habla 13 incluye funcionalmente una unidad de calculo de envoltorio temporal 1m (medio de calculo de informacion suplementaria de envoltorio temporal), una unidad de calculo de parametros de forma de envoltorio 1n (medio de calculo de informacion suplementaria de envoltorio temporal), y una unidad de multiplicacion de corriente de bits 1g3 (medio de multiplicacion de corriente de bits) en lugar de la unidad de analisis de prediccion lineal 1e, la unidad de calculo de parametros de intensidad de filtro 1f, y la unidad de multiplicacion de corriente de bits 1g del dispositivo de codificacion de habla 11. La unidad de transformacion de frecuencia 1a hasta la unidad de codificacion de SBR 1d, la unidad de calculo del envoltorio temporal 1m, la unidad de calculo de parametros de forma del envoltorio 1n y la unidad de multiplicacion de corriente de bits 1g3 del dispositivo de codificacion de habla 13 ilustrado en la FIG. 10 son funciones realizadas cuando la CPU del dispositivo de codificacion de habla 12 ejecuta el programa de ordenador almacenado en la memoria integrada del dispositivo de codificacion de habla 12. La CPU del dispositivo de codificacion de habla 13 ejecuta procesos secuencialmente (procesos desde la Fase Sa1 a Fase Sa4, y procesos desde la Fase Se1 a Fase Se3) ilustrados en el diagrama de flujo de la FIG. 11, ejecutando el programa de ordenador (o utilizando la unidad de transformacion de frecuencia 1a hasta la unidad de analisis de codificacion de SBR 1d, la unidad de calculo de envoltorio temporal 1m, la unidad de calculo de parametros de forma de envoltorio 1n y la unidad de multiplicacion de corriente de bits 1g3 del dispositivo de codificacion de habla 13 ilustrado en la FIG. 10). Diferentes tipos de datos necesarios para ejecutar el programa de ordenador y diferentes tipos de datos generados al ejecutar el programa del ordenador se almacenan en la memoria integrada, como la ROM y la RAM del dispositivo de codificacion de habla 13.
La unidad de calculo de envoltorio temporal 1m recibe q (k, r), y por ejemplo, obtiene informacion del envoltorio temporal e(r) de los componentes de alta frecuencia de una senal, obteniendo la potencia de cada ranura de tiempo de q (k, r) (proceso en Fase Se1). En este caso, e(r) se obtiene de acuerdo con la siguiente expresion (19).
imagen13
La unidad de calculo de parametros de forma de envoltorio 1n recibe e(r) de la unidad de calculo del envoltorio temporal 1m y recibe lfmites de tiempo de envoltorio de SBR {bi} de la unidad de codificacion de SBR 1d. Debe observarse que 0<i<Ne, y Ne es el numero de envoltorios de SBR en la secuencia codificada. La unidad de calculo de parametros de forma de envoltorio 1n obtiene un parametro de forma de envoltorio s(i) (0<i<Ne) de cada uno de los envoltorios de SBR en la secuencia codificada de acuerdo con la siguiente expresion (20) (proceso en Fase Se2). El parametro de forma de envoltorio s(i) corresponde a la informacion suplementaria de envoltorio temporal, y es similar en el tercer ejemplo.
5
10
15
20
25
30
35
40
45
s(i) = -- l-—- (e(0 - e(r)J -(20)
^/+i -bi”V rzzbi
Debe observarse que:
en que s(i) en la expresion anterior es un parametro que indica la magnitud de la variacion de e(r) en el envoltorio de i-esimo SBR donde se cumple b<r<bi+1, y e(r) tiene un numero mayor a medida que incrementa la variacion del envoltorio temporal. Las expresiones (20) y (21) descritas anteriormente son ejemplos del metodo para calcular s(i), y por ejemplo, s(i) puede obtenerse tambien utilizando, por ejemplo, SMF (Spectral Flatness Measure) Medida de Plano Espectral, de e(r), un coeficiente del valor maximo por el valor mmimo, y similares. A continuacion, se cuantifica s(i), y se transmite a la unidad de multiplicacion de corriente de bits 1g3.
La unidad de multiplicacion de corriente de bits 1g3 multiplica la corriente de bits codificados calculada por la unidad central de codificacion 1c, la informacion suplementaria de SBR calculada por la unidad de codificacion de SBR 1d, y s(i) en una corriente de bits, y produce la corriente de bits multiplicados a traves del dispositivo de comunicacion del dispositivo de codificacion de habla 13 (proceso en Fase Se3).
La FIG. 12 es un diagrama que ilustra un dispositivo de decodificacion de habla 23 de acuerdo con el tercer ejemplo. El dispositivo de decodificacion de habla 23 incluye ffsicamente una CPU, una ROM, una RAM, un dispositivo de comunicacion y similares, que no se ilustran, y la CPU controla de forma integral el dispositivo de decodificacion de habla 23 cargando y ejecutando un programa de ordenador predeterminado (como por ejemplo un programa de ordenador para realizar procesos, ilustrados en el diagrama de flujo de la FIG. 13) almacenado en una memoria integrada del dispositivo de decodificacion de habla 23 como la ROM en la RAM. El dispositivo de comunicacion del dispositivo de decodificacion de habla 23 recibe la corriente de bits multiplicados codificados enviados desde el dispositivo de codificacion de habla 13, y produce una senal de habla decodificada hacia fuera del dispositivo de decodificacion de habla 13.
El dispositivo de decodificacion de habla 23 incluye funcionalmente una unidad de separacion de corriente de bits 2a2 (medio de separacion de corriente de bits), una unidad de calculo de envoltorio temporal de baja frecuencia 2r (medio de analisis de envoltorio temporal de baja frecuencia), una unidad de ajuste de forma de envoltorio 2s (medio de ajuste de envoltorio temporal), una unidad de calculo de envoltorio temporal de alta frecuencia 2t, una unidad de alisamiento de envoltorio temporal 2u, y una unidad de formacion del envoltorio temporal 2v (medio de formacion del envoltorio temporal), en lugar de la unidad de separacion de corriente de bits 2a, la unidad de analisis de prediccion lineal de baja frecuencia 2d, la unidad de deteccion de cambio de senal 2e, la unidad de ajuste de intensidad de filtro 2f, la unidad de analisis de prediccion lineal de alta frecuencia 2h, la unidad de filtro inverso de prediccion lineal 2i, y la unidad de filtro de prediccion lineal 2k del dispositivo de decodificacion de habla 21. La unidad de separacion de corriente de bits 2a2, la unidad central de decodificacion de codecs 2b hasta la unidad de transformacion de frecuencia 2c, la unidad de generacion de alta frecuencia 2g, la unidad de ajuste de alta frecuencia 2j, la unidad de adicion de coeficiente 2m, la unidad de transformacion inversa de frecuencia 2n y la unidad de calculo de envoltorio temporal de baja frecuencia 2r hasta la unidad de formacion del envoltorio temporal 2v del dispositivo de decodificacion de habla 23 ilustrado en la FIG. 12 son funciones realizadas cuando la CPU del dispositivo de codificacion de habla 12 ejecuta el programa de ordenador almacenado en la memoria integrada del dispositivo de codificacion de habla 12. La CPU del dispositivo de decodificacion de habla 23 ejecuta procesos secuencialmente (procesos desde la Fase Sb1 a Fase Sb2, de Fase Sf1 a Fase Sf2, Fase Sb5, de Fase Sf3 a Fase Sf4, Fase Sb8, Fase Sf5 y desde Fase Sb10 a Fase Sb11) ilustrados en el diagrama de flujo de la FIG. 13, ejecutando el programa de ordenador (o utilizando la unidad de separacion de corriente de bits 2a2, la unidad central de decodificacion de codecs 2b hasta la unidad de transformacion de frecuencia 2c, la unidad de generacion de alta frecuencia 2g, la unidad de ajuste de alta frecuencia 2j, la unidad de adicion de coeficiente 2m, la unidad de transformacion inversa de frecuencia 2n,
imagen14
y la unidad de calculo de envoltorio temporal de baja frecuencia 2r hasta la unidad de formacion del envoltorio temporal 2v del dispositivo de decodificacion de habla 23 ilustrado en la FIG. 12). Diferentes tipos de datos necesarios para ejecutar el programa de ordenador y diferentes tipos de datos generados al ejecutar el programa del ordenador se almacenan en la memoria integrada, como la ROM y la RAM del 5 dispositivo de codificacion de habla 23.
La unidad de separacion de corriente de bits 2a2 separa la corriente de bits multiplicados suministrada a traves del dispositivo de comunicacion del dispositivo de decodificacion de habla 23 en s(i), la informacion suplementaria de SBR y la corriente de bits codificados. La unidad de calculo de envoltorio temporal de baja frecuencia 2r recibe qdec (k, r) incluyendo los componentes de baja frecuencia de la unidad de 10 transformacion de frecuencia 2c, y obtiene e(r) de acuerdo con la siguiente expresion (22) (proceso en Fase Sf1).
imagen15
La unidad de ajuste de forma de envoltorio 2s ajusta e(r) utilizando s(i), y obtiene la informacion del envoltorio temporal ajustada eadj(r) (proceso en Fase Sf2). e(r) puede ser ajustada, por ejemplo, de acuerdo 15 con las siguientes expresiones (23) a (25).
eadl (r) = e(i) + -Js(i)-v(i) ■ {e(r) - e(i)) (s(0>v(i» eadj(r) = e(r)
Debe hacerse notar que:
de lo contrario
—(23)
imagen16
Las expresiones (23) a (25) descritas mas arriba son ejemplos de metodo de ajuste, y tambien puede 20 utilizarse el otro metodo de ajuste por el cual la forma de eadj(r) se convierte en similar a la forma ilustrada por s(i).
La unidad de calculo de envoltorio temporal de alta frecuencia 2t calcula un envoltorio temporal eexp(r) utilizando qexp (k, r) obtenido de la unidad de generacion de alta frecuencia 2g, de acuerdo con la siguiente expresion (26) (proceso en Fase Sf3).
5
10
15
20
25
30
35
40
imagen17
La unidad de alisado de envoltorio temporal 2u alisa el envoltorio temporal de qexp (k, r) obtenido de la unidad de generacion de alta frecuencia 2g de acuerdo con la siguiente expresion (27), y transmite la senal obtenida qfa (k, r) en el dominio QMF a la unidad de ajuste de alta frecuencia 2j (proceso en Fase Sf4).
imagen18
El alisado del envoltorio temporal por parte de la unidad de alisado de envoltorio temporal 2u tambien puede omitirse. En lugar de calcular el envoltorio temporal de los componentes de alta frecuencia del resultado de la unidad de generacion de alta frecuencia 2g y alisar el envoltorio temporal de la misma, puede calcularse el envoltorio temporal de los componentes de alta frecuencia de un resultado de la unidad de ajuste de alta frecuencia 2j, y el envoltorio temporal del mismo puede ser alisado. El envoltorio temporal utilizado en la unidad de alisado de envoltorio temporal 2u puede ser tambien eadj(r) obtenido de la unidad de ajuste de forma de envoltorio 2s en lugar de eexp(r) obtenido de la unidad de calculo de envoltorio temporal de alta frecuencia 2t.
La unidad de formacion del envoltorio temporal 2v da forma a qadj (k, r) obtenido de la unidad de ajuste de alta frecuencia 2j utilizando eadj(r) obtenido de la unidad de formacion del envoltorio temporal 2v, y obtiene una senal qenvadj (k, r) en el dominio QMF en el cual se forma el envoltorio temporal (proceso en Fase Sf5). La formacion se realiza de acuerdo con la siguiente expresion (28). qenvadj (k, r) se transmite a la unidad de adicion de coeficiente 2m como una senal en el dominio QMF correspondiente a los componentes de alta frecuencia.
imagen19
(Cuarto ejemplo)
La FIG. 14 es un diagrama que ilustra un dispositivo de decodificacion de habla 24 de acuerdo con una realizacion del cuarto ejemplo. El dispositivo de decodificacion de habla 24 incluye ffsicamente una CPU, una ROM, una RAM, un dispositivo de comunicacion y similares, que no se ilustran, y la CPU controla de forma integral el dispositivo de decodificacion de habla 24 cargando y ejecutando un programa de ordenador predeterminado almacenado en una memoria integrada del dispositivo de decodificacion de habla 24 como por ejemplo la ROM en la RAM. El dispositivo de comunicacion del dispositivo de decodificacion de habla 24 recibe la salida de corriente de bits multiplicados codificados del dispositivo de codificacion de habla 11 o del dispositivo de codificacion de habla 13, y produce una senal de habla decodificada hacia fuera del dispositivo de decodificacion de habla 24.
El dispositivo de decodificacion de habla 23 incluye funcionalmente la estructura del dispositivo de decodificacion de habla 21 (la unidad central de decodificacion de codecs 2b, la unidad de transformacion de frecuencia 2c, la unidad de analisis de prediccion lineal de baja frecuencia 2d, la unidad de deteccion de cambio de senal 2e, la unidad de ajuste de intensidad de filtro 2f, la unidad de generacion de alta frecuencia 2g, la unidad de analisis de prediccion lineal de alta frecuencia 2h, la unidad de filtro inverso de prediccion lineal 2i, la unidad de ajuste de alta frecuencia 2j, la unidad de filtro de prediccion lineal 2k, la unidad de adicion de coeficiente 2m y la unidad de transformacion inversa de frecuencia 2n) y la estructura del dispositivo de decodificacion de habla 24 (la unidad de calculo de envoltorio temporal de baja frecuencia 2r, la unidad de ajuste de forma de envoltorio 2s, y la unidad de formacion del envoltorio temporal 2v). El dispositivo de decodificacion de habla 24 tambien incluye una unidad de separacion de corriente de bits 2a3 (medio de separacion de corriente de bits) y una unidad de conversion de informacion suplementaria 2w. El orden de la unidad de filtro de prediccion lineal 2k y la unidad de formacion del envoltorio temporal 2v puede ser opuesto al ilustrado en la FlG. 14. El dispositivo de decodificacion de habla 24 recibe preferiblemente la
5
10
15
20
25
30
35
corriente de bits codificados por el dispositivo de codificacion de habla 11 o el dispositivo de codificacion de habla 13. La estructura del dispositivo de decodificacion de habla 24 ilustrado en la FIG. 14 es una funcion realizada cuando la CPU del dispositivo de decodificacion de habla 24 ejecuta el programa de ordenador almacenado en la memoria integrada del dispositivo de decodificacion de habla 24. Diferentes tipos de datos necesarios para ejecutar el programa de ordenador y diferentes tipos de datos generados al ejecutar el programa de ordenador se almacenan en la memoria integrada, como la ROM y la RAM del dispositivo de decodificacion de habla 24.
La unidad de separacion de corriente de bits 2a3 separa la corriente de bits multiplicados a traves del dispositivo de comunicacion del dispositivo de decodificacion de habla 24 en la informacion suplementaria del envoltorio temporal, la informacion suplementaria de SBR y la corriente de bits codificados. La informacion suplementaria del envoltorio temporal tambien puede ser K(r) descrito en el primer ejemplo o s(i) descrito en el tercer ejemplo. La informacion suplementaria del envoltorio temporal tambien puede ser otro parametro X(r) que no es ni K(r) ni s(i).
La unidad de conversion de informacion suplementaria 2w convierte la informacion suplementaria de envoltorio temporal suministrada para obtener K(r) y s(i). Si la informacion suplementaria del envoltorio temporal es K(r), la unidad de conversion de informacion suplementaria 2w convierte K(r) en s(i). La unidad de conversion de informacion suplementaria 2w puede tambien obtener, por ejemplo, un valor medio de K(r) en una seccion de bi<r<bi+1
y convertir el valor medio representado en la expresion (29) en s(i) utilizando una tabla predeterminada. Si la informacion suplementaria del envoltorio temporal es s(i), la unidad de conversion de informacion suplementaria 2w convierte s(i) en K(r). La unidad de conversion de informacion suplementaria 2w puede tambien realizar la conversion convirtiendo s(i) en K(r), por ejemplo, utilizando una tabla predeterminada. Debe observarse que i y r se asocian entre sf con el fin de cumplir la relacion de bi<r<bi+1.
Si la informacion suplementaria del envoltorio temporal es un parametro X(r) que no es ni s(i) ni K(r), la unidad de conversion de informacion suplementaria 2w convierte X(r) en K(r) y s(i). Es preferible que la unidad de conversion de informacion suplementaria 2w convierta X(r) en K(r) y s(i), por ejemplo, utilizando una tabla predeterminada. Tambien es preferible que la unidad de conversion de informacion suplementaria 2w transmita X(r) como valor representativo cada envoltorio de SBR. Las tablas para convertir X(r) en K(r) y s(i) pueden ser distintas entre sf.
(Modificacion 3 del Primer Ejemplo)
En el dispositivo de decodificacion de habla 21 del Primer ejemplo, la unidad de filtro de prediccion lineal 2k del dispositivo de decodificacion de habla 21 puede incluir un proceso de control de incremento automatico. El proceso de control de incremento automatico es un proceso para ajustar la potencia de la senal en el dominio de QMF que se envfa desde la unidad de filtro de prediccion lineal 2k a la potencia de la senal en el dominio de QMF que se proporciona. En general, se realiza una senal qsyn,pow (n, r) en el dominio QMF cuyo incremento se ha controlado mediante la siguiente expresion:
imagen20
imagen21
Aqrn, P0(r) y P1(r) se expresan mediante las siguientes expresiones (31) y (32).
5
10
15
20
25
30
35
imagen22
Al realizar el proceso de control de incremento automatico, la potencia de los componentes de alta frecuencia de la salida de senal de la unidad de filtro de prediccion lineal 2k se ajusta a un valor equivalente al de antes del filtrado de prediccion lineal. Como resultado, el efecto de ajustar la intensidad de la senal de alta frecuencia realizado por la unidad de ajuste de alta frecuencia 2j puede mantenerse para la senal de salida de la unidad de filtro de prediccion lineal 2k en la cual se ha formado el envoltorio temporal de los componentes de alta frecuencia generados basados en SBR. El proceso de control de incremento automatico tambien puede realizarse de forma individual en un espectro de frecuencia espedfico de la senal en el dominio QMF. El proceso realizado en el espectro de frecuencia individual puede realizarse limitando n en la expresion (30), la expresion (31) y la expresion (32) dentro de un espectro de frecuencia espedfico. Por ejemplo, el espectro de frecuencia i-esima puede expresarse como Fi<n<Fi+i (en este caso, i es un mdice que indica el numero de un espectro de frecuencia espedfico de la senal en el dominio QMF). Fi indica los lfmites del espectro de frecuencia, y es preferible que Fi sea una tabla de lfmite de frecuencia de un factor de escala de envoltorio definido en SBR en "MPEG4 AAC". La tabla de lfmite de frecuencia esta definida por la unidad de generacion de alta frecuencia 2g basada en la definicion de SBR en "MPEG4 AAC". Al realizar el proceso de control de incremento automatico , la intensidad de la senal de salida de la unidad de filtro de prediccion lineal 2k en un espectro de frecuencias espedfico de los componentes de alta frecuencia se ajusta a un valor equivalente al de antes del filtrado de prediccion lineal. Como resultado, el efecto para ajustar la intensidad de la senal de alta frecuencia realizado por la unidad de ajuste de alta frecuencia 2j en la senal de salida de la unidad de filtro de prediccion lineal 2k en la cual se forma el envoltorio temporal de los componentes de alta frecuencia generados basados en SBR, se mantiene por unidad de espectro de frecuencia. Los cambios realizados en la presente modificacion 3 del primer ejemplo pueden tambien hacerse para la unidad de filtro de prediccion lineal 2k de la cuarta realizacion.
([Modificacion 1 del Tercer Ejemplo)
La unidad de calculo de parametros de forma de envoltorio 1n en el dispositivo de codificacion de habla 13 del Tercer ejemplo puede tambien realizarse mediante el proceso siguiente. La unidad de calculo de parametros de forma de envoltorio 1n obtiene un parametro de forma de envoltorio s(i) (0<i<Ne) de acuerdo con la siguiente expresion (33) para cada envoltorio de SBR en la secuencia codificada.
imagen23
Debe observarse que:
imagen24
es un valor medio de e(r) en el envoltorio de SBR, y el metodo de calculo esta basado en la expresion (21). Debe observarse que el envoltorio de SBR indica el segmento de tiempo que cumple bi<r<bi+1. {bi} son los lfmites de tiempo de los envoltorios de SBR incluidos en la informacion suplementaria de SBR como informacion, y son los lfmites del segmento de tiempo para el cual se da el factor de escala de envoltorio de SBR que representa la energfa de senal media en un segmento de tiempo determinado y un espectro de frecuencia determinado. min (■) representa el valor mmimo dentro del espectro de bi<r<bi+1. Por consiguiente, en este caso, el parametro de forma de envoltorio s(i) es un parametro para indicar un coeficiente del valor mmimo para el valor medio de la informacion del envoltorio temporal ajustado en el envoltorio de SBR. La unidad de ajuste de forma de envoltorio 2s en el dispositivo de decodificacion de
5
10
15
20
25
habla 23 del tercer ejemplo tambien puede realizarse por medio del proceso siguiente. La unidad de ajuste de forma de envoltorio 2s ajusta e(r) utilizando s(i) para obtener la informacion del envoltorio temporal ajustada eadj(r). El metodo de ajuste se basa en la siguiente expresion (35) o expresion (36).
imagen25
La expresion 35 ajusta la forma del envoltorio para que el coeficiente del valor mmimo para el valor medio de la informacion del envoltorio temporal ajustada eadj(r) en el envoltorio de SBR se convierta en equivalente al valor del parametro de forma de envoltorio s(i). Los cambios realizados en la modificacion 1 del Tercer ejemplo descrito mas arriba tambien pueden realizarse en el cuarto ejemplo.
[Una Realizacion de la presente invencion]
La unidad de formacion del envoltorio temporal 2v puede utilizar tambien la siguiente expresion en lugar de la expresion (28). Tal como se indica en la expresion (37), eadj, scaled(r) se obtiene controlando el incremento de la informacion del envoltorio temporal ajustado eadj(r), de manera que la potencia de qenvadj (k,r) mantenga la de qadj (k, r) dentro del envoltorio de SBR. Tal como se indica en la expresion (38), en la realizacion, qenvadj (k, r) se obtiene multiplicando la senal qadj (k, r) en el dominio QMF mediante eadj, scaled(r) en lugar de eadj(r). Por consiguiente, la unidad de formacion del envoltorio temporal 2v puede formar el envoltorio temporal de la senal qadj (k, r) en el dominio QMF, de manera que la potencia de senal dentro del envoltorio de SBR se convierta en equivalente antes y despues de la formacion del envoltorio temporal. Debe observarse que el envoltorio de SBR indica el segmento de tiempo que cumple bi<r<bi+1. {bi} son los lfmites de tiempo de los envoltorios de SBR incluidos en la informacion suplementaria de SBR como informacion, y son los lfmites del segmento de tiempo para el cual se dan el factor de escalado de envoltorio de SBR que representa la energfa de senal media de un segmento de tiempo determinado y un espectro de frecuencia determinado. La terminologfa “envoltorio de SBR” en las realizaciones la presente invencion corresponde a la terminologfa “segmento de tiempo de envoltorio de SBR” en "MPEG4 AAC" definido en "iSo/IEC 14496-3", y el "envoltorio de SBR" tiene el mismo contenido que el “segmento de tiempo de envoltorio de SBR” a lo largo de las realizaciones.
imagen26
<lenvajj(k,r) = qadJ(k,r)
^adj, scaled (r)
(kx< k < 63,bi < r < bi+i)
10
Los cambios realizados en la realizacion descrita anteriormente tambien pueden hacerse en el cuarto ejemplo.
(Modificacion 3 del Tercer ejemplo)
La expresion (19) puede ser tambien la siguiente expresion (39).
imagen27
imagen28
imagen29
Cuando se utilizan la expresion (39) y la expresion (40), la informacion del envoltorio temporal e(r) es informacion en la cual la potencia de cada muestra de subbanda de QMF es normalizada por la potencia media en el envoltorio de SBR, y se extrae la rafz cuadrada. Sin embargo, la muestra de subbanda de QMF 15 es un vector de senal correspondiente al mdice de tiempo ”r” en la senal del dominio de QMF, y es una submuestra en el dominio QMF. En todos los ejemplos y las realizaciones de la presente invencion, la terminologfa “ranura de tiempo” tiene el mismo contenido que la “muestra de subbanda de QMF”. En este caso, la informacion del envoltorio temporal e(r) es un coeficiente de incremento que debena ser multiplicado por cada muestra de subbanda de QMF, y lo mismo se aplica a la informacion del envoltorio 20 temporal ajustada eadj(r).
(Modificacion 1 del Cuarto ejemplo)
5
10
15
20
25
30
35
40
45
50
55
60
Un dispositivo de decodificacion de habla 24a (que no se ilustra) de una modificacion 1 del cuarto ejemplo incluye ffsicamente una CPU, una ROM, una RAM, un dispositivo de comunicacion y similares, que no se ilustran, y la CPU controla de forma integral el dispositivo de decodificacion de habla 24a cargando y ejecutando un programa de ordenador predeterminado almacenado en una memoria integrada del dispositivo de decodificacion de habla 24a como la ROM en la RAM. El dispositivo de comunicacion del dispositivo de decodificacion de habla 24a recibe la salida de corriente de bits multiplicados codificados del dispositivo de codificacion de habla 11 o del dispositivo de codificacion de habla 13, y envfa una senal de habla decodificada hacia fuera del dispositivo de decodificacion de habla 24a. El dispositivo de decodificacion de habla 24a incluye funcionalmente una unidad de separacion de corriente de bits 2a4 (no ilustrada) en lugar de la unidad de separacion de corriente de bits 2a3 del dispositivo de decodificacion de habla 24, e incluye tambien una unidad de generacion de informacion suplementaria de envoltorio temporal 2y (no ilustrada) en lugar de la unidad de conversion de informacion suplementaria 2w. La unidad de separacion de corriente de bits 2a4 separa la corriente de bits multiplicados en la informacion de SBR y la corriente de bits codificados. La unidad de generacion de informacion suplementaria de envoltorio temporal 2y genera informacion suplementaria de envoltorio temporal basada en la informacion incluida en la corriente de bits codificados y la informacion suplementaria de SBR.
Para generar la informacion suplementaria de envoltorio temporal en un envoltorio SBR determinado, por ejemplo, el ancho de tiempo (bi+1-bi) del envoltorio de SBR, puede utilizarse una clase de secuencia, un parametro de intensidad del filtro inverso, un suelo de ruido, la amplitud de la potencia de alta frecuencia, un coeficiente de la potencia de alta frecuencia en relacion con la potencia de baja frecuencia, un coeficiente de autocorrelacion o un incremento de prediccion de un resultado de realizar un analisis de prediccion lineal en la direccion de frecuencia en una senal de baja frecuencia representada en el dominio QMF, y similares. La informacion suplementaria de envoltorio temporal puede ser generada determinando K(r) o s(i) basados en uno o en una pluralidad de valores de los parametros. Por ejemplo, la informacion suplementaria de envoltorio temporal puede ser generada determinando K(r) o s(i) basados e (bi+1-bi) de manera que K(r) o s(i) sea reducido a medida que se incrementa el ancho de tiempo (bi+1-bi) del envoltorio de SBR, o K(r) o s(i) se incrementa a medida que el ancho de tiempo (bi+1-bi) del envoltorio de SBR se incrementa. Los cambios similares pueden hacerse tambien para el primer ejemplo y el tercer ejemplo.
(Modificacion 2 del Cuarto ejemplo)
Un dispositivo de decodificacion de habla 24b (ver FIG. 15) de una modificacion 2 del cuarto ejemplo incluye ffsicamente una CPU, una ROM, una RAM, un dispositivo de comunicacion y similares, que no se ilustran, y la CPU controla de forma integral el dispositivo de decodificacion de habla 24b cargando y ejecutando un programa de ordenador predeterminado almacenado en una memoria integrada del dispositivo de decodificacion de habla 24b como la ROM en la RAM. El dispositivo de comunicacion del dispositivo de decodificacion de habla 24b recibe la corriente de bits multiplicados codificados enviada desde el dispositivo de codificacion de habla 11 o del dispositivo de codificacion de habla 13, y produce una senal de habla decodificada hacia fuera del dispositivo de decodificacion de habla 24b. El dispositivo de decodificacion de habla 24b, tal como se ilustra en la FIG. 15, incluye una unidad de ajuste de alta frecuencia primaria 2j1 y una unidad de ajuste de alta frecuencia secundaria 2j2, en lugar de la unidad de ajuste de alta frecuencia 2j.
En este punto, la unidad de ajuste de alta frecuencia primaria 2j1 ajusta una senal en el dominio QMF de la banda de alta frecuencia realizando un filtrado inverso de prediccion lineal en la direccion temporal, el ajuste de incremento, y la adicion de ruido, descrito en la fase de “generacion de HF” y la fase de “ajuste de HF” en SBR en "MPEG4 AAC". En este momento, la senal de salida en la unidad de ajuste de alta frecuencia primaria 2j1 corresponde a una senal W2 en la descripcion en “herramienta de SBR” en "ISO/IEC 144963:2005", clausulas 4.6.18.7.6 de "Montaje de senales de HF". La unidad de filtro de prediccion lineal 2k (o la unidad de filtro de prediccion lineal 2k1) y la unidad de formacion del envoltorio temporal 2v dan forma al envoltorio temporal de la senal de salida desde la unidad de ajuste de alta frecuencia primaria. La unidad de ajuste de alta frecuencia secundaria 2j2 realiza un proceso de adicion de sinusoides en la fase de “ajuste de Hf” en SBR en "MPEG4 AAC". El proceso de la unidad de ajuste de alta frecuencia secundario corresponde a un proceso de generacion de una senal Y a partir de la senal W2 en la descripcion en “herramienta de SBR” en "ISO/IEC 14496-3:2005", clausulas 4.6.18.7.6 de "Montaje de senales de HF", en las cuales la senal W2 es sustituida por una senal de salida de la unidad de formacion del envoltorio temporal 2v.
En la descripcion indicada mas arriba, solamente el proceso para anadir sinusoides es realizado por la unidad de ajuste de alta frecuencia 2j2. Sin embargo, cualquiera de los procesos de la fase de “ajuste de HF” puede ser realizado por la unidad secundaria de ajuste de alta frecuencia 2j2. Tambien pueden realizarse modificaciones similares en el primer ejemplo, el segundo ejemplo y el tercer ejemplo. En estos casos, la unidad de filtro de prediccion lineal (unidades de filtro de prediccion lineal (2k y 2k1) se incluye en el primer ejemplo y el segundo ejemplo, pero la unidad de formacion del envoltorio temporal no esta incluida. En consecuencia, una senal de salida desde la unidad primaria de ajuste de alta frecuencia 2jl es procesada
5
10
15
20
25
30
35
40
45
50
55
60
por la unidad de filtro de prediccion lineal, y a continuacion una senal de salida de la unidad de filtro de prediccion lineal es procesada por la unidad secundaria de ajuste de alta frecuencia 2j2.
En el tercer ejemplo, se encuentra incluida la unidad de formacion del envoltorio temporal 2v, pero la unidad de filtro de prediccion lineal no esta incluida. En consecuencia, una senal enviada por la unidad primaria de ajuste de alta frecuencia 2j1 es procesada por la unidad de formacion del envoltorio temporal 2v, y a continuacion una senal de salida de la unidad de formacion del envoltorio temporal 2v es procesada por la unidad secundaria de ajuste de alta frecuencia.
En el dispositivo de decodificacion de habla (dispositivo de decodificacion de habla 24, 24a, o 24b) del cuarto ejemplo, el orden de proceso de la unidad de filtro de prediccion lineal 2k y la unidad de formacion del envoltorio temporal 2v puede invertirse. En otras palabras, una senal de salida de la unidad de ajuste de alta frecuencia 2j o la unidad primaria de ajuste de alta frecuencia 2j1 puede ser procesada primero por la unidad de formacion del envoltorio temporal 2v, y a continuacion una senal de salida de la unidad de formacion del envoltorio temporal 2v puede ser procesada por la unidad de filtro de prediccion lineal 2k.
Asimismo, solamente si la informacion suplementaria de envoltorio temporal incluye informacion de control binario para indicar si el proceso es realizado por la unidad de filtro de prediccion lineal 2k o la unidad de formacion del envoltorio temporal 2v, y la informacion de control indica que el proceso sea realizado por la unidad de filtro de prediccion lineal 2k o la unidad de formacion del envoltorio temporal 2v, la informacion suplementaria del envoltorio temporal puede utilizar una forma que incluye tambien por lo menos un elemento entre el parametro de intensidad de filtro K(r), el parametro de intensidad de filtro s(i), o X(r) que es un parametro para determinar K(r) y s(i) como informacion.
(Modificacion 3 del Cuarto ejemplo)
Un dispositivo de decodificacion de habla 24c (ver FIG. 16) de una modificacion 3 del cuarto ejemplo incluye ffsicamente una CPU, una ROM, una RAM, un dispositivo de comunicacion y similares, que no se ilustran, y la CPU controla de forma integral el dispositivo de decodificacion de habla 24c cargando y ejecutando un programa de ordenador predeterminado (como por ejemplo un programa de ordenador para realizar procesos, ilustrado en el diagrama de flujo de la FIG. 17) almacenado en una memoria integrada del dispositivo de decodificacion de habla 24c como la ROM en la RAM. El dispositivo de comunicacion del dispositivo de decodificacion de habla 24c recibe la corriente de bits multiplicados codificados y produce una senal de habla decodificada hacia fuera del dispositivo de decodificacion de habla 24c. Tal como se ilustra en la FIG. 16, el dispositivo de decodificacion de habla 24c incluye una unidad primaria de ajuste de alta frecuencia 2j3 y una unidad secundaria de ajuste de alta frecuencia 2j4 en lugar de la unidad de ajuste de alta frecuencia 2j, y tambien incluye unidades de ajuste de componentes de senal individual 2z1, 2z2 y 2z3 en lugar de la unidad de filtro de prediccion lineal 2k y la unidad de formacion del envoltorio temporal 2v (las unidades de ajuste de componentes de senal individual corresponden al medio de formacion del envoltorio temporal).
La unidad primaria de ajuste de alta frecuencia 2j3 envfa una senal en el dominio QMF de la banda de alta frecuencia como componente de senal de copia. La unidad primaria de ajuste de alta frecuencia 2j3 puede proporcionar una senal sobre la cual se realiza por lo menos el filtrado inverso de prediccion lineal en la direccion temporal y/o el ajuste de incremento (ajuste de caractensticas de frecuencia) sobre la senal en el dominio QMF de la banda de alta frecuencia, utilizando la informacion suplementaria de SBR recibida de la unidad de separacion de corriente de bits 2a3, como componente de senal de copia. La unidad primaria de ajuste de alta frecuencia 2j3 tambien genera un componente de senal de ruido y un componente de senal de sinusoide utilizando la informacion suplementaria de SBR proporcionada por la unidad de separacion de corriente de bits 2a3, y produce el componente de senal de copia, el componente de senal de ruido y el componente de senal de sinusoide separadamente (proceso en fase Sg1). El componente de senal de ruido y el componente de senal de sinusoide pueden no ser generados, dependiendo del contenido de la informacion suplementaria de SBR.
Las unidades de ajuste de componentes de senal individual 2z1, 2z2, y 2z3 realizan el proceso en toda la pluralidad de componentes de senal incluidos en la senal de salida del medio primario de ajuste de alta frecuencia (proceso en Fase Sg2). El proceso con las unidades de ajuste de componentes de senal individual 2z1, 2z2, y 2z3 puede ser un filtrado de smtesis de prediccion lineal en la direccion de frecuencia obtenido de la unidad de ajuste de intensidad de filtro 2f utilizando los coeficientes de prediccion lineal, similar a la unidad de filtro de prediccion lineal 2k (proceso 1). El proceso con las unidades de ajuste de componentes de senal individual 2z1,2z2, y 2z3 puede ser tambien un proceso de multiplicar cada muestra de subbanda de QMF por un coeficiente de incremento utilizando el envoltorio temporal obtenido de la unidad de ajuste de forma de envoltorio 2s, similar al de la unidad de formacion del envoltorio temporal 2v (proceso 2). El proceso con las unidades de ajuste de componentes de senal individual 2z1, 2z2, y 2z3 puede ser tambien un proceso de realizar un filtrado de smtesis de prediccion lineal en la direccion de
5
10
15
20
25
30
35
40
45
50
55
60
frecuencia sobre la senal de entrada utilizando los coeficientes de prediccion lineal obtenidos de la unidad de ajuste de intensidad de filtro 2f similar a la de la unidad de filtro de prediccion lineal 2k, y a continuacion multiplicando cada muestra de subbanda de QMF por un coeficiente de incremento utilizando el envoltorio temporal obtenido de la unidad de ajuste de forma de envoltorio 2s, similar al de la unidad de formacion del envoltorio temporal 2v (proceso 3). El proceso con las unidades de ajuste de componentes de senal individual 2z1, 2z2, y 2z3 puede ser tambien un proceso de multiplicar cada muestra de subbanda de QMF con relacion a la senal de entrada por un coeficiente de incremento utilizando el envoltorio temporal obtenido de la unidad de ajuste de forma de envoltorio 2s, similar a la de la unidad de formacion del envoltorio temporal 2v, y seguidamente realizar un filtrado de smtesis de prediccion lineal en la direccion de frecuencia sobre la senal de salida utilizando los coeficientes de prediccion lineal obtenidos de la unidad de ajuste de intensidad de filtro 2f, similar a la de la unidad de filtro de prediccion lineal 2k (proceso 4). Las unidades de ajuste de componentes de senal individual 2z1, 2z2, y 2z3 pueden no realizar el proceso de formacion del envoltorio temporal sobre la senal de entrada, pero pueden enviar la senal de entrada tal como esta (proceso 5). El proceso con las unidades de ajuste de componentes de senal individual 2z1, 2z2, y 2z3 puede incluir cualquier proceso para dar forma al envoltorio temporal de la senal de entrada utilizando un metodo distinto de los procesos 1 a 5 (proceso 6). El proceso con las unidades de ajuste de componentes de senal individual 2z1, 2z2, y 2z3 puede ser tambien un proceso en el cual una pluralidad de procesos entre los procesos 1 a 6 se combinan en un orden arbitrario (proceso 7).
Los procesos con las unidades de ajuste de componentes de senal individual 2z1, 2z2, y 2z3 pueden ser los mismos, pero las unidades de ajuste de componentes de senal individual 2z1, 2z2, y 2z3 pueden dar forma al envoltorio temporal de cada uno de los componentes de senal incluidos en la salida del medio primario de ajuste de alta frecuencia mediante distintos metodos. Por ejemplo, pueden realizarse distintos procesos sobre la senal de copia, la senal de ruido y la senal de sinusoide, de manera que una unidad de ajuste de componentes de senal individuales 2z1 realice el proceso 2 en la senal de copia proporcionada, la unidad de ajuste de componentes de senal individuales 2z2 realice el proceso 3 en el componente de senal de ruido proporcionado, y la unidad de ajuste de componentes de senal individuales 2z3 realice el proceso 5 en la senal de sinusoide proporcionada. En este caso, la unidad de ajuste de intensidad de filtro 2f y la unidad de ajuste de forma de envoltorio 2s pueden transmitir los mismos coeficientes de prediccion lineal, y los envoltorios temporales a las unidades de ajuste de componentes de senal individual 2z1, 2z2, y 2z3, pero tambien puede transferir diferentes coeficientes de prediccion lineal y envoltorios temporales. Tambien resulta posible transmitir los mismos coeficientes de prediccion lineal y envoltorios temporales a por lo menos dos de las unidades de ajuste de componentes de senal individual 2z1, 2z2, y 2z3. Dado que por lo menos una de las unidades de ajuste de componentes de senal individual 2z1, 2z2, y 2z3 puede no realizar el proceso de formacion del envoltorio temporal sino emitir la senal de entrada tal como se encuentra (proceso 5), las unidades de ajuste de componentes de senal individual 2z1,2z2, y 2z3 realizan el proceso de envoltorio temporal en por lo menos uno de la pluralidad de componentes de senal enviados desde la unidad primaria de ajuste de alta frecuencia 2j3 en conjunto (si todas las unidades de ajuste de componentes de senal individual 2z1, 2z2, y 2z3 realizan el proceso 5, el proceso de formacion del envoltorio temporal no se realiza en ninguno de los componentes de senal, y los efectos de la presente invencion no se muestran).
Los procesos realizados por cada una de las unidades de ajuste de componentes de senal individual 2z1, 2z2, y 2z3 pueden estar fijados a uno de los procesos 1 a 7, pero pueden estar determinados dinamicamente para realizar uno de los procesos 1 a 7, basados en la informacion de control recibida desde fuera del dispositivo de decodificacion de habla 24c. En este momento, resulta preferible que la informacion de control este incluida en la corriente de bits multiplicados. La informacion de control puede ser una instruccion para realizar cualquiera de los procesos 1 a 7 en un segmento de tiempo de envoltorio de SBR espedfico, en la secuencia codificada o en el otro segmento de tiempo, o puede ser una instruccion para realizar cualquiera de los procesos 1 a 7 sin especificar el segmento de tiempo de control.
La unidad secundaria de ajuste de alta frecuencia 2j4 anade la senal de salida de los componentes de senal procesados desde las unidades de ajuste de componentes de senal individual 2z1,2z2, y 2z3, y envfa el resultado a la unidad de adicion de coeficiente (proceso en Fase Sg3). La unidad secundaria de ajuste de alta frecuencia 2j4 puede realizar por lo menos uno de entre el filtrado inverso de prediccion lineal en la direccion temporal y el ajuste de incremento (ajuste de caractensticas de frecuencia) en el componente de senal de copia, utilizando la informacion suplementaria de SBR recibida de la unidad de separacion de corriente de bits 2a3.
Las unidades de ajuste de componentes de senal individual 2z1, 2z2, y 2z3 pueden funcionar en cooperacion entre sf, y generar una senal de salida en una fase intermedia anadiendo por lo menos dos componentes de senal en los cuales se realiza cualquiera de los procesos 1 a 7, y a continuacion se realiza cualquiera de los procesos 1 a 7 en la senal anadida. En este momento, la unidad secundaria de ajuste de alta frecuencia 2j4 anade la senal de salida en la fase intermedia y un componente de senal que todavfa no ha sido anadido a la senal de salida en la fase intermedia, y envfa el resultado a la unidad de adicion de coeficiente. Mas espedficamente, resulta preferible generar una senal de salida en la fase intermedia
5
10
15
20
25
30
35
40
45
50
55
60
realizando el proceso 5 en el componente de senal de copia, aplicando el proceso 1 al componente de ruido, anadiendo los dos componentes de senal y posteriormente aplicando el proceso 2 a la senal anadida. En este momento, la unidad secundaria de ajuste de alta frecuencia 2j4 anade el componente de senal de sinusoide a la senal de salida en la fase intermedia, y envfa el resultado a la unidad de adicion de coeficiente.
La unidad primaria de ajuste de alta frecuencia 2j3 puede enviar cualquiera de entre una pluralidad de componentes de senal en una forma separada de las otras ademas de los tres componentes de senal del componente de senal de copia, el componente de senal de ruido y el componente de senal de sinusoide. En este caso, el componente de senal puede obtenerse anadiendo por lo menos dos de entre el componente de senal de copia, el componente de senal de ruido y el componente de senal de sinusoide. El componente de senal puede ser tambien una senal obtenida dividiendo la banda de uno de entre el componente de senal de copia, el componente de senal de ruido y la senal de sinusoide. El numero de componentes de senal puede ser distinto de tres, y en ese caso, el numero de unidades de ajuste de componentes de senal individual puede ser distinto de tres.
La senal de alta frecuencia generada por SBR consiste en tres elementos del componente de senal de copia obtenidos copiando desde la banda de baja frecuencia a la banda de alta frecuencia, la senal de ruido y la senal de sinusoide. Dado que la senal de copia, la senal de ruido y la senal de sinusoide tienen envoltorios temporales distintos entre sf, si el envoltorio temporal de cada componente de la senal se forma utilizando metodos diferentes tales como las unidades de ajuste de componentes de senal individual de la presente modificacion, resulta posible mejorar todavfa mas la calidad subjetiva de la senal decodificada en comparacion con los otros ejemplos. En particular, dado que la senal de ruido generalmente tiene un envoltorio temporal liso, y la senal de copia tiene un envoltorio temporal proximo al de la senal en la banda de baja frecuencia, los envoltorios temporales de la senal de copia y de la senal de ruido pueden ser controlados de forma independiente, manejandolos por separado y aplicando diferentes procesos. Por consiguiente, resulta efectivo para mejorar la calidad subjetiva de la senal decodificada. Mas espedficamente, resulta preferible realizar un proceso de formacion del envoltorio temporal en la senal de ruido (proceso 3 o proceso 4), realizar un proceso distinto del de la senal de ruido en la senal de copia (proceso 1 o proceso 2), y realizar el proceso 5 en la senal de sinusoide (en otras palabras, no se realiza el proceso de formacion del envoltorio temporal). Tambien resulta preferible realizar un proceso de formacion (proceso 3 o proceso 4) del envoltorio temporal en la senal de ruido, y realizar el proceso 5 en la senal de copia y la senal de sinusoide (en otras palabras, no se realiza el proceso de formacion del envoltorio temporal).
(Modificacion 4 del Primer Ejemplo)
Un dispositivo de codificacion de habla 11b (FIG. 44) de una modificacion 4 del Primer ejemplo incluye ffsicamente una CPU, una ROM, una RAM, un dispositivo de comunicacion y similares, que no se ilustran, y la CPU controla de forma integral el dispositivo de codificacion de habla 11b cargando y ejecutando un programa de ordenador predeterminado almacenado en una memoria integrada del dispositivo de codificacion de habla 11b como la ROM en la RAM. El dispositivo de comunicacion del dispositivo de codificacion de habla 11b recibe una senal de habla que va a ser codificada desde fuera del dispositivo de codificacion de habla 11b y produce una corriente de bits multiplicados codificados hacia fuera del dispositivo de codificacion de habla 11b. El dispositivo de codificacion de habla 11b incluye una unidad de analisis de prediccion lineal 1e1 en lugar de la unidad de analisis de prediccion lineal 1e del dispositivo de codificacion de habla 11b, y tambien incluye una unidad de seleccion de ranura de tiempo 1p.
La unidad de seleccion de ranura de tiempo 1p recibe una senal en el dominio QMF de la unidad de transformacion de frecuencia 1a y selecciona una ranura de tiempo en la cual se realiza el analisis de prediccion lineal por parte de la unidad de analisis de prediccion lineal 1e1. La unidad de analisis de prediccion lineal 1e1 realiza un analisis de prediccion lineal en la senal de dominio QMF en la ranura de tiempo seleccionada como la unidad de analisis de prediccion lineal 1e, basada en el resultado de seleccion transmitido desde la unidad de seleccion de ranura de tiempo 1p, para obtener por lo menos uno de entre el coeficiente de prediccion lineal de alta frecuencia y el coeficiente de prediccion lineal de baja frecuencia. La unidad de calculo de parametros de intensidad de filtro 1f calcula un parametro de intensidad de filtro utilizando coeficientes de prediccion lineal de la ranura de tiempo seleccionada por la unidad de seleccion de ranura de tiempo 1p, obtenido por la unidad de analisis de prediccion lineal 1e1. Para seleccionar una ranura de tiempo por parte de la unidad de seleccion de ranura de tiempo 1p, por ejemplo puede utilizarse al menos un metodo de seleccion que utilice la potencia de senal de la senal de dominio QMF de los componentes de alta frecuencia, similar al de una unidad de seleccion de ranura de tiempo 3 en un dispositivo de decodificacion 21a de la presente modificacion, que se describira mas adelante. En este momento, resulta preferible que la senal de dominio QMF de los componentes de alta frecuencia en la unidad de seleccion de ranura de tiempo 1p sea un componente de frecuencia codificado por la unidad de codificacion de SBR 1d, entre las senales en el dominio QMF recibidas de la unidad de transformacion de frecuencia 1a. El metodo de seleccion de la ranura de tiempo puede ser al menos uno de los metodos
5
10
15
20
25
30
35
40
45
50
55
60
descritos anteriormente, puede incluir al menos un metodo distinto de los que se han descrito anteriormente, o puede ser la combinacion de los mismos.
Un dispositivo de decodificacion de habla 21a (ver FIG. 18) de la modificacion 4 del primer ejemplo incluye ffsicamente una CPU, una ROM, una RAM, un dispositivo de comunicacion y similares, que no se ilustran, y la CPU controla de forma integral el dispositivo de decodificacion de habla 21a cargando y ejecutando un programa de ordenador predeterminado (como por ejemplo un programa de ordenador para realizar procesos, ilustrados en el diagrama de flujo de la FIG. 19) almacenado en una memoria integrada del dispositivo de decodificacion de habla 21a como la ROM en la RAM. El dispositivo de comunicacion del dispositivo de decodificacion de habla 21a recibe la corriente de bits multiplicados codificados y produce una senal de habla decodificada hacia fuera del dispositivo de decodificacion de habla 21a. Tal como se ilustra en la FIG. 18, el dispositivo de decodificacion de habla 21a incluye una unidad de analisis de prediccion lineal de baja frecuencia 2d1, una unidad de deteccion de cambio de senal 2e1, una unidad de analisis de prediccion lineal de alta frecuencia 2h1, una unidad de filtro inverso de prediccion lineal 2i1, y una unidad de filtro de prediccion lineal 2k3 en lugar de la unidad de analisis de prediccion lineal de baja frecuencia 2d, la unidad de deteccion de cambio de senal 2e, la unidad de analisis de prediccion lineal de alta frecuencia 2h, la unidad de filtro inverso de prediccion lineal 2i, y la unidad de filtro de prediccion lineal 2k del dispositivo de decodificacion de habla 21, y tambien incluye la unidad de seleccion de ranura de tiempo 3a.
La unidad de seleccion de ranura de tiempo 3a determina si va a realizarse el filtrado de smtesis de prediccion lineal en la unidad de filtro de prediccion lineal 2k en la senal qexp (k, r) en el dominio QMF de los componentes de alta frecuencia de la ranura de tiempo r generados por la unidad de generacion de alta frecuencia 2g, y selecciona una ranura de tiempo en la cual se realiza el filtrado de smtesis de prediccion lineal (proceso en Fase Sh1). La unidad de seleccion de ranura de tiempo 3a notifica, del resultado de la seleccion de la ranura de tiempo, la unidad de analisis de prediccion lineal de baja frecuencia 2d1, la unidad de deteccion de cambio de senal 2e1, la unidad de analisis de prediccion lineal de alta frecuencia 2h1, la unidad de filtro inverso de prediccion lineal 2i1 y la unidad de filtro de prediccion lineal 2k3. La unidad de analisis de prediccion lineal de baja frecuencia 2d1 realiza un analisis de prediccion lineal en la senal de dominio QMF en la ranura de tiempo seleccionada r1, de la misma manera en que la unidad de analisis de prediccion lineal de baja frecuencia 2d, basandose en el resultado de la seleccion transmitido desde la unidad de seleccion de ranura de tiempo 3a, para obtener coeficientes de prediccion lineal de baja frecuencia (proceso en Fase Sh2). La unidad de deteccion de cambio de senal 2e1 detecta la variacion temporal en la senal del dominio QMF en la ranura de tiempo seleccionada, como la unidad de deteccion de cambio de senal 2e, basandose en el resultado de seleccion transmitido desde la unidad de seleccion de ranura de tiempo 3a, y produce un resultado de deteccion T (r1).
La unidad de ajuste de intensidad de filtro 2f realiza un ajuste de intensidad de filtro en los coeficientes de prediccion lineal de baja frecuencia de la ranura de tiempo seleccionada por la unidad de seleccion de ranura de tiempo 3a obtenida por la unidad de analisis de prediccion lineal de baja frecuencia 2d1, para obtener unos coeficientes de prediccion lineal adec (n, r1) ajustados. La unidad de analisis de prediccion lineal de alta frecuencia 2h1 realiza un analisis de prediccion lineal en la direccion de frecuencia en la senal de dominio QMF de los componentes de alta frecuencia generados por la unidad de generacion de alta frecuencia 2g para la ranura de tiempo r1 seleccionada, basandose en el resultado de la seleccion transmitido desde la unidad de seleccion de ranura de tiempo 3a, como la unidad de analisis de prediccion lineal de alta frecuencia 2k, para obtener unos coeficientes de prediccion lineal de alta frecuencia aexp (n, r1) (proceso en Fase Sh3). La unidad de filtro inverso de prediccion lineal 2i1 realiza un filtrado inverso de prediccion lineal, en el cual aexp (n, r1) son coeficientes, en la direccion de frecuencia en la senal qexp (k, r) en el dominio QMF de los componentes de alta frecuencia de la ranura de tiempo r1 seleccionada, como la unidad de filtro inverso de prediccion lineal 2i, basado en los resultados de la seleccion transmitidos desde la unidad de seleccion de ranura de tiempo 3a (proceso en Fase Sh4).
La unidad de filtro de prediccion lineal 2k3 realiza un filtrado de smtesis de prediccion lineal en la direccion de frecuencia en una senal qadj(k, r1) en el dominio QMF de los componentes de alta frecuencia enviados desde la unidad de ajuste de alta frecuencia 2j en la ranura de tiempo r1 seleccionada utilizando aadj (n, r1) obtenido de la unidad de ajuste de intensidad de filtro 2f, como la unidad de filtro de prediccion lineal 2k, basado en el resultado de la seleccion transmitido desde la unidad de seleccion de ranura de tiempo 3a (proceso en Fase Sh5). Los cambios realizados en la unidad de filtro de prediccion lineal 2k descritos en la modificacion 3 tambien pueden realizarse en la unidad de filtro de prediccion lineal 2k3. Para seleccionar una ranura de tiempo en la cual se realiza el filtrado de smtesis de prediccion lineal, por ejemplo, la unidad de seleccion de ranura de tiempo 3a puede seleccionar por lo menos una ranura de tiempo r en la cual la potencia de senal de la senal de dominio QMF qexp (k, r) de los componentes de alta frecuencia es mayor que un valor Pexp, Th- predeterminado. Es preferible calcular la potencia de senal de qexp(k,r) de acuerdo con la siguiente expresion.
5
10
15
20
25
imagen30
*=*x
donde M es un valor que representa un espectro de frecuencia superior a una frecuencia de Kmite inferior kx de los componentes de alta frecuencia generados por la unidad de generacion de alta frecuencia 2g, y el espectro de frecuencia de los componentes de alta frecuencia generados por la unidad de generacion de alta frecuencia 2g puede estar representado como kx^k< kx+M. El valor predeterminado Pexp,Th puede ser tambien un valor medio de Pexp(r) de un ancho de tiempo predeterminado que incluye la ranura de tiempo r. El ancho de tiempo predeterminado tambien puede ser el envoltorio de SBR.
La seleccion tambien puede hacerse para incluir una ranura de tiempo en la cual la potencia de senal de la senal de dominio QMF de los componentes de alta frecuencia alcanza su pico. La potencia de senal pico puede calcularse, por ejemplo, utilizando un valor medio movil:
imagen31
de la potencia de senal, y la potencia de senal pico puede ser la potencia de senal en el dominio QMF de los componentes de alta frecuencia de la ranura de tiempo r en la cual el resultado de
imagen32
cambia de valor positivo a valor negativo. El valor movil medio de la potencia de senal,
por ejemplo, puede calcularse mediante la expresion siguiente
imagen33
donde c es un valor predeterminado para definir un espectro para calcular el valor medio. La potencia de senal pico puede calcularse mediante el metodo descrito mas arriba, o puede calcularse con un metodo diferente.
Por lo menos una ranura de tiempo puede seleccionarse a partir de ranuras de tiempo incluidas en un ancho de tiempo t durante el cual la senal de dominio QMF de los componentes de alta frecuencia transita desde un estado fijo con una pequena variacion de su potencia de senal a un estado transitorio con una gran variaion de su potencia de senal, y que es inferior a un valor predeterminado tth. Por lo menos una ranura de tiempo puede ser tambien seleccionada a partir de ranuras de tiempo incluidas en un ancho de tiempo t
imagen34
5
10
15
20
25
30
35
40
45
50
55
60
durante el cual la potencia de senal de la senal de dominio QMF de los componentes de alta frecuencia se cambia de un estado transitorio con una gran variacion a un estado fijo con una pequena variacion, y que son superiores al valor predeterminado tth. La ranura de tiempo r en la cual |Pexp(r+1)-Pexp(r)! es menor que un valor predeterminado (o igual o menor que un valor predeterminado) puede ser el estado fijo, y la ranura de tiempo r en la cual !Pexp(r+1)-Pexp(r)! es igual o superior a un valor predeterminado (o mayor que un valor predeterminado) puede ser el estado transitorio. La ranura de tiempo r en la cual !Pexp,MA(r+1)-Pexp,MA(r)! es menor que un valor predeterminado (o igual o menor que un valor predeterminado) puede ser el estado fijo, y la ranura de tiempo r en la cual !Pexp,MA(r+1)-Pexp,MA(r)! es igual o superior a un valor predeterminado (o mayor que un valor predeterminado) puede ser el estado transitorio. El estado transitorio y el estado fijo pueden definirse utilizando el metodo descrito mas arriba, o pueden definirse utilizando diferentes metodos. El metodo de seleccion de ranura de tiempo puede ser por lo menos alguno de los metodos descritos mas arriba, puede incluir por lo menos un metodo distinto de los que se han descrito mas arriba o puede ser una combinacion de los mismos.
(Modificacion 5 del Primer ejemplo)
Un dispositivo de codificacion de habla 11c (FIG. 45) de una modificacion 5 del Primer ejemplo incluye ffsicamente una CPU, una ROM, una RAM, un dispositivo de comunicacion y similares, que no se ilustran, y la CPU controla de forma integral el dispositivo de codificacion de habla 1lc cargando y ejecutando un programa de ordenador predeterminado almacenado en una memoria integrada del dispositivo de codificacion de habla 11c como la ROM en la RAM. El dispositivo de comunicacion del dispositivo de codificacion de habla 11c recibe una senal de habla que va a ser codificada desde fuera del dispositivo de codificacion de habla 11c y envfa una corriente de bits multiplicados codificados hacia fuera del dispositivo de codificacion de habla 11c. El dispositivo de codificacion de habla 11c incluye una unidad de seleccion de ranura de tiempo 1p1, y una unidad de multiplicacion de corriente de bits 1g4 en lugar de la unidad de seleccion de ranura de tiempo 1p y la unidad de multiplicacion de corriente de bits 1g del dispositivo de codificacion de habla 11b de la modificacion 4.
La unidad de seleccion de ranura de tiempo 1p1 selecciona una ranura de tiempo como la unidad de seleccion de ranura de tiempo 1p descrita en la modificacion 4 del Primer ejemplo, y transmite informacion de seleccion de ranura de tiempo a la unidad de multiplicacion de corriente de bits 1g4. La unidad de multiplicacion de corriente de bits 1g4 multiplica la corriente de bits codificados calculada por la unidad central de codificacion de codecs 1c, la informacion suplementaria de SBR calculada por la unidad de codificacion de SBR 1d y el parametro de intensidad de filtro calculado por la unidad de calculo de parametros de intensidad de filtro1f, como la unidad de multiplicacion de corriente de bits 1g, tambien multiplica la informacion de seleccion de ranura de tiempo recibida de la unidad de seleccion de ranura de tiempo 1p1, y envfa la corriente de bits multiplicados a traves del dispositivo de comunicacion del dispositivo de codificacion de habla 11c. La informacion de seleccion de ranura de tiempo es informacion de seleccion de ranura de tiempo recibida por una unidad de seleccion de ranura de tiempo 3a1 en un dispositivo de decodificacion de habla 21b, que sera descrito mas adelante, y por ejemplo, puede incluirse un mdice r1 de una ranura de tiempo a seleccionar. La informacion de seleccion de ranura de tiempo puede ser tambien un parametro utilizado en el metodo de seleccion de ranura de tiempo de la unidad de seleccion de ranura de tiempo 3a1. El dispositivo de decodificacion de habla 21b (ver FIG. 20) de la modificacion 5 del Primer ejemplo incluye ffsicamente una CPU, una ROM, una RAM, un dispositivo de comunicacion y similares, que no se ilustran, y la CPU controla de forma integral el dispositivo de decodificacion de habla 21b cargando y ejecutando un programa de ordenador predeterminado (como por ejemplo un programa de ordenador para realizar procesos, ilustrados en el diagrama de flujo de la FIG. 21) almacenado en una memoria integrada del dispositivo de decodificacion de habla 21b como la ROM en la RAM. El dispositivo de comunicacion del dispositivo de decodificacion de habla 21b recibe la corriente de bits multiplicados codificados y produce una senal de habla decodificada hacia fuera del dispositivo de decodificacion de habla 21b.
Tal como se ilustra en la FIG. 20, el dispositivo de decodificacion de habla 21b incluye una unidad de separacion de corriente de bits 2a5 y la unidad de seleccion de ranura de tiempo 3a1 en lugar de la unidad de separacion de corriente de bits 2a y la unidad de seleccion de ranura de tiempo 3a del dispositivo de decodificacion de habla 21a de la modificacion 4, y la informacion de seleccion de ranura de tiempo se suministra a la unidad de seleccion de ranura de tiempo 3a1. La unidad de separacion de corriente de bits 2a5 separa la corriente de bits multiplicados en el parametro de intensidad de filtro, la informacion suplementaria de SBR y la corriente de bits codificados como la unidad de separacion de corriente de bits 2a, y asimismo separa la informacion de seleccion de ranura de tiempo. La unidad de seleccion de ranura de tiempo 3a1 selecciona una ranura de tiempo sobre la base de la informacion de seleccion de ranura de tiempo transmitida desde la unidad de separacion de corriente de bits 2a5 (proceso en Fase Si1). La informacion de ranura de tiempo es informacion utilizada para seleccionar una ranura de tiempo, y por ejemplo puede incluir el mdice r1 de la ranura de tiempo que se va a seleccionar. La informacion de seleccion de ranura de tiempo puede ser tambien un parametro, por ejemplo, utilizado en el metodo de seleccion de ranura de tiempo descrito en la modificacion 4. En este caso, aunque no se ilustra, la senal de dominio QMF de los componentes de alta frecuencia generada por la unidad de generacion de senal de
5
10
15
20
25
30
35
40
45
50
55
alta frecuencia 2g puede ser suministrada a la unidad de seleccion de ranura de tiempo 3a1, ademas de la informacion de seleccion de ranura de tiempo. El parametro puede ser tambien un valor predeterminado (como por ejemplo Pexp,Th y tTh) utilizado para seleccionar la ranura de tiempo.
(Modificacion 6 del Primer ejemplo)
Un dispositivo de codificacion de habla 11d (que no se ilustra) de una modificacion 6 del primer ejemplo incluye ffsicamente una CPU, una ROM, una RAM, un dispositivo de comunicacion y similares, que no se ilustran, y la CPU controla de forma integral el dispositivo de codificacion de habla 11d cargando y ejecutando un programa de ordenador predeterminado almacenado en una memoria integrada del dispositivo de codificacion de habla 11d como la ROM en la RAM. El dispositivo de comunicacion del dispositivo de codificacion de habla 11d recibe una senal de habla que va a ser codificada desde fuera del dispositivo de codificacion de habla 11d y envfa una corriente de bits multiplicados codificados hacia fuera del dispositivo de codificacion de habla 11d. El dispositivo de codificacion de habla 11d incluye una unidad de calculo de potencia a corto plazo 1i1, que no esta ilustrada, en lugar de la unidad de calculo de potencia a corto plazo 1i del dispositivo de codificacion de habla 11a de la modificacion 1, y tambien incluye una unidad de seleccion de ranura de tiempo 1 p2.
La unidad de seleccion de ranura de tiempo 1p2 recibe una senal en el dominio QMF desde la unidad de transformacion de frecuencia 1a, y selecciona una ranura de tiempo correspondiente al segmento de tiempo en el cual se realiza el proceso de calculo de potencia a corto plazo por parte de la unidad de calculo de potencia a corto plazo 1i. La unidad de calculo de potencia a corto plazo 1i1 calcula la potencia a corto plazo de un segmento de tiempo correspondiente a la ranura de tiempo seleccionada sobre la base del resultado de la seleccion transmitido desde la unidad de seleccion de ranura de tiempo 1p2, como la unidad de calculo de potencia a corto plazo 1i del dispositivo de codificacion de habla 11a de la modificacion 1.
(Modificacion 7 del Primer ejemplo)
Un dispositivo de codificacion de habla 11e (que no se ilustra) de una modificacion 7 del Primer ejemplo incluye ffsicamente una CPU, una ROM, una RAM, un dispositivo de comunicacion y similares, que no se ilustran, y la CPU controla de forma integral el dispositivo de codificacion de habla 11e cargando y ejecutando un programa de ordenador predeterminado almacenado en una memoria integrada del dispositivo de codificacion de habla 11e como la ROM en la RAM. El dispositivo de comunicacion del dispositivo de codificacion de habla 11e recibe una senal de habla que va a ser codificada desde fuera del dispositivo de codificacion de habla 11e y produce una corriente de bits multiplicados codificados hacia fuera del dispositivo de codificacion de habla 11e. El dispositivo de codificacion de habla 11e incluye una unidad de seleccion de ranura de tiempo 1p3, que no esta ilustrada, en lugar de la unidad de seleccion de ranura de tiempo 1p2 del dispositivo de codificacion de habla 11d de la modificacion 6. El dispositivo de codificacion de habla 11e tambien incluye una unidad de multiplicacion de corriente de bits que tambien recibe informacion de la unidad de seleccion de ranura de tiempo 1p3, en lugar de la unidad de multiplicacion de corriente de bits 1g1. La unidad de seleccion de ranura de tiempo 1p3 selecciona una ranura de tiempo como la unidad de seleccion de ranura de tiempo 1p2 descrita en la modificacion 6 del Primer ejemplo, y transmite la informacion de seleccion de ranura de tiempo a la unidad de multiplicacion de corriente de bits.
(Modificacion 8 del Primer ejemplo)
Un dispositivo de codificacion de habla (que no se ilustra) de una modificacion 8 del primer ejemplo incluye ffsicamente una CPU, una ROM, una RAM, un dispositivo de comunicacion y similares, que no se ilustran, y la CPU controla de forma integral el dispositivo de codificacion de habla de la modificacion 8 cargando y ejecutando un programa de ordenador predeterminado almacenado en una memoria integrada del dispositivo de codificacion de habla de la modificacion 8 como la ROM en la RAM. El dispositivo de comunicacion del dispositivo de codificacion de habla de la modificacion 8 recibe una senal de habla que va a ser codificada desde fuera del dispositivo de codificacion de habla y produce una corriente de bits multiplicados codificados hacia fuera del dispositivo de codificacion de habla. El dispositivo de codificacion de habla de la modificacion 8 incluye tambien una unidad de seleccion de ranura de tiempo 1p ademas de las del dispositivo de codificacion de habla descrito en la modificacion 2.
Un dispositivo de decodificacion de habla (que no se ilustra) de la modificacion 8 del Primer ejemplo incluye ffsicamente una CPU, una ROM, una RAM, un dispositivo de comunicacion y similares, que no se ilustran, y la CPU controla de forma integral el dispositivo de decodificacion de habla de la modificacion 8 cargando y ejecutando un programa de ordenador predeterminado almacenado en una memoria integrada del dispositivo de decodificacion de habla de la modificacion 8 como la ROM en la RAM. El dispositivo de comunicacion del dispositivo de decodificacion de habla de la modificacion 8 recibe la corriente de bits multiplicados codificados y produce una senal de habla decodificada hacia fuera del dispositivo de decodificacion de habla. El dispositivo de decodificacion de habla de la modificacion 8 incluye tambien la unidad de analisis de prediccion lineal de baja frecuencia 2d1, la unidad de deteccion de cambio de senal
5
10
15
20
25
30
35
40
45
50
55
2e1, la unidad de analisis de prediccion lineal de alta frecuencia 2h1, la unidad de filtro inverso de prediccion lineal 2i1, y la unidad de filtro de prediccion lineal 2k3 en lugar de la unidad de analisis de prediccion lineal de baja frecuencia 2d, la unidad de deteccion de cambio de senal 2e, la unidad de analisis de prediccion lineal de alta frecuencia 2h, la unidad de filtro inverso de prediccion lineal 2i, y la unidad de filtro de prediccion lineal 2k del dispositivo de decodificacion de habla descrito en la modificacion 2, y tambien incluye la unidad de seleccion de ranura de tiempo 3a.
(Modificacion 9 del Primer ejemplo)
Un dispositivo de codificacion de habla (que no se ilustra) de una modificacion 9 del primer ejemplo incluye ffsicamente una CPU, una ROM, una RAM, un dispositivo de comunicacion y similares, que no se ilustran, y la CPU controla de forma integral el dispositivo de codificacion de habla de la modificacion 9 cargando y ejecutando un programa de ordenador predeterminado almacenado en una memoria integrada del dispositivo de codificacion de habla de la modificacion 9 como la ROM en la RAM. El dispositivo de comunicacion del dispositivo de codificacion de habla de la modificacion 9 recibe una senal de habla que va a ser codificada desde fuera del dispositivo de codificacion de habla y produce una corriente de bits multiplicados codificados hacia fuera del dispositivo de codificacion de habla. El dispositivo de codificacion de habla de la modificacion 9 incluye la unidad de seleccion de ranura de tiempo 1p1 en lugar de la unidad de seleccion de ranura de tiempo 1p del dispositivo de codificacion de habla descrito en la modificacion 8. El dispositivo de codificacion de habla de la modificacion 9 incluye tambien una unidad de multiplicacion de corriente de bits que recibe informacion de la unidad de seleccion de ranura de tiempo 1p1 ademas la informacion suministrada a la unidad de multiplicacion de corriente de bits descrita en la modificacion 8, en lugar de la unidad de multiplicacion de corriente de bits descrita en la modificacion 8.
Un dispositivo de decodificacion de habla (que no se ilustra) de la modificacion 9 del primer ejemplo incluye ffsicamente una CPU, una ROM, una RAM, un dispositivo de comunicacion y similares, que no se ilustran, y la CPU controla de forma integral el dispositivo de decodificacion de habla de la modificacion 9 cargando y ejecutando un programa de ordenador predeterminado almacenado en una memoria integrada del dispositivo de decodificacion de habla de la modificacion 9 como la ROM en la RAM. El dispositivo de comunicacion del dispositivo de decodificacion de habla de la modificacion 9 recibe la corriente de bits multiplicados codificados y produce una senal de habla decodificada hacia fuera del dispositivo de decodificacion de habla. El dispositivo de decodificacion de habla de la modificacion 9 incluye la unidad de seleccion de ranura de tiempo 3a1 en lugar de la unidad de seleccion de ranura de tiempo 3a del dispositivo de decodificacion de habla descrito en la modificacion 8. El dispositivo de decodificacion de habla de la modificacion 9 tambien incluye una unidad de separacion de corriente de bits que separa aD (n, r) descrito en la modificacion 2 en lugar del parametro de intensidad de filtro de la unidad de separacion de corriente de bits 2a5, en lugar de la unidad de separacion de corriente de bits 2a.
(Modificacion 1 del Segundo ejemplo)
Un dispositivo de codificacion de habla 12a (FIG. 46) de una modificacion 1 del segundo ejemplo incluye ffsicamente una CPU, una ROM, una RAM, un dispositivo de comunicacion y similares, que no se ilustran, y la CPU controla de forma integral el dispositivo de codificacion de habla 12a cargando y ejecutando un programa de ordenador predeterminado almacenado en una memoria integrada del dispositivo de codificacion de habla 12a como la ROM en la RAM. El dispositivo de comunicacion del dispositivo de codificacion de habla 12a recibe una senal de habla que va a ser codificada desde fuera del dispositivo de codificacion de habla 12a y produce una corriente de bits multiplicados codificados hacia fuera del dispositivo de codificacion de habla 12a. El dispositivo de codificacion de habla 12a incluye la unidad de analisis de prediccion lineal 1e1 en lugar de la unidad de analisis de prediccion lineal 1e del dispositivo de codificacion de habla 12, y tambien incluye la unidad de seleccion de ranura de tiempo 1p.
Un dispositivo de decodificacion de habla 22a (ver FIG. 22) de la modificacion 1 del Segundo ejemplo incluye ffsicamente una CPU, una ROM, una RAM, un dispositivo de comunicacion y similares, que no se ilustran, y la CPU controla de forma integral el dispositivo de decodificacion de habla 22a cargando y ejecutando un programa de ordenador predeterminado (como por ejemplo un programa de ordenador para realizar procesos, ilustrado en el diagrama de flujo de la FIG. 23) almacenado en una memoria integrada del dispositivo de decodificacion de habla 22a como la ROM en la RAM. El dispositivo de comunicacion del dispositivo de decodificacion de habla 22a recibe la corriente de bits multiplicados codificados y produce una senal de habla decodificada hacia fuera del dispositivo de decodificacion de habla 22a. El dispositivo de decodificacion de habla 22a, tal como se ilustra en la FIG. 22, incluye la unidad de analisis de prediccion lineal de baja frecuencia 2d1, la unidad de deteccion de cambio de senal 2e1, la unidad de analisis de prediccion lineal de alta frecuencia 2h1, la unidad de filtro inverso de prediccion lineal 2i1, una unidad de filtro de prediccion lineal 2k2, y una unidad de interpolacion/extrapolacion de prediccion lineal 2p1, en lugar de la unidad de analisis de prediccion lineal de alta frecuencia 2h, la unidad de filtro inverso de prediccion lineal 2i, la unidad de filtro de prediccion lineal 2k1, y la unidad de interpolacion/extrapolacion de prediccion
5
10
15
20
25
30
35
40
45
50
55
lineal 2p del dispositivo de decodificacion de habla 22 del Segundo ejemplo, y tambien incluye la unidad de seleccion de ranura de tiempo 3a.
La unidad de seleccion de ranura de tiempo 3a notifica del resultado de la seleccion de la ranura de tiempo, a la unidad de analisis de prediccion lineal de alta frecuencia 2h1, la unidad de filtro inverso de prediccion lineal 2i1, la unidad de filtro de prediccion lineal 2k2, y la unidad de interpolacion/extrapolacion de coeficiente de prediccion lineal 2p1. La unidad de interpolacion/extrapolacion de coeficiente de prediccion lineal 2p1 obtiene aH(n, r) correspondiente a la ranura de tiempo r1 que es la ranura de tiempo seleccionada y cuyos coeficientes de prediccion lineal no se transmiten por interpolacion o extrapolacion, como la unidad de interpolacion/extrapolacion de coeficiente de prediccion lineal 2p, en base al resultado de la seleccion transmitido desde la unidad de seleccion de ranura de tiempo 3a (proceso en Fase Sj1). La unidad de filtro de prediccion lineal 2k2 realiza un filtrado de smtesis de prediccion lineal en la direccion de frecuencia en el resultado de qadj (n, r1) desde la unidad de ajuste de alta frecuencia 2j para la ranura de tiempo r1 seleccionada utilizando aH (n, r1) que se interpola o extrapola y se obtiene desde la unidad de interpolacion/extrapolacion de coeficiente de prediccion lineal 2p1, como la unidad de filtro de prediccion lineal 2k1 (proceso en Fase Sj2), en base al resultado de seleccion transmitido desde la unidad de seleccion de ranura de tiempo 3a. Los cambios realizados en la unidad de filtro de prediccion lineal 2k descritos en la modificacion 3 del primer ejemplo tambien pueden realizarse en la unidad de filtro de prediccion lineal 2k2.
(Modificacion 2 del Segundo ejemplo)
Un dispositivo de codificacion de habla 12b (FIG. 47) de una modificacion 2 del segundo ejemplo incluye ffsicamente una CPU, una ROM, una RAM, un dispositivo de comunicacion y similares, que no se ilustran, y la CPU controla de forma integral el dispositivo de codificacion de habla 11b cargando y ejecutando un programa de ordenador predeterminado almacenado en una memoria integrada del dispositivo de codificacion de habla 12b como la ROM en la RAM. El dispositivo de comunicacion del dispositivo de codificacion de habla 12b recibe una senal de habla que va a ser codificada desde fuera del dispositivo de codificacion de habla 12b y envfa una corriente de bits multiplicados codificados hacia fuera del dispositivo de codificacion de habla 12b. El dispositivo de codificacion de habla 12b incluye la unidad de seleccion de ranura de tiempo 1p1, y una unidad de multiplicacion de corriente de bits 1g5 en lugar de la unidad de seleccion de ranura de tiempo 1p y la unidad de multiplicacion de corriente de bits 1g2 del dispositivo de codificacion de habla 12a de la modificacion 1. La unidad de multiplicacion de corriente de bits 1g5 multiplica la corriente de bits codificados calculada por la unidad central de codificacion de codecs 1c, la informacion suplementaria de SBR calculada por la unidad de codificacion de SBR 1d, e indexa las ranuras de tiempo correspondientes a los coeficientes de prediccion lineal cuantificados recibidos de la unidad de cuantificacion de coeficientes de prediccion lineal 1k como la unidad de multiplicacion de corriente de bits 1g2, tambien multiplica la informacion de seleccion de ranura de tiempo recibida de la unidad de seleccion de ranura de tiempo 1p1, y envfa la corriente de bits multiplicados a traves del dispositivo de comunicacion del dispositivo de codificacion de habla 12b.
Un dispositivo de decodificacion de habla 22b (ver FIG. 24) de la modificacion 2 del Segundo ejemplo incluye ffsicamente una CPU, una ROM, una RAM, un dispositivo de comunicacion y similares, que no se ilustran, y la CPU controla de forma integral el dispositivo de decodificacion de habla 22b cargando y ejecutando un programa de ordenador predeterminado (como por ejemplo un programa de ordenador para realizar procesos, ilustrado en el diagrama de flujo de la FIG. 25) almacenado en una memoria integrada del dispositivo de decodificacion de habla 22b como la ROM en la RAM. El dispositivo de comunicacion del dispositivo de decodificacion de habla 22b recibe la corriente de bits multiplicados codificados y produce una senal de habla decodificada hacia fuera del dispositivo de decodificacion de habla 22b. El dispositivo de decodificacion de habla 22b, tal como se ilustra en la FIG. 24, incluye una unidad de separacion de corriente de bits 2a6, y la unidad de seleccion de ranura de tiempo 3a1 en lugar de la unidad de separacion de corriente de bits 2a1 y la unidad de seleccion de ranura de tiempo 3a del dispositivo de decodificacion de habla 22a descrito en la modificacion 1, y la informacion de seleccion de ranura de tiempo es suministrada a la unidad de seleccion de ranura de tiempo 3a1. La unidad de separacion de corriente de bits 2a6 separa la corriente de bits multiplicados en aH (n, n) que esta siendo cuantificada el mdice r de la ranura de tiempo correspondiente, la informacion suplementaria de SBR y la corriente de bits codificados como la unidad de separacion de corriente de bits 2a1, y tambien separa la informacion de seleccion de ranura de tiempo.
(Modificacion 4 del Tercer ejemplo)
imagen35
5
10
15
20
25
30
35
40
45
50
descrito en la modificacion 1 del tercer ejemplo puede ser un valor medio de e(r) en el envoltorio de SBR, o puede ser un valor definido de alguna otra manera.
(Modificacion 5 del Tercer ejemplo)
Tal como se describe en la modificacion 3 del tercer ejemplo, es preferible que la unidad de ajuste de forma de envoltorio 2s controle eadj(r) utilizando un valor predeterminado eadj,Th(r), considerando que el envoltorio temporal ajustado eadj(r) es un coeficiente de incremento multiplicado por la muestra de subbanda de QMF, por ejemplo, como la expresion (28) y las expresiones (37) y (38).
imagen36
(Cuarto ejemplo)
Un dispositivo de codificacion de habla 14 (FIG. 48) del cuarto ejemplo incluye ffsicamente una CPU, una ROM, una RAM, un dispositivo de comunicacion y similares, que no se ilustran, y la CPU controla de forma integral el dispositivo de codificacion de habla 14 cargando y ejecutando un programa de ordenador predeterminado almacenado en una memoria integrada del dispositivo de codificacion de habla 14 como la ROM en la RAM. El dispositivo de comunicacion del dispositivo de codificacion de habla 14 recibe una senal de habla que va a ser codificada desde fuera del dispositivo de codificacion de habla 14 y envfa una corriente de bits multiplicados codificados hacia fuera del dispositivo de codificacion de habla 14. El dispositivo de codificacion de habla 14 incluye una unidad de multiplicacion de corriente de bits 1g7 en lugar de la unidad de multiplicacion de corriente de bits 1g del dispositivo de codificacion de habla 11b de la modificacion 4 del primer ejemplo, y tambien incluye la unidad de calculo de envoltorio temporal 1m y la unidad de calculo de parametros de envoltorio 1n del dispositivo de codificacion de habla 13.
La unidad de multiplicacion de corriente de bits 1g7 multiplica la corriente de bits codificados calculada por la unidad central de codificacion de codecs 1c y la informacion suplementaria de SBR calculada por la unidad de codificacion de SBR 1d como la unidad de multiplicacion de corriente de bits 1g, convierte el parametro de intensidad de filtro calculado por la unidad de calculo de parametros de intensidad de filtro y el parametro de forma de envoltorio calculado por la unidad de calculo de parametros de forma de envoltorio 1n en la informacion suplementaria de envoltorio temporal, los multiplica y envfa la corriente de bits multiplicados (corriente de bits multiplicados codificados) a traves del dispositivo de comunicacion del dispositivo de codificacion de habla 14.
(Modificacion 4 del Cuarto ejemplo)
Un dispositivo de codificacion de habla 14a (FIG. 49) de una modificacion 4 del cuarto ejemplo incluye ffsicamente una CPU, una ROM, una RAM, un dispositivo de comunicacion y similares, que no se ilustran, y la CPU controla de forma integral el dispositivo de codificacion de habla 14a cargando y ejecutando un programa de ordenador predeterminado almacenado en una memoria integrada del dispositivo de codificacion de habla 14a como la ROM en la RAM. El dispositivo de comunicacion del dispositivo de codificacion de habla 14a recibe una senal de habla que va a ser codificada desde fuera del dispositivo de codificacion de habla 14a y produce una corriente de bits multiplicados codificados hacia fuera del dispositivo de codificacion de habla 14a. El dispositivo de codificacion de habla 14a incluye la unidad de analisis de prediccion lineal 1e1 en lugar de la unidad de analisis de prediccion lineal 1e del dispositivo de codificacion de habla 14 del cuarto ejemplo, y tambien incluye la unidad de seleccion de ranura de tiempo
1p.
Un dispositivo de decodificacion de habla 24d (ver FIG. 26) de la modificacion 4 del cuarto ejemplo incluye ffsicamente una CPU, una ROM, una RAM, un dispositivo de comunicacion y similares, que no se ilustran, y la CPU controla de forma integral el dispositivo de decodificacion de habla 24d cargando y ejecutando un programa de ordenador predeterminado (como un programa de ordenador para realizar procesos, ilustrado en el diagrama de flujo de la FIG. 27) almacenado en una memoria integrada del dispositivo de decodificacion de habla 24d como la ROM en la RAM. El dispositivo de comunicacion del dispositivo de decodificacion de habla 24d recibe la corriente de bits multiplicados codificados y envfa una senal de habla decodificada hacia fuera del dispositivo de decodificacion de habla 24d. El dispositivo de decodificacion de habla 24d, tal como se ilustra en la FIG. 26, incluye la unidad de analisis de prediccion lineal de baja frecuencia 2d1, la unidad de deteccion de cambio de senal 2e1, la unidad de analisis de prediccion lineal de alta frecuencia 2h1, la unidad de filtro inverso de prediccion lineal 2i1, y la unidad de filtro de prediccion lineal 2k3 en lugar de la unidad de analisis de prediccion lineal de baja frecuencia 2d, la unidad de deteccion de cambio de senal 2e, la unidad de analisis de prediccion lineal de alta frecuencia 2h, la unidad de filtro
5
10
15
20
25
30
35
40
inverso de prediccion lineal 2i, y la unidad de filtro de prediccion lineal 2k del dispositivo de decodificacion de habla 24, y tambien incluye la unidad de seleccion de ranura de tiempo 3a. La unidad de formacion del envoltorio temporal 2v da forma a la senal en el dominio QMF obtenido de la unidad de filtro de prediccion lineal 2k3 utilizando la informacion del envoltorio temporal obtenida de la unidad de ajuste de forma de envoltorio 2s, como la unidad de formacion del envoltorio temporal 2v del tercer ejemplo, del cuarto ejemplo y de sus modificaciones (proceso en Fase Ski).
(Modificacion 5 del Cuarto ejemplo)
Un dispositivo de decodificacion de habla 24e (ver FIG. 28) de una modificacion 5 del cuarto ejemplo incluye ffsicamente una CPU, una ROM, una RAM, un dispositivo de comunicacion y similares, que no se ilustran, y la CPU controla de forma integral el dispositivo de decodificacion de habla 24e cargando y ejecutando un programa de ordenador predeterminado (como un programa de ordenador para realizar procesos, ilustrado en el diagrama de flujo de la FIG. 29) almacenado en una memoria integrada del dispositivo de decodificacion de habla 24e como la ROM en la RAM. El dispositivo de comunicacion del dispositivo de decodificacion de habla 24e recibe la corriente de bits multiplicados codificados y envfa una senal de habla decodificada hacia fuera del dispositivo de decodificacion de habla 24e. En la modificacion 5, el dispositivo de decodificacion de habla 24e, tal como se ilustra en la FIG. 28, omite la unidad de analisis de prediccion lineal de alta frecuencia 2h1, y la unidad de filtro inverso de prediccion lineal 2i1 del dispositivo de decodificacion de habla 24d descrito en la modificacion 4 que puede omitirse a lo largo del cuarto ejemplo como el primer ejemplo, e incluye una unidad de seleccion de ranura de tiempo 3a2, y una unidad de formacion del envoltorio temporal 2v1 en lugar de la unidad de seleccion de ranura de tiempo 3a y la unidad de formacion del envoltorio temporal 2v del dispositivo de decodificacion de habla 24d. El dispositivo de decodificacion de habla 24e tambien cambia el orden del filtrado de smtesis de prediccion lineal realizado por la unidad de filtro de prediccion lineal 2k3 y el proceso de formacion del envoltorio temporal realizado por la unidad de formacion del envoltorio temporal 2v1 cuyo orden de proceso es intercambiable a lo largo del cuarto ejemplo.
La unidad de formacion del envoltorio temporal 2v1 da forma a qadj (k, r) obtenido de la unidad de ajuste de alta frecuencia 2j utilizando eadj(r) obtenido de la unidad de ajuste de forma de envoltorio 2s, como la unidad de formacion del envoltorio temporal 2v, y obtiene una senal qenvadj (k, r) en el dominio QMF en la cual se da forma al envoltorio temporal. La unidad de formacion del envoltorio temporal 2v1 tambien notifica a la unidad de seleccion de ranura de tiempo 3a2 sobre los parametros obtenidos cuando se da forma al envoltorio temporal, o sobre los parametros calculados por lo menos utilizando los parametros obtenidos cuando se esta dando forma al envoltorio temporal como la informacion de seleccion de ranura de tiempo. La informacion de seleccion de ranura de tiempo puede ser e(r) de la expresion (22) o la expresion (40), o |e(r)|<2> a la cual no se aplica la operacion de rafz cuadrada durante el proceso de calculo. Tambien pueden utilizarse una pluralidad de secciones de ranura de tiempo (como envoltorios de SBR)
imagen37
asf como la expresion (24) que es el valor medio de las mismas
imagen38
tambien puede utilizarse como la informacion de seleccion de ranura de tiempo. Debe resenarse que:
imagen39
La informacion de seleccion de ranura de tiempo puede ser tambien eexp(r) de la expresion (26) y la expresion (41), o |eexp(r)|2 a la cual no se aplica la operacion de rafz cuadrada durante el proceso de calculo. Puede utilizarse una pluralidad de segmentos de ranura de tiempo (como los envoltorios de SBR)
imagen40
y el valor medio de los mismos
imagen41
como informacion de seleccion de ranura de tiempo. Debe indicarse que:
5
imagen42
imagen43
La informacion de seleccion de ranura de tiempo puede ser tambien eadj(r) de la expresion (23) o la expresion (35), o la expresion (36), o puede ser |eadj(r)|2 a la cual no se aplica la operacion de rafz cuadrada durante el proceso de calculo. Tambien pueden utilizarse una pluralidad de segmentos de ranura de tiempo 10 (como envoltorios de SBR)
imagen44
asf como el valor medio de las mismas
imagen45
tambien puede utilizarse como la informacion de seleccion de ranura de tiempo. Debe resenarse que:
imagen46
La informacion de seleccion de ranura de tiempo puede ser tambien eadj, scaled (r) de la expresion (37) o puede ser jeadj, scaled(r)!2 a la cual no se aplica la operacion de rafz cuadrada durante el proceso de calculo. 5 En una pluralidad de segmentos de ranura de tiempo (como envoltorios de SBR)
imagen47
asf como el valor medio de los mismos
imagen48
tambien puede utilizarse como la informacion de seleccion de ranura de tiempo. Debe resenarse que:
imagen49
La informacion de seleccion de ranura de tiempo puede ser tambien una potencia de senal Penvadj(r) de la ranura de tiempo r de la senal de dominio de QMF correspondiente a los componentes de alta frecuencia en los cuales se da forma al envoltorio temporal o un valor de amplitud de senal de los mismos a los cuales 5 se aplica la operacion de rafz cuadrada.
imagen50
En una pluralidad de segmentos de ranura de tiempo (como envoltorios de SBR)
imagen51
asf como el valor medio de los mismos
imagen52
tambien puede utilizarse como la informacion de seleccion de ranura de tiempo. Debe resenarse que:
imagen53
M es un valor que representa un espectro de frecuencia superior al de la frecuencia de l^mite inferior kx de los componentes de alta frecuencia generados por la unidad de generacion de alta frecuencia 2g, y el intervalo de frecuencia de los componentes de alta frecuencia generados por la unidad de generacion de 5 alta frecuencia 2g tambien pueden estar representados como kx^k< kx+M.
La unidad de seleccion de ranura de tiempo 3a2 selecciona ranuras de tiempo en las cuales se realiza el filtrado de smtesis de prediccion lineal por parte de la unidad de filtro de prediccion lineal 2k, determinando si se realiza el filtrado de smtesis de prediccion lineal en la senal qenvadj (k, r) en el dominio QMF de los componentes de alta frecuencia de la ranura de tiempo r en que se da forma al envoltorio temporal por parte 10 de la unidad de formacion del envoltorio temporal 2v1, en base a la informacion de seleccion de ranura de tiempo transmitida desde la unidad de formacion del envoltorio temporal 2v1 (proceso en Fase Sp1).
Para seleccionar las ranuras de tiempo en las cuales se realiza el filtrado de smtesis de prediccion lineal por parte de la unidad de seleccion de ranura de tiempo 3a2 en la presente modificacion, puede seleccionarse por lo menos una ranura de tiempo r en la cual un parametro u(r) incluido en la informacion 15 de seleccion de ranura de tiempo transmitida desde la unidad de formacion del envoltorio temporal 2v1 es mayor que un valor predeterminado uTh, o en el que al menos se puede seleccionar una ranura de tiempo r en la cual u(r) es igual o mayor que un valor predeterminado uTh. u(r) puede incluir por lo menos un elemento entre e(r), |e(r)|2, eexp(r), |eexp(r)|2, eadj(r), |eadj(r)|2, eadj, scaled (r), |eadj, scaled(r)!2, y Penvadj(r), tal como se ha
descrito anteriormente, y;
-(<»)
20
Y uTh puede incluir por lo menos uno entre;
5
10
15
20
25
30
35
imagen54
UTh puede ser tambien un valor medio de u(r) de un ancho de tiempo predeterminado (como un envoltorio de SBR) incluyendo la ranura de tiempo r. La seleccion puede hacerse tambien para incluir las ranuras de tiempo en las que u(r) alcanza sus picos. Los picos de u(r) pueden calcularse tal como se calculan los picos de la potencia de senal en la senal de dominio QMF de los componentes de alta frecuencia en la modificacion 4 del primer ejemplo. El estado fijo y el estado transitorio en la modificacion 4 del primer ejemplo pueden determinarse de forma parecida a los de la modificacion 4 del Primer ejemplo utilizando u(r), y las ranuras de tiempo pueden seleccionarse sobre esta base. El metodo de seleccion de ranura de tiempo puede ser por lo menos uno de los metodos descritos anteriormente, puede incluir por lo menos un metodo distinto de los descritos anteriormente, o puede ser una combinacion de los mismos.
(Modificacion 6 del Cuarto ejemplo)
Un dispositivo de decodificacion de habla 24f (ver FIG. 30) de una modificacion 6 del cuarto ejemplo incluye ffsicamente una CPU, una ROM, una RAM, un dispositivo de comunicacion y similares, que no se ilustran, y la CPU controla de forma integral el dispositivo de decodificacion de habla 24f cargando y ejecutando un programa de ordenador predeterminado (como por ejemplo un programa de ordenador para realizar procesos, ilustrado en el diagrama de flujo de la FIG. 29) almacenado en una memoria integrada del dispositivo de decodificacion de habla 24e como la ROM en la RAM. El dispositivo de comunicacion del dispositivo de decodificacion de habla 24f recibe la corriente de bits multiplicados codificados y envfa una senal de habla decodificada hacia fuera del dispositivo de decodificacion de habla 24f. En la modificacion 6, el dispositivo de decodificacion de habla 24f, tal como se ilustra en la FIG. 30, omite la unidad de deteccion de cambio de senal 2e1, la unidad de analisis de prediccion lineal de alta frecuencia 2h1, y la unidad de filtro inverso de prediccion lineal 2i1 del dispositivo de decodificacion de habla 24d descrito en la modificacion 4 que puede omitirse a lo largo del cuarto ejemplo como el primer ejemplo, e incluye la unidad de seleccion de ranura de tiempo 3a2 y la unidad de formacion del envoltorio temporal 2v1 en lugar de la unidad de seleccion de ranura de tiempo 3a y la unidad de formacion del envoltorio temporal 2v del dispositivo de decodificacion de habla 24d. El dispositivo de decodificacion de habla 24f tambien cambia el orden del filtrado de smtesis de prediccion lineal realizado por la unidad de filtro de prediccion lineal 2k3 y el proceso de formacion del envoltorio temporal realizado por la unidad de formacion del envoltorio temporal 2v1 cuyo orden de proceso es intercambiable a lo largo del cuarto ejemplo.
La unidad de seleccion de ranura de tiempo 3a2 determina si se realiza el filtrado de smtesis de prediccion lineal por parte de la unidad de filtro de prediccion lineal 2k3 en la senal qenvadj (k, r) en el dominio QMF de los componentes de alta frecuencia de las ranuras de tiempo r en las cuales el envoltorio temporal es formado por la unidad de formacion del envoltorio temporal 2v1, sobre la base de la informacion de seleccion de ranura de tiempo transmitida desde la unidad de formacion del envoltorio temporal 2v1, selecciona las ranuras de tiempo en que se realiza el filtrado de smtesis de prediccion lineal, y notifica sobre las ranuras de tiempo seleccionadas a la unidad de analisis de prediccion lineal de baja frecuencia 2d1 y la unidad de filtro de prediccion lineal 2k3.
5
10
15
20
25
30
35
40
45
50
55
60
(Modificacion 7 del Cuarto ejemplo)
Un dispositivo de codificacion de habla 14b (FIG. 50) de una modificacion 7 del cuarto ejemplo incluye ffsicamente una CPU, una ROM, una RAM, un dispositivo de comunicacion y similares, que no se ilustran, y la CPU controla de forma integral el dispositivo de codificacion de habla 14b cargando y ejecutando un programa de ordenador predeterminado almacenado en una memoria integrada del dispositivo de codificacion de habla 14b como la ROM en la RAM. El dispositivo de comunicacion del dispositivo de codificacion de habla 14b recibe una senal de habla que va a ser codificada desde fuera del dispositivo de codificacion de habla 14b y envfa una corriente de bits multiplicados codificados hacia fuera del dispositivo de codificacion de habla 14b. El dispositivo de codificacion de habla 14b incluye una unidad de multiplicacion de corriente de bits 1g6 y la unidad de seleccion de ranura de tiempo 1p1 en lugar de la unidad de multiplicacion de corriente de bits 1g7 y la unidad de seleccion de ranura de tiempo 1p del dispositivo de codificacion de habla 14a de la modificacion 4.
La unidad de multiplicacion de corriente de bits 1g6 multiplica la corriente de bits codificados calculados por la unidad central de codificacion de codecs 1c, la informacion suplementaria de SBR calculada por la unidad de codificacion de SBR 1d y la informacion suplementaria de envoltorio temporal en la que se convierten el parametro de intensidad de filtro calculado por la unidad de calculo de parametros de intensidad de filtro y el parametro de forma de envoltorio calculado por la unidad de calculo de parametro de forma de envoltorio 1n, tambien multiplica la informacion de seleccion de ranura de tiempo recibida de la unidad de seleccion de ranura de tiempo 1p1, y envfa la corriente de bits multiplicados (corriente de bits multiplicados codificados) a traves del dispositivo de comunicacion del dispositivo de codificacion de habla 14b.
Un dispositivo de decodificacion de habla 24g (ver FIG. 31) de una modificacion 7 del cuarto ejemplo incluye ffsicamente una CPU, una ROM, una RAM, un dispositivo de comunicacion y similares, que no se ilustran, y la CPU controla de forma integral el dispositivo de decodificacion de habla 24g cargando y ejecutando un programa de ordenador predeterminado (como el programa de ordenador para realizar procesos, ilustrado en el diagrama de flujo de la FIG. 32) almacenado en una memoria integrada del dispositivo de decodificacion de habla 24g como la ROM en la RAM. El dispositivo de comunicacion del dispositivo de decodificacion de habla 24g recibe la corriente de bits multiplicados codificados y envfa una senal de habla decodificada hacia fuera del dispositivo de decodificacion de habla 24g. El dispositivo de decodificacion de habla 24g incluye una unidad de separacion de corriente de bits 2a7 y la unidad de seleccion de ranura de tiempo 3a1 en lugar de la unidad de separacion de corriente de bits 2a3 y la unidad de seleccion de ranura de tiempo 3a del dispositivo de decodificacion de habla 2d descrito en la modificacion 4.
La unidad de separacion de bits 2a7 separa la corriente de bits multiplicados proporcionada a traves del dispositivo de comunicacion del dispositivo de decodificacion de habla 24g en la informacion suplementaria de envoltorio temporal, la informacion suplementaria de SBR y la corriente de bits codificados, como la unidad de separacion de corriente de bits 2a3, y tambien separa la informacion de seleccion de ranura de tiempo.
(Modificacion 8 del Cuarto ejemplo)
Un dispositivo de decodificacion de habla 24h (ver FIG. 33) de una modificacion 8 del cuarto ejemplo incluye ffsicamente una CPU, una ROM, una RAM, un dispositivo de comunicacion y similares, que no se ilustran, y la CPU controla de forma integral el dispositivo de decodificacion de habla 24h cargando y ejecutando un programa de ordenador predeterminado (como por ejemplo un programa de ordenador para realizar procesos, ilustrado en el diagrama de flujo de la FIG. 34) almacenado en una memoria integrada del dispositivo de decodificacion de habla 24h como la ROM en la RAM. El dispositivo de comunicacion del dispositivo de decodificacion de habla 24h recibe la corriente de bits multiplicados codificados y envfa una senal de habla decodificada hacia fuera del dispositivo de decodificacion de habla 24h. El dispositivo de decodificacion de habla 24h, tal como se ilustra en la FIG. 33, incluye la unidad de analisis de prediccion lineal de baja frecuencia 2d1, la unidad de deteccion de cambio de senal 2e1, la unidad de analisis de prediccion lineal de alta frecuencia 2h1, la unidad de filtro inverso de prediccion lineal 2i1, y la unidad de filtro de prediccion lineal 2k3 en lugar de la unidad de analisis de prediccion lineal de baja frecuencia 2d, la unidad de deteccion de cambio de senal 2e, la unidad de analisis de prediccion lineal de alta frecuencia 2h, la unidad de filtro inverso de prediccion lineal 2i, y la unidad de filtro de prediccion lineal 2k del dispositivo de decodificacion de habla 24 b de la modificacion 2, y tambien incluye la unidad de seleccion de ranura de tiempo 3a. La unidad primaria de ajuste de alta frecuencia 2j1 realiza al menos uno de los procesos en la fase “Ajuste de HF” en SBR en “MPEG-4 AAC”, como la unidad primaria de ajuste de alta frecuencia 2j1 de la modificacion 2 del cuarto ejemplo (proceso en Fase Sm1). La unidad secundaria de ajuste de alta frecuencia 2j2 realiza por lo menos uno de los procesos en la fase “Ajuste de HF” en SBR en "MPEG-4 AAC", como la unidad secundaria de ajuste de alta frecuencia 2j2 de la modificacion 2 del cuarto ejemplo (proceso en Fase Sm2). Resulta preferible que el proceso realizado por la unidad secundaria de ajuste de alta frecuencia 2j2 sea un proceso no realizado por la unidad primaria de ajuste de alta frecuencia 2j1, entre los procesos en la fase de “Ajuste de HF” en sBr en "MPEG-4 AAC".
5
10
15
20
25
30
35
40
45
50
55
(Modificacion 9 del Cuarto ejemplo)
Un dispositivo de decodificacion de habla 24i (ver FIG. 35) de la modificacion 9 del cuarto ejemplo incluye ffsicamente una CPU, una ROM, una RAM, un dispositivo de comunicacion y similares, que no se ilustran, y la CPU controla de forma integral el dispositivo de decodificacion de habla 24i cargando y ejecutando un programa de ordenador predeterminado (como un programa de ordenador para realizar procesos, ilustrado en el diagrama de flujo de la FIG. 36) almacenado en una memoria integrada del dispositivo de decodificacion de habla 24i como la ROM en la RAM. El dispositivo de comunicacion del dispositivo de decodificacion de habla 24i recibe la corriente de bits multiplicados codificados y envfa una senal de habla decodificada hacia fuera del dispositivo de decodificacion de habla 24i. El dispositivo de decodificacion de habla 24i, tal como se ilustra en la FIG. 35, omite la unidad de analisis de prediccion lineal de alta frecuencia 2h1, y la unidad de filtro inverso de prediccion lineal 2i1 del dispositivo de decodificacion de habla 24h de la modificacion 8 que puede omitirse a lo largo del cuarto ejemplo como el primer ejemplo, e incluye la unidad de formacion del envoltorio temporal 2v1 y la unidad de seleccion de ranura de tiempo 3a2 en lugar de la unidad de formacion del envoltorio temporal 2v y la unidad de seleccion de ranura de tiempo 3a del dispositivo de decodificacion de habla 24h de la modificacion 8. El dispositivo de decodificacion de habla 24i tambien cambia el orden del filtrado de smtesis de prediccion lineal realizado por la unidad de filtro de prediccion lineal 2k3 y el proceso de formacion del envoltorio temporal realizado por la unidad de formacion del envoltorio temporal 2v1 cuyo orden de proceso es intercambiable a lo largo del cuarto ejemplo.
(Modificacion 10 del Cuarto ejemplo)
Un dispositivo de decodificacion de habla 24j (ver FIG. 37) de una modificacion 10 del cuarto ejemplo incluye ffsicamente una CPU, una ROM, una RAM, un dispositivo de comunicacion y similares, que no se ilustran, y la CPU controla de forma integral el dispositivo de decodificacion de habla 24j cargando y ejecutando un programa de ordenador predeterminado (como un programa de ordenador para realizar procesos, ilustrado en el diagrama de flujo de la FIG. 36) almacenado en una memoria integrada del dispositivo de decodificacion de habla 24j como la ROM en la RAM. El dispositivo de comunicacion del dispositivo de decodificacion de habla 24j recibe la corriente de bits multiplicados codificados y envfa una senal de habla decodificada hacia fuera del dispositivo de decodificacion de habla 24j. El dispositivo de decodificacion de habla 24j, tal como se ilustra en la FIG. 37, omite la unidad de deteccion de cambio de senal 2e1, la unidad de analisis de prediccion lineal de alta frecuencia 2h1 y la unidad de filtro inverso de prediccion lineal 2i1 del dispositivo de decodificacion de habla 24h de la modificacion 8 que puede omitirse a lo largo del cuarto ejemplo como el primer ejemplo, e incluye la unidad de formacion del envoltorio temporal 2v1 y la unidad de seleccion de ranura de tiempo 3a2 en lugar de la unidad de formacion del envoltorio temporal 2v y la unidad de seleccion de ranura de tiempo 3a2 en lugar de la unidad de formacion del envoltorio temporal 2v y la unidad de seleccion de ranura de tiempo 3a del dispositivo de decodificacion de habla 24h de la modificacion 8. Se cambia el orden del filtrado de smtesis de prediccion lineal realizado por la unidad de filtro de prediccion lineal 2k3 y el proceso de formacion del envoltorio temporal realizado por la unidad de formacion del envoltorio temporal 2v1 cuyo orden de proceso es intercambiable a lo largo del cuarto ejemplo.
(Modificacion 11 del Cuarto ejemplo)
Un dispositivo de decodificacion de habla 24k (ver FIG. 38) de una modificacion 11 del cuarto ejemplo incluye ffsicamente una CPU, una ROM, una RAM, un dispositivo de comunicacion y similares, que no se ilustran, y la CPU controla de forma integral el dispositivo de decodificacion de habla 24k cargando y ejecutando un programa de ordenador predeterminado (como un programa de ordenador para realizar procesos, ilustrado en el diagrama de flujo de la FIG. 39) almacenado en una memoria integrada del dispositivo de decodificacion de habla 24k como la ROM en la RAM. El dispositivo de comunicacion del dispositivo de decodificacion de habla 24k recibe la corriente de bits multiplicados codificados y envfa una senal de habla decodificada hacia fuera del dispositivo de decodificacion de habla 24k. El dispositivo de decodificacion de habla 24k, tal como se ilustra en la FIG. 38, incluye la unidad de separacion de corriente de bits 2a7 y la unidad de seleccion de ranura de tiempo 3a1 en lugar de la unidad de separacion de corriente de bits 2a3 y la unidad de seleccion de ranura de tiempo 3a del dispositivo de decodificacion de habla 24h de la modificacion 8.
(Modificacion 12 del Cuarto ejemplo)
Un dispositivo de decodificacion de habla 24q (ver FIG. 40) de una modificacion 12 del cuarto ejemplo incluye ffsicamente una CPU, una ROM, una RAM, un dispositivo de comunicacion y similares, que no se ilustran, y la CPU controla de forma integral el dispositivo de decodificacion de habla 24q cargando y ejecutando un programa de ordenador predeterminado (como un programa de ordenador para realizar procesos, ilustrado en el diagrama de flujo de la FIG. 41) almacenado en una memoria integrada del dispositivo de decodificacion de habla 24q como la ROM en la RAM. El dispositivo de comunicacion del dispositivo de decodificacion de habla 24q recibe la corriente de bits multiplicados codificados y produce
5
10
15
20
25
30
35
40
45
50
55
una senal de habla decodificada hacia fuera del dispositivo de decodificacion de habla 24q. El dispositivo de decodificacion de habla 24q, tal como se ilustra en la FIG. 40, incluye la unidad de analisis de prediccion lineal de baja frecuencia 2d1, la unidad de deteccion de cambio de senal 2e1, la unidad de analisis de prediccion lineal de alta frecuencia 2h1, la unidad de filtro inverso de prediccion lineal 2i1, y las unidades de ajuste de componentes de senal individual 2z4, 2z5, y 2z6 (las unidades de ajuste de componentes de senal individual corresponden al medio de formacion del envoltorio temporal) en lugar de la unidad de analisis de prediccion lineal de baja frecuencia 2d, la unidad de deteccion de cambio de senal 2e, la unidad de analisis de prediccion lineal de alta frecuencia 2h, la unidad de filtro inverso de prediccion lineal 2i y las unidades de ajuste de componentes de senal individual 2z1, 2z2, y 2z3 del dispositivo de decodificacion de habla 24c de la modificacion 3, y tambien incluye la unidad de seleccion de ranura de tiempo 3a.
Por lo menos una de las unidades de ajuste de componentes de senal individual 2z4, 2z5, y 2z6 realiza el proceso en la senal de dominio QMF de la ranura de tiempo seleccionada, para el componente de senal incluido en el resultado del medio primario de ajuste de alta frecuencia, como las unidades de ajuste de componentes de senal individual 2z1, 2z2, y 2z3, en base al resultado de seleccion transmitido desde la unidad de seleccion de ranura de tiempo 3a (proceso en Fase Sn1). Resulta preferible que el proceso que utiliza la informacion de seleccion de ranura de tiempo incluya por lo menos un proceso que incluya el filtrado de smtesis de prediccion lineal en la direccion de frecuencia, entre los procesos de las unidades de ajuste de componentes de senal individual 2z1,2z2, y 2z3 descritas en la modificacion 3 del cuarto ejemplo.
Los procesos realizados por las unidades de ajuste de componentes de senal individual 2z4, 2z5, y 2z6 pueden ser los mismos que los procesos realizados por las unidades de ajuste de componentes de senal individual 2z1, 2z2, y 2z3 descritos en la modificacion 3 del cuarto ejemplo, pero las unidades de ajuste de componentes de senal individual 2z4, 2z5, y 2z6 pueden dar forma al envoltorio temporal de cada uno de los diversos componentes de senal incluidos en el resultado del medio primario de ajuste de alta frecuencia por distintos metodos (si todas las unidades de ajuste de componentes de senal individual 2z4, 2z5, y 2z6 no realizan un proceso en base al resultado de seleccion transmitido desde la unidad de seleccion de ranura de tiempo 3a, es el mismo de la modificacion 3 del cuarto ejemplo de la presente invencion).
No es necesario que todos los resultados de seleccion de la ranura de tiempo transmitidos a las unidades de ajuste de componentes de senal individual 2z4, 2z5, y 2z6 desde la unidad de seleccion de ranura de tiempo 3a sean el mismo, y pueden ser distintos, en parte o en su totalidad.
En la FIG. 40, el resultado de la seleccion de ranura de tiempo se transmite a las unidades individuales de ajuste de componentes 2z4, 2z5, y 2z6 desde una unidad de seleccion de ranura de tiempo 3a. Sin embargo, resulta posible incluir una pluralidad de unidades de seleccion de ranura de tiempo para notificar, sobre los diferentes resultados de la seleccion de ranura de tiempo, a todos o una parte de las unidades de ajuste de componentes de senal individual 2z4, 2z5, y 2z6. En este momento, la unidad de seleccion de ranura de tiempo relativa a la unidad de ajuste de componentes de senal individual entre las unidades de ajuste de componentes de senal individual 2z4, 2z5, y 2z6 que realiza el proceso 4 (el proceso de multiplicar cada muestra de subbanda de QMF por el coeficiente de incremento se realiza en la senal de entrada utilizando el envoltorio temporal obtenido de la unidad de ajuste de forma de envoltorio 2s como la unidad de formacion del envoltorio temporal 2v, y a continuacion el filtrado de smtesis de prediccion lineal en la direccion de frecuencia tambien se realiza en la senal de salida utilizando los coeficientes de prediccion lineal recibidos de la unidad de ajuste de intensidad de filtro 2f como la unidad de filtro de prediccion lineal 2k) descrita en la modificacion 3 del cuarto ejemplo puede seleccionar la ranura de tiempo utilizando la informacion de seleccion de ranura de tiempo proporcionada por la unidad de formacion del envoltorio temporal.
(Modificacion 13 del Cuarto ejemplo)
Un dispositivo de decodificacion de habla 24m (ver FIG. 42) de una modificacion 13 del cuarto ejemplo incluye ffsicamente una CPU, una ROM, una RAM, un dispositivo de comunicacion y similares, que no se ilustran, y la CPU controla de forma integral el dispositivo de decodificacion de habla 24m cargando y ejecutando un programa de ordenador predeterminado (como un programa de ordenador para realizar procesos, ilustrado en el diagrama de flujo de la FIG. 43) almacenado en una memoria integrada del dispositivo de decodificacion de habla 24m como la ROM en la RAM. El dispositivo de comunicacion del dispositivo de decodificacion de habla 24m recibe la corriente de bits multiplicados codificados y produce una senal de habla decodificada hacia fuera del dispositivo de decodificacion de habla 24m. El dispositivo de decodificacion de habla 24m, tal como se ilustra en la FIG. 42, incluye la unidad de separacion de corriente de bits 2a7 y la unidad de seleccion de ranura de tiempo 3a1 en lugar de la unidad de separacion de corriente de bits 2a3 y la unidad de seleccion de ranura de tiempo 3a del dispositivo de decodificacion de habla 24q de la modificacion 12.
(Modificacion 14 del Cuarto ejemplo)
5
10
15
20
25
30
35
40
45
50
55
Un dispositivo de decodificacion de habla 24n (que no se ilustra) de una modificacion 14 del cuarto ejemplo incluye ffsicamente una CPU, una ROM, una RAM, un dispositivo de comunicacion y similares, que no se ilustran, y la CPU controla de forma integral el dispositivo de decodificacion de habla 24n cargando y ejecutando un programa de ordenador predeterminado almacenado en una memoria integrada del dispositivo de decodificacion de habla 24n como la ROM en la RAM. El dispositivo de comunicacion del dispositivo de decodificacion de habla 24n recibe la corriente de bits multiplicados codificados y envfa una senal de habla decodificada hacia fuera del dispositivo de decodificacion de habla 24n. El dispositivo de decodificacion de habla 24n incluye funcionalmente la unidad de analisis de prediccion lineal de baja frecuencia 2d1, la unidad de deteccion de cambio de senal 2e1, la unidad de analisis de prediccion lineal de alta frecuencia 2h1, la unidad de filtro inverso de prediccion lineal 2i1, y la unidad de filtro de prediccion lineal 2k3 en lugar de la unidad de analisis de prediccion lineal de baja frecuencia 2d, la unidad de deteccion de cambio de senal 2e, la unidad de analisis de prediccion lineal de alta frecuencia 2h, la unidad de filtro inverso de prediccion lineal 2i, y la unidad de filtro de prediccion lineal 2k del dispositivo de decodificacion de habla 24a de la modificacion 1, y tambien incluye la unidad de seleccion de ranura de tiempo 3a.
(Modificacion 15 del Cuarto ejemplo)
Un dispositivo de decodificacion de habla 24p (que no se ilustra) de una modificacion 15 del cuarto ejemplo incluye ffsicamente una CPU, una ROM, una RAM, un dispositivo de comunicacion y similares, que no se ilustran, y la CPU controla de forma integral el dispositivo de decodificacion de habla 24p cargando y ejecutando un programa de ordenador predeterminado almacenado en una memoria integrada del dispositivo de decodificacion de habla 24p como la ROM en la RAM. El dispositivo de comunicacion del dispositivo de decodificacion de habla 24p recibe la corriente de bits multiplicados codificados y envfa una senal de habla decodificada hacia fuera del dispositivo de decodificacion de habla 24p. El dispositivo de decodificacion de habla 24p incluye funcionalmente la unidad de seleccion de ranura de tiempo 3a1 en lugar de la unidad de seleccion de ranura de tiempo 3a del dispositivo de decodificacion de habla 24n de la modificacion 14. El dispositivo de decodificacion de habla 24p tambien incluye una unidad de separacion de corriente de bits 2a8 (que no se ilustra), en lugar de la unidad de separacion de corriente de bits 2a4.
La unidad de separacion de corriente de bits 2a8 separa la corriente de bits multiplicados en la informacion suplementaria de SBR y la corriente de bits codificados como la unidad de separacion de corriente de bits 2a4, asf como en la informacion de seleccion de ranura de tiempo.
Aplicabilidad Industrial
La presente invencion proporciona una tecnica aplicable a la tecnica de extension de ancho de banda en el dominio de frecuencia representado por SBR, y para reducir la aparicion de pre-eco y post-eco y mejorar la calidad subjetiva de la senal decodificada sin aumentar de forma significativa el coeficiente de bits.
Lista de Signos de Referencia
11, 11a, 11b, 11c, 12, 12a, 12b, 13, 14, 14a, 14b : dispositivo de codificacion de habla
1a : unidad de transformacion de frecuencia
1b : unidad de transformacion inversa de frecuencia
1c : unidad central de codificacion de codecs
1d : unidad de codificacion de SBR
1e, 1e1 : unidad de analisis de prediccion lineal
1f : unidad de calculo de parametros de intensidad de filtro
1f1 : unidad de calculo de parametros de intensidad de filtro
1g, 1g1, 1g2, 1g3, 1g4, 1g5, 1g6, 1g7 : unidad de multiplicacion de corriente de bits
1h : unidad de transformacion inversa de alta frecuencia
1i : unidad de calculo de potencia a corto plazo
1j : unidad de decimacion de coeficiente de prediccion lineal
1k : unidad de cuantificacion de coeficiente de prediccion lineal
1m : unidad de calculo de envoltorio temporal
1n : unidad de calculo de parametros de forma de envoltorio
1p, 1p1 : unidad de seleccion de ranura de tiempo
21, 22, 23, 24, 24b, 24c : dispositivo de decodificacion de habla
2a, 2a1, 2a2, 2a3, 2a5, 2a5, 2a6, 2a7 : unidad de separacion de corriente de bits
2b : unidad central de decodificacion de codecs
2c : unidad de transformacion de frecuencia
2d, 2d1 : unidad de analisis de prediccion lineal de baja frecuencia
2e, 2e1 : unidad de deteccion de cambio de senal
2f : unidad de ajuste de intensidad de filtro
2g : unidad de generacion de alta frecuencia
2h, 2h1 : unidad de analisis de prediccion lineal de alta frecuencia
2i, 2i1 : unidad de filtro inverso de prediccion lineal 2j, 2j1, 2j2, 2j3, 2j4 : unidad de ajuste de alta frecuencia 2k, 2k1, 2k2, 2k3 : unidad de filtro de prediccion lineal 2m : unidad de adicion de coeficiente 5 2n : unidad de transformacion inversa de frecuencia
2p, 2p1 : unidad de interpolacion/extrapolacion de coeficiente de prediccion lineal 2r : unidad de calculo de envoltorio temporal de baja frecuencia 2s : unidad de ajuste de forma de envoltorio 2t : unidad de calculo de envoltorio temporal de alta frecuencia 10 2u : unidad de alisamiento de envoltorio temporal
2v, 2v1 : unidad de formacion del envoltorio temporal 2w : unidad de conversion de informacion suplementaria
2z1,2z2, 2z3, 2z4, 2z5, 2z6 : unidad de ajuste de componentes de senal individual 3a, 3a1, 3a2 : unidad de seleccion de ranura de tiempo

Claims (6)

  1. 5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    Reivindicaciones
    1. Un dispositivo de decodificacion de habla para decodificar una senal de habla codificada, en que el
    dispositivo de decodificacion de habla comprende:
    medio de separacion de corriente de bits para separar una corriente de bits que incluye la senal de habla codificada en una corriente de bits codificados e informacion suplementaria de envoltorio temporal, en que la corriente de bits es recibida desde fuera del dispositivo de decodificacion de habla:
    medio de decodificacion central para decodificar la corriente de bits codificados separada por el medio de separacion de corriente de bits para obtener un componente de baja frecuencia; medio de transformacion de frecuencia para transformar el componente de baja frecuencia obtenido por el medio central de decodificacion en un dominio de frecuencia; medio de generacion de alta frecuencia para generar un componente de alta frecuencia copiando el componente de baja frecuencia transformado en el dominio de frecuencia por el medio de transformacion de frecuencia de una banda de baja frecuencia a una banda de alta frecuencia; medio de ajuste de alta frecuencia para ajustar el componente de alta frecuencia generado por el medio de generacion de alta frecuencia para generar un componente de alta frecuencia ajustado; medio de analisis de envoltorio temporal de baja frecuencia para analizar el componente de baja frecuencia transformado en el dominio de frecuencia por el medio de transformacion de frecuencia para obtener informacion del envoltorio temporal;
    medio de conversion de informacion suplementaria para convertir la informacion suplementaria de envoltorio temporal en un parametro para ajustar la informacion del envoltorio temporal; medio de ajuste de envoltorio temporal para ajustar la informacion de envoltorio temporal obtenida por el medio de analisis de envoltorio temporal de baja frecuencia, utilizando el parametro para generar informacion del envoltorio temporal ajustada, y controlar un incremento de la informacion de envoltorio temporal ajustada, de manera que la potencia del componente de alta frecuencia en el dominio de frecuencia en un segmento de tiempo de envoltorio de SBR sea equivalente antes y despues de dar forma al envoltorio temporal, para generar mas informacion de envoltorio temporal ajustada; y
    medio de formacion del envoltorio temporal para formar un envoltorio temporal del componente de alta frecuencia ajustado, multiplicando el componente de alta frecuencia ajustado por medio de mas informacion de envoltorio temporal ajustada.
  2. 2. Un dispositivo de decodificacion de habla para decodificar una senal de habla codificada, en que el dispositivo de decodificacion de habla comprende:
    medio central de decodificacion para decodificar una corriente de bits que incluye la senal de habla codificada para obtener un componente de baja frecuencia, en que la corriente de bits es recibida desde fuera del dispositivo de decodificacion de habla;
    medio de transformacion de frecuencia para transformar el componente de baja frecuencia obtenido por el medio central de decodificacion en un dominio de frecuencia; medio de generacion de alta frecuencia para generar un componente de alta frecuencia copiando el componente de baja frecuencia transformado en el dominio de frecuencia por el medio de transformacion de frecuencia de una banda de baja frecuencia a una banda de alta frecuencia; medio de ajuste de alta frecuencia para ajustar el componente de alta frecuencia generado por el medio de generacion de alta frecuencia para generar un componente de alta frecuencia ajustado; medio de analisis de envoltorio temporal de baja frecuencia para analizar el componente de baja frecuencia transformado en el dominio de frecuencia por el medio de transformacion de frecuencia para obtener informacion del envoltorio temporal;
    medio de generacion de informacion suplementaria de envoltorio temporal para analizar la corriente de bits para generar un parametro para ajustar la informacion del envoltorio temporal; medio de ajuste de envoltorio temporal para ajustar la informacion de envoltorio temporal obtenida por el medio de analisis de envoltorio temporal de baja frecuencia, utilizando el parametro para generar informacion del envoltorio temporal ajustada, y controlar un incremento de la informacion de envoltorio temporal ajustada, de manera que la potencia del componente de alta frecuencia en el dominio de frecuencia en un segmento de tiempo de envoltorio de SBR sea equivalente antes y despues de dar forma al envoltorio temporal, para generar mas informacion de envoltorio temporal ajustada; y
    medio de formacion del envoltorio temporal para formar un envoltorio temporal del componente de alta frecuencia ajustado, multiplicando el componente de alta frecuencia ajustado por medio de mas informacion de envoltorio temporal ajustada.
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
  3. 3. Un metodo de decodificacion de habla que utiliza un dispositivo de decodificacion de habla para decodificar una senal de habla codificada, en que el metodo de decodificacion de habla comprende:
    una fase de separacion de corriente de bits, en que el dispositivo de decodificacion de habla separa una corriente de bits que incluye la senal de habla codificada en una corriente de bits codificados e informacion suplementaria del envoltorio temporal, en que la corriente de bits se recibe desde fuera del dispositivo de decodificacion de habla;
    una fase central de decodificacion en que el dispositivo de decodificacion de habla obtiene un componente de baja frecuencia decodificando la corriente de bits codificados separada en la fase de separacion de corriente de bits;
    una fase de transformacion de frecuencia en que el dispositivo de decodificacion de habla transforma el componente de baja frecuencia obtenido en la fase central de decodificacion en un dominio de frecuencia;
    una fase de generacion de alta frecuencia en que el dispositivo de decodificacion de habla genera un componente de alta frecuencia copiando el componente de baja frecuencia transformado en el dominio de frecuencia en la fase de transformacion de frecuencia de una banda de baja frecuencia a una banda de alta frecuencia;
    una fase de ajuste de alta frecuencia en que el dispositivo de decodificacion de habla ajusta el componente de alta frecuencia generado en la fase de generacion de alta frecuencia para generar un componente de alta frecuencia ajustado;
    una fase de analisis de envoltorio temporal de baja frecuencia en que el dispositivo de decodificacion de habla obtiene informacion del envoltorio temporal analizando el componente de baja frecuencia transformado en el dominio de frecuencia en la fase de transformacion de frecuencia;
    una fase de conversion de informacion suplementaria en que el dispositivo de decodificacion de habla convierte la informacion suplementaria de envoltorio temporal en un parametro para ajustar la informacion del envoltorio temporal;
    una fase de ajuste de envoltorio temporal en que el dispositivo de decodificacion de habla ajusta la informacion del envoltorio temporal obtenida en la fase de analisis de envoltorio temporal de baja frecuencia, utilizando el parametro para generar informacion de envoltorio temporal ajustada y controla un incremento de la informacion de envoltorio temporal ajustada de manera que la potencia del componente de alta frecuencia en el dominio de frecuencia en un segmento de tiempo de envoltorio de SBR es equivalente antes y despues de dar forma al envoltorio temporal para generar mas informacion del envoltorio temporal ajustada; y
    una fase de formacion del envoltorio temporal en que el dispositivo de decodificacion de habla da forma a un envoltorio temporal del componente de alta frecuencia ajustado, multiplicando el componente de alta frecuencia ajustado por la informacion de envoltorio temporal mas ajustada.
  4. 4. Un metodo de decodificacion de habla que utiliza un dispositivo de decodificacion de habla para decodificar una senal de habla codificada, en que el metodo de decodificacion de habla comprende:
    una fase central de decodificacion, en que el dispositivo de decodificacion de habla decodifica una corriente de bits que incluye la senal de habla codificada para obtener un componente de baja frecuencia, en que la corriente de bits es recibida desde fuera del dispositivo de decodificacion de habla;
    una fase de transformacion de frecuencia en que el dispositivo de decodificacion de habla transforma el componente de baja frecuencia obtenido en la fase central de decodificacion en un dominio de frecuencia;
    una fase de generacion de alta frecuencia en que el dispositivo de decodificacion de habla genera un componente de alta frecuencia copiando el componente de baja frecuencia transformado en el dominio de frecuencia en la fase de transformacion de frecuencia de una banda de baja frecuencia a una banda de alta frecuencia;
    una fase de ajuste de alta frecuencia en que el dispositivo de decodificacion de habla ajusta el componente de alta frecuencia generado en la fase de generacion de alta frecuencia para generar un componente de alta frecuencia ajustado;
    una fase de analisis de envoltorio temporal de baja frecuencia en que el dispositivo de decodificacion de habla obtiene informacion del envoltorio temporal analizando el componente de baja frecuencia transformado en el dominio de frecuencia en la fase de transformacion de frecuencia;
    una fase de generacion de informacion suplementaria de envoltorio temporal en que el dispositivo de decodificacion de habla analiza la corriente de bits para generar un parametro para ajustar la informacion del envoltorio temporal;
    una fase de ajuste de envoltorio temporal en que el dispositivo de decodificacion de habla ajusta la informacion del envoltorio temporal obtenida en la fase de analisis de envoltorio temporal de baja frecuencia, utilizando el parametro para generar informacion de envoltorio temporal ajustada
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    y controla un incremento de la informacion de envoltorio temporal ajustada de manera que la potencia del componente de alta frecuencia en el dominio de frecuencia en un segmento de tiempo de envoltorio de SBR es equivalente antes y despues de dar forma al envoltorio temporal para generar mas informacion del envoltorio temporal ajustada; y
    una fase de formacion del envoltorio temporal en que el dispositivo de decodificacion de habla da forma a un envoltorio temporal del componente de alta frecuencia ajustado, multiplicando el componente de alta frecuencia ajustado por la informacion de envoltorio temporal mas ajustada.
  5. 5. Un programa de decodificacion de habla para decodificar una senal de habla codificada que hace que un dispositivo de ordenador funcione como:
    medio de separacion de corriente de bits para separar una corriente de bits que incluye la senal de habla codificada en una corriente de bits codificados e informacion suplementaria de envoltorio temporal, en que la corriente de bits es recibida desde fuera del dispositivo de decodificacion de habla;
    medio central de decodificacion para decodificar la corriente de bits codificados separada por el medio de separacion de corriente de bits para obtener un componente de baja frecuencia; medio de transformacion de frecuencia para transformar el componente de baja frecuencia obtenido por el medio central de decodificacion en un dominio de frecuencia; medio de generacion de alta frecuencia para generar un componente de alta frecuencia copiando el componente de baja frecuencia transformado en el dominio de frecuencia por el medio de transformacion de frecuencia de una banda de baja frecuencia a una banda de alta frecuencia; medio de ajuste de alta frecuencia para ajustar el componente de alta frecuencia generado por el medio de generacion de alta frecuencia para generar un componente de alta frecuencia ajustado; medio de analisis de envoltorio temporal de baja frecuencia para analizar el componente de baja frecuencia transformado en el dominio de frecuencia por el medio de transformacion de frecuencia para obtener informacion del envoltorio temporal;
    medio de conversion de informacion suplementaria para convertir la informacion suplementaria de envoltorio temporal en un parametro para ajustar la informacion del envoltorio temporal; medio de ajuste de envoltorio temporal para ajustar la informacion de envoltorio temporal obtenida por el medio de analisis de envoltorio temporal de baja frecuencia, utilizando el parametro para generar informacion del envoltorio temporal ajustada, y controlar un incremento de la informacion de envoltorio temporal ajustada, de manera que la potencia del componente de alta frecuencia en el dominio de frecuencia en un segmento de tiempo de envoltorio de SBR sea equivalente antes y despues de dar forma al envoltorio temporal, para generar mas informacion de envoltorio temporal ajustada; y
    medio de formacion del envoltorio temporal para formar un envoltorio temporal del componente de alta frecuencia ajustado, multiplicando el componente de alta frecuencia ajustado por medio de mas informacion de envoltorio temporal ajustada.
  6. 6. Un programa de decodificacion de habla para decodificar una senal de habla codificada que hace que un dispositivo de ordenador funcione como:
    medio central de decodificacion para decodificar una corriente de bits que incluye la senal de habla codificada para obtener un componente de baja frecuencia, en que la corriente de bits es recibida desde fuera del dispositivo de decodificacion de habla;
    medio de transformacion de frecuencia para transformar el componente de baja frecuencia obtenido por el medio central de decodificacion en un dominio de frecuencia; medio de generacion de alta frecuencia para generar un componente de alta frecuencia copiando el componente de baja frecuencia transformado en el dominio de frecuencia por el medio de transformacion de frecuencia de una banda de baja frecuencia a una banda de alta frecuencia; medio de ajuste de alta frecuencia para ajustar el componente de alta frecuencia generado por el medio de generacion de alta frecuencia para generar un componente de alta frecuencia ajustado; medio de analisis de envoltorio temporal de baja frecuencia para analizar el componente de baja frecuencia transformado en el dominio de frecuencia por el medio de transformacion de frecuencia para obtener informacion del envoltorio temporal;
    medio de generacion de informacion suplementaria de envoltorio temporal para analizar la corriente de bits para generar un parametro para ajustar la informacion del envoltorio temporal; medio de ajuste de envoltorio temporal para ajustar la informacion de envoltorio temporal obtenida por el medio de analisis de envoltorio temporal de baja frecuencia, utilizando el parametro para generar informacion del envoltorio temporal ajustada, y controlar un incremento de la informacion de envoltorio temporal ajustada, de manera que la potencia del componente de alta frecuencia en el dominio de frecuencia en un segmento de tiempo de envoltorio de SBR sea equivalente antes y
    despues de dar forma al envoltorio temporal, para generar mas informacion de envoltorio temporal ajustada; y
    medio de formacion del envoltorio temporal para formar un envoltorio temporal del componente de alta frecuencia ajustado, multiplicando el componente de alta frecuencia ajustado por medio de 5 mas informacion de envoltorio temporal ajustada.
ES12171612.0T 2009-04-03 2010-04-02 Dispositivo de decodificación de habla, método de decodificación de habla y programa de decodificación de habla Active ES2587853T3 (es)

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
JP2009091396 2009-04-03
JP2009091396 2009-04-03
JP2009146831 2009-06-19
JP2009146831 2009-06-19
JP2009162238 2009-07-08
JP2009162238 2009-07-08
JP2010004419A JP4932917B2 (ja) 2009-04-03 2010-01-12 音声復号装置、音声復号方法、及び音声復号プログラム
JP2010004419 2010-01-12

Publications (1)

Publication Number Publication Date
ES2587853T3 true ES2587853T3 (es) 2016-10-27

Family

ID=42828407

Family Applications (5)

Application Number Title Priority Date Filing Date
ES12171612.0T Active ES2587853T3 (es) 2009-04-03 2010-04-02 Dispositivo de decodificación de habla, método de decodificación de habla y programa de decodificación de habla
ES10758890.7T Active ES2453165T3 (es) 2009-04-03 2010-04-02 Dispositivo de codificación de habla, dispositivo de descodificación de habla, método de codificación de habla, método de descodificaión de habla, programa de codificación de habla y programa de descodificación de habla
ES12171613T Active ES2428316T3 (es) 2009-04-03 2010-04-02 Dispositivo de descodificación de habla, método de descodificación de habla y programa de descodificación de habla
ES12171597.3T Active ES2586766T3 (es) 2009-04-03 2010-04-02 Dispositivo de decodificación de habla, método de decodificación de habla y programa de decodificación de habla
ES12171603.9T Active ES2610363T3 (es) 2009-04-03 2010-04-02 Dispositivo de decodificación del habla, procedimiento de decodificación del habla y programa de decodificación del habla

Family Applications After (4)

Application Number Title Priority Date Filing Date
ES10758890.7T Active ES2453165T3 (es) 2009-04-03 2010-04-02 Dispositivo de codificación de habla, dispositivo de descodificación de habla, método de codificación de habla, método de descodificaión de habla, programa de codificación de habla y programa de descodificación de habla
ES12171613T Active ES2428316T3 (es) 2009-04-03 2010-04-02 Dispositivo de descodificación de habla, método de descodificación de habla y programa de descodificación de habla
ES12171597.3T Active ES2586766T3 (es) 2009-04-03 2010-04-02 Dispositivo de decodificación de habla, método de decodificación de habla y programa de decodificación de habla
ES12171603.9T Active ES2610363T3 (es) 2009-04-03 2010-04-02 Dispositivo de decodificación del habla, procedimiento de decodificación del habla y programa de decodificación del habla

Country Status (21)

Country Link
US (5) US8655649B2 (es)
EP (5) EP2503547B1 (es)
JP (1) JP4932917B2 (es)
KR (7) KR101530295B1 (es)
CN (6) CN102737640B (es)
AU (1) AU2010232219B8 (es)
BR (1) BRPI1015049B1 (es)
CA (4) CA2757440C (es)
CY (1) CY1114412T1 (es)
DK (2) DK2509072T3 (es)
ES (5) ES2587853T3 (es)
HR (1) HRP20130841T1 (es)
MX (1) MX2011010349A (es)
PH (4) PH12012501118B1 (es)
PL (2) PL2503548T3 (es)
PT (3) PT2503548E (es)
RU (6) RU2498421C2 (es)
SG (2) SG10201401582VA (es)
SI (1) SI2503548T1 (es)
TW (6) TWI478150B (es)
WO (1) WO2010114123A1 (es)

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4932917B2 (ja) 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
WO2011048798A1 (ja) * 2009-10-20 2011-04-28 パナソニック株式会社 符号化装置、復号化装置およびこれらの方法
KR101430118B1 (ko) * 2010-04-13 2014-08-18 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 또는 비디오 인코더, 오디오 또는 비디오 디코더 그리고 가변적인 예상 방향을 이용하여 멀티-채널 오디오 또는 비디오 신호들을 프로세싱하기 위한 관련 방법들
MX2013007489A (es) * 2010-12-29 2013-11-20 Samsung Electronics Co Ltd Aparato y metodo para codificacion/decodificacion para extension de ancho de banda de alta frecuencia.
CA3147525A1 (en) * 2011-02-18 2012-08-23 Ntt Docomo, Inc. Speech decoder, speech encoder, speech decoding method, speech encoding method, speech decoding program, and speech encoding program
CN103918029B (zh) * 2011-11-11 2016-01-20 杜比国际公司 使用过采样谱带复制的上采样
JP5997592B2 (ja) * 2012-04-27 2016-09-28 株式会社Nttドコモ 音声復号装置
JP6200034B2 (ja) * 2012-04-27 2017-09-20 株式会社Nttドコモ 音声復号装置
CN102737647A (zh) * 2012-07-23 2012-10-17 武汉大学 双声道音频音质增强编解码方法及装置
EP2704142B1 (en) * 2012-08-27 2015-09-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for reproducing an audio signal, apparatus and method for generating a coded audio signal, computer program and coded audio signal
CN103730125B (zh) * 2012-10-12 2016-12-21 华为技术有限公司 一种回声抵消方法和设备
CN103928031B (zh) 2013-01-15 2016-03-30 华为技术有限公司 编码方法、解码方法、编码装置和解码装置
PL2939235T3 (pl) 2013-01-29 2017-04-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Adaptacyjna względem tonalności kwantyzacja o niskiej złożoności sygnału audio
MX346945B (es) * 2013-01-29 2017-04-06 Fraunhofer Ges Forschung Aparato y metodo para generar una señal de refuerzo de frecuencia mediante una operacion de limitacion de energia.
US9711156B2 (en) * 2013-02-08 2017-07-18 Qualcomm Incorporated Systems and methods of performing filtering for gain determination
KR102148407B1 (ko) * 2013-02-27 2020-08-27 한국전자통신연구원 소스 필터를 이용한 주파수 스펙트럼 처리 장치 및 방법
TWI477789B (zh) * 2013-04-03 2015-03-21 Tatung Co 資訊擷取裝置及其發送頻率調整方法
CN108806704B (zh) 2013-04-19 2023-06-06 韩国电子通信研究院 多信道音频信号处理装置及方法
JP6305694B2 (ja) * 2013-05-31 2018-04-04 クラリオン株式会社 信号処理装置及び信号処理方法
FR3008533A1 (fr) 2013-07-12 2015-01-16 Orange Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences
CN110070877B (zh) * 2013-07-18 2022-11-11 日本电信电话株式会社 线性预测分析装置、线性预测分析方法以及记录介质
EP2830059A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Noise filling energy adjustment
US9319819B2 (en) * 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
WO2015017223A1 (en) * 2013-07-29 2015-02-05 Dolby Laboratories Licensing Corporation System and method for reducing temporal artifacts for transient signals in a decorrelator circuit
CN105761723B (zh) 2013-09-26 2019-01-15 华为技术有限公司 一种高频激励信号预测方法及装置
CN104517610B (zh) 2013-09-26 2018-03-06 华为技术有限公司 频带扩展的方法及装置
AU2014336356B2 (en) 2013-10-18 2017-04-06 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information
EP3779982A1 (en) 2013-10-18 2021-02-17 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung E.V. Concept of encoding an audio signal and decoding an audio signal using deterministic and noise like information
CN105706166B (zh) * 2013-10-31 2020-07-14 弗劳恩霍夫应用研究促进协会 对比特流进行解码的音频解码器设备和方法
KR20160087827A (ko) * 2013-11-22 2016-07-22 퀄컴 인코포레이티드 고대역 코딩에서의 선택적 위상 보상
JP6319753B2 (ja) 2013-12-02 2018-05-09 華為技術有限公司Huawei Technologies Co.,Ltd. 符号化方法および装置
US10163447B2 (en) * 2013-12-16 2018-12-25 Qualcomm Incorporated High-band signal modeling
RU2662693C2 (ru) * 2014-02-28 2018-07-26 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство декодирования, устройство кодирования, способ декодирования и способ кодирования
JP6035270B2 (ja) * 2014-03-24 2016-11-30 株式会社Nttドコモ 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム
RU2673691C1 (ru) 2014-04-25 2018-11-29 Нтт Докомо, Инк. Устройство преобразования коэффициентов линейного предсказания и способ преобразования коэффициентов линейного предсказания
CN110491401B (zh) * 2014-05-01 2022-10-21 日本电信电话株式会社 周期性综合包络序列生成装置、方法、记录介质
WO2016024853A1 (ko) * 2014-08-15 2016-02-18 삼성전자 주식회사 음질 향상 방법 및 장치, 음성 복호화방법 및 장치와 이를 채용한 멀티미디어 기기
US9659564B2 (en) * 2014-10-24 2017-05-23 Sestek Ses Ve Iletisim Bilgisayar Teknolojileri Sanayi Ticaret Anonim Sirketi Speaker verification based on acoustic behavioral characteristics of the speaker
US9455732B2 (en) * 2014-12-19 2016-09-27 Stmicroelectronics S.R.L. Method and device for analog-to-digital conversion of signals, corresponding apparatus
WO2016142002A1 (en) 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
CA2982017A1 (en) * 2015-04-10 2016-10-13 Thomson Licensing Method and device for encoding multiple audio signals, and method and device for decoding a mixture of multiple audio signals with improved separation
PT3443557T (pt) * 2016-04-12 2020-08-27 Fraunhofer Ges Forschung Codificador de áudio para codificar um sinal de áudio, método para codificar um sinal de áudio e programa de computador sob consideração de uma região espectral de pico detetada numa banda de frequência superior
WO2017196382A1 (en) * 2016-05-11 2017-11-16 Nuance Communications, Inc. Enhanced de-esser for in-car communication systems
DE102017204181A1 (de) 2017-03-14 2018-09-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sender zum Emittieren von Signalen und Empfänger zum Empfangen von Signalen
EP3382701A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using prediction based shaping
EP3382700A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using a transient location detection
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483880A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
US11275556B2 (en) * 2018-02-27 2022-03-15 Zetane Systems Inc. Method, computer-readable medium, and processing unit for programming using transforms on heterogeneous data
US10810455B2 (en) 2018-03-05 2020-10-20 Nvidia Corp. Spatio-temporal image metric for rendered animations
CN109243485B (zh) * 2018-09-13 2021-08-13 广州酷狗计算机科技有限公司 恢复高频信号的方法和装置
KR102603621B1 (ko) * 2019-01-08 2023-11-16 엘지전자 주식회사 신호 처리 장치 및 이를 구비하는 영상표시장치
CN113192523A (zh) * 2020-01-13 2021-07-30 华为技术有限公司 一种音频编解码方法和音频编解码设备
JP6872056B2 (ja) * 2020-04-09 2021-05-19 株式会社Nttドコモ 音声復号装置および音声復号方法
CN113190508B (zh) * 2021-04-26 2023-05-05 重庆市规划和自然资源信息中心 一种面向管理的自然语言识别方法

Family Cites Families (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE512719C2 (sv) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
RU2256293C2 (ru) * 1997-06-10 2005-07-10 Коудинг Технолоджиз Аб Усовершенствование исходного кодирования с использованием дублирования спектральной полосы
DE19747132C2 (de) 1997-10-24 2002-11-28 Fraunhofer Ges Forschung Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
SE0001926D0 (sv) * 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
SE0004187D0 (sv) * 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
US8782254B2 (en) * 2001-06-28 2014-07-15 Oracle America, Inc. Differentiated quality of service context assignment and propagation
EP1444688B1 (en) * 2001-11-14 2006-08-16 Matsushita Electric Industrial Co., Ltd. Encoding device and decoding device
US7469206B2 (en) * 2001-11-29 2008-12-23 Coding Technologies Ab Methods for improving high frequency reconstruction
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
US7555434B2 (en) * 2002-07-19 2009-06-30 Nec Corporation Audio decoding device, decoding method, and program
JP3646939B1 (ja) * 2002-09-19 2005-05-11 松下電器産業株式会社 オーディオ復号装置およびオーディオ復号方法
US7519538B2 (en) * 2003-10-30 2009-04-14 Koninklijke Philips Electronics N.V. Audio signal encoding or decoding
US7668711B2 (en) * 2004-04-23 2010-02-23 Panasonic Corporation Coding equipment
TWI393120B (zh) * 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 用於音訊信號編碼及解碼之方法和系統、音訊信號編碼器、音訊信號解碼器、攜帶有位元流之電腦可讀取媒體、及儲存於電腦可讀取媒體上的電腦程式
US7720230B2 (en) 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
US7045799B1 (en) 2004-11-19 2006-05-16 Varian Semiconductor Equipment Associates, Inc. Weakening focusing effect of acceleration-deceleration column of ion implanter
TWI319565B (en) * 2005-04-01 2010-01-11 Qualcomm Inc Methods, and apparatus for generating highband excitation signal
WO2006108543A1 (en) * 2005-04-15 2006-10-19 Coding Technologies Ab Temporal envelope shaping of decorrelated signal
US9043214B2 (en) * 2005-04-22 2015-05-26 Qualcomm Incorporated Systems, methods, and apparatus for gain factor attenuation
JP4339820B2 (ja) * 2005-05-30 2009-10-07 太陽誘電株式会社 光情報記録装置および方法および信号処理回路
US20070006716A1 (en) * 2005-07-07 2007-01-11 Ryan Salmond On-board electric guitar tuner
DE102005032724B4 (de) * 2005-07-13 2009-10-08 Siemens Ag Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
JP4921365B2 (ja) 2005-07-15 2012-04-25 パナソニック株式会社 信号処理装置
US7953605B2 (en) * 2005-10-07 2011-05-31 Deepen Sinha Method and apparatus for audio encoding and decoding using wideband psychoacoustic modeling and bandwidth extension
JP5457171B2 (ja) * 2006-03-20 2014-04-02 オランジュ オーディオデコーダ内で信号を後処理する方法
KR100791846B1 (ko) * 2006-06-21 2008-01-07 주식회사 대우일렉트로닉스 오디오 복호기
US9454974B2 (en) * 2006-07-31 2016-09-27 Qualcomm Incorporated Systems, methods, and apparatus for gain factor limiting
CN101140759B (zh) * 2006-09-08 2010-05-12 华为技术有限公司 语音或音频信号的带宽扩展方法及系统
DE102006049154B4 (de) * 2006-10-18 2009-07-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodierung eines Informationssignals
JP4918841B2 (ja) 2006-10-23 2012-04-18 富士通株式会社 符号化システム
WO2009029037A1 (en) * 2007-08-27 2009-03-05 Telefonaktiebolaget Lm Ericsson (Publ) Adaptive transition frequency between noise fill and bandwidth extension
WO2009059632A1 (en) * 2007-11-06 2009-05-14 Nokia Corporation An encoder
KR101413967B1 (ko) 2008-01-29 2014-07-01 삼성전자주식회사 오디오 신호의 부호화 방법 및 복호화 방법, 및 그에 대한 기록 매체, 오디오 신호의 부호화 장치 및 복호화 장치
KR101413968B1 (ko) * 2008-01-29 2014-07-01 삼성전자주식회사 오디오 신호의 부호화, 복호화 방법 및 장치
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
KR101475724B1 (ko) * 2008-06-09 2014-12-30 삼성전자주식회사 오디오 신호 품질 향상 장치 및 방법
KR20100007018A (ko) * 2008-07-11 2010-01-22 에스앤티대우(주) 피스톤밸브 어셈블리 및 이를 포함하는 연속 감쇠력 가변형댐퍼
US8352279B2 (en) * 2008-09-06 2013-01-08 Huawei Technologies Co., Ltd. Efficient temporal envelope coding approach by prediction between low band signal and high band signal
US8532998B2 (en) * 2008-09-06 2013-09-10 Huawei Technologies Co., Ltd. Selective bandwidth extension for encoding/decoding audio/speech signal
US8463599B2 (en) * 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
JP4932917B2 (ja) 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
US9047875B2 (en) * 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension

Also Published As

Publication number Publication date
TWI476763B (zh) 2015-03-11
US9064500B2 (en) 2015-06-23
CA2844441C (en) 2016-03-15
CA2844635A1 (en) 2010-10-07
TW201126515A (en) 2011-08-01
SG10201401582VA (en) 2014-08-28
TW201243833A (en) 2012-11-01
PL2503546T4 (pl) 2017-01-31
RU2011144573A (ru) 2013-05-10
EP2503548A1 (en) 2012-09-26
RU2012130461A (ru) 2014-02-10
CN102737640A (zh) 2012-10-17
CN102737640B (zh) 2014-08-27
TW201243831A (en) 2012-11-01
KR101702412B1 (ko) 2017-02-03
US20130138432A1 (en) 2013-05-30
SG174975A1 (en) 2011-11-28
EP2503547A1 (en) 2012-09-26
CN102779522A (zh) 2012-11-14
EP2416316A1 (en) 2012-02-08
TWI379288B (es) 2012-12-11
RU2595915C2 (ru) 2016-08-27
CA2844438C (en) 2016-03-15
CN102779520A (zh) 2012-11-14
EP2509072B1 (en) 2016-10-19
MX2011010349A (es) 2011-11-29
TW201243830A (en) 2012-11-01
PH12012501116A1 (en) 2015-08-03
CY1114412T1 (el) 2016-08-31
TW201243832A (en) 2012-11-01
KR101702415B1 (ko) 2017-02-03
CA2844441A1 (en) 2010-10-07
ES2428316T3 (es) 2013-11-07
EP2503547B1 (en) 2016-05-11
US9779744B2 (en) 2017-10-03
KR101172325B1 (ko) 2012-08-14
PT2509072T (pt) 2016-12-13
EP2416316B1 (en) 2014-01-08
PL2503548T3 (pl) 2013-11-29
AU2010232219B2 (en) 2012-11-22
ES2453165T9 (es) 2014-05-06
KR20160137668A (ko) 2016-11-30
EP2503548B1 (en) 2013-06-19
PH12012501116B1 (en) 2015-08-03
EP2416316A4 (en) 2012-09-12
KR101172326B1 (ko) 2012-08-14
EP2503546A1 (en) 2012-09-26
RU2498420C1 (ru) 2013-11-10
ES2453165T3 (es) 2014-04-04
PT2503548E (pt) 2013-09-20
US20140163972A1 (en) 2014-06-12
DK2503548T3 (da) 2013-09-30
RU2595914C2 (ru) 2016-08-27
AU2010232219B8 (en) 2012-12-06
EP2503546B1 (en) 2016-05-11
CN102379004A (zh) 2012-03-14
PH12012501119B1 (en) 2015-05-18
RU2012130472A (ru) 2013-09-10
CN102779523B (zh) 2015-04-01
PH12012501118A1 (en) 2015-05-11
CN102779521A (zh) 2012-11-14
KR20120079182A (ko) 2012-07-11
RU2012130462A (ru) 2013-09-10
PH12012501117B1 (en) 2015-05-11
RU2498422C1 (ru) 2013-11-10
CA2757440C (en) 2016-07-05
PH12012501119A1 (en) 2015-05-18
PH12012501118B1 (en) 2015-05-11
AU2010232219A1 (en) 2011-11-03
EP2509072A1 (en) 2012-10-10
TWI479479B (zh) 2015-04-01
JP2011034046A (ja) 2011-02-17
HRP20130841T1 (hr) 2013-10-25
US10366696B2 (en) 2019-07-30
KR101530295B1 (ko) 2015-06-19
ES2586766T3 (es) 2016-10-18
US9460734B2 (en) 2016-10-04
TWI478150B (zh) 2015-03-21
PH12012501117A1 (en) 2015-05-11
CN102779522B (zh) 2015-06-03
KR20120080258A (ko) 2012-07-16
BRPI1015049B1 (pt) 2020-12-08
CA2844438A1 (en) 2010-10-07
RU2498421C2 (ru) 2013-11-10
PT2416316E (pt) 2014-02-24
CN102379004B (zh) 2012-12-12
TWI479480B (zh) 2015-04-01
CA2757440A1 (en) 2010-10-07
KR101530294B1 (ko) 2015-06-19
US20160365098A1 (en) 2016-12-15
KR20110134442A (ko) 2011-12-14
PL2503546T3 (pl) 2016-11-30
TWI384461B (zh) 2013-02-01
TW201246194A (en) 2012-11-16
US20120010879A1 (en) 2012-01-12
KR20120082475A (ko) 2012-07-23
RU2595951C2 (ru) 2016-08-27
RU2012130466A (ru) 2014-01-27
KR101530296B1 (ko) 2015-06-19
JP4932917B2 (ja) 2012-05-16
US20160358615A1 (en) 2016-12-08
CN102779521B (zh) 2015-01-28
CN102779520B (zh) 2015-01-28
SI2503548T1 (sl) 2013-10-30
US8655649B2 (en) 2014-02-18
CN102779523A (zh) 2012-11-14
RU2012130470A (ru) 2014-01-27
KR20120080257A (ko) 2012-07-16
DK2509072T3 (en) 2016-12-12
ES2610363T3 (es) 2017-04-27
KR20120082476A (ko) 2012-07-23
WO2010114123A1 (ja) 2010-10-07
CA2844635C (en) 2016-03-29

Similar Documents

Publication Publication Date Title
ES2587853T3 (es) Dispositivo de decodificación de habla, método de decodificación de habla y programa de decodificación de habla
KR20130133846A (ko) 정렬된 예견 부를 사용하여 오디오 신호를 인코딩하고 디코딩하기 위한 장치 및 방법
ES2774334T3 (es) Estimación de forma de ganancia para mejorar el rastreo de características temporales de banda alta
JP5588547B2 (ja) 音声復号装置、音声復号方法、及び音声復号プログラム
ES2963367T3 (es) Aparato y procedimiento de decodificación de una señal de audio usando una parte de anticipación alineada
BR122012021669B1 (pt) dispositivos e métodos de decodificação de voz e memórias capazes de serem lidas por computador