ES2248549T3

ES2248549T3 - Edicion de señales de audio.

Info

Publication number: ES2248549T3
Application number: ES02726396T
Authority: ES
Inventors: Arnoldus W.J. Internat. Octrooibureau BV OOMEN; Leon M. Internat. Octrooibureau Bv Van De Kerkhof
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-06-08
Filing date: 2002-06-05
Publication date: 2006-03-16
Anticipated expiration: 2022-06-05
Also published as: BR0205527A; EP1399917B1; WO2002101725A1; CN1514997A; DE60206269D1; DE60206269T2; US20040162721A1; JP2004538502A; JP4359499B2; EP1399917A1; KR20030029813A; CN1237507C; KR100852613B1; ATE305164T1

Abstract

Método de edición (4) de una señal (x) de audio original representada por un flujo (AS) de audio codificado, comprendiendo dicho flujo de audio codificado una pluralidad de tramas, incluyendo cada una de dichas tramas una cabecera (H) y uno o más segmentos (S), incluyendo cada segmento parámetros (CT, CS, CN) representativos de dicha señal (x) de audio original, comprendiendo el método las etapas de: determinar un punto de edición correspondiente a un instante en el tiempo en dicha señal (x) de audio original; insertar, en una trama (i, j) de destino que representa a dicha señal (x) de audio original para un periodo de tiempo que incorpora dicho instante en el tiempo, un parámetro correspondiente a un transitorio (EEP, SEP) en dicho instante en el tiempo y un indicador de que dicho parámetro representa un punto de edición; y generar un flujo (AS) de audio codificado representativo de una señal de audio editada y que incluye dicha trama de destino.

Description

Edición de señales de audio.

La presente invención se refiere a la edición de señales de audio.

En general, en los codificadores de transformación, una señal de audio entrante se codifica en un flujo de bits que comprende una o más tramas, incluyendo cada una una cabecera de trama y uno o más segmentos. El codificador divide la señal en bloques de muestras adquiridas a una cierta frecuencia de muestreo y éstos se transforman al dominio de frecuencia para identificar características espectrales de la señal para un segmento dado. Los coeficientes resultantes no se transmiten con plena precisión, sino que en vez se cuantifican para que, a cambio de una menor precisión, se consiga un ahorro en la longitud de palabra y por tanto en la compresión. Un decodificador lleva a cabo una transformación inversa para producir una versión de la original que tenga un fondo de ruido conformado más alto.

A menudo resulta deseable editar las señales de audio, por ejemplo, dividiendo una señal original para incluir otra señal o simplemente para quitar partes de la señal original. En el caso de que la señal de audio se represente en un formato comprimido, no es deseable descomprimir primero la señal de audio original al dominio del tiempo para que pueda dividirse con otra señal del dominio del tiempo antes de realizarse un recompresión con pérdidas sobre la señal editada. Por tanto, la edición de los datos comprimidos del flujo de bits se realiza normalmente a nivel de trama, asociado con el formato comprimido, realizándose puntos de edición en los límites de trama. Esto hará que la calidad de la señal original no se vea afectada por la inserción de la nueva señal.

La precisión de edición está relacionada por tanto con el tamaño de trama, que normalmente tiene una resolución de aproximadamente 100 ms. Aunque se utilicen tramas de un solo segmento que tengan un mayor requisito de velocidad binaria (debido a la sobrecarga de la cabecera de trama), la precisión puede ser como mucho del tamaño de segmento, una resolución de aproximadamente 10 ms. Esto se trata en Painter et al., "Perceptual Coding of Digital Audio", Proceedings of the IEEE, Vol. 88, Nº 4, Abril 2000.

Por tanto, para una codificación eficiente, se desean tramas grandes, mientras que en términos de editabilidad, se desean tramas cortas. Desafortunadamente, estos aspectos son conflictivos.

En un codificador de sinusoides del tipo descrito en la solicitud PCT publicada WO-A-01/69593 es posible definir unas denominadas posiciones transitorias, las cuales son posiciones de cambios súbitos en el intervalo dinámico. Normalmente, en las posiciones transitorias, se observa un cambio súbito en el intervalo dinámico y se sintetiza como una forma de onda transitoria.

Si se emplea un entramado adaptativo, entonces se calcula la segmentación para la síntesis de los restantes componentes sinusoidales y de ruido de la señal a partir de las posiciones de las formas de onda transitorias.

Según la presente invención, se proporciona un método de edición de una señal de audio original representada por un flujo de audio codificado, comprendiendo dicho flujo de audio codificado una pluralidad de tramas, incluyendo cada una de dichas tramas una cabecera y uno o más segmentos, incluyendo cada segmento parámetros representativos de dicha señal de audio original, comprendiendo el método las etapas de: determinar un punto de edición correspondiente a un instante en el tiempo en dicha señal de audio original; insertar, en una trama de destino que representa a dicha señal de audio original para un periodo de tiempo que incorpora dicho instante en el tiempo, un parámetro correspondiente a un transitorio en dicho instante en el tiempo y un indicador de que dicho parámetro representa un punto de edición; y generar un flujo de audio codificado representativo de una señal de audio editada y que incluye dicha trama de destino.

En una realización preferida se proporciona un método de edición tramas relativamente largas con una gran precisión de subtrama para editar en el contexto de la codificación de sinusoides. Para proporcionar un método así para una edición de gran precisión, pueden aplicarse las denominadas posiciones transitorias donde se desee un punto de edición en una señal previamente codificada. La adición se realiza como algún tipo de postprocesamiento por, por ejemplo, algún una aplicación de edición de audio. La ventaja de usar una posición transitoria como punto de edición es que la señal puede entonces terminar o empezar abruptamente en la posición transitoria, en principio con una precisión de resolución de muestras, mientras que en los sistemas de la técnica anterior, se está limitado a los límites de trama, lo que sucede, por ejemplo, una vez por 100 ms. Además, según la presente invención, se proporciona un método de decodificación de audio tal como se expone en la reivindicación 14, un editor de audio tal como se expone en la reivindicación 22, un reproductor de audio tal como se expone en la reivindicación 24 y un flujo de audio tal como se expone en la reivindicación 25.

De hecho, la invención "abusa" de las posiciones transitorias para definir puntos de edición. Estas posiciones transitorias de edición son en realidad un tipo de pseudotransitorio porque en estas posiciones no se genera ninguna forma de onda transitoria.

La invención difiere del entramado adaptativo de la técnica anterior porque en el entramado adaptativo, el entramado se determina dependiendo de las posiciones transitorias (por lo que la subdivisión de las tramas se lleva a cabo entre dos posiciones transitorias subsiguientes). La invención es diferente porque se desea un entramado determinado (en un punto de edición) y una posición transitoria se define en función de dicho entramado deseado. De hecho, la invención pede funcionar en conjunción con o sin un entramado adaptativo.

Ahora se describirá una realización de la invención con referencia a los dibujos adjuntos:

La figura 1 muestra una realización de codificador de audio del tipo descrito en el documento WO-A-01/69593;

la figura 2 muestra una realización de un reproductor de audio dispuesto para reproducir una señal de audio generada según la invención;

la figura 3 muestra un sistema que comprende un codificador de audio, un reproductor de audio de la figura 2 y un editor según la invención; y

la figura 4 muestra una parte de un flujo de bits procesado según la invención.

En una realización preferida de la presente invención, figura 1, la señal de audio a editar es generada inicialmente por un codificador de sinusoides del tipo descrito en el documento WO-A-01/69593. En el caso anterior, el codificador 1 de audio muestrea una señal de audio de entrada a una cierta frecuencia de muestreo dando como resultado una representación x(t) digital de la señal de audio. Esto hace que la escala t temporal dependa de la velocidad de muestreo. El codificador 1 separa entonces la señal de entrada muestreada en tres componentes: componentes de señal transitorias, componentes deterministas permanentes y componentes estocásticos permanentes. El codificador 1 de audio comprende un codificador 11 de transitorios, codificador 13 de sinusoides y un codificador 14 de ruido. El codificador de audio comprende opcionalmente un mecanismo 12 de compresión de ganancia (GC).

En este caso, se realiza una codificación de transitorios antes de una codificación permanente. Esto resulta ventajoso porque, en esta realización, se ha demostrado mediante experimentos que las componentes de señal transitorias se codifican de manera menos eficiente en los codificadores permanentes. Si se utilizan codificadores permanentes para codificar componentes de señal transitorias, es necesario mucho esfuerzo de codificación, por ejemplo, puede imaginarse que resulta difícil codificar un componente de señal transitoria sólo con sinusoides permanentes. Por tanto, resulta ventajosa la eliminación de componentes de señal transitorias de la señal de audio a codificar antes de la codificación permanente. También se verá que en los codificadores permanentes puede emplearse una posición inicial transitoria en el codificador de transitorios para una segmentación adaptativa (entramado adaptativo).

No obstante, la invención no está limitada al uso particular de la codificación de transitorios dada a conocer en el documento WO-A-01/69593 y ésta sólo se proporciona a efectos de ejemplificación.

El codificador 11 de transitorios comprende un detector 110 de transitorios (TD), un analizador 111 de transitorios (TA) y un sintetizador 112 de transitorios (TS). En primer lugar, la señal x(t) entra en el detector 110 de transitorios. Este detector 110 estima si hay un componente de señal transitoria y su posición. Esta información se suministra al analizador 111 de transitorios y también puede utilizarse en el codificador 13 de sinusoides y en el codificador 14 de ruido para obtener una segmentación adaptativa provocada por la señal. Si se determina la posición de un componente de señal transitoria, el analizador 111 de transitorios intenta extraer (la parte principal de) la componente de señal transitoria. Hace coincidir una función de forma con un segmento de señal, preferiblemente empezando en un punto inicial estimado, y determina el contenido debajo de la función de forma empleando, por ejemplo, un (pequeño) número de componentes sinusoidales. Esta información está contenida en el código CT transitorio, y en el documento W0-A-01/69593 se proporciona información más detallada sobre la generación del código CT transitorio. En cualquier caso, se verá que cuando el analizador de transitorios emplea, por ejemplo, una función de forma tipo Meixner, entonces el código CT transitorio comprenderá la posición inicial en la que comienza el transitorio; un parámetro que es sustancialmente indicativo de la velocidad de ataque inicial; y un parámetro que es sustancialmente indicativo de la tasa de disminución; así como datos de frecuencia, amplitud y fase para las componentes sinusoidales del transitorio.

Para que el flujo de bits producido por el codificador 1 sea sintetizado por un decodificador independientemente de la frecuencia de muestreo utilizada para generar el flujo de bits, la posición inicial debería transmitirse como un valor de tiempo en vez de, por ejemplo, un número de muestra dentro de una trama; y las frecuencias sinusoidales deberían transmitirse como valores absolutos o utilizando identificadores indicativos de valores absolutos en vez de valores obtenibles únicamente de o proporcionales a la frecuencia de muestreo de transformación. En otros sistemas de la técnica anterior, se escogen normalmente las últimas opciones ya que, al ser valores discretos, son intuitivamente más fáciles de codificar y comprimir. Sin embargo, esto requiere que un decodificador sea capaz de regenerar la frecuencia de muestreo a fin de regenerar la señal de audio.

En el documento W0-A-01/69593 se ha dado a conocer que la función de forma de transitorios también puede incluir una indicación de escalón en caso de que la componente de señal transitoria sea un cambio en la envolvente de amplitud semejante a un escalón. Además, aunque la invención no está limitada a cualquiera de las implementaciones, la ubicación del cambio semejante a un escalón puede codificarse como un valor de tiempo en vez de un número de muestra, el cual estaría relacionado con la frecuencia de muestreo.

El código CT transitorio se proporciona al sintetizador 112 de transitorios. La componente de señal transitoria sintetizado se resta de la señal x(t) de entrada en un restador 16, dando como resultado una señal x1. En caso de que se omita el mecanismo 12 GC, x1 = x2. La señal x2 se proporciona al codificador 13 de sinusoides, en el que se analiza en un analizador 130 de sinusoides (SA) que determina las componentes sinuosidades (deterministas). La información resultante está contenida en el código CS sinusoidal. En la solicitud de patente PCT Nº WO00/79579-A1 (Attorney Ref: PHN 017502) se proporciona un ejemplo más detallado que ilustra la generación de un código CS sinusoidal ejemplar. Alternativamente, en el artículo "Speech analysis/synthesis based on sinusoidal representation", R. McAulay y T. Quartieri, IEEE Trans. Acout., Speech, Signal Process. 43:744-754, 1986 o en la publicación "Technical description of the MPEG-4 audio-codign proposal from the University of Hannover and Deutsche Bundespost Telekom AG (revised)", B. Edler, H. Purnhagem y C. Ferekidis, Technical note MPEG95/0414r, Int. Organisation for Standardisation ISO/IEC JTC1/SC29/WG11, 1996 se da a conocer una implementación básica.

En resumen, sin embargo, el codificador de sinusoides de la realización preferida dosifica la señal x2 de entrada como pistas de componentes sinusoidales vinculados de un segmento de trama al siguiente. Las pistas están representadas inicialmente por una frecuencia inicial, una amplitud inicial y una fase inicial para una sinusoide que empieza en un segmento determinado (nacimiento). A partir de entonces, la pista está representada en segmentos posteriores por diferencias de frecuencia, diferencias de amplitud y, posiblemente, diferencias de fase (continuaciones) hasta el segmento en el que termina la pista (muerte). En la práctica, puede determinarse que se gana poco codificando diferencias de fase. Por tanto, la información de fases puede codificarse como valores absolutos. Alternativamente, no es necesario en absoluto codificar la información de fases para continuaciones y la información de fase puede regenerarse utilizando una reconstrucción de fases continua.

Además, si hay que hacer que el flujo de bits sea independiente de la frecuencia de muestreo, las frecuencias iniciales se codifican en el código CS sinusoidal como valores absolutos o identificadores indicativos de frecuencias absolutas para garantizar que la señal codificada es independiente de la frecuencia de muestreo.

La componente de señal sinusoidal es reconstruida por un sintetizador 131 de sinusoides (SS) a partir del código CS sinusoidal. Esta señal se resta en un restador 17 de la entrada x2 proporcionada al codificador 13 de sinusoides, lo que resulta en una señal x3 restante carente de (grandes) componentes de señal transitorias y componentes sinusoidales deterministas (principales).

Se supone que la señal x3 restante comprende principalmente ruido, y el analizador 14 de ruido de la realización preferida produce un código CN de ruido representativo de este ruido. Convencionalmente, tal como por ejemplo la solicitud de patente Nº WO-A-01/89086, el codificador de ruido modela un espectro del ruido con unos parámetros de filtrado AR (autorregresivo) MA (media móvil) (pi, qi) combinados según una escala de Ancho de banda rectangular equivalente (ERB-Equivalent Rectangular Bandwidth). En el decodificador, figura 2, los parámetros de filtrado se suministran a un sintetizador 33 de ruido NS, que es un filtro principalmente, que tiene una respuesta en frecuencia que se aproxima el espectro del ruido. El sintetizador 33 NS genera un ruido yN reconstruido (sintético) filtrando una señal de ruido blanco con los parámetros de filtrado ARMA (pi, qi) y posteriormente lo añade a las señales yT e yS transitorias y sinusoidales sintetizadas.

Sin embargo, los parámetros de filtrado ARMA (pi, qi) dependen de nuevo de la frecuencia de muestreo del analizador de ruido y, para que el flujo de bits codificado sea independiente de la frecuencia de muestreo, estos parámetros se transforman en frecuencias espectrales de línea (LSF-Line Spectral Frequency), también conocidas como pares espectrales de línea (LSP-Line Spectral Pair), antes de codificarse. Estos parámetros LSF pueden representarse en una cuadrícula de frecuencias absolutas o en una cuadrícula relacionada con la escala ERB o la escala Bark. En el artículo "Line Spectrum Pair (LSP) and speech data compression", F.K. Soong y B.H. Juang, ICASSP, págs. 1.10.1, 1984, puede encontrarse más información sobre los pares LSP. En cualquier caso, tal transformación de un tipo de coeficientes de tipo de filtro predictivo lineal, en este caso (pi, qi), dependientes de la frecuencia de muestreo del codificador, en frecuencias LSF, que son independientes de la frecuencia de muestreo y viceversa, tal como se requiere en el decodificador, es bien conocida y no se analiza más aquí. Sin embargo, se verá que convertir las frecuencias LSF en unos coeficientes (p'i, q'i) en el decodificador puede hacerse con referencia a la frecuencia con la que el sintetizador 33 de ruido genera muestras de ruido blanco, permitiéndole así al decodificador generar la señal yN de ruido independientemente de la manera en la que se muestreó originalmente.

Se verá que, de manera parecida a la situación en el codificador 13 de sinusoides, el analizador 14 de ruido también puede emplear la posición inicial de la componente de señal transitoria como una posición para comenzar un nuevo bloque de análisis. Sin embargo, los tamaños de segmento del analizador 130 de sinusoides y del analizador 14 de ruido son necesariamente iguales.

Por último, en un multiplexor 15, se constituye un flujo AS de audio que incluye los códigos CT, CS y CN. El flujo AS de audio se proporciona a, por ejemplo, un bus de datos, un sistema de antena, un medio de almacenamiento, etc.

Con referencia a la figura 3, un editor 4 de la presente invención está adaptado para procesar uno o más flujos de audio generados por, por ejemplo, el codificador 1 de la realización preferida. En una realización de la invención, el editor 4 comprende un software de aplicación de tipo de programación que le permite a un usuario seleccionar unos respectivos puntos o instantes en el tiempo en una o más señales de audio originales arañazo almacenadas en las que ha(n) de insertarse un(os) respectivo(s) punto(s) de edición para generar una señal editada. Como tal, el editor 4 puede a su vez incluir un decodificador 2, del tipo descrito en el documento WO-A-01/69593 que permite al usuario escuchar la(s) señal(es) de audio original(es), así como quizás incluso incluir un componente gráfico, que permita ver la(s) señal(es) gráfica(s) decodificada(s) antes de que el usuario escoja el (los) punto(s) de edición. No obstante, aunque la realización preferida de la invención se describe en términos de un editor interactivo, la invención no está limitada a la edición impulsada por la interacción con el usuario de señales de audio almacenadas. Por tanto, por ejemplo, el editor puede ser un software centinela que se ejecuta en un dispositivo de red a través del cual se envían las señales de audio. Un editor de ese tipo puede adaptarse para cortar o dividir automáticamente una o más señales de audio originales en puntos predeterminados antes de transmitir adicionalmente las señales editadas.

En cualquier caso, conociendo el punto en el tiempo del punto de edición, el editor determina una trama de destino en la señal original que representa un periodo de tiempo que comienza antes y termina después del punto de edición.

Para cada punto de edición determinado en los uno o más flujos de bits, el editor está dispuesto para insertar un código transitorio de escalón, con una ubicación que indica un punto en el tiempo correspondiente al punto de edición, en una respectiva trama de destino del flujo de bits de las señales editadas.

Se hace referencia a la figura 4, que ilustra un punto de final de la edición final (EEP-End-Edit Point) realizado en una trama i y un punto de comienzo de la edición (SEP-Start-Edit Point) realizado en una trama j de un flujo de bits editado. Por tanto, por ejemplo, la señal codificada en la trama j y siguientes está insertándose en una señal original, que se ha dividido en un instante que sucede en un segmento dentro de la trama i. Por tanto, se desea que, por consiguiente, sólo se sintetice el contenido antes de la posición transitoria en la trama i y tras la posición transitoria en la trama j. No debería obtenerse ningúna salida de las muestras intermedias en las tramas, y por tanto, en una primera realización, si la trama i y la trama j están concatenadas, la señal resultante incluye un silencio corto.

El editor coloca un indicador en la cabecera (H) para cada trama (mostrada sombreada) para etiquetar las pistas en las posiciones transitorias de manera que, cuando se descodifiquen tal como se explica más abajo, se desvanecerán en torno a la posición transitoria para un punto de final de la edición y o aparecerán en torno a esta posición transitoria para un punto de comienzo de la edición. Opcionalmente, para describir un tipo preferido de aparición - desvanecimiento, es decir, ya sea un silencio, una función coseno u otra cosa, puede utilizarse el propio parámetro transitorio o un parámetro adicional asociado al transitorio de escalón. Depende del decodificador determinar cómo enfrentarse a un parámetro así, es decir, si éste debería ser un silencio, cómo aplicar cualquier tipo determinado de aparición/desvanecimiento y cómo debería producirse este fundido. El decodificador puede soportar además distintas opciones para esta característica. Por tanto, debido a que una posición transitoria puede definirse con una resolución con precisión de muestra, la edición de la(s) señal(es) de audio puede realizarse con precisión de muestra. Se verá por tanto que los transitorios que representan los puntos de comienzo y de final de la edición definen un límite de trama dentro de sus tramas respectivas con las pistas que representan la señal de audio antes del punto de final de la edición siendo independientes de las pistas que representan la señal de audio tras el punto de comienzo de la edición.

La figura 2 muestra un reproductor 3 de audio para decodificar una señal según la invención. Del bus de datos, el sistema de antena, el medio de almacenamiento, etc. se obtiene un flujo AS' de audio, por ejemplo, generado por un codificador según la figura 1 y posiblemente postprocesado por el editor 4. Tal como se da a conocer en el documento WO-A-01/69593, el flujo AS de audio se demultiplexa en un demultiplexor 30 para obtener los códigos CT, CS y CN. Estos códigos se proporcionan a un sintetizador 31 de transitorios, a un sintetizador 32 de sinusoides y a un sintetizador 33 de ruido, respectivamente. A partir del código CT transitorio, las componentes de señal se calculan en el sintetizador 31 de transitorios. En caso de que el código transitorio indique una función de forma, la forma se calcula basándose en los parámetros recibidos. Además, el contenido de forma se calcula basándose en las frecuencias y amplitudes de las componentes sinusoidales. La señal yT transitoria total es una suma de todos los transitorios.

Si se emplea un entramado adaptativo, entonces se calcula una segmentación para la síntesis 32 sinusoidal SS y la síntesis 33 de ruido NS a partir de las posiciones transitorias. El código CS sinusoidal se emplea para generar una señal yS, descrita como una suma de sinusoides en un segmento determinado. El código CN de ruido se utiliza para generar una señal yN de ruido. Para hacer esto, la frecuencias espectrales de línea para el segmento de trama se transforman primero en unos parámetros de filtrado ARMA (p'i, q'i) dedicados para la frecuencia de muestreo a la que el sintetizador de ruido genera ruido blanco y éstos se combinan con los valores de ruido blanco para generar la componente de ruido de la señal de audio. En cualquier caso, los segmentos de trama subsiguientes se añaden mediante, por ejemplo, un método de solapamiento-suma.

La señal y(t) total comprende la suma de la señal yT transitoria y el producto de cualquier descompresión de amplitud (g) y la suma de la señal yS sinusoidal y la señal yN de ruido. El reproductor de audio comprende dos sumadores 36 y 37 para sumar las respectivas señales. La señal total se proporciona a una unidad 35 de salida que, por ejemplo, es un altavoz.

Tal como se da a conocer en la solicitud relacionada, si el código CT transitorio indica un escalón, entonces no se calcula ningún transitorio. Sin embargo, el reproductor de audio de la realización preferida incluye además un decodificador 38 de cabecera de trama. El decodificador 38 está dispuesto para detectar en la cabecera de trama si uno de los segmentos de la trama incluye uno de entre un punto de comienzo de la edición o un punto de final de la edición. Si la cabecera indica un punto de final de la edición (EEP), tal como en la trama i de la figura 4, entonces el decodificador indica a cada uno de los sintetizadores 31, 32 y 33 de transitorios, de sinusoides y de ruido que su salida tras, o bien el número de muestra, o bien el tiempo correspondiente a la ubicación del transitorio de escalón, debería ponerse a cero, empleando opcionalmente un intervalo de desvanecimiento.

Si la cabecera (H) indica un punto de comienzo de la edición (SEP), tal como en la trama j de la figura 4, entonces el decodificador indica a cada uno de los sintetizadores 31, 32 y 33 de transitorios, de sinusoides y de ruido que su salida antes, o bien del número de muestra, o bien del tiempo correspondiente a la ubicación del transitorio de escalón, debería ponerse a cero, empleando opcionalmente un intervalo de desvanecimiento. Esto es particularmente ventajoso en el caso del sintetizador de sinusoides porque puede continuar sintetizando pistas desde el comienzo de la trama como siempre, calculando la información de frecuencia, de amplitud y de fase a partir del nacimiento del transitorio de escalón. En este momento empieza entonces a dar salida a sus valores calculados, algunos de los cuales pueden ser continuaciones de la señal original que empiezan antes del transitorio de escalón. Por tanto, cuando se decodifica una señal de audio que contiene tramas tales como las mostradas en la figura 4, se tiene como resultado una ejecución de silencio corto desde el instante del punto de final de la edición hasta el punto de comienzo de la edición.

Si se percibe que esto es un problema, entonces el reproductor 3 puede adaptarse para almacenar temporalmente el flujo de audio entrante para un máximo de la longitud de silencio probable total en cualquier señal de audio. Esto le permitiría al reproductor, si fuese preciso, continuar leyendo cuando decodifica el flujo de audio, de manera que si se detectase un punto de final de la edición, podría saltar hasta el final de la trama, calcular los valores de las pistas a lo largo de la siguiente pista hasta el punto de comienzo de la edición y empezar a dar salida a una señal sintetizada concatenada inmediatamente detrás de la señal en el punto de comienzo de la edición, aplicando opcionalmente un fundido cruzado.

En otra solución alternativa, puede no interpretarse como deseable necesitar calcular los valores de pista sinusoidal hasta el segmento que incluye el punto de comienzo de la edición de una trama tal como la trama j. En este caso, para unas pistas de continuación en el mismo segmento que el punto de comienzo de la edición, el editor puede disponerse para calcular frecuencias, amplitud y fase absolutas para tales pistas, sustituyendo así unos códigos de pista de continuación en el flujo de bits con códigos de pista de nacimiento. A continuación, puede eliminarse o anularse cualquier código de continuación o de nacimiento para la pista en segmentos anteriores de la trama, realizando así un ahorro en los requisitos de velocidad binaria y en el procesamiento del reproductor de audio.

En cualquier caso, se verá que, en principio, la sintaxis de cualquier esquema de codificación podría ampliarse para proporcionar la flexibilidad de edición con precisión de muestra descrita anteriormente.

Además, son posibles muchas variaciones de las realizaciones preferidas descritas anteriormente, según las circunstancias al implementar la invención. Así que, por ejemplo, si hay que editar las señales exhaustivamente, se verá que una actualización repetida de la(s) señal(es) almacenada(s) para incluir la información transitoria de puntos de edición puede requerir de recursos significativos al tratar la gran cantidad de datos implicados en un flujo de bits. En un editor preferido, el flujo de bits no se modifica cada vez que se determina un punto de edición, sino que el editor mantiene una lista de puntos de edición en asociación con el (los) flujo(s) de bits que están editándose. Una vez que el usuario ha terminado de editar la señal, se insertan transitorios de acuerdo con la lista de puntos de edición y el flujo de bits editado se escribe una vez para almacenarse.

En otra variación, el uso de un parámetro que define el transitorio y un indicador que indica que el transitorio en un punto de edición distintos puede evitarse definiendo un solo transitorio de punto de edición o un par de transitorios de punto de edición, que comprenden ambos integralmente un parámetro que define un transitorio como un instante en el tiempo e indica que el parámetro es un punto de edición o, específicamente, un punto de comienzo o de final de la edición. Cuando se utiliza un solo tipo de tal transitorio de punto de edición, estos transitorios pueden emparejarse para que cuando un decodificador detecte un primer transitorio tal, produzca una señal nula tras este punto y sólo comience a dar salida a una señal una vez que se detecte un segundo transitorio tal del par.

Tanto en este caso como en la realización preferida, se apreciará que el decodificador puede programarse para suponer que la trama que sigue a un punto de final de la edición o primer punto de edición debería incluir un punto de comienzo de la edición. Por tanto, si una señal está corrompida y el decodificador no detecta un punto de comienzo de la edición en la trama que sigue a un punto de final de la edición, puede empezar a dar salida a una señal desde el comienzo de la siguiente trama, minimizando así los daños provocados por la corrupción.

La figura 3 muestra un sistema de audio según la invención que comprende un codificador 1 de audio tal como el que se muestra en la figura 1, un reproductor 3 de audio tal como el que se muestra en la figura 2 y un editor tal como el descrito anteriormente. Un sistema así ofrece prestaciones de edición, reproducción y grabación. El flujo AS de audio se proporciona desde el codificador de audio al reproductor de audio o al editor por un canal 2 de comunicación, que puede ser una conexión inalámbrica, un bus de datos o un medio de almacenamiento. En caso de que el canal 2 de comunicación sea un medio de almacenamiento, el medio de almacenamiento puede estar fijo en el sistema o puede ser también un disco extraíble, un dispositivo de almacenamiento en estado sólido tal como un Memory Stick® de la Corporación Sony, etc. El canal 2 de comunicación puede formar parte del sistema de audio, pero sin embargo a menudo estará fuera del sistema de audio.

Se observa que la presente invención puede implementarse en un hardware dedicado, en software que se ejecuta en un procesador DSP (procesador de señales digitales) o en un ordenador de uso general. La presente invención puede plasmarse en un soporte tangible, tal como un CD-ROM o un DVD-ROM, que incluya un programa de ordenador para ejecutar un método de codificación según la invención. La invención también puede plasmarse como una señal transmitida por una red de datos, tal como Internet, o una señal transmitida por un servicio de transmisión.

La invención encuentra aplicación en campos tales como el Audio de estado sólido, la distribución de audio por Internet o cualquier distribución de música comprimida. También se verá que el funcionamiento de la invención es compatible también con el esquema de desaleatorización descrito en el documento
WO-A-02/087241.

Debería observarse que las realizaciones anteriormente mencionadas ilustran más que limitan la invención, y que los expertos en la técnica serán capaces de diseñar muchas realizaciones alternativas sin apartarse del alcance de las reivindicaciones adjuntas. En las reivindicaciones, no se interpretará que cualquier símbolo de referencia colocado entre paréntesis limita la reivindicación. La palabra "comprende/n" no excluye la presencia de otros elementos o etapas que los incluidos en una reivindicación. La invención puede implementarse por medio de hardware que comprenda varios elementos particulares y por medio de un ordenador programado adecuadamente. En una reivindicación de dispositivo que enumere varios medios, varios de estos medios pueden ser plasmados por el mismo artículo de hardware. El mero hecho de que ciertas medidas se reciten en reivindicaciones dependientes mutuamente diferentes no indica que una combinación de estas medidas no pueda utilizarse con provecho.

En suma, se da a conocer una realización preferida de la invención que proporciona un método de edición de tramas relativamente largas con una gran precisión de subtrama para editar en el contexto de la codificación sinusoidal. Para proporcionar un método así para una edición de gran precisión, pueden aplicarse las denominadas posiciones transitorias, en la que se desea un punto de edición (EEP, SEP) en una señal previamente codificada (AS). La adición es realizada como algún tipo de postprocesamiento por, por ejemplo, una aplicación de edición de audio. La ventaja de usar una posición transitoria como punto de edición es que la señal puede entonces terminar o comenzar abruptamente en la posición transitoria, en principio con una precisión de resolución de muestras, mientras que en los sistemas de la técnica anterior, se está limitado a los límites de trama, lo que sucede, por ejemplo, una vez por 100 ms.

Claims

1. Método de edición (4) de una señal (x) de audio original representada por un flujo (AS) de audio codificado, comprendiendo dicho flujo de audio codificado una pluralidad de tramas, incluyendo cada una de dichas tramas una cabecera (H) y uno o más segmentos (S), incluyendo cada segmento parámetros (CT, CS, CN) representativos de dicha señal (x) de audio original, comprendiendo el método las etapas de:

determinar un punto de edición correspondiente a un instante en el tiempo en dicha señal (x) de audio original; insertar, en una trama (i, j) de destino que representa a dicha señal (x) de audio original para un periodo de tiempo que incorpora dicho instante en el tiempo, un parámetro correspondiente a un transitorio (EEP, SEP) en dicho instante en el tiempo y un indicador de que dicho parámetro representa un punto de edición; y generar un flujo (AS) de audio codificado representativo de una señal de audio editada y que incluye dicha trama de destino.

2. Método según la reivindicación 1, en el que dicho indicador comprende uno de entre un punto de comienzo de la edición o un punto de final de la edición.

3. Método según la reivindicación 1, en el que dicha etapa de inserción comprende insertar dicho parámetro en un segmento de dicha trama de destino e insertar dicho indicador en una cabecera de dicha trama de destino.

4. Método según la reivindicación 1, en el que dicho parámetro que representa dicho transitorio indica un cambio en amplitud semejante a un escalón en dicha señal de audio editada.

5. Método según la reivindicación 1, en el que dichos parámetros representativos de dicha señal (x) de audio original comprenden parámetros (CN) de filtrado para un filtro que tiene una respuesta en frecuencia que se aproxima a un espectro de destino de la componente de ruido representativa de una componente de ruido de la señal de audio.

6. Método según la reivindicación 1, en el que dichos parámetros representativos de dicha señal (x) de audio original comprenden parámetros (CN) independientes de una primera frecuencia de muestreo empleada para generar dicho flujo de audio codificado, obteniéndose dichos parámetros de unos parámetros (pi, qi) de filtrado para un filtro que tiene una respuesta en frecuencia que se aproxima a un espectro de destino de la componente de ruido representativa de una componente de ruido de la señal de audio.

7. Método según la reivindicación 6, en el que dichos parámetros de filtrado son parámetros (pi) u (qi) autorregresivos y de media móvil y dichos parámetros independientes son indicativos de las Frecuencias espectrales de línea.

8. Método según la reivindicación 7, en el que dichos parámetros independientes se representan en una de entre frecuencias absolutas o en una escala Bark o en una escala ERB.

9. Método según la reivindicación 1, en el que dichos parámetros representativos de dicha señal (x) de audio original comprenden parámetros (CT) que representan unas posiciones respectivas de componentes de señal transitorias en la señal de audio; definiendo dichos parámetros una función de forma que tiene parámetros de forma y un parámetro de posición.

10. Método según la reivindicación 9, en el que dicho parámetro de posición es representativo de una ubicación de tiempo absoluto de dicha componente de señal transitoria en dicha señal (x) de audio original.

11. Método según la reivindicación 1, en el que dichos parámetros representativos de dicha señal (x) de audio original comprenden parámetros (CS) que representan componentes de señal permanentes de la señal de audio, comprendiendo dichos parámetros pistas representativas de componentes de señal vinculadas presentes en segmentos de señal subsiguientes y pistas de extensión sobre la base de parámetros de componentes de señal anteriormente vinculadas.

12. Método según la reivindicación 11, en el que los parámetros para una primera componente de señal en una pista incluyen un parámetro representativo de una frecuencia absoluta de dicha componente de señal.

13. Método según la reivindicación 1, en el que dicho flujo de bits editado comprende un ancho de banda mínimo recomendado a usar por un decodificador.

14. Método de decodificación (3) de un flujo de audio, comprendiendo el método las etapas de:

leer un flujo (AS') de audio codificado representativo de una señal (x) de audio editada, comprendiendo dicho flujo una pluralidad de tramas, incluyendo cada una de dichas tramas una cabecera (H) y uno o más segmentos (S), incluyendo cada segmento parámetros (CT, CS, CN) representativos de dicha señal (x) de audio editada; y

en respuesta a una trama que representa dicha señal (x) de audio editada para un periodo de tiempo determinado que incluye un parámetro correspondiente a un transitorio en un instante en el tiempo dentro de dicho periodo de tiempo y un indicador de que dicho parámetro representa un punto de edición, producir una salida nula para una parte del periodo de tiempo y emplear (31, 32, 33) dicha representación paramétrica para sintetizar dicha señal de audio para la parte restante del periodo de tiempo, dividiéndose dichas partes en dicho instante en el tiempo.

15. Método según la reivindicación 14, en el que dicha etapa de producción es sensible a que dicho indicador indique que dicho punto de edición es un punto de final de la edición para producir una salida nula para la parte del periodo de tiempo que sigue a dicho instante en el tiempo y para emplear (31, 32, 33) dicha representación paramétrica para sintetizar dicha señal de audio para la parte del periodo de tiempo antes de dicho instante en el tiempo.

16. Método según la reivindicación 15, en el que dicha etapa de producción es sensible a dicho punto de final de la edición para desvanecer dicha señal en torno a dicho instante en el tiempo.

17. Método según la reivindicación 14, en el que dicha etapa de producción es sensible a que dicho indicador indique que dicho punto de edición es un punto de comienzo de la edición para producir una salida nula para la parte del periodo de tiempo antes de dicho instante en el tiempo y para emplear (31, 32, 33) dicha representación paramétrica para sintetizar dicha señal de audio para la parte del periodo de tiempo tras dicho instante en el tiempo.

18. Método según la reivindicación 17, en el que dicha etapa de producción es sensible a dicho punto de comienzo de la edición para hacer aparecer dicha señal en torno a dicho instante en el tiempo.

19. Método según la reivindicación 14, en el que dicha etapa de producción comprende producir dicha salida nula como una señal silenciosa.

20. Método según la reivindicación 14, en el que dicha etapa de producción comprende concatenar la señal de audio que termina en dicho primer punto de edición de un par de puntos de edición con la señal de audio que comienza en un segundo punto de edición de dicho par de puntos de edición.

21. Método según la reivindicación 20, en el que dicha etapa de concatenación comprende producir un fundido cruzado de la señal de audio que termina en dicho primer punto de edición con la señal de audio que comienza en el segundo punto de edición.

22. Editor (4) de audio para editar (4) una señal (x) de audio original representada por un flujo (AS) de audio codificado, comprendiendo dicho flujo de audio codificado una pluralidad de tramas, incluyendo cada una de dichas tramas una cabecera (H) y uno o más segmentos (S), incluyendo cada segmento parámetros (CT, CS, CN) representativos de dicha señal (x) de audio original, comprendiendo dicho editor:

medios para determinar un punto de edición correspondiente a un instante en el tiempo en dicha señal (x) de audio original;

medios para insertar una trama de destino que representa dicha señal (x) de audio original para un periodo de tiempo que incorpora dicho instante en el tiempo, un parámetro correspondiente a un transitorio en dicho instante en el tiempo y un indicador de que dicho parámetro representa un punto de edición; y

medios para generar un flujo (AS) de audio codificado representativo de una señal de audio editada y que incluye dicha trama de destino.

23. Reproductor (3) de audio, que comprende:

medios para leer un flujo (AS') de audio codificado representativo de una señal (x) de audio editada, comprendiendo dicho flujo una pluralidad de tramas, incluyendo cada una de dichas tramas una cabecera (H) y uno o más segmentos (S), incluyendo cada segmento parámetros (CT, CS, CN) representativos de dicha señal (x) de audio editada; y

medios, sensibles a una trama que representa a dicha señal (x) de audio editada para un periodo de tiempo determinado que incluye un parámetro correspondiente a un transitorio en dicho instante en el tiempo y un indicador de que dicho parámetro representa un punto de edición, para producir una salida nula para una parte del periodo de tiempo y para emplear (31, 32, 33) dicha representación paramétrica para sintetizar dicha señal de audio para la parte restante del periodo de tiempo, dividiéndose dichas partes en dicho instante en el tiempo.

24. Sistema de audio que comprende un editor (4) de audio según la reivindicación 22 y un reproductor (3) de audio según la reivindicación 23.

25. Flujo (AS) de audio representativo de una señal (x) de audio editada que comprende una pluralidad de tramas, incluyendo cada una de dichas tramas una cabecera (H) y uno o más segmentos (S), incluyendo cada segmento parámetros (CT, CS, CN) representativos de dicha señal (x) de audio editada; e

incluyendo una o más de dichas tramas un parámetro respectivo correspondiente a un transitorio en un instante en el tiempo dentro de dicho periodo de tiempo y un indicador de que dicho parámetro representa un punto de edición.

26. Medio de almacenamiento en el que se ha almacenado un flujo (AS) de audio según la reivindicación 25.