ES2342601T3 - Procesamiento digital diferenciado de la voz y de la musica, la filtracion del ruido, la creacion de efectos especiales asi como un dispositivo para la aplicacion de dicho procedimiento. - Google Patents

Procesamiento digital diferenciado de la voz y de la musica, la filtracion del ruido, la creacion de efectos especiales asi como un dispositivo para la aplicacion de dicho procedimiento. Download PDF

Info

Publication number
ES2342601T3
ES2342601T3 ES04705433T ES04705433T ES2342601T3 ES 2342601 T3 ES2342601 T3 ES 2342601T3 ES 04705433 T ES04705433 T ES 04705433T ES 04705433 T ES04705433 T ES 04705433T ES 2342601 T3 ES2342601 T3 ES 2342601T3
Authority
ES
Spain
Prior art keywords
signal
pitch
block
noise
synthesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES04705433T
Other languages
English (en)
Inventor
Jean-Luc Crebouw
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Application granted granted Critical
Publication of ES2342601T3 publication Critical patent/ES2342601T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Noise Elimination (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

Procedimiento para el tratamiento numérico diferenciado de una señal acústica, constituido en el intervalo de una trama por la suma de seno de amplitud fija y cuya frecuencia está modulada linealmente en función del tiempo, esta suma que está modulada temporalmente por una envolvente, el ruido de dicha señal acústica que se añade a dicha señal, previamente a dicha suma, caracterizado por que comprende: Una etapa de análisis que permite determinar parámetros representativos de dicha señal acústica, por - un cálculo de la envolvente de la señal, - un cálculo de la señal acústica del pitch y de su variación, - una aplicación a la señal temporal de la variación inversa del "pitch" que consiste en efectuar un muestreo temporal de la señal acústica con paso de muestreo variable, dicho paso varía con el valor inverso de la variación del pitch, - una transformada rápida de Fourrier (TRF) sobre la señal pretratada, - una extracción de los componentes frecuenciales y sus amplitudes de dicha señal, a partir del resultado de la transformada rápida de Fourrier, - un cálculo del "pitch" en el dominio frecuencial y su variación con relación al "pitch" calculado anteriormente para mejorar la precisión de este "pitch" calculado anteriormente.

Description

Procesamiento digital diferenciado de la voz y de la música, la filtración del ruido, la creación de efectos especiales así como un dispositivo para la aplicación de dicho procedimiento.
La invención presente se refiere a un procesamiento digital diferenciado de la voz y de la música, la filtración del ruido, la creación de efectos especiales así como un dispositivo para la aplicación de dicho procedimiento.
Tiene más particularmente como objeto transformar la voz de un modo realista u original y, de manera más general, tratar en tiempo real la voz, la música, el ruido ambiental y grabar los resultados obtenidos sobre un soporte informático.
Se aplica particularmente, pero no exclusivamente, al gran público y a los profesionales del sonido que desean transformar la voz para aplicaciones lúdicas, tratar de otro modo la voz y la música, crear efectos especiales, reducir el ruido ambiental, y grabar, bajo forma numérica comprimida, los resultados obtenidos.
De modo general sabemos que la señal vocal está compuesta por una mezcla de señales transitorias muy complejas (ruidos) y de partes de señal cuasi-periódicas (sonidos armónicos). Los ruidos pueden ser pequeñas explosiones: P, B, T, D, K, GU; ruidos difusos suaves: F, V, J, Z o intensos CH, S; en cuanto a los sonidos armónicos, su espectro varía con el tipo de vocal y con el emisor.
Las relaciones de intensidad entre los ruidos y las vocales cambian según se trate de una voz conversacional, de una voz hablada tipo conferencia, con una voz fuerte gritada o con una voz cantada. La voz fuerte y la voz cantada favorecen los sonidos vocálicos en detrimento de los ruidos.
La señal vocal transmite simultáneamente dos tipos de mensajes: un mensaje semántico acompañado por la palabra, expresión verbal del pensamiento, y un mensaje estético perceptible a través de las calidades estéticas de la voz (timbre, entonación, cadencia, etc.).
El contenido semántico de la palabra, soporte de una buena inteligibilidad es prácticamente independiente de las calidades de la voz; está transmitido por las formas acústicas temporales; una voz cuchicheada está constituida sólo por ruidos de flujo; una voz "íntima" o de proximidad está constituida por una mezcla de sonidos armónicos en las frecuencias graves y por ruidos de flujo en el agudo; la voz de un conferenciante o de un cantante posee un espectro vocálico armónico rico e intenso.
En cuanto a los instrumentos de música, están caracterizados por su tesitura, es decir la amplitud en frecuencia de todas las notas que pueden emitir. Sin embargo muy pocos instrumentos poseen un "sonido armónico", es decir fundamental intenso acompañado de armónicos cuya intensidad disminuye con el orden.
Por otra parte, la tesitura musical y el contenido espectral no están directamente vinculados; ciertos instrumentos tienen los máximos de energía incluidos en la tesitura; otros presentan una zona máxima de energía bien circunscrita, situada al límite agudo de la tesitura y más allá; finalmente tienen máximos de energía muy extendidos que ampliamente rebosan el límite agudo de la tesitura.
Por otro lado, sabemos que el tratamiento analógico de estas señales complejas, por ejemplo su amplificación, provoca, de modo ineludible, una degradación creciente con dicho tratamiento y esto de manera irreversible.
La originalidad de las tecnologías numéricas es introducir un determinismo (es decir un conocimiento a priori) lo más importante posible a nivel de las señales tratadas para realizar tratamientos particulares que radicarán en forma de cálculos.
Así, si se realiza una transformación de la señal representativa de un sonido, al principio bajo su forma natural de vibraciones, en una señal numérica provista de las propiedades nombradas anteriormente, esta señal será tratada sin sufrir degradaciones tales como ruido de fondo, distorsión y limitación de banda pasante; además, podrá ser tratado con el fin de crear efectos especiales tales como la transformación de la voz, la supresión del ruido ambiental, la modificación del soplo de la voz, la diferenciación de la voz y de la música.
Desde luego, la tecnología audionumórica comprende las tres etapas principales:
\bullet
conversión de la señal analógica en una señal numérica,
\bullet
tratamientos deseados transpuestos en ecuaciones a resolver,
\bullet
conversión de la señal numérica en señal analógica ya que el último eslabón de la cadena genera vibraciones acústicas.
\newpage
\global\parskip0.900000\baselineskip
De manera general, sabemos que ios dispositivos de tratamiento del sonido, designados bajo el término de codificador de voz, contienen las cuatro funciones siguientes:
\bullet
análisis,
\bullet
codificador,
\bullet
decodificador,
\bullet
síntesis.
\vskip1.000000\baselineskip
La patente US 2002/184009 HEIKKINEN Ari) del 5 de diciembre de 2002 propone un procedimiento de supresión de la variación del pitch desplazando individualmente los impulsos del pitch de la trama de análisis con el fin de obtener un pitch fijo.
La patente WO 01/59766A (COMSAT) del 16 de agosto de 2001 propone una técnica de reducción del ruido a través de una predicción lineal.
La patente US 5 684 262 A describe un procedimiento que consiste en multiplicar la voz original por una tonalidad con el fin de obtener un desfase de frecuencia y así obtener una voz más grave o más aguda.
Por otro lado, los procedimientos de reducción de cadencia son empleados esencialmente para el almacenamiento numérico (con el fin de disminuir el volumen binario) y para la transmisión (con el fin de disminuir la cadencia necesaria). Estos procedimientos comprenden un tratamiento previo al almacenamiento o a la transmisión (codificación) y un tratamiento de la restitución (decodificación).
Entre los procedimientos de reducción de cadencia, los que utilizan los métodos perceptuales con pérdidas de información son los más empleados particularmente el procedimiento MPEG Audio.
Este procedimiento se basa en el efecto de enmascaramiento de la audición humana, es decir la desaparición de los sonidos débiles en presencia de los sonidos fuertes, equivalente a un desplazamiento del umbral de audibilidad provocado por el sonido más fuerte y con arreglo a la desviación de frecuencia y de nivel entre ambos sonidos.
Así, el número de bits por muestra se define en función del efecto de máscara dado que los sonidos débiles y el ruido de cuantificación son inaudibles. Con el fin de sacar el mejor provecho de este efecto de enmascaramiento, el espectro audio está dividido en un cierto número de subbandas, permitiendo así precisar el nivel de enmascaramiento en cada una de las subbandas y realizar una asignación binaria para cada una de ellas.
El procedimiento MPEG audio consiste así en:
\bullet
digitalizar en 16 bits con una preparación de muestreo a 48 kHz,
\bullet
deducir la curva de máscara entre 20 Hz y 20 kHz,
\bullet
dividir la señal en 32 subbandas,
\bullet
estimar el nivel máximo alcanzado en cada subbanda y durante 24 ms,
\bullet
estimar el nivel de ruido de cuantificación justo inaudible,
\bullet
conceder el número de bits para la codificación,
\bullet
generar el número de bits en la subbanda,
\bullet
encapsular estos datos en una trama de datos que se repite cada 24 ms.
\vskip1.000000\baselineskip
Esta técnica consiste en transmitir una cadencia binaria variable según la composición instantánea del sonido.
Sin embargo, este procedimiento está mejor adaptado al tratamiento de la música y no a la señal vocal; no permite detectar la presencia de la voz o de la música, separar la señal vocal o musical y el ruido, modificar la voz en tiempo real para sintetizar una voz diferente pero realista, sintetizar un soplo (ruido) para crear efectos especiales, codificar una señal vocal que contiene una sola voz, reducir el ruido ambiental.
La invención tiene por objeto más particularmente pues suprimir estos inconvenientes.
Propone, con este fin, un procedimiento que permite aprovechar al máximo las tecnologías audionuméricas efectuando previamente a la codificación, un análisis de la señal audio considerando que cualquier señal acústica en el intervalo de una trama es la suma de seno de amplitud fija y cuya frecuencia está modulada linealmente en función del tiempo, esta suma está modulada temporalmente por la envolvente de la señal, estando el ruido añadido a esta señal previamente a dicha suma.
\global\parskip1.000000\baselineskip
Según la invención, este procedimiento de transformación de la voz, de la música y del ruido ambiental, es tal como se define en la reivindicación 1.
Un modo de realización de la invención será descrito a continuación; en calidad de ejemplo no limitativo, con referencia a los dibujos adjuntos, en los cuales:
La figura 1 es un organigrama simplificado del procedimiento según la invención;
La figura 2 es un organigrama de la etapa de análisis;
La figura 3 es un organigrama de la etapa de síntesis;
La figura 4 es un organigrama de la etapa de codificación; y
La figura 5 es un esquema sinóptico de un dispositivo según la invención.
\vskip1.000000\baselineskip
En este ejemplo, el procedimiento de tratamiento numérico diferenciado por la voz y por la música según la invención, representado según la figura 1, comprende las etapas siguientes:
\bullet
análisis de la señal vocal (bloque A1),
\bullet
codificación de los parámetros (bloque A2),
\bullet
archivado de los parámetros (bloque B),
\bullet
lectura de los parámetros (bloque B'),
\bullet
decodificación de los parámetros (bloque C1),
\bullet
efectos especiales (bloque C2),
\bullet
síntesis (bloque C3).
\vskip1.000000\baselineskip
Por otro lado, el análisis de la señal vocal y la codificación de los parámetros constituyen ambas funcionalidades del analizador (bloque A); también, la decodificación de los parámetros, los efectos especiales y la síntesis constituyen las funcionalidades del sintetizador (bloque C).
Estas diferentes funcionalidades serán descritas a continuación, particularmente en cuanto a las diferentes etapas constitutivas de los procedimientos de análisis y de síntesis.
De manera general, el procedimiento de tratamiento numérico diferenciado de la voz y de la música comprende esencialmente cuatro configuraciones de tratamiento:
\bullet
la primera configuración (trayecto I) que comprende el análisis, seguida de la codificación de los parámetros, seguido por el archivado y por la lectura de los parámetros, seguida por la decodificación de los parámetros, seguido por los efectos especiales, seguidos por la síntesis,
\bullet
la segunda configuración (trayecto II) que comprende el análisis, seguida por la codificación de los parámetros, seguida por la decodificación de los parámetros, seguida por los efectos especiales, seguidos por la síntesis,
\bullet
la tercera configuración (trayecto III) que comprende el análisis, seguido por los efectos especiales, seguidos por la síntesis,
\bullet
la cuarta configuración (trayecto IV) que comprende el filtro de ruido o la generación de efectos especiales a partir del análisis, sin pasar por la síntesis.
\vskip1.000000\baselineskip
Estas diferentes posibilidades se ofrecen a la apreciación del usuario del dispositivo que aplica el dicho procedimiento, dicho dispositivo será descrito posteriormente. En este ejemplo, la fase de análisis de la señal audio (bloque A1), representada según la figura 2, comprende las etapas siguientes:
\bullet
conformación de la señal de entrada (bloque 1),
\bullet
cálculo de la envolvente temporal (bloque 2),
\bullet
detección de interpolación temporal (bloque 3),
\bullet
detección de la señal audible (bloque 4),
\bullet
cálculo de la interpolación temporal (bloque 5),
\bullet
cálculo de la dinámica de la señal (bloque 6),
\bullet
detección de trama inaudible después de una trama de energía más elevada (bloque 7),
\bullet
procesamiento de impulso (bloque 8),
\bullet
repetición del impulso (bloque 9),
\bullet
cálculo de la transformada rápida de Fourrier (TRF) sobre impulso repetido (bloque 10),
\bullet
cálculo de los parámetros de la señal que sirve para el pretratamiento antes de la TRF (bloque 11),
\bullet
pretratamiento de la señal temporal (bloque 12),
\bullet
cálculo de la TRF sobre señal tratada (bloque 13),
\bullet
cálculo de la relación señal/ruido (bloque 14),
\bullet
prueba de la variación doppler del "pitch" (bloque 15),
\bullet
cálculo de la TRF sobre la señal no tratada (bloque 16),
\bullet
cálculo de la relación señal/ruido (bloque 17),
\bullet
comparación de las relaciones señal/ruido con y sin pretratamiento (bloque 18),
\bullet
restitución del resultado de la TRF con pretratamiento (bloque 19),
\bullet
cálculo de las frecuencias y los módulos (amplitudes de los componentes frecuenciales (bloque 20),
\bullet
decisión del tipo de señal (bloque 21),
\bullet
prueba de 50 ó 60 Hz (bloque 22),
\bullet
cálculo de la dinámica de los módulos en el campo frecuencial (bloque 23),
\bullet
supresión de la interpolación sobre los datos frecuenciales (bloque 24),
\bullet
supresión de la señal inaudible (bloque 25),
\bullet
cálculo y validación del "pitch" (bloque 26),
\bullet
decisión de filtración de ruido o efectos especiales, o continuación del análisis (bloque 27),
\bullet
atenuación eventual del ruido ambiental (bloque 28),
\bullet
fin del tratamiento de la trama (bloque 29).
\vskip1.000000\baselineskip
La explotación de la transformada rápida de Fourrier (TRF) para la voz no es factible siendo dada la variabilidad de la señal frecuencial; en efecto la variación de las frecuencias crea un ensanchamiento del resultado de dicha transformada rápida de Fourrier (TRF); la eliminación de este ensanchamiento se hace posible gracias al cálculo de la variación del "pitch" y gracias a la aplicación de la variación inversa de dicho "pitch" sobre la señal temporal.
Así, el análisis de la señal vocal es efectuado esencialmente en cuatro etapas:
\bullet
cálculo de la envolvente de la señal (bloque 2),
\bullet
cálculo del "pitch" y de su variación (bloque 12),
\bullet
aplicación a la señal temporal de la variación inversa del "pitch" (bloque 12),
\bullet
transformada rápida de Fourrier (TRF) sobre la señal pretratada (bloque 13),
\bullet
eliminación eventual del ruido ambiental antes de la codificación (bloques 23-28).
\vskip1.000000\baselineskip
Por otro lado, cuatro umbrales (bloques 4, 7, 8, 22) permiten detectar respectivamente la presencia de señal inaudible, la presencia de trama inaudible, la presencia de un impulso, la presencia de señal perturbadora de sector (50 Hz) ó 60 Hz).
Por otra parte, el quinto umbral (bloque 15) permite efectuar la transformada rápida de Fourrier (TRF) sobre la señal no tratada en función de las características del "pitch" y de su variación.
Un sexto umbral (bloque 18) permite restituir el resultado de la transformada rápida de Fourrier (TRF) con pretratamiento en función de la relación señal/ruido.
Finalmente, se toma una decisión (bloque 27) si la filtración del ruido o los efectos especiales son efectuados; en caso contrario, se continúa el análisis (flecha IV).
Dos tramas son explotadas en el procedimiento de análisis de la señal audio, una trama llamada "corriente", de periodicidad fija, que contiene un cierto número de muestras correspondiente a la señal vocal, y una trama llamada "de análisis", cuyo número de muestras es equivalente al de trama corriente o el doble, y que puede ser desfasada, en función de la interpolación temporal, con relación a la dicha trama corriente.
La conformación de la señal de entrada (bloque 1) consiste en efectuar una filtración de paso alto con el fin de mejorar la codificación futura de las amplitudes frecuenciales aumentando su dinámica; dicha filtración de paso alto aumenta la dinámica de amplitud frecuencial evitando que una baja frecuencia audible ocupe toda la dinámica y elimine frecuencias de amplitud débil pero sin embargo audibles. La señal filtrada es dirigida luego hacia el bloque 2 para la determinación de la envolvente temporal.
El cálculo de la envolvente temporal (bloque 2) permite definir:
-
El tipo de señal, si se trata de un impulso con o sin señal de fondo (ruido ambiental o música),
-
La posición de la trama de análisis de la envolvente de la señal con relación a la trama corriente,
-
La energía de la señal temporal.
\vskip1.000000\baselineskip
Se efectúa por una búsqueda de los máximos de la señal, consideradas como la parte del "pitch" más elevada en valor absoluto.
Se calcula luego la diferencia temporal que hay que aplicar sobre la trama de análisis investigando por una parte el máximo de la envolvente en dicha trama y luego por otra parte dos índices que corresponden a los valores de la envolvente inferiores de un cierto porcentaje al valor del máximo.
Si en una trama de análisis se encuentra localmente una diferencia entre dos muestras superior a un porcentaje de la dinámica máxima de la trama y ello durante una duración limitada, se declara que un impulso breve está contenido en la trama forzando los índices de diferencia temporales a los valores que rodean el impulso adicional.
La detección de interpolación temporal (bloque 3) permite corregir ambos índices de diferencia de la trama de análisis encontrados en el cálculo precedente, y tomando en consideración el pasado.
El primer umbral (bloque 4) detecta o no la presencia de una señal audible midiendo el valor máximo de la envolvente; en caso afirmativo, el análisis de la trama se acaba; en caso contrario, el procesamiento continúa.
Se efectúa luego un cálculo (bloque 5) de los parámetros asociados con la diferencia temporal de la trama de análisis determinando el parámetro de interpolación de los módulos que es igual a la relación de la envolvente máxima en la trama corriente a la de la trama en desfase.
La dinámica de la señal se calcula luego (bloque 6) para su normalización con el fin de disminuir el ruido de cálculo; la ganancia de normalización de la señal se calcula a partir de la muestra más elevada en valor absoluto en la trama de análisis.
Un segundo umbral (bloque 7) detecta o no la presencia de una trama inaudible por efecto de enmascaramiento provocado por las tramas precedentes; en caso afirmativo, el análisis se acaba; en caso contrario, el tratamiento continúa.
El tercer umbral (bloque 8) detecta luego o no la presencia de un impulso; en caso afirmativo, se efectúa un tratamiento específico (bloques 9, 10); en caso contrario, serán efectuados los cálculos de los parámetros de la señal (bloque 11) que servirán para el pretratamiento de la señal temporal (bloque 12).
En presencia de un impulso, se efectúa la repetición del impulso (bloque 9) creando un "pitch" artificial, igual a la duración del impulso, para evitar el enmascaramiento de las frecuencias útiles en el momento de la transformada rápida de Fourríer (TRF).
La transformada rápida de Fourrier (TRF) (bloque 10) se realiza luego sobre el impulso repetido conservando sólo el valor absoluto del número complejo y no la fase; luego se efectúa el cálculo de las frecuencias y de los módulos de los datos frecuenciales (bloque 20).
En ausencia de impulso, se efectúa el cálculo de los parámetros de la señal (bloque 11), dichos parámetros se refieren a:
-
el cálculo del "pitch" y de su variación,
-
la definición del número de muestras en la trama de análisis.
\vskip1.000000\baselineskip
De hecho, el cálculo del "pitch" se efectúa previamente por una diferenciación de la señal de la trama de análisis, seguido por una filtración de paso bajo de los componentes de rango elevado, luego por una elevación al cubo del resultado de dicha filtración; el valor del "pitch" se determina por el cálculo de ia distancia mínima entre una porción de señal de energía elevada con la continuación de la señal subsecuente, dado que la dicha distancia mínima es la suma del valor absoluto de las diferencias entre las muestras de plantilla y las muestras a correlacionar; luego, la parte principal de un "pitch" centrada alrededor de una vez y media el valor del "pitch" se investiga al principio de la trama de análisis con el fin de calcular la distancia de esta porción de "pitch" sobre la integridad de la trama de análisis; así, las distancias mínimas que definen las posiciones del "pitch", siendo el "pitch" la media de los "pitchs" detectados; luego la variación del "pitch" es calculada con la ayuda de una recta que minimiza el error cuadrático medio de las sucesiones de los "pitchs" detectados; el "pitch" estimado al principio y al final de trama de análisis se deduce de eso; si el "pitch" temporal al final de trama es superior al del principio de trama, la variación del "pitch" es igual al relación del "pitch" estimado de principio de trama al de fin de trama, disminuido en 1; a la inversa, si el "pitch" temporal al final de trama es inferior al de principio de trama, la variación del "pitch" es igual a 1 disminuido en la relación del "pitch" estimado al final de trama al de principio de trama.
La variación del "pitch", encontrada y validada anteriormente, será sustraída de la señal temporal en el bloque 12 de pretratamiento temporal, utilizando sólo el primer orden de dicha variación.
La sustracción de la variación del "pitch" consiste en muestrear la trama de análisis sobre-muestreada con un paso de preparación de muestras variando con el valor inverso de dicha variación del "pitch".
El sobre-muestreo, en un factor de dos, de la trama de análisis se realiza multiplicando el resultado de la transformada rápida de Fourrier (TFR) de la trama de análisis por el factor exp (-j*2*Pl*k/(2*L_trama), para añadir un plazo de una semi-muestra a la señal temporal que sirve para el cálculo de la transformada rápida de Fourrier; ia transformada rápida de Fourrier inversa se realiza luego con el fin de obtener la señal temporal desfasada de una semi-muestra.
Una trama de longitud doble se realiza así utilizando alternativamente una muestra de la trama original con una muestra de la trama desfasada de una semi-muestra.
Después de eliminación de la variación del "pitch", dicho "pitch" parece idéntico sobre toda la ventana de análisis, lo que dará un resultado de la transformada rápida de Fourrier (TRF) sin ensanchamiento de frecuencias; la transformada rápida de Fourrier (TRF) podrá luego ser efectuada en el bloque 13 con el fin de conocer el campo frecuencíal de la trama de análisis; el método utilizado permite calcular rápidamente el módulo del número complejo en detrimento de la fase de la señal.
El cálculo de la relación de la señal de ruido es efectuado sobre el valor absoluto del resultado de la transformada rápida de Fourrier (TRF); dicha relación es de hecho la relación de la diferencia de la energía de la señal y del ruido con la suma de la energía de la señal y del ruido; el numerador de dicha relación corresponde al logaritmo de la diferencia entre dos picos de energía, respectivamente de la señal y del ruido, el pico de energía es o superior a las cuatro muestras adyacentes correspondiente a la señal armónica, o inferior a las cuatro muestras adyacentes correspondiente al ruido; el denominador es la suma de los logaritmos de todos los picos de la señal y del ruido; por otro lado, el cálculo de la relación señal/ruido se hace por subbanda, las subbandas más elevadas, en término de nivel, son logradas promediados y dan la relación buscada.
El cálculo de la relación señal/ruido, definido como siendo la relación señal menos ruido con señal más ruido, efectuado en el bloque 14, permite determinar si la señal analizada es una señal acústica o de la música, el caso de una relación elevada, o del ruido, el caso de una relación débil.
Esta distinción se efectúa luego en el bloque 15; de hecho, se efectúan pruebas sobre la variación doppler del "pitch" y sobre la frecuencia del "pitch"; si la variación del "pitch" es débil o su frecuencia elevada, el tratamiento es inmediatamente seguido por el cálculo de las frecuencias y de los módulos de los datos frecuenciales de la transformada rápida de Fourrier (TRF) (bloque 20); en caso contrario, la transformada rápida de Fourrier (TRF) se efectúa sin pretratamiento (bloque 16).
El cálculo de la relación señal con ruido se efectúa luego en el bloque 17, para transmitir al bloque 20 los resultados de la transformada rápida de Fourrier (TRF) sin pretratamiento, caso de una variación del "pitch" nula, o, en caso contrario para restituir los resultados de la transformada rápida de Fourrier (TRF) con pretratamiento (bloque 19).
Esta distinción se efectúa en el bloque 18, de la manera siguiente:
-
Si la relación señal/ruido sin pretratamiento es superior a la relación señal/ruido con pretratamiento, los resultados de la transformada rápida de Fourrier (TRF) son trasladados al bloque 20.
-
Si la relación señal/ruido sin pretratamiento es inferior a la relación señal/ruido con tratamiento, siendo efectuada la restitución de los resultados de la transformada rápida de Fourrier (TRF) con pretratamiento en el bloque 19, los resultados obtenidos con pretratamiento son luego trasladados al bloque 20.
\vskip1.000000\baselineskip
Esta prueba permite validar la variación del "pitch", que podría ser no nula para la música, mientras que ésta debe ser efectivamente nula.
El cálculo de las frecuencias y de los módulos de los datos frecuenciales de la transformada rápida de Fourrier (TRF) se efectúa en el bloque 20.
La transformada rápida de Fourrier (TRF), anteriormente citada en referencia a los bloques 10, 13, 16, se realiza, en calidad de ejemplo, sobre 256 muestras en el caso de una trama desfasada o de un impulso, o sobre el doble de muestras en el caso de una trama centrada sin impulso.
Se efectúa una ponderación de las muestras situadas en los extremos de las muestras, llamada de HAMMING, en el caso de la transformada rápida de Fourrier (TRF) sobre n muestras; sobre 2n muestras, se utiliza la ventana de ponderación de HAMMING multiplicada por la raíz cuadrada de la ventana de HAMMING.
A partir de los valores absolutos de los datos complejos de la transformada rápida de Fourrier (TRF), se calcula la relación entre dos valores máximos adyacentes, representando cada una el producto de la amplitud del componente frecuencial por un seno cardinal; por aproximaciones sucesivas, se compara esta relación entre los valores máximos, con valores contenidos en tablas que contienen la misma relación, para N frecuencias (por ejemplo 32 ó 64) repartidas uniformemente sobre una semi-muestra de la transformada rápida de Fourrier (TRF). El índice de dicha tabla que define la relación más próxima al que hay que comparar da por una parte el módulo y por otra parte la frecuencia para cada máximo del valor absoluto de la transformada rápida de Fourrier (TRF).
Por otro lado, el cálculo de las frecuencias y de los módulos de los datos frecuenciales de la transformada rápida de Fourrier (TRF), efectuado en el bloque 20, permite también detectar una señal DTMF (multifrecuencia de doble tono) en telefonía.
Es necesario anotar que la relación señal/ruido es el criterio esencial que define el tipo de señal.
Con el fin de determinar la energía del ruido a generar a la síntesis y la precisión de la codificación, la señal extraída del bloque 20 está jerarquizada en cuatro tipos en el bloque 21, a saber:
-
tipo 0: señal acústica o música.
\vskip1.000000\baselineskip
El "pitch" y su variación pueden ser no nulos; el ruido aplicado sobre la síntesis será de energía débil; la codificación de los parámetros será efectuada con la precisión máxima.
-
tipo 1: señal insonora y eventualmente música.
El "pitch" y su variación son nulos; el ruido aplicado sobre la síntesis será de fuerte energía; la codificación de los parámetros será efectuada con la precisión mínima.
-
tipo 2: señal acústica o música.
El "pitch" y su variación son nulos; el ruido aplicado sobre la síntesis será de energía media; la codificación de los parámetros será efectuada con una precisión intermedia.
-
tipo 3: este tipo de señal se decide al final de análisis cuando la señal que hay que sintetizar es nula.
\vskip1.000000\baselineskip
Se efectúa una detección de presencia o de no presencia de señal perturbadora de 50 Hz (60 Hz) en el bloque 22; el nivel del umbral de detección depende del nivel de la señal investigada para evitar confundir la perturbación electromagnética (50, 60 Hz) y la fundamental de un instrumento de música.
En presencia de la señal perturbadora buscada, el análisis se acaba con el fin de disminuir la cadencia binaria: fin del tratamiento de la trama hecha referencia por el bloque 29.
En el caso contrario, en ausencia de señal perturbadora, se continúa el análisis.
Se efectúa un cálculo de la dinámica de las amplitudes de los componentes frecuenciales, o módulos, en el bloque 23; dicha dinámica frecuencial se utiliza para la codificación así como para la supresión de las señales inaudibles efectuada posteriormente en el bloque 25.
Así, el plano frecuencial está subdividido en varias partes, cada una de ellas posee varios intervalos de amplitud diferenciados en función del tipo de señal detectado al nivel del bloque 21.
Por otra parte, la interpolación temporal y la interpolación frecuencial son suprimidas al nivel del bloque 24; éstas habían sido efectuadas para optimizar la calidad de la señal.
La interpolación temporal que da módulos más elevados, será retirada multiplicando cada módulo por el parámetro de normalización calculado al nivel del bloque 5.
La interpolación frecuencial depende de la variación del "pitch"; ésta será suprimida en función de la diferencia de un cierto número de muestras y del sentido de la variación del "pitch".
Se efectúa luego la supresión de la señal inaudible en el bloque 25. En efecto, ciertas frecuencias son inaudibles porque están enmascaradas por otras señales de amplitud más elevadas.
La eliminación de éstas dichas frecuencias inaudibles permitirá disminuir la cadencia y también mejorar el cálculo del "pitch" gracias a la supresión del ruido.
En primer lugar, se efectúa una eliminación de las amplitudes situadas por debajo del límite inferior del intervalo de amplitud, luego se alejan las frecuencias cuyo intervalo es inferior a una unidad frecuencial, definida como que siendo la frecuencia de muestreo por unidad de muestra.
Luego, se eliminan los componentes inaudibles con la ayuda de una prueba entre la amplitud del componente frecuencial que hay que someter a un test y la amplitud de los otros componentes adyacentes multiplicada por un término atenuador dependiente de la diferencia entre su frecuencia.
Por otro lado, se limita el número de componentes frecuenciales a un valor más allá del cual la diferencia sobre el resultado obtenido no es perceptible.
El cálculo del "pitch" y la validación del "pitch" se efectúan al nivel del bloque 26; en efecto el "pitch" calculado en el bloque 11 sobre la señal temporal ha sido determinado en el campo temporal en presencia de ruido; el cálculo del "pitch" en el campo frecuencial permitirá mejorar la precisión del "pitch" y detectar un "pitch" que el cálculo sobre la señal temporal, efectuado en el bloque 11, no habría determinado a causa del ruido ambiental.
Por otro lado, el cálculo del "pitch" sobre la señal frecuencial debe permitir decidir si éste debe ser utilizado para la codificación, sabiendo que la utilización del "pitch" en la codificación permite disminuir fuertemente la codificación y hacer que la voz sea más natural a la síntesis; es utilizado por otro lado por el filtro de ruido.
Dado que las frecuencias y los módulos de la trama están disponibles, el principio del cálculo del "pitch" consiste en sintetizar la señal por una suma de coseno que tiene fases al principio nulas; así la forma de la señal original será reconstituida sin las perturbaciones de la envolvente, de las fases y de la variación del "pitch".
El valor del "pitch" frecuencial está definido por el valor del "pitch" temporal el cual es equivalente al primer valor de síntesis que presenta un máximo superior al producto de un coeficiente por la suma de los módulos utilizados para la síntesis local (suma de los cosenos de los dichos módulos); este coeficiente es igual a la relación de la energía de la señal, considerado como armónico, a la suma de la energía del ruido y de la energía de la señal; el dicho coeficiente es tanto más débil cuanto el "pitch" a detectar se pierde en el ruido; en calidad de ejemplo, a una relación señal/ruido de 0 decibelios corresponde un coeficiente de 0,5.
La información de validación del "pitch" frecuencial se obtiene con la ayuda de la relación de la muestra de síntesis, con respecto al "pitch", a la suma de los módulos utilizados para la síntesis local; esta relación, sinónimo de energía de la señal armónica sobre la energía total de la señal, se corrige en función de la relación aproximada señal/ruido calculada en el bloque 14; la información de validación del "pitch" depende de la superación del umbral de esta relación.
Con el fin de evitar validar un "pitch" sobre el ruido o la música, cuando el umbral de detección del "pitch" es débil, se efectúa un control de la existencia de un "pitch" en los emplazamientos de los múltiples del "pitch" temporal en la síntesis local; así el "pitch" no es válido si el nivel de la síntesis es demasiado débil para ser un "pitch" en los dichos emplazamientos de los múltiplos del "pitch" temporal.
Se calcula dos veces la síntesis local; una primera vez utilizando sólo las frecuencias cuyo módulo es elevado, con el fin de librarse del ruido para el cálculo del "pitch"; una segunda vez con la totalidad de los módulos limitados en valor máximo, con el fin de calcular la relación señal/ruido que validará el "pitch"; en efecto la limitación de los módulos da más peso a las frecuencias no armónicas con módulo débil, con el fin de disminuir la probabilidad de validación de un "pitch" sobre la música.
En el caso de la filtración del ruido, los valores de los dichos módulos no están limitados para la segunda síntesis local, sólo el número de frecuencias está limitado tomando en consideración sólo a las que tienen un módulo significativo con el fin de limitar el ruido.
Un segundo procedimiento de cálculo del "pitch" consiste en seleccionar el "pitch" que da la energía máxima para un paso de muestreo de la síntesis igual al "pitch" buscado; este procedimiento se utiliza para la música o un medio sonoro que contiene varias voces.
Previamente a la última etapa consistente en atenuar el ruido, será tomada una decisión por el usuario si desea realizar la filtración del ruido o generar efectos especiales (bloque 27), a partir del análisis, sin pasar por la síntesis.
En caso contrario, el análisis se acabará por el tratamiento siguiente que consistirá en atenuar el ruido, en el bloque 28, disminuyendo los componentes frecuenciales que no son un múltiple del "pitch"; después de la atenuación de los dichos componentes frecuenciales, se efectuará de nuevo la supresión de la señal inaudible, tal como describe anteriormente, al nivel del bloque 25.
La atenuación de los dichos componentes frecuenciales depende del tipo de señal tal como se define anteriormente por el bloque 21.
Después de haber efectuado dicha atenuación del mido, se puede considerar que el tratamiento de la trama se acaba; al resultado de dicha fase de análisis se ha hecho referencia en el bloque 29.
En referencia a la figura 1 representado un organigrama simplificado del procedimiento según la invención, en este ejemplo, la fase de síntesis de la señal audio (bloque C3), representada según la figura 3, comprende las etapas siguientes:
\bullet
conformación de los módulos (bloque 31),
\bullet
reducción del ruido (bloque 32),
\bullet
nivelación de la señal (bloque 33),
\bullet
saturación de los módulos (bloque 34),
\bullet
modificación de los parámetros de impulso en función de la velocidad de la síntesis (bloque 35),
\bullet
cálculo de las fases (bloque 36),
\bullet
generación del soplo (bloque 37),
\bullet
decisión en relación a la generación de un impulso (bloque 38),
\bullet
síntesis con los datos frecuenciales de la trama corriente (bloque 39),
\bullet
prueba en relación a la trama precedente (bloque 40),
\bullet
síntesis con los datos frecuenciales de la trama precedente (bloque 41),
\bullet
aplicación de la envolvente sobre la señal de síntesis (bloque 42),
\bullet
decisión en relación a la adición de un impulso (bloque 43),
\bullet
síntesis con los nuevos datos frecuenciales (bloque 44),
\bullet
conexión entre tramas adyacentes (bloque 45),
\bullet
transferencia del resultado de síntesis en la trama de muestra (bloque 46),
\bullet
copia de seguridad del borde de trama (bloque 47),
\bullet
fin de la síntesis (bloque 48).
\vskip1.000000\baselineskip
La síntesis consiste en calcular las muestras de la señal audio a partir de los parámetros calculados por el análisis; las fases y el ruido serán calculados artificialmente según el contexto.
La puesta en forma de los módulos (bloque 31) consiste en eliminar la atenuación del filtro de entrada de las muestras del análisis (bloque 1 del bloque A1) y en tener en cuenta el sentido de la variación del "pitch" porque la síntesis se realiza temporalmente por un incremento de fase de un seno.
Por otro lado, la información de validación del "pitch" se suprime si la opción de síntesis de la música es validada; esta opción mejora el cálculo de fase de las frecuencias evitando sincronizar las fases de los armónicos entre ellas en función del "pitch".
La reducción del ruido (bloque 32) se efectúa si ésta no ha sido efectuada previamente durante el análisis (bloque 28 del bloque A1).
La nivelación de la señal (bloque 33) suprime la normalización de los módulos recibidos del análisis; esta nivelación consiste en multiplicar los módulos por la inversa de la ganancia de normalización definida en el cálculo de la dinámica de la señal (bloque 6 del bloque A1) y en multiplicar los dichos módulos por 4 con el fin de eliminar el efecto de la ventana de HAMMING, y que sólo se utiliza la mitad del plano frecuencial.
La saturación de los módulos (bloque 34) se efectúa si la suma de los módulos es superior a la dinámica de la señal de las muestras de salida; consiste en multiplicar los módulos por la relación del valor máximo de la suma de los módulos a la suma de los módulos, en el caso de que dicha relación sea inferior a 1.
El impulso se regenera realizando la suma de seno en la duración de impulso; los parámetros de impulso se modifican (bloque 35) en función de la velocidad variable de síntesis.
El cálculo de las fases de las frecuencias se efectúa luego (bloque 36); tiene por objeto dar una continuidad de fase entre las frecuencias de las tramas o resincronizar las fases entre ellas; devuelve por otro lado la voz más natural.
La sincronización de las fases se realiza cada vez que una nueva señal en la trama corriente parece separada en el campo temporal o en el campo frecuencial de la trama precedente; esta separación corresponde:
\bullet
al paso de señal ruidosa a una señal no ruidosa,
\bullet
a un principio de palabra (o sonido) cuya envolvente al principio de trama es débil,
\bullet
a una transición entre dos palabras (o sonido) sin variación de la envolvente,
\bullet
a un principio de palabra (o sonido) que ha sido detectado en la trama precedente, pero cuya subida de la envolvente en la trama corriente sea tal que la sincronización debe ser rehecha para que las fases sean calculadas en función de un "pitch" de mejor calidad.
\vskip1.000000\baselineskip
La continuidad de fase consiste en investigar las frecuencias de la trama corriente al principio de trama que son las más próximas de las frecuencias al final de trama de la trama precedente; luego la fase de cada frecuencia se vuelve igual a la de la frecuencia precedente más próxima, sabiendo que las frecuencias al principio de trama corriente se calculan a partir del valor central de la frecuencia modificada por la variación del "pitch".
En presencia de un "pitch", en caso de la señal acústica, las fases de los armónicos serán sincronizadas sobre la del pitch multiplicando la fase del "pitch" por el índice del armónico del "pitch"; en cuanto a la continuidad de fase, se calcula la fase del "pitch" al final de trama en función a su variación y en función a la fase al principio de la trama; esta fase servirá para el principio de la trama siguiente.
Una segunda solución consiste en no aplicar más la variación del "pitch" sobre el "pitch" para conocer la nueva fase; basta con repetir la fase del fin de la trama precedente del "pitch"; por otro lado, en el momento de la síntesis, la variación del "pitch" se aplica sobre la interpolación de la síntesis realizada sin variación del "pitch".
Luego se efectúa la generación del soplo (bloque 37).
Según la invención, se considera que cualquier señal acústica en el intervalo de una trama es la suma del seno de amplitud fija y cuya frecuencia está modulada linealmente en función del tiempo, siendo esta suma modulada temporalmente por la envolvente de la señal, añadiendo el ruido a esta señal previamente a dicha suma.
\newpage
Sin este ruido, la voz es metálica porque la eliminación de los módulos débiles, efectuada en el bloque 25 del bloque A3, concierne esencialmente al soplo.
Por otro lado, la estimación de la relación de señal/ruido efectuada en el bloque 14 del bloque A3, no es explotada; se calcula en efecto un ruido en función del tipo de señal, módulos y frecuencias.
El principio del cálculo de! ruido se basa en una filtración de un ruido blanco por un filtro transversal cuyos coeficientes se calculan por la suma de los senos de las frecuencias de la señal cuyas amplitudes son atenuadas en función de los valores de su frecuencia y de su amplitud. Se aplica luego una ventana de HAMMING sobre los coeficientes para disminuir los lóbulos secundarios.
El ruido filtrado es luego salvaguardado en dos partes distintas.
Una primera parte permitirá hacer el vínculo entre dos tramas sucesivas; la conexión entre dos tramas se realiza por superposición de estas dos tramas de las que cada una es ponderada linealmente y en sentido opuesto; dicha superposición se efectúa cuando la señal es sinusoidal; no se aplica cuando se trata de ruido no correlacionado; así la parte salvaguardada del ruido filtrado es añadida sin ponderación sobre la zona de superposición. La segunda parte está destinada al cuerpo principal de la trama.
El enlace entre dos tramas debe por una parte permitir un paso fluido entre dos filtros de ruido de dos tramas sucesivas, y por otra parte prolongar el ruido de la trama siguiente más allá de la parte de superposición de las tramas si un principio de palabra (o sonido) es detectado.
Así, el paso fluido entre dos tramas se realiza por la suma del ruido blanco filtrado por el filtro de la trama precedente ponderado por una pendiente descendente lineal, y el mismo ruido blanco filtrado por el filtro de ruido de la trama corriente ponderado por la pendiente ascendiente inversa de la del filtro de la trama precedente.
La energía del ruido será añadida a la energía de la suma de los senos, según el procedimiento propuesto.
La generación de un impulso difiere de una señal sin impulso; en efecto, en el caso de la generación de un impulso, la suma de los senos se realiza sólo sobre una parte de la trama corriente a la cual se añade la suma de los senos de la trama precedente.
Esta distinción necesita elegir (bloque 38) entre ambas opciones: un impulso debe ser generado o no?; en el caso en el que no hay generación de un impulso, se efectúa la síntesis con los nuevos datos frecuenciales (bloque 39); en el caso contrario, se trata de saber si la trama precedente no era un impulso (bloque 40); en este caso se efectúa la síntesis con los datos frecuenciales de la trama precedente (bloque 41) que va a servir de fondo al impulso (caso de la música o del ruido ambiental que hay que repetir); en el caso contrario, la trama precedente que es un impulso, no se repite la señal de fondo con los parámetros del impulso precedente.
La síntesis con los nuevos datos frecuenciales (bloque 39) consiste en efectuar la suma de los senos de los componentes frecuenciales de la trama corriente; la variación de la longitud de la trama permite efectuar unzsa síntesis a velocidad variable; sin embargo los valores de las frecuencias al principio y al final de trama deben ser idénticos, sea cual sea la longitud de la trama, para una velocidad determinada de síntesis.
La fase asociada al seno, dependiente de la frecuencia, será calculada por iteración; en efecto para cada iteración, calculamos el seno multiplicado por el módulo; el resultado luego es sumado para cada muestra que sigue todas las frecuencias de la señal.
Otro método de síntesis consiste en realizar a la inversa el análisis recreando el campo frecuencial a partir del seno cardinal realizado con el módulo, la frecuencia y la fase, y luego realizando una transformada rápida de Fourrier (TFR) inversa, seguida por el producto de la inversa de la ventana de HAMMING para obtener el campo temporal de la señal.
En caso de que el "pitch" varíe, la inversa del análisis se efectúa de nuevo añadiendo la variación del "pitch" a la trama temporal sobre-muestreada.
En el caso de un impulso, basta con aplicar sobre la señal temporal, una ventana de 1 durante el impulso, y de 0, fuera de éste.
En el caso de un impulso que hay que generar, las fases al principio de los datos frecuenciales se mantienen en un valor 0.
Con el fin de realizar una conexión fluida entre las tramas, el cálculo de la suma de los senos se efectúa también sobre una porción que precede la trama y sobre la misma porción que sigue la trama; las partes en ambos extremos de la trama serán luego sumadas con las tramas adyacentes por ponderación lineal.
En el caso de un impulso, la suma de los senos se efectúa en el intervalo de tiempo de generación del impulso; con el fin de evitar la creación de impulsos parásitos debido a las discontinuidades en el cálculo de la suma de los senos, un cierto número de muestras situadas al principio y al final de la secuencia son ponderados respectivamente por una pendiente ascendente y una pendiente descendente.
En cuanto al caso de las frecuencias armónicas del "pitch", las fases han sido calculadas anteriormente para ser sincronizadas, serán generadas a partir del índice del armónico correspondiente.
La síntesis por la suma de los senos con los datos de la trama precedente (bloque 41) se efectúa cuando la trama corriente contiene un impulso que hay que generar; en efecto, en el caso de música o de ruido, si la síntesis no se efectúa sobre la trama precedente, sirviendo de señal de fondo, el impulso será generado sobre un silencio, lo que es perjudicial para una buena calidad del resultado obtenido; por otro lado la continuidad de la trama precedente es inaudible, incluso en presencia de una progresión de la señal.
La aplicación de la envolvente sobre la señal de síntesis (bloque 42) se efectúa a partir de los valores muestreados de la envolvente anteriormente determinados (bloque 2 del bloque A3); por otro lado la conexión entre dos tramas sucesivas se realiza por la suma ponderada, como se ha indicado anteriormente; esta ponderación por las curvas creciente y decreciente no se efectúa sobre el ruido, porque el ruido no está yuxtapuesto entre trama.
Finalmente, en el caso de la síntesis a velocidad variable, la longitud de la trama varía por paso con el fin de ser homogéneo con el muestreo de la envolvente.
La adición de un impulso por la suma de seno en el intervalo o dónde ha sido detectado el impulso, se efectúa (bloque 44) en función a la prueba realizada anteriormente (bloque 43).
La ponderación de yuxtaposición entre dos tramas se efectúa luego (bloque 45) como se ha indicado anteriormente.
La transferencia del resultado de síntesis (bloque 46) será luego efectuada en la trama de salida de muestra con el fin de que se salvaguarde dicho resultado.
También, una copia de seguridad del borde de trama (bloque 47) se efectuará con el fin de que dicho borde de trama pueda ser añadido al principio de la trama siguiente.
Al resultado de dicha fase de síntesis se hace referencia en el bloque 48.
En referencia a la figura 1 que representa un organigrama simplificado del procedimiento según la invención, en este ejemplo, la fase de codificación de los parámetros (bloque A2), representada según la figura 4, comprende las etapas siguientes:
\bullet
codificación del tipo de señal (bloque 51),
\bullet
prueba sobre el tipo de señal (bloque 52),
\bullet
codificación del tipo de compresión (bloque 53),
\bullet
codificación del valor de normalización de la señal de trama (bloque 54),
\bullet
prueba sobre la presencia de impulso (bloque 55),
\bullet
codificación de los parámetros de impulso (bloque 56),
\bullet
codificación de la variación del "pitch" (bloque 57),
\bullet
limitación del número de frecuencias a codificar (bloque 58),
\bullet
codificación de los valores de muestreo de la envolvente (bloque 59),
\bullet
codificación de la validación del "pitch" (bloque 60),
\bullet
prueba de validación del "pitch" (bloque 61),
\bullet
codificación de los armónicos (bloque 62),
\bullet
codificación de las frecuencias no armónicas (bloque 63),
\bullet
codificación de la dinámica de los módulos (bloque 64),
\bullet
codificación del módulo más elevado (bloque 65),
\bullet
codificación de los módulos (bloque 66),
\bullet
codificación de la atenuación (bloque 67),
\bullet
supresión de la normalización de los módulos (bloque 68),
\bullet
codificación de las fracciones frecuenciales de las frecuencias no armónicas (bloque 69),
\bullet
codificación del número de octetos de codificación (bloque 70),
\bullet
fin de codificación (bloque 71).
\vskip1.000000\baselineskip
La codificación de los parámetros (bloque A2) calculados en el análisis (bloque A1) en el procedimiento según la invención, consiste en limitar la cantidad de informaciones útiles con el fin de reproducir a la síntesis (bloque C3) después de decodificar (bloque C1) un equivalente auditivo a la señal audio de origen.
Siendo la codificación de longitud variable, cada trama codificada tiene un número de bits de información limpia; siendo la señal audio variable, más o menos de informaciones se tendrán que codificar.
Al ser interdependientes los parámetros de codificación, un parámetro codificado influirá sobre el tipo de codificación de los parámetros siguientes.
Por otro lado, la codificación de los parámetros puede ser o lineal, el número de bits que dependiendo del número de valores, o de tipo HUFFMAN, el número de bits siendo una función estadística del valor a codificar (cuanto más frecuente es el dato, menos bits utiliza y recíprocamente).
El tipo de señal, tal y como se define en el momento del análisis (bloque 21 del bloque A1), proporciona la información de generación del ruido y la calidad de la codificación que hay que utilizar; la codificación del tipo de señal se efectúa en primer lugar (bloque 51).
Se efectúa luego una prueba (bloque 52) que permite en el caso del tipo 3 de la señal, tal y como se define en el bloque 21 del análisis (bloque A1), no efectuar codificación de los parámetros; la síntesis contendrá muestras nulas.
La codificación del tipo de compresión (bloque 53) es utilizada en el caso de que el usuario desea actuar sobre la cadencia de los datos de codificación, en detrimento de la calidad; esta opción puede ser ventajosa en modo telecomunicación asociado a una relación de compresión elevada.
La codificación del valor de normalización (bloque 54) de la señal de la trama de análisis es de tipo HUFFMAN.
Se efectúa luego una prueba sobre la presencia de impulso (bloque 55), que permite en caso de síntesis de un impulso, codificar los parámetros de dicho impulso.
En caso de presencia de un impulso, la codificación, siguiendo una ley lineal, de los parámetros de dicho impulso (bloque 56) será efectuada sobre el principio y el fin de dicho impulso en la trama corriente.
En cuanto a la codificación de la variación doppler del "pitch" (bloque 57), será efectuada según una ley logarítmica, teniendo en cuenta el signo de dicha variación; esta codificación no será efectuada en presencia de un impulso o si el tipo de señal es no acústica.
Se efectúa luego una limitación del número de frecuencias que codifican (bloque 58) con el fin de evitar que una frecuencia de valor alto sobrepase la dinámica limitada por la frecuencia de muestreo, dado que la variación doppler del "pitch" hace variar las frecuencias durante la síntesis.
La codificación de los valores de muestreo de la envolvente (bloque 59) depende de la variación de la señal, del tipo de compresión, del tipo de señal, del valor de normalización y de la presencia eventual de impulso; dicha codificación consiste en codificar las variaciones y el valor mínimo de los dichos valores de muestreo.
La validación del "pitch" es luego codificada (bloque 60), seguida por una prueba de validación (bloque 61) que necesita, en caso afirmativo, codificar las frecuencias armónicas (bloque 62) según su índice con relación a la frecuencia del "pitch". En cuanto a las frecuencias no armónicas, serán codificadas (bloque 63) según su parte entera.
La codificación de las frecuencias armónicas (bloque 62) consiste en efectuar una codificación logarítmica del pitch, con el fin de obtener la misma precisión relativa para cada frecuencia armónica; la codificación de los dichos índices de los armónicos se efectúa en función de su presencia o en función de su ausencia por paquete de tres índices según la codificación de HUFFMAN.
Las frecuencias que no han sido detectadas como siendo armónicas de la frecuencia del "pitch" serán codificadas por separado (bloque 63).
Con el fin de evitar que en el momento de la codificación, una frecuencia no armónica cambie de posición con relación a una frecuencia armónica, se suprime la frecuencia no armónica que es demasiado próxima a la frecuencia armónica, sabiendo que tiene menos peso en el sentido audible; así la supresión tiene lugar si la frecuencia no armónica es superior a la frecuencia armónica y que la fracción de la frecuencia no armónica debida a la codificación de la parte entera, hace que dicha frecuencia no armónica sea inferior a la frecuencia armónica próxima.
La codificación de las frecuencias no armónicas (bloque 63) consiste en codificar el número de frecuencias no armónicas, luego la parte entera de las frecuencias, después las partes fraccionarias cuando los módulos serán codificados; en lo que concierne a la codificación de la parte entera de las frecuencias, únicamente las diferencias entre las dichas partes enteras se codifican; por otro lado, cuanto más débil es el módulo, más débil es la precisión sobre la parte fraccionaria; ello con el fin de disminuir la cadencia binaria. Con el fin de optimizar la codificación en término de cadencia de la parte entera en función de la estadística de las desviaciones de frecuencia, se define un cierto número máximo de desviaciones entre dos frecuencias.
La codificación de la dinámica de los módulos (bloque 64) utiliza una ley de HUFFMAN en función del número de intervalos que definen dicha dinámica y el tipo de señal. En el caso de una señal acústica, la energía de la señal se sitúa en las frecuencias bajas; para otros tipos de señal, la energía se reparte uniformemente en el plano frecuencial, con una bajada hacia las altas frecuencias.
La codificación del módulo más elevado (bloque 65) consiste en codificar, según una ley de HUFFMAN, la parte entera de dicho módulo más elevado teniendo en cuenta la estadística de dicho módulo más elevado.
La codificación de los módulos (bloque 66) es realizada únicamente si el número de módulo que hay que codificar es superior a 1, dado que en caso contrario, es único siendo el módulo más elevado.
Cuando se analiza (bloque A1), la supresión de la señal inaudible (bloque 25 del bloque A1) elimina los módulos inferiores al producto del módulo por la atenuación correspondiente; así un módulo se sitúa obligatoriamente en una zona del plano módulo/frecuencia que depende de la distancia que lo separa de sus dos módulos adyacentes en función de la desviación de frecuencia los dichos módulos adyacentes. Así el valor del módulo es aproximado respecto al módulo precedente en función de la desviación de frecuencia y de la atenuación correspondiente que depende del tipo de señal, del valor de normalización y del tipo de compresión, dicha aproximación del valor del módulo se efectúa en referencia a una escala cuyo paso varía según una ley logarítmica.
La codificación de la atenuación (bloque 67) aportada por el filtro de entrada de las muestras se efectúa, pues es seguida por la supresión de la normalización (bloque 68) que permite volver a calcular el módulo más elevado así como la frecuencia correspondiente.
La codificación de las fracciones frecuenciales de las frecuencias no armónicas (bloque 69) completa la codificación de las partes enteras de las dichas frecuencias.
La precisión de la codificación va a depender:
\bullet
de la frecuencia: cuanto más débil es la frecuencia, más elevada será la precisión de modo que la relación error de codificación sobre frecuencia sea débil,
\bullet
del tipo de señal,
\bullet
del tipo de compresión,
\bullet
del valor de normalización de la señal: cuanto más elevada es la intensidad de la señal, más precisa es la codificación.
\vskip1.000000\baselineskip
Finalmente, la codificación del número de octetos de codificación (bloque 70) se efectúa al final de la codificación de los diferentes parámetros mencionados anteriormente, memorizados en una memoria especial de codificación.
Al resultado de dicha fase de codificación se hace referencia en el bloque 71.
En referencia a la figura 1 que representa un organigrama simplificado del procedimiento según la invención, en este ejemplo, la fase de decodificación de los parámetros se representa por el bloque C1.
Siendo la decodificación lo inverso a la codificación, la explotación de los bits de codificación de los diferentes parámetros mencionados anteriormente permitirá volver a tener los valores de origen de los parámetros, con eventuales aproximaciones.
En referencia a la figura 1 que representa un organigrama simplificado del procedimiento según la invención, en este ejemplo, la fase de filtración del ruido y de la generación de efectos especiales, a partir del análisis, sin pasar por la síntesis es indicada por el bloque D.
La filtración del ruido se efectúa a partir de los parámetros de la voz calculados en el análisis (bloque A1 del bloque A), tomando el trayecto IV indicado sobre dicho organigrama simplificado por el procedimiento según la inven-
ción.
Se muestra que los algoritmos conocidos del estado de la técnica realizan una anulación del ruido a partir de las propiedades estadísticas de la señal; el ruido debe ser por consiguiente estacionario estadísticamente; este planteamiento pues no autoriza la presencia de ruido bajo forma armónica (voz, música).
El objetivo de la filtración del ruido es por consiguiente reducir todo tipo de ruido tal como: ruido ambiental de coche, de motor, de muchedumbre, de música, de otras voces si éstas son más débiles que las que hay que conservar, así como los ruidos de cálculo de cualquier vocoder (en calidad de ejemplo: ADPCM, GSM, G723).
Por otro lado, la mayoría de los ruidos tiene su energía en las bajas frecuencias; el hecho de utilizar la señal del análisis previamente filtrada por el filtro de entrada de las muestras permite disminuir tanto el ruido de frecuencia muy baja.
La filtración del ruido (bloque D) para una señal acústica consiste en realizar la suma para cada muestra, de la señal original, de la señal original desfasada de un "pitch" en valor positivo y por una señal original desfasada de un "pitch" en valor negativo. Esto necesita conocer por cada muestra, el valor del "pitch" y de su variación. Ventajosamente ambas señales desfasadas son multiplicadas por un mismo coeficiente, y la señal original no desfasada por un segundo coeficiente; la suma de dicho coeficiente añadido al mismo y del de dicho segundo coeficiente es igual a 1, disminuido para conservar un nivel equivalente de la señal resultante.
El número de muestras espaciadas de un "pitch" temporal no se limita a tres muestras; cuantas más muestras se utilizan para el filtro de ruido, y más el filtro disminuye el ruido.
El número de tres muestras se adapta al "pitch" temporal más elevado encontrado en la voz y con retraso de filtración. Con el fin de guardar un retraso de filtración fijo, cuanto más débil es el "pitch" temporal, más se pueden utilizar muestras desfasadas por un "pitch" para realizar la filtración; lo que vuelve a mantener la banda pasante alrededor de un armónico, más o menos constante; cuanto más se eleva el fundamental y más se eleva la anchura de banda atenuada.
Por otro lado, la filtración del ruido no corresponde a las señales en forma de impulso; es pues necesario detectar la presencia de impulsos eventuales en la señal.
La filtración del ruido (bloque D) para una señal no acústica consiste en atenuar dicha señal por un coeficiente inferior a 1.
En el campo temporal, la suma de las tres señales anteriormente mencionadas está correlacionada; en cuanto al ruido contenido en la señal original, la suma atenuará su nivel.
Así, es necesario conocer con exactitud la variación del "pitch", es decir el valor temporal del "pitch", aproximado en valor lineal, sabiendo que hace intervenir un término de segundo orden; el mejoramiento de la precisión de ambos dichos desfases, positivos y negativos, se obtiene gracias a la utilización de la correlación por la distancia en el principio, la mitad y fin de trama; este paso ha sido descrito en el curso de la etapa "cálculo de los parámetros de la señal" (bloque 11 del bloque A1).
Ventajosamente, la filtración de ruido, descrita anteriormente, permite generar efectos especiales; dicha generación de efectos especiales permite obtener:
\bullet
una feminización de la voz, dividiendo el valor temporal del "pitch" por dos, para ciertos valores de las amplitudes de la señal original y de las señales originales desfasadas; esto multiplica artificialmente la frecuencia del "pitch" de la voz por dos suprimiendo los armónicos impares;
\bullet
una voz artificial y extraña, dividiendo el valor temporal del "pitch" por dos, para otros valores de amplitudes de la señal original y de las señales originales desfasadas; esto permite mantener sólo los armónicos impa- res;
\bullet
dos voces diferentes, dividiendo el valor temporal del "pitch" por dos, para otros valores de las amplitudes de la señal original y de las señales originales desfasadas; esto permite atenuar los armónicos impares.
\vskip1.000000\baselineskip
Finalmente, otro paso, semejante al descrito anteriormente que permitirá la filtración del ruido, podrá ser aplicado, no para filtrar el ruido, sino para dividir por dos o por tres la fundamental de la voz y ello, sin modificación de lo formado (envolvente espectral) de dicha voz.
\newpage
El principio de dicho paso consiste en:
\bullet
multiplicar cada muestra de la voz original por un coseno que varía con el ritmo de la mitad de la fundamental (multiplicación por dos del número de frecuencias), o que varía con el ritmo del tercio de la fundamental (multiplicación por tres del número de frecuencias),
\bullet
luego añadir el resultado obtenido a la voz original.
\vskip1.000000\baselineskip
Por otro lado, la fase de filtración del ruido y de generación de los efectos especiales, a partir del análisis, sin pasar por la síntesis, puede no incluir el cálculo de la variación del "pitch"; esto permite obtener una calidad auditiva cercana a la anteriormente obtenida según el procedimiento anteriormente mencionado; en este modo operatorio, las funciones definidas por los bloques 11, 12, 15, 16, 17, 18, 19, 25 y 28 son suprimidas.
En referencia a la figura 1 que representa un organigrama simplificado del procedimiento según la invención, en este ejemplo, la fase de generación de efectos especiales, asociada con la síntesis (bloque C3) se indica por el bloque C2 del bloque C.
Dicha fase de generación de efectos especiales, asociada con la síntesis, permite transformar la voz o la música:
\bullet
o modificando según ciertas leyes, los parámetros decodificados provenientes del bloque C1 (trayecto II),
\bullet
o tratando directamente los resultados del análisis provenientes del bloque A1 (trayecto III).
\vskip1.000000\baselineskip
Los parámetros modificados son:
\bullet
el "pitch",
\bullet
la variación del "pitch",
\bullet
la validación del "pitch",
\bullet
el número de componentes frecuenciales,
\bullet
las frecuencias,
\bullet
los módulos,
\bullet
los índices.
\vskip1.000000\baselineskip
Al ser distintas las frecuencias entre sí, su transformación permite renovar la voz, envejecerla, afeminarla o a la inversa, transformarla en una voz artificial. Así la transformación de los módulos autoriza todo tipo de filtraciones y permite además conservar la voz natural manteniendo el formante (envolvente espectral).
En calidad de ejemplos, se describirán a continuación tres tipos de transformación de la voz, a cada uno haciéndole referencia bajo una denominación que le es propia, a saber:
-
la función "Transform" que modifica la voz de modo artificial y que permite crear un efecto de coral,
-
la función "Transvoice" que modifica la voz de modo realista,
-
la función "Formant" asociada con la función "Transvoice".
\vskip1.000000\baselineskip
La función "Transform" consiste en multiplicar todas las frecuencias de los componentes frecuenciales por un coeficiente. Las modificaciones de la voz dependen del valor de este coeficiente, a saber:
\bullet
un valor superior a 1 transforma la voz en voz de pato,
\bullet
un valor débilmente superior a 1 rejuvenece la voz,
\bullet
un valor inferior a 1 vuelve la voz más grave.
\vskip1.000000\baselineskip
En efecto, esta modificación artificial de la voz es debida al hecho de que los módulos de los componentes frecuenciales quedan y que la envolvente espectral es deformada.
Por otro lado, sintetizando muchas veces tos mismos parámetros, modificados por dicha función "Transform" con un coeficiente diferente, se realiza un efecto de coral dando la impresión de que están presentes varias voces.
La función "Transvoice" consiste en recrear los módulos de los armónicos a partir de la envolvente espectral, armónicos originales están abandonados sabiendo que las frecuencias no armónicas no están modificadas; por tal motivo, dicha función "Transvoice" acude a la función "Formant" que determina el formante.
Así, la transformación de la voz se efectúa de modo realista porque que el formante se conserva; un coeficiente de multiplicación de las frecuencias armónicas superior a 1 rejuvenece la voz, incluso la afemina; recíprocamente, un coeficiente de multiplicación de las frecuencias armónicas inferior a 1 vuelve la voz más grave.
Por otro lado, con el fin de conservar un nivel sonoro constante, independientemente del valor del coeficiente de multiplicación, las nuevas amplitudes serán multiplicadas por la relación de la suma de los módulos en entrada de dicha función "Transvoice" a la suma de los módulos en salida.
La función "Formant" consiste en determinar la envolvente espectral de la señal frecuencial; se explota para mantener los módulos de los componentes frecuenciales constantes cuando las frecuencias son modificadas. La determinación de la envolvente se efectúa en dos etapas, a saber:
\bullet
una filtración de los módulos colocados en la envolvente,
\bullet
una interpolación logarítmica de la envolvente entre dos módulos de un armónico.
\vskip1.000000\baselineskip
Dicha función "Formant" puede ser aplicada en el momento de la codificación de los módulos, de las frecuencias, de los intervalos de amplitudes y de las fracciones de frecuencias, efectuando dicha codificación únicamente sobre los parámetros esenciales del formante, el "pitch" que es validado. En este caso, en el momento de la decodificación, se vuelven a calcular las frecuencias y los módulos a partir respectivamente del "pitch" y de la envolvente espectral. Así se reduce la cadencia binaria; sin embargo, este paso es aplicable únicamente a la voz.
Dichas funciones "Transform" y "Transvoice", descritas anteriormente hacen intervenir un coeficiente de multiplicación constante de las frecuencias. Esta transformación puede ser no lineal y permitir volver la voz artificial.
En efecto, si este coeficiente de multiplicación depende de la relación entre el nuevo "pitch" y el "pitch" real, la voz estará caracterizada por un "pitch" fijo y un formante variable; se habrá transformado así en voz de robot asociada con un efecto espacial.
Si este coeficiente de multiplicación varía periódicamente o aleatoriamente, a baja frecuencia, la voz es envejecida asociada con un efecto hilarante.
Estas diferentes transformaciones de la voz, obtenidas a partir de una modificación, una constante o variable en el tiempo, de las frecuencias, siendo dicha modificación efectuada sobre cada una de las frecuencias tomadas por separado, son dadas en calidad de ejemplos.
Una última solución consiste en efectuar una codificación de cadencia fija. El tipo de señal es llevado a la señal acústica (tipo 0 y 2 con la validación del "pitch" a 1), o a ruido (tipo 1 y 2 con la validación del "pitch" a 0). Estando el tipo 2 para la música, es eliminado en este caso, ya que esta codificación únicamente puede codificar la voz.
La codificación de cadencia fija consiste en:
\bullet
codificar el tipo de señal, la información de la presencia de impulso, y la validación del "pitch" en codificación de HUFFMAN,
\bullet
codificar el emplazamiento del impulso en la trama si no se está en presencia de un impulso, si no en codificar las partes de envolvente temporal acudiendo a una tabla de codificación que representa las envolventes encontradas más corrientemente,
\bullet
codificar el "pitch" en ley logarítmica sobre su valor o la diferencia entre el "pitch" codificado de la trama precedente y el de la trama actual; anotar que la codificación diferencial permite utilizar menos bits de codificación,
\bullet
codificar la variación del "pitch", no estando en presencia de un impulso, solamente si el valor calculado en el análisis está alejado de un cierto porcentaje de la variación del "pitch" calculada a partir de los "pitchs" de la trama precedente y de la trama actual; igualmente, la variación del "pitch" no está codificada, si el valor absoluto de la desviación entre estas dos variaciones es inferior a un valor máximo,
\bullet
codificar el formante diferencial sobre 2 bits para las bajas frecuencias, y sobre 1 bit para las otras frecuencias, el primer formante no siendo codificado en diferencial. Cabe señalar que cuantas más muestras de formante a codificar hay, mejor es la calidad auditiva del codificador de cadencia fija, y más débil es la diferencia de codificación entre dos muestras adyacentes.
\vskip1.000000\baselineskip
Siendo la decodificación inversa a la codificación, el "pitch" proporciona todos los armónicos de la voz; sus amplitudes son las del formante. En cuanto a las frecuencias de la señal no acústica, se calculan frecuencias espaciadas entre sí por un valor medio al cual se añade una desviación aleatoria; las amplitudes son las del formante.
El proceso de síntesis, descrito anteriormente, es idéntico al descrito para un decodificador de cadencia variable.
Con el fin de permitir la aplicación del procedimiento según la invención, se describirá a continuación un dispositivo, con referencia a la figura 5. El dispositivo, según la invención, esencialmente comprende:
\bullet
un ordenador 71, de tipo DSP, que permite efectuar el procesamiento digital de las señales,
\bullet
un teclado 72 que permite seleccionar los menús de tratamiento de la voz,
\bullet
una memoria de sólo lectura (ROM) 73, de tipo EEPROM, que contiene el software de tratamiento de la voz,
\bullet
una memoria de acceso aleatorio (RAM) 74, de tipo flash o "memory stick", que contiene los registros de la voz tratada,
\bullet
un visualizador 75, de tipo LCD, asociado al teclado 72, que indica los diferentes menús de tratamiento de la voz,
\bullet
un codificador/decodificador 76, de tipo codec, que asegura las conexiones entrada/salida de los periféricos audio,
\bullet
un micro 77, de tipo électret,
\bullet
un altavoz 78,
\bullet
una batería 79,
\bullet
una conexión entrada/salida 80, que permite la transferencia de las grabaciones digitales y las actualizaciones del software de procesamiento de la voz.
\vskip1.000000\baselineskip
Por otro lado, el dispositivo podrá contener:
\bullet
un conector telefónico que permite al dispositivo según la invención sustituirse por un microteléfono telefónico,
\bullet
un conector de telefonía móvil,
\bullet
una salida para auriculares, que permite la escucha de las grabaciones,
\bullet
una salida cadena de hi fi, que permite la función karaoke,
\bullet
un conector externo de alimentación.
\vskip1.000000\baselineskip
De una manera más precisa, el dispositivo podrá contener:
- medios de análisis que permiten determinar parámetros representativos de dicha señal acústica, los dichos medios de análisis comprenden:
\bullet
medios de cálculo de la envolvente de la señal,
\bullet
medios de cálculo del "pitch" y de su variación,
\bullet
medios de aplicación a la señal temporal de la variación inversa del "pitch",
\bullet
medios de transformada rápida de Fourrier (TRF) sobre la señal pretratada,
\bullet
medios de extracción de los componentes frecuenciales y sus amplitudes de dicha señal, a partir del resultado de la transformada rápida de Fourrier,
\bullet
medios de eliminación eventual del ruido ambiental por filtración selectiva antes de la codificación,
\vskip1.000000\baselineskip
- medios de síntesis los dichos parámetros representativos que permiten reconstituir dicha señal acústica, los dichos medios de síntesis comprenden:
\bullet
medios de suma de los senos cuya amplitud de los componentes frecuenciales varíe en función de la envolvente de la señal,
\bullet
medios de cálculo de las fases en función del valor de las frecuencias y de los valores de las fases y de las frecuencias que pertenecen a la trama precedente,
\bullet
medios de superposición del ruido,
\bullet
medios de aplicación de la envolvente,
\vskip1.000000\baselineskip
- medios de filtración del ruido y de generación de efectos especiales, a partir del análisis, sin pasar por la síntesis, de los dichos medios de filtración del ruido y de generación de efectos especiales que comprenden:
\bullet
medios de suma de la señal original, de la señal original desfasada de un "pitch" en valor positivo y por una señal original desfasada de un "pitch" en valor negativo,
\bullet
medios de división del valor temporal del "pitch" por dos,
\bullet
medios de modificación de las amplitudes de la señal original y ambas señales desfasadas,
\bullet
medios de multiplicación de cada muestra de la voz original por un coseno que varía al ritmo de la mitad de la fundamental (multiplicación por dos del número de frecuencias), o que varía al ritmo del tercio de la fundamental (multiplicación por tres del número de frecuencias),
\bullet
medios de adición a continuación del resultado obtenido con la voz original,
\vskip1.000000\baselineskip
- medios de generación de efectos especiales asociados con la síntesis, los dichos medios de generación de efectos especiales comprenden:
\bullet
medios de multiplicación de todas las frecuencias de los componentes frecuenciales de la señal original, tomadas individualmente, por un coeficiente,
\bullet
medios de regeneración de los módulos de los armónicos a partir de la envolvente espectral de dicha señal original.
\vskip1.000000\baselineskip
Ventajosamente, el dispositivo podrá contener todos los elementos citados anteriormente, en versión profesional o semi profesional; ciertos elementos, tal como el visualizador, podrán ser simplificados en versión de base.
Así, el dispositivo según la invención, anteriormente descrito, podrá explotar el procedimiento de procesamiento digital diferenciado de la voz y de la música, de filtración del ruido y la creación de efectos especiales.
Permitirá particularmente transformar la voz:
\bullet
en otra voz realista,
\bullet
para un uso de tipo karaoke,
\bullet
en otra voz futurista y extraña, de acompañamiento.
\vskip1.000000\baselineskip
También permitirá:
\bullet
suprimir el ruido ambiental y aumentar las capacidades de grabación,
\bullet
transferir las grabaciones sobre disco duro de ordenador y reescucharlas a velocidad variable,
\bullet
realizar una función "mano libre" asociada con un radioteléfono móvil,
\bullet
generar una respuesta auditiva adaptada a personas con deficiencias auditivas.

Claims (21)

1. Procedimiento para el tratamiento numérico diferenciado de una señal acústica, constituido en el intervalo de una trama por la suma de seno de amplitud fija y cuya frecuencia está modulada linealmente en función del tiempo, esta suma que está modulada temporalmente por una envolvente, el ruido de dicha señal acústica que se añade a dicha señal, previamente a dicha suma, caracterizado por que comprende:
Una etapa de análisis que permite determinar parámetros representativos de dicha señal acústica, por
\bullet
un cálculo de la envolvente de la señal,
\bullet
un cálculo de la señal acústica del pitch y de su variación,
\bullet
una aplicación a la señal temporal de la variación inversa del "pitch" que consiste en efectuar un muestreo temporal de la señal acústica con paso de muestreo variable, dicho paso varía con el valor inverso de la variación del pitch,
\bullet
una transformada rápida de Fourrier (TRF) sobre la señal pretratada,
\bullet
una extracción de los componentes frecuenciales y sus amplitudes de dicha señal, a partir del resultado de la transformada rápida de Fourrier,
\bullet
un cálculo del "pitch" en el dominio frecuencial y su variación con relación al "pitch" calculado anteriormente para mejorar la precisión de este "pitch" calculado anteriormente.
\vskip1.000000\baselineskip
2. Procedimiento según la reivindicación 1, caracterizado por que comprende además una etapa de síntesis de los dichos parámetros representativos que permiten reconstituir dicha señal acústica.
3. Procedimiento según las reivindicaciones precedentes, caracterizado por que comprende además una etapa de codificación y de decodificación de los dichos parámetros representativos de dicha señal acústica.
4. Procedimiento según las reivindicaciones precedentes, caracterizado por que comprende además una etapa de filtración del ruido y la etapa de generación de efectos especiales, a partir del análisis, sin pasar por la síntesis.
5. Procedimiento según las reivindicaciones precedentes, caracterizado por que comprende además una etapa de generación de efectos especiales asociados con la síntesis.
6. Procedimiento según la reivindicación 2, caracterizado por que la dicha etapa de síntesis comprende
\bullet
una suma de los senos cuya amplitud de los componentes frecuenciales varía en función a la envolvente de la señal y cuyas frecuencias varían linealmente,
\bullet
un cálculo de las fases en función al valor de las frecuencias y de los valores de las fases y de las frecuencias que pertenecen a la trama precedente,
\bullet
una superposición del ruido,
\bullet
una aplicación de la envolvente.
\vskip1.000000\baselineskip
7. Procedimiento según la reivindicación 4, caracterizado por que la dicha etapa de filtración del ruido y la dicha etapa de generación de efectos especiales, a partir del análisis, sin pasar por la síntesis, comprenden una suma de la señal original, de la señal original desfasada por un "pitch" en valor positivo y por una señal original desfasada por un "pitch" en valor negativo.
8. Procedimiento según la reivindicación 7,
caracterizado por que las dichas señales desfasadas son multiplicadas por un mismo coeficiente, y la señal original por un segundo coeficiente, la suma de dicho coeficiente, añadido a sí mismo, y de de dicho segundo coeficiente es igual a 1, disminuido para conservar un nivel equivalente de la señal resultante.
\vskip1.000000\baselineskip
9. Procedimiento según la reivindicación 7,
caracterizado por que la dicha etapa de filtración y la dicha etapa de generación de efectos especiales, a partir del análisis, sin pasar por la síntesis, comprenden:
\bullet
una división del valor temporal del "pitch" por dos,
\bullet
una modificación de las amplitudes de la señal original y de ambas señales desfasadas.
\vskip1.000000\baselineskip
10. Procedimiento según la reivindicación 7,
caracterizado por que la dicha etapa de filtración y la dicha etapa de generación de efectos especiales, a partir del análisis, sin pasar por la síntesis, comprenden:
\bullet
una multiplicación de cada muestra de la voz original por un coseno que varía al ritmo de la mitad de la fundamental (multiplicación por dos del número de frecuencias), o que varía al ritmo del tercio de la fundamental (multiplicación por tres del número de frecuencias),
\bullet
luego una adición del resultado obtenido a la voz original.
\vskip1.000000\baselineskip
11. Procedimiento según la reivindicación 5,
caracterizado por que la dicha etapa de generación de efectos especiales asociados con la síntesis, comprende:
\bullet
una multiplicación de todas las frecuencias de los componentes frecuenciales de la señal original, tomadas individualmente, por un coeficiente,
\bullet
una regeneración de los módulos de los armónicos a partir de la envolvente espectral de dicha señal original.
\vskip1.000000\baselineskip
12. Procedimiento según la reivindicación 11,
caracterizado por que el dicho coeficiente de multiplicación de los componentes frecuenciales es:
\bullet
un coeficiente dependiente de la relación entre el nuevo "pitch" y el "pitch" real,
\bullet
un coeficiente que varía, periódicamente o aleatoriamente, a baja frecuencia.
\vskip1.000000\baselineskip
13. Dispositivo, de tratamiento numérico diferenciado de una señal acústica, constituido en el intervalo de una trama por la suma de seno de amplitud fija y cuya frecuencia está modulada linealmente en función del tiempo, esta suma está modulada temporalmente por una envolvente, el ruido de dicha señal acústica siendo añadido a dicha señal, previamente a dicha suma, caracterizado por que comprende
medios de análisis que permiten determinar parámetros representativos de dicha señal acústica, comprendiendo:
\bullet
medios de cálculo de la envolvente de la señal,
\bullet
medios de cálculo del "pitch" y de su variación,
\bullet
medios de aplicación a la señal temporal de la variación inversa del "pitch" que consiste en efectuar un muestreo temporal de la señal acústica con paso de muestreo variable, variando este paso con el valor inverso de la variación del pitch,
\bullet
medios de transformada rápida de Fourrier (TRF) sobre la señal pretratada,
\bullet
medios de extracción de los componentes frecuenciales y sus amplitudes de dicha señal, a partir del resultado de la transformada rápida de Fourrier,
\bullet
medios cálculo del "pitch" en el campo frecuencial y su variación con relación al "pitch" calculado anteriormente para mejorar la precisión de este "pitch" calculado anteriormente.
\vskip1.000000\baselineskip
14. Dispositivo según la reivindicación 13, caracterizado por que comprende además:
-
medios de síntesis de los dichos parámetros representativos que permiten reconstituir dicha señal acústica y/o
-
medios de codificación y de decodificación de los dichos parámetros representativos de dicha señal acústica, y/o
\newpage
-
medios de filtración del ruido y de generación de efectos especiales, a partir del análisis, sin pasar por la síntesis, y/o
-
medios de generación de efectos especiales asociados con la síntesis.
\vskip1.000000\baselineskip
15. Dispositivo según la reivindicación 14,
caracterizado por que los dichos medios de síntesis comprenden:
\bullet
medios de suma de los senos cuya amplitud de los componentes frecuenciales varía en función a la envolvente de la señal,
\bullet
medios de cálculo de las fases en función del valor de las frecuencias y de los valores de las fases y de las frecuencias que pertenecen a la trama precedente,
\bullet
medios de superposición del ruido,
\bullet
medios de aplicación de la envolvente.
\vskip1.000000\baselineskip
16. Dispositivo según la reivindicación 13,
caracterizado por que los dichos medios de filtración del ruido y de la generación de efectos especiales, a partir del análisis, sin pasar por la síntesis, comprenden medios de suma de la señal original, de la señal original desfasada por un "pitch" en valor positivo y por una señal original desfasada de un "pitch" en valor negativo.
\vskip1.000000\baselineskip
17. Dispositivo según la reivindicación 16,
caracterizado por que las dichas señales desfasadas son multiplicadas por un mismo coeficiente, y la señal original por un segundo coeficiente, la suma de dicho primer coeficiente, añadido a sí mismo, y de dicho segundo coeficiente es igual a 1, disminuido para conservar un nivel equivalente de la señal resultante.
\vskip1.000000\baselineskip
18. Dispositivo según la reivindicación 14,
caracterizado por que los dichos medios de filtración y de generación de efectos especiales, a partir del análisis, sin pasar por la síntesis, comprenden:
\bullet
medios de división del valor temporal del "pitch" por dos,
\bullet
medios de modificación de las amplitudes de la señal original y de ambas señales desfasadas.
\vskip1.000000\baselineskip
19. Dispositivo según la reivindicación 14,
caracterizado por que los dichos medios de filtración y de generación de efectos especiales, a partir del análisis, sin pasar por la síntesis, comprenden:
\bullet
medios de multiplicación de cada muestra de la voz original por un coseno que varía al ritmo de la mitad de la fundamental (multiplicación por dos del número de frecuencias), o que varía al ritmo del tercio de la fundamental (multiplicación por tres del número de frecuencias),
\bullet
medios de adición a continuación del resultado obtenido a la voz original.
\vskip1.000000\baselineskip
20. Dispositivo según la reivindicación 14.
caracterizado por que dichos medios de generación de efectos especiales asociados con la síntesis, comprenden:
\bullet
medios de multiplicación de todas las frecuencias de los componentes frecuenciales de la señal original, tomadas individualmente, por un coeficiente,
\bullet
medios de regeneración de los módulos de los armónicos a partir de la envolvente espectral de dicha señal original.
\vskip1.000000\baselineskip
21. Dispositivo según la reivindicación 20,
caracterizado por que dicho coeficiente de multiplicación de los componentes frecuenciales es:
\bullet
un coeficiente dependiente de la relación entre el nuevo "pitch" y el "pitch" real,
\bullet
un coeficiente que varía periódicamente, a baja frecuencia.
ES04705433T 2003-01-30 2004-01-27 Procesamiento digital diferenciado de la voz y de la musica, la filtracion del ruido, la creacion de efectos especiales asi como un dispositivo para la aplicacion de dicho procedimiento. Expired - Lifetime ES2342601T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0301081 2003-01-30
FR0301081A FR2850781B1 (fr) 2003-01-30 2003-01-30 Procede pour le traitement numerique differencie de la voix et de la musique, le filtrage du bruit, la creation d'effets speciaux et dispositif pour la mise en oeuvre dudit procede

Publications (1)

Publication Number Publication Date
ES2342601T3 true ES2342601T3 (es) 2010-07-09

Family

ID=32696232

Family Applications (1)

Application Number Title Priority Date Filing Date
ES04705433T Expired - Lifetime ES2342601T3 (es) 2003-01-30 2004-01-27 Procesamiento digital diferenciado de la voz y de la musica, la filtracion del ruido, la creacion de efectos especiales asi como un dispositivo para la aplicacion de dicho procedimiento.

Country Status (7)

Country Link
US (1) US8229738B2 (es)
EP (1) EP1593116B1 (es)
AT (1) ATE460726T1 (es)
DE (1) DE602004025903D1 (es)
ES (1) ES2342601T3 (es)
FR (1) FR2850781B1 (es)
WO (1) WO2004070705A1 (es)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100547113B1 (ko) * 2003-02-15 2006-01-26 삼성전자주식회사 오디오 데이터 인코딩 장치 및 방법
US20050226601A1 (en) * 2004-04-08 2005-10-13 Alon Cohen Device, system and method for synchronizing an effect to a media presentation
JP2007114417A (ja) * 2005-10-19 2007-05-10 Fujitsu Ltd 音声データ処理方法及び装置
US7772478B2 (en) * 2006-04-12 2010-08-10 Massachusetts Institute Of Technology Understanding music
US7622665B2 (en) * 2006-09-19 2009-11-24 Casio Computer Co., Ltd. Filter device and electronic musical instrument using the filter device
FR2912249A1 (fr) * 2007-02-02 2008-08-08 France Telecom Codage/decodage perfectionnes de signaux audionumeriques.
CA2690433C (en) * 2007-06-22 2016-01-19 Voiceage Corporation Method and device for sound activity detection and sound signal classification
KR101410230B1 (ko) * 2007-08-17 2014-06-20 삼성전자주식회사 종지 정현파 신호와 일반적인 연속 정현파 신호를 다른방식으로 처리하는 오디오 신호 인코딩 방법 및 장치와오디오 신호 디코딩 방법 및 장치
PL2232700T3 (pl) 2007-12-21 2015-01-30 Dts Llc System regulacji odczuwanej głośności sygnałów audio
US20100329471A1 (en) * 2008-12-16 2010-12-30 Manufacturing Resources International, Inc. Ambient noise compensation system
US8670990B2 (en) * 2009-08-03 2014-03-11 Broadcom Corporation Dynamic time scale modification for reduced bit rate audio coding
CN102474232B (zh) * 2009-08-11 2014-10-22 Dts有限责任公司 增加扬声器感知响度的系统
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
US8204742B2 (en) 2009-09-14 2012-06-19 Srs Labs, Inc. System for processing an audio signal to enhance speech intelligibility
WO2011048815A1 (ja) * 2009-10-21 2011-04-28 パナソニック株式会社 オーディオ符号化装置、復号装置、方法、回路およびプログラム
EP2737479B1 (en) 2011-07-29 2017-01-18 Dts Llc Adaptive voice intelligibility enhancement
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
US9318086B1 (en) * 2012-09-07 2016-04-19 Jerry A. Miller Musical instrument and vocal effects
JP5974369B2 (ja) * 2012-12-26 2016-08-23 カルソニックカンセイ株式会社 ブザー出力制御装置およびブザー出力制御方法
US9484044B1 (en) * 2013-07-17 2016-11-01 Knuedge Incorporated Voice enhancement and/or speech features extraction on noisy audio signals using successively refined transforms
US9530434B1 (en) 2013-07-18 2016-12-27 Knuedge Incorporated Reducing octave errors during pitch determination for noisy audio signals
US20150179181A1 (en) * 2013-12-20 2015-06-25 Microsoft Corporation Adapting audio based upon detected environmental accoustics
JP6402477B2 (ja) * 2014-04-25 2018-10-10 カシオ計算機株式会社 サンプリング装置、電子楽器、方法、およびプログラム
TWI569263B (zh) * 2015-04-30 2017-02-01 智原科技股份有限公司 聲頻訊號的訊號擷取方法與裝置
CN112908352B (zh) * 2021-03-01 2024-04-16 百果园技术(新加坡)有限公司 一种音频去噪方法、装置、电子设备及存储介质
US20230154480A1 (en) * 2021-11-18 2023-05-18 Tencent America LLC Adl-ufe: all deep learning unified front-end system
US20230289652A1 (en) * 2022-03-14 2023-09-14 Matthias THÖMEL Self-learning audio monitoring system

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4201105A (en) * 1978-05-01 1980-05-06 Bell Telephone Laboratories, Incorporated Real time digital sound synthesizer
US4357852A (en) * 1979-05-21 1982-11-09 Roland Corporation Guitar synthesizer
US5054072A (en) * 1987-04-02 1991-10-01 Massachusetts Institute Of Technology Coding of acoustic waveforms
JP3351905B2 (ja) * 1994-07-28 2002-12-03 ソニー株式会社 音声信号処理装置
WO1997017692A1 (en) * 1995-11-07 1997-05-15 Euphonics, Incorporated Parametric signal modeling musical synthesizer
US6031173A (en) * 1997-09-30 2000-02-29 Kawai Musical Inst. Mfg. Co., Ltd. Apparatus for generating musical tones using impulse response signals
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6240386B1 (en) * 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
JP2000082260A (ja) * 1998-09-04 2000-03-21 Sony Corp オーディオ信号再生装置及び方法
AU2001241475A1 (en) * 2000-02-11 2001-08-20 Comsat Corporation Background noise reduction in sinusoidal based speech coding systems
US20020184009A1 (en) * 2001-05-31 2002-12-05 Heikkinen Ari P. Method and apparatus for improved voicing determination in speech signals containing high levels of jitter

Also Published As

Publication number Publication date
US20060130637A1 (en) 2006-06-22
WO2004070705A1 (fr) 2004-08-19
EP1593116A1 (fr) 2005-11-09
US8229738B2 (en) 2012-07-24
FR2850781A1 (fr) 2004-08-06
ATE460726T1 (de) 2010-03-15
EP1593116B1 (fr) 2010-03-10
DE602004025903D1 (de) 2010-04-22
FR2850781B1 (fr) 2005-05-06

Similar Documents

Publication Publication Date Title
ES2342601T3 (es) Procesamiento digital diferenciado de la voz y de la musica, la filtracion del ruido, la creacion de efectos especiales asi como un dispositivo para la aplicacion de dicho procedimiento.
US10885926B2 (en) Classification between time-domain coding and frequency domain coding for high bit rates
JP4166673B2 (ja) 相互使用可能なボコーダ
ES2349554T3 (es) Codificación de señales.
US6691084B2 (en) Multiple mode variable rate speech coding
KR101092167B1 (ko) 피치-조정 및 비-피치-조정 코딩을 이용한 신호 인코딩
JP4112027B2 (ja) 再生成位相情報を用いた音声合成
RU2483365C2 (ru) Низкоскоростная аудиокодирующая/декодирующая схема с общей предварительной обработкой
JP4824167B2 (ja) 周期的スピーチコーディング
KR20010014352A (ko) 음성 통신 시스템에서 음성 강화를 위한 방법 및 장치
JP2009522588A (ja) 音声コーデック内の効率的なフレーム消去隠蔽の方法およびデバイス
BRPI0311314B1 (pt) Método e dispositivo para aperfeiçoamento da altura de som seletivo por freqüência de fala sintetizada
JP2001222297A (ja) マルチバンドハーモニック変換コーダ
KR100216018B1 (ko) 배경음을 엔코딩 및 디코딩하는 방법 및 장치
US9418671B2 (en) Adaptive high-pass post-filter
KR20030031936A (ko) 피치변경법을 이용한 단일 음성 다중 목소리 합성기
Nishimura Aerial Acoustic Modem with Decoding Capabilities Using a CELP-Based Speech Encoder
Ekeroth Improvements of the voice activity detector in AMR-WB
Seereddy Speech coding using multipulse excitation