ES2342601T3 - Procesamiento digital diferenciado de la voz y de la musica, la filtracion del ruido, la creacion de efectos especiales asi como un dispositivo para la aplicacion de dicho procedimiento. - Google Patents
Procesamiento digital diferenciado de la voz y de la musica, la filtracion del ruido, la creacion de efectos especiales asi como un dispositivo para la aplicacion de dicho procedimiento. Download PDFInfo
- Publication number
- ES2342601T3 ES2342601T3 ES04705433T ES04705433T ES2342601T3 ES 2342601 T3 ES2342601 T3 ES 2342601T3 ES 04705433 T ES04705433 T ES 04705433T ES 04705433 T ES04705433 T ES 04705433T ES 2342601 T3 ES2342601 T3 ES 2342601T3
- Authority
- ES
- Spain
- Prior art keywords
- signal
- pitch
- block
- noise
- synthesis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000000694 effects Effects 0.000 title claims abstract description 50
- 238000001914 filtration Methods 0.000 title claims abstract description 39
- 238000012545 processing Methods 0.000 title abstract description 8
- 238000004458 analytical method Methods 0.000 claims abstract description 70
- 230000015572 biosynthetic process Effects 0.000 claims description 78
- 238000003786 synthesis reaction Methods 0.000 claims description 78
- 238000004364 calculation method Methods 0.000 claims description 58
- 238000011282 treatment Methods 0.000 claims description 23
- 210000000481 breast Anatomy 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 13
- 230000002123 temporal effect Effects 0.000 claims description 13
- 230000009466 transformation Effects 0.000 claims description 12
- 230000003595 spectral effect Effects 0.000 claims description 10
- 230000004048 modification Effects 0.000 claims description 8
- 238000012986 modification Methods 0.000 claims description 8
- 230000003247 decreasing effect Effects 0.000 claims description 7
- 230000033764 rhythmic process Effects 0.000 claims description 5
- 230000001419 dependent effect Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000008929 regeneration Effects 0.000 claims description 3
- 238000011069 regeneration method Methods 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 abstract description 8
- 238000005516 engineering process Methods 0.000 abstract description 4
- 239000011295 pitch Substances 0.000 description 138
- 230000006870 function Effects 0.000 description 23
- 238000010200 validation analysis Methods 0.000 description 13
- 238000012360 testing method Methods 0.000 description 12
- 230000001755 vocal effect Effects 0.000 description 12
- 238000010606 normalization Methods 0.000 description 11
- 230000001629 suppression Effects 0.000 description 9
- 230000007423 decrease Effects 0.000 description 8
- 238000001514 detection method Methods 0.000 description 7
- 230000006835 compression Effects 0.000 description 6
- 238000007906 compression Methods 0.000 description 6
- 230000000875 corresponding effect Effects 0.000 description 6
- 230000008520 organization Effects 0.000 description 6
- 230000008030 elimination Effects 0.000 description 5
- 238000003379 elimination reaction Methods 0.000 description 5
- 230000000873 masking effect Effects 0.000 description 5
- 230000007613 environmental effect Effects 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 230000002238 attenuated effect Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 235000014653 Carica parviflora Nutrition 0.000 description 2
- 241000243321 Cnidaria Species 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 239000012530 fluid Substances 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 241000272525 Anas platyrhynchos Species 0.000 description 1
- 206010011224 Cough Diseases 0.000 description 1
- 206010049290 Feminisation acquired Diseases 0.000 description 1
- 208000034793 Feminization Diseases 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003071 parasitic effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Electrophonic Musical Instruments (AREA)
- Noise Elimination (AREA)
- Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
Procedimiento para el tratamiento numérico diferenciado de una señal acústica, constituido en el intervalo de una trama por la suma de seno de amplitud fija y cuya frecuencia está modulada linealmente en función del tiempo, esta suma que está modulada temporalmente por una envolvente, el ruido de dicha señal acústica que se añade a dicha señal, previamente a dicha suma, caracterizado por que comprende: Una etapa de análisis que permite determinar parámetros representativos de dicha señal acústica, por - un cálculo de la envolvente de la señal, - un cálculo de la señal acústica del pitch y de su variación, - una aplicación a la señal temporal de la variación inversa del "pitch" que consiste en efectuar un muestreo temporal de la señal acústica con paso de muestreo variable, dicho paso varía con el valor inverso de la variación del pitch, - una transformada rápida de Fourrier (TRF) sobre la señal pretratada, - una extracción de los componentes frecuenciales y sus amplitudes de dicha señal, a partir del resultado de la transformada rápida de Fourrier, - un cálculo del "pitch" en el dominio frecuencial y su variación con relación al "pitch" calculado anteriormente para mejorar la precisión de este "pitch" calculado anteriormente.
Description
Procesamiento digital diferenciado de la voz y
de la música, la filtración del ruido, la creación de efectos
especiales así como un dispositivo para la aplicación de dicho
procedimiento.
La invención presente se refiere a un
procesamiento digital diferenciado de la voz y de la música, la
filtración del ruido, la creación de efectos especiales así como un
dispositivo para la aplicación de dicho procedimiento.
Tiene más particularmente como objeto
transformar la voz de un modo realista u original y, de manera más
general, tratar en tiempo real la voz, la música, el ruido
ambiental y grabar los resultados obtenidos sobre un soporte
informático.
Se aplica particularmente, pero no
exclusivamente, al gran público y a los profesionales del sonido que
desean transformar la voz para aplicaciones lúdicas, tratar de otro
modo la voz y la música, crear efectos especiales, reducir el ruido
ambiental, y grabar, bajo forma numérica comprimida, los resultados
obtenidos.
De modo general sabemos que la señal vocal está
compuesta por una mezcla de señales transitorias muy complejas
(ruidos) y de partes de señal cuasi-periódicas
(sonidos armónicos). Los ruidos pueden ser pequeñas explosiones: P,
B, T, D, K, GU; ruidos difusos suaves: F, V, J, Z o intensos CH, S;
en cuanto a los sonidos armónicos, su espectro varía con el tipo de
vocal y con el emisor.
Las relaciones de intensidad entre los ruidos y
las vocales cambian según se trate de una voz conversacional, de
una voz hablada tipo conferencia, con una voz fuerte gritada o con
una voz cantada. La voz fuerte y la voz cantada favorecen los
sonidos vocálicos en detrimento de los ruidos.
La señal vocal transmite simultáneamente dos
tipos de mensajes: un mensaje semántico acompañado por la palabra,
expresión verbal del pensamiento, y un mensaje estético perceptible
a través de las calidades estéticas de la voz (timbre, entonación,
cadencia, etc.).
El contenido semántico de la palabra, soporte de
una buena inteligibilidad es prácticamente independiente de las
calidades de la voz; está transmitido por las formas acústicas
temporales; una voz cuchicheada está constituida sólo por ruidos de
flujo; una voz "íntima" o de proximidad está constituida por
una mezcla de sonidos armónicos en las frecuencias graves y por
ruidos de flujo en el agudo; la voz de un conferenciante o de un
cantante posee un espectro vocálico armónico rico e intenso.
En cuanto a los instrumentos de música, están
caracterizados por su tesitura, es decir la amplitud en frecuencia
de todas las notas que pueden emitir. Sin embargo muy pocos
instrumentos poseen un "sonido armónico", es decir fundamental
intenso acompañado de armónicos cuya intensidad disminuye con el
orden.
Por otra parte, la tesitura musical y el
contenido espectral no están directamente vinculados; ciertos
instrumentos tienen los máximos de energía incluidos en la
tesitura; otros presentan una zona máxima de energía bien
circunscrita, situada al límite agudo de la tesitura y más allá;
finalmente tienen máximos de energía muy extendidos que ampliamente
rebosan el límite agudo de la tesitura.
Por otro lado, sabemos que el tratamiento
analógico de estas señales complejas, por ejemplo su amplificación,
provoca, de modo ineludible, una degradación creciente con dicho
tratamiento y esto de manera irreversible.
La originalidad de las tecnologías numéricas es
introducir un determinismo (es decir un conocimiento a
priori) lo más importante posible a nivel de las señales
tratadas para realizar tratamientos particulares que radicarán en
forma de cálculos.
Así, si se realiza una transformación de la
señal representativa de un sonido, al principio bajo su forma
natural de vibraciones, en una señal numérica provista de las
propiedades nombradas anteriormente, esta señal será tratada sin
sufrir degradaciones tales como ruido de fondo, distorsión y
limitación de banda pasante; además, podrá ser tratado con el fin
de crear efectos especiales tales como la transformación de la voz,
la supresión del ruido ambiental, la modificación del soplo de la
voz, la diferenciación de la voz y de la música.
Desde luego, la tecnología audionumórica
comprende las tres etapas principales:
- \bullet
- conversión de la señal analógica en una señal numérica,
- \bullet
- tratamientos deseados transpuestos en ecuaciones a resolver,
- \bullet
- conversión de la señal numérica en señal analógica ya que el último eslabón de la cadena genera vibraciones acústicas.
\newpage
\global\parskip0.900000\baselineskip
De manera general, sabemos que ios dispositivos
de tratamiento del sonido, designados bajo el término de codificador
de voz, contienen las cuatro funciones siguientes:
- \bullet
- análisis,
- \bullet
- codificador,
- \bullet
- decodificador,
- \bullet
- síntesis.
\vskip1.000000\baselineskip
La patente US 2002/184009 HEIKKINEN Ari) del 5
de diciembre de 2002 propone un procedimiento de supresión de la
variación del pitch desplazando individualmente los impulsos del
pitch de la trama de análisis con el fin de obtener un pitch
fijo.
La patente WO 01/59766A (COMSAT) del 16 de
agosto de 2001 propone una técnica de reducción del ruido a través
de una predicción lineal.
La patente US 5 684 262 A describe un
procedimiento que consiste en multiplicar la voz original por una
tonalidad con el fin de obtener un desfase de frecuencia y así
obtener una voz más grave o más aguda.
Por otro lado, los procedimientos de reducción
de cadencia son empleados esencialmente para el almacenamiento
numérico (con el fin de disminuir el volumen binario) y para la
transmisión (con el fin de disminuir la cadencia necesaria). Estos
procedimientos comprenden un tratamiento previo al almacenamiento o
a la transmisión (codificación) y un tratamiento de la restitución
(decodificación).
Entre los procedimientos de reducción de
cadencia, los que utilizan los métodos perceptuales con pérdidas de
información son los más empleados particularmente el procedimiento
MPEG Audio.
Este procedimiento se basa en el efecto de
enmascaramiento de la audición humana, es decir la desaparición de
los sonidos débiles en presencia de los sonidos fuertes, equivalente
a un desplazamiento del umbral de audibilidad provocado por el
sonido más fuerte y con arreglo a la desviación de frecuencia y de
nivel entre ambos sonidos.
Así, el número de bits por muestra se define en
función del efecto de máscara dado que los sonidos débiles y el
ruido de cuantificación son inaudibles. Con el fin de sacar el mejor
provecho de este efecto de enmascaramiento, el espectro audio está
dividido en un cierto número de subbandas, permitiendo así precisar
el nivel de enmascaramiento en cada una de las subbandas y realizar
una asignación binaria para cada una de ellas.
El procedimiento MPEG audio consiste así en:
- \bullet
- digitalizar en 16 bits con una preparación de muestreo a 48 kHz,
- \bullet
- deducir la curva de máscara entre 20 Hz y 20 kHz,
- \bullet
- dividir la señal en 32 subbandas,
- \bullet
- estimar el nivel máximo alcanzado en cada subbanda y durante 24 ms,
- \bullet
- estimar el nivel de ruido de cuantificación justo inaudible,
- \bullet
- conceder el número de bits para la codificación,
- \bullet
- generar el número de bits en la subbanda,
- \bullet
- encapsular estos datos en una trama de datos que se repite cada 24 ms.
\vskip1.000000\baselineskip
Esta técnica consiste en transmitir una cadencia
binaria variable según la composición instantánea del sonido.
Sin embargo, este procedimiento está mejor
adaptado al tratamiento de la música y no a la señal vocal; no
permite detectar la presencia de la voz o de la música, separar la
señal vocal o musical y el ruido, modificar la voz en tiempo real
para sintetizar una voz diferente pero realista, sintetizar un soplo
(ruido) para crear efectos especiales, codificar una señal vocal
que contiene una sola voz, reducir el ruido ambiental.
La invención tiene por objeto más
particularmente pues suprimir estos inconvenientes.
Propone, con este fin, un procedimiento que
permite aprovechar al máximo las tecnologías audionuméricas
efectuando previamente a la codificación, un análisis de la señal
audio considerando que cualquier señal acústica en el intervalo de
una trama es la suma de seno de amplitud fija y cuya frecuencia está
modulada linealmente en función del tiempo, esta suma está modulada
temporalmente por la envolvente de la señal, estando el ruido
añadido a esta señal previamente a dicha suma.
\global\parskip1.000000\baselineskip
Según la invención, este procedimiento de
transformación de la voz, de la música y del ruido ambiental, es
tal como se define en la reivindicación 1.
Un modo de realización de la invención será
descrito a continuación; en calidad de ejemplo no limitativo, con
referencia a los dibujos adjuntos, en los cuales:
La figura 1 es un organigrama simplificado del
procedimiento según la invención;
La figura 2 es un organigrama de la etapa de
análisis;
La figura 3 es un organigrama de la etapa de
síntesis;
La figura 4 es un organigrama de la etapa de
codificación; y
La figura 5 es un esquema sinóptico de un
dispositivo según la invención.
\vskip1.000000\baselineskip
En este ejemplo, el procedimiento de tratamiento
numérico diferenciado por la voz y por la música según la
invención, representado según la figura 1, comprende las etapas
siguientes:
- \bullet
- análisis de la señal vocal (bloque A1),
- \bullet
- codificación de los parámetros (bloque A2),
- \bullet
- archivado de los parámetros (bloque B),
- \bullet
- lectura de los parámetros (bloque B'),
- \bullet
- decodificación de los parámetros (bloque C1),
- \bullet
- efectos especiales (bloque C2),
- \bullet
- síntesis (bloque C3).
\vskip1.000000\baselineskip
Por otro lado, el análisis de la señal vocal y
la codificación de los parámetros constituyen ambas funcionalidades
del analizador (bloque A); también, la decodificación de los
parámetros, los efectos especiales y la síntesis constituyen las
funcionalidades del sintetizador (bloque C).
Estas diferentes funcionalidades serán descritas
a continuación, particularmente en cuanto a las diferentes etapas
constitutivas de los procedimientos de análisis y de síntesis.
De manera general, el procedimiento de
tratamiento numérico diferenciado de la voz y de la música comprende
esencialmente cuatro configuraciones de tratamiento:
- \bullet
- la primera configuración (trayecto I) que comprende el análisis, seguida de la codificación de los parámetros, seguido por el archivado y por la lectura de los parámetros, seguida por la decodificación de los parámetros, seguido por los efectos especiales, seguidos por la síntesis,
- \bullet
- la segunda configuración (trayecto II) que comprende el análisis, seguida por la codificación de los parámetros, seguida por la decodificación de los parámetros, seguida por los efectos especiales, seguidos por la síntesis,
- \bullet
- la tercera configuración (trayecto III) que comprende el análisis, seguido por los efectos especiales, seguidos por la síntesis,
- \bullet
- la cuarta configuración (trayecto IV) que comprende el filtro de ruido o la generación de efectos especiales a partir del análisis, sin pasar por la síntesis.
\vskip1.000000\baselineskip
Estas diferentes posibilidades se ofrecen a la
apreciación del usuario del dispositivo que aplica el dicho
procedimiento, dicho dispositivo será descrito posteriormente. En
este ejemplo, la fase de análisis de la señal audio (bloque A1),
representada según la figura 2, comprende las etapas siguientes:
- \bullet
- conformación de la señal de entrada (bloque 1),
- \bullet
- cálculo de la envolvente temporal (bloque 2),
- \bullet
- detección de interpolación temporal (bloque 3),
- \bullet
- detección de la señal audible (bloque 4),
- \bullet
- cálculo de la interpolación temporal (bloque 5),
- \bullet
- cálculo de la dinámica de la señal (bloque 6),
- \bullet
- detección de trama inaudible después de una trama de energía más elevada (bloque 7),
- \bullet
- procesamiento de impulso (bloque 8),
- \bullet
- repetición del impulso (bloque 9),
- \bullet
- cálculo de la transformada rápida de Fourrier (TRF) sobre impulso repetido (bloque 10),
- \bullet
- cálculo de los parámetros de la señal que sirve para el pretratamiento antes de la TRF (bloque 11),
- \bullet
- pretratamiento de la señal temporal (bloque 12),
- \bullet
- cálculo de la TRF sobre señal tratada (bloque 13),
- \bullet
- cálculo de la relación señal/ruido (bloque 14),
- \bullet
- prueba de la variación doppler del "pitch" (bloque 15),
- \bullet
- cálculo de la TRF sobre la señal no tratada (bloque 16),
- \bullet
- cálculo de la relación señal/ruido (bloque 17),
- \bullet
- comparación de las relaciones señal/ruido con y sin pretratamiento (bloque 18),
- \bullet
- restitución del resultado de la TRF con pretratamiento (bloque 19),
- \bullet
- cálculo de las frecuencias y los módulos (amplitudes de los componentes frecuenciales (bloque 20),
- \bullet
- decisión del tipo de señal (bloque 21),
- \bullet
- prueba de 50 ó 60 Hz (bloque 22),
- \bullet
- cálculo de la dinámica de los módulos en el campo frecuencial (bloque 23),
- \bullet
- supresión de la interpolación sobre los datos frecuenciales (bloque 24),
- \bullet
- supresión de la señal inaudible (bloque 25),
- \bullet
- cálculo y validación del "pitch" (bloque 26),
- \bullet
- decisión de filtración de ruido o efectos especiales, o continuación del análisis (bloque 27),
- \bullet
- atenuación eventual del ruido ambiental (bloque 28),
- \bullet
- fin del tratamiento de la trama (bloque 29).
\vskip1.000000\baselineskip
La explotación de la transformada rápida de
Fourrier (TRF) para la voz no es factible siendo dada la
variabilidad de la señal frecuencial; en efecto la variación de las
frecuencias crea un ensanchamiento del resultado de dicha
transformada rápida de Fourrier (TRF); la eliminación de este
ensanchamiento se hace posible gracias al cálculo de la variación
del "pitch" y gracias a la aplicación de la variación inversa
de dicho "pitch" sobre la señal temporal.
Así, el análisis de la señal vocal es efectuado
esencialmente en cuatro etapas:
- \bullet
- cálculo de la envolvente de la señal (bloque 2),
- \bullet
- cálculo del "pitch" y de su variación (bloque 12),
- \bullet
- aplicación a la señal temporal de la variación inversa del "pitch" (bloque 12),
- \bullet
- transformada rápida de Fourrier (TRF) sobre la señal pretratada (bloque 13),
- \bullet
- eliminación eventual del ruido ambiental antes de la codificación (bloques 23-28).
\vskip1.000000\baselineskip
Por otro lado, cuatro umbrales (bloques 4, 7, 8,
22) permiten detectar respectivamente la presencia de señal
inaudible, la presencia de trama inaudible, la presencia de un
impulso, la presencia de señal perturbadora de sector (50 Hz) ó 60
Hz).
Por otra parte, el quinto umbral (bloque 15)
permite efectuar la transformada rápida de Fourrier (TRF) sobre la
señal no tratada en función de las características del "pitch"
y de su variación.
Un sexto umbral (bloque 18) permite restituir el
resultado de la transformada rápida de Fourrier (TRF) con
pretratamiento en función de la relación señal/ruido.
Finalmente, se toma una decisión (bloque 27) si
la filtración del ruido o los efectos especiales son efectuados; en
caso contrario, se continúa el análisis (flecha IV).
Dos tramas son explotadas en el procedimiento de
análisis de la señal audio, una trama llamada "corriente", de
periodicidad fija, que contiene un cierto número de muestras
correspondiente a la señal vocal, y una trama llamada "de
análisis", cuyo número de muestras es equivalente al de trama
corriente o el doble, y que puede ser desfasada, en función de la
interpolación temporal, con relación a la dicha trama corriente.
La conformación de la señal de entrada (bloque
1) consiste en efectuar una filtración de paso alto con el fin de
mejorar la codificación futura de las amplitudes frecuenciales
aumentando su dinámica; dicha filtración de paso alto aumenta la
dinámica de amplitud frecuencial evitando que una baja frecuencia
audible ocupe toda la dinámica y elimine frecuencias de amplitud
débil pero sin embargo audibles. La señal filtrada es dirigida
luego hacia el bloque 2 para la determinación de la envolvente
temporal.
El cálculo de la envolvente temporal (bloque 2)
permite definir:
- -
- El tipo de señal, si se trata de un impulso con o sin señal de fondo (ruido ambiental o música),
- -
- La posición de la trama de análisis de la envolvente de la señal con relación a la trama corriente,
- -
- La energía de la señal temporal.
\vskip1.000000\baselineskip
Se efectúa por una búsqueda de los máximos de la
señal, consideradas como la parte del "pitch" más elevada en
valor absoluto.
Se calcula luego la diferencia temporal que hay
que aplicar sobre la trama de análisis investigando por una parte
el máximo de la envolvente en dicha trama y luego por otra parte dos
índices que corresponden a los valores de la envolvente inferiores
de un cierto porcentaje al valor del máximo.
Si en una trama de análisis se encuentra
localmente una diferencia entre dos muestras superior a un
porcentaje de la dinámica máxima de la trama y ello durante una
duración limitada, se declara que un impulso breve está contenido
en la trama forzando los índices de diferencia temporales a los
valores que rodean el impulso adicional.
La detección de interpolación temporal (bloque
3) permite corregir ambos índices de diferencia de la trama de
análisis encontrados en el cálculo precedente, y tomando en
consideración el pasado.
El primer umbral (bloque 4) detecta o no la
presencia de una señal audible midiendo el valor máximo de la
envolvente; en caso afirmativo, el análisis de la trama se acaba; en
caso contrario, el procesamiento continúa.
Se efectúa luego un cálculo (bloque 5) de los
parámetros asociados con la diferencia temporal de la trama de
análisis determinando el parámetro de interpolación de los módulos
que es igual a la relación de la envolvente máxima en la trama
corriente a la de la trama en desfase.
La dinámica de la señal se calcula luego (bloque
6) para su normalización con el fin de disminuir el ruido de
cálculo; la ganancia de normalización de la señal se calcula a
partir de la muestra más elevada en valor absoluto en la trama de
análisis.
Un segundo umbral (bloque 7) detecta o no la
presencia de una trama inaudible por efecto de enmascaramiento
provocado por las tramas precedentes; en caso afirmativo, el
análisis se acaba; en caso contrario, el tratamiento continúa.
El tercer umbral (bloque 8) detecta luego o no
la presencia de un impulso; en caso afirmativo, se efectúa un
tratamiento específico (bloques 9, 10); en caso contrario, serán
efectuados los cálculos de los parámetros de la señal (bloque 11)
que servirán para el pretratamiento de la señal temporal (bloque
12).
En presencia de un impulso, se efectúa la
repetición del impulso (bloque 9) creando un "pitch"
artificial, igual a la duración del impulso, para evitar el
enmascaramiento de las frecuencias útiles en el momento de la
transformada rápida de Fourríer (TRF).
La transformada rápida de Fourrier (TRF) (bloque
10) se realiza luego sobre el impulso repetido conservando sólo el
valor absoluto del número complejo y no la fase; luego se efectúa el
cálculo de las frecuencias y de los módulos de los datos
frecuenciales (bloque 20).
En ausencia de impulso, se efectúa el cálculo de
los parámetros de la señal (bloque 11), dichos parámetros se
refieren a:
- -
- el cálculo del "pitch" y de su variación,
- -
- la definición del número de muestras en la trama de análisis.
\vskip1.000000\baselineskip
De hecho, el cálculo del "pitch" se efectúa
previamente por una diferenciación de la señal de la trama de
análisis, seguido por una filtración de paso bajo de los componentes
de rango elevado, luego por una elevación al cubo del resultado de
dicha filtración; el valor del "pitch" se determina por el
cálculo de ia distancia mínima entre una porción de señal de
energía elevada con la continuación de la señal subsecuente, dado
que la dicha distancia mínima es la suma del valor absoluto de las
diferencias entre las muestras de plantilla y las muestras a
correlacionar; luego, la parte principal de un "pitch" centrada
alrededor de una vez y media el valor del "pitch" se investiga
al principio de la trama de análisis con el fin de calcular la
distancia de esta porción de "pitch" sobre la integridad de la
trama de análisis; así, las distancias mínimas que definen las
posiciones del "pitch", siendo el "pitch" la media de los
"pitchs" detectados; luego la variación del "pitch" es
calculada con la ayuda de una recta que minimiza el error cuadrático
medio de las sucesiones de los "pitchs" detectados; el
"pitch" estimado al principio y al final de trama de análisis
se deduce de eso; si el "pitch" temporal al final de trama es
superior al del principio de trama, la variación del "pitch" es
igual al relación del "pitch" estimado de principio de trama
al de fin de trama, disminuido en 1; a la inversa, si el
"pitch" temporal al final de trama es inferior al de principio
de trama, la variación del "pitch" es igual a 1 disminuido en
la relación del "pitch" estimado al final de trama al de
principio de trama.
La variación del "pitch", encontrada y
validada anteriormente, será sustraída de la señal temporal en el
bloque 12 de pretratamiento temporal, utilizando sólo el primer
orden de dicha variación.
La sustracción de la variación del "pitch"
consiste en muestrear la trama de análisis
sobre-muestreada con un paso de preparación de
muestras variando con el valor inverso de dicha variación del
"pitch".
El sobre-muestreo, en un factor
de dos, de la trama de análisis se realiza multiplicando el
resultado de la transformada rápida de Fourrier (TFR) de la trama
de análisis por el factor exp (-j*2*Pl*k/(2*L_trama), para añadir
un plazo de una semi-muestra a la señal temporal que
sirve para el cálculo de la transformada rápida de Fourrier; ia
transformada rápida de Fourrier inversa se realiza luego con el fin
de obtener la señal temporal desfasada de una
semi-muestra.
Una trama de longitud doble se realiza así
utilizando alternativamente una muestra de la trama original con
una muestra de la trama desfasada de una
semi-muestra.
Después de eliminación de la variación del
"pitch", dicho "pitch" parece idéntico sobre toda la
ventana de análisis, lo que dará un resultado de la transformada
rápida de Fourrier (TRF) sin ensanchamiento de frecuencias; la
transformada rápida de Fourrier (TRF) podrá luego ser efectuada en
el bloque 13 con el fin de conocer el campo frecuencíal de la trama
de análisis; el método utilizado permite calcular rápidamente el
módulo del número complejo en detrimento de la fase de la
señal.
El cálculo de la relación de la señal de ruido
es efectuado sobre el valor absoluto del resultado de la
transformada rápida de Fourrier (TRF); dicha relación es de hecho
la relación de la diferencia de la energía de la señal y del ruido
con la suma de la energía de la señal y del ruido; el numerador de
dicha relación corresponde al logaritmo de la diferencia entre dos
picos de energía, respectivamente de la señal y del ruido, el pico
de energía es o superior a las cuatro muestras adyacentes
correspondiente a la señal armónica, o inferior a las cuatro
muestras adyacentes correspondiente al ruido; el denominador es la
suma de los logaritmos de todos los picos de la señal y del ruido;
por otro lado, el cálculo de la relación señal/ruido se hace por
subbanda, las subbandas más elevadas, en término de nivel, son
logradas promediados y dan la relación buscada.
El cálculo de la relación señal/ruido, definido
como siendo la relación señal menos ruido con señal más ruido,
efectuado en el bloque 14, permite determinar si la señal analizada
es una señal acústica o de la música, el caso de una relación
elevada, o del ruido, el caso de una relación débil.
Esta distinción se efectúa luego en el bloque
15; de hecho, se efectúan pruebas sobre la variación doppler del
"pitch" y sobre la frecuencia del "pitch"; si la variación
del "pitch" es débil o su frecuencia elevada, el tratamiento
es inmediatamente seguido por el cálculo de las frecuencias y de los
módulos de los datos frecuenciales de la transformada rápida de
Fourrier (TRF) (bloque 20); en caso contrario, la transformada
rápida de Fourrier (TRF) se efectúa sin pretratamiento (bloque
16).
El cálculo de la relación señal con ruido se
efectúa luego en el bloque 17, para transmitir al bloque 20 los
resultados de la transformada rápida de Fourrier (TRF) sin
pretratamiento, caso de una variación del "pitch" nula, o, en
caso contrario para restituir los resultados de la transformada
rápida de Fourrier (TRF) con pretratamiento (bloque 19).
Esta distinción se efectúa en el bloque 18, de
la manera siguiente:
- -
- Si la relación señal/ruido sin pretratamiento es superior a la relación señal/ruido con pretratamiento, los resultados de la transformada rápida de Fourrier (TRF) son trasladados al bloque 20.
- -
- Si la relación señal/ruido sin pretratamiento es inferior a la relación señal/ruido con tratamiento, siendo efectuada la restitución de los resultados de la transformada rápida de Fourrier (TRF) con pretratamiento en el bloque 19, los resultados obtenidos con pretratamiento son luego trasladados al bloque 20.
\vskip1.000000\baselineskip
Esta prueba permite validar la variación del
"pitch", que podría ser no nula para la música, mientras que
ésta debe ser efectivamente nula.
El cálculo de las frecuencias y de los módulos
de los datos frecuenciales de la transformada rápida de Fourrier
(TRF) se efectúa en el bloque 20.
La transformada rápida de Fourrier (TRF),
anteriormente citada en referencia a los bloques 10, 13, 16, se
realiza, en calidad de ejemplo, sobre 256 muestras en el caso de una
trama desfasada o de un impulso, o sobre el doble de muestras en el
caso de una trama centrada sin impulso.
Se efectúa una ponderación de las muestras
situadas en los extremos de las muestras, llamada de HAMMING, en el
caso de la transformada rápida de Fourrier (TRF) sobre n muestras;
sobre 2n muestras, se utiliza la ventana de ponderación de
HAMMING multiplicada por la raíz cuadrada de la ventana de
HAMMING.
A partir de los valores absolutos de los datos
complejos de la transformada rápida de Fourrier (TRF), se calcula
la relación entre dos valores máximos adyacentes, representando cada
una el producto de la amplitud del componente frecuencial por un
seno cardinal; por aproximaciones sucesivas, se compara esta
relación entre los valores máximos, con valores contenidos en
tablas que contienen la misma relación, para N frecuencias (por
ejemplo 32 ó 64) repartidas uniformemente sobre una
semi-muestra de la transformada rápida de Fourrier
(TRF). El índice de dicha tabla que define la relación más próxima
al que hay que comparar da por una parte el módulo y por otra parte
la frecuencia para cada máximo del valor absoluto de la transformada
rápida de Fourrier (TRF).
Por otro lado, el cálculo de las frecuencias y
de los módulos de los datos frecuenciales de la transformada rápida
de Fourrier (TRF), efectuado en el bloque 20, permite también
detectar una señal DTMF (multifrecuencia de doble tono) en
telefonía.
Es necesario anotar que la relación señal/ruido
es el criterio esencial que define el tipo de señal.
Con el fin de determinar la energía del ruido a
generar a la síntesis y la precisión de la codificación, la señal
extraída del bloque 20 está jerarquizada en cuatro tipos en el
bloque 21, a saber:
- -
- tipo 0: señal acústica o música.
\vskip1.000000\baselineskip
El "pitch" y su variación pueden ser no
nulos; el ruido aplicado sobre la síntesis será de energía débil;
la codificación de los parámetros será efectuada con la precisión
máxima.
- -
- tipo 1: señal insonora y eventualmente música.
El "pitch" y su variación son nulos; el
ruido aplicado sobre la síntesis será de fuerte energía; la
codificación de los parámetros será efectuada con la precisión
mínima.
- -
- tipo 2: señal acústica o música.
El "pitch" y su variación son nulos; el
ruido aplicado sobre la síntesis será de energía media; la
codificación de los parámetros será efectuada con una precisión
intermedia.
- -
- tipo 3: este tipo de señal se decide al final de análisis cuando la señal que hay que sintetizar es nula.
\vskip1.000000\baselineskip
Se efectúa una detección de presencia o de no
presencia de señal perturbadora de 50 Hz (60 Hz) en el bloque 22;
el nivel del umbral de detección depende del nivel de la señal
investigada para evitar confundir la perturbación electromagnética
(50, 60 Hz) y la fundamental de un instrumento de música.
En presencia de la señal perturbadora buscada,
el análisis se acaba con el fin de disminuir la cadencia binaria:
fin del tratamiento de la trama hecha referencia por el bloque
29.
En el caso contrario, en ausencia de señal
perturbadora, se continúa el análisis.
Se efectúa un cálculo de la dinámica de las
amplitudes de los componentes frecuenciales, o módulos, en el
bloque 23; dicha dinámica frecuencial se utiliza para la
codificación así como para la supresión de las señales inaudibles
efectuada posteriormente en el bloque 25.
Así, el plano frecuencial está subdividido en
varias partes, cada una de ellas posee varios intervalos de
amplitud diferenciados en función del tipo de señal detectado al
nivel del bloque 21.
Por otra parte, la interpolación temporal y la
interpolación frecuencial son suprimidas al nivel del bloque 24;
éstas habían sido efectuadas para optimizar la calidad de la
señal.
La interpolación temporal que da módulos más
elevados, será retirada multiplicando cada módulo por el parámetro
de normalización calculado al nivel del bloque 5.
La interpolación frecuencial depende de la
variación del "pitch"; ésta será suprimida en función de la
diferencia de un cierto número de muestras y del sentido de la
variación del "pitch".
Se efectúa luego la supresión de la señal
inaudible en el bloque 25. En efecto, ciertas frecuencias son
inaudibles porque están enmascaradas por otras señales de amplitud
más elevadas.
La eliminación de éstas dichas frecuencias
inaudibles permitirá disminuir la cadencia y también mejorar el
cálculo del "pitch" gracias a la supresión del ruido.
En primer lugar, se efectúa una eliminación de
las amplitudes situadas por debajo del límite inferior del
intervalo de amplitud, luego se alejan las frecuencias cuyo
intervalo es inferior a una unidad frecuencial, definida como que
siendo la frecuencia de muestreo por unidad de muestra.
Luego, se eliminan los componentes inaudibles
con la ayuda de una prueba entre la amplitud del componente
frecuencial que hay que someter a un test y la amplitud de los otros
componentes adyacentes multiplicada por un término atenuador
dependiente de la diferencia entre su frecuencia.
Por otro lado, se limita el número de
componentes frecuenciales a un valor más allá del cual la diferencia
sobre el resultado obtenido no es perceptible.
El cálculo del "pitch" y la validación del
"pitch" se efectúan al nivel del bloque 26; en efecto el
"pitch" calculado en el bloque 11 sobre la señal temporal ha
sido determinado en el campo temporal en presencia de ruido; el
cálculo del "pitch" en el campo frecuencial permitirá mejorar
la precisión del "pitch" y detectar un "pitch" que el
cálculo sobre la señal temporal, efectuado en el bloque 11, no
habría determinado a causa del ruido ambiental.
Por otro lado, el cálculo del "pitch" sobre
la señal frecuencial debe permitir decidir si éste debe ser
utilizado para la codificación, sabiendo que la utilización del
"pitch" en la codificación permite disminuir fuertemente la
codificación y hacer que la voz sea más natural a la síntesis; es
utilizado por otro lado por el filtro de ruido.
Dado que las frecuencias y los módulos de la
trama están disponibles, el principio del cálculo del "pitch"
consiste en sintetizar la señal por una suma de coseno que tiene
fases al principio nulas; así la forma de la señal original será
reconstituida sin las perturbaciones de la envolvente, de las fases
y de la variación del "pitch".
El valor del "pitch" frecuencial está
definido por el valor del "pitch" temporal el cual es
equivalente al primer valor de síntesis que presenta un máximo
superior al producto de un coeficiente por la suma de los módulos
utilizados para la síntesis local (suma de los cosenos de los dichos
módulos); este coeficiente es igual a la relación de la energía de
la señal, considerado como armónico, a la suma de la energía del
ruido y de la energía de la señal; el dicho coeficiente es tanto
más débil cuanto el "pitch" a detectar se pierde en el ruido;
en calidad de ejemplo, a una relación señal/ruido de 0 decibelios
corresponde un coeficiente de 0,5.
La información de validación del "pitch"
frecuencial se obtiene con la ayuda de la relación de la muestra de
síntesis, con respecto al "pitch", a la suma de los módulos
utilizados para la síntesis local; esta relación, sinónimo de
energía de la señal armónica sobre la energía total de la señal, se
corrige en función de la relación aproximada señal/ruido calculada
en el bloque 14; la información de validación del "pitch"
depende de la superación del umbral de esta relación.
Con el fin de evitar validar un "pitch"
sobre el ruido o la música, cuando el umbral de detección del
"pitch" es débil, se efectúa un control de la existencia de un
"pitch" en los emplazamientos de los múltiples del
"pitch" temporal en la síntesis local; así el "pitch" no
es válido si el nivel de la síntesis es demasiado débil para ser un
"pitch" en los dichos emplazamientos de los múltiplos del
"pitch" temporal.
Se calcula dos veces la síntesis local; una
primera vez utilizando sólo las frecuencias cuyo módulo es elevado,
con el fin de librarse del ruido para el cálculo del "pitch";
una segunda vez con la totalidad de los módulos limitados en valor
máximo, con el fin de calcular la relación señal/ruido que validará
el "pitch"; en efecto la limitación de los módulos da más peso
a las frecuencias no armónicas con módulo débil, con el fin de
disminuir la probabilidad de validación de un "pitch" sobre la
música.
En el caso de la filtración del ruido, los
valores de los dichos módulos no están limitados para la segunda
síntesis local, sólo el número de frecuencias está limitado tomando
en consideración sólo a las que tienen un módulo significativo con
el fin de limitar el ruido.
Un segundo procedimiento de cálculo del
"pitch" consiste en seleccionar el "pitch" que da la
energía máxima para un paso de muestreo de la síntesis igual al
"pitch" buscado; este procedimiento se utiliza para la música
o un medio sonoro que contiene varias voces.
Previamente a la última etapa consistente en
atenuar el ruido, será tomada una decisión por el usuario si desea
realizar la filtración del ruido o generar efectos especiales
(bloque 27), a partir del análisis, sin pasar por la síntesis.
En caso contrario, el análisis se acabará por el
tratamiento siguiente que consistirá en atenuar el ruido, en el
bloque 28, disminuyendo los componentes frecuenciales que no son un
múltiple del "pitch"; después de la atenuación de los dichos
componentes frecuenciales, se efectuará de nuevo la supresión de la
señal inaudible, tal como describe anteriormente, al nivel del
bloque 25.
La atenuación de los dichos componentes
frecuenciales depende del tipo de señal tal como se define
anteriormente por el bloque 21.
Después de haber efectuado dicha atenuación del
mido, se puede considerar que el tratamiento de la trama se acaba;
al resultado de dicha fase de análisis se ha hecho referencia en el
bloque 29.
En referencia a la figura 1 representado un
organigrama simplificado del procedimiento según la invención, en
este ejemplo, la fase de síntesis de la señal audio (bloque C3),
representada según la figura 3, comprende las etapas
siguientes:
- \bullet
- conformación de los módulos (bloque 31),
- \bullet
- reducción del ruido (bloque 32),
- \bullet
- nivelación de la señal (bloque 33),
- \bullet
- saturación de los módulos (bloque 34),
- \bullet
- modificación de los parámetros de impulso en función de la velocidad de la síntesis (bloque 35),
- \bullet
- cálculo de las fases (bloque 36),
- \bullet
- generación del soplo (bloque 37),
- \bullet
- decisión en relación a la generación de un impulso (bloque 38),
- \bullet
- síntesis con los datos frecuenciales de la trama corriente (bloque 39),
- \bullet
- prueba en relación a la trama precedente (bloque 40),
- \bullet
- síntesis con los datos frecuenciales de la trama precedente (bloque 41),
- \bullet
- aplicación de la envolvente sobre la señal de síntesis (bloque 42),
- \bullet
- decisión en relación a la adición de un impulso (bloque 43),
- \bullet
- síntesis con los nuevos datos frecuenciales (bloque 44),
- \bullet
- conexión entre tramas adyacentes (bloque 45),
- \bullet
- transferencia del resultado de síntesis en la trama de muestra (bloque 46),
- \bullet
- copia de seguridad del borde de trama (bloque 47),
- \bullet
- fin de la síntesis (bloque 48).
\vskip1.000000\baselineskip
La síntesis consiste en calcular las muestras de
la señal audio a partir de los parámetros calculados por el
análisis; las fases y el ruido serán calculados artificialmente
según el contexto.
La puesta en forma de los módulos (bloque 31)
consiste en eliminar la atenuación del filtro de entrada de las
muestras del análisis (bloque 1 del bloque A1) y en tener en cuenta
el sentido de la variación del "pitch" porque la síntesis se
realiza temporalmente por un incremento de fase de un seno.
Por otro lado, la información de validación del
"pitch" se suprime si la opción de síntesis de la música es
validada; esta opción mejora el cálculo de fase de las frecuencias
evitando sincronizar las fases de los armónicos entre ellas en
función del "pitch".
La reducción del ruido (bloque 32) se efectúa si
ésta no ha sido efectuada previamente durante el análisis (bloque
28 del bloque A1).
La nivelación de la señal (bloque 33) suprime la
normalización de los módulos recibidos del análisis; esta
nivelación consiste en multiplicar los módulos por la inversa de la
ganancia de normalización definida en el cálculo de la dinámica de
la señal (bloque 6 del bloque A1) y en multiplicar los dichos
módulos por 4 con el fin de eliminar el efecto de la ventana de
HAMMING, y que sólo se utiliza la mitad del plano frecuencial.
La saturación de los módulos (bloque 34) se
efectúa si la suma de los módulos es superior a la dinámica de la
señal de las muestras de salida; consiste en multiplicar los módulos
por la relación del valor máximo de la suma de los módulos a la
suma de los módulos, en el caso de que dicha relación sea inferior a
1.
El impulso se regenera realizando la suma de
seno en la duración de impulso; los parámetros de impulso se
modifican (bloque 35) en función de la velocidad variable de
síntesis.
El cálculo de las fases de las frecuencias se
efectúa luego (bloque 36); tiene por objeto dar una continuidad de
fase entre las frecuencias de las tramas o resincronizar las fases
entre ellas; devuelve por otro lado la voz más natural.
La sincronización de las fases se realiza cada
vez que una nueva señal en la trama corriente parece separada en el
campo temporal o en el campo frecuencial de la trama precedente;
esta separación corresponde:
- \bullet
- al paso de señal ruidosa a una señal no ruidosa,
- \bullet
- a un principio de palabra (o sonido) cuya envolvente al principio de trama es débil,
- \bullet
- a una transición entre dos palabras (o sonido) sin variación de la envolvente,
- \bullet
- a un principio de palabra (o sonido) que ha sido detectado en la trama precedente, pero cuya subida de la envolvente en la trama corriente sea tal que la sincronización debe ser rehecha para que las fases sean calculadas en función de un "pitch" de mejor calidad.
\vskip1.000000\baselineskip
La continuidad de fase consiste en investigar
las frecuencias de la trama corriente al principio de trama que son
las más próximas de las frecuencias al final de trama de la trama
precedente; luego la fase de cada frecuencia se vuelve igual a la
de la frecuencia precedente más próxima, sabiendo que las
frecuencias al principio de trama corriente se calculan a partir
del valor central de la frecuencia modificada por la variación del
"pitch".
En presencia de un "pitch", en caso de la
señal acústica, las fases de los armónicos serán sincronizadas sobre
la del pitch multiplicando la fase del "pitch" por el índice
del armónico del "pitch"; en cuanto a la continuidad de fase,
se calcula la fase del "pitch" al final de trama en función a
su variación y en función a la fase al principio de la trama; esta
fase servirá para el principio de la trama siguiente.
Una segunda solución consiste en no aplicar más
la variación del "pitch" sobre el "pitch" para conocer la
nueva fase; basta con repetir la fase del fin de la trama
precedente del "pitch"; por otro lado, en el momento de la
síntesis, la variación del "pitch" se aplica sobre la
interpolación de la síntesis realizada sin variación del
"pitch".
Luego se efectúa la generación del soplo (bloque
37).
Según la invención, se considera que cualquier
señal acústica en el intervalo de una trama es la suma del seno de
amplitud fija y cuya frecuencia está modulada linealmente en función
del tiempo, siendo esta suma modulada temporalmente por la
envolvente de la señal, añadiendo el ruido a esta señal previamente
a dicha suma.
\newpage
Sin este ruido, la voz es metálica porque la
eliminación de los módulos débiles, efectuada en el bloque 25 del
bloque A3, concierne esencialmente al soplo.
Por otro lado, la estimación de la relación de
señal/ruido efectuada en el bloque 14 del bloque A3, no es
explotada; se calcula en efecto un ruido en función del tipo de
señal, módulos y frecuencias.
El principio del cálculo de! ruido se basa en
una filtración de un ruido blanco por un filtro transversal cuyos
coeficientes se calculan por la suma de los senos de las frecuencias
de la señal cuyas amplitudes son atenuadas en función de los
valores de su frecuencia y de su amplitud. Se aplica luego una
ventana de HAMMING sobre los coeficientes para disminuir los
lóbulos secundarios.
El ruido filtrado es luego salvaguardado en dos
partes distintas.
Una primera parte permitirá hacer el vínculo
entre dos tramas sucesivas; la conexión entre dos tramas se realiza
por superposición de estas dos tramas de las que cada una es
ponderada linealmente y en sentido opuesto; dicha superposición se
efectúa cuando la señal es sinusoidal; no se aplica cuando se trata
de ruido no correlacionado; así la parte salvaguardada del ruido
filtrado es añadida sin ponderación sobre la zona de superposición.
La segunda parte está destinada al cuerpo principal de la
trama.
El enlace entre dos tramas debe por una parte
permitir un paso fluido entre dos filtros de ruido de dos tramas
sucesivas, y por otra parte prolongar el ruido de la trama siguiente
más allá de la parte de superposición de las tramas si un principio
de palabra (o sonido) es detectado.
Así, el paso fluido entre dos tramas se realiza
por la suma del ruido blanco filtrado por el filtro de la trama
precedente ponderado por una pendiente descendente lineal, y el
mismo ruido blanco filtrado por el filtro de ruido de la trama
corriente ponderado por la pendiente ascendiente inversa de la del
filtro de la trama precedente.
La energía del ruido será añadida a la energía
de la suma de los senos, según el procedimiento propuesto.
La generación de un impulso difiere de una señal
sin impulso; en efecto, en el caso de la generación de un impulso,
la suma de los senos se realiza sólo sobre una parte de la trama
corriente a la cual se añade la suma de los senos de la trama
precedente.
Esta distinción necesita elegir (bloque 38)
entre ambas opciones: un impulso debe ser generado o no?; en el
caso en el que no hay generación de un impulso, se efectúa la
síntesis con los nuevos datos frecuenciales (bloque 39); en el caso
contrario, se trata de saber si la trama precedente no era un
impulso (bloque 40); en este caso se efectúa la síntesis con los
datos frecuenciales de la trama precedente (bloque 41) que va a
servir de fondo al impulso (caso de la música o del ruido ambiental
que hay que repetir); en el caso contrario, la trama precedente que
es un impulso, no se repite la señal de fondo con los parámetros del
impulso precedente.
La síntesis con los nuevos datos frecuenciales
(bloque 39) consiste en efectuar la suma de los senos de los
componentes frecuenciales de la trama corriente; la variación de la
longitud de la trama permite efectuar unzsa síntesis a velocidad
variable; sin embargo los valores de las frecuencias al principio y
al final de trama deben ser idénticos, sea cual sea la longitud de
la trama, para una velocidad determinada de síntesis.
La fase asociada al seno, dependiente de la
frecuencia, será calculada por iteración; en efecto para cada
iteración, calculamos el seno multiplicado por el módulo; el
resultado luego es sumado para cada muestra que sigue todas las
frecuencias de la señal.
Otro método de síntesis consiste en realizar a
la inversa el análisis recreando el campo frecuencial a partir del
seno cardinal realizado con el módulo, la frecuencia y la fase, y
luego realizando una transformada rápida de Fourrier (TFR) inversa,
seguida por el producto de la inversa de la ventana de HAMMING para
obtener el campo temporal de la señal.
En caso de que el "pitch" varíe, la inversa
del análisis se efectúa de nuevo añadiendo la variación del
"pitch" a la trama temporal
sobre-muestreada.
En el caso de un impulso, basta con aplicar
sobre la señal temporal, una ventana de 1 durante el impulso, y de
0, fuera de éste.
En el caso de un impulso que hay que generar,
las fases al principio de los datos frecuenciales se mantienen en
un valor 0.
Con el fin de realizar una conexión fluida entre
las tramas, el cálculo de la suma de los senos se efectúa también
sobre una porción que precede la trama y sobre la misma porción que
sigue la trama; las partes en ambos extremos de la trama serán
luego sumadas con las tramas adyacentes por ponderación lineal.
En el caso de un impulso, la suma de los senos
se efectúa en el intervalo de tiempo de generación del impulso; con
el fin de evitar la creación de impulsos parásitos debido a las
discontinuidades en el cálculo de la suma de los senos, un cierto
número de muestras situadas al principio y al final de la secuencia
son ponderados respectivamente por una pendiente ascendente y una
pendiente descendente.
En cuanto al caso de las frecuencias armónicas
del "pitch", las fases han sido calculadas anteriormente para
ser sincronizadas, serán generadas a partir del índice del armónico
correspondiente.
La síntesis por la suma de los senos con los
datos de la trama precedente (bloque 41) se efectúa cuando la trama
corriente contiene un impulso que hay que generar; en efecto, en el
caso de música o de ruido, si la síntesis no se efectúa sobre la
trama precedente, sirviendo de señal de fondo, el impulso será
generado sobre un silencio, lo que es perjudicial para una buena
calidad del resultado obtenido; por otro lado la continuidad de la
trama precedente es inaudible, incluso en presencia de una
progresión de la señal.
La aplicación de la envolvente sobre la señal de
síntesis (bloque 42) se efectúa a partir de los valores muestreados
de la envolvente anteriormente determinados (bloque 2 del bloque
A3); por otro lado la conexión entre dos tramas sucesivas se
realiza por la suma ponderada, como se ha indicado anteriormente;
esta ponderación por las curvas creciente y decreciente no se
efectúa sobre el ruido, porque el ruido no está yuxtapuesto entre
trama.
Finalmente, en el caso de la síntesis a
velocidad variable, la longitud de la trama varía por paso con el
fin de ser homogéneo con el muestreo de la envolvente.
La adición de un impulso por la suma de seno en
el intervalo o dónde ha sido detectado el impulso, se efectúa
(bloque 44) en función a la prueba realizada anteriormente (bloque
43).
La ponderación de yuxtaposición entre dos tramas
se efectúa luego (bloque 45) como se ha indicado anteriormente.
La transferencia del resultado de síntesis
(bloque 46) será luego efectuada en la trama de salida de muestra
con el fin de que se salvaguarde dicho resultado.
También, una copia de seguridad del borde de
trama (bloque 47) se efectuará con el fin de que dicho borde de
trama pueda ser añadido al principio de la trama siguiente.
Al resultado de dicha fase de síntesis se hace
referencia en el bloque 48.
En referencia a la figura 1 que representa un
organigrama simplificado del procedimiento según la invención, en
este ejemplo, la fase de codificación de los parámetros (bloque A2),
representada según la figura 4, comprende las etapas siguientes:
- \bullet
- codificación del tipo de señal (bloque 51),
- \bullet
- prueba sobre el tipo de señal (bloque 52),
- \bullet
- codificación del tipo de compresión (bloque 53),
- \bullet
- codificación del valor de normalización de la señal de trama (bloque 54),
- \bullet
- prueba sobre la presencia de impulso (bloque 55),
- \bullet
- codificación de los parámetros de impulso (bloque 56),
- \bullet
- codificación de la variación del "pitch" (bloque 57),
- \bullet
- limitación del número de frecuencias a codificar (bloque 58),
- \bullet
- codificación de los valores de muestreo de la envolvente (bloque 59),
- \bullet
- codificación de la validación del "pitch" (bloque 60),
- \bullet
- prueba de validación del "pitch" (bloque 61),
- \bullet
- codificación de los armónicos (bloque 62),
- \bullet
- codificación de las frecuencias no armónicas (bloque 63),
- \bullet
- codificación de la dinámica de los módulos (bloque 64),
- \bullet
- codificación del módulo más elevado (bloque 65),
- \bullet
- codificación de los módulos (bloque 66),
- \bullet
- codificación de la atenuación (bloque 67),
- \bullet
- supresión de la normalización de los módulos (bloque 68),
- \bullet
- codificación de las fracciones frecuenciales de las frecuencias no armónicas (bloque 69),
- \bullet
- codificación del número de octetos de codificación (bloque 70),
- \bullet
- fin de codificación (bloque 71).
\vskip1.000000\baselineskip
La codificación de los parámetros (bloque A2)
calculados en el análisis (bloque A1) en el procedimiento según la
invención, consiste en limitar la cantidad de informaciones útiles
con el fin de reproducir a la síntesis (bloque C3) después de
decodificar (bloque C1) un equivalente auditivo a la señal audio de
origen.
Siendo la codificación de longitud variable,
cada trama codificada tiene un número de bits de información
limpia; siendo la señal audio variable, más o menos de informaciones
se tendrán que codificar.
Al ser interdependientes los parámetros de
codificación, un parámetro codificado influirá sobre el tipo de
codificación de los parámetros siguientes.
Por otro lado, la codificación de los parámetros
puede ser o lineal, el número de bits que dependiendo del número de
valores, o de tipo HUFFMAN, el número de bits siendo una función
estadística del valor a codificar (cuanto más frecuente es el dato,
menos bits utiliza y recíprocamente).
El tipo de señal, tal y como se define en el
momento del análisis (bloque 21 del bloque A1), proporciona la
información de generación del ruido y la calidad de la codificación
que hay que utilizar; la codificación del tipo de señal se efectúa
en primer lugar (bloque 51).
Se efectúa luego una prueba (bloque 52) que
permite en el caso del tipo 3 de la señal, tal y como se define en
el bloque 21 del análisis (bloque A1), no efectuar codificación de
los parámetros; la síntesis contendrá muestras nulas.
La codificación del tipo de compresión (bloque
53) es utilizada en el caso de que el usuario desea actuar sobre la
cadencia de los datos de codificación, en detrimento de la calidad;
esta opción puede ser ventajosa en modo telecomunicación asociado a
una relación de compresión elevada.
La codificación del valor de normalización
(bloque 54) de la señal de la trama de análisis es de tipo
HUFFMAN.
Se efectúa luego una prueba sobre la presencia
de impulso (bloque 55), que permite en caso de síntesis de un
impulso, codificar los parámetros de dicho impulso.
En caso de presencia de un impulso, la
codificación, siguiendo una ley lineal, de los parámetros de dicho
impulso (bloque 56) será efectuada sobre el principio y el fin de
dicho impulso en la trama corriente.
En cuanto a la codificación de la variación
doppler del "pitch" (bloque 57), será efectuada según una ley
logarítmica, teniendo en cuenta el signo de dicha variación; esta
codificación no será efectuada en presencia de un impulso o si el
tipo de señal es no acústica.
Se efectúa luego una limitación del número de
frecuencias que codifican (bloque 58) con el fin de evitar que una
frecuencia de valor alto sobrepase la dinámica limitada por la
frecuencia de muestreo, dado que la variación doppler del
"pitch" hace variar las frecuencias durante la síntesis.
La codificación de los valores de muestreo de la
envolvente (bloque 59) depende de la variación de la señal, del
tipo de compresión, del tipo de señal, del valor de normalización y
de la presencia eventual de impulso; dicha codificación consiste en
codificar las variaciones y el valor mínimo de los dichos valores de
muestreo.
La validación del "pitch" es luego
codificada (bloque 60), seguida por una prueba de validación (bloque
61) que necesita, en caso afirmativo, codificar las frecuencias
armónicas (bloque 62) según su índice con relación a la frecuencia
del "pitch". En cuanto a las frecuencias no armónicas, serán
codificadas (bloque 63) según su parte entera.
La codificación de las frecuencias armónicas
(bloque 62) consiste en efectuar una codificación logarítmica del
pitch, con el fin de obtener la misma precisión relativa para cada
frecuencia armónica; la codificación de los dichos índices de los
armónicos se efectúa en función de su presencia o en función de su
ausencia por paquete de tres índices según la codificación de
HUFFMAN.
Las frecuencias que no han sido detectadas como
siendo armónicas de la frecuencia del "pitch" serán codificadas
por separado (bloque 63).
Con el fin de evitar que en el momento de la
codificación, una frecuencia no armónica cambie de posición con
relación a una frecuencia armónica, se suprime la frecuencia no
armónica que es demasiado próxima a la frecuencia armónica,
sabiendo que tiene menos peso en el sentido audible; así la
supresión tiene lugar si la frecuencia no armónica es superior a la
frecuencia armónica y que la fracción de la frecuencia no armónica
debida a la codificación de la parte entera, hace que dicha
frecuencia no armónica sea inferior a la frecuencia armónica
próxima.
La codificación de las frecuencias no armónicas
(bloque 63) consiste en codificar el número de frecuencias no
armónicas, luego la parte entera de las frecuencias, después las
partes fraccionarias cuando los módulos serán codificados; en lo
que concierne a la codificación de la parte entera de las
frecuencias, únicamente las diferencias entre las dichas partes
enteras se codifican; por otro lado, cuanto más débil es el módulo,
más débil es la precisión sobre la parte fraccionaria; ello con el
fin de disminuir la cadencia binaria. Con el fin de optimizar la
codificación en término de cadencia de la parte entera en función de
la estadística de las desviaciones de frecuencia, se define un
cierto número máximo de desviaciones entre dos frecuencias.
La codificación de la dinámica de los módulos
(bloque 64) utiliza una ley de HUFFMAN en función del número de
intervalos que definen dicha dinámica y el tipo de señal. En el caso
de una señal acústica, la energía de la señal se sitúa en las
frecuencias bajas; para otros tipos de señal, la energía se reparte
uniformemente en el plano frecuencial, con una bajada hacia las
altas frecuencias.
La codificación del módulo más elevado (bloque
65) consiste en codificar, según una ley de HUFFMAN, la parte
entera de dicho módulo más elevado teniendo en cuenta la estadística
de dicho módulo más elevado.
La codificación de los módulos (bloque 66) es
realizada únicamente si el número de módulo que hay que codificar
es superior a 1, dado que en caso contrario, es único siendo el
módulo más elevado.
Cuando se analiza (bloque A1), la supresión de
la señal inaudible (bloque 25 del bloque A1) elimina los módulos
inferiores al producto del módulo por la atenuación correspondiente;
así un módulo se sitúa obligatoriamente en una zona del plano
módulo/frecuencia que depende de la distancia que lo separa de sus
dos módulos adyacentes en función de la desviación de frecuencia
los dichos módulos adyacentes. Así el valor del módulo es aproximado
respecto al módulo precedente en función de la desviación de
frecuencia y de la atenuación correspondiente que depende del tipo
de señal, del valor de normalización y del tipo de compresión, dicha
aproximación del valor del módulo se efectúa en referencia a una
escala cuyo paso varía según una ley logarítmica.
La codificación de la atenuación (bloque 67)
aportada por el filtro de entrada de las muestras se efectúa, pues
es seguida por la supresión de la normalización (bloque 68) que
permite volver a calcular el módulo más elevado así como la
frecuencia correspondiente.
La codificación de las fracciones frecuenciales
de las frecuencias no armónicas (bloque 69) completa la codificación
de las partes enteras de las dichas frecuencias.
La precisión de la codificación va a
depender:
- \bullet
- de la frecuencia: cuanto más débil es la frecuencia, más elevada será la precisión de modo que la relación error de codificación sobre frecuencia sea débil,
- \bullet
- del tipo de señal,
- \bullet
- del tipo de compresión,
- \bullet
- del valor de normalización de la señal: cuanto más elevada es la intensidad de la señal, más precisa es la codificación.
\vskip1.000000\baselineskip
Finalmente, la codificación del número de
octetos de codificación (bloque 70) se efectúa al final de la
codificación de los diferentes parámetros mencionados
anteriormente, memorizados en una memoria especial de
codificación.
Al resultado de dicha fase de codificación se
hace referencia en el bloque 71.
En referencia a la figura 1 que representa un
organigrama simplificado del procedimiento según la invención, en
este ejemplo, la fase de decodificación de los parámetros se
representa por el bloque C1.
Siendo la decodificación lo inverso a la
codificación, la explotación de los bits de codificación de los
diferentes parámetros mencionados anteriormente permitirá volver a
tener los valores de origen de los parámetros, con eventuales
aproximaciones.
En referencia a la figura 1 que representa un
organigrama simplificado del procedimiento según la invención, en
este ejemplo, la fase de filtración del ruido y de la generación de
efectos especiales, a partir del análisis, sin pasar por la
síntesis es indicada por el bloque D.
La filtración del ruido se efectúa a partir de
los parámetros de la voz calculados en el análisis (bloque A1 del
bloque A), tomando el trayecto IV indicado sobre dicho organigrama
simplificado por el procedimiento según la inven-
ción.
ción.
Se muestra que los algoritmos conocidos del
estado de la técnica realizan una anulación del ruido a partir de
las propiedades estadísticas de la señal; el ruido debe ser por
consiguiente estacionario estadísticamente; este planteamiento pues
no autoriza la presencia de ruido bajo forma armónica (voz,
música).
El objetivo de la filtración del ruido es por
consiguiente reducir todo tipo de ruido tal como: ruido ambiental
de coche, de motor, de muchedumbre, de música, de otras voces si
éstas son más débiles que las que hay que conservar, así como los
ruidos de cálculo de cualquier vocoder (en calidad de ejemplo:
ADPCM, GSM, G723).
Por otro lado, la mayoría de los ruidos tiene su
energía en las bajas frecuencias; el hecho de utilizar la señal del
análisis previamente filtrada por el filtro de entrada de las
muestras permite disminuir tanto el ruido de frecuencia muy
baja.
La filtración del ruido (bloque D) para una
señal acústica consiste en realizar la suma para cada muestra, de
la señal original, de la señal original desfasada de un "pitch"
en valor positivo y por una señal original desfasada de un
"pitch" en valor negativo. Esto necesita conocer por cada
muestra, el valor del "pitch" y de su variación.
Ventajosamente ambas señales desfasadas son multiplicadas por un
mismo coeficiente, y la señal original no desfasada por un segundo
coeficiente; la suma de dicho coeficiente añadido al mismo y del de
dicho segundo coeficiente es igual a 1, disminuido para conservar un
nivel equivalente de la señal resultante.
El número de muestras espaciadas de un
"pitch" temporal no se limita a tres muestras; cuantas más
muestras se utilizan para el filtro de ruido, y más el filtro
disminuye el ruido.
El número de tres muestras se adapta al
"pitch" temporal más elevado encontrado en la voz y con retraso
de filtración. Con el fin de guardar un retraso de filtración fijo,
cuanto más débil es el "pitch" temporal, más se pueden
utilizar muestras desfasadas por un "pitch" para realizar la
filtración; lo que vuelve a mantener la banda pasante alrededor de
un armónico, más o menos constante; cuanto más se eleva el
fundamental y más se eleva la anchura de banda atenuada.
Por otro lado, la filtración del ruido no
corresponde a las señales en forma de impulso; es pues necesario
detectar la presencia de impulsos eventuales en la señal.
La filtración del ruido (bloque D) para una
señal no acústica consiste en atenuar dicha señal por un coeficiente
inferior a 1.
En el campo temporal, la suma de las tres
señales anteriormente mencionadas está correlacionada; en cuanto al
ruido contenido en la señal original, la suma atenuará su nivel.
Así, es necesario conocer con exactitud la
variación del "pitch", es decir el valor temporal del
"pitch", aproximado en valor lineal, sabiendo que hace
intervenir un término de segundo orden; el mejoramiento de la
precisión de ambos dichos desfases, positivos y negativos, se
obtiene gracias a la utilización de la correlación por la distancia
en el principio, la mitad y fin de trama; este paso ha sido descrito
en el curso de la etapa "cálculo de los parámetros de la
señal" (bloque 11 del bloque A1).
Ventajosamente, la filtración de ruido, descrita
anteriormente, permite generar efectos especiales; dicha generación
de efectos especiales permite obtener:
- \bullet
- una feminización de la voz, dividiendo el valor temporal del "pitch" por dos, para ciertos valores de las amplitudes de la señal original y de las señales originales desfasadas; esto multiplica artificialmente la frecuencia del "pitch" de la voz por dos suprimiendo los armónicos impares;
- \bullet
- una voz artificial y extraña, dividiendo el valor temporal del "pitch" por dos, para otros valores de amplitudes de la señal original y de las señales originales desfasadas; esto permite mantener sólo los armónicos impa- res;
- \bullet
- dos voces diferentes, dividiendo el valor temporal del "pitch" por dos, para otros valores de las amplitudes de la señal original y de las señales originales desfasadas; esto permite atenuar los armónicos impares.
\vskip1.000000\baselineskip
Finalmente, otro paso, semejante al descrito
anteriormente que permitirá la filtración del ruido, podrá ser
aplicado, no para filtrar el ruido, sino para dividir por dos o por
tres la fundamental de la voz y ello, sin modificación de lo
formado (envolvente espectral) de dicha voz.
\newpage
El principio de dicho paso consiste en:
- \bullet
- multiplicar cada muestra de la voz original por un coseno que varía con el ritmo de la mitad de la fundamental (multiplicación por dos del número de frecuencias), o que varía con el ritmo del tercio de la fundamental (multiplicación por tres del número de frecuencias),
- \bullet
- luego añadir el resultado obtenido a la voz original.
\vskip1.000000\baselineskip
Por otro lado, la fase de filtración del ruido y
de generación de los efectos especiales, a partir del análisis, sin
pasar por la síntesis, puede no incluir el cálculo de la variación
del "pitch"; esto permite obtener una calidad auditiva cercana
a la anteriormente obtenida según el procedimiento anteriormente
mencionado; en este modo operatorio, las funciones definidas por
los bloques 11, 12, 15, 16, 17, 18, 19, 25 y 28 son suprimidas.
En referencia a la figura 1 que representa un
organigrama simplificado del procedimiento según la invención, en
este ejemplo, la fase de generación de efectos especiales, asociada
con la síntesis (bloque C3) se indica por el bloque C2 del bloque
C.
Dicha fase de generación de efectos especiales,
asociada con la síntesis, permite transformar la voz o la
música:
- \bullet
- o modificando según ciertas leyes, los parámetros decodificados provenientes del bloque C1 (trayecto II),
- \bullet
- o tratando directamente los resultados del análisis provenientes del bloque A1 (trayecto III).
\vskip1.000000\baselineskip
Los parámetros modificados son:
- \bullet
- el "pitch",
- \bullet
- la variación del "pitch",
- \bullet
- la validación del "pitch",
- \bullet
- el número de componentes frecuenciales,
- \bullet
- las frecuencias,
- \bullet
- los módulos,
- \bullet
- los índices.
\vskip1.000000\baselineskip
Al ser distintas las frecuencias entre sí, su
transformación permite renovar la voz, envejecerla, afeminarla o a
la inversa, transformarla en una voz artificial. Así la
transformación de los módulos autoriza todo tipo de filtraciones y
permite además conservar la voz natural manteniendo el formante
(envolvente espectral).
En calidad de ejemplos, se describirán a
continuación tres tipos de transformación de la voz, a cada uno
haciéndole referencia bajo una denominación que le es propia, a
saber:
- -
- la función "Transform" que modifica la voz de modo artificial y que permite crear un efecto de coral,
- -
- la función "Transvoice" que modifica la voz de modo realista,
- -
- la función "Formant" asociada con la función "Transvoice".
\vskip1.000000\baselineskip
La función "Transform" consiste en
multiplicar todas las frecuencias de los componentes frecuenciales
por un coeficiente. Las modificaciones de la voz dependen del valor
de este coeficiente, a saber:
- \bullet
- un valor superior a 1 transforma la voz en voz de pato,
- \bullet
- un valor débilmente superior a 1 rejuvenece la voz,
- \bullet
- un valor inferior a 1 vuelve la voz más grave.
\vskip1.000000\baselineskip
En efecto, esta modificación artificial de la
voz es debida al hecho de que los módulos de los componentes
frecuenciales quedan y que la envolvente espectral es deformada.
Por otro lado, sintetizando muchas veces tos
mismos parámetros, modificados por dicha función "Transform"
con un coeficiente diferente, se realiza un efecto de coral dando la
impresión de que están presentes varias voces.
La función "Transvoice" consiste en recrear
los módulos de los armónicos a partir de la envolvente espectral,
armónicos originales están abandonados sabiendo que las frecuencias
no armónicas no están modificadas; por tal motivo, dicha función
"Transvoice" acude a la función "Formant" que determina el
formante.
Así, la transformación de la voz se efectúa de
modo realista porque que el formante se conserva; un coeficiente de
multiplicación de las frecuencias armónicas superior a 1 rejuvenece
la voz, incluso la afemina; recíprocamente, un coeficiente de
multiplicación de las frecuencias armónicas inferior a 1 vuelve la
voz más grave.
Por otro lado, con el fin de conservar un nivel
sonoro constante, independientemente del valor del coeficiente de
multiplicación, las nuevas amplitudes serán multiplicadas por la
relación de la suma de los módulos en entrada de dicha función
"Transvoice" a la suma de los módulos en salida.
La función "Formant" consiste en determinar
la envolvente espectral de la señal frecuencial; se explota para
mantener los módulos de los componentes frecuenciales constantes
cuando las frecuencias son modificadas. La determinación de la
envolvente se efectúa en dos etapas, a saber:
- \bullet
- una filtración de los módulos colocados en la envolvente,
- \bullet
- una interpolación logarítmica de la envolvente entre dos módulos de un armónico.
\vskip1.000000\baselineskip
Dicha función "Formant" puede ser aplicada
en el momento de la codificación de los módulos, de las frecuencias,
de los intervalos de amplitudes y de las fracciones de frecuencias,
efectuando dicha codificación únicamente sobre los parámetros
esenciales del formante, el "pitch" que es validado. En este
caso, en el momento de la decodificación, se vuelven a calcular las
frecuencias y los módulos a partir respectivamente del "pitch"
y de la envolvente espectral. Así se reduce la cadencia binaria;
sin embargo, este paso es aplicable únicamente a la voz.
Dichas funciones "Transform" y
"Transvoice", descritas anteriormente hacen intervenir un
coeficiente de multiplicación constante de las frecuencias. Esta
transformación puede ser no lineal y permitir volver la voz
artificial.
En efecto, si este coeficiente de multiplicación
depende de la relación entre el nuevo "pitch" y el "pitch"
real, la voz estará caracterizada por un "pitch" fijo y un
formante variable; se habrá transformado así en voz de robot
asociada con un efecto espacial.
Si este coeficiente de multiplicación varía
periódicamente o aleatoriamente, a baja frecuencia, la voz es
envejecida asociada con un efecto hilarante.
Estas diferentes transformaciones de la voz,
obtenidas a partir de una modificación, una constante o variable en
el tiempo, de las frecuencias, siendo dicha modificación efectuada
sobre cada una de las frecuencias tomadas por separado, son dadas
en calidad de ejemplos.
Una última solución consiste en efectuar una
codificación de cadencia fija. El tipo de señal es llevado a la
señal acústica (tipo 0 y 2 con la validación del "pitch" a 1),
o a ruido (tipo 1 y 2 con la validación del "pitch" a 0).
Estando el tipo 2 para la música, es eliminado en este caso, ya que
esta codificación únicamente puede codificar la voz.
La codificación de cadencia fija consiste
en:
- \bullet
- codificar el tipo de señal, la información de la presencia de impulso, y la validación del "pitch" en codificación de HUFFMAN,
- \bullet
- codificar el emplazamiento del impulso en la trama si no se está en presencia de un impulso, si no en codificar las partes de envolvente temporal acudiendo a una tabla de codificación que representa las envolventes encontradas más corrientemente,
- \bullet
- codificar el "pitch" en ley logarítmica sobre su valor o la diferencia entre el "pitch" codificado de la trama precedente y el de la trama actual; anotar que la codificación diferencial permite utilizar menos bits de codificación,
- \bullet
- codificar la variación del "pitch", no estando en presencia de un impulso, solamente si el valor calculado en el análisis está alejado de un cierto porcentaje de la variación del "pitch" calculada a partir de los "pitchs" de la trama precedente y de la trama actual; igualmente, la variación del "pitch" no está codificada, si el valor absoluto de la desviación entre estas dos variaciones es inferior a un valor máximo,
- \bullet
- codificar el formante diferencial sobre 2 bits para las bajas frecuencias, y sobre 1 bit para las otras frecuencias, el primer formante no siendo codificado en diferencial. Cabe señalar que cuantas más muestras de formante a codificar hay, mejor es la calidad auditiva del codificador de cadencia fija, y más débil es la diferencia de codificación entre dos muestras adyacentes.
\vskip1.000000\baselineskip
Siendo la decodificación inversa a la
codificación, el "pitch" proporciona todos los armónicos de la
voz; sus amplitudes son las del formante. En cuanto a las
frecuencias de la señal no acústica, se calculan frecuencias
espaciadas entre sí por un valor medio al cual se añade una
desviación aleatoria; las amplitudes son las del formante.
El proceso de síntesis, descrito anteriormente,
es idéntico al descrito para un decodificador de cadencia
variable.
Con el fin de permitir la aplicación del
procedimiento según la invención, se describirá a continuación un
dispositivo, con referencia a la figura 5. El dispositivo, según la
invención, esencialmente comprende:
- \bullet
- un ordenador 71, de tipo DSP, que permite efectuar el procesamiento digital de las señales,
- \bullet
- un teclado 72 que permite seleccionar los menús de tratamiento de la voz,
- \bullet
- una memoria de sólo lectura (ROM) 73, de tipo EEPROM, que contiene el software de tratamiento de la voz,
- \bullet
- una memoria de acceso aleatorio (RAM) 74, de tipo flash o "memory stick", que contiene los registros de la voz tratada,
- \bullet
- un visualizador 75, de tipo LCD, asociado al teclado 72, que indica los diferentes menús de tratamiento de la voz,
- \bullet
- un codificador/decodificador 76, de tipo codec, que asegura las conexiones entrada/salida de los periféricos audio,
- \bullet
- un micro 77, de tipo électret,
- \bullet
- un altavoz 78,
- \bullet
- una batería 79,
- \bullet
- una conexión entrada/salida 80, que permite la transferencia de las grabaciones digitales y las actualizaciones del software de procesamiento de la voz.
\vskip1.000000\baselineskip
Por otro lado, el dispositivo podrá
contener:
- \bullet
- un conector telefónico que permite al dispositivo según la invención sustituirse por un microteléfono telefónico,
- \bullet
- un conector de telefonía móvil,
- \bullet
- una salida para auriculares, que permite la escucha de las grabaciones,
- \bullet
- una salida cadena de hi fi, que permite la función karaoke,
- \bullet
- un conector externo de alimentación.
\vskip1.000000\baselineskip
De una manera más precisa, el dispositivo podrá
contener:
- medios de análisis que permiten determinar
parámetros representativos de dicha señal acústica, los dichos
medios de análisis comprenden:
- \bullet
- medios de cálculo de la envolvente de la señal,
- \bullet
- medios de cálculo del "pitch" y de su variación,
- \bullet
- medios de aplicación a la señal temporal de la variación inversa del "pitch",
- \bullet
- medios de transformada rápida de Fourrier (TRF) sobre la señal pretratada,
- \bullet
- medios de extracción de los componentes frecuenciales y sus amplitudes de dicha señal, a partir del resultado de la transformada rápida de Fourrier,
- \bullet
- medios de eliminación eventual del ruido ambiental por filtración selectiva antes de la codificación,
\vskip1.000000\baselineskip
- medios de síntesis los dichos parámetros
representativos que permiten reconstituir dicha señal acústica, los
dichos medios de síntesis comprenden:
- \bullet
- medios de suma de los senos cuya amplitud de los componentes frecuenciales varíe en función de la envolvente de la señal,
- \bullet
- medios de cálculo de las fases en función del valor de las frecuencias y de los valores de las fases y de las frecuencias que pertenecen a la trama precedente,
- \bullet
- medios de superposición del ruido,
- \bullet
- medios de aplicación de la envolvente,
\vskip1.000000\baselineskip
- medios de filtración del ruido y de generación
de efectos especiales, a partir del análisis, sin pasar por la
síntesis, de los dichos medios de filtración del ruido y de
generación de efectos especiales que comprenden:
- \bullet
- medios de suma de la señal original, de la señal original desfasada de un "pitch" en valor positivo y por una señal original desfasada de un "pitch" en valor negativo,
- \bullet
- medios de división del valor temporal del "pitch" por dos,
- \bullet
- medios de modificación de las amplitudes de la señal original y ambas señales desfasadas,
- \bullet
- medios de multiplicación de cada muestra de la voz original por un coseno que varía al ritmo de la mitad de la fundamental (multiplicación por dos del número de frecuencias), o que varía al ritmo del tercio de la fundamental (multiplicación por tres del número de frecuencias),
- \bullet
- medios de adición a continuación del resultado obtenido con la voz original,
\vskip1.000000\baselineskip
- medios de generación de efectos especiales
asociados con la síntesis, los dichos medios de generación de
efectos especiales comprenden:
- \bullet
- medios de multiplicación de todas las frecuencias de los componentes frecuenciales de la señal original, tomadas individualmente, por un coeficiente,
- \bullet
- medios de regeneración de los módulos de los armónicos a partir de la envolvente espectral de dicha señal original.
\vskip1.000000\baselineskip
Ventajosamente, el dispositivo podrá contener
todos los elementos citados anteriormente, en versión profesional o
semi profesional; ciertos elementos, tal como el visualizador,
podrán ser simplificados en versión de base.
Así, el dispositivo según la invención,
anteriormente descrito, podrá explotar el procedimiento de
procesamiento digital diferenciado de la voz y de la música, de
filtración del ruido y la creación de efectos especiales.
Permitirá particularmente transformar la
voz:
- \bullet
- en otra voz realista,
- \bullet
- para un uso de tipo karaoke,
- \bullet
- en otra voz futurista y extraña, de acompañamiento.
\vskip1.000000\baselineskip
También permitirá:
- \bullet
- suprimir el ruido ambiental y aumentar las capacidades de grabación,
- \bullet
- transferir las grabaciones sobre disco duro de ordenador y reescucharlas a velocidad variable,
- \bullet
- realizar una función "mano libre" asociada con un radioteléfono móvil,
- \bullet
- generar una respuesta auditiva adaptada a personas con deficiencias auditivas.
Claims (21)
1. Procedimiento para el tratamiento numérico
diferenciado de una señal acústica, constituido en el intervalo de
una trama por la suma de seno de amplitud fija y cuya frecuencia
está modulada linealmente en función del tiempo, esta suma que está
modulada temporalmente por una envolvente, el ruido de dicha señal
acústica que se añade a dicha señal, previamente a dicha suma,
caracterizado por que comprende:
Una etapa de análisis que permite determinar
parámetros representativos de dicha señal acústica, por
- \bullet
- un cálculo de la envolvente de la señal,
- \bullet
- un cálculo de la señal acústica del pitch y de su variación,
- \bullet
- una aplicación a la señal temporal de la variación inversa del "pitch" que consiste en efectuar un muestreo temporal de la señal acústica con paso de muestreo variable, dicho paso varía con el valor inverso de la variación del pitch,
- \bullet
- una transformada rápida de Fourrier (TRF) sobre la señal pretratada,
- \bullet
- una extracción de los componentes frecuenciales y sus amplitudes de dicha señal, a partir del resultado de la transformada rápida de Fourrier,
- \bullet
- un cálculo del "pitch" en el dominio frecuencial y su variación con relación al "pitch" calculado anteriormente para mejorar la precisión de este "pitch" calculado anteriormente.
\vskip1.000000\baselineskip
2. Procedimiento según la reivindicación 1,
caracterizado por que comprende además una etapa de síntesis
de los dichos parámetros representativos que permiten reconstituir
dicha señal acústica.
3. Procedimiento según las reivindicaciones
precedentes, caracterizado por que comprende además una etapa
de codificación y de decodificación de los dichos parámetros
representativos de dicha señal acústica.
4. Procedimiento según las reivindicaciones
precedentes, caracterizado por que comprende además una etapa
de filtración del ruido y la etapa de generación de efectos
especiales, a partir del análisis, sin pasar por la síntesis.
5. Procedimiento según las reivindicaciones
precedentes, caracterizado por que comprende además una etapa
de generación de efectos especiales asociados con la síntesis.
6. Procedimiento según la reivindicación 2,
caracterizado por que la dicha etapa de síntesis
comprende
- \bullet
- una suma de los senos cuya amplitud de los componentes frecuenciales varía en función a la envolvente de la señal y cuyas frecuencias varían linealmente,
- \bullet
- un cálculo de las fases en función al valor de las frecuencias y de los valores de las fases y de las frecuencias que pertenecen a la trama precedente,
- \bullet
- una superposición del ruido,
- \bullet
- una aplicación de la envolvente.
\vskip1.000000\baselineskip
7. Procedimiento según la reivindicación 4,
caracterizado por que la dicha etapa de filtración del ruido
y la dicha etapa de generación de efectos especiales, a partir del
análisis, sin pasar por la síntesis, comprenden una suma de la
señal original, de la señal original desfasada por un "pitch"
en valor positivo y por una señal original desfasada por un
"pitch" en valor negativo.
8. Procedimiento según la reivindicación 7,
caracterizado por que las dichas señales
desfasadas son multiplicadas por un mismo coeficiente, y la señal
original por un segundo coeficiente, la suma de dicho coeficiente,
añadido a sí mismo, y de de dicho segundo coeficiente es igual a 1,
disminuido para conservar un nivel equivalente de la señal
resultante.
\vskip1.000000\baselineskip
9. Procedimiento según la reivindicación 7,
caracterizado por que la dicha etapa de
filtración y la dicha etapa de generación de efectos especiales, a
partir del análisis, sin pasar por la síntesis, comprenden:
- \bullet
- una división del valor temporal del "pitch" por dos,
- \bullet
- una modificación de las amplitudes de la señal original y de ambas señales desfasadas.
\vskip1.000000\baselineskip
10. Procedimiento según la reivindicación 7,
caracterizado por que la dicha etapa de
filtración y la dicha etapa de generación de efectos especiales, a
partir del análisis, sin pasar por la síntesis, comprenden:
- \bullet
- una multiplicación de cada muestra de la voz original por un coseno que varía al ritmo de la mitad de la fundamental (multiplicación por dos del número de frecuencias), o que varía al ritmo del tercio de la fundamental (multiplicación por tres del número de frecuencias),
- \bullet
- luego una adición del resultado obtenido a la voz original.
\vskip1.000000\baselineskip
11. Procedimiento según la reivindicación 5,
caracterizado por que la dicha etapa de
generación de efectos especiales asociados con la síntesis,
comprende:
- \bullet
- una multiplicación de todas las frecuencias de los componentes frecuenciales de la señal original, tomadas individualmente, por un coeficiente,
- \bullet
- una regeneración de los módulos de los armónicos a partir de la envolvente espectral de dicha señal original.
\vskip1.000000\baselineskip
12. Procedimiento según la reivindicación
11,
caracterizado por que el dicho
coeficiente de multiplicación de los componentes frecuenciales
es:
- \bullet
- un coeficiente dependiente de la relación entre el nuevo "pitch" y el "pitch" real,
- \bullet
- un coeficiente que varía, periódicamente o aleatoriamente, a baja frecuencia.
\vskip1.000000\baselineskip
13. Dispositivo, de tratamiento numérico
diferenciado de una señal acústica, constituido en el intervalo de
una trama por la suma de seno de amplitud fija y cuya frecuencia
está modulada linealmente en función del tiempo, esta suma está
modulada temporalmente por una envolvente, el ruido de dicha señal
acústica siendo añadido a dicha señal, previamente a dicha suma,
caracterizado por que comprende
medios de análisis que permiten determinar
parámetros representativos de dicha señal acústica,
comprendiendo:
- \bullet
- medios de cálculo de la envolvente de la señal,
- \bullet
- medios de cálculo del "pitch" y de su variación,
- \bullet
- medios de aplicación a la señal temporal de la variación inversa del "pitch" que consiste en efectuar un muestreo temporal de la señal acústica con paso de muestreo variable, variando este paso con el valor inverso de la variación del pitch,
- \bullet
- medios de transformada rápida de Fourrier (TRF) sobre la señal pretratada,
- \bullet
- medios de extracción de los componentes frecuenciales y sus amplitudes de dicha señal, a partir del resultado de la transformada rápida de Fourrier,
- \bullet
- medios cálculo del "pitch" en el campo frecuencial y su variación con relación al "pitch" calculado anteriormente para mejorar la precisión de este "pitch" calculado anteriormente.
\vskip1.000000\baselineskip
14. Dispositivo según la reivindicación 13,
caracterizado por que comprende además:
- -
- medios de síntesis de los dichos parámetros representativos que permiten reconstituir dicha señal acústica y/o
- -
- medios de codificación y de decodificación de los dichos parámetros representativos de dicha señal acústica, y/o
\newpage
- -
- medios de filtración del ruido y de generación de efectos especiales, a partir del análisis, sin pasar por la síntesis, y/o
- -
- medios de generación de efectos especiales asociados con la síntesis.
\vskip1.000000\baselineskip
15. Dispositivo según la reivindicación 14,
caracterizado por que los dichos medios
de síntesis comprenden:
- \bullet
- medios de suma de los senos cuya amplitud de los componentes frecuenciales varía en función a la envolvente de la señal,
- \bullet
- medios de cálculo de las fases en función del valor de las frecuencias y de los valores de las fases y de las frecuencias que pertenecen a la trama precedente,
- \bullet
- medios de superposición del ruido,
- \bullet
- medios de aplicación de la envolvente.
\vskip1.000000\baselineskip
16. Dispositivo según la reivindicación 13,
caracterizado por que los dichos medios
de filtración del ruido y de la generación de efectos especiales, a
partir del análisis, sin pasar por la síntesis, comprenden medios de
suma de la señal original, de la señal original desfasada por un
"pitch" en valor positivo y por una señal original desfasada de
un "pitch" en valor negativo.
\vskip1.000000\baselineskip
17. Dispositivo según la reivindicación 16,
caracterizado por que las dichas señales
desfasadas son multiplicadas por un mismo coeficiente, y la señal
original por un segundo coeficiente, la suma de dicho primer
coeficiente, añadido a sí mismo, y de dicho segundo coeficiente es
igual a 1, disminuido para conservar un nivel equivalente de la
señal resultante.
\vskip1.000000\baselineskip
18. Dispositivo según la reivindicación 14,
caracterizado por que los dichos medios
de filtración y de generación de efectos especiales, a partir del
análisis, sin pasar por la síntesis, comprenden:
- \bullet
- medios de división del valor temporal del "pitch" por dos,
- \bullet
- medios de modificación de las amplitudes de la señal original y de ambas señales desfasadas.
\vskip1.000000\baselineskip
19. Dispositivo según la reivindicación 14,
caracterizado por que los dichos medios
de filtración y de generación de efectos especiales, a partir del
análisis, sin pasar por la síntesis, comprenden:
- \bullet
- medios de multiplicación de cada muestra de la voz original por un coseno que varía al ritmo de la mitad de la fundamental (multiplicación por dos del número de frecuencias), o que varía al ritmo del tercio de la fundamental (multiplicación por tres del número de frecuencias),
- \bullet
- medios de adición a continuación del resultado obtenido a la voz original.
\vskip1.000000\baselineskip
20. Dispositivo según la reivindicación 14.
caracterizado por que dichos medios de
generación de efectos especiales asociados con la síntesis,
comprenden:
- \bullet
- medios de multiplicación de todas las frecuencias de los componentes frecuenciales de la señal original, tomadas individualmente, por un coeficiente,
- \bullet
- medios de regeneración de los módulos de los armónicos a partir de la envolvente espectral de dicha señal original.
\vskip1.000000\baselineskip
21. Dispositivo según la reivindicación 20,
caracterizado por que dicho coeficiente
de multiplicación de los componentes frecuenciales es:
- \bullet
- un coeficiente dependiente de la relación entre el nuevo "pitch" y el "pitch" real,
- \bullet
- un coeficiente que varía periódicamente, a baja frecuencia.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0301081 | 2003-01-30 | ||
FR0301081A FR2850781B1 (fr) | 2003-01-30 | 2003-01-30 | Procede pour le traitement numerique differencie de la voix et de la musique, le filtrage du bruit, la creation d'effets speciaux et dispositif pour la mise en oeuvre dudit procede |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2342601T3 true ES2342601T3 (es) | 2010-07-09 |
Family
ID=32696232
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES04705433T Expired - Lifetime ES2342601T3 (es) | 2003-01-30 | 2004-01-27 | Procesamiento digital diferenciado de la voz y de la musica, la filtracion del ruido, la creacion de efectos especiales asi como un dispositivo para la aplicacion de dicho procedimiento. |
Country Status (7)
Country | Link |
---|---|
US (1) | US8229738B2 (es) |
EP (1) | EP1593116B1 (es) |
AT (1) | ATE460726T1 (es) |
DE (1) | DE602004025903D1 (es) |
ES (1) | ES2342601T3 (es) |
FR (1) | FR2850781B1 (es) |
WO (1) | WO2004070705A1 (es) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100547113B1 (ko) * | 2003-02-15 | 2006-01-26 | 삼성전자주식회사 | 오디오 데이터 인코딩 장치 및 방법 |
US20050226601A1 (en) * | 2004-04-08 | 2005-10-13 | Alon Cohen | Device, system and method for synchronizing an effect to a media presentation |
JP2007114417A (ja) * | 2005-10-19 | 2007-05-10 | Fujitsu Ltd | 音声データ処理方法及び装置 |
US7772478B2 (en) * | 2006-04-12 | 2010-08-10 | Massachusetts Institute Of Technology | Understanding music |
US7622665B2 (en) * | 2006-09-19 | 2009-11-24 | Casio Computer Co., Ltd. | Filter device and electronic musical instrument using the filter device |
FR2912249A1 (fr) * | 2007-02-02 | 2008-08-08 | France Telecom | Codage/decodage perfectionnes de signaux audionumeriques. |
WO2009000073A1 (en) * | 2007-06-22 | 2008-12-31 | Voiceage Corporation | Method and device for sound activity detection and sound signal classification |
KR101410230B1 (ko) * | 2007-08-17 | 2014-06-20 | 삼성전자주식회사 | 종지 정현파 신호와 일반적인 연속 정현파 신호를 다른방식으로 처리하는 오디오 신호 인코딩 방법 및 장치와오디오 신호 디코딩 방법 및 장치 |
PL2232700T3 (pl) | 2007-12-21 | 2015-01-30 | Dts Llc | System regulacji odczuwanej głośności sygnałów audio |
US20100329471A1 (en) * | 2008-12-16 | 2010-12-30 | Manufacturing Resources International, Inc. | Ambient noise compensation system |
US8670990B2 (en) * | 2009-08-03 | 2014-03-11 | Broadcom Corporation | Dynamic time scale modification for reduced bit rate audio coding |
US8538042B2 (en) | 2009-08-11 | 2013-09-17 | Dts Llc | System for increasing perceived loudness of speakers |
JP5694324B2 (ja) * | 2009-08-11 | 2015-04-01 | ディーティーエス・エルエルシーDts Llc | スピーカーの知覚されるラウドネスを増加させるためのシステム |
US8204742B2 (en) * | 2009-09-14 | 2012-06-19 | Srs Labs, Inc. | System for processing an audio signal to enhance speech intelligibility |
US8886548B2 (en) * | 2009-10-21 | 2014-11-11 | Panasonic Corporation | Audio encoding device, decoding device, method, circuit, and program |
JP6147744B2 (ja) | 2011-07-29 | 2017-06-14 | ディーティーエス・エルエルシーDts Llc | 適応音声了解度処理システムおよび方法 |
US9312829B2 (en) | 2012-04-12 | 2016-04-12 | Dts Llc | System for adjusting loudness of audio signals in real time |
US9318086B1 (en) * | 2012-09-07 | 2016-04-19 | Jerry A. Miller | Musical instrument and vocal effects |
JP5974369B2 (ja) * | 2012-12-26 | 2016-08-23 | カルソニックカンセイ株式会社 | ブザー出力制御装置およびブザー出力制御方法 |
US9484044B1 (en) * | 2013-07-17 | 2016-11-01 | Knuedge Incorporated | Voice enhancement and/or speech features extraction on noisy audio signals using successively refined transforms |
US9530434B1 (en) | 2013-07-18 | 2016-12-27 | Knuedge Incorporated | Reducing octave errors during pitch determination for noisy audio signals |
US20150179181A1 (en) * | 2013-12-20 | 2015-06-25 | Microsoft Corporation | Adapting audio based upon detected environmental accoustics |
JP6402477B2 (ja) * | 2014-04-25 | 2018-10-10 | カシオ計算機株式会社 | サンプリング装置、電子楽器、方法、およびプログラム |
TWI569263B (zh) * | 2015-04-30 | 2017-02-01 | 智原科技股份有限公司 | 聲頻訊號的訊號擷取方法與裝置 |
CN112908352B (zh) * | 2021-03-01 | 2024-04-16 | 百果园技术(新加坡)有限公司 | 一种音频去噪方法、装置、电子设备及存储介质 |
US12094481B2 (en) * | 2021-11-18 | 2024-09-17 | Tencent America LLC | ADL-UFE: all deep learning unified front-end system |
US20230289652A1 (en) * | 2022-03-14 | 2023-09-14 | Matthias THÖMEL | Self-learning audio monitoring system |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4201105A (en) * | 1978-05-01 | 1980-05-06 | Bell Telephone Laboratories, Incorporated | Real time digital sound synthesizer |
US4357852A (en) * | 1979-05-21 | 1982-11-09 | Roland Corporation | Guitar synthesizer |
US5054072A (en) * | 1987-04-02 | 1991-10-01 | Massachusetts Institute Of Technology | Coding of acoustic waveforms |
JP3351905B2 (ja) * | 1994-07-28 | 2002-12-03 | ソニー株式会社 | 音声信号処理装置 |
WO1997017692A1 (en) * | 1995-11-07 | 1997-05-15 | Euphonics, Incorporated | Parametric signal modeling musical synthesizer |
US6031173A (en) * | 1997-09-30 | 2000-02-29 | Kawai Musical Inst. Mfg. Co., Ltd. | Apparatus for generating musical tones using impulse response signals |
US6240386B1 (en) * | 1998-08-24 | 2001-05-29 | Conexant Systems, Inc. | Speech codec employing noise classification for noise compensation |
US7072832B1 (en) * | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
JP2000082260A (ja) * | 1998-09-04 | 2000-03-21 | Sony Corp | オーディオ信号再生装置及び方法 |
AU2001241475A1 (en) * | 2000-02-11 | 2001-08-20 | Comsat Corporation | Background noise reduction in sinusoidal based speech coding systems |
US20020184009A1 (en) * | 2001-05-31 | 2002-12-05 | Heikkinen Ari P. | Method and apparatus for improved voicing determination in speech signals containing high levels of jitter |
-
2003
- 2003-01-30 FR FR0301081A patent/FR2850781B1/fr not_active Expired - Fee Related
-
2004
- 2004-01-27 WO PCT/FR2004/000184 patent/WO2004070705A1/fr active Application Filing
- 2004-01-27 ES ES04705433T patent/ES2342601T3/es not_active Expired - Lifetime
- 2004-01-27 US US10/544,189 patent/US8229738B2/en not_active Expired - Fee Related
- 2004-01-27 DE DE602004025903T patent/DE602004025903D1/de not_active Expired - Lifetime
- 2004-01-27 AT AT04705433T patent/ATE460726T1/de not_active IP Right Cessation
- 2004-01-27 EP EP04705433A patent/EP1593116B1/fr not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP1593116B1 (fr) | 2010-03-10 |
DE602004025903D1 (de) | 2010-04-22 |
ATE460726T1 (de) | 2010-03-15 |
FR2850781A1 (fr) | 2004-08-06 |
WO2004070705A1 (fr) | 2004-08-19 |
FR2850781B1 (fr) | 2005-05-06 |
US20060130637A1 (en) | 2006-06-22 |
US8229738B2 (en) | 2012-07-24 |
EP1593116A1 (fr) | 2005-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2342601T3 (es) | Procesamiento digital diferenciado de la voz y de la musica, la filtracion del ruido, la creacion de efectos especiales asi como un dispositivo para la aplicacion de dicho procedimiento. | |
US10885926B2 (en) | Classification between time-domain coding and frequency domain coding for high bit rates | |
JP4166673B2 (ja) | 相互使用可能なボコーダ | |
ES2349554T3 (es) | Codificación de señales. | |
US6691084B2 (en) | Multiple mode variable rate speech coding | |
KR101092167B1 (ko) | 피치-조정 및 비-피치-조정 코딩을 이용한 신호 인코딩 | |
RU2483365C2 (ru) | Низкоскоростная аудиокодирующая/декодирующая схема с общей предварительной обработкой | |
JP4824167B2 (ja) | 周期的スピーチコーディング | |
ES2309969T3 (es) | Procedimiento y dispositivo para la ampliacion artificial de la anchura de banda de señales de voz. | |
ES2687249T3 (es) | Decisión no sonora/sonora para el procesamiento de la voz | |
KR20010014352A (ko) | 음성 통신 시스템에서 음성 강화를 위한 방법 및 장치 | |
JP2009522588A (ja) | 音声コーデック内の効率的なフレーム消去隠蔽の方法およびデバイス | |
BRPI0311314B1 (pt) | Método e dispositivo para aperfeiçoamento da altura de som seletivo por freqüência de fala sintetizada | |
KR100216018B1 (ko) | 배경음을 엔코딩 및 디코딩하는 방법 및 장치 | |
US9418671B2 (en) | Adaptive high-pass post-filter | |
KR20030031936A (ko) | 피치변경법을 이용한 단일 음성 다중 목소리 합성기 | |
Nishimura | Aerial Acoustic Modem with Decoding Capabilities Using a CELP-Based Speech Encoder | |
Chibani | Increasing the robustness of CELP speech codecs against packet losses. | |
Ekeroth | Improvements of the voice activity detector in AMR-WB | |
Seereddy | Speech coding using multipulse excitation |