ES2267135T3 - Convertidor de velocidad de reproduccion de sonido. - Google Patents
Convertidor de velocidad de reproduccion de sonido. Download PDFInfo
- Publication number
- ES2267135T3 ES2267135T3 ES97911495T ES97911495T ES2267135T3 ES 2267135 T3 ES2267135 T3 ES 2267135T3 ES 97911495 T ES97911495 T ES 97911495T ES 97911495 T ES97911495 T ES 97911495T ES 2267135 T3 ES2267135 T3 ES 2267135T3
- Authority
- ES
- Spain
- Prior art keywords
- waveform
- voice
- signal
- linear predictive
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000015572 biosynthetic process Effects 0.000 claims description 42
- 239000000872 buffer Substances 0.000 claims description 38
- 238000003786 synthesis reaction Methods 0.000 claims description 30
- 238000004364 calculation method Methods 0.000 claims description 19
- 238000001228 spectrum Methods 0.000 claims description 14
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 230000003139 buffering effect Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 description 44
- 230000006870 function Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 11
- 238000000034 method Methods 0.000 description 10
- 238000009472 formulation Methods 0.000 description 7
- 239000000203 mixture Substances 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000007423 decrease Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000001131 transforming effect Effects 0.000 description 3
- 238000005314 correlation function Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
Abstract
EN EL APARATO PARA CONVERTIR LA VELOCIDAD DE REPRODUCCION DE VOZ, LA VELOCIDAD DE REPRODUCCION DE VOZ SE CONVIERTE SELECCIONANDO DOS FORMAS DE ONDA EN SEÑALES DE ENTRADA DE VOZ O SEÑALES DE ENTRADA RESIDUALES, DE MANERA QUE LA DIFERENCIA ENTRE DOS FORMAS DE ONDA VECINAS QUE TIENEN LA MISMA LONGITUD ES MINIMA Y CALCULANDO LA FORMA DE ONDA SUPERPUESTA MEDIANTE LA SUPERPOSICION DE ESTAS DOS FORMAS DE ONDA, SUSTITUYENDO POSTERIORMENTE POR ELLA UNA PARTE DE LAS SEÑALES DE ENTRADA DE VOZ O DE LAS SEÑALES DE ENTRADA RESIDUALES O INSERTANDO LA FORMA DE ONDA SUPERPUESTA EN LAS SEÑALES DE ENTRADA DE VOZ O LAS SEÑALES DE ENTRADA RESIDUALES.
Description
Convertidor de velocidad de reproducción de
sonido.
La presente invención se refiere a un aparato
para convertir una velocidad de reproducción de voz para reproducir
señales de voz digitalizadas a una velocidad arbitraria sin
transformar (cambiar) un tono de voz.
En esta memoria descriptiva (descripción),
"voz" y "señal de voz" se utilizan para representar todas
las señales acústicas generadas por instrumentos y otros, no sólo
voz pronunciada por una persona.
Como un método para convertir una velocidad de
reproducción a una velocidad arbitraria sin transformar un tono de
voz, se conoce el método PICOLA (Pointer Interval Control Overlap
and Add). El principio del método PICOLA lo introdujo
"Time-Scale Modification Algorithm for Speech by
Use of Pointer Interval Control Overlap and Add (PICOLA) and its
Evaluation" escrito por MORITA, Naotaka e ITAKURA, Fumitada, en
Proceeding of National Meeting of the Acoustic Society of Japan
1-4-14 (octubre, 1986).
Y la aplicación del método PICOLA para señales
de voz derivadas en tramas para convertir una velocidad de
reproducción con pocas memorias intermedias se describe en la
Publicación de Patente japonesa no examinada número
8-137491.
La figura 9 ilustra un diagrama de bloques de un
aparato convencional para convertir una velocidad de reproducción
de voz en el método PICOLA. En el aparato para convertir una
velocidad de reproducción de voz ilustrada en la figura 9, señales
de voz digitalizadas se registran en medios de registro 1, y la
sección de formación de trama 2 toma una señal de voz en una trama
de una muestra LF de longitud predeterminada de los medios de
registro 1. La señal de voz tomada por la sección de formación de
trama 2 se suministra a la sección de cálculo de período de tono 6
siendo almacenada simultánea y temporalmente en memoria intermedia
3. La sección de cálculo de período de tono 6 calcula el período de
tono Tp de la señal de voz para suministrarlo a la sección de
solapamiento de forma de onda 4 almacenando al mismo tiempo un
puntero de posición de inicio de procesado en la memoria intermedia
3. La sección de solapamiento de forma de onda 4 solapa formas de
onda de señales de voz almacenadas en memoria intermedia 3
utilizando el período de tono de la voz de entrada, envía después la
forma de onda solapada en la sección de sintetización de forma de
onda 5. La sección de sintetización de forma de onda 5 sintetiza
una forma de onda de señal de voz de salida a partir de la forma de
onda de señal de voz almacenada en la memoria intermedia 3 y la
forma de onda solapada procesada en la sección de solapamiento de
forma de onda 4 para proporcionar la voz de salida.
En este aparato para convertir una velocidad de
reproducción de voz, una velocidad de reproducción es convertida
sin transformar un tono según el procesado siguiente.
En primer lugar, con las figuras 10 y 11 se
explica un método de procesado para reproducción a alta velocidad.
En las figuras, PO es un puntero que indica una cabecera de una
trama de procesado de solapamiento de forma de onda. En el
procesado de solapamiento de forma de onda, una trama de procesado
es una muestra LW con una longitud de dos períodos de período de
tono de voz Tp. Y cuando una velocidad de voz de entrada es 1 y una
velocidad de reproducción deseada es r, L es el número de muestras
dadas por la formulación siguiente:
(1)L =
Tp\{1/(r-1)\}
L es una muestra correspondiente a una longitud
de forma de onda de salida (c), y una voz de entrada de la muestra
Tp+L se reproduce como una voz de salida de la muestra L como se
menciona más adelante. Por consiguiente, se obtiene r = (Tp+L)/L,
entonces se introduce la formulación (1).
Una voz de entrada tomada de medios de registro
1 por la sección de formación de trama 2 se almacena en la memoria
intermedia 3. Simultáneamente, la sección de cálculo de período de
tono 6 calcula el período de tono Tp de la voz de entrada para
introducirla en la sección de solapamiento de forma de onda 4. Y la
sección de cálculo de período de tono 6 calcula L a partir del
período de tono Tp usando la formulación (1), determina PO’ que es
una posición de inicio para procesado siguiente y lo suministra a la
memoria intermedia 3 como un puntero en la memoria intermedia.
La sección de solapamiento de forma de onda 4
toma una forma de onda de una muestra de trama de procesado de
solapamiento de forma de onda LW (=2Tp) de un punto de inicio de
procesado indicado por el puntero PO de la memoria intermedia 3,
disminuye la primera parte de la trama de procesado (forma de onda
A) en la dirección de eje de tiempo y aumenta la parte última de la
trama de procesado (forma de onda B) en la dirección de eje de
tiempo según la función ventana triangular, suma la forma de onda A
y la forma de onda B, y después calcula la forma de onda solapada
c.
La sección de sintetización de forma de onda 5
quita la forma de onda de la trama de procesado de solapamiento de
forma de onda (forma de onda A + forma de onda B) de la forma de
onda de voz de entrada e inserta la forma de onda solapada (forma
de onda c) ilustrada en la figura 10 en lugar de la forma de onda
quitada. Entonces, la forma de onda de voz de entrada D se añade a
la forma de onda solapada hasta que PO' indica una posición del
punto (PO+Tp+L) (que es P1 que indica una posición de una cabecera +
el punto L en forma de onda C en la forma de onda sintetizada).
Además, P1 existe en la forma de onda C cuando r>2, en este caso,
la forma de onda C es enviada hasta que la posición indicada por
P1.
Como resultado, la longitud de la forma de onda
de salida sintetizada (c) es la muestra L, entonces una voz de
entrada de la muestra Tp+L se reproduce como una voz de salida de la
muestra L. El procesado de solapamiento de forma de onda siguiente
se inicia en el punto PO' en la forma de onda de entrada.
La figura 11 ilustra la relación de las señales
de voz almacenadas en la memoria intermedia 3 y la formación de
tramas por la sección de formación de tramas 2 en el procesado antes
explicado utilizando la figura 10.
Originalmente, una longitud de memoria
intermedia necesaria para el procesado de solapamiento de forma de
onda en la memoria intermedia 3 es dos períodos del período de tono
máximo Tp max de la voz de entrada. Sin embargo, dado que la voz de
entrada se divide en muestras de una longitud de trama
predeterminada LF a introducir, la posición de inicio de procesado
PO se sitúa en una posición arbitraria en la primera trama de voz de
entrada y la longitud de memoria intermedia será un entero por la
longitud de trama de entrada. Por consiguiente, la longitud de
memoria intermedia es el valor mínimo en múltiplos de LF sobre
(LF+2Tp max). Por ejemplo, cuando la longitud de trama de entrada
LF es 160 muestras y el valor máximo de período de tono Tp max es
145, la longitud de memoria intermedia necesita 3LF=480
muestras.
En el procesado en la memoria intermedia, el
contenido de la memoria intermedia se desplaza cada tiempo de
entrada de muestra LF y el solapamiento de forma de onda se procesa
solamente cuando la posición de inicio de procesado PO se introduce
en la primera trama. En otro tiempo, las señales de entrada se
suministran como señales de salida sin procesar.
A continuación, se explica un método para
reproducir a baja velocidad sirviéndose de la figura 12.
Además de reproducir a alta velocidad, PO es un
puntero que indica una cabecera de una trama de procesado de
solapamiento de forma de onda. En el procesado de solapamiento de
forma de onda, una trama de procesado es una muestra LW con una
longitud de dos períodos del período de tono de voz Tp. Y cuando una
velocidad de voz de entrada es 1 y una velocidad de reproducción
deseada es r, L es el número de muestras dadas por la formulación
siguiente.
(2)L =
Tp\{r/(1-r)\}
En el caso de reproducción a baja velocidad, una
voz de entrada de la muestra L se reproduce como una voz de salida
de la muestra Tp+L como se menciona más adelante. Por consiguiente,
se obtiene r=L/(Tp+L), entonces se introduce la formulación
(2).
La sección de solapamiento de forma de onda 4
aumenta la primera parte de la trama de procesado (forma de onda A)
en la dirección de eje de tiempo, disminuye la parte última de la
trama de procesado (forma de onda B) en la dirección de tiempo
consiguientemente a la función ventana triangular, suma la forma de
onda A y la forma de onda B, y calcula la forma de onda solapada
c.
La sección de sintetización de forma de onda 5
inserta la forma de onda solapada (forma de onda C) entre la forma
de onda A y la forma de onda B de la forma de onda de señal de
entrada (a) ilustrada en la figura 12. Entonces, la forma de onda
de voz de entrada B se suma a la forma de onda solapada hasta que
PO' indica una posición del punto (PO+L) (que es P1 indicando una
posición de una cabecera + punto L de la forma de onda C en la
forma de onda sintetizada). Cuando r>0,5, P1 no está en la forma
de onda de voz de entrada B, pero existe en la forma de onda D
continua-
da de la trama de procesado solapada, en este caso, la forma de onda D es enviada hasta la posición indicada por PO'.
da de la trama de procesado solapada, en este caso, la forma de onda D es enviada hasta la posición indicada por PO'.
Como resultado, la longitud de la forma de onda
de salida sintetizada (C) es la muestra Tp+L, entonces una voz de
entrada de la muestra L se reproduce como una voz de salida de la
muestra Tp+L. Y el procesado de solapamiento de la forma de onda
siguiente se inicia desde el punto PO' de la forma de onda de
entrada.
La relación de las señales de voz almacenadas en
la memoria intermedia 3 y la formación de tramas por la sección de
formación de tramas 2 es la misma que la de la reproducción a alta
velocidad.
A propósito, en el aparato para convertir una
velocidad de reproducción de voz antes descrita, se obtiene un
período de tono de voz de entrada, después el solapamiento de la
forma de onda se ejecuta sobre la base del período de tono. Una voz
de entrada dividida en el período de tono se denomina una forma de
onda de tono, y dado que las formas de onda de tono tienen en
general gran semejanza entre sí, son apropiadas para usarse para
procesado de solapamiento de forma de onda.
Sin embargo, si se produce un error de cálculo
en un cálculo de período de tono, la diferencia entre formas de
onda de tono contiguas aumenta, lo que plantea el problema de que la
calidad de voz de salida después del solapamiento de la forma de
onda disminuye. Como una causa primaria de la generación de un error
de cálculo de un período de tono, se consideran los factores
siguientes. En general, el período de tono calculado representa un
cierto intervalo de voz de entrada (llamado intervalo de análisis de
período de tono). Cuando el período de tono varía drásticamente en
el intervalo de análisis de período de tono, la diferencia entre el
período de tono calculado y el período de tono real aumenta. Por
consiguiente, para suprimir las disminuciones de calidad de la voz
de salida, hay que obtener la forma de onda de tono más apropiada en
la posición de la posición de procesado de solapamiento de forma de
onda.
El documento EPO 608 833 A2 describe un aparato
para transformar una señal de entrada que tiene una longitud de
tiempo L en una señal de salida que tiene una longitud de tiempo
\alphaL según una relación de modificación de escala de tiempo
dada \alpha, incluyendo un correlacionador para calcular un valor
de una función de correlación entre una primera señal y una segunda
señal que tiene una longitud de tiempo T y para determinar un
retardo de tiempo Tc en el que el valor de la función de correlación
es mayor; un sumador para sumar la primera señal multiplicada por
una primera función ventana a la segunda señal multiplicada por una
segunda función ventana con un desplazamiento del retardo de tiempo
Tc; y un circuito de salida para enviar selectivamente la salida
del sumador y una tercera señal después de la salida del sumador de
manera que la suma de una longitud de tiempo de la salida del
sumador y una longitud de tiempo de la tercera señal sea
sustancialmente igual a una longitud de tiempo definida por la
relación de modificación de escala de tiempo \alpha, el retardo
de tiempo Tc y la longitud de tiempo T.
La presente invención se ha realizado, tomando
en consideración los hechos descritos anteriormente, y tiene la
finalidad de proporcionar un aparato para convertir una velocidad de
reproducción de voz capaz de disminuir la distorsión producida
solapando formas de onda para convertir una velocidad de
reproducción de voz, y de mejorar la calidad de voz de salida.
Para lograr la finalidad antes descrita, en la
presente invención, la velocidad de reproducción de voz se
convierte seleccionando dos formas de onda en señales de voz de
entrada o señales residuales de entrada en las que la diferencia de
forma entre dos formas de onda contiguas de la misma longitud es la
mínima para calcular la forma de onda solapada, sustituyéndola
después por una parte de las señales de voz de entrada o las señales
residuales de entrada o insertarla en las señales de voz de entrada
o las señales residuales de entrada.
Según la presente invención, es posible
seleccionar formas de onda a solapar exactamente, que permite
mejorar la calidad de la voz de velocidad convertida.
Y, en la presente invención, la información de
salida de un aparato de codificación de voz se utiliza combinando
un decodificador de aparato de codificación de voz para codificar
señales de voz dividiéndolas en coeficientes predictivos lineales
que representan información de espectro, información de período de
tono e información de fuente de voz que representa un residuo
predictivo.
Según la presente invención, utilizando
información de salida de un aparato de codificación de voz, es
posible reducir en gran medida el costo de cálculo al convertir una
velocidad de reproducción de señales de voz codificadas.
En la presente invención, se preparan un aparato
para convertir una velocidad de reproducción de voz incluyendo una
memoria intermedia en la que se guardan temporalmente las señales de
voz de entrada digitalizadas, una sección de solapamiento de forma
de onda para solapar formas de onda de voz almacenadas en la memoria
intermedia, y una sección de sintetización de forma de onda para
sintetizar una forma de onda de voz de salida a partir de la forma
de onda de voz de entrada en la memoria intermedia y la forma de
onda de voz solapada, una sección de toma de forma de onda para
tomar dos formas de onda contiguas de la misma longitud de la
memoria intermedia, y una sección de cálculo de diferencia de forma
para calcular una diferencia de forma entre dos formas de onda de
voz tomadas por la sección de toma de forma de onda, donde la
sección de solapamiento de forma de onda selecciona dos formas de
onda de voz que tienen la diferencia de forma mínima calculada por
la sección de cálculo de diferencia de forma a solapar.
Y, en la presente invención, se preparan una
sección de análisis predictivo lineal para calcular los coeficientes
predictivos lineales que representan información de espectro de una
señal de voz de entrada, un filtro inverso para calcular una señal
residual predictiva de la señal de voz de entrada que utiliza los
coeficientes predictivos lineales calculados y un filtro de
síntesis para sintetizar una señal de voz a partir de la señal
residual de predicción que utiliza los coeficientes predictivos
lineales, donde la señal residual predictiva calculada por el
filtro inverso se almacena en la memoria intermedia y la señal
residual predictiva calculada por la sección de sintetización de
forma de onda es enviada al filtro de síntesis.
Por consiguiente, el procesado de conversión de
velocidad de reproducción se puede ejecutar usando una señal
residual predictiva fácil de decidir una forma de onda de tono, que
permite tomar exactamente la forma de onda de tono. Eso mejora la
calidad de la voz reproducida.
Y, en la presente invención, se combina un
aparato de codificación de voz para codificar señales de voz
dividiéndolas en coeficientes predictivos lineales que representan
información de espectro, información de período de tono e
información de fuente de voz que representa un residuo de
predicción, donde la información de fuente de voz que representa un
residuo de predicción se almacena temporalmente en la memoria
intermedia y la sección de toma de forma de onda determina el rango
de longitud de una forma de onda de voz tomada de la memoria
intermedia sobre la base de la información de período de tono.
En la presente invención, se preparan una
sección de análisis predictivo lineal para calcular los coeficientes
predictivos lineales que representan información de espectro de una
señal de voz de entrada, un filtro inverso para calcular una señal
residual predictiva de la señal de voz de entrada que utiliza los
coeficientes predictivos lineales calculados, una sección de
interpolación de coeficientes predictivos lineales para interpolar
los coeficientes predictivos lineales y un filtro de síntesis para
sintetizar una señal de voz a partir de la señal residual de
predicción que utiliza los coeficientes predictivos lineales, donde
la señal residual predictiva calculada por el filtro inverso se
almacena temporalmente en la memoria intermedia, la sección de
sintetización de forma de onda envía la señal residual de
predicción sintetizada al filtro de síntesis, la sección de
interpolación de coeficientes predictivos lineales interpola los
coeficientes predictivos lineales para hacerlos los coeficientes
más apropiados para la señal residual predictiva sintetizada y el
filtro de síntesis envía una señal de voz de salida que utiliza los
coeficientes predictivos lineales interpolados.
Por consiguiente, una señal de voz de salida se
sintetiza usando los coeficientes predictivos lineales interpolados
para hacerlos los coeficientes más apropiados para la señal residual
predictiva sintetizada, lo que mejora la calidad de voz.
La figura 1 es un diagrama de bloques de un
aparato para convertir una velocidad de reproducción de voz en la
primera realización de la presente invención.
La figura 2 es un diagrama de una forma de onda
del objeto para convertir una velocidad de reproducción en la
primera realización de la presente invención.
La figura 3 es un diagrama de bloques de un
aparato para convertir una velocidad de reproducción de voz en la
segunda realización de la presente invención.
La figura 4 es un diagrama de bloques de un
aparato para convertir una velocidad de reproducción de voz en la
tercera realización de la presente invención.
La figura 5 es un diagrama de bloques de un
aparato para convertir una velocidad de reproducción de voz en la
cuarta realización de la presente invención.
La figura 6 es un diagrama de bloques de un
aparato para convertir una velocidad de reproducción de voz en la
quinta realización de la presente invención.
La figura 7 es un diagrama que ilustra la
relación de una posición de trama de procesado, una forma y peso de
función, y procesado de solapamiento.
La figura 8 es un diagrama de bloques de un
aparato para convertir una velocidad de reproducción de voz en la
sexta realización de la presente invención.
La figura 9 es un diagrama de bloques de un
aparato convencional para convertir una velocidad de reproducción
de voz.
La figura 10 es un diagrama que ilustra la
relación de una forma de onda de entrada, una forma de onda solapada
y una forma de onda de salida en el caso de reproducción a alta
velocidad.
La figura 11 es un diagrama que ilustra la
relación de una señal de entrada con trama, una señal de entrada en
una memoria intermedia y una señal de entrada desplazada en una
memoria intermedia.
Y la figura 12 es un diagrama que ilustra la
relación de una forma de onda de entrada, una forma de onda solapada
y una forma de onda de salida en el caso de reproducción a baja
velocidad.
Las realizaciones de la presente invención se
explican en concreto con referencia a los dibujos.
Primera
realización
La figura 1 ilustra bloques funcionales de un
aparato para convertir una velocidad de reproducción de voz en la
primera realización de la presente invención. Además, las secciones
en la figura 1 que tienen la misma función que la de cada sección
del aparato ilustrado en la figura 9 previamente mencionada tienen
las mismas marcas.
En este aparato para convertir una velocidad de
reproducción de voz, la sección de toma de forma de onda 7
proporciona una posición de inicio y una longitud de una forma de
onda a llevar a la memoria intermedia 3 y toma (una pluralidad de)
dos formas de onda de voz contiguas de la misma longitud de la
memoria intermedia 3. La sección de cálculo de diferencia de forma
8 calcula una diferencia de forma entre dos formas de onda de voz
tomadas por sección de toma de forma de onda 7, selecciona dos
formas de onda de la longitud donde la diferencia de forma es la
mínima, y determina tramas para procesado de solapamiento. Después,
la sección de solapamiento de forma de onda 9 solapa dos formas de
onda determinadas en la sección de cálculo de diferencia de forma
8.
Además, de la misma forma que el aparato
ilustrado en la figura 9 antes descrita, se registran señales de
voz digitalizadas en los medios de registro 1, la sección de
formación de trama 2 toma una señal de voz en una trama de una
muestra LF de longitud predeterminada de los medios de registro 1 y
la señal de voz tomada por la sección de formación de trama 2 se
almacena temporalmente en la memoria intermedia 3. Y la sección de
sintetización de forma de onda 5 sintetiza una forma de onda de
señal de voz de salida de la forma de onda de señal de voz
almacenada en la memoria intermedia 3 y la forma de onda solapada
procesada en la sección de solapamiento de forma de onda 9.
Las funciones de los medios de registro 1, la
sección de formación de trama 2, la memoria intermedia 3, la
sección de solapamiento de forma de onda 9 y la sección de
sintetización de forma de onda 5 en este aparato y el procesado
para convertir una velocidad de reproducción son las mismas que las
de un aparato convencional. Por lo tanto, se omite su explicación y
se explican primariamente las funciones de la sección de toma de
forma de onda 7 y la sección de cálculo de diferencia de forma 8, y
el procesado para determinar una trama de procesado de
solapamiento.
La sección de toma de forma de onda 7, como se
ilustra en la figura 2, toma dos formas de onda contiguas de la
misma longitud Tc (forma de onda A y forma de onda B) del puntero PO
de una posición de inicio de procesado de la memoria intermedia 3
como una forma de onda candidata 19 para una trama de procesado de
solapamiento.
La sección de cálculo de diferencia de forma 8
calcula una diferencia de forma entre dos formas de onda de la
forma de onda A y la forma de onda B. La diferencia de forma entre
dos formas de onda Err se representa como la formulación siguiente
donde la forma de onda A es x(n), la forma de onda B es
y(n) y n es una posición de
muestra.
muestra.
(3)Err =
\sum\{x(n)-y(n)\}^{2}
(La suma es de n=0 a
n=Tc-1)
La sección de cálculo de diferencia de forma 8
toma otras dos formas de onda contiguas de las formas de onda A y B
de diferente longitud (el número de muestras) del puntero PO fijado
como una posición de inicio de procesado de la memoria intermedia 3
y calcula la diferencia de forma Err entre dos formas de onda.
Se calcula una pluralidad de diferencias de
forma Err tomando dos formas de onda A y B de diferente longitud
(el número de muestras) secuencialmente. Y se selecciona la
combinación de formas de onda A y B que tienen la diferencia de
forma mínima Err.
En este caso, dado que Err es una diferencia de
suma de las muestras a una longitud de forma de onda Tc, es
imposible comparar directamente las diferencias de las formas de
onda de diferentes longitudes Tc. Por lo tanto, por ejemplo,
utilizando el valor de Err dividido por el número de muestras en Tc,
es decir, una diferencia media Err/Tc para una muestra, es posible
comparar las diferencias. El rango de números de muestreo en una
longitud de forma de onda Tc está predeterminado, por ejemplo, para
señales de voz de muestreo de 8 kHz, puede ser apropiado de 16 a
160 muestras. Variando una longitud de forma de onda Tc dentro del
rango predeterminado, calculando la diferencia media Err/Tc para
cada Tc y comparándolas, Tc de la diferencia media mínima se
determina como la longitud de forma de onda a obtener.
La sección de solapamiento de forma de onda 9
toma dos formas de ondas A y B seleccionadas de la sección de
cálculo de diferencia de forma 8 como una trama de procesado de
solapamiento 14, procesa una trama de procesado (forma de onda A) y
otra trama de procesado (forma de onda B) por separado según las
diferentes funciones ventana triángulo genera entonces una forma de
onda solapada 15 solapando ambas formas de onda.
La sección de sintetización de forma de onda 5
toma la forma de onda de voz de entrada 16 de la memoria intermedia
3, y sustituye una parte de la forma de onda de voz de entrada 16
por una forma de onda solapada 15 o inserta la forma de onda
solapada 15 en la forma de onda de voz de entrada 16 sobre la base
de la velocidad de reproducción r para generar voz de salida 17 de
velocidad convertida.
Según la realización de la presente invención,
dado que la sección de toma de forma de onda 7 toma un par de
formas de onda contiguas A y B como un candidato a la forma de onda
a sintetizar de la memoria intermedia 3, varía gradualmente una
longitud de forma de onda a tomar, calcula Err/Tc que es una
diferencia de forma entre formas de onda en cada par de formas de
onda y selecciona el par de formas de onda A y B de la diferencia
de forma mínima Err/Tc a sintetizar, se disminuye la distorsión
producida solapando las formas de onda A y B, lo que permite
mejorar la calidad de voz de salida.
\newpage
Segunda
realización
La segunda realización ilustra el caso donde la
conversión de velocidad de reproducción se procesa con la señal
residual que representa notablemente una forma de onda de tono.
La figura 3 ilustra bloques funcionales de un
aparato para convertir una velocidad de reproducción de voz en la
segunda realización de la presente invención. Además, las secciones
de la figura 3 que tienen la misma función que la de cada sección
del aparato ilustrado en la figura 1 y la figura 9 previamente
mencionadas, tienen las mismas
marcas.
marcas.
Este aparato para convertir una velocidad de
reproducción de voz incluye una sección de análisis predictivo
lineal 30 para calcular los coeficientes predictivos lineales que
representan información de espectro de señales de voz de entrada,
un filtro inverso 31 para calcular la señal residual predictiva con
los coeficientes predictivos lineales calculados a partir de
señales de voz de entrada, y un filtro de síntesis 32 para
sintetizar señales de voz con los coeficientes predictivos lineales
a partir de la señal residual predictiva. La configuración restante
del aparato para convertir una velocidad de reproducción de voz en
la realización de la presente invención es la misma que la de la
primera realización de la presente invención.
En el aparato para convertir una velocidad de
reproducción de voz constituido como se ha descrito anteriormente,
la voz de entrada en una trama 12 tomada en la sección de formación
de trama 2 se introduce en la sección de análisis predictivo lineal
30 y el filtro inverso 31. Los coeficientes predictivos lineales 33
se calculan a partir de la voz de entrada 12 en una trama en la
sección de análisis predictivo lineal 30, y la señal residual 34 se
calcula a partir de la voz de entrada 12 con coeficientes
predictivos lineales 33 en el filtro inverso 31.
La señal residual 34 calculada en el filtro
inverso 31 es sintetizada en forma de onda en la memoria intermedia
3, la sección de toma de forma de onda 7, la sección de cálculo de
diferencia de forma 8 y la sección de solapamiento de forma de onda
9 según el procesado de convertir una velocidad de reproducción de
voz explicada en la primera realización de la presente invención, y
es enviada como señal residual de síntesis 35 desde la sección de
síntesis de forma de onda 5.
El filtro de síntesis 32 calcula la voz
sintetizada de salida 36 a partir de la señal residual de síntesis
35 con coeficientes predictivos lineales 33 proporcionados desde la
sección de análisis predictivo lineal 30 a enviar.
En la realización de la presente invención antes
descrita, se toman dos formas de onda y son sintetizadas en forma
de onda a partir de la señal residual predictiva que es una señal de
voz de entrada en la que se quita la información de envolvente de
espectro representada por coeficientes predictivos lineales. Dado
que la señal residual predictiva representa una forma de onda de
tono más notablemente que la señal de entrada original, mediante
procesado de conversión de velocidad de reproducción de voz con la
señal residual descrita en la realización de la presente invención,
se puede tomar exactamente una forma de onda de tono y se puede
mejorar la calidad de voz reproducida.
Tercera
realización
En la tercera realización, la complejidad
computacional se reduce combinando un aparato para convertir una
velocidad de reproducción de voz con un aparato de codificación de
voz y usando información de codificación de voz proporcionada a
partir del aparato de codificación de voz en el procesado de
conversión de velocidad.
La figura 4 ilustra bloques funcionales de un
aparato para convertir una velocidad de reproducción de voz en la
realización de la presente invención. Además, las secciones en la
figura 4 que tienen la misma función que la de cada sección del
aparato ilustrado en la figura 1, la figura 3 y la figura 9
previamente mencionadas, tienen las mismas marcas.
En este aparato para convertir una velocidad de
reproducción de voz, los medios de registro 1, la sección de
formación de trama 2, la sección de análisis predictivo lineal 30 y
el filtro inverso 31 de la segunda realización de la presente
invención se sustituyen por el decodificador de un aparato de
codificación de voz 40 que incluye las secciones descritas
anteriormente. El decodificador del aparato de codificación de voz
40 tiene la función de codificar señales de voz dividiéndolas en
coeficientes predictivos lineales que representan información de
espectro, información de período de tono e información de fuente de
voz que representa un residuo predictivo. Como aparato de
codificación de voz antes descrito se conoce primariamente CELP
(codificación predictiva lineal excitada por código). Y, en
general, en un aparato de codificación de voz de alta eficiencia
como CELP, la información de codificación de voz se codifica en una
trama. Por consiguiente, dado que la señal de fuente de voz 41
salida del decodificador 40 es una señal en una trama de una
longitud predeterminada por el aparato de codificación de voz, se
puede usar directamente como una entrada para el aparato para
convertir una velocidad de reproducción de voz de la presente
invención.
En el aparato para convertir una velocidad de
reproducción de voz en esta realización de la presente invención,
la señal de fuente de voz en una trama 41 salida del decodificador
40 se almacena en la memoria intermedia 3, la información de
período de tono 42 se introduce en la sección de toma de forma de
onda 43 y los coeficientes predictivos lineales 33 se introducen en
el filtro de síntesis 32.
La sección de toma de forma de onda 43 toma
formas de ondas contiguas A y B de longitud Tc de la memoria
intermedia 3 y proporciona una pluralidad de pares de formas de
onda A y B de una longitud diferente a la sección de cálculo de
diferencia de forma 8 secuencialmente. Y, dado que el rango de
longitud Tc de las formas de onda tomadas se varía según la
información de período de tono 42 en la sección de toma de forma de
onda 43, la complejidad computacional para calcular diferencias se
puede disminuir en gran medida. Y los coeficientes predictivos
lineales 33 salidos del decodificador se utilizan como una entrada
para el filtro de síntesis 32.
De esta forma, combinando un decodificador de
aparato de codificación de voz para codificar señales de voz
dividiéndolas en unos coeficientes predictivos lineales que
representan información de espectro, información de período de tono
e información de fuente de voz que representa predicción residual y
un aparato para convertir una velocidad de reproducción de la
presente invención, es posible usar información salida del aparato
de codificación de voz y convertir una velocidad de reproducción de
señales de voz codificadas en el aparato de codificación de voz con
menos complejidad computacional.
Cuarta
realización
En un aparato para convertir una velocidad de
reproducción de voz en la cuarta realización de la presente
invención, la complejidad computacional se reduce combinándolo con
un aparato de codificación de voz y usando información de
codificación de voz proporcionada por el aparato de codificación de
voz.
La figura 5 ilustra bloques funcionales de un
aparato para convertir la velocidad de reproducción de voz en la
realización de la presente invención. Además, las secciones de la
figura 5 que tienen la misma función que la de la tercera
realización de la presente invención antes mencionada, tienen las
mismas marcas.
En el aparato para convertir la velocidad de
reproducción de voz, un filtro de síntesis 32' que tiene la misma
función que la del filtro de síntesis 32 compuesto de la tercera
realización de la presente invención, se prepara entre el
decodificador de un aparato de codificación de voz 40 y la memoria
intermedia 3. El filtro de síntesis 32' genera una señal de voz
decodificada a partir de la señal de fuente de voz 41 en una trama
y coeficientes predictivos lineales 33 y la guarda como señal de voz
de síntesis 44 en la memoria intermedia. Dado que la señal de
fuente de voz 41 se introduce desde el decodificador 40 en una
trama, la señal de voz de síntesis 44 también es una señal en una
trama. Por consiguiente, está disponible para uso directo como una
entrada del aparato para convertir la velocidad de reproducción de
voz de la presente invención.
Como se ha descrito anteriormente, combinando un
aparato de codificación de voz 40 para codificar señales de voz
dividiéndolas en coeficientes predictivos lineales que representan
información de espectro, información de período de tono e
información de fuente de voz que representa predicción residual y un
aparato para convertir la velocidad de reproducción de la presente
invención, es posible usar información salida del aparato de
codificación de voz y convertir la velocidad de reproducción de
señales de voz codificadas en el aparato de codificación de voz con
menos complejidad computacional.
Quinta
realización
En un aparato para convertir la velocidad de
reproducción de voz en la quinta realización de la presente
invención, interpolando los coeficientes predictivos lineales para
hacerlos los coeficientes más apropiados para la señal residual
sintetizada, se puede mejorar la calidad de voz.
La figura 6 ilustra bloques funcionales de un
aparato para convertir una velocidad de reproducción de voz en la
realización de la presente invención. Además, las secciones en la
figura 6 que tienen la misma función que la de cada realización de
la presente invención antes mencionada, tienen las mismas
marcas.
Este aparato para convertir la velocidad de
reproducción de voz incluye una sección de análisis predictivo
lineal 30 para calcular los coeficientes predictivos lineales que
representan información de espectro de señales de voz de entrada,
un filtro inverso 31 para calcular la señal residual predictiva 34
con los coeficientes predictivos lineales calculados 33 a partir de
señales de voz de entrada, y un filtro de síntesis 32 para
sintetizar señales de voz con los coeficientes predictivos lineales
de señales de voz de entrada y una sección de interpolación de
coeficientes predictivos lineales 60 para interpolar coeficientes
predictivos lineales 33 para hacerlos los coeficientes más
apropiados para la señal residual sintetizada. La configuración
restante del aparato es la misma que la de la primera realización
de la presente invención (figura 1).
En este aparato para convertir la velocidad de
reproducción de voz constituido como se ha descrito anteriormente,
voz de entrada en una trama 12 tomada de los medios de registro en
la sección de formación de trama 2 se introduce en la sección de
análisis predictivo lineal 30. La sección de análisis predictivo
lineal 30 calcula coeficientes predictivos lineales 33 a partir de
la voz de entrada en una trama 12 a introducir en el filtro inverso
31 y la sección de interpolación de coeficientes predictivos
lineales 60. El filtro inverso 31 calcula la señal residual 34 a
partir de la voz de entrada 12 con coeficientes predictivos lineales
33. Esta señal residual 34 es sintetizada en forma de onda por el
proceso de convertir la velocidad de reproducción de voz explicada
en la primera realización de la presente invención, y es enviada
como señal residual de síntesis 35 desde la sección de síntesis de
forma de onda 5.
La sección de interpolación de coeficientes
predictivos lineales 60 recibe información de posición de trama de
procesado 61 de la sección de sintetización de forma de onda 4 e
interpola coeficientes predictivos lineales 33 para hacerlos los
coeficientes más apropiados para la señal residual de síntesis 35.
Los coeficientes predictivos lineales interpolados 62 se introducen
en el filtro de síntesis 32, y la señal de voz de salida 36 se
sintetiza a partir de la señal residual de síntesis 35.
Un ejemplo de interpolación de coeficientes
predictivos lineales 33 para hacerlos el coeficiente más apropiado
para la señal residual de síntesis 35 se explica con referencia a la
figura 7.
Como se ilustra en la figura 7A, una trama de
procesado para calcular la señal residual de síntesis 35 se supone
que cruza las tramas de entrada 1, 2 y 3. La forma de la función
ventana a usar para las formas de onda de solapamiento se supone
que tiene la forma y peso ilustrados en la figura 7B. Por
consiguiente, como se ilustra en la figura 7C, la cantidad de datos
incluidos en la forma de onda solapada generada por el procesado de
solapamiento es la cantidad de datos incluidos en intervalos F1, F2
y F3 ponderados por w1, w2 y w3 considerando la forma de función
ventana. Tomando como base la cantidad de datos originales incluidos
en esta forma de onda solapada, coeficientes predictivos lineales
interpolados 62 se obtienen según la formulación siguiente.
\vskip1.000000\baselineskip
\dotable{\tabskip\tabcolsep#\hfil\+#\hfil\+#\hfil\+#\hfil\+#\hfil\tabskip0ptplus1fil\dddarstrut\cr}{ (coeficientes predictivos lineales interpolados)\+ = \+ (coeficientes predictivos lineales de trama 1) \+ x \+(peso w1)\cr \+ + \+ (coeficientes predictivos lineales de trama 2) \+ x \+ (peso w2)\cr \+ + \+ (coeficientes predictivos lineales de trama 3) \+ x \+ (peso w3)\cr}
donde,
w1+w2+w3=1.
\vskip1.000000\baselineskip
Además, con referencia a los pesos w1, w2 y w3,
los factores a considerar no son sólo la forma de la función
ventana, sino también la semejanza de coeficientes predictivos
lineales de cada trama 1, 2 y 3, y otros. Y como coeficientes
predictivos lineales interpolados para calcular, no sólo se dispone
de un coeficiente, sino también de múltiples coeficientes, que se
obtienen dividiendo la forma de onda solapada en una pluralidad de
partes y calculando los coeficientes predictivos lineales
interpolados más apropiados para cada parte. Y en el proceso de
interpolar los coeficientes predictivos lineales, el rendimiento se
puede mejorar convirtiendo cada coeficiente predictivo lineal en
parámetro LSP, etc, apropiado para el procesado de interpolación,
procesando por interpolación el parámetro LSP convertido, etc, y
reconvirtiendo el resultado calculado en los coeficientes
predictivos
lineales.
lineales.
Sexta
realización
En un aparato para convertir una velocidad de
reproducción de voz en la sexta realización de la presente
invención, la cantidad de cálculo se reduce combinándola con un
aparato de codificación de voz y usando información de codificación
de voz proporcionada a partir del aparato de codificación de
voz.
La figura 8 ilustra bloques funcionales de un
aparato para convertir una velocidad de reproducción de voz en una
realización de la presente invención.
En este aparato para convertir la velocidad de
reproducción de voz, un aparato de codificación de voz
(decodificador 40), que es utilizado en la tercera realización,
para codificar señales de voz dividiéndolas en coeficientes
predictivos lineales que representan la información de espectro,
información de período de tono e información de fuente de voz que
representa predicción residual, se prepara por sustitución por
medios de registro 1 y la sección de formación de trama 2 en la
quinta realización de la presente invención.
La señal de fuente de voz en una trama 41 salida
del decodificador 40 se introduce en la memoria intermedia 3 y
coeficientes predictivos lineales 33 se introducen en la sección de
interpolación de coeficientes predictivos lineales 60. Y la
información de período de tono 42 se introduce en la sección de toma
de forma de onda 43 y el rango de longitud Tc de una forma de onda
a tomar en la sección de toma de forma de onda 43 se conmuta en
correspondencia con la información de período de tono 42. Según
ello, dado que se restringe el rango de longitud Tc de una forma de
onda a tomar, la complejidad computacional para obtener una
diferencia se puede reducir en gran
medida.
medida.
Según la realización de la presente invención
antes descrita, combinando un aparato de codificación de voz 40
para codificar señales de voz dividiéndolas en coeficientes
predictivos lineales que representan información de espectro,
información de período de tono e información de fuente de voz que
representa predicción residual y un aparato para convertir la
velocidad de reproducción de la presente invención, es posible usar
información salida del aparato de codificación de voz y convertir
la velocidad de reproducción de señales de voz codificadas en el
aparato de codificación de voz con menos complejidad
computacional.
\newpage
Séptima
realización
Un aparato para convertir la velocidad de
reproducción de voz de la presente invención se logra utilizando
software en el que el algoritmo del procesado se describe en un
lenguaje de programación. Registrando el programa en unos medios de
registro tales como un disquete (FD), etc, conectando los medios de
registro a un aparato de procesado de señales de propósito general
tal como un ordenador personal, etc, y ejecutando el programa, se
logra la función del aparato para convertir la velocidad de
reproducción de voz de la presente invención.
La presente invención no se limita por las
realizaciones descritas anteriormente, sino que se puede aplicar
para una realización modificada dentro del alcance de la presente
invención.
Como se ha descrito anteriormente, un aparato
para convertir la velocidad de reproducción de voz de la presente
invención es útil para reproducir una señal de voz registrada en
unos medios de registro a una velocidad arbitraria sin transformar
el tono de voz y es apropiado para mejorar la calidad de voz de
salida.
Claims (11)
1. Un aparato para convertir una velocidad de
reproducción de voz de una señal de voz de entrada (11), incluyendo
el aparato:
(a) una sección de toma de forma de onda (7)
dispuesta para tomar, para longitudes de segmento variables (Tc),
pares candidatos de segmentos de forma de onda contiguos (forma de
onda A, forma de onda B) de una señal de voz derivada (12, 34 o 41)
derivada de dicha señal de voz de entrada (11) de manera que los
segmentos de forma de onda contiguos dentro de cualquier par
candidato sean de igual longitud de segmento (Tc);
(b) una sección de cálculo de diferencia de
forma (8) dispuesta
para calcular para cada dicho par candidato un
valor de diferencia de forma representativo de la diferencia de
forma de onda entre los segmentos de igual longitud de dicho par
candidato de segmentos de forma de onda contiguos, y
para detectar como par solapable uno de dichos
pares candidatos de segmentos de forma de onda contiguos en el que
dicho valor de diferencia de forma se determina de forma que sea
mínimo entre una pluralidad de dichos pares candidatos de
longitudes variables (Tc) tomados por dicha sección de toma de forma
de onda;
(c) una sección de solapamiento de forma de onda
(9) dispuesta para tomar dicho par solapable detectado y generar a
partir de él un segmento de forma de onda solapada (15),
(d) una sección de sintetización de forma de
onda (5) dispuesta para sustituir parte de una señal de voz puesta
en memoria intermedia por dicho segmento de forma de onda solapada o
para insertar dicho segmento de forma de onda solapada en dicha
señal de voz puesta en memoria intermedia para generar una señal de
voz de salida de velocidad convertida, donde dicha señal de voz
puesta en memoria intermedia se obtiene poniendo en memoria
intermedia dicha señal de voz derivada,
caracterizado porque
(e) dicha sección de cálculo de diferencia de
forma (8) está dispuesta para calcular dicho valor de diferencia de
forma como una suma de errores cuadráticos dividida por dicha
longitud de segmento (Err/Tc).
2. El aparato según la reivindicación 1, donde,
en la señal de voz (12, 34 o 41) muestreada a una tasa de N kHz, el
número de muestras de dichos pares candidatos de segmentos de forma
de onda contiguos está entre 2N y 20N.
3. El aparato según la reivindicación 1, donde,
en la señal de voz (12, 34 o 41) muestreada a una tasa de 8 kHz, el
número de muestra de dichos pares candidatos de segmentos de forma
de onda contiguos está en un rango de entre 16 y 160.
4. El aparato según cualquiera de las
reivindicaciones 1-3, donde la sección de toma de
forma de onda (7) usa formas de onda de una señal residual de
predicción incluyendo distintas formas de onda de tono de dichos
pares candidatos de segmentos de forma de onda contiguos.
5. El aparato según cualquiera de las
reivindicaciones 1-4, incluyendo además:
un analizador predictivo lineal (30) para
calcular coeficientes predictivos lineales que representan
información de espectro de la señal de voz (12);
un filtro inverso (31) para calcular la señal
residual predictiva a partir de la señal de voz (12) utilizando los
coeficientes predictivos lineales; y
un filtro de síntesis (32) utilizando los
coeficientes predictivos lineales para sintetizar una señal de voz
de una forma de onda de la señal residual de predicción que tiene
una velocidad de reproducción convertida.
6. El aparato según cualquiera de las
reivindicaciones 1-5, incluyendo además un
interpolador de coeficientes predictivos lineales (60) adaptado
para interpolar los coeficientes predictivos lineales de tal manera
que los coeficientes predictivos lineales sean óptimos para la
forma de onda de la señal residual de predicción que tiene la
velocidad de reproducción convertida,
donde el filtro de síntesis (32) sintetiza la
señal de voz que utiliza los coeficientes predictivos lineales
interpolados.
7. El aparato según la reivindicación 1, que
está conectado con un decodificador (40) que decodifica una señal
de voz a partir de parámetros de codificación, incluyendo: un
coeficiente predictivo lineal que representa información de
espectro, información de período de tono, e información de fuente de
voz que representa un residuo predictivo,
donde la velocidad de reproducción de la señal
de voz se convierte usando los parámetros de codificación.
8. El aparato según la reivindicación 1 o 7,
donde la sección de toma de forma de onda (7) determina una longitud
de dichos pares candidatos de segmentos de forma de onda contiguos
en base a información de período de tono en los parámetros de
codificación.
9. El aparato según cualquiera de las
reivindicaciones 1, 7 y 8, donde una forma de onda de señal residual
de predicción generada a partir de la información de fuente de voz
se introduce en la sección de toma de forma de onda (7), incluyendo
además el aparato un filtro de síntesis (32) que utiliza el
coeficiente predictivo lineal en los parámetros de codificación y
adaptado para sintetizar una señal de voz a partir de la forma de
onda de una señal residual de predicción que tiene una velocidad de
reproducción convertida.
10. El aparato según cualquiera de las
reivindicaciones 1, 7, 8 y 9, incluyendo además un interpolador de
coeficientes predictivos lineales (60) adaptado para interpolar los
coeficientes predictivos lineales de tal manera que los
coeficientes predictivos lineales sean óptimos para la forma de onda
de señal residual de predicción que tiene la velocidad de
reproducción convertida,
donde el filtro de síntesis (32) sintetiza la
señal de voz utilizando los coeficientes predictivos lineales
interpolados.
11. El aparato según la reivindicación 8,
incluyendo además un filtro de síntesis (32) adaptado para
sintetizar una señal de voz utilizando los coeficientes predictivos
lineales en los parámetros de código; y donde la señal de voz
sintetizada se suministra a la sección de toma de forma de onda
(7).
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP31259396 | 1996-11-11 | ||
JP8-312593 | 1996-11-11 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2267135T3 true ES2267135T3 (es) | 2007-03-01 |
Family
ID=18031074
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES97911495T Expired - Lifetime ES2267135T3 (es) | 1996-11-11 | 1997-11-10 | Convertidor de velocidad de reproduccion de sonido. |
Country Status (10)
Country | Link |
---|---|
US (1) | US6115687A (es) |
EP (1) | EP0883106B1 (es) |
JP (1) | JP3891309B2 (es) |
KR (1) | KR100327969B1 (es) |
CN (1) | CN1163868C (es) |
AU (1) | AU4886397A (es) |
CA (1) | CA2242610C (es) |
DE (1) | DE69736279T2 (es) |
ES (1) | ES2267135T3 (es) |
WO (1) | WO1998021710A1 (es) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1262994C (zh) * | 1996-11-07 | 2006-07-05 | 松下电器产业株式会社 | 噪声消除器 |
JP4505899B2 (ja) * | 1999-10-26 | 2010-07-21 | ソニー株式会社 | 再生速度変換装置及び方法 |
JP3630609B2 (ja) * | 2000-03-29 | 2005-03-16 | パイオニア株式会社 | 音声情報再生方法ならびに装置 |
CN1432177A (zh) | 2000-04-06 | 2003-07-23 | 艾利森电话股份有限公司 | 语音速率转换 |
EP1143417B1 (en) * | 2000-04-06 | 2005-12-28 | Telefonaktiebolaget LM Ericsson (publ) | A method of converting the speech rate of a speech signal, use of the method, and a device adapted therefor |
WO2003079330A1 (en) * | 2002-03-12 | 2003-09-25 | Dilithium Networks Pty Limited | Method for adaptive codebook pitch-lag computation in audio transcoders |
JP3871657B2 (ja) | 2003-05-27 | 2007-01-24 | 株式会社東芝 | 話速変換装置、方法、及びそのプログラム |
KR100750115B1 (ko) * | 2004-10-26 | 2007-08-21 | 삼성전자주식회사 | 오디오 신호 부호화 및 복호화 방법 및 그 장치 |
JP5032314B2 (ja) * | 2005-06-23 | 2012-09-26 | パナソニック株式会社 | オーディオ符号化装置、オーディオ復号化装置およびオーディオ符号化情報伝送装置 |
WO2008108080A1 (ja) * | 2007-03-02 | 2008-09-12 | Panasonic Corporation | 音声符号化装置及び音声復号装置 |
JP4390289B2 (ja) * | 2007-03-16 | 2009-12-24 | 国立大学法人電気通信大学 | 再生装置 |
CN102117613B (zh) * | 2009-12-31 | 2012-12-12 | 展讯通信(上海)有限公司 | 数字音频变速处理方法及其设备 |
CN111583903B (zh) * | 2020-04-28 | 2021-11-05 | 北京字节跳动网络技术有限公司 | 语音合成方法、声码器训练方法、装置、介质及电子设备 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5681900A (en) * | 1979-12-10 | 1981-07-04 | Nippon Electric Co | Voice synthesizer |
JPH0754440B2 (ja) * | 1986-06-09 | 1995-06-07 | 日本電気株式会社 | 音声分析合成装置 |
JPH01267700A (ja) * | 1988-04-20 | 1989-10-25 | Nec Corp | 音声処理装置 |
JP3278863B2 (ja) * | 1991-06-05 | 2002-04-30 | 株式会社日立製作所 | 音声合成装置 |
US5765127A (en) * | 1992-03-18 | 1998-06-09 | Sony Corp | High efficiency encoding method |
US5630013A (en) * | 1993-01-25 | 1997-05-13 | Matsushita Electric Industrial Co., Ltd. | Method of and apparatus for performing time-scale modification of speech signals |
JP2957861B2 (ja) * | 1993-09-09 | 1999-10-06 | 三洋電機株式会社 | 音声時間軸圧縮伸長装置 |
US5717823A (en) * | 1994-04-14 | 1998-02-10 | Lucent Technologies Inc. | Speech-rate modification for linear-prediction based analysis-by-synthesis speech coders |
JPH0822300A (ja) * | 1994-07-11 | 1996-01-23 | Olympus Optical Co Ltd | 音声復号化装置 |
JP3528258B2 (ja) * | 1994-08-23 | 2004-05-17 | ソニー株式会社 | 符号化音声信号の復号化方法及び装置 |
JPH08137491A (ja) * | 1994-11-14 | 1996-05-31 | Matsushita Electric Ind Co Ltd | 再生速度変換装置 |
JPH08202397A (ja) * | 1995-01-30 | 1996-08-09 | Olympus Optical Co Ltd | 音声復号化装置 |
US5991725A (en) * | 1995-03-07 | 1999-11-23 | Advanced Micro Devices, Inc. | System and method for enhanced speech quality in voice storage and retrieval systems |
JPH09152889A (ja) * | 1995-11-29 | 1997-06-10 | Sanyo Electric Co Ltd | 話速変換装置 |
JP3242331B2 (ja) * | 1996-09-20 | 2001-12-25 | 松下電器産業株式会社 | Vcv波形接続音声のピッチ変換方法及び音声合成装置 |
JP3619946B2 (ja) * | 1997-03-19 | 2005-02-16 | 富士通株式会社 | 話速変換装置、話速変換方法及び記録媒体 |
JP3317181B2 (ja) * | 1997-03-25 | 2002-08-26 | ヤマハ株式会社 | カラオケ装置 |
-
1997
- 1997-11-10 CA CA002242610A patent/CA2242610C/en not_active Expired - Fee Related
- 1997-11-10 AU AU48863/97A patent/AU4886397A/en not_active Abandoned
- 1997-11-10 CN CNB971916632A patent/CN1163868C/zh not_active Expired - Fee Related
- 1997-11-10 DE DE69736279T patent/DE69736279T2/de not_active Expired - Lifetime
- 1997-11-10 EP EP97911495A patent/EP0883106B1/en not_active Expired - Lifetime
- 1997-11-10 ES ES97911495T patent/ES2267135T3/es not_active Expired - Lifetime
- 1997-11-10 KR KR1019980705288A patent/KR100327969B1/ko not_active IP Right Cessation
- 1997-11-10 US US09/091,823 patent/US6115687A/en not_active Expired - Lifetime
- 1997-11-10 WO PCT/JP1997/004077 patent/WO1998021710A1/ja active IP Right Grant
- 1997-11-10 JP JP52238098A patent/JP3891309B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN1208490A (zh) | 1999-02-17 |
EP0883106A4 (en) | 2000-02-23 |
EP0883106B1 (en) | 2006-07-05 |
KR100327969B1 (ko) | 2002-04-17 |
CA2242610C (en) | 2003-01-28 |
DE69736279T2 (de) | 2006-12-07 |
AU4886397A (en) | 1998-06-03 |
US6115687A (en) | 2000-09-05 |
CN1163868C (zh) | 2004-08-25 |
EP0883106A1 (en) | 1998-12-09 |
CA2242610A1 (en) | 1998-05-22 |
DE69736279D1 (de) | 2006-08-17 |
WO1998021710A1 (fr) | 1998-05-22 |
JP3891309B2 (ja) | 2007-03-14 |
KR19990077151A (ko) | 1999-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2267135T3 (es) | Convertidor de velocidad de reproduccion de sonido. | |
US5752223A (en) | Code-excited linear predictive coder and decoder with conversion filter for converting stochastic and impulsive excitation signals | |
CN101120400B (zh) | 在通信系统中生成隐藏帧的方法 | |
US5682502A (en) | Syllable-beat-point synchronized rule-based speech synthesis from coded utterance-speed-independent phoneme combination parameters | |
JPS623439B2 (es) | ||
WO1997017692A1 (en) | Parametric signal modeling musical synthesizer | |
WO1997017692A9 (en) | Parametric signal modeling musical synthesizer | |
WO2003010752A1 (en) | Speech bandwidth extension apparatus and speech bandwidth extension method | |
US7580761B2 (en) | Fixed-size cross-correlation computation method for audio time scale modification | |
JP2008275975A (ja) | リズム検出装置及びリズム検出用コンピュータ・プログラム | |
Massie | Wavetable sampling synthesis | |
JPH0736455A (ja) | 音楽イベントインデックス作成装置 | |
EP1019906A4 (en) | A PROSODY ADAPTATION SYSTEM AND METHOD | |
JPS6262399A (ja) | 音声高能率符号化方式 | |
JPH0879868A (ja) | 骨導マイクロホン出力信号再生装置 | |
JP2003255999A (ja) | 符号化デジタルオーディオ信号の変速再生装置 | |
JP5552794B2 (ja) | 音響信号の符号化方法および装置 | |
JP4826580B2 (ja) | 音声信号の再生方法及び装置 | |
JPH11311997A (ja) | 音声再生速度変換装置及びその方法 | |
JP3613191B2 (ja) | 波形生成方法及び装置 | |
KR100547444B1 (ko) | 가변길이합성과 상관도계산 감축 기법을 이용한오디오신호의 시간스케일 수정방법 | |
JPS62102294A (ja) | 音声符号化方式 | |
JP3904871B2 (ja) | 歌唱音声合成における韻律生成方法及び韻律生成プログラム、そのプログラムを記録した記録媒体 | |
JPWO2003042648A1 (ja) | 音声符号化装置、音声復号化装置、音声符号化方法および音声復号化方法 | |
JP5533021B2 (ja) | 音響信号の符号化方法および装置 |