ES2267135T3

ES2267135T3 - Convertidor de velocidad de reproduccion de sonido.

Info

Publication number: ES2267135T3
Application number: ES97911495T
Authority: ES
Inventors: Naoya Tanaka; Hiroaki Takeda
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1996-11-11
Filing date: 1997-11-10
Publication date: 2007-03-01
Anticipated expiration: 2017-11-10
Also published as: CN1208490A; EP0883106A4; EP0883106B1; DE69736279T2; CA2242610A1; US6115687A; KR100327969B1; CA2242610C; AU4886397A; JP3891309B2; KR19990077151A; WO1998021710A1; DE69736279D1; CN1163868C; EP0883106A1

Abstract

EN EL APARATO PARA CONVERTIR LA VELOCIDAD DE REPRODUCCION DE VOZ, LA VELOCIDAD DE REPRODUCCION DE VOZ SE CONVIERTE SELECCIONANDO DOS FORMAS DE ONDA EN SEÑALES DE ENTRADA DE VOZ O SEÑALES DE ENTRADA RESIDUALES, DE MANERA QUE LA DIFERENCIA ENTRE DOS FORMAS DE ONDA VECINAS QUE TIENEN LA MISMA LONGITUD ES MINIMA Y CALCULANDO LA FORMA DE ONDA SUPERPUESTA MEDIANTE LA SUPERPOSICION DE ESTAS DOS FORMAS DE ONDA, SUSTITUYENDO POSTERIORMENTE POR ELLA UNA PARTE DE LAS SEÑALES DE ENTRADA DE VOZ O DE LAS SEÑALES DE ENTRADA RESIDUALES O INSERTANDO LA FORMA DE ONDA SUPERPUESTA EN LAS SEÑALES DE ENTRADA DE VOZ O LAS SEÑALES DE ENTRADA RESIDUALES.

Description

Convertidor de velocidad de reproducción de sonido.

Campo técnico

La presente invención se refiere a un aparato para convertir una velocidad de reproducción de voz para reproducir señales de voz digitalizadas a una velocidad arbitraria sin transformar (cambiar) un tono de voz.

En esta memoria descriptiva (descripción), "voz" y "señal de voz" se utilizan para representar todas las señales acústicas generadas por instrumentos y otros, no sólo voz pronunciada por una persona.

Técnica anterior

Como un método para convertir una velocidad de reproducción a una velocidad arbitraria sin transformar un tono de voz, se conoce el método PICOLA (Pointer Interval Control Overlap and Add). El principio del método PICOLA lo introdujo "Time-Scale Modification Algorithm for Speech by Use of Pointer Interval Control Overlap and Add (PICOLA) and its Evaluation" escrito por MORITA, Naotaka e ITAKURA, Fumitada, en Proceeding of National Meeting of the Acoustic Society of Japan 1-4-14 (octubre, 1986).

Y la aplicación del método PICOLA para señales de voz derivadas en tramas para convertir una velocidad de reproducción con pocas memorias intermedias se describe en la Publicación de Patente japonesa no examinada número 8-137491.

La figura 9 ilustra un diagrama de bloques de un aparato convencional para convertir una velocidad de reproducción de voz en el método PICOLA. En el aparato para convertir una velocidad de reproducción de voz ilustrada en la figura 9, señales de voz digitalizadas se registran en medios de registro 1, y la sección de formación de trama 2 toma una señal de voz en una trama de una muestra LF de longitud predeterminada de los medios de registro 1. La señal de voz tomada por la sección de formación de trama 2 se suministra a la sección de cálculo de período de tono 6 siendo almacenada simultánea y temporalmente en memoria intermedia 3. La sección de cálculo de período de tono 6 calcula el período de tono Tp de la señal de voz para suministrarlo a la sección de solapamiento de forma de onda 4 almacenando al mismo tiempo un puntero de posición de inicio de procesado en la memoria intermedia 3. La sección de solapamiento de forma de onda 4 solapa formas de onda de señales de voz almacenadas en memoria intermedia 3 utilizando el período de tono de la voz de entrada, envía después la forma de onda solapada en la sección de sintetización de forma de onda 5. La sección de sintetización de forma de onda 5 sintetiza una forma de onda de señal de voz de salida a partir de la forma de onda de señal de voz almacenada en la memoria intermedia 3 y la forma de onda solapada procesada en la sección de solapamiento de forma de onda 4 para proporcionar la voz de salida.

En este aparato para convertir una velocidad de reproducción de voz, una velocidad de reproducción es convertida sin transformar un tono según el procesado siguiente.

En primer lugar, con las figuras 10 y 11 se explica un método de procesado para reproducción a alta velocidad. En las figuras, PO es un puntero que indica una cabecera de una trama de procesado de solapamiento de forma de onda. En el procesado de solapamiento de forma de onda, una trama de procesado es una muestra LW con una longitud de dos períodos de período de tono de voz Tp. Y cuando una velocidad de voz de entrada es 1 y una velocidad de reproducción deseada es r, L es el número de muestras dadas por la formulación siguiente:

(1)L = Tp\{1/(r-1)\}

L es una muestra correspondiente a una longitud de forma de onda de salida (c), y una voz de entrada de la muestra Tp+L se reproduce como una voz de salida de la muestra L como se menciona más adelante. Por consiguiente, se obtiene r = (Tp+L)/L, entonces se introduce la formulación (1).

Una voz de entrada tomada de medios de registro 1 por la sección de formación de trama 2 se almacena en la memoria intermedia 3. Simultáneamente, la sección de cálculo de período de tono 6 calcula el período de tono Tp de la voz de entrada para introducirla en la sección de solapamiento de forma de onda 4. Y la sección de cálculo de período de tono 6 calcula L a partir del período de tono Tp usando la formulación (1), determina PO’ que es una posición de inicio para procesado siguiente y lo suministra a la memoria intermedia 3 como un puntero en la memoria intermedia.

La sección de solapamiento de forma de onda 4 toma una forma de onda de una muestra de trama de procesado de solapamiento de forma de onda LW (=2Tp) de un punto de inicio de procesado indicado por el puntero PO de la memoria intermedia 3, disminuye la primera parte de la trama de procesado (forma de onda A) en la dirección de eje de tiempo y aumenta la parte última de la trama de procesado (forma de onda B) en la dirección de eje de tiempo según la función ventana triangular, suma la forma de onda A y la forma de onda B, y después calcula la forma de onda solapada c.

La sección de sintetización de forma de onda 5 quita la forma de onda de la trama de procesado de solapamiento de forma de onda (forma de onda A + forma de onda B) de la forma de onda de voz de entrada e inserta la forma de onda solapada (forma de onda c) ilustrada en la figura 10 en lugar de la forma de onda quitada. Entonces, la forma de onda de voz de entrada D se añade a la forma de onda solapada hasta que PO' indica una posición del punto (PO+Tp+L) (que es P1 que indica una posición de una cabecera + el punto L en forma de onda C en la forma de onda sintetizada). Además, P1 existe en la forma de onda C cuando r>2, en este caso, la forma de onda C es enviada hasta que la posición indicada por P1.

Como resultado, la longitud de la forma de onda de salida sintetizada (c) es la muestra L, entonces una voz de entrada de la muestra Tp+L se reproduce como una voz de salida de la muestra L. El procesado de solapamiento de forma de onda siguiente se inicia en el punto PO' en la forma de onda de entrada.

La figura 11 ilustra la relación de las señales de voz almacenadas en la memoria intermedia 3 y la formación de tramas por la sección de formación de tramas 2 en el procesado antes explicado utilizando la figura 10.

Originalmente, una longitud de memoria intermedia necesaria para el procesado de solapamiento de forma de onda en la memoria intermedia 3 es dos períodos del período de tono máximo Tp max de la voz de entrada. Sin embargo, dado que la voz de entrada se divide en muestras de una longitud de trama predeterminada LF a introducir, la posición de inicio de procesado PO se sitúa en una posición arbitraria en la primera trama de voz de entrada y la longitud de memoria intermedia será un entero por la longitud de trama de entrada. Por consiguiente, la longitud de memoria intermedia es el valor mínimo en múltiplos de LF sobre (LF+2Tp max). Por ejemplo, cuando la longitud de trama de entrada LF es 160 muestras y el valor máximo de período de tono Tp max es 145, la longitud de memoria intermedia necesita 3LF=480 muestras.

En el procesado en la memoria intermedia, el contenido de la memoria intermedia se desplaza cada tiempo de entrada de muestra LF y el solapamiento de forma de onda se procesa solamente cuando la posición de inicio de procesado PO se introduce en la primera trama. En otro tiempo, las señales de entrada se suministran como señales de salida sin procesar.

A continuación, se explica un método para reproducir a baja velocidad sirviéndose de la figura 12.

Además de reproducir a alta velocidad, PO es un puntero que indica una cabecera de una trama de procesado de solapamiento de forma de onda. En el procesado de solapamiento de forma de onda, una trama de procesado es una muestra LW con una longitud de dos períodos del período de tono de voz Tp. Y cuando una velocidad de voz de entrada es 1 y una velocidad de reproducción deseada es r, L es el número de muestras dadas por la formulación siguiente.

(2)L = Tp\{r/(1-r)\}

En el caso de reproducción a baja velocidad, una voz de entrada de la muestra L se reproduce como una voz de salida de la muestra Tp+L como se menciona más adelante. Por consiguiente, se obtiene r=L/(Tp+L), entonces se introduce la formulación (2).

La sección de solapamiento de forma de onda 4 aumenta la primera parte de la trama de procesado (forma de onda A) en la dirección de eje de tiempo, disminuye la parte última de la trama de procesado (forma de onda B) en la dirección de tiempo consiguientemente a la función ventana triangular, suma la forma de onda A y la forma de onda B, y calcula la forma de onda solapada c.

La sección de sintetización de forma de onda 5 inserta la forma de onda solapada (forma de onda C) entre la forma de onda A y la forma de onda B de la forma de onda de señal de entrada (a) ilustrada en la figura 12. Entonces, la forma de onda de voz de entrada B se suma a la forma de onda solapada hasta que PO' indica una posición del punto (PO+L) (que es P1 indicando una posición de una cabecera + punto L de la forma de onda C en la forma de onda sintetizada). Cuando r>0,5, P1 no está en la forma de onda de voz de entrada B, pero existe en la forma de onda D continua-
da de la trama de procesado solapada, en este caso, la forma de onda D es enviada hasta la posición indicada por PO'.

Como resultado, la longitud de la forma de onda de salida sintetizada (C) es la muestra Tp+L, entonces una voz de entrada de la muestra L se reproduce como una voz de salida de la muestra Tp+L. Y el procesado de solapamiento de la forma de onda siguiente se inicia desde el punto PO' de la forma de onda de entrada.

La relación de las señales de voz almacenadas en la memoria intermedia 3 y la formación de tramas por la sección de formación de tramas 2 es la misma que la de la reproducción a alta velocidad.

A propósito, en el aparato para convertir una velocidad de reproducción de voz antes descrita, se obtiene un período de tono de voz de entrada, después el solapamiento de la forma de onda se ejecuta sobre la base del período de tono. Una voz de entrada dividida en el período de tono se denomina una forma de onda de tono, y dado que las formas de onda de tono tienen en general gran semejanza entre sí, son apropiadas para usarse para procesado de solapamiento de forma de onda.

Sin embargo, si se produce un error de cálculo en un cálculo de período de tono, la diferencia entre formas de onda de tono contiguas aumenta, lo que plantea el problema de que la calidad de voz de salida después del solapamiento de la forma de onda disminuye. Como una causa primaria de la generación de un error de cálculo de un período de tono, se consideran los factores siguientes. En general, el período de tono calculado representa un cierto intervalo de voz de entrada (llamado intervalo de análisis de período de tono). Cuando el período de tono varía drásticamente en el intervalo de análisis de período de tono, la diferencia entre el período de tono calculado y el período de tono real aumenta. Por consiguiente, para suprimir las disminuciones de calidad de la voz de salida, hay que obtener la forma de onda de tono más apropiada en la posición de la posición de procesado de solapamiento de forma de onda.

El documento EPO 608 833 A2 describe un aparato para transformar una señal de entrada que tiene una longitud de tiempo L en una señal de salida que tiene una longitud de tiempo \alphaL según una relación de modificación de escala de tiempo dada \alpha, incluyendo un correlacionador para calcular un valor de una función de correlación entre una primera señal y una segunda señal que tiene una longitud de tiempo T y para determinar un retardo de tiempo Tc en el que el valor de la función de correlación es mayor; un sumador para sumar la primera señal multiplicada por una primera función ventana a la segunda señal multiplicada por una segunda función ventana con un desplazamiento del retardo de tiempo Tc; y un circuito de salida para enviar selectivamente la salida del sumador y una tercera señal después de la salida del sumador de manera que la suma de una longitud de tiempo de la salida del sumador y una longitud de tiempo de la tercera señal sea sustancialmente igual a una longitud de tiempo definida por la relación de modificación de escala de tiempo \alpha, el retardo de tiempo Tc y la longitud de tiempo T.

Descripción de invención

La presente invención se ha realizado, tomando en consideración los hechos descritos anteriormente, y tiene la finalidad de proporcionar un aparato para convertir una velocidad de reproducción de voz capaz de disminuir la distorsión producida solapando formas de onda para convertir una velocidad de reproducción de voz, y de mejorar la calidad de voz de salida.

Para lograr la finalidad antes descrita, en la presente invención, la velocidad de reproducción de voz se convierte seleccionando dos formas de onda en señales de voz de entrada o señales residuales de entrada en las que la diferencia de forma entre dos formas de onda contiguas de la misma longitud es la mínima para calcular la forma de onda solapada, sustituyéndola después por una parte de las señales de voz de entrada o las señales residuales de entrada o insertarla en las señales de voz de entrada o las señales residuales de entrada.

Según la presente invención, es posible seleccionar formas de onda a solapar exactamente, que permite mejorar la calidad de la voz de velocidad convertida.

Y, en la presente invención, la información de salida de un aparato de codificación de voz se utiliza combinando un decodificador de aparato de codificación de voz para codificar señales de voz dividiéndolas en coeficientes predictivos lineales que representan información de espectro, información de período de tono e información de fuente de voz que representa un residuo predictivo.

Según la presente invención, utilizando información de salida de un aparato de codificación de voz, es posible reducir en gran medida el costo de cálculo al convertir una velocidad de reproducción de señales de voz codificadas.

En la presente invención, se preparan un aparato para convertir una velocidad de reproducción de voz incluyendo una memoria intermedia en la que se guardan temporalmente las señales de voz de entrada digitalizadas, una sección de solapamiento de forma de onda para solapar formas de onda de voz almacenadas en la memoria intermedia, y una sección de sintetización de forma de onda para sintetizar una forma de onda de voz de salida a partir de la forma de onda de voz de entrada en la memoria intermedia y la forma de onda de voz solapada, una sección de toma de forma de onda para tomar dos formas de onda contiguas de la misma longitud de la memoria intermedia, y una sección de cálculo de diferencia de forma para calcular una diferencia de forma entre dos formas de onda de voz tomadas por la sección de toma de forma de onda, donde la sección de solapamiento de forma de onda selecciona dos formas de onda de voz que tienen la diferencia de forma mínima calculada por la sección de cálculo de diferencia de forma a solapar.

Y, en la presente invención, se preparan una sección de análisis predictivo lineal para calcular los coeficientes predictivos lineales que representan información de espectro de una señal de voz de entrada, un filtro inverso para calcular una señal residual predictiva de la señal de voz de entrada que utiliza los coeficientes predictivos lineales calculados y un filtro de síntesis para sintetizar una señal de voz a partir de la señal residual de predicción que utiliza los coeficientes predictivos lineales, donde la señal residual predictiva calculada por el filtro inverso se almacena en la memoria intermedia y la señal residual predictiva calculada por la sección de sintetización de forma de onda es enviada al filtro de síntesis.

Por consiguiente, el procesado de conversión de velocidad de reproducción se puede ejecutar usando una señal residual predictiva fácil de decidir una forma de onda de tono, que permite tomar exactamente la forma de onda de tono. Eso mejora la calidad de la voz reproducida.

Y, en la presente invención, se combina un aparato de codificación de voz para codificar señales de voz dividiéndolas en coeficientes predictivos lineales que representan información de espectro, información de período de tono e información de fuente de voz que representa un residuo de predicción, donde la información de fuente de voz que representa un residuo de predicción se almacena temporalmente en la memoria intermedia y la sección de toma de forma de onda determina el rango de longitud de una forma de onda de voz tomada de la memoria intermedia sobre la base de la información de período de tono.

En la presente invención, se preparan una sección de análisis predictivo lineal para calcular los coeficientes predictivos lineales que representan información de espectro de una señal de voz de entrada, un filtro inverso para calcular una señal residual predictiva de la señal de voz de entrada que utiliza los coeficientes predictivos lineales calculados, una sección de interpolación de coeficientes predictivos lineales para interpolar los coeficientes predictivos lineales y un filtro de síntesis para sintetizar una señal de voz a partir de la señal residual de predicción que utiliza los coeficientes predictivos lineales, donde la señal residual predictiva calculada por el filtro inverso se almacena temporalmente en la memoria intermedia, la sección de sintetización de forma de onda envía la señal residual de predicción sintetizada al filtro de síntesis, la sección de interpolación de coeficientes predictivos lineales interpola los coeficientes predictivos lineales para hacerlos los coeficientes más apropiados para la señal residual predictiva sintetizada y el filtro de síntesis envía una señal de voz de salida que utiliza los coeficientes predictivos lineales interpolados.

Por consiguiente, una señal de voz de salida se sintetiza usando los coeficientes predictivos lineales interpolados para hacerlos los coeficientes más apropiados para la señal residual predictiva sintetizada, lo que mejora la calidad de voz.

Breve descripción de dibujos

La figura 1 es un diagrama de bloques de un aparato para convertir una velocidad de reproducción de voz en la primera realización de la presente invención.

La figura 2 es un diagrama de una forma de onda del objeto para convertir una velocidad de reproducción en la primera realización de la presente invención.

La figura 3 es un diagrama de bloques de un aparato para convertir una velocidad de reproducción de voz en la segunda realización de la presente invención.

La figura 4 es un diagrama de bloques de un aparato para convertir una velocidad de reproducción de voz en la tercera realización de la presente invención.

La figura 5 es un diagrama de bloques de un aparato para convertir una velocidad de reproducción de voz en la cuarta realización de la presente invención.

La figura 6 es un diagrama de bloques de un aparato para convertir una velocidad de reproducción de voz en la quinta realización de la presente invención.

La figura 7 es un diagrama que ilustra la relación de una posición de trama de procesado, una forma y peso de función, y procesado de solapamiento.

La figura 8 es un diagrama de bloques de un aparato para convertir una velocidad de reproducción de voz en la sexta realización de la presente invención.

La figura 9 es un diagrama de bloques de un aparato convencional para convertir una velocidad de reproducción de voz.

La figura 10 es un diagrama que ilustra la relación de una forma de onda de entrada, una forma de onda solapada y una forma de onda de salida en el caso de reproducción a alta velocidad.

La figura 11 es un diagrama que ilustra la relación de una señal de entrada con trama, una señal de entrada en una memoria intermedia y una señal de entrada desplazada en una memoria intermedia.

Y la figura 12 es un diagrama que ilustra la relación de una forma de onda de entrada, una forma de onda solapada y una forma de onda de salida en el caso de reproducción a baja velocidad.

Mejor modo de llevar a la práctica la invención

Las realizaciones de la presente invención se explican en concreto con referencia a los dibujos.

Primera realización

La figura 1 ilustra bloques funcionales de un aparato para convertir una velocidad de reproducción de voz en la primera realización de la presente invención. Además, las secciones en la figura 1 que tienen la misma función que la de cada sección del aparato ilustrado en la figura 9 previamente mencionada tienen las mismas marcas.

En este aparato para convertir una velocidad de reproducción de voz, la sección de toma de forma de onda 7 proporciona una posición de inicio y una longitud de una forma de onda a llevar a la memoria intermedia 3 y toma (una pluralidad de) dos formas de onda de voz contiguas de la misma longitud de la memoria intermedia 3. La sección de cálculo de diferencia de forma 8 calcula una diferencia de forma entre dos formas de onda de voz tomadas por sección de toma de forma de onda 7, selecciona dos formas de onda de la longitud donde la diferencia de forma es la mínima, y determina tramas para procesado de solapamiento. Después, la sección de solapamiento de forma de onda 9 solapa dos formas de onda determinadas en la sección de cálculo de diferencia de forma 8.

Además, de la misma forma que el aparato ilustrado en la figura 9 antes descrita, se registran señales de voz digitalizadas en los medios de registro 1, la sección de formación de trama 2 toma una señal de voz en una trama de una muestra LF de longitud predeterminada de los medios de registro 1 y la señal de voz tomada por la sección de formación de trama 2 se almacena temporalmente en la memoria intermedia 3. Y la sección de sintetización de forma de onda 5 sintetiza una forma de onda de señal de voz de salida de la forma de onda de señal de voz almacenada en la memoria intermedia 3 y la forma de onda solapada procesada en la sección de solapamiento de forma de onda 9.

Las funciones de los medios de registro 1, la sección de formación de trama 2, la memoria intermedia 3, la sección de solapamiento de forma de onda 9 y la sección de sintetización de forma de onda 5 en este aparato y el procesado para convertir una velocidad de reproducción son las mismas que las de un aparato convencional. Por lo tanto, se omite su explicación y se explican primariamente las funciones de la sección de toma de forma de onda 7 y la sección de cálculo de diferencia de forma 8, y el procesado para determinar una trama de procesado de solapamiento.

La sección de toma de forma de onda 7, como se ilustra en la figura 2, toma dos formas de onda contiguas de la misma longitud Tc (forma de onda A y forma de onda B) del puntero PO de una posición de inicio de procesado de la memoria intermedia 3 como una forma de onda candidata 19 para una trama de procesado de solapamiento.

La sección de cálculo de diferencia de forma 8 calcula una diferencia de forma entre dos formas de onda de la forma de onda A y la forma de onda B. La diferencia de forma entre dos formas de onda Err se representa como la formulación siguiente donde la forma de onda A es x(n), la forma de onda B es y(n) y n es una posición de
muestra.

(3)Err = \sum\{x(n)-y(n)\}^{2}

(La suma es de n=0 a n=Tc-1)

La sección de cálculo de diferencia de forma 8 toma otras dos formas de onda contiguas de las formas de onda A y B de diferente longitud (el número de muestras) del puntero PO fijado como una posición de inicio de procesado de la memoria intermedia 3 y calcula la diferencia de forma Err entre dos formas de onda.

Se calcula una pluralidad de diferencias de forma Err tomando dos formas de onda A y B de diferente longitud (el número de muestras) secuencialmente. Y se selecciona la combinación de formas de onda A y B que tienen la diferencia de forma mínima Err.

En este caso, dado que Err es una diferencia de suma de las muestras a una longitud de forma de onda Tc, es imposible comparar directamente las diferencias de las formas de onda de diferentes longitudes Tc. Por lo tanto, por ejemplo, utilizando el valor de Err dividido por el número de muestras en Tc, es decir, una diferencia media Err/Tc para una muestra, es posible comparar las diferencias. El rango de números de muestreo en una longitud de forma de onda Tc está predeterminado, por ejemplo, para señales de voz de muestreo de 8 kHz, puede ser apropiado de 16 a 160 muestras. Variando una longitud de forma de onda Tc dentro del rango predeterminado, calculando la diferencia media Err/Tc para cada Tc y comparándolas, Tc de la diferencia media mínima se determina como la longitud de forma de onda a obtener.

La sección de solapamiento de forma de onda 9 toma dos formas de ondas A y B seleccionadas de la sección de cálculo de diferencia de forma 8 como una trama de procesado de solapamiento 14, procesa una trama de procesado (forma de onda A) y otra trama de procesado (forma de onda B) por separado según las diferentes funciones ventana triángulo genera entonces una forma de onda solapada 15 solapando ambas formas de onda.

La sección de sintetización de forma de onda 5 toma la forma de onda de voz de entrada 16 de la memoria intermedia 3, y sustituye una parte de la forma de onda de voz de entrada 16 por una forma de onda solapada 15 o inserta la forma de onda solapada 15 en la forma de onda de voz de entrada 16 sobre la base de la velocidad de reproducción r para generar voz de salida 17 de velocidad convertida.

Según la realización de la presente invención, dado que la sección de toma de forma de onda 7 toma un par de formas de onda contiguas A y B como un candidato a la forma de onda a sintetizar de la memoria intermedia 3, varía gradualmente una longitud de forma de onda a tomar, calcula Err/Tc que es una diferencia de forma entre formas de onda en cada par de formas de onda y selecciona el par de formas de onda A y B de la diferencia de forma mínima Err/Tc a sintetizar, se disminuye la distorsión producida solapando las formas de onda A y B, lo que permite mejorar la calidad de voz de salida.

\newpage

Segunda realización

La segunda realización ilustra el caso donde la conversión de velocidad de reproducción se procesa con la señal residual que representa notablemente una forma de onda de tono.

La figura 3 ilustra bloques funcionales de un aparato para convertir una velocidad de reproducción de voz en la segunda realización de la presente invención. Además, las secciones de la figura 3 que tienen la misma función que la de cada sección del aparato ilustrado en la figura 1 y la figura 9 previamente mencionadas, tienen las mismas
marcas.

Este aparato para convertir una velocidad de reproducción de voz incluye una sección de análisis predictivo lineal 30 para calcular los coeficientes predictivos lineales que representan información de espectro de señales de voz de entrada, un filtro inverso 31 para calcular la señal residual predictiva con los coeficientes predictivos lineales calculados a partir de señales de voz de entrada, y un filtro de síntesis 32 para sintetizar señales de voz con los coeficientes predictivos lineales a partir de la señal residual predictiva. La configuración restante del aparato para convertir una velocidad de reproducción de voz en la realización de la presente invención es la misma que la de la primera realización de la presente invención.

En el aparato para convertir una velocidad de reproducción de voz constituido como se ha descrito anteriormente, la voz de entrada en una trama 12 tomada en la sección de formación de trama 2 se introduce en la sección de análisis predictivo lineal 30 y el filtro inverso 31. Los coeficientes predictivos lineales 33 se calculan a partir de la voz de entrada 12 en una trama en la sección de análisis predictivo lineal 30, y la señal residual 34 se calcula a partir de la voz de entrada 12 con coeficientes predictivos lineales 33 en el filtro inverso 31.

La señal residual 34 calculada en el filtro inverso 31 es sintetizada en forma de onda en la memoria intermedia 3, la sección de toma de forma de onda 7, la sección de cálculo de diferencia de forma 8 y la sección de solapamiento de forma de onda 9 según el procesado de convertir una velocidad de reproducción de voz explicada en la primera realización de la presente invención, y es enviada como señal residual de síntesis 35 desde la sección de síntesis de forma de onda 5.

El filtro de síntesis 32 calcula la voz sintetizada de salida 36 a partir de la señal residual de síntesis 35 con coeficientes predictivos lineales 33 proporcionados desde la sección de análisis predictivo lineal 30 a enviar.

En la realización de la presente invención antes descrita, se toman dos formas de onda y son sintetizadas en forma de onda a partir de la señal residual predictiva que es una señal de voz de entrada en la que se quita la información de envolvente de espectro representada por coeficientes predictivos lineales. Dado que la señal residual predictiva representa una forma de onda de tono más notablemente que la señal de entrada original, mediante procesado de conversión de velocidad de reproducción de voz con la señal residual descrita en la realización de la presente invención, se puede tomar exactamente una forma de onda de tono y se puede mejorar la calidad de voz reproducida.

Tercera realización

En la tercera realización, la complejidad computacional se reduce combinando un aparato para convertir una velocidad de reproducción de voz con un aparato de codificación de voz y usando información de codificación de voz proporcionada a partir del aparato de codificación de voz en el procesado de conversión de velocidad.

La figura 4 ilustra bloques funcionales de un aparato para convertir una velocidad de reproducción de voz en la realización de la presente invención. Además, las secciones en la figura 4 que tienen la misma función que la de cada sección del aparato ilustrado en la figura 1, la figura 3 y la figura 9 previamente mencionadas, tienen las mismas marcas.

En este aparato para convertir una velocidad de reproducción de voz, los medios de registro 1, la sección de formación de trama 2, la sección de análisis predictivo lineal 30 y el filtro inverso 31 de la segunda realización de la presente invención se sustituyen por el decodificador de un aparato de codificación de voz 40 que incluye las secciones descritas anteriormente. El decodificador del aparato de codificación de voz 40 tiene la función de codificar señales de voz dividiéndolas en coeficientes predictivos lineales que representan información de espectro, información de período de tono e información de fuente de voz que representa un residuo predictivo. Como aparato de codificación de voz antes descrito se conoce primariamente CELP (codificación predictiva lineal excitada por código). Y, en general, en un aparato de codificación de voz de alta eficiencia como CELP, la información de codificación de voz se codifica en una trama. Por consiguiente, dado que la señal de fuente de voz 41 salida del decodificador 40 es una señal en una trama de una longitud predeterminada por el aparato de codificación de voz, se puede usar directamente como una entrada para el aparato para convertir una velocidad de reproducción de voz de la presente invención.

En el aparato para convertir una velocidad de reproducción de voz en esta realización de la presente invención, la señal de fuente de voz en una trama 41 salida del decodificador 40 se almacena en la memoria intermedia 3, la información de período de tono 42 se introduce en la sección de toma de forma de onda 43 y los coeficientes predictivos lineales 33 se introducen en el filtro de síntesis 32.

La sección de toma de forma de onda 43 toma formas de ondas contiguas A y B de longitud Tc de la memoria intermedia 3 y proporciona una pluralidad de pares de formas de onda A y B de una longitud diferente a la sección de cálculo de diferencia de forma 8 secuencialmente. Y, dado que el rango de longitud Tc de las formas de onda tomadas se varía según la información de período de tono 42 en la sección de toma de forma de onda 43, la complejidad computacional para calcular diferencias se puede disminuir en gran medida. Y los coeficientes predictivos lineales 33 salidos del decodificador se utilizan como una entrada para el filtro de síntesis 32.

De esta forma, combinando un decodificador de aparato de codificación de voz para codificar señales de voz dividiéndolas en unos coeficientes predictivos lineales que representan información de espectro, información de período de tono e información de fuente de voz que representa predicción residual y un aparato para convertir una velocidad de reproducción de la presente invención, es posible usar información salida del aparato de codificación de voz y convertir una velocidad de reproducción de señales de voz codificadas en el aparato de codificación de voz con menos complejidad computacional.

Cuarta realización

En un aparato para convertir una velocidad de reproducción de voz en la cuarta realización de la presente invención, la complejidad computacional se reduce combinándolo con un aparato de codificación de voz y usando información de codificación de voz proporcionada por el aparato de codificación de voz.

La figura 5 ilustra bloques funcionales de un aparato para convertir la velocidad de reproducción de voz en la realización de la presente invención. Además, las secciones de la figura 5 que tienen la misma función que la de la tercera realización de la presente invención antes mencionada, tienen las mismas marcas.

En el aparato para convertir la velocidad de reproducción de voz, un filtro de síntesis 32' que tiene la misma función que la del filtro de síntesis 32 compuesto de la tercera realización de la presente invención, se prepara entre el decodificador de un aparato de codificación de voz 40 y la memoria intermedia 3. El filtro de síntesis 32' genera una señal de voz decodificada a partir de la señal de fuente de voz 41 en una trama y coeficientes predictivos lineales 33 y la guarda como señal de voz de síntesis 44 en la memoria intermedia. Dado que la señal de fuente de voz 41 se introduce desde el decodificador 40 en una trama, la señal de voz de síntesis 44 también es una señal en una trama. Por consiguiente, está disponible para uso directo como una entrada del aparato para convertir la velocidad de reproducción de voz de la presente invención.

Como se ha descrito anteriormente, combinando un aparato de codificación de voz 40 para codificar señales de voz dividiéndolas en coeficientes predictivos lineales que representan información de espectro, información de período de tono e información de fuente de voz que representa predicción residual y un aparato para convertir la velocidad de reproducción de la presente invención, es posible usar información salida del aparato de codificación de voz y convertir la velocidad de reproducción de señales de voz codificadas en el aparato de codificación de voz con menos complejidad computacional.

Quinta realización

En un aparato para convertir la velocidad de reproducción de voz en la quinta realización de la presente invención, interpolando los coeficientes predictivos lineales para hacerlos los coeficientes más apropiados para la señal residual sintetizada, se puede mejorar la calidad de voz.

La figura 6 ilustra bloques funcionales de un aparato para convertir una velocidad de reproducción de voz en la realización de la presente invención. Además, las secciones en la figura 6 que tienen la misma función que la de cada realización de la presente invención antes mencionada, tienen las mismas marcas.

Este aparato para convertir la velocidad de reproducción de voz incluye una sección de análisis predictivo lineal 30 para calcular los coeficientes predictivos lineales que representan información de espectro de señales de voz de entrada, un filtro inverso 31 para calcular la señal residual predictiva 34 con los coeficientes predictivos lineales calculados 33 a partir de señales de voz de entrada, y un filtro de síntesis 32 para sintetizar señales de voz con los coeficientes predictivos lineales de señales de voz de entrada y una sección de interpolación de coeficientes predictivos lineales 60 para interpolar coeficientes predictivos lineales 33 para hacerlos los coeficientes más apropiados para la señal residual sintetizada. La configuración restante del aparato es la misma que la de la primera realización de la presente invención (figura 1).

En este aparato para convertir la velocidad de reproducción de voz constituido como se ha descrito anteriormente, voz de entrada en una trama 12 tomada de los medios de registro en la sección de formación de trama 2 se introduce en la sección de análisis predictivo lineal 30. La sección de análisis predictivo lineal 30 calcula coeficientes predictivos lineales 33 a partir de la voz de entrada en una trama 12 a introducir en el filtro inverso 31 y la sección de interpolación de coeficientes predictivos lineales 60. El filtro inverso 31 calcula la señal residual 34 a partir de la voz de entrada 12 con coeficientes predictivos lineales 33. Esta señal residual 34 es sintetizada en forma de onda por el proceso de convertir la velocidad de reproducción de voz explicada en la primera realización de la presente invención, y es enviada como señal residual de síntesis 35 desde la sección de síntesis de forma de onda 5.

La sección de interpolación de coeficientes predictivos lineales 60 recibe información de posición de trama de procesado 61 de la sección de sintetización de forma de onda 4 e interpola coeficientes predictivos lineales 33 para hacerlos los coeficientes más apropiados para la señal residual de síntesis 35. Los coeficientes predictivos lineales interpolados 62 se introducen en el filtro de síntesis 32, y la señal de voz de salida 36 se sintetiza a partir de la señal residual de síntesis 35.

Un ejemplo de interpolación de coeficientes predictivos lineales 33 para hacerlos el coeficiente más apropiado para la señal residual de síntesis 35 se explica con referencia a la figura 7.

Como se ilustra en la figura 7A, una trama de procesado para calcular la señal residual de síntesis 35 se supone que cruza las tramas de entrada 1, 2 y 3. La forma de la función ventana a usar para las formas de onda de solapamiento se supone que tiene la forma y peso ilustrados en la figura 7B. Por consiguiente, como se ilustra en la figura 7C, la cantidad de datos incluidos en la forma de onda solapada generada por el procesado de solapamiento es la cantidad de datos incluidos en intervalos F1, F2 y F3 ponderados por w1, w2 y w3 considerando la forma de función ventana. Tomando como base la cantidad de datos originales incluidos en esta forma de onda solapada, coeficientes predictivos lineales interpolados 62 se obtienen según la formulación siguiente.

\vskip1.000000\baselineskip

\dotable{\tabskip\tabcolsep#\hfil\+#\hfil\+#\hfil\+#\hfil\+#\hfil\tabskip0ptplus1fil\dddarstrut\cr}{
 (coeficientes predictivos lineales interpolados)\+ = \+
(coeficientes predictivos lineales de trama 1) \+ x \+(peso w1)\cr 
\+ + \+ (coeficientes predictivos lineales de trama 2) \+ x \+ (peso
w2)\cr  \+ + \+ (coeficientes predictivos lineales de trama 3) \+ x
\+ (peso
w3)\cr}

donde, w1+w2+w3=1.

\vskip1.000000\baselineskip

Además, con referencia a los pesos w1, w2 y w3, los factores a considerar no son sólo la forma de la función ventana, sino también la semejanza de coeficientes predictivos lineales de cada trama 1, 2 y 3, y otros. Y como coeficientes predictivos lineales interpolados para calcular, no sólo se dispone de un coeficiente, sino también de múltiples coeficientes, que se obtienen dividiendo la forma de onda solapada en una pluralidad de partes y calculando los coeficientes predictivos lineales interpolados más apropiados para cada parte. Y en el proceso de interpolar los coeficientes predictivos lineales, el rendimiento se puede mejorar convirtiendo cada coeficiente predictivo lineal en parámetro LSP, etc, apropiado para el procesado de interpolación, procesando por interpolación el parámetro LSP convertido, etc, y reconvirtiendo el resultado calculado en los coeficientes predictivos
lineales.

Sexta realización

En un aparato para convertir una velocidad de reproducción de voz en la sexta realización de la presente invención, la cantidad de cálculo se reduce combinándola con un aparato de codificación de voz y usando información de codificación de voz proporcionada a partir del aparato de codificación de voz.

La figura 8 ilustra bloques funcionales de un aparato para convertir una velocidad de reproducción de voz en una realización de la presente invención.

En este aparato para convertir la velocidad de reproducción de voz, un aparato de codificación de voz (decodificador 40), que es utilizado en la tercera realización, para codificar señales de voz dividiéndolas en coeficientes predictivos lineales que representan la información de espectro, información de período de tono e información de fuente de voz que representa predicción residual, se prepara por sustitución por medios de registro 1 y la sección de formación de trama 2 en la quinta realización de la presente invención.

La señal de fuente de voz en una trama 41 salida del decodificador 40 se introduce en la memoria intermedia 3 y coeficientes predictivos lineales 33 se introducen en la sección de interpolación de coeficientes predictivos lineales 60. Y la información de período de tono 42 se introduce en la sección de toma de forma de onda 43 y el rango de longitud Tc de una forma de onda a tomar en la sección de toma de forma de onda 43 se conmuta en correspondencia con la información de período de tono 42. Según ello, dado que se restringe el rango de longitud Tc de una forma de onda a tomar, la complejidad computacional para obtener una diferencia se puede reducir en gran
medida.

Según la realización de la presente invención antes descrita, combinando un aparato de codificación de voz 40 para codificar señales de voz dividiéndolas en coeficientes predictivos lineales que representan información de espectro, información de período de tono e información de fuente de voz que representa predicción residual y un aparato para convertir la velocidad de reproducción de la presente invención, es posible usar información salida del aparato de codificación de voz y convertir la velocidad de reproducción de señales de voz codificadas en el aparato de codificación de voz con menos complejidad computacional.

\newpage

Séptima realización

Un aparato para convertir la velocidad de reproducción de voz de la presente invención se logra utilizando software en el que el algoritmo del procesado se describe en un lenguaje de programación. Registrando el programa en unos medios de registro tales como un disquete (FD), etc, conectando los medios de registro a un aparato de procesado de señales de propósito general tal como un ordenador personal, etc, y ejecutando el programa, se logra la función del aparato para convertir la velocidad de reproducción de voz de la presente invención.

La presente invención no se limita por las realizaciones descritas anteriormente, sino que se puede aplicar para una realización modificada dentro del alcance de la presente invención.

Aplicabilidad industrial

Como se ha descrito anteriormente, un aparato para convertir la velocidad de reproducción de voz de la presente invención es útil para reproducir una señal de voz registrada en unos medios de registro a una velocidad arbitraria sin transformar el tono de voz y es apropiado para mejorar la calidad de voz de salida.

Claims

1. Un aparato para convertir una velocidad de reproducción de voz de una señal de voz de entrada (11), incluyendo el aparato:

(a) una sección de toma de forma de onda (7) dispuesta para tomar, para longitudes de segmento variables (Tc), pares candidatos de segmentos de forma de onda contiguos (forma de onda A, forma de onda B) de una señal de voz derivada (12, 34 o 41) derivada de dicha señal de voz de entrada (11) de manera que los segmentos de forma de onda contiguos dentro de cualquier par candidato sean de igual longitud de segmento (Tc);

(b) una sección de cálculo de diferencia de forma (8) dispuesta

para calcular para cada dicho par candidato un valor de diferencia de forma representativo de la diferencia de forma de onda entre los segmentos de igual longitud de dicho par candidato de segmentos de forma de onda contiguos, y

para detectar como par solapable uno de dichos pares candidatos de segmentos de forma de onda contiguos en el que dicho valor de diferencia de forma se determina de forma que sea mínimo entre una pluralidad de dichos pares candidatos de longitudes variables (Tc) tomados por dicha sección de toma de forma de onda;

(c) una sección de solapamiento de forma de onda (9) dispuesta para tomar dicho par solapable detectado y generar a partir de él un segmento de forma de onda solapada (15),

(d) una sección de sintetización de forma de onda (5) dispuesta para sustituir parte de una señal de voz puesta en memoria intermedia por dicho segmento de forma de onda solapada o para insertar dicho segmento de forma de onda solapada en dicha señal de voz puesta en memoria intermedia para generar una señal de voz de salida de velocidad convertida, donde dicha señal de voz puesta en memoria intermedia se obtiene poniendo en memoria intermedia dicha señal de voz derivada,

caracterizado porque

(e) dicha sección de cálculo de diferencia de forma (8) está dispuesta para calcular dicho valor de diferencia de forma como una suma de errores cuadráticos dividida por dicha longitud de segmento (Err/Tc).

2. El aparato según la reivindicación 1, donde, en la señal de voz (12, 34 o 41) muestreada a una tasa de N kHz, el número de muestras de dichos pares candidatos de segmentos de forma de onda contiguos está entre 2N y 20N.

3. El aparato según la reivindicación 1, donde, en la señal de voz (12, 34 o 41) muestreada a una tasa de 8 kHz, el número de muestra de dichos pares candidatos de segmentos de forma de onda contiguos está en un rango de entre 16 y 160.

4. El aparato según cualquiera de las reivindicaciones 1-3, donde la sección de toma de forma de onda (7) usa formas de onda de una señal residual de predicción incluyendo distintas formas de onda de tono de dichos pares candidatos de segmentos de forma de onda contiguos.

5. El aparato según cualquiera de las reivindicaciones 1-4, incluyendo además:

un analizador predictivo lineal (30) para calcular coeficientes predictivos lineales que representan información de espectro de la señal de voz (12);

un filtro inverso (31) para calcular la señal residual predictiva a partir de la señal de voz (12) utilizando los coeficientes predictivos lineales; y

un filtro de síntesis (32) utilizando los coeficientes predictivos lineales para sintetizar una señal de voz de una forma de onda de la señal residual de predicción que tiene una velocidad de reproducción convertida.

6. El aparato según cualquiera de las reivindicaciones 1-5, incluyendo además un interpolador de coeficientes predictivos lineales (60) adaptado para interpolar los coeficientes predictivos lineales de tal manera que los coeficientes predictivos lineales sean óptimos para la forma de onda de la señal residual de predicción que tiene la velocidad de reproducción convertida,

donde el filtro de síntesis (32) sintetiza la señal de voz que utiliza los coeficientes predictivos lineales interpolados.

7. El aparato según la reivindicación 1, que está conectado con un decodificador (40) que decodifica una señal de voz a partir de parámetros de codificación, incluyendo: un coeficiente predictivo lineal que representa información de espectro, información de período de tono, e información de fuente de voz que representa un residuo predictivo,

donde la velocidad de reproducción de la señal de voz se convierte usando los parámetros de codificación.

8. El aparato según la reivindicación 1 o 7, donde la sección de toma de forma de onda (7) determina una longitud de dichos pares candidatos de segmentos de forma de onda contiguos en base a información de período de tono en los parámetros de codificación.

9. El aparato según cualquiera de las reivindicaciones 1, 7 y 8, donde una forma de onda de señal residual de predicción generada a partir de la información de fuente de voz se introduce en la sección de toma de forma de onda (7), incluyendo además el aparato un filtro de síntesis (32) que utiliza el coeficiente predictivo lineal en los parámetros de codificación y adaptado para sintetizar una señal de voz a partir de la forma de onda de una señal residual de predicción que tiene una velocidad de reproducción convertida.

10. El aparato según cualquiera de las reivindicaciones 1, 7, 8 y 9, incluyendo además un interpolador de coeficientes predictivos lineales (60) adaptado para interpolar los coeficientes predictivos lineales de tal manera que los coeficientes predictivos lineales sean óptimos para la forma de onda de señal residual de predicción que tiene la velocidad de reproducción convertida,

donde el filtro de síntesis (32) sintetiza la señal de voz utilizando los coeficientes predictivos lineales interpolados.

11. El aparato según la reivindicación 8, incluyendo además un filtro de síntesis (32) adaptado para sintetizar una señal de voz utilizando los coeficientes predictivos lineales en los parámetros de código; y donde la señal de voz sintetizada se suministra a la sección de toma de forma de onda (7).