ES2337020T3 - Procedimiento de codificado de la prosodia para un codificador de palabra con cadencia muy baja. - Google Patents
Procedimiento de codificado de la prosodia para un codificador de palabra con cadencia muy baja. Download PDFInfo
- Publication number
- ES2337020T3 ES2337020T3 ES01402684T ES01402684T ES2337020T3 ES 2337020 T3 ES2337020 T3 ES 2337020T3 ES 01402684 T ES01402684 T ES 01402684T ES 01402684 T ES01402684 T ES 01402684T ES 2337020 T3 ES2337020 T3 ES 2337020T3
- Authority
- ES
- Spain
- Prior art keywords
- word
- coding
- representatives
- segment
- stage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 52
- 230000002123 temporal effect Effects 0.000 claims description 14
- 238000000354 decomposition reaction Methods 0.000 claims 1
- 230000015572 biosynthetic process Effects 0.000 description 8
- 238000003786 synthesis reaction Methods 0.000 description 8
- 230000007704 transition Effects 0.000 description 8
- 238000013459 approach Methods 0.000 description 5
- 238000012937 correction Methods 0.000 description 5
- 238000013519 translation Methods 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 4
- 230000005284 excitation Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0018—Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
Procedimiento de codificado-decodificado de la palabra utilizando un codificador de cadencia muy baja que comprende una etapa de reconocimiento que permite identificar los "representantes" de la señal de palabra y una etapa de codificado para segmentar la señal de palabra y determinar el "mejor representante" asociado con cada segmento reconocido, caracterizado porque comprende al menos: una etapa de codificado-decodificado de uno de los parámetros al menos de la prosodia de los segmentos reconocidos, del cual el paso, utiliza una información de prosodia de los "mejores representantes", una etapa de codificado del paso de los segmentos reconocidos que consiste en: - transmitir los valores de paso al comienzo y al final de la zona sonora, - partiendo de una recta Di que une los valores del paso en los dos extremos de la indicada zona sonora, el procedimiento busca el comienzo de segmento cuyo valor de paso es el más alejado de esta recta, lo cual corresponde a un distancia dmax. - luego comparar este valor dmax con un valor umbral dumbral. \circ Si la distancia dmax es superior a dumbral, descomponer la recta inicial Di en dos rectas Di1 y Di2 tomando el comienzo del segmento encontrado Di2 como nuevo valor de paso a transmitir, \circ reiterar la operación de descomposición sobre estas dos nuevas zonas sonoras delimitadas por las rectas Di1 y Di2 hasta que la distancia dmax encontrada sea inferior a la distancia dumbral.
Description
Procedimiento de codificado de la prosodia para
un codificador de palabra con cadencia muy baja.
La presente invención se refiere a un
procedimiento de codificado de la palabra con cadencia muy baja y al
sistema asociado. La misma se aplica particularmente para sistemas
de codificado-decodificado de la palabra por
indexación de unidades de tamaño variable.
El procedimiento de codificado de la palabra
realizado a baja cadencia, por ejemplo del orden de 2400 bitios/s,
es generalmente el del codificador de voz que utiliza un modelo
totalmente paramétrico de la señal de palabra. Los parámetros
utilizados se refieren al sonido que describe el carácter periódico
o aleatorio de la señal, la frecuencia fundamental de los sonidos
vocales también conocida bajo el vocablo anglosajón "PITCH",
la evolución temporal de la energía, así como la envoltura espectral
de la señal generalmente modelizada por un filtro LPC (abreviatura
anglosajona de Lineal Predictive Coding).
Estos diferentes parámetros son tenidos en
cuenta periódicamente sobre la señal de palabra, típicamente cada
10 a 30 ms. Son elaborados a nivel de un dispositivo de análisis y
son generalmente transmitidos a distancia en dirección a un
dispositivo de síntesis que reproduce la señal de palabra a partir
del valor cuantificado de los parámetros del modelo.
Hasta ahora, la cadencia más baja normalizada
para un codificador de palabra que utiliza esta técnica es de 800
bitios/s. Este codificador, normalizado en 1994 está descrito por el
standard OTAN STANAG 4479 y en el artículo titulado "NATO STANAG
4479: A standard for an 800 bps vocoder and channel coding in
HF-ECCM system", IEEE Int. Conf. on ASSP,
Detroit, páginas 480-483, Mayo 1995 que tiene por
autores Mouy, B., De La Noue, P., y Goudezeune, G. Se basa en una
técnica de análisis de trama por trama (22.5 ms) de tipo LPC 10 y
explota al máximo la redundancia temporal de la señal de palabra
reagrupando las tramas 3 por 3 antes del codificado de los
parámetros.
Aunque se pueda entender, la palabra reproducida
por estas técnicas de codificado es de bastante mala calidad y no
es ya aceptable a partir del momento en que la cadencia es inferior
a los 600 bitios/s.
Una manera de reducir la cadencia es utilizar
los codificadores de voz por segmentos de tipo fonético con
segmentos de duración variable que combinan principios de
reconocimiento y de síntesis de la palabra, ver por ejemplo "very
low bit rate speech coding using a diphone-based
recognition and synthesis approach" de Felici et al. In
Electronics letters vol. 34 no. 9, 1998.
El procedimiento de codificado utiliza
esencialmente un sistema de reconocimiento automático de la palabra
en flujo continuo, que segmenta y "etiqueta" la señal de
palabra según un número de unidades de palabra de tamaño variable.
Estas unidades fonéticas se codifican por indexación en un pequeño
diccionario. El decodificado se basa en el principio de la síntesis
de la palabra por concatenación a partir del índice de las unidades
fonéticas y de la prosodia. El término "prosodia" reagrupa
principalmente los parámetros siguientes: la energía de la señal,
el paso, una información de sonido y eventualmente el ritmo
temporal.
Sin embargo, el desarrollo de los codificadores
fonéticos necesita conocimientos importantes en fonética y en
lingüística, así como una fase de transcripción fonética de una base
de datos de aprendizaje que es costosa y que puede ser la fuente de
errores. Además, los codificadores fonéticos se adaptan difícilmente
a una nueva lengua o a un nuevo locutor.
Otra técnica, descrita por ejemplo en la tesis
de J. Cernocky, titulada "Speech Processing Using Automatically
Derived Segmental Units: Applications to very Low Rate Coding and
Speaker Verification" de l'Université Paris Xl Orsay, Diciembre
1998 permite eludir los problemas relacionados con la transcripción
fonética de la base de datos de aprendizaje determinando las
unidades de palabra de forma automática e independientemente de la
lengua.
El funcionamiento de este tipo de codificador se
descompone principalmente en dos etapas: una etapa de aprendizaje y
una etapa de codificado-decodificado descritas en la
figura 1.
En la etapa de aprendizaje (figura 1), un
procedimiento automático determina por ejemplo después de un
análisis paramétrico 1 y una etapa de segmentación 2, un conjunto
de 64 clases de unidades acústicas designadas "UA". Con cada
una de estas clases de unidades acústicas está asociado un modelo
estadístico 3, de tipo modelo de Markov (HMM abreviatura
anglosajona de Hidden Markov Model), así como un pequeño número de
unidades representantes de una clase, designadas bajo el término
"representantes" 4. En el sistema actual, los representantes
son simplemente las 8 unidades más largas pertenecientes a una misma
clase acústica. Pueden igualmente determinarse como siendo las N
unidades más representativas de la unidad acústica. En el codificado
de una señal de palabra después de una etapa de análisis
paramétrico 5 que permite obtener particularmente los parámetros
espectrales, las energías, el paso, un procedimiento de
reconocimiento (6, 7), con la ayuda de un algoritmo de Viterbi,
determina la sucesión de unidades acústicas de la señal de palabra e
identifica el "mejor representante" a utilizar para la
síntesis de la palabra. Esta elección se realiza por ejemplo
utilizando un criterio de distancia espectral, tal como el
algoritmo de DTW (abreviatura anglosajona de Dynamic Time
Warping).
El número de la clase acústica, el índice de
esta unidad representante, la longitud del segmento, el contenido
de DTW y las informaciones prosódicas procedentes del análisis
paramétrico se transmiten al decodificador. La síntesis de la
palabra se realiza por concatenación de los mejores representantes,
eventualmente utilizando un sintetizador paramétrico de tipo
LPC.
Para concatenar los representantes en el
decodificado de la palabra, se recurre, por ejemplo, a un
procedimiento de análisis/síntesis paramétrico de la palabra. Este
procedimiento paramétrico permite particularmente modificaciones
prosodia tales como la evolución temporal, la frecuencia fundamental
o paso, con relación a una simple concatenación de formas de
onda.
El modelo paramétrico de palabra utilizado por
el procedimiento de análisis/síntesis puede ser por excitación
binaria vocalizada/sin vocalizar de tipo LPC 10 tal como se describe
en el documento titulado "The government standard linear
predictive coding algorithm: LPC-10" de T.
Tremain publicado en la revista Speech Technology, vol. 1, nº 2,
páginas 40-49.
Esta técnica permite codificar la envoltura
espectral de la señal en 185 bitios/s aproximadamente para un
sistema monolocutor, para una media de aproximadamente 21 segmentos
por segundo.
En lo que sigue de la descripción los términos
dados a continuación tienen los significados siguientes:
- \bullet
- el término "representante" corresponde a uno de los segmentos de la base de aprendizaje que ha sido juzgado representativo de una de las clases de unidades de acústica,
- \bullet
- la expresión "segmento reconocido" corresponde a un segmento de la palabra que ha sido identificado como perteneciente a una de las clases acústicas, por el codificador,
- \bullet
- la expresión "mejor representante" designa el representante determinado a nivel del codificado que representa el mejor segmento reconocido.
El objeto de la presente invención se refiere a
un procedimiento de codificado, decodificado de la prosodia para un
codificador de palabra de cadencia muy baja que utiliza
particularmente los mejores representantes.
Se refiere también a la compresión de datos.
La invención tal como se define por la
reivindicación 1, se refiere a un procedimiento de
codificado-decodificado de la palabra utilizando un
codificador de cadencia muy baja que comprende una etapa de
aprendizaje que permite identificar "representantes" de la
señal de palabra y una etapa de codificado para segmentar la señal
de palabra y determinar el "mejor representante" asociado con
cada segmento reconocido.
La información de prosodia de los representantes
utilizada es por ejemplo el contorno de energía o el sonido o la
longitud de los segmentos o el paso.
Según un modo de realización, comprende una
etapa de codificado del alineamiento temporal de los mejores
representantes utilizando la vía de DTW y buscando la proximidad
más cercana en una tabla de formas.
La etapa de codificado de sonido comprende por
ejemplo una etapa de determinación de las diferencias existentes
\DeltaT_{k} para cada extremo de una zona de sonido de índice k
entre la curva del sonido de los segmentos reconocidos y la de los
mejores representantes y la etapa de decodificado comprende por
ejemplo para cada extremo de una zona de sonido de índice k una
etapa de corrección de la posición temporal de este extremo de un
valor \DeltaT_{k} correspondiente y/o una etapa de supresión o
de inserción de una transición.
La invención se refiere también a un sistema de
codificado-decodificado de la palabra tal como se ha
definido por la reivindicación 7, que comprende al menos una
memoria para almacenar un diccionario que comprende un conjunto de
representantes de la señal de palabra, un microprocesador adaptado
para determinar los segmentos reconocidos, para reconstruir la
palabra a partir de los "mejores representantes" y para
realizar las etapas del procedimiento según una de las
características anteriormente citadas.
El diccionario de los representantes es por
ejemplo común al codificador y al decodificador del sistema
codificado-decodificado.
El procedimiento y el sistema según la invención
pueden ser utilizados para el
codificado-decodificado de la palabra para
cadencias inferiores a los 800 bitios/s y de preferencia inferiores
a 400 bitios/s.
El procedimiento y el sistema de
codificado-decodificado según la invención ofrecen
particularmente la ventaja de codificar a una cadencia muy baja la
prosodia y de proporcionar así un codificador completo en este
ámbito de aplicación.
\newpage
Otras características y ventajas aparecerán con
la lectura de la descripción detallada de un modo de realización
tomado a título de ejemplo no limitativo e ilustrado por los dibujos
adjuntos donde:
\bullet la figura 1 representa un esquema de
aprendizaje, de codificado y decodificado de la palabra según la
técnica anterior,
\bullet las figuras 2 y 3 describen ejemplos
de codificado de la longitud de los segmentos reconocidos,
\bullet la figura 4 esquematiza un modelo de
alineamiento temporal de los "mejores representantes",
\bullet las figuras 5 y 6 muestran curvas de
las energías de la señal a codificar y de los representantes
alineados, así como los contornos de las energías inicial y
decodificado obtenidos utilizando el procedimiento según la
invención,
\bullet la figura 7 esquematiza el codificado
del sonido de la señal de palabra, y
\bullet la figura 8 es un ejemplo de
codificado del paso.
El principio de codificado según la invención se
basa en la utilización de los "mejores representantes",
particularmente su información de prosodia, para codificar y/o
decodificar al menos uno de los parámetros de prosodia de una señal
de palabra, por ejemplo el paso, la energía de la señal, el sonido,
la longitud de los segmentos reconocidos.
Para comprimir la prosodia de cadencia muy baja,
el principio puesto en práctica utiliza la segmentación del
codificador así como las informaciones prosódicas de los "mejores
representantes".
La descripción que sigue dada a título
ilustrativo y en modo alguno limitativo describe un procedimiento de
codificado de la prosodia en un dispositivo de
codificado-decodificado de la palabra de cadencia
baja que comprende un diccionario obtenido de forma automática, por
ejemplo, en el aprendizaje tal como se ha descrito en la figura
1.
El diccionario comprende las informaciones
siguientes:
- \bullet
- varias clases de unidades acústicas UA, determinándose cada clase a partir de un modelo estadístico,
- \bullet
- para cada clase de unidades acústicas, un conjunto de representantes.
Este diccionario es conocido del codificador y
del decodificador. Corresponde por ejemplo a una o varias lenguas y
a uno o varios locutores.
El sistema de
codificado-decodificado comprende por ejemplo una
memoria para almacenar el diccionario, un microprocesador adaptado
para determinar los segmentos reconocidos, para la puesta en
práctica de las diferentes etapas del procedimiento según la
invención y para reconstruir la palabra a partir de los mejores
representantes.
El procedimiento según la invención realiza al
menos una de las etapas siguientes: el codificado de la longitud de
los segmentos, el codificado del alineamiento temporal de los
"mejores representantes", el codificado y/o el decodificado de
la energía, el codificado y/o el decodificado de la información de
sonido y/o el codificado y/o decodificado del paso y/o el
decodificado de la longitud de los segmentos y del alineamiento
temporal.
El sistema de codificado determina por término
medio un número Ns de segmentos por segundo, por ejemplo 21
segmentos. El tamaño de estos segmentos varía en función de la clase
de unidades acústicas UA. Sucede que para la mayoría de las UA, el
número de segmentos disminuye según una relación 1/x^{2.6}, donde
x es la longitud del segmento.
Una variante de realización del procedimiento
según la invención consiste en codificar la diferencia de longitud
variable entre el "segmento reconocido" y la longitud del
"mejor representante" según un esquema descrito en la figura
2.
En este esquema en la columna de la izquierda
figura la longitud de la palabra de código a utilizar y en la
columna de la derecha la diferencia de longitud entre la longitud
del segmento reconocido por el codificador para la señal de palabra
y la del mejor representante.
Según otro modo de realización dado en la figura
3, el codificado de la longitud absoluta de un segmento reconocido
se realiza con la ayuda de un código de longitud variable similar al
del de Huffman conocido por el experto en la materia, lo cual
permite obtener una cadencia del orden de 55 bitios/s.
El hecho de utilizar las largas palabras de
código para codificar las longitudes de grandes segmentos
reconocidos, permite particularmente conservar el valor de cadencia
en una zona de variación limitada. En efecto, estos largos
segmentos reducen el número de segmentos reconocidos por segundo y
el número de longitudes a codificar.
Resumiendo, se codifica por ejemplo con un
código de longitud variable la diferencia entre la longitud del
segmento reconocido y la longitud del mejor representante
multiplicado por un cierto factor, pudiendo estar este factor
comprendido entre 0 (codificado absoluto) y 1 (codificado de la
diferencia).
\vskip1.000000\baselineskip
El alineamiento temporal se realiza por ejemplo
siguiendo la vía de DTW (abreviatura anglosajona de Dynamic Time
Warping) que se ha determinado en la búsqueda del "mejor
representante" para codificar el "segmento reconocido".
La figura 4 representa la vía (C) del DTW
correspondiente al contorno temporal que minimiza la distorsión
entre el parámetro a codificar (eje de las abscisas), por ejemplo el
vector de los coeficientes "cepstrales", y el "mejor
representante" (eje de las ordenadas). Este acercamiento se
describe en el libro que lleva por título "Traitement de la
parole", por el autor René Boite y Murat Kunt publicado por
Presses Polytechnique Romandes éditions 1987.
El codificado del alineamiento de los "mejores
representantes" se realiza por búsqueda de la proximidad más
inmediata en una tabla que contiene formas tipo. La elección de
estos formas tipo se realiza por ejemplo por un acercamiento
estadístico, tal como el aprendizaje sobre una base de datos de
palabra o por un acercamiento algebráico por ejemplo la descripción
mediante ecuaciones matemáticas parametrables, siendo estos
diferentes métodos conocidos por el experto en la materia.
Según otro acercamiento, valedero en el caso en
que los segmentos de pequeño tamaño se encuentren en proporción
importante, el procedimiento realiza un alineamiento de los
segmentos según la diagonal más bien que la vía exacta del DTW. La
cadencia es entonces nula.
\vskip1.000000\baselineskip
Cuando se clasifica y analizan los segmentos de
la base de datos de palabra pertenecientes a cada una de las clases
de unidades acústicas, se observa que se desprende una cierta
coherencia en la forma de los contornos de las energías. Además,
existen parecidos entre los contornos de energía de los mejores
representantes alineados por DTW y los contornos de la energía de
la señal a codificar.
El codificado de la energía se describe a
continuación en relación con las figuras 5 y 6, donde el eje de las
ordenadas corresponde a la energía de la señal de la palabra a
codificar expresada en dB y el eje de las abscisas en el tiempo
expresado en tramas.
La figura 5 representa la curva (III) que
reagrupa los contornos de energía de los mejores representantes
alineados y la curva (IV) los contornos de energía de los segmentos
reconocidos separados por * en la figura. Un segmento reconocido de
índice j está delimitado por dos puntos de coordenadas respectivas
[E_{sd}(j); T_{sd}(j)] y [E_{sf}(j);
T_{sf}(j)] donde E_{sd}(j) es la energía de
comienzo de segmento y E_{sf}(j) la energía de fin de
segmento, para los instantes T_{df} y T_{sf} correspondientes.
Las referencias E_{rd}(j) y E_{rf}(j) se
utilizan para los valores de energías del comienzo y del final de un
"mejor representante" y la referencia \DeltaE(j)
corresponde a la translación determinada para un segmento reconocido
de índice j.
El procedimiento comprende una primera etapa de
determinación de la translación a realizar.
Para ello se determina para cada comienzo de
"segmento reconocido", la diferencia \DeltaE(j)
existente entre el valor de energía E_{rd}(j) del mejor
representante (curva III) y el valor de energía E_{sd} del
comienzo del segmento reconocido (curva IV). Se obtiene un conjunto
de valores \DeltaE(j) que se cuantifica por ejemplo
uniformemente con el fin de conocer la translación a aplicar en el
decodificado. La cuantificación se realiza por ejemplo utilizando
métodos conocidos por el experto en la materia.
El procedimiento consiste particularmente en
utilizar los contornos de energía de los mejores representantes
(curva III) para reconstruir los contornos de energía de la señal a
codificar (curva IV).
Para cada segmento reconocido, una primera etapa
consiste en trasladar el contorno de energía del mejor representante
para hacerlo coincidir con la primera energía E_{rd}(j)
aplicándole la translación \DeltaE(j), definida en la
etapa de codificado por ejemplo, para determinar el valor
E_{sd}(j). Después de esta primera etapa de translación,
el procedimiento comprende una etapa de modificación de la pendiente
del contorno de energía del mejor representante con el fin de unir
el último valor de energía E_{rd}(j) del "mejor
representante" con la primera energía E_{sd}(j+1) del
segmento siguiente de índice j+1.
La figura 6 representa las curvas (VI) y (VII)
que corresponden respectivamente al contorno de energía original de
la señal de palabra a codificar y del contorno de energía
decodificado después de la realización de las etapas descritas
anteriormente.
Por ejemplo, el codificado de las energías de
comienzo de cada segmento sobre 4 bitios permite obtener para el
codificado segmental de la energía una cadencia del orden de 80
bitios/s.
\vskip1.000000\baselineskip
La figura 7 representa la evolución temporal de
una información de sonido binaria de cuatro segmentos sucesivos 35,
36, 37 para la señal a codificar curva (VII) y para los mejores
representantes (curva VIII) después del alineamiento temporal por
DTW.
En el codificado, el procedimiento ejecuta una
etapa de codificado de la información de sonido, por ejemplo
recorriendo la evolución temporal de la información de vibración de
las cuerdas vocales de los segmentos reconocidos y la de los
mejores representantes alineados (curva VIII) y codificando las
diferencias existentes \DeltaT_{k} entre estas dos curvas.
Estas diferencias \DeltaT_{k} pueden ser: un avance de la trama,
un retraso b de trama, la ausencia y/o la presencia de una
transición de referencia c (k correspondiente al índice de un
extremo de una zona de sonido).
Para ello, es posible utilizar un código de
longitud variable del cual un ejemplo se facilita en la tabla 1
dada a continuación, para codificar la corrección a aportar en cada
una de las transiciones de sonido para cada uno de los segmentos
reconocidos. Todos los segmentos al no comprender transición de
sonido, es posible reducir la cadencia asociada con el sonido
codificando solo las transiciones de sonido existentes en el sonido
a codificar y en los mejores representantes.
Según este método, la información de sonido se
codifica en aproximadamente 22 bitios por segundo.
\vskip1.000000\baselineskip
Para una información de sonido mixta tal
como:
- \bullet
- el porcentaje de sonido en sub-banda, el análisis de esta información recurre a un método descrito por ejemplo en el documento siguiente:
- "Multiband Excitation Vocoders", que tiene por autores D.W. Griffin and J.S. Lim, IEEE Trans. on Acoustics, Speech, and Signal Processing, vol. 36, no. 8, páginas 1223-1235, 1988;
- \bullet
- la frecuencia de transición entre una banda baja vocal y una banda alta sin voz, el codificado utiliza un método tal como el descrito en el documento que tiene por autores C. Laflamme, R. Salami, R. Matmti, and J-P. Adoul, titulado "Harmonic Stochastic Excitation (HSX) speech coding below 4 kbits/s", IEEE International Conference on Acoustics, Speech, and Signal Processing, Atlanta, Mayo 1996, páginas 204-207.
En estos dos casos, el codificado de la
información de sonido comprende igualmente el codificado de la
variación de la proporción de sonido.
El decodificador dispone de la información de
sonido de los "mejores representantes alineados" obtenida a
nivel del codificador.
La corrección se realiza por ejemplo de la forma
siguiente:
En cada detección del extremo de una zona de
sonido sobre los mejores representantes seleccionados para la
síntesis, el procedimiento aporta una información complementaria al
decodificador que es la corrección a realizar en este extremo. La
corrección puede ser un avance a o un retraso b a aportar a este
extremo. Este desplazamiento temporal se expresa por ejemplo en
número de tramas con el fin de obtener la posición exacta del
extremo de sonido de la señal de palabra original. La corrección
puede también tomar la forma de una supresión o de una introducción
de una transición.
La experiencia muestra que, en registros de
palabra, el número de zonas sonoras obtenidas por segundo es por
término medio del orden de 3 ó 4. Para darse cuenta fielmente de las
variaciones del paso, una forma de proceder consiste en transmitir
varios valores de paso por zona sonora. Con el fin de limitar la
cadencia, en lugar de transmitir toda la sucesión de los valores de
paso en una zona sonora, el contorno del paso es aproximado por una
sucesión de segmentos lineales.
Para cada zona sonora de la señal de palabra, el
procedimiento comprende una etapa de búsqueda de los valores del
paso a transmitir. Los valores de paso al comienzo y al final de la
zona sonora son sistemáticamente transmitidos. Los otros valores a
transmitir se determinan de la forma siguiente:
\bullet el procedimiento considera únicamente
los valores del paso al comienzo de los segmentos reconocidos.
Partiendo de la recta Di que une los valores del paso en los dos
extremos de la zona sonora, el procedimiento busca el comienzo del
segmento cuyo valor de paso es el más alejado de esta recta, lo cual
corresponde a una distancia d_{max}. Compara este valor d_{max}
con un valor umbral d_{umbral}. Si la distancia d_{max} es
superior a d_{umbral} el procedimiento descompone la recta inicial
Di en dos rectas D_{i1} y D_{i2} tomando el comienzo del
segmento encontrado como nuevo valor de paso a transmitir. Esta
operación es reiterada sobre estas dos nuevas zonas sonoras
delimitadas por las rectas D_{i1} y D_{i2} hasta que la
distancia d_{max} encontrada sea inferior a la distancia
d_{umbral}.
Para codificar los valores del paso así
determinados, el procedimiento utiliza por ejemplo un cuantificador
escalar predictivo sobre por ejemplo 5 bitios aplicado al logarítmo
del paso.
La predicción es por ejemplo el primer valor de
paso del mejor representante correspondiente a la posición del paso
a decodificar, multiplicada por un factor de predicción comprendido
por ejemplo entre 0 y 1.
Según otro modo de proceder, la predicción puede
ser el valor mínimo del registro de palabra a codificar. En este
caso, este valor puede ser transmitido al decodificador por
cuantificación escalar sobre por ejemplo 8 bitios.
Los valores de los pasos a transmitir al ser
determinados y codificados, el procedimiento comprende una etapa
donde el espaciamiento temporal se precisa, por ejemplo en número de
tramas, entre cada uno de estos valores de paso. Un código de
longitud variable permite por ejemplo codificar estos espaciamientos
sobre 2 bitios por término medio.
Este modo de proceder permite obtener una
cadencia de aproximadamente 65/bitios por segundo para un distancia
máxima sobre el periodo de paso de 7 muestras.
La etapa de decodificado comprende primeramente
una etapa de decodificado del espaciamiento temporal entre los
diferentes valores de paso transmitidos con el fin de recuperar los
instantes de actualización del paso, así como el valor del paso
para cada uno de estos instantes. El valor del paso para cada uno de
los tramos de la zona sonora es reconstituido por ejemplo por
interpolación lineal entre los valores transmitidos.
Claims (9)
1. Procedimiento de
codificado-decodificado de la palabra utilizando un
codificador de cadencia muy baja que comprende una etapa de
reconocimiento que permite identificar los "representantes" de
la señal de palabra y una etapa de codificado para segmentar la
señal de palabra y determinar el "mejor representante"
asociado con cada segmento reconocido, caracterizado porque
comprende al menos:
una etapa de
codificado-decodificado de uno de los parámetros al
menos de la prosodia de los segmentos reconocidos, del cual el
paso, utiliza una información de prosodia de los "mejores
representantes",
una etapa de codificado del paso de los
segmentos reconocidos que consiste en:
- \bullet
- transmitir los valores de paso al comienzo y al final de la zona sonora,
- \bullet
- partiendo de una recta Di que une los valores del paso en los dos extremos de la indicada zona sonora, el procedimiento busca el comienzo de segmento cuyo valor de paso es el más alejado de esta recta, lo cual corresponde a un distancia d_{max}.
- \bullet
- luego comparar este valor d_{max} con un valor umbral d_{umbral}.
\circ Si la distancia d_{max} es superior a
d_{umbral}, descomponer la recta inicial Di en dos rectas
D_{i1} y D_{i2} tomando el comienzo del segmento encontrado
D_{i2} como nuevo valor de paso a transmitir,
\circ reiterar la operación de descomposición
sobre estas dos nuevas zonas sonoras delimitadas por las rectas
D_{i1} y D_{i2} hasta que la distancia d_{max} encontrada sea
inferior a la distancia d_{umbral}.
2. Procedimiento según la reivindicación 1,
caracterizado porque comprende una etapa de codificado del
alineamiento temporal de los mejores representantes utilizando la
vía de DTW y buscando la proximidad más inmediata en una tabla de
formas.
3. Procedimiento según la reivindicación 1,
caracterizado porque la etapa de decodificado de la energía
comprende para cada segmento reconocido, una primera etapa que
consiste en trasladar el contorno de energía del mejor
representante una cantidad \DeltaE(j) para hacer coincidir
la primera energía E_{rd}(j) del "mejor
representante" con la primera energía E_{sd}(j+1) del
segmento reconocido de índice j+1.
4. Procedimiento según una de las
reivindicaciones 1 a 2, caracterizado porque la etapa de
codificado del paso se realiza por medio de un cuantificador
escalar predictivo.
5. Procedimiento según la reivindicación 4,
caracterizado porque la predicción es el primer valor del
paso del mejor representante que corresponde a la posición del paso
a decodificar, multiplicado por un factor de predicción.
6. Procedimiento según la reivindicación 4,
caracterizado porque la predicción es el valor mínimo del
registro de palabra a codificar.
7. Sistema de
codificado-decodificado de la palabra comprendiendo
al menos una memoria para almacenar un diccionario que comprende un
conjunto de representantes de la señal de palabra, un
microprocesador adaptado para determinar los segmentos reconocidos,
para reconstruir la palabra a partir de los "mejores
representantes" y para realizar las etapas del procedimiento
según una de las reivindicaciones 1 a 6.
8. Sistema según la reivindicación 7,
caracterizado porque el diccionario de los representantes es
común al codificador y al decodificador del sistema
codificado-decodificado.
9. Utilización del procedimiento según una de
las reivindicaciones 1 a 6 o del sistema según una de las
reivindicaciones 7 y 8 en el
codificado-decodificado de la palabra para cadencias
inferiores a 800 bitios/s y de preferencia inferiores a 400
bitios/s.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0013628A FR2815457B1 (fr) | 2000-10-18 | 2000-10-18 | Procede de codage de la prosodie pour un codeur de parole a tres bas debit |
FR0013628 | 2000-10-18 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2337020T3 true ES2337020T3 (es) | 2010-04-20 |
Family
ID=8855687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES01402684T Expired - Lifetime ES2337020T3 (es) | 2000-10-18 | 2001-10-17 | Procedimiento de codificado de la prosodia para un codificador de palabra con cadencia muy baja. |
Country Status (10)
Country | Link |
---|---|
US (1) | US7039584B2 (es) |
EP (1) | EP1197952B1 (es) |
JP (1) | JP2002207499A (es) |
KR (1) | KR20020031305A (es) |
AT (1) | ATE450856T1 (es) |
CA (1) | CA2359411C (es) |
DE (1) | DE60140651D1 (es) |
ES (1) | ES2337020T3 (es) |
FR (1) | FR2815457B1 (es) |
IL (1) | IL145992A0 (es) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2388439A1 (en) * | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for efficient frame erasure concealment in linear predictive based speech codecs |
US20040166481A1 (en) * | 2003-02-26 | 2004-08-26 | Sayling Wen | Linear listening and followed-reading language learning system & method |
JP4256189B2 (ja) * | 2003-03-28 | 2009-04-22 | 株式会社ケンウッド | 音声信号圧縮装置、音声信号圧縮方法及びプログラム |
US20050091044A1 (en) * | 2003-10-23 | 2005-04-28 | Nokia Corporation | Method and system for pitch contour quantization in audio coding |
FR2861491B1 (fr) * | 2003-10-24 | 2006-01-06 | Thales Sa | Procede de selection d'unites de synthese |
KR101410230B1 (ko) * | 2007-08-17 | 2014-06-20 | 삼성전자주식회사 | 종지 정현파 신호와 일반적인 연속 정현파 신호를 다른방식으로 처리하는 오디오 신호 인코딩 방법 및 장치와오디오 신호 디코딩 방법 및 장치 |
US8374873B2 (en) * | 2008-08-12 | 2013-02-12 | Morphism, Llc | Training and applying prosody models |
US8670990B2 (en) * | 2009-08-03 | 2014-03-11 | Broadcom Corporation | Dynamic time scale modification for reduced bit rate audio coding |
CN107256710A (zh) * | 2017-08-01 | 2017-10-17 | 中国农业大学 | 一种基于动态时间伸缩算法的哼唱旋律识别方法 |
CN110265049A (zh) * | 2019-05-27 | 2019-09-20 | 重庆高开清芯科技产业发展有限公司 | 一种语音识别方法及语音识别系统 |
US11830473B2 (en) * | 2020-01-21 | 2023-11-28 | Samsung Electronics Co., Ltd. | Expressive text-to-speech system and method |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4802223A (en) * | 1983-11-03 | 1989-01-31 | Texas Instruments Incorporated | Low data rate speech encoding employing syllable pitch patterns |
US5305421A (en) * | 1991-08-28 | 1994-04-19 | Itt Corporation | Low bit rate speech coding system and compression |
US5233660A (en) * | 1991-09-10 | 1993-08-03 | At&T Bell Laboratories | Method and apparatus for low-delay celp speech coding and decoding |
US5682464A (en) * | 1992-06-29 | 1997-10-28 | Kurzweil Applied Intelligence, Inc. | Word model candidate preselection for speech recognition using precomputed matrix of thresholded distance values |
EP0706172A1 (en) * | 1994-10-04 | 1996-04-10 | Hughes Aircraft Company | Low bit rate speech encoder and decoder |
US6393391B1 (en) * | 1998-04-15 | 2002-05-21 | Nec Corporation | Speech coder for high quality at low bit rates |
US5933805A (en) * | 1996-12-13 | 1999-08-03 | Intel Corporation | Retaining prosody during speech analysis for later playback |
JPH10260692A (ja) * | 1997-03-18 | 1998-09-29 | Toshiba Corp | 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム |
US6456965B1 (en) * | 1997-05-20 | 2002-09-24 | Texas Instruments Incorporated | Multi-stage pitch and mixed voicing estimation for harmonic speech coders |
FR2784218B1 (fr) * | 1998-10-06 | 2000-12-08 | Thomson Csf | Procede de codage de la parole a bas debit |
FR2786908B1 (fr) * | 1998-12-04 | 2001-06-08 | Thomson Csf | Procede et dispositif pour le traitement des sons pour correction auditive des malentendants |
US7069216B2 (en) * | 2000-09-29 | 2006-06-27 | Nuance Communications, Inc. | Corpus-based prosody translation system |
-
2000
- 2000-10-18 FR FR0013628A patent/FR2815457B1/fr not_active Expired - Fee Related
-
2001
- 2001-10-17 ES ES01402684T patent/ES2337020T3/es not_active Expired - Lifetime
- 2001-10-17 DE DE60140651T patent/DE60140651D1/de not_active Expired - Lifetime
- 2001-10-17 JP JP2001319231A patent/JP2002207499A/ja not_active Withdrawn
- 2001-10-17 CA CA2359411A patent/CA2359411C/fr not_active Expired - Fee Related
- 2001-10-17 IL IL14599201A patent/IL145992A0/xx unknown
- 2001-10-17 EP EP01402684A patent/EP1197952B1/fr not_active Expired - Lifetime
- 2001-10-17 AT AT01402684T patent/ATE450856T1/de not_active IP Right Cessation
- 2001-10-18 KR KR1020010064436A patent/KR20020031305A/ko not_active Application Discontinuation
- 2001-10-18 US US09/978,680 patent/US7039584B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
ATE450856T1 (de) | 2009-12-15 |
FR2815457A1 (fr) | 2002-04-19 |
KR20020031305A (ko) | 2002-05-01 |
CA2359411C (fr) | 2010-07-06 |
DE60140651D1 (de) | 2010-01-14 |
EP1197952A1 (fr) | 2002-04-17 |
US7039584B2 (en) | 2006-05-02 |
CA2359411A1 (fr) | 2002-04-18 |
IL145992A0 (en) | 2002-07-25 |
EP1197952B1 (fr) | 2009-12-02 |
JP2002207499A (ja) | 2002-07-26 |
US20020065655A1 (en) | 2002-05-30 |
FR2815457B1 (fr) | 2003-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2527168B2 (ja) | 音響信号から導かれた電気信号を区分する方法及び装置 | |
KR100647336B1 (ko) | 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법 | |
US20070118370A1 (en) | Methods and apparatuses for variable dimension vector quantization | |
EP0140777A1 (en) | Process for encoding speech and an apparatus for carrying out the process | |
EP0833305A2 (en) | Low bit-rate pitch lag coder | |
ES2337020T3 (es) | Procedimiento de codificado de la prosodia para un codificador de palabra con cadencia muy baja. | |
CN113781995B (zh) | 语音合成方法、装置、电子设备及可读存储介质 | |
ES2326646T3 (es) | Procedimiento de seleccion de unidades de sintesis. | |
Wong et al. | Very low data rate speech compression with LPC vector and matrix quantization | |
US6611797B1 (en) | Speech coding/decoding method and apparatus | |
JPS5827200A (ja) | 音声認識装置 | |
KR100463559B1 (ko) | 대수 코드북을 이용하는 켈프 보코더의 코드북 검색방법 | |
ES2366551T3 (es) | Codificación y decodificación dependiente de una fuente de múltiples libros de códigos. | |
Chou et al. | Variable dimension vector quantization of linear predictive coefficients of speech | |
ES2338801T3 (es) | Procedimiento de cuantificacion de un codificador de palabra de flujo muy bajo. | |
US20090024396A1 (en) | Audio signal encoding method and apparatus | |
Motlíček et al. | Minimization of transition noise and HNM synthesis in very low bit rate speech coding | |
JP3006790B2 (ja) | 音声符号化復号化方法及びその装置 | |
JP3271966B2 (ja) | 符号化装置及び符号化方法 | |
JPH09134196A (ja) | 音声符号化装置 | |
JP3019342B2 (ja) | 音声符号化方式 | |
Buzo et al. | Isolated word recognition based upon source coding techniques | |
Benyassine et al. | Finite-State VQ Excitations for CELP Coders | |
CN113826161A (zh) | 用于检测待编解码的声音信号中的起音以及对检测到的起音进行编解码的方法和设备 | |
KR100624545B1 (ko) | 티티에스 시스템의 음성압축 및 합성방법 |