ES2257289T3 - Metodo de determinacion de la probabilidad de sonoridad de señales de voz. - Google Patents
Metodo de determinacion de la probabilidad de sonoridad de señales de voz.Info
- Publication number
- ES2257289T3 ES2257289T3 ES00915722T ES00915722T ES2257289T3 ES 2257289 T3 ES2257289 T3 ES 2257289T3 ES 00915722 T ES00915722 T ES 00915722T ES 00915722 T ES00915722 T ES 00915722T ES 2257289 T3 ES2257289 T3 ES 2257289T3
- Authority
- ES
- Spain
- Prior art keywords
- harmonic
- omega
- spectrum
- voice
- band
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000001228 spectrum Methods 0.000 claims abstract description 63
- 206010011878 Deafness Diseases 0.000 claims description 14
- 230000003595 spectral effect Effects 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims 1
- 230000003044 adaptive effect Effects 0.000 abstract description 5
- 230000005284 excitation Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 3
- 238000000695 excitation spectrum Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 241001111950 Sonora Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
- G10L2025/935—Mixed voiced class; Transitions
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Electric Clocks (AREA)
- Machine Translation (AREA)
- Devices For Executing Special Programs (AREA)
- Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
Método para determinar una probabilidad de sonoridad de una señal de voz que comprende las etapas siguientes: generar un espectro de voz original Sù(ù) de la señal de voz, en el que ù es una frecuencia; generar un espectro de voz sintética Sù(ù) a partir del espectro de voz original Sù(ù) basándose en la consideración de que la señal de voz es puramente sonora; dividir el espectro de voz original Sù(ù) y el espectro de voz sintética Sù(ù) en una pluralidad de bandas B que contienen cada una de ellas una pluralidad de frecuencias ù, comparar dichos espectros de voz original y sintética en cada una de las bandas; y determinar una probabilidad de sonoridad para cada banda basándose en dicha comparación, en la que dicha probabilidad de sonoridad es un valor que indica un porcentaje de energía sorda y sonora para cada banda que indica si cada una de las bandas contiene una mezcla de energía sorda y sonora, comprendiendo además la etapa en la que se calcula una relación señal/ruido SNRb para cadabanda b de entre la pluralidad de bandas B basándose en dicha comparación, en la que en la que 1 = b = B, y Wb es el intervalo de frecuencias de una banda de decisión b-ésima, y en la que dicha probabilidad de sonoridad la proporciona: en la que P v(b) es la probabilidad de sonoridad Pv(b) para la banda b-ésima, y â es un número predeterminado.
Description
Método de determinación de la probabilidad de
sonoridad de señales de voz.
La presente invención se refiere a un método de
determinación de una probabilidad de sonoridad que indica un
porcentaje de energía sorda y sonora en una señal de voz. Más
particularmente, la presente invención se refiere a un método de
determinación de una probabilidad de sonoridad para una serie de
bandas de un espectro de voz de una señal de voz destinado para su
utilización en la codificación de la voz para mejorar la calidad de
la voz en relación con una variedad de condiciones de entrada.
El desarrollo de métodos de codificación de voz
de baja velocidad binaria (4,8 kb/s e inferiores) con una calidad
de voz muy alta es actualmente un tema de investigación popular.
Para alcanzar una compresión de la voz de alta calidad, se requiere
una clasificación robusta de la sonoridad de las señales de
voz.
Para sintetizar una voz de muy alta calidad a
velocidades binarias bajas (4,8 kb/s e inferiores) es esencial una
representación precisa del tipo sonoro o mixto de señales de voz.
Para velocidades binarias de 4,8 kb/s e inferiores, la Predicción
Lineal con Excitación por Código (CELP) convencional no proporciona
el grado adecuado de periodicidad. Un tamaño pequeño del libro de
códigos y una cuantificación de baja resolución de los factores de
ganancia a estas velocidades dan como resultado unas fluctuaciones
espectrales elevadas entre los armónicos de la altura tonal. Entre
los algoritmos de codificación de voz alternativos al CELP se
encuentran las técnicas de tipo armónico. No obstante, estas
técnicas requieren algoritmos robustos de altura tonal y de
sonoridad para producir una voz de alta calidad.
Con anterioridad a este documento, la información
de sonoridad se ha presentado en una serie de formas. En uno de los
planteamientos, una trama completa de voz se puede clasificar bien
como sonora o bien como sorda. Aunque este tipo de determinación de
la sonoridad es muy eficaz, el mismo da como resultado una calidad
de la voz sintética, no natural.
Otro de los planteamientos de determinación de la
sonoridad se basa en la técnica Multibanda. En esta técnica, el
espectro de la voz se divide en un número diverso de bandas y se
realiza una decisión binaria de la sonoridad (Sonora o Sorda) para
cada banda. Aunque este tipo de determinación de la sonoridad
requiere muchos bits para representar la información de sonoridad,
se pueden producir errores de sonoridad durante la clasificación,
ya que el método de determinación de la sonoridad es un modelo
imperfecto que introduce algo de "zumbido" y distorsiones en
la voz sintetizada. Estos errores son muy perceptibles,
especialmente en las bandas de baja frecuen-
cia.
cia.
Todavía otro de los métodos de determinación de
la sonoridad se basa en una frecuencia de corte de la sonoridad. En
este caso, los componentes de frecuencia por debajo de la
frecuencia de corte se consideran como sonoros y por encima de la
frecuencia de corte se consideran como sordos. Aunque esta técnica
es más eficaz que el concepto convencional de sonoridad multibanda,
la misma no puede producir voz sonora para componentes de alta
frecuencia.
Por consiguiente, es un objetivo de la presente
invención proporcionar un método de determinación de la sonoridad
que permita que cada banda de frecuencia esté compuesta por energía
tanto sonora como sorda para mejorar la calidad de la voz de
salida.
En el documento US 5.774.837 A se da a conocer un
método para determinar una probabilidad de sonoridad de una señal
de voz que comprende las etapas en las que se genera un espectro
original S_{\omega}(\omega) de la señal de voz, en el
que \omega es una frecuencia, se genera un espectro de voz
sintética a partir del espectro de voz original basándose en la
consideración de que la señal de voz es puramente sonora, se divide
el espectro de voz original y el espectro de voz sintética en una
pluralidad de bandas que contienen cada una de ellas una pluralidad
de frecuencias, se compara dicho espectro de voz sintética original
en cada banda y se determina una probabilidad de sonoridad para
cada banda sobre la base de dicha comparación.
Según la presente invención, se proporciona, de
acuerdo con las reivindicaciones adjuntas, un método de
determinación de la probabilidad de sonoridad para realizar la
estimación de un porcentaje de energía sorda y sonora para cada
armónico en cada una de entre una pluralidad de bandas de un
espectro de señal de voz.
Inicialmente, se genera un espectro de voz
sintética basándose en la consideración de que la voz es puramente
sonora. A continuación, el espectro de voz original y el espectro
de voz sintética se dividen en una pluralidad de bandas.
Seguidamente, los espectros de voz sintética y original se comparan
armónico por armónico, y a cada armónico de las bandas del espectro
de voz original se le asigna una decisión de sonoridad bien como
completamente sonoro o bien como completamente sordo comparando el
error con un umbral adaptativo. Si el error para cada armónico es
menor que el umbral adaptativo, el armónico correspondiente se
declara como sonoro; en cualquier otro caso, el armónico se declara
como sordo. A continuación, se calcula la probabilidad de sonoridad
para cada banda como la relación entre el número de armónicos
sonoros y el número total de armónicos en la banda de decisión
correspondiente.
Además, se determina la relación de señal/ruido
para cada una de las bandas basándose en los espectros de voz
original y sintética y se determina la probabilidad de sonoridad
para cada banda basándose en la relación de señal/ruido para la
banda específica.
A continuación se describe la presente invención
detalladamente haciendo referencia a las figuras adjuntas, en las
cuales:
la Fig. 1 es un diagrama de bloques del método de
probabilidad de sonoridad según una primera forma de realización de
la presente invención;
la Fig. 2 es un diagrama de bloques del método de
probabilidad de sonoridad de acuerdo con una segunda forma de
realización de la presente invención; y
las Figs. 3A y 3B son diagramas de bloques de un
codificador y decodificador de voz, respectivamente, que
constituyen realizaciones del método de la presente invención.
Para realizar una estimación de la sonoridad de
un segmento de voz, el método de la presente invención considera
que se conoce un periodo de altura tonal (frecuencia fundamental)
de una señal de voz de entrada. Inicialmente, se obtiene un
espectro de voz S_{\omega}(\omega) a partir de un
segmento de una señal de voz de entrada usando un procesado de
Transformada Rápida de Fourier (FFT). Además, se crea un espectro
de voz sintética basándose en la consideración de que el segmento
de la señal de voz de entrada es totalmente sonoro.
La Fig. 1 ilustra una primera forma de
realización del método de determinación de probabilidad de
sonoridad de la presente invención. El espectro de voz
S_{\omega}(\omega) se proporciona a una sección 1 de
muestreo de armónicos en la que el espectro de voz
S_{\omega}(\omega) se muestrea en los armónicos de la
frecuencia fundamental para obtener una magnitud de cada armónico.
Las magnitudes de los armónicos se suministran a una sección 2 de
reconstrucción del espectro en la que se genera un lóbulo (ancho de
banda del armónico) para cada armónico y cada lóbulo del armónico
se normaliza de manera que presente una amplitud de pico que sea
igual a la magnitud de armónico correspondiente al armónico, para
generar un espectro de voz sintética S_{\omega}(\omega).
A continuación, el espectro de voz original
S_{\omega}(\omega) y el espectro de voz sintética
S_{\omega}(\omega) se dividen en un número diverso de
bandas de decisión B (por ejemplo, típicamente 8 bandas de
frecuencia no uniformes) por medio de una sección 3 de división de
bandas.
A continuación, las bandas de decisión B del
espectro de voz original S_{\omega}(\omega) y el
espectro de voz sintética S_{\omega}(\omega) se
suministran a una sección 4 de cálculo de la relación señal/ruido
(SNR) en la que se calcula de la manera siguiente una relación de
señal/ruido, SNR_{b}, para cada banda b de entre el número total
de bandas de decisión B:
SNR_{b} =
\frac{\sum_{\omega \in Wb} |S_{\omega}(\omega)|^{2}}{\sum_{\omega
\in Wb} (|S\omega(\omega)| - |\hat{S} \omega(\omega)|)^{2}};
\hskip0.5cm1 \leq b \leq B.
en la que W_{b} es el intervalo
de frecuencias de una banda de decisión
b-ésima.
La relación señal/ruido SNR_{b} correspondiente
a cada banda de decisión b se suministra a una sección 5 de cálculo
de la probabilidad de sonoridad, en la que a continuación se
calcula una probabilidad de sonoridad, P v(b) para la banda
b-ésima, de la manera siguiente:
en la que 0 \leq \beta \leq 1
es un factor constante que se puede fijar experimentalmente. La
experimentación ha demostrado que el valor óptimo típico de \beta
es
0,5.
La Fig. 2 es un diagrama de bloques que ilustra
una segunda forma de realización del método de determinación de la
probabilidad de sonoridad de la presente invención. Tal como en la
Fig. 1, el espectro de voz sintética S_{\omega}(\omega)
lo genera la sección 1 de muestreo de armónicos y la sección 2 de
reconstrucción del espectro, y el espectro de voz original
S_{\omega}(\omega) y el espectro de voz sintética
S_{\omega}(\omega) se dividen en una pluralidad de
bandas de decisión B por medio de una sección 3 de división de
bandas. A continuación, el espectro de voz original
S_{\omega}(\omega) y el espectro de voz sintética
S_{\omega}(\omega) se comparan armónico por armónico para cada banda de decisión b por medio de una sección 6 de clasificación de armónicos. Si la diferencia entre el espectro de voz original S_{\omega}(\omega) y el espectro de voz sintética S_{\omega}(\omega) correspondiente a la banda de decisión b es menor que el umbral adaptativo, el armónico correspondiente se declara como sonoro por parte de la sección 6 de clasificación de armónicos, en cualquier otro caso el armónico se declara como sordo. En particular, se determina que cada armónico del espectro de voz es bien sonoro, V(k) = 1, ó bien sordo, V(k) = 0, (en las que k es el número del armónico y 1 \leq k \leq L), dependiendo de la magnitud de la diferencia (error) entre el espectro de voz original S_{\omega}(\omega) y el espectro de voz sintética S_{\omega}(\omega) para el armónico correspondiente k. En este caso, L es el número total de armónicos en una banda de voz de 4 kHz.
S_{\omega}(\omega) se comparan armónico por armónico para cada banda de decisión b por medio de una sección 6 de clasificación de armónicos. Si la diferencia entre el espectro de voz original S_{\omega}(\omega) y el espectro de voz sintética S_{\omega}(\omega) correspondiente a la banda de decisión b es menor que el umbral adaptativo, el armónico correspondiente se declara como sonoro por parte de la sección 6 de clasificación de armónicos, en cualquier otro caso el armónico se declara como sordo. En particular, se determina que cada armónico del espectro de voz es bien sonoro, V(k) = 1, ó bien sordo, V(k) = 0, (en las que k es el número del armónico y 1 \leq k \leq L), dependiendo de la magnitud de la diferencia (error) entre el espectro de voz original S_{\omega}(\omega) y el espectro de voz sintética S_{\omega}(\omega) para el armónico correspondiente k. En este caso, L es el número total de armónicos en una banda de voz de 4 kHz.
A continuación se calcula la probabilidad de
sonoridad P v(b) para cada banda b por medio de una sección
7 de probabilidad de sonoridad como la relación de energía entre
los armónicos sonoros y todos los armónicos en la banda de decisión
correspondiente:
Pv(b) =
\sqrt{\frac{\sum_{k\varepsilon Wb} V(k)
A(k)^{2}}{\sum_{k\varepsilon Wb}
A(k)^{2}}}
en la que V(k) es la
decisión binaria de sonoridad y A(k) es la amplitud del
espectro para el armónico k^{ésimo} en la banda de decisión
b^{ésima}.
El método descrito anteriormente de determinación
de la probabilidad de sonoridad se puede utilizar en un Codificador
Predictivo Lineal con Excitación de Armónicos
(HE-LPC) tal como se muestra en los diagramas de
bloques de las Figs. 3A y 3B. En el codificador
HE-LPC (Fig. 3A), el planteamiento para representar
una señal de voz de entrada consiste en usar un modelo de producción
de voz en el que la voz se forma como el resultado de hacer pasar
una señal de excitación a través de un filtro inverso LPC lineal
variable con el tiempo, que representa el modelo de las
características resonantes de la envolvente espectral de la voz. El
filtro inverso LPC se representa mediante coeficientes LPC los
cuales se cuantifican en forma de frecuencias en rayas espectrales
(LSF). En el HE-LPC, la señal de excitación la
especifica la frecuencia fundamental, las amplitudes espectrales de
los armónicos y las probabilidades de sonoridad para las diversas
bandas de frecuencia.
En el decodificador (Fig. 3B), la parte sonora
del espectro de excitación se determina como la suma de ondas
sinusoidales de armónicos que proporcionan las relaciones adecuadas
de energía sonora/sorda sobre la base de las probabilidades de
sonoridad para cada banda de frecuencias. Las fases de los armónicos
de las ondas sinusoidales se predicen a partir de la información de
la trama anterior. Para la parte sorda del espectro de excitación,
un espectro de ruido aleatorio blanco se normaliza a las amplitudes
de los armónicos sordos para proporcionar relaciones apropiadas de
energía sonora/sorda para cada banda de frecuencias. A
continuación, las señales de excitación sonoras y sordas se suman
conjuntamente para formar la señal global de excitación
sintetizada. A continuación, la excitación resultante se conforma
por medio de un filtro LPC lineal variable con el tiempo para
formar la voz sintetizada final. Para mejorar la calidad de la voz
de salida y conseguir que la misma resulte más limpia, se usa un
postfiltro en el dominio de la frecuencia.
Las pruebas de escucha informales han indicado
que el algoritmo HE-LPC produce una voz de muy alta
calidad para una variedad de condiciones de entrada limpias y de
ruido de fondo. La experimentación demostró que utilizando el método
de determinación de probabilidad de sonoridad de la presente
invención en el HE-LPC se introdujeron mejoras
importantes.
Aunque la presente invención se ha mostrado y
descrito con respecto a formas de realización preferidas,
resultarán evidentes para los expertos en la materia diversos
cambios y modificaciones dentro del alcance de la invención. El
alcance de la invención lo definen las reivindicaciones
adjuntas.
Claims (5)
1. Método para determinar una probabilidad de
sonoridad de una señal de voz que comprende las etapas
siguientes:
generar un espectro de voz original
S_{\omega}(\omega) de la señal de voz, en el que
\omega es una frecuencia;
generar un espectro de voz sintética
S_{\omega}(\omega) a partir del espectro de voz original
S_{\omega}(\omega) basándose en la consideración de que
la señal de voz es puramente sonora;
dividir el espectro de voz original
S_{\omega}(\omega) y el espectro de voz sintética
S_{\omega}(\omega) en una pluralidad de bandas B que
contienen cada una de ellas una pluralidad de frecuencias
\omega,
comparar dichos espectros de voz original y
sintética en cada una de las bandas; y
determinar una probabilidad de sonoridad para
cada banda basándose en dicha comparación, en la que dicha
probabilidad de sonoridad es un valor que indica un porcentaje de
energía sorda y sonora para cada banda que indica si cada una de
las bandas contiene una mezcla de energía sorda y sonora,
comprendiendo además la etapa en la que se calcula una relación
señal/ruido SNR_{b} para cada banda b de entre la pluralidad de
bandas B basándose en dicha comparación, en la que
SNR_{b} =
\frac{\sum_{\omega \in Wb} |S_{\omega}(\omega)|^{2}}{\sum_{\omega\in
Wb} (| S_{\omega}(\omega)| - |\hat{S}_{\omega}(\omega)|)^{2}};
\hskip0.5cm1 \leq b \leq B
en la que 1 \leq b \leq B, y
W_{b} es el intervalo de frecuencias de una banda de decisión
b-ésima, y en la que dicha probabilidad de sonoridad la
proporciona:
Pv(b) =
1,0 si SNR_{b} \geq
40,
Pv(b) =
\left( \frac{2}{75} SNR_{b} - \frac{1}{15} \right)^{\beta} para \ 0
\leq \beta \leq 1 \ si \ 2,5 < SNR_{b} < 40,
y
\vskip1.000000\baselineskip
Pv(b) =
0,0 si SNR_{b} \leq
2.5,
en la que P v(b) es la
probabilidad de sonoridad Pv(b) para la banda b-ésima, y
\beta es un número
predeterminado.
2. Método para determinar una probabilidad de
sonoridad de una señal de voz según la reivindicación 1, en el que
dicha etapa en la que se genera un espectro de voz sintética
S_{\omega}(\omega) comprende las etapas siguientes:
muestrear el espectro de voz original
S_{\omega}(\omega) en los armónicos de una frecuencia
fundamental de dicha señal de voz para obtener una magnitud de
armónico correspondiente a cada armónico;
generar un lóbulo de armónico para cada armónico
basándose en la magnitud de armónico correspondiente a cada
armónico; y
normalizar el lóbulo de armónico para cada
armónico de manera que presente una amplitud de pico que sea igual
a la magnitud de armónico correspondiente a cada armónico para
generar el espectro de voz sintética
S_{\omega}(\omega).
3. Método para determinar una probabilidad de
sonoridad de una señal de voz según la reivindicación 1, en el que
\beta es 0,5.
4. Método según la reivindicación 1, en el que
\omega representa un armónico de una frecuencia fundamental de
dicha señal de voz, y dicha etapa de comparación comprende la
comparación del espectro de voz original y el espectro de voz
sintética para cada armónico de cada banda b de la pluralidad de
bandas B para determinar una diferencia entre el espectro de voz
original y el espectro de voz sintética para cada armónico de cada
banda b de la pluralidad de bandas de decisión B; y dicha etapa de
determinación comprende:
determinar si cada armónico del espectro de voz
original es sonoro, V(k) = 1, ó sordo, V(k) = 0,
basándose en la diferencia entre el espectro de voz original y el
espectro de voz sintética para cada armónico k, en el que
V(k) es una determinación binaria de la sonoridad, 1 < k
\leq L, y L es el número total de armónicos en una banda de voz
de 4 kHz; y
\newpage
determinar una probabilidad de sonoridad P
v(b) para cada banda b, en la que
Pv(b) =
\sqrt{\frac{\sum_{k\varepsilon Wb} V(k)
A(k)^{2}}{\sum_{k\varepsilon
Wb}A(k)^{2}}}
en la que A(k) es una
amplitud espectral para el armónico k^{ésimo} en la banda
b^{ésima}.
5. Método para determinar una probabilidad de
sonoridad de una señal de voz según la reivindicación 4, en el que
dicha etapa en la que se genera un espectro de voz sintética
comprende las etapas siguientes:
muestrear el espectro de voz original en los
armónicos de una frecuencia fundamental de dicha señal de voz para
obtener una magnitud de armónico correspondiente a cada
armónico;
generar un lóbulo de armónico para cada armónico
basándose en la magnitud de armónico correspondiente a cada
armónico; y
normalizar el lóbulo de armónico para cada
armónico de manera que presente una amplitud de pico que sea igual
a la magnitud de armónico correspondiente a cada armónico para
generar el espectro de voz sintética.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/255,263 US6253171B1 (en) | 1999-02-23 | 1999-02-23 | Method of determining the voicing probability of speech signals |
US255263 | 1999-02-23 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2257289T3 true ES2257289T3 (es) | 2006-08-01 |
Family
ID=22967555
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES00915722T Expired - Lifetime ES2257289T3 (es) | 1999-02-23 | 2000-02-23 | Metodo de determinacion de la probabilidad de sonoridad de señales de voz. |
Country Status (7)
Country | Link |
---|---|
US (2) | US6253171B1 (es) |
EP (1) | EP1163662B1 (es) |
AT (1) | ATE316282T1 (es) |
AU (1) | AU3694800A (es) |
DE (1) | DE60025596T2 (es) |
ES (1) | ES2257289T3 (es) |
WO (1) | WO2000051104A1 (es) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030195745A1 (en) * | 2001-04-02 | 2003-10-16 | Zinser, Richard L. | LPC-to-MELP transcoder |
US20030028386A1 (en) * | 2001-04-02 | 2003-02-06 | Zinser Richard L. | Compressed domain universal transcoder |
KR100446242B1 (ko) * | 2002-04-30 | 2004-08-30 | 엘지전자 주식회사 | 음성 부호화기에서 하모닉 추정 방법 및 장치 |
AU2003250410A1 (en) * | 2002-09-17 | 2004-04-08 | Koninklijke Philips Electronics N.V. | Method of synthesis for a steady sound signal |
KR100546758B1 (ko) * | 2003-06-30 | 2006-01-26 | 한국전자통신연구원 | 음성의 상호부호화시 전송률 결정 장치 및 방법 |
US7516067B2 (en) * | 2003-08-25 | 2009-04-07 | Microsoft Corporation | Method and apparatus using harmonic-model-based front end for robust speech recognition |
US7447630B2 (en) * | 2003-11-26 | 2008-11-04 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement |
WO2011118207A1 (ja) * | 2010-03-25 | 2011-09-29 | 日本電気株式会社 | 音声合成装置、音声合成方法および音声合成プログラム |
US20130282372A1 (en) | 2012-04-23 | 2013-10-24 | Qualcomm Incorporated | Systems and methods for audio signal processing |
CN112908345B (zh) * | 2019-01-29 | 2022-05-31 | 桂林理工大学南宁分校 | 一种物联网语音压缩与解压方法 |
CN112885380B (zh) * | 2021-01-26 | 2024-06-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种清浊音检测方法、装置、设备及介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5715365A (en) * | 1994-04-04 | 1998-02-03 | Digital Voice Systems, Inc. | Estimation of excitation parameters |
US5774837A (en) * | 1995-09-13 | 1998-06-30 | Voxware, Inc. | Speech coding system and method using voicing probability determination |
TW358925B (en) * | 1997-12-31 | 1999-05-21 | Ind Tech Res Inst | Improvement of oscillation encoding of a low bit rate sine conversion language encoder |
-
1999
- 1999-02-23 US US09/255,263 patent/US6253171B1/en not_active Expired - Fee Related
-
2000
- 2000-02-23 ES ES00915722T patent/ES2257289T3/es not_active Expired - Lifetime
- 2000-02-23 EP EP00915722A patent/EP1163662B1/en not_active Expired - Lifetime
- 2000-02-23 DE DE60025596T patent/DE60025596T2/de not_active Expired - Lifetime
- 2000-02-23 AT AT00915722T patent/ATE316282T1/de not_active IP Right Cessation
- 2000-02-23 AU AU36948/00A patent/AU3694800A/en not_active Abandoned
- 2000-02-23 WO PCT/US2000/002520 patent/WO2000051104A1/en active IP Right Grant
-
2001
- 2001-02-28 US US09/794,150 patent/US6377920B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20010018655A1 (en) | 2001-08-30 |
WO2000051104A1 (en) | 2000-08-31 |
EP1163662A4 (en) | 2004-06-16 |
AU3694800A (en) | 2000-09-14 |
DE60025596D1 (de) | 2006-04-06 |
US6377920B2 (en) | 2002-04-23 |
EP1163662B1 (en) | 2006-01-18 |
DE60025596T2 (de) | 2006-09-14 |
ATE316282T1 (de) | 2006-02-15 |
US6253171B1 (en) | 2001-06-26 |
EP1163662A1 (en) | 2001-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1136537C (zh) | 用再生相位信息合成语言的方法和装置 | |
US9653088B2 (en) | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding | |
JP4166673B2 (ja) | 相互使用可能なボコーダ | |
ES2349554T3 (es) | Codificación de señales. | |
US6377916B1 (en) | Multiband harmonic transform coder | |
Ebner et al. | Audio inpainting with generative adversarial network | |
EP0640952B1 (en) | Voiced-unvoiced discrimination method | |
AU746342B2 (en) | Method and apparatus for pitch estimation using perception based analysis by synthesis | |
McAulay et al. | Magnitude-only reconstruction using a sinusoidal speech modelMagnitude-only reconstruction using a sinusoidal speech model | |
US6963833B1 (en) | Modifications in the multi-band excitation (MBE) model for generating high quality speech at low bit rates | |
ES2257289T3 (es) | Metodo de determinacion de la probabilidad de sonoridad de señales de voz. | |
Sturmel et al. | Informed source separation using iterative reconstruction | |
US20050137858A1 (en) | Speech coding | |
Yang | Low bit rate speech coding | |
US6173256B1 (en) | Method and apparatus for audio representation of speech that has been encoded according to the LPC principle, through adding noise to constituent signals therein | |
CN101496097A (zh) | 用于在与语音信号相关联的包中包含识别符的系统及方法 | |
McCree et al. | Implementation and evaluation of a 2400 bit/s mixed excitation LPC vocoder | |
Vincent et al. | A prototype system for object coding of musical audio | |
Caspers et al. | Role of multi-pulse excitation in synthesis of natural-sounding voiced speech | |
Brandstein et al. | The multi-band excitation speech coder | |
Hernandez-Gomez et al. | Phonetically-driven CELP coding using self-organizing maps | |
Mahale et al. | A fixed dimension modified sinusoid model (FD-MSM) for single microphone sound separation | |
Kulesza et al. | Tonality estimation and frequency tracking of modulated tonal components | |
Mcaulay et al. | Sinusoidal transform coding | |
Kang et al. | Phase adjustment in waveform interpolation |