ES2276845T3 - Metodos y aparatos para la clasificacion de voz robusta. - Google Patents
Metodos y aparatos para la clasificacion de voz robusta. Download PDFInfo
- Publication number
- ES2276845T3 ES2276845T3 ES01984988T ES01984988T ES2276845T3 ES 2276845 T3 ES2276845 T3 ES 2276845T3 ES 01984988 T ES01984988 T ES 01984988T ES 01984988 T ES01984988 T ES 01984988T ES 2276845 T3 ES2276845 T3 ES 2276845T3
- Authority
- ES
- Spain
- Prior art keywords
- voice
- classification
- classifier
- parameters
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 206010011878 Deafness Diseases 0.000 claims description 49
- 230000001755 vocal effect Effects 0.000 claims description 36
- 230000001052 transient effect Effects 0.000 claims description 27
- 238000004458 analytical method Methods 0.000 claims description 12
- 230000000694 effects Effects 0.000 claims description 6
- 230000003466 anti-cipated effect Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims 1
- 230000007613 environmental effect Effects 0.000 abstract description 3
- 230000003071 parasitic effect Effects 0.000 description 20
- 230000008569 process Effects 0.000 description 17
- 230000007704 transition Effects 0.000 description 13
- 230000005540 biological transmission Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 9
- 238000003786 synthesis reaction Methods 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 7
- 238000004519 manufacturing process Methods 0.000 description 6
- 238000011002 quantification Methods 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 244000045947 parasite Species 0.000 description 4
- 230000007774 longterm Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000000737 periodic effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002459 sustained effect Effects 0.000 description 2
- 241001111950 Sonora Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
- G10L19/025—Detection of transients or attacks for time/frequency resolution switching
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Exchange Systems With Centralized Control (AREA)
- Machine Translation (AREA)
Abstract
Método para la aplicación de un motor turbodiesel con inyección electrónica a un vehículo autopropulsado como una motocicleta, un "scooter", un "quad " o un triciclo a motor, y a generadores eléctricos y maquinaria agrícola, caracterizado porque dicha aplicación consiste en la adaptación de un motor turbodiesel con inyección electrónica de tipo "common rail" comercial (40) completo o en la utilización de las partes de un motor turbodiesel con inyección electrónica de tipo "common rail" comercial (40), excepto el bloque (52), añadiendo un nuevo bloque (120), en donde dicho motor (40) puede ser un motor monocilíndrico (39), un motor bicilíndrico en línea (30), un motor tricilíndrico en línea (31), un motor tetracilíndrico en línea (32), un motor bicilíndrico en "V" (33), un motor tetracilíndrico en "V" (34), un motor bicilíndrico "boxer" (35), y el motor turbodiesel con inyección electrónica adaptado (50) puede montarse sobre los siguientes tipos de chasis: de motocicleta: tubular de acero ode aluminio (11), de doble viga de aluminio (12), tubular cuadrado de acero (13), doble viga portante (14) y tubular de doble cuna (15); convencional de "scooter" (26); convencional de "quad" (27); que el chasis sea el propio motor (28); y en los chasis de generadores eléctricos y de maquinaria agrícola.
Description
Métodos y aparatos para la clasificación de voz
robusta.
Las realizaciones que se presentan se refieren
al campo del procesamiento de voz. Particularmente, las
realizaciones que se presentan tratan sobre un método y un aparato
nuevos y mejorados para la clasificación de voz robusta.
La transmisión de voz mediante técnicas
digitales se ha difundido ampliamente, particularmente en
aplicaciones radiotelefónicas digitales y de larga distancia. Esto,
en cambio, ha creado el interés de determinar la cantidad mínima de
información que puede ser enviada a través de un canal a la vez que
se mantiene la calidad percibida de voz recompuesta. Si se
transmite voz mediante simple muestreo y digitalización, se requiere
una velocidad de transmisión de datos en el orden de los sesenta y
cuatro kilobits por segundo (kbps) para obtener la calidad de la
conversación de los teléfonos análogos convencionales. Sin embargo,
a través del uso del análisis de voz, seguido de una codificación,
transmisión y re-síntesis adecuadas en el receptor,
se puede lograr una reducción significativa de la velocidad de
transmisión de datos. Mientras más preciso sea el análisis de voz,
más adecuadamente se realizará la codificación de la información,
reduciendo así la velocidad de transmisión de datos.
A los dispositivos que emplean técnicas para
comprimir voz mediante la extracción de parámetros que se relacionan
con un modelo de generación de voz humana, se les llama
codificadores de voz. Un codificador de voz divide la señal de voz
entrante en bloques de tiempo o segmentos/tramos de análisis. Los
codificadores de voz típicamente constan de un codificador y un
descodificador, o un codec. El codificador analiza el segmento de
voz para extraer determinados parámetros relevantes, y después
convertir los parámetros a representación binaria, o sea, a un
conjunto de bits o a un paquete de datos binarios. Los paquetes de
datos se transmiten a través del canal de comunicación a un
receptor y a un decodificador. El decodificador procesa los paquetes
de datos, los reconvierte para producir los parámetros y después
re-sintetiza los segmentos de voz usando los
parámetros reconvertidos.
La función del codificador de voz es comprimir
la señal digitalizada de voz en una señal de baja frecuencia de
bits al eliminar todas las redundancias naturales inherentes a voz.
La compresión digital se logra al representar el segmento de voz de
entrada con un conjunto de parámetros y empleando la cuantificación
para representar los parámetros con un conjunto de bits. Si el
segmento de voz tiene un número de bits (NI) y el paquete de datos
producido por el codificador de voz tiene un número de bits (No), el
factor de compresión obtenido por el codificador de voz es Cr =
NI/No. El reto consiste en mantener la calidad de voz de voz
decodificada de alta a la vez que se obtiene el factor de
compresión requerido. El comportamiento de un codificador de voz
depende de (1) cuán bien funciona el modelo de voz, o cuán bien
funciona la combinación de los procesos de análisis y síntesis que
se describen anteriormente, y (2) de cuán bien funciona el proceso
de cuantificación de parámetros a la frecuencia requerida de bits
No por cada segmento. El objetivo del modelo de voz es, por lo
tanto, captar la esencia de la señal de voz, o la calidad de voz
deseada, con un conjunto pequeño de parámetros para cada
segmento.
Los codificadores de voz pueden ser
implementados como codificadores de dominio de tiempo, los cuales
tratan de captar la forma de onda de un determinado período de
tiempo de voz mediante el empleo del procesamiento de alta
resolución de tiempo para codificar pequeños segmentos de voz
(usualmente subsegmentos de 5 milisegundos (ms) de una vez. Para
cada subsegmento se encuentra una información representativa de alta
precisión perteneciente a un libro de código por medio de varios
algoritmos de búsqueda conocidos en la técnica. Alternativamente,
los codificadores de voz pueden ser implementados como codificadores
de dominio de frecuencia, los cuales tienen como objetivo captar el
espectro de voz a corto plazo del segmento de voz con un conjunto
de parámetros (análisis) y utilizan el proceso de síntesis
correspondiente para recrear la forma de onda de voz proveniente de
los parámetros espectrales. El cuantificador de parámetros preserva
los parámetros mediante la representación de éstos con
representaciones almacenadas de vectores de código en
correspondencia con las técnicas de cuantificación conocidas
descritas en A. Gerso & R.M. Gray, Vector Quantization and
Signal Compression (Cuantificación de los vectores y la compresión
de la señal (1992).
Un codificador de períodos de tiempo de voz muy
conocido es el Código de Predicción Lineal Excitada (por sus siglas
en inglés: CELP, Code Excited Linear Predictive), codificador
descrito en L.B. Rabiner & R.W. Schafer, Digital Processing of
Speech Signals (Procesamiento Digital de las Señales de Voz)
396-453 (1978). En un codificador CELP, las
correlaciones a corto plazo o redundancias en la señal de voz son
eliminadas por un análisis de Predicción Lineal (Por sus siglas en
inglés: LP, Lineal Predictive), el cual halla los coeficientes de
las ondas del sonido que caracterizan a una vocal determinada a
corto plazo. Al aplicar el filtro de predicción a corto plazo al
segmento de voz, se genera una señal residual LP, la cual es
posteriormente modelada y cuantificada con parámetros de filtros de
predicción a largo plazo y una posterior codificación estocástica.
De ahí que la codificación CELP divide la tarea de codificar la
forma de onda de voz en un periodo de tiempo en tareas separadas de
codificación de coeficientes de los filtros PL a corto plazo y la
codificación del residuo LP. La codificación de períodos de tiempo
puede efectuarse a una frecuencia fija (por ejemplo, usando el mismo
número de bits, No. para cada segmento) o una frecuencia variable
(en la cual las diferentes frecuencias de bits son usadas para
diferentes tipos de contenidos del segmento). Los codificadores de
frecuencia variable sólo intentan usar la cantidad de bits
necesarios para codificar los parámetros codec a un nivel adecuado
para obtener la calidad deseada. Un ejemplo de codificador de
frecuencia variable CELP se describe en la Patente de E.U. No. 5
414 796, la cual fue asignada al cesionario de las
\hbox{realizaciones que se muestran en el presente documento.}
Los codificadores de dominio de tiempo tales
como el codificador CELP típicamente cuentan con un mayor número de
bits, No, por segmento para preservar la exactitud de la forma de
onda de voz en un dominio de tiempo. Tales codificadores
típicamente transmiten una excelente calidad de voz siempre que el
número de bits, No, por segmento sea relativamente grande (por
ejemplo, 8 kbps ó más). Sin embargo, a frecuencias bajas de bits (4
kbps e inferiores), los codificadores de dominio de tiempo cesan de
mantener alta calidad y comportamiento robusto debido al limitado
número de bits disponibles. A baja frecuencia de bits, el limitado
espacio del codificador reduce la capacidad de adaptación a la
forma de onda de los codificadores de dominio de tiempo
convencionales, los cuales se usan tan exitosamente en aplicaciones
comerciales de más alta frecuencia.
Típicamente, los esquemas CELP emplean un filtro
de predicción a corto plazo (por sus siglas en inglés: STP, ``Short
Term Prediction Filter) y un filtro de predicción a largo plazo (en
inglés: LTP, Long Term Prediction Filter). Se emplea un enfoque de
Análisis por Síntesis (en inglés: AbS, Análisis by Synthesis) en un
codificador para hallar las demoras/y ganancias de LTP, así como
los mejores codificadores estocásticos de ganancias e índices. El
estado actual de la técnica de los codificadores CELP tales como el
Codificador de Frecuencia Variable Mejorada (en inglés: EVRC,
Enhanced Variable Rate Coder) puede alcanzar una voz sintetizada de
alta calidad a una frecuencia de transmisión de datos de
aproximadamente 8 kilobits por segundo.
También se conoce que los sonidos sordos no
muestran periodicidad. El ancho de banda consumido para codificador
el filtro LTP en los esquemas convencionales CELP, no se usa tan
eficientemente para los sonidos sordos como para los sonoros, en
los cuales la periodicidad de voz es fuerte y el filtrado LTP es
comprensible. Por lo tanto, se necesita un esquema de codificación
más eficiente (por ejemplo, de baja frecuencia de bits) para los
sonidos sordos. La clasificación vocal exacta es necesaria para
seleccionar los sistemas de codificación más eficientes y para
obtener la menor velocidad de transmisión de datos.
Para codificar a baja frecuencia de bits se han
desarrollado varios métodos de codificación espectral o de dominio
de frecuencia de voz, en los cuales la señal de voz es analizada
como una evolución de variación de tiempo del espectro. Ver, por
ejemplo, R.J. McAulay & T.F. Codificador Sinusoidal Quatieri, en
la Codificación y Síntesis de voz, cap. 4 (W.B. Keijn & K.K.
Paliwal eds., 1995). En codificadores espectrales, el objetivo es
modelar o predecir el espectro vocal a corto plazo de cada segmento
del discurso con un conjunto de parámetros espectrales, más que
imitar de manera precisa la forma de onda de voz de tiempo variable.
Los parámetros espectrales son entonces codificados y se crea un
segmento de salida de voz con los parámetros decodificados. La voz
sintetizada resultante no coincide con la forma de onda del
discurso original, pero ofrece una calidad percibida similar.
Ejemplos de codificadores de dominio de frecuencia que son bien
conocidos en la técnica incluyen los codificadores de excitación
multibanda (por sus siglas en inglés: EMBs, Multiband Excitation
Coders), codificadores de transformación sinusoidal (CTSs,
Sinusoidal Transform Coders), y codificadores harmónicos (CHs,
Harmonic Coders). Tales codificadores de dominio de frecuencia
ofrecen un modelo paramétrico de alta calidad, ya que tienen un
conjunto de parámetros compactos que pueden ser cuantificados de
forma exacta con el bajo número de bits disponible a baja frecuencia
de bits.
No obstante, la codificación a baja frecuencia
de bits impone restricciones serias como una resolución limitada de
codificación, o un espacio limitado en el libro de código, lo cual
limita la efectividad de un mecanismo de codificación simple, pues
no permite que el codificador represente varios tipos de segmentos
de voz bajo diferentes condiciones de ruidos parásitos de fondo con
igual exactitud. Por ejemplo, los codificadores convencionales de
dominio de frecuencia de baja frecuencia de bits no transmiten la
información de fase para segmentos de voz. En su lugar, la
información de fase es recompuesta mediante el uso, al azar,
generado artificialmente, de valores de fase inicial y técnicas de
interpolación lineal. Ver, por ejemplo, H. Yang et al.,
Interpolación de Fase Cuadrática para la Síntesis de los Sonidos
Sonoros. En el Modelo EMB, en 29 Electronic Letters
856-57 (Mayo 1993). Debido a que la información de
fase se genera artificialmente, incluso si las amplitudes de los
sinusoides están perfectamente preservadas por el proceso de
cuantificación/de-cuantificación, el discurso de
salida producido por el codificador de dominio de frecuencia no
estará sincronizado con el discurso original (por ejemplo, los
pulsos mayores no estarán en sincronía). Por lo tanto, se ha
demostrado la dificultad para adoptar cualquier medida de
comportamiento funcionamiento de lazo cerrado, tal como, por
ejemplo, la relación señal - ruido parásito (en inglés:SNR, Signal
to Noise Ratio) o SNR de percepción, en los codificadores de
dominio de frecuencia.
Una técnica efectiva para codificar la voz
eficientemente a baja frecuencia de bits es la codificación
multi-modo. Las técnicas multi-modo
han sido utilizadas para realizar codificaciones de voz de baja
frecuencia en conjunto con un proceso de decisión de modo de lazo
abierto. Tal técnica de codificación multi-modo está
descrita en Amitava Das et al., Multi-modo y
Codificación de Frecuencia Variable Vocal, en Codificación y
Síntesis Vocal, cap. 7 (W.B. Keijn & K.K. paliwal eds., 1995).
Los codificadores multi-modo convencionales aplican
diferentes modos, o algoritmos de
codificación-decodificación, a diferentes tipos de
segmentos de voz. Cada modo, o proceso de
codificación-decodificación, es personalizado para
representar un cierto tipo de segmento del discurso, tal como, por
ejemplo, sonidos sonoros, sonidos sordos, o sonidos de fondo (no
vocálicos) de la manera más eficiente. El éxito de tales técnicas
de codificación multi-modo depende en gran medida de
las decisiones de modo correctas o de las clasificaciones de voz.
Un mecanismo de modo de lazo abierto se efectúa típicamente
mediante la extracción de un número de parámetros del segmento y
la evaluación de los parámetros según ciertas características
temporales y espectrales, y basando la decisión de modo en la
evaluación. La decisión de modo es de esta forma realizada sin
conocer de antemano la condición exacta de voz de salida, o sea,
cuan próxima estará la voz de salida a la voz de entrada en cuanto a
la calidad de voz u otras medidas de comportamiento. Una decisión
de modo de lazo abierto se describe en la Patente de E.U. No. 5 414
796, la cual fue asignada al cesionario de la presente
invención.
La codificación multimodo puede ser de
frecuencia fija, usando el mismo número de bits No. por cada
segmento; o de frecuencia variable, en la cual las diferentes
frecuencias de bits son usadas para diferentes modos. El objetivo
en la codificación de frecuencia variable es usar solamente la
cantidad de bits necesaria para codificar los parámetros codec a un
nivel adecuado para obtener la calidad deseada. Como resultado, se
puede obtener la misma calidad de voz que la que se obtiene con el
codificador de frecuencia fija, de frecuencia más alta, a una
frecuencia promedio significativamente más baja, usando técnicas de
frecuencia variable (TFV).
En la Patente de E.U. No. 5 414 796 se describe,
a modo de ejemplo, un codificador de voz de frecuencia variable.
Actualmente hay un incremento de interés investigativo y una gran
necesidad comercial para desarrollar un codificador de voz de alta
calidad que funcione con medianas a bajas frecuencias de bits (o
sea, en un rango de 2.5 a 4 kbps e inferiores). Las áreas de
aplicación incluyen telefonía inalámbrica, comunicaciones por
satélite, telefonía-Internet, aplicaciones variadas
de multimedia y de flujo de voz (voice streaming), correo de voz y
otros sistemas de almacenamiento de voz. Las fuerzas motrices la
constituyen la necesidad de una alta capacidad y la demanda de un
comportamiento robusto en situaciones de pérdida de paquetes. Varios
esfuerzos recientes para la estandardización en la codificación de
voz constituyen otra fuerza motriz que impulsa la investigación y
el desarrollo de los algoritmos de la codificación de voz de baja
frecuencia. Un codificador de voz de baja frecuencia crea más
canales, o usuarios, por aplicaciones permisibles de la amplitud de
la banda. Un codificador de voz de baja frecuencia acoplado a una
capa adicional de un canal de codificación apropiado puede
adecuarse al volumen total de bits de las especificaciones del
codificador y tener un comportamiento robusto bajo condiciones de
error de canal.
El codificador de voz multi-modo
TFV es por lo tanto, un mecanismo efectivo para codificar la voz a
una baja frecuencia de bits. Los esquemas
multi-modo convencionales requieren el diseño de
esquemas de codificación eficientes, o modos, para varios segmentos
de voz (por ejemplo: sonidos sordos, sonoros, transición), así como
un modo para el ruido parásito de fondo, o el silencio. El
comportamiento general de un codificador de voz depende de la
robustez del modo de clasificación y de cuán bien funciona cada
modo. La frecuencia promedio del codificador depende de las
frecuencias de bits de los diferentes modos para sonidos sordos y
sonoros, y otros segmentos de voz. Con vista a obtener la calidad
deseada a una baja frecuencia de bits, es necesario determinar
correctamente el modo de voz bajo condiciones variables.
Típicamente, los segmentos de voz sonoros y
sordos son captados a alta frecuencia de bits y el ruido parásito
de fondo y los segmentos de silencio son representados con los modos
que trabajan a una frecuencia significativamente más baja. Los
codificadores multi-modo de frecuencia variable
requieren una clasificación correcta de voz para captar y codificar
con precisión un por ciento alto de segmentos de voz usando un
número mínimo de bits por segmento. La clasificación de voz más
precisa produce una frecuencia promedio de codificación de bits más
baja y una calidad superior de voz decodificada. Previamente, las
técnicas de clasificación de voz consideraban una cantidad mínima
de parámetros sólo para segmentos de voz aislados, produciendo
clasificaciones de modos de voz escasas e inexactas. De ahí que,
existe una necesidad de un clasificador de voz de alto rendimiento
para clasificar correctamente modos numerosos de voz bajo
condiciones ambientales variables con el fin de posibilitar el
máximo rendimiento de las técnicas multi-modo de
codificación de frecuencias variables de bits.
Las realizaciones que se presentan están
dirigidas a una técnica clasificación robusta de voz que evalúe
numerosos parámetros característicos de voz para clasificar varios
modos de voz con un alto grado de precisión bajo una variedad de
circunstancias. Por consiguiente, por una parte se muestra un método
de clasificación de voz como el que se describe en la realización
1.
Por otra parte, se muestra un clasificador de
voz como el que se describe en la realización 7.
Las características, objetos y ventajas de la
presente invención serán más obvias a partir de la descripción
detallada que se describe más abajo al tomarlas en conjunto con los
dibujos en los cuales los caracteres, como referencia, se
identifican de forma correspondiente en su totalidad y en el
cual:
La Fig. 1 es un diagrama de bloques de un canal
de comunicación limitado en cada extremo por codificadores de
voz;
La Fig. 2 es un diagrama de bloque de un
clasificador robusto de voz que puede ser usado por los
codificadores ilustrados en la Fig. 1;
La Fig. 3 es un diagrama de fabricación que
ilustra los pasos de clasificación de voz de un clasificador robusto
de voz;
Las Figs. 4A, 4B y 4C son diagramas de estado
usados por las realizaciones presentadas para la clasificación de
voz;
Las Figs. 5A, 5B y 5C son tablas de decisiones
usadas por las realizaciones presentadas para la clasificación de
voz; y
La Fig. 6 es un gráfico a modo de ejemplo de una
de las realizaciones de una señal de voz con parámetro de
clasificación, y valores de modos de voz.
Las realizaciones mostradas proporcionan un
método y un aparato para mejorar la clasificación de voz en
aplicaciones de codificadores de voz. Los parámetros de
clasificación noveles son analizados para producir más
clasificaciones de voz con mayor precisión que las disponibles
previamente. Se usa un proceso novel de decisiones para clasificar
la voz segmento a segmento. Los parámetros derivados del discurso de
entrada original, la información SNR, voz de salida con el ruido
parásito amortiguado, la información de actividad vocal, el
análisis del Coeficiente de Predicción Lineal (LPC), y los
estimados de tono de lazo abierto son utilizados por un novel
procesador de decisiones basadas en el estado para clasificar con
precisión varios modos de voz. Cada segmento de voz se clasifica
mediante el análisis de segmentos pasados y futuros, así como el
segmento corriente. Los modos de voz que pueden ser clasificados
por las realizaciones que se muestran, incluyen voz transitoria,
transiciones al habla activa y al final de las palabras, sonidos
sonoros, sordos y silencios.
Las realizaciones presentadas muestran una
técnica de clasificación de voz para una variedad de modos de voz
en medios con niveles variables de ruido parásito ambiental. Los
modos de voz pueden ser identificados de forma confiable y exacta
para codificar de la manera más eficiente.
En la Fig. 1 un primer codificador (10) recibe
las muestras digitalizadas de voz s_(n) y codifica las
muestras s_(n) para la transmisión en un medio de
transmisión (12), o canal de comunicación (12), a un primer
decodificador (14). El decodificador (14) decodifica las muestras
de voz codificadas y sintetiza la señal de voz de salida
sSYNTH_(n). Para transmitir en dirección opuesta, un segundo
codificador (16) codifica las muestras digitalizadas de voz
s_(n), las cuales son transmitidas en un canal de
comunicación (18). Un segundo decodificador (20) recibe y
decodifica las muestras codificadas de voz, generando una señal
sintetizada de voz de salida sSYNTH (n).
Las muestras de voz, s_(n), representan
las señales de voz que han sido digitalizadas y cuantificadas según
alguno de los diversos métodos conocidos en la técnica que incluyen,
por ejemplo, la modulación de códigos de pulso (MPC), "companded
P-_law," or "Alaw". Como se conoce en la
técnica, las muestras de voz, s_(n), se organizan en
segmentos de datos en los cuales cada segmente incluye un número
predeterminado de muestras digitalizadas de voz s_(n). En
una realización presentada a modo de ejemplo, se utiliza una
frecuencia de muestra de 8 kHz, conteniendo 160 muestras, cada
segmento de 20 ms. En las realizaciones descritas más adelante, la
frecuencia de transmisión de datos puede variarse de segmento a
segmento desde 8 kbps (a frecuencia total), hasta 4 kbps (a mitad
de la frecuencia), hasta 2 kbps (hasta un cuarto de la frecuencia),
hasta 1 kbps (a un octavo de la frecuencia). Alternativamente,
otras frecuencias de datos pueden ser usadas. Según se utilizan en
el presente documento, los términos "frecuencia total" o
"alta frecuencia" o "baja frecuencia"generalmente se
refieren a las frecuencias de datos inferiores o iguales a 4 kbps.
Variar la frecuencia de transmisión de datos es beneficioso porque
las frecuencias de datos bajas pueden ser empleadas de forma
selectiva para segmentos que contengan relativamente menos
información de voz. Como se sobreentiende por los expertos en la
técnica, otras frecuencias de muestras, tamaños de segmentos y
frecuencias de transmisión de datos pueden ser utilizadas.
El primer codificador (10) y el segundo
descodificador (20) contienen en conjunto un primer codificador de
voz, o un codec de voz. De igual forma, el segundo codificador (16)
y el primer decodificador (14) en conjunto contienen un segundo
codificador de voz. Se sobreentiende para los expertos en la técnica
que los codificadores de voz pueden ser implementados con un
procesador digital de señales (PDS), circuito integrado específico
de aplicación (''ASICs, Application Specific Integrated Circuit),
lógica de compuerta discreta, firmware, o cualquier otro módulo de
software programable convencional y un microprocesador. El módulo de
software podría localizarse en la memoria RAM, en una memoria
flash, en registros o en cualquier otra forma de medios de
almacenamiento escribibles conocidos en la técnica.
Alternativamente, cualquier procesador convencional, controlador o
máquina de estado podría ser sustituido por el microprocesador. Los
ASICs diseñados específicamente para la codificación de voz se
describen en las Patente de E.U. Nos. 5 727 123 y 5 784 532
transferidos al cesionario de la presente invención e incorporados
totalmente al presente documento para referencia.
La Fig. 2, ilustra una realización a modo de
ejemplo, de un clasificador robusto de voz. En una realización, el
aparato de clasificación de voz de la Fig. 2 puede colocarse en los
codificadores (10 y 16) de la Fig. 1. En otra realización, el
clasificador robusto de voz puede estar solo, proporcionando modos
de salida de clasificación de voz a dispositivos tales como los
codificadores (10, 16) de la Fig. 1.
En la Fig. 2, la voz entrante es enviada a un
supresor de ruido parásito (202). La voz entrante es generada
típicamente por conversión de la señal de voz de analógica a
digital. El supresor de ruido parásito (202) filtra los
componentes del ruido parásito de la señal de voz entrante
produciendo una señal de voz de salida con el ruido parásito
suprimido, y la información de SNR para voz de salida corriente. La
información de SNR y la señal de voz de salida son entregadas al
clasificador de voz (210). La señal de salida de voz del supresor
de ruido parásito (202) es también entregada a un detector de
actividad vocal (204), al analizador PLC (206), y al estimador de
tono de lazo abierto (208). La información de SNR es usada por el
clasificador vocal (210) para establecer umbrales de periodicidad y
para distinguir entre voz nítida y con ruidos parásitos. Nos
referiremos al parámetro SNR de ahora en lo adelante como
curr_ns_snr. Nos referiremos a la señal de voz de salida como t_in.
Si, en una realización, el supresor de ruido parásito (202) no está
presente o está apagado, el parámetro SNR curr_ns_snr debe ser
pre-establecido al valor por defecto.
El detector de actividad vocal (204) extrae la
información de actividad vocal para voz corriente y se la envía al
clasificador vocal (210). La información de actividad vocal de
salida indica si voz corriente está activa o inactiva. En una
realización presentada a modo de ejemplo, la información de
actividad vocal de salida puede ser valorada de múltiples formas.
Nos referiremos al parámetro de información de actividad vocal de
ahora en lo adelante como vad.
El analizador CPL (206) extrae los coeficientes
de reflexión CPL para voz corriente de salida y los envía al
clasificador vocal (210). El analizador CPL (206) también puede
extraer otros parámetros tales como los coeficientes CPL. Nos
referiremos al parámetro de coeficiente de reflexión CPL de ahora en
lo adelante como refl.
El estimador de tono de lazo abierto (208)
extrae un valor de Función de Coeficiente de
Auto-correlación Normalizado (NACF), y valores de
tono sostenidos de NACF (around pitch values), y los envía a un
clasificador vocal (210). Nos referiremos al parámetro de valores
de tono sostenidos NACF de ahora en lo adelante como nacf_at_pitch.
Una señal de voz más periódica produce un valor superior de
nacf_at_pitch. Un valor más elevado de nacf_at_pitch tiene más
probabilidades de ser asociado con el tipo de discurso de salida de
voz estacionaria. El clasificador vocal (210) mantiene un conjunto
de valores de nacf_at_pitch. El nacf_at_pitch es calculado en base
a un sub-segmento. En una realización ofrecida a
modo de ejemplo, se evaluan dos estimados de tono de lazo abierto
para cada segmento del discurso de salida mediante la evaluación de
dos sub-segmentos por segmento. El conjunto de
nacf_at_pitch es calculado a partir del estimado del tono de lazo
abierto para cada sub-segmento. En la realización
ofrecida como ejemplo, un conjunto de 5 dimensiones de valores
nacf_at_pitch (por ejemplo: nacf_at_pitch_ [5]) contiene valores
por cada dos y la mitad de un segmento de voz de salida. El
conjunto nacf_at_pitch es actualizado por cada segmento de voz
saliente. El uso novedoso de un conjunto para el parámetro
nacf_at_pitch proporciona al clasificador vocal (210) la habilidad
de usar información de señales presentes, pasadas y futuras para
hacer decisiones de modo de voz más exactas y
robustas.
robustas.
Además de la información proporcionada al
clasificador vocal (210) proveniente de los componentes externos,
el clasificador vocal (210) genera internamente parámetros noveles
adicionales a partir de la voz de salida para usarlo en el proceso
decisiones del modo de voz.
En una realización, el clasificador vocal (210)
genera internamente un parámetro de frecuencia de cruce zero/nulo
(zero crossing), al cual nos referiremos de ahora en lo adelante
como zcf. El parámetro zcr de voz de salida corriente está definido
como el número de cambios de signos en la señal de voz por segmentos
de voz. En la voz sonora, el valor zcr es bajo, mientras que la
voz sorda (del ruido parásito) tiene un valor zcr alto porque la
señal es muy irregular. El parámetro zcr es usado por el
clasificador de voz (210) para clasificar la voz sonora y
sorda.
En una realización, el clasificador de voz (210)
genera internamente un parámetro de energía de segmento corriente,
de ahora en lo adelante denominado como E.E., que puede ser usado
por el clasificador vocal (210) para identificar la voz transitoria
mediante la comparación de la energía en el segmento corriente con
la energía en los segmentos pasados y futuros. El parámetro vEprev
es la energía del segmento previo derivado de E.
En una realización, el clasificador vocal (210)
genera internamente un parámetro de energía de segmento anticipado,
denominado de ahora en lo adelante Enext. Enext puede contener
valores de energía de una porción del segmento corriente y una
porción del segmento siguiente de voz de salida. En una realización,
Enext representa la energía en la segunda mitad del segmento
corriente y la energía en la primera mitad del segmento siguiente de
voz de salida. Enext es usado por el clasificador de voz (210) para
identificar la voz transitoria. Al final del discurso, la energía
de los siguientes segmentos disminuye drásticamente comparado con la
energía del segmento corriente. El clasificador de voz (210) puede
comparar la energía del segmento corriente y la energía del
siguiente segmento para identificar el fin del discurso y para
identificar el comienzo de las condiciones de voz, o hasta los
modos transitorios de alta y modos transitorios de baja.
En una realización, el clasificador vocal (210)
genera internamente un parámetro de relación de banda de energía
definido como registro log2_(EL/EH), en el cual EL es la
energía del segmento corriente de la banda baja desde 0 hasta 2
kHz, y EH es el segmento corriente de la banda alta.
En una realización, el clasificador de voz (210)
genera internamente un parámetro de energía sonora promedio de tres
segmentos, de ahora en lo adelante denominado vEav. En otras
realizaciones, vEav puede prorratearse por encima de un número de
segmentos diferentes de tres. Si el modo de voz corriente es activo
y sonoro, vEav calcula el promedio dinámico de la energía en los
últimos tres segmentos de voz de salida. El prorrateo de la energía
en los últimos tres segmentos de voz de salida proporciona al
clasificador de voz (210) más tablas de salida para clasificar el
final de la voz sonora o del modo transitorio de baja, ya que la
energía del segmento corriente, E, descenderá drásticamente en
comparación con la energía de voz promedio, vEav, Cuando el
discurso se ha detenido. vEav es actualizado solamente si el
segmento corriente es sonorizado, o restablecido al valor fijo para
los sonidos sordos o voz inactiva. En una realización, el valor de
restablecimiento fijo es de _01.
En una realización, el clasificador vocal (210)
genera internamente un parámetro de energía sonora promedio de tres
segmentos, de ahora en lo adelante denominada como vEprev. En otras
realizaciones, vEprev puede ser prorrateada por encima de un número
de segmentos diferentes de tres. vEprev es usado por el clasificador
vocal (210) para identificar la voz de transición. Al principio del
discurso, la energía del segmento corriente se eleva drásticamente
comparada con la energía promedio de los tres primeros segmentos
sonoros. El clasificador de voz (210) puede comparar la energía del
segmento corriente y los tres segmentos previos para identificar el
comienzo de las condiciones del discurso, o los modos transitorios
altos y modos de voz. De igual forma, al final del discurso sonoro,
la energía del segmento corriente desciende drásticamente. De esta
forma, vEprev puede también ser usado para clasificar la transición
al final del discurso.
En una realización, el clasificador vocal (210)
genera internamente una energía del segmento corriente hacia el
parámetro de relación de energía sonora promedio de los tres
segmentos previos, definidos como 10*log10_(E/_vEprev). En
otras realizaciones, vEprev puede ser prorrateada por encima de un
número de segmentos diferentes de tres. La energía corriente hacia
el parámetro de relación de energía sonora promedio de los tres
segmentos previos se denomina de ahora en lo adelante como vER. vER
es usado por el clasificador vocal (210) para clasificar el
comienzo del discurso sonoro y el final del discurso sonoro, o el
modo transitorio alto y el modo transitorio bajo, ya que vER es
grande cuando el discurso ha comenzado otra vez y pequeño al final
del discurso sonoro. El parámetro vER puede ser usado en conjunto
con el parámetro vEprev en la clasificación del discurso
transitorio.
En una realización, el clasificador vocal (210)
genera internamente una energía del segmento corriente hacia el
parámetro de energía sonora promedio de tres segmentos, definida
como MIN_(20,10*log10_(E/_vEav). La energía del
segmento corriente hacia la energía sonora promedio de tres
segmentos es denominada de ahora en lo adelante vER2. vER2 es usada
por el clasificador vocal (210) para clasificar los modos de voz
transitorios al final del discurso sonoro.
En una realización, el clasificador de voz (210)
genera internamente un valor máximo del parámetro indicador de
energía sub-segmento. El clasificador de voz (210)
divide equitativamente el segmento corriente del discurso de salida
en sub-segmentos, y calcula la Raiz Cuadrada del
Promedio de los Cuadrados (RMS) del valor de la energía de cada
sub-segmento. En una realización, el segmento
corriente se divide en 10 sub-segmentos. El
parámetro indicador de la energía máxima del
sub-segmento es el indicador del
sub-segmento que tiene la RMS del valor de la
energía más grande en el segmento corriente o en la segunda mitad
del segmento corriente.
El parámetro indicador de energía máxima del
sub-segmento serádenominado, de ahora en lo
adelante, as
maxsfe_idx. La división del segmento corriente en sub-segmentos proporciona al clasificador vocal (210) información sobre las localizaciones de los picos de energía, incluyendo la localización de los picos de energía más grandes dentro de un segmento. Se alcanza más resolución dividiendo un segmento en más sub-segmentos. Maxsfe-idx es usado en conjunto con otros parámetros por el clasificador vocal (210) para clasificar los modos de voz transitoria, ya que las energías de los modos de voz sonoros o el silencio son generalmente estables, mientras que la energía alcanza el pico o disminuye en un modo de voz transitoria.
maxsfe_idx. La división del segmento corriente en sub-segmentos proporciona al clasificador vocal (210) información sobre las localizaciones de los picos de energía, incluyendo la localización de los picos de energía más grandes dentro de un segmento. Se alcanza más resolución dividiendo un segmento en más sub-segmentos. Maxsfe-idx es usado en conjunto con otros parámetros por el clasificador vocal (210) para clasificar los modos de voz transitoria, ya que las energías de los modos de voz sonoros o el silencio son generalmente estables, mientras que la energía alcanza el pico o disminuye en un modo de voz transitoria.
El clasificador de voz (210) usa parámetros
noveles de entrada directamente de los componentes de codificación,
y los parámetros noveles generados internamente, hacia modos de
clasificación de voz más precisos y robustos que los que eran
posibles previamente. El clasificador de voz (210) aplica un proceso
de toma de decisiones a los parámetros de entrada directa y
generados internamente para producir resultados de clasificación del
discurso mejorados. El proceso de decisiones está descrito en
detalles más adelante con referencias a las Figs.
4A-4C Y 5A-5C.
En una realización, los modos de voz
suministrados por el clasificador de voz (210) incluyen: modos
transitorios, transitorios altos, transitorios bajos, sonoros,
sordos y de silencio. El modo transitorio es un discurso sonoro
pero menos periódico, codificado óptimamente con un CELP de
frecuencia total. El modo transitorio de baja es un discurso sonoro
de baja energía comúnmente al final de una palabra, óptimamente
codificado con un CELP de media frecuencia. El modo sonoro es un
discurso altamente sonoro y periódico, que contiene principalmente
vocales. El discurso de modo sonoro puede ser codificado a alta
frecuencia, mediana frecuencia, un cuarto de frecuencia o un octavo
de frecuencia. La frecuencia de datos para codificar el discurso del
modo sonoro se selecciona para cumplir con los requisitos de la
Frecuencia Media de Datos (ADR). El modo sordo, consta
fundamentalmente de consonantes, está óptimamente codificado con una
Predicción Lineal Excitada de Ruido parásito (PLER). El modo de
silencio es voz inactiva, óptimamente codificada con un CELP de un
octavo de frecuencia.
Un experto en la técnica entendería que los
parámetros y modos de voz no están limitados a los parámetros y
modos de voz de las realizaciones mostradas. Se pueden emplear
parámetros y modos de voz adicionales sin desviarse de la esfera de
acción/intención de las realizaciones mostradas.
La Fig. 3 es un diagrama de fabricación que
ilustra una realización de los pasos de clasificación de voz de una
técnica de clasificación de voz robusta.
\newpage
En el paso 300, los parámetros de clasificación
de entrada obtenidos de los componentes externos son procesados por
cada fragmento del discurso de salida con supresión de ruidos
parásitos. En una realización, los parámetros de clasificación
obtenidos de los componentes externos son procesados por cada
fragmento de ruidos parásitos suprimidos de la voz de salida. En
una realización, los parámetros de clasificación obtenidos de los
componentes externos constan de curr__ns__snr y de t-- t__in de
entrada obtenido de un componente supresor de ruidos parásitos, los
parámetros de nacf__at__pitch obtenidos de un componente estimador
de tono de lazo abierto, vad se obtiene de un componente detector
de actividad vocal, y refl se obtiene de un componente de análisis
de CPL. El diagrama de fabricación procede hasta el paso 302.
En el paso 302, los parámetros adicionales
generados internamente son calculados a partir de los parámetros de
clasificación obtenidos de los componentes externos. En una
realización ejemplar, zcr, E, Enext, ver, vEav, VEprev, vER, vER2 y
maxsfe__IDX son calculados a partir de t__in. Cuando los parámetros
generados han sido calculados para cada segmento de voz de salida,
el diagrama de fabricación procede hasta el paso 304.
En el paso 304, los umbrales de NACF son
determinados, y se selecciona un analizador de parámetros de acuerdo
con el medio de la señal de voz. En una realización de ejemplo, el
umbral de NACF es determinado por la comparación de la información
del parámetro de entrada de curr__ns__snr en el paso 300 hasta el
valor del umbral de SNR. La información de curr__ns__snr, derivada
del supresor de ruidos parásitos, proporciona un novel control de
adaptación de un umbral de decisión de periodicidad. De esta manera,
se aplican diferentes umbrales de periodicidad para las señales de
voz con diferentes niveles de componentes de ruidos parásitos. Una
decisión de clasificación de voz más precisa se produce cuando el
nacf más adecuado, o el umbral de la periodicidad para el nivel de
ruido parásito de la señal de voz son seleccionados para cada
segmento del discurso de salida. La determinación del umbral de
periodicidad más adecuado para una señal de voz permite la selección
del mejor analizador de parámetros para la señal de voz.
Las señales de voz nítidas y con ruidos
parásitos difieren inherentemente en periodicidad. Cuando el ruido
parásito está presente, la corrupción del discurso está presente.
Cuando la corrupción del discurso está presente, la medida de la
periodicidad, o nacf, es más baja que la de voz nítida. De ahí que
el umbral de nacf sea inferior para compensar el medio de señales
ruidosas o es elevado para un medio de señales nítidas. La técnica
novel de clasificación de voz de las realizaciones mostradas no se
adecua a los umbrales de periodicidad de todos los medios,
produciendo una decisión de modo robusta y más precisa a pesar de
los niveles de ruidos parásitos.
En una realización ejemplar, si el valor de
curr__ns__snr es mayor que o igual al umbral de SNR de db 25, se
aplican los umbrales nacf para voz nítida. Los umbrales nacf de
ejemplo de habla nítida son definidos por la siguiente tabla:
\vskip1.000000\baselineskip
En la realización de ejemplo, si el valor de
curr__ns__snr es menor que el umbral de SNR de db 25, se aplican
los umbrales de nacf para voz ruidosa. Los umbrales de ejemplo nacf
para voz ruidosa se definen por la siguiente tabla:
(Sonoro) Voiced VOICEDTH ._75
(De transición - Sonoros bajos) Transitional
LOWVOICEDTH ._5
(Sordos) Unvoiced UNVOICEDTH ._35
\vskip1.000000\baselineskip
La voz con ruidos parásitos es semejante al
habla nítida con ruido añadido. Con el control del umbral de
periodicidad de adaptación, la técnica de clasificación vocal
robusta tiene más probabilidades de producir decisiones de
clasificación idénticas para voz nítida y la ruidosa que las que
existían anteriormente. Cuando los umbrales de nacf han sido
establecidos para cada segmento, el diagrama de fabricación procede
al paso 306.
En el paso 306, los parámetros obtenidos a
partir de los componentes externos y los parámetros generados
internamente son analizados para producir una clasificación del
modo de voz. Se aplica a los parámetros una máquina de estado o
cualquier otro método de análisis seleccionado según el medio
circundante de la señal. En una realización ofrecida a modo de
ejemplo, los parámetros originados a partir de los componentes
externos y los parámetros generados internamente son aplicados al
proceso de decisiones del modo basado en el estado descrito en
detalle con referencia a las Figs. 4A - 4C y 5A - 5C. El proceso
de decisiones produce una clasificación del modo de voz. En una
realización ofrecida como ejemplo, se produce una clasificación del
modo de voz de: Transitoria, Transitoria Alta, Transitoria Baja,
Sonora, Sorda o Silencio. Cuando se ha producido una decisión sobre
el modo de voz, el diagrama de fabricación procede al paso
308.
En el paso 308, las variables de estado y varios
parámetros son actualizados para incluir el segmento corriente. En
una realización presentada como ejemplo, se actualizan vEav, vEprev,
y el estado sonoro del segmento corriente. La energía E del
segmento corriente, nacf__at__pitch, y el modo de voz del segmento
corriente son actualizados para clasificar el próximo segmento.
Los pasos 300 - 308, se repiten para cada
segmento de voz.
Las Figs 4A - 4C ilustran las realizaciones del
proceso de toma de decisiones de los modos de una realización
presentada como ejemplo de una técnica robusta de clasificación de
voz. El proceso de toma de decisiones selecciona una máquina de
estado para la clasificación de voz basada en la periodicidad del
segmento de voz. Para cada segmento de voz, se selecciona la
máquina de estado más compatible con la periodicidad, el componente
del ruido, o el segmento de voz para el proceso de decisiones
mediante la comparación de la medida de periodicidad del segmento
de voz, por ejemplo, el valor nacf__at__pitch con los umbrales de
NACF establecidos en el paso 304 de la Fig. 3. El nivel de
periodicidad del segmento de voz limita y controla las transiciones
de estado del proceso de decisiones, produciendo una clasificación
más robusta.
La Fig. 4A ilustra una realización de una
máquina de estado seleccionada en la realización ofrecida como
ejemplo, siendo vad 1 (existe habla activa) y el tercio del valor
de nacf__at__pitch (por ejemplo, nacf__at__pitch__ [2], tiene un
indicador de cero) es muy alto, o mayor que VOICEDTH (SONORO).
VOICEDTH es definido en el paso 304 de la Fig. 3. La Fig. 5A
ilustra los parámetros evaluados por cada estado.
El estado inicial es el silencio. El segmento
corriente siempre será clasificado como Silencio, sin tener en
cuenta el estado previo, si vad=0 (por ejemplo, no existe actividad
sonora).
Cuando el estado previo es el silencio, el
segmento corriente puede clasificarse ya sea como Sordo o
Transitorio de Alta. El segmento corriente se clasifica como Sordo
si nacf__at__pitch__[3] es muy bajo, zcr is alto, bER es
bajo y vER es muy bajo, o si la combinación de las tres condiciones
se cumplen. De lo contrario se clasifica por defecto como
Transitorio de Alta.
Cuando el estado previo es Sordo, el segmento
corriente puede clasificarse como Sordo o Transitorio de Alta. El
segmento corriente permanece clasificado como Sordo si nacf es muy
bajo, nacf__at__pitch__[3] es muy bajo,
nacf__at__pitch__[4] es muy bajo, zcr es alto, bER es bajo,
vER es muy bajo y E es inferior a vEprev, o si se cumple una
combinación de estas condiciones. De lo contrario se clasifica por
defecto como Transitorio de Alta.
Cuando el estado previo es Sordo, el segmento
corriente puede clasificarse como Sordo, Transitorio, Transitorio
de Baja, o Sonoro. El segmento corriente se clasifica como Sordo si
vER es muy bajo y E es menor que vEprev. El segmento corriente se
clasifica como Transitorio si nacf__at__pitch__[1] y
nacf__at__pitch__[3] son bajos, yn
nacf__at__pitch__[3] tiene un valor moderado. De lo
contrario, se clasifica por defecto como Sordo.
Cuando el estado previo es Transitorio o
Transitorio de Alta, el segmento corriente puede clasificarse como
Sordo, Transitorio, Transitorio de Baja o Sonoro. El segmento
corriente se clasifica como Sordo si vER es muy bajo y E es menor
que vEprev. El segmento corriente se clasifica como Transitorio si
nacf__at__pitch__[1] es bajo, nacf__at__pitch__[3]
tiene un valor moderado, nacf__at__pitch__[4] es bajo, y el
estado previo no es Transitorio, o si se cumple una combinación de
estas condiciones. El segmento corriente se clasifica como
Transitorio Bajo si nacf__at__pitch__[3] tiene un valor
moderado y E es menor que __05 veces vEav. De lo contrario, se
clasifica por defecto como Sordo.
Cuando el segmento previo es Transitorio de
Baja, el segmento corriente puede clasificarse como Sordo,
Transitorio o Umbral para el Tipo de Umbral Llamado Valor del
Umbral (Threshold for Type Threshold Name Threshold Value).
\vskip1.000000\baselineskip
(Sonoro) Voiced VOICEDTH ._65
(De transición - SONORO BAJO) Transitional
LOWVOICEDTH ._5
(Sordo) Unvoiced UNVOICEDTH ._35
\vskip1.000000\baselineskip
La Fig. 4B ilustra una realización de una
máquina de estado seleccionada en la realización mostrada como
ejemplo en la que vad es 1 (existe habla activa) y el tercio del
valor de nacf__at__pitch es muy bajo o menor que UNVOICEDTH.
UNVOICEDTH se define en el paso 304 de la Fig. 3. La Fig. 5B ilustra
los parámetros evaluados por cada estado.
El estado inicial es el silencio. El segmento
corriente siempre se clasificará como Silencio, sin considerar el
estado previo, si vad=0 (por ejemplo: no existe actividad
vocal).
Cuando el estado previo es el silencio, el
segmento corriente puede clasificarse ya sea como Sordo o
Transitorio de Alta. El segmento corriente se clasifica como
Transitorio de Alta si nacf__at__pitch_[2-4]
muestra una tendencia creciente, nacf__ at__
pitch_[3-4] tiene un valor moderado, bER es
alto, y vER tiene un valor moderado o si se cumple una combinación
de estas condiciones. De lo contrario se clasifica por defecto como
Sordo.
Cuando el estado previo es Sordo, el segmento
corriente puede clasificarse como Sordo, Transitorio de Alta. El
segmento corriente se clasifica como Transitorio de Alta si nacf__
at__ pitch_[2-4] muestra una tendencia
creciente, nacf__ at__ pitch_[3-4] tiene un
valor de moderado a alto, zcr es muy bajo o moderado, vER no es
bajo, bER es alto, refl es bajo, nacf tiene un valor moderado y E es
mayor que vEprev, o si cumple una combinación de estas condiciones.
Las combinaciones y los umbrales de estas condiciones pueden variar
en dependencia del nivel de ruido parásito del segmento de voz
según se refleja en el parámetro curr__ns__ snr. De lo contrario,
se clasifica por defecto como Sordo.
Cuando el estado previo es Sordo, Transitorio de
Alta, o Transitorio, el segmento corriente puede clasificarse como
Sordo, Transitorio, o Transitorio de Baja. El segmento corriente se
clasifica como Sordo si bER es menor que o igual a cero, vER es muy
bajo, bER es mayor que cero y E es menor que vEprev, o si se cumple
una combinación de estas condiciones. El segmento corriente se
clasifica como Transitorio si bER es menor que o igual a cero, o si
una cierta combinación de estas condiciones se cumple. Las
combinaciones y los umbrales para estas condiciones pueden variar
en dependencia del nivel de ruido del segmento de voz según se
refleja en el parámetro curr__ns__ snr. El segmento corriente se
clasifica como Transitorio de Baja si, bER es mayor que cero, nacf__
at__ pitch_[3] es moderado, E es menor que vEprev, zcr no es
alto, y vER2 es menor que menos quince.
Cuando el segmento previo es Transitorio de
Baja, el segmento corriente puede clasificarse como Sordo,
Transitorio, o Transitorio de Baja. El segmento corriente se
clasificará como Transitorio si nacf__ at__
pitch_[2-4] muestra una tendencia
ascendente, nacf_at__ pitch_[3-4] son
moderadamente altos, vER no es bajo, y E es mayor que dos veces
vEprev, o si una combinación de estas condiciones se cumple. El
segmento corriente se clasificará como Transitorio de Baja si vER
no es bajo y zcr es bajo. De lo contrario, la clasificación actual
por defecto será de Sordo.
La Fig. 4C ilustra una realización de una
máquina de estado seleccionada en la realización mostrada como
ejemplo cuando vad es 1 (existe habla activa) y el tercio del valor
de nacf__ at__ pitch (i.e. nacf__ at__ pitch_[3]) es
moderado, por ejemplo, mayor que UNVOICEDTH (SORDO) y menor que
VOICEDTH (SONORO). UNVOICEDTH (SORDO) y VOICEDTH (SONORO) son
definidos en el paso 304 de la Fig. 3. La Fig. 5C ilustra los
parámetros evaluados por cada estado.
El estado inicial es el silencio. El segmento
corriente siempre se clasificará como Silencio, sin considerar el
estado previo, si vad=0 (por ejemplo no existe actividad vocal).
Cuando el estado previo es el silencio, el
segmento corriente puede clasificarse ya sea como Sordo o como
Transitorio de Alta. El segmento corriente se clasifica como
Transitorio de Alta, si nacf__ at__
pitch_[2-4] muestra una tendencia
ascendente, nacf__ at__ pitch_[3-4] son de
moderados a altos, zcr no es alto, bER es alto, vER tiene un valor
moderado, zcr es muy bajo y E es mayor que dos veces vEprev, o si se
cumple cierta combinación de estas condiciones. De lo contrario se
clasifica por defecto como Sordo.
Cuando el estado previo es Sordo, el segmento
corriente puede clasificarse como Sordo o Transitorio de Alta. El
segmento corriente se clasifica como Transitorio de Alta si nacf__
at__ pitch_[2-4] muestra una tendencia
creciente, nacf__ at__ pitch_[3-4] tiene un
valor de moderado a alto, zcr no es alto, vER no es bajo, bER es
alto, refl es bajo y E es mayor que vEprev, zcr es muy bajo, nacf no
es bajo, maxsfe__ idx indica hacia el último segmento y E es dos
veces mayor que vEprev, o si cumple una combinación de estas
condiciones. Las combinaciones y los umbrales para estas
condiciones pueden varias en dependencia del nivel de ruido del
segmento de voz según se refleja en el parámetro curr__ns__ snr. De
lo contrario, se clasifica por defecto como Sordo.
Cuando el estado previo es Sonoro, Transitorio
de Alta o Transitorio, el segmento corriente se puede clasificar
como Sordo, Sonoro, Transitorio o Transitorio de Baja. El segmento
corriente se clasifica como Sordo si bER es menor que o igual a
cero, vER es muy bajo, Enext es menor que E, nacf__ at__
pitch_[3-4] son muy bajos, bER es mayor que
cero y E es menor que vEprev, o si se cumple una cierta combinación
de estas condiciones. El segmento corriente se clasifica como
Transitorio si bER es mayor que cero, nacf__ at__
pitch_[2-4] muestra una tendencia creciente,
zcr no es alto, vER no es bajo, refl es bajo, nacf__ at__
pitch_[3] y nacf no son bajos, o si existe una combinación
de estas condiciones.
Las combinaciones y umbrales para estas
condiciones pueden varias en dependencia del nivel de ruido del
segmento de voz según se refleja en el parámetro curr__ns__ snr. El
segmento corriente se clasifica como Transitorio de Baja si bER es
mayor que cero, nacf__ at__ pitch_[3] no es alto, E es menor
que vEprev, zcr no es alto, vER es menor que menos quince y vER2 es
menor que menos quince, o si cumple una combinación de estas
condiciones. El segmento corriente se clasifica como Sordo si
nacf__ at__ pitch_[2] es mayor que LOWVOICEDTH (SONORO BAJO),
bER es mayor que o igual a cero y vER no es bajo o si se cumple una
combinación de estas condiciones.
Cuando el segmento previo es Transitorio de
Baja, el segmento corriente puede clasificarse como Sordo,
Transitorio o Transitorio de Baja. El segmento corriente se
clasificará como Transitorio si bER es mayor que cero, nacf__ at__
pitch_[2-4] muestra un tendencia creciente,
nacf__ at__ pitch_[3-4] son moderadamente
altos, vER no es bajo y E es mayor que dos veces vEprev, o si
cumple una cierta combinación de estas condiciones. El segmento
corriente se clasificará como Transitorio de Baja si vER no es bajo
y zcr es bajo. De lo contrario, la clasificación corriente se hará
por defecto como Sordo.
La Fig. 5A - 5C son realizaciones de tables de
decisiones usadas por las realizaciones presentadas para la
clasificación de voz.
La Fig. 5A, según una de las realizaciones,
ilustra los parámetros evaluados por cada estado, y las transiciones
de estado cuando un tercio del valor de nacf__ at__ pitch (por
ejemplo, nacf__ at__ pitch_[2]) es muy bajo, o mayor que
VOICEDTH (SONORO). La tabla de decisiones ilustrada en la Fig. 5A,
es usada por la máquina de estado descrita en la Fig. 4A. La
clasificación del modo de voz del segmento de voz previo se muestra
en la columna superior izquierda. Cuando los parámetros son
valorados según se muestra en la hilera asociados con cada modo
previo, las transiciones de la clasificación de los modos de voz
hacia el modo corriente son identificadas en la hilera superior de
la columna asociada.
La Fig. 5B ilustra, según una realización, los
parámetros evaluados por cada estado, y las transiciones de estado
cuando el tercio del valor (por ejemplo, nacf__ at__
pitch_[2]) es muy bajo, o menor que UNVOICEDTH (SORDO). La
tabla de decisiones ilustrada en la Fig. 5B es usada por la máquina
de estado descrita en la Fig. 4B. La clasificación del modo de voz
del segmento previo de voz se muestra en la columna superior
izquierda. Cuando los parámetros son valorados como se muestra en
la hilera asociada con cada modo previo, las transiciones de
clasificación del modo de voz hacia el modo corriente son
identificadas en la hilera superior de la columna asociada.
La Fig. 5C ilustra, según una realización, los
parámetros evaluados por cada estado, y las transiciones de estado
cuando un tercio del valor de nacf__ at__ pitch (i.e. nacf__ at__
pitch_[3]) es moderado, por ejemplo, mayor que UNVOICEDTH
(SORDO) pero menor que VOICEDTH (SONORO). La tabla de decisiones
ilustrada en la Fig. 5C es usada por la máquina de estado descrita
en la Fig. 4C. La clasificación del modo de voz del segmento de voz
previo es mostrada en la hilera asociada con cada modo previo, las
transiciones de clasificación del modo de voz hacia el modo
corriente son identificadas en la hilera superior de la columna
asociada.
La Fig. 6 es una gráfica de tiempo de una
realización mostrada a modo de ejemplo de una señal de voz con los
valores de los parámetros asociados y las clasificaciones de
voz.
Se sobreentiende por los expertos en la técnica,
que los clasificadores de voz pueden implementarse con un PDS
(DSP), un "ASIC", un programa de lógica de compuerta discreta
(discrete gate logic), un "firmware" o cualquier modulo de
software programable convencional y un microprocesador. El modulo de
software podría colocarse en la memoria RAM, la memoria flash, los
registros o en cualquier otro forma en un medio de almacenamiento de
información escribible conocido en la técnica. Alternativamente,
cualquier procesador, controlador o máquina de estado convencional
podría ser sustituido por el microprocesador.
La descripción previa de las realizaciones de
preferencia está prevista para facilitar a cualquier persona
experta en la técnica, llevar a cabo o usar la presente invención.
Las diferentes modificaciones a las realizaciones mostradas en este
documento serán comprensibles para los expertos en la técnica. De
ahí que la presente invención no tiene como objetivo limitar a las
realizaciones mostradas en el presente documento, sino que están de
conformidad con el campo de aplicación más amplio definido por las
reivindicaciones adjuntas.
Claims (37)
1. Un método de clasificación de voz que:
genera una información de Relación Señal -
Ruido, también denominada SNR, para una señal de voz;
genera parámetros de clasificación a partir de
la señal de voz, que incluyen una Función de Coeficiente de
Auto-Correlación Normalizada, también denominada
FCAN;
compara la información del Coeficiente de
Auto-correlación Normalizada, también denominado
FCAN;
compara la información de SNR con un valor del
umbral de SNR;
establece un umbral de FCAN en función de los
resultados de la etapa de comparación y utiliza dicho umbral para
seleccionar un analizador de parámetros;
y analiza los parámetros de clasificación en
función del analizador seleccionado para producir una clasificación
de modo de voz.
2. El método de la reivindicación 1, en el cual
la señal de voz es una señal de voz en la que el ruido ha sido
suprimido.
3. El método de la reivindicación 2, en el cual
la información de SNR es para la señal de voz en la cual se ha
suprimido el ruido.
4. El método de la reivindicación 1, en el cual
los parámetros de clasificación constan de información de actividad
de voz.
5. El método de la reivindicación 1, en el cual
los parámetros de clasificación contienen Coeficientes de Reflexión
de Predicción Lineal.
6. El método de la reivindicación 1, en el cual
los parámetros de clasificación constan de una Función de
Coeficiente de Auto-Correlación Normalizada a nivel
de una información de tono.
7. Un clasificador de voz que consta de:
Medios para generar una Información de Relación
Señal -Ruido, también denominada SNR, para una señal de voz; un
generador para generar parámetros de clasificación para la señal de
voz, que incluye una Función de Coeficiente de
Auto-Correlación Normalizada, también denominada
NACF; medios para comparar la información de SNR con el umbral de
SNR; y generador de umbral de NACF para establecer un umbral de NACF
según los resultados de la comparación y utilizar dicho umbral de
NACF para seleccionar un analizador de parámetros, en el cual el
analizador de parámetros seleccionado se adapta para analizar los
parámetros de clasificación para producir una clasificación del
modo de voz.
8. El clasificador de voz de la reivindicación
7, en el cual la señal de voz es una señal en la que el ruido ha
sido suprimido.
9. El clasificador de voz de la reivindicación
7, en la cual el generador, para generar parámetros de
clasificación, puede operarse para generar parámetros a partir de
la Información de Relación Señal - Ruido.
10. El clasificador vocal según la
reivindicación 7, en el cual el generador, para generar parámetros
de clasificación, es operable para generar parámetros a partir de
la información de actividad de voz.
11. El clasificador de voz según la
reivindicación 7, en la cual el generador, para generar parámetros
de clasificación, es operable para generar parámetros a partir de
Coeficientes de Reflexión de Predicción Lineal.
12. El clasificador de voz según la
reivindicación 7, en el cual el generador, para generar parámetros
de clasificación, es operable para generar parámetros a partir de
la información de NACF.
13. El clasificador de voz según la
reivindicación 7, en el cual el generador, para generar parámetros
de clasificación, es operable para generar parámetros a partir de
información de
\hbox{NACF a nivel de información de tono de voz.}
14. El método de la reivindicación 6 o el
clasificador de voz de la reivindicación 13, en la cual NACF a nivel
de información de tono de voz es un conjunto de valores.
15. El método de la reivindicación 1 o del
clasificador de voz de la reivindicación 7, en la cual los
parámetros generados constan de un parámetro de tasa de cruce de
cero ("zero rate").
16. El método de la reivindicación 1 ó del
clasificador de voz de la reivindicación 7, en el cual los
parámetros generados constan de un parámetro de energía de segmento
corriente.
17. El método de la reivindicación 1 ó del
clasificador de voz de la reivindicación 7, en el cual los
parámetros generados constan de un parámetro de energía de segmento
anticipado.
18. El método de la reivindicación 1 ó del
clasificador de voz de la reivindicación 7, en el cual los
parámetros generados comprenden un parámetro de frecuencia de
energía de banda.
19. El método de la reivindicación 1 ó del
clasificador de voz de la reivindicación 7, en el cual los
parámetros generados comprenden un parámetro de energía de voz
promedio de tres segmentos.
20. El método de la reivindicación 1 ó del
clasificador de voz de la reivindicación 7, en el cual los
parámetros generados constan de un parámetro de energía de voz
promedio de los tres segmentos precedentes.
21. El método de la reivindicación 1 ó del
clasificador de voz de la reivindicación 7, en el cual los
parámetros generados constan de una energía de segmento corriente
para el parámetro de energía sonora media de los tres segmentos
precedentes
22. El método de la reivindicación 1 ó del
clasificador de voz de la reivindicación 7, en el cual los
parámetros generados constan de energía de segmento corriente para
el parámetro de energía sonora media de los tres segmentos.
23. El método de la reivindicación 1 ó del
clasificador de voz de la reivindicación 7, en el cual los
parámetros generados constan de un valor máximo del parámetro
indicador de energía del sub-segmento.
24. El método de la reivindicación 1 ó del
clasificador de voz de la reivindicación 7, en el cual el análisis
comprende la aplicación de parámetros a una máquina de estado.
25. El método o el clasificador de voz de la
reivindicación 24, en el cual la máquina de estado consta de un
estado para cada modo de clasificación de voz.
26. El método de la reivindicación 1 ó un
clasificador de voz de la reivindicación 7, en el cual la
clasificación de modo de voz consta de un modo Transitorio.
27. El método de la reivindicación 1 ó
clasificador vocal de la reivindicación 7, en el cual la
clasificación de modo de voz consta de un modo transitorio de
Alta.
28. El método de la reivindicación 1 o del
clasificador de voz de la reivindicación 7, en el cual la
clasificación del modo de voz consta de un modo Transitorio de
Baja
29. El método de la reivindicación 1 ó del
clasificador de voz de la reivindicación 7, en el cual la
clasificación del modo de voz consta de un modo Sonoro.
30. El método de la reivindicación 1 ó del
clasificador de voz de la reivindicación 7, en el cual la
clasificación del modo de voz consta de un modo Sordo.
31. El método de la reivindicación 1 ó del
clasificador de voz de la reivindicación 7, en el cual la
clasificación del modo de voz consta de un modo de Silencio.
32. El método de la reivindicación 1 ó del
clasificador de voz de la reivindicación 7, que además incluye la
actualización de al menos un parámetro.
33. El método o clasificador de voz de la
reivindicación 32, en el cual el parámetro actualizado contiene un
parámetro de tono de NACF.
34. El método o clasificador de voz de la
reivindicación 32, en el cual el parámetro actualizado consta de un
parámetro de energía Sonora media en los tres tramos.
35. El método o clasificador de voz de la
reivindicación 32, en el cual el parámetro actualizado consta de un
parámetro de energía de segmento anticipado.
36. El método o clasificador de voz de la
reivindicación 32, en el cual el parámetro actualizado consta de un
parámetro de energía sonora media en tres tramos.
37. El método o clasificador de voz de la
reivindicación 32, en el cual el parámetro actualizado consta de un
parámetro de detección de actividad sonora.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US733740 | 2000-12-08 | ||
US09/733,740 US7472059B2 (en) | 2000-12-08 | 2000-12-08 | Method and apparatus for robust speech classification |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2276845T3 true ES2276845T3 (es) | 2007-07-01 |
Family
ID=24948935
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES01984988T Expired - Lifetime ES2276845T3 (es) | 2000-12-08 | 2001-12-04 | Metodos y aparatos para la clasificacion de voz robusta. |
Country Status (13)
Country | Link |
---|---|
US (1) | US7472059B2 (es) |
EP (1) | EP1340223B1 (es) |
JP (2) | JP4550360B2 (es) |
KR (2) | KR100908219B1 (es) |
CN (2) | CN101131817B (es) |
AT (1) | ATE341808T1 (es) |
AU (1) | AU2002233983A1 (es) |
BR (2) | BR0116002A (es) |
DE (1) | DE60123651T2 (es) |
ES (1) | ES2276845T3 (es) |
HK (1) | HK1067444A1 (es) |
TW (1) | TW535141B (es) |
WO (1) | WO2002047068A2 (es) |
Families Citing this family (67)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6691084B2 (en) * | 1998-12-21 | 2004-02-10 | Qualcomm Incorporated | Multiple mode variable rate speech coding |
GB0003903D0 (en) * | 2000-02-18 | 2000-04-05 | Canon Kk | Improved speech recognition accuracy in a multimodal input system |
US8090577B2 (en) | 2002-08-08 | 2012-01-03 | Qualcomm Incorported | Bandwidth-adaptive quantization |
US7657427B2 (en) * | 2002-10-11 | 2010-02-02 | Nokia Corporation | Methods and devices for source controlled variable bit-rate wideband speech coding |
US7023880B2 (en) * | 2002-10-28 | 2006-04-04 | Qualcomm Incorporated | Re-formatting variable-rate vocoder frames for inter-system transmissions |
US7698132B2 (en) * | 2002-12-17 | 2010-04-13 | Qualcomm Incorporated | Sub-sampled excitation waveform codebooks |
US7613606B2 (en) * | 2003-10-02 | 2009-11-03 | Nokia Corporation | Speech codecs |
US7472057B2 (en) * | 2003-10-17 | 2008-12-30 | Broadcom Corporation | Detector for use in voice communications systems |
KR20050045764A (ko) * | 2003-11-12 | 2005-05-17 | 삼성전자주식회사 | 무선 단말기에서의 음성 저장/재생 장치 및 방법 |
US7630902B2 (en) * | 2004-09-17 | 2009-12-08 | Digital Rise Technology Co., Ltd. | Apparatus and methods for digital audio coding using codebook application ranges |
WO2006104576A2 (en) * | 2005-03-24 | 2006-10-05 | Mindspeed Technologies, Inc. | Adaptive voice mode extension for a voice activity detector |
US20060262851A1 (en) | 2005-05-19 | 2006-11-23 | Celtro Ltd. | Method and system for efficient transmission of communication traffic |
KR100744352B1 (ko) * | 2005-08-01 | 2007-07-30 | 삼성전자주식회사 | 음성 신호의 하모닉 성분을 이용한 유/무성음 분리 정보를추출하는 방법 및 그 장치 |
US20070033042A1 (en) * | 2005-08-03 | 2007-02-08 | International Business Machines Corporation | Speech detection fusing multi-class acoustic-phonetic, and energy features |
US7962340B2 (en) * | 2005-08-22 | 2011-06-14 | Nuance Communications, Inc. | Methods and apparatus for buffering data for use in accordance with a speech recognition system |
KR100735343B1 (ko) * | 2006-04-11 | 2007-07-04 | 삼성전자주식회사 | 음성신호의 피치 정보 추출장치 및 방법 |
US8917876B2 (en) | 2006-06-14 | 2014-12-23 | Personics Holdings, LLC. | Earguard monitoring system |
US20080031475A1 (en) | 2006-07-08 | 2008-02-07 | Personics Holdings Inc. | Personal audio assistant device and method |
US8239190B2 (en) * | 2006-08-22 | 2012-08-07 | Qualcomm Incorporated | Time-warping frames of wideband vocoder |
CN101523486B (zh) * | 2006-10-10 | 2013-08-14 | 高通股份有限公司 | 用于编码和解码音频信号的方法和设备 |
AU2007331763B2 (en) * | 2006-12-12 | 2011-06-30 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream |
US11750965B2 (en) | 2007-03-07 | 2023-09-05 | Staton Techiya, Llc | Acoustic dampening compensation system |
CN101636783B (zh) * | 2007-03-16 | 2011-12-14 | 松下电器产业株式会社 | 声音分析装置、声音分析方法及系统集成电路 |
US8111839B2 (en) | 2007-04-09 | 2012-02-07 | Personics Holdings Inc. | Always on headwear recording system |
US11683643B2 (en) | 2007-05-04 | 2023-06-20 | Staton Techiya Llc | Method and device for in ear canal echo suppression |
US11856375B2 (en) | 2007-05-04 | 2023-12-26 | Staton Techiya Llc | Method and device for in-ear echo suppression |
US8502648B2 (en) | 2007-08-16 | 2013-08-06 | Broadcom Corporation | Remote-control device with directional audio system |
US9495971B2 (en) | 2007-08-27 | 2016-11-15 | Telefonaktiebolaget Lm Ericsson (Publ) | Transient detector and method for supporting encoding of an audio signal |
US20090319261A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
US8768690B2 (en) | 2008-06-20 | 2014-07-01 | Qualcomm Incorporated | Coding scheme selection for low-bit-rate applications |
US20090319263A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
KR20100006492A (ko) | 2008-07-09 | 2010-01-19 | 삼성전자주식회사 | 부호화 방식 결정 방법 및 장치 |
US8380498B2 (en) * | 2008-09-06 | 2013-02-19 | GH Innovation, Inc. | Temporal envelope coding of energy attack signal by using attack point location |
US8600067B2 (en) | 2008-09-19 | 2013-12-03 | Personics Holdings Inc. | Acoustic sealing analysis system |
US9129291B2 (en) | 2008-09-22 | 2015-09-08 | Personics Holdings, Llc | Personalized sound management and method |
FR2944640A1 (fr) * | 2009-04-17 | 2010-10-22 | France Telecom | Procede et dispositif d'evaluation objective de la qualite vocale d'un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal. |
US9838784B2 (en) | 2009-12-02 | 2017-12-05 | Knowles Electronics, Llc | Directional audio capture |
US8538035B2 (en) | 2010-04-29 | 2013-09-17 | Audience, Inc. | Multi-microphone robust noise suppression |
US8473287B2 (en) | 2010-04-19 | 2013-06-25 | Audience, Inc. | Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system |
US8781137B1 (en) | 2010-04-27 | 2014-07-15 | Audience, Inc. | Wind noise detection and suppression |
CN102473411B (zh) * | 2010-05-17 | 2014-11-05 | 松下电器(美国)知识产权公司 | 声音分类装置、方法及集成电路 |
US8447596B2 (en) | 2010-07-12 | 2013-05-21 | Audience, Inc. | Monaural noise suppression based on computational auditory scene analysis |
US8311817B2 (en) * | 2010-11-04 | 2012-11-13 | Audience, Inc. | Systems and methods for enhancing voice quality in mobile device |
JP2012203351A (ja) * | 2011-03-28 | 2012-10-22 | Yamaha Corp | 子音識別装置、およびプログラム |
US8990074B2 (en) * | 2011-05-24 | 2015-03-24 | Qualcomm Incorporated | Noise-robust speech coding mode classification |
WO2013075753A1 (en) * | 2011-11-25 | 2013-05-30 | Huawei Technologies Co., Ltd. | An apparatus and a method for encoding an input signal |
US8731911B2 (en) * | 2011-12-09 | 2014-05-20 | Microsoft Corporation | Harmonicity-based single-channel speech quality estimation |
JPWO2013136742A1 (ja) * | 2012-03-14 | 2015-08-03 | パナソニックIpマネジメント株式会社 | 車載通話装置 |
CN103903633B (zh) * | 2012-12-27 | 2017-04-12 | 华为技术有限公司 | 检测语音信号的方法和装置 |
US9536540B2 (en) | 2013-07-19 | 2017-01-03 | Knowles Electronics, Llc | Speech signal separation and synthesis based on auditory scene analysis and speech modeling |
US9167082B2 (en) | 2013-09-22 | 2015-10-20 | Steven Wayne Goldstein | Methods and systems for voice augmented caller ID / ring tone alias |
US10043534B2 (en) | 2013-12-23 | 2018-08-07 | Staton Techiya, Llc | Method and device for spectral expansion for an audio signal |
EP2922056A1 (en) * | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation |
CN105374367B (zh) * | 2014-07-29 | 2019-04-05 | 华为技术有限公司 | 异常帧检测方法和装置 |
US9978388B2 (en) | 2014-09-12 | 2018-05-22 | Knowles Electronics, Llc | Systems and methods for restoration of speech components |
US9886963B2 (en) * | 2015-04-05 | 2018-02-06 | Qualcomm Incorporated | Encoder selection |
KR102446392B1 (ko) * | 2015-09-23 | 2022-09-23 | 삼성전자주식회사 | 음성 인식이 가능한 전자 장치 및 방법 |
US10616693B2 (en) | 2016-01-22 | 2020-04-07 | Staton Techiya Llc | System and method for efficiency among devices |
US9820042B1 (en) | 2016-05-02 | 2017-11-14 | Knowles Electronics, Llc | Stereo separation and directional suppression with omni-directional microphones |
EP3324406A1 (en) | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a variable threshold |
EP3324407A1 (en) * | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic |
US20180174574A1 (en) * | 2016-12-19 | 2018-06-21 | Knowles Electronics, Llc | Methods and systems for reducing false alarms in keyword detection |
KR20180111271A (ko) * | 2017-03-31 | 2018-10-11 | 삼성전자주식회사 | 신경망 모델을 이용하여 노이즈를 제거하는 방법 및 장치 |
US10951994B2 (en) | 2018-04-04 | 2021-03-16 | Staton Techiya, Llc | Method to acquire preferred dynamic range function for speech enhancement |
CN109545192B (zh) * | 2018-12-18 | 2022-03-08 | 百度在线网络技术(北京)有限公司 | 用于生成模型的方法和装置 |
BR112021020507A2 (pt) * | 2019-05-07 | 2021-12-07 | Voiceage Corp | Métodos e dispositivos para detectar um ataque em um sinal de som a ser codificado e para codificar o ataque detectado |
CN110310668A (zh) * | 2019-05-21 | 2019-10-08 | 深圳壹账通智能科技有限公司 | 静音检测方法、系统、设备及计算机可读存储介质 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US574906A (en) * | 1897-01-12 | Chain | ||
US4281218A (en) * | 1979-10-26 | 1981-07-28 | Bell Telephone Laboratories, Incorporated | Speech-nonspeech detector-classifier |
JPS58143394A (ja) * | 1982-02-19 | 1983-08-25 | 株式会社日立製作所 | 音声区間の検出・分類方式 |
CA2040025A1 (en) | 1990-04-09 | 1991-10-10 | Hideki Satoh | Speech detection apparatus with influence of input level and noise reduced |
US5680508A (en) * | 1991-05-03 | 1997-10-21 | Itt Corporation | Enhancement of speech coding in background noise for low-rate speech coder |
CA2568984C (en) * | 1991-06-11 | 2007-07-10 | Qualcomm Incorporated | Variable rate vocoder |
FR2684226B1 (fr) * | 1991-11-22 | 1993-12-24 | Thomson Csf | Procede et dispositif de decision de voisement pour vocodeur a tres faible debit. |
JP3277398B2 (ja) | 1992-04-15 | 2002-04-22 | ソニー株式会社 | 有声音判別方法 |
US5734789A (en) * | 1992-06-01 | 1998-03-31 | Hughes Electronics | Voiced, unvoiced or noise modes in a CELP vocoder |
IN184794B (es) | 1993-09-14 | 2000-09-30 | British Telecomm | |
US5784532A (en) | 1994-02-16 | 1998-07-21 | Qualcomm Incorporated | Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system |
TW271524B (es) * | 1994-08-05 | 1996-03-01 | Qualcomm Inc | |
WO1996034382A1 (en) | 1995-04-28 | 1996-10-31 | Northern Telecom Limited | Methods and apparatus for distinguishing speech intervals from noise intervals in audio signals |
JPH09152894A (ja) * | 1995-11-30 | 1997-06-10 | Denso Corp | 有音無音判別器 |
EP0867856B1 (fr) * | 1997-03-25 | 2005-10-26 | Koninklijke Philips Electronics N.V. | "Méthode et dispositif de detection d'activité vocale" |
JP3273599B2 (ja) * | 1998-06-19 | 2002-04-08 | 沖電気工業株式会社 | 音声符号化レート選択器と音声符号化装置 |
JP2000010577A (ja) | 1998-06-19 | 2000-01-14 | Sony Corp | 有声音/無声音判定装置 |
US6640208B1 (en) * | 2000-09-12 | 2003-10-28 | Motorola, Inc. | Voiced/unvoiced speech classifier |
-
2000
- 2000-12-08 US US09/733,740 patent/US7472059B2/en not_active Expired - Lifetime
-
2001
- 2001-12-04 BR BRPI0116002-8A patent/BR0116002A/pt active IP Right Grant
- 2001-12-04 EP EP01984988A patent/EP1340223B1/en not_active Expired - Lifetime
- 2001-12-04 CN CN200710152618XA patent/CN101131817B/zh not_active Expired - Lifetime
- 2001-12-04 KR KR1020097001337A patent/KR100908219B1/ko active IP Right Grant
- 2001-12-04 BR BRPI0116002-8A patent/BRPI0116002B1/pt unknown
- 2001-12-04 AT AT01984988T patent/ATE341808T1/de not_active IP Right Cessation
- 2001-12-04 CN CNB018224938A patent/CN100350453C/zh not_active Expired - Lifetime
- 2001-12-04 DE DE60123651T patent/DE60123651T2/de not_active Expired - Lifetime
- 2001-12-04 JP JP2002548711A patent/JP4550360B2/ja not_active Expired - Lifetime
- 2001-12-04 ES ES01984988T patent/ES2276845T3/es not_active Expired - Lifetime
- 2001-12-04 WO PCT/US2001/046971 patent/WO2002047068A2/en active IP Right Grant
- 2001-12-04 AU AU2002233983A patent/AU2002233983A1/en not_active Abandoned
- 2001-12-04 KR KR1020037007641A patent/KR100895589B1/ko active IP Right Grant
- 2001-12-07 TW TW090130379A patent/TW535141B/zh not_active IP Right Cessation
-
2004
- 2004-12-30 HK HK04110328A patent/HK1067444A1/xx not_active IP Right Cessation
-
2010
- 2010-03-26 JP JP2010072646A patent/JP5425682B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
KR20090026805A (ko) | 2009-03-13 |
BR0116002A (pt) | 2006-05-09 |
CN1543639A (zh) | 2004-11-03 |
EP1340223A2 (en) | 2003-09-03 |
DE60123651D1 (de) | 2006-11-16 |
JP4550360B2 (ja) | 2010-09-22 |
WO2002047068A3 (en) | 2002-08-22 |
HK1067444A1 (en) | 2005-04-08 |
WO2002047068A2 (en) | 2002-06-13 |
JP5425682B2 (ja) | 2014-02-26 |
DE60123651T2 (de) | 2007-10-04 |
KR100895589B1 (ko) | 2009-05-06 |
JP2010176145A (ja) | 2010-08-12 |
TW535141B (en) | 2003-06-01 |
AU2002233983A1 (en) | 2002-06-18 |
CN101131817A (zh) | 2008-02-27 |
CN101131817B (zh) | 2013-11-06 |
BRPI0116002B1 (pt) | 2018-04-03 |
KR100908219B1 (ko) | 2009-07-20 |
KR20030061839A (ko) | 2003-07-22 |
US7472059B2 (en) | 2008-12-30 |
CN100350453C (zh) | 2007-11-21 |
EP1340223B1 (en) | 2006-10-04 |
JP2004515809A (ja) | 2004-05-27 |
US20020111798A1 (en) | 2002-08-15 |
ATE341808T1 (de) | 2006-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2276845T3 (es) | Metodos y aparatos para la clasificacion de voz robusta. | |
JP4444749B2 (ja) | 減少レート、可変レートの音声分析合成を実行する方法及び装置 | |
KR101617508B1 (ko) | 노이즈에 강인한 스피치 코딩 모드 분류 | |
US6694293B2 (en) | Speech coding system with a music classifier | |
ES2288950T3 (es) | Procedimiento de compensacion de borrado de tramas en un codificador de voz de velocidad de transmision variable. | |
ES2325151T3 (es) | Sistema de comunicacion vocal y procedimiento para gestionar tramas perdidas. | |
US7203638B2 (en) | Method for interoperation between adaptive multi-rate wideband (AMR-WB) and multi-mode variable bit-rate wideband (VMR-WB) codecs | |
ES2269112T3 (es) | Codificador de voz multimodal en bucle cerrado de dominio mixto. | |
US7657427B2 (en) | Methods and devices for source controlled variable bit-rate wideband speech coding | |
ES2302754T3 (es) | Procedimiento y aparato para codificacion de habla sorda. | |
ES2908183T3 (es) | Decisión no sonora para el procesamiento de la voz | |
US8392198B1 (en) | Split-band speech compression based on loudness estimation | |
Cellario et al. | CELP coding at variable rate | |
US7089180B2 (en) | Method and device for coding speech in analysis-by-synthesis speech coders | |
Sluijter et al. | State of the art and trends in speech coding | |
Chen | Adaptive variable bit-rate speech coder for wireless | |
Unver | Advanced Low Bit-Rate Speech Coding Below 2.4 Kbps |