ES2310893T3 - Metodo para el reconocimiento de voz. - Google Patents
Metodo para el reconocimiento de voz. Download PDFInfo
- Publication number
- ES2310893T3 ES2310893T3 ES06250864T ES06250864T ES2310893T3 ES 2310893 T3 ES2310893 T3 ES 2310893T3 ES 06250864 T ES06250864 T ES 06250864T ES 06250864 T ES06250864 T ES 06250864T ES 2310893 T3 ES2310893 T3 ES 2310893T3
- Authority
- ES
- Spain
- Prior art keywords
- voice
- pronunciation
- sequence
- voice recognition
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 66
- 230000008676 import Effects 0.000 claims description 16
- 230000003595 spectral effect Effects 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims description 3
- 230000000977 initiatory effect Effects 0.000 abstract 1
- 230000008569 process Effects 0.000 description 24
- 238000010586 diagram Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 12
- 230000015556 catabolic process Effects 0.000 description 7
- 238000006731 degradation reaction Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 4
- 230000008030 elimination Effects 0.000 description 3
- 238000003379 elimination reaction Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
- Electric Clocks (AREA)
Abstract
Sistema de reconocimiento de voz que comprende: inicio de la importación de la voz (S502) de un hablante en respuesta a la operación o el movimiento del hablante (S501); determinación de si falta parte del comienzo de la voz (S504); configuración de la información de pronunciación de una palabra objetivo a reconocer (S505) basada en el resultado de la etapa de determinación; y reconocimiento de la voz importada (S506) mediante la información de pronunciación configurada.
Description
Método para el reconocimiento de voz.
La presente invención se refiere a un método
para llevar a cabo un reconocimiento de voz de alta precisión en el
cual se realiza un reconocimiento de voz que incluye la introducción
de un comando para comenzar a hablar, como por ejemplo la pulsación
de un botón, y en el que se puede hablar antes de pulsar el
botón.
Cuando se lleva a cabo el reconocimiento de voz,
es necesario ajustar apropiadamente la distancia entre la boca del
hablante y el micrófono, y el nivel de entrada, así como introducir
correctamente el comando para comenzar a hablar (normalmente
pulsando un botón), para evitar que se produzcan errores debidos al
ruido ambiente. Si esto no se realiza correctamente, habrá una
degradación sustancial en el rendimiento del reconocimiento. Sin
embargo, los hablantes no siempre realizan dichos ajustes o los
introducen de manera incorrecta, y se hace necesario tomar medidas
para evitar la degradación del rendimiento en estos casos. En
concreto, algunas veces el comando para comenzar a hablar no se
introduce correctamente, por ejemplo, se comienza a hablar antes de
pulsar el botón. En dicho caso, se omitirá el comienzo de la voz, ya
que la voz se importa a través del micrófono después de introducir
el comando para comenzar a hablar. Cuando el reconocimiento de voz
convencional se realiza basándose en la parte hablada que se ha
omitido, la tasa de reconocimiento caerá mucho en comparación con
el caso en que el comando para comenzar a hablar se introduce
correctamente.
Considerando dicho problema, la patente japonesa
nº 2829014 describe un método que proporciona una memoria
intermedia circular que importa en todo momento voz de una longitud
constante, además de una memoria intermedia de datos para almacenar
los datos de voz importados después de introducir el comando para
iniciar el proceso de reconocimiento. Tras introducir el comando,
la cabecera de la voz se detecta utilizando la voz importada
mediante la memoria intermedia de datos. En caso de que no se
detecte la cabecera de la voz, la detección de la cabecera de la
voz se realiza utilizando además la voz antes de introducir el
comando, que se almacena en la memoria intermedia circular. En este
método, como la memoria intermedia circular tiene que realizar
constantemente un proceso de importación de voz, se necesita una
carga de CPU adicional en comparación con el caso en el que sólo se
utiliza la memoria intermedia de datos. Es decir, no es
necesariamente un método apropiado para utilizar en dispositivos
que usan baterías tales como los dispositivos móviles.
Además, la patente japonesa nº 3588929 describe
un método en el que una palabra con una semisílaba o una monosílaba
que se ha omitido al principio de la palabra también es un objetivo
a reconocer. De esta manera, se evita la degradación de la tasa de
reconocimiento de voz en un entorno ruidoso. Además, la patente
japonesa nº 3588929 describe un método para realizar el control
para determinar si una palabra con una parte de la cabecera omitida
debe ser la palabra objetivo a reconocer en función del nivel de
ruido. En este método, la determinación de si se debe omitir una
semisílaba o una monosílaba al principio de la palabra se realiza
basándose en el tipo de semisílaba o monosílaba al principio de la
palabra o en el nivel de ruido. Si se determina que se debe
realizar una omisión, la palabra sin omisión no se fija como la
palabra objetivo a reconocer. Además, cuando se determina si se
debe omitir el comienzo de la palabra, no se tiene en cuenta si el
comando para comenzar a hablar introducido mediante el movimiento o
la operación del hablante funciona correctamente. Por lo tanto, en
la patente japonesa nº 3588929, la omisión del comienzo de la
palabra es de hasta una sílaba, y en un entorno tranquilo, no se
omite el comienzo de la palabra. En consecuencia, en el caso de que
se comience a hablar antes de pulsar el botón y, por ejemplo, se
omitan dos sílabas de la parte de voz en una atmósfera tranquila,
no se puede evitar la degradación del rendimiento del
reconocimiento.
Además, el documento
EP-A-1 083545 describe un aparato de
reconocimiento de voz para reconocer palabras en las que falta el
comienzo.
A la vista del problema anterior, el objetivo de
la presente invención está dirigido a un método para evitar la
degradación del rendimiento del reconocimiento mediante un proceso
fácil y sencillo en el caso de que se pierda o se omita el comienzo
de la voz. Dicha omisión se produce cuando el hablante introduce
incorrectamente el comando para comenzar a hablar.
Según un primer aspecto de la invención, se
proporciona un método de reconocimiento de voz como el que se
especifica en las reivindicaciones 1 a 8.
Según un segundo aspecto de la invención, se
proporciona un programa de control como el que se especifica en la
reivindicación 9.
\newpage
Según un tercer aspecto de la invención, se
proporciona un aparato de reconocimiento de voz como el que se
especifica en las reivindicaciones 10 a 12.
Otras características de la presente invención
se harán evidentes a partir de la siguiente descripción detallada
de las realizaciones a título de ejemplo haciendo referencia a los
dibujos anexos.
Los dibujos anexos, que se incorporan en la
descripción y constituyen una parte de la misma, ilustran
realizaciones a título de ejemplo de la invención y, junto con la
descripción, se utilizan para explicar los principios de la
invención.
La figura 1 es un diagrama de bloques de la
configuración de hardware de un dispositivo de información en el
cual se instala el método de reconocimiento de voz según la primera
realización a título de ejemplo de la presente invención.
La figura 2 es un diagrama de bloques de la
configuración modular del método de reconocimiento de voz según la
primera realización a título de ejemplo de la presente
invención.
La figura 3 es un diagrama de bloques de la
configuración modular de un método típico de reconocimiento de voz
del tipo que no necesita registro.
La figura 4 es un diagrama de bloques de la
configuración modular de un método típico de reconocimiento de voz
del tipo que necesita registro.
La figura 5 es un diagrama de flujo de todo el
proceso de reconocimiento de voz según la primera realización a
título de ejemplo de la presente invención.
Las figuras 6A y 6B son diagramas esquemáticos
de la omisión de voz debido a la diferencia en el momento en el que
se introduce el comando para comenzar a hablar.
La figura 7 es un ejemplo de palabras objetivo a
reconocer.
La figura 8 es un ejemplo de las palabras
objetivo a reconocer de la figura 7, en el cual se han eliminado
las primeras secuencias de pronunciación.
La figura 9 es un ejemplo de la palabra objetivo
a reconocer de la figura 7, en el cual se han eliminado la primera
y la segunda secuencias de pronunciación.
La figura 10 es un ejemplo de las palabras
objetivo a reconocer de la figura 7, en el cual se han eliminado
las secuencias de pronunciación primera a cuarta.
La figura 11 es un ejemplo de todas las
combinaciones de las palabras objetivo a reconocer de la figura 7,
en el cual se han eliminado las secuencias de pronunciación primera
a cuarta.
La figura 12 es un ejemplo en el que el fonema
/t/ se modela mediante tres estados del modelo de Marcov oculto
(HMM).
La figura 13 es un ejemplo de las palabras
objetivo a reconocer. La información de pronunciación de las
palabras a reconocer de la figura 7 se expresa mediante las
secuencias de estado del HMM.
La figura 14 es un ejemplo de las palabras
objetivo a reconocer de la figura 13, en el cual se han eliminado
las primeras secuencias de estado.
Las figuras 15A, 15B y 15C son diagramas
esquemáticos que ilustran la diferencia entre la eliminación de las
secuencias de pronunciación y la eliminación de las secuencias de
estado.
Las figuras 16A, 16B y 16C son diagramas
esquemáticos que ilustran cómo se ajusta la información de
pronunciación mediante la eliminación de la secuencia del patrón de
referencia.
La figura 17 es un diagrama de bloques de la
configuración modular del método de reconocimiento de voz. El
método de reconocimiento de voz incluye la determinación de la voz
importada y la configuración de la información de pronunciación en
el proceso de reconocimiento de voz.
Las realizaciones a título de ejemplo de la
invención se describirán en detalle a continuación haciendo
referencia a los dibujos.
Primera realización a título de
ejemplo
La figura 1 es un diagrama de bloques de un
aparato de reconocimiento de voz según la primera realización a
título de ejemplo de la presente invención. La CPU (101) realiza
diversas funciones de control en el aparato de reconocimiento de
voz según un programa de control almacenado en la ROM (102) o
cargado desde un dispositivo de almacenamiento externo (104) en la
RAM (103). La ROM (102) almacena varios parámetros y el programa de
control que ejecuta la CPU (101). La RAM (103) proporciona un área
de trabajo cuando la CPU (101) realiza diversas funciones de
control, y también almacena el programa de control que ejecuta la
CPU (101). El método mostrado en el diagrama de flujo de la figura
5 es preferiblemente un programa ejecutado por la CPU (101) y
almacenado en la ROM (102), en la RAM (103) o en el dispositivo de
almacenamiento (104).
El número de referencia (104) indica un
dispositivo de almacenamiento externo como por ejemplo un disco
duro, un disco flexible o floppy (marca comercial registrada), un
CD-ROM, un DVD-ROM y una tarjeta de
memoria. En caso de que el dispositivo de almacenamiento externo
(104) sea un disco duro, almacena varios programas instalados desde
un CD-ROM o un disco flexible (marca comercial
registrada). Un dispositivo de entrada de voz (105), como por
ejemplo un micrófono, importa la voz en la cual se va a realizar el
reconocimiento. Un dispositivo de visualización (106), como por
ejemplo un CRT o LCD, realiza la configuración de los contenidos del
proceso, muestra la información de entrada y extrae los resultados
del proceso. Un dispositivo de entrada auxiliar (107), como por
ejemplo un botón, un teclado numérico, un teclado, un ratón o un
lápiz, se utiliza para dar instrucciones para comenzar a importar
la voz de un hablante. Un dispositivo de salida auxiliar (108), como
por ejemplo un altavoz, se utiliza para confirmar por voz el
resultado del reconocimiento de voz. Un bus (109) conecta todos los
dispositivos anteriores. La voz objetivo a reconocer se puede
introducir a través del dispositivo de entrada de voz (105), o se
puede adquirir mediante otros dispositivos o unidades. La voz
objetivo adquirida por otros dispositivos o unidades se guarda en
la ROM (102), en la RAM
(103), en el dispositivo de almacenamiento externo (104) o en un dispositivo externo conectado a través de una red.
(103), en el dispositivo de almacenamiento externo (104) o en un dispositivo externo conectado a través de una red.
La figura 2 es un diagrama de bloques de la
configuración modular del método de reconocimiento de voz. La
unidad de importación de voz (201) importa la voz introducida a
través del micrófono del dispositivo de entrada de voz (105). La
instrucción para comenzar la importación de la voz viene dada por la
operación del hablante, como por ejemplo la pulsación de un botón
en el dispositivo de entrada auxiliar (107). La unidad de
determinación de la voz importada (202) determina si el comienzo o
parte del comienzo de la voz importada por la unidad de importación
de voz se ha perdido u omitido. La unidad de configuración de la
información de pronunciación (203) configura la información de
pronunciación de la palabra objetivo basándose en el resultado de la
unidad de determinación de la voz importada (202). La unidad de
reconocimiento de voz (204) reconoce la voz importada por la unidad
de importación de voz (201) utilizando la información de
pronunciación configurada por la unidad de configuración de la
información de pronunciación (203).
La figura 3 es un diagrama de bloques de los
módulos de un método típico de reconocimiento de voz utilizado para
reconocer voz sin registrar o voz independiente del hablante. Una
unidad de entrada de voz (301) reconoce la voz introducida a través
del dispositivo de entrada de voz (105). La unidad de extracción de
parámetros característicos de la voz (302) lleva a cabo un análisis
espectral de la voz introducida mediante la unidad de entrada de
voz (301) y extrae el parámetro característico. El diccionario de
pronunciación (305) almacena la información de pronunciación de la
palabra objetivo a reconocer. El modelo acústico (306) almacena
modelos de fonemas (o modelos de sílabas, o modelos de palabras) y
el patrón de referencia de la palabra objetivo a reconocer se
construye utilizando el modelo acústico según la información de
pronunciación del diccionario de pronunciación (305). El modelo de
idioma (307) almacena una lista de palabras y la probabilidad de
conexión de las palabras (o restricción gramatical). La unidad de
búsqueda (303) calcula la distancia entre el patrón de referencia,
que se configura a partir del diccionario de pronunciación (305)
utilizando el modelo de idioma (307), y el parámetro característico
de la voz obtenido mediante la unidad (302) de extracción de
parámetros característicos de la voz. La unidad de búsqueda (303)
también calcula la similitud, o realiza el proceso de búsqueda. La
unidad de salida de resultados (304) muestra el resultado obtenido
por la unidad de búsqueda (303) en el dispositivo de visualización
(106), extrae el resultado como voz en el dispositivo de salida
auxiliar (108), o extrae el resultado del reconocimiento para
realizar una operación predeterminada. La configuración de la
información de pronunciación mediante la unidad de configuración de
la información de pronunciación (203) corresponde a la
configuración del diccionario de pronunciación (305).
La figura 5 es un diagrama de flujo del proceso
completo del método de reconocimiento de voz. El proceso completo
se ilustra en detalle con el diagrama de flujo. En la etapa S501, se
espera la entrada del comando para empezar a hablar. El comando se
introduce según la operación o el movimiento del hablante. La
introducción del comando puede realizarse a través de cualquier
medio que permita al hablante dar instrucciones para comenzar a
hablar, por ejemplo, pulsar un botón de un teclado numérico, un
teclado o un interruptor, hacer clic en un ratón o pulsar un panel
táctil. Además, si se utiliza un sensor tal como un sensor de luz
incluyendo un sensor de infrarrojos, un sensor de antena o un
sensor ultrasónico, se puede detectar el movimiento de un hablante
que se acerque al dispositivo de reconocimiento de voz. Si se
considera que dicho movimiento del hablante es el comando para
comenzar a hablar, la detección del sensor se puede utilizar como el
comando para comenzar a hablar. El comando de la etapa S501 inicia
la importación de la voz a través del micrófono en la etapa S502.
En la etapa S504, se determina si se omite el comienzo de la voz
importada, y el análisis de la voz necesario para esta
determinación se realiza en la etapa S503.
Las figuras 6A y 6B son diagramas esquemáticos
de la omisión de voz debida a la diferencia en el momento en el que
se introduce el comando para empezar a hablar. El eje horizontal es
una escala de tiempo, y la voz comienza en el instante (S). La
figura 6A es un caso en el que el comando para comenzar a hablar se
introduce en el instante (P) (P<S). Como la importación de la
voz puede comenzar en el instante (P) (o inmediatamente después de
-P-), la voz no se omite y se importa correctamente. Por otra parte,
la figura 6B es un caso en el que el comando para empezar a hablar
se introduce en el instante (Q) (S<Q). Como la importación de la
voz comienza en el instante (Q) (o inmediatamente después de -Q-) en
este caso, se omite el comienzo de la voz. El análisis de la voz y
la determinación de si se omite el comienzo de la voz se llevan a
cabo mediante el siguiente método.
Existen varios métodos para realizar el análisis
y la determinación de la voz. Un método fácil y sencillo consiste
en calcular la potencia de la forma de onda utilizando la parte de
la cabecera de la forma de onda de la voz importada (como por
ejemplo 300 muestras) y comparar el resultado con un valor umbral
predeterminado. Si el resultado supera el valor umbral, se puede
determinar que se omite el comienzo de la voz. La determinación
también se puede realizar llevando a cabo otros análisis, como por
ejemplo el análisis de la tasa de cruces por cero, el análisis
espectral o el análisis de la frecuencia fundamental.
La tasa de cruces por cero se puede obtener
expresando los datos de voz importados con códigos (por ejemplo, en
el caso de 16 bits, entero corto con signo, se toman los valores
entre -32768 y 32767) y contando el número de veces que cambian los
códigos. La tasa de cruces por cero se obtiene para la parte de la
cabecera de la forma de onda de voz y el resultado se compara con
el valor umbral de la potencia de la forma de onda descrito
anteriormente. De esta manera, se puede determinar que se omite el
comienzo de la voz si el resultado es mayor que el valor umbral, y
que no se omite si el resultado es inferior al valor umbral.
El análisis espectral se puede realizar, por
ejemplo, de la misma manera que la extracción de parámetros
característicos del reconocimiento de voz en la unidad de
extracción de parámetros característicos (302) de reconocimiento de
voz. A continuación, se obtiene la similitud (o la probabilidad) del
modelo de voz y el modelo no correspondiente a la voz se obtiene
utilizando el parámetro característico extraído, y si la similitud
del modelo de voz es mayor que la del modelo no correspondiente a
la voz, se determina que se omite la voz. Si la similitud del
modelo de voz es inferior a la del modelo no correspondiente a la
voz, se determina que la voz no se omite. El modelo de voz y el
modelo no correspondiente a la voz se preparan con antelación a
partir de los parámetros característicos de la parte de voz y los
parámetros característicos de la parte no correspondiente a la voz
como modelos estadísticos. Estos modelos se pueden generar mediante
cualquier método existente, por ejemplo, el modelo de mezcla
gaussiana (GMM). También se puede utilizar un método que utilice el
parámetro característico que representa otros espectros obtenidos
mediante un análisis diferente a partir de la extracción de
parámetros característicos del reconocimiento de voz en la unidad
de extracción de parámetros característicos de la voz (302).
Para el análisis de la frecuencia fundamental,
se pueden utilizar análisis existentes como por ejemplo la técnica
de autocorrelación o la técnica de cepstrum. La omisión se determina
utilizando el valor correspondiente a la periodicidad en lugar de
utilizar directamente el valor de la frecuencia fundamental. En
concreto, en el caso del análisis de la frecuencia fundamental
basado en la técnica de cepstrum, se puede utilizar el valor máximo
dentro de un intervalo predeterminado (dentro del intervalo de tonos
de la voz humana) de una secuencia en frecuencia (transformada
inversa de fourier discreta del espectro de amplitud logarítmico).
Dicho valor se obtiene de la parte de la cabecera de la forma de
onda de la voz y se compara con el valor umbral como en el caso de
la potencia de la forma de onda. Si el valor es mayor que el valor
umbral, se determina que se omite la voz, y si el valor es inferior
al valor umbral, se determina que no se omite la voz. Además, se
puede utilizar un método en el cual se realiza un análisis para
obtener la estructura armónica en lugar de la frecuencia
fundamental, y el resultado se utiliza como el parámetro
característico.
Si se determina que se omite la voz en la etapa
S504, la información de pronunciación para la voz con una omisión
se configura en la etapa S505. A continuación, se realiza el
reconocimiento de la voz utilizando esta información de
pronunciación en la etapa S506. Si se determina que la voz no se
omite en la etapa S504, en la etapa S506 se realiza un
reconocimiento de voz normal. El proceso realizado en S505 se
describe haciendo referencia a las figuras 7 a 11. En el proceso de
S505, las palabras objetivo a reconocer son "Tokyo",
"Hiroshima", "Tokushima" y "Tu". La figura 7 muestra
ejemplos de palabras objetivo a reconocer, y se mantiene la
información sobre el identificador de la palabra, la transcripción
y la pronunciación (fonema). El patrón de referencia en el proceso
de reconocimiento de voz se genera conectándose al modelo acústico
(306) (por ejemplo, HMM del fonema) según la secuencia (7 fonemas
/t o o k y o o/ en el caso de "Tokyo") de pronunciación
(fonema). La figura 8 muestra las palabras objetivo a reconocer en
el caso de que se elimine el primer fonema de la información de
pronunciación de la figura 7. Por ejemplo, en el caso de
"Tokyo", se elimina el primer fonema /t/ para que la palabra
objetivo a reconocer pase a ser /o o k y o o/. La figura 9 y la
figura 10 muestran las palabras objetivo a reconocer en el caso de
que se hayan eliminado los fonemas hasta el segundo y el cuarto. En
el caso de "Tu", la secuencia de pronunciación consta de dos
fonemas, /ts u/. Por lo tanto, no habrá secuencia de pronunciación
si se eliminan más de dos fonemas. En dicho caso, se asigna un
modelo de silencio (SIL) como secuencia de pronunciación. Además,
en el caso de "Hiroshima" y "Tokushima" en la figura 10,
se obtendrá la misma secuencia de pronunciación (/sh i m a/) si se
eliminan los cuatro primeros fonemas. Si se determina que no se
omite la voz en la etapa S504, el reconocimiento de voz se realiza
en la etapa S506 sólo en las palabras objetivo de la figura 7. Por
otra parte, si se determina que se omite la voz en la etapa S504, el
reconocimiento de voz se lleva a cabo en la etapa S506 en las
palabras objetivo de la figura 8 a la figura 10 además de las
palabras objetivo de la figura 7. En las palabras objetivo de la
figura 8 a la figura 10, la parte de la cabecera de las secuencias
de pronunciación se ha eliminado. Se puede determinar si se omite
la voz realizando el análisis de voz en S503 y la determinación de
la omisión de la voz en la etapa S504. Sin embargo, no se puede
estimar la longitud de la parte hablada que se ha omitido o el
número de fonemas. Por lo tanto, es necesario decidir con
antelación el número apropiado de fonemas eliminados de la palabra
objetivo que se va a añadir. El número se puede establecer
empíricamente, considerando la tendencia de la parte hablada que se
va a omitir dependiendo de la operación o el movimiento del
hablante, o considerando el rendimiento del reconocimiento. Todas
las combinaciones de palabras en las que las secuencias de
pronunciación del primer al cuarto fonemas se han eliminado pueden
ser objetivos a reconocer. En dicho caso, las palabras objetivo
mostradas en la figura 11 se establecen como la información de
pronunciación sobre la omisión de la voz.
El análisis espectral o el análisis de la
frecuencia fundamental de la etapa S503 son procesos iguales o
similares a la extracción de parámetros característicos de la voz
en el proceso de reconocimiento de voz. Por lo tanto, estos
procesos se pueden incluir en la unidad de reconocimiento de voz
(204) y se pueden ejecutar según lo configurado en la unidad de
reconocimiento de voz (204). La figura 17 es un diagrama de bloques
de la configuración modular del método de reconocimiento de voz que
incluye la determinación de la voz importada y la configuración de
la información de pronunciación en el proceso de reconocimiento de
voz. La unidad de determinación de la voz importada (202) y la
unidad de configuración de la información de pronunciación (203) se
incluyen respectivamente como la unidad de determinación de la voz
importada (603) y la unidad de configuración de la información de
pronunciación (604) en el proceso de la figura 3. Como los
componentes de la unidad de entrada de voz (601) al modelo de
idioma (609) son los mismos que los de la figura 2 y la figura 3, se
omiten sus descripciones.
Además, el análisis de la voz no se realiza
necesariamente en la etapa S503 utilizando solamente la primera
trama de la voz, sino que también se puede utilizar la información
sobre varias tramas (por ejemplo, de la primera a la quinta
tramas). Adicionalmente, para determinar si se omite la voz, la
presente invención no se limita a utilizar un valor predeterminado
cuando se compara el valor umbral, tal como se muestra en la etapa
S504. Se pueden llevar a cabo otros procesos, por ejemplo, comparar
la potencia de la forma de onda de la primera trama y de la décima
trama. En este caso, si la potencia de la forma de onda de la
primera trama es mucho más pequeña que la de la décima trama (por
ejemplo, inferior al 10%), se determina que no hay omisión de la
voz.
En la etapa S504, se proporcionaba un ejemplo de
determinación de la omisión de la voz. Sin embargo, la presente
invención no se limita a este ejemplo y se puede configurar para
determinar si la importación de la voz comienza en la mitad de la
voz del hablante.
Según la realización a título de ejemplo
anterior, la degradación del rendimiento del reconocimiento se puede
evitar incluso si el hablante no introduce el comando para comenzar
a hablar en el instante correcto. En consecuencia, los usuarios que
no estén acostumbrados a utilizar un dispositivo de reconocimiento
de voz se sentirán tranquilos al realizar la operación.
Segunda realización a título de
ejemplo
En la primera realización a título de ejemplo,
la pronunciación de la palabra a reconocer se fonemiza, y la
secuencia de pronunciación para la lectura se elimina para
configurar la información de pronunciación sobre la parte hablada
que se ha omitido en la etapa S505. Sin embargo, la invención no se
limita a esta realización. La pronunciación de la palabra objetivo
a reconocer se puede expresar utilizando una secuencia de
pronunciación que es más detallada en comparación con los fonemas,
y se elimina la secuencia de pronunciación detallada. Para ser más
precisos, cuando el reconocimiento de la voz se realiza basándose en
el modelo de Markov oculto (HMM), los fonemas se modelan
habitualmente mediante varios estados. Esta secuencia de estados se
visualiza como la secuencia de pronunciación detallada y se elimina
en el nivel de estado. De este modo, la información de
pronunciación se puede configurar de manera más precisa en
comparación con la eliminación en el nivel de fonema. La figura 12
es un ejemplo en el cual el fonema /t/ se modela mediante tres
estados (t1, t2, t3) de HMM. Cuando la pronunciación de la figura 7
se describe mediante dicha secuencia de estados, es posible una
expresión como la mostrada en la figura 13. En este caso, si la
primera secuencia de estados se elimina en la secuencia de estados
de la figura 13, se puede obtener la figura 14.
Las figuras 15A, 15B y 15C son diagramas
esquemáticos que ilustran la diferencia entre la eliminación de una
secuencia de pronunciación (fonema) y la eliminación de una
secuencia de estados. En el caso de que todos los fonemas se
modelan mediante tres estados de HMM, la secuencia de pronunciación
"Tokyo" /t o o k y o o/ se expresa enlazando el HMM tal como
se muestra en la figura 15A. Si se elimina el primer fonema (/t/),
los tres estados de HMM de /t/ se eliminan tal como se muestra en
la figura 15B. Sin embargo, si la secuencia de pronunciación
detallada de "Tokyo" se expresa mediante la secuencia de
estados de HMM, es posible eliminar sólo el primer estado t1 de
HMM, tal como se muestra en la figura 15C. Es decir, se puede
configurar una información de pronunciación más detallada
realizando la eliminación en el nivel de estado en lugar de en el
nivel de fonema. Como alternativa, también se puede realizar el
mismo proceso utilizando modelos de transición de estados generales
en lugar del HMM descrito anteriormente.
Tercera realización a título de
ejemplo
La información de pronunciación según la
realización a título de ejemplo anterior se configura en el caso de
que la palabra objetivo a reconocer se pueda expresar como una
secuencia de pronunciación o una secuencia de pronunciación
detallada. Sin embargo, la configuración anterior también se puede
utilizar en un reconocimiento de voz independiente del hablante
ampliamente utilizado basado en el HMM del fonema (método de
reconocimiento de voz del tipo que no necesita registro). Más
concretamente, la secuencia de fonemas o estados no se puede
identificar a partir del patrón de referencia en un reconocimiento
de voz dependiente del hablante (método de reconocimiento de voz
del tipo que necesita registro). En el reconocimiento de voz
dependiente del hablante, se registra un patrón de referencia por
voz antes de utilizar el reconocimiento de voz. En consecuencia, no
se puede usar el método descrito en la realización a título de
ejemplo anterior. Sin embargo, si la secuencia de parámetros
característicos del patrón de referencia se utiliza directamente, es
posible configurar la información de pronunciación para la parte
hablada que se ha omitido.
La figura 4 es un diagrama de bloques que
muestra la configuración modular de un método de reconocimiento de
voz del tipo que necesita registro. Como los bloques desde la unidad
de entrada de voz (401) a la unidad de salida de resultados (404)
son los mismos que desde la unidad de entrada de voz (301) a la
unidad de salida de resultados (304), se omite la ilustración de
estas unidades. La palabra objetivo a reconocer se registra
preliminarmente por voz. El patrón de referencia (405) se guarda
como la secuencia de parámetros característicos de la voz
registrada. Se supone que la secuencia de parámetros característicos
se mantiene como el cepstrum de orden 12 y el deltacepstrum
(c1-c12, \Deltac1-\Deltac12),
que es el coeficiente de regresión principal del cepstrum de orden
12. En este caso, la secuencia de parámetros característicos de la
voz registrada para la palabra "Tokyo" se guarda como una
secuencia de patrones de referencia (secuencia de vectores de 24
dimensiones) tal como se muestra en la figura 16A (T1 es el número
de tramas del análisis de la voz registrada). Si se determina que
la voz se omite en la etapa S504, las primeras tramas se eliminan
del patrón de referencia, tal como se muestra en la figura 16B (la
primera trama eliminada) o en la figura 16C (la primera y la segunda
tramas eliminadas). El reconocimiento de voz que incluye la
secuencia de parámetros característicos eliminados y el
reconocimiento de voz se realiza con poca degradación con respecto
a la entrada de voz en la que se omite el comienzo de la voz.
El objetivo de la presente invención también se
puede conseguir mediante un medio de almacenamiento que almacene el
código del programa del software que realiza las funciones de la
realización a título de ejemplo anterior en un sistema o en un
aparato, y mediante un ordenador (o CPU o MPU) del sistema o aparato
que recupere y ejecute el código del programa almacenado en el
medio de almacenamiento.
En este caso, el propio código del programa que
se recupera del medio de almacenamiento realiza la función de la
realización a título de ejemplo anterior, y el medio de
almacenamiento que almacena el código del programa puede constituir
la presente invención.
Ejemplos del medio de almacenamiento para
proporcionar el código del programa son un disco flexible, un disco
duro, un disco óptico, un disco magneto-óptico, un
CD-ROM, un CD-R, una cinta
magnética, una tarjeta de memoria no volátil y una ROM.
Más aún, además de realizar las funciones de la
realización a título de ejemplo anterior ejecutando el código de
programa recuperado por un ordenador, la presente invención también
incluye el caso en el que un sistema operativo (OS) que se ejecute
en el ordenador realiza parte o todo el proceso real según las
instrucciones del código del programa, y dicho proceso lleva a cabo
las funciones de la realización a título de ejemplo anterior.
Además, la presente invención también incluye el
caso en el que, después de que el código del programa se recupera
del medio de almacenamiento y se carga en la memoria en la placa de
la unidad de ampliación de funciones insertada en el ordenador o la
unidad de ampliación de funciones conectada al ordenador, la CPU en
la placa de ampliación de funciones o la unidad de ampliación de
funciones realiza una parte o todo el proceso según las
instrucciones del código del programa y dicho proceso lleva a cabo
las funciones de la realización a título de ejemplo anterior.
Por supuesto, la presente invención se puede
implementar en hardware, o mediante una combinación de hardware y
software.
Aunque la presente invención se ha descrito
haciendo referencia a las realizaciones a título de ejemplo, se
debe comprender que la invención no se limita a las realizaciones a
título de ejemplo descritas. El ámbito de las siguientes
reivindicaciones es la interpretación más amplia para abarcar
estructuras y funciones equivalentes.
Claims (10)
1. Sistema de reconocimiento de voz que
comprende:
inicio de la importación de la voz (S502) de un
hablante en respuesta a la operación o el movimiento del hablante
(S501);
determinación de si falta parte del comienzo de
la voz (S504);
configuración de la información de pronunciación
de una palabra objetivo a reconocer (S505) basada en el resultado
de la etapa de determinación; y
reconocimiento de la voz importada (S506)
mediante la información de pronunciación configurada.
2. Método de reconocimiento de voz, según la
reivindicación 1, en el que la determinación de si se omite parte
del comienzo de la voz en la etapa de determinación se realiza
utilizando la información de al menos uno de los siguientes
elementos: potencia de la forma de onda de la voz; tasa de cruces
por cero; información espectral; y un parámetro característico que
representa la estructura armónica.
3. Método de reconocimiento de voz, según
cualquiera de las reivindicaciones anteriores, en el que la
información de pronunciación es al menos uno de los siguientes
elementos: una secuencia de pronunciación correspondiente a la
lectura de una palabra objetivo a reconocer; una secuencia de
pronunciación detallada que es una secuencia de estados de una
secuencia de pronunciación que ha sido modelada mediante un modelo
de transición de estados; y una secuencia de patrones de referencia
correspondiente a la palabra objetivo a reconocer.
4. Método de reconocimiento de voz, según la
reivindicación 3, en el que la secuencia de patrones de referencia
es una secuencia de parámetros característicos de la voz registrada
en un aparato de reconocimiento de voz del tipo que necesita
registro.
5. Método de reconocimiento de voz, según
cualquiera de las reivindicaciones anteriores, en el que la etapa
de importación de voz comienza a importar la voz según la entrada
del hablante en forma de una operación del hablante.
6. Método de reconocimiento de voz, según
cualquiera de las reivindicaciones 1 a 4, en el que la etapa de
importación de la voz comienza a importar la voz según la entrada
del hablante en la forma del movimiento del hablante detectado por
un sensor.
7. Programa de control que, cuando se carga en
un ordenador y se ejecuta, implementa el método de reconocimiento
de voz según cualquiera de las reivindicaciones anteriores.
8. Aparato de reconocimiento de voz que
comprende:
una unidad de importación de voz (201)
configurada para comenzar la importación de la voz del hablante en
respuesta a una operación o movimiento del hablante;
una unidad de determinación (202) configurada
para determinar si se omite parte del comienzo de la voz;
una unidad de configuración (203) configurada
para configurar la información de pronunciación para una palabra
objetivo a reconocer basándose en el resultado de la unidad de
determinación; y
una unidad de reconocimiento de voz (204)
configurada para reconocer la voz importada utilizando la
información de pronunciación configurada.
9. Aparato de reconocimiento de voz, según la
reivindicación 8, en el que la determinación de si se omite parte
del comienzo de la voz en la unidad de determinación se realiza
utilizando la información sobre al menos uno de los siguientes
elementos: potencia de la forma de onda de la voz; tasa de cruces
por cero; información espectral; y un parámetro característico que
representa la estructura armónica.
10. Aparato de reconocimiento de voz, según la
reivindicación 8 ó 9, en el que la información de pronunciación de
la unidad de configuración de pronunciación es como mínimo uno de
los siguientes elementos: una secuencia de pronunciación
correspondiente a la lectura de la palabra objetivo a reconocer; una
secuencia de pronunciación detallada que es una secuencia de
estados de una secuencia de pronunciación que ha sido modelada por
un modelo de transiciones de estados; y una secuencia de patrones
de referencia correspondiente a la palabra objetivo a
reconocer.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005065355A JP4667082B2 (ja) | 2005-03-09 | 2005-03-09 | 音声認識方法 |
JP2005-65355 | 2005-03-09 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2310893T3 true ES2310893T3 (es) | 2009-01-16 |
Family
ID=36250777
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES06250864T Active ES2310893T3 (es) | 2005-03-09 | 2006-02-17 | Metodo para el reconocimiento de voz. |
Country Status (8)
Country | Link |
---|---|
US (1) | US7634401B2 (es) |
EP (1) | EP1701338B1 (es) |
JP (1) | JP4667082B2 (es) |
KR (1) | KR100742888B1 (es) |
CN (1) | CN100587806C (es) |
AT (1) | ATE401644T1 (es) |
DE (1) | DE602006001764D1 (es) |
ES (1) | ES2310893T3 (es) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4282704B2 (ja) * | 2006-09-27 | 2009-06-24 | 株式会社東芝 | 音声区間検出装置およびプログラム |
JP4950930B2 (ja) * | 2008-04-03 | 2012-06-13 | 株式会社東芝 | 音声/非音声を判定する装置、方法およびプログラム |
KR20130133629A (ko) | 2012-05-29 | 2013-12-09 | 삼성전자주식회사 | 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법 |
US8577671B1 (en) | 2012-07-20 | 2013-11-05 | Veveo, Inc. | Method of and system for using conversation state information in a conversational interaction system |
US9799328B2 (en) * | 2012-08-03 | 2017-10-24 | Veveo, Inc. | Method for using pauses detected in speech input to assist in interpreting the input during conversational interaction for information retrieval |
CN103971685B (zh) * | 2013-01-30 | 2015-06-10 | 腾讯科技(深圳)有限公司 | 语音命令识别方法和系统 |
PT2994908T (pt) * | 2013-05-07 | 2019-10-18 | Veveo Inc | Interface de entrada incremental de discurso com retorno em tempo real |
US20160063990A1 (en) * | 2014-08-26 | 2016-03-03 | Honeywell International Inc. | Methods and apparatus for interpreting clipped speech using speech recognition |
US9854049B2 (en) | 2015-01-30 | 2017-12-26 | Rovi Guides, Inc. | Systems and methods for resolving ambiguous terms in social chatter based on a user profile |
JP6804909B2 (ja) * | 2016-09-15 | 2020-12-23 | 東芝テック株式会社 | 音声認識装置、音声認識方法及び音声認識プログラム |
JP6972287B2 (ja) * | 2016-09-15 | 2021-11-24 | 東芝テック株式会社 | 音声認識装置、音声認識方法及び音声認識プログラム |
US10283117B2 (en) * | 2017-06-19 | 2019-05-07 | Lenovo (Singapore) Pte. Ltd. | Systems and methods for identification of response cue at peripheral device |
US10586529B2 (en) | 2017-09-14 | 2020-03-10 | International Business Machines Corporation | Processing of speech signal |
JP7092708B2 (ja) * | 2019-05-20 | 2022-06-28 | ヤフー株式会社 | 情報処理プログラム、情報処理装置及び情報処理方法 |
JP7404664B2 (ja) * | 2019-06-07 | 2023-12-26 | ヤマハ株式会社 | 音声処理装置及び音声処理方法 |
US12118984B2 (en) | 2020-11-11 | 2024-10-15 | Rovi Guides, Inc. | Systems and methods to resolve conflicts in conversations |
US11545143B2 (en) | 2021-05-18 | 2023-01-03 | Boris Fridman-Mintz | Recognition or synthesis of human-uttered harmonic sounds |
Family Cites Families (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4761815A (en) * | 1981-05-01 | 1988-08-02 | Figgie International, Inc. | Speech recognition system based on word state duration and/or weight |
US4712242A (en) * | 1983-04-13 | 1987-12-08 | Texas Instruments Incorporated | Speaker-independent word recognizer |
US5774851A (en) * | 1985-08-15 | 1998-06-30 | Canon Kabushiki Kaisha | Speech recognition apparatus utilizing utterance length information |
US4882757A (en) * | 1986-04-25 | 1989-11-21 | Texas Instruments Incorporated | Speech recognition system |
JP2882791B2 (ja) * | 1986-10-03 | 1999-04-12 | 株式会社リコー | パターン比較方式 |
JP2829014B2 (ja) | 1989-01-12 | 1998-11-25 | 株式会社東芝 | 音声認識装置及び方法 |
JP2708566B2 (ja) * | 1989-09-06 | 1998-02-04 | 株式会社日立製作所 | 音声認識制御装置 |
DE4031421C2 (de) * | 1989-10-05 | 1995-08-24 | Ricoh Kk | Musteranpassungssystem für eine Spracherkennungseinrichtung |
JP3004749B2 (ja) * | 1990-05-14 | 2000-01-31 | 株式会社リコー | 標準パターン登録方法 |
DE69128990T2 (de) * | 1990-09-07 | 1998-08-27 | Toshiba Kawasaki Kk | Sprecherkennungsvorrichtung |
US5692104A (en) * | 1992-12-31 | 1997-11-25 | Apple Computer, Inc. | Method and apparatus for detecting end points of speech activity |
DE4306508A1 (de) * | 1993-03-03 | 1994-09-08 | Philips Patentverwaltung | Verfahren und Anordnung zum Ermitteln von Wörtern in einem Sprachsignal |
US5765130A (en) * | 1996-05-21 | 1998-06-09 | Applied Language Technologies, Inc. | Method and apparatus for facilitating speech barge-in in connection with voice recognition systems |
US5835890A (en) * | 1996-08-02 | 1998-11-10 | Nippon Telegraph And Telephone Corporation | Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon |
JP3588929B2 (ja) | 1996-08-27 | 2004-11-17 | 日産自動車株式会社 | 音声認識装置 |
US6167374A (en) * | 1997-02-13 | 2000-12-26 | Siemens Information And Communication Networks, Inc. | Signal processing method and system utilizing logical speech boundaries |
EP0867856B1 (fr) | 1997-03-25 | 2005-10-26 | Koninklijke Philips Electronics N.V. | "Méthode et dispositif de detection d'activité vocale" |
JPH10319991A (ja) * | 1997-05-20 | 1998-12-04 | Sony Corp | 電子機器の音声認識起動方法及び装置 |
EP1083545A3 (en) * | 1999-09-09 | 2001-09-26 | Xanavi Informatics Corporation | Voice recognition of proper names in a navigation apparatus |
JP4520555B2 (ja) * | 1999-09-09 | 2010-08-04 | クラリオン株式会社 | 音声認識装置および音声認識ナビゲーション装置 |
US6389394B1 (en) * | 2000-02-09 | 2002-05-14 | Speechworks International, Inc. | Method and apparatus for improved speech recognition by modifying a pronunciation dictionary based on pattern definitions of alternate word pronunciations |
JP4880136B2 (ja) * | 2000-07-10 | 2012-02-22 | パナソニック株式会社 | 音声認識装置および音声認識方法 |
US7277853B1 (en) * | 2001-03-02 | 2007-10-02 | Mindspeed Technologies, Inc. | System and method for a endpoint detection of speech for improved speech recognition in noisy environments |
US7308404B2 (en) * | 2001-09-28 | 2007-12-11 | Sri International | Method and apparatus for speech recognition using a dynamic vocabulary |
JP2003330491A (ja) * | 2002-05-10 | 2003-11-19 | Nec Corp | 音声認識装置および音声認識方法ならびにプログラム |
KR100474253B1 (ko) * | 2002-12-12 | 2005-03-10 | 한국전자통신연구원 | 단어의 첫 자음 발성을 이용한 음성인식 방법 및 이를 저장한 기록 매체 |
US7024360B2 (en) * | 2003-03-17 | 2006-04-04 | Rensselaer Polytechnic Institute | System for reconstruction of symbols in a sequence |
US7343289B2 (en) * | 2003-06-25 | 2008-03-11 | Microsoft Corp. | System and method for audio/video speaker detection |
US20050033571A1 (en) * | 2003-08-07 | 2005-02-10 | Microsoft Corporation | Head mounted multi-sensory audio input system |
CA2473195C (en) * | 2003-07-29 | 2014-02-04 | Microsoft Corporation | Head mounted multi-sensory audio input system |
KR100577387B1 (ko) | 2003-08-06 | 2006-05-10 | 삼성전자주식회사 | 음성 대화 시스템에서의 음성 인식 오류 처리 방법 및 장치 |
JP3890326B2 (ja) * | 2003-11-07 | 2007-03-07 | キヤノン株式会社 | 情報処理装置、情報処理方法ならびに記録媒体、プログラム |
JP4516863B2 (ja) * | 2005-03-11 | 2010-08-04 | 株式会社ケンウッド | 音声合成装置、音声合成方法及びプログラム |
TWI319152B (en) * | 2005-10-04 | 2010-01-01 | Ind Tech Res Inst | Pre-stage detecting system and method for speech recognition |
JP4282704B2 (ja) * | 2006-09-27 | 2009-06-24 | 株式会社東芝 | 音声区間検出装置およびプログラム |
-
2005
- 2005-03-09 JP JP2005065355A patent/JP4667082B2/ja not_active Expired - Fee Related
-
2006
- 2006-02-17 EP EP06250864A patent/EP1701338B1/en not_active Not-in-force
- 2006-02-17 AT AT06250864T patent/ATE401644T1/de not_active IP Right Cessation
- 2006-02-17 ES ES06250864T patent/ES2310893T3/es active Active
- 2006-02-17 DE DE602006001764T patent/DE602006001764D1/de active Active
- 2006-03-06 US US11/368,986 patent/US7634401B2/en not_active Expired - Fee Related
- 2006-03-08 KR KR1020060021863A patent/KR100742888B1/ko not_active IP Right Cessation
- 2006-03-09 CN CN200610057222A patent/CN100587806C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN1831939A (zh) | 2006-09-13 |
US7634401B2 (en) | 2009-12-15 |
KR20060097647A (ko) | 2006-09-14 |
ATE401644T1 (de) | 2008-08-15 |
JP2006251147A (ja) | 2006-09-21 |
JP4667082B2 (ja) | 2011-04-06 |
CN100587806C (zh) | 2010-02-03 |
DE602006001764D1 (de) | 2008-08-28 |
EP1701338B1 (en) | 2008-07-16 |
KR100742888B1 (ko) | 2007-07-25 |
EP1701338A1 (en) | 2006-09-13 |
US20060206326A1 (en) | 2006-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2310893T3 (es) | Metodo para el reconocimiento de voz. | |
KR102134201B1 (ko) | 숫자 음성 인식에 있어서 음성 복호화 네트워크를 구성하기 위한 방법, 장치, 및 저장 매체 | |
JP2023041843A (ja) | 音声区間検出装置、音声区間検出方法及びプログラム | |
ES2540995T3 (es) | Sistema y método para reconocer un comando de voz de usuario en un entorno con ruido | |
JP6654611B2 (ja) | 成長型対話装置 | |
JP6284462B2 (ja) | 音声認識方法、及び音声認識装置 | |
CN108630200B (zh) | 声音关键字检测装置以及声音关键字检测方法 | |
CN111862954B (zh) | 一种语音识别模型的获取方法及装置 | |
CN111243599B (zh) | 语音识别模型构建方法、装置、介质及电子设备 | |
CN110265028B (zh) | 语音合成语料库的构建方法、装置及设备 | |
US20090240499A1 (en) | Large vocabulary quick learning speech recognition system | |
JP6464005B2 (ja) | 雑音抑圧音声認識装置およびそのプログラム | |
JP6305955B2 (ja) | 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム | |
JP6127422B2 (ja) | 音声認識装置及び方法、並びに、半導体集積回路装置 | |
KR20040068023A (ko) | 은닉 궤적 은닉 마르코프 모델을 이용한 음성 인식 방법 | |
Sajjan et al. | Continuous Speech Recognition of Kannada language using triphone modeling | |
KR102140770B1 (ko) | 음성에 기반한 잠금 해제를 수행하는 사용자 장치, 음성에 기반한 사용자 장치의 잠금 해제 방법 및 컴퓨터 프로그램이 기록된 기록매체 | |
KR100848148B1 (ko) | 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체 | |
Batlouni et al. | Mathifier—Speech recognition of math equations | |
KR101578766B1 (ko) | 음성 인식용 탐색 공간 생성 장치 및 방법 | |
JP2011180308A (ja) | 音声認識装置及び記録媒体 | |
JP7222265B2 (ja) | 音声区間検出装置、音声区間検出方法及びプログラム | |
JPWO2019030810A1 (ja) | 音声認識装置および音声認識方法 | |
JP4400169B2 (ja) | 音声認識装置、音声認識方法及びプログラム | |
Klein | Speech recognition and synthesis |