ES2310893T3 - Metodo para el reconocimiento de voz. - Google Patents

Metodo para el reconocimiento de voz. Download PDF

Info

Publication number
ES2310893T3
ES2310893T3 ES06250864T ES06250864T ES2310893T3 ES 2310893 T3 ES2310893 T3 ES 2310893T3 ES 06250864 T ES06250864 T ES 06250864T ES 06250864 T ES06250864 T ES 06250864T ES 2310893 T3 ES2310893 T3 ES 2310893T3
Authority
ES
Spain
Prior art keywords
voice
pronunciation
sequence
voice recognition
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES06250864T
Other languages
English (en)
Inventor
Toshiaki Canon Kabushiki Kaisha Fukada
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Application granted granted Critical
Publication of ES2310893T3 publication Critical patent/ES2310893T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)
  • Electric Clocks (AREA)

Abstract

Sistema de reconocimiento de voz que comprende: inicio de la importación de la voz (S502) de un hablante en respuesta a la operación o el movimiento del hablante (S501); determinación de si falta parte del comienzo de la voz (S504); configuración de la información de pronunciación de una palabra objetivo a reconocer (S505) basada en el resultado de la etapa de determinación; y reconocimiento de la voz importada (S506) mediante la información de pronunciación configurada.

Description

Método para el reconocimiento de voz.
Antecedentes de la invención Campo de la invención
La presente invención se refiere a un método para llevar a cabo un reconocimiento de voz de alta precisión en el cual se realiza un reconocimiento de voz que incluye la introducción de un comando para comenzar a hablar, como por ejemplo la pulsación de un botón, y en el que se puede hablar antes de pulsar el botón.
Descripción de la técnica relacionada
Cuando se lleva a cabo el reconocimiento de voz, es necesario ajustar apropiadamente la distancia entre la boca del hablante y el micrófono, y el nivel de entrada, así como introducir correctamente el comando para comenzar a hablar (normalmente pulsando un botón), para evitar que se produzcan errores debidos al ruido ambiente. Si esto no se realiza correctamente, habrá una degradación sustancial en el rendimiento del reconocimiento. Sin embargo, los hablantes no siempre realizan dichos ajustes o los introducen de manera incorrecta, y se hace necesario tomar medidas para evitar la degradación del rendimiento en estos casos. En concreto, algunas veces el comando para comenzar a hablar no se introduce correctamente, por ejemplo, se comienza a hablar antes de pulsar el botón. En dicho caso, se omitirá el comienzo de la voz, ya que la voz se importa a través del micrófono después de introducir el comando para comenzar a hablar. Cuando el reconocimiento de voz convencional se realiza basándose en la parte hablada que se ha omitido, la tasa de reconocimiento caerá mucho en comparación con el caso en que el comando para comenzar a hablar se introduce correctamente.
Considerando dicho problema, la patente japonesa nº 2829014 describe un método que proporciona una memoria intermedia circular que importa en todo momento voz de una longitud constante, además de una memoria intermedia de datos para almacenar los datos de voz importados después de introducir el comando para iniciar el proceso de reconocimiento. Tras introducir el comando, la cabecera de la voz se detecta utilizando la voz importada mediante la memoria intermedia de datos. En caso de que no se detecte la cabecera de la voz, la detección de la cabecera de la voz se realiza utilizando además la voz antes de introducir el comando, que se almacena en la memoria intermedia circular. En este método, como la memoria intermedia circular tiene que realizar constantemente un proceso de importación de voz, se necesita una carga de CPU adicional en comparación con el caso en el que sólo se utiliza la memoria intermedia de datos. Es decir, no es necesariamente un método apropiado para utilizar en dispositivos que usan baterías tales como los dispositivos móviles.
Además, la patente japonesa nº 3588929 describe un método en el que una palabra con una semisílaba o una monosílaba que se ha omitido al principio de la palabra también es un objetivo a reconocer. De esta manera, se evita la degradación de la tasa de reconocimiento de voz en un entorno ruidoso. Además, la patente japonesa nº 3588929 describe un método para realizar el control para determinar si una palabra con una parte de la cabecera omitida debe ser la palabra objetivo a reconocer en función del nivel de ruido. En este método, la determinación de si se debe omitir una semisílaba o una monosílaba al principio de la palabra se realiza basándose en el tipo de semisílaba o monosílaba al principio de la palabra o en el nivel de ruido. Si se determina que se debe realizar una omisión, la palabra sin omisión no se fija como la palabra objetivo a reconocer. Además, cuando se determina si se debe omitir el comienzo de la palabra, no se tiene en cuenta si el comando para comenzar a hablar introducido mediante el movimiento o la operación del hablante funciona correctamente. Por lo tanto, en la patente japonesa nº 3588929, la omisión del comienzo de la palabra es de hasta una sílaba, y en un entorno tranquilo, no se omite el comienzo de la palabra. En consecuencia, en el caso de que se comience a hablar antes de pulsar el botón y, por ejemplo, se omitan dos sílabas de la parte de voz en una atmósfera tranquila, no se puede evitar la degradación del rendimiento del reconocimiento.
Además, el documento EP-A-1 083545 describe un aparato de reconocimiento de voz para reconocer palabras en las que falta el comienzo.
A la vista del problema anterior, el objetivo de la presente invención está dirigido a un método para evitar la degradación del rendimiento del reconocimiento mediante un proceso fácil y sencillo en el caso de que se pierda o se omita el comienzo de la voz. Dicha omisión se produce cuando el hablante introduce incorrectamente el comando para comenzar a hablar.
Características de la invención
Según un primer aspecto de la invención, se proporciona un método de reconocimiento de voz como el que se especifica en las reivindicaciones 1 a 8.
Según un segundo aspecto de la invención, se proporciona un programa de control como el que se especifica en la reivindicación 9.
\newpage
Según un tercer aspecto de la invención, se proporciona un aparato de reconocimiento de voz como el que se especifica en las reivindicaciones 10 a 12.
Otras características de la presente invención se harán evidentes a partir de la siguiente descripción detallada de las realizaciones a título de ejemplo haciendo referencia a los dibujos anexos.
Breve descripción de los dibujos
Los dibujos anexos, que se incorporan en la descripción y constituyen una parte de la misma, ilustran realizaciones a título de ejemplo de la invención y, junto con la descripción, se utilizan para explicar los principios de la invención.
La figura 1 es un diagrama de bloques de la configuración de hardware de un dispositivo de información en el cual se instala el método de reconocimiento de voz según la primera realización a título de ejemplo de la presente invención.
La figura 2 es un diagrama de bloques de la configuración modular del método de reconocimiento de voz según la primera realización a título de ejemplo de la presente invención.
La figura 3 es un diagrama de bloques de la configuración modular de un método típico de reconocimiento de voz del tipo que no necesita registro.
La figura 4 es un diagrama de bloques de la configuración modular de un método típico de reconocimiento de voz del tipo que necesita registro.
La figura 5 es un diagrama de flujo de todo el proceso de reconocimiento de voz según la primera realización a título de ejemplo de la presente invención.
Las figuras 6A y 6B son diagramas esquemáticos de la omisión de voz debido a la diferencia en el momento en el que se introduce el comando para comenzar a hablar.
La figura 7 es un ejemplo de palabras objetivo a reconocer.
La figura 8 es un ejemplo de las palabras objetivo a reconocer de la figura 7, en el cual se han eliminado las primeras secuencias de pronunciación.
La figura 9 es un ejemplo de la palabra objetivo a reconocer de la figura 7, en el cual se han eliminado la primera y la segunda secuencias de pronunciación.
La figura 10 es un ejemplo de las palabras objetivo a reconocer de la figura 7, en el cual se han eliminado las secuencias de pronunciación primera a cuarta.
La figura 11 es un ejemplo de todas las combinaciones de las palabras objetivo a reconocer de la figura 7, en el cual se han eliminado las secuencias de pronunciación primera a cuarta.
La figura 12 es un ejemplo en el que el fonema /t/ se modela mediante tres estados del modelo de Marcov oculto (HMM).
La figura 13 es un ejemplo de las palabras objetivo a reconocer. La información de pronunciación de las palabras a reconocer de la figura 7 se expresa mediante las secuencias de estado del HMM.
La figura 14 es un ejemplo de las palabras objetivo a reconocer de la figura 13, en el cual se han eliminado las primeras secuencias de estado.
Las figuras 15A, 15B y 15C son diagramas esquemáticos que ilustran la diferencia entre la eliminación de las secuencias de pronunciación y la eliminación de las secuencias de estado.
Las figuras 16A, 16B y 16C son diagramas esquemáticos que ilustran cómo se ajusta la información de pronunciación mediante la eliminación de la secuencia del patrón de referencia.
La figura 17 es un diagrama de bloques de la configuración modular del método de reconocimiento de voz. El método de reconocimiento de voz incluye la determinación de la voz importada y la configuración de la información de pronunciación en el proceso de reconocimiento de voz.
Descripción detallada de las realizaciones a título de ejemplo
Las realizaciones a título de ejemplo de la invención se describirán en detalle a continuación haciendo referencia a los dibujos.
Primera realización a título de ejemplo
La figura 1 es un diagrama de bloques de un aparato de reconocimiento de voz según la primera realización a título de ejemplo de la presente invención. La CPU (101) realiza diversas funciones de control en el aparato de reconocimiento de voz según un programa de control almacenado en la ROM (102) o cargado desde un dispositivo de almacenamiento externo (104) en la RAM (103). La ROM (102) almacena varios parámetros y el programa de control que ejecuta la CPU (101). La RAM (103) proporciona un área de trabajo cuando la CPU (101) realiza diversas funciones de control, y también almacena el programa de control que ejecuta la CPU (101). El método mostrado en el diagrama de flujo de la figura 5 es preferiblemente un programa ejecutado por la CPU (101) y almacenado en la ROM (102), en la RAM (103) o en el dispositivo de almacenamiento (104).
El número de referencia (104) indica un dispositivo de almacenamiento externo como por ejemplo un disco duro, un disco flexible o floppy (marca comercial registrada), un CD-ROM, un DVD-ROM y una tarjeta de memoria. En caso de que el dispositivo de almacenamiento externo (104) sea un disco duro, almacena varios programas instalados desde un CD-ROM o un disco flexible (marca comercial registrada). Un dispositivo de entrada de voz (105), como por ejemplo un micrófono, importa la voz en la cual se va a realizar el reconocimiento. Un dispositivo de visualización (106), como por ejemplo un CRT o LCD, realiza la configuración de los contenidos del proceso, muestra la información de entrada y extrae los resultados del proceso. Un dispositivo de entrada auxiliar (107), como por ejemplo un botón, un teclado numérico, un teclado, un ratón o un lápiz, se utiliza para dar instrucciones para comenzar a importar la voz de un hablante. Un dispositivo de salida auxiliar (108), como por ejemplo un altavoz, se utiliza para confirmar por voz el resultado del reconocimiento de voz. Un bus (109) conecta todos los dispositivos anteriores. La voz objetivo a reconocer se puede introducir a través del dispositivo de entrada de voz (105), o se puede adquirir mediante otros dispositivos o unidades. La voz objetivo adquirida por otros dispositivos o unidades se guarda en la ROM (102), en la RAM
(103), en el dispositivo de almacenamiento externo (104) o en un dispositivo externo conectado a través de una red.
La figura 2 es un diagrama de bloques de la configuración modular del método de reconocimiento de voz. La unidad de importación de voz (201) importa la voz introducida a través del micrófono del dispositivo de entrada de voz (105). La instrucción para comenzar la importación de la voz viene dada por la operación del hablante, como por ejemplo la pulsación de un botón en el dispositivo de entrada auxiliar (107). La unidad de determinación de la voz importada (202) determina si el comienzo o parte del comienzo de la voz importada por la unidad de importación de voz se ha perdido u omitido. La unidad de configuración de la información de pronunciación (203) configura la información de pronunciación de la palabra objetivo basándose en el resultado de la unidad de determinación de la voz importada (202). La unidad de reconocimiento de voz (204) reconoce la voz importada por la unidad de importación de voz (201) utilizando la información de pronunciación configurada por la unidad de configuración de la información de pronunciación (203).
La figura 3 es un diagrama de bloques de los módulos de un método típico de reconocimiento de voz utilizado para reconocer voz sin registrar o voz independiente del hablante. Una unidad de entrada de voz (301) reconoce la voz introducida a través del dispositivo de entrada de voz (105). La unidad de extracción de parámetros característicos de la voz (302) lleva a cabo un análisis espectral de la voz introducida mediante la unidad de entrada de voz (301) y extrae el parámetro característico. El diccionario de pronunciación (305) almacena la información de pronunciación de la palabra objetivo a reconocer. El modelo acústico (306) almacena modelos de fonemas (o modelos de sílabas, o modelos de palabras) y el patrón de referencia de la palabra objetivo a reconocer se construye utilizando el modelo acústico según la información de pronunciación del diccionario de pronunciación (305). El modelo de idioma (307) almacena una lista de palabras y la probabilidad de conexión de las palabras (o restricción gramatical). La unidad de búsqueda (303) calcula la distancia entre el patrón de referencia, que se configura a partir del diccionario de pronunciación (305) utilizando el modelo de idioma (307), y el parámetro característico de la voz obtenido mediante la unidad (302) de extracción de parámetros característicos de la voz. La unidad de búsqueda (303) también calcula la similitud, o realiza el proceso de búsqueda. La unidad de salida de resultados (304) muestra el resultado obtenido por la unidad de búsqueda (303) en el dispositivo de visualización (106), extrae el resultado como voz en el dispositivo de salida auxiliar (108), o extrae el resultado del reconocimiento para realizar una operación predeterminada. La configuración de la información de pronunciación mediante la unidad de configuración de la información de pronunciación (203) corresponde a la configuración del diccionario de pronunciación (305).
La figura 5 es un diagrama de flujo del proceso completo del método de reconocimiento de voz. El proceso completo se ilustra en detalle con el diagrama de flujo. En la etapa S501, se espera la entrada del comando para empezar a hablar. El comando se introduce según la operación o el movimiento del hablante. La introducción del comando puede realizarse a través de cualquier medio que permita al hablante dar instrucciones para comenzar a hablar, por ejemplo, pulsar un botón de un teclado numérico, un teclado o un interruptor, hacer clic en un ratón o pulsar un panel táctil. Además, si se utiliza un sensor tal como un sensor de luz incluyendo un sensor de infrarrojos, un sensor de antena o un sensor ultrasónico, se puede detectar el movimiento de un hablante que se acerque al dispositivo de reconocimiento de voz. Si se considera que dicho movimiento del hablante es el comando para comenzar a hablar, la detección del sensor se puede utilizar como el comando para comenzar a hablar. El comando de la etapa S501 inicia la importación de la voz a través del micrófono en la etapa S502. En la etapa S504, se determina si se omite el comienzo de la voz importada, y el análisis de la voz necesario para esta determinación se realiza en la etapa S503.
Las figuras 6A y 6B son diagramas esquemáticos de la omisión de voz debida a la diferencia en el momento en el que se introduce el comando para empezar a hablar. El eje horizontal es una escala de tiempo, y la voz comienza en el instante (S). La figura 6A es un caso en el que el comando para comenzar a hablar se introduce en el instante (P) (P<S). Como la importación de la voz puede comenzar en el instante (P) (o inmediatamente después de -P-), la voz no se omite y se importa correctamente. Por otra parte, la figura 6B es un caso en el que el comando para empezar a hablar se introduce en el instante (Q) (S<Q). Como la importación de la voz comienza en el instante (Q) (o inmediatamente después de -Q-) en este caso, se omite el comienzo de la voz. El análisis de la voz y la determinación de si se omite el comienzo de la voz se llevan a cabo mediante el siguiente método.
Existen varios métodos para realizar el análisis y la determinación de la voz. Un método fácil y sencillo consiste en calcular la potencia de la forma de onda utilizando la parte de la cabecera de la forma de onda de la voz importada (como por ejemplo 300 muestras) y comparar el resultado con un valor umbral predeterminado. Si el resultado supera el valor umbral, se puede determinar que se omite el comienzo de la voz. La determinación también se puede realizar llevando a cabo otros análisis, como por ejemplo el análisis de la tasa de cruces por cero, el análisis espectral o el análisis de la frecuencia fundamental.
La tasa de cruces por cero se puede obtener expresando los datos de voz importados con códigos (por ejemplo, en el caso de 16 bits, entero corto con signo, se toman los valores entre -32768 y 32767) y contando el número de veces que cambian los códigos. La tasa de cruces por cero se obtiene para la parte de la cabecera de la forma de onda de voz y el resultado se compara con el valor umbral de la potencia de la forma de onda descrito anteriormente. De esta manera, se puede determinar que se omite el comienzo de la voz si el resultado es mayor que el valor umbral, y que no se omite si el resultado es inferior al valor umbral.
El análisis espectral se puede realizar, por ejemplo, de la misma manera que la extracción de parámetros característicos del reconocimiento de voz en la unidad de extracción de parámetros característicos (302) de reconocimiento de voz. A continuación, se obtiene la similitud (o la probabilidad) del modelo de voz y el modelo no correspondiente a la voz se obtiene utilizando el parámetro característico extraído, y si la similitud del modelo de voz es mayor que la del modelo no correspondiente a la voz, se determina que se omite la voz. Si la similitud del modelo de voz es inferior a la del modelo no correspondiente a la voz, se determina que la voz no se omite. El modelo de voz y el modelo no correspondiente a la voz se preparan con antelación a partir de los parámetros característicos de la parte de voz y los parámetros característicos de la parte no correspondiente a la voz como modelos estadísticos. Estos modelos se pueden generar mediante cualquier método existente, por ejemplo, el modelo de mezcla gaussiana (GMM). También se puede utilizar un método que utilice el parámetro característico que representa otros espectros obtenidos mediante un análisis diferente a partir de la extracción de parámetros característicos del reconocimiento de voz en la unidad de extracción de parámetros característicos de la voz (302).
Para el análisis de la frecuencia fundamental, se pueden utilizar análisis existentes como por ejemplo la técnica de autocorrelación o la técnica de cepstrum. La omisión se determina utilizando el valor correspondiente a la periodicidad en lugar de utilizar directamente el valor de la frecuencia fundamental. En concreto, en el caso del análisis de la frecuencia fundamental basado en la técnica de cepstrum, se puede utilizar el valor máximo dentro de un intervalo predeterminado (dentro del intervalo de tonos de la voz humana) de una secuencia en frecuencia (transformada inversa de fourier discreta del espectro de amplitud logarítmico). Dicho valor se obtiene de la parte de la cabecera de la forma de onda de la voz y se compara con el valor umbral como en el caso de la potencia de la forma de onda. Si el valor es mayor que el valor umbral, se determina que se omite la voz, y si el valor es inferior al valor umbral, se determina que no se omite la voz. Además, se puede utilizar un método en el cual se realiza un análisis para obtener la estructura armónica en lugar de la frecuencia fundamental, y el resultado se utiliza como el parámetro característico.
Si se determina que se omite la voz en la etapa S504, la información de pronunciación para la voz con una omisión se configura en la etapa S505. A continuación, se realiza el reconocimiento de la voz utilizando esta información de pronunciación en la etapa S506. Si se determina que la voz no se omite en la etapa S504, en la etapa S506 se realiza un reconocimiento de voz normal. El proceso realizado en S505 se describe haciendo referencia a las figuras 7 a 11. En el proceso de S505, las palabras objetivo a reconocer son "Tokyo", "Hiroshima", "Tokushima" y "Tu". La figura 7 muestra ejemplos de palabras objetivo a reconocer, y se mantiene la información sobre el identificador de la palabra, la transcripción y la pronunciación (fonema). El patrón de referencia en el proceso de reconocimiento de voz se genera conectándose al modelo acústico (306) (por ejemplo, HMM del fonema) según la secuencia (7 fonemas /t o o k y o o/ en el caso de "Tokyo") de pronunciación (fonema). La figura 8 muestra las palabras objetivo a reconocer en el caso de que se elimine el primer fonema de la información de pronunciación de la figura 7. Por ejemplo, en el caso de "Tokyo", se elimina el primer fonema /t/ para que la palabra objetivo a reconocer pase a ser /o o k y o o/. La figura 9 y la figura 10 muestran las palabras objetivo a reconocer en el caso de que se hayan eliminado los fonemas hasta el segundo y el cuarto. En el caso de "Tu", la secuencia de pronunciación consta de dos fonemas, /ts u/. Por lo tanto, no habrá secuencia de pronunciación si se eliminan más de dos fonemas. En dicho caso, se asigna un modelo de silencio (SIL) como secuencia de pronunciación. Además, en el caso de "Hiroshima" y "Tokushima" en la figura 10, se obtendrá la misma secuencia de pronunciación (/sh i m a/) si se eliminan los cuatro primeros fonemas. Si se determina que no se omite la voz en la etapa S504, el reconocimiento de voz se realiza en la etapa S506 sólo en las palabras objetivo de la figura 7. Por otra parte, si se determina que se omite la voz en la etapa S504, el reconocimiento de voz se lleva a cabo en la etapa S506 en las palabras objetivo de la figura 8 a la figura 10 además de las palabras objetivo de la figura 7. En las palabras objetivo de la figura 8 a la figura 10, la parte de la cabecera de las secuencias de pronunciación se ha eliminado. Se puede determinar si se omite la voz realizando el análisis de voz en S503 y la determinación de la omisión de la voz en la etapa S504. Sin embargo, no se puede estimar la longitud de la parte hablada que se ha omitido o el número de fonemas. Por lo tanto, es necesario decidir con antelación el número apropiado de fonemas eliminados de la palabra objetivo que se va a añadir. El número se puede establecer empíricamente, considerando la tendencia de la parte hablada que se va a omitir dependiendo de la operación o el movimiento del hablante, o considerando el rendimiento del reconocimiento. Todas las combinaciones de palabras en las que las secuencias de pronunciación del primer al cuarto fonemas se han eliminado pueden ser objetivos a reconocer. En dicho caso, las palabras objetivo mostradas en la figura 11 se establecen como la información de pronunciación sobre la omisión de la voz.
El análisis espectral o el análisis de la frecuencia fundamental de la etapa S503 son procesos iguales o similares a la extracción de parámetros característicos de la voz en el proceso de reconocimiento de voz. Por lo tanto, estos procesos se pueden incluir en la unidad de reconocimiento de voz (204) y se pueden ejecutar según lo configurado en la unidad de reconocimiento de voz (204). La figura 17 es un diagrama de bloques de la configuración modular del método de reconocimiento de voz que incluye la determinación de la voz importada y la configuración de la información de pronunciación en el proceso de reconocimiento de voz. La unidad de determinación de la voz importada (202) y la unidad de configuración de la información de pronunciación (203) se incluyen respectivamente como la unidad de determinación de la voz importada (603) y la unidad de configuración de la información de pronunciación (604) en el proceso de la figura 3. Como los componentes de la unidad de entrada de voz (601) al modelo de idioma (609) son los mismos que los de la figura 2 y la figura 3, se omiten sus descripciones.
Además, el análisis de la voz no se realiza necesariamente en la etapa S503 utilizando solamente la primera trama de la voz, sino que también se puede utilizar la información sobre varias tramas (por ejemplo, de la primera a la quinta tramas). Adicionalmente, para determinar si se omite la voz, la presente invención no se limita a utilizar un valor predeterminado cuando se compara el valor umbral, tal como se muestra en la etapa S504. Se pueden llevar a cabo otros procesos, por ejemplo, comparar la potencia de la forma de onda de la primera trama y de la décima trama. En este caso, si la potencia de la forma de onda de la primera trama es mucho más pequeña que la de la décima trama (por ejemplo, inferior al 10%), se determina que no hay omisión de la voz.
En la etapa S504, se proporcionaba un ejemplo de determinación de la omisión de la voz. Sin embargo, la presente invención no se limita a este ejemplo y se puede configurar para determinar si la importación de la voz comienza en la mitad de la voz del hablante.
Según la realización a título de ejemplo anterior, la degradación del rendimiento del reconocimiento se puede evitar incluso si el hablante no introduce el comando para comenzar a hablar en el instante correcto. En consecuencia, los usuarios que no estén acostumbrados a utilizar un dispositivo de reconocimiento de voz se sentirán tranquilos al realizar la operación.
Segunda realización a título de ejemplo
En la primera realización a título de ejemplo, la pronunciación de la palabra a reconocer se fonemiza, y la secuencia de pronunciación para la lectura se elimina para configurar la información de pronunciación sobre la parte hablada que se ha omitido en la etapa S505. Sin embargo, la invención no se limita a esta realización. La pronunciación de la palabra objetivo a reconocer se puede expresar utilizando una secuencia de pronunciación que es más detallada en comparación con los fonemas, y se elimina la secuencia de pronunciación detallada. Para ser más precisos, cuando el reconocimiento de la voz se realiza basándose en el modelo de Markov oculto (HMM), los fonemas se modelan habitualmente mediante varios estados. Esta secuencia de estados se visualiza como la secuencia de pronunciación detallada y se elimina en el nivel de estado. De este modo, la información de pronunciación se puede configurar de manera más precisa en comparación con la eliminación en el nivel de fonema. La figura 12 es un ejemplo en el cual el fonema /t/ se modela mediante tres estados (t1, t2, t3) de HMM. Cuando la pronunciación de la figura 7 se describe mediante dicha secuencia de estados, es posible una expresión como la mostrada en la figura 13. En este caso, si la primera secuencia de estados se elimina en la secuencia de estados de la figura 13, se puede obtener la figura 14.
Las figuras 15A, 15B y 15C son diagramas esquemáticos que ilustran la diferencia entre la eliminación de una secuencia de pronunciación (fonema) y la eliminación de una secuencia de estados. En el caso de que todos los fonemas se modelan mediante tres estados de HMM, la secuencia de pronunciación "Tokyo" /t o o k y o o/ se expresa enlazando el HMM tal como se muestra en la figura 15A. Si se elimina el primer fonema (/t/), los tres estados de HMM de /t/ se eliminan tal como se muestra en la figura 15B. Sin embargo, si la secuencia de pronunciación detallada de "Tokyo" se expresa mediante la secuencia de estados de HMM, es posible eliminar sólo el primer estado t1 de HMM, tal como se muestra en la figura 15C. Es decir, se puede configurar una información de pronunciación más detallada realizando la eliminación en el nivel de estado en lugar de en el nivel de fonema. Como alternativa, también se puede realizar el mismo proceso utilizando modelos de transición de estados generales en lugar del HMM descrito anteriormente.
Tercera realización a título de ejemplo
La información de pronunciación según la realización a título de ejemplo anterior se configura en el caso de que la palabra objetivo a reconocer se pueda expresar como una secuencia de pronunciación o una secuencia de pronunciación detallada. Sin embargo, la configuración anterior también se puede utilizar en un reconocimiento de voz independiente del hablante ampliamente utilizado basado en el HMM del fonema (método de reconocimiento de voz del tipo que no necesita registro). Más concretamente, la secuencia de fonemas o estados no se puede identificar a partir del patrón de referencia en un reconocimiento de voz dependiente del hablante (método de reconocimiento de voz del tipo que necesita registro). En el reconocimiento de voz dependiente del hablante, se registra un patrón de referencia por voz antes de utilizar el reconocimiento de voz. En consecuencia, no se puede usar el método descrito en la realización a título de ejemplo anterior. Sin embargo, si la secuencia de parámetros característicos del patrón de referencia se utiliza directamente, es posible configurar la información de pronunciación para la parte hablada que se ha omitido.
La figura 4 es un diagrama de bloques que muestra la configuración modular de un método de reconocimiento de voz del tipo que necesita registro. Como los bloques desde la unidad de entrada de voz (401) a la unidad de salida de resultados (404) son los mismos que desde la unidad de entrada de voz (301) a la unidad de salida de resultados (304), se omite la ilustración de estas unidades. La palabra objetivo a reconocer se registra preliminarmente por voz. El patrón de referencia (405) se guarda como la secuencia de parámetros característicos de la voz registrada. Se supone que la secuencia de parámetros característicos se mantiene como el cepstrum de orden 12 y el deltacepstrum (c1-c12, \Deltac1-\Deltac12), que es el coeficiente de regresión principal del cepstrum de orden 12. En este caso, la secuencia de parámetros característicos de la voz registrada para la palabra "Tokyo" se guarda como una secuencia de patrones de referencia (secuencia de vectores de 24 dimensiones) tal como se muestra en la figura 16A (T1 es el número de tramas del análisis de la voz registrada). Si se determina que la voz se omite en la etapa S504, las primeras tramas se eliminan del patrón de referencia, tal como se muestra en la figura 16B (la primera trama eliminada) o en la figura 16C (la primera y la segunda tramas eliminadas). El reconocimiento de voz que incluye la secuencia de parámetros característicos eliminados y el reconocimiento de voz se realiza con poca degradación con respecto a la entrada de voz en la que se omite el comienzo de la voz.
El objetivo de la presente invención también se puede conseguir mediante un medio de almacenamiento que almacene el código del programa del software que realiza las funciones de la realización a título de ejemplo anterior en un sistema o en un aparato, y mediante un ordenador (o CPU o MPU) del sistema o aparato que recupere y ejecute el código del programa almacenado en el medio de almacenamiento.
En este caso, el propio código del programa que se recupera del medio de almacenamiento realiza la función de la realización a título de ejemplo anterior, y el medio de almacenamiento que almacena el código del programa puede constituir la presente invención.
Ejemplos del medio de almacenamiento para proporcionar el código del programa son un disco flexible, un disco duro, un disco óptico, un disco magneto-óptico, un CD-ROM, un CD-R, una cinta magnética, una tarjeta de memoria no volátil y una ROM.
Más aún, además de realizar las funciones de la realización a título de ejemplo anterior ejecutando el código de programa recuperado por un ordenador, la presente invención también incluye el caso en el que un sistema operativo (OS) que se ejecute en el ordenador realiza parte o todo el proceso real según las instrucciones del código del programa, y dicho proceso lleva a cabo las funciones de la realización a título de ejemplo anterior.
Además, la presente invención también incluye el caso en el que, después de que el código del programa se recupera del medio de almacenamiento y se carga en la memoria en la placa de la unidad de ampliación de funciones insertada en el ordenador o la unidad de ampliación de funciones conectada al ordenador, la CPU en la placa de ampliación de funciones o la unidad de ampliación de funciones realiza una parte o todo el proceso según las instrucciones del código del programa y dicho proceso lleva a cabo las funciones de la realización a título de ejemplo anterior.
Por supuesto, la presente invención se puede implementar en hardware, o mediante una combinación de hardware y software.
Aunque la presente invención se ha descrito haciendo referencia a las realizaciones a título de ejemplo, se debe comprender que la invención no se limita a las realizaciones a título de ejemplo descritas. El ámbito de las siguientes reivindicaciones es la interpretación más amplia para abarcar estructuras y funciones equivalentes.

Claims (10)

1. Sistema de reconocimiento de voz que comprende:
inicio de la importación de la voz (S502) de un hablante en respuesta a la operación o el movimiento del hablante (S501);
determinación de si falta parte del comienzo de la voz (S504);
configuración de la información de pronunciación de una palabra objetivo a reconocer (S505) basada en el resultado de la etapa de determinación; y
reconocimiento de la voz importada (S506) mediante la información de pronunciación configurada.
2. Método de reconocimiento de voz, según la reivindicación 1, en el que la determinación de si se omite parte del comienzo de la voz en la etapa de determinación se realiza utilizando la información de al menos uno de los siguientes elementos: potencia de la forma de onda de la voz; tasa de cruces por cero; información espectral; y un parámetro característico que representa la estructura armónica.
3. Método de reconocimiento de voz, según cualquiera de las reivindicaciones anteriores, en el que la información de pronunciación es al menos uno de los siguientes elementos: una secuencia de pronunciación correspondiente a la lectura de una palabra objetivo a reconocer; una secuencia de pronunciación detallada que es una secuencia de estados de una secuencia de pronunciación que ha sido modelada mediante un modelo de transición de estados; y una secuencia de patrones de referencia correspondiente a la palabra objetivo a reconocer.
4. Método de reconocimiento de voz, según la reivindicación 3, en el que la secuencia de patrones de referencia es una secuencia de parámetros característicos de la voz registrada en un aparato de reconocimiento de voz del tipo que necesita registro.
5. Método de reconocimiento de voz, según cualquiera de las reivindicaciones anteriores, en el que la etapa de importación de voz comienza a importar la voz según la entrada del hablante en forma de una operación del hablante.
6. Método de reconocimiento de voz, según cualquiera de las reivindicaciones 1 a 4, en el que la etapa de importación de la voz comienza a importar la voz según la entrada del hablante en la forma del movimiento del hablante detectado por un sensor.
7. Programa de control que, cuando se carga en un ordenador y se ejecuta, implementa el método de reconocimiento de voz según cualquiera de las reivindicaciones anteriores.
8. Aparato de reconocimiento de voz que comprende:
una unidad de importación de voz (201) configurada para comenzar la importación de la voz del hablante en respuesta a una operación o movimiento del hablante;
una unidad de determinación (202) configurada para determinar si se omite parte del comienzo de la voz;
una unidad de configuración (203) configurada para configurar la información de pronunciación para una palabra objetivo a reconocer basándose en el resultado de la unidad de determinación; y
una unidad de reconocimiento de voz (204) configurada para reconocer la voz importada utilizando la información de pronunciación configurada.
9. Aparato de reconocimiento de voz, según la reivindicación 8, en el que la determinación de si se omite parte del comienzo de la voz en la unidad de determinación se realiza utilizando la información sobre al menos uno de los siguientes elementos: potencia de la forma de onda de la voz; tasa de cruces por cero; información espectral; y un parámetro característico que representa la estructura armónica.
10. Aparato de reconocimiento de voz, según la reivindicación 8 ó 9, en el que la información de pronunciación de la unidad de configuración de pronunciación es como mínimo uno de los siguientes elementos: una secuencia de pronunciación correspondiente a la lectura de la palabra objetivo a reconocer; una secuencia de pronunciación detallada que es una secuencia de estados de una secuencia de pronunciación que ha sido modelada por un modelo de transiciones de estados; y una secuencia de patrones de referencia correspondiente a la palabra objetivo a reconocer.
ES06250864T 2005-03-09 2006-02-17 Metodo para el reconocimiento de voz. Active ES2310893T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005065355A JP4667082B2 (ja) 2005-03-09 2005-03-09 音声認識方法
JP2005-65355 2005-03-09

Publications (1)

Publication Number Publication Date
ES2310893T3 true ES2310893T3 (es) 2009-01-16

Family

ID=36250777

Family Applications (1)

Application Number Title Priority Date Filing Date
ES06250864T Active ES2310893T3 (es) 2005-03-09 2006-02-17 Metodo para el reconocimiento de voz.

Country Status (8)

Country Link
US (1) US7634401B2 (es)
EP (1) EP1701338B1 (es)
JP (1) JP4667082B2 (es)
KR (1) KR100742888B1 (es)
CN (1) CN100587806C (es)
AT (1) ATE401644T1 (es)
DE (1) DE602006001764D1 (es)
ES (1) ES2310893T3 (es)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4282704B2 (ja) * 2006-09-27 2009-06-24 株式会社東芝 音声区間検出装置およびプログラム
JP4950930B2 (ja) * 2008-04-03 2012-06-13 株式会社東芝 音声/非音声を判定する装置、方法およびプログラム
KR20130133629A (ko) 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
US8577671B1 (en) 2012-07-20 2013-11-05 Veveo, Inc. Method of and system for using conversation state information in a conversational interaction system
US9799328B2 (en) * 2012-08-03 2017-10-24 Veveo, Inc. Method for using pauses detected in speech input to assist in interpreting the input during conversational interaction for information retrieval
CN103971685B (zh) * 2013-01-30 2015-06-10 腾讯科技(深圳)有限公司 语音命令识别方法和系统
PT2994908T (pt) * 2013-05-07 2019-10-18 Veveo Inc Interface de entrada incremental de discurso com retorno em tempo real
US20160063990A1 (en) * 2014-08-26 2016-03-03 Honeywell International Inc. Methods and apparatus for interpreting clipped speech using speech recognition
US9854049B2 (en) 2015-01-30 2017-12-26 Rovi Guides, Inc. Systems and methods for resolving ambiguous terms in social chatter based on a user profile
JP6804909B2 (ja) * 2016-09-15 2020-12-23 東芝テック株式会社 音声認識装置、音声認識方法及び音声認識プログラム
JP6972287B2 (ja) * 2016-09-15 2021-11-24 東芝テック株式会社 音声認識装置、音声認識方法及び音声認識プログラム
US10283117B2 (en) * 2017-06-19 2019-05-07 Lenovo (Singapore) Pte. Ltd. Systems and methods for identification of response cue at peripheral device
US10586529B2 (en) 2017-09-14 2020-03-10 International Business Machines Corporation Processing of speech signal
JP7092708B2 (ja) * 2019-05-20 2022-06-28 ヤフー株式会社 情報処理プログラム、情報処理装置及び情報処理方法
JP7404664B2 (ja) * 2019-06-07 2023-12-26 ヤマハ株式会社 音声処理装置及び音声処理方法
US12118984B2 (en) 2020-11-11 2024-10-15 Rovi Guides, Inc. Systems and methods to resolve conflicts in conversations
US11545143B2 (en) 2021-05-18 2023-01-03 Boris Fridman-Mintz Recognition or synthesis of human-uttered harmonic sounds

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4761815A (en) * 1981-05-01 1988-08-02 Figgie International, Inc. Speech recognition system based on word state duration and/or weight
US4712242A (en) * 1983-04-13 1987-12-08 Texas Instruments Incorporated Speaker-independent word recognizer
US5774851A (en) * 1985-08-15 1998-06-30 Canon Kabushiki Kaisha Speech recognition apparatus utilizing utterance length information
US4882757A (en) * 1986-04-25 1989-11-21 Texas Instruments Incorporated Speech recognition system
JP2882791B2 (ja) * 1986-10-03 1999-04-12 株式会社リコー パターン比較方式
JP2829014B2 (ja) 1989-01-12 1998-11-25 株式会社東芝 音声認識装置及び方法
JP2708566B2 (ja) * 1989-09-06 1998-02-04 株式会社日立製作所 音声認識制御装置
DE4031421C2 (de) * 1989-10-05 1995-08-24 Ricoh Kk Musteranpassungssystem für eine Spracherkennungseinrichtung
JP3004749B2 (ja) * 1990-05-14 2000-01-31 株式会社リコー 標準パターン登録方法
DE69128990T2 (de) * 1990-09-07 1998-08-27 Toshiba Kawasaki Kk Sprecherkennungsvorrichtung
US5692104A (en) * 1992-12-31 1997-11-25 Apple Computer, Inc. Method and apparatus for detecting end points of speech activity
DE4306508A1 (de) * 1993-03-03 1994-09-08 Philips Patentverwaltung Verfahren und Anordnung zum Ermitteln von Wörtern in einem Sprachsignal
US5765130A (en) * 1996-05-21 1998-06-09 Applied Language Technologies, Inc. Method and apparatus for facilitating speech barge-in in connection with voice recognition systems
US5835890A (en) * 1996-08-02 1998-11-10 Nippon Telegraph And Telephone Corporation Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon
JP3588929B2 (ja) 1996-08-27 2004-11-17 日産自動車株式会社 音声認識装置
US6167374A (en) * 1997-02-13 2000-12-26 Siemens Information And Communication Networks, Inc. Signal processing method and system utilizing logical speech boundaries
EP0867856B1 (fr) 1997-03-25 2005-10-26 Koninklijke Philips Electronics N.V. "Méthode et dispositif de detection d'activité vocale"
JPH10319991A (ja) * 1997-05-20 1998-12-04 Sony Corp 電子機器の音声認識起動方法及び装置
EP1083545A3 (en) * 1999-09-09 2001-09-26 Xanavi Informatics Corporation Voice recognition of proper names in a navigation apparatus
JP4520555B2 (ja) * 1999-09-09 2010-08-04 クラリオン株式会社 音声認識装置および音声認識ナビゲーション装置
US6389394B1 (en) * 2000-02-09 2002-05-14 Speechworks International, Inc. Method and apparatus for improved speech recognition by modifying a pronunciation dictionary based on pattern definitions of alternate word pronunciations
JP4880136B2 (ja) * 2000-07-10 2012-02-22 パナソニック株式会社 音声認識装置および音声認識方法
US7277853B1 (en) * 2001-03-02 2007-10-02 Mindspeed Technologies, Inc. System and method for a endpoint detection of speech for improved speech recognition in noisy environments
US7308404B2 (en) * 2001-09-28 2007-12-11 Sri International Method and apparatus for speech recognition using a dynamic vocabulary
JP2003330491A (ja) * 2002-05-10 2003-11-19 Nec Corp 音声認識装置および音声認識方法ならびにプログラム
KR100474253B1 (ko) * 2002-12-12 2005-03-10 한국전자통신연구원 단어의 첫 자음 발성을 이용한 음성인식 방법 및 이를 저장한 기록 매체
US7024360B2 (en) * 2003-03-17 2006-04-04 Rensselaer Polytechnic Institute System for reconstruction of symbols in a sequence
US7343289B2 (en) * 2003-06-25 2008-03-11 Microsoft Corp. System and method for audio/video speaker detection
US20050033571A1 (en) * 2003-08-07 2005-02-10 Microsoft Corporation Head mounted multi-sensory audio input system
CA2473195C (en) * 2003-07-29 2014-02-04 Microsoft Corporation Head mounted multi-sensory audio input system
KR100577387B1 (ko) 2003-08-06 2006-05-10 삼성전자주식회사 음성 대화 시스템에서의 음성 인식 오류 처리 방법 및 장치
JP3890326B2 (ja) * 2003-11-07 2007-03-07 キヤノン株式会社 情報処理装置、情報処理方法ならびに記録媒体、プログラム
JP4516863B2 (ja) * 2005-03-11 2010-08-04 株式会社ケンウッド 音声合成装置、音声合成方法及びプログラム
TWI319152B (en) * 2005-10-04 2010-01-01 Ind Tech Res Inst Pre-stage detecting system and method for speech recognition
JP4282704B2 (ja) * 2006-09-27 2009-06-24 株式会社東芝 音声区間検出装置およびプログラム

Also Published As

Publication number Publication date
CN1831939A (zh) 2006-09-13
US7634401B2 (en) 2009-12-15
KR20060097647A (ko) 2006-09-14
ATE401644T1 (de) 2008-08-15
JP2006251147A (ja) 2006-09-21
JP4667082B2 (ja) 2011-04-06
CN100587806C (zh) 2010-02-03
DE602006001764D1 (de) 2008-08-28
EP1701338B1 (en) 2008-07-16
KR100742888B1 (ko) 2007-07-25
EP1701338A1 (en) 2006-09-13
US20060206326A1 (en) 2006-09-14

Similar Documents

Publication Publication Date Title
ES2310893T3 (es) Metodo para el reconocimiento de voz.
KR102134201B1 (ko) 숫자 음성 인식에 있어서 음성 복호화 네트워크를 구성하기 위한 방법, 장치, 및 저장 매체
JP2023041843A (ja) 音声区間検出装置、音声区間検出方法及びプログラム
ES2540995T3 (es) Sistema y método para reconocer un comando de voz de usuario en un entorno con ruido
JP6654611B2 (ja) 成長型対話装置
JP6284462B2 (ja) 音声認識方法、及び音声認識装置
CN108630200B (zh) 声音关键字检测装置以及声音关键字检测方法
CN111862954B (zh) 一种语音识别模型的获取方法及装置
CN111243599B (zh) 语音识别模型构建方法、装置、介质及电子设备
CN110265028B (zh) 语音合成语料库的构建方法、装置及设备
US20090240499A1 (en) Large vocabulary quick learning speech recognition system
JP6464005B2 (ja) 雑音抑圧音声認識装置およびそのプログラム
JP6305955B2 (ja) 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム
JP6127422B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
KR20040068023A (ko) 은닉 궤적 은닉 마르코프 모델을 이용한 음성 인식 방법
Sajjan et al. Continuous Speech Recognition of Kannada language using triphone modeling
KR102140770B1 (ko) 음성에 기반한 잠금 해제를 수행하는 사용자 장치, 음성에 기반한 사용자 장치의 잠금 해제 방법 및 컴퓨터 프로그램이 기록된 기록매체
KR100848148B1 (ko) 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체
Batlouni et al. Mathifier—Speech recognition of math equations
KR101578766B1 (ko) 음성 인식용 탐색 공간 생성 장치 및 방법
JP2011180308A (ja) 音声認識装置及び記録媒体
JP7222265B2 (ja) 音声区間検出装置、音声区間検出方法及びプログラム
JPWO2019030810A1 (ja) 音声認識装置および音声認識方法
JP4400169B2 (ja) 音声認識装置、音声認識方法及びプログラム
Klein Speech recognition and synthesis