ES2244499T3 - Procedimiento para el reconocimiento de manifestaciones verbales de oradores que no hablan su propio idioma en un sistema de procesamiento de voz. - Google Patents

Procedimiento para el reconocimiento de manifestaciones verbales de oradores que no hablan su propio idioma en un sistema de procesamiento de voz.

Info

Publication number
ES2244499T3
ES2244499T3 ES00993850T ES00993850T ES2244499T3 ES 2244499 T3 ES2244499 T3 ES 2244499T3 ES 00993850 T ES00993850 T ES 00993850T ES 00993850 T ES00993850 T ES 00993850T ES 2244499 T3 ES2244499 T3 ES 2244499T3
Authority
ES
Spain
Prior art keywords
language
model
recognition
verbal
recognize
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES00993850T
Other languages
English (en)
Inventor
Gerhard Niedermair
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Application granted granted Critical
Publication of ES2244499T3 publication Critical patent/ES2244499T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

Dispositivo de reconocimiento de voz (1) para reconocer y procesar manifestaciones verbales de un usuario en un primer idioma con un primer modelo de lenguaje basado en fonemas (2a) para reconocer manifestaciones verbales en un primer idioma y un segundo modelo de lenguaje basado en fonemas (2b) para reconocer manifestaciones verbales en un segundo idioma y un dispositivo de selección (3), que en base a una manifestación verbal del usuario automáticamente elige el primer o el segundo modelo de lenguaje (2a, 2b) para el reconocimiento de voz, eligiéndose aquel modelo de lenguaje (2a, 2b) que aporta un mejor resultado de reconocimiento de los fonemas hablados de este usuario, caracterizado por un dispositivo de transmisión (4) que, cuando se ha elegido el segundo modelo de lenguaje para el reconocimiento de voz (2b), transmite secuencias de fonemas, que son expresadas con las características del segundo idioma y que son reconocidas mediante el segundo modelo de lenguaje (2b), en base al primer modelo de lenguaje (2a), a palabras en el primer idioma, para reconocer palabras en el primer idioma que son expresadas con el acento del segundo idioma.

Description

Procedimiento para el reconocimiento de manifestaciones verbales de oradores que no hablan su propio idioma en un sistema de procesamiento de voz.
La presente invención se refiere a un sistema de reconocimiento de voz para reconocer y procesar manifestaciones verbales de un usuario en un idioma, tal como se describe en el concepto general de la reivindicación adjunta 1, y a un procedimiento utilizado en un dispositivo como el indicado para reconocer y procesar manifestaciones verbales de un usuario en un idioma, tal como se describe en el concepto general en la reivindicación adjunta 4.
Bajo sistemas de reconocimiento de voz independientes del orador se entienden sistemas de reconocimiento de voz cuyos únicos usuarios no tienen entrenamiento explicito con este sistema, es decir, cuyos únicos usuarios no han realizado pruebas de voz para el reconocimiento de la voz. Tales sistemas encuentran por ejemplo aplicación en informaciones telefónicas, en bancos y para sistemas de reserva. El usuario toma contacto entonces por lo general por teléfono con la aplicación deseada (p.e. con su banco), para consultar p.e. el estado de su cuenta o realizar una transferencia.
Tales sistemas de reconocimiento de voz independientes del orador funcionan la mayoría de las veces con modelos de voz basados en el fonema (= basados en el acento), en base a los cuales se realiza el reconocimiento de voz. Estos modelos acústicos tienen como base el material de entrenamiento, es decir, las pruebas de voz con las características de fonema y voz de por ejemplo varios miles de oradores representativos.
El material de voz así reunido cubre entonces por lo general de manera más o menos buena las variantes de expresión, es decir, las variantes acústicas de realización del fonema, de los usuarios del sistema de reconocimiento de voz, en particular cuando los usuarios son oradores cuyo propio idioma es el idioma de la aplicación (usuarios del propio idioma).
Entonces se presenta desde luego el problema de que los usuarios cuyo propio idioma no es el idioma de la aplicación, son reconocidos bastante menos bien, debido a la diferente formación y particularidades del acento.
La causa de ello reside en que, según el estado de la técnica, pocas o incluso ninguna muestra de voz de oradores que no hablan su propio idioma están incluidas en el material de entrenamiento. Un aumento de la proporción de los oradores que no hablan su propio idioma en el material de entrenamiento trae no obstante como consecuencia que aumenta la varianza del modelo de voz generado, es decir, la anchura de banda con la que se reconoce un acento. Esto da lugar también no obstante a una mayor cantidad de reconocimientos erróneos.
Además, deberían archivarse entonces para cada grupo de usuarios (p.e para franceses, italianos, españoles, etc.) las muestras verbales de en cada caso muchos oradores representativos de estas naciones en el idioma de la aplicación (p. e. alemán), lo cual a su vez implica un gasto elevado.
"Improving speech accuracy with multiple phonetic models" (mejorando la precisión del lenguaje con múltiples modelos fonéticos)'', IBM technical disclosure bulletin, vol. 38, nº 12, Diciembre 1995, pág. 73, da a conocer un sistema automático de selección de un modelo de lenguaje para el reconocimiento de la voz.
La tarea de la presente invención es así poner a disposición un dispositivo para el reconocimiento de voz según el concepto general de la adjunta reivindicación 1 y un procedimiento según el concepto general de la adjunta reivindicación 4, en los que sea posible un mejor reconocimiento de oradores que no hablen su propio idioma en un sistema de reconocimiento de voz. Esta tarea se resuelve mediante un dispositivo de reconocimiento de voz según la adjunta reivindicación 1 y un procedimiento para el reconocimiento de voz según la adjunta reivindicación 4.
Ventajosos perfeccionamientos de la presente invención se indican en las reivindicaciones secundarias 2, 3, 5 y 6.
Según la presente invención, se utilizan para el reconocimiento de voz de las manifestaciones verbales de un orador dos o más modelos de lenguaje. El idioma de la aplicación es entonces el primer idioma (p.e. alemán).
Si el diálogo es conducido con el dispositivo de reconocimiento de voz por parte de un orador cuyo propio idioma es el primer idioma, entonces se utiliza para el reconocimiento de voz el primer modelo de lenguaje, que es el básico para el material de entrenamiento como primer idioma (p.e. alemán).
Pero si el diálogo con el dispositivo del reconocimiento de voz es conducido por un usuario cuya expresión está marcada en el primer idioma por un acento del segundo idioma (p.e. acento francés), entonces se utiliza para el reconocimiento de voz el segundo modelo de lenguaje (en el ejemplo citado francés) que es el básico para el material de entrenamiento como segundo idioma. Los fonemas que se expresan con la característica, es decir, con el acento del segundo idioma, son transmitidos entonces por el dispositivo de transmisión correspondiente a la invención para el reconocimiento del lenguaje a palabras en el primer idioma en base al primer modelo de lenguaje, en el que están reunidas las palabras del primer idioma.
La ventaja de la presente invención reside en que para el reconocimiento de voz de usuarios que hablan el primer idioma con un acento del segundo idioma, no ha de ser creado ni entrenado un modelo de lenguaje propio. Para el reconocimiento de voz pueden utilizarse en este caso modelos de lenguaje existentes en el idioma de aplicación del segundo y otros idiomas.
Para el reconocimiento de voz según la presente invención pueden utilizarse además los llamados modelos de lenguaje multilinguales, que sirven para el reconocimiento de voz de varios idiomas utilizados. El reconocimiento de voz en el primer idioma se realiza entonces igualmente como se describió antes.
La presente invención se describe más en detalle a continuación en base a un ejemplo de ejecución preferente con referencia a la adjunta figura 1.
La figura 1 muestra al respecto la estructura esquemática del sistema de reconocimiento de voz con el dispositivo de reconocimiento de voz correspondiente a la invención.
Tal como se ve en la fig. 1, está compuesto el sistema de reconocimiento de voz correspondiente a la invención por el dispositivo de reconocimiento de voz 1, un dispositivo de memoria con los distintos modelos de lenguaje 2a ... 2n, que también puede ser en cada caso una parte del modelo de lenguaje 2 multilingual, el dispositivo de selección para elegir el modelo de lenguaje y el dispositivo de transmisión 4 para transmitir fonemas que se hablan con las características del segundo idioma, a palabras del primer idioma.
Además, un dispositivo de entrada 5 para introducir manifestaciones verbales de un usuario es parte integrante del sistema de reconocimiento de voz. El dispositivo de entrada 5 está representado esquemáticamente como micrófono y puede por ejemplo ser el micrófono de un teléfono a través del cual el usuario comunica con el dispositivo de reconocimiento de voz.
El objetivo de la presente invención es mejorar el reconocimiento de voz de usuarios que no hablan su propio idioma en otro determinado idioma (p.e. alemán hablado por un francés). Esto se logra utilizando un modelo de lenguaje multilingual 2, que en el ejemplo citado contiene el material de entrenamiento para el reconocimiento de voz alemán y francés, para el reconocimiento de oradores que no hablan su propio idioma en el idioma determinado.
El sistema de reconocimiento de voz utiliza entonces tanto el modelo de lenguaje 2a que había sido generado con oradores que hablaban su propio idioma del idioma de aplicación, como también los modelos de lenguaje 2b ... 2n que han sido generados con oradores que hablan su propio idioma en uno o varios de los otros idiomas, (los modelos multilinguales, que se componen preferentemente de los idiomas cuyos usuarios han de ser reconocidos como oradores de idiomas ajenos del idioma de aplicación).
La presente invención se basa en que los distintos modelos de lenguaje 2a ... 2n contienen las particularidades de articulación o bien las características del acento y estas características también son transmitidas por los usuarios al hablar un idioma ajeno de forma más o menos acusada al idioma ajeno (p. e. el acento típico francés). Puesto que los modelos de lenguaje multilinguales contienen las particularidades de articulación del idioma ajeno, son más adecuados para reconocer a un usuario de un idioma que no es su propio idioma. En el reconocimiento de voz se utiliza entonces, en dependencia de con qué perfección el usuario domina el idioma de aplicación, el correspondiente modelo de lenguaje para el reconocimiento.
Entonces, se elige al comienzo del diálogo para el reconocimiento de voz con un usuario mediante el dispositivo de selección, para el siguiente reconocimiento, el modelo del lenguaje que aporta los mejores resultados de reconocimiento. Si por ejemplo el diálogo es conducido por un usuario que en el idioma de aplicación (p.e. idioma alemán) habla con un fuerte acento extranjero (p.e. acento francés), entonces es reconocido el acento (fonemas) mediante el correspondiente modelo de lenguaje. El dispositivo de transmisión correspondiente a la invención transmite entonces, en base al primer modelo de lenguaje, en el que el material de entrenamiento está memorizado para el primer idioma o bien el lenguaje de aplicación, los fonemas reconocidos a palabras del idioma de aplicación.
La ventaja del procedimiento correspondiente a la invención reside en que no ha de ser generado en cada caso ningún modelo propio típico del idioma para oradores que no hablan su propio idioma (p.e. alemán hablado por franceses o españoles), sino que en la aplicación (dado el caso multilingual) pueden utilizarse simultáneamente modelos de lenguaje de en cada caso modelos de lenguaje ajeno, así como el correspondiente modelo típico del idioma para oradores que hablan su propio idioma.

Claims (6)

1. Dispositivo de reconocimiento de voz (1) para reconocer y procesar manifestaciones verbales de un usuario en un primer idioma con
un primer modelo de lenguaje basado en fonemas (2a) para reconocer manifestaciones verbales en un primer idioma y
un segundo modelo de lenguaje basado en fonemas (2b) para reconocer manifestaciones verbales en un segundo idioma y
un dispositivo de selección (3), que en base a una manifestación verbal del usuario automáticamente elige el primer o el segundo modelo de lenguaje (2a, 2b) para el reconocimiento de voz, eligiéndose aquel modelo de lenguaje (2a, 2b) que aporta un mejor resultado de reconocimiento de los fonemas hablados de este usuario,
caracterizado por
un dispositivo de transmisión (4) que, cuando se ha elegido el segundo modelo de lenguaje para el reconocimiento de voz (2b), transmite secuencias de fonemas, que son expresadas con las características del segundo idioma y que son reconocidas mediante el segundo modelo de lenguaje (2b), en base al primer modelo de lenguaje (2a), a palabras en el primer idioma, para reconocer palabras en el primer idioma que son expresadas con el acento del segundo idio-
ma.
2. Dispositivo de reconocimiento de voz (1) según la reivindicación 1,
caracterizado por
más de dos modelos de lenguaje basados en fonemas (2a ... 2n) para el reconocimiento de manifestaciones verbales en más de dos idiomas, en base a los cuales se realiza el reconocimiento de secuencias de fonemas que son expresados con las características de los otros idiomas.
3. Dispositivo de reconocimiento de voz (1) según la reivindicación 1 ó 2,
caracterizado porque
los distintos modelos de lenguaje (2a ... 2n) son en cada caso parte integrante de un modelo completo de lenguaje (2) multilingual.
4. Procedimiento para reconocer y procesar manifestaciones verbales de un usuario en un primer idioma, con las etapas
elección automática de un primer o un segundo modelo de lenguaje (2a, 2b) para el reconocimiento de voz en base a una manifestación verbal del usuario, eligiéndose aquel modelo de lenguaje (2a, 2b) que aporta un mejor resultado de reconocimiento de fonemas hablados de este usuario,
caracterizado porque
cuando se ha elegido el segundo modelo de lenguaje (2b) para reconocimiento de voz,
se transmite la secuencia de fonemas, que son hablados con las características del segundo idioma y son reconocidos por el segundo modelo de lenguaje (2b), en base al primer modelo de lenguaje (2a), a palabras del primer idioma, para reconocer palabras en el primer idioma que son habladas con un acento correspondiente al segundo idioma.
5. Procedimiento según la reivindicación 4,
caracterizado porque
se utilizan más de dos modelos de lenguaje basados en fonemas (2a ... 2n) para el reconocimiento de manifestaciones verbales en más de dos idiomas, en base a los cuales se realiza el reconocimiento de secuencias de fonemas que son hablados con las características de los otros idiomas.
6. Procedimiento según la reivindicación 4 ó 5,
caracterizado porque
los distintos modelos de lenguaje (2a ... 2n) son en cada caso una parte integrante de un modelo completo de lenguaje multilingual (2).
ES00993850T 2000-03-15 2000-12-22 Procedimiento para el reconocimiento de manifestaciones verbales de oradores que no hablan su propio idioma en un sistema de procesamiento de voz. Expired - Lifetime ES2244499T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP00105466 2000-03-15
EP00105466A EP1134726A1 (de) 2000-03-15 2000-03-15 Verfahren zur Erkennung von Sprachäusserungen nicht-muttersprachlicher Sprecher in einem Sprachverarbeitungssystem

Publications (1)

Publication Number Publication Date
ES2244499T3 true ES2244499T3 (es) 2005-12-16

Family

ID=8168101

Family Applications (1)

Application Number Title Priority Date Filing Date
ES00993850T Expired - Lifetime ES2244499T3 (es) 2000-03-15 2000-12-22 Procedimiento para el reconocimiento de manifestaciones verbales de oradores que no hablan su propio idioma en un sistema de procesamiento de voz.

Country Status (5)

Country Link
US (1) US20040098259A1 (es)
EP (2) EP1134726A1 (es)
DE (1) DE50010937D1 (es)
ES (1) ES2244499T3 (es)
WO (1) WO2001069591A1 (es)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2281626T3 (es) * 2002-01-17 2007-10-01 Siemens Aktiengesellschaft Procedimiento de funcionamiento de un reconocedor automatico de voz para el reconocimiento por voz, independiente del orador, de palabras en distintos idiomas y reconocedor automatico de voz.
JP4000095B2 (ja) * 2003-07-30 2007-10-31 株式会社東芝 音声認識方法、装置及びプログラム
WO2005034087A1 (de) * 2003-09-29 2005-04-14 Siemens Aktiengesellschaft Auswahl eines spracherkennungsmodells für eine spracherkennung
US7415411B2 (en) * 2004-03-04 2008-08-19 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers
EP1769489B1 (fr) * 2004-07-22 2009-09-09 France Telecom Procede et systeme de reconnaissance vocale adaptes aux caracteristiques de locuteurs non-natifs
DE102004055230B3 (de) 2004-11-16 2006-07-20 Siemens Ag Verfahren zur Spracherkennung aus einem vorgebbaren Vokabular
DE602005004503T2 (de) * 2005-02-21 2009-01-22 Harman Becker Automotive Systems Gmbh Multilinguale Spracherkennung
DE102005010285A1 (de) * 2005-03-01 2006-09-07 Deutsche Telekom Ag Verfahren und System zur Spracherkennung
US8442827B2 (en) * 2010-06-18 2013-05-14 At&T Intellectual Property I, L.P. System and method for customized voice response
CN103038816B (zh) * 2010-10-01 2015-02-25 三菱电机株式会社 声音识别装置
KR101218332B1 (ko) * 2011-05-23 2013-01-21 휴텍 주식회사 하이브리드 방식의 음성인식을 통한 문자 입력 방법 및 장치, 그리고 이를 위한 하이브리드 방식 음성인식을 통한 문자입력 프로그램을 기록한 컴퓨터로 판독가능한 기록매체
US9530103B2 (en) * 2013-04-04 2016-12-27 Cypress Semiconductor Corporation Combining of results from multiple decoders
KR102084646B1 (ko) 2013-07-04 2020-04-14 삼성전자주식회사 음성 인식 장치 및 음성 인식 방법
US9472184B2 (en) * 2013-11-06 2016-10-18 Microsoft Technology Licensing, Llc Cross-language speech recognition
US9552810B2 (en) 2015-03-31 2017-01-24 International Business Machines Corporation Customizable and individualized speech recognition settings interface for users with language accents
US10490188B2 (en) 2017-09-12 2019-11-26 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for language selection
US10783873B1 (en) * 2017-12-15 2020-09-22 Educational Testing Service Native language identification with time delay deep neural networks trained separately on native and non-native english corpora
CN110875039B (zh) * 2018-08-30 2023-12-01 阿里巴巴集团控股有限公司 语音识别方法和设备
JP6961906B1 (ja) * 2021-02-24 2021-11-05 真二郎 山口 外国人の国籍推定システム、外国人の母国語推定システム、外国人の国籍推定方法、外国人の母国語推定方法、及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5717828A (en) * 1995-03-15 1998-02-10 Syracuse Language Systems Speech recognition apparatus and method for learning
US5865626A (en) * 1996-08-30 1999-02-02 Gte Internetworking Incorporated Multi-dialect speech recognition method and apparatus
JP4267101B2 (ja) * 1997-11-17 2009-05-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声識別装置、発音矯正装置およびこれらの方法
US6389394B1 (en) * 2000-02-09 2002-05-14 Speechworks International, Inc. Method and apparatus for improved speech recognition by modifying a pronunciation dictionary based on pattern definitions of alternate word pronunciations

Also Published As

Publication number Publication date
US20040098259A1 (en) 2004-05-20
WO2001069591A1 (de) 2001-09-20
EP1264301B1 (de) 2005-08-10
EP1264301A1 (de) 2002-12-11
DE50010937D1 (de) 2005-09-15
EP1134726A1 (de) 2001-09-19

Similar Documents

Publication Publication Date Title
ES2244499T3 (es) Procedimiento para el reconocimiento de manifestaciones verbales de oradores que no hablan su propio idioma en un sistema de procesamiento de voz.
AU707355B2 (en) Speech recognition
Kanthak et al. Context-dependent acoustic modeling using graphemes for large vocabulary speech recognition
ES2233002T3 (es) Sistema de reconocimiento de habla con lexico actualizable mediante introduccion de palabras deletreadas.
US5791904A (en) Speech training aid
US5799065A (en) Call routing device employing continuous speech
ES2278763T3 (es) Sistema y procedimiento de reconocimiento de voz con una pluralidad de motores de reconocimiento.
US5732187A (en) Speaker-dependent speech recognition using speaker independent models
US20020111805A1 (en) Methods for generating pronounciation variants and for recognizing speech
ATE482447T1 (de) Registrierung für spracherkennungssystem
WO2007118020A3 (en) Method and system for managing pronunciation dictionaries in a speech application
US20050071170A1 (en) Dissection of utterances into commands and voice data
EP1213706B1 (en) Method for online adaptation of pronunciation dictionaries
Elhadj et al. Approach for recognizing allophonic sounds of the classical Arabic based on Quran recitations
Lee et al. Cantonese syllable recognition using neural networks
KR100848148B1 (ko) 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체
McDermott et al. Discriminative training for large vocabulary telephone-based name recognition
KR20090109501A (ko) 언어학습용 리듬훈련 시스템 및 방법
Jouvet et al. Speaker-independent spelling recognition over the telephone
Roe Deployment of human-machine dialogue systems.
Georgila et al. A speech-based human-computer interaction system for automating directory assistance services
Sugamura et al. Speech processing technologies and telecommunications applications at NTT
Tsai et al. Open vocabulary Chinese name recognition with the help of character description and syllable spelling recognition
Das et al. Design and Implementation of Monophones and Triphones-Based Speech Recognition Systems for Voice Activated Telephony
Belgacem et al. Automated Speech Recognition System (ASR)