DE60026106T2 - System and method for speech recognition by means of language models - Google Patents

System and method for speech recognition by means of language models Download PDF

Info

Publication number
DE60026106T2
DE60026106T2 DE2000626106 DE60026106T DE60026106T2 DE 60026106 T2 DE60026106 T2 DE 60026106T2 DE 2000626106 DE2000626106 DE 2000626106 DE 60026106 T DE60026106 T DE 60026106T DE 60026106 T2 DE60026106 T2 DE 60026106T2
Authority
DE
Germany
Prior art keywords
user
models
speech
portal
identity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE2000626106
Other languages
German (de)
Other versions
DE60026106D1 (en
Inventor
Robert Van Kommer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Swisscom AG
Original Assignee
Swisscom Fixnet AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Swisscom Fixnet AG filed Critical Swisscom Fixnet AG
Publication of DE60026106D1 publication Critical patent/DE60026106D1/en
Application granted granted Critical
Publication of DE60026106T2 publication Critical patent/DE60026106T2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

Die vorliegende Erfindung betrifft ein Verfahren und ein System zur Authentifizierung eines Sprechers. Speziell betrifft die vorliegende Erfindung ein Verfahren mit Mehrfachpassspracherkennung und Sprecherauthentifizierung zur Benutzerauthentifizierung in einem Sprachportal und ein verbessertes Sprachportal.The The present invention relates to a method and a system for Authentication of a speaker. Specifically, the present invention relates The invention relates to a method with multiple-pass speech recognition and speaker authentication for user authentication in a voice portal and an improved Voice portal.

Stand der TechnikState of technology

Sprachportale, zum Beispiel interaktive Sprachantwortsysteme, in welchen Informationen gespeichert werden können und auf die von mehreren Benutzern durch gesprochene Anträge, die direkt in ein Mikrophon geäussert oder durch ein Telefonnetzwerk übertragen und in dem Sprachportal interpretiert werden, zugegriffen werden können, sind bereits bekannt. Sprachportale haben den Vorteil, dass auf die Information ohne vorheriges Wissen und ohne spezielle Ausrüstung von irgendeinem Telefon in der Welt zugegriffen werden kann.Voice portals, for example, interactive voice response systems in which information can be stored and to those of several users through spoken applications, the directly expressed in a microphone or transmitted through a telephone network and are interpreted in the voice portal, accessed can, are already known. Voice portals have the advantage of being on the information without prior knowledge and without special equipment from any phone in the world can be accessed.

Sprachportale können oft Zugang zu vertraulichen Informationen geben, zum Beispiel Bank- oder medizinischen Informationen. Das Vertraulichkeitsniveau und die Art der Information, welche in dem Sprachportal gespeichert wird, hängen deshalb wesentlich von der zuverlässigen Identifikation von berechtigten Benutzern ab, um diese zu berechtigen oder nicht.voice portals can often provide access to confidential information, such as banking or medical information. The level of confidentiality and the type of information stored in the voice portal will hang Therefore, much of the reliable identification of authorized Users to authorize them or not.

In vielen konventionellen Systemen müssen die Benutzer ihre Identität mit einer Benutzeridentifikation und/oder einem Passwort, welches als DTMF Code auf der Tastatur des Benutzergeräts eingegeben wurde, eingeben oder bestätigen. In vielen Situationen, zum Beispiel in Autos, erweist sich diese Lösung als unpraktisch. Zusätzlich sind Benutzeridentifikationen und Passwörter schwer zu erinnern und werden häufig in der Nähe des Benutzergeräts niedergeschrieben, was in einer schwachen Sicherheit resultiert.In Many conventional systems require users to have their identity with one User identification and / or a password, which as DTMF Enter the code on the user device keyboard or confirm. In many situations, for example in cars, this proves to be solution as impractical. additionally User IDs and passwords are hard to remember and become common near of the user device written down, which results in a weak security.

Es wurde bereits vorgeschlagen, Benutzer mit einer gesprochenen Identität, welche am Eingangspunkt von dem Dialog mit dem Sprachportal geäussert wird, zu authentifizieren. Spracherkennungstechniken wurden verwendet, um die beanspruchte Identität zu erkennen, und Techniken zur Sprecherverifizierung für die Verifizierung der beanspruchten Identität. In dem nächsten Abschnitt des Dialogs wird der Benutzer akzeptiert oder zurückgewiesen, wenn er nicht in dem Portal registriert ist oder wenn die beanspruchte Identität nicht verifiziert werden kann.It has already been proposed to users with a spoken identity which at the entry point is voiced by the dialogue with the voice portal to authenticate. Speech recognition techniques were used around the claimed identity and speaker verification techniques for verification the claimed identity. In the next Section of the dialog, the user is accepted or rejected, if he is not registered in the portal or if claimed identity can not be verified.

Gegenwärtig besteht der grosse Trend in Spracherkennung und in der Technik zur Sprecherverifikation in Versteckten Markov Modellen (Hidden Markov Models). Dieses statische Verfahren beschreibt Sprache durch eine Abfolge von Zuständen (Markov Zuständen). Diese sind durch Übergangswahrscheinlichkeiten verbunden, um sich von Zustand zu Zustand zu bewegen und jeder Zustand gibt mit einer gewissen Wahrscheinlichkeit einen Sprachvektor heraus. Unter den vielen Schwachpunkten von HMMs könnte man die geringe Robustheit gegen eine typische Versatzsituation erwähnen (Trainings- und Testsprachmaterial sind verschieden). In den letzten Jahren der Forschung auf dem Gebiet von Spracherkennung haben viele Forscher geschlossen, dass die Robustheit von gegenwärtigen Verfahren sehr weit entfernt ist, von dem was Menschen leisten können.Currently exists the big trend in speech recognition and speech verification technology in Hidden Markov Models (Hidden Markov Models). This static Method describes speech through a sequence of states (Markov States). These are due to transition probabilities connected to move from state to state and every state gives out a speech vector with a certain probability. Among the many weaknesses of HMMs you could the low robustness against a typical offset situation mention (training and test language material are different). In recent years, research in the field Of speech recognition, many researchers have concluded that the robustness from present Process is very far away from what people can afford.

Verschiedene Verfahren wurden bereits beschrieben, um die Robustheit von Spracherkennung zu verbessern. Es ist bekannt, dass die Sprecherverifizierung viel besser ist, wenn mehr Sprachmaterial vorhanden ist. Zusätzlich erreichen einige Systeme durch den Gebrauch von sprecherabhängigen Sprachmodellen, welche gewöhnlich in einer Eingangssitzung gelernt werden, eine bessere Leistung. Die meisten Benutzer würden jedoch nicht akzeptieren, die notwendige Zeit für diese Sitzung zu akzeptieren. Daneben kann sprecherabhängige Erkennung nur verwendet werden, wenn der Sprecher einmal identifiziert wurde, aber nicht, um die Identität, die durch den Benutzer während des ersten Abschnitts des Dialogs beansprucht wird, zu erkennen.Various Methods have already been described to increase the robustness of speech recognition to improve. It is well known that speaker verification is much it is better if more language material is available. In addition reach some systems through the use of speaker-dependent language models, which usually learned in an input session, better performance. However, most users would do not accept to accept the necessary time for this session. In addition, speaker-dependent Detection can only be used once the speaker has been identified was, but not, the identity that was created by the user during the The first section of the dialog is claimed to recognize.

Anstelle eines kompletten Satzes von Sprachmodellen für jeden Benutzer zu lernen, wurden verschiedene Anpassungstechniken beschrieben, um einen Satz von guten sprecherunabhängigen Modellen an einen neuen Sprecher anzupassen. Wenn die Anpassungsdaten in einem Block verfügbar sind, z.B. von einer Einschreibungssitzung des Sprechers, könnte man statische Verfahren verwenden. Alternativ könnte eine Anpassung inkremental geschehen, wenn Anpassungsdaten verfügbar werden (inkrementale Anpassung). In dem Fall, in dem die wahre Transkription von Anpassungsdaten bekannt ist, wird sie überwachte Anpassung genannt, wenn hingegen die Modelle mit ungekennzeichneten Sprachmaterial angepasst sind, wird sie nicht überwachte Anpassung genannt. Bekannte Anpassungstechniken umfassen eine Technik mit linearer Regression mit maximaler Wahrscheinlichkeit (MLLR) und eine Anpassung mit a posteriori Maximum (MAP).Instead of to learn a complete set of language models for each user Various adaptation techniques have been described to one sentence from good speaker-independent Adapt models to a new speaker. If the adjustment data available in a block are, e.g. from a speaker's enrollment session, one could use static methods. Alternatively, an adjustment could be incremental happen when fitting data becomes available (incremental adjustment). In the case where the true transcription of adaptation data is known, she is supervised Adaptation called, however, if the models with unmarked Language material, it is called unmonitored adaptation. Known customization techniques include a linear technique Maximum Likelihood Regression (MLLR) and an adjustment with a posteriori maximum (MAP).

Es existieren andere Anpassungstechniken, um die Modelle mit dem gegenwärtigen Geräusch, der aus der Leitung aufgenommen wurde, anzupassen. Viele Systeme verwenden einen kleinen Moment von Stille, um die Modellbildung zu tun. Dieses spezielle Modell wird dann mit dem Original kombiniert. Ein Zweipasssystem wird in der Patentanmeldung EP-A2-0 880 126 beschrieben, welches die Stillemodelle zuerst durch Segmentierung der Sprachäusserungen anpasst und danach die Stillemodelle durch eine nicht überwachte Anpassung anpasst.It There are other adaptation techniques to models with the current noise that are out the management has been accepted. Many systems use a little moment of silence to do the modeling. This special model is then combined with the original. A two-pass system is described in the patent application EP-A2-0 880 126 which the models of breastfeeding first by segmentation of the speech utterances and then the breastfeeding models by an unmonitored adjustment adapts.

Sprecherabhängige Sprachmodelle wurden bereits ebenso für die Aufgabe von Sprechererkennung verwendet. Sungjoo Ahn et al. in „Effective speaker adaptations for speaker verification", 2000 IEEE International Conference on Acoustics, speech and signal Processings, Istanbul, 5–9 Juni 2000, S. 1081–1084, zum Beispiel beschreibt effektive Anpassungsverfahren mit nur einem begrenzten Betrag von verfügbaren Einschreibungsdaten. Sadoki Furui, in „Recent advantages in speaker recognition", Pattern recognition letters, 1. September 1997, S. 859–872, ist ein allgemeiner Artikel, welcher verschiedene Vorzüge in Sprechererkennungstechniken, inklusive sprecherabhängigen und textabhängigen Schemata, beschreibt. Beide Dokumente vertrauen immer noch auf eine eher schwerfällige Eingangssitzung, um die Sprachmodelle des Benutzers anzupassen.Speaker-dependent language models were already alike for used the task of speaker recognition. Sungjoo Ahn et al. in "Effective speaker adaptations for speaker verification ", 2000 IEEE International Conference on Acoustics, speech and signal processing, Istanbul, 5-9 June 2000, pp. 1081-1084, for example, describes effective adjustment method with only one limited amount of available Enrollment data. Sadoki Furui, in "Recent advantages in speaker recognition ", Pattern Recognition letters, September 1, 1997, pp. 859-872, is a general article, which different advantages in speaker recognition techniques, including speaker-dependent and contextual Schemes, describes. Both documents still rely on one rather cumbersome Input session to customize the user's language models.

In einem Sprachportal können alle diese Anpassungstechniken verwendet werden, um die Sprachmodelle während der Eingangssitzung und/oder während des ganzen Dialogs zu verbessern; die angepassten Modelle können sogar in dem System gespeichert und für die Spracherkennung in zukünftigen Sitzungen verwendet werden. Sie können jedoch nicht in jeder Sitzung, solange die Identität des Sprechers nicht erkannt und/oder verifiziert wurde, verwendet werden.In a voice portal All of these customization techniques are used to model the language while the entrance session and / or during to improve the whole dialogue; the adapted models can even stored in the system and for the speech recognition in future Sessions are used. But you can not be in everyone Meeting as long as the identity the speaker was not recognized and / or verified used become.

Der erste Abschnitt des Dialogs ist deshalb sehr kritisch, weil nur sprecherunabhängige Erkennungstechniken verwendet werden können und weil die Komplexität (Anzahl der Verzweigungen) des Identitätseingangs mindestens proportional zu der Anzahl von Benutzern ist. Umgekehrt hat die Spracherkennung in dem Rest des gesprochenen Dialogs eine einfachere Aufgabe; die Komplexität ist geringer.Of the first section of the dialogue is therefore very critical, because only speaker independent Detection techniques can be used and because the complexity (number the branches) of the identity input is at least proportional to the number of users. Vice versa has speech recognition in the rest of the spoken dialog one easier task; the complexity is lower.

Zusammenfassung der ErfindungSummary the invention

Es ist ein Ziel der Erfindung, ein Sprachportalsystem und ein Verfahren mit verbesserter Leistung zur Sprecherauthentifizierung als existierende Verfahren und Systeme zu schaffen.It An object of the invention is a voice portal system and method with improved speaker authentication performance than existing To create processes and systems.

Ein anderes Ziel ist es, ein sprecherabhängiges Verifizierungsverfahren in einem Sprachportalsystem zu schaffen, welches eine genaue Sprechererkennung und -verifizierung auf der Basis von einer Äusserung, die während des ersten Abschnitts des Dialogs durch den Benutzer gesprochen wurde, erlaubt.One Another goal is a speaker-dependent verification process in a voice portal system providing accurate speaker recognition and verification on the basis of a statement made during the the first section of the dialog was spoken by the user, allowed.

In Übereinstimmung mit einem Ausführungsbeispiel der vorliegenden Erfindung wird ein Sprecherauthentisierungsverfahren geschaffen, in welchem ein spezieller Dialog konstruiert wurde, um mehr Daten zu sammeln und um die Sprach- und Stillemodelle, die für den ersten Dialogabschnitt verwendet werden, anzupassen.In accordance with an embodiment The present invention will be a speaker authentication method created in which a special dialogue was constructed, to collect more data and to understand the language and breastfeeding models that for the first dialog section used to customize.

Gemäss einem anderen Aspekt der Erfindung wird ein Multipass-Spracherkennungsschema verwendet, um die Anpassung von Sprachmodellen zu verbessern.According to one In another aspect of the invention, a multipass speech recognition scheme is used to to improve the adaptation of language models.

Gemäss einem anderen Aspekt der Erfindung wird ein Verfahren zur Authentifizierung eines Sprechers in einem Sprachportal geschffen, in welchem die Identität von dem besagten Benutzer erkannt wird, wobei das Verfahren die folgenden aufeinander folgenden Schritte in einem Dialog enthält:

  • (1) Speichern von mindestens einer Äusserung von einem Benutzer des besagten Portals im besagten Portal;
  • (2) darauf folgend während des Dialogs Abfragen des besagten Benutzers, Auswahl in einem Sprachmenü zu treffen,
  • (3) darauf folgend Anpassen der Sprach- und Stillemodelle, welches für die Erkennung der Äusserungen des besagten Benutzers verwendet werden, mit besagter Auswahl, die von dem Benutzer geäussert wurden,
  • (4) Verwenden der besagten Sprach- und Stillemodelle, um besagten Benutzer zu authentifizieren, wobei die Äusserung, die in dem besagten Sprachportal gespeichert sind, verwendet werden.
According to another aspect of the invention, there is provided a method of authenticating a speaker in a voice portal in which the identity is recognized by said user, the method comprising the following successive steps in a dialogue:
  • (1) storing at least one utterance from a user of said portal in said portal;
  • (2) subsequently during the dialog querying said user to make selections in a speech menu,
  • (3) subsequently adapting the speech and breastfeeding models used to recognize the utterances of said user with said selection voiced by the user,
  • (4) using said speech and still models to authenticate said user, using the utterance stored in said voice portal.

Gemäss einem anderen Aspekt der Erfindung wird ein gesprochener Dialog konstruiert, welcher nach dem Sprachinput des Benutzers eine verzögerte Antwort ermöglicht. Es ist eine Tatsache, dass in den meisten Anwendungen von Sprachportalen eine zuverlässige Benutzerauthentifizierung nur für die Auslieferung von sicherheitsrelevanten Informationen oder für spezielle Transaktionen, die normalerweise nur nach einer gewissen Auswahl in dem Sprachmenu ausgeführt werden, benötigt wird. Daher kann die Benutzerauthentifizierung bis zu diesem späteren Zeitpunkt in diesem Dialog verschoben werden. Zusätzlich kann die Benutzerauthentifizierung einfach unterdrückt werden, wenn der kritische Dialogteil nicht erreicht wird.According to another aspect of the invention, a spoken dialogue is constructed which allows a delayed response after the user's speech input. It is a fact that in most Voice portal applications require reliable user authentication only for the delivery of security-related information or for special transactions that are normally executed only after some selection in the language menu. Therefore, user authentication can be postponed until later in this dialog. In addition, user authentication can be easily suppressed if the critical dialog part is not reached.

Gemäss einem anderen Aspekt der Erfindung werden die Sprachmodelle, die für die Sprecherauthentifikation verwendet werden, während des gesprochenen Dialogs angepasst. Dieses erlaubt es, die Aufgabe der Sprecherauthentifizierung mit neuen sprecherabhängigen und sitzungsabhängigen Sprach- und Stillemodellen durchzuführen und verbessert deshalb eine erhöhte Authentifizierungsgenauigkeit.According to one Another aspect of the invention is the language models used for speaker authentication to be used while adapted to the spoken dialogue. This allows the task of Speaker authentication with new speaker-dependent and session-dependent voice and breastfeeding models and therefore improves an increased Authentication accuracy.

Gemäss einem anderen Aspekt der Erfindung wird die erste Äusserung in dem System gespeichert, um seine Erkennung und die Verifizierung von der Identität des Benutzers zu verschieben, bis genug Sprachmaterial gesammelt wurde, um eine sprecherabhängige Spracherkennung und eine Sprecherverifizierung durchzuführen. Die erste Äusserung kann normalisiert werden, Multipassanwendungen können darauf angewendet werden und die Sprachmodelle können angepasst werden, um die Sprecherauthentifizierung und die Qualität der Spracherkennung zu verbessern.According to one In another aspect of the invention, the first utterance is stored in the system its detection and verification of the identity of the user until enough language material has been gathered to make one speakerdependent Perform speech recognition and speaker verification. The first statement can be normalized, multipass applications can be applied to it and the language models can be adapted to speaker authentication and the quality of speech recognition to improve.

Kurze Beschreibung der FigurenShort description the figures

Die Erfindung wird mit Bezug auf die beigefügten Figuren näher erläutert, wobeiThe The invention will be explained in more detail with reference to the accompanying figures, wherein

1 eine schematisierte Darstellung eines möglichen Ausführungsbeispiels eines Sprachportals gemäss der Erfindung zeigt. 1 a schematic representation of a possible embodiment of a voice portal according to the invention shows.

2 ein Ablaufdiagram, welcher einen Dialog mit dem erfindungsgemässen Sprachportal illustriert, zeigt. 2 a flowchart illustrating a dialogue with the inventive voice portal shows.

Detaillierte BeschreibungDetailed description

1 zeigt ein Diagramm von einem Telekommunikationssystem, welches ein Sprachportalhostingsystem 3 enthält. Eine Vielzahl von Benutzern können eine Sprachverbindung mit dem Sprachportal 3 über ein öffentliches Telekommunikationsnetz 2, wie ein öffentlich verschaltetes Telekommunikationsnetz (PSTN), ein integriertes Serivcedatennetz (ISDN), ein mobiles Telekommunikationsnetz, z.B. ein GSM-Netzwerk, oder ein sprachfähiges IP-Netzwerk (VoIP) aufbauen. Die Verbindung wird durch die Auswahl der Telefonnummer des Sprachportals 3 auf einem Benutzerterminalgerät 1, wie auf einem Telefonterminal, aufgebaut. Vorzugsweise ist die Telefonnummer des Sprachportals eine freie Businessnummer in Bereich 0800 oder in einem anderen Ausführungsbeispiel eine Verrechnungsnummer in Bereich 0900. Das Sprachportal 3 kann Zugang zu Informationen und Services von einem oder einer Vielzahl von Serivceanbietern 13, die permanent oder gelegentlich über ein zweites Telekommunikationsnetzwerk 12 an das Portal angeschlossen sind, geben. 1 shows a diagram of a telecommunication system, which is a voice portal hosting system 3 contains. A variety of users can have a voice connection with the voice portal 3 via a public telecommunications network 2 , such as a publicly interconnected telecommunications network (PSTN), an integrated serial data network (ISDN), a mobile telecommunications network, eg a GSM network, or a voice-enabled IP network (VoIP). The connection is made by selecting the telephone number of the voice portal 3 on a user terminal device 1 , as on a telephone terminal, built. Preferably, the telephone number of the voice portal is a free business number in area 0800 or in another embodiment a charge number in area 0900. The voice portal 3 can access information and services from one or a variety of service providers 13 permanently or occasionally over a second telecommunications network 12 connected to the portal.

Das Sprachportalhostingsystem enthält einen Dialogmanager 11, um einen gesprochenen Dialog mit dem Benutzer 1 aufzubauen. Der Dialogmanager 11 antwortet auf Befehle oder Anträge, die von dem Benutzer geäussert werden, mit der beantragten Information oder dem beantragten Service oder durch den Aufbau einer neuen Verbindung mit einem externen Server.The voice portal hosting system includes a dialog manager 11 to have a spoken dialogue with the user 1 build. The dialogue manager 11 responds to commands or requests made by the user, with the requested information or service, or by establishing a new connection to an external server.

Sprachanträge des Benutzers werden durch einen Spracherkenner 10 erkannt, welcher vorzugsweise HMM (Hidden Markov Modelle), adaptive neuronale Netzwerke oder hybride Netzwerke verwendet. In einem bevorzugten Ausführungsbeispiel enthält das Spracherkennermodul Versteckte Markov Modelle (Hidden Markov Models), welche mit einem Werkzeugsatz, so einem HTK Werkzeugsatz, aufgebaut werden.Speech requests of the user are made by a speech recognizer 10 which preferably uses HMM (Hidden Markov Models), adaptive neural networks or hybrid networks. In a preferred embodiment, the speech recognizer module includes Hidden Markov Models which are constructed with a toolkit, such as a HTK toolkit.

Ein Selektor 9 kann sprecherunabhängige Sprachmodelle 7 oder sobald der Benutzer identifiziert wurde, sprecherabhängige Sprachmodelle 8 selektieren. Sprecherabhängige Sprachmodelle erlauben normalerweise schnellere und zuverlässigere Spracherkennung als sprecherunabhängige Sprachmodelle, können aber offensichtlich nur nach der Benutzeridentifizierung verwendet werden.A selector 9 can speaker-independent language models 7 or once the user has been identified, speaker-dependent language models 8th select. Speaker-dependent speech models usually allow faster and more reliable speech recognition than speaker-independent speech models, but obviously can only be used after user identification.

Mindestens die erste Äusserung, die von dem Benutzer während der Sitzung gesprochen wird, aber vorzugsweise alle Äusserungen, werden in einem temporären Speicher 5 gespeichert und durch das Sprachanpassungsmodul 60 verwendet, um die Qualität der Spracherkennung und die Sprecherauthentifizierung, die jeweils durch die beiden Module 6 und 10 durchgeführt werden, zu verbessern. Wie später erläutert wird, werden mindestens einige Äusserungen gespeichert, um erkannt zu werden oder um für eine Authentifizierung zu dienen, wobei Verbesserungen von den Sprachmodellen, die von den nachfolgenden Äusserungen erhalten werden, verwendet werden.At least the first utterance spoken by the user during the session, but preferably all utterances, will be in temporary memory 5 stored and by the speech adaptation module 60 used to improve the quality of speech recognition and speaker authentication, each through the two modules 6 and 10 be carried out to improve. As explained later At least some utterances are stored to be recognized or to serve for authentication, using enhancements from the language models obtained from the subsequent utterances.

Der Sprecher wird identifiziert und vorzugsweise authentifiziert durch ein Sprecherauthentifizierungsmodul 6. Das Sprecherauthentifizierungsmodul verwendet vorzugsweise HMM (Hidden Markov Models), könnte aber möglicherweise adaptive neuronale Netzwerke oder hybride Netzwerke verwenden. In einem bevorzugten Ausführungsbeispiel enthält das Sprecherauthentifizierungsmodul Versteckte Markov Modelle (Hidden Markov Models), welche mit einem Werkzeugsatz, so einem HTK Werkzeugsatz, aufgebaut werden. In einem bevorzugten Ausführungsbeispiel wird zuerst die Benutzeridentifizierung von einem Text, der mit einer gesprochenen Äusserung korrespondiert, unter Verwendung von sprecherunabhängigen Sprachmodellen, zum Beispiel durch den Gebrauch von Sprachmodellen 7, erkannt. Ein aktives Verifizierungssignal Verif wird bereitgestellt, sobald die Identität von einem anrufenden Benutzer bekannt ist. Sprecherabhängige Modele 8 können durch den Selektor 9 ausgewählt werden und werden von dem Spracherkenner 10 verwendet, sobald das Signal Verif aktiv ist. Die Benutzeridentität wird dann verifiziert, um den Benutzer mit einer erhöhten Zuverlässigkeit zu authentifizieren; ein Authentifizierungssignal Auth wird aktiviert, wenn der Benutzer mit einem erforderlichen Vertraulichkeitsniveau authentifiziert wurde.The speaker is identified and preferably authenticated by a speaker authentication module 6 , The speaker authentication module preferably uses HMM (Hidden Markov Models), but could possibly use adaptive neural networks or hybrid networks. In a preferred embodiment, the speaker authentication module includes Hidden Markov Models, which are constructed with a toolkit, such as a HTK toolkit. In a preferred embodiment, user identification of text that corresponds to a spoken utterance is first made using speaker-independent language models, for example, through the use of language models 7 , recognized. An active verification signal Verif is provided as soon as the identity is known by a calling user. Speaker-dependent models 8th can through the selector 9 be selected and used by the speech recognizer 10 used as soon as the signal Verif is active. The user identity is then verified to authenticate the user with increased reliability; an authentication signal Auth is activated when the user has been authenticated with a required level of confidentiality.

Anstatt sprecherabhängige Sprachmodelle in der sprecherabhängigen Datenbank 8 während der Eingangssitzung zu sammeln, können Anpassungstechniken angewendet werden, um die Modelle, die für die Spracherkennung und die Sprecherauthentifizierung verfügbar sind, zu verbessern. In diesem Fall kann durch die Verwendung von nur einem kleinen Betrag von Daten eines neuen Benutzers das sprecher-unabhängige Modell 7 durch den Gebrauch einer linearen Regression von maximaler Wahrscheinlichkeit (maximum likelihood linear regression, MLLR) angepasst werden. Diese Anpassung kann inkremental geschehen, sobald Anpassungsdaten verfügbar werden (inkrementale Anpassung).Instead of speaker-dependent language models in the speaker-dependent database 8th During the initial session, customization techniques can be applied to enhance the models available for speech recognition and speaker authentication. In this case, by using only a small amount of new user data, the speaker-independent model can 7 be adjusted by the use of a maximum likelihood linear regression (MLLR). This adjustment can be incremental as fitting data becomes available (incremental adjustment).

Die Sprachmodelle, die für jede Äusserung zur Erkennung und/oder Authentifizierung verwendet werden, werden, wie später noch erläutert wird, während jeder Sitzung mit dem Sprachmaterial, welches in dem Speicher 5 gespeichert wird, angepasst. Ein zweiter Pass kann auf die ersten Äusserungen angewendet werden, um die Erkennungs- und/oder Authentisierungszuverlässigkeit durch den Gebrauch von nachfolgend gesprochenem Material zu verbessern. Die Segmentierung von Äusserungen kann mit einer nachfolgenden Sprachauswahl verbessert werden. Ein Normalisierungsprozess von Sprachsegmenten kann auch durchgeführt werden. Neue Sprachmodelle, inklusive zum Beispiel von neuen Stillemodellen, welche besser an den verwendeten Kanal angepasst werden, können aus nachfolgenden Äusserungen generiert werden und zu dem Modell, welches verwendet wird, um die ersten Äusserungen zu erkennen und um den Benutzer von solchen Äusserungen zu authentifizieren, hinzugefügt werden.The speech models used for each utterance for recognition and / or authentication, as will be explained later, during each session with the speech material stored in the memory 5 saved, adjusted. A second pass may be applied to the first utterances to enhance recognition and / or authentication reliability through the use of subsequently spoken material. The segmentation of utterances can be improved with a subsequent language selection. A normalization process of speech segments can also be performed. New language models, including, for example, new breastfeeding models that are better adapted to the channel used, can be generated from subsequent utterances and the model used to recognize the first utterances and to authenticate the user of such utterances, to be added.

Das Sprecherauthentifizeirungsmodul 6 und der Spracherkenner 10 können in einem einzigen Modul kombiniert werden. Das Sprecherauthentifizierungsmodul kann zusätzliche Informationen, zum Beispiel die CLI in einem Festnetz, die IP Adresse in einem Internetnetzwerk oder die IMSI (International Mobile Subscriber Identifikation) in einem mobilen Netzwerk nutzen, um die Aufgabe der Benutzeridentifizierung/-authentifizierung leichter zu machen.The speaker authentication module 6 and the speech recognizer 10 can be combined in a single module. The speaker authentication module may utilize additional information, such as the CLI in a landline, the IP address in an Internet network, or the IMSI (International Mobile Subscriber Identification) in a mobile network to facilitate the task of user identification / authentication.

Das Vertraulichkeitsniveau, welches benötigt wird, um den Benutzer zu authentifizieren, kann vorzugsweise durch den Dialogmanager und/oder durch den Operator des Sprachportals, z.B. von dem Serviceanbieter 13, in Abhängigkeit von der geforderten Sicherheit gesetzt werden. Ein USER-Signal zeigt unzweideutig an, dass der Benutzer durch das Modul 6 identifiziert und/oder authentifiziert wurde.The level of confidentiality required to authenticate the user may preferably be determined by the dialogue manager and / or by the operator of the voice portal, eg, the service provider 13 , depending on the required security. A USER signal unambiguously indicates that the user is through the module 6 has been identified and / or authenticated.

Verschiedene Verfahren können unabhängig oder gleichzeitig angewendet werden, um die Authentifizierung und Erkennung der ersten Äusserung basierend auf nachfolgenden Äusserungen zu verbessern:Various Procedures can independently or at the same time be applied to the authentication and Recognition of the first statement based on subsequent statements to improve:

1. Nachfolgende Techniken zur Normalisierung1. Subsequent Normalization techniques

Verschiedene Normalisierungstechniken (CMN, Energienormalisierung) kann in dem erfindungsgemässen Dialogdesign angewendet werden. Diese Normalisierungstechnik arbeitet nur, wenn ausreichend Sprachmaterial vorhanden ist, um den benötigten Wert von Energiemitteln oder zepstralen Koeffizienten schätzen.Various Normalization techniques (CMN, energy normalization) can be found in the invention Dialog design are applied. This normalization technique works only if there is sufficient language material to the required value of energy resources or cepstral coefficients.

Gemäss der Erfindung wird die erste Äusserung des Benutzers unter Verwendung von nachfolgendem Sprachmaterial, z.B. eine Auswahl in einem Menu, die von einem Benutzer geäussert wird, normalisiert. Dies erlaubt eine genauere Spracherkennung und ein genaueren Sprecheridentifizierungs-/verifizierungsalgorithmus.According to the invention, the first utterance of the user is normalized using subsequent speech material, eg, a selection in a menu voiced by a user. This allows for more accurate speech recognition and a more accurate speaker identification / verification algorithm.

2. Mehrfachpassanpassungstechniken2. Multiple Pass Adaptation Techniques

2 illustriert einen speziell angepassten Dialog zwischen dem Benutzer 1 und dem erfindungsgemässen Sprachportal 3. Der Dialog wurde in einem Sinn angepasst, dass der Dialogmanager den endgültigen Pass von der Spracherkennung und dem Authentisierungsverfahren nur aktiveren wird, wenn der Benutzer einen kritischen Teil des Dialogs erreicht. 2 illustrates a specially adapted dialog between the user 1 and the voice portal according to the invention 3 , The dialog has been adapted in a sense that the dialog manager will only activate the final pass of the speech recognition and the authentication method when the user reaches a critical part of the dialogue.

Der Fachmann wird verstehen, dass neben dem verbesserten Benutzerinterface, in welchem dieses Dialogdesign angewendet wird, sehr effiziente Spracherkennungstechniken angewendet werden können, um die wahrgenommene Qualität der Sprachinteraktion zu verbessern.Of the Specialist will understand that in addition to the improved user interface, in which this dialog design is applied, very efficient Speech recognition techniques can be applied to the perceived quality improve the language interaction.

1. Während des ersten Schritts an dem Eingangspunkt des persönlichen Sprachportals wählt der Benutzer die Telefonnummer des Sprachportals 3 in dem Netzwerk 2 und der Anruf wird aufgebaut. Der Benutzer wird dann aufgefordert, seine Identifizierung und/oder sein Passwort zu äussern. Das Sprachmaterial und die Kanalgeräusche werden gesammelt und in dem temporären Speicher 5 während Schritt 22 gespeichert. Es wird an dieser Stelle des Dialogs keine Entscheidung über die Zurückweisung des Benutzers getroffen. Die beanspruchte Identität wird später mit bekannten Sprecherverifizierungsverfahren nur verifiziert, wenn die folgenden Bedingungen erfüllt sind:

  • • Der Benutzer möchte auf einen sicheren Teil des Sprachmenus zugreifen und
  • • Die Sprachmodelle wurden mit einem nachfolgenden Sprachmaterial angepasst und/oder
  • • Genug Sprachmaterial wurde von dem Benutzer gesammelt, die eine zuverlässige Sprecherverifizierung erlauben.
1. During the first step at the entry point of the personal voice portal, the user dials the telephone number of the voice portal 3 in the network 2 and the call is being set up. The user is then asked to provide his identification and / or password. The speech material and the channel sounds are collected and stored in the temporary memory 5 during step 22 saved. At this point in the dialog, no decision is made on the user's rejection. The claimed identity is later verified with known speaker verification methods only if the following conditions are met:
  • • The user wants to access a secure part of the voice menu and
  • • The language models have been adapted with a subsequent language material and / or
  • • Enough speech material has been collected by the user allowing for reliable speaker verification.

2. Zwei Verfahren werden dann parallel in dem Sprachportal 3 durchgeführt. In einem ersten Verfahren wird der Benutzer Zugang zu einem freien Teil des Sprachmenus gewährt (Schritt 24). Dieser freie Teil kann zum Beispiel Zugriff zu nicht-vertraulichen Informationen von dem Serviceanbieter 13 enthalten. Der Benutzer kann dann eine Auswahl in einem Sprachmenü treffen (Schritt 26); Sprachmaterial wird in dem Speicher 5 gesammelt. Der Dialog fährt mit nachfolgenden Fragen und Antworten unter Verwendung der sprecherunabhängigen Spracherkennung (Schritt 30) fort, solange der Benutzer nicht identifiziert wurde.2. Two procedures will then be parallel in the voice portal 3 carried out. In a first method, the user is granted access to a free part of the speech menu (step 24 ). This free part can, for example, access non-confidential information from the service provider 13 contain. The user can then make a selection in a language menu (step 26 ); Speech material is stored in the memory 5 collected. The dialog continues with subsequent questions and answers using speaker independent speech recognition (step 30 ) as long as the user has not been identified.

In einem bevorzugten Ausführungsbeispiel wird der Benutzer während den Schritten 26 bis 30 unter Verwendung einer sprecherunabhängigen Erkennung von Text, welcher zu der ersten Äusserung korrespondiert, oder von Nichtsprachelementen wie CLI, IMSI oder IP Terminalidentifikation erkannt. Diese provisorische Identität wird verwendet, um von der Benutzerprofildatenbank, die die Sprach- und/oder Sprachenmodelle 8 zu holen, die verwendet werden, um die Spracherkennungsgenauigkeit während des Dialogs zu verbessern, und diese wird später, wenn es notwendig sein sollte, unter Verwendung von bekannten Sprecherverifikationsverfahren verifiziert, um den Benutzer zu authentifizieren. Test 28 kennzeichnet einen Check von dem Verif-Signal, welches anzeigt, ob der Benutzer bereits identifiziert wurde und ob sprecherabhängige Sprachalgorithmen während Schritt 32 für die Spracherkennung verwendet werden können.In a preferred embodiment, the user becomes during the steps 26 to 30 using speaker-independent recognition of text corresponding to the first utterance or recognized by non-voice elements such as CLI, IMSI or IP terminal identification. This provisional identity is used by the user profile database, which supports the language and / or language models 8th which is used to improve the speech recognition accuracy during the dialogue, and this will later be verified, if necessary, using known speaker verification techniques to authenticate the user. test 28 indicates a check of the Verif signal indicating whether the user has already been identified and whether speaker-dependent speech algorithms are being used during step 32 can be used for speech recognition.

In einem anderen Ausführungsbeispiel wird eine inkrementale Anpassungstechnik verwendet, um die Sprachmodelle, die für jeden Abschnitt des Dialogs verwendet werden, zu verbessern. Überwachte Anpassungstechniken werden vorzugsweise verwendet, wenn die Antwort des Benutzers erwartet werden kann (zum Beispiel für eine Auswahl in einer geschlossenen Menuliste).In another embodiment an incremental fitting technique is used to model the speech models, the for every section of the dialog used to improve. Monitored Adaptation techniques are preferably used when the answer the user can be expected (for example, for a selection in a closed menu list).

3. In einer gleichzeitigen Aufgabe innerhalb des Systems wird der Authentisierungsflag Auth anfänglich zurückgesetzt (Schritt 42). Während Schritt 44 versucht dann das Authentifikationsmodul den Benutzer unter Verwendung einer ersten Äusserung, die während einem ersten Austausch gesprochen wurde, zu identifizieren (Schritt 440) und zu authentisieren (Schritt 442). Neben der Sprache des Benutzers können andere Elemente wie die Terminalidentifikation (CLI, IMSI, IP-address, etc.) verwendet werden, um in dem Identifizierungs- und Authentifizierungsverfahren zu helfen.3. In a concurrent task within the system, the authentication flag Auth is initially reset (step 42 ). During step 44 then the authentication module tries to identify the user using a first utterance spoken during a first exchange (step 440 ) and to authenticate (step 442 ). Besides the user's language, other elements such as terminal identification (CLI, IMSI, IP-address, etc.) may be used to aid in the identification and authentication process.

Mindestens die erste Äusserung, aber vorzugsweise alle Spracheingaben werden zuerst mittels eines sprecherunabhängigen Spracherkenners segmentiert. Die Sprachsegmentierung und die Nicht-sprachsignale werden dann verwendet, um die Sprach und Stillemodelle mit einer Anpassungstechnik wie zum Beispiel MLLR anzupassen.At least the first statement, but preferably all voice inputs are first by means of a speaker independent speech recognizer segmented. The speech segmentation and the non-speech signals become then used the speech and breastfeeding models with a fitting technique how to adapt to MLLR for example.

4. Für Sprachmodelle werden nur die Segmente mit einem akzeptablen Vertraulichkeitsniveau verwendet, um für eine überwachte Anpassung von Modelparametern zu sorgen. Nicht überwachte Techniken können ebenso angewendet werden.4th For language models Only the segments with an acceptable level of confidentiality used to for a supervised Adaptation of model parameters. Unmonitored techniques can as well be applied.

5. Nachfolgende Erkennungs-/Anpassungenspasse können während Schritt 50 durchgeführt werden, um (i) das Vertraulichkeitsniveau des Erkennungs- und Authentisierungssystems, (ii) die Segmentation und (iii) die Anpassung von Sprach- und Stillemodellen weiter zu verbessern. In dem Fall, in dem sich die Benutzernummer aus einer Zeichenkette zusammensetzt, werden die nachfolgenden Erkennungspasse gestoppt, wenn der Errorerkennungscode Erlaubnis erteilt.5. Subsequent recognition / customization adjustments may be made during step 50 (i) to further improve the level of confidentiality of the recognition and authentication system, (ii) segmentation, and (iii) the adaptation of speech and silence models. In the case where the user number is composed of a character string, the subsequent recognition pass is stopped when the error recognition code gives permission.

6. Wenn der Dialog den kritischen Sicherheitspunkt (Schritt 34) in dem Menu erreicht, in dem eine Benutzerauthentifizierung erforderlich ist, um beispielsweise auf vertraulichere Informationen zuzugreifen oder um finanzielle Transaktionen durchzuführen, wird der endgültige Erkennungs- und Verifizierungspass durchgeführt und der Benutzer kann an diesem Punkt von dem Service zurückgewiesen werden.6. When the dialog enters the critical safety point (step 34 ) in the menu where user authentication is required, for example, to access more sensitive information or to perform financial transactions, the final recognition and verification pass is performed and the user can be rejected by the service at that point.

Wenn der Benutzer bereits an dieser Stelle authentifiziert wurde, wird ihm Zugang zu den sicheren Teilen des Sprachmenus gewehrt (Schritt 40). Andernfalls wird der Zugriff verweigert oder dem Benutzer kann ein zweiter Versuch gegeben werden oder er wird aufgefordert, sich unter Verwendung eines anderen Verfahrens zu authentisieren, beispielsweise durch die Äusserung eines Passwortes oder durch die Eingabe eines DTMF-PIN Codes auf der Tastatur seines Geräts (Schritt 38).If the user has already been authenticated at this point, he is denied access to the secure parts of the voice menu (step 40 ). Otherwise, the access is denied or the user may be given a second attempt or he is prompted to authenticate using another method, for example, by uttering a password or by entering a DTMF PIN code on the keyboard of his device (step 38 ).

In dem bevorzugten Ausführungsbeispiel, welches in 2 illustriert ist, wird eine Aufeinanderfolge vom Authentifizierungspass 44 iterativ durchgeführt, während der Benutzer durch das Sprachmenu navigiert, bis ein voreingestelltes Vertraulichkeitsniveau erreicht ist (Test 46). Das Authentisierungsflag wird gesetzt, wenn dieses Niveau erreicht wurde (Schritt 48); anderenfalls wird ein weiterer Anpassungspass durchgeführt (Schritt 50). Es wird kein Zugang zu sicheren Teilen von diesem Menu gewährt, bevor der Benutzer nicht zuverlässig authentifiziert wurde. Es ist auch möglich, ein Sprachmenu mit einer Vielzahl von Teilen mit verschiedenen Sicherheitserfordernissen aufzubauen, wobei verschiedene Vertraulichkeitsniveaus für die Benutzerauthentifizierung erforderlich sind, um auf verschiedene Teile zuzugreifen.In the preferred embodiment, which is in 2 is illustrated, a sequence of authentication pass 44 Iteratively, as the user navigates through the language menu until a preset level of confidentiality is reached (Test 46 ). The authentication flag is set when this level has been reached (step 48 ); otherwise, another adjustment pass is made (step 50 ). There is no access to safe parts from this menu until the user has been authenticated reliably. It is also possible to construct a language menu with a plurality of parts with different security requirements, with different levels of user authentication confidentiality needed to access different parts.

Deshalb kann gemäss der Erfindung eine sehr zuverlässige Benutzerverifizierung und eine sehr genaue Erkennung der ersten Äusserung basierend auf mehr Sprachmaterial und unter Verwendung von Sprachmodellen, die an den aktuellen Sprecher angepasst sind, durchgeführt werden.Therefore can according to the invention a very reliable User verification and a very accurate recognition of the first utterance based on more speech material and using language models, which are adapted to the current speaker.

7. In diesem Dialog existiert kein Schritt, um den Benutzer explizit zu akzeptieren. Er wird durch die Voreinstellungen akzeptiert.7th There is no step in this dialog to explicitly prompt the user to accept. He is accepted by the presets.

Das Verfahren verwendet die bekannte Tatsache, dass die Genauigkeit von sprecherabhängiger Spracherkennung höher als bei sprecherunabhängigen Systemen ist.The Method uses the known fact that accuracy by speaker-dependent Speech recognition higher as with speaker independent Systems is.

In dem Fall von persönlichen Sprachportalen verwendet die vorliegende Erfindung verschiedene gesprochene Äusserungen (so viele wie möglich), um die Sprachmodelle an den Sprecher anzupassen und darum verschiebt es die Entscheidung bis der Benutzer auf den gesicherten Teil des Sprachmenus zugreifen möchte. In einem Sinne handelt es genau wie eine schnelle Online-Einschreibungssitzung.In the case of personal Voice portals use the present invention various spoken utterances (as many as possible), to adapt the language models to the speaker and therefore shifts it is the decision until the user on the secured part of the Want to access language menus. In a sense, it's just like a fast online enrollment session.

Die Technik 1 (nachfolgende Normalisierung) und 2 (Mehrfachpassanpassungen) können kombiniert werden, um eine erhöhte Performance zu erreichen.The Technique 1 (subsequent normalization) and 2 (multiple pass adjustments) can combined to an increased Achieve performance.

3. Verbesserte Sprecherverifizierung3. Improved speaker verification

Während der verstrichenen Zeit zwischen dem ersten Abschnitt des Dialogs und dem kritischen Sicherheitspunkt können verschiedene Befehlswörter verwendet werden, um die Zurückweisungs-/Akzeptierungsentscheidung von dem Serversystem zu vervollständigen. Um dieses zusätzliche Verifizierungsschema zu implementieren müssen die gesprochenen Befehlswörter von jeder Sitzung in dem Authentifizierungssystem gespeichert werden und das Authentifizierungssystem extrahiert von diesen das Modell, das für das Sprecherverifizierungsverfahren benötigt wird. In der Tat werden diese Befehlswörter verwendet, um zusätzliches Sprachmaterial zur Sprecherverifizierung zu erzeugen. Es ist bekannt, dass weil die Sprecheranpassung mit der Verfügbarkeit von mehr Daten verbessert wird, sich die Sprecherverifizierung im gleichen Masse mit der steigenden Qualität von dem Sprachmaterial verbessert.During the elapsed time between the first section of the dialogue and The critical safety point can use different command words be the rejection / acceptance decision from the server system to complete. To this extra To implement the verification scheme must be the spoken command words of each session in the authentication system and the authentication system extracts the model from them, that for the speaker verification procedure is needed. In fact, will be these command words used to extra language material to generate speaker verification. It is known that because improved speaker customization with the availability of more data speaker verification will be in the same order as rising quality improved by the language material.

Die Kombination von allen drei Verfahren trägt dazu bei, die gesamthaft wahrgenommene Qualität des Services zu verbessern.The Combination of all three methods contributes to the overall perceived quality to improve the service.

Wie oben erwähnt und aus der Perspektive des Dialoges besteht ein offensichtlicher Vorteil darin, den Dialog zu verbessern, weil die Zurückweisungs- oder Akzeptierungsdialog einfach in den meisten Fällen übersprungen wird. Der Dialog ist kürzer und daher effizienter.As mentioned above and from the perspective of dialogue, there is an obvious one Advantage in improving the dialogue because the rejection or acceptance dialogue simply skipped in most cases becomes. The dialogue is shorter and therefore more efficient.

In einigen Fällen und für einige spezielle Modellteile wurde eine höhere Anpassungsgeschwindigkeit mit einfacheren Modellen gemessen. Die Technik wird zum Beispiel für die Anpassung von Stillemodellen verwendet.In some cases and for some special model parts was having a higher adjustment speed with it Measured easier models. The technique becomes, for example, for customization used by breastfeeding models.

Implementierungsbeispielimplementation example

Mindestens einige der Sprachanwendungen, die durch den Dialogmanager durchgeführt werden, enthalten sprachbefähigte e-commerce Anwendungen. Das folgende Implementierungsbeispiel handelt von einem Telebankingservice. Der Benutzer möchte den Geldbetrag wissen, der sich auf dem Konto befindet.At least some of the voice applications that are performed by the dialog manager contain language proficient e-commerce applications. The following implementation example is from a tele-banking service. The user wants to know the amount of money which is in the account.

Figure 00130001
Figure 00130001

Figure 00140001
Figure 00140001

Das Sprachportal 3 kann einen Standardcomputer mit einem internen Speicher (nicht dargestellt) umfassen, in welchen ein Computerprogrammprodukt direkt geladen werden kann, um die Verfahrensschritte der Erfindung durchzuführen, wenn das besagte Programm auf dem besagten Computer abläuft.The voice portal 3 may comprise a standard computer with internal memory (not shown) in which a computer program product can be directly loaded to perform the method steps of the invention when said program runs on said computer.

Claims (27)

Verfahren zur Authentifizierung eines Sprechers in einem Sprachportal (3), in welchem Verfahren die Identität von dem besagten Benutzer erkannt wird, wobei das Verfahren die folgenden aufeinander folgenden Schritte in einem Dialog enthält: (1) Speichern von mindestens einer Äusserung von einem Benutzer des besagten Portals im besagten Portal (22); (2) darauf folgend während des Dialogs Abfragen des besagten Benutzers, Auswahl in einem Sprachmenü (26) zu treffen, (3) darauf folgend Anpassen der Sprach- und Stillemodelle, welches für die Erkennung der Äusserungen des besagten Benutzers verwendet werden, mit besagter Auswahl, die von dem Benutzer geäussert wurden, (4) Verwenden der besagten Sprach- und Stillemodelle, um besagten Benutzer zu authentifizieren, wobei die Äusserung, die in dem besagten Sprachportal (442) gespeichert sind, verwendet werden.Method for authenticating a speaker in a voice portal ( 3 ), in which method the identity is recognized by said user, the method comprising the following successive steps in a dialog: (1) storing at least one utterance from a user of said portal in said portal ( 22 ); (2) subsequently during the dialog queries of said user, selection in a language menu ( 26 (3) subsequently adapting the speech and breastfeeding models used to recognize the utterances of said user with said selection voiced by the user (4) using said speech and breastfeeding models, to authenticate said user, the statement made in said voice portal ( 442 ) are used. Verfahren entsprechend Anspruch 1, weiter umfassend Wiederholen der Schritte 2 bis 4, bis ein vordefiniertes Vertraulichkeitsniveau für die Authentifizierung des besagten Benutzers erreicht wurde.The method according to claim 1, further comprising Repeat steps 2 through 4 until a predefined level of confidentiality for the Authentication of the said user has been achieved. Verfahren entsprechend einem der vorangegangenen Ansprüche, in welchem die Identität des besagten Benutzers zuerst erkannt und dann verifiziert wird, wobei während der Verifizierung die besagten angepassten Sprach- und Stillemodelle für die Authentifizierung des Benutzers verwendet wird.Method according to one of the preceding Claims, in which the identity said user is first recognized and then verified, while during the verification of the said adapted speech and breastfeeding models for the Authentication of the user is used. Verfahren entsprechend einem der vorangegangenen Ansprüche, in welchem die Identität des besagten Benutzers von dem Text, der mit der besagten Äusserung korrespondiert, erkannt wird.Method according to one of the preceding Claims, in which the identity said user of the text, with the said statement corresponds, is detected. Verfahren entsprechend dem vorangegangenen Anspruch, in welchem die Identität des besagten Benutzers von dem Text, der mit der besagten Äusserung korrespondiert, erkannt wird, wobei sprecherunabhängige Spracherkennungsalgorithmen verwendet werden.Method according to the preceding claim, in which the identity said user of the text, with the said statement is recognized, wherein speaker-independent speech recognition algorithms be used. Verfahren entsprechend dem Anspruch 4, in welchem die Identität des besagten Benutzers von dem Text, der mit der besagten Äusserung korrespondiert, erkannt wird, wobei die besagten angepassten Sprach- und Stillemodelle verwendet werden.Method according to claim 4, in which the identity said user of the text, with the said statement is recognized, wherein the said adapted speech and Breast models are used. Verfahren entsprechend einem der vorangegangenen Ansprüche, in welchem die Identität des besagten Benutzers erkannt wird, wobei textunabhängige Sprecherverifizierung verwendet wird.Method according to one of the preceding Claims, in which the identity said user is recognized, with text-independent speaker verification is used. Verfahren entsprechend dem Anspruch 3, in welchem die Identität des besagten Benutzers bestimmt wird, in dem Daten, die über einen Signalkanal übertragen werden, verwendet werden.Method according to claim 3, in which the identity of the said user, in which data is transmitted via a Transmit signal channel will be used. Verfahren entsprechend dem vorangegangenen Anspruch, in welchem besagte Daten eine DLI Terminalidentifikation enthalten.Method according to the preceding claim, in which said data contain a DLI terminal identification. Verfahren entsprechend einem der vorangegangenen Ansprüche, in welchem benutzerabhängige Sprachmodelle (8) in dem besagten Portal gespeichert werden und, sobald der Benutzer erkannt wurde, verwendet werden, um die darauf folgende Spracherkennung und/oder die Verifizierung der Benutzeridentität zu verbessern.Method according to one of the preceding claims, in which user-dependent language models ( 8th ) are stored in said portal and, once the user is recognized, used to enhance subsequent speech recognition and / or verification of user identity. Verfahren entsprechend dem vorangegangenen Anspruch, in welchem die besagten sprecherabhängige Sprachmodelle angepasst werden, wobei die Auswahl, die von dem besagten Benutzer getroffen wurden, verwendet werden.Method according to the preceding claim, in which the said speaker-dependent language models are adapted being the selection made by said user were used. Verfahren entsprechend einem der vorangegangenen Ansprüche, in welchem die Identität des Benutzers unter Verwendung der besagten angepassten Sprachmodelle verifiziert wird.Method according to one of the preceding Claims, in which the identity the user using the said customized language models is verified. Verfahren entsprechend dem vorangegangenen Anspruch, in welchem der Benutzer unter Verwendung von überwachten Adaptionsalgorithmen von Sprachmodellen authentifiziert wird.Method according to the preceding claim, in which the user using monitored adaptation algorithms is authenticated by language models. Verfahren entsprechend einem der vorangegangenen Ansprüche, in welchem die Sprachmodelle unter Verwendung von einer Adaptionstechnik von versteckten Markovmodellen angepasst werden.Method according to one of the preceding Claims, in which the language models using an adaptation technique be adapted by hidden Markov models. Verfahren entsprechend dem vorangegangenen Anspruch, in welchem besagten Sprachmodelle unter Verwendung von MLLR Adaptionstechniken angepasst werden.Method according to the preceding claim, in which said language models under Use of MLLR adaptation techniques adapted. Verfahren entsprechend dem vorangegangenen Anspruch, in welchem die besagte Auswahl verwendet wird, um die besagten Sprach- und Stillemodelle zu adaptieren und um damit die Segmentation der besagten Äusserung, die in dem besagten Portal gespeichert ist, zu verbessern.Method according to the preceding claim, in which the said selection is used to interpret said speech and breastfeeding models to adapt and thus the segmentation of said statement, which is stored in said portal to improve. Verfahren entsprechend einem der vorangegangenen Ansprüche, in welchem die Äusserung des Benutzers mit darauf folgenden Sprachmaterialien des besagten Benutzers normalisiert wird.Method according to one of the preceding Claims, in which the utterance of the user with subsequent speech materials of said User is normalized. Verfahren entsprechend einem der vorangegangenen Ansprüche, in welchem neue Sprach- und Stillemodelle von der besagten darauf folgenden geäusserten Benutzerauswahl erzeugt werden.Method according to one of the preceding Claims, in what new speech and breastfeeding models of the said on it following expressed User selection are generated. Verfahren entsprechend dem vorangegangenen Anspruch, in welchem die besagten neuen Sprach- und Stillemodelle neue Stillemodelle enthalten.Method according to the preceding claim, in which said new speech and breastfeeding models new breastfeeding models contain. Verfahren entsprechend einem der vorangegangenen Ansprüche, in welchem der besagte Benutzer unmittelbar nach der Etablierung einer Verbindung mit dem Sprachportal aufgefordert wird, seine Identität zu äussern, wobei die besagte Identität als besagte Äusserung gespeichert wird.Method according to one of the preceding Claims, in which said user immediately after the establishment a connection to the voice portal is asked to express his identity, the said identity as said statement is stored. Verfahren entsprechend einem der vorangegangenen Ansprüche, in welchem der besagte Benutzer nur authentisiert wird, wenn er auf einen gesicherten Teil von dem besagten Sprachmenu zugreifen will.Method according to one of the preceding Claims, in which said user is only authenticated when he access a secured part of the said language menu want. Verfahren entsprechend einem der vorangegangenen Ansprüche, in welchem eine Vielzahl von Teilen mit verschiedenen Sicherheitsbestimmungen in dem besagten Sprachmenu definiert ist, und in welchem verschiedene Vertraulichkeitsniveaux für die besagte Benutzerauthentisierung definiert wird, um auf die besagten verschiedenen Teile des besagten Sprachmenus zuzugreifen.Method according to one of the preceding Claims, in which a variety of parts with different safety regulations is defined in the said language menu, and in which different Confidentiality Levels for the said user authentication is defined to be on the said different ones To access parts of said language menu. Verfahren zur Spracherkennung in einem Sprachportal, wobei das Verfahren die folgenden aufeinander folgenden Schritte in einem Dialog enthält: (1) Speichern von mindestens einer Äusserung von einem Benutzer des besagten Systems im besagten Portal; (2) darauf folgend während des Dialogs Abfragen des besagten Benutzers, Auswahl in einem Sprachmenü zu treffen, (3) darauf folgend Anpassen der Sprach- und Stillemodelle, welches für die Erkennung der Äusserungen des besagten Benutzers verwendet werden, mit besagter Auswahl, die von dem Benutzer geäussert wurden, (4) Verwenden der besagten Sprach- und Stillemodelle, um besagten Benutzer zu authentifizieren, wobei die Äusserung, die in dem besagten Sprachportal (442) gespeichert sind, verwendet werden.A method of speech recognition in a voice portal, the method comprising the following successive steps in a dialogue: (1) storing at least one utterance from a user of said system in said portal; (2) subsequently, during the dialog querying said user to make selections in a speech menu, (3) subsequently adjusting the speech and breastfeeding models used to recognize the utterances of said user with said selection made by (4) using said speech and silence models to authenticate said user, the utterance contained in said voice portal ( 442 ) are used. Computerprogrammprodukt, welche direkt in den internen Speicher eines digitalen Computers ladbar ist, umfassend Teile eines Softwarecodes, um die Schritte eines der vorgehenden Ansprüche auszuführen, wenn das besagte Produkt auf einem interaktiven Sprachantwortsystem, welches mit einem ersten Telekommunikationsnetz verbunden ist, ausgeführt wird.Computer program product, which directly into the internal Memory of a digital computer is loadable, comprising parts of a Software codes for carrying out the steps of any one of the preceding claims, when said product on an interactive voice response system, which is connected to a first telecommunication network is executed. Sprachportal (3), umfassend: ein Sprecherauthentisierungsmodul (6), welches Versteckte Markovmodelle und Stillemodelle enthält, um die Benutzers des besagten Portals zu authentifizieren, einen Dialogmanager (11), um einen Dialog zwischen dem besagten System und Benutzern (1) des besagten Systems zu managen, wobei der besagte Dialog einen Zugriff auf mindestens einen gesicherten Teil in dem besagten System ermöglicht, ein Adaptionsmodul (60), um die besagten Versteckten Markovmodelle anzupassen, wobei der besagte Dialogmanager angepasst ist, einen Dialog zu ermöglichen, in dem die besagte Benutzerauthentisierung nur geschieht, wenn der besagte Benutzer den Zugriff auf den besagten gesicherten Teil beantragt, basierend auf mindestens einer ersten Äusserung geäussert zu Beginn des besagten Dialogs und gespeichert in dem besagten Portal, und wobei die Authentisierung mit der besagten ersten Äusserung unter Verwendung der besagten Sprach- und Stillemodelle basierend auf dem darauf folgenden Sprachmaterial vom dem besagten Benutzer durchgeführt wird.Voice portal ( 3 ), comprising: a speaker authentication module ( 6 ), which contains Hidden Markov Models and Breast Models, to authenticate the users of the said portal, a dialog manager ( 11 ) to establish a dialogue between said system and users ( 1 ) of said system, said dialogue allowing access to at least one secure part in said system, an adaptation module ( 60 ) to adapt said Hidden Markov Models, said dialog manager being adapted to enable a dialogue in which said user authentication occurs only when said user requests access to said secured portion based on at least a first utterance Beginning of said dialogue and stored in said portal, and wherein the authentication with said first utterance is performed using said voice and silence models based on the subsequent voice material from said user. Sprachportal gemäss Anspruch 25, in welchem die besagte mindestens eine erste Äusserung mit darauf folgenden Sprachmaterial von dem besagten Benutzer normalisiert wird.Voice portal according to Claim 25, wherein said at least one first utterance with subsequent speech material normalized by said user becomes. Sprachportal gemäss Anspruch 25, in welchem das besagte Sprachmaterial verwendet wird, um die Sprach- und Stillemodelle anzupassen und somit die Segmentierung der besagten Äusserung, die in dem besagten Portal gespeichert wird, zu verbessern.Voice portal according to Claim 25, in which said language material is used to adapt the speech and breastfeeding models and thus the segmentation said statement, which is stored in said portal, to improve.
DE2000626106 2000-06-15 2000-12-22 System and method for speech recognition by means of language models Expired - Lifetime DE60026106T2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP00112666 2000-06-15
EP00112666 2000-06-15

Publications (2)

Publication Number Publication Date
DE60026106D1 DE60026106D1 (en) 2006-04-27
DE60026106T2 true DE60026106T2 (en) 2006-09-28

Family

ID=36061232

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2000626106 Expired - Lifetime DE60026106T2 (en) 2000-06-15 2000-12-22 System and method for speech recognition by means of language models

Country Status (2)

Country Link
AT (1) ATE318441T1 (en)
DE (1) DE60026106T2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102008034143B4 (en) 2007-07-25 2019-08-01 General Motors Llc ( N. D. Ges. D. Staates Delaware ) Method for ambient noise coupling for speech recognition in a production vehicle

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102008034143B4 (en) 2007-07-25 2019-08-01 General Motors Llc ( N. D. Ges. D. Staates Delaware ) Method for ambient noise coupling for speech recognition in a production vehicle

Also Published As

Publication number Publication date
DE60026106D1 (en) 2006-04-27
ATE318441T1 (en) 2006-03-15

Similar Documents

Publication Publication Date Title
DE102007021772B4 (en) Digital method and arrangement for authenticating a user of a database
DE102008058883B4 (en) Method and arrangement for controlling user access
EP3327720B1 (en) User voiceprint model construction method and apparatus
DE60213595T2 (en) UNDERSTANDING SPEAKER VOTES
DE60301767T9 (en) Normalization of a Verificationmasses in a device for speaker verification
DE69822179T2 (en) METHOD FOR LEARNING PATTERNS FOR VOICE OR SPEAKER RECOGNITION
EP0647344B1 (en) Method for recognizing alphanumeric strings spoken over a telephone network
EP0953972B1 (en) Simultaneous speaker-independent voice recognition and verification over a telephone network
EP1956814B1 (en) Digital method and device for authenticating a user of a telecommunications / data network
US6691089B1 (en) User configurable levels of security for a speaker verification system
DE69839274T2 (en) SYSTEM AND METHOD FOR PROTECTING LANGUAGE TRANSACTIONS
DE112018002857T5 (en) Speaker identification with ultra-short speech segments for far and near field speech support applications
DE102007033812A1 (en) Method and arrangement for authenticating a user of facilities, a service, a database or a data network
DE60001809T2 (en) Voice portal host computer and procedures
DE10150108A1 (en) Ongoing speaker authentication
EP1577733A2 (en) Method and system for persons/speaker verification via communication systems
EP1531459B1 (en) Method for voice-based user authentication
EP1249016B1 (en) Method for the voice-operated identification of the user of a telecommunication line in a telecommunications network during an interactive communication using a voice-operated conversational system
EP1164576A1 (en) Speaker authentication method and system from speech models
EP1749395B1 (en) Method for authorizing a telephone transaction and switching node
DE60026106T2 (en) System and method for speech recognition by means of language models
EP4064081B1 (en) Method and system for identifying and authenticating a user in an ip network
DE60301773T2 (en) Method and device for mounting a household appliance in a cabinet
DE10308611A1 (en) Determination of the likelihood of confusion between vocabulary entries in phoneme-based speech recognition
EP2012218A2 (en) Method for influencing the interpretation of multimodal input

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: SWISSCOM AG, BERN, CH