DE60026106T2 - System and method for speech recognition by means of language models - Google Patents
System and method for speech recognition by means of language models Download PDFInfo
- Publication number
- DE60026106T2 DE60026106T2 DE2000626106 DE60026106T DE60026106T2 DE 60026106 T2 DE60026106 T2 DE 60026106T2 DE 2000626106 DE2000626106 DE 2000626106 DE 60026106 T DE60026106 T DE 60026106T DE 60026106 T2 DE60026106 T2 DE 60026106T2
- Authority
- DE
- Germany
- Prior art keywords
- user
- models
- speech
- portal
- identity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Description
Die vorliegende Erfindung betrifft ein Verfahren und ein System zur Authentifizierung eines Sprechers. Speziell betrifft die vorliegende Erfindung ein Verfahren mit Mehrfachpassspracherkennung und Sprecherauthentifizierung zur Benutzerauthentifizierung in einem Sprachportal und ein verbessertes Sprachportal.The The present invention relates to a method and a system for Authentication of a speaker. Specifically, the present invention relates The invention relates to a method with multiple-pass speech recognition and speaker authentication for user authentication in a voice portal and an improved Voice portal.
Stand der TechnikState of technology
Sprachportale, zum Beispiel interaktive Sprachantwortsysteme, in welchen Informationen gespeichert werden können und auf die von mehreren Benutzern durch gesprochene Anträge, die direkt in ein Mikrophon geäussert oder durch ein Telefonnetzwerk übertragen und in dem Sprachportal interpretiert werden, zugegriffen werden können, sind bereits bekannt. Sprachportale haben den Vorteil, dass auf die Information ohne vorheriges Wissen und ohne spezielle Ausrüstung von irgendeinem Telefon in der Welt zugegriffen werden kann.Voice portals, for example, interactive voice response systems in which information can be stored and to those of several users through spoken applications, the directly expressed in a microphone or transmitted through a telephone network and are interpreted in the voice portal, accessed can, are already known. Voice portals have the advantage of being on the information without prior knowledge and without special equipment from any phone in the world can be accessed.
Sprachportale können oft Zugang zu vertraulichen Informationen geben, zum Beispiel Bank- oder medizinischen Informationen. Das Vertraulichkeitsniveau und die Art der Information, welche in dem Sprachportal gespeichert wird, hängen deshalb wesentlich von der zuverlässigen Identifikation von berechtigten Benutzern ab, um diese zu berechtigen oder nicht.voice portals can often provide access to confidential information, such as banking or medical information. The level of confidentiality and the type of information stored in the voice portal will hang Therefore, much of the reliable identification of authorized Users to authorize them or not.
In vielen konventionellen Systemen müssen die Benutzer ihre Identität mit einer Benutzeridentifikation und/oder einem Passwort, welches als DTMF Code auf der Tastatur des Benutzergeräts eingegeben wurde, eingeben oder bestätigen. In vielen Situationen, zum Beispiel in Autos, erweist sich diese Lösung als unpraktisch. Zusätzlich sind Benutzeridentifikationen und Passwörter schwer zu erinnern und werden häufig in der Nähe des Benutzergeräts niedergeschrieben, was in einer schwachen Sicherheit resultiert.In Many conventional systems require users to have their identity with one User identification and / or a password, which as DTMF Enter the code on the user device keyboard or confirm. In many situations, for example in cars, this proves to be solution as impractical. additionally User IDs and passwords are hard to remember and become common near of the user device written down, which results in a weak security.
Es wurde bereits vorgeschlagen, Benutzer mit einer gesprochenen Identität, welche am Eingangspunkt von dem Dialog mit dem Sprachportal geäussert wird, zu authentifizieren. Spracherkennungstechniken wurden verwendet, um die beanspruchte Identität zu erkennen, und Techniken zur Sprecherverifizierung für die Verifizierung der beanspruchten Identität. In dem nächsten Abschnitt des Dialogs wird der Benutzer akzeptiert oder zurückgewiesen, wenn er nicht in dem Portal registriert ist oder wenn die beanspruchte Identität nicht verifiziert werden kann.It has already been proposed to users with a spoken identity which at the entry point is voiced by the dialogue with the voice portal to authenticate. Speech recognition techniques were used around the claimed identity and speaker verification techniques for verification the claimed identity. In the next Section of the dialog, the user is accepted or rejected, if he is not registered in the portal or if claimed identity can not be verified.
Gegenwärtig besteht der grosse Trend in Spracherkennung und in der Technik zur Sprecherverifikation in Versteckten Markov Modellen (Hidden Markov Models). Dieses statische Verfahren beschreibt Sprache durch eine Abfolge von Zuständen (Markov Zuständen). Diese sind durch Übergangswahrscheinlichkeiten verbunden, um sich von Zustand zu Zustand zu bewegen und jeder Zustand gibt mit einer gewissen Wahrscheinlichkeit einen Sprachvektor heraus. Unter den vielen Schwachpunkten von HMMs könnte man die geringe Robustheit gegen eine typische Versatzsituation erwähnen (Trainings- und Testsprachmaterial sind verschieden). In den letzten Jahren der Forschung auf dem Gebiet von Spracherkennung haben viele Forscher geschlossen, dass die Robustheit von gegenwärtigen Verfahren sehr weit entfernt ist, von dem was Menschen leisten können.Currently exists the big trend in speech recognition and speech verification technology in Hidden Markov Models (Hidden Markov Models). This static Method describes speech through a sequence of states (Markov States). These are due to transition probabilities connected to move from state to state and every state gives out a speech vector with a certain probability. Among the many weaknesses of HMMs you could the low robustness against a typical offset situation mention (training and test language material are different). In recent years, research in the field Of speech recognition, many researchers have concluded that the robustness from present Process is very far away from what people can afford.
Verschiedene Verfahren wurden bereits beschrieben, um die Robustheit von Spracherkennung zu verbessern. Es ist bekannt, dass die Sprecherverifizierung viel besser ist, wenn mehr Sprachmaterial vorhanden ist. Zusätzlich erreichen einige Systeme durch den Gebrauch von sprecherabhängigen Sprachmodellen, welche gewöhnlich in einer Eingangssitzung gelernt werden, eine bessere Leistung. Die meisten Benutzer würden jedoch nicht akzeptieren, die notwendige Zeit für diese Sitzung zu akzeptieren. Daneben kann sprecherabhängige Erkennung nur verwendet werden, wenn der Sprecher einmal identifiziert wurde, aber nicht, um die Identität, die durch den Benutzer während des ersten Abschnitts des Dialogs beansprucht wird, zu erkennen.Various Methods have already been described to increase the robustness of speech recognition to improve. It is well known that speaker verification is much it is better if more language material is available. In addition reach some systems through the use of speaker-dependent language models, which usually learned in an input session, better performance. However, most users would do not accept to accept the necessary time for this session. In addition, speaker-dependent Detection can only be used once the speaker has been identified was, but not, the identity that was created by the user during the The first section of the dialog is claimed to recognize.
Anstelle eines kompletten Satzes von Sprachmodellen für jeden Benutzer zu lernen, wurden verschiedene Anpassungstechniken beschrieben, um einen Satz von guten sprecherunabhängigen Modellen an einen neuen Sprecher anzupassen. Wenn die Anpassungsdaten in einem Block verfügbar sind, z.B. von einer Einschreibungssitzung des Sprechers, könnte man statische Verfahren verwenden. Alternativ könnte eine Anpassung inkremental geschehen, wenn Anpassungsdaten verfügbar werden (inkrementale Anpassung). In dem Fall, in dem die wahre Transkription von Anpassungsdaten bekannt ist, wird sie überwachte Anpassung genannt, wenn hingegen die Modelle mit ungekennzeichneten Sprachmaterial angepasst sind, wird sie nicht überwachte Anpassung genannt. Bekannte Anpassungstechniken umfassen eine Technik mit linearer Regression mit maximaler Wahrscheinlichkeit (MLLR) und eine Anpassung mit a posteriori Maximum (MAP).Instead of to learn a complete set of language models for each user Various adaptation techniques have been described to one sentence from good speaker-independent Adapt models to a new speaker. If the adjustment data available in a block are, e.g. from a speaker's enrollment session, one could use static methods. Alternatively, an adjustment could be incremental happen when fitting data becomes available (incremental adjustment). In the case where the true transcription of adaptation data is known, she is supervised Adaptation called, however, if the models with unmarked Language material, it is called unmonitored adaptation. Known customization techniques include a linear technique Maximum Likelihood Regression (MLLR) and an adjustment with a posteriori maximum (MAP).
Es existieren andere Anpassungstechniken, um die Modelle mit dem gegenwärtigen Geräusch, der aus der Leitung aufgenommen wurde, anzupassen. Viele Systeme verwenden einen kleinen Moment von Stille, um die Modellbildung zu tun. Dieses spezielle Modell wird dann mit dem Original kombiniert. Ein Zweipasssystem wird in der Patentanmeldung EP-A2-0 880 126 beschrieben, welches die Stillemodelle zuerst durch Segmentierung der Sprachäusserungen anpasst und danach die Stillemodelle durch eine nicht überwachte Anpassung anpasst.It There are other adaptation techniques to models with the current noise that are out the management has been accepted. Many systems use a little moment of silence to do the modeling. This special model is then combined with the original. A two-pass system is described in the patent application EP-A2-0 880 126 which the models of breastfeeding first by segmentation of the speech utterances and then the breastfeeding models by an unmonitored adjustment adapts.
Sprecherabhängige Sprachmodelle wurden bereits ebenso für die Aufgabe von Sprechererkennung verwendet. Sungjoo Ahn et al. in „Effective speaker adaptations for speaker verification", 2000 IEEE International Conference on Acoustics, speech and signal Processings, Istanbul, 5–9 Juni 2000, S. 1081–1084, zum Beispiel beschreibt effektive Anpassungsverfahren mit nur einem begrenzten Betrag von verfügbaren Einschreibungsdaten. Sadoki Furui, in „Recent advantages in speaker recognition", Pattern recognition letters, 1. September 1997, S. 859–872, ist ein allgemeiner Artikel, welcher verschiedene Vorzüge in Sprechererkennungstechniken, inklusive sprecherabhängigen und textabhängigen Schemata, beschreibt. Beide Dokumente vertrauen immer noch auf eine eher schwerfällige Eingangssitzung, um die Sprachmodelle des Benutzers anzupassen.Speaker-dependent language models were already alike for used the task of speaker recognition. Sungjoo Ahn et al. in "Effective speaker adaptations for speaker verification ", 2000 IEEE International Conference on Acoustics, speech and signal processing, Istanbul, 5-9 June 2000, pp. 1081-1084, for example, describes effective adjustment method with only one limited amount of available Enrollment data. Sadoki Furui, in "Recent advantages in speaker recognition ", Pattern Recognition letters, September 1, 1997, pp. 859-872, is a general article, which different advantages in speaker recognition techniques, including speaker-dependent and contextual Schemes, describes. Both documents still rely on one rather cumbersome Input session to customize the user's language models.
In einem Sprachportal können alle diese Anpassungstechniken verwendet werden, um die Sprachmodelle während der Eingangssitzung und/oder während des ganzen Dialogs zu verbessern; die angepassten Modelle können sogar in dem System gespeichert und für die Spracherkennung in zukünftigen Sitzungen verwendet werden. Sie können jedoch nicht in jeder Sitzung, solange die Identität des Sprechers nicht erkannt und/oder verifiziert wurde, verwendet werden.In a voice portal All of these customization techniques are used to model the language while the entrance session and / or during to improve the whole dialogue; the adapted models can even stored in the system and for the speech recognition in future Sessions are used. But you can not be in everyone Meeting as long as the identity the speaker was not recognized and / or verified used become.
Der erste Abschnitt des Dialogs ist deshalb sehr kritisch, weil nur sprecherunabhängige Erkennungstechniken verwendet werden können und weil die Komplexität (Anzahl der Verzweigungen) des Identitätseingangs mindestens proportional zu der Anzahl von Benutzern ist. Umgekehrt hat die Spracherkennung in dem Rest des gesprochenen Dialogs eine einfachere Aufgabe; die Komplexität ist geringer.Of the first section of the dialogue is therefore very critical, because only speaker independent Detection techniques can be used and because the complexity (number the branches) of the identity input is at least proportional to the number of users. Vice versa has speech recognition in the rest of the spoken dialog one easier task; the complexity is lower.
Zusammenfassung der ErfindungSummary the invention
Es ist ein Ziel der Erfindung, ein Sprachportalsystem und ein Verfahren mit verbesserter Leistung zur Sprecherauthentifizierung als existierende Verfahren und Systeme zu schaffen.It An object of the invention is a voice portal system and method with improved speaker authentication performance than existing To create processes and systems.
Ein anderes Ziel ist es, ein sprecherabhängiges Verifizierungsverfahren in einem Sprachportalsystem zu schaffen, welches eine genaue Sprechererkennung und -verifizierung auf der Basis von einer Äusserung, die während des ersten Abschnitts des Dialogs durch den Benutzer gesprochen wurde, erlaubt.One Another goal is a speaker-dependent verification process in a voice portal system providing accurate speaker recognition and verification on the basis of a statement made during the the first section of the dialog was spoken by the user, allowed.
In Übereinstimmung mit einem Ausführungsbeispiel der vorliegenden Erfindung wird ein Sprecherauthentisierungsverfahren geschaffen, in welchem ein spezieller Dialog konstruiert wurde, um mehr Daten zu sammeln und um die Sprach- und Stillemodelle, die für den ersten Dialogabschnitt verwendet werden, anzupassen.In accordance with an embodiment The present invention will be a speaker authentication method created in which a special dialogue was constructed, to collect more data and to understand the language and breastfeeding models that for the first dialog section used to customize.
Gemäss einem anderen Aspekt der Erfindung wird ein Multipass-Spracherkennungsschema verwendet, um die Anpassung von Sprachmodellen zu verbessern.According to one In another aspect of the invention, a multipass speech recognition scheme is used to to improve the adaptation of language models.
Gemäss einem anderen Aspekt der Erfindung wird ein Verfahren zur Authentifizierung eines Sprechers in einem Sprachportal geschffen, in welchem die Identität von dem besagten Benutzer erkannt wird, wobei das Verfahren die folgenden aufeinander folgenden Schritte in einem Dialog enthält:
- (1) Speichern von mindestens einer Äusserung von einem Benutzer des besagten Portals im besagten Portal;
- (2) darauf folgend während des Dialogs Abfragen des besagten Benutzers, Auswahl in einem Sprachmenü zu treffen,
- (3) darauf folgend Anpassen der Sprach- und Stillemodelle, welches für die Erkennung der Äusserungen des besagten Benutzers verwendet werden, mit besagter Auswahl, die von dem Benutzer geäussert wurden,
- (4) Verwenden der besagten Sprach- und Stillemodelle, um besagten Benutzer zu authentifizieren, wobei die Äusserung, die in dem besagten Sprachportal gespeichert sind, verwendet werden.
- (1) storing at least one utterance from a user of said portal in said portal;
- (2) subsequently during the dialog querying said user to make selections in a speech menu,
- (3) subsequently adapting the speech and breastfeeding models used to recognize the utterances of said user with said selection voiced by the user,
- (4) using said speech and still models to authenticate said user, using the utterance stored in said voice portal.
Gemäss einem anderen Aspekt der Erfindung wird ein gesprochener Dialog konstruiert, welcher nach dem Sprachinput des Benutzers eine verzögerte Antwort ermöglicht. Es ist eine Tatsache, dass in den meisten Anwendungen von Sprachportalen eine zuverlässige Benutzerauthentifizierung nur für die Auslieferung von sicherheitsrelevanten Informationen oder für spezielle Transaktionen, die normalerweise nur nach einer gewissen Auswahl in dem Sprachmenu ausgeführt werden, benötigt wird. Daher kann die Benutzerauthentifizierung bis zu diesem späteren Zeitpunkt in diesem Dialog verschoben werden. Zusätzlich kann die Benutzerauthentifizierung einfach unterdrückt werden, wenn der kritische Dialogteil nicht erreicht wird.According to another aspect of the invention, a spoken dialogue is constructed which allows a delayed response after the user's speech input. It is a fact that in most Voice portal applications require reliable user authentication only for the delivery of security-related information or for special transactions that are normally executed only after some selection in the language menu. Therefore, user authentication can be postponed until later in this dialog. In addition, user authentication can be easily suppressed if the critical dialog part is not reached.
Gemäss einem anderen Aspekt der Erfindung werden die Sprachmodelle, die für die Sprecherauthentifikation verwendet werden, während des gesprochenen Dialogs angepasst. Dieses erlaubt es, die Aufgabe der Sprecherauthentifizierung mit neuen sprecherabhängigen und sitzungsabhängigen Sprach- und Stillemodellen durchzuführen und verbessert deshalb eine erhöhte Authentifizierungsgenauigkeit.According to one Another aspect of the invention is the language models used for speaker authentication to be used while adapted to the spoken dialogue. This allows the task of Speaker authentication with new speaker-dependent and session-dependent voice and breastfeeding models and therefore improves an increased Authentication accuracy.
Gemäss einem anderen Aspekt der Erfindung wird die erste Äusserung in dem System gespeichert, um seine Erkennung und die Verifizierung von der Identität des Benutzers zu verschieben, bis genug Sprachmaterial gesammelt wurde, um eine sprecherabhängige Spracherkennung und eine Sprecherverifizierung durchzuführen. Die erste Äusserung kann normalisiert werden, Multipassanwendungen können darauf angewendet werden und die Sprachmodelle können angepasst werden, um die Sprecherauthentifizierung und die Qualität der Spracherkennung zu verbessern.According to one In another aspect of the invention, the first utterance is stored in the system its detection and verification of the identity of the user until enough language material has been gathered to make one speakerdependent Perform speech recognition and speaker verification. The first statement can be normalized, multipass applications can be applied to it and the language models can be adapted to speaker authentication and the quality of speech recognition to improve.
Kurze Beschreibung der FigurenShort description the figures
Die Erfindung wird mit Bezug auf die beigefügten Figuren näher erläutert, wobeiThe The invention will be explained in more detail with reference to the accompanying figures, wherein
Detaillierte BeschreibungDetailed description
Das
Sprachportalhostingsystem enthält
einen Dialogmanager
Sprachanträge des Benutzers
werden durch einen Spracherkenner
Ein
Selektor
Mindestens
die erste Äusserung,
die von dem Benutzer während
der Sitzung gesprochen wird, aber vorzugsweise alle Äusserungen,
werden in einem temporären
Speicher
Der
Sprecher wird identifiziert und vorzugsweise authentifiziert durch
ein Sprecherauthentifizierungsmodul
Anstatt
sprecherabhängige
Sprachmodelle in der sprecherabhängigen
Datenbank
Die
Sprachmodelle, die für
jede Äusserung
zur Erkennung und/oder Authentifizierung verwendet werden, werden,
wie später
noch erläutert
wird, während
jeder Sitzung mit dem Sprachmaterial, welches in dem Speicher
Das
Sprecherauthentifizeirungsmodul
Das
Vertraulichkeitsniveau, welches benötigt wird, um den Benutzer
zu authentifizieren, kann vorzugsweise durch den Dialogmanager und/oder
durch den Operator des Sprachportals, z.B. von dem Serviceanbieter
Verschiedene Verfahren können unabhängig oder gleichzeitig angewendet werden, um die Authentifizierung und Erkennung der ersten Äusserung basierend auf nachfolgenden Äusserungen zu verbessern:Various Procedures can independently or at the same time be applied to the authentication and Recognition of the first statement based on subsequent statements to improve:
1. Nachfolgende Techniken zur Normalisierung1. Subsequent Normalization techniques
Verschiedene Normalisierungstechniken (CMN, Energienormalisierung) kann in dem erfindungsgemässen Dialogdesign angewendet werden. Diese Normalisierungstechnik arbeitet nur, wenn ausreichend Sprachmaterial vorhanden ist, um den benötigten Wert von Energiemitteln oder zepstralen Koeffizienten schätzen.Various Normalization techniques (CMN, energy normalization) can be found in the invention Dialog design are applied. This normalization technique works only if there is sufficient language material to the required value of energy resources or cepstral coefficients.
Gemäss der Erfindung wird die erste Äusserung des Benutzers unter Verwendung von nachfolgendem Sprachmaterial, z.B. eine Auswahl in einem Menu, die von einem Benutzer geäussert wird, normalisiert. Dies erlaubt eine genauere Spracherkennung und ein genaueren Sprecheridentifizierungs-/verifizierungsalgorithmus.According to the invention, the first utterance of the user is normalized using subsequent speech material, eg, a selection in a menu voiced by a user. This allows for more accurate speech recognition and a more accurate speaker identification / verification algorithm.
2. Mehrfachpassanpassungstechniken2. Multiple Pass Adaptation Techniques
Der Fachmann wird verstehen, dass neben dem verbesserten Benutzerinterface, in welchem dieses Dialogdesign angewendet wird, sehr effiziente Spracherkennungstechniken angewendet werden können, um die wahrgenommene Qualität der Sprachinteraktion zu verbessern.Of the Specialist will understand that in addition to the improved user interface, in which this dialog design is applied, very efficient Speech recognition techniques can be applied to the perceived quality improve the language interaction.
1.
Während
des ersten Schritts an dem Eingangspunkt des persönlichen
Sprachportals wählt
der Benutzer die Telefonnummer des Sprachportals
- • Der Benutzer möchte auf einen sicheren Teil des Sprachmenus zugreifen und
- • Die Sprachmodelle wurden mit einem nachfolgenden Sprachmaterial angepasst und/oder
- • Genug Sprachmaterial wurde von dem Benutzer gesammelt, die eine zuverlässige Sprecherverifizierung erlauben.
- • The user wants to access a secure part of the voice menu and
- • The language models have been adapted with a subsequent language material and / or
- • Enough speech material has been collected by the user allowing for reliable speaker verification.
2.
Zwei Verfahren werden dann parallel in dem Sprachportal
In
einem bevorzugten Ausführungsbeispiel
wird der Benutzer während
den Schritten
In einem anderen Ausführungsbeispiel wird eine inkrementale Anpassungstechnik verwendet, um die Sprachmodelle, die für jeden Abschnitt des Dialogs verwendet werden, zu verbessern. Überwachte Anpassungstechniken werden vorzugsweise verwendet, wenn die Antwort des Benutzers erwartet werden kann (zum Beispiel für eine Auswahl in einer geschlossenen Menuliste).In another embodiment an incremental fitting technique is used to model the speech models, the for every section of the dialog used to improve. Monitored Adaptation techniques are preferably used when the answer the user can be expected (for example, for a selection in a closed menu list).
3.
In einer gleichzeitigen Aufgabe innerhalb des Systems wird der Authentisierungsflag
Auth anfänglich
zurückgesetzt
(Schritt
Mindestens die erste Äusserung, aber vorzugsweise alle Spracheingaben werden zuerst mittels eines sprecherunabhängigen Spracherkenners segmentiert. Die Sprachsegmentierung und die Nicht-sprachsignale werden dann verwendet, um die Sprach und Stillemodelle mit einer Anpassungstechnik wie zum Beispiel MLLR anzupassen.At least the first statement, but preferably all voice inputs are first by means of a speaker independent speech recognizer segmented. The speech segmentation and the non-speech signals become then used the speech and breastfeeding models with a fitting technique how to adapt to MLLR for example.
4. Für Sprachmodelle werden nur die Segmente mit einem akzeptablen Vertraulichkeitsniveau verwendet, um für eine überwachte Anpassung von Modelparametern zu sorgen. Nicht überwachte Techniken können ebenso angewendet werden.4th For language models Only the segments with an acceptable level of confidentiality used to for a supervised Adaptation of model parameters. Unmonitored techniques can as well be applied.
5.
Nachfolgende Erkennungs-/Anpassungenspasse können während Schritt
6.
Wenn der Dialog den kritischen Sicherheitspunkt (Schritt
Wenn
der Benutzer bereits an dieser Stelle authentifiziert wurde, wird
ihm Zugang zu den sicheren Teilen des Sprachmenus gewehrt (Schritt
In
dem bevorzugten Ausführungsbeispiel,
welches in
Deshalb kann gemäss der Erfindung eine sehr zuverlässige Benutzerverifizierung und eine sehr genaue Erkennung der ersten Äusserung basierend auf mehr Sprachmaterial und unter Verwendung von Sprachmodellen, die an den aktuellen Sprecher angepasst sind, durchgeführt werden.Therefore can according to the invention a very reliable User verification and a very accurate recognition of the first utterance based on more speech material and using language models, which are adapted to the current speaker.
7. In diesem Dialog existiert kein Schritt, um den Benutzer explizit zu akzeptieren. Er wird durch die Voreinstellungen akzeptiert.7th There is no step in this dialog to explicitly prompt the user to accept. He is accepted by the presets.
Das Verfahren verwendet die bekannte Tatsache, dass die Genauigkeit von sprecherabhängiger Spracherkennung höher als bei sprecherunabhängigen Systemen ist.The Method uses the known fact that accuracy by speaker-dependent Speech recognition higher as with speaker independent Systems is.
In dem Fall von persönlichen Sprachportalen verwendet die vorliegende Erfindung verschiedene gesprochene Äusserungen (so viele wie möglich), um die Sprachmodelle an den Sprecher anzupassen und darum verschiebt es die Entscheidung bis der Benutzer auf den gesicherten Teil des Sprachmenus zugreifen möchte. In einem Sinne handelt es genau wie eine schnelle Online-Einschreibungssitzung.In the case of personal Voice portals use the present invention various spoken utterances (as many as possible), to adapt the language models to the speaker and therefore shifts it is the decision until the user on the secured part of the Want to access language menus. In a sense, it's just like a fast online enrollment session.
Die Technik 1 (nachfolgende Normalisierung) und 2 (Mehrfachpassanpassungen) können kombiniert werden, um eine erhöhte Performance zu erreichen.The Technique 1 (subsequent normalization) and 2 (multiple pass adjustments) can combined to an increased Achieve performance.
3. Verbesserte Sprecherverifizierung3. Improved speaker verification
Während der verstrichenen Zeit zwischen dem ersten Abschnitt des Dialogs und dem kritischen Sicherheitspunkt können verschiedene Befehlswörter verwendet werden, um die Zurückweisungs-/Akzeptierungsentscheidung von dem Serversystem zu vervollständigen. Um dieses zusätzliche Verifizierungsschema zu implementieren müssen die gesprochenen Befehlswörter von jeder Sitzung in dem Authentifizierungssystem gespeichert werden und das Authentifizierungssystem extrahiert von diesen das Modell, das für das Sprecherverifizierungsverfahren benötigt wird. In der Tat werden diese Befehlswörter verwendet, um zusätzliches Sprachmaterial zur Sprecherverifizierung zu erzeugen. Es ist bekannt, dass weil die Sprecheranpassung mit der Verfügbarkeit von mehr Daten verbessert wird, sich die Sprecherverifizierung im gleichen Masse mit der steigenden Qualität von dem Sprachmaterial verbessert.During the elapsed time between the first section of the dialogue and The critical safety point can use different command words be the rejection / acceptance decision from the server system to complete. To this extra To implement the verification scheme must be the spoken command words of each session in the authentication system and the authentication system extracts the model from them, that for the speaker verification procedure is needed. In fact, will be these command words used to extra language material to generate speaker verification. It is known that because improved speaker customization with the availability of more data speaker verification will be in the same order as rising quality improved by the language material.
Die Kombination von allen drei Verfahren trägt dazu bei, die gesamthaft wahrgenommene Qualität des Services zu verbessern.The Combination of all three methods contributes to the overall perceived quality to improve the service.
Wie oben erwähnt und aus der Perspektive des Dialoges besteht ein offensichtlicher Vorteil darin, den Dialog zu verbessern, weil die Zurückweisungs- oder Akzeptierungsdialog einfach in den meisten Fällen übersprungen wird. Der Dialog ist kürzer und daher effizienter.As mentioned above and from the perspective of dialogue, there is an obvious one Advantage in improving the dialogue because the rejection or acceptance dialogue simply skipped in most cases becomes. The dialogue is shorter and therefore more efficient.
In einigen Fällen und für einige spezielle Modellteile wurde eine höhere Anpassungsgeschwindigkeit mit einfacheren Modellen gemessen. Die Technik wird zum Beispiel für die Anpassung von Stillemodellen verwendet.In some cases and for some special model parts was having a higher adjustment speed with it Measured easier models. The technique becomes, for example, for customization used by breastfeeding models.
Implementierungsbeispielimplementation example
Mindestens einige der Sprachanwendungen, die durch den Dialogmanager durchgeführt werden, enthalten sprachbefähigte e-commerce Anwendungen. Das folgende Implementierungsbeispiel handelt von einem Telebankingservice. Der Benutzer möchte den Geldbetrag wissen, der sich auf dem Konto befindet.At least some of the voice applications that are performed by the dialog manager contain language proficient e-commerce applications. The following implementation example is from a tele-banking service. The user wants to know the amount of money which is in the account.
Das
Sprachportal
Claims (27)
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP00112666 | 2000-06-15 | ||
EP00112666 | 2000-06-15 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE60026106D1 DE60026106D1 (en) | 2006-04-27 |
DE60026106T2 true DE60026106T2 (en) | 2006-09-28 |
Family
ID=36061232
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE2000626106 Expired - Lifetime DE60026106T2 (en) | 2000-06-15 | 2000-12-22 | System and method for speech recognition by means of language models |
Country Status (2)
Country | Link |
---|---|
AT (1) | ATE318441T1 (en) |
DE (1) | DE60026106T2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102008034143B4 (en) | 2007-07-25 | 2019-08-01 | General Motors Llc ( N. D. Ges. D. Staates Delaware ) | Method for ambient noise coupling for speech recognition in a production vehicle |
-
2000
- 2000-12-22 DE DE2000626106 patent/DE60026106T2/en not_active Expired - Lifetime
- 2000-12-22 AT AT00128291T patent/ATE318441T1/en active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102008034143B4 (en) | 2007-07-25 | 2019-08-01 | General Motors Llc ( N. D. Ges. D. Staates Delaware ) | Method for ambient noise coupling for speech recognition in a production vehicle |
Also Published As
Publication number | Publication date |
---|---|
DE60026106D1 (en) | 2006-04-27 |
ATE318441T1 (en) | 2006-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE102007021772B4 (en) | Digital method and arrangement for authenticating a user of a database | |
DE102008058883B4 (en) | Method and arrangement for controlling user access | |
EP3327720B1 (en) | User voiceprint model construction method and apparatus | |
DE60213595T2 (en) | UNDERSTANDING SPEAKER VOTES | |
DE60301767T9 (en) | Normalization of a Verificationmasses in a device for speaker verification | |
DE69822179T2 (en) | METHOD FOR LEARNING PATTERNS FOR VOICE OR SPEAKER RECOGNITION | |
EP0647344B1 (en) | Method for recognizing alphanumeric strings spoken over a telephone network | |
EP0953972B1 (en) | Simultaneous speaker-independent voice recognition and verification over a telephone network | |
EP1956814B1 (en) | Digital method and device for authenticating a user of a telecommunications / data network | |
US6691089B1 (en) | User configurable levels of security for a speaker verification system | |
DE69839274T2 (en) | SYSTEM AND METHOD FOR PROTECTING LANGUAGE TRANSACTIONS | |
DE112018002857T5 (en) | Speaker identification with ultra-short speech segments for far and near field speech support applications | |
DE102007033812A1 (en) | Method and arrangement for authenticating a user of facilities, a service, a database or a data network | |
DE60001809T2 (en) | Voice portal host computer and procedures | |
DE10150108A1 (en) | Ongoing speaker authentication | |
EP1577733A2 (en) | Method and system for persons/speaker verification via communication systems | |
EP1531459B1 (en) | Method for voice-based user authentication | |
EP1249016B1 (en) | Method for the voice-operated identification of the user of a telecommunication line in a telecommunications network during an interactive communication using a voice-operated conversational system | |
EP1164576A1 (en) | Speaker authentication method and system from speech models | |
EP1749395B1 (en) | Method for authorizing a telephone transaction and switching node | |
DE60026106T2 (en) | System and method for speech recognition by means of language models | |
EP4064081B1 (en) | Method and system for identifying and authenticating a user in an ip network | |
DE60301773T2 (en) | Method and device for mounting a household appliance in a cabinet | |
DE10308611A1 (en) | Determination of the likelihood of confusion between vocabulary entries in phoneme-based speech recognition | |
EP2012218A2 (en) | Method for influencing the interpretation of multimodal input |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: SWISSCOM AG, BERN, CH |