DE69721395T2 - Verfahren und Vorrichtung zur Anpassung von Modellen zur Sprecherverifikation - Google Patents

Verfahren und Vorrichtung zur Anpassung von Modellen zur Sprecherverifikation Download PDF

Info

Publication number
DE69721395T2
DE69721395T2 DE69721395T DE69721395T DE69721395T2 DE 69721395 T2 DE69721395 T2 DE 69721395T2 DE 69721395 T DE69721395 T DE 69721395T DE 69721395 T DE69721395 T DE 69721395T DE 69721395 T2 DE69721395 T2 DE 69721395T2
Authority
DE
Germany
Prior art keywords
model
unit
units
model unit
performance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69721395T
Other languages
English (en)
Other versions
DE69721395D1 (de
Inventor
Erik Sundberg
Hakan Melin
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MULTICOM SECURITY AB
MULTICOM SECURITY STOCKHOLM AB
Original Assignee
MULTICOM SECURITY AB
MULTICOM SECURITY STOCKHOLM AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MULTICOM SECURITY AB, MULTICOM SECURITY STOCKHOLM AB filed Critical MULTICOM SECURITY AB
Application granted granted Critical
Publication of DE69721395D1 publication Critical patent/DE69721395D1/de
Publication of DE69721395T2 publication Critical patent/DE69721395T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice

Description

  • GEBIET DER ERFINDUNG
  • Die vorliegender Erfindung betrifft ein Verfahren und eine Anordnung, um Modelle in Sprecherverifizierungssystem oder ähnlichen Systemen unter Verwendung von Modellen anzupassen, die auf Daten beruhen, die von einer Person während einer gewissen Zeitperiode gesammelt sind. Die gesammelten Daten können sich auf die Physiologie, das Verhalten, das Alter einer Person usw. beziehen. Ein damit zusammenhängendes Gebiet ist z. B. eine an den Sprecher anpaßbare Spracherkennung. In Systemen dieses Typs werden gesammelte Daten mit einem Modell für die Verifizierung der Identität des Sprechers oder Erkennung der Sprache verglichen, um einen Verlauf von Ereignissen in einem Vorgang oder einer Vorrichtung zu steuern. Damit das Modell seine Aufgabe erfüllen kann, muß es mit Sprachdaten trainiert werden. Einfachere Modelle verlangen weniger Training, liefern aber ein weniger zuverlässiges Resultat, während komplexere Modelle ein längeres Training erfordern und ein zuverlässigeres Ergebnis der Verifizierung liefern.
  • Die Erfindung kann in allen Sprecherverifizierungssystemen angewendet werden, die bei einer Mehrzahl von Gelegenheiten benutzt werden sollen, d. h., daß Sprache der selben Person bei wiederholten Gelegenheit verifiziert werden soll. Wie dies bekannt ist, werden Sprecherverifizierungssysteme verwendet, um Information oder ökonomische Werte zu schützen. Die Erfindung ist eine Alternative zu dem Lösungsweg, PIN-Codes zu verwenden, um einen Benutzer zu identifizieren. Die Sprachaufzeichnung als solche kann entweder direkt bei der Ausrüstung, wo die Verifizierung durchgeführt wird, bewirkt werden, oder wird durch verschiedene Medien übertragen. Das Medium kann Telefonie oder andere Fernmeldemedia sein.
  • STAND DER TECHNIK
  • Bei den vorbekannten Sprecherverifizierungssystem ist nur ein Modell verwendet worden mit den speziellen Problemen, die mit dem Modell verknüpft sind. Ist ein einfaches Modell benutzt worden, so hat man eine weniger zuverlässige Verifizierung erhalten. Wenn ein komplexeres Modell verwendet wird, ist andererseits das Problem die lange Trainingsperiode.
  • Ein weiterer Stand der Technik ist in Dokument EP-A-0 621 532 offenbart, bei dem ein Sprecherverifizierungssystem vorbestimmte Bezugsstimmendateien verwendet, die auf Spracheingaben durch unterschiedliche Personen beruhen, um ein zusammengesetztes Modell eines Sprechers zusammenzusetzen.
  • Die vorliegende Erfindung löst dieses Problem, indem eine Mehrzahl unterschiedlicher Modelle im selben Sprecherverifizierungssystem verwendet werden. Verifizierung wird mit dem Modell in Betrieb gesetzt, das die geringste Menge von Sprachdaten erfordert. Während der Benutzung werden mehr Sprachdaten dauernd gesammelt. Dieses Material wird verwen det, um dann weiter nur das komplexere Modell oder sowohl das einfachere Modell, das bereits in Betrieb ist, und das komplexere Modell zu trainieren. Zu geeigneten Zeitpunkten werden Vergleiche der Leistung der Modelle durchgeführt. Wenn das komplexere Modell ein zuverlässigeres Verifizierungsergebnis liefert, wird es die Verifizierung in der Betriebssituation übernehmen.
  • Es wird erkannt, daß aufgrund der Erfindung ein Sprecherverifizierungssystem erhalten wird, das leicht in Betrieb gesetzt werden kann, dann aber allmählich zunehmend zuverlässige Verifizierungsergebnisse liefern wird. Die Erfindung ermäglicht die Verwendung der Vorteile unterschiedlicher Modelle, während gleichzeitig die Wirkung ihrer entsprechenden Nachteile minimalisiert werden. Ohne Benutzung dieser Technik muß man ein Modell mit seinen damit verknüpften Vorteilen und Nachteilen beim Start des Sprecherverifizierungssystems auswählen. Indem man zwischen Modellen wechselt, wird erreicht, daß das System sich dynamisch an die zur Verfügung stehende Menge von Sprachdaten anpaßt. Dies bedeutet einen großen Vorteil gegenüber dem Stand der Technik.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Die Erfindung, wie sie in den Ansprüchen 1 bis 12 beansprucht wird, schafft also ein Verfahren zum Anpassen eines Modells bei z. B. Sprecherverifizierung, das Modelleinheiten zum Empfangen und Auswerten von Sprache aufweist. Erfindungsgemäß werden Sprachdaten gesammelt, und eine erste Modelleinheit wird in Betrieb gesetzt, während die nachfolgende Modelleinheit mit Sprachdaten trainiert wird, die während des Betriebs der ersten Modelleinheit gesammelt werden. Die Leistungsver mögen der Modelleinheiten werden geprüft und ausgewertet, und eine nachfolgende Modelleinheit wird in Betrieb gesetzt, wenn deren Leistung einen geeigneten Pegel erreicht hat.
  • Die nachfolgende Modelleinheit kann entweder plötzlich oder allmählich, z. B. unter Verwendung einer Gewichtsfunktion in Betrieb gesetzt werden.
  • Die Erfindung bezieht sich auch auf eine Anordnung zum Durchführen des Verfahrens.
  • Die Erfindung ist im Detail in den beigefügten Ansprüchen definiert.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Die Erfindung wird unten im Detail unter Bezugnahme auf die beigefügte Zeichnung beschrieben, wobei die einzige Figur eine schematische Darstellung einer Ausführungsform der Erfindung ist.
  • DETALLIERTE BESCHREIBUNG EINER BEVORZUGTEN AUSFÜHRUNGSFORM
  • In Sprecherverifizierungssystemen, Systemen für die automatische Verifizierung der Identität eines Sprechers, ist die Menge von Sprachdaten, die von dem Benutzer gesammelt werden muß, eine entscheidende Einschränkung der Benutzung. von komplexen Sprechermodellen, die eine große Menge gesammelter Sprachdaten erfordern, kann erwartet werden, daß sie ein besseres Ergebnis ergeben als Modelle, die eine kleine Menge von Trainingsmaterial erfordern. Für eine kleine Menge von Trai ningsmaterial kann jedoch das komplexere Modell ein schlechteres Resultat als das einfachere Modell ergeben.
  • Komplexe Modelle, die viele Parameter haben, haben ein besseres Leistungsvermögen als einfachere Modelle, wenn die Parameter des Modells richtig geschätzt sind. Für eine richtige Schätzung der Parameter ist jedoch eine große Menge von Trainingsdaten erforderlich. Im Falle, wo die Trainingsdaten eines Modells durch einen Kunden geliefert werden, ist die Menge von Trainingsdaten ein Faktor der Unbequemlichkeit für den Kunden. Schlechtes Leistungsvermögen innerhalb eines Modells wird auch zu Systemfehlern führen, was ein anderer Faktor der Unzweckmäßigkeit für den Kunden ist. Ein Problem, das durch die vorliegende Erfindung gelöst wird, besteht darin, Modelltopologien zu finden, die ein gutes Leistungsvermögen mit einem Minimum von Trainingsdaten haben.
  • Die Lösung des Problems, die hiermit vorgeschlagen wird, sowohl das Leistungsvermögen des Modells zu maximieren als auch das Erfordernis der Trainingsdaten zu minimieren, bestellt darin, ein Modellsystem zu verwenden, das eine dynamische Topologie hat. Das Modell hat eine Kombination von Modelleinheiten oder Teilen, die ein wechselndes Ausmaß der Komplexität haben. Die effektive Topologie des Modells wird geändert, so daß für eine gegebene Menge von Trainingsdaten die optimale Topologie verwendet wird, beruhend auf der vorgegebenen Modelleinheit. Durch Verwendung dieser Technik wird die wirksame Komplexität des Modells mit der zur Verfügung stehenden Menge von Trainingsdaten anwachsen.
  • Am Anfang der Dienstlebensdauer des Modells werden die einfachsten Modelleinheiten verwendet, was nur eine kleine Menge von Daten für eine zuverlässige Schätzung von deren Parametern erfordert. Während die Menge der zur Verfügung stehenden Daten anwächst, können nacheinander komplexere Teile trainiert werden.
  • Sind einmal die Parameter der komplexeren Einheit in zuverlässiger Weise geschätzt, so ist das Leistungsvermögen derselben wahrscheinlich besser als das jenige der einfacheren Einheit, und die Topologie des Modells kann zugunsten der komplexen Einheit geändert werden.
  • In der einzigen Figur ist ein Sprecherverifizierungssystem in Übereinstimmung mit der vorliegenden Erfindung schematisch dargestellt. Das System weist eine Steuereinheit, die zwei Schalter steuert, und eine Anzahl von Modelleinheiten P1 bis Pn auf. Einerseits empfängt das System Sprache oder Sprachdaten und liefert Verifizierungsdaten als das Ausgangssignal.
  • Die verschiedenen Modelleinheiten P1 bis Pn des Sprechermodells haben unterschiedliche Erfordernisse für Trainingsdaten. Eine Modelleinheit P1 sollte nur für Überprüfung verwendet werden, wenn sie ausreichend Trainingsdaten empfangen hat. Die Einheiten, die eine kleinere Menge von Daten erfordern, werden früher in Betrieb gesetzt werden, während die anspruchsvolleren Einheiten nicht benutzt werden, bis eine längere Trainingsperiode abgelaufen ist. Auf diese Weise kann das Leistungsvermögen des Sprechermodells zu dessen voller Kapazität hin erweitert werden. Während der Wachstumsperiode kann das Modell immer noch für die Prüfung verwendet werden, indem die einfacheren Modelleinheiten des Sprechermodells verwendet werden.
  • Die einfacheren Teile können außer Betrieb gesetzt werden, wenn die komplexeren Einheiten ein besseres Leistungsvermögen erreichen.
  • Die Verschiebung zu neueren Modellen kann über mehrere Generationen bewirkt werden, so daß weiter und weiter fortgeschrittene Modelle, die mehr Sprachdaten erfordern, kontinuierlich in Betrieb gesetzt werden. Auf diese Weise kann das Sprecherprüfsystem erweitert werden, ohne außer Betrieb gesetzt zu werden. Zusätzlich wird in Erwägung gezogen, daß jedes Modell aus mehreren Untermodellen besteht, die auf unterschiedliche Weisen miteinander gewichtet sind, um ein Modell zu definieren.
  • Wenn das Sprecherverifizierungssystem das allererste Mal in Betrieb gesetzt wird, erfordert es eine kurze Trainingsperiode, um die einfachste Modelleinheit zu trainieren. Die einfachste Modelleinheit kann von von einem Sprecher unabhängigen Muster trainiert werden. Danach wird das Betrieb mit wachsenden Leistungsvermögen in Übereinstimmung mit dem in Betrieb gesetzt, was oben angegeben ist.
  • Jede Einheit der Sprechermodellhierarchie wird Information speichern müssen, die sich darauf bezieht, wie gut trainiert sie ist. Diese Information kann entweder durch die Modelleinheit selber oder durch irgendein Leistungsvermögenprüfverfahren geliefert werden. Im ersten Fall wird die Information Trainingsniveau genannt, während im letzteren Fall die Information Leistungsvermögensniveau genannt ist. Das Trainingsniveau beruht auf einer angenommenen Vorwegkenntnis, wieviel Trainingsdaten durch die Einheit benötigt werden. Der Unter schied zwischen den beiden Arten von Information besteht darin, daß das Leistungsniveau auf irgendeiner Auswertung von Prüfdaten (einem Datenbanklauf) beruht, während das Trainingsniveau auf gespeicherter Information über verwendete Trainingsdaten beruht. Das Leistungsvermögensniveau kann auf Vergleichen mit anderen Einheiten des Sprechermodells und sogar mit anderen Sprechermodellen verglichen werden.
  • Schwellwerte für das Trainingsniveau und das Leistungsfähigkeitsniveau müssen in der Steuereinheit geschaffen und gespeichert werden. Im ersten Fall beruht der Schwellwert auf vorher gemachten Annahmen. Im letzten Fall sollte es möglich sein, den Wert des Schwellwertes auf einem Kriterium der Leistungsvermögensanforderungen zu basieren.
  • Um die Benutzung eines Leistungsvermögenspegels, der auf Datenbanksimulation beruht, zu ermöglichen, ist es notwendig, eine solche Datenbank zu verwalten. Das Sprechermodell sollte auch imstande sein, einen Wert seines gesamten Trainingsniveaus oder Leistungsvermögensniveaus anzugeben. Dieser Wert kann durch Anwendung benutzt werden, um das Wesentlichkeitsniveau einer Entscheidung zu schätzen, die durch das Verifizierungssystem getroffen worden ist.
  • Das Leistungsvermögen der Modelleinheiten wird in geeigneten Intervallen geprüft, um zu überprüfen, ob sie betrieben werden sollten oder nicht. Dies kann zyklisch oder auf einen besonderen Befehl hin erfolgen.
  • Die Erfindung wurde unter Bezugnahme auf ein Sprecherverifizierungssystem beschrieben. Wie dies oben erwähnt wurde, kann die Erfindung jedoch ebenso in anderen Systemen verwendet werden, die Modelle verwenden, die auf Daten beruhen, die von einer Person über eine gewisse Zeitperiode gesammelt wurden, z. B. an den Sprecher anpaßbare Spracherkennungssysteme. Die Erfindung ist nur durch die unten aufgeführten Ansprüche begrenzt.

Claims (12)

  1. Verfahren zum Anpassen eines Modells für ein Sprecherverifikationssystem, das eine Mehrzahl von Modelleinheiten zum Empfangen und Auswerten von Sprache aufweist, gekennzeichnet durch Sammeln von Sprachdaten und durch Inbetriebsetzen einer ersten Modelleinheit (P1) der Mehrzahl von Modelleinheiten, durch Trainieren einer nachfolgenden Modelleinheit (Pn) mit Sprachdaten, die während des Betriebs der ersten Modelleinheit gesammelt worden sind, durch Prüfen und Auswerten der Leistungsfähigkeiten der Modelleinheiten und durch Inbetriebsetzen der nachfolgenden Modelleinheit, sobald deren Leistungsvermögen ein geeignetes Niveau erreicht hat.
  2. Verfahren nach Anspruch 1, gekennzeichnet durch sofortiges Inbetriebsetzen der nachfolgenden Modelleinheit, sobald deren Leistungsvermögen einen vorbestimmten Schwellenwert überschreitet.
  3. Verfahren nach Anspruch 1, gekennzeichnet durch allmähliches Inbetriebsetzen der nachfolgenden Modelleinheit, sobald deren Leistungsvermögen einen entsprechenden Schwellwert einer Mehrzahl von vorbestimmten Schwellwerten überschreitet.
  4. Verfahren nach Anspruch 3, gekennzeichnet durch allmähliches Inbetriebsetzen der nachfolgenden Modelleinheit durch Gewichten der verschiedenen Modelleinheiten mit einer variablen Gewichtsfunktion.
  5. Verfahren nach einem der vorangehenden Ansprüche, gekennzeichnet durch Verbinden einer neuen Modelleinheit als nachfolgendes Modell.
  6. Verfahren nach einem der vorangehenden Ansprüche, gekennzeichnet durch Trainieren aller Modelleinheiten mit gesammelten Sprachdaten.
  7. Verfahren nach einem der Ansprüche 1 bis 6, gekennzeichnet durch Trainieren aller Modelleinheiten mit Ausnahme der in Betrieb befindlichen Modelleinheiten mit gesammelten Sprachdaten.
  8. Vorrichtung zum Anpassen eines Modells für ein Sprecherverifikationssystem, das eine Mehrzahl von Modelleinheiten zum Empfangen und Auswerten von Sprache und eine Steuereinheit aufweist, gekennzeichnet durch einen ersten Schalter zum Richten von Sprachdaten zu den verschiedenen Modelleinheiten (P1–Pn), einen zweiten Schalter zum Richten von Verifikationsdaten von den verschiedenen Modelleinheiten (P1–Pn), welche Schalter durch die Steuereinheit so gesteuert werden, daß die Modelleinheiten Sprachdaten sammeln und daß eine erste Modelleinheit (P1) der Mehrzahl von Modelleinheiten in Betrieb gesetzt wird, eine nachfolgende Modelleinheit (Pn) mit Sprachdaten trainiert wird, die während des Betriebs der ersten Modelleinheit gesammelt sind oder werden, daß das Leistungsvermögen der Modelleinheiten geprüft und ausgewertet wird und daß die nachfolgende Modelleinheit in Betrieb gesetzt wird, sobald deren Leistungsvermögen ein geeignetes Niveau erreicht hat.
  9. Vorrichtung nach Anspruch 8, dadurch gekennzeichnet, daß ein vorbestimmter Schwellwert in der Steuereinheit gespeichert wird, um die nachfolgende Modelleinheit sofort in Betrieb zu setzen, sobald das Leistungsvermögen derselben den vorbestimmten Schwellwert überschreitet.
  10. Vorrichtung nach Anspruch 8, dadurch gekennzeichnet, daß eine Mehrzahl von vorbestimmten Schwellwerten in der Steuereinheit gespeichert wird, um die nachfolgende Modelleinheit allmählich in Betrieb zu setzen, sobald deren Leistungsvermögen einen entsprechenden Schwellwert der vorbestimmten Mehrzahl von Schwellwerten überschreitet.
  11. Vorrichtung nach Anspruch 10, dadurch gekennzeichnet, daß die Steuereinheit eine variable Gewichtsfunktion aufweist, um die nachfolgende Modelleinheit allmählich in Betrieb zu setzen, indem die unterschiedlichen Modelle mit der Gewichtsfunktion gewichtet werden.
  12. Vorrichtung nach einem der Ansprüche 8 bis 11, dadurch gekennzeichnet, daß die Modelleinheit aus Untermodellen oder Teilmodellen besteht.
DE69721395T 1996-07-01 1997-06-05 Verfahren und Vorrichtung zur Anpassung von Modellen zur Sprecherverifikation Expired - Fee Related DE69721395T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
SE9602622 1996-07-01
SE9602622A SE9602622L (sv) 1996-07-01 1996-07-01 Förfarande och arrangemang för adaptering av modeller vid exempelvis talarverifieringssystem
US08/911,923 US5960392A (en) 1996-07-01 1997-08-15 Method and arrangement for adaptation of data models

Publications (2)

Publication Number Publication Date
DE69721395D1 DE69721395D1 (de) 2003-06-05
DE69721395T2 true DE69721395T2 (de) 2004-03-11

Family

ID=26662700

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69721395T Expired - Fee Related DE69721395T2 (de) 1996-07-01 1997-06-05 Verfahren und Vorrichtung zur Anpassung von Modellen zur Sprecherverifikation

Country Status (6)

Country Link
US (1) US5960392A (de)
EP (1) EP0817170B1 (de)
DE (1) DE69721395T2 (de)
DK (1) DK0817170T3 (de)
NO (1) NO309549B1 (de)
SE (1) SE9602622L (de)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6167377A (en) * 1997-03-28 2000-12-26 Dragon Systems, Inc. Speech recognition language models
FI972723A0 (fi) * 1997-06-24 1997-06-24 Nokia Mobile Phones Ltd Mobila kommunikationsanordningar
DE19824353A1 (de) * 1998-05-30 1999-12-02 Philips Patentverwaltung Vorrichtung zur Verifizierung von Signalen
US6519563B1 (en) * 1999-02-16 2003-02-11 Lucent Technologies Inc. Background model design for flexible and portable speaker verification systems
US6336084B1 (en) * 1999-05-11 2002-01-01 Ford Global Technologies, Inc. Three-way catalyst model for an engine air-to-fuel ratio control system
AU7901200A (en) * 1999-08-26 2001-03-19 Siemens Aktiengesellschaft Method for training a speaker recognition system
DE10000973A1 (de) * 2000-01-06 2001-07-12 Deutsche Telekom Ag Verfahren zur sprachgesteuerten Identifizierung des Nutzers eines Telekommunikationsanschlusses im Telekommunikationsnetz beim Dialog mit einem sprachgesteuerten Dialogsystem
US7664636B1 (en) * 2000-04-17 2010-02-16 At&T Intellectual Property Ii, L.P. System and method for indexing voice mail messages by speaker
EP1256934B1 (de) * 2001-05-08 2004-07-14 Sony International (Europe) GmbH Verfahren zur Adaption von Sprecheridentifikationsdaten unter Verwendung von im Betrieb gewonnener Sprache
US7454349B2 (en) 2003-12-15 2008-11-18 Rsa Security Inc. Virtual voiceprint system and method for generating voiceprints
EP1941495A1 (de) * 2005-10-24 2008-07-09 Siemens AG System und verfahren zur sprechererkennung mit variablem text
US7756708B2 (en) 2006-04-03 2010-07-13 Google Inc. Automatic language model update
US20140136204A1 (en) * 2012-11-13 2014-05-15 GM Global Technology Operations LLC Methods and systems for speech systems
US9711148B1 (en) 2013-07-18 2017-07-18 Google Inc. Dual model speaker identification
US10599953B2 (en) * 2014-08-27 2020-03-24 Verint Americas Inc. Method and system for generating and correcting classification models
CN106971734B (zh) * 2016-01-14 2020-10-23 芋头科技(杭州)有限公司 一种可根据模型的提取频率训练识别模型的方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0444351A3 (en) * 1990-02-28 1992-05-27 American Telephone And Telegraph Company Voice password-controlled computer security system
US5430827A (en) * 1993-04-23 1995-07-04 At&T Corp. Password verification system
JPH075892A (ja) * 1993-04-29 1995-01-10 Matsushita Electric Ind Co Ltd 音声認識方法
US6081782A (en) * 1993-12-29 2000-06-27 Lucent Technologies Inc. Voice command control and verification system
JP2980228B2 (ja) * 1994-10-25 1999-11-22 日本ビクター株式会社 音声認識用音響モデル生成方法
US5806029A (en) * 1995-09-15 1998-09-08 At&T Corp Signal conditioned minimum error rate training for continuous speech recognition
US5778341A (en) * 1996-01-26 1998-07-07 Lucent Technologies Inc. Method of speech recognition using decoded state sequences having constrained state likelihoods

Also Published As

Publication number Publication date
EP0817170A2 (de) 1998-01-07
NO309549B1 (no) 2001-02-12
US5960392A (en) 1999-09-28
NO972670L (no) 1998-01-02
EP0817170A3 (de) 1998-09-30
NO972670D0 (no) 1997-06-11
SE505522C2 (sv) 1997-09-08
SE9602622L (sv) 1997-09-08
SE9602622D0 (sv) 1996-07-03
DE69721395D1 (de) 2003-06-05
DK0817170T3 (da) 2003-08-25
EP0817170B1 (de) 2003-05-02

Similar Documents

Publication Publication Date Title
DE69721395T2 (de) Verfahren und Vorrichtung zur Anpassung von Modellen zur Sprecherverifikation
DE3101851C2 (de) Vorrichtung zum Erkennen von Sprache
DE3819178C2 (de)
EP0517324B1 (de) Vorrichtung zur Steuerung des Quantisierers eines Hybridkodierers
DE2524804A1 (de) Verfahren und vorrichtung zur automatischen spracherkennung
DE2753707A1 (de) Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache
DE3236885A1 (de) Verfahren und geraet zur sprachanalyse
EP2226501B2 (de) Verfahren und Anordnung zum Vermessen einer Windenergieanlage
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE2133638C3 (de) Verfahren zum Betrieb eines lernfähigen Systems aus in Kaskade geschalteten, zur nicht linearen Datenverarbeitung geeigneten lernfähigen Datenverarbeitungseinheiten
DE69531525T2 (de) Tonerkennung mit Minimierung falscher Identifikation
DE3243231A1 (de) Verfahren zur erkennung von sprachpausen
EP1193689A2 (de) Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
DE2719175A1 (de) Schallanalysiereinrichtung
DE4121453C2 (de) Näherungsschlußfolgerungsvorrichtung
DE2920041A1 (de) Verfahren und anordnung zum verifizieren von signalen, insbesondere sprachsignalen
DE19703964C1 (de) Verfahren zur Transformation einer zur Nachbildung eines technischen Prozesses dienenden Fuzzy-Logik in ein neuronales Netz
DE19848586A1 (de) Detektor und Verfahren zum Detektieren von Tönen oder von anderen periodischen Signalen
EP0891069B1 (de) Erkennung eines betrügerischen Anrufs mittels eines neuronalen Netzes
EP0677835B1 (de) Verfahren zum Ermitteln einer Folge von Wörtern
DE69726458T2 (de) Vorichtung und verfahren zur analyse und zum filtern von geräuschen
EP1146690B1 (de) Verfahren und Vorrichtung zur Analyse von Daten
DE4433366A1 (de) Verfahren und Einrichtung zur Bestimmung eines Maßes der Übereinstimmung zwischen zwei Mustern sowie Spracherkennungseinrichtung damit und Programm-Modul dafür
EP0834859B1 (de) Verfahren zum Bestimmen eines akustischen Modells für ein Wort
DE3221873C2 (de) Verfahren und Anordnung zur Reduzierung des Energieverbrauchs einer Bühnenstellanlage

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee