DE3129320A1 - Verfahren zur sprecherunabhaengigen erkennung von einzeln gesprochenen worten in fernmeldesystemen - Google Patents

Verfahren zur sprecherunabhaengigen erkennung von einzeln gesprochenen worten in fernmeldesystemen

Info

Publication number
DE3129320A1
DE3129320A1 DE19813129320 DE3129320A DE3129320A1 DE 3129320 A1 DE3129320 A1 DE 3129320A1 DE 19813129320 DE19813129320 DE 19813129320 DE 3129320 A DE3129320 A DE 3129320A DE 3129320 A1 DE3129320 A1 DE 3129320A1
Authority
DE
Germany
Prior art keywords
word
words
spoken
recognition
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE19813129320
Other languages
English (en)
Inventor
Werner Dipl.-Ing. 8000 München Liegl
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE19813129320 priority Critical patent/DE3129320A1/de
Publication of DE3129320A1 publication Critical patent/DE3129320A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Description

  • Verfahren zur sprecherunabhängigen Erkennung von
  • einzeln gesprochenen Worten in Fernmeldesystemen.
  • Die Erfindung betrifft ein Verfahren zur sprecherunabhängigen Erkennung von einzeln gesprochenen Worten in Fernmeldesystemen mit beispielsweise einem Fernsprechapparat zur Eingabe der zu erkennenden Worte und einem nachgeschalteten elektronischen Spracherkennungssystem, welches unter anderem aus einem die einzelnen in einer Lernphase eingegebenen Worte in Parameterform als Referenzmuster enthaltenden Referenzmusterspeicher, aus einer die in einer Lernphase und in der späteren Arbeitsphase eingesprochenen Worte in einzelne wortcharakteristische Parameter zerlegenden Aufbereitungseinheit und einem angeschlossenen die zu erkennenden Worte in Parameterform gespeichert enthaltenden und als Quittung bei Erkennung eines Wortes das entsprechende Wort aus seinem Speicher akustisch wiedergebenden elektronischen Sprachsynthesesystem besteht und wobei in der Lernphase des Erkennungssystems das einzelne Wort zur Bildung des Referenzmusters mehrmals von verschiedenen Personen eingesprochen wird.
  • Soll eine Spracherkennung durch ein obengenanntes System von der Person des Sprechers unabhängig sein, dann ist es bereits bekannt, daß in der sogenannten Lernphase, in der die Sprecher die einzelnen Worte in das Spracherkennungssystem eingeben, jeder Sprecher- oder doch eine größere Anzahl der in Frage kommenden Sprecher -möglichst mehrmals die gewünschten Worte und Befehle in das Sprecherkennungssystem eingeben muß (Ruske, G.: Automatische Erkennung gesprochener Sprache Proc. DAG A'80, VDE-Verlag 1980, S. 61 - 72, Zwicker, E; Daxer, W.: Erkennung von 14 isoliert gesprochenen Worten in einem kompakten Gerät mit Mikroprozessor a.a.O., S. 731 - 734).
  • Dabei werden die Worte in einzelne wortspezifische Parameter zerlegt.
  • Anschließend wird über die einzelnen so entstehenden Wortparametersätze gemittelt und es entsteht ein Referenzmuster eines Wortes, welches in einem Referenzmusterspeicher abgespeichert wird. In der Arbeitsphase wird dieser Referenzmustersatz mit dem aus den Parametern des eingegebenen Wortes gebildeten Testmuster verglichen und auf Ähnlichkeit geprüft. Es kann sich eine Mindestähnlichkeit des Testmusters mit einem der abgespeicherten Referenzmuster ergeben, die zum Erkennen des eingesprochenen Wortes führt. In dem Sprachsynthesesystem ist der gesamte verarbeitbare Wortschatz in Form eines Parametersatzes je Wort enthalten. Dabei ist dieser Parametersatz Jedoch nicht aufgrund einer Mittelung entstanden, sondern aus einem von einem geeigneten Sprecher eingegebenen Wort. Im allgemeinen wird nach jeder Worteingabe und Worterkennung aus diesem Speicher des Synthesesystems das entsprechende Wort ausgelesen und für den Sprecher als Quittung hörbar gemacht.
  • Wird das Wort nicht erkannt, dann erfolgt eine Fehlermeldung. Mit steigender Anzahl unterschiedlicher Sprecher werden sich bei der Mittelung zur-Erzeugung eines Referenzmusters eine immer weniger scharfe Wortcharakteristik und damit immer weniger brauchbare Referenzmuster ergeben, so daß die nicht unterschreitbare Ähnlichkeitsgrenze immer weniger brauchbare Referenzmuster ergeben, so daß die nicht unterschreitbare Ähnlichkeitsgrenze immer höher angesetzt werden muß: Dadurch werden immer mehr eingesprochene Worte als Fehler" von dem Erkennungssystem zurückgewiesen.
  • Die Aufgabe der Erfindung soll nun darin bestehen, ein einfaches Verfahren zu finden, mit dem ohne größeren Aufwand bei einem sprecherunabhängigen Spracherkennungssystem die Erkennungsrate für die eingesprochenen Worte erhöht werden kann.
  • Die gestellte Aufgabe ist dadurch lösbar, daß in der Lernphase nach jedem mehrmaligen Einsprechen des einzelnen Wortes durch die einzelnen Personen eine Erkennungsrate jeder Person festgehalten wird und daß das eingesprochene Wort der Person mit der höchsten Erkennungsrate in den Speicher des Synthesesystems eingegeben und zur späteren akustischen Quittungsgabe benützt wird.
  • Da nach jedem eingesprochenen Wort in der späteren Erkennungsphase als Quittung eines durch das Erkennungssystem erkannten Wortes das entsprechende Wort aus dem Synthesespeicher ausgelesen und hörbar an die einsprechende Person zurückgegeben wird, ergibt sich aus dem erfindungsgemäßen Verfahren der Vorteil, daß die einsprechende Person ihr eingesprochenes Wort in der systemgünstigsten Sprache zurückhört, woraus sich ein Angewöhnen und Nachahmen der Sprache mit der besten Erkennungsrate ergibt.
  • Zum besseren Verständnis des erfindungsgemäßen Verfahrens soli nachstehend eine kurze Beschreibung der Wirkungsweise eines die menschliche Sprache erkennenden Systems erfolgen.
  • Ein elektronisches Spracherkennungssystem analysiert die akustischen Parameter eines gesprochenen Wortes und vergleicht diese mit den Parametern von vorher gelernten und in einem Referenzmusterspeicher abgespeicherten Worten. Es ist also-ein Lernvorgang erforderlich, der eine Sprecherabhängigkeit beinhaltet.
  • Sprecherunabhängige Geräte erhalten ihren Referenzmustersatz entweder durch Mittelung über die Sprechmuster einer Vielzahl von Sprechern - was für den einzelnen Sprecher zu einem Absinken der Erkennungsrate führt - oder bei einer endlichen Zahl von bekannten Sprechern durch Abspeicherung des Referenzmusters aller Sprecher, wodurch vor allem bei einer großen Anzahl von zu erkennenden Worten ein großer Speicherplatz benötigt wird. Die einzelnen Parameter eines Wortes werden aus dem Zeitverlauf des von einem Mikrofon abgegebenen Signals abgeleitet. Dies erfolgt beispielsweise durch eine Kurzzeitspektralanalyse und eine Anzahl weiterer Messungen, wie z.B. den Verlauf der Grundfrequenz, der Bestimmung stimmhafter und stimmloser Intervalle, dem Pegelverlauf, der Sprachpausen usw.
  • Zum "Laden" des Referenzmusterspeichers spricht jeder Sprecher jedes gewünschte Wort einige Male in das Eingabegerät, Die Mittelung der gewonnenen Parameter entweder über sämtliche Eingaben eines Sprechers oder über die Eingaben aller Sprecher zusätzlich einer Zeitnormierung (Wortanfang und Wortende werden erkannt und damit das Wort unabhängig von der Sprechweise in einen bestimmten Zeitrahmen gebracht) ergibt dann das Referenzmuster dieses Wortes. Die Referenzmuster aller Worte bilden den Referenzmustersatz. Im Erkennungsvorgang wird dann wiederum die bereits beschriebene Ermittlung der Parameter des eingesprochenen Wortes und eine Wortanfangs- und Wortendeerkennung vorgenommen.
  • Nach einer Zeitnormierung erfolgt ein Vergleich des aus dem eingesprochenen Wort gewonnenen und zeitnormierten Parametersatzes (Testmuster) und den im Referenzmusterspeicher vorliegenden Parametersätzen (Referenzmuster) aller Worte. Das dem ähnlichsten Referenzmuster entsprechende Wort wird als erkanntes Wort ausgegeben, wo- Wird das Wort richtig erkannt, dann wird aus einem Synthesespeicher dieses Wort ausgegeben und beim Sprecher hörbar gemacht. Ein solcher Synthesespeicher enthält alle mit dem System verarbeitbaren "gelernten" Worte und zwar nicht in Form eines gemittelten Parametersatzes wie z.B. dem entsprechenden Referenzmustersatz, sondern in Form eines einer möglichst systemgünstigen Eingabesprache entsprechenden Parametersatzes.
  • Wird das eingesprochene Wort richtig erkannt und quittiert, dann erfolgt die Auswertung desselben. Zum Beispiel kann die Nennung eines Namens die automatische Wahl der zugehörigen Teilnehmernummer bewirken. Ist das Eingabegerät eine Lautsprechstation, dann kann somit durch Einsprechen des Namens eine vollständige Telefonverbindung aufgebaut und ein entsprechendes Gespräch geführt werden, ohne daß eine mechanische Handhabung eines Gerätes notwendig war.
  • In dem dem erfindungsgemäßen Verfahren zugrundeliegenden Spracherkennungssystem geht man davon aus, daß in dem Synthesespeicher und dem Referenzmusterspeicher noch keinerlei Informationen abgespeichert sind, daß eine Vielzahl von Sprechern eingabeberechtigt sein sollen und daß zum "Laden" des Spracherkennungssystems eine Lernphase notwendig ist.
  • Das "Laden" erfolgt in der Weise, daß ein Sprecher wiederholt zur Bildung eines Referenzmusterwortes das entsprechende Wort einspricht. Dabei wird jeweils bei Erkennung des Wortes eine Quittierung in Form der Hörbarmachung dieses Wortes am Eingabegerät gegeben. Danach wird ein weiterer Sprecher die Eingabe des gleichen Wortes mehrmals vornehmen und auch hier werden mehr oder weniger Erkennungen bzw. Fehler registriert werden.
  • Führt man dies mit einer Reihe von Sprechern durch, und registriert dabei die Anzahl der Erkennungen, dann wird man einen Sprecher oder eine Gruppe von Sprechern auslesen können, deren Worteingabe am meisten systemgünstig war, d.h. bei deren Spracheingabe die meisten Erkennungsquittungen vorliegen. Wird man bei diesem Sprechen oder der Gruppe von Sprechern auch noch verschiedene Sprechweisen ausprobieren, dann wird man zu einer Optimalen Worteingabe kommen, mit der für dieses Wort die hochste Erkennungsrate zu erwarten ist. Diese Worteingabe gibt man dann als dem Wort zugeordnete fest eingespeicherte'Quittung" in den Synthesespeicher.
  • Bei jedem weiteren Einsprechen dieses Wortes durch einen beliebigen Sprecher erhält dieser bei Erkennung durch das System aus dem Synthesespeicher akustisch die optimale Wortaussprache, so daß es sich im Laufe der Zeit immer mehr an die optimale Aussprache anpassen wird. Der eigentliche Referenzmuster-Parametersatz wird wie oben beschrieben, durch die Mittelung der einzelnen Worteingaben einer Anzahl von unterschiedlichen Sprechern erzeugt.
  • Aus dem Vorstehenden geht hervor, daß es nach dem erfindungsgemäßen Verfahren in einfacher und wirtschaftlicher Weise möglich ist, bei einem sprecherunabhängigen Spracherkennungssystem eine hohe Erkennungsrate zu erreichen.
  • 1 Patentanspruch

Claims (1)

  1. Patentanspruch Verfahren zur sprecherunabhängigen Erkennung von einzeln gesprochenen Worten in Fernmeldesystemen mit beispielsweise einem Fernsprechapparat zur Eingabe der zu erkennenden Worte und einem nachgeschalteten elektronischen Spracherkennungssystem, welches unter anderem aus einem die einzelnen in einer Lernphase eingegebenen Worte in Parameterform als Referenzmuster enthaltenden Referenzmusterspeicher, aus einer die in einer Lernphase und in der späteren Arbeitsphase eingesprochenen Worte in einzelne wortcharakteristische Parameter zerlegenden Aufbereitungseinheit und einem angeschlossenen die zu erkennenden Worte in Parameterform gespeichert enthaltenden und als Quittung bei Erkennung eines Wortes das entsprechende Wort aus seinem Speicher akustisch wiedergebenden elektronischen Sprachsynthesesystem besteht und wobei in der Lernphase des Erkennungssystems das einzelne Wort zur Bildung des Referenzmusters- mehrmals von verschiedenen Personen eingesprochen wird, d a d u r c h g e k e n n z e i c h n e t , daß in der Lernphase nach jedem mehrmaligen Einsprechen des einzelnen Wortes durch die einzelnen Personen eine Erkennungsrate jeder Person festgehalten wird und daß das eingesprochene Wort der Person mit der höchsten Erkennungsrate in den Speicher des Synthesesystems eingegeben und zur späteren akustischen Quittungsgabe benUtzt wird.
DE19813129320 1981-07-24 1981-07-24 Verfahren zur sprecherunabhaengigen erkennung von einzeln gesprochenen worten in fernmeldesystemen Withdrawn DE3129320A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE19813129320 DE3129320A1 (de) 1981-07-24 1981-07-24 Verfahren zur sprecherunabhaengigen erkennung von einzeln gesprochenen worten in fernmeldesystemen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19813129320 DE3129320A1 (de) 1981-07-24 1981-07-24 Verfahren zur sprecherunabhaengigen erkennung von einzeln gesprochenen worten in fernmeldesystemen

Publications (1)

Publication Number Publication Date
DE3129320A1 true DE3129320A1 (de) 1983-02-10

Family

ID=6137688

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19813129320 Withdrawn DE3129320A1 (de) 1981-07-24 1981-07-24 Verfahren zur sprecherunabhaengigen erkennung von einzeln gesprochenen worten in fernmeldesystemen

Country Status (1)

Country Link
DE (1) DE3129320A1 (de)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0225538A1 (de) * 1985-11-26 1987-06-16 Kabushiki Kaisha Toshiba Spracherkennungssystem mit genauem Erkennungsfunktionieren
FR2609596A1 (fr) * 1987-01-19 1988-07-22 Centre Nat Rech Scient Procede d'identification automatique a distance d'un corps mobile faisant partie d'un ensemble de corps mobiles et dispositif pour la mise en oeuvre de ce procede
DE19751123C1 (de) * 1997-11-19 1999-06-17 Deutsche Telekom Ag Vorrichtung und Verfahren zur sprecherunabhängigen Sprachnamenwahl für Telekommunikations-Endeinrichtungen

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0225538A1 (de) * 1985-11-26 1987-06-16 Kabushiki Kaisha Toshiba Spracherkennungssystem mit genauem Erkennungsfunktionieren
FR2609596A1 (fr) * 1987-01-19 1988-07-22 Centre Nat Rech Scient Procede d'identification automatique a distance d'un corps mobile faisant partie d'un ensemble de corps mobiles et dispositif pour la mise en oeuvre de ce procede
DE19751123C1 (de) * 1997-11-19 1999-06-17 Deutsche Telekom Ag Vorrichtung und Verfahren zur sprecherunabhängigen Sprachnamenwahl für Telekommunikations-Endeinrichtungen

Similar Documents

Publication Publication Date Title
DE69226796T2 (de) Zeitliche Dekorrelationsverfahren zur störsicheren Sprechererkennung
DE69807765T2 (de) Kombination von Frequenzverzerrung und spektraler Formung in einem HMM - basierten Spracherkenner
DE69229816T2 (de) Einrichtung und Verfahren für Sprachmusteridentifizierung
DE2953262C2 (de)
DE69420400T2 (de) Verfahren und gerät zur sprechererkennung
DE19630109A1 (de) Verfahren zur Sprecherverifikation anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals, durch einen Rechner
DE68924134T2 (de) Spracherkennungssystem.
DE69423692T2 (de) Sprachkodiergerät und Verfahren unter Verwendung von Klassifikationsregeln
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
DE2753707A1 (de) Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache
EP1264301A1 (de) Verfahren zur erkennung von sprachäusserungen nicht-mutter-sprachlicher sprecher in einem sprachverarbeitungssystem
DE2422028A1 (de) Schaltungsanordnung zur identifizierung einer formantfrequenz in einem gesprochenen wort
DE69512961T2 (de) Spracherkennung auf Grundlage von "HMMs"
EP0981129A2 (de) Verfahren und Anordnung zum Durchführen einer Datenbankabfrage
DE3853702T2 (de) Spracherkennung.
EP1282897B1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
DE2021126C3 (de) Spracherkennungs anordnung
WO1993002448A1 (de) Verfahren und anordnung zum erkennen von einzelwörtern gesprochener sprache
DE3129282A1 (de) Verfahren zur sprecherabhaengigen erkennung von einzelnen gesprochenen worten in fernmeldesystemen
EP1125278B1 (de) Datenverarbeitungssystem oder kommunikationsendgerät mit einer einrichtung zur erkennung gesprochener sprache und verfahren zur erkennung bestimmter akustischer objekte
DE3129353A1 (de) Verfahren zur sprecherunabhaengigen erkennung von gesprochenen worten in fernmeldesystemen
WO2001067435A9 (de) Verfahren zum sprachgesteuerten initiieren von in einem gerät ausführbaren aktionen durch einen begrenzten benutzerkreis
DE3129320A1 (de) Verfahren zur sprecherunabhaengigen erkennung von einzeln gesprochenen worten in fernmeldesystemen
DE4111781A1 (de) Computersystem zur spracherkennung
EP1457966A1 (de) Verfahren zum Ermitteln der Verwechslungsgefahr von Vokabulareinträgen bei der phonembasierten Spracherkennung

Legal Events

Date Code Title Description
8139 Disposal/non-payment of the annual fee