DE3879028T2 - Spracherkennungseinrichtung. - Google Patents

Spracherkennungseinrichtung.

Info

Publication number
DE3879028T2
DE3879028T2 DE8888306497T DE3879028T DE3879028T2 DE 3879028 T2 DE3879028 T2 DE 3879028T2 DE 8888306497 T DE8888306497 T DE 8888306497T DE 3879028 T DE3879028 T DE 3879028T DE 3879028 T2 DE3879028 T2 DE 3879028T2
Authority
DE
Germany
Prior art keywords
speech
input
island
event
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE8888306497T
Other languages
English (en)
Other versions
DE3879028D1 (de
Inventor
Shinta Kimura
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of DE3879028D1 publication Critical patent/DE3879028D1/de
Application granted granted Critical
Publication of DE3879028T2 publication Critical patent/DE3879028T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Electric Clocks (AREA)
  • Calculators And Similar Devices (AREA)

Description

  • Die vorliegende Erfindung betrifft eine Spracherkennungseinrichtung.
  • Gesprochene Worte werden als Sprache angesehen. Im allgemeinen ist es für eine Spracherkennungseinrichtung, in welcher eine Sprache in eine einsibige Einheit, eine Worteinheit, eine Phraseneinheit oder eine Satzeinheit geteilt wird, notwendig, die stärkste mögliche Wahl einzugeben, anzuzeigen und auszugeben, welche Wahl auf dem Ergebnis einer Erkennung unmittelbar nach Teilung einer Spracheingabe basiert, und eine mögliche Wahl, basierend auf dem Ergebnis der Erkennung, auszuwählen. Ferner darf nicht zugelassen werden, daß unnötige Sprache, so wie eine Konversation zwischen anderen Leuten, ein Husten oder Hintergrundgeräusch in ein Mikrophon gelangt.
  • In einem früheren Spracherkennungsverfahren werden im Spracheingabemodus die Detektierung und die Verarbeitung von Sprachteilen gewöhnlich kontinuierlich ausgeführt, und es ist notwendig, daß übermäßige Sprache oder ein Hintergrundgeräusch eliminiert werden, und dementsprechend entsteht ein Problem insofern, daß dieses Erfordernis auf den Sprecher einen großen Stress ausüben kann.
  • In diesem Verfahren wird auch ein Schalter für die Auswahl einer möglichen Wahl für Ergebnisse einer Erkennung jedes Mal, wenn Worte gesprochen werden, gedrückt oder nicht gedrückt, und ein Problem entsteht insofern, daß der Zeitablauf der Sprache instabil wird, und vom Standpunkt einer Schnittstelle Mensch-Maschine verschlechtern sich die Betreibbarkeit der Einrichtung und ein Gefühl der Unbeschwertheit während der Verwendung der Einrichtüng.
  • Weiter ist es sehr schwierig, ein Wort, eine Phrase oder ähnliches zu jeder Spracheinheit präzise zu interpunktieren, und so entsteht ein anderes Problem insofern, daß sich, wenn eine Spracheingabeoperation hintereinander fortgeführt wird, die Geschwindigkeit dieser Sprache erhöht, bis die zwei Spracheinheiten schlußendlich miteinander verbunden werden, was zu einem Versagen des Erkennungsvorganges führt.
  • Es ist daher wünschenswert, eine Spracherkennungseinrichtung vorzusehen, wodurch wenig Bedarf besteht, ein Befehlssignal zu liefern und eine Eingabeoperation bewirkt werden kann, ohne Befürchtung des Auftretens von Geräusch oder fehlerhafter Sprache.
  • Eine Einrichtung der obigen Art ist geoffenbart in einem Artikel von T. Nitta et al. in "ICASSP" 82 Proceedings", Mai 1982, Paris mit dem Titel "Development of Japanese voice-activated word processor using isolated monosyllable recognition". Diese Art Einrichtung ist unten detaillierter erklärt.
  • Die US-A - 4 412 098 offenbart eine Spracherkennungseinrichtung mit den Merkmalen, die jenen des Oberbegriffes des beigefügten Anspruches 1 entsprechen.
  • Gemäß der vorliegenden Erfindung wird eine Spracherkennungseinrichtung zum Spracherkennen durch Analysieren eines eingegeben, sprachcharakteristischen Abschnitts, der aus der eingegebenen Sprache extrahiert ist, und Vergleichen des extrahierten, charakteristischen Abschnitts mit Sprachformen, welche Einrichtung umfaßt:
  • Sprachhaltemittel zum Empfangen der eingegebenen Sprache und Speichern der empfangenen, eingegebenen Sprache;
  • Sprachteildetektionsmittel, die mit den Sprachhaltemitteln verbunden sind, zum Detektieren von Teilen der aus den Sprachhaltemitteln gelesenen Sprache; und
  • Mittel zum Erkennen und zur Auswahl einer möglichen Wahl, welche Mittel mit den Sprachteildetektionsmitteln verbunden sind, zum Erkennen des nahesten Sprachteilabschnitts und Auswählen eines richtigen Ergebnisses aus den Erkennungsergebnissen der möglichen Wahl;
  • dadurch gekennzeichnet, daß:
  • Befehlssignalzuführmittel vorgesehen sind, zum Zuführen eines Befehls zum Bestätigen der aus den Sprachhaltemitteln gelesenen Spracheingabe;
  • welche Sprachteildetektionmsmittel ferner Energieberechnungsmittel, Inseldetektionsmittel und Unterscheidungsmittel enthalten;
  • welche Energieberechnungsmittel eine Energie eines aus den Sprachhaltemitteln während einer vorbestimmten Zeitspanne gelesenen digitalen Signals berechnen;
  • welche Inseldetektionsmittel Sprachinseln durch Auslesen einer Energiezeitserie aus den Energieberechnungsmitteln detektieren;
  • welche Unterscheidungsmittel einen Abstand jeder detektierten Sprachinsel unterscheiden, wobei ein vorbestimmter Schwellenwert verwendet wird, um gültige Inseln zu bestimmen und so eine Sprach-Endteilung zu bestimmen, und wobei eine Sprachinsel in eine Richtung umgekehrter Zeit ab einer Zeit ausgelesen wird, in welcher die Befehlssignalzuführmittel betrieben werden;
  • worin, bei Verwendung, die Befehlssignalzuführmittel nach einer Spracheingabe, die erkannt werden soll, betrieben werden, wobei die Erkennungsverarbeitung nur in Gegenwart des Befehlssignals ausgeführt wird, wodurch eine Erkennungsverarbeitung von unrichtiger oder ungewollt eingegebener Sprache vermieden wird.
  • Beispielhaft wird auf die angefügten Zeichnungen Bezug genommen, in denen:
  • Fig. 1 ein Diagramm ist, welches eine frühere Spracherkennungseinrichtung zeigt, die drei Befehlssignale liefert;
  • Fig. 2 ein Flußbild ist, zum Erklären der Operation einer früheren Einrichtung zur Spracheingabedokumentvorbereitung, wie in Fig. 1 gezeigt;
  • Fig. 3 eine Grundstruktur von Ausführungsformen der vorliegenden Erfindung darstellt;
  • Fig. 4 ein Diagramm ist, welches eine Ausführungsform der vorliegenden Erfindung zeigt;
  • Fig. 5 ein Diagramm ist, welches eine andere Ausführungsform der vorliegenden Erfindung zeigt;
  • Fig. 6 ein Diagramm ist, welches noch eine andere Ausführungsform der vorliegenden Erfindung zeigt;
  • Fig. 7 ein Diagramm ist, welches Eingabeeinheiten der Ausführungsformen in Fig. 4 und 5 ist;
  • Fig. 8 ein Diagramm ist, welches eine Eingabeeinheit der noch anderen Ausführungsform in Fig. 6 ist;
  • Fig. 9 ein Zeitablaufdiagramm einer Eingabeeinheit in der noch anderen Ausführungsform in Fig. 6 ist;
  • Fig. 10 ein Diagramm ist, welches eine Puffereinheit in Fig. 3 zeigt;
  • Fig. 11 ein Diagramm ist, welches eine Sprachteildetektionseinheit in Fig. 3 zeigt;
  • Fig. 12 ein Diagramm ist, welches eine Erkennungseinheit in Fig. 3 zeigt;
  • Fig. 13 ein Diagramm ist, welches eine Ausführungsform einer Energieberechnungseinheit in Fig. 11 zeigt;
  • Fig. 14 ein Diagramm ist, welches eine Taktcharakteristik in Fig. 13 zeigt;
  • Fig. 15 ein Diagramm ist, welches eine Inseldetektion in Fig. 11 darstellt;
  • Fig. 16 ein Zustandübergangsdiagramm in einem Inseldetektor in Fig. 11 ist;
  • Fig. 17 ein Schaltungsdiagramm ist, welches eine Ausführungsform eines Inseldetektors in Fig. 11 ist;
  • Fig. 18 ein Diagramm ist, welches eine Ausführungsform eines Diskriminators in Fig. 11 zeigt;
  • Fig. 19 ein Flußdiagramm einer ersten Ausführungsform der vorliegenden Erfindung ist; und
  • Fig. 20 ein Teilflußbild der noch anderen Ausführungsform ist.
  • Bevor eine Ausführungsform der vorliegenden Erfindung beschrieben wird, wird ein früherer Vorschlag mit Bezug auf die Figuren 1 und 2 beschrieben.
  • Figur 1 ist ein Diagramm, welches eine vorgeschlagene Spracherkennungseinrichtung zeigt, welche Befehlssignale liefert, wodurch Sprache in Teile geteilt wird, und die Bestimmung von einsilbigen Einheiten, Worteinheiten, Phraseneinheiten oder Satzeinheiten ausgeführt wird, und die Ergebnisse in die Spracherkennungseinrichtung eingegeben werden.
  • In Fig. 1 ist das Bezugszeichen 81 eine sprachenbetriebene Eingabeeinrichtung, welcher eine durch ein Mikrophon 80 verstärkte Sprache eingegeben wird. Wenn ein verstärktes Signal von einem Mikrophon 80 empfangen wird, wird das Signal auf eine Intensität verstärkt, die benötigt wird, es in ein digitales Signal umzuwandeln. Bezugszeichen 82 ist eine Sprachteildetektionseinheit, in welcher eine einsilbige Einheit, eine Worteinheit, eine Phraseneinheit oder eine Satzeinheit detektiert wird; 83 ist eine Erkennungseinheit, welche sich auf ein Wörterbuch (in der Figur nicht gezeigt) bezieht, um ein Stimmeneingangssignal zu erkennen; 84 ist eine Einheit zur Auswahl der möglichen Wahl und der Homophonauswahl, in der, wenn ein erstes Ergebnis einer Erkennung ein Homophon ist, welches nicht eine Zielerkennung ist, eine andere mögliche Wahl ausgewählt wird; und 85 ist eine Anzeigeeinheit, welche das Ergebnis einer Erkennung in der Erkennungseinheit 83 oder eine andere mögliche Wahl, die an der Einheit zur Auswahl der möglichen Wahl und zur Homophonauswahl ausgewählt wird, anzeigt.
  • Die Schalter SW1, SW2 und SW3 werden von einem Operator händisch betrieben. Der Schalter SW1 ist ein Spracheingangsmoduswechselschalter, das heißt, daß er zwischen einem Spracheingabemodus, der in der Lage ist, Sprache einzugeben, und einem Sprachnichteingabemodus zu wechseln, so daß ein unnötiger Schall (eine Konversation zwischen anderen, Husten oder ein Hintergrundgeräusch oder ähnliches), welcher für ein Bilden von Sätzen unnotwendig ist, nicht durch das Mikrophon 80 hineingelangen kann.
  • Der Schalter SW2 ist ein Schalter zur Auswahl der möglichen Wahl und zur Homophonauswahl, welcher, wenn ein erkanntes Ergebnis nicht einer Zielverarbeitung entspricht, niedergedrückt wird und andere mögliche Wahlen angezeigt werden, und SW3 ist ein Schalter, welcher, wenn eine unnotwendige Eingabeoperation auftritt, die durch einen Fehler während des Sprechens oder durch Husten verursacht wird, wird die Eingabe gelöscht.
  • Figur 2 ist ein Flußbild zum Erklären der Operation einer vorgeschlagenen Einrichtung zur Spracheingabedokumentvorbereitung, wie in Fig. 1 gezeigt.
  • Wenn eine erste Spracheingabe bewirkt wird, detektiert eine Sprachteildetektionseinheit 82 einen Teil durch ihre Teilung, und der detektierte Ausgang wird mit einem Wörterbuch in der Erkennungseinheit 83 verglichen, um erkannt zu werden. Das Erkennungsergebnis wird an der Anzeigeeinheit 85 angezeigt. Das Erkennungsergebnis wird überprüft, und falls richtig, wird eine zweite Spracheingabe bewirkt. Dementsprechend beginnt, da das früher erkannte Ergebnis richtig ist, eine Erkennungsverarbeitung der zweiten Spracheingabe.
  • Falls das Erkennungsergebnis einer ersten Spracheingabe nicht richtig ist, wird der Schalter SW2 zur Auswahl der möglichen Wahl und zur Homophonauswahl niedergedrückt. Dies verursacht, daß eine neue mögliche Wahl angezeigt wird, und, falls sie der Erwartung entspricht, wird die nächste Spracheingabe ausgeführt.
  • Figur 3 ist ein Diagramm, welches eine Grundstruktur zeigt. In Fig. 3 ist die Bezugsziffer 1 ein Mikrophon, 2 eine Eingabeeinheit, 3 ein Puffer, 4 eine Sprachteildetektionseinheit, 10 eine Einheit zur Erkennung und zur Auswahl der möglichen Wahl, 8 eine Anzeigeeinheit, SW1 ein Schalter zur Sprachteildetektionsangabe und SW2 ein Schalter zur Auswahl der möglichen Wahl.
  • Ein Stimmenschall wird in einem Mikrophon 1 in ein elektrisches Signal umgewandelt, eine digitale Umwandlung des Signals wird in einer Eingabeeinheit 2 bewirkt, und danach wird das umgewandelte Signal in einem Puffer 3 vorübergehend gespeichert. Die Kapazität des Puffers 3 muß eine solche sein, daß darin die längste Stimmeneingabe zu einem minimalen Ausmaß gespeichert werden kann.
  • Wenn der Schalter SW1 niedergedrückt wird, werden Daten des Puffers von einer Sprachteildetektionseinheit verarbeitet, um den diesem Zeitpunkt nahesten Sprachteilabschnitt zu detektieren. Dann wird an der Einheit 10 zur Erkennung und Auswahl der möglichen Wahl der diesem Zeitpunkt naheste Sprachteilabschnitt erkannt, und ein richtiges Ergebnis wird von den Erkennungsergebnissen der möglichen Wahl ausgewählt. Die Erkennungsergebnisse werden nämlich an einer Anzeigeeinheit 8 angezeigt, die Anzeige überprüft und ein richtiges Ergebnis ausgewählt.
  • Gemäß dieser Grundstruktur ist ein Puffer 3 stromabwärts einer Eingabeeinheit 2 vorgesehen, wobei der Puffer so aufgebaut ist, daß eine Spracheingabe einmal darin gespeichert wird. Wenn ein Schalter SW1 niedergedrückt wird, wird die zu dieser Zeit naheste Silbe, Phrase oder Satz unter der im Puffer 3 gespeicherten Silbe, Phrase oder Satz verwendet, um eine Erkennung zu bewirken. Es ist daher möglich, die Erkennung nur für eine notwendige Silbe, Phrase oder einen Satz zu bewirken, nach der Bestätigung, daß eine Spracheingabe kein Geräusch, kein Sprachfehler oder kein unerwünschter Schall ist.
  • Ausführungsformen der vorliegenden Erfindung werden hiernach mit Bezug auf die Figuren beschrieben.
  • Die Figuren 4 bis 6 sind Blockdiagramme, die drei Ausführungsformen gemäß der vorliegenden Erfindung zeigen. In diesen Ausführungsformen sind eine Erkennungseinheit 6 und eine Einheit 7 zur Auswahl der möglichen Wahl & zur Homophonauswahl getrennt angeordnet, und eine Sprachteilerkennungseinheit 4 ist durch eine Energieberechnungseinheit 40, eine Inseldetektionseinheit 41 und eine Unterscheindungseinheit 42 gebildet.
  • In der ersten Ausführungsform von Figur 4 ist ein Schalter SW1 vorgesehen zum Anzeigen eines Stumpfes einer Sprachzeile unmittelbar nach einer Äußerung, und ein Schalter SW2 ist vorgesehen zur Auswahl einer möglichen Wahl eines Erkennungsergebnisses oder eines Homophons.
  • In einer anderen Ausführungsform von Fig. 5 sind beide Schalter SW1 und SW2 einer ersten Ausführungsform gemeinsam ausgeführt, um die frühere komplizierte Schaltoperation zu vereinfachen.
  • Die Ausführungsform von Fig. 6 ist beinahe die gleiche wie die Ausführungsform von Fig. 5, ist aber verschieden insofern, daß, wenn eine Auswahl der möglichen Wahl von einem Schalter SW2 ausgeführt wird, eine Funktion, welche die Operation der Eingabeeinheit vorübergehend aussetzt, hinzugefügt ist.
  • Die Eingabeeinheiten 2 der ersten und der zweiten Ausführungsform sind die gleichen und haben die in Fig. 7 gezeigte innere Struktur, aber die Eingabeeinheit 2' der dritten Ausführungsform ist verschieden und besitzt die in Fig. 8 gezeigte innere Struktur.
  • In Fig. 7 wird ein von einem Mikrophon 1 eingegebenes Sprachsignal einem Analogfilter 20 eingegeben. Das Analogfilter 20 ist ein Tiefpaßfilter mit einer Abschaltfrequenz, die tiefer ist als eine Hälfte einer Abfragefrequenz in der nächsten Stufe einer Abfragehalteeinheit 21. In der Abfragehalteeinheit 21 wird, wenn ein Takt CK1 von der folgenden Stufe eines A-D-Konverters 22 geliefert wird, das Zeitbasissignal eines Sprachsignals, das durch ein Analogfilter 20 geschickt wird, quantisiert. Im A-D-Konverter 22 wird eine Amplitude des Sprachsignals in der Zeitabfrage quantisiert, und dann wird eine Zeitserie eines digitalen Sprachsignals Dj der nächsten Stufe zusammen mit dem oben erwähnten Takt CK1 abgegeben, und ein Takt, der für die Abfragehalteoperation notwendig ist, wird einer Abfragehalteeinheit 21 abgegeben. Ein Taktgenerator 23 erzeugt einen Takt für den A-D-Konverter 22 durch ein Kristalloszillatorelement oder ähnliches.
  • Die Elemente des Tiefpaßfilters 20, eine Abfragehalteeinheit 21, ein A-D-Konverter 22 und ein Taktgenerator 23 in Fig. 8 sind die gleichen wie in Fig. 7.
  • Ein Signal vom Schalter SW1 hält eine Takteingabe zum A-D-Konverter 22 für eine bestimmte Zeit durch die Elemente 24, 25 und 26 an. Die Bezugsziffer 24 benennt eine Triggerschaltung, auf die als eine Einzelschritt-Triggerschaltung Bezug genommen wird, 25 eine NICHT-Schaltung und 26 eine UND-Schaltung, welche als ein Gate wirkt, um einen Takt für die A-D-Umwandlung dem A-D-Konverter 22 zu liefern.
  • Ein Zeitablaufbild der Signale im Schaltdiagramm von Fig. 8 ist in Fig. 9 gezeigt. Wenn ein Signal x vom Schalter SW1 der Einzelschritt-Triggerschaltung 24 eingegeben wird, wird ein Impulssignal y mit einer Breite von einigen Sekunden im Trigger 24 erzeugt, und die Operation der Eingabe wird für einige Sekunden angehalten. Der Negationsausgang mit einer Pulsbreite von einigen Sekunden wird von einer NICHT-Schaltung 25 erhalten und einer UND-Schaltung 26, welche eine Gate-Schaltung ist, geliefert.
  • Die Beziehung zwischen einem gegatterten Takt w für die A-D-Umwandlung und jedem Signal wird vom Zeitablaufbild von Figur 9 gezeigt.
  • Figur 10 ist ein Diagramm, welches die Struktur eines Puffers 3 zeigt. Das Ausgangssignal Dj der Eingabeeinheit 2 oder 2' wird, so wie es ist, der Sprachteildetektionseinheit 4 übertragen und zur gleichen Zeit einer Speichereinheit 301 als Schreibdaten geliefert. Ein Takt von der Eingabeeinheit 2 oder 2' wird der Sprachteildetektionseinheit 4, so wie er ist, übertragen und einem Zähler 300 als ein Vorwärtszähltakt geliefert. Der Zähler 300 zählt eine Schreibadresse der Speichereinheit 301. Andererseits empfängt eine Adressensteuereinheit 302 ein erstes Signal ISS, ein zweites Signal IEE und ein drittes Signal STB2. Die Adressensteuereinheit 302 erzeugt die Adressen von ISS bis IEE der Reihe nach unmittelbar nachdem ein Signal STB2 1 wird, und die erzeugten Adressen werden als eine Adresse zum Auslesen der Speichereinheit 301 verwendet. Daten Dk, die aus der Speichereinheit 301 gelesen werden, und ein Takt CLKD werden der Erkennungseinheit 6 übertragen und zur Erkennung angewandt.
  • Figur 11 ist ein Diagramm, welches eine Sprachteildetektionseinheit 4 zeigt, welche gewöhnlich in jeder Ausführungsform verwendet wird.
  • In Fig. 11 wird eine Berechnung einer Energie eines von einem Puffer 3 ausgelesenen Digitalsignals in einer Energieberechnungseinheit 40 jede paar Millisekunden bewirkt, und die erhaltene Sequenz von Energiedaten wird vorübergehend in einem Speicher gespeichert. In einer Inseldetektionseinheit 41 wird in Übereinstimmung mit einer Sprachteildetektionsangabe von einem Schalter SW1 eine Energiezeitserie von der Energieberechnungseinheit 40 ausgelesen, um Inseln zu detektieren, und in einer Unterscheidungseinheit 42 wird ein Abstand jeder erhaltenen Insel unterschieden und ein letzter Sprachabschnitt wird entschieden.
  • Figur 12 ist ein Diagramm, welches eine innere Struktur einer Erkennungseinheit 6 zeigt. Die Signale ISR, IER und STB1 werden einer Puffereinheit 3, so wie sie sind, als die Signale IEE, ISS und STB2 übertragen. Sprachdaten Dk und ein von der Puffereinheit 3 durch die Signale IEE, ISS und STB2 ausgelesener Takt CLKD werden einer Spracherkennungseinheit 600 übertragen, wo die Sprachdaten Dk erkannt werden. Sprachformen, die in einem Sprachformenspeicher 601 gespeichert sind, werden studiert, wenn sie in der Spracherkennungseinheit 600 erkannt werden. Ein Erkennungsergebnis, das in der Spracherkennungseinheit 600 erhalten wird, liefert mögliche Wahlen von einem ersten Platz bis zu einem n-ten Platz. Die möglichen Wahlen des Erkennungsergebnisses werden einer Einheit 7 zur Auswahl der möglichen Wahl und zur Homophonauswahl übermittelt.
  • Figur 13 ist ein Diagramm, welches eine innere Struktur einer Energieberechnungseinheit 40 zeigt, welche gewöhnlich in allen Ausführungsformen der vorigen Erfindung verwendet wird.
  • Die Quadratwerte der Sprachdigitaldaten, die aus dem Puffer 3 ausgelesen werden, werden in der Energieberechnungseinheit akumuliert, und der akumulierte Wert wird als eine Sprachenergie angesehen. Sprachdigitaldaten Dj, die von der Spracheingabeeinheit 2 oder 2' erhalten und im Puffer 3 gespeichert sind, werden einer Adresseneinheit eines Quadratwert-ROMs 400 eingegeben. Sobald ein Quadratwert des Adressenwertes in jeder Adresse des Quadratwert-ROMs 400 gespeichert ist, wird ein Quadratwert von Sprachdigitaldaten als Ausgangsdaten des ROMs 400 erhalten.
  • Ein Addierer 402 und ein Wahlschalter 403 bilden einen Akumulator, welcher einen Quadratwert von Sprachdigitaldaten akumuliert, die vom Quadratwert-ROM 400 erhalten werden, und ein akumulierter Wert wird einer Adresse eines log-Wert-ROMs 404 geliefert. Der log-Wert des akumulierten Wertes wird als Daten des ROMs 404 erhalten, und die log-Wert-Daten werden in einem vorübergehenden Speicher 406 in Sequenz gespeichert. Die vorübergehend gespeicherten Daten Pi werden ausgelesen durch Zuordnen einer Adresse i von einer Inseldetektionseinheit 41, und ein Takt CK1, der vom Puffer 3 erhalten wird, wird in eine Taktfrequenz-Entmuliplikationseinheit 41 eingegeben, wo die Frequenz durch n entmultipliziert (dividiert) wird. Die Beziehung zwischen einem Takt CK1 vom Puffer 3 und einem entmultiplizierten Takt CK2 ist in Fig. 14 gezeigt. Der entmultiplizierte Takt CK2 wird für eine CLEAR-Operation des Akumulators verwendet. Der Wahlschalter 403 wählt nämlich nicht einen akumulierten Wert des Ausgangs des Addierers 402 aus, sondern wird als ein Signal zum Auswählen eines vorbestimmten Wertes 0 geliefert. Der Takt CK2 wird als ein Takt eines Zählers zum Bestimmen einer Adresse eines temporären Speichers 406 verwendet, und als ein Schreibsignal eines temporären Speichers.
  • Die Funktion und der Aufbau einer Inseldetektionseinheit 41 werden von den Fig. 15 bis 17 beschrieben.
  • Fig. 15 ist ein Diagramm, welches die Detektion von Inseln erklärt und den Inhalt eines temporären Speichers 406 in einer Energieberechnungseinheit 40 zeigt. In Fig. 15 zeigt eine horizontale Achse eine Adresse i und eine vertikale Achse zeigt Daten Pi. Die Adresse i spricht auf eine Zeitbasis der Sprache an.
  • In der Inseldetektionseinheit 41 detektieren die Daten Pi kontinuierlich große Teile (das sind Inseln) im folgenden Verfahren. Ein erster Schwellenwert Pth1 und ein zweiter Schwellenwert Pth2 (Pth2 < Pth1) sind früher vorgegeben. Indem größere Teile ((1), (2), (3)) als vorläufige Inseln angenommen werden, wird der "B"-Teil als ein Geräuschteil entfernt, ein Wiederauffinden wird von den vorläufigen Inseln (1), (2) und (3) zu beiden Teilen ausgeführt, direkt vor ihrem Fall unter den Schwellenwert Pth2, und als ein Ergebnis werden ein "A"-Teil und "C"-Teil als Inseln erhalten. Das oben beschriebene Verfahren ist für Hardware nicht geeignet, da auf den Inhalt (Pi) eines temporären Speichers wahlweise zugegriffen wird.
  • Ein Ersatzverfahren des sequentiellen Zugreifens auf den Inhalt Pi des temporären Speichers wird wie folgt beschrieben.
  • Ein Ereignis wird wie folgt beschrieben:
  • Pi &le; Pth2 ist &alpha;,
  • ein Ereignis Pth2 < Pi &le; Pth1 ist &beta;
  • ein Ereignis Pth1 < Pi ist &gamma;
  • Als nächstes werden die vier Zustände S&sub0;, S&sub1;, S&sub2; und S&sub3;, die in Fig. 16 gezeigt sind, betrachtet. Der Zugriff Pi wird sequentiell vom größeren i zum kleineren ausgeführt. In Fig. 16 existiert an einem Startpunkt ein Zustand S&sub0;. Durch Reduzieren von i sequentiell zu jeder Zeit, zu der die Ereignisse &alpha;, &beta; und &gamma; mit Bezug auf Pi erzeugt werden, wird ein Zustandsübergang wiederholt. Wenn der Verarbeitungsinhalt einem Bogen des Zustandsüberganges übergeben wird, wird gleichzeitig die Verarbeitung ausgeführt. Als ein Beispiel der in Fig. 15 gezeigten Energiedaten wird der Zustandsübergang wie folgt beschrieben.
  • Die Verarbeitung wird ab dem Zeitpunkt X in Fig. 15 vorwarts ausgeführt. Gemäß der vorliegenden Erfindung wird erwogen, daß die Zuführung eines Befehlssignals SW1 zu einem Zeitpunkt X in Fig. 15 startet. Dieser Zustand wird zuerst S&sub0;, und zu einem Zeitpunkt X, wenn Pi kleiner ist als Pth2, ist das Ereignis in diesem Fall &alpha;. Das heißt, der Zustand verbleibt S&sub0;. Wie i reduziert wird, tritt das Ereignis &beta; ein und der Zustand verschiebt sich von einem Zustand S&sub0; zu einem Zustand S&sub1;. Der Wert i wird zu diesem Zeitpunkt vorübergehend als eine interne Variable von STMP gespeichert. Da das Ereignis &beta; für einige Zeit anhält, verbleibt der Zustand als Zustand S&sub1;, und ein Ereignis &gamma; tritt ein, und der Zustand verschiebt sich zum Zustand S&sub3;. Zu dieser Zeit wird der Inhalt des vorher gespeicherten STMP in einem inneren Speicher SR gespeichert. Danach dauert eine Teilung von &gamma; einige Zeit (bei einem Teil der vorläufigen Insel in (1)) und der Zustand verbleibt bei S&sub3;. Dann tritt ein Ereignis &beta; ein, um zum Zustand S&sub2; zu verschieben, und nachfolgend tritt ein Ereignis &gamma; ein, um zum Zustand S&sub3; zurückzukehren (bei einem Teil der vorläufigen Insel in (2)). Danach tritt ein Ereignis &beta; wieder ein, um zu einem Zustand S&sub2; zu schieben, und weiter tritt ein Ereignis &alpha; ein, um zu einem Zustand S&sub0; zurückzukehren. Hier wird der Wert i in einer internen Variablen ER gespeichert. Zu diesem Punkt werden die Adressen an beiden Enden einer Insel "A" bei SR und ER erhalten. Beim weiteren Fortschreiten tritt ein Ereignis &beta; ein, um zum Zustand S&sub1; zu schieben und der Wert i wird als eine interne Variable von STMP bei einem Teil "B" gespeichert. Dann, da ein Ereignis &alpha; eintritt, und zum Zustand S&sub0; zurückkehrt, findet es keine Insel "B". Das gleiche Verfahren wird wiederholt ausgeführt für einen Teil einer vorläufigen Insel (3) oder einer Insel "C".
  • Figur 17 ist ein Blockdiagramm einer Hardware, die eine Inseldetektionseinheit verwirklicht.
  • In Fig. 17 benennt eine Bezugsziffer 4111 einen Taktgenerator, in welchem ein Takt erzeugt wird, wenn ein Befehlssignal SW1 geliefert wird, und 4112 benennt einen Zähler, in welchem der Wert i' eines Zählers 405 innerhalb einer Energieberechnungseinheit 40 als ein Anfangswert geladen wird, wenn ein Signal SW1 geliefert wird und durch einen Takt des Taktgenerators 4111 heruntergezählt wird. Der Wert eines Zählers 4112 gibt einen Wert i an einer horizontalen Achse in Fig. 15 an und startet vom Zeitpunkt X und wird weniger und weniger. Gemäß dem Wert i wird der Inhalt Pi eines temporären Speichers 406 in einer Energieberechnungseinheit 40 in Sequenz ausgelesen und einem B&sub0;-Anschluß eines Komparators 4100 und einem B&sub1;-Anschluß eines Komparators 4101 geliefert. Ein Schwellenwert Pth2 wird einem Anschluß A&sub0; eines Komparators 4100 geliefert, verglichen mit dem Inhalt Pi des temporären Speichers 406, und ein Schwellenwert Pth1 wird einem A&sub1;-Anschluß eines Komparators 4101 geliefert und mit Pi verglichen. Der Ausgang B&sub0; &le; A&sub0; des Anschlusses eines Komparators 4100 entspricht einem Ereignis &alpha;. Der Ausgang eines Anschlusses B&sub1; > A&sub1; in einem Komparator 4101 entspricht einem Ereignis &gamma;. In einer UND-Schaltung 4102 wird das logische Produkt eines Ausganges eines Anschlusses B&sub0; > A&sub0; in einem Komparator 4100 und ein Ausgang eines B&sub1; &le; A&sub1;-Anschlusses in einem Komparator 4101 berechnet, um einen Ausgang entsprechend einem Ereignis &beta; zu erhalten. In diesem Fall können &alpha;, &beta; und &gamma; nicht gleichzeitig 1 sein.
  • Die Bezugsziffern 4103 und 4104 sind Flip-Flops, die zum Speichern der in Tabelle 1 gezeigten Zustände S&sub0; bis S&sub3; verwendet werden. TABELLE 1 Beziehung zwischen Zustand und Ausgangssignal des Flip-Flops ZUSTAND
  • Der Zustandsübergang von Fig. 16 wird durch jedes Schaltungselement 4105, 4106, 4107, 4108, 4109 und 4110 realisiert.
  • Nach Empfang des Impulses von einem Signal SW1 werden die Flip-Flops 4103 und 4104 (in der Figur nicht gezeigt) in zu einen Zustand S&sub0; zurückgesetzt. Wie aus dem Zustandsübergangsdiagramm abgeleitet wird, da irgendein Zustand immer zu einem Zustand S&sub0; schiebt, wenn ein Ereignis &alpha; eintritt, ist &alpha; mit einer Rückstelleingabe eines Flip-Flops 4103 über eine ODER- Schaltung 4108 und einer Rückstelleingabe eines Flip-Flops 4104 verbunden.
  • Laut Zustandübergangsdiagramm wird, da irgendein Zustand immer zu einem Zustand S&sub3; schiebt, wenn &gamma; 1 ist, &gamma; sowohl mit einem Stelleingang eines Flip-Flops 4104, als auch mit einem Stelleingang eines Flip-Flops 4103 über eine ODER-Schaltung 4107 verbunden.
  • Da ein Zustand zu einem Zustand S&sub1; schiebt, wenn &beta; in einem Zustand S&sub0; 1 ist, wird ein gegenwärtiger Zustand S&sub0; an einer UND-Schaltung 4109 detektiert, wird ein logisches Produkt aus &beta; und einem Ausgang einer UND-Schaltung 4109 von einer UND- Schaltung 4105 detektiert und wird eine Flip-Flop-Schaltung 4103 durch einen Ausgang einer UND-Schaltung 4105 über eine ODER-Schaltung 4107 gesetzt. Auf diese Weise wird ein Übergang von einem Zustand S&sub0; zu einem Zustand S&sub1; realisiert.
  • Da ein Zustand zu einem Zustand S&sub2; schiebt, wenn &beta; in einem Zustand S&sub3; 1 ist, wird ein gegenwärtiger Zustand S&sub3; von einer UND-Schaltung 4110 detektiert, und weiter wird ein logisches Produkt aus &beta; und einem Ausgang einer UND-Schaltung 4110 von einer UND-Schaltung 4106 detektiert, und dann wird ein Flip-Flop 4103 von einem Ausgang einer UND-Schaltung 4106 über eine ODER-Schaltung 4108 zurückgestellt. Auf diese Weise kann ein Übergang von einem Zustand S&sub3; zu einem Zustand S&sub2; realisiert werden.
  • Die Bezugsziffern 4113, 4114, 4117, 4119 und 4121 benennen drei-Eingang-UND-Schaltungen, und jede Schaltung detektiert einen jeweiligen Übergang (1) bis (5) in einem Zustandübergangsdiagramm in Fig. 16.
  • Eine UND-Schaltung 4113 detektiert nämlich einen Übergang (1), und eine UND-Schaltung 4114 detektiert einen Übergang (2), der Übergang (1) oder (2) wird von einer ODER-Schaltung 4115 detektiert, und wenn ein Übergang (1) oder (2) detektiert ist, wird der Wert i in einem Register 4116 (ER) gespeichert; eine UND-Schaltung 4117 detektiert einen Übergang (3), und wenn ein Übergang (3) detektiert ist, wird der Wert i in einem Register 4118 (STMP) gespeichert; eine UND-Schaltung 4119 detektiert einen Übergang (4), und wenn ein Übergang (4) detektiert ist, wird der Inhalt eines Registers 4118 (STMP) ausgewählt und in einem Register 4125 (SR) gespeichert; und eine UND-Schaltung 4121 detektiert einen Übergang (5), und wenn ein Übergang (5) detektiert ist, wird der Wert i von einem Wahlschalter 4120 ausgewählt und in einem Register 4125 (SR) gespeichert.
  • Eine ODER-Schaltung 4122 liefert den Ausgang einer UND- Schaltung 4119 oder 4121 einem Flip-Flop 4123. Der Flip-Flop 4123 wird von einem Signal eines Schalters SW1 zurückgesetzt und wird von einem Ausgang einer ODER-Schaltung 4122 gesetzt.
  • Der Ausgang des Flip-Flops 4123 ist mit einem Einzelschritt-Trigger 4124 verbunden. Nur ein Takt des Ausganges der ODER-Schaltung 4122 direkt vor dem Signal SW1 wird von den Flip-Flops 4123 und 4124 geliefert und dient als ein Einschreibesignal eines Registers 4125.
  • Die Signale von jeder Einheit CLK, STB, SW1, IE und die Werte der Register ER, SR werden der nächsten Stufe des Diskriminators 42 geliefert.
  • Figur 18 ist ein Diagramm, welches einen inneren Aufbau eines Diskriminators zeigt. Die Bezugsziffer 420 benennt einen Zähler, welcher von einem CLK-Signal eines Inseldetektors 41 vorwärts gezählt und von einer logischen Summe eines STB-Signals und eines IE-Signals gelöscht wird. Die logische Summe eines STB-Signals und eines IE-Signals wird von einer ODER-Schaltung 424 betrieben.
  • Der Zähler 420 zählt die Länge l in Fig. 15 von einem Endpunkt einer Insel zum Startpunkt der nächsten Insel. Wenn die Länge größer ist als THL, ist der Ausgang eines Komparators 421 1, aber um einen unnotwendigen Ausgang eines Komparators 421 als ein Strobe-Signal (STB1) zur Erkennungseinheit 6 zu verhindern, bevor der Endpunkt einer Insel detektiert ist, sind ein Flip-Flop 425 und eine UND-Schaltung 425 vorgesehen.
  • Der Flip-Flop 425 wird von einem Signal von einem Schalter SW1 zurückgesetzt und von einem "IE"-Signal (ein Inseldetektionssignal) gesetzt. Das heißt, daß der Ausgang des Flip-Flops 425 zeigt, daß eine Insel detektiert worden ist, und eine UND-Schaltung 426 gatet den Ausgang des Komparators 421 durch den Ausgang des Flip-Flops 425.
  • Ein Multiplizierer 422 multipliziert den Wert SR mit n, transformiert die Adresse eines temporären Speichers 406 in eine Adresse des Puffers 3, und das transformierte Signal wird der Erkennungseinheit 6 als ein Signal ISR gesendet. Ein Multiplizierer 423 multipliziert den Wert ER mit N und transformiert die Adresse eines temporären Speichers 406 in eine Adresse des Puffers 3, welche der Erkennungseinheit 6 als IER gesendet wird, wo IER als auf eine Startpunktadresse einer Sprache innerhalb eines Puffers 3 Bezug genommen wird und ISR als eine Endpunktadresse einer Sprache innerhalb eines Puffers 3.
  • Das Signal aus der Erkennungseinheit 6 wird, wenn ein Signal STB1 1 ist, in ISR und IER eingebracht, um die Erkennungsoperation zu beginnen.
  • Die Operation einer Einrichtung, die die vorliegende Erfindung verkörpert, wird mit Bezug auf ein Flußbild der Operation in Fig. 19 beschrieben.
  • In Ausführungsformen der Erfindung wird direkt nach der Eingabe der Sprache von einem Mikrophon die stärkste mögliche Wahl eines Erkennungsergebnisses nicht angezeigt, sondern eine Spracheingabe wird digital an einer Eingabeeinheit 2 umgewandelt, und der umgewandelte Ausgang wird einmal in einem Puffer 3 gespeichert, und nur die Anzeige des Speicherendes zum Puffer 3 wird an einer Anzeigeeinheit 8 ausgeführt.
  • Die Operation wird hiernach mit Bezug auf Fig. 19 beschrieben.
  • Beim Schritt S&sub0; wird die Operation der Einrichtung gestartet, und beim Schritt S&sub1; wird eine Spracheingabe in einem Puffer gespeichert.
  • Nach der Speicheroperation wird die Form der Beendigung angezeigt (Schritt S&sub2;). Mit Bezug auf die Anzeige wird zum Beispiel ein flackernder Stern (*) in der Anzeigeeinheit 8 verwendet.
  • Bei einer Stufe "Erwarte Ereignis", das heißt, wenn ein Stimmenereignis und ein Schaltoperationsereignis erwartet wird (Schritt 3'), wird der Schritt 3' sowohl von einem Schritt S&sub3; "ist Sprache vorhanden ?" und einem Schritt S4 "SW1 zugeführt ?" gebildet. Wenn einmal ein Signal SW1 geliefert ist, wird der neue Sprachteil detektiert (Schritt 5); wogegen, wenn ein Signal SW1 nicht geliefert und eine Spracheingabe wieder anwesend ist, schreitet der Vorgang nicht zum Schritt 5 fort, sondern kehrt zum anfänglichen Schritt 1 zurück. Wenn daher zum Beispiel ein Fehler in der Betonung oder wenn Husten auftritt, wird ausreichend Zeit zugelassen, um eine Sprache zu unterscheiden, und danach wird diese Sprache verwendet, um die Sprache mit einer richtigen Betonung einzugeben. In Fig. 15, nach einem Sprachteil C einer falschen Eingabe, wenn eine richtige Sprache eingegeben ist, wird dies zu einem Sprachteil "A" führen. Falls daher ein Signal SW1 geliefert wird, wird zu dieser Zeit ein Signal des neuesten Sprachteils A in der Sprachteildetektionseinheit 4 zur Erkennungseinheit 6 gesendet, wenn l > THL ist. Direkt nachdem nur eine einzelne Schallsprache eingegeben ist, wenn ein Signal SW1 geliefert ist, ist es unnotwendig zu sagen, daß die Einzelschallsprache der Erkennungseinheit 6 gesendet wird, um erkannt zu werden. Wenn der Puffer 3 und der temporäre Speicher 406 voll sind, werden vorher nachfolgende Eingabesprachdaten der Reihe nach übertragen.
  • Sprachdaten, die zur Erkennungseinheit 6 gesendet sind, werden mit Sprachformen verglichen, und die mögliche Wahl mit Priorität, das ist die vorrangreichste, mögliche Wahl, wird ausgegeben (Schritt 6), und das Ergebnis wird auf einer Anzeigeeinheit 8 (Schritt 7) angezeigt. Die resultierende Anzeige wird überprüft, und falls richtig, wird die folgende Spracheingabe bewirkt (Schritt 8'), um zum ursprünglichen Schritt 1 zurückzukehren. Wenn ein Ergebnis den gleichen Schall zeigt, aber ein Homonym und nicht erwartet ist, wird ein Signal SW2 geliefert (Schritt 8') und die nächste mögliche Wahl wird angezeigt (Schritt 7, Schritt 10).
  • Wie im Schritt 3' wird Schritt 8' vom Schritt 8 (Ist Sprache anwesend ?) und Schritt 9 gebildet.
  • Beim Wiederholen der Operation, wenn das erwartete Ergebnis erhalten wird, ohne daß das Signal SW2 geliefert wird, falls die folgende Spracheingabeoperation ausgeführt wird, kehrt der Vorgang zu Schritt 1 zurück, und der Vorgang wird auf eine Eingabeverarbeitung der folgenden Sprache geschaltet.
  • In der zweiten Ausführungsform der vorliegenden Erfindung, falls das Signal SW2 in Schritt 8' (oder Schritt 9) zum Signal SW1 geändert ist, ist die Operation die gleiche, wie in der ersten Ausführungsform.
  • Bezugnehmend auf die dritte Ausführungsform der vorliegenden Erfindung wird ein Vorgang (Schritt 8 und Schritt 9) in einen Vorgang (S&sub1;&sub8; bis S&sub2;&sub0;) geändert, wie in Fig. 20 gezeigt.

Claims (5)

1. Spracherkennungseinrichtung zum Spracherkennen durch Analysieren eines eingegeben, sprachcharakteristischen Abschnitts, der aus der eingegebenen Sprache extrahiert ist, und Vergleichen des extrahierten, charakteristischen Abschnitts mit Sprachformen, welche Einrichtung umfaßt:
Sprachhaltemittel (3) zum Empfangen der eingegebenen Sprache und Speichern der empfangenen, eingegebenen Sprache;
Sprachteildetektionsmittel (4), die mit den Sprachhaltemitteln (3) verbunden sind, zum Detektieren von Teilen der aus den Sprachhaltemitteln (3) gelesenen Sprache; und
Mittel (10; 5, 7; 6, 7) zum Erkennen und zur Auswahl einer möglichen Wahl, welche Mittel mit den Sprachteildetektionsmitteln (4) verbunden sind, zum Erkennen des jüngsten eingegebenen Sprachteilabschnitts und Auswählen eines richtigen Ergebnisses aus den Erkennungsergebnissen der möglichen Wahl;
dadurch gekennzeichnet, daß:
Befehlssignalzuführmittel (SW1) vorgesehen sind, zum Zuführen eines Befehls zum Bestätigen der aus den Sprachhaltemitteln (3) gelesenen Spracheingabe;
welche Sprachteildetektionmsmittel (4) ferner Energieberechnungsmittel (40), Inseldetektionsmittel (41) und Unterscheidungsmittel (42) enthalten;
welche Energieberechnungsmittel (40) eine Energie (Pj) eines aus den Sprachhaltemitteln (3) während einer vorbestimmten Zeitspanne gelesenen digitalen Signals berechnen;
welche Inseldetektionsmittel (41) Sprachinseln durch Auslesen einer Energiezeitserie aus den Energieberechnungsmitteln (40) detektieren;
welche Unterscheidungsmittel (42) einen Abstand jeder detektierten Sprachinsel unterscheiden, wobei ein vorbestimmter Schwellen-(THL)-Wert verwendet wird, um gültige Inseln zu bestimmen und so eine Sprach-Endteilung zu bestimmen, und wobei eine Sprachinsel in eine Richtung umgekehrter Zeit ab einer Zeit ausgelesen wird, in welcher die Befehlssignalzuführmittel betrieben werden;
worin, bei Verwendung, die Befehlssignalzuführmittel (SW1) nach einer Spracheingabe, die erkannt werden soll, betrieben werden, wobei die Erkennungsverarbeitung nur in Gegenwart des Befehlssignals ausgeführt wird, wodurch eine Erkennungsverarbeitung von unrichtiger oder ungewollt eingegebener Sprache vermieden wird.
2. Einrichtung nach Anspruch 1, weiter umfassend Signalzuführmittel zur Auswahl der möglichen Wahl, zum Zuführen eines Signals zur Auswahl der möglichen Wahl an die Mittel (10; 5, 7; 6, 7) zur Erkennung und Auswahl der möglichen Wahl.
3. Einrichtung nach Anspruch 2, in der die Befehlssignalzuführmittel (SW1) gemeinsam mit den Signalzuführmitteln zur Auswahl der möglichen Wahl hergestellt sind.
4. Einrichtung nach Anspruch 3, in der die Eingabe der Eingabesprache unterbrochen wird, wenn eine Auswahloperation von den Signalzuführmitteln zur Auswahl der möglichen Wahl ausgeführt wird.
5. Spracherkennungseinrichtung nach irgendeinem der vorgehenden Ansprüche, in der die Inseldetektionsmittel (41) aus den Energieberechungsmitteln (40) eine Energiezeitserie auslesen, um durch Folgen dieser Energie (Pj) in umgekehrter Richtung, ab einem Auftreten eines Befehlssignals von den Signalzuführmitteln (SW1), Ereignisse zu detektieren, die wie folgt definiert sind:
Pi &le; Pth2 ist &alpha;,
ein Ereignis Pth2 < Pi &le; Pth1 ist &beta;
ein Ereignis Pth1 < Pi ist &gamma;
worin Pth1 und Pth2 vorbestimmte Schwellenwerte sind und als "Inselende" den Wert i bezeichnen, der einem Übergang von einem Ereignis &alpha; zu einem Ereignis &beta; entspricht, unter der Bedingung, daß das Ereignis &beta; von einem Ereignis &gamma; gefolgt wird, und als "Inselanfang" den Wert i, der einem Übergang von einem Ereignis &beta; zu einem Ereignis &alpha; entspricht, folgend der Detektion eines "Inselendes".
DE8888306497T 1987-07-16 1988-07-15 Spracherkennungseinrichtung. Expired - Fee Related DE3879028T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP17777587 1987-07-16

Publications (2)

Publication Number Publication Date
DE3879028D1 DE3879028D1 (de) 1993-04-15
DE3879028T2 true DE3879028T2 (de) 1993-06-24

Family

ID=16036896

Family Applications (1)

Application Number Title Priority Date Filing Date
DE8888306497T Expired - Fee Related DE3879028T2 (de) 1987-07-16 1988-07-15 Spracherkennungseinrichtung.

Country Status (3)

Country Link
US (1) US5058167A (de)
EP (1) EP0302614B1 (de)
DE (1) DE3879028T2 (de)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3045510B2 (ja) * 1989-12-06 2000-05-29 富士通株式会社 音声認識処理装置
US5329609A (en) * 1990-07-31 1994-07-12 Fujitsu Limited Recognition apparatus with function of displaying plural recognition candidates
US5252958A (en) * 1991-09-05 1993-10-12 Daniels John J Method and apparatus for interspecies communication
US5222146A (en) * 1991-10-23 1993-06-22 International Business Machines Corporation Speech recognition apparatus having a speech coder outputting acoustic prototype ranks
WO1993013518A1 (en) * 1991-12-31 1993-07-08 Digital Sound Corporation Voice controlled messaging system and processing method
JPH07210190A (ja) * 1993-12-30 1995-08-11 Internatl Business Mach Corp <Ibm> 音声認識方法及びシステム
US5524169A (en) * 1993-12-30 1996-06-04 International Business Machines Incorporated Method and system for location-specific speech recognition
US5937380A (en) * 1997-06-27 1999-08-10 M.H. Segan Limited Partenship Keypad-assisted speech recognition for text or command input to concurrently-running computer application
CA2303312A1 (en) * 1997-09-24 1999-04-01 Guido Gallopyn Apparatus and method for distinguishing similar-sounding utterances in speech recognition
US20020169597A1 (en) * 2001-03-12 2002-11-14 Fain Systems, Inc. Method and apparatus providing computer understanding and instructions from natural language
JP3947871B2 (ja) * 2002-12-02 2007-07-25 Necインフロンティア株式会社 音声データ送受信方式
EP2309488A1 (de) * 2009-09-25 2011-04-13 Siemens Aktiengesellschaft Spracherkennungsvereindeutigung von homophon endenden Wörtern
CN103076893B (zh) * 2012-12-31 2016-08-17 百度在线网络技术(北京)有限公司 一种用于实现语音输入的方法与设备
WO2016036163A2 (ko) * 2014-09-03 2016-03-10 삼성전자 주식회사 오디오 신호를 학습하고 인식하는 방법 및 장치
CN107844470B (zh) * 2016-09-18 2021-04-30 腾讯科技(深圳)有限公司 一种语音数据处理方法及其设备
JP6822679B2 (ja) 2018-09-13 2021-01-27 Necプラットフォームズ株式会社 電話交換機、保留音通知方法および保留音通知プログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5569880A (en) * 1978-11-22 1980-05-26 Nec Corp Pattern recognition unit
JPS562039A (en) * 1979-06-20 1981-01-10 Fujitsu Ltd Audio input system
US4412098A (en) * 1979-09-10 1983-10-25 Interstate Electronics Corporation Audio signal recognition computer
CH644246B (fr) * 1981-05-15 1900-01-01 Asulab Sa Dispositif d'introduction de mots a commande par la parole.
JPS5870287A (ja) * 1981-10-22 1983-04-26 日産自動車株式会社 音声認識装置
JPS58115497A (ja) * 1981-12-28 1983-07-09 シャープ株式会社 音声認識方法
US4720802A (en) * 1983-07-26 1988-01-19 Lear Siegler Noise compensation arrangement

Also Published As

Publication number Publication date
DE3879028D1 (de) 1993-04-15
US5058167A (en) 1991-10-15
EP0302614A1 (de) 1989-02-08
EP0302614B1 (de) 1993-03-10

Similar Documents

Publication Publication Date Title
DE3879028T2 (de) Spracherkennungseinrichtung.
DE69032282T2 (de) System zur Spracherkennung
DE3339288C2 (de)
DE2351791C2 (de) Datenverarbeitungsanlage
DE2953262C2 (de)
EP0299572B1 (de) Verfahren zur Erkennung von zusammenhängend gesprochenen Wörtern
DE2753277C2 (de) Verfahren und Einrichtung zur Spracherkennung
DE2659096C2 (de)
DE3216800A1 (de) Anordnung zur eingabe von befehlsworten durch sprache
DE2753707A1 (de) Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache
EP0137208B1 (de) Verfahren zur Umwandlung eines Eingangsbitstromes
DE2326517A1 (de) Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern
EP0084592A1 (de) Verfahren und Schaltungsanordnung zur Messung der Zeitdifferenz zwischen Abtastzeitpunkten zweier abgetasteter Signale, insbesondere EIn- und Ausgangssignale eines Abtastratenumsetzers
EP0319078A2 (de) Verfahren zum Bestimmen von Anfangs- und Endpunkt isoliert gesprochener Wörter in einem Sprachsignal und Anordnung zur Durchführung des Verfahrens
DE2803394A1 (de) Verfahren und einrichtung zum ueberwachen des betriebszustandes von rechnergesteuerten werkzeugmaschinen o.dgl.
DE69127134T2 (de) Sprachkodierer
DE3149134A1 (de) Verfahren und vorrichtung zur bstimmung von sprachendpunkten
DE3246432A1 (de) Signalfolge-erkennungsschaltung und diese enthaltender logischer analysator
DE2906519C2 (de) Verfahren zur Analog-Digitalwandlung
DE3587620T2 (de) Logikanalysator.
DE3855972T2 (de) Sprachaufzeichnungsgerät mit Komprimierung von Sprachpausen
DE2720666A1 (de) Verfahren und anordnung zur geraeuschanalyse
DE2908440A1 (de) Vorrichtung zum abtasten einer zeitveraenderlichen signalform
DE2535730A1 (de) Verfahren und vorrichtung zur feststellung vielfrequenter toene
DE3936932A1 (de) Triggersignalerzeuger fuer oszilloskope

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee