DE3645119C2 - Einrichtung zum Feststellen eines Sprachintervalis - Google Patents

Einrichtung zum Feststellen eines Sprachintervalis

Info

Publication number
DE3645119C2
DE3645119C2 DE19863645119 DE3645119A DE3645119C2 DE 3645119 C2 DE3645119 C2 DE 3645119C2 DE 19863645119 DE19863645119 DE 19863645119 DE 3645119 A DE3645119 A DE 3645119A DE 3645119 C2 DE3645119 C2 DE 3645119C2
Authority
DE
Germany
Prior art keywords
speech
frequency range
energy
starting point
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE19863645119
Other languages
English (en)
Inventor
Tetsuya Muroi
Seigou Yasuda
Toshiki Kawamoto
Junichiro Fujimoto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP60197254A external-priority patent/JPS6256999A/ja
Priority claimed from JP19725585A external-priority patent/JPS6257000A/ja
Priority claimed from JP61061726A external-priority patent/JPS62217296A/ja
Priority claimed from JP61089138A external-priority patent/JPS62244100A/ja
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to DE19863630518 priority Critical patent/DE3630518C2/de
Priority claimed from DE19863630518 external-priority patent/DE3630518C2/de
Application granted granted Critical
Publication of DE3645119C2 publication Critical patent/DE3645119C2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Description

Die Erfindung betrifft eine Einrichtung zum Feststellen eines Sprachintervalls nach dem Patentanspruch 1.
Aus der DE 31 01 483 A1 ist ein Datenerkennungsdetektor in Verbindung mit einer zeitabhängigen Sprechinterpoliereinrichtung bekannt, wobei ein Datensignal und ein interaktives Signal abwechselnd übertragen werden. Das Datensignal wird in einem Pufferspeicher gespeichert und wenn ein Sprecher nicht unmittelbar spricht, d. h. also kein interaktives Signal übertragen wird, so wird ein Sendesignal übertragen. Es ergibt sich aufgrund dieser bekannten Technik die Forderung, zwischen einem Datensignal und einem interaktiven Signal unterscheiden zu können, was hier mit Hilfe einer Energiekomponente der Frequenz realisiert wird. Wenn beispielsweise die Hauptenergiekomponente der Frequenz gleich ist oder kleiner ist als 1000 Hz wird bestimmt, daß es sich um ein interaktives Signal handelt, während, wenn die Frequenz von 1000 Hz überschritten wird, bestimmt wird, daß es sich um ein Datensignal handelt.
Aus der DE-OS 23 47 738 ist bereits ein Spracherkennungsverfahren und Vorrichtung zur Durchführung desselben bekannt. Gemäß diesem bekannten Verfahren werden zunächst in ein Gerät Übungswörter eingesprochen und gespeichert. Anschließend wird ein Befehlswort eingegeben und eine Korrelationsfunktion durchgeführt, um die Ähnlichkeit zwischen dem Befehlswort und dem Übungswort festzustellen. Das wesentliche des bekannten Verfahrens besteht aus der Realisierung eines Merkmalsauszugs von empfangenen Eingabewörtern und der Erzeugung digitaler Merkmalsausgabesignale auf speziellen Leitungen von einer Anzahl von Merkmalsausgabeleitungen. Die Merkmalssignale, welche während eines Übungswortes auftreten, werden in Form einer zeitabhängigen Matrix in einer Speichereinrichtung gespeichert. Ferner werden auch Merkmalssignale, welche während eines Befehlswortes auftreten, als zeitabhängige Matrix gespeichert. Mit Hilfe einer Vergleichseinrichtung wird die Befehlswort- Matrix mit jeder Übungswort-Matrix verglichen und es wird eine Korrelationsziffer erzeugt, welche das Ergebnis des Vergleichs wiedergibt bzw. das Ausmaß der Übereinstimmung anzeigt. Die Vorrichtung zur Durchführung dieses bekannten Verfahrens umfaßt unter anderem eine Einrichtung, um bei gegeneinander verschobenen Zeitskalen einen Vergleich zwischen der Befehlswort-Matrix und jeder Übungswort-Matrix durchzuführen, um eine zusätzliche Korrelationsziffer zu bilden, welche das Ergebnis dieses Vergleiches wiedergibt.
Zur Gewinnung der Befehlswort-Matrix und auch der Übungswort- Matrix gelangen Filterbänke bzw. Tiefpaßfilterbänke zur Anwendung. Somit wird sowohl das Befehlswort als auch das Übungswort in einzelnen Frequenzbereichabschnitten verarbeitet.
Es ist ferner auch bekannt, eine eingehende Sprachinformation zurückzuweisen, wenn ihr Sprachintervall zu kurz ist, da dies zu Schwierigkeiten bei dem Vergleichsvorgang bzw. der Identifizierung eines Sprachlautes oder Sprachwortes führt. Wenn beispielsweise unbekannte Sprachdaten, die registriert oder identifiziert werden sollen, in ihrem Schallpegel zu niedrig liegen, führt auch dies zu einer Schwierigkeit bei der Identifizierung oder Registrierung der unbekannten Sprachdaten. Es ist daher wünschenswert, die Behandlung solcher Sprachdaten zurückzuweisen, deren Schallpegel zu niedrig liegt.
Die der Erfindung zugrundeliegende Aufgabe besteht darin, eine Einrichtung zum Feststellen eines Sprachintervalls zu schaffen, die unabhängig von den Anfangsbuchstaben eines gesprochenen Wortes oder gesprochenen Lautes den Beginn des gesprochenen Wortes oder gesprochenen Lautes eindeutig festzulegen vermag, um dadurch insgesamt die Spracherkennung zu verbessern.
Diese Aufgabe wird erfindungsgemäß durch die im Patentanspruch 1 aufgeführten Merkmale gelöst.
Besonders vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung ergeben sich aus den Unteransprüchen 2 bis 6.
Im folgenden wird die Erfindung anhand von Ausführungsbeispielen unter Hinweis auf die Zeichnung näher erläutert. Es zeigt
Fig. 1 ein Blockschaltbild einer Einrichtung zum Identifizieren eines Sprechmusters mit Merkmalen nach der Erfindung, die mit einer Funktion zum Annullieren von Sprachdaten versehen ist und in Übereinstimmung mit einem weiteren Ausführungsbeispiel der vorliegenden Erfindung aufgebaut ist;
Fig. 2 ein Wellendiagramm, das zur Erläuterung der Wirkungsweise der in Fig. 1 gezeigten Einrichtung dient;
Fig. 3 ein Blockschaltbild, das eine Einrichtung zum Ermitteln eines Sprechintervalls zeigt, die ein Energiedifferenzspektrum benutzt, und zwar zur Verwendung bei der Identifizierung von Sprache, und in Übereinstimmung mit einem noch weiteren Ausführungsbeispiel mit Merkmalen nach der Erfindung aufgebaut ist;
Fig. 4a, 4b, 5a, 5b jeweils ein Wellendiagramm, das zur Erläuterung der Wirkungsweise der in Fig. 3 gezeigten Einrichtung dient;
Fig. 6 ein Blockschaltbild, das eine Einrichtung zum Ermitteln eines Sprechintervalls zur Verwendung bei der Identifizierung von Sprache enthält, die in Übereinstimmung mit einem noch weiteren Ausführungsbeispiel mit Merkmalen nach der Erfindung aufgebaut ist;
Fig. 7 und 8 Darstellungen, die zur Erläuterung der Wirkungsweise der in Fig. 6 gezeigten Einrichtung dienen;
Fig. 9 ein Blockschaltbild, das eine Einrichtung zum Ermitteln eines Sprechintervalls zur Verwendung bei der Identifizierung von Sprache enthält, die durch Abänderung der in Fig. 6 gezeigten Anordnung aufgebaut ist;
Fig. 10 eine Darstellung, die zeigt, wie die Fig. 10a und 10b kombiniert werden sollen;
Fig. 10a und 10b jeweils ein Blockschaltbild, die, wenn sie wie in Fig. 10 gezeigt, kombiniert sind, eine Einrichtung zum Identifizieren von Sprache zeigen, die in Übereinstimmung mit einem noch weiteren Ausführungsbeispiel mit Merkmalen nach der Erfindung aufgebaut ist;
Fig. 11 eine Darstellung, die zeigt, wie die Fig. 11a und 11b kombiniert werden sollen; und
Fig. 11a und 11b jeweils ein Blockschaltbild, die, wenn sie kombiniert sind, wie in Fig. 11 dargestellt ist, eine Einrichtung zum Identifizieren von Sprache zeigen, die in Übereinstimmung mit einem noch weiteren Ausführungsbeispiel mit Merkmalen nach der Erfindung aufgebaut ist.
Wenn ein unbekannter Sprachlaut, der identifiziert werden soll, in eine Einrichtung zum Erkennen und Registrieren von Sprache eingegeben wird, und wenn der Entstehungsort eines Sprachlautes oder Sprachwortes fern von der Einrichtung angeordnet ist und/oder der Sprachlaut in seiner Lautstärke zu leise ist, kann sein Sprachintervall nicht genau bestimmt werden. In einem solchen Fall kann ein Sprechblock, der in der Sprachenergie niedrig ist, bei einem eingehenden Sprechmuster verlorengehen, so daß dies hinderlich ist, eine genaue Bibliothek zu erstellen und/oder eine genaue Identifizierung eines unbekannten Sprachlautes durchzuführen. Es ist somit erwünscht, daß, wenn der Pegel eines unbekannten Lautes zu leise oder zu laut ist, der unbekannte Laut zurückgewiesen und somit daran gehindert wird, durch eine Einrichtung zur Verarbeitung von Sprache behandelt zu werden, wie etwa eine Einrichtung zum Registrieren und/oder Erkennen von Sprache.
Fig. 1 zeigt in Blockdarstellung ein Beispiel einer solchen Einrichtung zum Behandeln von Sprache, die mit einer Funktion zum Annullieren eines Sprachmusters versehen ist. Wie gezeigt, weist die dargestellte Einrichtung zum Behandeln von Sprache ein Mikrofon 1 zum Umwandeln eines Sprachlauts in Form einer Druckwelle in ein elektrisches Sprachsignal auf. An das Mikrofon 1 ist ein Vorprozessor 12 angeschlossen, der das Sprachsignal aus dem Mikrofon 1, typischerweise in Form eines Schwachstroms, in einer bestimmten Weise verarbeitet. Der Vorprozessor hat beispielsweise eine Funktion etwa der Verstärkung, des Frequenzausgleichs, der automatischen Verstärkungsregelung bzw. des Schwundausgleichs oder der Vorverzerrung. Die Einrichtung weist auch eine Merkmals-Extraktionseinrichtung 13 auf, um ein vorbehandeltes Sprachsignal aufzunehmen und um bestimmte Merkmale hiervon zu extrahieren. Der Merkmal-Extraktor 13 kann beispielsweise einen Frequenzanalysator aufweisen, der mehrere Bandpaßfilter aufweist, und einen Binärcodewandler, so daß das Sprachsignal in ein Sprachmuster in Form einer Zeit-Frequenz-Verteilung umgewandelt wird. Das Sprachmuster (die Merkmalsdaten) wird dann der Identifizierungseinheit 17 zugeführt. Andererseits werden die Ausgänge aus den jeweiligen Bandpaßfiltern aufaddiert und ihre Summe wird als Sprachenergie definiert, welche dem Sprechintervall-Detektor 14 als das die Energie kennzeichnende Signal zugeführt wird.
Dieses Signal wird dann einem Stärkerechner 15 zugeführt, wo das Signal in Zuordnung zu einem Sprechintervallsignal addiert wird, welches von dem Sprechintervall-Detektor 14 zugeführt wurde. Das aufaddierte Ergebnis wird dann einem Vergleicher 16 zugeführt, wo der addierte Wert für die Energie verglichen wird mit einem Bezugswert, und ein Annullierungssignal zum Annullieren der weiteren Verarbeitung des Sprechmusters wird der Identifizierungseinheit 17 zugeführt, und zwar in Abhängigkeit vom Ergebnis des Vergleichs. Wenn kein solches Anullierungssignal der Identifizierungseinheit 17 zugeführt wird, dann führt die Identifizierungseinheit 17 eine Vergleichstätigkeit zwischen dem Sprechmuster (Merkmalsdaten), das vom Merkmalsextraktor 13 empfangen wurde, und aufgezeichneten Sprechbezugsmustern in einer Bibliothek 18 durch, und jenes Sprechmuster, das die beste Ähnlichkeit aufweist, wird der Ausgangseinheit 19 zugeführt.
Nun wird die Wirkungsweise der Anordnung, die in Fig. 1 gezeigt ist, noch detaillierter und im einzelnen unter Bezugnahme auf Fig. 2 beschrieben. In Fig. 2 ist die Kurve A die umhüllende für die Sprachenergie und die Kurve B ist ein Sprechintervall-Signal, wobei Th und Pth die jeweiligen Schwellenwerte anzeigen. Wenn nun das eingehende Sprachsignal A die Sprechintervall-Schwelle Th überschreitet, dann wird der Beginn eines Sprechintervalls ermittelt, so daß das Sprechintervallsignal B auf einen hohen Pegel überwechselt. Während das Sprechintervall-Signal B sich auf dem hohen Pegel befindet, werden die Merkmalsdaten (das Sprechmuster) der Identifizierungseinheit 17 bei einem bestimmten Zeitintervall Rahmen um Rahmen zugeführt, und gleichtzeitig wird das Sprachenergiesignal, das vom Merkmalsextraktor 13 zugeführt wird, überwacht. Wenn das Sprachsignal A eine bestimmte Schwelle Pth überschreitet, wird das Sprachsignal A kumulativ Rahmen um Rahmen über eine bestimmte Anzahl n von Rahmen durch den Stärkerechner 15 aufaddiert. Der addierte Wert V(t) wird dann dem Ver­ gleicher 16 zugeführt, wo der aufaddierte Wert V(t) mit einer Gruppe aus einem bestimmten oberen und unteren Grenzwert Lth bzw. Hth verglichen wird. Wenn das Ergebnis des Vergleiches zeigt, daß der aufaddierte Wert V(t) gleich oder kleiner ist als der untere Grenzwert Lth oder größer ist als die obere Grenze Hth, dann wird ein Annullierungssignal der Identifizierungseinheit 17 zugeführt, wobei das Sprechmuster annulliert wird. Obwohl nicht speziell gezeigt, kann bevorzugt eine solche Anordnung gewählt sein, daß die Abgabe eines solchen Annullierungssignales eine Anzeige erregt, um anzuzeigen, daß das Sprechmuster annulliert wurde.
Eine andere Anordnung kann auch so ausgebildet sein, daß das Sprachsignal A kumulativ über das gesamte Sprechsignal hinweg aufaddiert wird, d. h., während sich das Sprechintervallsignal auf einem hohen Pegel befindet, und dann wird der aufaddierte Wert durch die Gesamtzahl von Rahmen über das gesamte Sprechsignal hinweg dividiert, um eine mittlere Sprachenergie zu ermitteln. Diese mittlere Sprechenergie wird dann mit einer Gruppe aus einem bestimmten oberen und unteren Grenz-Bezugswert verglichen, um zu bestimmen, ob die mittlere Sprachenergie noch innerhalb eines bestimmten Bereiches liegt oder nicht.
Falls der Schwellenwert Pth konstant ist, könnte, wenn der Pegel des Hintergrundgeräusches zunimmt, die Annullierungsfunktion in unerwünschter Weise vom Hintergrundgeräusch beeinträchtigt werden. Um einer solchen Situation zu begegnen, kann auch eine solche Anordnung getroffen werden, daß die Schwelle Pth und der obere und untere Grenz-Bezugswert Hth bzw. Lth in einer vorbestimmten Weise geändert werden. Als Beispiel können diese Schwellenwerte Pth, Lth und Hth in Abhängigkeit vom Niveau N(t) der Hintergrundstärke am Ende des vorausgehenden Sprachlauts geändert werden, wie dies unten bezeichnet ist:
Pth = K₁ (N(t)) + Pc
Lth = K₂ (N(t)) + Lc
Hth = K₃ (N(t)) + Hc
Hier sind Pc, Lc und Hc Konstante.
Nun ist es zum Erkennen von Sprachlauten oder Sprachworten erforderlich, ein Sprechintervall für den Sprachlaut oder das Sprachwort zu bestimmen, der bzw. die identifiziert werden soll. In diesem Fall ist die Ermittlung des Beginns oder Ausgangspunkts des Sprachlautes oder des Sprachwortes, der bzw. das identifiziert werden soll, kritisch. Insbesondere dann, wenn der zu bestimmende Sprachlaut mit einem Konsonanten beginnt, ist es wesentlich, daß sein Ausgangspunkt genau ermittelt wird. Ein Weg zur Ermittlung des Ausgangspunktes eines Sprechintervalls ist es, die Größe eines Energiedifferenzspektrums zu überwachen. Fig. 3 zeigt in Blockdarstellung eine Einrichtung zum Ermitteln des Beginns eines Sprachlauts unter Verwendung des Energiedifferenzspektrums. Wie gezeigt, weist die Einrichtung das Mikrofon 1, den Vorprozessor 12, das Bandpaßfilter 23, einen Stärkedifferenzgenerator 26, einen Ausgangspunktvergleicher 27 und einen Sprechintervallgenerator 28 auf. Mit dieser Anordnung wird Sprache in Form einer Druckwelle in das Mikrofon 1 eingegeben, welches ein umgewandeltes elektrisches Sprechsignal liefert, welches seinerseits durch mehrere Bandpaßfilter 23 verarbeitet wird, die im Frequenzbereich unterschiedlich sind, und zwar bei einem bestimmten Abfragezyklus, so daß jedes der Bandpaßfilter 23 an seinem Ausgang eine Kanal-Sprachenergie liefert. Wenn somit beispielsweise 29 Kanäle vorliegen, werden zu jedem Zeitintervall 29 Kanal-Sprachenergieausgänge erzeugt. Diese Ausgänge der Kanalsprachenergie bzw. der segmentierten Sprachenergie werden dem Stärkedifferenzgenerator 26 parallel zugeführt, wo eine Differenz zwischen jedem der Kanalsprachenergieausgänge und der entsprechenden der letzten vorangehenden Kanalsprachenergienausgänge errechnet wird, und diese Unterschiede werden zusammenaddiert, um ein Energiedifferenzspektrum zu bestimmen. Dann wird das resultierende Energiedifferenzpektrum verglichen mit einem bestimmten Schwellenwert und wird herausgefunden, daß es ihn überschreitet, wird beschlossen, daß dies der Ausgangspunkt oder Beginn des Sprachlautes ist. Nach Bestimmung des Ausgangspunktes des Sprachlautes wird die Sprachenergie überwacht und ein Sprechintervall wird als Zeitperiode bestimmt, während welcher die Sprachenergie gleich ist einer bestimmten Sprachenergie-Schwelle oder darüber liegt.
Dieser Gesichtspunkt wird dataillierter unter spezieller Bezugnahme auf die Fig. 4a, 4b, 5a und 5b beschrieben. Die Fig. 4a und 5a zeigen zwei unterschiedliche Sprachenergiesignale und Fig. 4b und 5b zeigen die jeweiligen Energiedifferenzsignale. Fig. 4a ist ein Sprachenergiesignal für eine Sprache, die mit einem Vokal beginnt, so daß das Energiedifferenzsignal, das in Fig. 4b gezeigt ist, am Anfang eine verhältnismäßig abrupt ansteigende Neigung aufweist. Andererseits zeigt die Fig. 5a ein Sprachenergiesignal für eine Sprache, die mit einem Konsonant beginnt, so daß das Sprachdifferenzsignal, das in Fig. 5b gezeigt ist, keine abrupt ansteigende Neigung am Beginn aufweist. In dem in Fig. 5b gezeigten Fall wird, wenn die rechtzeitige Ermittlung am Punkt (a) nicht gelungen ist, die nächste Ermittlung am Punkt (b) rechtzeitig bewirkt, in welchem Fall der Konsonant am Anfang insgesamt verlorengegangen wäre. Diese Neigung ist deutlich für eine Sprache, die mit einem Konsonanten beginnt, z. B. "s", "p", "t", "m" oder "n".
Fig. 6 zeigt in Blockdarstellung eine verbesserte Einrichtung für die hoch genaue Ermittlung eines Sprechsignals, und zwar insbesondere für den Beginn eines Sprachlauts. Diese Einrichtung ist so ausgebildet, daß sie selbst einen Konsonantenblock stabil ermittelt, und sie ist auf der Grundlage aufgebaut, daß herausgefunden wurde, daß Konsonanten, wie etwa "s", "p" und "t" eine Konzentration der Sprachenergie im Hochfrequenzbereich aufweisen, während Konsonanten, wie etwa "M" und "N" eine Konzentration der Sprachenergie im Niederfrequenzbereich aufweisen. Zu diesem Zweck werden die Ausgänge aus einer Anzahl von Bandpaßfiltern, die im Frequenzbereich unterschiedlich sind, in drei Bereiche unterteilt, und zwar Bereiche mit hoher, mittlerer und niedriger Frequenz. Die Sprachenergiewerte dieser drei Bereiche werden miteinander nur zur Ermittlung des Ausgangspunktes eines Sprachlautes oder Wortes bestimmt.
Wie in Fig. 6 gezeigt, weist die dargestellte Einrichtung ein Mikrofon 1, einen Vorprozessor 12, mehrere Bandpaßfilter 23, einen Sprachstärkegenerator 24, einen Hochfrequenzbereich- Sprachstärkegenerator 35, einen Mittelfrequenzbereich- Sprachstärkegenerator 36, einen Niederfrequenzbereich- Sprachstärkegenerator 37, einen Stärkedifferenzgenerator 26, einen Vergleicher 25, einen Sprachstärkevergleicher 30 und einen Intervallgenerator 28 auf. Es muß vermerkt werden, daß diese Elemente, die identisch mit jenen sind, die in dem vorangehenden Ausführungsbeispiel gezeigt sind, mit identischen Bezugszeichen bezeichnet sind, soweit nichts anderes vermerkt ist. Es muß jedoch vermerkt werden, daß beispielsweise die Bandpaßfilterbank 23 eine Anzahl von Bandpaßfiltern aufweist, die im Frequenzbereich unterschiedlich sind, wobei jedes Filter einen individuellen Kanal bildet, und die Anzahl von Bandpaßfiltern in drei Kategorien unterteilt sind, nämlich Bereiche mit niedriger, mittlerer und hoher Frequenz. Wenn beispielsweise die Bandpaßfilterbank 23 15 Kanäle aufweist, die von 250 Hz bis 6,35 kHz reichen, mit der Mittelfrequenz von 1 kHz, dann bilden die ersten drei Kanäle den Niederfrequenzbereich und die letzten drei Kanäle bilden den Hochfrequenzbereich, wobei die übrigen den Mittelfrequenzbereich bilden.
Bei dieser Anordnung bestimmt, wenn ermittelt wird, daß die Sprachenergie des Hochfrequenzbereichs, der vom Generator 35 abgegeben wird, höher liegt als ein bestimmter Schwellenwert Thoch, und auch ermittelt wird, daß sie größer ist als die Sprachenergie des Niederfrequenzbereichs, die vom Generator 37 ausgeht, der Stärkevergleicher 30, daß ein solcher Konsonant wie "s", "p" oder "t" begonnen hat. Dies ist der Fall bei der Ermittlung eines Konsonanten mit der Konzentration der Sprachenergie im Hochfrequenzbereich. Wenn andererseits die Sprachenergie des Niederfrequenzbereichs aufgrund der Ermittlung höher ist als ein bestimmter Schwellenwert T und auch ermittelt wurde, daß sie größer ist als die Sprachenergie im Hochfrequenzbereich, dann bestimmt der Sprachstärkevergleicher 30, daß ein solcher Konsonant, wie "M" oder "N", begonnen hat. Dies ist der Fall bei der Ermittlung eines Konsonanten, der eine Konzentration der Sprachenergie im Niederfrequenzbereich aufweist. Fig. 7 stellt die Verteilung der Sprachenergie für Konsonanten "s", "p" und "t" und Fig. 8 jene für Konsonanten "M" und "N" dar.
Wie in Fig. 6 gezeigt, ist auch ein ODER-Gatter 41 vorgesehen, dessen einer Eingangsanschluß an den Ausgangsan­ schluß des Stärkevergleichers 30 und dessen anderer Eingangsanschluß an den Ausgangsanschluß des Stärkedifferenzgenerators 26 sowie dessen Ausgangsanschluß an den Intervallgenerator 28 angeschlossen ist. Bei dieser Anordnung wird, wenn die Konzentration der Sprachenergie im Nieder- oder Hochfrequenzbereich nicht ermittelt wurde, wie oben beschrieben, dann das Energiedifferenzspektrum verwendet, um einen Ausgangspunktimpuls zu erzeugen. Somit kann die Ermittlung des Ausgangspunkts von Sprache durch die vor­ liegende Einrichtung für jede mögliche Sprache oder jeden möglichen Sprachlaut durchgeführt werden.
Fig. 9 zeigt in Blockdarstellung eine Einrichtung zum Ermitteln des Ausgangspunkts von Sprache oder einem Sprachlaut, welche eine Abwandlung der in Fig. 6 gezeigten Anordnung ist. Diese Einrichtung ist in vielerlei Hinsicht ähnlich der in Fig. 6 gezeigten Einrichtung, mit Ausnahme der Anordnung eines Flip-Flop 42 und eines UND-Gatters 43 sowie des Umstands, daß der Stärkevergleicher 30 die zusätzliche Funktion aufweist, einen Zischlaut zu ermitteln. Der Flip-Flop 42 ist mit seinem Eingangsanschluß an den Ausgangsanschluß des ODER-Gatters 41 angeschlossen, und sein Ausgangsanschluß ist an einen Eingangsanschluß des UND-Gatters 43 angeschlossen, welches mit seinem anderen Eingangsanschluß an den anderen Ausgangsanschluß des Stärkevergleichers 30 und mit seinem Ausgangsanschluß an den Intervallgenerator 28 angeschlossen ist.
Im Fall der Ermittlung eines Sprechintervalls mit der in Fig. 6 gezeigten Einrichtung, und zwar insbesondere für ein Wort, das mit einem Konsonanten, wie "M" und "N", beginnt, der eine Konzentration im Niederfrequenzbereich aufweist, besteht die Neigung, den Zischabschnitt zu ermitteln, der unmittelbar vor einem stimmhaften Laut vorliegen kann. Als Ergebnis besteht die Möglichkeit, daß eine unnötige Information bei der Ermittlung eines Sprechintervalls hinzuaddiert wird. Es weist jedoch der Zischlaut solche Merkmale auf, wie eine erhöhte Konzentration der Sprachenergie in einem noch niedrigeren Frequenzbereich und ein niedrigeres Niveau der Sprachenergie. Das heißt, selbst wenn die Sprachstärke des Niederfrequenzbereichs nach der Ermittlung größer ist als die anderen beiden Bereiche und diese Information dem Flip- Flop 42 vom Stärkevergleicher 30 durch das ODER-Gatter 41 zugeführt wird, wird die Ermittlung des Ausgangspunktes eines Wortes nicht bewirkt, solange nicht ermittelt wird, daß die Sprachenergie im Niederfrequenzbereich größer ist als eine bestimmte Schwelle Tbazz. Wenn somit die Sprachenergie des Niederfrequenzbereichs kleiner ist als Tbazz, dann wird kein Zischlautimpuls mit niedrigem Pegel dem UND- Gatter 43 zugeführt und somit auch kein Sprechintervallimpuls erzeugt. Der Sprechintervallimpuls wird nur dann erzeugt, wenn die Ermittlung des Ausgangspunkts der Sprache am Flip-Flop 42 vorliegt, und der Zischlautimpuls mit hohem Pegel dem UND-Gatter 43 zugeführt wird.
Die Fig. 10a und 10b zeigen, wenn sie kombiniert sind, wie in Fig. 10 gezeigt, in Blockdarstellung ein anderes Ausführungsbeispiel mit Merkmalen nach der vorliegenden Erfindung, welches eine Kombination des in Fig. 1 gezeigten Ausführungsbeispiels mit dem in Fig. 6 gezeigten Ausführungsbeispiel ist. Zusätzlich zeigen die Fig. 11a und 11b, wenn sie kombiniert sind, wie in Fig. 11 gezeigt, in Blockdarstellung ein weiteres Ausführungsbeispiel mit Merkmalen nach der vorliegenden Erfindung, welches eine Kombination des in Fig. 1 gezeigten Ausführungsbeispiels mit dem in Fig. 8 gezeigten Ausführungsbeispiel ist. Es ist ersichtlich, daß die in Fig. 10 und 11 gezeigten Ausführungsbeispiele dadurch aufgebaut sind, daß man die Annullierungsfunktion, die in Fig. 1 gezeigt ist, zu den Ausführungsbeispielen hinzufügt, die in den Fig. 6 bzw. 8 gezeigt sind.

Claims (6)

1. Einrichtung zum Feststellen eines Sprachintervalls mit einem Vorprozessor (12) und Bandpaßfiltern (23) zur Analyse der Frequenz und zur Bildung von Frequenzbereichen einer eingegebenen Sprache, und mit einem Sprachstärke-Generator (24, 35, 36, 37) zum Erzeugen einer Sprachenergie in jedem Frequenzbereich der Ausgangsgröße der Bandpaßfilter (23), mit einer Sprachstärke-Vergleichseinrichtung (25, 30) zum Vergleichen der Sprachenergie eines Hochfrequenzbereiches mit der Sprachenergie eines Niederfrequenzbereiches jedes der Frequenzbereiche, mit einem Stärkedifferenzgenerator (26) zur Erzeugung der Differenz zwischen diesen Sprachenergien, und mit einer Einrichtung (in 30) zum Feststellen der Anfangsstelle eines Sprachintervalls, welche die Anfangsstelle bestimmt, wenn die genannte Differenz einen vorgegebenen Wert überschreitet.
2. Einrichtung nach Anspruch 1, dadurch gekennzeichnet, daß dem unteren Frequenzbereich eine bestimmte Anzahl der Bandpaßfilter zugeordnet ist und daß dem Hochfrequenzbereich eine weitere bestimmte Anzahl von Bandpaßfiltern zugeordnet ist.
3. Einrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die Bandpaßfilter zur Erfassung eines mittleren Frequenzbereichs zwischen dem Hoch- und Niederfrequenzbereich des Sprechmusters angeordnet sind.
4. Einrichtung nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß der Stärkedifferenzgenerator (26) als Recheneinrichtung zum Errechnen eines Energie- Differenzspektrums und zum Bestimmen eines Ausgangspunkts für das Sprechintervall ausgebildet ist, um herauszufinden, ob das Energie-Differenzspektrum größer ist als ein bestimmter Wert, und daß ein ODER-Gatter (41) vorgesehen ist mit einem ersten Eingangsanschluß zur Aufnahme eines Ausgangssignals von der Vergleichseinrichtung (30), einem zweiten Eingangsanschluß zur Aufnahme eines Ausgangssignals aus der Recheneinrichtung (26) und einem Ausgangsanschluß zum Abgeben eines Ausgangspunkt-Impulses, der den Ausgangspunkt des Sprechintervalls anzeigt.
5. Einrichtung nach einem der Ansprüche 1 bis 4, gekennzeichnet durch eine Verhinderungseinrichtung (26, 30, 41), um das Ausgangspunktsignal zu verhindern, wenn die Vergleichseinrichtung (30) herausfindet, daß die Sprachenergie des Hochfrequenzbereichs größer ist als die Sprachenergie des Niederfrequenzbereichs und des Mittelfrequenzbereichs, aber kleiner als ein bestimmter Schwellenwert ist.
6. Einrichtung nach Anspruch 5, dadurch gekennzeichnet, daß die Verhinderungseinrichtung ein UND-Gatter (43) aufweist mit einem ersten Eingangsanschluß zur Aufnahme eines Verhinderungssignals aus der Vergleichseinrichtung (30), einem zweiten Eingangsanschluß zur Aufnahme des Ausgangspunktsignals und einem Ausgangsanschluß zum Abgeben eines Ausgangspunktimpulses.
DE19863645119 1985-09-06 1986-09-08 Einrichtung zum Feststellen eines Sprachintervalis Expired - Lifetime DE3645119C2 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE19863630518 DE3630518C2 (de) 1985-09-06 1986-09-08 Einrichtung zum lautweisen Identifizieren eines Sprechmusters

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP60197254A JPS6256999A (ja) 1985-09-06 1985-09-06 パタ−ン登録方式
JP19725585A JPS6257000A (ja) 1985-09-06 1985-09-06 音声認識装置
JP61061726A JPS62217296A (ja) 1986-03-19 1986-03-19 音声認識装置の入力キヤンセル法
JP61089138A JPS62244100A (ja) 1986-04-17 1986-04-17 音声区間検出方式
DE19863630518 DE3630518C2 (de) 1985-09-06 1986-09-08 Einrichtung zum lautweisen Identifizieren eines Sprechmusters

Publications (1)

Publication Number Publication Date
DE3645119C2 true DE3645119C2 (de) 1991-06-06

Family

ID=37440537

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19863645119 Expired - Lifetime DE3645119C2 (de) 1985-09-06 1986-09-08 Einrichtung zum Feststellen eines Sprachintervalis

Country Status (1)

Country Link
DE (1) DE3645119C2 (de)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2347738A1 (de) * 1972-09-21 1974-03-28 Threshold Tech Spracherkennungsverfahren und vorrichtung zur durchfuehrung desselben
DE3101483A1 (de) * 1980-01-24 1981-12-03 Storage Technology Corp., 80027 Louisville, Col. Datenerkennungsdetektor bei einer zeitabhaengigen sprechinterpoliereinrichtung

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2347738A1 (de) * 1972-09-21 1974-03-28 Threshold Tech Spracherkennungsverfahren und vorrichtung zur durchfuehrung desselben
DE3101483A1 (de) * 1980-01-24 1981-12-03 Storage Technology Corp., 80027 Louisville, Col. Datenerkennungsdetektor bei einer zeitabhaengigen sprechinterpoliereinrichtung

Similar Documents

Publication Publication Date Title
DE3750314T2 (de) Sprachprozessor.
DE69926851T2 (de) Verfahren und Vorrichtung zur Sprachaktivitätsdetektion
DE2953262C2 (de)
DE3884880T2 (de) Billige Spracherkennungseinrichtung und Verfahren.
DE3645118C2 (de)
DE69420183T2 (de) Verfahren und Vorrichtung zur Sprachkodierung und Sprachdekodierung und Sprachnachverarbeitung
DE3852678T2 (de) Mustererkennung.
DE2326517A1 (de) Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern
DE4031638C2 (de)
EP0076233B1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
DE2524804A1 (de) Verfahren und vorrichtung zur automatischen spracherkennung
DE69614937T2 (de) Verfahren und System zur Spracherkennung mit verringerter Erkennungszeit unter Berücksichtigung von Veränderungen der Hintergrundgeräusche
DE69918635T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE69616724T2 (de) Verfahren und System für die Spracherkennung
DE69224253T2 (de) Sprachkodiergerät
DE2422028A1 (de) Schaltungsanordnung zur identifizierung einer formantfrequenz in einem gesprochenen wort
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
WO2001018792A1 (de) Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese
DE3878895T2 (de) Verfahren und einrichtung zur spracherkennung.
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
EP0285222B1 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
EP0508547A2 (de) Schaltungsanordnung zur Spracherkennung
DE69922769T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE3733983A1 (de) Verfahren zum daempfen von stoerschall in von hoergeraeten uebertragenen schallsignalen
DE2720666C2 (de) Verfahren und Anordnung zur Geräuschanalyse