DE3645119C2 - Einrichtung zum Feststellen eines Sprachintervalis - Google Patents
Einrichtung zum Feststellen eines SprachintervalisInfo
- Publication number
- DE3645119C2 DE3645119C2 DE19863645119 DE3645119A DE3645119C2 DE 3645119 C2 DE3645119 C2 DE 3645119C2 DE 19863645119 DE19863645119 DE 19863645119 DE 3645119 A DE3645119 A DE 3645119A DE 3645119 C2 DE3645119 C2 DE 3645119C2
- Authority
- DE
- Germany
- Prior art keywords
- speech
- frequency range
- energy
- starting point
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000001228 spectrum Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 2
- 230000002265 prevention Effects 0.000 claims 3
- 238000010586 diagram Methods 0.000 description 11
- 239000011159 matrix material Substances 0.000 description 8
- 238000000034 method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000002452 interceptive effect Effects 0.000 description 4
- 230000036962 time dependent Effects 0.000 description 3
- 229920002472 Starch Polymers 0.000 description 2
- 235000019698 starch Nutrition 0.000 description 2
- 239000008107 starch Substances 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Description
Die Erfindung betrifft eine Einrichtung zum Feststellen eines
Sprachintervalls nach dem Patentanspruch 1.
Aus der DE 31 01 483 A1 ist ein Datenerkennungsdetektor in
Verbindung mit einer zeitabhängigen Sprechinterpoliereinrichtung
bekannt, wobei ein Datensignal und ein interaktives Signal
abwechselnd übertragen werden. Das Datensignal wird in
einem Pufferspeicher gespeichert und wenn ein Sprecher nicht
unmittelbar spricht, d. h. also kein interaktives Signal übertragen
wird, so wird ein Sendesignal übertragen. Es ergibt
sich aufgrund dieser bekannten Technik die Forderung, zwischen
einem Datensignal und einem interaktiven Signal unterscheiden
zu können, was hier mit Hilfe einer Energiekomponente
der Frequenz realisiert wird. Wenn beispielsweise die
Hauptenergiekomponente der Frequenz gleich ist oder kleiner
ist als 1000 Hz wird bestimmt, daß es sich um ein interaktives
Signal handelt, während, wenn die Frequenz von 1000 Hz
überschritten wird, bestimmt wird, daß es sich um ein Datensignal
handelt.
Aus der DE-OS 23 47 738 ist bereits ein Spracherkennungsverfahren
und Vorrichtung zur Durchführung desselben bekannt.
Gemäß diesem bekannten Verfahren werden zunächst in
ein Gerät Übungswörter eingesprochen und gespeichert. Anschließend
wird ein Befehlswort eingegeben und eine Korrelationsfunktion
durchgeführt, um die Ähnlichkeit zwischen
dem Befehlswort und dem Übungswort festzustellen. Das wesentliche
des bekannten Verfahrens besteht aus der Realisierung
eines Merkmalsauszugs von empfangenen Eingabewörtern
und der Erzeugung digitaler Merkmalsausgabesignale
auf speziellen Leitungen von einer Anzahl von Merkmalsausgabeleitungen.
Die Merkmalssignale, welche während eines
Übungswortes auftreten, werden in Form einer zeitabhängigen
Matrix in einer Speichereinrichtung gespeichert. Ferner
werden auch Merkmalssignale, welche während eines Befehlswortes
auftreten, als zeitabhängige Matrix gespeichert.
Mit Hilfe einer Vergleichseinrichtung wird die Befehlswort-
Matrix mit jeder Übungswort-Matrix verglichen
und es wird eine Korrelationsziffer erzeugt, welche das
Ergebnis des Vergleichs wiedergibt bzw. das Ausmaß der
Übereinstimmung anzeigt. Die Vorrichtung zur Durchführung
dieses bekannten Verfahrens umfaßt unter anderem eine Einrichtung,
um bei gegeneinander verschobenen Zeitskalen
einen Vergleich zwischen der Befehlswort-Matrix und jeder
Übungswort-Matrix durchzuführen, um eine zusätzliche Korrelationsziffer
zu bilden, welche das Ergebnis dieses Vergleiches
wiedergibt.
Zur Gewinnung der Befehlswort-Matrix und auch der Übungswort-
Matrix gelangen Filterbänke bzw. Tiefpaßfilterbänke
zur Anwendung. Somit wird sowohl das Befehlswort als auch
das Übungswort in einzelnen Frequenzbereichabschnitten
verarbeitet.
Es ist ferner auch bekannt, eine eingehende Sprachinformation
zurückzuweisen, wenn ihr Sprachintervall zu kurz ist,
da dies zu Schwierigkeiten bei dem Vergleichsvorgang bzw.
der Identifizierung eines Sprachlautes oder Sprachwortes
führt. Wenn beispielsweise unbekannte Sprachdaten, die registriert
oder identifiziert werden sollen, in ihrem
Schallpegel zu niedrig liegen, führt auch dies zu einer
Schwierigkeit bei der Identifizierung oder Registrierung
der unbekannten Sprachdaten. Es ist daher wünschenswert,
die Behandlung solcher Sprachdaten zurückzuweisen, deren
Schallpegel zu niedrig liegt.
Die der Erfindung zugrundeliegende Aufgabe besteht darin,
eine Einrichtung zum Feststellen eines Sprachintervalls zu
schaffen, die unabhängig von den Anfangsbuchstaben eines
gesprochenen Wortes oder gesprochenen Lautes den Beginn
des gesprochenen Wortes oder gesprochenen Lautes eindeutig
festzulegen vermag, um dadurch insgesamt die Spracherkennung
zu verbessern.
Diese Aufgabe wird erfindungsgemäß durch die im Patentanspruch 1
aufgeführten Merkmale gelöst.
Besonders vorteilhafte Ausgestaltungen und Weiterbildungen
der Erfindung ergeben sich aus den Unteransprüchen 2 bis
6.
Im folgenden wird die Erfindung anhand von Ausführungsbeispielen
unter Hinweis auf die Zeichnung näher erläutert.
Es zeigt
Fig. 1 ein Blockschaltbild einer Einrichtung zum
Identifizieren eines Sprechmusters mit
Merkmalen nach der Erfindung, die mit einer
Funktion zum Annullieren von Sprachdaten
versehen ist und in Übereinstimmung mit
einem weiteren Ausführungsbeispiel der vorliegenden
Erfindung aufgebaut ist;
Fig. 2 ein Wellendiagramm, das zur Erläuterung der
Wirkungsweise der in Fig. 1 gezeigten Einrichtung
dient;
Fig. 3 ein Blockschaltbild, das eine Einrichtung
zum Ermitteln eines Sprechintervalls zeigt,
die ein Energiedifferenzspektrum benutzt,
und zwar zur Verwendung bei der Identifizierung
von Sprache, und in Übereinstimmung
mit einem noch weiteren Ausführungsbeispiel
mit Merkmalen nach der Erfindung aufgebaut
ist;
Fig. 4a, 4b, 5a, 5b jeweils ein Wellendiagramm, das zur Erläuterung
der Wirkungsweise der in Fig. 3 gezeigten Einrichtung
dient;
Fig. 6 ein Blockschaltbild, das eine Einrichtung
zum Ermitteln eines Sprechintervalls zur
Verwendung bei der Identifizierung von
Sprache enthält, die in Übereinstimmung
mit einem noch weiteren Ausführungsbeispiel
mit Merkmalen nach der Erfindung
aufgebaut ist;
Fig. 7 und 8 Darstellungen, die zur Erläuterung der
Wirkungsweise der in Fig. 6 gezeigten Einrichtung
dienen;
Fig. 9 ein Blockschaltbild, das eine Einrichtung
zum Ermitteln eines Sprechintervalls zur
Verwendung bei der Identifizierung von Sprache
enthält, die durch Abänderung der in
Fig. 6 gezeigten Anordnung aufgebaut ist;
Fig. 10 eine Darstellung, die zeigt, wie die Fig. 10a
und 10b kombiniert werden sollen;
Fig. 10a und 10b jeweils ein Blockschaltbild, die, wenn sie
wie in Fig. 10 gezeigt, kombiniert sind,
eine Einrichtung zum Identifizieren von
Sprache zeigen, die in Übereinstimmung mit
einem noch weiteren Ausführungsbeispiel mit
Merkmalen nach der Erfindung aufgebaut ist;
Fig. 11 eine Darstellung, die zeigt, wie die Fig. 11a
und 11b kombiniert werden sollen; und
Fig. 11a und 11b jeweils ein Blockschaltbild, die, wenn
sie kombiniert sind, wie in Fig. 11 dargestellt
ist, eine Einrichtung zum Identifizieren
von Sprache zeigen, die in
Übereinstimmung mit einem noch weiteren
Ausführungsbeispiel mit Merkmalen nach
der Erfindung aufgebaut ist.
Wenn ein unbekannter Sprachlaut, der identifiziert werden
soll, in eine Einrichtung zum Erkennen und Registrieren
von Sprache eingegeben wird, und wenn der Entstehungsort
eines Sprachlautes oder Sprachwortes fern von der Einrichtung
angeordnet ist und/oder der Sprachlaut in seiner Lautstärke
zu leise ist, kann sein Sprachintervall nicht genau
bestimmt werden. In einem solchen Fall kann ein Sprechblock,
der in der Sprachenergie niedrig ist, bei einem eingehenden
Sprechmuster verlorengehen, so daß dies hinderlich ist, eine
genaue Bibliothek zu erstellen und/oder eine genaue Identifizierung
eines unbekannten Sprachlautes durchzuführen. Es
ist somit erwünscht, daß, wenn der Pegel eines unbekannten
Lautes zu leise oder zu laut ist, der unbekannte Laut zurückgewiesen
und somit daran gehindert wird, durch eine Einrichtung
zur Verarbeitung von Sprache behandelt zu werden,
wie etwa eine Einrichtung zum Registrieren und/oder Erkennen
von Sprache.
Fig. 1 zeigt in Blockdarstellung ein Beispiel einer solchen
Einrichtung zum Behandeln von Sprache, die mit einer
Funktion zum Annullieren eines Sprachmusters versehen ist.
Wie gezeigt, weist die dargestellte Einrichtung zum Behandeln
von Sprache ein Mikrofon 1 zum Umwandeln eines Sprachlauts
in Form einer Druckwelle in ein elektrisches Sprachsignal
auf. An das Mikrofon 1 ist ein Vorprozessor 12 angeschlossen,
der das Sprachsignal aus dem Mikrofon 1, typischerweise
in Form eines Schwachstroms, in einer bestimmten
Weise verarbeitet. Der Vorprozessor hat beispielsweise
eine Funktion etwa der Verstärkung, des Frequenzausgleichs,
der automatischen Verstärkungsregelung
bzw. des Schwundausgleichs oder der Vorverzerrung. Die
Einrichtung weist auch eine Merkmals-Extraktionseinrichtung 13
auf, um ein vorbehandeltes Sprachsignal aufzunehmen
und um bestimmte Merkmale hiervon zu extrahieren.
Der Merkmal-Extraktor 13 kann beispielsweise einen Frequenzanalysator
aufweisen, der mehrere Bandpaßfilter aufweist,
und einen Binärcodewandler, so daß das Sprachsignal
in ein Sprachmuster in Form einer Zeit-Frequenz-Verteilung
umgewandelt wird. Das Sprachmuster (die Merkmalsdaten)
wird dann der Identifizierungseinheit 17 zugeführt.
Andererseits werden die Ausgänge aus den jeweiligen Bandpaßfiltern
aufaddiert und ihre Summe wird als Sprachenergie
definiert, welche dem Sprechintervall-Detektor 14 als
das die Energie kennzeichnende Signal zugeführt wird.
Dieses Signal wird dann einem Stärkerechner 15 zugeführt,
wo das Signal in Zuordnung zu einem Sprechintervallsignal
addiert wird, welches von dem Sprechintervall-Detektor 14
zugeführt wurde. Das aufaddierte Ergebnis wird dann einem
Vergleicher 16 zugeführt, wo der addierte Wert für die
Energie verglichen wird mit einem Bezugswert, und ein Annullierungssignal
zum Annullieren der weiteren Verarbeitung
des Sprechmusters wird der Identifizierungseinheit 17 zugeführt,
und zwar in Abhängigkeit vom Ergebnis des Vergleichs.
Wenn kein solches Anullierungssignal der Identifizierungseinheit 17
zugeführt wird, dann führt die Identifizierungseinheit 17
eine Vergleichstätigkeit zwischen
dem Sprechmuster (Merkmalsdaten), das vom Merkmalsextraktor 13
empfangen wurde, und aufgezeichneten Sprechbezugsmustern
in einer Bibliothek 18 durch, und jenes Sprechmuster, das
die beste Ähnlichkeit aufweist, wird der Ausgangseinheit 19
zugeführt.
Nun wird die Wirkungsweise der Anordnung, die in Fig. 1
gezeigt ist, noch detaillierter und im einzelnen unter Bezugnahme
auf Fig. 2 beschrieben. In Fig. 2 ist die Kurve A
die umhüllende für die Sprachenergie und die Kurve B ist
ein Sprechintervall-Signal, wobei Th und Pth die jeweiligen
Schwellenwerte anzeigen. Wenn nun das eingehende
Sprachsignal A die Sprechintervall-Schwelle Th überschreitet,
dann wird der Beginn eines Sprechintervalls ermittelt,
so daß das Sprechintervallsignal B auf einen hohen Pegel
überwechselt. Während das Sprechintervall-Signal B sich
auf dem hohen Pegel befindet, werden die Merkmalsdaten
(das Sprechmuster) der Identifizierungseinheit 17 bei einem
bestimmten Zeitintervall Rahmen um Rahmen zugeführt, und
gleichtzeitig wird das Sprachenergiesignal, das vom Merkmalsextraktor 13
zugeführt wird, überwacht. Wenn das
Sprachsignal A eine bestimmte Schwelle Pth überschreitet,
wird das Sprachsignal A kumulativ Rahmen um Rahmen über
eine bestimmte Anzahl n von Rahmen durch den Stärkerechner 15
aufaddiert. Der addierte Wert V(t) wird dann dem Ver
gleicher 16 zugeführt, wo der aufaddierte Wert V(t) mit
einer Gruppe aus einem bestimmten oberen und unteren Grenzwert
Lth bzw. Hth verglichen wird. Wenn das Ergebnis des
Vergleiches zeigt, daß der aufaddierte Wert V(t) gleich
oder kleiner ist als der untere Grenzwert Lth oder größer ist
als die obere Grenze Hth, dann wird ein Annullierungssignal
der Identifizierungseinheit 17 zugeführt, wobei das Sprechmuster
annulliert wird. Obwohl nicht speziell gezeigt, kann
bevorzugt eine solche Anordnung gewählt sein, daß die Abgabe
eines solchen Annullierungssignales eine Anzeige erregt,
um anzuzeigen, daß das Sprechmuster annulliert wurde.
Eine andere Anordnung kann auch so ausgebildet sein, daß
das Sprachsignal A kumulativ über das gesamte Sprechsignal
hinweg aufaddiert wird, d. h., während sich das
Sprechintervallsignal auf einem hohen Pegel befindet,
und dann wird der aufaddierte Wert durch die Gesamtzahl
von Rahmen über das gesamte Sprechsignal hinweg dividiert,
um eine mittlere Sprachenergie zu ermitteln. Diese mittlere
Sprechenergie wird dann mit einer Gruppe aus einem bestimmten
oberen und unteren Grenz-Bezugswert verglichen,
um zu bestimmen, ob die mittlere Sprachenergie noch innerhalb
eines bestimmten Bereiches liegt oder nicht.
Falls der Schwellenwert Pth konstant ist, könnte, wenn der
Pegel des Hintergrundgeräusches zunimmt, die Annullierungsfunktion
in unerwünschter Weise vom Hintergrundgeräusch beeinträchtigt
werden. Um einer solchen Situation zu begegnen,
kann auch eine solche Anordnung getroffen werden, daß die
Schwelle Pth und der obere und untere Grenz-Bezugswert Hth
bzw. Lth in einer vorbestimmten Weise geändert werden. Als
Beispiel können diese Schwellenwerte Pth, Lth und Hth in
Abhängigkeit vom Niveau N(t) der Hintergrundstärke am Ende
des vorausgehenden Sprachlauts geändert werden, wie dies
unten bezeichnet ist:
Pth = K₁ (N(t)) + Pc
Lth = K₂ (N(t)) + Lc
Hth = K₃ (N(t)) + Hc
Hier sind Pc, Lc und Hc Konstante.
Nun ist es zum Erkennen von Sprachlauten oder Sprachworten
erforderlich, ein Sprechintervall für den Sprachlaut oder
das Sprachwort zu bestimmen, der bzw. die identifiziert werden
soll. In diesem Fall ist die Ermittlung des Beginns
oder Ausgangspunkts des Sprachlautes oder des Sprachwortes,
der bzw. das identifiziert werden soll, kritisch.
Insbesondere dann, wenn der zu bestimmende Sprachlaut mit
einem Konsonanten beginnt, ist es wesentlich, daß sein Ausgangspunkt
genau ermittelt wird. Ein Weg zur Ermittlung des
Ausgangspunktes eines Sprechintervalls ist es, die Größe
eines Energiedifferenzspektrums zu überwachen. Fig. 3 zeigt
in Blockdarstellung eine Einrichtung zum Ermitteln des Beginns
eines Sprachlauts unter Verwendung des Energiedifferenzspektrums.
Wie gezeigt, weist die Einrichtung das Mikrofon 1,
den Vorprozessor 12, das Bandpaßfilter 23, einen
Stärkedifferenzgenerator 26, einen Ausgangspunktvergleicher 27
und einen Sprechintervallgenerator 28 auf. Mit dieser
Anordnung wird Sprache in Form einer Druckwelle in das Mikrofon 1
eingegeben, welches ein umgewandeltes elektrisches
Sprechsignal liefert, welches seinerseits durch mehrere
Bandpaßfilter 23 verarbeitet wird, die im Frequenzbereich
unterschiedlich sind, und zwar bei einem bestimmten
Abfragezyklus, so daß jedes der Bandpaßfilter 23 an seinem
Ausgang eine Kanal-Sprachenergie liefert. Wenn somit beispielsweise
29 Kanäle vorliegen, werden zu jedem Zeitintervall
29 Kanal-Sprachenergieausgänge erzeugt. Diese
Ausgänge der Kanalsprachenergie bzw. der segmentierten
Sprachenergie werden dem Stärkedifferenzgenerator 26 parallel
zugeführt, wo eine Differenz zwischen jedem der Kanalsprachenergieausgänge
und der entsprechenden der letzten
vorangehenden Kanalsprachenergienausgänge errechnet wird,
und diese Unterschiede werden zusammenaddiert, um ein
Energiedifferenzspektrum zu bestimmen. Dann wird das resultierende
Energiedifferenzpektrum verglichen mit einem
bestimmten Schwellenwert und wird herausgefunden, daß es
ihn überschreitet, wird beschlossen, daß dies der Ausgangspunkt
oder Beginn des Sprachlautes ist. Nach Bestimmung des
Ausgangspunktes des Sprachlautes wird die Sprachenergie
überwacht und ein Sprechintervall wird als Zeitperiode bestimmt,
während welcher die Sprachenergie gleich ist einer
bestimmten Sprachenergie-Schwelle oder darüber liegt.
Dieser Gesichtspunkt wird dataillierter unter spezieller
Bezugnahme auf die Fig. 4a, 4b, 5a und 5b beschrieben. Die
Fig. 4a und 5a zeigen zwei unterschiedliche Sprachenergiesignale
und Fig. 4b und 5b zeigen die jeweiligen Energiedifferenzsignale.
Fig. 4a ist ein Sprachenergiesignal für
eine Sprache, die mit einem Vokal beginnt, so daß das
Energiedifferenzsignal, das in Fig. 4b gezeigt ist, am Anfang
eine verhältnismäßig abrupt ansteigende Neigung aufweist.
Andererseits zeigt die Fig. 5a ein Sprachenergiesignal
für eine Sprache, die mit einem Konsonant beginnt, so
daß das Sprachdifferenzsignal, das in Fig. 5b gezeigt ist,
keine abrupt ansteigende Neigung am Beginn aufweist. In dem
in Fig. 5b gezeigten Fall wird, wenn die rechtzeitige Ermittlung
am Punkt (a) nicht gelungen ist, die nächste Ermittlung
am Punkt (b) rechtzeitig bewirkt, in welchem Fall
der Konsonant am Anfang insgesamt verlorengegangen wäre.
Diese Neigung ist deutlich für eine Sprache, die mit einem
Konsonanten beginnt, z. B. "s", "p", "t", "m" oder "n".
Fig. 6 zeigt in Blockdarstellung eine verbesserte Einrichtung
für die hoch genaue Ermittlung eines Sprechsignals, und zwar insbesondere
für den Beginn eines Sprachlauts.
Diese Einrichtung ist so ausgebildet, daß sie selbst
einen Konsonantenblock stabil ermittelt, und sie ist auf
der Grundlage aufgebaut, daß herausgefunden wurde, daß Konsonanten,
wie etwa "s", "p" und "t" eine Konzentration der
Sprachenergie im Hochfrequenzbereich aufweisen, während
Konsonanten, wie etwa "M" und "N" eine Konzentration der
Sprachenergie im Niederfrequenzbereich aufweisen. Zu diesem
Zweck werden die Ausgänge aus einer Anzahl von Bandpaßfiltern,
die im Frequenzbereich unterschiedlich sind, in drei
Bereiche unterteilt, und zwar Bereiche mit hoher, mittlerer
und niedriger Frequenz. Die Sprachenergiewerte dieser
drei Bereiche werden miteinander nur zur Ermittlung des
Ausgangspunktes eines Sprachlautes oder Wortes bestimmt.
Wie in Fig. 6 gezeigt, weist die dargestellte Einrichtung
ein Mikrofon 1, einen Vorprozessor 12, mehrere Bandpaßfilter 23,
einen Sprachstärkegenerator 24, einen Hochfrequenzbereich-
Sprachstärkegenerator 35, einen Mittelfrequenzbereich-
Sprachstärkegenerator 36, einen Niederfrequenzbereich-
Sprachstärkegenerator 37, einen Stärkedifferenzgenerator 26,
einen Vergleicher 25, einen Sprachstärkevergleicher 30
und einen Intervallgenerator 28 auf. Es muß vermerkt
werden, daß diese Elemente, die identisch mit jenen
sind, die in dem vorangehenden Ausführungsbeispiel gezeigt
sind, mit identischen Bezugszeichen bezeichnet sind, soweit
nichts anderes vermerkt ist. Es muß jedoch vermerkt
werden, daß beispielsweise die Bandpaßfilterbank 23 eine
Anzahl von Bandpaßfiltern aufweist, die im Frequenzbereich
unterschiedlich sind, wobei jedes Filter einen individuellen
Kanal bildet, und die Anzahl von Bandpaßfiltern in drei
Kategorien unterteilt sind, nämlich Bereiche mit niedriger,
mittlerer und hoher Frequenz. Wenn beispielsweise die Bandpaßfilterbank 23
15 Kanäle aufweist, die von 250 Hz bis
6,35 kHz reichen, mit der Mittelfrequenz von 1 kHz, dann
bilden die ersten drei Kanäle den Niederfrequenzbereich
und die letzten drei Kanäle bilden den Hochfrequenzbereich,
wobei die übrigen den Mittelfrequenzbereich bilden.
Bei dieser Anordnung bestimmt, wenn ermittelt wird, daß die
Sprachenergie des Hochfrequenzbereichs, der vom Generator
35 abgegeben wird, höher liegt als ein bestimmter Schwellenwert
Thoch, und auch ermittelt wird, daß sie größer ist
als die Sprachenergie des Niederfrequenzbereichs, die vom
Generator 37 ausgeht, der Stärkevergleicher 30, daß ein
solcher Konsonant wie "s", "p" oder "t" begonnen hat. Dies
ist der Fall bei der Ermittlung eines Konsonanten mit der
Konzentration der Sprachenergie im Hochfrequenzbereich.
Wenn andererseits die Sprachenergie des Niederfrequenzbereichs
aufgrund der Ermittlung höher ist als ein bestimmter
Schwellenwert T und auch ermittelt wurde,
daß sie größer ist als die Sprachenergie im Hochfrequenzbereich,
dann bestimmt der Sprachstärkevergleicher 30, daß ein
solcher Konsonant, wie "M" oder "N", begonnen hat. Dies
ist der Fall bei der Ermittlung eines Konsonanten, der
eine Konzentration der Sprachenergie im Niederfrequenzbereich
aufweist. Fig. 7 stellt die Verteilung der Sprachenergie
für Konsonanten "s", "p" und "t" und Fig. 8 jene für Konsonanten
"M" und "N" dar.
Wie in Fig. 6 gezeigt, ist auch ein ODER-Gatter 41 vorgesehen,
dessen einer Eingangsanschluß an den Ausgangsan
schluß des Stärkevergleichers 30 und dessen anderer Eingangsanschluß
an den Ausgangsanschluß des Stärkedifferenzgenerators 26
sowie dessen Ausgangsanschluß an den Intervallgenerator 28
angeschlossen ist. Bei dieser Anordnung
wird, wenn die Konzentration der Sprachenergie im Nieder-
oder Hochfrequenzbereich nicht ermittelt wurde, wie oben
beschrieben, dann das Energiedifferenzspektrum verwendet,
um einen Ausgangspunktimpuls zu erzeugen. Somit kann die
Ermittlung des Ausgangspunkts von Sprache durch die vor
liegende Einrichtung für jede mögliche Sprache oder jeden
möglichen Sprachlaut durchgeführt werden.
Fig. 9 zeigt in Blockdarstellung eine Einrichtung zum Ermitteln
des Ausgangspunkts von Sprache oder einem Sprachlaut,
welche eine Abwandlung der in Fig. 6 gezeigten Anordnung
ist. Diese Einrichtung ist in vielerlei Hinsicht
ähnlich der in Fig. 6 gezeigten Einrichtung, mit Ausnahme
der Anordnung eines Flip-Flop 42 und eines UND-Gatters 43
sowie des Umstands, daß der Stärkevergleicher 30 die zusätzliche
Funktion aufweist, einen Zischlaut zu ermitteln.
Der Flip-Flop 42 ist mit seinem Eingangsanschluß an den
Ausgangsanschluß des ODER-Gatters 41 angeschlossen, und
sein Ausgangsanschluß ist an einen Eingangsanschluß des
UND-Gatters 43 angeschlossen, welches mit seinem anderen
Eingangsanschluß an den anderen Ausgangsanschluß des Stärkevergleichers 30
und mit seinem Ausgangsanschluß an den
Intervallgenerator 28 angeschlossen ist.
Im Fall der Ermittlung eines Sprechintervalls mit der in
Fig. 6 gezeigten Einrichtung, und zwar insbesondere für
ein Wort, das mit einem Konsonanten, wie "M" und "N", beginnt,
der eine Konzentration im Niederfrequenzbereich
aufweist, besteht die Neigung, den Zischabschnitt zu ermitteln,
der unmittelbar vor einem stimmhaften Laut vorliegen
kann. Als Ergebnis besteht die Möglichkeit, daß
eine unnötige Information bei der Ermittlung eines Sprechintervalls
hinzuaddiert wird. Es weist
jedoch der Zischlaut solche Merkmale auf, wie eine erhöhte
Konzentration der Sprachenergie in einem noch niedrigeren
Frequenzbereich und ein niedrigeres Niveau der Sprachenergie.
Das heißt, selbst wenn die Sprachstärke des Niederfrequenzbereichs
nach der Ermittlung größer ist als die
anderen beiden Bereiche und diese Information dem Flip-
Flop 42 vom Stärkevergleicher 30 durch das ODER-Gatter 41
zugeführt wird, wird die Ermittlung des Ausgangspunktes
eines Wortes nicht bewirkt, solange nicht ermittelt wird,
daß die Sprachenergie im Niederfrequenzbereich größer ist
als eine bestimmte Schwelle Tbazz. Wenn somit die Sprachenergie
des Niederfrequenzbereichs kleiner ist als Tbazz,
dann wird kein Zischlautimpuls mit niedrigem Pegel dem UND-
Gatter 43 zugeführt und somit auch kein Sprechintervallimpuls
erzeugt. Der Sprechintervallimpuls wird nur dann erzeugt,
wenn die Ermittlung des Ausgangspunkts der Sprache am
Flip-Flop 42 vorliegt, und der Zischlautimpuls mit hohem
Pegel dem UND-Gatter 43 zugeführt wird.
Die Fig. 10a und 10b zeigen, wenn sie kombiniert sind, wie
in Fig. 10 gezeigt, in Blockdarstellung ein anderes Ausführungsbeispiel
mit Merkmalen nach der vorliegenden Erfindung, welches eine
Kombination des in Fig. 1 gezeigten Ausführungsbeispiels
mit dem in Fig. 6 gezeigten Ausführungsbeispiel ist. Zusätzlich
zeigen die Fig. 11a und 11b, wenn sie kombiniert
sind, wie in Fig. 11 gezeigt, in Blockdarstellung ein weiteres
Ausführungsbeispiel mit Merkmalen nach der vorliegenden Erfindung, welches
eine Kombination des in Fig. 1 gezeigten Ausführungsbeispiels
mit dem in Fig. 8 gezeigten Ausführungsbeispiel
ist. Es ist ersichtlich, daß die in Fig. 10 und 11 gezeigten
Ausführungsbeispiele dadurch aufgebaut sind, daß man
die Annullierungsfunktion, die in Fig. 1 gezeigt ist, zu
den Ausführungsbeispielen hinzufügt, die in den Fig. 6 bzw.
8 gezeigt sind.
Claims (6)
1. Einrichtung zum Feststellen eines Sprachintervalls mit
einem Vorprozessor (12) und Bandpaßfiltern (23) zur Analyse
der Frequenz und zur Bildung von Frequenzbereichen einer
eingegebenen Sprache, und mit einem Sprachstärke-Generator
(24, 35, 36, 37) zum Erzeugen einer Sprachenergie in jedem
Frequenzbereich der Ausgangsgröße der Bandpaßfilter (23), mit
einer Sprachstärke-Vergleichseinrichtung (25, 30) zum Vergleichen
der Sprachenergie eines Hochfrequenzbereiches mit
der Sprachenergie eines Niederfrequenzbereiches jedes der
Frequenzbereiche, mit einem Stärkedifferenzgenerator (26) zur
Erzeugung der Differenz zwischen diesen Sprachenergien, und
mit einer Einrichtung (in 30) zum Feststellen der Anfangsstelle
eines Sprachintervalls, welche die Anfangsstelle bestimmt,
wenn die genannte Differenz einen vorgegebenen Wert
überschreitet.
2. Einrichtung nach Anspruch 1, dadurch gekennzeichnet,
daß dem unteren Frequenzbereich eine bestimmte
Anzahl der Bandpaßfilter zugeordnet ist und daß dem
Hochfrequenzbereich eine weitere bestimmte Anzahl von Bandpaßfiltern
zugeordnet ist.
3. Einrichtung nach Anspruch 1, dadurch gekennzeichnet,
daß die Bandpaßfilter zur Erfassung
eines mittleren Frequenzbereichs zwischen dem Hoch- und
Niederfrequenzbereich des Sprechmusters angeordnet sind.
4. Einrichtung nach einem der Ansprüche 1 bis 3, dadurch
gekennzeichnet, daß der Stärkedifferenzgenerator (26)
als Recheneinrichtung zum Errechnen eines Energie-
Differenzspektrums und zum Bestimmen eines Ausgangspunkts
für das Sprechintervall ausgebildet ist, um herauszufinden,
ob das Energie-Differenzspektrum größer ist als
ein bestimmter Wert, und daß ein ODER-Gatter (41) vorgesehen
ist mit einem ersten Eingangsanschluß zur Aufnahme
eines Ausgangssignals von der Vergleichseinrichtung (30),
einem zweiten Eingangsanschluß zur Aufnahme eines Ausgangssignals
aus der Recheneinrichtung (26) und einem
Ausgangsanschluß zum Abgeben eines Ausgangspunkt-Impulses,
der den Ausgangspunkt des Sprechintervalls anzeigt.
5. Einrichtung nach einem der Ansprüche 1 bis 4, gekennzeichnet
durch eine Verhinderungseinrichtung
(26, 30, 41), um das Ausgangspunktsignal zu verhindern,
wenn die Vergleichseinrichtung (30) herausfindet,
daß die Sprachenergie des Hochfrequenzbereichs größer ist
als die Sprachenergie des Niederfrequenzbereichs und des
Mittelfrequenzbereichs, aber kleiner als ein bestimmter
Schwellenwert ist.
6. Einrichtung nach Anspruch 5, dadurch gekennzeichnet,
daß die Verhinderungseinrichtung ein
UND-Gatter (43) aufweist mit einem ersten Eingangsanschluß
zur Aufnahme eines Verhinderungssignals aus der Vergleichseinrichtung (30),
einem zweiten Eingangsanschluß
zur Aufnahme des Ausgangspunktsignals und einem Ausgangsanschluß
zum Abgeben eines Ausgangspunktimpulses.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19863630518 DE3630518C2 (de) | 1985-09-06 | 1986-09-08 | Einrichtung zum lautweisen Identifizieren eines Sprechmusters |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP60197254A JPS6256999A (ja) | 1985-09-06 | 1985-09-06 | パタ−ン登録方式 |
JP19725585A JPS6257000A (ja) | 1985-09-06 | 1985-09-06 | 音声認識装置 |
JP61061726A JPS62217296A (ja) | 1986-03-19 | 1986-03-19 | 音声認識装置の入力キヤンセル法 |
JP61089138A JPS62244100A (ja) | 1986-04-17 | 1986-04-17 | 音声区間検出方式 |
DE19863630518 DE3630518C2 (de) | 1985-09-06 | 1986-09-08 | Einrichtung zum lautweisen Identifizieren eines Sprechmusters |
Publications (1)
Publication Number | Publication Date |
---|---|
DE3645119C2 true DE3645119C2 (de) | 1991-06-06 |
Family
ID=37440537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19863645119 Expired - Lifetime DE3645119C2 (de) | 1985-09-06 | 1986-09-08 | Einrichtung zum Feststellen eines Sprachintervalis |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE3645119C2 (de) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2347738A1 (de) * | 1972-09-21 | 1974-03-28 | Threshold Tech | Spracherkennungsverfahren und vorrichtung zur durchfuehrung desselben |
DE3101483A1 (de) * | 1980-01-24 | 1981-12-03 | Storage Technology Corp., 80027 Louisville, Col. | Datenerkennungsdetektor bei einer zeitabhaengigen sprechinterpoliereinrichtung |
-
1986
- 1986-09-08 DE DE19863645119 patent/DE3645119C2/de not_active Expired - Lifetime
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2347738A1 (de) * | 1972-09-21 | 1974-03-28 | Threshold Tech | Spracherkennungsverfahren und vorrichtung zur durchfuehrung desselben |
DE3101483A1 (de) * | 1980-01-24 | 1981-12-03 | Storage Technology Corp., 80027 Louisville, Col. | Datenerkennungsdetektor bei einer zeitabhaengigen sprechinterpoliereinrichtung |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3750314T2 (de) | Sprachprozessor. | |
DE69926851T2 (de) | Verfahren und Vorrichtung zur Sprachaktivitätsdetektion | |
DE2953262C2 (de) | ||
DE3884880T2 (de) | Billige Spracherkennungseinrichtung und Verfahren. | |
DE3645118C2 (de) | ||
DE69420183T2 (de) | Verfahren und Vorrichtung zur Sprachkodierung und Sprachdekodierung und Sprachnachverarbeitung | |
DE3852678T2 (de) | Mustererkennung. | |
DE2326517A1 (de) | Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern | |
DE4031638C2 (de) | ||
EP0076233B1 (de) | Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung | |
DE2524804A1 (de) | Verfahren und vorrichtung zur automatischen spracherkennung | |
DE69614937T2 (de) | Verfahren und System zur Spracherkennung mit verringerter Erkennungszeit unter Berücksichtigung von Veränderungen der Hintergrundgeräusche | |
DE69918635T2 (de) | Vorrichtung und Verfahren zur Sprachverarbeitung | |
DE69616724T2 (de) | Verfahren und System für die Spracherkennung | |
DE69224253T2 (de) | Sprachkodiergerät | |
DE2422028A1 (de) | Schaltungsanordnung zur identifizierung einer formantfrequenz in einem gesprochenen wort | |
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
WO2001018792A1 (de) | Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese | |
DE3878895T2 (de) | Verfahren und einrichtung zur spracherkennung. | |
DE3043516C2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
EP0285222B1 (de) | Verfahren zum Erkennen zusammenhängend gesprochener Wörter | |
EP0508547A2 (de) | Schaltungsanordnung zur Spracherkennung | |
DE69922769T2 (de) | Vorrichtung und Verfahren zur Sprachverarbeitung | |
DE3733983A1 (de) | Verfahren zum daempfen von stoerschall in von hoergeraeten uebertragenen schallsignalen | |
DE2720666C2 (de) | Verfahren und Anordnung zur Geräuschanalyse |