DE3306730C2 - - Google Patents

Info

Publication number
DE3306730C2
DE3306730C2 DE3306730A DE3306730A DE3306730C2 DE 3306730 C2 DE3306730 C2 DE 3306730C2 DE 3306730 A DE3306730 A DE 3306730A DE 3306730 A DE3306730 A DE 3306730A DE 3306730 C2 DE3306730 C2 DE 3306730C2
Authority
DE
Germany
Prior art keywords
signal
difference
acoustic parameter
power level
transition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE3306730A
Other languages
English (en)
Other versions
DE3306730A1 (de
Inventor
Watari Urawa Saitama Jp Masaro
Akabane Saitama Jp Makoto
Nishioka Kamagaya Chiba Jp Hisao
Waku Tokio/Tokyo Jp Toshihiko
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of DE3306730A1 publication Critical patent/DE3306730A1/de
Application granted granted Critical
Publication of DE3306730C2 publication Critical patent/DE3306730C2/de
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephone Function (AREA)
  • Character Discrimination (AREA)
  • Image Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

Die Erfindung bezieht sich auf Verfahren mit den in den Oberbegriff der Ansprüche 1 und 19 angegebenen Merkmalen sowie auf zugehörige Schaltungsanordnungen gemäß den Oberbegriffen der Ansprüche 10 und 24.
Ein Verfahren der im Oberbegriff des Anspruchs 1 bezeichne­ ten Art ist prinzipiell bereits bekannt (US 33 44 233). Die zur Durchführung des bekannten Verfahrens dienende Spracherkennungsanordnung kann Phoneme erkennen, die von bestimmten Sprechern gesprochen wird. Bei der Anwendung dieses Typs von Anordnung spricht der Sprecher eine Liste sämtlicher Wörter, die zu erkennen sind, und akustische Parameter der Wörter werden durch verschiedene Schaltungs­ elemente ermittelt, wie durch eine Filterbank. Ferner werden die Parameter in einem Speicher gespeichert. Wenn der Spre­ cher dann später dieselben Worte in normaler Sprache be­ nutzt, werden sodann deren akustische Parameter ermittelt und mit den zuvor gespeicherten akustischen Parametern verglichen. Stimmen die beiden akustischen Parameter mit­ einander überein, so "erkennt" die Anordnung die später gesprochenen Wörter. Um mit einer Situation fertig zu werden, in der der Sprecher zu verschiedenen Zeiten schneller oder langsamer spricht, kann eine Zeitreihe von akustischen Parametern in regelmäßigen Intervallen gewonnen werden, beispielsweise alle 5 bis 20 ms, und bei der Er­ kennung der Wörter herangezogen werden.
Bei der vorstehend erwähnten Anordnung müssen im voraus sämtliche akustischen Parameter sämtlicher zu erkennen­ der Wörter registriert und gespeichert werden, deshalb eine enorme Speicherkapazität erforderlich ist und weshalb eine große Vielzahl von mathematischen Berechnungen durch­ geführt werden muß. Die "Zeitanspannungs"-Funktion erfordert beispielsweise eine riesige Zahl von mathematischen Berech­ nungen und belastet die Fähigkeit der meisten Datenprozes­ soren. Wenn die Zeitbasen nicht genügend aneinander ange­ paßt sind, könnte die Erkennung fehlerhaft sein.
Es ist auch schon daran gedacht worden, einzelne Phoneme zu erkennen, beispielsweise die Töne bzw. Klänge A, I, U, E, O, K, S, T etc. und die Silben KA, KI, KU, etc.
Ein wesentlicher Nachteil der zuletzt erwähnten Verfahrens­ weise liegt darin, daß zwar Phoneme, wie Vokale und der­ gleichen mit quasi-stationären Teilen ohne weiteres erkannt werden können, daß aber Phoneme mit kurzen Phonemcharakteri­ stiken, wie Verschlußlaute (K, T, P usw.) extrem schwierig in Phoneme unter Ausnutzung akustischer Parameter zu organi­ sieren sind.
Um diese Schwierigkeit zu überwinden, ist versucht worden, die Phoneme zu speichern, die diskret gesprochen worden sind. Die Phoneme, die diffus gesprochen sind, werden da­ durch erkannt, daß ihre Zeitbasen unter Anwendung von "Zeitanpassungs"-Verfahren ähnlich jenen, die oben beschrie­ ben worden sind, angepaßt werden. Dadurch werden Phoneme mit kurzen Phonemcharakteristiken, wie die zuvor erwähnten Verschlußlaute, leichter erkannt. Diese Verfahrensweise weist jedoch ebenfalls nur eine begrenzte Anwendbarkeit auf, und zwar aufgrund der großen Anzahl von mathemati­ schen Berechnungen, die zur Anpassung der Zeitbasen er­ forderlich sind. Wenn die betreffende Verfahrensweise zum Erkennen von Phonemen von irgendwelchen Personen angewandt wird und nicht nur zum Erkennen von Phonemen, die ein be­ stimmter Sprecher spricht, dann sind überdies die Eigen­ tümlichkeiten des akustischen Parameters aufgrund der individuellen Differenzen in der Sprache derart gestreut, daß die Erkennung der Phoneme praktisch unmöglich wird.
Es ist überdies auch schon daran gedacht worden, eine Viel­ zahl von akustischen Parametern zu speichern, die ein Wort kennzeichnen bzw. darstellen können, und sodann die Phoneme auf der Grundlage einer Approximation jener akustischen Parameter zu erkennen. So kann ein unvollständiges Wort in Parameter fester Dimensionen umgesetzt werden, und ferner kann eine Bewertung oder Diskriminierung unter diesen Parametern erfolgen, indem eine Diskriminatorfunktion angewandt wird. Diese Vorgehensweise erfordert jedoch ebenfalls eine hohe Speicherkapazität und die Durchführung einer großen Anzahl von mathematischen Berechnungen.
Eine Eigenschaft bzw. Eigentümlichkeit von Sprachsignalen ist das Vorhandensein von Übergängen in den betreffenden Signalen, das sind die Punkte bzw. Stellen, an denen ein Phonem in ein anderes Phonem wechselt bzw. an denen eine Ruhepause zu einem Phonem wird oder umgekehrt. Die bisher bekannten Verfahren zur Ermittlung solcher Übergänge können diese Übergänge jedoch nicht effektiv und wirkungsvoll ausnutzen.
Der Erfindung liegt die Aufgabe zugrunde, einen Weg zu zeigen, wie bei einem Verfahren gemäß dem Oberbegriff des Anspruchs 1 vorzugehen ist, um mit geringerer Speicher­ kapazität als bei den bisher bekannten Verfahren auszu­ kommen, ohne daß damit eine Beschränkung der Anzahl der Wörter verbunden ist, die erkannt werden können.
Gelöst wird die vorstehend aufgezeigte Aufgabe durch die im Anspruch 1 gekennzeichneten Maßnahmen.
Die Erfindung zeichnet sich durch den Vorteil auf, daß auf relativ einfache Weise mit geringerem Speicheraufwand als bei den bisher bekannten Verfahren ausgekommen werden kann, um bestimmte Phoneme in einem Sprachsignal sicher erkennen zu können, ohne dabei eine Beschränkung der An­ zahl der Wörter, die erkennba sind, in Kauf nehmen zu müssen.
Zweckmäßige Weiterbildungen des Verfahrens gemäß der Erfindung ergeben sich aus den Ansprüchen 2 bis 9.
Zur Durchführung des Verfahrens gemäß der Erfindung dient vorzugsweise eine Schaltungsanordnung, wie sie im An­ spruch 10 gekennzeichnet ist.
Zweckmäßige Weiterbildungen der vorstehend bezeichneten Schaltungsanordnung sind in den Ansprüchen 11 bis 18 erfaßt.
Zum Erzeugen eines Übergangssignals zur Anzeige der Lage eines Übergangs in ein Sprachsignal dient vorzugsweise ein Verfahren, wie es im Anspruch 19 gekennzeichnet ist.
Zweckmäßige Weiterbildungen des vorstehend erwähnten Verfahrens sind in den Ansprüchen 20 bis 23 erfaßt.
Zur Durchführung des Verfahrens zum Erzeugen eines Über­ gangssignals dient vorzugsweise eine Schaltungsanordnung, wie sie im Anspruch 24 gekennzeichnet ist.
Zweckmäßige Weiterbildungen dieser vorstehend bezeichneten Schaltungsanordnung sind in den Ansprüchen 25 bis 28 ge­ kennzeichnet.
Anhand von Zeichnungen wird die Erfindung nachstehend bei­ spielsweise näher erläutert. In den einzelnen Zeichnungen verwendete gleiche Bezugszeichen und Symbole bezeichnen dabei jeweils gleiche bzw. entsprechende Elemente bzw. Merkmale.
Fig. 1A und 1B zeigen in Diagrammen die Änderungen von Phonemen in einem Sprachsignal, welche die Grundlage des Verfahrens und der Schaltungsanordnung gemäß der Erfindung bilden.
Fig. 2 zeigt in einem Blockdiagramm schematisch eine Schaltungsanordnung gemäß einer Ausführungsform der Erfindung.
Fig. 3A bis 3H zeigen in Diagrammen verschiedene Signale, die durch die in Fig. 2 dargestellte Schaltungsanordnung erzeugt werden.
Fig. 4 veranschaulicht in einer Tabelle, wie das Ver­ fahren gemäß der Erfindung generell arbeitet.
Fig. 5A bis 5I zeigen Kurvenverläufe, die zur Erläuterung eines bekannten Übergangs-Detektorverfahrens her­ angezogen werden.
Fig. 6 zeigt in einem Blockdiagramm schematisch eine Schaltungsanordnung, die in der in Fig. 2 ge­ zeigten Anordnung verwendet wird, um Ruhe-Phonem- und Phonem-Phonem-Übergangs-Signale zu er­ zeugen.
Fig. 7A bis 7C zeigen Kurven, welche die Beziehung zwi­ schen einem Sprachsignalverlauf, den Phonemen und Übergängen in dem Sprachsignal bzw. dem Übergangssignal veranschaulichen, welches durch die in Fig. 6 dargestellte Schaltungsanordnung erzeugt wird.
Die Verfahren und die Schaltungsanordnungen gemäß der Erfindung nutzen in vorteilhafter Weise eine der Sprache anhaftende Eigenschaft aus. Im allgemeinen wird mit lang betonten Phonemen, wie Voka­ len und Reibelauten (S, H usw.) gesprochen. Die Aus­ sprache beispielsweise des Wortes "HAI" ("JA" in japa­ nisch) umfaßt im Klang "Ruhe → H → A → I → Ruhe", wie dies schematisch in Fig. 1 gezeigt ist. (Das Symbol "*" kennzeichnet eine Ruhepause, und das Symbol "→" kennzeichnet einen Übergang, sei es einen Ruhe-Phonem- oder einen Phonem-Phonem-Übergang.) Dasselbe Wort "HAI" kann entweder so wie in Fig. 1A oder so wie in Fig. 1B gezeigt, gesprochen werden. Fig. 1 veranschaulicht dabei, daß jeder quasi-stationäre Bereich oder jedes quasi- stationäre Segment, welches durch die Phoneme H, A und I gebildet ist, eine Dauer aufweist, die sich mit der Sprechweise ändern kann. Eine Ruhe-Phonem-Übergang oder ein Phonem-Phonem-Übergang (der Bereich oder das Segment zwischen den quasi-stationären Teilen ist in Fig. 1A und 1B durch eine schräge Linie veranschaulicht) weist eine Dauer auf, die sich mit jeder Sprechweise sehr wenig ändert. Dies bedeutet, daß jedesmal dann, wenn das Wort gesprochen wird, die Zeitbasis des quasi- stationären Segments schwanken kann, während die Zeit­ basis der Übergänge relativ konstant ist.
Eine Schaltungsanordnung gemäß einer Ausführungsform der Erfindung, welche die Eigenschaft der Sprache zur Erkennung bestimmter Phoneme in einem Sprachsignal ausnutzt, ist in Fig. 2 gezeigt. In Fig. 2 stellt ein durch eine vollausgezogene Linie umrahmter Block A eine Einrichtung dar, die ein Sprachsignal in eine elektrisches Signal um­ setzt, welches kennzeichnend ist für das Sprachsignal. Diese Einrichtung umfaßt ein Mikrophon 1 und einen Ver­ stärker 2. Ein durch eine vollausgezogene Linie einge­ rahmter Block B umfaßt ein Tiefpaßfilter 3, einen Ana­ log-Digital-(A/D-)Wandler 4, ein Schieberegister 6, eine schnelle Fourier-Transformationsschaltung (FFT) 8 und einen Leistungsspektraldetektor 9. Der betreffende Schal­ tungsblock B arbeitet so, daß ein erstes akustisches Parameter­ signal erzeugt wird, welches eine Phoneminforma­ tion des Sprachsignals enthält, und zwar aus dem elek­ trischen Signal, welches von dem Schaltungsbereich oder der Einrichtung A abgegeben wird. Ein durch eine voll­ ausgezogene Linie umrahmter Block C enthält eine Empha­ sis- oder Gewichtungsschaltung 10 und eine Übergangs- Detektorschaltung 20. Die Detektorschaltung 20 erzeugt ein Übergangssignal, welches die Lage eines Ruhe-Phonem- Übergangs oder eines Phonem-Phonem-Übergangs in dem Sprachsignal anzeigt, indem die Phoneminformation in dem ersten akustischen Parameter ausgenutzt wird. Das betreffende Signal ist durch die Schaltung 10 gewichtet worden. Ein durch eine gestrichelte Linie umrahmter Block D stellt eine Schaltung dar, welche die Emphasis­ schaltung 10, eine erste Bandteilerschaltung (Signaltrenneinrichtung) 11, eine Logarithmusschaltung 12, eine erste diskrete Fourier- Transformationsschaltung (DFT) 13, einen Speicher 14 und eine zweite diskrete Fourier-Transformationsschal­ tung 15 umfaßt. Die Schaltung D erzeugt ein zweites akustisches Parametersignal aus dem ersten akustischen Parametersignal, indem das Übergangssignal von der De­ tektorschaltung 20 herangezogen wird. Das zweite aku­ stische Parametersignal enthält eine Phoneminforma­ tion des Sprachsignals an den Übergängen.
Im Betrieb wird ein Signal von dem Mikrophon 1 her über den Mikrophonverstärker 2 und das Tiefpaßfilter 3, wel­ ches eine Frequenz von weniger als 5,5 kHz hat, an den A/D-Wandler (Umsetzeinrichtung) 4 abgegeben. Ein Abtastsignal von 12,5 kHz (welches mit einem Intervall von 80 µs auftritt) wird von einem Taktgenerator 5 an den A/D-Wandler 4 abgege­ ben, wodurch das Sprachsignal zum Zeitpunkt dieses Ab­ tasttaktes in ein digitales Signal umgesetzt wird. Das umgesetzte digitale Sprachsignal wird an das Schieberegister (Registriereinrichtung) 6 abgegeben, welches 5×64 Worte umfaßt, und ein Rahmensignal mit einem Intervall von 5,12 ms wird von dem Taktgenerator 5 her an einen Quinär-Zähler 7 ab­ gegeben. Der Zählwert wird an das Register 6 abgegeben, und dadurch wird das Sprachsignal um jeweils 64 Worte verschoben, wodurch von dem Register 6 ein verschobenes Sprachsignal aus 4×64 Worten erzeugt wird.
Das Signal aus 4×64 (=256) Worten, das von dem Register 6 abgeleitet ist, wird an die schnelle Fourier- Transformationsschaltung 8 abgegeben. Wenn angenommen wird, daß eine Signalwellenfunktion durch nf Abtastdaten dargestellt wird, die in einer zeitlichen Länge von T enthalten sind, dann wird in der schnellen Fourier- Transformationsschaltung 8 die Größe
UnfT(f) (1)
durch Fourier-Transformation zu der Signalwellenfunktion UnfT(f), was zu einem Signal führt, welches folgender Be­ ziehung genügt:
Das Signal von der schnellen Fourier-Transformations­ schaltung 8 wird dem Leistungsspektrum-Detektor 9 zu­ geführt, von dem ein Leistungsspektrum-Signal entspre­ chend folgender Beziehung erzeugt wird:
Da das fouriertransformierte Signal symmetrisch in bezug auf die Frequenzachse ist, ist die Hälfte der nf-Ab­ tastdaten, die sich aus der Fourier-Transformation er­ geben, redundant und kann weggelassen werden, was zur Bereitstellung von 1/2 nf-Daten führt. Dies bedeutet, daß das Signal von 256 Worten, die der zuvor erwähnten schnellen Fourier-Transformationsschaltung 8 zugeführt worden sind, umgesetzt und sodann als Leistungsspektrum- Signal von 128 Worten erzeugt wird. Das Leistungsspek­ trum-Signal umfaßt das erste akustische Parametersignal, und es enthält die Phoneminformation des Sprachsignals, die erforderlich ist, um die Spracherkennung gemäß der vorliegenden Erfindung vorzunehmen.
Das Leistungsspektrum-Signal aus 128 Worten wird an die Emphasis- oder Gewichtungsschaltung (Gewichtungseinrichtung) 10 abgegeben, in der das betreffende Signal gewichtet wird, um in einem ge­ hörmäßigen Sinne korrigiert zu werden. So könnte das Leistungsspektrum-Signal beispielsweise so gewichtet werden, daß die hochfrequente Komponente des Sprachsignals betont bzw. angehoben wird, um nämlich sicherzu­ stellen, daß die darin enthaltene Phoneminformation richtig dargestellt wird, um den Rest des Spracherken­ nungsverfahrens auszuführen. Mit anderen Worten ausge­ drückt heißt dies, daß die Gewichtungsschaltung 10 den Leistungspegel des ersten akustischen Parametersignals selektiv gewichtet, um die Phoneminformation in dem Sprachsignal genauer darzustellen.
Das gewichtete Signal wird zunächst einer Bandteiler­ schaltung (Signaltrenneinrichtung) 11 zugeführt und dadurch in beispielsweise 32 Bänder aufgeteilt, welche einer Frequenz-Mel-Skala entsprechen, die auf die gehörmäßigen Charakteristiken des Sprachsignals zugeschnitten sind. Wenn die durch die Bandteilerschaltung (Signaltrenneinrichtung) 11 bereitgestellten Bänder nicht mit den Stellen übereinstimmen, welche die 128 Worte des Leistungsspektrum-Signals kennzeichnen, dann wird das Signal an den nicht miteinander übereinstimmenden Stel­ len in benachbarter Bänder gebracht, und zwar auf einer anteilmäßigen Basis, um die Information in dem 128-Wort- Signal so genau wie möglich in 32 Bändern darzustellen. In jedem Falle wird das Leistungsspektrum-Signal aus 128 Worten in ein Signal aus 32 Worten komprimiert.
Das komprimierte Signal wird dann an die Logarithmus­ schaltung 12 abgegeben, in der es in den Logarithmus des jeweiligen Bandes umgesetzt wird. Demgemäß ist dort jegliche Redundanz in dem Leistungsspektrum-Signal ausgeschlossen, beispielsweise aufgrund der Ge­ wichtung in der Emphasisschaltung 10. Der Logarithmus des Leistungsspektrums
umfaßt einen Spektrum-Parameter x(i) (i=0, 1, . . . , 31), der an die erste diskrete Fourier-Transformationsschal­ tung 13 abgegeben wird. Wenn die Anzahl der aufgeteil­ ten Bänder mit M angenommen wird, dann führt in diesem Fall die erste diskrete Fourier-Transformationsschaltung 13 die diskrete Fourier-Transformation von 2M-2 Punkten mit dem M-dimensionalen Parameter x(i) (i=0, 1, . . . M-1) durch, der als reelle Zahl angenommen wird, und zwar mit symmetrischen Parametern an 2M-1 Punkten. Demgemäß gilt
wobei
Da die Funktion, durch die diese diskrete Fourier-Transformation durchgeführt wird, als gerade Funktion betrach­ tet wird, gilt ferner:
Dies führt zu
Die akustischen Parameter, welche eine Einhüllende-Cha­ rakteristik des Leistungsspektrums kennzeichnen, werden durch diese erste diskrete Fourier-Transformationsope­ ration gewonnen.
Wie bei dem so durch diskrete Fourier-Transformation er­ mittelnden Spektrums-Parameter x(i) werden die Werte von P-Dimensionen von 0 bis P-1 (bei P=8 beispielsweise) dar­ aus gewonnen und als wörtliche Parameter L(p) (p-0, 1, . . . p-1) herangezogen:
Da der Spektrums-Parameter symmetrisch ist, wird hier die Beziehung angenommen
x(i) = x(2M-i-2) , (11)
wobei die örtlichen Parameter L(p) wie folgt ausgedrückt werden können:
wobei p=0, 1, . . . P-1 ist.
Auf diese Weise wird das Signal der 32 Worte von dem ersten Bandteiler 11 weiter zu P Worten (beispielsweise zu 8 Worten) komprimiert. Die örtlichen Parameter L(p) umfassen ein drittes akustisches Parametersignal, welches dadurch erhalten wird, daß das erste akustische Parametersignal in wenige Frequenzbandsignale umgesetzt wird.
Die örtlichen Parameter L(p) werden an den Speicher 14 abgegeben, der eine Matrix aus Speicherbereichen umfaßt, beispielsweise aus 16 Zeilen, deren eine aus P Worten besteht, in denen die örtlichen Parameter L(p) der Reihe nach in jeder Dimension gespeichert sind. Dem betref­ fenden Speicher wird das Rahmentaktsignal in einem In­ tervall von 5,12 ms von einem Taktgenerator 5 her zuge­ führt. Der Parameter in jeder Zeile wird dadurch der Reihe nach in der Querrichtung verschoben. Demgemäß speichert der Speicher 14 die örtlichen Parameter L(p) von P Dimensionen, und zwar mit bzw. in einem Inter­ vall von 5,12 ms in 16 Rahmen (81,92 ms). Die örtli­ chen Parameter L(p) werden durch den Rahmentakt ak­ tualisiert.
Unterdessen wird das Signal von der Emphasisschaltung 10 an die Übergangs-Detektorschaltung 20 abgegeben, welche die Lagen der Übergänge zwischen den Phonemen und zwi­ schen den Ruhepausen und den Phonemen ermittelt.
Ein Übergangssignal T(t), welches die Lage eines Über­ gangs in dem Sprachsignal anzeigt, wird von der Schal­ tung 20 an den Speicher 14 abgegeben, durch bzw. aus dem zu dem Zeitpunkt, zu dem der örtliche Parameter L(p) entsprechend der Zeitspanne bzw. dem Zeitpunkt des Übergangssignals in die achte Zeile verschoben wird, ausgelesen wird. Beim Lesen des Speichers 14 werden die Signale von 16 Rahmen in der Querrichtung ausgelesen, und zwar in jeder Dimension P, und die so ausgele­ senen Signale werden an die zweite diskrete Fourier-Transformations­ schaltung 15 abgegeben.
Die zweite diskrete Fourier-Transformationsschaltung 15 führt eine diskrete Fourier-Transformation ähnlich wie die erste diskrete Fourier-Transformationsschaltung 13 aus. Demgemäß wird die Hüllkurven-Charakteristik der Reihen-Änderungen der akustischen Parameter gewonnen. Werte der Q-Dimensionen von 0 bis Q-1 (bei beispielsweise Q=3) werden von den diskreten Fourier-Transformations­ signalen von der zweiten diskreten Fourier-Transformations­ schaltung 15 her gewonnen. Diese zweite diskrete Fourier-Transformation wird in jeder Dimension P durchgeführt, um die Übergangsparameter K(p,q) (p=0, 1 . . . P-1 und q=0, 1, Q-1) von insgesamt P · Q (=24) Wor­ ten zu bilden. Da K(0,0) die Leistung der Sprachsignal­ welle kennzeichnet, kann zum Zwecke der Leistungsnormierung, wenn p=0 ist, q=1 zu Q erhalten werden.
In Fig. 3A bis 3H sind die verschiedenen Signale gezeigt, die bei der dargestellten Anordnung erhalten werden. Fig. 3A zeigt dabei den Verlauf des Sprachsignals für das Sprechen des Wortes "HAI", wobei dieses Signal von dem Verstärker 2 erzeugt wird. Fig. 3B zeigt generell die Konfiguration des Übergangssignals, welches von der Schaltung 20 erzeugt wird. Das Gesamt- Leistungsspektrum des in Fig. 3A gezeigten Sprachsignals ist in Fig. 3C veranschaulicht, in der die Infor­ mation dargestellt ist, die in dem ersten akustischen Parametersignal enthalten ist. Als Beispiel ist in Fig. 3D das Leistungsspektrum des Übergangs "H→A" gezeigt. Das gewichtete Signal ist in Fig. 3A veranschaulicht. Fig. 3F zeigt das betreffende Signal, welches auf der Basis einer Mel-Skala komprimiert ist. Dieses Signal wird diskret einer Fourier-Transformation unterzogen, um zu dem in Fig. 3G gezeigten Signal zu werden. Wenn die vorderen und hinteren 16 Zeitrahmen dieses Signals einer Matrixbehandlung unterzogen werden, erhält man das in Fig. 3H gezeigte Signal. Die zweite diskrete Fourier-Transformation in Richtung einer Zeitbasis oder Zeitachse t liefert dann die Übergangsparameter K(p,q), welche die zweiten akustischen Parametersignale umfas­ sen, die eine Phoneminformation des Sprachsignals an den Übergängen enthalten.
Die Übergangsparameter K(p,q) werden an eine Rechen­ schaltung 16 zur Berechnung des Mahalanobis-Abstands abgegeben. Ferner wird ein Cluster-Koeffizient aus einem Bezugsspeicher 17 an die Rechenschaltung 16 ab­ gegeben, in der der Mahalanobis-Abstand mit jedem der Cluster-Koeffizienten berechnet wird. Die Cluster- Koeffizienten ergeben sich aus der Erzeugung von Über­ gangsparametern aus dem Sprechen einer Vielzahl von Sprechern bei einer Anordnung ähnlich der bereits be­ schriebenen Anordnung, wobei eine Klassifizierung der Übergangsparameter auf die Phonem-Inhalte hin erfolgt und wobei sodann diese Phoneme statistisch analysiert werden.
Der berechnete Mahalanobis-Abstand wird von der Schaltung 16 her an eine Bewertungsschaltung 18 abgegeben, welche die bestimmte Übergänge bestimmt, die durch die betref­ fenden Übergangsparameter dargestellt sind. Diese Infor­ mation wird dann einem Ausgangsanschluß 19 zugeführt.
Genauer gesagt bedeutet dies im Hinblick auf die 12 Worte von beispielsweise "HAI", "IIE" und "0 (Null)" bis "9 (KYU)", daß die Stimmen einer Anzahl von Sprechern (vorzugsweise von mehr als 100 Personen) im voraus einer Anordnung zu­ geführt werden, um die Natur bzw. Eigenschaft der Über­ gänge in ihrer Sprache zu ermitteln und die Übergangs­ parameter für jene Wörter zu erzeugen. Jene Übergangs­ parameter werden klassifiziert, wie dies beispielsweise in der Tabelle gemäß Fig. 4 gezeigt ist, und dann für jede Klassifikation oder für jeden Cluster stastistisch analysiert.
Für eine beliebige Probe Rr,n (a) (wobei r=1, 2, . . . 24 bedeu­ tet, wobei a den Clusterindex darstellt und bei a=1 bei­ spielsweise *→H und bei a=2 H→A entspricht, und wo­ bei n die Sprecherzahl bedeutet) wird eine Kovarianz-Matrix
berechnet, in der
ist und wobei E einen Phasenmittelwert darstellt. Sodann wird nach einer in­ versen Matrix von
gesucht.
Demgemäß wird der Abstand zwischen einem beliebigen Übergangsparameter Kr und einem Cluster a entsprechend einem Mahalanobis-Abstand erhalten zu
Wenn die zuvor genannten Größen
gesucht bzw. ermittelt und sodann in dem Bezugsspeicher 17 ge­ speichert sind, wird der Mahalanobis-Abstand zwischen dem beliebigen Übergangsparameter des Eingangs-Sprach­ signals und dem Cluster durch die Mahalanobis-Abstands- Rechenschaltung 16 berechnet.
Demgemäß liefert die betreffende Rechenschaltung 16 den minimalen Abstand von jedem Übergang der einzutreffenden Sprache zum jeweiligen Cluster. Die Folge der Übergänge wird dann an die Bewertungsschaltung 18 abgegeben, um die Erkennung und Bewertung durchzuführen, wenn die Ein­ gangssprache aufhört. So wird beispielsweise bei jedem Wort der Wortabstand durch den Mittelwert der Quadrat­ wurzel des minimalen Abstands zwischen den entsprechen­ den Übergangsparametern und den Clustern berechnet. In dem Fall, daß die Übergänge teilweise ausgelassen sind, sucht die Anordnung nach einer Vielzahl von Arten von Übergängen, die in den Bereich passen könnten, der aus­ gelassen worden ist. Wörter mit einer Übergangsfolge, die verschieden ist von der Tabelle, werden jedoch zurückgewiesen. Sodann wird das Wort mit dem minimalen Wortabstand erkannt und bewertet.
Da die Änderung der Phoneme an den Übergängen ermittelt wird, sind somit Zeitbasisschwankun­ gen kein Faktor bei der Erkennung der Phoneme, und es können die Phoneme irgendeines Sprechers zufriedenstel­ lend erkannt werden. Da Parameter an den Übergängen er­ zeugt werden, wie dies oben beschrieben worden ist, und da ein Übergang in 24 Dimensionen erkannt werden kann, kann überdies die Erkennung mit großer Leichtigkeit und hoher Genauigkeit ausgeführt werden.
Bei einem Experiment mit der zuvor genannten Anordnung lieferten 120 Sprecher eine Bezugsinformation bezüglich 120 Wörter, und dann gebrauchten weitere Sprecher die­ selben 120 Wörter. Es wurde eine mittlere Erkennungs­ rate von 98,2% erzielt.
Ferner können "H→A" von "HAI" und "H→A" von "8 (HACHI)" beispielsweise in demselben Cluster klassifiziert werden. Deshalb kann derselbe Übergang auf die Erkennung ver­ schiedener Wörter angewandt werden. Demgemäß kann eine große Anzahl von Wörtern ohne Schwierigkeit erkannt wer­ den. Wenn die Anzahl der zu erkennenden Phoneme gegeben ist mit α, dann werden zu diesem Zweck Cluster von etwa αP₂ berechnet, und der Cluster-Koeffizient wird in dem Bezugsspeicher 17 gespeichert.
Fig. 6 zeigt schematisch ein Ausführungsbeispiel der Übergangs-Detektorschaltung 20, die in der Schal­ tungsanordnung gemäß der Erfindung verwendet wird.
Bevor das mittels der Detektorschaltung 20 durchgeführte Verfahren zum Ermitteln der Übergänge beschrieben wird, erfolgt zunächst unter Bezugnahme auf Fig. 5A bis 5I eine kurze Bezugnahme auf ein bekanntes Verfahren zum Ermitteln von Übergängen in einem Sprachsignal. Das be­ treffende bekannte Verfahren nutzt die Summe der Zahl der Änderungen der örtlichen Parameter L(p) aus, die jenen entsprechen, welche durch die zweite diskrete Fourier-Transformationsschaltung 13 erzeugt werden. Wenn die Parameter von P Dimensionen im jeweiligen Zeitrahmen gewonnen werden, sofern der Parameter des Rahmens G angenommen wird als L(p) (G) (p=0, 1, . . . , P-1), dann wird die Ermittlung der Übergänge dadurch vorgenom­ men, daß die Summe des Absolutwertes des Differenzbe­ trages herangezogen wird, der gegeben ist durch die Be­ ziehung
Wenn P eine Dimension ist, wie dies in Fig. 5A und 5B veranschaulicht ist, dann werden die Spitzen des Parameters T(G) an den Stellen erhalten, an denen die Parameter L(p) (G) sich ändern. Wenn P durch zwei Dimen­ sionen gegeben ist, dann werden, sofern die Parameter L(0) (G) und L(1) (G) von der 0- bzw. 1-Dimension, wie dies in Fig. 5C und 5D gezeigt ist, sich entsprechend den obigen Verhältnissen ändern, die Differenzbeträge geändert, wie dies in Fig. 5E und 5F gezeigt ist. Ein bekannter Übergangsparameter T (G) weist somit zwei Spitzen auf, wie dies in Fig. 5G gezeigt ist, und die Übergangsstelle kann nicht bestimmt werden. Das betref­ fende Phonem wird wahrscheinlich zu irgendeinem Zeit­ punkt auftreten, zu dem die Parameter von mehr als zwei Dimenisionen bzw. Größen aufgenommen werden. Fer­ ner ist in der obigen Beschreibung der Parameter L(p) (G) als kontinuierlich angenommen werden, während er in der Praxis einen diskreten Wert hat. Darüber hinaus weisen im allgemeinen Phoneme ziemlich kleine Schwankungen auf, so daß der Parameter L(p) (G) sich tatsächlich so ändert, wie dies Fig. 5H zeigt, was zum Auftreten einer Anzahl von Spitzen und Tälern in dem Parameter T (G) führt, wie dies Fig. 5I erkennen läßt.
Deshalb weist das bekannte Verfahren zum Ermitteln von Übergängen verschiedene Mängel auf, nämlich den Mangel der Ungenauigkeit der Ermittlung und der Instabilität des Detektorsignals.
Im Gegensatz dazu ermittelt die nach der Erfindung arbeitende Übergangs-Detektorschaltung 20 die Übergänge leicht und stabil.
Fig. 6 zeigt eine Anordnung der Detektorschaltung 20, die besonders brauchbar ist hinsichtlich der Erzeugung des Übergangssignals T (t) in der Schaltungsan­ ordnung gemäß der vorliegenden Erfindung.
Das gewichtete Signal von der Emphasisschaltung 10 ge­ mäß Fig. 2 her wird über einen Eingangsanschluß 21a einer zweiten Bandteilerschaltung (Signaltrenneinrichtung) 21 zugeführt, in der aufeinanderfolgende Zeitrahmen dieses Signals unter­ teilt werden, und zwar in ähnlicher Weise, wie dies durch die erste Bandteilerschaltung 11 vorgenommen wor­ den ist, wobei eine Aufteilung in N (beispielsweise in 20) Frequenzbänder auf der Basis einer Mel-Skala erfolgt. Dadurch wird ein Signal V(n) (n=0, 1, . . . N-1), welches den Signalen in den entprechenden Bändern zugehörig ist, erzeugt.
Mit anderen Worten ausgedrückt heißt dies, daß das grafisch in Fig. 3C dargestellte Signal so behandelt wird, als umfaßte es eine Vielzahl von Zeitrahmen, von denen einer (beim Übergang zwischen H und A) in Fig. 3D veranschaulicht ist. Nach dem Gewichten wird das Signal in jedem Zeitrahmen (siehe beispielsweise Fig. 3E) in N Frequenzbänder aufgeteilt, deren jedes ein Frequenz­ bandsignal umfaßt, welches kennzeichnend ist für einen Leistungspegel des ersten akustischen Parametersignals in einem bestimmten Frequenzband und in einem Zeitrah­ men.
Das Signal V(n) wird an eine (die Logarithmen berechnende Schaltungseinrichtung) Vorspannungs-Logarithmus­ schaltung 22 abgegeben, um die nachstehende Beziehung zu bilden:
v′(n) = log (V(n) + B) . (17)
Das Signal V(n) wird ferner einem Akkumulator oder einer Mittelungsschaltung (Mittelungseinrichtung) 23 zugeführt, in der das folgende Signal gebildet wird:
Das Signal Va stellt somit den mittleren Leistungspegel in jedem Zeitrahmen dar. Die Abgabe dieses mittleren Signals Va an die Vorspannungs-Logarithmusschaltung 22 führt zu:
v′a = log (Va + B) . (19)
Ferner werden diese Signale einer Differenzschaltung 24 zugeführt, in der folgende Beziehung erfüllt wird:
v(n) = v′a - v′(n) . (20)
Das Signal v′(n) von der Differenzschaltung 24 stellt somit eine Vielzahl von ersten Differenzpegeln zwischen dem mittleren Leistungspegel in einem bestimmten Zeit­ rahmen und der Vielzahl der Leistungspegel in demselben Zeitrahmen dar.
Durch Ausnutzen des Logarithmus des Signals V(n) sind Änderungen in den ersten Differenzpegeln von Zeitrah­ men zu Zeitrahmen minimiert, d. h. Änderungen, die sich aus Schwankungen in der Betonung verschiedener Phoneme bei den Sprechern ergeben. Dadurch ist sichergestellt, daß die Änderungen in den ersten Differenzpegeln von Zeitrahmen zu Zeitrahmen tatsächlich die sich ändernde Phoneminformation in dem Sprachsignal darstellen an­ statt die Änderungen im Pegel des einzutreffenden Sprach­ signals. Da die Berechnung unter Hinzufügung einer Vor­ spannung B durchgeführt wird, ist es darüber hinaus möglich, die Empfindlichkeit der Schaltungsanordnung auf ziemlich kleine Schallkomponenten (Störung etc.) im eintreffenden Signal zu senken. Mit anderen Worten ausgedrückt heißt dies, daß die Empfindlichkeit mit Rücksicht darauf herabgesetzt wird, daß v′(n) sich an 0 annähert, da sich B an einen unendlichen Wert annä­ hert, so daß die Zunahme der Vorspannung eine Herab­ setzung der Schaltungsempfindlichkeit auf bzw. gegen­ über Störung mit sich bringt.
Der Parameter v′(n) wird an eine Übergangs-Signalspei­ cheranordnung (Speichereinrichtung) 25 abgegeben, in der die ersten Diffe­ renzpegel für 2w+1 (beispielsweise 9) Zeitrahmen ge­ speichert sind bzw. werden. Das gespeicherte Signal wird einer Operationsschaltung 26 zugeführt, um dadurch folgendes Signal zu bilden:
wobei GFN = {I; -w + t I w + t} ist.
Somit wird der niedrigste erste Differenzpegel für je­ des Frequenzband (hier 20) über die Vielzahl (hier 9) der Zeitrahmen bestimmt. Mit anderen Worten ausge­ drückt heißt dies, daß minimal 20 erste Differenzpegel vorliegen.
Die Abgabe dieses Signals und der übrigen ersten Diffe­ renzpegel von der Übergangs-Speicheranordnung (Speichereinrichtung) 25 an eine Summierschaltung (Summiereinrichtung) 27 führt zu folgender Beziehung:
Die Summierschaltung 27 liefert somit eine Summe einer Vielzahl von zweiten Differenzpegeln. Jeder zweite Dif­ ferenzpegel umfaßt die Differenz zwischen dem minimalen ersten Differenzpegel in einem Frequenzband und jedem der anderen ersten Differenzpegel in dem betreffenden Frequenzband. Bei dem vorliegenden Beispiel sind 180 zweite Differenzpegel (20 Frequenzbänder über neun Zeit­ rahmen) vorhanden, und 20 dieser zweiten Differenzpegel werden 0 sein. In jedem Fall ist die Summe der zweiten Differenzpegel der Übergangsparameter T(t). Die Größe T(t) , der Übergangs-Detektorparameter, wird einer Spit­ zenbewertungsschaltung (Spitzenbewertungseinrichtung) 28 zugeführt, welche die Lage der Übergänge in dem Eingangs-Sprachsignal ermittelt. Jene Lagen werden an einem Ausgangsanschluß 29 angezeigt und dann an die Speichereinrichtung 14 gemäß Fig. 2 abge­ geben.
Da der Parameter T(t) durch w Zeitrahmen definiert ist, ist die Bildung von falschen oder mehrfachen Spitzen minimiert. Die Fig. 7A bis 7C veranschaulichen das Spre­ chen beispielsweise von "ZERO". Ein 12 Bits umfassendes digitales Signal weist bei einer Abtastfrequenz von 12,5 kHz 256 Stellen bzw. Punkte auf, die durch eine schnelle Fourier-Transformation in die Rahmenperiode von 5,12 ms transformiert werden. Die Übergangsermitt­ lung erfolgt dadurch, daß die Band-Zahl N=20 beträgt, daß die Vorspannung B=0 ist und daß die Anzahl der Zeit­ rahmen 2w + 1 = 9 ist. Fig. 7A veranschaulicht den Kur­ venverlauf eines Sprachsignals; Fig. 7B zeigt die Pho­ neme und Übergänge, und Fig. 7C zeigt den Verlauf des Übergangssignals T(t), in welchem gut definierte Spit­ zen an den entsprechenden Übergängen "Ruhe→Z", "Z→E", "E→", "R→0" und "0→Ruhe" erzeugt werden. Obwohl einige fremde Spitzen und Täler während der Ruhepausen gebildet werden, und zwar aufgrund einer Hintergrundstö­ rung, sind diese Spitzen bzw. Täler weitgehend auf 0 ver­ mindert, und zwar durch Erhöhen der Vorspannung B, wie dies in Fig. 7C durch gestrichelte Linien veranschau­ licht ist.
Die Spitzenbewertungsschaltung 28 stellt die Übergänge in dem Sprachsignal durch zeitliche Abtastung des Über­ gangssignals T(t) fest. Dies wird am besten durch eine Betrachtung des Kurvenverlaufs T(t) in Abhängigkeit von der Zeit gemäß Fig. 7C verstanden. Die Spitzenbe­ wertungsschaltung 28 identifiziert als Übergang ein in der Mitte eines bestimmten Zeitintervalls auftre­ tendes Maximum T(t). Das Signal T(t) wird kontinuier­ lich überwacht, um Maxima zu ermitteln, die in der Mitte des betreffenden Zeitintervalls auftreten. Wenn die Dauer des Zeitintervalls richtig gewählt ist, werden lediglich "tatsächliche" Übergänge ermittelt, und zwar wie jene, die in Fig. 7C gezeigt sind. Kleinere Spitzen zwischen den tatsächlichen Übergängen werden lediglich sehr selten in der Mitte der Zeitintervalle für die je­ weilige Probe von T(t) über das betreffende Intervall auftreten. Da die Phonemerkennung letztlich davon ab­ hängt, die weitestgehende Anpassung zwischen der Phonem­ information an den Übergängen und der Bezugs-Phonemin­ formation zu erzielen, wird überdies eine geringfügige und selten vorkommende fehlerhafte Identifizierung der Übergänge nicht die Rate beeinträchtigen, mit der die in Fig. 2 dargestellte Anordnung Phoneme in einem Sprach­ signal genau erkennt.
Auf diese Weise können die Übergänge in einem Sprachsignal ermittelt werden. Unter Verwendung der Schaltungsanordnung 20 gemäß der Erfindung können die Lagen dere Übergänge unabhängig von Differenzen in der Be­ tonung bezüglich bestimmter Phoneme oder bezüglich Pe­ geländerungen in dem Sprachsignal ermittelt werden.
Darüber hinaus kann die Schaltungsanordnung auch in einem solchen Fall angewandt werden, in welchem das stationäre Segment zwischen den Segmenten ermittelt wird, wobei die Zeitbasen der stationären Segmente durch Heranziehen der ermittelten Übergänge angepaßt werden. Es ist auch möglich, die Schaltungsanordnung zur Analyse der Übergänge bei der Sprachklangsynthese heranzuziehen.

Claims (28)

1. Verfahren zum Erkennen bestimmter Phoneme in einem Sprach­ signal, welches Ruhe-Phonem- und Phonem-Phonem-Übergänge aufweist,
wobei ein für das Sprachsignal kennzeichnendes elektrisches Signal abgegeben wird,
wobei aus dem betreffenden elektrischen Signal ein erstes akustisches Parametersignal erzeugt wird, welches den Phonemen des Sprachsignals entspricht,
wobei ein Übergangssignal erzeugt wird, welches in dem Sprachsignal die Lage eines Übergangs anzeigt,
und wobei das erste akustische Parametersignal und das Übergangssignal für die Bestimmung der Phoneme herange­ zogen werden, dadurch gekennzeichnet,
daß das erste akustische Parametersignal gespeichert wird,
daß aus dem gespeicherten ersten akustischen Parameter­ signal unter Heranziehung des Übergangssignals ein zweites akustisches Parametersignal erzeugt wird, welches den Phonemen des Sprachsignals an dem betreffenden Übergang entspricht,
und daß das zweite akustische Parametersignal mit ge­ speicherten bekannten Phonemen verglichen und bei Über­ einstimmung als das korrespondierende bekannte Phonem erkannt wird.
2. Verfahren nach Anspruch 1, dadurch gekenn­ zeichnet,
daß die Erzeugung des ersten akustischen Parametersignals dadurch erfolgt, daß aus einem analogen elektrischen Signal ein für das Sprachsignal kennzeichnendes digitales elektrisches Signal erzeugt wird,
daß eine Vielzahl der digitalen Signale in einer Register­ einrichtung (6) gespeichert wird
und daß aus den gespeicherten digitalen Signalen das erste akustische Parametersignal durch Fourier-Transformation erzeugt wird.
3. Verfahren nach Anspruch 1, dadurch gekenn­ zeichnet,
daß eine Vielzahl von Zeitrahmen des ersten akustischen Parametersignals in eine Vielzahl von Frequenzbandsignalen aufgeteilt wird, deren jedes einen Leistungspegel des ersten akustischen Parametersignals in einem bestimmten Frequenzband und in einem bestimmten Zeitrahmen kennzeichnet,
daß aus der Vielzahl der Frequenzbandsignale ein mittlerer Leistungspegel bei jedem Zeitrahmen berechnet wird,
daß für sämtliche Zeitrahmen eine Vielzahl von ersten Dif­ ferenzpegeln zwischen dem mittleren Leistungspegel bei dem jeweiligen Zeitrahmen und der Vielzahl von Leistungspegeln im selben Zeitrahmen berechnet wird,
daß für sämtliche Frequenzbänder eine Vielzahl von zweiten Differenzpegeln berechnet wird zwischen a) dem niedrigsten ersten Differenzpegel in dem jeweiligen Frequenzband für die betreffende Vielzahl von Zeitrahmen und b) jedem ersten Differenzpegel im selben Frequenzband über die Vielzahl der Zeitrahmen,
und daß die Summe sämtlicher zweiter Differenzpegel berech­ net wird, wobei die betreffende Summe das Übergangssignal umfaßt, welches derart bewertet werden kann, daß die Über­ gänge in dem Sprachsignal ermittelt werden.
4. Verfahren nach Anspruch 3, dadurch ge­ kennzeichnet, daß eine Bewertung des Übergangs­ signals erfolgt, durch die Spitzen in dem betreffenden Signal ermittelt werden, indem eine zeitliche Abtastung des Übergangssignals unter Heranziehung eines bestimmten Zeitintervalls und eine Identifizierung jedes Maximums des Übergangssignals als Spitzenpegel erfolgt, der in der Mitte des Zeitintervalls auftritt, derart, daß die Über­ gänge in dem Sprachsignal ermittelt werden.
5. Verfahren nach Anspruch 4, dadurch gekenn­ zeichnet, daß der jeweilige erste Differenzpegel durch die Differenz zwischen dem Logarithmus des betreffen­ den mittleren Leistungspegels und dem Logarithmus des vor­ liegenden Leistungspegels gebildet wird, wobei der Einfluß von Schwankungen auf die ersten Differenzpegel in der Be­ tonung von Phonem zu Phonem eines bestimmten Sprechers minimiert ist.
6. Verfahren nach Anspruch 5, dadurch gekenn­ zeichnet, daß eine Vorspannung für jeden mittleren Leistungspegel und für jeden Leistungspegel vor der Berech­ nung der betreffenden Logarithmen abgegeben wird, derart, daß der Einfluß einer gesonderten Störung während der Pausen im Sprechsignal auf die betreffenden ersten Differenzpegel hin minimiert ist.
7. Verfahren nach Anspruch 6, dadurch gekenn­ zeichnet, daß die Leistungspegel des ersten akusti­ schen Parametersignals derart selektiv gewichtet werden, daß eine genaue Darstellung der Phoneme im Sprachsignal erhalten wird.
8. Verfahren nach Anspruch 1, dadurch gekenn­ zeichnet,
daß das erste akustische Parametersignal in eine Vielzahl von Frequenzbandsignalen aufgetrennt wird,
daß das erste akustische Parametersignal in ein drittes akustisches Parametersignal umgesetzt wird, welches weniger Frequenzbandsignale umfaßt und welches die Phoneminformation in dem ersten akustischen Parametersignal enthält,
und daß das dritte akustische Parametersignal für die Ver­ wendung zur Erzeugung des zweiten akustischen Parameter­ signals aus dem umgesetzten ersten akustischen Parameter­ signal gespeichert wird.
9. Verfahren nach Anspruch 8, dadurch gekenn­ zeichnet, daß der Leistungspegel des ersten akusti­ schen Parametersignals zur genauen Darstellung der Phonem­ information in dem betreffenden Sprachsignal gewichtet wird.
10. Schaltungsanordnung zur Durchführung des Verfahren nach einem der Ansprüche 1 bis 9, dadurch ge­ kennzeichnet,
daß eine Einrichtung (A) vorgesehen ist, die ein für das Sprachsignal kennzeichnendes elektrisches Signal abgibt,
daß eine Einrichtung (B) vorgesehen ist, die aus dem be­ treffenden elektrischen Signal ein erstes akustisches Parameter­ signal erzeugt, welches den Phonemen des Sprachsignals entspricht,
daß eine erste Signalerzeugungseinrichtung (C; 20) vorge­ sehen ist, die aus der die Phoneme betreffenden Information in dem ersten akustischen Parametersignal ein Übergangs­ signal erzeugt, welches kennzeichnend ist für die Lage eines Übergangs in dem Sprachsignal,
daß eine Speichereinrichtung (14) vorgesehen ist, die das erste akustische Parametersignal speichert,
und daß eine zweite Signalerzeugungseinrichtung (D) vor­ gesehen ist, die aus dem gespeicherten ersten akustischen Parametersignal unter Ausnutzung des Übergangssignals ein zweites Parametersignal unter Ausnutzung des Übergangssignals ein zweites Parametersignal erzeugt, welches den Phonemen des Sprachsignals an dem Übergang entspricht, wobei das zweite akustische Parametersignal mit einer bekannten Phonem­ information zur Erkennung der Phoneminformation in dem betreffenden Sprachsignal vergleichbar ist.
11. Schaltungsanordnung nach Anspruch 10, dadurch gekennzeichnet,
daß die das erste Para­ metersignal erzeugende Einrichtung (B) eine Umsetzein­ richtung (4) aufweist, welche ein analoges elektrisches Signal des Sprachsignals in ein digitales elektrisches Signal umsetzt,
daß eine Registereinrichtung (6) vorgesehen ist, die der Reihe nach eine Vielzahl der digitalen Signale speichert,
und daß eine Einrichtung (8, 9) vorgesehen ist, die aus den gespeicherten digitalen Signalen durch Fourier-Transformation das erste akustische Parametersignal erzeugt.
12. Schaltungsanordnung nach Anspruch 10, dadurch gekennzeichnet,
daß die erstgenannte Signal­ erzeugungseinrichtung (C; 20) eine Signaltrenneinrich­ tung (21) umfaßt, welche das erste akustische Parameter­ signal in eine Vielzahl von Frequenzbandsignalen aufteilt, deren jedes kennzeichnend ist für einen Leistungspegel des ersten akustischen Parametersignals in einem bestimmten Frequenzband und in einem bestimmten Zeitrahmen,
daß eine Mittelungseinrichtung (23) vorgesehen ist, die aus der Vielzahl der Frequenzbandsignale einen mittleren Leistungspegel in dem jeweiligen Zeitrahmen berechnet,
daß eine Differenzschaltung (24) vorgesehen ist, welche für sämtliche Zeitrahmen eine Vielzahl von ersten Differenzpegeln zwischen dem betreffenden mittleren Leistungspegel in dem jeweiligen Zeitrahmen und der Viel­ zahl der Leistungspegel im selben Zeitrahmen berechnet,
daß eine Speichereinrichtung (25) vorgesehen ist, welche eine Vielzahl der ersten Differenzpegel für eine Vielzahl von Zeitrahmen speichert,
daß eine Operationsschaltung (26) vorgesehen ist, die aus den gespeicherten ersten Differenzpegeln eine Vielzahl von minimalen ersten Differenzpegeln bestimmt, wobei jedes Frequenzband einen minimalen ersten Differenz­ pegel für die betreffende Vielzahl von Zeitrahmen umfaßt,
und daß eine Summiereinrichtung (27) vorgesehen ist, welche die Summe einer Vielzahl von zweiten Differenzpegeln be­ rechnet, deren jeder die Differenz zwischen a) dem mini­ malen ersten Differenzpegel in dem jeweiligen Frequenz­ band und b) dem jeweiligen ersten Differenzpegel im selben Frequenzband für die betreffende Vielzahl von Zeitrahmen umfaßt, wobei die Summe das Übergangssignal umfaßt, welches derart berechnet werden kann, daß die Übergänge in dem Sprachsignal ermittelt werden.
13. Schaltungsanordnung nach Anspruch 12, dadurch gekennzeichnet, daß die erstgenannte Signal­ erzeugungseinrichtung (C; 20) ferner eine Spitzenbewertungs­ einrichtung (28) aufweist, mit deren Hilfe das Übergangs­ signal bewertet wird, um darin auftretende Spitzen zu er­ mitteln, indem eine Zeit-Abtastung des Übergangssignals unter Heranziehung eines bestimmten Zeitintervalls und eine Kennzeichnung als Spitzenpegel erfolgt, wobei jedes Maximum des betreffenden Übergangssignals in der Mitte des betref­ fenden Zeitintervalls derart auftritt, daß Übergänge in dem Sprachsignal lokalisiert sind.
14. Schaltungsanordnung nach Anspruch 13, dadurch gekennzeichnet, daß eine Schaltungseinrich­ tung (22) vorgesehen ist, welche die Logarithmen der mittleren Leistungspegel und der vorliegenden Leistungs­ pegel berechnet, wobei die ersten Differenzpegel die Differenzen zwischen den entsprechenden Logarithmen kenn­ zeichnen und wobei der Einfluß von Änderungen in der Betonung von Phonem zu Phonem eines bestimmten Sprechers auf die betreffenden ersten Differenzpegel hin minimiert ist.
15. Schaltungsanordnung nach Anspruch 14, dadurch gekennzeichnet, daß die die Logarithmen berechnende Schaltungseinrichtung (22) eine Vorspannungs­ einrichtung umfaßt, welche eine Vorspannung für den je­ weiligen mittleren Leistungspegel und für den jeweiligen Leistungspegel vor der Berechnung der Logarithmen dieser Leistungspegel abgibt, wobei der Einfluß von Fremdstörung während der Ruhepausen des Sprachsignals auf die betreffenden ersten Differenzpegel hin minimiert ist.
16. Schaltungsanordnung zum Erkennen be­ stimmter Phoneme in einem Sprachsignal nach Anspruch 15, dadurch gekennzeichnet, daß die zweite Signalerzeugungseinrichtung (D) ferner eine Ge­ wichtungseinrichtung (10) umfaßt, mit deren Hilfe der Leistungspegel des ersten akustischen Parametersignals derart gewichtet wird, daß er genau den Phonemen in dem Sprechsignal entspricht.
17. Schaltungsanordnung zum Erkennen be­ stimmter Phoneme in einem Sprachsignal, nach Anspruch 10, dadurch gekennzeichnet,
daß der Speichereinrichtung (14) eine Signaltrenneinrichtung (11) zugeordnet ist, welche das erste akustische Parametersignal in eine Vielzahl von Frequenzbandsignalen aufteilt,
daß eine Umsetzeinrichtung (21) vorgesehen ist, welche das erste akustische Parametersignal in ein drittes aku­ stisches Parametersignal umsetzt, das weniger Frequenz­ bandsignale umfaßt und das den Phonemen in dem ersten akustischen Parametersignal entspricht,
und daß eine Speichereinrichtung (14) vorgesehen ist, die das dritte akustische Parametersignal für die Erzeugung des zweiten akustischen Parametersignals aus dem umge­ setzten ersten akustischen Parametersignal heranzieht.
18. Schaltungsanordnung nach Anspruch 11, dadurch gekennzeichnet, daß die Gewichtungseinrich­ tung (10) den Leistungspegel des ersten akustischen Parameter­ signals derart wichtet, daß eine genaue Darstellung der Phoneme in dem Sprachsignal erfolgt.
19. Verfahren zum Erzeugeen eines Übergangssignals zur Anzeige der Lage eines Übergangs in einem Sprachsignal, welches Ruhe-Phonem- und Phonem-Phonem-Übergänge aufweist, insbesondere in einer Schaltungsanordnung nach einem der Ansprüche 10 bis 18, dadurch gekenn­ zeichnet,
daß ein akustisches Parametersignal abgegeben wird, welches den Phonemen des Sprachsignals entspricht,
daß eine Vielzahl von Zeitrahmen des akustischen Parameter­ signals in eine Vielzahl von Frequenzbandsignalen aufgeteilt wird, deren jedes kennzeichnend ist für einen Leistungspegel des betreffenden akustischen Parametersignals in einem bestimmten Frequenzband und in einem bestimmten Zeitrahmen,
daß aus der Vielzahl der Frequenzbandsignale ein mittlerer Leistungspegel im jeweiligen Zeitrahmen berechnet wird,
daß für sämtliche Zeitrahmen eine Vielzahl von ersten Differenzpegeln zwischen dem betreffenden mittleren Lei­ stungspegel im jeweiligen Zeitrahmen und der Vielzahl der Leistungspegel im selben Zeitrahmen berechnet wird,
daß für sämtliche Frequenzbänder eine Vielzahl von zwei­ ten Differenzpegeln berechnet wird zwischen a) dem niedrig­ sten ersten Differenzpegel in dem jeweiligen Frequenzband für die betreffende Vielzahl von Zeitrahmen und b) dem jeweiligen ersten Differenzpegel im selben Frequenzband für die betreffende Vielzahl von Zeitrahmen,
und daß die Summe sämtlicher zweiter Differenzpegel be­ rechnet wird, wobei diese Summe das Übergangssignal um­ faßt, welches dadurch bewertet werden kann, daß die Übergänge in dem Sprachsignal ermittelt werden.
20. Verfahren nach Anspruch 19, dadurch ge­ kennzeichnet, daß die Bewertung des Über­ gangssignals zur Ermittlung von Spitzen in dem betreffen­ den Signal dadurch erfolgt, daß eine zeitliche Abtastung des Übergangssignals unter Heranziehung eines bestimmten Zeitintervalls erfolgt und da als Spitzenpegel jedes Maximum des Übergangssignals identifiziert wird, welches in der Mitte des betreffenden Zeitintervalls auftritt, derart, daß die Übergänge in dem betreffenden Sprachsignal lokalisiert werden.
21. Verfahren nach Anspruch 20, dadurch ge­ kennzeichnet, daß als jeweiliger erster Differenzpegel die Differenz zwischen dem Logarithmus des betreffenden mittleren Leistungspegels und dem Logarithmus des vorliegenden Leistungspegels verwendet wird, wobei der Einfluß von Änderungen bzw. Schwankungen in der Be­ tonung von Phonem zu Phonem eines bestimmten Sprechers auf die ersten Differenzpegel hin minimiert ist.
22. Verfahren nach Anspruch 21, dadurch ge­ kennzeichnet, daß jedem mittleren Leistungs­ pegel und jedem vorliegenden Leistungspegel vor der Be­ rechnung des zugehörigen Logarithmus eine Vorspannung zugeführt wird, derart, daß der Einfluß von Fremstörung während der Ruhepausen im Sprachsignal auf die ersten Differenzpegel hin minimiert ist.
23. Verfahren nach Anspruch 22, dadurch ge­ kennzeichnet, daß die Leistungspegel des akustischen Parametersignals derart selektiv gewichtet werden, daß eine genaue Darstellung der Phoneme in dem Sprachsignal erfolgt.
24. Schaltungsanordnung zur Durchführung des Verfahrens nach einem der Ansprüche 19 bis 23, dadurch ge­ kennzeichnet,
daß eine Trenneinrichtung (21) vorgesehen ist, die eine Vielzahl von Zeitrahmen eines den Phonemen des Sprachsignals entsprechenden akustischen Parametersignals in eine Vielzahl von Frequenzbandsignalen aufteilt, deren jedes kennzeichnend ist für einen Leistungspegel des akustischen Parameter­ signals in einem bestimmten Frequenzband und in einem bestimmten Zeitrahmen,
daß eine Mittelungseinrichtung (23) vorgesehen ist, die aus der betreffenden Vielzahl von Frequenzbandsignalen einen mittleren Leistungspegel im jeweiligen Zeitrahmen berechnet,
daß eine Differenzschaltung (24) vorgesehen ist, welche für sämtliche Zeitrahmen eine Vielzahl von ersten Differenzpegeln zwischen dem mittleren Leistungs­ pegel im jeweiligen Zeitrahmen und der Vielzahl von vor­ liegenden Leistungspegeln im selben Zeitrahmen berechnet,
daß eine Speichereinrichtung (25) vorgesehen ist, welche eine Vielzahl der ersten Differenzpegel für eine Vielzahl von Zeitrahmen speichert,
daß eine Operationsschaltung (26) vorgesehen ist, welche aus den gespeicherten ersten Differenzpegeln eine Vielzahl von minimalen ersten Differenzpegeln bestimmt, wobei das betreffende Frequenzband einen minimalen ersten Differenzpegel für die Vielzahl der Zeitrahmen aufweist,
daß eine Summiereinrichtung (27) vorgesehen ist, welche die Summe einer Vielzahl der zweiten Differenzpegel be­ rechnet, die jeweils die Differenz zwischen a) dem minimalen ersten Differenzpegel in dem jeweiligen Differenzband und b) dem jeweiligen ersten Differenzpegel in demselben Differenzband für die betreffende Vielzahl von Zeitrahmen umfassen,
und daß die Summe das Übergangssignal umfaßt, welches derart berechnet werden kann, daß die Übergänge in dem Sprachsignal ermittelt sind.
25. Schaltungsanordnung nach Anspruch 24, dadurch gekennzeichnet,
daß ferner eine Spitzenbe­ wertungseinrichtung (28) vorgesehen ist, die das Übergangs­ signal derart bewertet, daß darin enthaltene Spitzen er­ mittelt werden, indem eine zeitliche Abtastung des Über­ gangssignals unter Heranziehung eines bestimmten Zeitinter­ valls erfolgt,
und daß als Spitzenpegel jedes Maximum des Übergangssignals in der Mitte des Zeitintervalls identifiziert wird, derart, daß die Übergänge in dem Sprachsignal lokalisiert sind.
26. Schaltungsanordnung nach Anspruch 25, dadurch gekennzeichnet, daß eine Logarithmus-Schal­ tungseinrichtung (22) vorgesehen ist, welche die Logarith­ men der entsprechenden mittleren Leistungspegel und der vor­ handenen Leistungspegel berechnet, wobei die ersten Dif­ ferenzpegel Differenzen zwischen den entsprechenden Loga­ rithmen kennzeichnen und wobei der Einfluß von Änderungen in der Betonung von Phonem zu Phonem eines bestimmten Sprechers auf die ersten Differenzpegel hin minimiert ist.
27. Schaltungsanordnung nach Anspruch 26, dadurch gekennzeichnet, daß die Logarithmus-Schal­ tungseinrichtung (22) eine Vorspannungseinrichtung umfaßt, welche eine Vorspannung zu dem jeweiligen mittleren Leistungspegel und zu dem jeweiligen Leistungspegel vor der Berechnung der zugehörigen Logarithmen abgibt, wobei der Einfluß einer Fremdstörung während der Ruhepausen in dem Sprachsignal auf die ersten Differenzpegel hin mini­ miert ist.
28. Schaltungsanordnung nach Anspruch 27, dadurch gekennzeichnet, daß eine Gewichtungsein­ richtung (10) vorgesehen ist, welche den Leistungspegel des akustischen Parametersignals derart wichtet, daß die Phoneme in dem Sprachsignal genau dargestellt sind.
DE19833306730 1982-02-25 1983-02-25 Verfahren und schaltungsanordnung zum erkennen bestimmter phoneme in einem sprachsignal sowie zum erzeugen von signalen zur anzeige von uebergaengen in einem sprachsignal Granted DE3306730A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57029471A JPS58145998A (ja) 1982-02-25 1982-02-25 音声過渡点検出方法

Publications (2)

Publication Number Publication Date
DE3306730A1 DE3306730A1 (de) 1983-09-01
DE3306730C2 true DE3306730C2 (de) 1991-10-17

Family

ID=12277008

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19833306730 Granted DE3306730A1 (de) 1982-02-25 1983-02-25 Verfahren und schaltungsanordnung zum erkennen bestimmter phoneme in einem sprachsignal sowie zum erzeugen von signalen zur anzeige von uebergaengen in einem sprachsignal

Country Status (8)

Country Link
US (1) US4592085A (de)
JP (1) JPS58145998A (de)
KR (1) KR910002198B1 (de)
CA (1) CA1193732A (de)
DE (1) DE3306730A1 (de)
FR (1) FR2522179B1 (de)
GB (2) GB2118343B (de)
NL (1) NL192701C (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4111781A1 (de) * 1991-04-11 1992-10-22 Ibm Computersystem zur spracherkennung

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4972490A (en) * 1981-04-03 1990-11-20 At&T Bell Laboratories Distance measurement control of a multiple detector system
JPS5997200A (ja) * 1982-11-26 1984-06-04 株式会社日立製作所 音声認識方式
JPS59166999A (ja) * 1983-03-11 1984-09-20 ソニー株式会社 音声過渡点検出方法
JPS59170897A (ja) * 1983-03-17 1984-09-27 ソニー株式会社 音声過渡点検出方法
US5131043A (en) * 1983-09-05 1992-07-14 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for speech recognition wherein decisions are made based on phonemes
US4991216A (en) * 1983-09-22 1991-02-05 Matsushita Electric Industrial Co., Ltd. Method for speech recognition
FR2554623B1 (fr) * 1983-11-08 1986-08-14 Texas Instruments France Procede d'analyse de la parole independant du locuteur
US4718088A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition training method
US4718092A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition activation and deactivation method
US4718093A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition method including biased principal components
US4713778A (en) * 1984-03-27 1987-12-15 Exxon Research And Engineering Company Speech recognition method
US4713777A (en) * 1984-05-27 1987-12-15 Exxon Research And Engineering Company Speech recognition method having noise immunity
US5241649A (en) * 1985-02-18 1993-08-31 Matsushita Electric Industrial Co., Ltd. Voice recognition method
DE3514286A1 (de) * 1985-04-19 1986-10-23 Siemens AG, 1000 Berlin und 8000 München System zur erkennung einzeln gesprochener woerter
CA1250368A (en) * 1985-05-28 1989-02-21 Tetsu Taguchi Formant extractor
JPS62220998A (ja) * 1986-03-22 1987-09-29 工業技術院長 音声認識装置
JPS63158596A (ja) * 1986-12-23 1988-07-01 株式会社東芝 音韻類似度計算装置
US5007093A (en) * 1987-04-03 1991-04-09 At&T Bell Laboratories Adaptive threshold voiced detector
US4860360A (en) * 1987-04-06 1989-08-22 Gte Laboratories Incorporated Method of evaluating speech
US5027408A (en) * 1987-04-09 1991-06-25 Kroeker John P Speech-recognition circuitry employing phoneme estimation
US5136653A (en) * 1988-01-11 1992-08-04 Ezel, Inc. Acoustic recognition system using accumulate power series
US5168524A (en) * 1989-08-17 1992-12-01 Eliza Corporation Speech-recognition circuitry employing nonlinear processing, speech element modeling and phoneme estimation
JPH03120598A (ja) * 1989-10-03 1991-05-22 Canon Inc 音声認識方法及び装置
EP0438662A2 (de) * 1990-01-23 1991-07-31 International Business Machines Corporation Einrichtung und Verfahren zur Gruppierung von Äusserungen eines Phonemen in von Kontexten abhängigen Kategorien, die auf Tonähnlichkeit basiert sind für automatische Spracherkennung
JP3716870B2 (ja) * 1995-05-31 2005-11-16 ソニー株式会社 音声認識装置および音声認識方法
US5724410A (en) * 1995-12-18 1998-03-03 Sony Corporation Two-way voice messaging terminal having a speech to text converter
KR0173923B1 (ko) * 1995-12-22 1999-04-01 양승택 다층구조 신경망을 이용한 음소 분할 방법
KR100318619B1 (ko) 1996-08-29 2002-02-19 아끼구사 나오유끼 설비고장진단방법과그장치및고장진단기능을가진반도체제조장치
US6006186A (en) * 1997-10-16 1999-12-21 Sony Corporation Method and apparatus for a parameter sharing speech recognition system
US6230122B1 (en) 1998-09-09 2001-05-08 Sony Corporation Speech detection with noise suppression based on principal components analysis
US6173258B1 (en) * 1998-09-09 2001-01-09 Sony Corporation Method for reducing noise distortions in a speech recognition system
US6768979B1 (en) 1998-10-22 2004-07-27 Sony Corporation Apparatus and method for noise attenuation in a speech recognition system
US6442524B1 (en) 1999-01-29 2002-08-27 Sony Corporation Analyzing inflectional morphology in a spoken language translation system
US6223150B1 (en) 1999-01-29 2001-04-24 Sony Corporation Method and apparatus for parsing in a spoken language translation system
US6282507B1 (en) 1999-01-29 2001-08-28 Sony Corporation Method and apparatus for interactive source language expression recognition and alternative hypothesis presentation and selection
US6356865B1 (en) 1999-01-29 2002-03-12 Sony Corporation Method and apparatus for performing spoken language translation
US6243669B1 (en) 1999-01-29 2001-06-05 Sony Corporation Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation
US6278968B1 (en) 1999-01-29 2001-08-21 Sony Corporation Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system
US6266642B1 (en) 1999-01-29 2001-07-24 Sony Corporation Method and portable apparatus for performing spoken language translation
US6374224B1 (en) 1999-03-10 2002-04-16 Sony Corporation Method and apparatus for style control in natural language generation
US7139708B1 (en) 1999-03-24 2006-11-21 Sony Corporation System and method for speech recognition using an enhanced phone set
US20010029363A1 (en) * 1999-05-03 2001-10-11 Lin J. T. Methods and apparatus for presbyopia correction using ultraviolet and infrared lasers
KR100608062B1 (ko) * 2004-08-04 2006-08-02 삼성전자주식회사 오디오 데이터의 고주파수 복원 방법 및 그 장치
US8332212B2 (en) * 2008-06-18 2012-12-11 Cogi, Inc. Method and system for efficient pacing of speech for transcription
US8903847B2 (en) * 2010-03-05 2014-12-02 International Business Machines Corporation Digital media voice tags in social networks
US20120244842A1 (en) 2011-03-21 2012-09-27 International Business Machines Corporation Data Session Synchronization With Phone Numbers
US8688090B2 (en) 2011-03-21 2014-04-01 International Business Machines Corporation Data session preferences
US20120246238A1 (en) 2011-03-21 2012-09-27 International Business Machines Corporation Asynchronous messaging tags
JP2013164572A (ja) * 2012-01-10 2013-08-22 Toshiba Corp 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム
JP6461660B2 (ja) * 2015-03-19 2019-01-30 株式会社東芝 検出装置、検出方法およびプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3344233A (en) * 1967-09-26 Method and apparatus for segmenting speech into phonemes
GB981153A (en) * 1961-03-20 1965-01-20 Nippon Telegraph & Telephone Improved phonetic typewriter system
US3582559A (en) * 1969-04-21 1971-06-01 Scope Inc Method and apparatus for interpretation of time-varying signals
JPS5850360B2 (ja) * 1978-05-12 1983-11-10 株式会社日立製作所 音声認識装置における前処理方法
US4412098A (en) * 1979-09-10 1983-10-25 Interstate Electronics Corporation Audio signal recognition computer
US4454586A (en) * 1981-11-19 1984-06-12 At&T Bell Laboratories Method and apparatus for generating speech pattern templates

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4111781A1 (de) * 1991-04-11 1992-10-22 Ibm Computersystem zur spracherkennung

Also Published As

Publication number Publication date
US4592085A (en) 1986-05-27
NL192701B (nl) 1997-08-01
KR910002198B1 (ko) 1991-04-06
GB8429480D0 (en) 1985-01-03
FR2522179B1 (fr) 1986-05-02
JPS58145998A (ja) 1983-08-31
JPH0441356B2 (de) 1992-07-08
NL8300718A (nl) 1983-09-16
GB2118343A (en) 1983-10-26
DE3306730A1 (de) 1983-09-01
NL192701C (nl) 1997-12-02
KR840003871A (ko) 1984-10-04
GB2153127A (en) 1985-08-14
CA1193732A (en) 1985-09-17
GB8305292D0 (en) 1983-03-30
FR2522179A1 (fr) 1983-08-26
GB2118343B (en) 1986-01-02
GB2153127B (en) 1986-01-15

Similar Documents

Publication Publication Date Title
DE3306730C2 (de)
DE69122017T2 (de) Verfahren und vorrichtung zur signalerkennung
DE3878001T2 (de) Spracherkennungseinrichtung unter anwendung von phonemermittlung.
EP1371055B1 (de) Vorrichtung zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen des audiosignals unter verwendung einer autokorrelationsfunktion
DE69121312T2 (de) Geräuschsignalvorhersagevorrichtung
DE3687677T2 (de) Geraeuschkompensation in einer spracherkennungseinrichtung.
DE3878423T2 (de) System und verfahren zur klassifizierung von rundfunkinformationen.
DE3687815T2 (de) Verfahren und vorrichtung zur sprachanalyse.
DE2659096C2 (de)
DE69031189T2 (de) Sprachverifizierungseinrichtung zur Prüfung der Identität des Benutzers einer Telefonkreditkarte
DE3236832C2 (de) Verfahren und Gerät zur Sprachanalyse
DE2825110A1 (de) Verfahren zur erkennung kontinuierlicher sprachsignale
EP1606798B1 (de) Vorrichtung und verfahren zum analysieren eines audio-informationssignals
DE3339288C2 (de)
DE2825186A1 (de) Verfahren zur verringerung der falschanzeige in spracherkennungsverfahren fuer kontinuierliche sprachsignale
DE2825082A1 (de) Verfahren zur spracherkennung
DE2753707A1 (de) Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache
DE2422028A1 (de) Schaltungsanordnung zur identifizierung einer formantfrequenz in einem gesprochenen wort
DE4031638C2 (de)
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69105154T2 (de) Sprachsignalverarbeitungsvorrichtung.
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
EP1388145A1 (de) Vorrichtung und verfahren zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen
DE69020736T2 (de) Wellenanalyse.
DE3733391A1 (de) Verfahren zur spracherkennung

Legal Events

Date Code Title Description
8110 Request for examination paragraph 44
D2 Grant after examination
8364 No opposition during term of opposition