DE69613646T2 - Verfahren zur Sprachdetektion bei starken Umgebungsgeräuschen - Google Patents

Verfahren zur Sprachdetektion bei starken Umgebungsgeräuschen

Info

Publication number
DE69613646T2
DE69613646T2 DE69613646T DE69613646T DE69613646T2 DE 69613646 T2 DE69613646 T2 DE 69613646T2 DE 69613646 T DE69613646 T DE 69613646T DE 69613646 T DE69613646 T DE 69613646T DE 69613646 T2 DE69613646 T2 DE 69613646T2
Authority
DE
Germany
Prior art keywords
input signal
speech
frequency
change
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69613646T
Other languages
English (en)
Other versions
DE69613646D1 (de
Inventor
Osamu Mizuno
Shigeki Sagayama
Satoshi Takahashi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of DE69613646D1 publication Critical patent/DE69613646D1/de
Application granted granted Critical
Publication of DE69613646T2 publication Critical patent/DE69613646T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Noise Elimination (AREA)

Description

  • Die vorliegende Erfindung betrifft ein Sprach-Endpunkt-Erfassungsverfahren und insbesondere ein Verfahren zum Erfassen einer Sprachperiode in einem Sprache enthaltenden Signal bei starken Umgebungsgeräuschen.
  • Spracherkennungstechnologie ist heutzutage weit verbreitet. Um Sprache zu erkennen, ist es notwendig, eine zu erkennende Sprechperiode im Eingangssignal zu erfassen. Es wird eine Beschreibung einer herkömmlichen Technik zum Erfassen der Sprechperiode auf Grundlage der Amplitude, d.h. der Leistung, der Sprache gegeben. Die hier erwähnte Leistung ist die Quadratsumme des Eingangssignals pro Zeiteinheit. Sprache enthält üblicherweise eine Tonhöhenfrequenzkomponente, deren Leistung in einer Vokalperiode besonders hoch ist. Unter der Annahme, daß ein Rahmen im Eingangssignal, in dem die Leistung des Eingangssignals einen bestimmten Schwellwert überschreitet, ein Rahmen eines Vokals ist, erfaßt das herkömmliche Schema als Sprachperiode den Vokalrahmen zusammen mit mehreren vorhergehenden und nachfolgenden Rahmen. Bei diesem Verfahren ergibt sich jedoch ein Problem, daß Signale mit hoher Leistung, die ungefähr genau so lang wie ein Wort andauern, alle irrtümlich als Sprache erfaßt werden. Das heißt, Geräusche hoher Leistung wie etwa das Geräusch einer Telefonklingel und einer zuschlagenden Tür werden als Sprache erfaßt. Ein anderes Problem dieses Verfahrens ist, daß es um so schwieriger wird, die Leistungsperiode der Sprache zu erfassen, je stärker die Leistung des Hintergrundgeräusches zunimmt. Zum Beispiel bei der Sprachsteuerung eines Instrumentes in einem Fahrzeug besteht die Möglichkeit, daß das Instrument aufgrund eines Erkennungsfehlers unkontrollierbar wird oder versagt.
  • Ein anderes herkömmliches Verfahren ist, die Sprachperiode auf der Basis einer Tonhöhenfrequenz zu erfassen, die die Grundfrequenz der Sprache ist. Dieses Verfahren nutzt die Tatsache, daß die Tonhöhenfrequenz eines stationären Teiles eines Vokals in den Bereich von etwa 50 bis 500 Hz fällt. Die Tonhöhenfrequenz des Eingangssignals wird untersucht, und dann wird der Rahmen, in dem die Tonhöhenfrequenz in dem oben erwähnten Frequenzbereich bleibt, als Rahmen eines Vokals angenommen, und der Rahmen sowie mehrere vorangehende und nachfolgende Rahmen werden als eine Sprachperiode erfaßt. Bei diesem Verfahren wird jedoch ein Signal mit Tonhöhenfrequenz in dem Frequenzbereich irrtümlich als Sprache erfaßt, auch wenn es ein Geräusch ist. In einer Umgebung, wo Musik mit einer im allgemeinen starken Tonkomponente einen Hintergrund bildet, ist es sehr wahrscheinlich, daß die Sprachperiode aufgrund der Tonkomponente des Musikgeräusches fehlerhaft erfaßt wird. Da außerdem das Tonhöhenfrequenz-Erfassungsverfahren die Tatsache ausnutzt, daß die Schwingungsform menschlicher Sprache bei jeder Tonhöhe eine hohe Korrelation annimmt, macht es die Überlagerung von Geräuschen über Sprache unmöglich, einen hohen Korrelationswert zu erreichen und damit die korrekte Tonhöhenfrequenz zu erfassen, was zu einem Versagen der Spracherfassung führt.
  • In der japanischen Patentoffenlegungsschrift Nr. 200300/85 wird ein Verfahren vorgeschlagen, das darauf abzielt, die Genauigkeit des Erfassens von Start- und Endpunkten der Sprachperiode zu verbessern. Dieses Verfahren definiert als Start- und Endpunkte der Sprachperiode diejenigen Zeitpunkte, an denen das Signalspektrum starke Veränderungen erfährt, in der Umgebung der Start- und Endpunkte einer Periode, in der die Leistung des Eingangs-Sprachsignals einen Schwellwert übersteigt. Da dieses Verfahren auf der Erfassung des Leistungspegels des Eingangssignals beruht, das den Schwellwert überschreitet, gibt es eine sehr starke Möglichkeit eines Erfassungsfehlers, der auftritt, wenn der Sprachsignalpegel niedrig oder der Geräuschpegel hoch ist.
  • Bei dem oben beschriebenen herkömmlichen Verfahren zum Erfassen der Sprachperiode basierend auf der Leistung der Sprache kann bei hoher Leistung des Hintergrundgeräusches dieses nicht von der Leistung der Sprache unterschieden werden, und das Geräusch wird irrtümlich als Sprache erfaßt. Andererseits gibt es bei dem Sprachperioden-Erfassungsverfahren, das auf der Tonhöhenfrequenz basiert, wenn Geräusch der Sprache überlagert wird, einen Fall, wo eine stabile Tonhöhenfrequenz nicht erhalten und deshalb Sprache nicht erfaßt werden kann. Außerdem ist in dem US-Patent Nr. 5 365 592 ein Verfahren offenbart, in dem eine Cepstrum- Tonhöhe durch eine FFT-Analyse des Eingangssignals erhalten und basierend auf der Cepstrum- Tonhöhe an jedem Zeitpunkt bestimmt wird, ob das Eingangssignal Sprache ist oder nicht. Auch dieses Verfahren ist anfällig gegen Entscheidungsfehler aufgrund von Geräuschen.
  • Außerdem offenbart das Dokument "Instantaneous Spectral Estimation of Nonstationary Signals" von Takizawa et al., ICASSP-94, Band IV, Seiten 329 bis 332, die Verwendung einer spektralen Frequenzänderung eines Signals für die momentane Spektralabschätzung.
  • Aufgabe der vorliegenden Erfindung ist daher, ein Signalverarbeitungsverfahren anzugeben, das stabile Erfassung der Sprachperiode aus dem Eingangssignal auch in einer Umgebung mit starkem Geräusch durch Ausnutzung der Informationscharakteristik von Sprache ermöglicht.
  • Gemäß der vorliegenden Erfindung umfaßt das Signalverarbeitungsverfahren zum Erfassen der Sprachperiode im Eingangssignal folgende Schritte:
  • (a) Erhalten eines spektralen Merkmalparameters durch Analysieren des Spektrums des Eingangssignals für jedes vorgegebene Analysefenster;
  • (b) Berechnen des Ausmaßes der Änderung des spektralen Merkmalparameters des Eingangssignals pro Zeiteinheit;
  • (c) Berechnen der Änderungsfrequenz des Ausmaßes des spektralen Merkmalparameters über eine vorgegebene Analyserahmenperiode, die länger als die Zeiteinheit ist; und
  • (d) Überprüfen, ob die Änderungsfrequenz in einen vorgegebenen Frequenzbereich fällt, und wenn ja, Entscheiden, daß das Eingangssignal des Analyserahmens ein Sprachsignal ist.
  • Bei dem obigen Signalverarbeitungsverfahren umfaßt der Schritt des Berechnens des Ausmaßes der Änderung des spektralen Merkmalparameters einen Schritt des Erhaltens einer Zeitfolge von Merkmalvektoren, die die Spektren des Eingangssignals an jeweiligen Zeitpunkten darstellen, und einen Schritt des Berechnens der dynamischen Messwerte durch die Verwendung der Merkmalvektoren an einer Mehrzahl von Zeitpunkten und des Berechnens der Änderung im Spektrum aus der Norm der dynamischen Messwerte.
  • Bei dem obigen Signalverarbeitungsverfahren ist der Frequenzberechnungsschritt ein Schritt des Zählens der Anzahl von Peaks der spektralen Veränderung, die einen vorgegebenen Schwellwert überschreiten und des Lieferns des resultierenden Zählergebnisses als Frequenz.
  • Alternativ umfaßt der Frequenzberechnungsschritt einen Schritt des Berechnens der Gesamtsumme von Änderungen im Spektrum des Eingangssignals über die Analyserahmenperiode, die länger als die Zeiteinheit ist, und der Entscheidungsschritt entscheidet, daß das Eingangssignal der Analyserahmenperiode ein Sprachsignal ist, wenn der Wert der Gesamtsumme innerhalb eines vorgegebenen Wertebereiches liegt.
  • Das obige Signalverarbeitungsverfahren umfaßt ferner einen Schritt des vektoriellen Quantisierens des Eingangssignals für jedes Analysefenster durch Bezugnahme auf ein Vektorcodebuch, das aus repräsentativen Vektoren für spektrale Merkmalparameter von Sprache aufgebaut ist, die aus. Sprachdaten gewonnen sind, und des Berechnens einer Quantisierungsverzerrung. Wenn die Quantisierungsverzerrung kleiner als ein vorgegebener Wert ist und die Frequenz der Änderung innerhalb des vorgegebenen Frequenzbereiches liegt, wird im Entscheidungsschritt (d) entschieden, daß das Eingangssignal im Analysefenster die Sprachperiode darstellt.
  • Das obige Signalverarbeitungsverfahren umfaßt ferner einen Schritt des Erhaltens der Tonhöhenfrequenz, des Amplitudenwertes oder des Korrelationswertes des Eingangssignals für jedes Analysefenster und des Entscheidens, ob das Eingangssignal ein Vokal ist. Wenn der Vokal erfaßt wird und die Frequenz der Änderung im vorgegebenen Frequenzbereich ist, wird im Entscheidungsschritt (d) entschieden, daß das Eingangssignal im Analysefenster ein Sprachsignal ist. Alternativ wird im Entscheidungsschritt (d) die Zahl von Nulldurchgängen des Eingangssignals gezählt, und basierend auf dem Zählwert wird entschieden, ob das Eingangssignal ein Konsonant ist, und wird die Sprachperiode auf der Grundlage des Entscheidungsergebnisses und der Änderungsfrequenz entschieden.
  • Da gemäß der vorliegenden Erfindung die Aufmerksamkeit auf die Frequenz einer spektralen Änderungscharakteristik eines Sprachtones konzentriert ist, kann sogar ein Geräusch von hoher Leistung von Sprache unterschieden werden, wenn es keine spektrale Veränderung mit der gleichen Frequenz wie die Sprache erfährt. Folglich ist es möglich, festzustellen, ob unbekannte Eingabesignale von hoher Leistung wie etwa ein stetiges Geräusch und ein sanfter Klang von Musik, Sprache sind. Auch wenn dem Sprachsignal Geräusch überlagert ist, kann Sprache mit hoher Genauigkeit erfaßt werden, weil die spektrale Änderung des Eingangssignals genau und stabil erfaßt werden kann. Außerdem können eine leise singende Stimme und andere Signale mit relativ niedriger Frequenz der spektralen Änderung beseitigt oder unterdrückt werden.
  • Das obige Verfahren basiert lediglich auf der Frequenz der spektralen Änderung des Eingangssignals, die Sprachperiode kann aber mit höherer Genauigkeit erfaßt werden durch Kombinieren der Frequenz der spektralen Veränderung mit ein oder mehr Informationsstücken über den spektralen Merkmalparameter, die Tonhöhenfrequenz, den Amplitudenwert und die Zahl der Nulldurchgänge des Eingangssignals, die dessen spektrale Umhüllende zu jedem Zeitpunkt darstellen.
  • Fig. 1 ist ein Graph, der die Frequenz der spektralen Änderung eines Sprachsignals zeigt, auf der die vorliegende Erfindung basiert;
  • Fig. 2 ist ein Diagramm zur Erläuterung einer Ausgestaltung der vorliegenden Erfindung;
  • Fig. 3 ist ein Zeitdiagramm einer Spektralanalyse eines Signals;
  • Fig. 4 ist ein Diagramm, das Sprachsignal-Wellenformen und die zugehörigen Veränderungen des dynamischen Meßwertes in der Ausgestaltung der Fig. 2 zeigt.
  • Fig. 5 ist ein Diagramm, das die Ergebnisse der Spracherfassung im Dokument nach Fig. 2 zeigt;
  • Fig. 6 ist ein Diagramm zum Erläutern einer anderen Ausgestaltung der vorliegenden Erfindung, die die Frequenz der spektralen Änderung mit einem Vektorquantisierungsschema kombiniert.
  • Fig. 7 ist ein Diagramm, das die Wirksamkeit der Ausgestaltung von Fig. 6 zeigt;
  • Fig. 8 ist ein Diagramm, das eine andere Ausgestaltung der vorliegenden Erfindung zeigt, bei der die Frequenz der spektralen Änderung mit der Tonhöhenfrequenz des Eingangssignals verknüpft sind; und
  • Fig. 9 ist ein Diagramm, das noch eine weitere Ausgestaltung der vorliegenden Erfindung zeigt, bei der die Frequenz der spektralen Änderung mit der Zahl von Nulldurchgängen des Eingangssignals verknüpft ist.
  • Gemäß der vorliegenden Erfindung wird eine spektrale Veränderung des Eingangssignals von einer Zeitfolge ihrer spektralen Merkmalparameter abgeleitet, und die zu erfassende Sprachperiode ist eine Periode, über der das Spektrum des Eingabesignals sich mit ungefähr der gleichen Frequenz wie die Sprachperiode ändert.
  • Die Erfassung einer Änderung im Spektrum des Eingangssignals beginnt mit dem Berechnen des Merkmalvektors des Spektrums zu jedem Zeitpunkt, gefolgt von einer Berechnung des dynamischen Merkmals aus dem Spektrum anhand von Merkmalvektoren an einer Mehrzahl von Punkten in der Zeit und dann durch Berechnen des Ausmaßes der Änderung im Spektrum aus der Norm des dynamischen Merkmalsvektors. Die Frequenz oder das zeitliche Muster der spektralen Veränderung im Sprachzeitraum ist vorberechnet, und eine Periode, in der das Eingangssignal eine spektrale Veränderung ähnlich der oben erwähnten erfährt, wird als Sprachperiode erfaßt.
  • Als spektraler Merkmalparameter kann Information über die spektrale Umhüllende benutzt werden, die durch eine FFT-Spektralanalyse, Cepstrum-Analyse, Kurzzeit-Autokorrelationsanalyse oder ähnliche Spektralanalyse erhältlich ist. Der spektrale Merkmalparameter ist üblicherweise eine Folge von mehreren Werten (entsprechend einer Folge von spektralen Frequenzen), die im folgenden als Merkmalsvektor bezeichnet wird. Das dynamische Merkmal kann die Differenz zwischen Zeitfolgen von spektralen Merkmalparametern, ein Polynom-Expansionskoeffizient oder beliebige andere spektrale Merkmalparameter sein, so lange sie die spektrale Veränderung darstellen. Die Frequenz der spektralen Veränderung wird durch ein Verfahren erfaßt, das in der Lage ist, den Grad der spektralen Änderung durch Zählen der Zahl von Peaks in der spektralen Veränderung über eine bestimmte Rahmenzeit oder durch Berechnen des Integrals des Ausmaßes der Änderung im Spektrum zu berechnen.
  • Natürlich ist ein Sprachgeräusch insbesondere eine Folge von Phonemen, und jedes Phonem hat eine charakteristische spektrale Umhüllende. Folglich ändert sich das Spektrum stark an der Grenze zwischen Phonemen. Außerdem ist die Zahl von Phonemen, die pro Zeiteinheit erzeugt werden (die Frequenz der Erzeugung der Phoneme) in einer solchen Folge von Phonemen nicht nach Sprachen unterschiedlich, sondern ist allgemeinen Sprachen gemeinsam. Bezogen auf die spektrale Veränderung kann das Sprachsignal charakterisiert werden als ein Signal, dessen Spektrum mit einer Periode nahezu gleich der Phonemlänge variiert. Diese Eigenschaft tritt in anderen Geräuschen in der natürlichen Welt nicht auf. Durch Vorausberechnen eines akzeptablen Bereichs der spektralen Veränderung in der Sprachperiode ist es möglich, als Sprachperiode eine Periode zu erfassen, in dem die Frequenz des Auftretens der spektralen Veränderung des Eingangssignals im vorberechneten Bereich liegt.
  • Als Verfahren zum Analysieren des Spektrums des Eingangssignals sind z. B. ein Verfahren zum direkten Frequenzanalysieren des Eingangssignals, ein FFT-(Fast Fourier-Transform)-Verfahren zum Analysieren des Eingangssignals und ein LPC-(Linear Predictive Coding)-Verfahren zum Analysieren des Eingangssignals bekannt. Es folgen Gleichungen zum Ableiten des spektralen Parameters nach drei repräsentativen Sprachspektralanalyseverfahren.
  • (a) Spektralparameter φ(m) durch Kurzzeit-Autokorrelationsanalyse:
  • φ(m) = 1/N x(n)x(n + m (1)
  • (b) Spektralparameter S(ω) durch Kurzzeit-Spektralanalyse:
  • (c) Spektralparameter Cn durch Cepstrum-Analyse:
  • Cn = 1/N log X(k) exp{j2πkn/N} (3)
  • Der Spektralparameter durch LPC-Cepstrum-Analyse wird in der gleichen Form wie Gleichung (3) ausgedrückt. Außerdem stellen ein linearer Vorhersagekoeffizient {αi i = 1, ..., p}, ein PARCOR- Koeffizient {Ki i = 1, ..., p} und ein Linienspektrumpaar LSP ebenfalls Spektralhülleninformation von Sprachsignalen dar. Diese spektralen Parameter werden alle ausgedrückt durch eine Koeffizientenfolge (Vektor) und werden als akustische Merkmalvektoren bezeichnet. Eine Beschreibung wird typischerweise für das LPC-Cepstrum C = {c&sub1;, c&sub2;, ..., cK} angegeben, doch können auch andere spektrale Parameter verwendet werden.
  • Wie oben angegeben, ist das Prinzip der vorliegenden Erfindung, die Entscheidung, ob die Periode des Eingangssignals eine Sprachperiode ist, abhängig davon zu treffen, ob die Frequenz einer spektralen Änderung des Eingangssignals innerhalb eines vorgegebenen Bereiches liegt. Das Ausmaß der Änderung im Spektrum wird als dynamischer Messwert der Sprache wie unten beschrieben erhalten. Der erste Schritt ist, eine Zeitfolge von akustischen Parametervektoren des Sprachsignals durch FFT-Analyse, LPC-Analyse oder irgendeine andere Spektralanalyse zu erhalten. Nehmen wir an, daß ein k-dimensionales LPC-Cepstrum C(t) = {c&sub1;, c&sub2;, ..., ck} als Merkmalsvektor zum Zeitpunkt t verwendet wird. Um eine Änderung im Frequenzspektrum der Sprache über eine Fensterbreite 2n (wobei n die Zahl von diskreten Zeitpunkten ist) einer bestimmten Periode darzustellen, wird eine lokale Bewegung des Cepstrums C(t) durch ein gewichtetes Verfahren der kleinsten Fehlerquadrate linear approximiert, und ihre Neigung A(t) (ein linearer Differentialkoeffizient) wird als Ausmaß der Änderung im Spektrum (ein Gradientenvektor) erhalten. Das heißt, wenn die Gewichtung wi = w-i gesetzt wird, ist die Neigung durch lineare Approximation gegeben durch die folgende Gleichung:
  • aak(t) = iwick(t + i)/ i²w&sub1; (4)
  • Dabei stellt ak(t) ein k-tes Element eines k-dimensionalen Vektors A(t) = {a&sub1;(t), a&sub2;(t), ..., ak(t)} dar, der das dynamische Merkmal des Spektrums zur Zeit t darstellt, und A(t) wird als ein Delta- Cepstrum bezeichnet. Das heißt, ak(t) bezeichnet einen linearen Differentialkoeffizienten einer Zeitfolge von k-dimensionalen Ceptstrumelementen ck(t) zur Zeit t (siehe Furui, "Digital Speech Processing", Tokai University Press).
  • Der dynamische Messwert D(t) zur Zeit t wird berechnet durch die folgende Gleichung, die die Summe der Quadrate aller Elemente des Delta-Cepstrums zur Zeit t darstellt (siehe Shigeki Sagayama and Fumitada Itakura, "On Individuality in a Dynamic Measure of Speech," Proc. Accoustical Society, Frühjahrskonferenz 1997, 3-3-7, Seiten 589 bis 590, Juni 1997).
  • D(t) = a (t) (5)
  • Das heißt, das Cepstrum C(k) stellt das Merkmal der spektralen Hülle dar, und das Delata-C- Cepstrum, welches sein linearer Differentialkoeffizient ist, stellt das dynamische Merkmal dar. Der dynamische Messwert stellt also die Größe der spektralen Veränderung dar. Die Frequenz SF der spektralen Änderung wird berechnet als die Anzahl von Peaks der dynamischen Messwerte D(t), die im Laufe einer bestimmten Rahmenperiode F (eines Analyserahmens) einen vorgegebenen Schwellwert Dth überschreiten oder als Gesamtsumme (Integral) der dynamischen Messungen D(t) im Analyserahmen F.
  • Zwar ist oben der dynamische Messwert D(t) des Spektrums im Falle der Verwendung des Cepstrums C(t) als der spektrale Merkmals-(Vektor)-Parameter beschrieben worden, doch kann die dynamische Messung D(t) in ähnlicher Weise als andere spektrale Merkmalparameter definiert werden, die durch Vektoren dargestellt werden.
  • Sprache enthält z. B. zwei bis drei Phoneme in 400 Millisekunden, und das Spektrum variiert entsprechend der Zahl der Phoneme. Fig. 1 ist ein Graph, der die für viele Rahmen gemessene Zahl von Peaks zeigt, die starke Spektrumänderungen pro Zeiteinheit (400 ms, die als Analyserahmenlänge F definiert sind) anzeigen. 8 Stück Sprachdaten durch Lesen wurden verwendet. In Fig. 1 stellt die Abszisse die Zahl von Malen dar, wo die spektrale Veränderung einen Wert von 0,5 pro Rahmen überschritten hat, und die Ordinate stellt die Häufigkeit dar, mit der die jeweilige Zahl von Peaks gezählt wurde. Wie aus Fig. 1 offensichtlich ist, verteilt sich die Zahl von Peaks pro Rahmen zwischen 1 und 5. Diese Verteilung ändert sich zwar mit dem zum Bestimmen der Peaks verwendeten Schwellwert oder den verwendeten Sprachdaten, ist aber für Sprachgeräusche charakteristisch. Wenn das Spektrum des Eingangssignals in einer 400 ms-Periode ein- bis fünfmal variiert, kann somit entschieden werden, daß eine Sprachsignalperiode vorliegt. Die Änderung im Spektrum (Merkmalsvektor) stellt die Neigung der Zeitfolge C(t) der Merkmalvektoren an jedem Zeitpunkt dar.
  • Fig. 2 zeigt eine Ausgestaltung der vorliegenden Erfindung. Ein über einen Signaleingabeanschluß 11 eingegebenes Signal S wird in einem A/D-Wandlerteil 12 in ein digitales Signal gewandelt. Ein Extraktionsteil für akustisches Merkmal 13 berechnet das akustische Merkmal des gewandelten digitalen Signals wie etwa dessen LPC- oder FFT-Cepstren. Ein Berechnungsteil für einen dynamischen Messwert 14 berechnet das Ausmaß der Änderung im Spektrum aus der LPC- Cepstrenfolge. Das heißt, das LPC-Cepstrum wird alle 10 ms erhalten, indem die LPC-Analyse des Eingangssignals für jedes Analysefenster von z. B. 20 ms Breite durchgeführt wird, wie in Zeile A in Fig. 3 gezeigt, wodurch eine Folge von LPC-Cepstren C(0), C(1), C(2), ..., erhalten wird, wie in Zeile B in Fig. 3 gezeigt. Jedesmal wenn das LPC-Cepstrum C(t) erhalten wird, wird das Delta-Cepstrum A(t) nach Gleichung (4) aus den 2n + 1 letzten LPC-Cepstren berechnet, wie in Zeile C in Fig. 3 gezeigt. Fig. 3 zeigt den Fall, wo n gleich 1 ist. Als nächstes wird jedesmal, wenn das Delta-Cepstrum A(t) erhalten wird, das dynamische Maß D(t) nach Gleichung (5) berechnet, wie in Zeile D in Fig. 3 gezeigt.
  • Indem die oben beschriebene Verarbeitung über den Analyserahmen F von 400 ms Zeitlänge durchgeführt wird, von dem angenommen wird, daß er eine Mehrzahl von Phonemen umfaßt, werden 40 dynamische Messungen D(t) erhalten. Ein Sprachperioden-Erfassungsteil 15 zählt die Zahl von Peaks der dynamischen Messwerte D(t), die den Schwellwert Dth überschreiten und liefert den Zählwert als Frequenz SF der Spektrumsänderung.
  • Alternativ wird die Gesamtsumme der dynamischen Messwerte D(t) über den Analyserahmen F berechnet und als Frequenz SF der Spektrumänderung definiert.
  • Die Frequenz der Spektrumänderung in der Sprachperiode wird vorausberechnet, auf deren Grundlage der obere und untere Schwellwert vorgegeben werden. Der Rahmen des Eingangssignals, der in den Bereich zwischen dem unteren und dem oberen Schwellwert fällt, wird als ein Sprachrahmen erfaßt. Schließlich wird das Sprachperioden-Erfassungsergebnis aus einem Sprachperioden-Erfassungsausgabeteil ausgegeben. Indem die Frequenz SF der Spektrumsänderung während der Anwendung des Eingangssignals wiederholt durchgeführt und dabei die zeitliche Position des Analyserahmens F jedesmal um ein Zeitintervall von 20 ms verschoben wird, wird die Sprachperiode im Eingangssignal erfaßt.
  • Fig. 4 ist ein Diagramm, das eine Sprachsignal-Wellenform und ein Beispiel eines Musters der entsprechenden Änderung der dynamischen Messung D(t) zeigt. Die in Zeile A gezeigten Sprachwellenformdaten sind die Aussprache, durch einen männlichen Sprecher, der japanischen Wörter /keikai/ und /sasuga/, mit der Bedeutung "Achtung" bzw. "wie zu erwarten". Die LPC- Cepstrumanalyse zum Erhalten des dynamischen Messwerts D(t) des Eingangssignals wurde durchgeführt mit einem 20 ms langen Analysefenster, das um ein 10 ms-Zeitintervall verschoben wurde. Das Delta-Cepstrum A(t) wurde über einer Rahmenbreite von 100 ms berechnet. Aus Fig. 4 ist zu sehen, daß der dynamische Messwert D(t) in einem stillen Bereich oder stationären Bereich der Sprache nicht stark variiert, wie in Zeile B gezeigt, und daß Peaks der dynamischen Messungen an Anfangs- und Endpunkten der Sprache oder an der Grenze zwischen Phonemen auftreten.
  • Fig. 5 ist ein Diagramm zur Erläuterung eines Beispiels des Ergebnisses der Erfassung von Sprache mit überlagertem Geräusch. Die in Zeile A gezeigte Eingangssignal-Wellenform wurde wie folgt erzeugt: das Geräusch eines fahrenden Autos wurde mit einem Signal-Rausch-Verhältnis von 0 dB einem Signal überlagert, das durch Verkettung der Aussprache des japanischen Wortes /aikawarazu/ mit der Bedeutung "wie üblich" durch zwei Sprecher erhalten wurde, wobei die Aussprachen jeweils durch eine stille Periode von 5 s getrennt waren. Zeile B in Fig. 5 zeigt eine korrekte Sprachperiode, die die Periode darstellt, in der Sprache vorhanden ist. Zeile D zeigt Änderungen in der dynamischen Messung D(t). Zeile C zeigt das automatisch auf der Basis von Änderungen des dynamischen Messwerts D(t) automatisch ermittelte Sprachperioden-Erfassungsergebnis. Der dynamische Messwert D(t) wurde unter den gleichen Bedingungen wie in Fig. 4 erhalten. Folglich wurde der dynamische Messwert alle 10 ms erhalten. Die Analyserahmenlänge war 400 ms, und der Analyserahmen wurde in Schritten von 200 ms verschoben. Die Gesamtsumme der dynamischen Messwerte D(t) in der Analyserahmenperiode wurde als Frequenz SF der Spektrumänderung berechnet. In diesem Beispiel wurde der Analyserahmen F, für den der Wert dieser Gesamtsumme einen vorgegebenen Wert von 4,0 überschritt, als Sprachperiode erfaßt. Während Sprachperioden auf der Eingangssignal-Wellenform wegen des niedrigen Signal-Rausch-Verhältnisses nicht klar zu sehen sind, ist zu sehen, daß mit dem erfindungsgemäßen Verfahren alle Sprachperioden erfaßt wurden. Fig. 5 zeigt, daß die vorliegende Erfindung die Frequenz der Spektrumänderung ausnutzt und so die Erfassung von Sprache im Rauschen ermöglicht.
  • Fig. 6 ist ein Diagramm zur Erläuterung einer anderen Ausgestaltung der vorliegenden Erfindung, die sowohl den dynamischen Messwert als auch die Spektralhülleninformation nutzt, um die Sprachperiode zu erfassen. Wie bei der oben erwähnten Ausgestaltung der Fall ist, wird das über den Signaleingangsanschluß 11 eingegebene Signal vom A/D-Wandlerteil 13 in ein digitales Signal umgesetzt. Das Extraktionsteil 13 berechnet für das gewandelte digitale Signal das akustische Merkmal wie etwa das LPC- oder FFT-Cepstrum. Das Rechenteil 14 für den dynamischen Messwert berechnet den dynamischen Messwert D(t) auf der Grundlage des akustischen Merkmals. Ein Vektorquantisierer 17 nimmt Bezug auf einen Vektorquantisierungs-Codebuchspeicher 18, liest dann daraus vorberechnete repräsentative Vektoren von Sprachmerkmalen aus und berechnet Vektorquantisierungsverzerrungen zwischen den repräsentativen Vektoren und Merkmalvektoren des Eingangssignals, um so die minimale Quantisierungsverzerrung zu erfassen. Wenn das Eingangssignal im Analysefenster ein Sprachsignal ist, kann der zu diesem Zeitpunkt erhaltene akustische Merkmalsvektor ein mit einem relativ kleinen Ausmaß an Verzerrung quantisierter Vektor sein, indem auf das Codebuch des Vektorquantisierungs-Codebuchspeichers 18 zurückgegriffen wird. Wenn jedoch das Eingangssignal im Analysefenster kein Sprachsignal ist, erzeugt die Vektorquantisierung ein großes Ausmaß an Verzerrung. So ist es durch Vergleichen der Vektorquantisierungsverzerrung mit einem vorgegebenen Pegel von Verzerrung möglich, zu entscheiden, ob das Eingangssignal in dem Sprachanalysefenster ein Sprachsignal oder nicht ist.
  • Das Sprachperioden-Erfassungsteil 15 entscheidet, daß ein Signal über die 400 ms-Analyserahmenperiode ein Sprachsignal ist, wenn die Frequenz SF der Änderung des dynamischen Messwerts in den durch den oberen und unteren Grenzwert definierten Bereich fallen und die Quantisierungsverzerrung zwischen dem Merkmalvektor und dem Eingangssignal und dem entsprechenden repräsentativen Sprachmerkmalvektor kleiner als ein vorgegebener Wert ist. Diese Ausgestaltung verwendet zwar die Vektorquantisierungsverzerrung, um das Merkmal der spektralen Hülle zu untersuchen, es ist jedoch auch möglich, eine zeitliche Folge von vektorquantisierten Codes zu verwenden, um zu bestimmen, ob eine für Sprache charakteristische Sequenz darunter ist. Außerdem kann auch manchmal ein Verfahren zum Erhalten eines Sprach-Entscheidungsraumes in einem spektralen Merkmalraum verwendet werden.
  • Es folgt eine Beschreibung eines Beispiels eines Experimentes, in dem Sprache durch eine Kombination des dynamischen Maßes und des Sprachmerkmalvektors erfaßt wird, die die oben erwähnte Vektorquantisierungsverzerrung minimiert. Dies ist ein Beispiel für ein Experiment zum Erfassen von Sprache aus einem Eingangssignal, das aus Sprache und dem Singen eines Vogels im Wechsel miteinander zusammengesetzt ist. Im Experiment wurde das Vektorquantisierungscodebuch aus einer großen Menge von Sprachdaten erzeugt. Als Sprachdaten wurden die Aussprachen von 50 Worten und 25 Sätzen durch 20 Sprecher aus einer ATR-Sprachdatenbank ausgewählt. Die Zahl von Quantisierungspunkten ist 512. Der Merkmalvektor ist ein 16-dimensionales LPC-Cepstrum, die Analysefensterbreite ist 30 ms, und die Fensterverschiebungsbreite ist 10 ms. Die Summe von Quantisierungsverzerrungen von alle 10 ms gelieferten Merkmalvektoren wurde berechnet unter Verwendung des in Schritten von 200 ms verschobenen, 400 ms langen Analysefensters. Entsprechend wurde die Summe der dynamischen Messwerte ebenfalls unter Verwendung des in Schritten von 200 ms verschobenen, 400 ms langen Analysefensters berechnet. Für den dynamischen Messwert wie auch für die Quantisierungsverzerrung ist der Bereich ihrer akzeptablen Werte in der Sprachperiode basierend auf dem Lernen von Sprache voreingestellt, und die Sprachperiode wird erfaßt, wenn eingegebene Sprache in den Bereich fällt.
  • Das zur Bewertung verwendete Eingangssignal waren abwechselnde Verkettungen von 8 Sätzen, jeweils aufgebaut aus ca. 5 Sekunden langer Sprache, und 8 Arten von Vogelgesang von jeweils 5 Sekunden Länge, ausgewählt aus einer Datenbank für kontinuierliche Sprache der Japanischen Akustischen Gesellschaft. Die folgenden Maße werden gesetzt, um die Leistung dieser Ausgestaltung zu bewerten.
  • Rahmenerfassungsrate = (Anzahl von korrekt erfaßten Sprachrahmen)/(Anzahl von Sprachrahmen in den Bewertungsdaten)
  • Richtig-Rate = (Anzahl von korrekt erfaßten Sprachrahmen)/(Anzahl von vom System als Sprache ausgegebenen Rahmen)
  • Die Richtig-Rate stellt das Ausmaß dar, in dem das vom System als Sprachrahmen angegebene Ergebnis korrekt ist. Die Erfassungsrate stellt das Ausmaß dar, in dem das System Sprachrahmen im Eingangssignal erfassen konnte. In Fig. 7 sind unter Verwendung der obigen Messwerte die Ergebnisse der Spracherfassung mit Bezug auf die Bewertungsdaten gezeigt. Die Änderungsgeschwindigkeit des Spektrums des Vogelgesanges hat eine starke Ähnlichkeit mit der Änderungsgeschwindigkeit des Spektrums der Sprache; deshalb wird, wenn nur der dynamische Messwert verwendet wird, Vogelgesang so oft irrtümlich als Sprache erfaßt, daß die Richtig-Rate niedrig ist. Durch die kombinierte Verwendung des dynamischen Messwerts und der Vektorquantisierungsverzerrung kann die spektrale Hülle des Vogelgesanges von der spektralen Hülle von Sprache unterschieden werden, und die Richtig-Rate nimmt entsprechend zu.
  • Im Falle eines langen Vokals wie etwa eines Diphthongs kann das Spektrum manchmal in der Vokalperiode keine Veränderungen erfahren. Wenn Sprache einen solchen Vokal enthält, besteht eine Möglichkeit eines Erfassungsfehlers, die nur mit dem erfindungsgemäßen Verfahren auftritt, bei dem die Spektrumsänderung genutzt wird. Indem dieses erfindungsgemäße Verfahren mit der bislang verwendeten Erfassung der Tonhöhenfrequenz, des Amplitudenwertes oder des Autokorrelationskoeffizienten des Eingangssignals kombiniert wird, ist es möglich, die Möglichkeit zu verringern, daß dieser Erfassungsfehler auftritt. Die Tonhöhenfrequenz ist die Zahl von Schwingungen der menschlichen Stimmbänder und reicht von 50 bis 500 Hz und tritt im stationären Teil des Vokals deutlich auf. Das heißt, die Tonhöhenfrequenzkomponente hat üblicherweise eine starke Amplitude (Leistung), und das Vorhandensein der Tonhöhenfrequenzkomponente bedeutet, daß der Wert des Autokorrelationskoeffizienten in dieser Periode groß ist. Durch Erfassen der Anfangs- und Endpunkte und der Periodizität der Sprachperiode über die Erfassung der Frequenz der Spektrumänderung nach diesem erfindungsgemäßen Verfahren und durch Erfassen des Vokalteils mit der Tonhöhenfrequenz und/oder der Amplitude und/oder dem Autokorrelationskoeffizienten ist es möglich, die Möglichkeit von Erfassungsfehlern zu reduzieren, die im Falle von einen langen Vokal enthaltender Sprache auftreten.
  • Fig. 8 zeigt eine andere Ausgestaltung der vorliegenden Erfindung, die die Ausgestaltung der Fig. 2 mit dem Vokalerfassungsschema kombiniert. Die Schritte 12 bis 16 in Fig. 8 werden nicht beschrieben, da sie jenen in Fig. 2 entsprechen. Ein Vokalerfassungsteil 21 erfaßt z. B. die Tonhöhenfrequenz. Der Vokalerfassungsteil 21 erfaßt die Tonhöhenfrequenz im Eingangssignal und liefert sie an das Sprachperiodenerfassungsteil 15. Das Sprachperiodenerfassungsteil 15 bestimmt in der gleichen Weise wie oben, ob die Frequenz SF der Änderung des dynamischen Messwerts D(t) im vorgegebenen Schwellwertbereich ist, und entscheidet, ob die Tonhöhenfrequenz in dem für menschliche Sprache typischen Bereich von 50 bis 500 Hz liegt. Ein Eingangssignalrahmen, der diese zwei Bedingungen erfüllt, wird als ein Sprachrahmen erfaßt. In Fig. 8 ist gezeigt, daß das Vokalerfassungsteil 21 getrennt von den Hauptverarbeitungsschritten 12 bis 16 vorgesehen ist, da aber in der Praxis die Tonhöhenfrequenz, die spektrale Leistung oder der Autokorrelationswert durch Berechnung in Schritt 13 im Rahmen der Cepstrumberechnung erhalten werden können, muß der Vokalerfassungsteil 21 nicht immer getrennt vorgesehen sein. Während in Fig. 8 gezeigt ist, daß die Erfassung der Tonhöhenfrequenz für die Erfassung der Sprachvokalperiode genutzt ist, ist es auch möglich, die Tonhöhenfrequenz und/oder die Leistung und/oder den Autokorrelationswert zu berechnen und sie für die Entscheidung über das Sprachsignal zu nutzen.
  • Für die Erfassung der Sprachperiode kann die in Fig. 8 gezeigte Vokalerfassung durch die Erfassung eines Konsonanten ersetzt werden. Fig. 9 zeigt eine Kombination der Erfassung der Anzahl von Nulldurchgängen und der Erfassung der Frequenz der Spektrumsänderung. Stimmlose Reiblaute haben meist eine Verteilung von 400 bis 1.400 Nulldurchgängen pro Sekunde. Folglich ist es möglich, ein Verfahren zu verwenden, das den Anfangspunkt eines Konsonanten erfaßt, indem ein geeigneter, von einem Nulldurchgangsanzahl-Erfassungsteil 22 ausgewählter Schwellwert der Nulldurchgangsanzahl verwendet wird, wie in Fig. 9 gezeigt.
  • Das erfindungsgemäße, oben beschriebene Sprachperioden-Erfassungsverfahren kann angewendet werden auf einen Sprachschalter, der ein Gerät sprachgesteuert ein- oder ausschaltet, oder auf die Erfassung von Sprachperioden für die Spracherkennung. Außerdem ist das erfindungsgemäße Verfahren anwendbar auf das Auffinden von Sprache in Videoinformation oder akustischen CD-Informationsdaten.
  • Da erfindungsgemäß wie oben beschrieben die Sprachperiode auf der Grundlage der Frequenz der der für menschliche Sprache charakteristischen Spektrumsänderung erfaßt wird, kann die Sprachperiode sogar aus Sprache stabil erfaßt werden, der Rauschen mit hoher Leistung überlagert ist. Auch kann ein Geräusch mit einem der Sprache ähnlichen Leistungsmuster als Nicht-Sprache erkannt werden, wenn die Geschwindigkeit seiner Spektrumsänderung sich von der Phonemschaltgeschwindigkeit der Sprache unterscheidet. Deshalb ist die vorliegende Erfindung anwendbar auf die Erfassung der Sprachperiode, die bei der Vorverarbeitung wiedererkannt werden muß, wenn eine Spracherkennungseinheit in stark verrauschter Umgebung verwendet wird, oder z. B. auf die Technik zum Wiederfinden einer Konversationsszene aus akustischen Daten eines Fernsehprogramms, Spielfilms oder ähnlichen Medien, die Musik oder diverse Geräusche enthalten sowie auf das Editieren eines Videos und Zusammenfassen von dessen Inhalt. Außerdem ermöglicht die vorliegende Erfindung die Erfassung der Sprachperiode mit höherer Genauigkeit durch Kombinieren der Frequenz der Spektrumsänderung mit dem Leistungswert, der Nulldurchgangsanzahl, dem Autokorrelationskoeffizienten oder der Grundfrequenz, die ein anderes Merkmal von Sprache ist.
  • Es liegt auf der Hand, daß diverse Abwandlungen und Änderungen durchgeführt werden können, ohne den Rahmen der neuartigen Konzepte der vorliegenden Erfindung, wie in den nachfolgenden Ansprüchen definiert, zu verlassen.

Claims (15)

1. Signalverarbeitungsverfahren zum Erfassen einer Sprachperiode in einem Eingangssignal, mit den Schritten:
(a) Erhalten eines spektralen Merkmalparameters durch Analysieren des Spektrums des Eingangssignals für jedes vorgegebene Analysefenster;
(b) Berechnen des Ausmaßes der Änderung des spektralen Merkmalparameters des Eingangssignals pro Zeiteinheit;
(c) Berechnen der Änderungsfrequenz des Ausmaßes der Änderung des spektralen Merkmalparameters über eine vorgegebene Analyserahmenperiode, die länger als die Zeiteinheit ist; und
(d) Überprüfen, ob die Frequenz der Änderung in einen vorgegebenen Frequenzbereich fällt, und, wenn ja, Entscheiden, daß das Eingangssignal des Analyserahmens ein Sprachsignal ist.
2. Verfahren nach Anspruch 1, bei dem der Schritt des Berechnens des Ausmaßes der Änderung des spektralen Merkmalparameters einen Schritt des Erhaltens einer Zeitfolge von Merkmalvektoren, die die Spektren des Eingangssignals an jeweiligen Zeitpunkten darstellen, und einen Schritt des Berechnens von dynamischen Merkmalen durch Verwendung der Merkmalvektoren an einer Mehrzahl von Zeitpunkten und des Berechnens der Änderung im Spektrum des Eingangssignals aus der Norm der dynamischen Merkmale umfaßt.
3. Verfahren nach Anspruch 2, bei dem das dynamische Merkmal Polynom-Expansionskoeffizienten der Merkmalvektoren an einer Mehrzahl von Zeitpunkten sind.
4. Verfahren nach Anspruch 1, 2 oder 3, bei dem der Schritt des Berechnens der Frequenz ein Schritt des Zählens der Anzahl der einen vorgegebenen Schwellwert überschreitenden Peaks der Spektrumsänderung in dem Analyserahmen und des Lieferns des Zählwertes als die Frequenz ist.
5. Verfahren nach Anspruch 1, 2 oder 3, bei dem der Schritt des Berechnens der Frequenz einen Schritt des Berechnens der Gesamtsumme der Änderungen im Spektrum des Eingangssignals in der vorgegebenen Analyserahmenperiode, die länger als die Zeiteinheit ist, umfaßt, und der Schritt des Entscheidens entscheidet, daß das Eingangssignal der Analyserahmenperiode ein Sprachsignal ist, wenn die Gesamtsumme in einen vorgegebenen Wertebereich fällt.
6. Verfahren nach Anspruch 4 oder 5, soweit nicht auf Anspruch 3 bezogen, bei dem der Schritt des Berechnens der Spektrumsänderung einen Schritt des Berechnens eines Gradientenvektors, als dessen Elemente lineare Differentialkoeffizienten von jeweiligen Elementen eines den spektralen Merkmalparameter darstellenden Vektors verwendet werden, und einen Schritt des Berechnens von Quadratsummen der jeweiligen Elemente des Gradientenvektors als dynamische Messwerte der Spektrumsänderung umfaßt.
7. Verfahren nach Anspruch 6, bei dem der spektrale Merkmalparameter ein LPC- Cepstrum ist und die Spektrumänderung ein Delta-Cepstrum ist.
8. Verfahren nach Anspruch 1, ferner mit einem Schritt des vektoriellen Quantisierens des Eingangssignals für jedes der Analysefenster durch Bezugnahme auf ein Vektorcodebuch, das aufgebaut ist aus aus Sprachdaten erhaltenen repräsentativen Vektoren von spektralen Merkmalparametern von Sprache, und des Berechnens von Quantisierungsverzerrung, wobei in dem Schritt des Entscheidens entschieden wird, daß das Eingangssignal ein Sprachsignal ist, wenn die Quantisierungsverzerrung kleiner als ein vorgegebener Wert ist und die Frequenz der Änderung innerhalb des vorgegebenen Frequenzbereiches liegt.
9. Verfahren nach Anspruch 1, ferner mit einem Schritt des Erfassens, ob das Eingangssignal in einem jeweiligen Analysefenster ein Vokal ist, und wobei in dem Entscheidungsschritt (d) entschieden wird, ob das Eingangssignal ein Sprachsignal ist, indem ein Vokal erfaßt wird und erfaßt wird, ob die Frequenz der Änderung in dem vorgegebenen Frequenzbereich liegt.
10. Verfahren nach Anspruch 9, bei dem in dem Vokalerfassungsschritt eine Tonhöhenfrequenz in dem Eingangssignal für jedes Analysefenster erfaßt wird und entschieden wird, daß das Eingangssignal ein Vokal ist, wenn die erfaßte Tonhöhenfrequenz in einem vorgegebenen Frequenzbereich liegt.
11. Verfahren nach Anspruch 9, bei dem in dem Vokalerfassungsschritt die Leistung des Eingangssignals für jedes Analysefenster erfaßt wird und entschieden wird, daß das Eingangssignal ein Vokal ist, wenn die erfaßte Leistung größer als ein vorgegebener Wert ist.
12. Verfahren nach Anspruch 9, bei dem in dem Vokalerfassungsschritt der Autokorrelationswert des Eingangssignals erfaßt wird und entschieden wird, daß das Eingangssignal ein Vokal ist, wenn der erfaßte Autokorrelationswert größer als ein vorgegebener Wert ist.
13. Verfahren nach Anspruch 1, ferner mit einem Schritt (e) des Zählens der Anzahl von Nulldurchgängen des Eingangssignals in jedem Analysefenster und des Entscheidens, daß das Eingangssignal in dem Analysefenster ein Konsonant ist, wenn der Zählwert innerhalb eines vorgegebenen Bereiches liegt, und wobei in dem Entscheidungsschritt (d) entschieden wird, ob das Eingangssignal Sprache ist, indem durch den Entscheidungsschritt (e) entschieden wird, ob das Eingangssignal ein Konsonant ist und entschieden wird, ob die Änderungsfrequenz in dem vorgegebenen Frequenzbereich liegt.
14. Verfahren nach Anspruch 1, 2 oder 3, bei dem der spektrale Merkmalparameter ein LPC-Cepstrum ist.
15. Verfahren nach Anspruch 1, 2 oder 3, bei dem der spektrale Merkmalparameter ein FFT-Cepstrum ist.
DE69613646T 1995-09-25 1996-09-23 Verfahren zur Sprachdetektion bei starken Umgebungsgeräuschen Expired - Fee Related DE69613646T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7246418A JPH0990974A (ja) 1995-09-25 1995-09-25 信号処理方法

Publications (2)

Publication Number Publication Date
DE69613646D1 DE69613646D1 (de) 2001-08-09
DE69613646T2 true DE69613646T2 (de) 2002-05-16

Family

ID=17148192

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69613646T Expired - Fee Related DE69613646T2 (de) 1995-09-25 1996-09-23 Verfahren zur Sprachdetektion bei starken Umgebungsgeräuschen

Country Status (4)

Country Link
US (1) US5732392A (de)
EP (1) EP0764937B1 (de)
JP (1) JPH0990974A (de)
DE (1) DE69613646T2 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004001863A1 (de) * 2004-01-13 2005-08-11 Siemens Ag Verfahren und Vorrichtung zur Bearbeitung eines Sprachsignals

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK0796489T3 (da) * 1994-11-25 1999-11-01 Fleming K Fink Fremgangsmåde ved transformering af et talesignal under anvendelse af en pitchmanipulator
JP4121578B2 (ja) * 1996-10-18 2008-07-23 ソニー株式会社 音声分析方法、音声符号化方法および装置
EP0977172A4 (de) * 1997-03-19 2000-12-27 Hitachi Ltd Verfahren und vorrichtung zum feststellen des beginn- und endpunktes einer klangsektion in video
US5930748A (en) * 1997-07-11 1999-07-27 Motorola, Inc. Speaker identification system and method
US6104994A (en) * 1998-01-13 2000-08-15 Conexant Systems, Inc. Method for speech coding under background noise conditions
KR100429180B1 (ko) * 1998-08-08 2004-06-16 엘지전자 주식회사 음성 패킷의 파라미터 특성을 이용한 오류 검사 방법
US6327564B1 (en) 1999-03-05 2001-12-04 Matsushita Electric Corporation Of America Speech detection using stochastic confidence measures on the frequency spectrum
US6980950B1 (en) * 1999-10-22 2005-12-27 Texas Instruments Incorporated Automatic utterance detector with high noise immunity
US7167828B2 (en) * 2000-01-11 2007-01-23 Matsushita Electric Industrial Co., Ltd. Multimode speech coding apparatus and decoding apparatus
US6873953B1 (en) * 2000-05-22 2005-03-29 Nuance Communications Prosody based endpoint detection
JP2002091470A (ja) * 2000-09-20 2002-03-27 Fujitsu Ten Ltd 音声区間検出装置
DE60139144D1 (de) * 2000-11-30 2009-08-13 Nippon Telegraph & Telephone Audio-dekodierer und audio-dekodierungsverfahren
US6885735B2 (en) * 2001-03-29 2005-04-26 Intellisist, Llc System and method for transmitting voice input from a remote location over a wireless data channel
US20020147585A1 (en) * 2001-04-06 2002-10-10 Poulsen Steven P. Voice activity detection
FR2833103B1 (fr) * 2001-12-05 2004-07-09 France Telecom Systeme de detection de parole dans le bruit
US7054817B2 (en) * 2002-01-25 2006-05-30 Canon Europa N.V. User interface for speech model generation and testing
US7299173B2 (en) * 2002-01-30 2007-11-20 Motorola Inc. Method and apparatus for speech detection using time-frequency variance
JP4209122B2 (ja) * 2002-03-06 2009-01-14 旭化成株式会社 野鳥の鳴き声及び人の音声認識装置及びその認識方法
JP3673507B2 (ja) * 2002-05-16 2005-07-20 独立行政法人科学技術振興機構 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム
US8352248B2 (en) * 2003-01-03 2013-01-08 Marvell International Ltd. Speech compression method and apparatus
US20040166481A1 (en) * 2003-02-26 2004-08-26 Sayling Wen Linear listening and followed-reading language learning system & method
US20050015244A1 (en) * 2003-07-14 2005-01-20 Hideki Kitao Speech section detection apparatus
DE102004049347A1 (de) * 2004-10-08 2006-04-20 Micronas Gmbh Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale
KR20060066483A (ko) * 2004-12-13 2006-06-16 엘지전자 주식회사 음성 인식을 위한 특징 벡터 추출 방법
US7377233B2 (en) * 2005-01-11 2008-05-27 Pariff Llc Method and apparatus for the automatic identification of birds by their vocalizations
US8170875B2 (en) * 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US8311819B2 (en) 2005-06-15 2012-11-13 Qnx Software Systems Limited System for detecting speech with background voice estimates and noise estimates
JP2008216618A (ja) * 2007-03-05 2008-09-18 Fujitsu Ten Ltd 音声判別装置
WO2008151392A1 (en) 2007-06-15 2008-12-18 Cochlear Limited Input selection for auditory devices
JP4882899B2 (ja) * 2007-07-25 2012-02-22 ソニー株式会社 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム
JP2009032039A (ja) * 2007-07-27 2009-02-12 Sony Corp 検索装置および検索方法
JP5293329B2 (ja) * 2009-03-26 2013-09-18 富士通株式会社 音声信号評価プログラム、音声信号評価装置、音声信号評価方法
US8886528B2 (en) 2009-06-04 2014-11-11 Panasonic Corporation Audio signal processing device and method
WO2010146711A1 (ja) 2009-06-19 2010-12-23 富士通株式会社 音声信号処理装置及び音声信号処理方法
JP4621792B2 (ja) 2009-06-30 2011-01-26 株式会社東芝 音質補正装置、音質補正方法及び音質補正用プログラム
CN102044244B (zh) 2009-10-15 2011-11-16 华为技术有限公司 信号分类方法和装置
US10614827B1 (en) * 2017-02-21 2020-04-07 Oben, Inc. System and method for speech enhancement using dynamic noise profile estimation
US11790931B2 (en) * 2020-10-27 2023-10-17 Ambiq Micro, Inc. Voice activity detection using zero crossing detection

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3712959A (en) * 1969-07-14 1973-01-23 Communications Satellite Corp Method and apparatus for detecting speech signals in the presence of noise
JPS5525150A (en) * 1978-08-10 1980-02-22 Nec Corp Pattern recognition unit
DE69028072T2 (de) * 1989-11-06 1997-01-09 Canon Kk Verfahren und Einrichtung zur Sprachsynthese
US5210820A (en) * 1990-05-02 1993-05-11 Broadcast Data Systems Limited Partnership Signal recognition system and method
JPH04130499A (ja) * 1990-09-21 1992-05-01 Oki Electric Ind Co Ltd 音声のセグメンテーション方法
JPH0743598B2 (ja) * 1992-06-25 1995-05-15 株式会社エイ・ティ・アール視聴覚機構研究所 音声認識方法
US5617508A (en) * 1992-10-05 1997-04-01 Panasonic Technologies Inc. Speech detection device for the detection of speech end points based on variance of frequency band limited energy
US5579431A (en) * 1992-10-05 1996-11-26 Panasonic Technologies, Inc. Speech detection in presence of noise by determining variance over time of frequency band limited energy
US5596680A (en) * 1992-12-31 1997-01-21 Apple Computer, Inc. Method and apparatus for detecting speech activity using cepstrum vectors
US5598504A (en) * 1993-03-15 1997-01-28 Nec Corporation Speech coding system to reduce distortion through signal overlap
SE501981C2 (sv) * 1993-11-02 1995-07-03 Ericsson Telefon Ab L M Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004001863A1 (de) * 2004-01-13 2005-08-11 Siemens Ag Verfahren und Vorrichtung zur Bearbeitung eines Sprachsignals

Also Published As

Publication number Publication date
DE69613646D1 (de) 2001-08-09
EP0764937B1 (de) 2001-07-04
EP0764937A2 (de) 1997-03-26
EP0764937A3 (de) 1998-06-17
JPH0990974A (ja) 1997-04-04
US5732392A (en) 1998-03-24

Similar Documents

Publication Publication Date Title
DE69613646T2 (de) Verfahren zur Sprachdetektion bei starken Umgebungsgeräuschen
DE69430082T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE69420400T2 (de) Verfahren und gerät zur sprechererkennung
DE3884880T2 (de) Billige Spracherkennungseinrichtung und Verfahren.
DE60000074T2 (de) Linear prädiktive Cepstral-Merkmale in hierarchische Subbänder organisiert für die HMM-basierte Spracherkennung
DE69705830T2 (de) Sprachverarbeitung
DE69616568T2 (de) Mustererkennung
DE68929442T2 (de) Vorrichtung zur Erfassung von Sprachlauten
DE69329511T2 (de) Verfahren und Einrichtung zum Unterscheiden zwischen stimmhaften und stimmlosen Lauten
DE69619284T3 (de) Vorrichtung zur Erweiterung der Sprachbandbreite
DE69836785T2 (de) Audiosignalkompression, Sprachsignalkompression und Spracherkennung
DE69513919T2 (de) Sprachanalyse
DE69529356T2 (de) Wellenforminterpolation mittels Zerlegung in Rauschen und periodische Signalanteile
DE60006271T2 (de) Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung
DE69127818T2 (de) System zur verarbeitung kontinuierlicher sprache
DE69023402T2 (de) Verfahren zur Sprachkodierung und -dekodierung.
DE69534942T2 (de) System zur sprecher-identifizierung und-überprüfung
DE69321656T2 (de) Verfahren zur Spracherkennung
DE69837822T2 (de) Verfahren und Vorrichtung zur Dekodierung von Sprachsignalen
DE69901606T2 (de) Breitbandsprachsynthese von schmalbandigen sprachsignalen
DE69519453T2 (de) Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien
DE69720134T2 (de) Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten
DE69017801T2 (de) Codierung unter Anwendung von beschränkter stochastischer Anregung.
DE69706650T2 (de) System und verfahren zur fehlerkorrektur in einer auf korrelation basierenden grundfrequenzschätzvorrichtung
DE60107072T2 (de) Robuste merkmale für die erkennung von verrauschten sprachsignalen

Legal Events

Date Code Title Description
8332 No legal effect for de
8370 Indication related to discontinuation of the patent is to be deleted
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee