DE3732096A1 - Algorithmus zum schaetzen der stimmbandgrundfrequenz von digitalisierten sprachsignalen mit kriterium fuer die stimmhaft-stimmlos-entscheidung - Google Patents

Algorithmus zum schaetzen der stimmbandgrundfrequenz von digitalisierten sprachsignalen mit kriterium fuer die stimmhaft-stimmlos-entscheidung

Info

Publication number
DE3732096A1
DE3732096A1 DE19873732096 DE3732096A DE3732096A1 DE 3732096 A1 DE3732096 A1 DE 3732096A1 DE 19873732096 DE19873732096 DE 19873732096 DE 3732096 A DE3732096 A DE 3732096A DE 3732096 A1 DE3732096 A1 DE 3732096A1
Authority
DE
Germany
Prior art keywords
voiced
lambda
sgf
criterion
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE19873732096
Other languages
English (en)
Inventor
Enno Leopold
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to DE19873732096 priority Critical patent/DE3732096A1/de
Publication of DE3732096A1 publication Critical patent/DE3732096A1/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Complex Calculations (AREA)

Description

Die Erfindung betrifft einen Algorithmus zum Schätzen der Stimmbandgrundfrequenz (SGF) gemäß dem Oberbegiff des Anspruchs 1 nebst einem Stimmhaft-Stimmlos-Kriterium gemäß dem Oberbegriff nach Anspruch 2.
Angaben zur Gattung
Die SGF von Sprechsignalen soll geschätzt werden. Aus Gründen der Rechenzeitminimierung soll dies nicht im Frequenzbereich (d. h. Spektralanalyse via Fouriertransformation), sondern im Zeitbereich geschehen. Dabei treten folgende Probleme auf:
  • a) Die SGF des Signals ist meist nicht konstant. Sie ändert sich langsam, jedoch sind SGF-Schwankungen von mehr als einer Oktave im Widerspruch zu Rabiner (1977) nicht auszuschließen, wie beigefügtes Datenmaterial zeigt (siehe Bild 1 B).
  • b) Das Sprachsignal enthält stimmhafte, d. h. (quasi)periodische, und stimmlose, d. h. aperiodische Abschnitte. Die Grenzen dieser Intervalle müssen erkannt werden.
  • c) Ein Schätzer der SGF soll einerseits langwellige Stimmbandgrundfrequenzen erkennen können und andererseits bei höheren Frequenzen die Änderung der SGF möglichst genau verzeichnen.
  • d) Die potentiellen Werte der SGF liegen in einem Bereich von drei Oktaven (Verhältnis 1 : 8). Es besteht die Gefahr, daß ein Schätzer nicht die Periodenlänge des Sprachsignals (SGF-1), sondern ein Vielfaches von ihr schätzt.
Stand der Technik mit Fundstellen
Als Schätzer für die SGF, die im Zeitbereich arbeiten, sind bisher bekannt:
  • a) Autokorrelationsschätzer:
    Geschätzt wird hier auf der Basis eines Datenfensters mit fester Länge (z. B. 30 ms) (BKA, S. (1-149)). Bezeichne das N-tupel {x₁, . . ., x N} dieses Datenfenster; die Periodenlänge errechnet sich mit den Bezeichnungen von Gleichung (I) als:
  • Das Segment wird als stimmhaft klassifiziert, falls für ein c aus R⁺. (ibd).
  • b) AMDF-Schätzer:
    Hier wird auf der Basis eines Datenfensters von fester Länge geschätzt. Die Länge des Datenfensters beträgt z. B. 20 ms (BMFT, S. 132ff.). Die Periodenlänge errechnet sich mit den Bezeichnungen von (I) als:
  • Das Segment wird als stimmhaft klassifiziert, falls für ein d aus R⁺. Bei diesem Schätzer kann man den Betrag auch durch eine andere Metrik, etwa die euklidsche Metrik, ersetzen. (ibd.)
  • c) Filterbankverfahren:
    Dieses Verfahren arbeitet genaugenommen im Frequenzbereich. Es wird jedoch hier mitaufgeführt, weil es sehr schnell arbeitet und deswegen als konkurrierendes Verfahren zu betrachten ist.
    Das Signal wird von digitalen oder analogen Bandpassfiltern, die mit einer Bandbreite von meist einer großen Terz (Verhältnis 1 : 21/3) den potentiellen Frequenzbereich abdecken, zugeführt. Der Output wird etwa alle 20 ms (Philips, S. 2) betrachtet. Eine Stimmhaft- Stimmlos-Entscheidung findet nicht statt.
Es gibt weitere Schätzer für die SGF, jedoch sind die oben aufgeführten meines Wissens bisher die besten, die im Zeitbereich arbeiten und somit wegen ihres geringen Rechenzeitbedarfs für on-line Anwendungen in Betracht kommen.
Kritik am Stand der Technik
Das Filterbankverfahren liefert nur sehr ungenaue Werte. Es ist nur brauchbar, wenn man an einem über längere Zeit gemittelten Wert interessiert ist. Die anderen beiden Schätzverfahren arbeiten auf der Basis eines Datenfensters von fester Länge (normalerweise zwischen 5 und 40 ms). Dabei wird ein Kompromiß geschlossen zwischen zwei Unzulänglichkeiten:
  • - Ist die Fensterlänge klein, so können niedrige Frequenzen nicht erkannt werden.
  • - Ist die Fensterbreite groß, so werden die Konturen des Signals verwischt, was zur Folge hat, daß bei relativ schnellen Änderungen der SGF das Maximum in (II) (bzw. das Minimum in (III)) nicht so stark ausgeprägt ist. In beiden Fällen ist eine falsche Klassifikation als stimmlos oder gar ein falsches Resultat der SGF die Folge.
Algorithmen zur Stimmhaft-Stimmlos-Entscheidung basieren meist auf einem Schätzer für die Stimmbandgrundfrequenz und berücksichtigen außerdem die Energie des entsprechenden Fensters. Hierbei kommt es leicht vor, daß ein Datenfenster als stimmlos klassifiziert wird, obwohl der SGF=Schätzer in diesem Fenster ein korrektes Ergebnis liefert. Der umgekehrte Fall, daß ein Fenster als stimmhaft klassifiziert wird, obwohl das Ergebnis der SGF nicht als sicher beurteilt werden kann, tritt ebenfalls leicht ein.
Aufgabenstellung der Erfindung
Der Erfindung liegt die Aufgabe zugrunde, den Verlauf der SGF bei geringem Rechenaufwand so genau wie möglich zu schätzen, und die Stimmhaft-Stimmlos-Entscheidung möglichst exakt, im Hinblick auf die Auswertbarkeit der Periodizität (d. h. nicht notwendigerweise auch im phonetischen Sinne), zu gestalten.
Diese Aufgabe wird bei einer gattungsgemäßen Einrichtung durch die kennzeichnenden Merkmale aus Anspruch 1 und 2 gelöst. Folgender Spezialfall liefert gute Ergebnisse:
f(x): = x
d(x;y): = |x-y|
λ min : = 3,25 ms
λ max : = 25 ms
a: = 5
b: = 5/3
L: = λ max
Verwendet man eine Segmentierung der Daten, wie sie durch die kennzeichnenden Merkmale aus Unteranspruch 3 beschrieben wird, so vermeidet man einen Informationsverlust, der bei äquidistanter Segmentierung durch die variable Summationslänge auftreten würde. Ein guter Wert für die Konstante l ist l:=( λ max )/2.
Sofern nichts anderes angegeben ist, werden diese Setzungen im folgenden stets vorausgesetzt.
Erzielbare Vorteile
a) Die Erfindung erlaubt eine genauere Verfolgung des Verlaufes der SGF als herkömmliche im Zeitbereich arbeitende Algorithmen. Sie führt außerdem seltener zur irrtümlichen Verdoppelung der Periodenlänge. Trotzdem bleibt der Rechenaufwand gering. Er liegt zwischen dem des AMDF-Schätzers und dem Autokorrelationsschätzers wenn man die Segmentierung nach Unteranspruch 3 verwendet. Bei äquidistanter Segmentierung ist die Erfindung etwa doppelt so schnell wie der AMDF-Schätzer. (Dies zeigt sich bei Probeläufen auf der Cyber 860 des Hochschulzentrums der J.-L.-Universität in Gießen).
b) Die Erfindung erlaubt eine Stimmhaft-Stimmlos-Entscheidung, die den Fähigkeiten des Schätzers adäquat ist. D. h. ein Segment {x₁, . . ., x}λ min λ max wird nur dann als stimmlos klassifiziert, wenn das Ergebnis des SGF-Schätzers als sicher beurteilt werden kann. Dies ist der Fall, wenn das Kriterium nach Anspruch 2 erfüllt ist.
Verwendbarkeit der Erfindung
Eine gewerbliche Nutzung der Erfindung ist in der Verbesserung der maschinellen Identifikation von kooperativen Sprechern - bei Zugangskontrollsystemen, Geldautomaten etc. - zu sehen. Die maschinelle Spracherkennung könnte verbessert oder beschleunigt werden - z. B. bei der Unterscheidung von Frage- und Aussagesätzen anhand der Sprachmelodie oder bei der Identifikation der vier verschiedenen Töne im Chinesischen, die ja bedeutungstragend sind. Weiterer Nutzen der Erfindung liegt in der forensischen Sprechererkennung und in der Erforschung der emotionalen Komponente gesprochener Sprache.
Im folgenden wird die Erfindung anhand von Graphiken näher erläutert. Es zeigen
Bild 1 die durch die Erfindung geschätzte SGF
A) einer weiblichen Versuchsperson und
B) einer männlichen Versuchsperson.
Gesprochen wurde hierzu jeweils der Satz: "Der Schnellzug in Richtung Kiel verspätet sich um eine Stunde".
Die Bilder 2 und 3 illustrieren das Prinzip der Stimmhaft= Stimmlos-Entscheidung. Der Verlauf der Summe
wird für eine Folge von Datenpunkten
abgetragen. Dabei ist das (n+1)te Segment auch wenn es stimmlos ist gegenüber dem n-ten Segment um Datenpunkte vorgerückt.
In Bild 2 A liegt der Laut , d. h. ein stimmhafter Bereich, gesprochen von einer weiblichen Versuchsperson zugrunde.
In Bild 2 B liegt der Laut , d. h. ein stimmhafter Bereich, gesprochen von einer männlichen Versuchsperson zugrunde.
In Bild 3 liegt der Laut , also ein stimmloser Bereich zugrunde. Gesprochen wurde er in
A) von einer weiblichen Versuchsperson und in
B) von einer männlichen Versuchsperson.
Quellenangaben
BKA, Bundeskriminalamt: Forschungsprojekt Forensische Sprechererkennung und Tonbandauswertungen, Abschlußbericht, Wiesbaden, Oktober 1985.
BMFT, Bundesministerium für Forschung und Technologie: Forschungsbericht DV 80-009, Automatische Erkennung kooperativer Sprecher, Philips GmbH Forschungslaboratorium, Hamburg Dezember 1980.
Philips GmbH Forschungslaboratorium Hamburg: Manuskript Nr. MS-H 2526V/80, Hamburg März 1981.
Rabiner, L. R.: On the Use of Autocorrelation Analysis for Pitch Detection, in: IEEE Trans. Acoust., Speech, Signal Processing, Vol. ASSP-25. pp. 24-33, Februar 1977.

Claims (5)

1. Algorithmus zum Schätzen der Stimmbandgrundfrequenz von digitalisierten Sprachsignalen, dadurch gekennzeichnet, daß er eine Summe von Abständen zwischen Datenpunkten minimiert, die eine variable Länge besitzt. Die Rechenvorschrift lautet: Hierbei ist λ min eine untere Schranke der Periodenlänge, λ max eine obere Schranke der Periodenlänge und d (. ; .) eine geeignete Metrik - etwa d(x; y)=|x-y|. Die Funktion f ist auf dem Intervall [λ min ; λ max ] streng monoton wachsend, auf die x i (i=1, 2, . . ., N) bezeichnen aufeinander folgende Abtastwerte des Sprachsignals, das in PCM-digitalisierter Form vorliegen sollte. Die Stimmbandgrundfrequenz (SGF) ergibt sich als SGF-1:=.
Dieser Algorithmus ist nur sinnvoll mit folgenden neuartigem Kriterium für die Stimmhaft-Stimmlos-Entscheidung:
2. Kriterium für die Stimmhaft-Stimmlos-Entscheidung, dadurch gekennzeichnet, daß die Summe aus Gleichung (I) für zwei verschiedene Werte ( und 1,5 bzw. 0,5) verglichen wird. Nach der Berechnung von gemäß Gleichung (I) wird, falls f (1,5)L, das entsprechende Segment als stimmhaft klassifiziert, wenn
Ist f (1,5<L, so lautet das Kriterium:
Dabei wird L so gewählt, daß die rechte Seite der beiden Ungleichungen stets definiert ist, und a und b sind gewisse positive Zahlen aus R.
3. Algorithmus nach Anspruch 1 mit Kriterium nach Anspruch 2, dadurch gekennzeichnet, daß die Daten folgendermaßen segmentiert werden: Sei die im n-ten Fenster geschätzte SGF-1 und beginne das n-te Fenster o. B. d. A. mit dem Datum x₁, dann beginnt das (n+1)-te Fenster mit dem Datum x [f( λ n)]+1. Wird das n-te Segment als stimmlos klassifiziert, so beginnt das (n+1)-te Segment mit dem Datum x l, für ein festes l ε[λ min ; λ max ].
DE19873732096 1987-09-24 1987-09-24 Algorithmus zum schaetzen der stimmbandgrundfrequenz von digitalisierten sprachsignalen mit kriterium fuer die stimmhaft-stimmlos-entscheidung Ceased DE3732096A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE19873732096 DE3732096A1 (de) 1987-09-24 1987-09-24 Algorithmus zum schaetzen der stimmbandgrundfrequenz von digitalisierten sprachsignalen mit kriterium fuer die stimmhaft-stimmlos-entscheidung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19873732096 DE3732096A1 (de) 1987-09-24 1987-09-24 Algorithmus zum schaetzen der stimmbandgrundfrequenz von digitalisierten sprachsignalen mit kriterium fuer die stimmhaft-stimmlos-entscheidung

Publications (1)

Publication Number Publication Date
DE3732096A1 true DE3732096A1 (de) 1989-04-13

Family

ID=6336722

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19873732096 Ceased DE3732096A1 (de) 1987-09-24 1987-09-24 Algorithmus zum schaetzen der stimmbandgrundfrequenz von digitalisierten sprachsignalen mit kriterium fuer die stimmhaft-stimmlos-entscheidung

Country Status (1)

Country Link
DE (1) DE3732096A1 (de)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2939330A1 (de) * 1979-09-28 1981-04-16 Philips Patentverwaltung Gmbh, 2000 Hamburg Verfahren und anordnung zum bestimmen der stimmbandgrundfrequenz eines sprachsignals

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2939330A1 (de) * 1979-09-28 1981-04-16 Philips Patentverwaltung Gmbh, 2000 Hamburg Verfahren und anordnung zum bestimmen der stimmbandgrundfrequenz eines sprachsignals

Similar Documents

Publication Publication Date Title
DE69627580T2 (de) Verfahren zur Rauschverminderung in einem Sprachsignal
Veprek et al. Analysis, enhancement and evaluation of five pitch determination techniques
DE69933188T2 (de) Verfahren und Vorrichtung für die Extraktion von Formant basierten Quellenfilterdaten unter Verwendung einer Kostenfunktion und invertierte Filterung für die Sprachkodierung und Synthese
DE69433254T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
Wu et al. Convolutional neural networks for pathological voice detection
DE69122017T2 (de) Verfahren und vorrichtung zur signalerkennung
DE69121312T2 (de) Geräuschsignalvorhersagevorrichtung
DE69030561T2 (de) Spracherkennungseinrichtung
DE68910859T2 (de) Detektion für die Anwesenheit eines Sprachsignals.
DE69931813T2 (de) Verfahren und vorrichtung zur grundfrequenzermittlung
DE68907629T2 (de) Vektorquantisierung für eine Anordnung zur harmonischen Sprachcodierung.
DE2753277C2 (de) Verfahren und Einrichtung zur Spracherkennung
DE69121145T2 (de) Spektralbewertungsverfahren zur verbesserung der widerstandsfähigkeit gegen rauschen bei der spracherkennung
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
EP0690436A2 (de) Start-/Endpunkt-Detektion zur Worterkennung
DE2233872A1 (de) Signalanalysator
Hess A pitch-synchronous digital feature extraction system for phonemic recognition of speech
EP0703565A2 (de) Verfahren und System zur Sprachsynthese
Kasuya et al. An adaptive comb filtering method as applied to acoustic analyses of pathological voice
Hess Algorithms and devices for pitch determination of speech signals
DE60025333T2 (de) Sprachdetektion mit stochastischer konfidenzmassbewertung des frequenzspektrums
DE69025932T2 (de) Einrichtung und verfahren zum erzeugen von stabilisierten darstellungen von wellen
DE3732096A1 (de) Algorithmus zum schaetzen der stimmbandgrundfrequenz von digitalisierten sprachsignalen mit kriterium fuer die stimmhaft-stimmlos-entscheidung
Zeng et al. Modified AMDF pitch detection algorithm
Roa et al. Fundamental frequency estimation based on pitch-scaled harmonic filtering

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8131 Rejection