DE19930522A1 - Verfahren zur Erkennung von Lautsignalen - Google Patents

Verfahren zur Erkennung von Lautsignalen

Info

Publication number
DE19930522A1
DE19930522A1 DE1999130522 DE19930522A DE19930522A1 DE 19930522 A1 DE19930522 A1 DE 19930522A1 DE 1999130522 DE1999130522 DE 1999130522 DE 19930522 A DE19930522 A DE 19930522A DE 19930522 A1 DE19930522 A1 DE 19930522A1
Authority
DE
Germany
Prior art keywords
deviations
vector coefficients
heavily
sound signals
positive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE1999130522
Other languages
English (en)
Inventor
Werner Zuehlke
Guenter Uhlrich
Dietmar Schuchardt
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ABS GES fur AUTOMATISIERUNG B
Technische Universitaet Ilmenau
Original Assignee
ABS GES fur AUTOMATISIERUNG B
Technische Universitaet Ilmenau
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ABS GES fur AUTOMATISIERUNG B, Technische Universitaet Ilmenau filed Critical ABS GES fur AUTOMATISIERUNG B
Priority to DE1999130522 priority Critical patent/DE19930522A1/de
Publication of DE19930522A1 publication Critical patent/DE19930522A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren anzugeben, bei dem die Form der Verteilung und die Relevanz der Abweichung vom Mittelwert der Referenz ausgenutzt wird. DOLLAR A Erfindungsgemäß gelingt die Lösung der Aufgabe dadurch, daß bei der Scoreberechnung das Betragsspektrum oder ein daraus abgeleitetes Spektrum oder ein entsprechender Merkmalsvektor des Testsignalsegments mit einer entsprechenden Referenz verglichen wird und dabei negative Abweichungen der Testvektorkoeffizienten von den Referenzvektorkoeffizienten stärker gewichtet in die Scoreberechnung eingehen als positive Abweichungen. DOLLAR A Die Erfindung betrifft ein Verfahren zur Erkennung von Lautsignalen und kommt bei der Spracherkennung zur Anwendung.

Description

Die Erfindung betrifft ein Verfahren zur Erkennung von Lautsignalen und kommt bei der Spracherkennung zur Anwendung.
Die bekannten Verfahren zur Spracherkennung segmentieren das Sprachsignal in Segmente und berechnen für das betreffende Segment das Betragsspektrum oder ein daraus abgeleitetes Spektrum und analysieren darin die Formanten, oder sie berechnen entsprechende Merkmale, die in parametrischer Form das Betragsspektrum des Segments beschreiben.
Zur Erkennung des gesprochenen Lautes oder Wortes werden die berechneten Merkmale der Segmente mit den vorher gespeicherten Merkmalen aller trainierten Laute bzw. Worte verglichen.
Dabei ermittelte Abstands- oder Ähnlichkeitsmaße (Scores) sind die Grundlage für die nachfolgende Klassifizierung der Laute bzw. Worte. (Dellert, J. R., Proakis, J. G., Hansen, J. H. L.: Diskrete-Time Processing of Speech Signals. Macmillan Publishing Company, New York 1993, und Ruske, G.: Automatische Spracherkennung, Methoden der Klassifikation und Merkmalsextraktion, Oldenbourg-Verlag 1994.)
Bei der Klassifikation auftretende Erkennungsfehler sind insbesondere darauf zurückzuführen, daß die Laute in unterschiedlichen Lautfolgen und von verschiedenen Sprechern unterschiedlich ausgesprochen werden. Damit haben sie ein unterschiedliches Spektrum und schließlich mehr oder weniger stark voneinander abweichende Merkmale. Diese Streuungen der Merkmale vermindern die Diskriminanz bei der Klassifikation.
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren anzugeben, bei dem die Form der Verteilung und die Relevanz der Abweichung vom Mittelwert der Referenz ausgenutzt wird.
Die Aufgabe wird nach Anspruch 1 erfindungsgemäß dadurch gelöst, daß bei der Scoreberechnung das Betragsspektrum oder ein daraus abgeleitetes Spektrum oder ein entsprechender Merkmalsvektor des Testsignalsegments mit einer entsprechenden Referenz verglichen wird und dabei negative Abweichungen der Testvektorkoeffizienten von den Referenzvektorkoeffizienten stärker gewichtet in die Scoreberechnung eingehen als positive Abweichungen.
Nach Anspruch 2 werden bei der Scoreberechnung große Abweichungen gegenüber kleinen Abweichungen gestaucht.
Das Verfahren gilt sinngemäß auch bei der Scoreberechnung für Lautfolgen (Di- und Triphone, Halbsilben, Silben und Worte).
Die Erfindung wird nachstehend an einem Ausführungsbeispiel erläutert.
Beim Test wird das Sprachsignal zunächst lautsegmentiert und danach in Segmente vorgegebener Länge zerlegt.
Danach wird für das betreffende Segment das Betragsspektrum berechnet, in der entsprechenden Form (Betragsspektrum, abgeleitetes Spektrum oder Merkmalsvektor) mit allen Referenzen verglichen und mit einem Abstandsmaß (Scoreberechnung) bewertet. Nach den berechneten Scores erfolgt die Klassifikation, z. B. nach dem minimalen Abstand.
Die zu vergleichenden Laute können durch häufige Lautfolgen, wie "en", "ben", "len", "chen", "schen" usw. ergänzt werden.
Bei der Lautfolgenerkennung und bei der Worterkennung entsprechen die Zustände der Hidden-Markoff-Modelle weitgehend den Lauten.
Bei der Scoreberechnung werden die Abweichungen vorzeichenabhängig gewichtet, d. h., negative Abweichungen des Testspektrums von einem Referenzspektrum werden mit einem größeren Gewicht gewertet als positive Abweichungen.
Außerdem werden bei der Scoreberechnung die Abweichungen noch durch eine amplitudenabhängige Bewertung (z. B. Wurzelziehung) bewertet, wodurch große Abweichungen gegenüber kleinen Abweichungen gestaucht und damit weniger stark in die Scoreberechnung einbezogen werden.

Claims (2)

1. Verfahren zur Erkennung von Lautsignalen mit Scoreberechnungen zur Klassifikation mittels Mustervergleich oder Hidden-Markoff-Modellen, dadurch gekennzeichnet, daß bei der Scoreberechnung, bei der das Betragsspektrum oder ein daraus abgeleitetes Spektrum oder ein entsprechender Merkmalsvektor des Testsignalsegments mit einer entsprechenden Referenz verglichen wird, negative Abweichungen der Testvektorkoeffizienten von den Refe­ renzvektorkoeffizienten stärker gewichtet eingehen als positive Abweichungen.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß bei der Scoreberechnung große Abweichungen gegenüber kleinen Abweichungen gestaucht werden.
DE1999130522 1999-07-05 1999-07-05 Verfahren zur Erkennung von Lautsignalen Withdrawn DE19930522A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE1999130522 DE19930522A1 (de) 1999-07-05 1999-07-05 Verfahren zur Erkennung von Lautsignalen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE1999130522 DE19930522A1 (de) 1999-07-05 1999-07-05 Verfahren zur Erkennung von Lautsignalen

Publications (1)

Publication Number Publication Date
DE19930522A1 true DE19930522A1 (de) 2001-02-01

Family

ID=7913405

Family Applications (1)

Application Number Title Priority Date Filing Date
DE1999130522 Withdrawn DE19930522A1 (de) 1999-07-05 1999-07-05 Verfahren zur Erkennung von Lautsignalen

Country Status (1)

Country Link
DE (1) DE19930522A1 (de)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1992006469A1 (en) * 1990-10-02 1992-04-16 The Dsp Group, Inc. Boundary relaxation for speech pattern recognition
DE4310190A1 (de) * 1992-07-22 1994-01-27 Int Standard Electric Corp Sprecher-Verifizierungssystem unter Verwendung der Abstandsmessung nächster Nachbarn
DE4438185A1 (de) * 1994-09-20 1996-03-21 Philips Patentverwaltung System zum Ermitteln von Wörtern aus einem Sprachsignal
DE69324629T2 (de) * 1992-06-05 1999-09-30 Nokia Mobile Phones Ltd Verfahren und Vorrichtung zur Spracherkennung

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1992006469A1 (en) * 1990-10-02 1992-04-16 The Dsp Group, Inc. Boundary relaxation for speech pattern recognition
DE69324629T2 (de) * 1992-06-05 1999-09-30 Nokia Mobile Phones Ltd Verfahren und Vorrichtung zur Spracherkennung
DE4310190A1 (de) * 1992-07-22 1994-01-27 Int Standard Electric Corp Sprecher-Verifizierungssystem unter Verwendung der Abstandsmessung nächster Nachbarn
DE4438185A1 (de) * 1994-09-20 1996-03-21 Philips Patentverwaltung System zum Ermitteln von Wörtern aus einem Sprachsignal

Similar Documents

Publication Publication Date Title
Dimitriadis et al. Robust AM-FM features for speech recognition
Hönig et al. Revising Perceptual Linear Prediction (PLP).
CN107358945A (zh) 一种基于机器学习的多人对话音频识别方法及系统
CN101620853A (zh) 一种基于改进模糊矢量量化的语音情感识别方法
CN108305639B (zh) 语音情感识别方法、计算机可读存储介质、终端
Alam et al. Combining amplitude and phase-based features for speaker verification with short duration utterances.
Hansen et al. Robust emotional stressed speech detection using weighted frequency subbands
Das et al. Combining source and system information for limited data speaker verification.
CN103366735A (zh) 语音数据的映射方法和装置
CN106297769B (zh) 一种应用于语种识别的鉴别性特征提取方法
CN102237089B (zh) 一种减少文本无关说话人识别系统误识率的方法
CN111133508A (zh) 一种可供比对音素选取方法和装置
Vijayan et al. Feature extraction from analytic phase of speech signals for speaker verification.
CN103021421A (zh) 用于枪声的多级筛选检测识别方法
DE19930522A1 (de) Verfahren zur Erkennung von Lautsignalen
Gemmeke Advances in noise robust digit recognition using hybrid exemplar-based techniques
Jankowski et al. Fine structure features for speaker identification
Pellegrino et al. From vocalic detection to automatic emergence of vowel systems
Arcienega et al. Pitch-dependent GMMs for text-independent speaker recognition systems.
Narayanan et al. Coupling binary masking and robust ASR
Nosan et al. Descend-Delta-Mean Algorithm for Feature Extraction of Isolated THAI Digit Speech
Do et al. Cochlear implant-like processing of speech signal for speaker verification.
Lachachi Unsupervised phoneme segmentation based on main energy change for arabic speech
Ouzounov Noisy speech endpoint detection using robust feature
Hanilçi et al. Comparison of spectrum estimators in speaker verification: mismatch conditions induced by vocal effort.

Legal Events

Date Code Title Description
OM8 Search report available as to paragraph 43 lit. 1 sentence 1 patent law
8139 Disposal/non-payment of the annual fee