DE69706488T2 - Verfahren zur Bestimmung der Grundfrequenz in einem Sprachsignal - Google Patents
Verfahren zur Bestimmung der Grundfrequenz in einem SprachsignalInfo
- Publication number
- DE69706488T2 DE69706488T2 DE1997606488 DE69706488T DE69706488T2 DE 69706488 T2 DE69706488 T2 DE 69706488T2 DE 1997606488 DE1997606488 DE 1997606488 DE 69706488 T DE69706488 T DE 69706488T DE 69706488 T2 DE69706488 T2 DE 69706488T2
- Authority
- DE
- Germany
- Prior art keywords
- speech signal
- values
- fundamental frequency
- frames
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 98
- 238000001228 spectrum Methods 0.000 claims description 41
- 238000004364 calculation method Methods 0.000 claims description 21
- 101000802640 Homo sapiens Lactosylceramide 4-alpha-galactosyltransferase Proteins 0.000 claims description 16
- 102100035838 Lactosylceramide 4-alpha-galactosyltransferase Human genes 0.000 claims description 16
- 230000003595 spectral effect Effects 0.000 claims description 14
- 230000006835 compression Effects 0.000 claims description 12
- 238000007906 compression Methods 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 10
- 238000012805 post-processing Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 230000002123 temporal effect Effects 0.000 claims description 5
- 230000002093 peripheral effect Effects 0.000 claims description 2
- 238000011112 process operation Methods 0.000 claims description 2
- 230000007704 transition Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 22
- 230000008569 process Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000012937 correction Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 2
- 241000723104 Progne subis Species 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
- Diese Erfindung betrifft ein Verfahren zur Extraktion der Grundfrequenz in einem Sprachsignal.
- Bei den heutigen Techniken der Verarbeitung digitaler Sprachsignale geht es im wesentlichen darum, aus diesen die Grundparameter zu extrahieren, um ihre Qualität zu verbessern, indem das Verhältnis von Signal zu Störgeräusch verbessert wird, und um ggf die Quelle des Sprechers festzustellen, um diesen z. B. authentisieren zu können.
- Unter den vorgenannten Grundparametern stellt die Grundfrequenz einen der Parameter dar, die die Stimme eines gegebenen Sprechers am besten kennzeichnen, und ermöglicht es daher, zu dessen sicherer Authentisierung beizutragen.
- Es wurden zahlreiche Verfahren zur Extraktion der Grundfrequenz in einem Sprachsignal vorgeschlagen. Um einen allgemeinen Überblick über die vorgeschlagenen Techniken zu gewinnen, zieht man zweckdienlicherweise die Veröffentlichung von W. HESS mit dem Titel "Pitch determination of speech signals: algorithms and methods", Springer-Verlag, New- York 1983 zu Rate.
- Die oben genannten Techniken oder Verfahren können in zwei große Familien eingeordnet werden.
- - Die temporellen Verfahren wie z. B. die, bei denen ein Prozess der Autokorrelation mit zentraler Begrenzung und Vergleich der Spitzen mit einem Schwellenwert ins Werk gesetzt wird, oder diejenigen mit der Bezeichnung AMDF, wobei letztere von R. BOITE und M. KUNT in dem Werk mit dem Titel "Traitement de la parole", S. 193-195, Presses polytechniques romandes, Lausanne 1987 beschrieben wurden, sind relativ wenig aufwendig, was die Rechenzeit betrifft, da sie keinen Einsatz von arithmetischen Multiplikationsoperationen erfordern. Sie sind jedoch nicht sehr präzise, und deswegen muss eine Überabtastung des Sprachsignals vorgenommen werden, um eine angemessene Präzision zu erreichen, was natürlich eine beträchtliche Erhöhung der effektiven Rechenzeit mit sich bringt.
- Was diese Verfahren betriffl, ist in der Schrift KEIKICHI HIROSE u. a.: "A scheme for pitch extraction of speech using autocorrelation function with frame length proportional to the time lag", ICASSP-92, Speech Processing 1, San Francisco, Mar 23-26, 1992, Vol. 1, IEEE Seiten 149-152, XP 000341105, ein Verfahren zur Extraktion der Grundfrequenz in einem Sprachsignal durch Autokorrelation beschrieben.
- - Die frequentiellen Verfahren dagegen beruhen auf der Analyse der harmonischen Struktur des Energiespektrums in Abhängigkeit von der Frequenz des Sprachsignals. Unter ihnen gibt es die sogenannte Kamm-Methode, die von P. MARTIN in einem Artikel mit dem Titel "Extraction de la frequence fondamentale par intercorrèlation avec une fonction peigne" (Extraktion der Grundfrequenz durch Interkorrelation mit einer Kamm-Funktion), veröffentlicht in den Journees d'Etude Parole 12, S. 221-232, 1981, beschrieben wurde und darin besteht, die Funktion der Interkorrelation zwischen dem Spektrum des digitalen Sprachsignals und einer Kamm-Funktion für verschiedene Werte des Abstands zwischen den Zähnen des Kamms zu berechnen. Das Maximum der Interkorrelations-Funktion wird für einen Abstand zwischen zwei aufeinanderfolgenden Zähnen des Kamms erzielt, gleich der Grundfrequenz des zu analysierenden Signals. Dieses Verfahren ist sehr zuverlässig, doch auch relativ kompliziert insofern, als es eine frequentielle Abnahme erfordert, die darin besteht, nur die Maxima des Spektrums und die angrenzenden Werte festzuhalten. Außerdem muss eine Interpolation durchgeführt werden, um die Präzision des Ergebnisses zu verbessern.
- Ein weiteres Verfahren, das als Spektralkompressionsverfahren bezeichnet wird, wurde von NOLL veröffentlicht (1979), vgl. das oben genannte Werk von W. HIESS, S. 414-417. Dieses Verfahren, das auf einer Analyse der harmonischen Struktur des Energiespektrums in Abhängigkeit von der Frequenz des Sprachsignals beruht, besteht darin, das Energiespektrum des Sprachsignals auf der Achse der Frequenzen durch aufeinanderfolgende, ganze Faktoren zu komprimieren, sodann die hergestellten komprimierten Spektren zu dem Anfangsspektrum zu addieren. Mit diesen Operationen kann im Prinzip ein signifikatives Maximum hergestellt werden, das sich aus dem kohärenten Beitrag der Oberschwingungen der Grundfrequenz nach der Kompression ergibt. Die Extraktion der Grundfrequenz besteht dann darin, das Maximum des Logarithmus des harmonischen Produktes zu ermitteln, das definiert ist durch:
- P(k) = X (1)
- wobei L = M/k, M die Anzahl von Punkten des Spektrums bezeichnet, X(1) den Logarithmus des Energiespektrums bezeichnet.
- Der Nachteil dieses Verfahrens liegt darin, dass die Amplitude der harmonischen Spitzen in Abhängigkeit von der Frequenz abnimmt, und zwar mit einem Gefälle von ca. -12 dB/Oktave. Mit einem Vorverzerrungsprozess kann zwar das Niveau der Oberschwingungen mit hoher Frequenz angehoben werden, doch weisen bestimmte harmonischen Spitzen auf Grund des Beitrags der Formanten ein geringeres Energieniveau auf als andere, was bei der Ermittlung des Werts der Grundfrequenz häufig zu Fehlern führt.
- Es ist Aufgabe dieser Erfindung, ein Verfahren zur Extraktion der Grundfrequenz in einem Sprachsignal zu schaffen, bei dem die Extraktion der Grundfrequenz mit erhöhter Zuverlässigkeit erfolgt.
- Eine weitere Aufgabe dieser Erfindung ist es, ein Verfahren zur Extraktion der Grundfrequenz in einem Sprachsignal zu schaffen, bei dem der eigentliche Extraktionsprozess der Grundfrequenz eine Bedingung für das Erkennen der Stimmhaftigkeit oder Stimmlosigkeit der Töne, die das Sprachsignal bilden, sein kann.
- Eine weitere Aufgabe dieser Erfindung ist es schließlich, ein Verfahren zur Extraktion der Grundfrequenz in einem Sprachsignal zu schaffen, bei dem der extrahierte Grundfrequenz- Wert ferner einer Nachverarbeitung der Art mit Lernprozess unterzogen wird, um alle unwahrscheinlichen oder abweichenden Werte zu eliminieren.
- Das Verfahren zur Extraktion der Grundfrequenz in einem Sprachsignal, einer Folge von Digital-Abtastwerten, das Gegenstand dieser Erfindung ist, ist darin bemerkenswert, dass es mindestens die Schritte beinhaltet, die darin bestehen, dieses Sprachsignal einer Vorverzerrung zu unterziehen, um ein vorverzerrtes Sprachsignal zu erzeugen; aus dem vorverzerrten Sprachsignal für jeden laufenden Rahmen einer Folge von Rahmen, die jeweils in der Dauer einer bestimmten Anzahl N von Abtastungen entsprechen, wobei zwei aufeinanderfolgende Rahmen jeweils eine zeitliche Überlappung mit einer Anzahl gemeinsamer, aufeinanderfolgender Abtastungen aufweisen, die höchstens gleich 50/100 der Anzahl N von Abtastungen ist, eine erste Menge von Werten X&sub1; (k) des Logarithmus des Energiespektrums durch Fourier-Transformierte für eine Anzahl M&sub1; von Punkten zu berechnen; aus dieser ersten Menge von Werten eine bestimmte Anzahl p von ersten Cepstrum-Koefflzienten C (m) zu berechnen, indem auf die genannten Werte X&sub1; (k) für eine Anzahl dieser Werte, die mindestens gleich der Hälfte der Anzahl N der den betreffenden Rahmen bildenden Abtastungen ist, eine diskrete Kosinus-Transformierte angewendet wird, wobei diese Transformierte die folgende Beziehung erfüllt:
- C(m) = [1 + (-1)m]X(0) + 2 X&sub1;(k)Cos(2πmk)/N
- wobei m = [1, 2, ..., p]; das genannte vorverzerrte Sprachsignal einer Tiefpaß-Filterung und einer Unterabtastung zu unterziehen, um ein gefiltertes, unterabgetastetes Sprachsignal zu erzeugen; aus diesem gefilterten, unterabgetasteten Sprachsignal und aus den Cepstrum- Koeffizienten durch Spektralkompression für jeden laufenden Rahmen einer Folge von Rahmen mit Überlappung gleicher Zeitdauer die maximale Grundfrequenz mit dem Rang k einer Funktion P (k) zu berechnen, die die Differenz zwischen einer zweiten Menge von Werten X&sub2; (k) des Logarithmus des Energiespektrums und der Menge von Werten H (k) des geglätteten Frequenzspektrums darstellt, wobei diese Funktion die folgende Beziehung erfüllt:
- P(k) = X&sub2;(k) - H(k)
- wobei L =M&sub2;/k, und wobei k zwischen einem ersten und einem zweiten Wert variiert, die ein Niederfrequenzband zwischen 70 und 450 Hz darstellen, wobei die genannte Funktion P (k) ein Maximum bei k = F&sub0; aufweist, ein Wert, der aus der Grundfrequenz des Sprachsignals extrahiert wird.
- Das Verfahren dieser Erfindung kommt insbesondere bei der Stimmenerkennung und bei der Identifizierung von Sprechenden aus Klang-Signaturen zur Anwendung.
- Es geht näher aus der folgenden Beschreibung und den beigefügten Zeichnungen hervor, wobei
- Fig. 1a ein Ablaufdiagramm zeigt, in dem alle Schritte dargestellt sind, mit denen das Verfahren dieser Erfindung ausgeführt wird,
- Fig. 1b ein Ablaufdiagramm zeigt, in dem eine vorteilhafte Ausführungsvariante des erfindungsgemäßen Verfahrens dargestellt ist, bei der bestimmte Schritte parallel oder ggf im Mehrprozessbetrieb ausgeführt werden, um eine Betriebsweise in Realzeit zu ermöglichen, ohne dabei jedoch eine sehr große Verarbeitungsleistung erforderlich zu machen,
- Fig. 2a eine Einzelheit in der Ausführung einer Aufeinanderfolge von Grundschritten zeigt, die ein optimales Ausführen des abschließenden Verfahrensschritts der Berechnung der Grundfrequenz des Sprachsignals durch Spektralkompression gemäß dieser Erfindung ermöglicht und entsprechend der Fig. 1a oder 1b dargestellt ist,
- Fig. 2b eine Reihe von Signalen zeigt, die frequentiell auf die Durchführung der in Fig. 2a dargestellten Grundschritte hin erzielt wurden,
- die Fig. 3a, 3b, 3c und 3d eine Art und Weise des Formatierens von Abtastwert- Rahmen, die konstitutiv für das Sprachsignal sind, einen Prozess der Diskriminierung der laufenden Rahmen in Abhängigkeit von einem Kriterium bezüglich der Stimmhaftigkeit oder Stimmlosigkeit jedes laufenden Rahmens, eine Art und Weise der Erstellung dieses Kriteriums sowie ein Diagramm der Zuordnung eines jeweiligen Stimmhaftigkeitsindexes für temporelle Segmente, aus denen jeder Rahmen besteht,
- Fig. 4 in einem Schaltbild den Aufbau einer Vorrichtung zur Ausführung des erfindungsgemäßen Verfahrens von einem Host-Mikrorechner und einem Prozessor für Digital-Signale aus zeigt, wobei letzterer spezialisiert oder dediziert ist und beide durch eine BUS-Verbindung miteinander verbunden sind.
- Im Folgenden wird das erfindungsgemäße Verfahren zur Extraktion der Grundfrequenz in einem Sprachsignal anhand der Fig. 1a und 1b näher beschrieben.
- Wie in Fig. 1a zu erkennen ist, ist das Sprachsignal, aus dem gemäß dem Verfahren dieser Erfindung die Grundfrequenz extrahiert werden soll, beispielsweise ein analoges Signal, das bestimmte Worte und Silben darstellt, wobei dieses analoge Signal in eine Folge von Digital-Abtastwerten umgewandelt wird, wobei das Sprachsignal in seiner digitalen Form in Fig. 1a mit sp bezeichnet ist.
- Wie außerdem in dieser Figur zu erkennen ist, wird das Sprachsignal sp sodann einer Vorverzerrung zu unterziehen, um ein vorverzerrtes Sprachsignal zu erzeugen, das mit spp bezeichnet ist. Der Vorverzerrungs-Vorgang ist ein Vorgang herkömmlicher Art und wird hier als solcher nicht näher beschrieben. Dieser Vorgang besteht in einer allgemeinen Vorverzerrung, die eigentlich darin besteht, einen mit der Frequenz wachsenden Verstärkungswert anzulegen, um die Dämpfung der Oberschwingungen höheren Rangs zu kompensieren. Als nicht einschränkendes Beispiel kann der Vorgang der allgemeinen Vorverzerrung darin bestehen, auf das Sprachsignal sp eine Transfer-Funktion folgender Art anzuwenden:
- G(z) = 1 - z&supmin;¹.
- In dem oben genannten Verhältnis gilt z = ejω, wobei ω = 2πf, wobei f die momentane Frequenz des Sprachsignals bezeichnet.
- Das erfindungsgemäße Verfahren, wie in Fig. 1a dargestellt, weist sodann einen Verfahrensschritt b) auf, in dem ein Formatieren des vorverzerrten Sprachsignals spp erfolgt. Dieser Vorgang des Formatierens besteht darin, das vorverzerrte Sprachsignal spp in aufeinander folgenden Rahmen zu bilden, die jeweils N Abtastungen enthalten und einer Dauer dieser N Abtastungen entsprechen, wobei zwei aufeinanderfolgende Rahmen jeweils eine zeitliche Überlappung mit einer Anzahl gemeinsamer, aufeinanderfolgender Abtastungen aufweisen, die höchstens gleich 50/100 der Anzahl N von Abtastungen jedes Rahmens ist.
- Der obengenannte Verfahrensschritt b) besteht ferner darin, bei jedem laufenden Rahmen, der mit Tq bezeichnet ist, eine erste Menge von Werten X&sub1;(k) des Logarithmus des Energiespektrums für den in Betracht kommenden Rahmen durch Anwendung einer Fourier- Transformierten auf eine Anzahl M&sub1; von Punkten zu berechnen.
- Praktisch wird die Anzahl M, von Punkten, auf die die Fourier-Transformierte angewendet wird, so gewählt, dass das Shannon-Theorem eingehalten wird. Als nicht einschränkendes Beispiel kann bei Rahmen, die aus 256 aufeinanderfolgender Abtastungen bestehen, und bei einer Dauer jedes laufenden Rahmens von 32 ms die Anzahl M, von Punkten gleich 128 gesetzt werden.
- Der obengenannte, in Fig. 1a dargestellte Verfahrensschritt b) ermöglicht es also, über die erste Menge von Werten, die mit X&sub1; (k) bezeichnet wird, zu verfügen.
- Wie in der oben genannten Fig. 1a dargestellt, weist das erfindungsgemäße Verfahren ferner einen Verfahrensschritt c) auf, in dem aus der ersten Menge von Werten {X&sub1; (k)} eine bestimmte Anzahl p von ersten Cepstrum-Koeffizienten C (m) des Logarithmus des Energiespektrums, der durch die erste Menge von Werten {X&sub1; (k)} definiert wird, berechnet wird.
- Die vorgenannten Cepstrum-Koeffizienten erfüllen die Beziehung:
- C(m) = [1 + (-1)m]X(0) + 2 X&sub1;(k).Cos(2πmk)/N
- Für diese Beziehung ist m eine ganze Zahl, die die Werte [1, 2, ..., p] annimmt, wobei p die Anzahl der ersten Cepstrum-Koefflzienten bezeichnet, die für die Durchführung des erfindungsgemäßen Verfahrens festgehalten wird. Als nicht einschränkendes Beispiel kann p auf 16 begrenzt werden.
- Auf diese Weise verfügt man am Ende des Verfahrensschritts c) über die oben genannten Cepstrum-Koeffizienten, die es ermöglichen, die nächsten Schritte des erfindungsgemäßen Verfahrens durchzuführen, wie in Fig. 1a dargestellt.
- Nach dem genannten Verfahrensschritt c) weist das erfindungsgemäße Verfahren einen Verfahrensschritt d) auf, in dem das vorverzerrte Sprachsignal spp einer Tiefpaß-Filterung und einer Unterabtastung unterzogen wird, um ein gefiltertes, unterabgetastetes Sprachsignal spf zu erzeugen.
- In Fig. 1a ist zwischen dem Verfahrensschritt c) und dem Verfahrensschritt d) eine Verbindung mit gestrichelter Linie dargestellt, die eine Operation angibt, die an dem vorverzerrten Sprachsignal spp ausgeführt wird, das nach dem Verfahrensschritt a) der allgemeinen Vorverzerrung verfügbar ist. Insbesondere wird ersichtlich, dass das Sprachsignal in digitaler Form sp, das tatsächlich beispielsweise aus einer Salve von aufeinanderfolgenden Worten besteht, das vorverzerrte Sprachsignal spp nach dem in Verfahrensschritt a) ausgeführten Schritt der Vorverzerrung gespeichert werden kann, und dass selbstverständlich der Verfahrensschritt d) mit dem vorgenannten vorverzerrten Sprachsignal spp ausgeführt werden kann.
- Allgemein kann die Tiefpaß-Filterung durch ein Tiefpaß-Filter mit einer Grenzfrequenz von 2 kHz mittels eines Filters mit begrenztem Ansprechen auf einen Impuls mit 47 Koeffizienten durchgeführt werden. Das aus dieser Filterung hervorgehende gefilterte Signal kann sodann einer Unterabtastung unterzogen werden, die durch Dezimierung erfolgen kann, um das gefilterte, unterabgetastete Sprachsignal spf abzugeben.
- Auf diesen Verfahrensschritt d) folgt sodann, wie in Fig. 1a dargestellt, ein Verfahrensschritt e), in dem durch Spektralkompression die maximale Grundfrequenz mit dem Rang k einer Funktion P (k) berechnet wird, die die Differenz zwischen einer zweiten Menge von Werten X&sub2; (k) des Logarithmus des Energiespektrums des gefilterten, unterabgetasteten Sprachsignals spf und der Menge von Werten H (k) des geglätteten Frequenzspektrums darstellt, die aus den Cepstrum-Koeffizienten gewonnen werden, die am Ende des oben genannten Verfahrensschritts c) verfügbar sind.
- Die Funktion P (k) erfüllt die Beziehung:
- P(k) = X&sub2;(k) - H(k)
- Allgemein erfolgt in dem in Fig. 1a dargestellten Verfahrensschritt e) auch ein Schritt des Formatierens in Rahmen von N&sub2; Abtastungen, wobei N&sub2; = N/2, und wobei zwei aufeinanderfolgende Rahmen jeweils eine Überlappung von N&sub2; Abtastungen des gefilterten, unterabgetasteten Sprachsignals spf aufweisen, wobei die Formatierung selbstverständlich der Formatierung gleicht, die zu Beginn des Verfahrensschritts b) an dem vorverzerrten Sprachsignal spp ausgeführt wurde.
- Auf den in Verfahrensschritt e) ausgeführten Schritt des Formatierensifolgt nun ein Schritt des Berechnens der zweiten Menge von Werten {X&sub2; (k)} des Logarithmus des Energiespektrums, wobei diese Berechnung durch Anwendung einer Fourier-Transformierten auf eine Anzahl M&sub2; von Punkten jedes laufenden, durch die Formatierung hergestellten Rahmens erfolgt. Die zweite Menge von Werten {X&sub2; (k)} wird vorteilhafterweise mittels einer schnellen Fourier-Transformierten FFT berechnet, die unter Verwendung der Methode des Auffühlens mit Nullen auf M&sub2; = 2048 Punkte angewendet wird.
- Auf den Schritt des Berechnens der zweiten Menge von Werten {X&sub2; (k)} folgt ein Schritt des Berechnens des geglätteten Frequenzspektrums H (k) aus den Cepstrum-Koeffizienten C(m), die ab Ende des Verfahrensschritts c) verfügbar sind, wobei die Verbindung zwischen dem Schritt c) und dem Schritt e) in Fig. 1a aus diesem Grund mit gestrichelter Linie dargestellt ist. Das geglättete Spektrum H (k) wird durch Anwendung einer Transformierten im Cosinus auf die verfügbaren p Cepstrum-Koeffizienten berechnet.
- Auf den Schritt des Berechnens des geglätteten Frequenzspektrums folgt nun ein Schritt des Berechnens der Funktion P(k), die die in der Beschreibung oben genannte Beziehung erfüllt. In dieser Beziehung gilt, dass L gleich M&sub2;/k, wobei k zwischen einem ersten und einem zweiten Wert variiert, die ein Niederfrequenzband zwischen 70 und 450 Hz darstellen. Die Funktion P(k) weist dabei ein Maximum bei k = F&sub0; auf, ein extrahierter Wert der Grundfrequenz des Sprachsignals.
- Das erfindungsgemäße Verfahren zur Extraktion der Grundfrequenz in einem Sprachsignal ermöglicht es mittels Spektralkompression, durch die Berechnung des harmonischen Produkts der Differenz zwischen dem Energiespektrum des Sprachsignals und dem Spektrum des geglätteten Signals den Beitrag der Formanten zu eliminieren und die harmonische Struktur der Grundfrequenz des Sprachsignals zu extrahieren.
- Mit der Ausführungsform von Fig. 1a wurde als nicht einschränkendes Beispiel eine sequentielle Ausführung dargestellt, wobei die Schritte a) bis e) aufeinanderfolgend durchgeführt werden können. Insbesondere geht hervor, dass einerseits das vorverzerrte Sprachsignal spp und andererseits die Cepstrum-Koeffizienten, insbesondere die verwendeten p Cepstrum- Koeffizienten, am Ende des Schritts c) bzw. nach dem Schritt a) gespeichert werden können, um die oben genannten Schritte b) bis e) sequentiell durchführen zu können.
- Um den zur Durchführung der oben genannten Schritte a) bis e) verwendeten Rechenprozessor nicht unnötig zu belasten, um jedoch auf alle Fälle die Durchführung der oben genannten Schritte in Realzeit zu erleichtern, kann das erfindungsgemäße Verfahren gemäß einer Ausführungsvariante, wie sie in Fig. 1b dargestellt ist, in Parallelkonfiguration durchgeführt werden, wobei ab dem vorverzerrten Sprachsignal spp die sequentiell erfolgenden Schritte b) und c) parallel zu den Schritten d) und e) ausgeführt werden. Diese Ausführungsweise, wie sie in Fig. 1b dargestellt ist, wurde auf Grund der Tatsache möglich, dass die Schritte b) und c) qualitativ unabhängig von den Schritten d) und e) sind und dadurch an dem vorverzerrten Sprachsignal spp parallel ausgeführt werden können.
- Hinsichtlich der Unterschritte des Formatierens, die in den Verfahrensschritten b) und e) an dem vorverzerrten Sprachsignal spp bzw. an dem gefilterten, unterabgetasteten Sprachsignal spf erfolgen, können diese Formatierungsschritte durch eine geeignete Adressierung an dem vorverzerrten Sprachsignal spp bzw. dem gefilterten, unterabgetasteten Sprachsignal spf ausgeführt werden. Selbstverständlich ist die Ausführung des Unterschritts der Berechnung des geglätteten Frequenzspektrums H (k) von Schritt e) an die Bedingung geknüpft, dass die p Cepstrum-Koeffizienten C(m) bei Ende des Verfahrensschritts c) verfügbar sind.
- Die Anwendung der Ausführungsvariante des erfindungsgemäßen Verfahrens, wie sie in Fig. 1b dargestellt ist, greift in keiner Weise der Mono- oder Multiprozessor-Struktur der Vorrichtung vor, mit der das erfindungsgemäße Verfahren durchgeführt werden kann, wobei natürlich eine Monoprozessor-Struktur mit einem System zur Mehrprozessbetrieb- Nutzung ins Auge gefasst werden kann, wie unten noch beschrieben wird.
- Ferner kann bei einer weiteren Ausführungsvariante das erfindungsgemäße Verfahren darin bestehen, in dem Verfahrensschritt c) eine einzige Menge von Werten X (k) des Energiespektrums des Sprachsignals für eine Anzahl M von Punkten zu berechnen, die beispielsweise gleich 2048 ist, d. h. der größe in dieser Beschreibung oben beschriebene Wert M = M&sub2; und diese Menge von Werten zu speichern. Die Anzahl M&sub1; = 128 von Werten, die für die Berechnung der Cepstrum-Koefiizienten in Verfahrensschritt c) verwendet werden, kann dann durch Dezimierung aus der Menge von Werten X (k) erhalten werden. Es wird jedoch darauf hingewiesen, dass diese weitere Ausführungsweise zwar gleichwertig mit der beschriebenen Ausführungsweise ist, in der die erste Menge von Werten X&sub1; (k) und dann die zweite Menge von Werten X&sub2; (k) berechnet wird, aber den Nachteil aufweist, dass sie es erforderlich macht, die gesamten Werte X (k) während der gesamten Durchführungsdauer des Berechnungsprozesses für jeden der laufenden Rahmen im Speicher zu behalten, was einen Speicherplatzbedarf bedeutet, der für die Verwaltung der gesamten Berechnungsquellen ungünstig ist.
- Es folgt nun eine nähere Beschreibung der Durchführung des Verfahrensschritts e) des erfindungsgemäßen Verfahrens, wie er in den Fig. 1a und 1b dargestellt ist, unter Bezugnahme auf Fig. 2a.
- Gemäß dieser Figur besteht der Verfahrensschritt e) der Berechnung durch Spektralkompression, wie oben bereits erwähnt, darin, in einem Unterschritt e&sub1;) das Formatieren in Rahmen von N&sub2; Abtastungen aus dem gefilterten, unterabgetasteten Sprachsignal spfund die Berechnung der zweiten Menge von Werten X&sub2; (k) des Logarithmus des Energiespektrums durch Anwendung einer Fourier-Transformierten auf eine Anzahl M&sub2; von Punkten in einem Frequenzband von 0 bis 2 kHz auszuführen.
- Auf den Unterschritt e&sub1;) folgt ein Unterschritt e&sub2;), in dem die Spektral-Hüllkurve H(k) oder das geglättete Frequenzspektrum des laufenden Rahmens auf dem genannten Frequenzband von 0 bis 2 kHz für eine gleiche Anzahl M&sub2; von Punkten berechnet wird, indem auf die p-1 ersten Cepstrum-Koeffizienten eine Kosinus-Transformierte angewendet wird, die die folgende Beziehung erfüllt:
- H(k) = C(0) + 2 C(m).Cos(2πmk/Q)
- In dieser Beziehung nimmt k die Werte [0, 1, 2, ..., M&sub2;] an, und M&sub2; ist gleich Q/4, wobei Q = 8192.
- Auf den Unterschritt e&sub2;) folgt ein Unterschritt e&sub3;), in dem die Differenz D(k) = X&sub2; (k) - H(k) berechnet wird.
- Auf den Unterschritt e&sub3;) wiederum folgt ein Unterschritt e&sub4;), in dem die Funktion P(k) durch Spektralkompression der Differenz D(k) für das Niederfrequenzband zwischen 70 und 450 Hz berechnet wird. Die Funktion P(k) ist nicht anderes als das harmonische Produkt der Differenz D(k). Diese Berechung erfolgt für L = M&sub2;/k, wobei k zwischen Werten, die für 70 bis 450 Hz stehen, d. h. in dem obengenannten Niederfrequenzband variiert.
- Und schließlich folgt auf den Unterschritt e&sub4;) ein Unterschritt e&sub5;) der Extraktion des Maximums der Funktion P (k) bei dem Wert von k, der den Wert F&sub0; darstellt, der Grundfrequenz des Sprachsignals.
- Der Unterschritt e&sub5;) kann mit einem Sortierprogramm der aufeinanderfolgenden Werte der Funktion P (k) in dem obengenannten Niederfrequenzband durchgeführt werden. Das Sortierprogramm ist ein klassisches Suchprogramm, das unter mehreren Werten den größten Wert sucht.
- In Fig. 2b sind Diagramme zu sehen, die in einem Energieraum W-Frequenz nacheinander zeigen: das Kurzzeit-Spektrum eines Rahmens eines Sprachsignals zwischen 0 und 2 kHz, wobei der Rahmen eine Dauer von 32 ms in 2048 Punkten hat, wobei dieses Diagramm einem Rahmen entsprechen kann, der Ergebnis des Unterschritts des Formatierens ist, der in dem Unterschritt e&sub1;) von Fig. 2a durchgeführt wird; die Spektral-Hüllkurve, die erzielt wird, indem auf die 16 ersten Cepstrum-Koeflizienten eine Kosinus-Transformierte angewendet wird, wobei diese Hüllkurve nur den Beitrag der Formanten, d. h. das geglättete Spektrum H(k), das am Ende des Unterschritts e&sub2;) von Fig. 2a beispielsweise erzielt wird, darstellt; die Differenz D(k) zwischen den beiden vorherigen Spektren, in der nur die Grundfrequenzstruktur des Sprachsignals übrig bleibt, da der Beitrag der Formanten eliminiert ist, wobei dieses Diagramm den Werten D(k) der Differenz entspricht, die am Ende des Unterschritts e&sub3;) von Fig. 2a erzielt wird; und schließlich die Kurve, die durch Spektralkompression der Grundfrequenzstruktur des Sprachsignals zwischen 70 und 450 Hz erzielt wird, wobei diese Funktion einen signifikativen Maximalwert oder Spitze für die Frequenz F&sub0; darstellt, wobei dieses Diagramm der Durchführung der Unterschritte e&sub4;) und e&sub5;) von Fig. 2a entspricht.
- Das erfindungsgemäße Verfahren kann normalerweise auf einen ununterbrochenen oder praktisch ununterbrochenen Strom von Worten oder Silben, die ein Sprachsignal bilden, angewendet werden.
- Verstärkte Forschungen haben jedoch gezeigt, dass es von Interesse ist, einen Diskriminierungsprozess zwischen stimmhaften Rahmen und stimmlosen Rahmen auszuführen, da die Abtastung von stimmlosen Rahmen Fehler in der Bewertung der Grundfrequenz des Sprachsignals mit sich bringen kann, da sich bei stimmlosen Rahmen die Klänge nicht aus einer periodischen Schwingung der Stimmbänder ergeben, wobei diese stimmlosen Rahmen nicht signifikativ für die Grundfrequenz dieses Sprachsignals sind.
- Zu diesem Zweck kann das erfindungsgemäße Verfahren nach dem Unterschritt des Formatierens des vorverzerrten Sprachsignals spp bzw. des gefilterten, unterabgetasteten Sprachsignals spfin Rahmen ferner vorteilhafterweise einen Schritt aufweisen, in dem bei allen aufeinanderfolgenden Rahmen zwischen den stimmhaften Rahmen und den stimmlosen Rahmen diskriminiert wird und dann jeder stimmlose Rahmen eliminiert wird. Die stimmlosen Rahmen werden nämlich nicht physikalisch aus der Folge der laufenden Rahmen eliminiert. Diese stimmlosen Rahmen werden eliminiert, indem ihnen ein willkürlicher Grundfrequenzwert zugeordnet wird, der Wert Null, wie im Folgenden nach beschrieben wird.
- So kann, wie in Fig. 3a dargestellt ist, die Bildung dieser Signale in aufeinander folgenden Rahmen von N bzw. N&sub2; Abtastwerten in klassischer Weise durch Empfangen und Speichern dieser Abtastwerte beispielsweise unter speziellen Adressen eines RAM-Speichers und dann sequentiellem Lesen der aufeinander folgenden Rahmen, wie in Fig. 3a dargestellt, erfolgen, wobei beispielsweise das Lesen des Rahmens mit dem Rang q - 1 durch simultanes Lesen der entsprechenden N Abtastwerte geschieht, dann am Ende der Dauer des Rahmens von 32 ms das Lesen des nächsten Rahmens des Rangs q erfolgt, der N Abtastwerten entspricht, wobei sich N/2 Abtastwerte mit dem vorhergehenden Rahmen des Rangs q - 1 überlappen, und so fort mit dem Rahmen des Rangs q + 1 und den nachfolgenden Rahmen. Dieser Leseprozess kann vorteilhafterweise durch einfache Lese-Adressierung des Speichers, der die Abtastwerte des Sprachsignals enthält, durchgeführt werden. Nachdem das Formatieren in Rahmen an dem einen oder dem anderen Signal ausgeführt wurde, wie unter Bezugnahme auf Fig. 3a beschrieben, kann der Vorgang der Diskriminierung zwischen stimmhaften Rahmen und stimmlosen Rahmen, wie in Fig. 3b dargestellt, darin bestehen, in einem Schritt 100 von dem laufenden Rahmen Tq ausgehend ein Kriterium 101 der Diskriminierung zwischen stimmhaften und stimmlosen laufenden Rahmen anzulegen. Bei negativer Reaktion auf dieses Kriterium 101 wird dem laufenden Rahmen Tq in einem Schritt 102 ein willkürlicher Grundfrequenzwert; beispielsweise der Wert Null, zugeordnet, während hingegen bei positiver Reaktion auf das Kriterium 101 der laufende Rahmen in dem Schritt 103 beibehalten wird, um in dem Berechnungsprozess zur Extraktion der Grundfrequenz des Sprachsignals verarbeitet zu werden. Die Folge der laufenden Rahmen, die in Schritt 103 beibehalten wurden, wird nun je nach dem betreffenden Signal spp bzw. spf im Rahmen der Durchführung des Verfahrensschritts b) oder des Verfahrensschritts e) bzw. des Unterschritts 3&sub1;) der Fig. 1a, 1b bzw. 2a der Berechnung der ersten Menge von Werten X&sub1; (k) bzw. der zweiten Menge von Werten X&sub2; (k) unterzogen.
- Was die eigentliche Diskriminierung der stimmhaften und stimmlosen Rahmen betrifft, ist zu bemerken, dass diese, wie in Verbindung mit Fig. 3c dargestellt, darin bestehen kann, jeden laufenden Rahmen Tq in eine Anzahl ST von aufeinanderfolgenden, aneinandergrenzenden Rahmensegmenten zu unterteilen, dann für jedes dieser Rahmensegmente ein Unterscheidungskriterium für die Stimmhaftigkeit zu erstellen. In Fig. 3c sind vier aneinandergrenzende Rahmensegmente dargestellt, die mit S&sub1; bis S&sub4; bezeichnet sind, wobei jedes Rahmensegment also 64 Abtastwerte enthält und eine Dauer von 8 ms aufweist.
- Bei einer besonders vorteilhaften, aber nicht einschränkenden Ausführungsweise ist zu bemerken, dass das Unterscheidungskriterium für die Stimmhaftigkeit darin bestehen kann, jedem betroffenen Rahmensegment einen Stimmhaftigkeitsindex zuzuordnen, dessen Wert zwischen 0 und 1 liegt. Jeder Stimmhaftigkeitsindex trägt die Bezeichnung Vs(1) bis Vs(4) und stellt das Niederfrequenz-Energieniveau des jeweiligen Rahmensegments S&sub1; bis S&sub4; nach einem im wesentlichen linearen Gesetz dar. Und schließlich wird jeder laufende Rahmen Tq durch Vergleich einer linearen Kombination der Stimmhaftigkeitsindexe jedes Segments mit einem bestimmten Schwellenwert als stimmloser Rahmen klassifiziert. Als nicht einschränkendes Beispiel kann die oben genannte lineare Kombination der Stimmhaftigkeitsindexe darin bestehen, das arithmetische Mittel dieser Indexe zu berechnen und dieses arithmetische Mittel mit dem oben genannten Schwellenwert s zu vergleichen, wobei das Kriterium des Vergleichs der linearen Kombination folgendermaßen ausgedrückt wird:
- Vs(k)/4 < ε.
- Schließlich kann, wie in Fig. 3d dargestellt, der Wert jedes Stimmhaftigkeitsindexes in Abhängigkeit von der Niederfrequenz-Energie jedes Segments gemäß dem in dieser Figur gezeigten Diagramm zugeordnet werden. Bei der betrachteten Ausführungsweise zur Durchführung des erfindungsgemäßen Verfahrens ist zu bemerken, dass der zugeordnete Stimmhaftigkeitsindex-Wert bei Niederfrequenz-Energiewerten jedes Segments von -35 bis -15 dB zwischen den Werten 0 bis 1 linear ist. Selbstverständlich können diese Werte modifiziert werden.
- Schließlich können bei der Bewertung des Werts der Grundfrequenz des Sprachsignals Fehler auftreten, die deni Umstand geschuldet sein können, dass in dem selben Rahmen stimmhafte Segmente und stimmlose Segmente oder Schweige-Segmente vorhanden sind. Fehler dieser Art werden als Übergangsfehler bezeichnet. Solche Fehler können auch in stimmhaften Rahmen oder gemischten Rahmen mit geringer Energie auftreten. Unter bestimmten Bedingungen ist es dann möglich, diese Fehler zu korrigieren, während in dem Fall, dass die Korrektur nicht möglich ist, der Wert der Grundfrequenz des Sprachsignals willkürlich auf einen fiktiven Wert gesetzt wird, beispielsweise nach allgemeiner Übereinkunft auf den Wert Null, wie bei dem Wert, der den stimmlosen Rahmen oder Schweige-Rahmen zugeordnet wird.
- Das erfindungsgemäße Verfahren kann dann ferner den Schritt aufweisen, eine Nachverarbeitung des extrahierten Grundfrequenzwerts des Sprachsignals durchzuführen.
- Dieser Nachverarbeitungsschritt kann beispielsweise darin bestehen, ein Histogramm der Grundfrequenzen zu erstellen, um den Wertebereich der wahrscheinlichsten Frequenzen und den unteren und oberen Grenzwert dieser Werte zu bestimmen. Auf das Erstellen des Histogramms der Grundfrequenzen folgend kann der Nachverarbeitungsschritt darin bestehen, jeden extrahierten Grundfrequenzwert einem Sortierungskriterium hinsichtlich dieses unteren und oberen Grenzwerts zu unterwerfen, um sortierte Werte zu erhalten, die die Entwicklung der extrahierten Grundfrequenzwerte darstellen.
- Diese sortierten Werte können anschließend einer nicht linearen Filterung unterzogen werden, um die abweichenden Werte zu unterdrücken.
- So kann der Korrekturvorgang für den wahrscheinlichsten Frequenzbereich, der zwischen den Werten B. Sup und B. Inf - höchster Wert und niedrigster Wert des Frequenzbandes - liegt, und für aufeinander folgende Grundfrequenzwerte F&sub0;(i) in den folgenden Rechenschritten erfolgen:
- wenn F&sub0;(i) > B.Sup
- F&sub0;(i) = F&sub0;(i)/2
- wenn F&sub0;(i) > B. Sup oder F&sub0;(i) < B. Inf
- F&sub0;(i) = 0
- sonst wenn 1 F&sub0;(i) - F&sub0;(i - 1) > γ
- F&sub0;(i) = 0
- sonst wenn F&sub0;(i) < B. Inf
- F&sub0;(i) = F&sub0;(i)*2
- wenn F&sub0;(i) > B. Sup oder F&sub0;(i) < B. Inf
- F&sub0;(i) = 0
- sonst wenn 1 F&sub0;(i) - F&sub0;(i-1) > γ
- F&sub0;(i) = 0
- Bei diesem Rechenprozess bezeichnet der den Grundfrequenzwerten zugeordnete Index i die Reihenfolge der extrahierten Werte, y stellt einen willkürlichen Schwellenwert dar, mit dem die Differenz zwischen zwei aufeinanderfolgenden Grundfrequenzwerten des Rangs i und i - 1 verglichen wird.
- Nach dem nicht linearen Filtern werden die isolierten Null-Werte durch lineare Interpolation neu berechnet, während die Werte, die ungleich Null sind und mitten in einer Folge von Nullen isoliert wurden, nach allgemeiner Übereinkunft dem Wert Null zugeordnet werden.
- Schließlich können statistische Parameter wie der maximale und der minimale Wert F&sub0; sowie der Mittelwert berechnet werden.
- In Verbindung mit Fig. 4 erfolgt nun eine Beschreibung einer Vorrichtung, mit der das erfindungsgemäße Verfahren durchgeführt werden kann.
- Die in Fig. 4 dargestellte Vorrichtung ermöglicht die Ausführung des erfindungsgemäßen Verfahrens, wie es oben beschrieben wurde. Diese Vorrichtung weist einen Aufbau auf, der sich speziell für die Ausführung des erfindungsgemäßen Verfahrens eignet.
- Wie in dieser Figur dargestellt, umfasst diese Vorrichtung einen Schaltkreis 1 zur Abtastung und zur Analog-Digital-Umsetzung eines analogen Eingangs-Sprachsignals in eine Folge von digitalen Abtastwerten. Ferner ist ein Host-Mikrorechner 2 vorgesehen, der die Durchführung der Folge der Verfahrensschritte a) bis e) des erfindungsgemäßen Verfahrens und die Verwaltung und Steuerung von Peripheriegeräten wie insbesondere des Schaltkreises 1 zur Abtastung und zur Analog-Digital-Umsetzung ermöglicht, wie später noch beschrieben wird.
- Die in Fig. 4 dargestellte Vorrichtung umfasst ferner einen speziellen Digital-Signal- Prozessor 3, der einerseits durch eine BUS-Verbindung mit dem Host-Mikrorechner 2 und andererseits durch eine Spezialverbindung mit dem Analog-Digital-Umsetzungsschaltkreis 1 verbunden ist, wobei dieser Digital-Signal-Prozessor 3 es ermöglicht, die Berechnungen der ersten Menge von Werten X, (k) des Logarithmus des Energiespektrums des Sprachsignals dürch Fourier-Transformierte für eine Anzahl M, von Punkten, die Berechnungen der ersten Cepstrum-Koeffizienten, die Tiefpaß-Filterung und die Unterabtastung des Sprachsignals sp sowie die Berechnungen der zweiten Menge von Werten X&sub2; (k) des Logarithmus des Energiespektrums, die Berechnung der Menge von Werten H (k) des geglätteten Frequenzspektrums, die Berechnung der Funktion P (k) und die Operation der Extraktion des Maximalwerts der Funktion P (k) für k = F&sub0;, dem extrahierten Wert der Grundfrequenz des Sprachsignals, auszuführen. Die Erfassung der Abtastwerte, die das Sprachsignal sp bilden, wird vermittels des Signal-Prozessors 3 durch den Host-Rechner 2 gesteuert.
- In einer nicht einschränkenden Ausführungsform kann der spezielle Digital-Signal-Prozessor 3 aus einem Signalprozessor MOTOROLA mit der Referenznummer D5P56001 bestehen, dessen Taktfrequenz 33 MHz beträgt. Der Host-Mikrorechner 2 kann vorteilhafterweise ein Mikrorechner des Typs PC-PENTIUM mit einer Taktfrequenz von 90 MHz sein, der mit einem Betriebssystem wie z. B. einem Mehrprozess-Betriebssystem MS-WINDOWS ausgestattet ist. Der spezielle Digital-Signal-Prozessor 3 ist ein 24-Bit-Prozessor mit Festkomma, der die oben genannten Berechnungen bei der Durchführung der Verfahrensschritte a) bis e) des erfindungsgemäßen Verfahrens in optimaler Weise ausführen kann. Dieser Signal- Prozessor 3 besteht nämlich aus einer Zentraleinheit 30, die mit DSP-CPU bezeichnet wird, mit der ein mit P bezeichneter Programmspeicherraum 31 und zwei mit X und Y bezeichnete Datenspeicherräume 32 mit der Kapazität von jeweils 512 Worten verbunden sind. Auf die Speicherräume P, X und Y kann jeweils durch drei 24-Bit-BUS-Verbindungen zugegriffen werden, wobei das Adressieren durch drei 16-Bit-BUS-Verbindungen erfolgt, die es ermöglichen, jeden Speicherraum getrennt zu adressieren, so dass er daher auf 64 k-Worte erweitert werden kann.
- Aus Gründen der Schnelligkeit werden die Rechenprogramme und -Unterprogramme in den 512 Worten des internen Speichers P ausgeführt, wobei diese Rechenprogramme und - Unterprogramme zuvor in die 8 k-Worte des externen Speichers P geladen werden. Auf Befehl des Host-Mikrorechners 2 kann ein Programm oder -Unterprogramm vom externen Speicher in den internen Speicher übertragen werden, um dort ausgeführt zu werden. Die zu verarbeitenden Daten, Daten, die sich auf das Sprachsignal beziehen, sowie die beispielsweise zur Berechnung der Cepstrum-Koeffizienten erforderlichen Rechentabellen und die Zwischenergebnisse werden in den auf 2 · 64 k-Worte erweiterten Räumen X und Y 32 gespeichert.
- Der Host-Mikrorechner 2 verfügt über Programme und Unterprogramme, mit denen ein Dialog mit dem speziellen Digital-Signal-Prozessor 3 gewährleistet werden kann, um das Laden von Code und Daten, das Lesen von Daten, der Code-Transfert, die Ausführung eines oder mehrerer Programme sowie die Initialisierung des Analog-Digital-Umsetzungsmoduls 1 auszuführen, um die Erfassung und die Wiedergabe des Sprachsignals zu gewährleisten.
- Die aus der Analog-Digital-Umsetzungsschaltung 1 und dem speziellen Digital-Signal- Prozessor 3 bestehende Gesamtanordnung ist auf einer zusätzlichen Karte wie z. B. einer von der Firma DIGIMETRIE mit der Referenznummer PC-DSP56k/AD/MEM angebotenen Karte angeordnet. Diese Karte weist abgesehen von dem Digital-Signal-Prozessor DSP56001 noch einen Analog-Digital-/Digital-Analog-Umsetzer auf, der von der Firma TEXAS INSTRUMENTS mit der Referenznummer TCL32040CN angeboten wird und mit dem die Erfassung der Sprachsignale gewährleistet werden kann, wobei dieser Umsetzer in Fig. 4 die Bezugszahl 4 hat.
- In Anbetracht eines solchen Aufbaus beträgt die Rechenzeit für die Grundfrequenz bei 100 Sprachrahmen mit einer Dauer von 32 ms ca. 2,7 Sekunden, d. h. 27 ms pro Rahmen von 32 ms. Die Berechnung des Logarithmus des Energiespektrums, d. h. der zweiten Menge von Werten {X&sub2; (k)} auf M&sub2; = 2048 Punkte erfordert eine Rechenzeit von 14 ms. In Anbetracht der Komplexität der getätigten Rechenoperationen erscheinen die Rechenzeiten bemerkenswert kurz. Außerdem ist es möglich, diese Rechenoperationen in Realzeit auszuführen, da die effektive Rechenzeit von 27 ms pro Rahmen geringer ist als die Dauer jedes Rahmens.
- Mit dem Ziel, die Leistungen des Systems zu verbessern, und um eine parallele Verarbeitung der Schritte b), c) und d), e) des erfindungsgemäßen Verfahrens, wie es beispielsweise in Fig. Ib dargestellt ist, zu gewährleisten, kann der Host-Mikrorechner von dem Betriebssystem MS-Windows aus so konfiguriert werden, dass er im Mehrprozessbetrieb funktioniert, so dass auf die oben genannte Mehrprozess-Betriebsweise Operationen parallel zueinander erfolgen können. Eine solche Betriebsweise ist nicht unerlässlich, doch kann durch sie die Verwendung der Rechenmittel optimiert werden.
- Was die Operationen der Nachverarbeitung betrifft, zeigt es sich schließlich, dass diese insoweit am Host-Mikrorechner 2 durchgeführt werden können, als der Nachverarbeitungsprozess, wie er oben gemäß dem zuvor definierten Algorithmus beschrieben wurde, mittels eines Programms durchgeführt werden kann, das mit einer Sprache wie z. B. der Sprache C geschrieben wurde, wobei eine ausreichende Verarbeitungsgeschwindigkeit gewährleistet wird, um die Korrektur der aufeinander folgenden extrahierten Werte und Grundfrequenzen F&sub0;(i) zu gewährleisten.
- Insbesondere können in Anbetracht dieses Aufbaus das Verfahren und die Vorrichtung dieser Erfindung vorteilhafterweise dergestalt angewendet werden, dass ein System zur Authentisierung des Sprechers mit großer Erfolgswahrscheinlichkeit entsteht. Es erweist sich nämlich insbesondere, dass die Erstellung des Histogramms der Frequenzen entweder in allgemeiner Weise für eine bestimmte Anzahl von Sprechern oder aber für einen besonderen Sprecher, für den das Histogramm der Frequenzen dann effektiv repräsentativ ist, erfolgen kann. Dies gilt selbstverständlich auch hinsichtlich des unteren und des oberen Grenzwerts sowie ggf. der statistischen Parameter wie z. B. der Werte F&sub0;max und F&sub0;min und des mittleren Werts der Grundfrequenz des Sprachsignals dieses Sprechers. Selbstverständlich kann dieses Histogramm der Frequenzen bei einem bestimmten Sprecher dann abhängig von der Veränderung der Stimme des Sprechers in der Zeit wieder aktualisiert werden.
Claims (9)
1. Verfahren zur Extraktion der Grundfrequenz in einem Sprachsignal, einer Folge von
Digital-Abtastwerten, das die folgenden Schritte beinhaltet:
a) das genannte Sprachsignal wird einer Vorverzerrung unterzogen, um ein vorverzerrtes
Sprachsignal zu erzeugen,
b) aus dem vorverzerrten Sprachsignal wird für jeden laufenden Rahmen einer Folge von
Rahmen, die jeweils in der Dauer einer bestimmten Anzahl N von Abtastungen entsprechen,
wobei zwei aufeinanderfolgende Rahmen jeweils eine zeitliche Überlappung mit einer
Anzahl gemeinsamer, aufeinanderfolgender Abtastungen aufweisen, die höchstens gleich
50/100 der Anzahl N von Abtastungen ist, eine erste Menge von Werten X&sub1; (k) des
Logarithmus des Energiespektrums durch Fourier-Transformierte für eine Anzahl M&sub1; von
Punkten berechnet,
c) aus dieser Menge von Werten wird eine bestimmte Anzahl p von ersten Cepstrum-
Koeffizienten C (m) berechnet, indem auf die genannten Werte X&sub1; (k) für eine Anzahl dieser
Werte, die mindestens gleich der Hälfte der Anzahl N der den betreffenden Rahmen
bildenden Abtastungen ist, eine diskrete Kosinus-Transformierte angewendet wird, wobei
diese Transformierte die folgende Beziehung erfüllt:
C(m) = [1 + (-1)m]X(0) + 2 X&sub1;(k).Cos(2πmk)/N
wobei m = [1, 2, ..., p] und C(m) die genannten Cepstrum-Koeffizienten bezeichnet,
d) das genannte vorverzerrte Sprachsignal wird einer Tiefpaß-Filterung und einer
Unterabtastung unterzogen, um ein gefiltertes, unterabgetastetes Sprachsignal zu erzeugen,
e) aus diesem gefilterten, unterabgetasteten Sprachsignal und aus den genannten Cepstrum-
Koeffizienten wird durch Spektralkompression für jeden laufenden Rahmen einer Folge von
Rahmen mit Überlappung gleicher Zeitdauer die maximale Grundfrequenz mit dem Rang k
einer Funktion P (k) berechnet, die die Differenz zwischen einer zweiten Menge von Werten
X&sub2; (k) des Logarithmus des Energiespektrums und der Menge von Werten H (k) des
geglätteten Frequenzspektrums darstellt, wobei diese Funktion die folgende Beziehung erfüllt:
P(k) = X&sub2;(k) - H(k)
wobei L = M&sub2;/k, und wobei k zwischen einem ersten und einem zweiten Wert variiert, die
ein Niederfrequenzband zwischen 70 und 450 Hz darstellen, wobei die genannte Funktion P
(k) ein Maximum bei k = F&sub0; aufweist, ein extrahierter Wert der Grundfrequenz des
Sprachsignals.
2. Verfahren nach Anspruch 1,
dadurch gekennzeichnet,
dass dieser Schritt des Berechnens durch Spektralkompression darin besteht, nacheinander:
- aus diesem gefilterten, unterabgetasteten Sprachsignal für jeden laufenden Rahmen die
genannte zweite Menge von Werten X&sub2; (k) des Logarithmus des Energiespektrums durch
Fourier-Transformierte für eine Anzahl M&sub2; von Punkten auf einem Frequenzband von 0 bis
2 kHz zu berechnen,
- die Spektral-Hüllkurve H(k) bei dem geglätteten Frequenzspektrum des laufenden
Rahmens auf dem genannten Frequenzband von 0 bis 2 kHz für eine gleiche Anzahl M&sub2; von
Punkten zu berechnen, indem auf die genannten p - 1 ersten Cepstrum-Koeflizienten eine
Kosinus-Transformierte angewendet wird, die die folgende Beziehung erfüllt:
H(k) = C(0) + 2 C(m).Cos(2πmk/Q)
wobei k = [0, 1, 2, ..., M&sub2;] und M&sub2; = Q/4,
- die Differenz D(k) = X&sub2; (k) - H(k) zu berechnen,
- durch Spektralkompression dieser Differenz D(k) für das genannte Niederfrequenzband
zwischen 70 und 450 Hz das harmonische Produkt zu berechnen, das die Funktion P(k)
darstellt,
- durch ein Sortierverfahren das Maximum der Funktion P (k) und den entsprechenden
Rang k = F&sub0; zu bestimmen, extrahierter Wert der Grundfrequenz.
3. Verfahren nach Anspruch 1 oder 2,
dadurch gekennzeichnet,
dass nachfolgend zu dem Schritt des Formatierens des vorverzerrten bzw. gefilterten,
unterabgetasteten Sprachsignals in Rahmen ferner bei allen Rahmen zwischen den stimmhaften
Rahmen und den stimmlosen Rahmen diskriminiert wird, wobei das Verfahren der
Extraktion der Grundfrequenz mit den stimmhaften Rahmen durchgeführt wird.
4. Verfahren nach Anspruch 3,
dadurch gekennzeichnet,
dass der Schritt des Diskriminierens der stimmhaften Rahmen und der stimmlosen Rahmen
darin besteht:
- jedes Rahmen in eine Anzahl ST von aufeinanderfolgenden, aneinandergrenzenden
Rahmensegmenten zu unterteilen,
- für jedes dieser Rahmensegmente ein Unterscheidungskriterium für die Stimmhaftigkeit zu
erstellen, und zwar auf Basis eines Stimmhafligkeitsindexes zwischen 0 und 1, der das
Niederfrequenz-Energieniveau des jeweiligen Rahmensegments nach einem im wesentlichen
linearen Gesetz darstellt,
- jeden Rahmen durch Vergleich einer linearen Kombination der Stimmhaftigkeitsindexe
jedes Segments mit einem bestimmten Schwellenwert als stimmlosen Rahmen zu
klassifizieren.
5. Verfahren nach einem der Ansprüche 1 bis 4,
dadurch gekennzeichnet,
dass nachfolgend auf den Verfahrensschritt der Bestimmung des Maximalwerts der
genannten Funktion P(k) mit dem Rang k, wobei k =F&sub0; den Wert der Grundfrequenz des
Sprachsignals darstellt, und um jeglichen abweichenden Grundfrequenzwert zu beseitigen und die
Fehlerrisiken zu beseitigen, die auf Grund von Übergangsfehlern bestehen, die dadurch
hervorgerufen werden, dass in einem und demselben Rahmen stimmhafte, stimmlose oder
Schweigesegmente vorhanden sind sowie stimmhafte oder gemischte Rahmen mit geringem
Energieniveau vorhanden sind, dieses Verfahren ferner darin besteht, eine Nachverarbeitung
des genannten bestimmten Grundfrequenzwerts des genannten Sprachsignals
durchzuführen, wobei dieser Nachverarbeitungsschritt darin besteht,
- ein Histogramm der Grundfrequenzen zu erstellen, um den Wertebereich der
wahrscheinlichsten Frequenzen und den unteren und oberen Grenzwert dieser Werte zu bestimmen,
- jeden extrahierten Grundfrequenzwert einem Sortierungskriterium hinsichtlich dieses
unteren und oberen Grenzwerts zu unterwerfen, um sortierte Werte zu erhalten, die die
Entwicklung der extrahierten Grundfrequenzwerte darstellen,
- diese sortierten Werte einer nicht linearen Filterung zu unterziehen, um die abweichenden
Werte zu unterdrücken.
6. Verfahren nach Anspruch 1,
dadurch gekennzeichnet,
dass die Schritte a) bis e) sequentiell ausgeführt werden.
7. Verfahren nach Anspruch 6,
dadurch gekennzeichnet,
dass die Schritte b) und c) bzw. d) und e) im Mehrprozessbetrieb ausgeführt werden, so
dass die Extraktion der Grundfrequenz in Realzeit erfolgen kann.
8. Vorrichtung zur Extraktion der Grundfrequenz in einem Sprachsignal, mit der das
Verfahren nach einem der Ansprüche 1 bis 7 durchgeführt werden kann, wobei diese
Vorrichtung aufweist:
- Mittel zur Abtastung und zur Analog-Digital-Umsetzung eines Sprachsignals in eine Folge
von digitalen Abtastwerten,
- einen Host-Mikrorechner zur Durchführung der Aufeinanderfolge der Verfahrensschritte
a) bis e) und der Verwaltung und Steuerung von Peripheriegeräten, insbesondere der
genannten Mittel zur Abtastung und zur Analog-Digital-Umsetzung,
- einen Prozessor für Digital-Signale, der durch eine BUS-Verbindung mit dem genannten
Host-Mikrorechner verbunden ist und in der Lage ist, die Berechnungen der ersten Menge
von Werten X&sub1; (k) des Logarithmus des Energiespektrums durch Fourier-Transformierte für
eine Anzaht M&sub1; von Punkten, die Berechnungen der p ersten Cepstrum-Koeflizienten, der
Tiefpaß-Filterung und der Unterabtastung, der zweiten Menge von Werten X&sub2; (k) des
Logarithmus des Energiespektrums, der Menge von Werten H (k) des geglätteten
Frequenzspektrums, der Funktion
P(k) = X&sub2;(k) - H (k)
der Bestimmung des Maximalwerts von P (k) für k = F&sub0;, dem extrahierten Wert der
Grundfrequenz des Sprachsignals, auszuführen.
9. Einsatz des Verfahrens und der Vorrichtung zur Bestimmung der Grundfrequenz in
einem Sprachsignal nach einem der Ansprüche 1 bis 8 zur Authentisierung eines oder
mehrerer Sprecher.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR9609313A FR2751776B1 (fr) | 1996-07-24 | 1996-07-24 | Procede d'extraction de la frequence fondamentale d'un signal de parole |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69706488D1 DE69706488D1 (de) | 2001-10-11 |
DE69706488T2 true DE69706488T2 (de) | 2002-05-23 |
Family
ID=9494427
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE1997606488 Expired - Fee Related DE69706488T2 (de) | 1996-07-24 | 1997-07-21 | Verfahren zur Bestimmung der Grundfrequenz in einem Sprachsignal |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP0821345B1 (de) |
DE (1) | DE69706488T2 (de) |
FR (1) | FR2751776B1 (de) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2825505B1 (fr) * | 2001-06-01 | 2003-09-05 | France Telecom | Procede d'extraction de la frequence fondamentale d'un signal sonore au moyen d'un dispositif mettant en oeuvre un algorithme d'autocorrelation |
DK2081405T3 (da) | 2008-01-21 | 2012-08-20 | Bernafon Ag | Høreapparat tilpasset til en bestemt stemmetype i et akustisk miljø samt fremgangsmåde og anvendelse |
-
1996
- 1996-07-24 FR FR9609313A patent/FR2751776B1/fr not_active Expired - Fee Related
-
1997
- 1997-07-21 DE DE1997606488 patent/DE69706488T2/de not_active Expired - Fee Related
- 1997-07-21 EP EP19970401752 patent/EP0821345B1/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP0821345B1 (de) | 2001-09-05 |
EP0821345A1 (de) | 1998-01-28 |
FR2751776B1 (fr) | 1998-10-09 |
FR2751776A1 (fr) | 1998-01-30 |
DE69706488D1 (de) | 2001-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69013738T2 (de) | Einrichtung zur Sprachcodierung. | |
DE69131739T2 (de) | Einrichtung zur Sprachsignalverarbeitung für die Bestimmung eines Sprachsignals in einem verrauschten Sprachsignal | |
DE69326044T2 (de) | Verfahren zur Erkennung von Sprachsignalen | |
DE60018886T2 (de) | Adaptive Wavelet-Extraktion für die Spracherkennung | |
DE3878001T2 (de) | Spracherkennungseinrichtung unter anwendung von phonemermittlung. | |
DE68919637T2 (de) | Verfahren und Einrichtung zur Sprachsynthese durch Überdeckung und Summierung von Wellenformen. | |
DE69901606T2 (de) | Breitbandsprachsynthese von schmalbandigen sprachsignalen | |
DE69518452T2 (de) | Verfahren für die Transformationskodierung akustischer Signale | |
DE4397106B4 (de) | Schnelles auf einer Baumstruktur basierendes Verfahren zur Vektorquantisierung | |
DE69524994T2 (de) | Verfahren und Vorrichtung zur Signalerkennung unter Kompensation von Fehlzusammensetzungen | |
DE69830017T2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE3688600T2 (de) | Musikinstrument mit digitalem Filter mit programmierten variablen Koeffizienten. | |
DE69930961T2 (de) | Vorrichtung und verfahren zur sprachsegmentierung | |
DE69720134T2 (de) | Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten | |
EP1280138A1 (de) | Verfahren zur Analyse von Audiosignalen | |
DE3043516C2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
WO2002093557A1 (de) | Vorrichtung und verfahren zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen | |
WO2004013839A1 (de) | Vorrichtung und verfahren zum erzeugen einer komplexen spektraldarstellung eines zeitdiskreten signals | |
DE19581667C2 (de) | Spracherkennungssystem und Verfahren zur Spracherkennung | |
EP0285222B1 (de) | Verfahren zum Erkennen zusammenhängend gesprochener Wörter | |
DE4031638A1 (de) | Spracherkennungseinrichtung | |
DE3019823C2 (de) | ||
DE60014031T2 (de) | Sprachererkennung durch korrelierung von spektrogrammen | |
DE69516455T2 (de) | Verfahren zur Sprachkodierung mittels linearer Prädiktion | |
DE69922769T2 (de) | Vorrichtung und Verfahren zur Sprachverarbeitung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |