DE2357949A1 - Verfahren zum ermitteln des der periode der anregungsfrequenz der stimmbaender entsprechenden intervalls - Google Patents

Verfahren zum ermitteln des der periode der anregungsfrequenz der stimmbaender entsprechenden intervalls

Info

Publication number
DE2357949A1
DE2357949A1 DE19732357949 DE2357949A DE2357949A1 DE 2357949 A1 DE2357949 A1 DE 2357949A1 DE 19732357949 DE19732357949 DE 19732357949 DE 2357949 A DE2357949 A DE 2357949A DE 2357949 A1 DE2357949 A1 DE 2357949A1
Authority
DE
Germany
Prior art keywords
bit
delta
speech
time
bits
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE19732357949
Other languages
English (en)
Inventor
Armin Heinz Dr Frei
Hans Rudolf Dr Schindler
Peter Vettinger
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE2357949A1 publication Critical patent/DE2357949A1/de
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Image Processing (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

Verfahren zum Ermitteln des der Periode der Anregungsfrequenz der Stimmbänder entsprechenden Intervalls . .
Die Erfindung, betrifft ein Verfahren zum Ermitteln des der Periode der Anregungsfrequenz der Stimmbänder entsprechenden Invervalls nach dem Oberbegriff des Anspruchs 1.
Die Kenntnis dieses Intervalls ist von grosser Wichtigkeit für die Analyse und Synthese von Sprachsignalen, beispielsweise bei der computergesteuerten Sprachsynthese (Audio Response units), Echt-' zeit-Queilencodierung für. Sprachsignale mit extrem kleiner Bitfölgefrequenz, Sprach- und Sprecherkennung und bei Vocodern.
Die menschlichen Sprachorgane erzeugen stimmhafte Laute in verschiedener Tonhöhe, wowie stimmlose Laute, die durch Zischen,
4098 28/0 67
Hauchen oder durch Nasalyorgänge entstehen können. Energiequelle ist die Lunge, die einen Luftstrom durch den Kehlkopf mit seinen normalerweise geschlossenen Stimmbändern presst. Durch den im . Kehlkopf entstehenden Ueberdruck öffnen sich die Stimmbänder, schliessen sich jedoch sofort wieder/ wenn der Druck sinkt, so dass der Vorgang von neuem beginnen kann. Die auf diese Weise erzeugten Schwingungen der Stimmbänder sind periodisch, impulsförmig und daher sehr obertonreich, da die Oeffnungszeit der Stimmritzen nur ein Bruchteil der Zeit ihres Geschlossensein's beträgt. Durch den aus Hohlräumen und Filtern bestehenden Sprachtrakt wird das impulsförmige Anregungssignal in das vom Mund abgestrahlte Sprachsignäl umgewandelt. Die Periodizität dieses Signals ermöglicht es, einen grossen Teil der Redundanz aus der Sprache herauszunehmen, was für die erwähnten Anwendungen von grosser technischer und wirtschaftlicher Bedeutung ist. ·
Für die vorliegende Erfindung sind nur die stimmhaften Laute von Interesse. Es wird daher von einer Erörterung der stimmlosen Laute abgesehen.
Die bisher bekannt gewordenen Verfahren zum Ermitteln der Periode der Anregungsfrequenz der Stimmbänder bei den stimmhaften Lauten -
SZ 9-72-006 - 2 -
409828/0673
im Folgenden der Einfachheit halber in Anlehnung an den entsprechenden englischen Ausdruck "Pltch-Periode" genannt, lassen sich in zwei Kategorien einteilen. Einerseits wurden Filterbänke vorgeschlagen, die es erlauben, die Anregungsfrequenz aus dem Sprachsignal auszufiltern, und andererseits wurden Korrelationsverfahren angewandt, um im Zeitbereich die genannte Periodizität zu erfassen.
So werden beispielsweise in dem Aufsatz "New Methodes of Pitch Extraction" von Man Mohan Sondhi, veröffentlicht in den IEEE Transactions on Audio and Electroacoustics, VOL. AU-16, Nr. 2, Juni 1968, Seiten 262 - 266, drei neue Verfahren zur Ermittlung der Sprachgrundfrequenz beschrieben. Beim ersten Verfahren wird nach der Glättung des Spektrums eine Minimumphasenkorrektur zur Synchronisation der Harmonischen vorgenommen. Beim zweiten Verfahren folgt der Glättung des Spektrums eine Autokorrelation und beim dritten folgt einer nicht linearen Verzerrung eine Autokorrelation.
In dem Aufsatz "Cepstrum Pitch Determination", von A. Michael Noil, veröffentlicht im The Journal of the Acoustical Society of America, VOL. 41, Nr. 2, 19 67, Seiten 293 - 309, wird eine weitere Methode zur Ermittlung der Sprachgrundfrequenz beschrieben. Das Cepstrum, das als das Leistungsspektrum des logarithm!sehen Leistungsspektrums definiert ist, besitzt eine stark ausgeprägte Spitze, die der Sprachgrundperiode des gerade analysierten stimmhaften Sprachsegmentes entspricht. Die Cepstra werden mittels einer digitalen Rechenanlage errechnet und automatisch auf Mikrofilm dargestellt. Es wurden hierzu heuristische Algorithmen für
SZ9-72-OO6 - 3 -
409828/0673
das Herausgreifen dieser Spitzenwerte entwickelt, die den stimmhaften Sprachsegmenten und der Grundperiode der Vokale entsprechen, Diese Information wird dann dazu verwendet, die Anregungsfunktion für einen computersimulierten Kanalvocoder abzuleiten.
Weiterhin ist in der US-Patentschrift 3 555 191 eine Anordnung beschrieben, mit deren Hilfe die Sprachgrundfrequenz eines komplexen Sprachsignals ermittelt wird. Es wird hierzu eine Spektrumanalyse des unendlich spitzenbegrenzten logarithmischen Spektrums eines mittenbegrenzten und unendlich spitzenbegrenzten Intervalls eines analogen Sprachsignals durchgeführt.
Schließlich ist in der US-Patentschrift 3 6O3 738 ein Zeitbereichsdetektor beschrieben, der ein Signal erzeugt, das für die Sprachgrundfrequenzimpulse eines Sprachsignals repräsentativ ist.
Die ersten drei genannten Verfahren und Anordnungen machen von der Analyse des Spektrums oder Cepstrums Gebrauch und erfordern ausgedehnte Rechnungen, die sie für eine Echtzeitverarbeitung ungeeignet machen. Die letztgenannte Anordnung, die einen Zeitbereich-Sprachgrundfrequenzdetektor darstellt, verwendet logarithmische Verstärker und Spitzendetektoren. Sie ist daher, ebenso wie die anderen, nicht für eine digitale Sprachgrundfrequenz-Erkennungstechnik verwendbar.
Sowohl die Filter-, als auch die Korrelationstechnik sind sehr kompliziert und erfordern entweder einen großen aparativen Auf-
SZ9-72-OO6 - 3a -
409828/0673
wand oder viel teure Computerzeit. Für eine Echtzeitbestimmung der Pitch-Periode wäre es daher wünschenswert, über ein Verfahren zu verfügen, das mit geringem aparatlven Aufwand eine möglichst exakte Bestimmung der Pitch-Periode erlaubt. Die Aufgabe der vorliegenden Erfindung ist es daher, ein solches Verfahren vorzuschlagen.
Gelöst wird diese Aufgabe durch ein Verfahren zum Ermitteln des der Periode der Anregungsfrequenz der Stimmbänder entsprechenden Intervalls mittels Abtastung des analögen Sprachsignals, Quantisierung der Signalamplitude und Codierung des Quantisierungssi*- gnals, das dadurch gekennzeichnet ist, dass die Quantisierung und Codierung der Signalamplitude durch einen adaptiven Delta-Modulator erfolgt, der für jeden Abtastzeitpunkt ein Delta-Bit erzeugt, und dass durch einen Polaritätsabtaster zu jedem Delta-Bit ein dem Vorzeichen des Sprachsignals entsprechendes Vorzeichenbit erzeugt wird, welche Bitströme jeweils einem Paar von Umlaufspeichern zugeführt werden, in deren einem Paar die laufenden Binärwerte und in deren anderem Paar zeitverschbbene Binärwerte gespeichert werden, dass aus den laufenden und den zeitverschobenen Binärwerten je wenigstens erste und zweite Merkmale extrahiert und nach einem vorgewählten Schlüssel miteinander verglichen werden, und dass die Vergleichsergebnisse logisch verknüpft und bewertet werden und die Bewertungen zum Ansteuern eines Zählers benutzt werden, wobei das Intervall vom Beginn des Vergleichs bis zum wenigstens angenäherten Wiedererreichen des AusgangsZählerstandes der Periode der Anregungsfrequenz entspricht.
sz 9-72-006 4Q98l$/T3673
Der Vorteil dieses Verfahrens liegt darin, dass nun eine digitale Pitch-Periodenermittlung für die Echtzeitverarbeitung von Sprachsignalen möglich ist, indem eine Ein-Bit-DeItacodierung je Abtastintervall verwendet wird. Hiermit verbunden ist ein großer ökonomischer Vorteil gegenüber Autokorrelationstechniken, die eine Multibit-PCM (Impulscodemodulation)-Codierung verwenden.
Einzelheiten der Erfindung werden anhand eines Ausführungsbeispiels unter Bezugnahme auf die Zeichnungen beschrieben.
In den Zeichnungen zeigen:
Fig. 1 ein Diagramm des zeitlichen Verlaufs des
periodischen Lauts "e" und schematisch Register zur Speicherung der codierten Binärwerte,
Fig. 2 ein Diagramm der Autokorrelationsfunktion
409828/0673
SZ9-72-OO6 - 4a -
Fig. 3 ein Blockschaltbild einer Anordnung zum Aus-
führen des erfindungsgemässen Verfahrens, ' .
Fig. 4 ein Blockschaltbild eines Delta-Modulators
■ und Polaritätsabtasters,
Fig. 5, 6 Tabellen zur Ableitung von Merkmalen aus
den Delta-Bit strömen, .
Fig. 7 eine Tabelle mit einem Schlüssel "zum Bewerten
des Vergleichs der zu verschiedenen Zeiten ab-■ . ' geleiteten Merkmale,
Fig. 8 ein Diagramm der Extraktionsfunktion C
Fig. 9 . ein Diagramm^^ der Autokorrelationsfunktion
und der Extraktionsfunktion G (r) tür den Laut "e"
A09828/Q673
SZ 9-72-006 - 5 -
Zum besseren Verständnis des erfindungsgemässen Verfahrens wird zunächst auf das bereits bekannte Autokorrelationsverfahren eingegangen. Fig. 1 zeigt die Amplitude des Sprachsignals für einen periodischen !Laut "e" aufgetragen über der Zeit t. Dieses Signal wird mit einer Abtastfrequenz f abgetastet und die jedem einzelnen Abtastintervall T = 1/f entsprechende Amplitude quantisiert,
ss
codiert und gespeichert. Es wird nun ein sogenanntes "Fenster" von der Länge H definiert, wobei H grosser als die zu erwartende Pitch Periode gewählt wird. Innerhalb dieses Fensters H liegen H*f
Abtastintervalle. Einen Abtastwert der Autokorrelationsfunktion R des
rl
Sprachsignals erhält man durch Summierung der Produkte zeitlich verschobener Signalabtastwerte. Dieser Prozess ist Η·ί mal zu wieder-
holen entsprechend
RH
-ΙΑ Ag
irl'Xf, ι, ι
was die komplette Kurzzeit-Autokorrelationsfunktion für das Fenster H ergibt, vergl. Fig. 2. Aus dem Auftreten des Höchstwertes der Autokorrelation sf unk tion kann auf die Pitch-Periode geschlossen werden. Die Erkennung des Höchstwertes erfolgt im allgemeinen durch Vergleich mit einem Schwellenwert, wobei zuerst normalisiert werden muss,
AO9828/0673
SZ 9-72-006 - 6 -
z.B . durch Division aller Einzelwerte der Autokorrelationsfunktion durch deren Wert an der Stelle 0, [.Rn(O) j .
Wie aus Fig. 2 ersichtlich hat die Autokorrelationsfunktion bei der Verschiebung T = 0 ein Maximum und fällt mit wachsendem t rasch ab. Es treten dann einige kleinere Zwischenmaxima auf, die die oberen Harmonischen des Sprachsignals repräsentieren. Falls die Länge des Fensters H, wie'gefordert, grosser als die zu erwartende Pitch-Periode gewählt würde, tritt vor dem Erreichen des Endes des Fensters ein starkes Maximum auf. An diesem Punkt haben das ursprüngliche und das verschobene Signal die grösste Aehnlichkeit. Die Zeit vom Beginn des Prozesses bis zu diesem Maximum entspricht · der gesuchten Pitch-Periode. : .
Es ist nun offensichtlich, dass das geschilderte Autokorrelation sverfahren ausserordentlich rechen-intensiv ist oder aber grossen.
2 2
Schaltungsaufwand erfordert, denn es sind allein H »f Multi-
S- "
plikationen auszuführen. Von Nachteil ist weiter, dass für ursprünglich co sinusförmige Signale bei der Autokorrelation wieder cosinusförmige Signale entstehen, was.da zu führen kann, dass das zur Ermittlung der Pitch-Periode heranzuziehende Maximum sehr breit ist und dadurch die Bestimmung unscharf macht. Schliesslich können die Harmonischen
409828/0673
SZ 9-72-006 _ 7 _'
des "Sprachsignals zu Zwischenmaxima führen, die infolge ihrer Amplitude nicht mehr gut vom Maximalwert der Funktion unterschieden werden können.
Während beim Autokorrelations verfahren für jedes Abtastintervall ein PCM-Wort ermittelt wird (Abta stung, Quantisierung und Codierung z.B. in ein acht Bits umfassendes PCM-Wort), wird nach dem erfindungsgemässen Verfahren je Abtastintervall nur ein Bit einer Delta-Codierung erzeugt. Dabei soll die Qualität der Ermittlung der Pitch-Periode gegenüber der mit dem Autokorrelationsverfahren erreichbaren nicht schlechter sein. Das ist für den Fachmann nicht selbstverständlich, da mit der geringeren Amplitudenauflösung des Delta-Bitstroms bei gleicher zeitlicher Auflösung scheinbar zwangsläufig eine Qualitätsverschlechterung verknüpft ist. Das Gegenteil ist der Fall.
Wenn es möglich ist, die 8-Bit-Wörter durch 1-Bit-Wörter zu ersetzen, ergibt sich offensichtlich ein grosser Gewinn an Rechenzeit bzw. Schaltungsaufwand. Anstelle der Multiplikationsoperation hat man es mit einer einfachen logischen Operation zu tun, und die Auf summierung soperation (Addierwerk) reduziert sich auf eine Zähloperation» Bekanntlich ist auch der Delta-Modulator billiger als ein PCM-Moduiaior.
409828/0673
SZ 9-72-006 ' - 8 - ■
Fig. 3 zeigt ein Blockschaltbild einer Schaltungsanordnung zum Durchführen des erfindungsgemässen Verfahrens, anhand welcher das Verfahren selbst erklärt wird. Die Anordnung weist einen • Delta-Modulator und Vorzeichenabtaster 10 auf, dem das Audio-Eingangssignal zugeführt wird, sowie eine Schieberegistereinheit 11,. einen Binär-Merkmal-Extraktor 12 und einen Zähler 13.
Einzelheiten des Delta-Modulators .10 sind in Fig. 4 gezeigt» Ueber einen Eingang 14 wird das Audio-Eingangssignal dem positiven Eingang eines Differenzenverstärkers 15 zugeführt. Daran angeschlossen ist ein Quantisierer 16, der das Analog-Signa lin einen Delta-Bitstrom umwandelt. Vom Ausgang des Quantlsierers 16 führt ein Rückkopplungszweig mit einem Digital/Anälog-Wandler 17 auf den negativen Eingang des Differenzenverstärkers 15.
Das Audio-Eingangssignal wird vom Eingang 14 auch einem getasteten Quantisierer 18 zugeführt, der daraus eine Vorzeichen-Funktion ableitet.
In der bisher beschriebenen Form ist der Delta-Modulator 10. für das erfindungsgemä sse Verfahren noch unzureichend, bei kleinen Eingangssignalen würde nämlich der Delta-Schritt des Digital/Analog-Wandlers viel zu gross, und man könnte demzufolge kleine Schwingungen im
409828/0S73 -
SZ 9-72-006 -9-
Sprach signal nicht mehr erfassen. Andererseits wäre die konstante Delta-Schrittgrösse bei grossen Amplituden und lautem Sprechen zu klein, und der Modulator wäre nicht in der Lage, schnellen Anstiegen des Sprachsignals korrekt zu folgen. Im zuerst genannten Fall entsteht eine lange Folge von "!"-Bits und "O"-Bits im Wechsel, im zweiten Fall entsteht eine lange Folge von "1"-Bits, wenn das Sprachsignal stark ansteigt, bzw. eine lange Folge von "O"-Bits, wenn das Signal stark abfällt. In beiden Fällen enthält der Bit strom wenig Entropie, das heisst wenig digitale Information.
Abhilfe kann hier geschaffen werden durch Einführung einer Vorwärts-Schrittgrössen-Steuerung 19, deren Steuergrösse aus dem ankommenden Audio-Eingangs signal abgeleitet wird. Dadurch kann man die Schrittgrösse des Ausgangssignals des Digital/Analog-Wandlers 17 der Signalform so anpassen, dass die geschilderten, auch als granuläres Rauschen bzw. Flankenübersteuerung bezeichneten Effekte nur unmerklich in Erscheinung treten.
Die Schrittgrössen-Steuerüng 19 weist ein Differenzierglied 20 auf, dem das Sprachsignal vom Eingang 14 zugeführt wird. Das Ausgangssignal des Differenziergliedes ist dem Gradienten des Sprachsignals proportional, es wird in einem Zweiweggleichrichter 21 gleichgerichtet, um die Grosse des Gradienten zu ermitteln.
4098 28/06 7 3
SZ9-72-006 - 10 -
Dem Gleichrichter 21 ist ein .leckbehafteter Integrator 22 nachgeschaltet, der die von Differenzierglied 20 und Gleichrichter gelieferten Werte der ersten Ableitung des Sprachsignals in gewichteter Form summiert, d.h. mittelt, und ein Gleichstromsignal liefert, das nur positiv sein kann,.und das ein Mass ist für die nähere Vergangenheit des Sprachsignals, in Bezug auf die zur —bestmöglichen. Codierung des Sprachsignals erforderliche Schrittgrösse.
Das Ausgangssignal der Sehrittgrössen-Steuerung 19 auf der Leitung 23 richtet sich also nach der Grösse der ersten Ableitung des Sprachsignals, das heisst, für kleine Audio-Eingangs signale werden die ersten Ableitungen klein, und entsprechend wird auch das Signal auf der Leitung 23 klein. Für Audio-Eingangssignale mit grosser Amplitude oder für Signale mit hohem Frequenzanteil wird das Äusgangssignal entsprechend gross sein. r
Es ist nun erforderlich, das Aus gangs signal des Digital/Analog-Wandlers 17 durch das Ausgangs signal der Sehrittgrössen-Steuerung 19 in geeigneter Weise zu beeinflussen, so dass unabhängig von der Amplitude des Sprachsignals und unabhängig von seinem Frequenzanteil
409828/06 7 3
SZ 9-72-006 . - 11 -
immer eine angepasste Codierung stattfindet. Zu diesem Zweck ist ein Multiplizierglied 24 vorgesehen, dem die genannten Ausgangssignale zugeführt werden und das bewirkt, dass der Delta-Modulator einen Bitstrom liefert, der aus einer sehr stark dekorrelierten Folge von "1"- und "O"-Bits besteht und daher einen grossen digitalen Informationsgehalt hat. Der Ausgang des Multipliziergliedes 24 ist an den negativen Eingang des Differenzenverstärkers 15 angeschlossen, der einen Vergleich des Audio-Eingangssignals mit dem rekonstruierten Signal durchführt. '
Der nun am Ausgang des Delta-Modulators 10 auftretende Delta-Bit strom ist nicht mehr deterministisch, das heisst, allein aus dem Delta-Bit strom kann die ursprüngliche Form des Audio-Eingangssignals nicht rekonstruiert werden, da der Multiplikationsfakt'or, der in der Schrittgrössen-Steuerung aus dem Eingangssignal abgeleitet worden ist, nicht-mehr bekannt ist und auch nicht mehr wiedergewonnen werden kann.
Es sind bereits ähnliche Schrittgrössen-Steuerschaltungen für Deltacodierung vorgeschlagen worden, wobei parallel zum entstehenden Delta-Bitstrom auch die Ausgangs spannung der Steuerschaltung übertragen wird. Dabei entsteht ein deterministisches Signal, und man könnte also aus dem Multiplikator und dem Delta-Bitstrom das ursprüngliche Audio-Eingangssignai exakt rekonstruieren.
409828/0673
SZ 9-72-006 - 12 -
Für das erfindungsgemässe Verfahren kommt es nur darauf an, dass der Delta-Bitstrom möglichst viel digitale Information enthält. Die im Delta-Bitstrom vorkommenden Werte"!" und "0" können elektrisch beispielsweise als Spannungen von +1V bzw -IV dargestellt werden. Entsprechend hat der vom Quantisierer und Abtaster 18 abgeleitete Vorzeichen-Bitstrom ebenfalls die beiden Werte "1" und "Ο"« denen auch wieder Spannungen von +1VbZW0 -IV entsprechen.
Die Delta- und Vörzeichen-Bitströme werden der Einheit 11 zugeführt, die vier Umlaufspeicher iri der Form von Schieberegistern enthält, · die je eine Wortgrösse von 1 bit und eine Länge von H«f haben, ' wobei H die Fenstergrösse in Sekunden und f die Abtastfrequenz in Hertz bedeuten. Je ein Schieberegister ist erforderlich für die fortlaufende Speicherung des Delta-Bitstroms und des Vorzeichen-Bitstroms. Zwei weitere Schieberegister sind für die Charakterisierung der Vergangenheit der beiden Bitströme erforderlich. Dementsprechend weist die Einheit 11 vier Ausgänge auf, die Ausgangs signale für den Delta-Bit strom an den Stellen t und X-X , und für den Vorzeichen-Bit strom an den Stellen t und t-τ führen. .
Die Ausgänge der Schieberegistereinheit 11 sind an den Binär-Merkmal-Extraktor 12 angeschlossen. Die Schieberegister arbeiten mit dem *
409828/0673
SZ 9-72-006 -13-
Extraktor 12 im Zeitmultiplex. Um die Erklärung des Extractors zu vereinfachen,,wird von der Vorstellung des Raummultiplex ausgegangen. In Fig. 1 ist ein volles Schieberegister 25 um die Zeit
entsprechend T-f Abtastintervallen gegenüber dem laufenden s
Bitstrom verschoben dargestellt. Man kann sich vorstellen, dass diese Verschiebung pro Abtastintervall um eine Stelle nach rechts erfolgt. Das Register 25 möge die Grosse des Fensters H haben, das können beispielsweise 240 bit sein. Damit wird im laufenden Bit strom eine Bitfolge gleicher Länge abgedeckt. Nach Ablauf der Zeit γ sind die beiden (sich in Registern befindenden) Bitfolgen miteinander in Vergleich zu bringen. Diese Vergleichsoperation wird vom Binär-Merkmal-Extra ktor 12 ausgeführt. Das Vergleichsergebnis wird im Zähler 13 auf summiert und ergibt einen Wert für die Aehnlichkeit der um t verschobenen Funktion.
In Analogie zum Korrelationsverfahren würde sich der Vergleich der Registerinhalte auf eine Multiplikation der jeweils übereinanderliegenden Delta-Bits und auf eine Summierung der Einzelergebnisse reduzieren. Ein solches Verfahren ist nicht sehr wirksam, es führt zu flachen Ausgangsfunktionen.
SZ 9-72-006 409828/0^3
Stattdessen werden in einem Schritt des erfindungsgemässen Verfahrens die Eigenschaften der Bitfo.lgen in den beiden Registern untersucht und gewisse Merkmale extrahiert. Beispielsweise können als Merkmale die erste und die zweite digitale Ableitung in Betracht gezogen werden. Die zweite Ableitung D wird auch als "Krümmung" bezeichnet. Es wirdauf die Figuren 5 und 6 verwiesen.
Die erste Ableitung D1 des Signals an jeder Stelle des Schieberegisters kann mit Hilfe von zwei benachbarten Bits dargestellt werden. Diese werden als Bit 1 und Bit 2 bezeichnet. Wenn beide Bits positiv sind, hat man es mit einer positiven Ableitung D1 zu tun. Haben zwei aufeinanderfolgende Bits verschiedene Vorzeichen, so wird die Ableitung D. Null gewertet. Dies entspricht im Delta-Modulator dem sogenannten Leerlauf-Fall. Wenn die beiden benachbarten Bits negativ sind, wird die erste digitale Ableitung D; als negativ gewertet.
Das zweite Merkmal, die digitale Krümmung, an der gleichen Stelle in beiden Schieberegistern wird mit Hilfe von drei benachbarten Bits bestimmt, die als Bit 1, Bit 2 und Bit 3 bezeichnet werden (Fig. 6).
Diese drei Bits körinen in acht verschiedenen Kombinationen ihrer Binärwerte "1" und "0" auftreten, und dementsprechend sind acht verschiedene
409828/067 3
SZ 9-72-006 - 15 -
zweite Ableitungen D9 oder Krümmungen.möglich." Wenn alle drei Bits gleich 11I" sind, hat man eine Krümmung von der Grosse 0. Wenn Bit 3 und Bit 2 gleich "1" sind und Bit 1 gleich "0" ist, dann liegt .eine negative Krümmung vor. Wenn Bit 3 gleich "0" ist und Bit 2 und Bit 1 gleich "1", ist auch die zweite Ableitung D positiv, usw.
Die Merkmale D1 und D0 sind ternär, das heisst, es gibt ein Alphabet, das drei Positionen aufweist. Beide Merkmale D. und D9 sind im Sinne der Differentialrechnung abgeleitet worden. Es ist aber zu beachten, dass das beschriebene Beispiel nur eine grobe Annäherung an den wirklichen Verlauf des Sprachsignals an dieser Stelle darstellt, denn beispielsweise ist die Schrittgrösse von Abtastpunkt zu Abtastpunkt nicht konstant.
Im beschriebenen Beispiel wurden jeweils nur zwei Merkmale der Bitfolgen bestimmt. Die Anzahl der Merkmale könnte ohne weiteres vergrössert werden, und man könnte auch die dritte und vierte Ableitung noch in Betracht ziehen.
Nachdem längs der Bitfolgen an jeder Bitposition die beiden Merkmale D. und D_ bestimmt worden sind, müssen die Merkmale miteinander in Beziehung gebracht werden. Ein Beispiel für diese Beziehung ist in Fig.
409828/0673
SZ 9-72-006 - 16 -
dargestellt. Das die laufenden Abtastwerte enthaltende Register 26 kann an jeder Stelle drei verschiedene Werte der ersten Ableitung haben. Das gleiche gilt für das die zu einem Fenster H. gehörenden Abtastwerte enthaltende Register 25, so dass sich ein Total von neun verschiedenen Kombinationsmöglichkeiten ergibt. Diese sind in der ersten Spalte der Fig. 7 aufgetragen. In der zweiten Spalte ist jeder der neun Kombinationen der Merkmale ein Wert +1, 0 bzw. -1 zugeordnet. Für die Fälle, wo ein Merkmal zu den Zeiten t undt-Y eine Kombination aus "0" und einem Vorzeichen (+ oder -) aufweist, wird festgelegt, dass der Stand des Zählers 13. nicht geändert werden soll. Für die Fälle, wo ein Merkmal zu den Zeiten t und t-Ϋ unterschiedliche Vorzeichen hat, soll der Stand des Zählers 13. um eine Einheit verringert werden. Für die Fälle schliesslich, in denen gleiche Merkmale vorliegen, soll allein auf die Vorzeichen der effektiven und der verschobenen Funktionen abgestellt werden. Das kann in der Weise erfolgen, dass die Vorzeichen der Funktionen an den Stellen t und t-T miteinander multipliziert werden, was Werte von +1 oder -1 ergeben kann. Diesen Werten entsprechend wird der Zähler 13 um einen Schritt aufwärts oder abwärts gezählt.
Es ist damit klar, dass nicht nur der Delta-Bitstrom untersucht wird.
sz 9-72-006 409828/(^7
sondern gewisse Entscheidungen auch vom Vorzeichen abgeleitet
ι« .
werden (vergl. Fig. 3). Aus diesem Grund sind, wie erwähnt, nicht nur zwei sondern vier Umlaufspeicher in der Einheit 11 vorzusehen.
Es ist noch darauf hinzuweisen, dass das oben erläuterte Schema (Fig. 7) auf beide Merkmale D und D in gleicher Weise angewandt wird. Im hier betrachteten Fall des Raummultiplex wäre der Vergleich der Merkmale bzw. der Vorzeichen an jeder Position der Schieberegister durchzuführen, und nach dem Schema der Fig. 7 ergibt sich an jeder Position ein Resultat, das +1, 0 oder -1 lauten kann. Die von den beiden Merkmalen D. und D„ (erste bzw. zweite digitale Ableitung, zum Beispiel) geleisteten Beiträge werden dem Zähler 13 zugeführt und ergeben für den Vergleich der Registerinhalte nach Ablauf der Zeit τ einen bestimmten Zählerstand. Wenn die geschilderte Operation für alle Schritte Ύ,·ί8 , . **V*S > ^*3*fs » usw* durchgeführt ist, und die erhaltenen Zählerstände C (r) über der Zeit -V aufgetragen werden, ergibt sich ein Diagramm gemäss Fig. 8. Der Zählerstand an der Stelle -T=O hat für den gewählten Fall einer Registerlänge von 240 bit den Wert 480, da zwei Merkmale D, und D2 in Betracht gezogen worden sind. Für Zeiten *X ψ 0 kann es vorkommen, dass die Beiträge 0 oder -1 werden. Dedialb fällt die Kurve für die Zähler-Stände C (z) für Zeiten t>0 zunächst stark ab. Wenn das Schieberegister 26 um eine ganze (zunächst noch unbekannte) Pitch-Periode nach rechts
409828/0673
SZ 9-72-006 - 18 -
verschoben worden ist, besteht grosse Wahrscheinlichkeit, dass alle Merkmale und Vorzeichen, die aus den in den Registern enthaltenen Bitfolgen abgeleitet werden können, wieder miteinander übereinstimmen. An der betreffenden Stelle ergibt sich daher ein Maximum des Zählerstandes C- C^)-Aus der Zeit χ vom Beginn des Vergleichs bis zum Auftreten des genannten Maximums kann direkt auf die gesuchte Pitch-Periode geschlossen werden.
Aus Gründen der besseren Verständlichkeit wurden die Extraktion · der Merkmale und der Merkmal vergleich im Raummultiplex erklärt', d.h, an jeder Position der Schieberegister wurde ein Vergleich durchgeführt. Tatsächlich erfolgen die nötigen Operationen im Zeitmultiplex, wobei man die Schieberegister ständig von hinten nach vorn umlaufen lässt, so dass man Zugriff zu allen Plätzen innerhalb der Register erhält. Die logischen Operationen, die alle mit einfachen Verknüpfungsgliedern ausgeführt werden können, werden sukzessive für jedes Bit durchgeführt, wodurch bei dem beschriebenen Beispiel . 239 Vergleichsschaltungen eingespart werden können. · _· - .
In Fig. 9 ist das Ergebnis der Bestimmung der Pitch-Periode T für den stimmhaften Laut "e" graphisch dargestellt. Auf der Abszisse ist die Zeit ^aufgetragen, die am Beginn der Vergleiehsöperatiön zu
40,9828/0673
SZ 9-72-006 - 19 -
laufen beginnt. Auf der Ordinate ist links der normalisierte Wert ILJtJ/rJO) der Autokorrelationsfunktion und rechts der Stand C(r) des Zählers 13 aufgetragen.
Die Autokorrelationsfunktion für den Laut "e" wurde mit dem Computer bestimmt, wobei das analoge Sprach signal mit einer Abtastfrequenz von 20 kHz abgetastet und die Amplitudenwerte mit einer Auflösung von 13 bit PCM-codiert wurden. Die gestrichelte Kurve 27 repräsentiert die berechnete Pitch-Funktion, wobei für die Pitch-Periode
ein Wert von T =9,150 ms ermittelt wurde. Es ist darauf hinzuweisen, ο
dass das Maximum für die beiden Werte R^(f)/R (0) = 0,5 eine Breite von 1,35 ms aufweist, das sind rund 15% der Pitch-Periode.
Die Ermittlung der Pitch-Periode des Lauts "e" mit dem erfindungsgemässen Verfahren ergibt die voll ausgezogene Kurve 28. Dabei wurde wiederum eine Abtastfrequenz von 20 kHz angewandt und die Amplitudenwerte mit einer Auflösung von 1 bit delta-codiert. Die Fensterbreite H wurde zu 12 ms gewählt. Die auf diese Weise ermittelte
Pitch-Periode T = 9,150 ms stimmt mit dem nach dem Autokorrelation ο
verfahren ermittelten Wert exakt überein. Es ist jedoch darauf hinzuweisen, dass die Schärfe des erhaltenen Maximums mit 0,1 ms für
SZ 9-72-006 - 20 -
409828/0673
die beiden Werte von C (T )/2 mit nur knapp 1% von T eine
ο ο
wesentlich genauere Bestimmung der Pitch-Periode gestattet.
Ein weiterer Vorteil des erfindungsgemässen Verfahrens ist darin zu sehen, dass bei der Funktion C (Y) der Abstand zwischen Haupt-und Nebenmaxima im Vergleich zum Korrelationsverfahren vergrössert wird.
Das vorstehend beschriebene Schema mit der vorgeschlagenen Extraktion der ersten und zweiten digitalen Ableitungen sowie deren Verknüpfung und Vergleich ist nur^eine der möglichen Lösungen im Rahmen des erfindungsgemässen Verfahrens. Wesentlich sind die Verwendung eines digitalen, binären Bitstroms und eines geschickt gewählten Schemas zum Ableiten von geeigneten Merkmalen und ihrer Verknüpfung.
409828/067 3
SZ 9-72-006 -21 -

Claims (6)

  1. PATENTANSPRÜCHE
    O Verfahren zum Ermitteln des der Periode der Anregungsfrequenz der Stimmbänder entsprechenden Intervalls mittels Abtastung des analogen Sprachsignals, Quantisierung der Signalamplitude und Codierung des Quantisierungssignals, dadurch gekennzeichnet, dass die Quantisierung und Codierung der Signalamplitude durch einen adaptiven Delta-Modulator (10) erfolgt, der für jeden Abtastzeitpunkt ein Delta-Bit erzeugt, und dass durch einen Polaritätsabtaster (18) zu jedem Delta-Bit ein dem Vorzeichen des Sprachsignals entsprechendes Vorzeichenbit erzeugt wird, welche Bitströme jeweils einem Paar von Umlaufspeichern (11) zugeführt werden, in deren einem Paar (26) die laufenden Binärwerte·und in deren anderem Paar (25) zeitverschobene Binärwerte gespeichert werden, dass aus den laufenden und den zeitverschobenen Binärwerten je wenigstens erste und zweite Merkmale (D. , D_) extrahiert
    und nach einem vorgewählten Schlüssel (Fig. 7) miteinander verglichen werden, und dass die Vergleichsergebnisse logisch verknüpft und bewertet werden und die Bewertungen zum Ansteuern eines Zählers (13) benutzt werden, wobei das Intervall vom Beginn des Vergleichs (T= 0) bis zum wenigstens angenäherten Wiedererreichen des Ausgangszählerstandes [C(O)] der Periode (T ) der Anregung sfrequenz entspricht.
    SZ 9-72-006 - 22 -
    4 09828/0673
  2. 2. Verfahren nach Ansprch 1, dadurch gekennzeichnet, dass die Schrittgrösse des adapt!ven Delta-Modulators (10) mittels eines Differenziergliedes (20), eines Gleichrichters (21) und eines leckbehafteten Integrators (22) aus dem Eingangs-Sprachsignal abgeleitet und über ein Multiplizierglied (24) auf einen Eingang (-) eines Differenzverstärkers (15) gegeben wird, in dessen anderen Eingang (+) das Eingangs-Sprachsignal eingespeist wird.
  3. 3. Verfahren nach Anspruch 1 und/oder 2, dadurch gekennzeichnet, dass in dem Multiplizierglied (24) die feste Schrittgrösse eines mit dem Ausgangsbitstrom des Delta-Modulators (10) gespeisten Digital/Analog-Wandlers (17) mit der vom Ausgang (23) des integrators (22) gelieferten adaptiven Schrittgrösse multipliziert wird.
  4. 4. Verfahren nach einem oder mehreren der Ansprüche 1 bis
    3, dadurch gekennzeichnet, dass aus den laufenden und den zeitverschobenen Binärwerten je die erste digitale Ableitung dadurch gebildet wird, dass jeweils zwei benachbarte Delta-Bits verglichen werden und dass entsprechend ihren Werten nach einem vorgegebenen festen Schlüssel (Fig. 5) ein ternäres Merkmal (D1) gebildet wird.
  5. 5. Verfahren nach einem oder mehreren der Ansprüche 1 bis
    4, dadurch gekennzeichnet, dass aus den laufenden und den zeitverschobenen Abtastwerten je die zweite digitale Ableitung dadurch gebildet wird, dass jeweils drei be-
    409828/0673
    SZ 9-72-006 - 23 -
    nachbarte Delta-Bits verglichen werden und dass entsprechend ihren Werten nach einem vorgegebenen festen Schlüssel (Fig. 6) ein ternäres Merkmal (D2) gebildet wird. .
  6. 6. Verfahren nach einem oder mehreren der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass im Falle des Nichtübereinstimmens der Werte der Merkmale für den laufenden Bitstrom D.(t) bzw. D_(t) mit den entsprechenden Werten der Merkmale für den zeitverschobenen Bitstrom
    D, (t-τ) bzw. Dn(t-τ)
    nach einem festen Schlüssel
    (Fig. 7) ein ternäres Bit erzeugt wird, und dass bei Gleichheit der genannten Werte ein ternäres Bit erzeugt wird durch Multiplikation der aus dem analogen Sprachsignal mittels eines Quantisierers (18) abgeleiteten laufenden und zeitverschobenen Vorzeichenbits.
    409828/0673
    SZ9-72-OO6 - 24 -
DE19732357949 1972-12-29 1973-11-21 Verfahren zum ermitteln des der periode der anregungsfrequenz der stimmbaender entsprechenden intervalls Pending DE2357949A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CH1906072A CH549849A (de) 1972-12-29 1972-12-29 Verfahren zum ermitteln des der periode der anregungsfrequenz der stimmbaender entsprechenden intervalls.

Publications (1)

Publication Number Publication Date
DE2357949A1 true DE2357949A1 (de) 1974-07-11

Family

ID=4437086

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19732357949 Pending DE2357949A1 (de) 1972-12-29 1973-11-21 Verfahren zum ermitteln des der periode der anregungsfrequenz der stimmbaender entsprechenden intervalls

Country Status (6)

Country Link
JP (1) JPS5339206B2 (de)
CH (1) CH549849A (de)
DE (1) DE2357949A1 (de)
FR (1) FR2212980A5 (de)
GB (1) GB1436440A (de)
IT (1) IT1013586B (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2649259A1 (de) * 1976-10-29 1978-05-03 Tekade Felten & Guilleaume Verfahren zur automatischen verarbeitung von gestoerter telefonsprache
DE2918533A1 (de) * 1978-05-08 1979-11-15 John Marley Spracherkennungssystem

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5772199A (en) * 1980-10-23 1982-05-06 Tokyo Shibaura Electric Co Voice recognition device
JPS5895398A (ja) * 1981-11-30 1983-06-06 松下電工株式会社 音声メッセージ識別方法
US4633748A (en) * 1983-02-27 1987-01-06 Casio Computer Co., Ltd. Electronic musical instrument
GB2145864B (en) * 1983-09-01 1987-09-03 King Reginald Alfred Voice recognition
GB9817500D0 (en) * 1998-08-12 1998-10-07 Domain Dynamics Ltd Advantageous time encoded (TESPAR) signal processing arrangements
CN112542160B (zh) * 2019-09-05 2022-10-28 刘秀敏 声学模型的建模单元的编码方法、声学模型的训练方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2649259A1 (de) * 1976-10-29 1978-05-03 Tekade Felten & Guilleaume Verfahren zur automatischen verarbeitung von gestoerter telefonsprache
DE2918533A1 (de) * 1978-05-08 1979-11-15 John Marley Spracherkennungssystem

Also Published As

Publication number Publication date
JPS5339206B2 (de) 1978-10-20
GB1436440A (en) 1976-05-19
IT1013586B (it) 1977-03-30
FR2212980A5 (de) 1974-07-26
JPS4999203A (de) 1974-09-19
CH549849A (de) 1974-05-31

Similar Documents

Publication Publication Date Title
DE2918533C2 (de)
DE3236832C2 (de) Verfahren und Gerät zur Sprachanalyse
DE3236834C2 (de) Verfahren und Gerät zur Sprachanalyse
DE2659096C2 (de)
DE69127818T2 (de) System zur verarbeitung kontinuierlicher sprache
DE68912692T2 (de) Zur Sprachqualitätsmodifizierung geeignetes Übertragungssystem durch Klassifizierung der Sprachsignale.
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE69013738T2 (de) Einrichtung zur Sprachcodierung.
DE2326517A1 (de) Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern
DE2820645A1 (de) Vorrichtung und verfahren zur spracherkennung
DE69920047T2 (de) Detektion von reiner sprache in einem audio signal, mit hilfe einer detektionsgrösse (valley percentage)
DE2825110A1 (de) Verfahren zur erkennung kontinuierlicher sprachsignale
EP0076234A1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
DE2753707A1 (de) Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache
DE2825082A1 (de) Verfahren zur spracherkennung
DE3012771C2 (de)
DE4031638C2 (de)
EP1280138A1 (de) Verfahren zur Analyse von Audiosignalen
DE69635141T2 (de) Verfahren zur Erzeugung von Sprachmerkmalsignalen und Vorrichtung zu seiner Durchführung
DE69127134T2 (de) Sprachkodierer
DE2636032C3 (de) Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
DE69017842T2 (de) Verfahren und Einrichtung zur Codierung von Prädiktionsfiltern in Vocodern mit sehr niedriger Datenrate.
DE60023851T2 (de) Verfahren und vorrichtung zur erzeugung von zufallszahlen für mit 1/8 bitrate arbeitenden sprachkodierer
DE3750365T2 (de) Sprecheridentifizierung.

Legal Events

Date Code Title Description
OHJ Non-payment of the annual fee