DE2357949A1 - Verfahren zum ermitteln des der periode der anregungsfrequenz der stimmbaender entsprechenden intervalls - Google Patents
Verfahren zum ermitteln des der periode der anregungsfrequenz der stimmbaender entsprechenden intervallsInfo
- Publication number
- DE2357949A1 DE2357949A1 DE19732357949 DE2357949A DE2357949A1 DE 2357949 A1 DE2357949 A1 DE 2357949A1 DE 19732357949 DE19732357949 DE 19732357949 DE 2357949 A DE2357949 A DE 2357949A DE 2357949 A1 DE2357949 A1 DE 2357949A1
- Authority
- DE
- Germany
- Prior art keywords
- bit
- delta
- speech
- time
- bits
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 45
- 230000005284 excitation Effects 0.000 title claims description 11
- 238000005070 sampling Methods 0.000 claims abstract description 19
- 230000003044 adaptive effect Effects 0.000 claims abstract description 5
- 210000001260 vocal cord Anatomy 0.000 claims description 8
- 238000013139 quantization Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000015654 memory Effects 0.000 claims description 3
- 238000004064 recycling Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 11
- 238000005311 autocorrelation function Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 230000000737 periodic effect Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 210000000867 larynx Anatomy 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 210000004704 glottis Anatomy 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Image Processing (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
Verfahren zum Ermitteln des der Periode der Anregungsfrequenz
der Stimmbänder entsprechenden Intervalls . .
Die Erfindung, betrifft ein Verfahren zum Ermitteln des der Periode
der Anregungsfrequenz der Stimmbänder entsprechenden Invervalls
nach dem Oberbegriff des Anspruchs 1.
Die Kenntnis dieses Intervalls ist von grosser Wichtigkeit für die
Analyse und Synthese von Sprachsignalen, beispielsweise bei der
computergesteuerten Sprachsynthese (Audio Response units), Echt-'
zeit-Queilencodierung für. Sprachsignale mit extrem kleiner Bitfölgefrequenz,
Sprach- und Sprecherkennung und bei Vocodern.
Die menschlichen Sprachorgane erzeugen stimmhafte Laute in verschiedener
Tonhöhe, wowie stimmlose Laute, die durch Zischen,
4098 28/0 67
Hauchen oder durch Nasalyorgänge entstehen können. Energiequelle
ist die Lunge, die einen Luftstrom durch den Kehlkopf mit seinen
normalerweise geschlossenen Stimmbändern presst. Durch den im .
Kehlkopf entstehenden Ueberdruck öffnen sich die Stimmbänder, schliessen sich jedoch sofort wieder/ wenn der Druck sinkt, so dass
der Vorgang von neuem beginnen kann. Die auf diese Weise erzeugten
Schwingungen der Stimmbänder sind periodisch, impulsförmig und daher sehr obertonreich, da die Oeffnungszeit der Stimmritzen nur ein Bruchteil
der Zeit ihres Geschlossensein's beträgt. Durch den aus Hohlräumen
und Filtern bestehenden Sprachtrakt wird das impulsförmige Anregungssignal in das vom Mund abgestrahlte Sprachsignäl umgewandelt. Die
Periodizität dieses Signals ermöglicht es, einen grossen Teil der Redundanz aus der Sprache herauszunehmen, was für die erwähnten
Anwendungen von grosser technischer und wirtschaftlicher Bedeutung ist. ·
Für die vorliegende Erfindung sind nur die stimmhaften Laute von Interesse. Es wird daher von einer Erörterung der stimmlosen Laute
abgesehen.
Die bisher bekannt gewordenen Verfahren zum Ermitteln der Periode
der Anregungsfrequenz der Stimmbänder bei den stimmhaften Lauten -
SZ 9-72-006 - 2 -
409828/0673
im Folgenden der Einfachheit halber in Anlehnung an den entsprechenden
englischen Ausdruck "Pltch-Periode" genannt, lassen
sich in zwei Kategorien einteilen. Einerseits wurden Filterbänke
vorgeschlagen, die es erlauben, die Anregungsfrequenz aus dem
Sprachsignal auszufiltern, und andererseits wurden Korrelationsverfahren angewandt, um im Zeitbereich die genannte Periodizität
zu erfassen.
So werden beispielsweise in dem Aufsatz "New Methodes of Pitch
Extraction" von Man Mohan Sondhi, veröffentlicht in den IEEE
Transactions on Audio and Electroacoustics, VOL. AU-16, Nr. 2,
Juni 1968, Seiten 262 - 266, drei neue Verfahren zur Ermittlung der Sprachgrundfrequenz beschrieben. Beim ersten Verfahren wird
nach der Glättung des Spektrums eine Minimumphasenkorrektur zur Synchronisation der Harmonischen vorgenommen. Beim zweiten Verfahren
folgt der Glättung des Spektrums eine Autokorrelation und beim dritten folgt einer nicht linearen Verzerrung eine
Autokorrelation.
In dem Aufsatz "Cepstrum Pitch Determination", von A. Michael
Noil, veröffentlicht im The Journal of the Acoustical Society of America, VOL. 41, Nr. 2, 19 67, Seiten 293 - 309, wird eine weitere
Methode zur Ermittlung der Sprachgrundfrequenz beschrieben. Das Cepstrum, das als das Leistungsspektrum des logarithm!sehen
Leistungsspektrums definiert ist, besitzt eine stark ausgeprägte Spitze, die der Sprachgrundperiode des gerade analysierten stimmhaften
Sprachsegmentes entspricht. Die Cepstra werden mittels
einer digitalen Rechenanlage errechnet und automatisch auf Mikrofilm dargestellt. Es wurden hierzu heuristische Algorithmen für
SZ9-72-OO6 - 3 -
409828/0673
das Herausgreifen dieser Spitzenwerte entwickelt, die den stimmhaften
Sprachsegmenten und der Grundperiode der Vokale entsprechen, Diese Information wird dann dazu verwendet, die Anregungsfunktion
für einen computersimulierten Kanalvocoder abzuleiten.
Weiterhin ist in der US-Patentschrift 3 555 191 eine Anordnung
beschrieben, mit deren Hilfe die Sprachgrundfrequenz eines
komplexen Sprachsignals ermittelt wird. Es wird hierzu eine Spektrumanalyse des unendlich spitzenbegrenzten logarithmischen
Spektrums eines mittenbegrenzten und unendlich spitzenbegrenzten Intervalls eines analogen Sprachsignals durchgeführt.
Schließlich ist in der US-Patentschrift 3 6O3 738 ein Zeitbereichsdetektor
beschrieben, der ein Signal erzeugt, das für die Sprachgrundfrequenzimpulse eines Sprachsignals repräsentativ
ist.
Die ersten drei genannten Verfahren und Anordnungen machen von der Analyse des Spektrums oder Cepstrums Gebrauch und erfordern
ausgedehnte Rechnungen, die sie für eine Echtzeitverarbeitung ungeeignet machen. Die letztgenannte Anordnung, die einen Zeitbereich-Sprachgrundfrequenzdetektor
darstellt, verwendet logarithmische Verstärker und Spitzendetektoren. Sie ist daher, ebenso
wie die anderen, nicht für eine digitale Sprachgrundfrequenz-Erkennungstechnik verwendbar.
Sowohl die Filter-, als auch die Korrelationstechnik sind sehr
kompliziert und erfordern entweder einen großen aparativen Auf-
SZ9-72-OO6 - 3a -
409828/0673
wand oder viel teure Computerzeit. Für eine Echtzeitbestimmung
der Pitch-Periode wäre es daher wünschenswert, über ein Verfahren
zu verfügen, das mit geringem aparatlven Aufwand eine möglichst
exakte Bestimmung der Pitch-Periode erlaubt. Die Aufgabe der
vorliegenden Erfindung ist es daher, ein solches Verfahren vorzuschlagen.
Gelöst wird diese Aufgabe durch ein Verfahren zum Ermitteln des der Periode der Anregungsfrequenz der Stimmbänder entsprechenden
Intervalls mittels Abtastung des analögen Sprachsignals, Quantisierung
der Signalamplitude und Codierung des Quantisierungssi*-
gnals, das dadurch gekennzeichnet ist, dass die Quantisierung und Codierung der Signalamplitude durch einen adaptiven Delta-Modulator
erfolgt, der für jeden Abtastzeitpunkt ein Delta-Bit erzeugt, und dass durch einen Polaritätsabtaster zu jedem Delta-Bit ein
dem Vorzeichen des Sprachsignals entsprechendes Vorzeichenbit erzeugt wird, welche Bitströme jeweils einem Paar von Umlaufspeichern
zugeführt werden, in deren einem Paar die laufenden Binärwerte und in deren anderem Paar zeitverschbbene Binärwerte gespeichert
werden, dass aus den laufenden und den zeitverschobenen
Binärwerten je wenigstens erste und zweite Merkmale extrahiert
und nach einem vorgewählten Schlüssel miteinander verglichen
werden, und dass die Vergleichsergebnisse logisch verknüpft und
bewertet werden und die Bewertungen zum Ansteuern eines Zählers
benutzt werden, wobei das Intervall vom Beginn des Vergleichs bis
zum wenigstens angenäherten Wiedererreichen des AusgangsZählerstandes
der Periode der Anregungsfrequenz entspricht.
sz 9-72-006 4Q98l$/T3673
Der Vorteil dieses Verfahrens liegt darin, dass nun eine digitale Pitch-Periodenermittlung für die Echtzeitverarbeitung von
Sprachsignalen möglich ist, indem eine Ein-Bit-DeItacodierung
je Abtastintervall verwendet wird. Hiermit verbunden ist ein großer ökonomischer Vorteil gegenüber Autokorrelationstechniken,
die eine Multibit-PCM (Impulscodemodulation)-Codierung verwenden.
Einzelheiten der Erfindung werden anhand eines Ausführungsbeispiels
unter Bezugnahme auf die Zeichnungen beschrieben.
In den Zeichnungen zeigen:
Fig. 1 ein Diagramm des zeitlichen Verlaufs des
periodischen Lauts "e" und schematisch Register zur Speicherung der codierten Binärwerte,
Fig. 2 ein Diagramm der Autokorrelationsfunktion
409828/0673
SZ9-72-OO6 - 4a -
Fig. 3 ein Blockschaltbild einer Anordnung zum Aus-
führen des erfindungsgemässen Verfahrens, ' .
Fig. 4 ein Blockschaltbild eines Delta-Modulators
■ und Polaritätsabtasters,
Fig. 5, 6 Tabellen zur Ableitung von Merkmalen aus
den Delta-Bit strömen, .
Fig. 7 eine Tabelle mit einem Schlüssel "zum Bewerten
des Vergleichs der zu verschiedenen Zeiten ab-■
. ' geleiteten Merkmale,
Fig. 8 ein Diagramm der Extraktionsfunktion C
Fig. 9 . ein Diagramm^^ der Autokorrelationsfunktion
und der Extraktionsfunktion G (r) tür den Laut "e"
A09828/Q673
SZ 9-72-006 - 5 -
Zum besseren Verständnis des erfindungsgemässen Verfahrens
wird zunächst auf das bereits bekannte Autokorrelationsverfahren
eingegangen. Fig. 1 zeigt die Amplitude des Sprachsignals für einen periodischen !Laut "e" aufgetragen über der Zeit t. Dieses
Signal wird mit einer Abtastfrequenz f abgetastet und die jedem einzelnen Abtastintervall T = 1/f entsprechende Amplitude quantisiert,
ss
codiert und gespeichert. Es wird nun ein sogenanntes "Fenster" von
der Länge H definiert, wobei H grosser als die zu erwartende Pitch Periode
gewählt wird. Innerhalb dieses Fensters H liegen H*f
Abtastintervalle. Einen Abtastwert der Autokorrelationsfunktion R des
rl
Sprachsignals erhält man durch Summierung der Produkte zeitlich verschobener
Signalabtastwerte. Dieser Prozess ist Η·ί mal zu wieder-
holen entsprechend
RH
-ΙΑ Ag
irl'Xf, ι, ι
was die komplette Kurzzeit-Autokorrelationsfunktion für das Fenster H
ergibt, vergl. Fig. 2. Aus dem Auftreten des Höchstwertes der Autokorrelation
sf unk tion kann auf die Pitch-Periode geschlossen werden. Die Erkennung des Höchstwertes erfolgt im allgemeinen durch Vergleich
mit einem Schwellenwert, wobei zuerst normalisiert werden muss,
AO9828/0673
SZ 9-72-006 - 6 -
SZ 9-72-006 - 6 -
z.B . durch Division aller Einzelwerte der Autokorrelationsfunktion
durch deren Wert an der Stelle 0, [.Rn(O) j .
Wie aus Fig. 2 ersichtlich hat die Autokorrelationsfunktion
bei der Verschiebung T = 0 ein Maximum und fällt mit wachsendem
t rasch ab. Es treten dann einige kleinere Zwischenmaxima auf,
die die oberen Harmonischen des Sprachsignals repräsentieren. Falls
die Länge des Fensters H, wie'gefordert, grosser als die zu erwartende
Pitch-Periode gewählt würde, tritt vor dem Erreichen des
Endes des Fensters ein starkes Maximum auf. An diesem Punkt haben
das ursprüngliche und das verschobene Signal die grösste Aehnlichkeit.
Die Zeit vom Beginn des Prozesses bis zu diesem Maximum entspricht ·
der gesuchten Pitch-Periode. : .
Es ist nun offensichtlich, dass das geschilderte Autokorrelation sverfahren
ausserordentlich rechen-intensiv ist oder aber grossen.
2 2
Schaltungsaufwand erfordert, denn es sind allein H »f Multi-
S- "
plikationen auszuführen. Von Nachteil ist weiter, dass für ursprünglich
co sinusförmige Signale bei der Autokorrelation wieder cosinusförmige
Signale entstehen, was.da zu führen kann, dass das zur Ermittlung
der Pitch-Periode heranzuziehende Maximum sehr breit ist und dadurch die Bestimmung unscharf macht. Schliesslich können die Harmonischen
409828/0673
SZ 9-72-006 _ 7 _'
des "Sprachsignals zu Zwischenmaxima führen, die infolge ihrer Amplitude nicht mehr gut vom Maximalwert der Funktion unterschieden
werden können.
Während beim Autokorrelations verfahren für jedes Abtastintervall ein PCM-Wort ermittelt wird (Abta stung, Quantisierung und Codierung
z.B. in ein acht Bits umfassendes PCM-Wort), wird nach dem erfindungsgemässen Verfahren je Abtastintervall nur ein Bit einer
Delta-Codierung erzeugt. Dabei soll die Qualität der Ermittlung
der Pitch-Periode gegenüber der mit dem Autokorrelationsverfahren erreichbaren nicht schlechter sein. Das ist für den Fachmann nicht
selbstverständlich, da mit der geringeren Amplitudenauflösung des Delta-Bitstroms bei gleicher zeitlicher Auflösung scheinbar zwangsläufig
eine Qualitätsverschlechterung verknüpft ist. Das Gegenteil ist der Fall.
Wenn es möglich ist, die 8-Bit-Wörter durch 1-Bit-Wörter zu ersetzen,
ergibt sich offensichtlich ein grosser Gewinn an Rechenzeit bzw. Schaltungsaufwand. Anstelle der Multiplikationsoperation hat man es
mit einer einfachen logischen Operation zu tun, und die Auf summierung soperation
(Addierwerk) reduziert sich auf eine Zähloperation» Bekanntlich ist auch der Delta-Modulator billiger als ein PCM-Moduiaior.
409828/0673
SZ 9-72-006 ' - 8 - ■
SZ 9-72-006 ' - 8 - ■
Fig. 3 zeigt ein Blockschaltbild einer Schaltungsanordnung zum Durchführen des erfindungsgemässen Verfahrens, anhand
welcher das Verfahren selbst erklärt wird. Die Anordnung weist einen
• Delta-Modulator und Vorzeichenabtaster 10 auf, dem das Audio-Eingangssignal
zugeführt wird, sowie eine Schieberegistereinheit 11,. einen Binär-Merkmal-Extraktor 12 und einen Zähler 13.
Einzelheiten des Delta-Modulators .10 sind in Fig. 4 gezeigt» Ueber
einen Eingang 14 wird das Audio-Eingangssignal dem positiven Eingang
eines Differenzenverstärkers 15 zugeführt. Daran angeschlossen ist ein Quantisierer 16, der das Analog-Signa lin einen Delta-Bitstrom
umwandelt. Vom Ausgang des Quantlsierers 16 führt ein Rückkopplungszweig mit einem Digital/Anälog-Wandler 17 auf den negativen Eingang
des Differenzenverstärkers 15.
Das Audio-Eingangssignal wird vom Eingang 14 auch einem getasteten
Quantisierer 18 zugeführt, der daraus eine Vorzeichen-Funktion ableitet.
In der bisher beschriebenen Form ist der Delta-Modulator 10. für das
erfindungsgemä sse Verfahren noch unzureichend, bei kleinen Eingangssignalen würde nämlich der Delta-Schritt des Digital/Analog-Wandlers
viel zu gross, und man könnte demzufolge kleine Schwingungen im
409828/0S73 -
SZ 9-72-006 -9-
Sprach signal nicht mehr erfassen. Andererseits wäre die konstante
Delta-Schrittgrösse bei grossen Amplituden und lautem Sprechen
zu klein, und der Modulator wäre nicht in der Lage, schnellen Anstiegen des Sprachsignals korrekt zu folgen. Im zuerst genannten
Fall entsteht eine lange Folge von "!"-Bits und "O"-Bits im Wechsel,
im zweiten Fall entsteht eine lange Folge von "1"-Bits, wenn das Sprachsignal stark ansteigt, bzw. eine lange Folge von "O"-Bits,
wenn das Signal stark abfällt. In beiden Fällen enthält der Bit strom wenig Entropie, das heisst wenig digitale Information.
Abhilfe kann hier geschaffen werden durch Einführung einer Vorwärts-Schrittgrössen-Steuerung
19, deren Steuergrösse aus dem ankommenden Audio-Eingangs signal abgeleitet wird. Dadurch kann man die Schrittgrösse
des Ausgangssignals des Digital/Analog-Wandlers 17 der Signalform so anpassen, dass die geschilderten, auch als granuläres
Rauschen bzw. Flankenübersteuerung bezeichneten Effekte nur unmerklich in Erscheinung treten.
Die Schrittgrössen-Steuerüng 19 weist ein Differenzierglied 20 auf,
dem das Sprachsignal vom Eingang 14 zugeführt wird. Das Ausgangssignal des Differenziergliedes ist dem Gradienten des Sprachsignals
proportional, es wird in einem Zweiweggleichrichter 21 gleichgerichtet,
um die Grosse des Gradienten zu ermitteln.
4098 28/06 7 3
SZ9-72-006 - 10 -
Dem Gleichrichter 21 ist ein .leckbehafteter Integrator 22 nachgeschaltet,
der die von Differenzierglied 20 und Gleichrichter gelieferten Werte der ersten Ableitung des Sprachsignals in gewichteter
Form summiert, d.h. mittelt, und ein Gleichstromsignal
liefert, das nur positiv sein kann,.und das ein Mass ist für die
nähere Vergangenheit des Sprachsignals, in Bezug auf die zur
—bestmöglichen. Codierung des Sprachsignals erforderliche Schrittgrösse.
Das Ausgangssignal der Sehrittgrössen-Steuerung 19 auf der Leitung
23 richtet sich also nach der Grösse der ersten Ableitung des Sprachsignals,
das heisst, für kleine Audio-Eingangs signale werden die
ersten Ableitungen klein, und entsprechend wird auch das Signal auf der Leitung 23 klein. Für Audio-Eingangssignale mit grosser Amplitude
oder für Signale mit hohem Frequenzanteil wird das Äusgangssignal entsprechend gross sein. r
Es ist nun erforderlich, das Aus gangs signal des Digital/Analog-Wandlers
17 durch das Ausgangs signal der Sehrittgrössen-Steuerung
19 in geeigneter Weise zu beeinflussen, so dass unabhängig von der
Amplitude des Sprachsignals und unabhängig von seinem Frequenzanteil
409828/06 7 3
SZ 9-72-006 . - 11 -
SZ 9-72-006 . - 11 -
immer eine angepasste Codierung stattfindet. Zu diesem Zweck ist ein Multiplizierglied 24 vorgesehen, dem die genannten Ausgangssignale
zugeführt werden und das bewirkt, dass der Delta-Modulator einen Bitstrom liefert, der aus einer sehr stark dekorrelierten Folge
von "1"- und "O"-Bits besteht und daher einen grossen digitalen Informationsgehalt
hat. Der Ausgang des Multipliziergliedes 24 ist an den negativen Eingang des Differenzenverstärkers 15 angeschlossen, der
einen Vergleich des Audio-Eingangssignals mit dem rekonstruierten Signal durchführt. '
Der nun am Ausgang des Delta-Modulators 10 auftretende Delta-Bit strom
ist nicht mehr deterministisch, das heisst, allein aus dem Delta-Bit strom
kann die ursprüngliche Form des Audio-Eingangssignals nicht rekonstruiert
werden, da der Multiplikationsfakt'or, der in der Schrittgrössen-Steuerung
aus dem Eingangssignal abgeleitet worden ist, nicht-mehr
bekannt ist und auch nicht mehr wiedergewonnen werden kann.
Es sind bereits ähnliche Schrittgrössen-Steuerschaltungen für Deltacodierung vorgeschlagen worden, wobei parallel zum entstehenden
Delta-Bitstrom auch die Ausgangs spannung der Steuerschaltung übertragen wird. Dabei entsteht ein deterministisches Signal, und man könnte
also aus dem Multiplikator und dem Delta-Bitstrom das ursprüngliche Audio-Eingangssignai exakt rekonstruieren.
409828/0673
SZ 9-72-006 - 12 -
Für das erfindungsgemässe Verfahren kommt es nur darauf an,
dass der Delta-Bitstrom möglichst viel digitale Information enthält. Die im Delta-Bitstrom vorkommenden Werte"!" und "0" können
elektrisch beispielsweise als Spannungen von +1V bzw -IV dargestellt
werden. Entsprechend hat der vom Quantisierer und Abtaster 18 abgeleitete
Vorzeichen-Bitstrom ebenfalls die beiden Werte "1" und "Ο"« denen auch wieder Spannungen von +1VbZW0 -IV entsprechen.
Die Delta- und Vörzeichen-Bitströme werden der Einheit 11 zugeführt,
die vier Umlaufspeicher iri der Form von Schieberegistern enthält, ·
die je eine Wortgrösse von 1 bit und eine Länge von H«f haben, '
wobei H die Fenstergrösse in Sekunden und f die Abtastfrequenz
in Hertz bedeuten. Je ein Schieberegister ist erforderlich für die fortlaufende
Speicherung des Delta-Bitstroms und des Vorzeichen-Bitstroms.
Zwei weitere Schieberegister sind für die Charakterisierung der Vergangenheit der beiden Bitströme erforderlich. Dementsprechend weist
die Einheit 11 vier Ausgänge auf, die Ausgangs signale für den Delta-Bit
strom an den Stellen t und X-X , und für den Vorzeichen-Bit strom
an den Stellen t und t-τ führen. .
Die Ausgänge der Schieberegistereinheit 11 sind an den Binär-Merkmal-Extraktor
12 angeschlossen. Die Schieberegister arbeiten mit dem *
409828/0673
SZ 9-72-006 -13-
Extraktor 12 im Zeitmultiplex. Um die Erklärung des Extractors
zu vereinfachen,,wird von der Vorstellung des Raummultiplex ausgegangen.
In Fig. 1 ist ein volles Schieberegister 25 um die Zeit
entsprechend T-f Abtastintervallen gegenüber dem laufenden
s
Bitstrom verschoben dargestellt. Man kann sich vorstellen, dass diese Verschiebung pro Abtastintervall um eine Stelle nach rechts
erfolgt. Das Register 25 möge die Grosse des Fensters H haben, das können beispielsweise 240 bit sein. Damit wird im laufenden
Bit strom eine Bitfolge gleicher Länge abgedeckt. Nach Ablauf der Zeit γ sind die beiden (sich in Registern befindenden) Bitfolgen
miteinander in Vergleich zu bringen. Diese Vergleichsoperation wird vom Binär-Merkmal-Extra ktor 12 ausgeführt. Das Vergleichsergebnis
wird im Zähler 13 auf summiert und ergibt einen Wert für die Aehnlichkeit der um t verschobenen Funktion.
In Analogie zum Korrelationsverfahren würde sich der Vergleich
der Registerinhalte auf eine Multiplikation der jeweils übereinanderliegenden
Delta-Bits und auf eine Summierung der Einzelergebnisse reduzieren. Ein solches Verfahren ist nicht sehr wirksam,
es führt zu flachen Ausgangsfunktionen.
SZ 9-72-006 409828/0^3
Stattdessen werden in einem Schritt des erfindungsgemässen
Verfahrens die Eigenschaften der Bitfo.lgen in den beiden Registern
untersucht und gewisse Merkmale extrahiert. Beispielsweise können als Merkmale die erste und die zweite digitale Ableitung in Betracht
gezogen werden. Die zweite Ableitung D wird auch als "Krümmung" bezeichnet. Es wirdauf die Figuren 5 und 6 verwiesen.
Die erste Ableitung D1 des Signals an jeder Stelle des Schieberegisters
kann mit Hilfe von zwei benachbarten Bits dargestellt werden. Diese
werden als Bit 1 und Bit 2 bezeichnet. Wenn beide Bits positiv sind, hat man es mit einer positiven Ableitung D1 zu tun. Haben zwei aufeinanderfolgende
Bits verschiedene Vorzeichen, so wird die Ableitung D. Null gewertet. Dies entspricht im Delta-Modulator dem sogenannten
Leerlauf-Fall. Wenn die beiden benachbarten Bits negativ sind, wird
die erste digitale Ableitung D; als negativ gewertet.
Das zweite Merkmal, die digitale Krümmung, an der gleichen Stelle
in beiden Schieberegistern wird mit Hilfe von drei benachbarten Bits
bestimmt, die als Bit 1, Bit 2 und Bit 3 bezeichnet werden (Fig. 6).
Diese drei Bits körinen in acht verschiedenen Kombinationen ihrer Binärwerte "1" und "0" auftreten, und dementsprechend sind acht verschiedene
409828/067 3
SZ 9-72-006 - 15 -
SZ 9-72-006 - 15 -
zweite Ableitungen D9 oder Krümmungen.möglich." Wenn alle drei
Bits gleich 11I" sind, hat man eine Krümmung von der Grosse 0. Wenn
Bit 3 und Bit 2 gleich "1" sind und Bit 1 gleich "0" ist, dann liegt
.eine negative Krümmung vor. Wenn Bit 3 gleich "0" ist und Bit 2 und
Bit 1 gleich "1", ist auch die zweite Ableitung D positiv, usw.
Die Merkmale D1 und D0 sind ternär, das heisst, es gibt ein
Alphabet, das drei Positionen aufweist. Beide Merkmale D. und D9
sind im Sinne der Differentialrechnung abgeleitet worden. Es ist aber zu beachten, dass das beschriebene Beispiel nur eine grobe
Annäherung an den wirklichen Verlauf des Sprachsignals an dieser Stelle darstellt, denn beispielsweise ist die Schrittgrösse von Abtastpunkt
zu Abtastpunkt nicht konstant.
Im beschriebenen Beispiel wurden jeweils nur zwei Merkmale der Bitfolgen bestimmt. Die Anzahl der Merkmale könnte ohne weiteres
vergrössert werden, und man könnte auch die dritte und vierte Ableitung noch in Betracht ziehen.
Nachdem längs der Bitfolgen an jeder Bitposition die beiden Merkmale
D. und D_ bestimmt worden sind, müssen die Merkmale miteinander in
Beziehung gebracht werden. Ein Beispiel für diese Beziehung ist in Fig.
409828/0673
SZ 9-72-006 - 16 -
dargestellt. Das die laufenden Abtastwerte enthaltende Register 26
kann an jeder Stelle drei verschiedene Werte der ersten Ableitung
haben. Das gleiche gilt für das die zu einem Fenster H. gehörenden
Abtastwerte enthaltende Register 25, so dass sich ein Total von neun
verschiedenen Kombinationsmöglichkeiten ergibt. Diese sind in der ersten Spalte der Fig. 7 aufgetragen. In der zweiten Spalte ist
jeder der neun Kombinationen der Merkmale ein Wert +1, 0 bzw. -1
zugeordnet. Für die Fälle, wo ein Merkmal zu den Zeiten t undt-Y
eine Kombination aus "0" und einem Vorzeichen (+ oder -) aufweist,
wird festgelegt, dass der Stand des Zählers 13. nicht geändert werden soll. Für die Fälle, wo ein Merkmal zu den Zeiten t und t-Ϋ unterschiedliche
Vorzeichen hat, soll der Stand des Zählers 13. um eine
Einheit verringert werden. Für die Fälle schliesslich, in denen gleiche
Merkmale vorliegen, soll allein auf die Vorzeichen der effektiven und
der verschobenen Funktionen abgestellt werden. Das kann in der Weise
erfolgen, dass die Vorzeichen der Funktionen an den Stellen t und t-T
miteinander multipliziert werden, was Werte von +1 oder -1 ergeben
kann. Diesen Werten entsprechend wird der Zähler 13 um einen Schritt
aufwärts oder abwärts gezählt.
Es ist damit klar, dass nicht nur der Delta-Bitstrom untersucht wird.
sz 9-72-006 409828/(^7
sondern gewisse Entscheidungen auch vom Vorzeichen abgeleitet
ι« .
werden (vergl. Fig. 3). Aus diesem Grund sind, wie erwähnt, nicht
nur zwei sondern vier Umlaufspeicher in der Einheit 11 vorzusehen.
Es ist noch darauf hinzuweisen, dass das oben erläuterte Schema (Fig. 7)
auf beide Merkmale D und D in gleicher Weise angewandt wird. Im
hier betrachteten Fall des Raummultiplex wäre der Vergleich der Merkmale bzw. der Vorzeichen an jeder Position der Schieberegister durchzuführen,
und nach dem Schema der Fig. 7 ergibt sich an jeder Position ein Resultat, das +1, 0 oder -1 lauten kann. Die von den beiden Merkmalen D. und
D„ (erste bzw. zweite digitale Ableitung, zum Beispiel) geleisteten
Beiträge werden dem Zähler 13 zugeführt und ergeben für den Vergleich der Registerinhalte nach Ablauf der Zeit τ einen bestimmten Zählerstand.
Wenn die geschilderte Operation für alle Schritte Ύ,·ί8 , . **V*S >
^*3*fs » usw* durchgeführt ist, und die erhaltenen Zählerstände C (r)
über der Zeit -V aufgetragen werden, ergibt sich ein Diagramm gemäss
Fig. 8. Der Zählerstand an der Stelle -T=O hat für den gewählten Fall
einer Registerlänge von 240 bit den Wert 480, da zwei Merkmale D, und D2 in Betracht gezogen worden sind. Für Zeiten *X ψ 0 kann es vorkommen,
dass die Beiträge 0 oder -1 werden. Dedialb fällt die Kurve für die Zähler-Stände
C (z) für Zeiten t>0 zunächst stark ab. Wenn das Schieberegister
26 um eine ganze (zunächst noch unbekannte) Pitch-Periode nach rechts
409828/0673
SZ 9-72-006 - 18 -
verschoben worden ist, besteht grosse Wahrscheinlichkeit, dass
alle Merkmale und Vorzeichen, die aus den in den Registern enthaltenen
Bitfolgen abgeleitet werden können, wieder miteinander übereinstimmen. An der betreffenden Stelle ergibt sich daher ein
Maximum des Zählerstandes C- C^)-Aus der Zeit χ vom Beginn des
Vergleichs bis zum Auftreten des genannten Maximums kann direkt
auf die gesuchte Pitch-Periode geschlossen werden.
Aus Gründen der besseren Verständlichkeit wurden die Extraktion · der Merkmale und der Merkmal vergleich im Raummultiplex erklärt',
d.h, an jeder Position der Schieberegister wurde ein Vergleich
durchgeführt. Tatsächlich erfolgen die nötigen Operationen im Zeitmultiplex,
wobei man die Schieberegister ständig von hinten nach vorn umlaufen lässt, so dass man Zugriff zu allen Plätzen innerhalb
der Register erhält. Die logischen Operationen, die alle mit einfachen
Verknüpfungsgliedern ausgeführt werden können, werden sukzessive für jedes Bit durchgeführt, wodurch bei dem beschriebenen Beispiel .
239 Vergleichsschaltungen eingespart werden können. · _· - .
In Fig. 9 ist das Ergebnis der Bestimmung der Pitch-Periode T für den stimmhaften Laut "e" graphisch dargestellt. Auf der Abszisse
ist die Zeit ^aufgetragen, die am Beginn der Vergleiehsöperatiön zu
40,9828/0673
SZ 9-72-006 - 19 -
laufen beginnt. Auf der Ordinate ist links der normalisierte Wert ILJtJ/rJO) der Autokorrelationsfunktion und rechts der Stand C(r)
des Zählers 13 aufgetragen.
Die Autokorrelationsfunktion für den Laut "e" wurde mit dem Computer bestimmt, wobei das analoge Sprach signal mit einer Abtastfrequenz
von 20 kHz abgetastet und die Amplitudenwerte mit einer Auflösung von 13 bit PCM-codiert wurden. Die gestrichelte Kurve 27
repräsentiert die berechnete Pitch-Funktion, wobei für die Pitch-Periode
ein Wert von T =9,150 ms ermittelt wurde. Es ist darauf hinzuweisen,
ο
dass das Maximum für die beiden Werte R^(f)/R (0) = 0,5 eine Breite
von 1,35 ms aufweist, das sind rund 15% der Pitch-Periode.
Die Ermittlung der Pitch-Periode des Lauts "e" mit dem erfindungsgemässen
Verfahren ergibt die voll ausgezogene Kurve 28. Dabei wurde wiederum eine Abtastfrequenz von 20 kHz angewandt und die
Amplitudenwerte mit einer Auflösung von 1 bit delta-codiert. Die
Fensterbreite H wurde zu 12 ms gewählt. Die auf diese Weise ermittelte
Pitch-Periode T = 9,150 ms stimmt mit dem nach dem Autokorrelation ο
verfahren ermittelten Wert exakt überein. Es ist jedoch darauf hinzuweisen,
dass die Schärfe des erhaltenen Maximums mit 0,1 ms für
SZ 9-72-006 - 20 -
409828/0673
die beiden Werte von C (T )/2 mit nur knapp 1% von T eine
ο ο
wesentlich genauere Bestimmung der Pitch-Periode gestattet.
Ein weiterer Vorteil des erfindungsgemässen Verfahrens ist darin zu sehen, dass bei der Funktion C (Y) der Abstand zwischen
Haupt-und Nebenmaxima im Vergleich zum Korrelationsverfahren vergrössert wird.
Das vorstehend beschriebene Schema mit der vorgeschlagenen
Extraktion der ersten und zweiten digitalen Ableitungen sowie deren
Verknüpfung und Vergleich ist nur^eine der möglichen Lösungen
im Rahmen des erfindungsgemässen Verfahrens. Wesentlich sind die Verwendung eines digitalen, binären Bitstroms und eines geschickt
gewählten Schemas zum Ableiten von geeigneten Merkmalen und ihrer
Verknüpfung.
409828/067 3
SZ 9-72-006 -21 -
Claims (6)
- PATENTANSPRÜCHEO Verfahren zum Ermitteln des der Periode der Anregungsfrequenz der Stimmbänder entsprechenden Intervalls mittels Abtastung des analogen Sprachsignals, Quantisierung der Signalamplitude und Codierung des Quantisierungssignals, dadurch gekennzeichnet, dass die Quantisierung und Codierung der Signalamplitude durch einen adaptiven Delta-Modulator (10) erfolgt, der für jeden Abtastzeitpunkt ein Delta-Bit erzeugt, und dass durch einen Polaritätsabtaster (18) zu jedem Delta-Bit ein dem Vorzeichen des Sprachsignals entsprechendes Vorzeichenbit erzeugt wird, welche Bitströme jeweils einem Paar von Umlaufspeichern (11) zugeführt werden, in deren einem Paar (26) die laufenden Binärwerte·und in deren anderem Paar (25) zeitverschobene Binärwerte gespeichert werden, dass aus den laufenden und den zeitverschobenen Binärwerten je wenigstens erste und zweite Merkmale (D. , D_) extrahiertund nach einem vorgewählten Schlüssel (Fig. 7) miteinander verglichen werden, und dass die Vergleichsergebnisse logisch verknüpft und bewertet werden und die Bewertungen zum Ansteuern eines Zählers (13) benutzt werden, wobei das Intervall vom Beginn des Vergleichs (T= 0) bis zum wenigstens angenäherten Wiedererreichen des Ausgangszählerstandes [C(O)] der Periode (T ) der Anregung sfrequenz entspricht.SZ 9-72-006 - 22 -4 09828/0673
- 2. Verfahren nach Ansprch 1, dadurch gekennzeichnet, dass die Schrittgrösse des adapt!ven Delta-Modulators (10) mittels eines Differenziergliedes (20), eines Gleichrichters (21) und eines leckbehafteten Integrators (22) aus dem Eingangs-Sprachsignal abgeleitet und über ein Multiplizierglied (24) auf einen Eingang (-) eines Differenzverstärkers (15) gegeben wird, in dessen anderen Eingang (+) das Eingangs-Sprachsignal eingespeist wird.
- 3. Verfahren nach Anspruch 1 und/oder 2, dadurch gekennzeichnet, dass in dem Multiplizierglied (24) die feste Schrittgrösse eines mit dem Ausgangsbitstrom des Delta-Modulators (10) gespeisten Digital/Analog-Wandlers (17) mit der vom Ausgang (23) des integrators (22) gelieferten adaptiven Schrittgrösse multipliziert wird.
- 4. Verfahren nach einem oder mehreren der Ansprüche 1 bis3, dadurch gekennzeichnet, dass aus den laufenden und den zeitverschobenen Binärwerten je die erste digitale Ableitung dadurch gebildet wird, dass jeweils zwei benachbarte Delta-Bits verglichen werden und dass entsprechend ihren Werten nach einem vorgegebenen festen Schlüssel (Fig. 5) ein ternäres Merkmal (D1) gebildet wird.
- 5. Verfahren nach einem oder mehreren der Ansprüche 1 bis4, dadurch gekennzeichnet, dass aus den laufenden und den zeitverschobenen Abtastwerten je die zweite digitale Ableitung dadurch gebildet wird, dass jeweils drei be-409828/0673
SZ 9-72-006 - 23 -nachbarte Delta-Bits verglichen werden und dass entsprechend ihren Werten nach einem vorgegebenen festen Schlüssel (Fig. 6) ein ternäres Merkmal (D2) gebildet wird. . - 6. Verfahren nach einem oder mehreren der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass im Falle des Nichtübereinstimmens der Werte der Merkmale für den laufenden Bitstrom D.(t) bzw. D_(t) mit den entsprechenden Werten der Merkmale für den zeitverschobenen BitstromD, (t-τ) bzw. Dn(t-τ)nach einem festen Schlüssel(Fig. 7) ein ternäres Bit erzeugt wird, und dass bei Gleichheit der genannten Werte ein ternäres Bit erzeugt wird durch Multiplikation der aus dem analogen Sprachsignal mittels eines Quantisierers (18) abgeleiteten laufenden und zeitverschobenen Vorzeichenbits.409828/0673
SZ9-72-OO6 - 24 -
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CH1906072A CH549849A (de) | 1972-12-29 | 1972-12-29 | Verfahren zum ermitteln des der periode der anregungsfrequenz der stimmbaender entsprechenden intervalls. |
Publications (1)
Publication Number | Publication Date |
---|---|
DE2357949A1 true DE2357949A1 (de) | 1974-07-11 |
Family
ID=4437086
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19732357949 Pending DE2357949A1 (de) | 1972-12-29 | 1973-11-21 | Verfahren zum ermitteln des der periode der anregungsfrequenz der stimmbaender entsprechenden intervalls |
Country Status (6)
Country | Link |
---|---|
JP (1) | JPS5339206B2 (de) |
CH (1) | CH549849A (de) |
DE (1) | DE2357949A1 (de) |
FR (1) | FR2212980A5 (de) |
GB (1) | GB1436440A (de) |
IT (1) | IT1013586B (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2649259A1 (de) * | 1976-10-29 | 1978-05-03 | Tekade Felten & Guilleaume | Verfahren zur automatischen verarbeitung von gestoerter telefonsprache |
DE2918533A1 (de) * | 1978-05-08 | 1979-11-15 | John Marley | Spracherkennungssystem |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5772199A (en) * | 1980-10-23 | 1982-05-06 | Tokyo Shibaura Electric Co | Voice recognition device |
JPS5895398A (ja) * | 1981-11-30 | 1983-06-06 | 松下電工株式会社 | 音声メッセージ識別方法 |
US4633748A (en) * | 1983-02-27 | 1987-01-06 | Casio Computer Co., Ltd. | Electronic musical instrument |
GB2145864B (en) * | 1983-09-01 | 1987-09-03 | King Reginald Alfred | Voice recognition |
GB9817500D0 (en) * | 1998-08-12 | 1998-10-07 | Domain Dynamics Ltd | Advantageous time encoded (TESPAR) signal processing arrangements |
CN112542160B (zh) * | 2019-09-05 | 2022-10-28 | 刘秀敏 | 声学模型的建模单元的编码方法、声学模型的训练方法 |
-
1972
- 1972-12-29 CH CH1906072A patent/CH549849A/de not_active IP Right Cessation
-
1973
- 1973-11-15 GB GB5296173A patent/GB1436440A/en not_active Expired
- 1973-11-20 FR FR7342456A patent/FR2212980A5/fr not_active Expired
- 1973-11-21 DE DE19732357949 patent/DE2357949A1/de active Pending
- 1973-12-14 JP JP13886773A patent/JPS5339206B2/ja not_active Expired
- 1973-12-20 IT IT4483573A patent/IT1013586B/it active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2649259A1 (de) * | 1976-10-29 | 1978-05-03 | Tekade Felten & Guilleaume | Verfahren zur automatischen verarbeitung von gestoerter telefonsprache |
DE2918533A1 (de) * | 1978-05-08 | 1979-11-15 | John Marley | Spracherkennungssystem |
Also Published As
Publication number | Publication date |
---|---|
JPS5339206B2 (de) | 1978-10-20 |
GB1436440A (en) | 1976-05-19 |
IT1013586B (it) | 1977-03-30 |
FR2212980A5 (de) | 1974-07-26 |
JPS4999203A (de) | 1974-09-19 |
CH549849A (de) | 1974-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2918533C2 (de) | ||
DE3236832C2 (de) | Verfahren und Gerät zur Sprachanalyse | |
DE3236834C2 (de) | Verfahren und Gerät zur Sprachanalyse | |
DE2659096C2 (de) | ||
DE69127818T2 (de) | System zur verarbeitung kontinuierlicher sprache | |
DE68912692T2 (de) | Zur Sprachqualitätsmodifizierung geeignetes Übertragungssystem durch Klassifizierung der Sprachsignale. | |
DE69311303T2 (de) | Sprachtrainingshilfe für kinder. | |
DE69013738T2 (de) | Einrichtung zur Sprachcodierung. | |
DE2326517A1 (de) | Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern | |
DE2820645A1 (de) | Vorrichtung und verfahren zur spracherkennung | |
DE69920047T2 (de) | Detektion von reiner sprache in einem audio signal, mit hilfe einer detektionsgrösse (valley percentage) | |
DE2825110A1 (de) | Verfahren zur erkennung kontinuierlicher sprachsignale | |
EP0076234A1 (de) | Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung | |
DE2753707A1 (de) | Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache | |
DE2825082A1 (de) | Verfahren zur spracherkennung | |
DE3012771C2 (de) | ||
DE4031638C2 (de) | ||
EP1280138A1 (de) | Verfahren zur Analyse von Audiosignalen | |
DE69635141T2 (de) | Verfahren zur Erzeugung von Sprachmerkmalsignalen und Vorrichtung zu seiner Durchführung | |
DE69127134T2 (de) | Sprachkodierer | |
DE2636032C3 (de) | Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal | |
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
DE69017842T2 (de) | Verfahren und Einrichtung zur Codierung von Prädiktionsfiltern in Vocodern mit sehr niedriger Datenrate. | |
DE60023851T2 (de) | Verfahren und vorrichtung zur erzeugung von zufallszahlen für mit 1/8 bitrate arbeitenden sprachkodierer | |
DE3750365T2 (de) | Sprecheridentifizierung. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OHJ | Non-payment of the annual fee |