DE2636032A1 - Schaltungsanordnung zum extrahieren der grundfrequenz aus einem sprachsignal - Google Patents
Schaltungsanordnung zum extrahieren der grundfrequenz aus einem sprachsignalInfo
- Publication number
- DE2636032A1 DE2636032A1 DE19762636032 DE2636032A DE2636032A1 DE 2636032 A1 DE2636032 A1 DE 2636032A1 DE 19762636032 DE19762636032 DE 19762636032 DE 2636032 A DE2636032 A DE 2636032A DE 2636032 A1 DE2636032 A1 DE 2636032A1
- Authority
- DE
- Germany
- Prior art keywords
- speech
- residual value
- circuit arrangement
- period
- low
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010355 oscillation Effects 0.000 claims description 28
- 238000004458 analytical method Methods 0.000 claims description 15
- 238000013139 quantization Methods 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 claims description 3
- 238000000034 method Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 13
- 238000000605 extraction Methods 0.000 description 9
- 238000005070 sampling Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 230000001755 vocal effect Effects 0.000 description 6
- 238000007906 compression Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 230000000737 periodic effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- BSYNRYMUTXBXSQ-UHFFFAOYSA-N Aspirin Chemical compound CC(=O)OC1=CC=CC=C1C(O)=O BSYNRYMUTXBXSQ-UHFFFAOYSA-N 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005530 etching Methods 0.000 description 1
- 210000003746 feather Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000004043 responsiveness Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Time-Division Multiplex Systems (AREA)
- Television Receiver Circuits (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Description
6 Frankfurt a M. 1 8519 Parkairaße 13
NIPPON TELEGRAPH AND TELEPHONE PUBLIC CORPORATION, Tokyo, Japan
Schaltungsanordnung zum Extrahieren der Grundfrequenz aus einem Sprachsignal
Die Erfindung betrifft Schaltungsanordnungen zum Extrahieren
der Grundschwingung aus einem Sprachsignal, die einen wirtschaftlichen
Aufbau eines Sprachanalysators gestatten.
Zur Erhöhung des Wirkungsgrades der Kommunikation zwischen einem Sprecher und einem Datenübertragungssystem mit Bandkompression
oder einem Informationsprozessor ist ein Verfahren zur Sprachanalyse und -synthese entwickelt worden,
das in neuen Datenübertragungsanlagen, telefonischen Platzreservierungsanlagen, Auskunftsdiensten in Flughafen und
Bahnhöfen praktisch angewendet wird.
Eine Sprachschwingung ist eine Tonschwingung, die von den Lippen oder der Nase ausgeht, wenn Stimmbandschwingungen
(bei stimmhafter Quelle)oder Geräuschschwingungen(bei nicht
stimmhafter Quelle)als turbulente Strömung durch die Verengung des Stimmtraktes hindurchgehen und in den Stimmtrakt eintreten.
Im Falle einer Sprachsynthese wird eine glottale Sprachquelle durch Erregung eines Impulsgenerators erzeugt und eine
709808/0857
"2 ' 2636
Quelle für turbulente Laute durch Erregung eines Generators für weißes Rauschen gebildet. Der St4.mmtrakt wird mit einem
elektrischen Schaltungsäquivalent bezüglich seiner Übertragungsfunktion nachgebildet und der Strahler durch einen Lautsprecher·
Zur Sprachanalyse gehört eine Analyse der Schallquelle zur :
quantitativen Erfassung der Eigenschaften der Schallquelle, die den angetriebenen Stimmtrakt enthält,sowie eine Analyse
des Frequenzganges in bestimmten Ze it Intervallen (10 bis 30 Millisekunden) ,den die Übertragungsfunktion des Stimmtraktes
aufweist. Die Schallquellenanalyse erfordert eine quantitative Extraktion von drei Faktoren, d.h. von einem Unterscheidungssignal zwischen einem Impulszug (einem stimmhaften Ton) und
einem Rauschen (einem nicht stimmhaften Ton), ferner der Tonhöhe des Impulszuges (des stimmhaften Tones) und der Amplitude
des Impulszuges (des stimmhaften Tones) oder des Rauschens (des nicht stimmhaften Tons). Diese Faktoren verändern sich
aber mit recht hoher Geschwindigkeit und lassen sich daher nur sehr schwierig genau analysieren. Besonders die Grundschwingungsdauer
der Sprache ist selbst im Fall eines stimmhaften Tones sehr schwierig genau zu extrahieren, weil sie nicht streng
periodisch verläuft und sich in jedem Augenblick in Übereinstimmung mit der Intonation der Sprache ändert ,und da sie
Störungen durch den Mechanismus der Stimmerzeugung sowie durch den Einfluß der Übertragungscharakteristik des
Stimmtraktes unterliegt.
Es sind verschiedene Sprachanalyse-Synthesesysteme bekannt, z.B. eine Kurzzeit-Spektralanalyse unter Verwendung einer
Bandpaßfiltergruppe .sowie einer Formantfrequenzbestimmung mit
Hilfe eines Zählverfahrens für die Nulldurchgänge usw. Aus diesen Systemen ist auch ein partielles Autokorrelationssystem
(PARCOR) als eins der günstigsten Mittel für die Datenkompression,
für die Qualität der synthetischen Sprache und
709808/0857
"3" 26 3 6 O 3
die automatische Extraktion der charakteristischen Sprachparameter bekannt.
Wie oben erwähnt wurde, ist bei der Sprachanalyse und -synthese die Grundschwingungsperiode der Sprache einer der drei wichtigen
Schallquellenparameter. Wenn man diesen Parameter mit dem Parcorsystem extrahiert, wird ein Restwert der Ausgangsgröße
eines Analysators zur Erfassung eines Parcorkoeffizienten einem Autokorrelator zugeführt, um den Autokorrelationskoeffizienten
zu extrahieren und eine Verzögerungszeit T, welche dem Spitzenwert dieses Koeffizienten entspricht, wird
als die Grundschwingungsperiodendauer der Sprache betrachtet.·
Auch bei anderen Sprach-Analyse-Synthesesystemen wird eine
Sprachschwingung einem Filter zugeführt, das eine inverse Kennlinie des Frequenzganges aufweist, der denjenigen der
Sprachschwingung annähert,und die Schwingung am Ausgang des Filters wird als ein Restwert benutzt, um die Grundschwingungsperiode
der Sprache mit Hilfe des oben erwähnten Verfahrens zu erhalten.
Da jedoch der Restwert ein Signal ist, welches nur ein Merkmal
für einen winzigen Bestandteil des Sprachspektrums ist und einen impulsförmigen Verlauf hat, leiden die oben erwähnten
Verfahren des Extrahierens an dem Fehler, daß eine doppelte oder halbe Schwingungsdauer der Grundschwingung unter Umständen
irrtümlich extrahiert wird, wenn nicht die Abtastdauer sehr kurz gewählt wird. Wenn ferner der Restwert durch niedrige
Bitzahlen dargestellt wird, ist diese Gefahr besonders groß und eine Quantisierung des Restwertes durch niedrige Bitzahlen ist
. schwierig.
Der Autokorrelator muß daher ein Element sehr hoher Geschwindigkeit enthalten, da die Arbeitsweise hoher Präzision in einer
709808/0857
kurzen Zeit durchgeführt werden muß. Hierdurch ergeben sich große Schwierigkeiten bei der praktischen Durchführung des
Verfahrens.
Bei dem in der US-PS 3,740,476 beschriebenen Verfahren wird
ein von einem Tiefpaßfilter abgeleiteter Restwert einer Einweggleichrichtung unterworfen, um nur die positive Komponente
zu erhalten und der Spitzenwert in einer bestimmten Periode wird mit Hilfe eines Spitzenwertermittlers ausgewählt und
die sich ergebende Schwingung wird weiteren Verfahren z.B. der Unterdrückung von Komponenten, die niedriger als ein Schwellwert
sind, unterworfen, so daß die Grundschwingungsperiode der Sprache extrahiert wird.
In der Zeitschrift IEEE AU-20-5, 1972 ist ein Verfahren zum Extrahieren der Grundschwingung angegeben, bei dem ein Restwert einer 1/5-Abtastung unterworfen wird und dann einem
inversen Filter zugeführt wird, um eine Autokorrelation zu berechnen und dadurch die anfallende Rechenarbeit zu reduzieren.
Nachdem die Autokorrelation erhalten ist, wird die Verminderung des Auflösungsvermögens infolge der Abtastung
interpoliert, um die Grundschwingung ier Sprache zu extrahieren. Bei diesem Verfahren ist es jedoch notwendig, den
gleichen Vorgang wie beim Extrahieren des Parcorkoeffizienten getrennt durchzuführen.
In der Zeitschrift J.A.S.A., Band 56, 1974 ist ein Verfahren
angegeben, bei dem das Extrahieren der Grundschwingung nach dem Autokorrelationsverfahren mit einer geeigneten Hardware
durchgeführt wird. In diesem Fall ist es jedoch notwendig, da der Schwingungsverlauf der Sprache selbst der zu verarbeitende
Gegenstand ist, eine Mittenbegrenzung durchzuführen, um die' Formantkonstruktion der Sprache zu unterdrücken.
709808/0857
Die Parcor-Sprach-Analyse-Synthese-Anordnung, auf die die
Erfindung angewendet wird, wird in einem Datenübertragungssystem mit Bandkompression verwendet, wobei auf der Sendeseite
die Sprache in Parameter zerlegt wird, welche die Sprache effektiv darstellen und bei der auf der Empfangsseite die
ursprüngliche Sprache aufgrund dieser Parameter wieder zusammengesetzt wird.
In den letzten Jahren sind digitale Signalverarbeitungsverfahren dieser Art entwickelt und in die Praxis eingeführt
worden. Diese Verarbeitung jedoch ist so kompliziert, daß die
Geräte sehr teuer werden. Insbesondere ist der Aufwand für eine Schallquellenanalysiereinheit sehr groß und z.B. um eine Größenordnung
größer als der Aufwand fürL eine, den Frequenzgang
analysierende Einheit. Daher wäre eine Verminderung der Kosten durch Verwendung von LSI unmöglich, selbst wenn man eine weitere
Entwicklung der IC-Technik erwarten kann.
Der Erfindung liegt daher die Aufgabe zugrunde, einen nach wirtschaftlichen Gesichtspunkten ausgebildeten Sprachanalysator
zu schaffen. Dabei soll die Grundschwingungsperiode der Sprache derart extrahiert werden, daß unnötige hochfrequente Komponenten,
die in einem Restwert enthalten sind, durch ein Tiefpaßfilter unterdrückt werden, um einen Maximalwert des Autokorrelationskoeffizienten
in bestimmter Weise zu erfassen, so daß die Grundschwingungsperiode der Sprache genau und stabil extrahiert
'wird. "
Die Erfindung befaßt sich also mit einer Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode eines Sprachsignals,
bei der ein Restwert am Ausgang eines Tiefpaßfilters durch niedrige Bits dargestellt wird, um eine Vereinfachung der
arithmetischen Schaltung zu erreichen und das Speichervermögen
709808/0857
eines Speichers zu reduzieren, der den Restwert aufnimmt. Die Ansprechgeschwindigkeit der benötigten Bauelemente ist
verhältnismäßig niedrig, so daß die Herstellungskosten vermindert werden.
Die Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode
eines Sprachsignals gemäß der Erfindung hat den Vorteil, daß die Genauigkeit beim Extrahieren verbessert wird, wodurch
die Qualität der synthetischen Sprache in einem Datenübertragungssystem für die Sprache mit Bandkompression oder in
einem Audiowiedergabegerät verbessert wird.
Bei der Schaltungsanordnung der genannten Art wird lediglich die Information über das Vorzeichen eines Restwertes am Ausgang
eines Tiefpaßfilters benutzt, um den Aufbau der arithmetischen Schaltung zu vereinfachen und um das Speichervermögen des
Speichers zur Aufnahme des Restwertes zu vermindern und das notwendige Ansprechvermögen der Bauelemente herabzusetzen.
Gemäß der Erfindung werden bei einer bevorzugten Ausführungsform unnötige Komponenten eines Restwertes der Sprachschwingung,
die dem Filter zugeführt worden ist, das eine umgekehrte Frequenzcharakteristik wie das Sprachsignal hat, entfernt und
die Grundschwingungsperiode der Sprache wird aus dem Korrelationskoeffizienten des Restwertes extrahiert.
Bei einer anderen Ausführungsform der Erfindung werden die unnötigen Komponenten, die in dem Restwert enthalten sind,
unterdrückt und die Grundschwingungsperiode der Sprache wird aus den Korrelationskoeffizienten eines Signals extrahiert,
das den durch niedrige Bits gequantelten Restwert darstellt.
709808/0857
Bei einer weiteren Ausführungsform werden gemäß der Erfindung die unnötigen Komponenten des Restwertes unterdrückt und dann
wird die Grundschwingungsperiode der Sprache aus dem Korrelationskoeffizienten lediglich aufgrund des Vorzeichens des Restwertes
extrahiert.
Weitere Merkmale und Vorteile der Erfindung ergeben sich aus der folgenden Beschreibung von Ausführungsbeispielen, die in
den Zeichnungen dargestellt sind.
Fig. 1 zeigt ein Blockschaltbild eines Sprachanalysators mit einem Partialautokorrelator (PARCOR);
Fig. 2 zeigt ein ausführlicheres Schaltbild des Sprachanalysators nach Fig. 1}
Fig. 3 zeigt eine Schaltungsanordnung eines in Fig. 2
verwendeten Korrelationskoeffizientenrechners;
Fig. 4 ist ein Blockschaltbild, das eine übliche Schaltungsanordnung
zum Extrahieren der Grundschwingungsperiode des Sprachsignals darstellt;
Fig. 5 ist ein Diagramm, das den Verlauf einer Korrelationsschwingung darstellt;
Fig. 6 ist ein Blockschaltbild, das die Schaltungsanordnung
zum Extrahieren der Grundschwingungsperiode des Sprachsignals gemäß der Erfindung darstellt;
' Fig. 7 zeigt ein Ausführungsbeispiel eines digitalen
Filters, das in Fig. 6 verwendet wird;
7 09808/0857
Fig. 8 ist ein Diagramm, das den Schwingungsverlauf eines Restwertes in einem kurzen Zeitabschnitt bei einem
bekannten Gerät darstellt;
Fig. 9 ist ein Diagramm des Schwingungsverlaufs eines Korrelationskoeffizienten, wenn der Schwingungsverlauf des Restwertes bei einem bekannten Gerät
durch 12 Bits gequantelt ist;
Fig. 10 ist ein Diagramm des Schwingungsverlaufs eines Korrelationskoeffizienten, wenn der Restwert bei
dem bekannten Gerät durch ein Bit (nur durch das Vorzeichen) gequantelt ist;
Fig. 11 ist ein Diagramm des Schwingungsverlaufs eines
Restwertes, der durch ein Tiefpaßfilter gemäß der Erfindung erhalten wird;
Fig. 12 ist ein Diagramm des Schwingungsverlaufs eines
Korrelationskoeffizienten, wenn der Restwert des Tiefpaßfilters durch 12 Bits gemäß der Erfindung
gequantelt ist;
Fig. 13 ist ein Diagramm des Schwingungsverlaufs eines Korrelationskoeffizienten, wenn lediglich das
Vorzeichen des Restwertes von dem Tiefpaßfilter benutzt wird (durch ein Bit gequantelt) und
Fig. 14 ist eine Tabelle zum Vergleich der Schaltungsanordnung
gemäß der Erfindung mit einer bekannten Anordnung, bei der die Zahl der Bits zur Dar-
; stellung der restlichen Schwingung und die Fehler der Grundschwingung angegeben sind.
709808/0857
Als Ausgangssignal einer Parcoranalyse eines Sprachsignals ergibt sich ein Restwert. Das Verfahren zum Extrahieren der
Grundschwingungsperiode der Sprache aus dem Korrelationskoeffizienten des Restwertes ist eines der am genauesten arbeitenden
Verfahren.
Fig. 1 zeigt ein Blockschaltbild einer Schaltungsanordnung, die nach dem Parcorsystem arbeitet.
Die Schaltungsanordnung der Fig. 1 enthält eine Spracheingangsklemme
1, einen Analog-Digitalumsetzer 2, ein Gerät zum Extrahieren von Partial-Autokorrelations-Koeffizienten (kurz Parcor-Extraktor
genannt), eine Anzahl von Partial-Autokorrelatoren 4, eine Anzahl Ausgangsklemmen 5 für die Partial-Autokorrelationskoeffizienten,
einen Restwertanschluß 6, einen Extraktor 7 für die Schallquelleninformation, einen Extraktor 8 für die
Grundschwingungsperiode des Sprachsignals, eine Ausgangsklemme des Gerätes 8, einen Rechner 10 zur Erfassung der Amplitude
des Sprachsignals, eine Ausgangsklemme 11 dieses Geräts, eine Schaltung 12 zur Unterscheidung von stimmhaften und nicht stimmhaftem
Schall und eine Ausgangsklemme 13 für dieses Gerät.
Ein, der Eingangsklemme 1 zugefübrtes Sprachsignal χ (t) wird
in dem Umsetzer 2 in ein Digitalsignal umgesetzt, mit einer Abtastfrequenz von 8 KHz und durch ein Vorzeichenbit und 11
weitere Bits quantisiert. Das Digitalsignal wird dem Parcorextraktor
3 zugeführt.
Der Parcorextraktor 3 enthält etwa 10 Stufen von partialen
Autokorrelatoren 4, die in Kaskade geschaltet sind. In federn
Partial-Autokorrelator 4 wird die Korrelation zwischen dicht ■
benachbarten abgetasteten Werten des Sprachsignals als Partial-Autokorrelationskoeffizient
k. an der Ausgangsklemme 5 geliefert« Die Korrelationskomponenten, die auf diese Weise zwischen den
709808/0857
dicht benachbarten Abtastwerten extrahiert sind, werden aus dem Sprachsignal entfernt, das der nächsten Stufe zugeführt
wird.
Wenn dieser Vorgang wiederholt wird, dann sind die Korrelationen zwischen benachbarten abgetasteten Werten des Sprachsignals
alle als Partial-Autokorrelationskoeffizienten entfernt und an der Ausgangsklemme 6 der letzten Partial-Autokorrelatorstufe
treten nur Korrelationskoeffizienten zwischen verhältnismäßig weit auseinanderliegenden Schwingungsformen auf, die die Schallquelleninformation
der Sprache betreffen. Die Ausgangsgröße des Parcorextraktors an der Klemme 6 wird im folgenden als
Restwert £(t) bezeichnet.
Der Parcorextraktor 3 der Fig. 1 ist im einzelnen in Fig. 2
dargestellt. Der Korrelationskoeffizientenrechner der Fig. ist im einzelnen, in Fig. 3 dargestellt.
Das digitale Signal wird dem Parcorextraktor 3 von dem Analogdigitalumsetzer 2 zugeführt und in dem ersten Partial-Autokorrelator
4 wird das digitale Signal in zwei Teile geteilt, von denen der eine Teil einem Korrelationskoeffizientenrechner
über eine Verzögerungsschaltung zugeführt wird, während der
andere Teil dem Rechner direkt zugeleitet wird, um die Korrelation zwischen unmittelbar benachbarten abgetasteten Werten
des digitalen Eingangssignals zu erhalten und einen ersten -Korrelationskoeffizienten an der Klemme 5 zur Verfügung zu
stellen. Nachdem der Korrelationskoeffizient mit dem Digitalsignal multipliziert ist, das einem Multiplikator über die
Verzogerungsschaltung zugeführt wird und das digitale Signal direkt einem anderen Multiplikator zugeleitet worden ist,
werden die multiplizierten Ausgangsgroßen je einer Addierschaltung
zugeführt, um die Differenz zwischen der multiplizierten Ausgangsgroße und dem anderen Digitalsignal zu erhalten,
709808/0857
wobei diese Differenz dem nächsten Partial-Autokorrelator 4
zugeleitet wird. In dem nächsten Partial-Autokorrelator 4 werden die Korrelationen zwischen den jeweils anderen Abtastwerten
des digitalen Eingangssignals erhalten, um einen zweiten Korrelationskoeffizienten
an der Klemme 5 zur Verfügung zu stellen.
Wie aus Fig. 3 hervorgeht, werden in dem Korrelationskoeffizientenrechner
die Summe und die Differenz zwischen den beiden digitalen Eingangssignalen erhalten und quadriert. Dann wird
die Summe und Differenz noch einmal gebildet und je einem
Tiefpaßfilter zugeführt, um die Mittelwerte dieser Eingangsgrößen über einen bestimmten Zeitabschnitt zu ermitteln. Die
Ausgangsgrößen der Tiefpaßfilter werden dividiert, um das Verhältnis zwischen ihnen zu bilden, so daß der Korrelationskoeffizient an der Klemme 5 zur Verfügung steht.
Wenn man auf diese Weise bei jeder Partial-Autokorrelatorstufe vorgeht, dann wird die Größe, welche dem Korrelationskoeffizienten
zwischen abgetasteten Werten entspricht, die dichter beieinander liegen, als diejenigen der Stufe in der unmittelbar
vorhergehenden Stufe eliminiert. Auf diese Weise wird das Frequenzspektrum des digitalen Eingangssignals allmählich flacher
und nach etwa 10 Stufen ist es fast ganz flach. Wenn man den
Restwert an der Klemme 6 benutzt, kann man die Grundschwingungsperiode
T mit Hilfe des Extraktors 8 erhalten»
In entsprechender Weise wird die Schwingung am Ausgang eines
Filters mit einer zur Sprachschwingung inversen Frequenzkennlinie als Restwert bezeichnet. Die folgende Beschreibung bezieht
sich auf ein Verfahren, bei dem der Partial-Autokorrelationskoeffizient
verwendet wird.
Die Sprachamplitude L wird mit Hilfe des Sprachamplitudenrechners 10 extrahiert und stimmhafte sowie nicht stimmhafte
709808/0857
Schallkoeffizienten V und UV werden mit Hilfe der Unterscheidungsschaltung
12 extrahiert und an den Klemmen 11 und zur Verfügung gestellt.
Die für die Sprache charakteristischen Parameter k*
(i = 1 bis 10), T, V, UV und L, die auf diese Weise extrahiert wurden, werden quantisiert und mit einer Gruppenperiode
von 5 bis 15 Millisekunden übertragen. Auf der Empfangsseite
kann die ursprüngliche Sprache durch ein Partial-Autokorrelationsgerät
zur Synthese der Sprache rekonstruiert werden, das durch die genannten Parameter gesteuert wird.
Fig. 4 zeigt im einzelnen ein Ausführungsbeispiel der Schaltungsanordnung 8 zum Extrahieren der Grundschwingungsperiode
der Sprache mit bekanntem Aufbau. Die Anordnung enthält einen Speicher 14, einen ähnlichen Speicher 22, einen
Autokorrelator 15, einen Maximalwertselektor 16, eine Ausgangsklemme
17 für den Korrelationskoeffizienten des Restwertes und eine Ausgangsklemme 18 für den Maximalwert. Der
Restwert wird in dem Speicher 14 gespeichert. Dann wird ein kurzer Zeitabschnitt (etwa 20 bis 40 Millisekunden), der das
Doppelte oder Dreifache der Grundschwingungsperiode der Sprache beträgt, ausgeschnitten und abgetastete Werte eines
Ausschnittes werden in dem Speicher 22 festgehalten. Der Korrelationskoeffizient des Restwertes wird durch den Autokorrelator
15 errechnet, da die Grundschwingungsperiode sich als periodische Wiederholung des Maximalwertes ergibt. Dann
wird ein Abtastbereich (2 bis 20 Millisekunden) der Grundschwingung speriode zur Verfügung gestellt und ein Maximalwert
des Korrelationskoeffizienten des Restwertes durch den Maximalwertselektor 16 erfaßt. Die Lage des auf diese Weise festgestellten
Maximalwertes wird an der Ausgangsklemme 9 als Grundschwingungsperiode der Sprache zur Verfügung gestellt und ihr
Wert an der Klemme 18.
709808/0857
Es folgt nun eine kurze Erläuterung des Verfahrens zum Extrahieren
der Grundschwingungsperiode mit Hilfe der Autokorrelation des oben erwähnten periodischen Signals. Der Autokorrelationskoeffizient
R (n) eines diskreten Signals £(t) wird durch die folgende Gleichung ausgedrückt:
R(n) = 1UnI | t±. β±+η (I)
Wenn das diskrete Signal g(t) z.B. eine Sinusschwingung ist,
dann wird das Signalq (t) und der Autokorrelationskoeffizient
R(n) durch die folgenden Gleichungen II und III gegeben:
N ■
• (t) «„£-,. S1nCOs (mc^t + 9m) (II)
• (t) «„£-,. S1nCOs (mc^t + 9m) (II)
1 N 2
R(n) =2 £ a^mcosm<*0n (III)
Wie aus der Gleichung III hervorgeht, geht die Phaseninformation der Frequenzkomponenten verloren und die Maximalwerte der betreffenden
Komponenten stimmen vollständig miteinander bei einer Periode, die ein ganzzahliges vielfaches η der Grundschwingungsperiode
ist, überein, so daß der Wert des Autokorrelations- . koeffizienten R(n) auch seinen Maximalwert darstellt, aber
immer kleiner wird als bei anderen Perioden„ Infolgedessen
kann die Grundschwingungsperiode durch Feststellung des Maximalwertes
erhalten werden.
Wenn in der Praxis die Signalperiode in jedem Augenblick schwankt und die zeitabhängige Veränderung ein wichtiger Parameter
ist, wie dies bei der Sprache der Fall ist, ist das unbestimmte Integral der Gleichung I ohne Bedeutung, so daß
von einem Kurzzeitautokorrelationskoeffizienten nach der folgenden Gleichung IV Gebrauch gemacht wird oder von einem
Wert, der durch die Signalleistung nach der folgenden
709808/0857
Gleichung V normiert ist.
ΦΝ(η) =
Fig. 5 ist ein Diagramm, welches schematisch eine solche Korrelationsschwingung zeigt. Die Grundschwingungsperiode T
in Fig. 5 hat die Beziehung der Gleichung VI zu einer Sprachabtastperiode Ts:
T= η' rs (VI)
In Fig. 5 bezeichnet das Bezugszeichen Tq den Abtastzeitraum
des Maximalwertes jeder Frequenzkomponente.
Auf diese Weise wird bei der bekannten Anordnung der Einfluß des Formanten,der auf der Übertragungseigenschaft des Stimmtraktes
beruht, durch die Parcoranalyse eliminiert und die Grundschwingungsperiode wird mit hoher Genauigkeit extrahiert.
Die dabei benötigten Vorgänge sind jedoch kompliziert und der Aufwand ist groß, so daß sehr schnell arbeitende Elemente für
eine Realzeitverarbeitung erforderlich sind und die Kosten des Analysators sich dadurch erhöhen. Die Arbeitsgenauigkeit zur
Darstellung des Restwertes erfordert etwa 12 Bits. Wenn z.B. eine kurze Periode von 20 Millisekunden aus dem Sprachsignal
ausgeschnitten wird und in ein digitales Signal umgesetzt wird, das durch 12 Bits dargestellt ist und eine Abtastfrequenz
von 8 KHz hat und der Autokorrelationskoeffizient (n=O bis 100)
der Gleichung IV berechnet ist, ist es notwendig, das Produkt (etwa 12 Bits χ 12 Bits) i6000mal zu berechnen und die Summe
(24 Bits + 24 Bits) in einer kurzen Zeit von 10 Millisekunden
i6000mal zu bilden. Die Verwirklichung mi*. Ätrahiergerätes
709808/0857
zur Durchführung dieser Vorgänge ist nur möglich, wenn Bauelemente
sehr hoher Geschwindigkeit, wie z.B. Schottky TTLs zur Verfügung stehen.
Durch die Erfindung sollen diese Schwierigkeiten der bekannten Anordnungen beseitigt werden. Eine Ausführungsform der Erfindung
ist als Blockschaltbild in Fig. 6 dargestellt. Die Anordnung der Fig. 6 enthält eine Eingangsklemme 6 für den Restwert,
ein Tiefpaßfilter 19, eine Guantisieranordnung 20, eine Ausgangsklemme
21 für diese Anordnung, einen Speicher 14, einen weiteren Speicher 22 und einen Autokorrelator 15. Ferner ist.·
eine Ausgangsklemme 17 für den Korrelator vorgesehen, ein Maximalwertselektor 16, eine Ausgangsklemme 9 für die Grundschwingungsperiode
der Sprache und eine Ausgangsklemme 18 für den Maximalwert des Korrelationskoeffizienten.
Bei dem Extrahieren der Grundschwingungsperiode der Sprache ist eine Periode von 20 bis 40 Millisekunden, die das Zweifache
bzw. Dreifache der Grundschwingungsperiode ist, gewohnlich ein Gegenstand der Analyse und die Extraktion der Grundschwingungsperiode
wird mit einer Verschiebung der Analysenperiode im Bereich von 5 bis 15 Millisekunden durchgeführt. Es wird nun
ein Fall beschrieben, bei dem die Grundschwingungsperiode aus einem Restwert extrahiert wird, der in ein digitales Signal
umgewandelt ist, das eine Abtastfrequenz von 8 KHz hat und ein Vorzeichenbit und 11 weitere Bits enthält. Es wird weiter angenommen,
daß die Länge des in einer Analyse zu analysierenden Bereichs 20 Millisekunden und bezüglich des abgetasteten
Werts 160 beträgt und daß die Grundschwingungsperiode extrahiert
. wird, wobei der Bereich um 10 Millisekunden und 80 abgetastete Werte verschoben wird.
709808/0857
Der der Eingangsklemme 6 in Zeitintervallen von 125 Mikrosekunden zugeführte Restwert wird dem Tiefpaßfilter 19
zugeführt, um die unnötigen Hochfrequenzkomponenten zu entfernen und dann dem Guantisiergerät 20 zugeleitet. In dem
Quantisierer 20 wird das Signal einer Spitzenbegrenzung unterworfen bzw. einer Quantisierung oder dergleichen, um es
durch wenige Bits darzustellen. Das quantisierte Signal, welches 80 abgetasteten Werten entspricht, wird in dem Speicher
14 gespeichert. Der Speicher 14 hat die Form eines Schieberegisters oder dergleichen und eine Kapazität im vorliegenden
Fall von 1 Bit χ 80 Worten. Wenn die 80 abgetasteten Werte in den Speicher 14 eingeschrieben sind, wird der Inhalt des
Speichers 14 dem nächsten Speicher 22 zugeführt, bevor die nachfolgenden abgetasteten Werte an dem Speicher 14 eintreffen,
d.h. vor dem Ablauf von 125 MikrοSekunden, worauf die Einspeicherung
der neuen abgetasteten Werte im Speicher 14 beginnt. Der Speicher 22 hat eine Kapazität für die Speicherung der
abgetasteten Werte eines Bereiches und zwar im vorliegenden Beispiel von 1 Bit χ 160 Worten. Die abgetasteten Werte des
unmittelbar vorhergehenden Bereiches und die 80 abgetasteten Werte, die neu von dem Speicher 14 übertragen werden, d.h.
eine Gesamtzahl von 16O abgetasteten Werten bilden einen Bereich oder Rahmen in dem Speicher 22. Der Speicher 22 ist
als Schieberegister oder dergleichen ausgebildet. Als nächstes wird in dem Autokorrelator 15 der Autokorrelatorkoeffizient
auf eine Verzögerung von etwa der hundertsten Ordnung berechnet. In dem Maximalwertselektor 16 wird die Grundschwingungsperiode
der Sprache als die Lage des maximalen Autokorrelationskoeffizienten im Abtastbereich (Tq) von Verzögerungen der
20. bis 100. Ordnung erfaßt und steht am Ausgangspunkt 9 zur Verfügung. Der Maximalwert des Autokorrelationskoeffizienten
kann am Ausgang 18 abgenommen werden.
70 9 808/0857
Da die Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode
der Sprache gemäß der Erfindung nach dem oben beschriebenen Beispiel so ausgeführt ist, daß die unnötigen
Hochfrequenzkomponenten, die in dem Restwert enthalten sind, durch ein Tiefpaßfilter abgeschnitten werden, ist es möglich,
den Maximalwert des Korrelationskoeffizienten des Restwertes klar zu erkennen. Infolge dessen ist der am Tiefpaßfilter
abgenommene Restwert durch ein niedriges Bit dargestellt, so daß bei Ausnutzung des beschriebenen Effektes die Verarbeitungsvorgänge wesentlich vermindert werden können.
Im Fall der Berechnung der Gleichung IV unter den gleichen
Bedingungen,wie beim eben genannten Beispiel,erfordern die
Vorgänge des bisher bekannten Verfahrens 16000 Multiplikationen von 12 Bits χ 12 Bits und 16000 Additionen von 24 Bits + 24
Bits in 10 Millisekunden. Jedoch wird bei Ausführung nach der Erfindung nur eine Zahl von 16000 Additionen von 1 Bit
erforderlich, so daß es sich um eine erhebliche Einsparung handelt. Bei dem bekannten Verfahren mußte der Speicher 14
eine Speicherkapazität von 12 Bits χ 80 Worten haben und der Speicher 22 eine Speicherkapazität von 12 Bits χ 160 Worten.
Bei Anwendung der Erfindung ist die erforderliche Speicherkapazität dieser Speicher nur 1 Bit χ 80 Worten bzw. 1 Bit χ
160 Worten. Hierdurch ergeben sich beträchtliche Einsparungen
bezüglich der Schaltungsausführung. Die Anordnung der bekannten Art zum Extrahieren der Grundschwingungsperiode benötigte
etwa 10000 Tore, jedoch kommt man bei der Schaltungsanordnung gemäß der Erfindung mit etwa 2000 Toren aus, d.h. der Schaltungsaufwand
beträgt nur 1/5. Auch die Ansprechzeit der Elemente beträgt nur 1/5 derjenigen bei den bekannten Extraktoren,
so daß bei der bekannten Schaltungsanordnung die Verwendung von Schottky TTL-Transistoren erforderlich ist, während bei
der Schaltungsanordnung gemäß der Erfindung mit MOS-Elementen gearbeitet wird. Die Schaltungsanordnung gemäß der Erfindung
709808/0857
kann daher mit LSI durchgeführt werden.
Das in Fig. 6 dargestellte Tiefpaßfilter 19 kann ein digitales Filter sein, das beispielsweise in Fig. 7 dargestellt ist.
Das digitale Filter enthält als HauptSchaltungskomponente
eine digitale Addierschaltung, einen Multiplikator und ein Verzögerungselement zur Durchführung der Operationen, die
durch die folgende lineare Differentialgleichung mit konstantem Koeffizienten gegeben sind.
N r ι N ζ Ί
y(nT) = Z %x [(η-Ai)Tf -^ b^ y £(η-υ)Τ$ (VII)
wobei x(nT) und y(nT) Eingangs- und Ausgangssignalreihen sind
und a und b^ reelle Zahlen sind.
Fig. 7 zeigt ein Rekursivfilter erster Ordnung. Wenn eine Größe χ der Eingangsklemme zugeführt wird, werden die Eingangsund
Ausgangsgrößen eines Multiplikators durch eine Addierschaltung voneinander abgezogen, so daß sich die resultierende
Differenz als Ausgangssignal am Ausgang der Schaltung ergibt.
Gleichzeitig wird diese Differenz einer Verzögerungsschaltung
zugeführt und einem Multiplikator mit dem Faktor a, so daß sich eine Ausgangsgröße ax ergibt, die der Addierschaltung
zur Subtraktion mit dem nächsten Eingangssignal zugeleitet wird. Danach wird dieser Vorgang wiederholt. Wenn man das
obige Filter als ein lineares System betrachtet, nehmen die Ausgangswerte mit dem Koeffizienten a des Multiplikators ab
und werden schließlich Null in dem Bereich von |al^L1. Im
Fall eines nichtlinearen Systems konvergiert der Ausgangswert nach Null nur in dem Bereich von jaj<0,5 und bei anderen Werten
ist das System unstabil.
70 9808/08 57
In der erfindungsgemäßen Anordnung ist jedoch die Ausbildung des digitalen Filters nicht so wichtig und ein Filter so
einfachen Aufbaus wie das in Fig. 7 dargestellte genügt, solange die Grenzfrequenz im Bereich von 500 bis 1000Hz liegt.
In den Fig. 8 bis 14 wird die Erfindung mit den bekannten Verfahren verglichen. Fig. 8 zeigt den Schwingungsverlauf
eines Restwertes mit einer Länge von 20 Millisekunden und Fig. 9 und 10 zeigen verschiedene Schwingungsverläufe für den
Korrelationskoeffizienten bei einem bekannten "Verfahren, wenn der Restwert nach Fig. 8 mit 12 Bits bzw. 1 Bit gequantelt wird.
Fig. 11 zeigt den Schwingungsverlauf, wenn das Restsignal einem digitalen Filter mit einer Grenzfrequenz von 500 Hz
zugeführt wird und Fig. 12 und 13 zeigen den Verlauf des Korrelationskoeffizienten gemäß der Erfindung, wenn die Schwingung
nach Fig. 11 mit 12 Bits und 1 Bit (nur dem Vorzeichen nach) quantisiert wird. Die Schwingungsverläufe der Fig. 8
und 11, 9 und 12 sowie 10 und 13 entsprechen dabei einander.
Wenn bei dem bekannten System der Schwingungsverlauf durch 12 Bits nach Fig. 9 dargestellt wird, kann man Maximalwerte
des Korrelationskoeffizienten erkennen. Wenn jedoch der Restwert mit einer niedrigen Bitzahl (1 Bit) nach Fig. 10 dargestellt
wird, kann ein zweiter Maximalwert bei diesem Beispiel nicht erkannt werden, so daß fälschlicherweise eine Periode
extrahiert wird, die dem doppelten der Grundschwingungsperiode entspricht. . .
Andererseits hat gemäß der Erfindung ein quantisiertes Rauschen die gleiche Periode wie ein periodisches Signal, so daß beim
Extrahieren der Grundschwingungsperiode die Quantisierung des Signales nicht wesentlich ist. Wie sich aus Fig. 13 ergibt,
ist es möglich, die Grundschwingungsperiode mit genügender
709808/0857
Genauigkeit aus dem Korrelationskoeffizienten lediglich aus dem Vorzeichen des Restwertes zu "bestimmen, nachdem dieser dem
Tiefpaßfilter zugeführt ist.
Um die Betriebsgenauigkeit zu erhalten, die für den in Fig· 6
gezeigten Quantisierer (einen D-D-Umsetzer) zu bestimmen,
wurde die Grundschwingungsperiode der Sprache mit einer Schaltungsanordnung gemäß der Erfindung ermittelt, wobei
die Stimmen von 3 Frauen beim Ablesen eines Textes für etwa 3,5 Sekunden zugrundegelegt wurde. In Fig. 14 sind Fehlerwerte bei der Extraktion von Grundschwingungsperioden dargestellt,
wobei eine Betriebsgenauigkeit von 12 bis 1 Bit verwendet wurde und zwar in Prozent der Zahl sämtlicher Bereiche
in der Sprachperiode. Fig. 14 zeigt, daß der Fehler etwa W%
bei dem üblichen Verfahren der Extraktion betrug jedoch weniger als Λ% bei der Schaltungsanordnung gemäß der Erfindung.
Sogar im Fall.der Korrelation mit einem Bit (lediglich mit dem Vorzeichen) wurde eine ausreichende Präzision erhalten.
Die obige Beschreibung wurde im Zusammenhang mit einem System der Sprachanalyse gegeben, bei dem eine Sprachschwingungsform
dargestellt wird, wobei ein Partialautokorrelationskoeffizient als Parameter benutzt wird. Es ist jedoch klar, daß die Erfindung
auch auf einen Restwert einer Sprachschwingung anwendbar ist, der von einem Filter abgeleitet wird, das eine inverse
Kennlinie des Frequenzganges im Vergleich mit der Sprachschwingung hat.
Wie oben angegeben, kann gemäß der Erfindung ein Maximalwert des Korrelationskoeffizienten eines Restwertes deutlich erfaßt
werden, indem der Restwert einem Tiefpaßfilter zugeführt wird, so daß;die GrundSchwingungsperiode der Sprache genau und stetig
extrahiert werden kann. Besonders da die Korrelation lediglich des Vorzeichens eines Signals zur Extraktion genügt, brauchen
709808/0857
nur Addiervorgänge durchgeführt zu werden, während bei dem bekannten Verfahren Multiplikationen und additive Operationen
erforderlich sind. Die Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode gemäß der Erfindung ist daher
wesentlich einfacher als die bekannten Geräte. Außerdem kann die Genauigkeit der Bestimmung der Grundschwingungsperiode der
Sprache in der oben beschriebenen Weise verbessert werden, so daß die Qualität der synthetisehen Sprache bei der Übertragung
der Sprache mit Bandkompression oder bei der Wiedergabe im Hörbereich wesentlich verbessert wird.
709808/0857
Claims (4)
1. Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode
aus einem Sprachsignal, bei der die Sprachschwingung einem Filter zugeführt wird, dessen Frequenzkennlinie
angenähert invers zu derjenigen eines Sprachsignals verläuft, um einen Restwert zu erhalten, bei der ferner
ein Autokorrelator einen Autokorrelationskoeffizienten des Restwertes über Zwischenspeicher errechnet und bei
der die Grundschwingungsperiode der Sprache aus der Lage des Maximalwertes des Autokorrelationskoeffizienten
erhalten wird,
dadurch gekennzeichnet, daß mit einem Tiefpaßfilter (I9)die unnötigen hochfrequenten
Komponenten des Restwertes unterdrückt werden und daß Einrichtungen (20) zur Quantelung des am Ausgang des Tiefpaßfilters
anstehenden Restwertes vorgesehen sind.
2. Schaltungsanordnung nach Anspruch 1, dadurch gekennzeichnet,
daß das Tiefpaßfilter als digitales Tiefpaßfilter mit einer Grenzfrequenz von 500 bis 1000 Hz ausgebildet ist.
3. Schaltungsanordnung nach Anspruch 1,
dadurch gekennzeichnet,
daß die Quantelung mit einer niedrigen Bitzahl durchgeführt wird.
4. Schaltungsanordnung nach Anspruch 1, dadurch gekennzeichnet,
daß der von dem Autokorrelator errechnete Autokorrelationskoeffizient
der Autokorrelationskoeffizient eines Rest-
709808/08 5 7
wertes ist, der durch eine lineare prediktive Analyse
erhalten wird.
Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode
eines Sprachsignals, bei der die Sprachschwingung einem Filter zugeführt wird, das eine zum Sprachsignal inverse
Charakteristik des Frequenzspektrums aufweist, und einen Restwert liefert,
daß aus dem Restwert über Zwischenspeicher mit Hilfe eines Autokorrelators ein Autokorrelationskoeffizient
errechnet wird und daß Einrichtungen vorgesehen sind, mit denen aus der Lage eines Maximalwertes des Korrelationskoeffizienten die Grundschwingungsperiode der Sprache
erhalten wird,
dadurch gekennzeichnet, daß ein digitales Filter mit einer Grenzfrequenz von
500 bis 1000 Hz zur Unterdrückung der Hochfrequenzkomponenten des Restwertes vorgesehen ist und daß Einrichtungen
vorgesehen sind, mit denen lediglich das Vorzeichen des von dem digitalen Filter gelieferten
Restwertes festgestellt werden und daß der Autokorrelator
den Autokorrelationskoeffizienten lediglich durch Addition berechnet.
Re/Pi.
709808/0857
Leerseite
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP50102473A JPS6051720B2 (ja) | 1975-08-22 | 1975-08-22 | 音声の基本周期抽出装置 |
Publications (3)
Publication Number | Publication Date |
---|---|
DE2636032A1 true DE2636032A1 (de) | 1977-02-24 |
DE2636032B2 DE2636032B2 (de) | 1979-05-10 |
DE2636032C3 DE2636032C3 (de) | 1984-07-19 |
Family
ID=14328408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE2636032A Expired DE2636032C3 (de) | 1975-08-22 | 1976-08-11 | Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal |
Country Status (6)
Country | Link |
---|---|
US (1) | US4081605A (de) |
JP (1) | JPS6051720B2 (de) |
CA (1) | CA1061906A (de) |
DE (1) | DE2636032C3 (de) |
FR (1) | FR2321738A1 (de) |
GB (1) | GB1555254A (de) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS597120B2 (ja) * | 1978-11-24 | 1984-02-16 | 日本電気株式会社 | 音声分析装置 |
US4220819A (en) * | 1979-03-30 | 1980-09-02 | Bell Telephone Laboratories, Incorporated | Residual excited predictive speech coding system |
JPS5857758B2 (ja) * | 1979-09-28 | 1983-12-21 | 株式会社日立製作所 | 音声ピッチ周期抽出装置 |
JPS58143394A (ja) * | 1982-02-19 | 1983-08-25 | 株式会社日立製作所 | 音声区間の検出・分類方式 |
US4486900A (en) * | 1982-03-30 | 1984-12-04 | At&T Bell Laboratories | Real time pitch detection by stream processing |
US4561102A (en) * | 1982-09-20 | 1985-12-24 | At&T Bell Laboratories | Pitch detector for speech analysis |
US4731846A (en) * | 1983-04-13 | 1988-03-15 | Texas Instruments Incorporated | Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal |
JPS61134000A (ja) * | 1984-12-05 | 1986-06-21 | 株式会社日立製作所 | 音声分析合成方式 |
JPH0690638B2 (ja) * | 1986-06-25 | 1994-11-14 | 松下電工株式会社 | 音声分析方式 |
US4980917A (en) * | 1987-11-18 | 1990-12-25 | Emerson & Stern Associates, Inc. | Method and apparatus for determining articulatory parameters from speech data |
FR2670313A1 (fr) * | 1990-12-11 | 1992-06-12 | Thomson Csf | Procede et dispositif pour l'evaluation de la periodicite et du voisement du signal de parole dans les vocodeurs a tres bas debit. |
US5715365A (en) * | 1994-04-04 | 1998-02-03 | Digital Voice Systems, Inc. | Estimation of excitation parameters |
DE19616103A1 (de) * | 1996-04-23 | 1997-10-30 | Philips Patentverwaltung | Verfahren zum Ableiten charakteristischer Werte aus einem Sprachsignal |
WO2001078062A1 (en) * | 2000-04-06 | 2001-10-18 | Telefonaktiebolaget Lm Ericsson (Publ) | Pitch estimation in speech signal |
AU2001273904A1 (en) * | 2000-04-06 | 2001-10-23 | Telefonaktiebolaget Lm Ericsson (Publ) | Estimating the pitch of a speech signal using a binary signal |
JP3827317B2 (ja) * | 2004-06-03 | 2006-09-27 | 任天堂株式会社 | コマンド処理装置 |
JP4935280B2 (ja) * | 2006-09-29 | 2012-05-23 | カシオ計算機株式会社 | 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム |
TWI728632B (zh) * | 2019-12-31 | 2021-05-21 | 財團法人工業技術研究院 | 特定音源的定位方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2050512A1 (de) * | 1970-02-07 | 1971-08-26 | Nippon Telegraph & Telephone | Vorrichtung zur Verarbeitung von Ton bzw Sprachsignalen |
DE2233872A1 (de) * | 1971-07-09 | 1973-01-18 | Western Electric Co | Signalanalysator |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3975587A (en) * | 1974-09-13 | 1976-08-17 | International Telephone And Telegraph Corporation | Digital vocoder |
-
1975
- 1975-08-22 JP JP50102473A patent/JPS6051720B2/ja not_active Expired
-
1976
- 1976-08-11 DE DE2636032A patent/DE2636032C3/de not_active Expired
- 1976-08-11 CA CA258,894A patent/CA1061906A/en not_active Expired
- 1976-08-13 FR FR7624788A patent/FR2321738A1/fr active Granted
- 1976-08-18 US US05/715,399 patent/US4081605A/en not_active Expired - Lifetime
- 1976-08-19 GB GB34670/76A patent/GB1555254A/en not_active Expired
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2050512A1 (de) * | 1970-02-07 | 1971-08-26 | Nippon Telegraph & Telephone | Vorrichtung zur Verarbeitung von Ton bzw Sprachsignalen |
DE2233872A1 (de) * | 1971-07-09 | 1973-01-18 | Western Electric Co | Signalanalysator |
Also Published As
Publication number | Publication date |
---|---|
FR2321738A1 (fr) | 1977-03-18 |
CA1061906A (en) | 1979-09-04 |
JPS6051720B2 (ja) | 1985-11-15 |
FR2321738B1 (de) | 1979-09-28 |
GB1555254A (en) | 1979-11-07 |
JPS5226107A (en) | 1977-02-26 |
DE2636032C3 (de) | 1984-07-19 |
US4081605A (en) | 1978-03-28 |
DE2636032B2 (de) | 1979-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2636032C3 (de) | Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal | |
DE60303214T2 (de) | Verfahren zur reduzierung von aliasing-störungen, die durch die anpassung der spektralen hüllkurve in realwertfilterbanken verursacht werden | |
DE2919085C2 (de) | Vorverarbeitungsverfahren und -vorrichtung für eine Spracherkennungsvorrichtung | |
DE69619284T3 (de) | Vorrichtung zur Erweiterung der Sprachbandbreite | |
DE2233872C2 (de) | Verfahren zur Bestimmung der Grundwellenperiode eines Sprachsignals | |
DE3510660C2 (de) | ||
DE69634645T2 (de) | Verfahren und Vorrichtung zur Sprachkodierung | |
DE60103086T2 (de) | Verbesserung von quellcodierungssystemen durch adaptive transposition | |
DE19736669C1 (de) | Verfahren und Vorrichtung zum Erfassen eines Anschlags in einem zeitdiskreten Audiosignal sowie Vorrichtung und Verfahren zum Codieren eines Audiosignals | |
DE3101851C2 (de) | Vorrichtung zum Erkennen von Sprache | |
DE602005004464T2 (de) | Sprachverbesserung | |
DE69920461T2 (de) | Verfahren und Vorrichtung zur robusten Merkmalsextraktion für die Spracherkennung | |
EP1386307B2 (de) | Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals | |
DE10030105A1 (de) | Spracherkennungseinrichtung | |
DE2749132A1 (de) | Rauschfilter-anordnung | |
DE3012771C2 (de) | ||
DE2622423C3 (de) | Elektrische Anordnung zur Übertragung oder Speicherung eines Sprachoder Tonsignals in kodierter Form | |
DE2659083A1 (de) | Verfahren und vorrichtung zur sprechererkennung | |
DE602004010634T2 (de) | Verfahren und system zur sprachqualitätsvorhersage eines audioübertragungssystems | |
DE60311754T2 (de) | Verfahren und Vorrichtung zur Schätzung der Gesamtgüte eines Sprachsignals | |
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
EP1239455A2 (de) | Verfahren und Anordnung zur Durchführung einer an die Übertragungsfunktion menschilcher Sinnesorgane angepassten Fourier Transformation sowie darauf basierende Vorrichtungen zur Geräuschreduktion und Spracherkennung | |
DE69830816T2 (de) | Mehrstufige Audiodekodierung | |
DE60016305T2 (de) | Verfahren zum Betrieb eines Sprachkodierers | |
DE4218623C2 (de) | Sprachsynthesizer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C3 | Grant after two publication steps (3rd publication) | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: NIPPON TELEGRAPH AND TELEPHONE CORP., TOKIO/TOKYO, |
|
8328 | Change in the person/name/address of the agent |
Free format text: REICHEL, W., DIPL.-ING. LIPPERT, H., DIPL.-ING., PAT.-ANW., 6000 FRANKFURT |
|
8339 | Ceased/non-payment of the annual fee |