DE2636032A1 - Schaltungsanordnung zum extrahieren der grundfrequenz aus einem sprachsignal - Google Patents

Schaltungsanordnung zum extrahieren der grundfrequenz aus einem sprachsignal

Info

Publication number
DE2636032A1
DE2636032A1 DE19762636032 DE2636032A DE2636032A1 DE 2636032 A1 DE2636032 A1 DE 2636032A1 DE 19762636032 DE19762636032 DE 19762636032 DE 2636032 A DE2636032 A DE 2636032A DE 2636032 A1 DE2636032 A1 DE 2636032A1
Authority
DE
Germany
Prior art keywords
speech
residual value
circuit arrangement
period
low
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE19762636032
Other languages
English (en)
Other versions
DE2636032C3 (de
DE2636032B2 (de
Inventor
Shinichiro Dipl Ing Hashimoto
Nobuhiko Dipl Ing Kitawaki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of DE2636032A1 publication Critical patent/DE2636032A1/de
Publication of DE2636032B2 publication Critical patent/DE2636032B2/de
Application granted granted Critical
Publication of DE2636032C3 publication Critical patent/DE2636032C3/de
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Television Receiver Circuits (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

6 Frankfurt a M. 1 8519 Parkairaße 13
NIPPON TELEGRAPH AND TELEPHONE PUBLIC CORPORATION, Tokyo, Japan
Schaltungsanordnung zum Extrahieren der Grundfrequenz aus einem Sprachsignal
Die Erfindung betrifft Schaltungsanordnungen zum Extrahieren der Grundschwingung aus einem Sprachsignal, die einen wirtschaftlichen Aufbau eines Sprachanalysators gestatten.
Zur Erhöhung des Wirkungsgrades der Kommunikation zwischen einem Sprecher und einem Datenübertragungssystem mit Bandkompression oder einem Informationsprozessor ist ein Verfahren zur Sprachanalyse und -synthese entwickelt worden, das in neuen Datenübertragungsanlagen, telefonischen Platzreservierungsanlagen, Auskunftsdiensten in Flughafen und Bahnhöfen praktisch angewendet wird.
Eine Sprachschwingung ist eine Tonschwingung, die von den Lippen oder der Nase ausgeht, wenn Stimmbandschwingungen (bei stimmhafter Quelle)oder Geräuschschwingungen(bei nicht stimmhafter Quelle)als turbulente Strömung durch die Verengung des Stimmtraktes hindurchgehen und in den Stimmtrakt eintreten. Im Falle einer Sprachsynthese wird eine glottale Sprachquelle durch Erregung eines Impulsgenerators erzeugt und eine
709808/0857
"2 ' 2636
Quelle für turbulente Laute durch Erregung eines Generators für weißes Rauschen gebildet. Der St4.mmtrakt wird mit einem elektrischen Schaltungsäquivalent bezüglich seiner Übertragungsfunktion nachgebildet und der Strahler durch einen Lautsprecher·
Zur Sprachanalyse gehört eine Analyse der Schallquelle zur : quantitativen Erfassung der Eigenschaften der Schallquelle, die den angetriebenen Stimmtrakt enthält,sowie eine Analyse des Frequenzganges in bestimmten Ze it Intervallen (10 bis 30 Millisekunden) ,den die Übertragungsfunktion des Stimmtraktes aufweist. Die Schallquellenanalyse erfordert eine quantitative Extraktion von drei Faktoren, d.h. von einem Unterscheidungssignal zwischen einem Impulszug (einem stimmhaften Ton) und einem Rauschen (einem nicht stimmhaften Ton), ferner der Tonhöhe des Impulszuges (des stimmhaften Tones) und der Amplitude des Impulszuges (des stimmhaften Tones) oder des Rauschens (des nicht stimmhaften Tons). Diese Faktoren verändern sich aber mit recht hoher Geschwindigkeit und lassen sich daher nur sehr schwierig genau analysieren. Besonders die Grundschwingungsdauer der Sprache ist selbst im Fall eines stimmhaften Tones sehr schwierig genau zu extrahieren, weil sie nicht streng periodisch verläuft und sich in jedem Augenblick in Übereinstimmung mit der Intonation der Sprache ändert ,und da sie Störungen durch den Mechanismus der Stimmerzeugung sowie durch den Einfluß der Übertragungscharakteristik des Stimmtraktes unterliegt.
Es sind verschiedene Sprachanalyse-Synthesesysteme bekannt, z.B. eine Kurzzeit-Spektralanalyse unter Verwendung einer Bandpaßfiltergruppe .sowie einer Formantfrequenzbestimmung mit Hilfe eines Zählverfahrens für die Nulldurchgänge usw. Aus diesen Systemen ist auch ein partielles Autokorrelationssystem (PARCOR) als eins der günstigsten Mittel für die Datenkompression, für die Qualität der synthetischen Sprache und
709808/0857
"3" 26 3 6 O 3
die automatische Extraktion der charakteristischen Sprachparameter bekannt.
Wie oben erwähnt wurde, ist bei der Sprachanalyse und -synthese die Grundschwingungsperiode der Sprache einer der drei wichtigen Schallquellenparameter. Wenn man diesen Parameter mit dem Parcorsystem extrahiert, wird ein Restwert der Ausgangsgröße eines Analysators zur Erfassung eines Parcorkoeffizienten einem Autokorrelator zugeführt, um den Autokorrelationskoeffizienten zu extrahieren und eine Verzögerungszeit T, welche dem Spitzenwert dieses Koeffizienten entspricht, wird als die Grundschwingungsperiodendauer der Sprache betrachtet.·
Auch bei anderen Sprach-Analyse-Synthesesystemen wird eine Sprachschwingung einem Filter zugeführt, das eine inverse Kennlinie des Frequenzganges aufweist, der denjenigen der Sprachschwingung annähert,und die Schwingung am Ausgang des Filters wird als ein Restwert benutzt, um die Grundschwingungsperiode der Sprache mit Hilfe des oben erwähnten Verfahrens zu erhalten.
Da jedoch der Restwert ein Signal ist, welches nur ein Merkmal für einen winzigen Bestandteil des Sprachspektrums ist und einen impulsförmigen Verlauf hat, leiden die oben erwähnten Verfahren des Extrahierens an dem Fehler, daß eine doppelte oder halbe Schwingungsdauer der Grundschwingung unter Umständen irrtümlich extrahiert wird, wenn nicht die Abtastdauer sehr kurz gewählt wird. Wenn ferner der Restwert durch niedrige Bitzahlen dargestellt wird, ist diese Gefahr besonders groß und eine Quantisierung des Restwertes durch niedrige Bitzahlen ist . schwierig.
Der Autokorrelator muß daher ein Element sehr hoher Geschwindigkeit enthalten, da die Arbeitsweise hoher Präzision in einer
709808/0857
kurzen Zeit durchgeführt werden muß. Hierdurch ergeben sich große Schwierigkeiten bei der praktischen Durchführung des Verfahrens.
Bei dem in der US-PS 3,740,476 beschriebenen Verfahren wird ein von einem Tiefpaßfilter abgeleiteter Restwert einer Einweggleichrichtung unterworfen, um nur die positive Komponente zu erhalten und der Spitzenwert in einer bestimmten Periode wird mit Hilfe eines Spitzenwertermittlers ausgewählt und die sich ergebende Schwingung wird weiteren Verfahren z.B. der Unterdrückung von Komponenten, die niedriger als ein Schwellwert sind, unterworfen, so daß die Grundschwingungsperiode der Sprache extrahiert wird.
In der Zeitschrift IEEE AU-20-5, 1972 ist ein Verfahren zum Extrahieren der Grundschwingung angegeben, bei dem ein Restwert einer 1/5-Abtastung unterworfen wird und dann einem inversen Filter zugeführt wird, um eine Autokorrelation zu berechnen und dadurch die anfallende Rechenarbeit zu reduzieren. Nachdem die Autokorrelation erhalten ist, wird die Verminderung des Auflösungsvermögens infolge der Abtastung interpoliert, um die Grundschwingung ier Sprache zu extrahieren. Bei diesem Verfahren ist es jedoch notwendig, den gleichen Vorgang wie beim Extrahieren des Parcorkoeffizienten getrennt durchzuführen.
In der Zeitschrift J.A.S.A., Band 56, 1974 ist ein Verfahren angegeben, bei dem das Extrahieren der Grundschwingung nach dem Autokorrelationsverfahren mit einer geeigneten Hardware durchgeführt wird. In diesem Fall ist es jedoch notwendig, da der Schwingungsverlauf der Sprache selbst der zu verarbeitende Gegenstand ist, eine Mittenbegrenzung durchzuführen, um die' Formantkonstruktion der Sprache zu unterdrücken.
709808/0857
Die Parcor-Sprach-Analyse-Synthese-Anordnung, auf die die Erfindung angewendet wird, wird in einem Datenübertragungssystem mit Bandkompression verwendet, wobei auf der Sendeseite die Sprache in Parameter zerlegt wird, welche die Sprache effektiv darstellen und bei der auf der Empfangsseite die ursprüngliche Sprache aufgrund dieser Parameter wieder zusammengesetzt wird.
In den letzten Jahren sind digitale Signalverarbeitungsverfahren dieser Art entwickelt und in die Praxis eingeführt worden. Diese Verarbeitung jedoch ist so kompliziert, daß die Geräte sehr teuer werden. Insbesondere ist der Aufwand für eine Schallquellenanalysiereinheit sehr groß und z.B. um eine Größenordnung größer als der Aufwand fürL eine, den Frequenzgang analysierende Einheit. Daher wäre eine Verminderung der Kosten durch Verwendung von LSI unmöglich, selbst wenn man eine weitere Entwicklung der IC-Technik erwarten kann.
Der Erfindung liegt daher die Aufgabe zugrunde, einen nach wirtschaftlichen Gesichtspunkten ausgebildeten Sprachanalysator zu schaffen. Dabei soll die Grundschwingungsperiode der Sprache derart extrahiert werden, daß unnötige hochfrequente Komponenten, die in einem Restwert enthalten sind, durch ein Tiefpaßfilter unterdrückt werden, um einen Maximalwert des Autokorrelationskoeffizienten in bestimmter Weise zu erfassen, so daß die Grundschwingungsperiode der Sprache genau und stabil extrahiert 'wird. "
Die Erfindung befaßt sich also mit einer Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode eines Sprachsignals, bei der ein Restwert am Ausgang eines Tiefpaßfilters durch niedrige Bits dargestellt wird, um eine Vereinfachung der arithmetischen Schaltung zu erreichen und das Speichervermögen
709808/0857
eines Speichers zu reduzieren, der den Restwert aufnimmt. Die Ansprechgeschwindigkeit der benötigten Bauelemente ist verhältnismäßig niedrig, so daß die Herstellungskosten vermindert werden.
Die Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode eines Sprachsignals gemäß der Erfindung hat den Vorteil, daß die Genauigkeit beim Extrahieren verbessert wird, wodurch die Qualität der synthetischen Sprache in einem Datenübertragungssystem für die Sprache mit Bandkompression oder in einem Audiowiedergabegerät verbessert wird.
Bei der Schaltungsanordnung der genannten Art wird lediglich die Information über das Vorzeichen eines Restwertes am Ausgang eines Tiefpaßfilters benutzt, um den Aufbau der arithmetischen Schaltung zu vereinfachen und um das Speichervermögen des Speichers zur Aufnahme des Restwertes zu vermindern und das notwendige Ansprechvermögen der Bauelemente herabzusetzen.
Gemäß der Erfindung werden bei einer bevorzugten Ausführungsform unnötige Komponenten eines Restwertes der Sprachschwingung, die dem Filter zugeführt worden ist, das eine umgekehrte Frequenzcharakteristik wie das Sprachsignal hat, entfernt und die Grundschwingungsperiode der Sprache wird aus dem Korrelationskoeffizienten des Restwertes extrahiert.
Bei einer anderen Ausführungsform der Erfindung werden die unnötigen Komponenten, die in dem Restwert enthalten sind, unterdrückt und die Grundschwingungsperiode der Sprache wird aus den Korrelationskoeffizienten eines Signals extrahiert, das den durch niedrige Bits gequantelten Restwert darstellt.
709808/0857
Bei einer weiteren Ausführungsform werden gemäß der Erfindung die unnötigen Komponenten des Restwertes unterdrückt und dann wird die Grundschwingungsperiode der Sprache aus dem Korrelationskoeffizienten lediglich aufgrund des Vorzeichens des Restwertes extrahiert.
Weitere Merkmale und Vorteile der Erfindung ergeben sich aus der folgenden Beschreibung von Ausführungsbeispielen, die in den Zeichnungen dargestellt sind.
Fig. 1 zeigt ein Blockschaltbild eines Sprachanalysators mit einem Partialautokorrelator (PARCOR);
Fig. 2 zeigt ein ausführlicheres Schaltbild des Sprachanalysators nach Fig. 1}
Fig. 3 zeigt eine Schaltungsanordnung eines in Fig. 2 verwendeten Korrelationskoeffizientenrechners;
Fig. 4 ist ein Blockschaltbild, das eine übliche Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode des Sprachsignals darstellt;
Fig. 5 ist ein Diagramm, das den Verlauf einer Korrelationsschwingung darstellt;
Fig. 6 ist ein Blockschaltbild, das die Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode des Sprachsignals gemäß der Erfindung darstellt;
' Fig. 7 zeigt ein Ausführungsbeispiel eines digitalen Filters, das in Fig. 6 verwendet wird;
7 09808/0857
Fig. 8 ist ein Diagramm, das den Schwingungsverlauf eines Restwertes in einem kurzen Zeitabschnitt bei einem bekannten Gerät darstellt;
Fig. 9 ist ein Diagramm des Schwingungsverlaufs eines Korrelationskoeffizienten, wenn der Schwingungsverlauf des Restwertes bei einem bekannten Gerät durch 12 Bits gequantelt ist;
Fig. 10 ist ein Diagramm des Schwingungsverlaufs eines Korrelationskoeffizienten, wenn der Restwert bei dem bekannten Gerät durch ein Bit (nur durch das Vorzeichen) gequantelt ist;
Fig. 11 ist ein Diagramm des Schwingungsverlaufs eines Restwertes, der durch ein Tiefpaßfilter gemäß der Erfindung erhalten wird;
Fig. 12 ist ein Diagramm des Schwingungsverlaufs eines Korrelationskoeffizienten, wenn der Restwert des Tiefpaßfilters durch 12 Bits gemäß der Erfindung gequantelt ist;
Fig. 13 ist ein Diagramm des Schwingungsverlaufs eines Korrelationskoeffizienten, wenn lediglich das Vorzeichen des Restwertes von dem Tiefpaßfilter benutzt wird (durch ein Bit gequantelt) und
Fig. 14 ist eine Tabelle zum Vergleich der Schaltungsanordnung gemäß der Erfindung mit einer bekannten Anordnung, bei der die Zahl der Bits zur Dar- ; stellung der restlichen Schwingung und die Fehler der Grundschwingung angegeben sind.
709808/0857
Als Ausgangssignal einer Parcoranalyse eines Sprachsignals ergibt sich ein Restwert. Das Verfahren zum Extrahieren der Grundschwingungsperiode der Sprache aus dem Korrelationskoeffizienten des Restwertes ist eines der am genauesten arbeitenden Verfahren.
Fig. 1 zeigt ein Blockschaltbild einer Schaltungsanordnung, die nach dem Parcorsystem arbeitet.
Die Schaltungsanordnung der Fig. 1 enthält eine Spracheingangsklemme 1, einen Analog-Digitalumsetzer 2, ein Gerät zum Extrahieren von Partial-Autokorrelations-Koeffizienten (kurz Parcor-Extraktor genannt), eine Anzahl von Partial-Autokorrelatoren 4, eine Anzahl Ausgangsklemmen 5 für die Partial-Autokorrelationskoeffizienten, einen Restwertanschluß 6, einen Extraktor 7 für die Schallquelleninformation, einen Extraktor 8 für die Grundschwingungsperiode des Sprachsignals, eine Ausgangsklemme des Gerätes 8, einen Rechner 10 zur Erfassung der Amplitude des Sprachsignals, eine Ausgangsklemme 11 dieses Geräts, eine Schaltung 12 zur Unterscheidung von stimmhaften und nicht stimmhaftem Schall und eine Ausgangsklemme 13 für dieses Gerät.
Ein, der Eingangsklemme 1 zugefübrtes Sprachsignal χ (t) wird in dem Umsetzer 2 in ein Digitalsignal umgesetzt, mit einer Abtastfrequenz von 8 KHz und durch ein Vorzeichenbit und 11 weitere Bits quantisiert. Das Digitalsignal wird dem Parcorextraktor 3 zugeführt.
Der Parcorextraktor 3 enthält etwa 10 Stufen von partialen Autokorrelatoren 4, die in Kaskade geschaltet sind. In federn Partial-Autokorrelator 4 wird die Korrelation zwischen dicht ■ benachbarten abgetasteten Werten des Sprachsignals als Partial-Autokorrelationskoeffizient k. an der Ausgangsklemme 5 geliefert« Die Korrelationskomponenten, die auf diese Weise zwischen den
709808/0857
dicht benachbarten Abtastwerten extrahiert sind, werden aus dem Sprachsignal entfernt, das der nächsten Stufe zugeführt wird.
Wenn dieser Vorgang wiederholt wird, dann sind die Korrelationen zwischen benachbarten abgetasteten Werten des Sprachsignals alle als Partial-Autokorrelationskoeffizienten entfernt und an der Ausgangsklemme 6 der letzten Partial-Autokorrelatorstufe treten nur Korrelationskoeffizienten zwischen verhältnismäßig weit auseinanderliegenden Schwingungsformen auf, die die Schallquelleninformation der Sprache betreffen. Die Ausgangsgröße des Parcorextraktors an der Klemme 6 wird im folgenden als Restwert £(t) bezeichnet.
Der Parcorextraktor 3 der Fig. 1 ist im einzelnen in Fig. 2 dargestellt. Der Korrelationskoeffizientenrechner der Fig. ist im einzelnen, in Fig. 3 dargestellt.
Das digitale Signal wird dem Parcorextraktor 3 von dem Analogdigitalumsetzer 2 zugeführt und in dem ersten Partial-Autokorrelator 4 wird das digitale Signal in zwei Teile geteilt, von denen der eine Teil einem Korrelationskoeffizientenrechner über eine Verzögerungsschaltung zugeführt wird, während der andere Teil dem Rechner direkt zugeleitet wird, um die Korrelation zwischen unmittelbar benachbarten abgetasteten Werten des digitalen Eingangssignals zu erhalten und einen ersten -Korrelationskoeffizienten an der Klemme 5 zur Verfügung zu stellen. Nachdem der Korrelationskoeffizient mit dem Digitalsignal multipliziert ist, das einem Multiplikator über die Verzogerungsschaltung zugeführt wird und das digitale Signal direkt einem anderen Multiplikator zugeleitet worden ist, werden die multiplizierten Ausgangsgroßen je einer Addierschaltung zugeführt, um die Differenz zwischen der multiplizierten Ausgangsgroße und dem anderen Digitalsignal zu erhalten,
709808/0857
wobei diese Differenz dem nächsten Partial-Autokorrelator 4 zugeleitet wird. In dem nächsten Partial-Autokorrelator 4 werden die Korrelationen zwischen den jeweils anderen Abtastwerten des digitalen Eingangssignals erhalten, um einen zweiten Korrelationskoeffizienten an der Klemme 5 zur Verfügung zu stellen.
Wie aus Fig. 3 hervorgeht, werden in dem Korrelationskoeffizientenrechner die Summe und die Differenz zwischen den beiden digitalen Eingangssignalen erhalten und quadriert. Dann wird die Summe und Differenz noch einmal gebildet und je einem Tiefpaßfilter zugeführt, um die Mittelwerte dieser Eingangsgrößen über einen bestimmten Zeitabschnitt zu ermitteln. Die Ausgangsgrößen der Tiefpaßfilter werden dividiert, um das Verhältnis zwischen ihnen zu bilden, so daß der Korrelationskoeffizient an der Klemme 5 zur Verfügung steht.
Wenn man auf diese Weise bei jeder Partial-Autokorrelatorstufe vorgeht, dann wird die Größe, welche dem Korrelationskoeffizienten zwischen abgetasteten Werten entspricht, die dichter beieinander liegen, als diejenigen der Stufe in der unmittelbar vorhergehenden Stufe eliminiert. Auf diese Weise wird das Frequenzspektrum des digitalen Eingangssignals allmählich flacher und nach etwa 10 Stufen ist es fast ganz flach. Wenn man den Restwert an der Klemme 6 benutzt, kann man die Grundschwingungsperiode T mit Hilfe des Extraktors 8 erhalten»
In entsprechender Weise wird die Schwingung am Ausgang eines Filters mit einer zur Sprachschwingung inversen Frequenzkennlinie als Restwert bezeichnet. Die folgende Beschreibung bezieht sich auf ein Verfahren, bei dem der Partial-Autokorrelationskoeffizient verwendet wird.
Die Sprachamplitude L wird mit Hilfe des Sprachamplitudenrechners 10 extrahiert und stimmhafte sowie nicht stimmhafte
709808/0857
Schallkoeffizienten V und UV werden mit Hilfe der Unterscheidungsschaltung 12 extrahiert und an den Klemmen 11 und zur Verfügung gestellt.
Die für die Sprache charakteristischen Parameter k* (i = 1 bis 10), T, V, UV und L, die auf diese Weise extrahiert wurden, werden quantisiert und mit einer Gruppenperiode von 5 bis 15 Millisekunden übertragen. Auf der Empfangsseite kann die ursprüngliche Sprache durch ein Partial-Autokorrelationsgerät zur Synthese der Sprache rekonstruiert werden, das durch die genannten Parameter gesteuert wird.
Fig. 4 zeigt im einzelnen ein Ausführungsbeispiel der Schaltungsanordnung 8 zum Extrahieren der Grundschwingungsperiode der Sprache mit bekanntem Aufbau. Die Anordnung enthält einen Speicher 14, einen ähnlichen Speicher 22, einen Autokorrelator 15, einen Maximalwertselektor 16, eine Ausgangsklemme 17 für den Korrelationskoeffizienten des Restwertes und eine Ausgangsklemme 18 für den Maximalwert. Der Restwert wird in dem Speicher 14 gespeichert. Dann wird ein kurzer Zeitabschnitt (etwa 20 bis 40 Millisekunden), der das Doppelte oder Dreifache der Grundschwingungsperiode der Sprache beträgt, ausgeschnitten und abgetastete Werte eines Ausschnittes werden in dem Speicher 22 festgehalten. Der Korrelationskoeffizient des Restwertes wird durch den Autokorrelator 15 errechnet, da die Grundschwingungsperiode sich als periodische Wiederholung des Maximalwertes ergibt. Dann wird ein Abtastbereich (2 bis 20 Millisekunden) der Grundschwingung speriode zur Verfügung gestellt und ein Maximalwert des Korrelationskoeffizienten des Restwertes durch den Maximalwertselektor 16 erfaßt. Die Lage des auf diese Weise festgestellten Maximalwertes wird an der Ausgangsklemme 9 als Grundschwingungsperiode der Sprache zur Verfügung gestellt und ihr Wert an der Klemme 18.
709808/0857
Es folgt nun eine kurze Erläuterung des Verfahrens zum Extrahieren der Grundschwingungsperiode mit Hilfe der Autokorrelation des oben erwähnten periodischen Signals. Der Autokorrelationskoeffizient R (n) eines diskreten Signals £(t) wird durch die folgende Gleichung ausgedrückt:
R(n) = 1UnI | t±. β±+η (I)
Wenn das diskrete Signal g(t) z.B. eine Sinusschwingung ist, dann wird das Signalq (t) und der Autokorrelationskoeffizient R(n) durch die folgenden Gleichungen II und III gegeben:
N ■
• (t) «„£-,. S1nCOs (mc^t + 9m) (II)
1 N 2
R(n) =2 £ a^mcosm<*0n (III)
Wie aus der Gleichung III hervorgeht, geht die Phaseninformation der Frequenzkomponenten verloren und die Maximalwerte der betreffenden Komponenten stimmen vollständig miteinander bei einer Periode, die ein ganzzahliges vielfaches η der Grundschwingungsperiode ist, überein, so daß der Wert des Autokorrelations- . koeffizienten R(n) auch seinen Maximalwert darstellt, aber immer kleiner wird als bei anderen Perioden„ Infolgedessen kann die Grundschwingungsperiode durch Feststellung des Maximalwertes erhalten werden.
Wenn in der Praxis die Signalperiode in jedem Augenblick schwankt und die zeitabhängige Veränderung ein wichtiger Parameter ist, wie dies bei der Sprache der Fall ist, ist das unbestimmte Integral der Gleichung I ohne Bedeutung, so daß von einem Kurzzeitautokorrelationskoeffizienten nach der folgenden Gleichung IV Gebrauch gemacht wird oder von einem Wert, der durch die Signalleistung nach der folgenden
709808/0857
Gleichung V normiert ist.
ΦΝ(η) =
Fig. 5 ist ein Diagramm, welches schematisch eine solche Korrelationsschwingung zeigt. Die Grundschwingungsperiode T in Fig. 5 hat die Beziehung der Gleichung VI zu einer Sprachabtastperiode Ts:
T= η' rs (VI)
In Fig. 5 bezeichnet das Bezugszeichen Tq den Abtastzeitraum des Maximalwertes jeder Frequenzkomponente.
Auf diese Weise wird bei der bekannten Anordnung der Einfluß des Formanten,der auf der Übertragungseigenschaft des Stimmtraktes beruht, durch die Parcoranalyse eliminiert und die Grundschwingungsperiode wird mit hoher Genauigkeit extrahiert. Die dabei benötigten Vorgänge sind jedoch kompliziert und der Aufwand ist groß, so daß sehr schnell arbeitende Elemente für eine Realzeitverarbeitung erforderlich sind und die Kosten des Analysators sich dadurch erhöhen. Die Arbeitsgenauigkeit zur Darstellung des Restwertes erfordert etwa 12 Bits. Wenn z.B. eine kurze Periode von 20 Millisekunden aus dem Sprachsignal ausgeschnitten wird und in ein digitales Signal umgesetzt wird, das durch 12 Bits dargestellt ist und eine Abtastfrequenz von 8 KHz hat und der Autokorrelationskoeffizient (n=O bis 100) der Gleichung IV berechnet ist, ist es notwendig, das Produkt (etwa 12 Bits χ 12 Bits) i6000mal zu berechnen und die Summe (24 Bits + 24 Bits) in einer kurzen Zeit von 10 Millisekunden i6000mal zu bilden. Die Verwirklichung mi*. Ätrahiergerätes
709808/0857
zur Durchführung dieser Vorgänge ist nur möglich, wenn Bauelemente sehr hoher Geschwindigkeit, wie z.B. Schottky TTLs zur Verfügung stehen.
Durch die Erfindung sollen diese Schwierigkeiten der bekannten Anordnungen beseitigt werden. Eine Ausführungsform der Erfindung ist als Blockschaltbild in Fig. 6 dargestellt. Die Anordnung der Fig. 6 enthält eine Eingangsklemme 6 für den Restwert, ein Tiefpaßfilter 19, eine Guantisieranordnung 20, eine Ausgangsklemme 21 für diese Anordnung, einen Speicher 14, einen weiteren Speicher 22 und einen Autokorrelator 15. Ferner ist.· eine Ausgangsklemme 17 für den Korrelator vorgesehen, ein Maximalwertselektor 16, eine Ausgangsklemme 9 für die Grundschwingungsperiode der Sprache und eine Ausgangsklemme 18 für den Maximalwert des Korrelationskoeffizienten.
Bei dem Extrahieren der Grundschwingungsperiode der Sprache ist eine Periode von 20 bis 40 Millisekunden, die das Zweifache bzw. Dreifache der Grundschwingungsperiode ist, gewohnlich ein Gegenstand der Analyse und die Extraktion der Grundschwingungsperiode wird mit einer Verschiebung der Analysenperiode im Bereich von 5 bis 15 Millisekunden durchgeführt. Es wird nun ein Fall beschrieben, bei dem die Grundschwingungsperiode aus einem Restwert extrahiert wird, der in ein digitales Signal umgewandelt ist, das eine Abtastfrequenz von 8 KHz hat und ein Vorzeichenbit und 11 weitere Bits enthält. Es wird weiter angenommen, daß die Länge des in einer Analyse zu analysierenden Bereichs 20 Millisekunden und bezüglich des abgetasteten Werts 160 beträgt und daß die Grundschwingungsperiode extrahiert . wird, wobei der Bereich um 10 Millisekunden und 80 abgetastete Werte verschoben wird.
709808/0857
Der der Eingangsklemme 6 in Zeitintervallen von 125 Mikrosekunden zugeführte Restwert wird dem Tiefpaßfilter 19 zugeführt, um die unnötigen Hochfrequenzkomponenten zu entfernen und dann dem Guantisiergerät 20 zugeleitet. In dem Quantisierer 20 wird das Signal einer Spitzenbegrenzung unterworfen bzw. einer Quantisierung oder dergleichen, um es durch wenige Bits darzustellen. Das quantisierte Signal, welches 80 abgetasteten Werten entspricht, wird in dem Speicher 14 gespeichert. Der Speicher 14 hat die Form eines Schieberegisters oder dergleichen und eine Kapazität im vorliegenden Fall von 1 Bit χ 80 Worten. Wenn die 80 abgetasteten Werte in den Speicher 14 eingeschrieben sind, wird der Inhalt des Speichers 14 dem nächsten Speicher 22 zugeführt, bevor die nachfolgenden abgetasteten Werte an dem Speicher 14 eintreffen, d.h. vor dem Ablauf von 125 MikrοSekunden, worauf die Einspeicherung der neuen abgetasteten Werte im Speicher 14 beginnt. Der Speicher 22 hat eine Kapazität für die Speicherung der abgetasteten Werte eines Bereiches und zwar im vorliegenden Beispiel von 1 Bit χ 160 Worten. Die abgetasteten Werte des unmittelbar vorhergehenden Bereiches und die 80 abgetasteten Werte, die neu von dem Speicher 14 übertragen werden, d.h. eine Gesamtzahl von 16O abgetasteten Werten bilden einen Bereich oder Rahmen in dem Speicher 22. Der Speicher 22 ist als Schieberegister oder dergleichen ausgebildet. Als nächstes wird in dem Autokorrelator 15 der Autokorrelatorkoeffizient auf eine Verzögerung von etwa der hundertsten Ordnung berechnet. In dem Maximalwertselektor 16 wird die Grundschwingungsperiode der Sprache als die Lage des maximalen Autokorrelationskoeffizienten im Abtastbereich (Tq) von Verzögerungen der 20. bis 100. Ordnung erfaßt und steht am Ausgangspunkt 9 zur Verfügung. Der Maximalwert des Autokorrelationskoeffizienten kann am Ausgang 18 abgenommen werden.
70 9 808/0857
Da die Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode der Sprache gemäß der Erfindung nach dem oben beschriebenen Beispiel so ausgeführt ist, daß die unnötigen Hochfrequenzkomponenten, die in dem Restwert enthalten sind, durch ein Tiefpaßfilter abgeschnitten werden, ist es möglich, den Maximalwert des Korrelationskoeffizienten des Restwertes klar zu erkennen. Infolge dessen ist der am Tiefpaßfilter abgenommene Restwert durch ein niedriges Bit dargestellt, so daß bei Ausnutzung des beschriebenen Effektes die Verarbeitungsvorgänge wesentlich vermindert werden können.
Im Fall der Berechnung der Gleichung IV unter den gleichen Bedingungen,wie beim eben genannten Beispiel,erfordern die Vorgänge des bisher bekannten Verfahrens 16000 Multiplikationen von 12 Bits χ 12 Bits und 16000 Additionen von 24 Bits + 24 Bits in 10 Millisekunden. Jedoch wird bei Ausführung nach der Erfindung nur eine Zahl von 16000 Additionen von 1 Bit erforderlich, so daß es sich um eine erhebliche Einsparung handelt. Bei dem bekannten Verfahren mußte der Speicher 14 eine Speicherkapazität von 12 Bits χ 80 Worten haben und der Speicher 22 eine Speicherkapazität von 12 Bits χ 160 Worten. Bei Anwendung der Erfindung ist die erforderliche Speicherkapazität dieser Speicher nur 1 Bit χ 80 Worten bzw. 1 Bit χ 160 Worten. Hierdurch ergeben sich beträchtliche Einsparungen bezüglich der Schaltungsausführung. Die Anordnung der bekannten Art zum Extrahieren der Grundschwingungsperiode benötigte etwa 10000 Tore, jedoch kommt man bei der Schaltungsanordnung gemäß der Erfindung mit etwa 2000 Toren aus, d.h. der Schaltungsaufwand beträgt nur 1/5. Auch die Ansprechzeit der Elemente beträgt nur 1/5 derjenigen bei den bekannten Extraktoren, so daß bei der bekannten Schaltungsanordnung die Verwendung von Schottky TTL-Transistoren erforderlich ist, während bei der Schaltungsanordnung gemäß der Erfindung mit MOS-Elementen gearbeitet wird. Die Schaltungsanordnung gemäß der Erfindung
709808/0857
kann daher mit LSI durchgeführt werden.
Das in Fig. 6 dargestellte Tiefpaßfilter 19 kann ein digitales Filter sein, das beispielsweise in Fig. 7 dargestellt ist.
Das digitale Filter enthält als HauptSchaltungskomponente eine digitale Addierschaltung, einen Multiplikator und ein Verzögerungselement zur Durchführung der Operationen, die durch die folgende lineare Differentialgleichung mit konstantem Koeffizienten gegeben sind.
N r ι N ζ Ί y(nT) = Z %x [(η-Ai)Tf -^ b^ y £(η-υ)Τ$ (VII)
wobei x(nT) und y(nT) Eingangs- und Ausgangssignalreihen sind und a und b^ reelle Zahlen sind.
Fig. 7 zeigt ein Rekursivfilter erster Ordnung. Wenn eine Größe χ der Eingangsklemme zugeführt wird, werden die Eingangsund Ausgangsgrößen eines Multiplikators durch eine Addierschaltung voneinander abgezogen, so daß sich die resultierende Differenz als Ausgangssignal am Ausgang der Schaltung ergibt. Gleichzeitig wird diese Differenz einer Verzögerungsschaltung zugeführt und einem Multiplikator mit dem Faktor a, so daß sich eine Ausgangsgröße ax ergibt, die der Addierschaltung zur Subtraktion mit dem nächsten Eingangssignal zugeleitet wird. Danach wird dieser Vorgang wiederholt. Wenn man das obige Filter als ein lineares System betrachtet, nehmen die Ausgangswerte mit dem Koeffizienten a des Multiplikators ab und werden schließlich Null in dem Bereich von |al^L1. Im Fall eines nichtlinearen Systems konvergiert der Ausgangswert nach Null nur in dem Bereich von jaj<0,5 und bei anderen Werten ist das System unstabil.
70 9808/08 57
In der erfindungsgemäßen Anordnung ist jedoch die Ausbildung des digitalen Filters nicht so wichtig und ein Filter so einfachen Aufbaus wie das in Fig. 7 dargestellte genügt, solange die Grenzfrequenz im Bereich von 500 bis 1000Hz liegt.
In den Fig. 8 bis 14 wird die Erfindung mit den bekannten Verfahren verglichen. Fig. 8 zeigt den Schwingungsverlauf eines Restwertes mit einer Länge von 20 Millisekunden und Fig. 9 und 10 zeigen verschiedene Schwingungsverläufe für den Korrelationskoeffizienten bei einem bekannten "Verfahren, wenn der Restwert nach Fig. 8 mit 12 Bits bzw. 1 Bit gequantelt wird. Fig. 11 zeigt den Schwingungsverlauf, wenn das Restsignal einem digitalen Filter mit einer Grenzfrequenz von 500 Hz zugeführt wird und Fig. 12 und 13 zeigen den Verlauf des Korrelationskoeffizienten gemäß der Erfindung, wenn die Schwingung nach Fig. 11 mit 12 Bits und 1 Bit (nur dem Vorzeichen nach) quantisiert wird. Die Schwingungsverläufe der Fig. 8 und 11, 9 und 12 sowie 10 und 13 entsprechen dabei einander.
Wenn bei dem bekannten System der Schwingungsverlauf durch 12 Bits nach Fig. 9 dargestellt wird, kann man Maximalwerte des Korrelationskoeffizienten erkennen. Wenn jedoch der Restwert mit einer niedrigen Bitzahl (1 Bit) nach Fig. 10 dargestellt wird, kann ein zweiter Maximalwert bei diesem Beispiel nicht erkannt werden, so daß fälschlicherweise eine Periode extrahiert wird, die dem doppelten der Grundschwingungsperiode entspricht. . .
Andererseits hat gemäß der Erfindung ein quantisiertes Rauschen die gleiche Periode wie ein periodisches Signal, so daß beim Extrahieren der Grundschwingungsperiode die Quantisierung des Signales nicht wesentlich ist. Wie sich aus Fig. 13 ergibt, ist es möglich, die Grundschwingungsperiode mit genügender
709808/0857
Genauigkeit aus dem Korrelationskoeffizienten lediglich aus dem Vorzeichen des Restwertes zu "bestimmen, nachdem dieser dem Tiefpaßfilter zugeführt ist.
Um die Betriebsgenauigkeit zu erhalten, die für den in Fig· 6 gezeigten Quantisierer (einen D-D-Umsetzer) zu bestimmen, wurde die Grundschwingungsperiode der Sprache mit einer Schaltungsanordnung gemäß der Erfindung ermittelt, wobei die Stimmen von 3 Frauen beim Ablesen eines Textes für etwa 3,5 Sekunden zugrundegelegt wurde. In Fig. 14 sind Fehlerwerte bei der Extraktion von Grundschwingungsperioden dargestellt, wobei eine Betriebsgenauigkeit von 12 bis 1 Bit verwendet wurde und zwar in Prozent der Zahl sämtlicher Bereiche in der Sprachperiode. Fig. 14 zeigt, daß der Fehler etwa W% bei dem üblichen Verfahren der Extraktion betrug jedoch weniger als Λ% bei der Schaltungsanordnung gemäß der Erfindung. Sogar im Fall.der Korrelation mit einem Bit (lediglich mit dem Vorzeichen) wurde eine ausreichende Präzision erhalten.
Die obige Beschreibung wurde im Zusammenhang mit einem System der Sprachanalyse gegeben, bei dem eine Sprachschwingungsform dargestellt wird, wobei ein Partialautokorrelationskoeffizient als Parameter benutzt wird. Es ist jedoch klar, daß die Erfindung auch auf einen Restwert einer Sprachschwingung anwendbar ist, der von einem Filter abgeleitet wird, das eine inverse Kennlinie des Frequenzganges im Vergleich mit der Sprachschwingung hat.
Wie oben angegeben, kann gemäß der Erfindung ein Maximalwert des Korrelationskoeffizienten eines Restwertes deutlich erfaßt werden, indem der Restwert einem Tiefpaßfilter zugeführt wird, so daß;die GrundSchwingungsperiode der Sprache genau und stetig extrahiert werden kann. Besonders da die Korrelation lediglich des Vorzeichens eines Signals zur Extraktion genügt, brauchen
709808/0857
nur Addiervorgänge durchgeführt zu werden, während bei dem bekannten Verfahren Multiplikationen und additive Operationen erforderlich sind. Die Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode gemäß der Erfindung ist daher wesentlich einfacher als die bekannten Geräte. Außerdem kann die Genauigkeit der Bestimmung der Grundschwingungsperiode der Sprache in der oben beschriebenen Weise verbessert werden, so daß die Qualität der synthetisehen Sprache bei der Übertragung der Sprache mit Bandkompression oder bei der Wiedergabe im Hörbereich wesentlich verbessert wird.
709808/0857

Claims (4)

Patentansprüche
1. Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal, bei der die Sprachschwingung einem Filter zugeführt wird, dessen Frequenzkennlinie angenähert invers zu derjenigen eines Sprachsignals verläuft, um einen Restwert zu erhalten, bei der ferner ein Autokorrelator einen Autokorrelationskoeffizienten des Restwertes über Zwischenspeicher errechnet und bei der die Grundschwingungsperiode der Sprache aus der Lage des Maximalwertes des Autokorrelationskoeffizienten erhalten wird,
dadurch gekennzeichnet, daß mit einem Tiefpaßfilter (I9)die unnötigen hochfrequenten Komponenten des Restwertes unterdrückt werden und daß Einrichtungen (20) zur Quantelung des am Ausgang des Tiefpaßfilters anstehenden Restwertes vorgesehen sind.
2. Schaltungsanordnung nach Anspruch 1, dadurch gekennzeichnet,
daß das Tiefpaßfilter als digitales Tiefpaßfilter mit einer Grenzfrequenz von 500 bis 1000 Hz ausgebildet ist.
3. Schaltungsanordnung nach Anspruch 1, dadurch gekennzeichnet,
daß die Quantelung mit einer niedrigen Bitzahl durchgeführt wird.
4. Schaltungsanordnung nach Anspruch 1, dadurch gekennzeichnet,
daß der von dem Autokorrelator errechnete Autokorrelationskoeffizient der Autokorrelationskoeffizient eines Rest-
709808/08 5 7
wertes ist, der durch eine lineare prediktive Analyse erhalten wird.
Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode eines Sprachsignals, bei der die Sprachschwingung einem Filter zugeführt wird, das eine zum Sprachsignal inverse Charakteristik des Frequenzspektrums aufweist, und einen Restwert liefert,
daß aus dem Restwert über Zwischenspeicher mit Hilfe eines Autokorrelators ein Autokorrelationskoeffizient errechnet wird und daß Einrichtungen vorgesehen sind, mit denen aus der Lage eines Maximalwertes des Korrelationskoeffizienten die Grundschwingungsperiode der Sprache erhalten wird,
dadurch gekennzeichnet, daß ein digitales Filter mit einer Grenzfrequenz von 500 bis 1000 Hz zur Unterdrückung der Hochfrequenzkomponenten des Restwertes vorgesehen ist und daß Einrichtungen vorgesehen sind, mit denen lediglich das Vorzeichen des von dem digitalen Filter gelieferten Restwertes festgestellt werden und daß der Autokorrelator den Autokorrelationskoeffizienten lediglich durch Addition berechnet.
Re/Pi.
709808/0857
Leerseite
DE2636032A 1975-08-22 1976-08-11 Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal Expired DE2636032C3 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP50102473A JPS6051720B2 (ja) 1975-08-22 1975-08-22 音声の基本周期抽出装置

Publications (3)

Publication Number Publication Date
DE2636032A1 true DE2636032A1 (de) 1977-02-24
DE2636032B2 DE2636032B2 (de) 1979-05-10
DE2636032C3 DE2636032C3 (de) 1984-07-19

Family

ID=14328408

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2636032A Expired DE2636032C3 (de) 1975-08-22 1976-08-11 Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal

Country Status (6)

Country Link
US (1) US4081605A (de)
JP (1) JPS6051720B2 (de)
CA (1) CA1061906A (de)
DE (1) DE2636032C3 (de)
FR (1) FR2321738A1 (de)
GB (1) GB1555254A (de)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS597120B2 (ja) * 1978-11-24 1984-02-16 日本電気株式会社 音声分析装置
US4220819A (en) * 1979-03-30 1980-09-02 Bell Telephone Laboratories, Incorporated Residual excited predictive speech coding system
JPS5857758B2 (ja) * 1979-09-28 1983-12-21 株式会社日立製作所 音声ピッチ周期抽出装置
JPS58143394A (ja) * 1982-02-19 1983-08-25 株式会社日立製作所 音声区間の検出・分類方式
US4486900A (en) * 1982-03-30 1984-12-04 At&T Bell Laboratories Real time pitch detection by stream processing
US4561102A (en) * 1982-09-20 1985-12-24 At&T Bell Laboratories Pitch detector for speech analysis
US4731846A (en) * 1983-04-13 1988-03-15 Texas Instruments Incorporated Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal
JPS61134000A (ja) * 1984-12-05 1986-06-21 株式会社日立製作所 音声分析合成方式
JPH0690638B2 (ja) * 1986-06-25 1994-11-14 松下電工株式会社 音声分析方式
US4980917A (en) * 1987-11-18 1990-12-25 Emerson & Stern Associates, Inc. Method and apparatus for determining articulatory parameters from speech data
FR2670313A1 (fr) * 1990-12-11 1992-06-12 Thomson Csf Procede et dispositif pour l'evaluation de la periodicite et du voisement du signal de parole dans les vocodeurs a tres bas debit.
US5715365A (en) * 1994-04-04 1998-02-03 Digital Voice Systems, Inc. Estimation of excitation parameters
DE19616103A1 (de) * 1996-04-23 1997-10-30 Philips Patentverwaltung Verfahren zum Ableiten charakteristischer Werte aus einem Sprachsignal
WO2001078062A1 (en) * 2000-04-06 2001-10-18 Telefonaktiebolaget Lm Ericsson (Publ) Pitch estimation in speech signal
AU2001273904A1 (en) * 2000-04-06 2001-10-23 Telefonaktiebolaget Lm Ericsson (Publ) Estimating the pitch of a speech signal using a binary signal
JP3827317B2 (ja) * 2004-06-03 2006-09-27 任天堂株式会社 コマンド処理装置
JP4935280B2 (ja) * 2006-09-29 2012-05-23 カシオ計算機株式会社 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム
TWI728632B (zh) * 2019-12-31 2021-05-21 財團法人工業技術研究院 特定音源的定位方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2050512A1 (de) * 1970-02-07 1971-08-26 Nippon Telegraph & Telephone Vorrichtung zur Verarbeitung von Ton bzw Sprachsignalen
DE2233872A1 (de) * 1971-07-09 1973-01-18 Western Electric Co Signalanalysator

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3975587A (en) * 1974-09-13 1976-08-17 International Telephone And Telegraph Corporation Digital vocoder

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2050512A1 (de) * 1970-02-07 1971-08-26 Nippon Telegraph & Telephone Vorrichtung zur Verarbeitung von Ton bzw Sprachsignalen
DE2233872A1 (de) * 1971-07-09 1973-01-18 Western Electric Co Signalanalysator

Also Published As

Publication number Publication date
FR2321738A1 (fr) 1977-03-18
CA1061906A (en) 1979-09-04
JPS6051720B2 (ja) 1985-11-15
FR2321738B1 (de) 1979-09-28
GB1555254A (en) 1979-11-07
JPS5226107A (en) 1977-02-26
DE2636032C3 (de) 1984-07-19
US4081605A (en) 1978-03-28
DE2636032B2 (de) 1979-05-10

Similar Documents

Publication Publication Date Title
DE2636032C3 (de) Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal
DE60303214T2 (de) Verfahren zur reduzierung von aliasing-störungen, die durch die anpassung der spektralen hüllkurve in realwertfilterbanken verursacht werden
DE2919085C2 (de) Vorverarbeitungsverfahren und -vorrichtung für eine Spracherkennungsvorrichtung
DE69619284T3 (de) Vorrichtung zur Erweiterung der Sprachbandbreite
DE2233872C2 (de) Verfahren zur Bestimmung der Grundwellenperiode eines Sprachsignals
DE3510660C2 (de)
DE69634645T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE60103086T2 (de) Verbesserung von quellcodierungssystemen durch adaptive transposition
DE19736669C1 (de) Verfahren und Vorrichtung zum Erfassen eines Anschlags in einem zeitdiskreten Audiosignal sowie Vorrichtung und Verfahren zum Codieren eines Audiosignals
DE3101851C2 (de) Vorrichtung zum Erkennen von Sprache
DE602005004464T2 (de) Sprachverbesserung
DE69920461T2 (de) Verfahren und Vorrichtung zur robusten Merkmalsextraktion für die Spracherkennung
EP1386307B2 (de) Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals
DE10030105A1 (de) Spracherkennungseinrichtung
DE2749132A1 (de) Rauschfilter-anordnung
DE3012771C2 (de)
DE2622423C3 (de) Elektrische Anordnung zur Übertragung oder Speicherung eines Sprachoder Tonsignals in kodierter Form
DE2659083A1 (de) Verfahren und vorrichtung zur sprechererkennung
DE602004010634T2 (de) Verfahren und system zur sprachqualitätsvorhersage eines audioübertragungssystems
DE60311754T2 (de) Verfahren und Vorrichtung zur Schätzung der Gesamtgüte eines Sprachsignals
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
EP1239455A2 (de) Verfahren und Anordnung zur Durchführung einer an die Übertragungsfunktion menschilcher Sinnesorgane angepassten Fourier Transformation sowie darauf basierende Vorrichtungen zur Geräuschreduktion und Spracherkennung
DE69830816T2 (de) Mehrstufige Audiodekodierung
DE60016305T2 (de) Verfahren zum Betrieb eines Sprachkodierers
DE4218623C2 (de) Sprachsynthesizer

Legal Events

Date Code Title Description
C3 Grant after two publication steps (3rd publication)
8327 Change in the person/name/address of the patent owner

Owner name: NIPPON TELEGRAPH AND TELEPHONE CORP., TOKIO/TOKYO,

8328 Change in the person/name/address of the agent

Free format text: REICHEL, W., DIPL.-ING. LIPPERT, H., DIPL.-ING., PAT.-ANW., 6000 FRANKFURT

8339 Ceased/non-payment of the annual fee