DE2636032A1

DE2636032A1 - Schaltungsanordnung zum extrahieren der grundfrequenz aus einem sprachsignal

Info

Publication number: DE2636032A1
Application number: DE19762636032
Authority: DE
Inventors: Shinichiro Dipl Ing Hashimoto; Nobuhiko Dipl Ing Kitawaki
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1975-08-22
Filing date: 1976-08-11
Publication date: 1977-02-24
Also published as: FR2321738A1; CA1061906A; JPS6051720B2; FR2321738B1; GB1555254A; JPS5226107A; DE2636032C3; US4081605A; DE2636032B2

Description

6 Frankfurt a M. 1 8519 Parkairaße 13

NIPPON TELEGRAPH AND TELEPHONE PUBLIC CORPORATION, Tokyo, Japan

Schaltungsanordnung zum Extrahieren der Grundfrequenz aus einem Sprachsignal

Die Erfindung betrifft Schaltungsanordnungen zum Extrahieren der Grundschwingung aus einem Sprachsignal, die einen wirtschaftlichen Aufbau eines Sprachanalysators gestatten.

Zur Erhöhung des Wirkungsgrades der Kommunikation zwischen einem Sprecher und einem Datenübertragungssystem mit Bandkompression oder einem Informationsprozessor ist ein Verfahren zur Sprachanalyse und -synthese entwickelt worden, das in neuen Datenübertragungsanlagen, telefonischen Platzreservierungsanlagen, Auskunftsdiensten in Flughafen und Bahnhöfen praktisch angewendet wird.

Eine Sprachschwingung ist eine Tonschwingung, die von den Lippen oder der Nase ausgeht, wenn Stimmbandschwingungen (bei stimmhafter Quelle)oder Geräuschschwingungen(bei nicht stimmhafter Quelle)als turbulente Strömung durch die Verengung des Stimmtraktes hindurchgehen und in den Stimmtrakt eintreten. Im Falle einer Sprachsynthese wird eine glottale Sprachquelle durch Erregung eines Impulsgenerators erzeugt und eine

709808/0857

"² ' 2636

Quelle für turbulente Laute durch Erregung eines Generators für weißes Rauschen gebildet. Der St4.mmtrakt wird mit einem elektrischen Schaltungsäquivalent bezüglich seiner Übertragungsfunktion nachgebildet und der Strahler durch einen Lautsprecher·

Zur Sprachanalyse gehört eine Analyse der Schallquelle zur ^: quantitativen Erfassung der Eigenschaften der Schallquelle, die den angetriebenen Stimmtrakt enthält,sowie eine Analyse des Frequenzganges in bestimmten Ze it Intervallen (10 bis 30 Millisekunden) ,den die Übertragungsfunktion des Stimmtraktes aufweist. Die Schallquellenanalyse erfordert eine quantitative Extraktion von drei Faktoren, d.h. von einem Unterscheidungssignal zwischen einem Impulszug (einem stimmhaften Ton) und einem Rauschen (einem nicht stimmhaften Ton), ferner der Tonhöhe des Impulszuges (des stimmhaften Tones) und der Amplitude des Impulszuges (des stimmhaften Tones) oder des Rauschens (des nicht stimmhaften Tons). Diese Faktoren verändern sich aber mit recht hoher Geschwindigkeit und lassen sich daher nur sehr schwierig genau analysieren. Besonders die Grundschwingungsdauer der Sprache ist selbst im Fall eines stimmhaften Tones sehr schwierig genau zu extrahieren, weil sie nicht streng periodisch verläuft und sich in jedem Augenblick in Übereinstimmung mit der Intonation der Sprache ändert ,und da sie Störungen durch den Mechanismus der Stimmerzeugung sowie durch den Einfluß der Übertragungscharakteristik des Stimmtraktes unterliegt.

Es sind verschiedene Sprachanalyse-Synthesesysteme bekannt, z.B. eine Kurzzeit-Spektralanalyse unter Verwendung einer Bandpaßfiltergruppe .sowie einer Formantfrequenzbestimmung mit Hilfe eines Zählverfahrens für die Nulldurchgänge usw. Aus diesen Systemen ist auch ein partielles Autokorrelationssystem (PARCOR) als eins der günstigsten Mittel für die Datenkompression, für die Qualität der synthetischen Sprache und

709808/0857

"³" 26 3 6 O 3

die automatische Extraktion der charakteristischen Sprachparameter bekannt.

Wie oben erwähnt wurde, ist bei der Sprachanalyse und -synthese die Grundschwingungsperiode der Sprache einer der drei wichtigen Schallquellenparameter. Wenn man diesen Parameter mit dem Parcorsystem extrahiert, wird ein Restwert der Ausgangsgröße eines Analysators zur Erfassung eines Parcorkoeffizienten einem Autokorrelator zugeführt, um den Autokorrelationskoeffizienten zu extrahieren und eine Verzögerungszeit T, welche dem Spitzenwert dieses Koeffizienten entspricht, wird als die Grundschwingungsperiodendauer der Sprache betrachtet.·

Auch bei anderen Sprach-Analyse-Synthesesystemen wird eine Sprachschwingung einem Filter zugeführt, das eine inverse Kennlinie des Frequenzganges aufweist, der denjenigen der Sprachschwingung annähert,und die Schwingung am Ausgang des Filters wird als ein Restwert benutzt, um die Grundschwingungsperiode der Sprache mit Hilfe des oben erwähnten Verfahrens zu erhalten.

Da jedoch der Restwert ein Signal ist, welches nur ein Merkmal für einen winzigen Bestandteil des Sprachspektrums ist und einen impulsförmigen Verlauf hat, leiden die oben erwähnten Verfahren des Extrahierens an dem Fehler, daß eine doppelte oder halbe Schwingungsdauer der Grundschwingung unter Umständen irrtümlich extrahiert wird, wenn nicht die Abtastdauer sehr kurz gewählt wird. Wenn ferner der Restwert durch niedrige Bitzahlen dargestellt wird, ist diese Gefahr besonders groß und eine Quantisierung des Restwertes durch niedrige Bitzahlen ist . schwierig.

Der Autokorrelator muß daher ein Element sehr hoher Geschwindigkeit enthalten, da die Arbeitsweise hoher Präzision in einer

709808/0857

kurzen Zeit durchgeführt werden muß. Hierdurch ergeben sich große Schwierigkeiten bei der praktischen Durchführung des Verfahrens.

Bei dem in der US-PS 3,740,476 beschriebenen Verfahren wird ein von einem Tiefpaßfilter abgeleiteter Restwert einer Einweggleichrichtung unterworfen, um nur die positive Komponente zu erhalten und der Spitzenwert in einer bestimmten Periode wird mit Hilfe eines Spitzenwertermittlers ausgewählt und die sich ergebende Schwingung wird weiteren Verfahren z.B. der Unterdrückung von Komponenten, die niedriger als ein Schwellwert sind, unterworfen, so daß die Grundschwingungsperiode der Sprache extrahiert wird.

In der Zeitschrift IEEE AU-20-5, 1972 ist ein Verfahren zum Extrahieren der Grundschwingung angegeben, bei dem ein Restwert einer 1/5-Abtastung unterworfen wird und dann einem inversen Filter zugeführt wird, um eine Autokorrelation zu berechnen und dadurch die anfallende Rechenarbeit zu reduzieren. Nachdem die Autokorrelation erhalten ist, wird die Verminderung des Auflösungsvermögens infolge der Abtastung interpoliert, um die Grundschwingung ier Sprache zu extrahieren. Bei diesem Verfahren ist es jedoch notwendig, den gleichen Vorgang wie beim Extrahieren des Parcorkoeffizienten getrennt durchzuführen.

In der Zeitschrift J.A.S.A., Band 56, 1974 ist ein Verfahren angegeben, bei dem das Extrahieren der Grundschwingung nach dem Autokorrelationsverfahren mit einer geeigneten Hardware durchgeführt wird. In diesem Fall ist es jedoch notwendig, da der Schwingungsverlauf der Sprache selbst der zu verarbeitende Gegenstand ist, eine Mittenbegrenzung durchzuführen, um die' Formantkonstruktion der Sprache zu unterdrücken.

709808/0857

Die Parcor-Sprach-Analyse-Synthese-Anordnung, auf die die Erfindung angewendet wird, wird in einem Datenübertragungssystem mit Bandkompression verwendet, wobei auf der Sendeseite die Sprache in Parameter zerlegt wird, welche die Sprache effektiv darstellen und bei der auf der Empfangsseite die ursprüngliche Sprache aufgrund dieser Parameter wieder zusammengesetzt wird.

In den letzten Jahren sind digitale Signalverarbeitungsverfahren dieser Art entwickelt und in die Praxis eingeführt worden. Diese Verarbeitung jedoch ist so kompliziert, daß die Geräte sehr teuer werden. Insbesondere ist der Aufwand für eine Schallquellenanalysiereinheit sehr groß und z.B. um eine Größenordnung größer als der Aufwand für_L eine, den Frequenzgang analysierende Einheit. Daher wäre eine Verminderung der Kosten durch Verwendung von LSI unmöglich, selbst wenn man eine weitere Entwicklung der IC-Technik erwarten kann.

Der Erfindung liegt daher die Aufgabe zugrunde, einen nach wirtschaftlichen Gesichtspunkten ausgebildeten Sprachanalysator zu schaffen. Dabei soll die Grundschwingungsperiode der Sprache derart extrahiert werden, daß unnötige hochfrequente Komponenten, die in einem Restwert enthalten sind, durch ein Tiefpaßfilter unterdrückt werden, um einen Maximalwert des Autokorrelationskoeffizienten in bestimmter Weise zu erfassen, so daß die Grundschwingungsperiode der Sprache genau und stabil extrahiert 'wird. "

Die Erfindung befaßt sich also mit einer Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode eines Sprachsignals, bei der ein Restwert am Ausgang eines Tiefpaßfilters durch niedrige Bits dargestellt wird, um eine Vereinfachung der arithmetischen Schaltung zu erreichen und das Speichervermögen

709808/0857

eines Speichers zu reduzieren, der den Restwert aufnimmt. Die Ansprechgeschwindigkeit der benötigten Bauelemente ist verhältnismäßig niedrig, so daß die Herstellungskosten vermindert werden.

Die Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode eines Sprachsignals gemäß der Erfindung hat den Vorteil, daß die Genauigkeit beim Extrahieren verbessert wird, wodurch die Qualität der synthetischen Sprache in einem Datenübertragungssystem für die Sprache mit Bandkompression oder in einem Audiowiedergabegerät verbessert wird.

Bei der Schaltungsanordnung der genannten Art wird lediglich die Information über das Vorzeichen eines Restwertes am Ausgang eines Tiefpaßfilters benutzt, um den Aufbau der arithmetischen Schaltung zu vereinfachen und um das Speichervermögen des Speichers zur Aufnahme des Restwertes zu vermindern und das notwendige Ansprechvermögen der Bauelemente herabzusetzen.

Gemäß der Erfindung werden bei einer bevorzugten Ausführungsform unnötige Komponenten eines Restwertes der Sprachschwingung, die dem Filter zugeführt worden ist, das eine umgekehrte Frequenzcharakteristik wie das Sprachsignal hat, entfernt und die Grundschwingungsperiode der Sprache wird aus dem Korrelationskoeffizienten des Restwertes extrahiert.

Bei einer anderen Ausführungsform der Erfindung werden die unnötigen Komponenten, die in dem Restwert enthalten sind, unterdrückt und die Grundschwingungsperiode der Sprache wird aus den Korrelationskoeffizienten eines Signals extrahiert, das den durch niedrige Bits gequantelten Restwert darstellt.

709808/0857

Bei einer weiteren Ausführungsform werden gemäß der Erfindung die unnötigen Komponenten des Restwertes unterdrückt und dann wird die Grundschwingungsperiode der Sprache aus dem Korrelationskoeffizienten lediglich aufgrund des Vorzeichens des Restwertes extrahiert.

Weitere Merkmale und Vorteile der Erfindung ergeben sich aus der folgenden Beschreibung von Ausführungsbeispielen, die in den Zeichnungen dargestellt sind.

Fig. 1 zeigt ein Blockschaltbild eines Sprachanalysators mit einem Partialautokorrelator (PARCOR);

Fig. 2 zeigt ein ausführlicheres Schaltbild des Sprachanalysators nach Fig. 1}

Fig. 3 zeigt eine Schaltungsanordnung eines in Fig. 2 verwendeten Korrelationskoeffizientenrechners;

Fig. 4 ist ein Blockschaltbild, das eine übliche Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode des Sprachsignals darstellt;

Fig. 5 ist ein Diagramm, das den Verlauf einer Korrelationsschwingung darstellt;

Fig. 6 ist ein Blockschaltbild, das die Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode des Sprachsignals gemäß der Erfindung darstellt;

' Fig. 7 zeigt ein Ausführungsbeispiel eines digitalen Filters, das in Fig. 6 verwendet wird;

7 09808/0857

Fig. 8 ist ein Diagramm, das den Schwingungsverlauf eines Restwertes in einem kurzen Zeitabschnitt bei einem bekannten Gerät darstellt;

Fig. 9 ist ein Diagramm des Schwingungsverlaufs eines Korrelationskoeffizienten, wenn der Schwingungsverlauf des Restwertes bei einem bekannten Gerät durch 12 Bits gequantelt ist;

Fig. 10 ist ein Diagramm des Schwingungsverlaufs eines Korrelationskoeffizienten, wenn der Restwert bei dem bekannten Gerät durch ein Bit (nur durch das Vorzeichen) gequantelt ist;

Fig. 11 ist ein Diagramm des Schwingungsverlaufs eines Restwertes, der durch ein Tiefpaßfilter gemäß der Erfindung erhalten wird;

Fig. 12 ist ein Diagramm des Schwingungsverlaufs eines Korrelationskoeffizienten, wenn der Restwert des Tiefpaßfilters durch 12 Bits gemäß der Erfindung gequantelt ist;

Fig. 13 ist ein Diagramm des Schwingungsverlaufs eines Korrelationskoeffizienten, wenn lediglich das Vorzeichen des Restwertes von dem Tiefpaßfilter benutzt wird (durch ein Bit gequantelt) und

Fig. 14 ist eine Tabelle zum Vergleich der Schaltungsanordnung gemäß der Erfindung mit einer bekannten Anordnung, bei der die Zahl der Bits zur Dar- ; stellung der restlichen Schwingung und die Fehler der Grundschwingung angegeben sind.

709808/0857

Als Ausgangssignal einer Parcoranalyse eines Sprachsignals ergibt sich ein Restwert. Das Verfahren zum Extrahieren der Grundschwingungsperiode der Sprache aus dem Korrelationskoeffizienten des Restwertes ist eines der am genauesten arbeitenden Verfahren.

Fig. 1 zeigt ein Blockschaltbild einer Schaltungsanordnung, die nach dem Parcorsystem arbeitet.

Die Schaltungsanordnung der Fig. 1 enthält eine Spracheingangsklemme 1, einen Analog-Digitalumsetzer 2, ein Gerät zum Extrahieren von Partial-Autokorrelations-Koeffizienten (kurz Parcor-Extraktor genannt), eine Anzahl von Partial-Autokorrelatoren 4, eine Anzahl Ausgangsklemmen 5 für die Partial-Autokorrelationskoeffizienten, einen Restwertanschluß 6, einen Extraktor 7 für die Schallquelleninformation, einen Extraktor 8 für die Grundschwingungsperiode des Sprachsignals, eine Ausgangsklemme des Gerätes 8, einen Rechner 10 zur Erfassung der Amplitude des Sprachsignals, eine Ausgangsklemme 11 dieses Geräts, eine Schaltung 12 zur Unterscheidung von stimmhaften und nicht stimmhaftem Schall und eine Ausgangsklemme 13 für dieses Gerät.

Ein, der Eingangsklemme 1 zugefübrtes Sprachsignal χ (t) wird in dem Umsetzer 2 in ein Digitalsignal umgesetzt, mit einer Abtastfrequenz von 8 KHz und durch ein Vorzeichenbit und 11 weitere Bits quantisiert. Das Digitalsignal wird dem Parcorextraktor 3 zugeführt.

Der Parcorextraktor 3 enthält etwa 10 Stufen von partialen Autokorrelatoren 4, die in Kaskade geschaltet sind. In federn Partial-Autokorrelator 4 wird die Korrelation zwischen dicht ■ benachbarten abgetasteten Werten des Sprachsignals als Partial-Autokorrelationskoeffizient k. an der Ausgangsklemme 5 geliefert« Die Korrelationskomponenten, die auf diese Weise zwischen den

709808/0857

dicht benachbarten Abtastwerten extrahiert sind, werden aus dem Sprachsignal entfernt, das der nächsten Stufe zugeführt wird.

Wenn dieser Vorgang wiederholt wird, dann sind die Korrelationen zwischen benachbarten abgetasteten Werten des Sprachsignals alle als Partial-Autokorrelationskoeffizienten entfernt und an der Ausgangsklemme 6 der letzten Partial-Autokorrelatorstufe treten nur Korrelationskoeffizienten zwischen verhältnismäßig weit auseinanderliegenden Schwingungsformen auf, die die Schallquelleninformation der Sprache betreffen. Die Ausgangsgröße des Parcorextraktors an der Klemme 6 wird im folgenden als Restwert £(t) bezeichnet.

Der Parcorextraktor 3 der Fig. 1 ist im einzelnen in Fig. 2 dargestellt. Der Korrelationskoeffizientenrechner der Fig. ist im einzelnen, in Fig. 3 dargestellt.

Das digitale Signal wird dem Parcorextraktor 3 von dem Analogdigitalumsetzer 2 zugeführt und in dem ersten Partial-Autokorrelator 4 wird das digitale Signal in zwei Teile geteilt, von denen der eine Teil einem Korrelationskoeffizientenrechner über eine Verzögerungsschaltung zugeführt wird, während der andere Teil dem Rechner direkt zugeleitet wird, um die Korrelation zwischen unmittelbar benachbarten abgetasteten Werten des digitalen Eingangssignals zu erhalten und einen ersten -Korrelationskoeffizienten an der Klemme 5 zur Verfügung zu stellen. Nachdem der Korrelationskoeffizient mit dem Digitalsignal multipliziert ist, das einem Multiplikator über die Verzogerungsschaltung zugeführt wird und das digitale Signal direkt einem anderen Multiplikator zugeleitet worden ist, werden die multiplizierten Ausgangsgroßen je einer Addierschaltung zugeführt, um die Differenz zwischen der multiplizierten Ausgangsgroße und dem anderen Digitalsignal zu erhalten,

709808/0857

wobei diese Differenz dem nächsten Partial-Autokorrelator 4 zugeleitet wird. In dem nächsten Partial-Autokorrelator 4 werden die Korrelationen zwischen den jeweils anderen Abtastwerten des digitalen Eingangssignals erhalten, um einen zweiten Korrelationskoeffizienten an der Klemme 5 zur Verfügung zu stellen.

Wie aus Fig. 3 hervorgeht, werden in dem Korrelationskoeffizientenrechner die Summe und die Differenz zwischen den beiden digitalen Eingangssignalen erhalten und quadriert. Dann wird die Summe und Differenz noch einmal gebildet und je einem Tiefpaßfilter zugeführt, um die Mittelwerte dieser Eingangsgrößen über einen bestimmten Zeitabschnitt zu ermitteln. Die Ausgangsgrößen der Tiefpaßfilter werden dividiert, um das Verhältnis zwischen ihnen zu bilden, so daß der Korrelationskoeffizient an der Klemme 5 zur Verfügung steht.

Wenn man auf diese Weise bei jeder Partial-Autokorrelatorstufe vorgeht, dann wird die Größe, welche dem Korrelationskoeffizienten zwischen abgetasteten Werten entspricht, die dichter beieinander liegen, als diejenigen der Stufe in der unmittelbar vorhergehenden Stufe eliminiert. Auf diese Weise wird das Frequenzspektrum des digitalen Eingangssignals allmählich flacher und nach etwa 10 Stufen ist es fast ganz flach. Wenn man den Restwert an der Klemme 6 benutzt, kann man die Grundschwingungsperiode T mit Hilfe des Extraktors 8 erhalten»

In entsprechender Weise wird die Schwingung am Ausgang eines Filters mit einer zur Sprachschwingung inversen Frequenzkennlinie als Restwert bezeichnet. Die folgende Beschreibung bezieht sich auf ein Verfahren, bei dem der Partial-Autokorrelationskoeffizient verwendet wird.

Die Sprachamplitude L wird mit Hilfe des Sprachamplitudenrechners 10 extrahiert und stimmhafte sowie nicht stimmhafte

709808/0857

Schallkoeffizienten V und UV werden mit Hilfe der Unterscheidungsschaltung 12 extrahiert und an den Klemmen 11 und zur Verfügung gestellt.

Die für die Sprache charakteristischen Parameter k* (i = 1 bis 10), T, V, UV und L, die auf diese Weise extrahiert wurden, werden quantisiert und mit einer Gruppenperiode von 5 bis 15 Millisekunden übertragen. Auf der Empfangsseite kann die ursprüngliche Sprache durch ein Partial-Autokorrelationsgerät zur Synthese der Sprache rekonstruiert werden, das durch die genannten Parameter gesteuert wird.

Fig. 4 zeigt im einzelnen ein Ausführungsbeispiel der Schaltungsanordnung 8 zum Extrahieren der Grundschwingungsperiode der Sprache mit bekanntem Aufbau. Die Anordnung enthält einen Speicher 14, einen ähnlichen Speicher 22, einen Autokorrelator 15, einen Maximalwertselektor 16, eine Ausgangsklemme 17 für den Korrelationskoeffizienten des Restwertes und eine Ausgangsklemme 18 für den Maximalwert. Der Restwert wird in dem Speicher 14 gespeichert. Dann wird ein kurzer Zeitabschnitt (etwa 20 bis 40 Millisekunden), der das Doppelte oder Dreifache der Grundschwingungsperiode der Sprache beträgt, ausgeschnitten und abgetastete Werte eines Ausschnittes werden in dem Speicher 22 festgehalten. Der Korrelationskoeffizient des Restwertes wird durch den Autokorrelator 15 errechnet, da die Grundschwingungsperiode sich als periodische Wiederholung des Maximalwertes ergibt. Dann wird ein Abtastbereich (2 bis 20 Millisekunden) der Grundschwingung speriode zur Verfügung gestellt und ein Maximalwert des Korrelationskoeffizienten des Restwertes durch den Maximalwertselektor 16 erfaßt. Die Lage des auf diese Weise festgestellten Maximalwertes wird an der Ausgangsklemme 9 als Grundschwingungsperiode der Sprache zur Verfügung gestellt und ihr Wert an der Klemme 18.

709808/0857

Es folgt nun eine kurze Erläuterung des Verfahrens zum Extrahieren der Grundschwingungsperiode mit Hilfe der Autokorrelation des oben erwähnten periodischen Signals. Der Autokorrelationskoeffizient R (n) eines diskreten Signals £(t) wird durch die folgende Gleichung ausgedrückt:

R(n) = 1UnI | t_±. β_±+η (I)

Wenn das diskrete Signal g(t) z.B. eine Sinusschwingung ist, dann wird das Signalq (t) und der Autokorrelationskoeffizient R(n) durch die folgenden Gleichungen II und III gegeben:

N ■
• (t) «„£-,. S_1nCOs (mc^t + 9_m) (II)

1 ^N 2

R(n) =2 £ a^_mcosm<*₀n (III)

Wie aus der Gleichung III hervorgeht, geht die Phaseninformation der Frequenzkomponenten verloren und die Maximalwerte der betreffenden Komponenten stimmen vollständig miteinander bei einer Periode, die ein ganzzahliges vielfaches η der Grundschwingungsperiode ist, überein, so daß der Wert des Autokorrelations- . koeffizienten R(n) auch seinen Maximalwert darstellt, aber immer kleiner wird als bei anderen Perioden„ Infolgedessen kann die Grundschwingungsperiode durch Feststellung des Maximalwertes erhalten werden.

Wenn in der Praxis die Signalperiode in jedem Augenblick schwankt und die zeitabhängige Veränderung ein wichtiger Parameter ist, wie dies bei der Sprache der Fall ist, ist das unbestimmte Integral der Gleichung I ohne Bedeutung, so daß von einem Kurzzeitautokorrelationskoeffizienten nach der folgenden Gleichung IV Gebrauch gemacht wird oder von einem Wert, der durch die Signalleistung nach der folgenden

709808/0857

Gleichung V normiert ist.

Φ_Ν(η) =

Fig. 5 ist ein Diagramm, welches schematisch eine solche Korrelationsschwingung zeigt. Die Grundschwingungsperiode T in Fig. 5 hat die Beziehung der Gleichung VI zu einer Sprachabtastperiode Ts:

T= η' rs (VI)

In Fig. 5 bezeichnet das Bezugszeichen Tq den Abtastzeitraum des Maximalwertes jeder Frequenzkomponente.

Auf diese Weise wird bei der bekannten Anordnung der Einfluß des Formanten,der auf der Übertragungseigenschaft des Stimmtraktes beruht, durch die Parcoranalyse eliminiert und die Grundschwingungsperiode wird mit hoher Genauigkeit extrahiert. Die dabei benötigten Vorgänge sind jedoch kompliziert und der Aufwand ist groß, so daß sehr schnell arbeitende Elemente für eine Realzeitverarbeitung erforderlich sind und die Kosten des Analysators sich dadurch erhöhen. Die Arbeitsgenauigkeit zur Darstellung des Restwertes erfordert etwa 12 Bits. Wenn z.B. eine kurze Periode von 20 Millisekunden aus dem Sprachsignal ausgeschnitten wird und in ein digitales Signal umgesetzt wird, das durch 12 Bits dargestellt ist und eine Abtastfrequenz von 8 KHz hat und der Autokorrelationskoeffizient (n=O bis 100) der Gleichung IV berechnet ist, ist es notwendig, das Produkt (etwa 12 Bits χ 12 Bits) i6000mal zu berechnen und die Summe (24 Bits + 24 Bits) in einer kurzen Zeit von 10 Millisekunden i6000mal zu bilden. Die Verwirklichung mi*. Ätrahiergerätes

709808/0857

zur Durchführung dieser Vorgänge ist nur möglich, wenn Bauelemente sehr hoher Geschwindigkeit, wie z.B. Schottky TTLs zur Verfügung stehen.

Durch die Erfindung sollen diese Schwierigkeiten der bekannten Anordnungen beseitigt werden. Eine Ausführungsform der Erfindung ist als Blockschaltbild in Fig. 6 dargestellt. Die Anordnung der Fig. 6 enthält eine Eingangsklemme 6 für den Restwert, ein Tiefpaßfilter 19, eine Guantisieranordnung 20, eine Ausgangsklemme 21 für diese Anordnung, einen Speicher 14, einen weiteren Speicher 22 und einen Autokorrelator 15. Ferner ist.· eine Ausgangsklemme 17 für den Korrelator vorgesehen, ein Maximalwertselektor 16, eine Ausgangsklemme 9 für die Grundschwingungsperiode der Sprache und eine Ausgangsklemme 18 für den Maximalwert des Korrelationskoeffizienten.

Bei dem Extrahieren der Grundschwingungsperiode der Sprache ist eine Periode von 20 bis 40 Millisekunden, die das Zweifache bzw. Dreifache der Grundschwingungsperiode ist, gewohnlich ein Gegenstand der Analyse und die Extraktion der Grundschwingungsperiode wird mit einer Verschiebung der Analysenperiode im Bereich von 5 bis 15 Millisekunden durchgeführt. Es wird nun ein Fall beschrieben, bei dem die Grundschwingungsperiode aus einem Restwert extrahiert wird, der in ein digitales Signal umgewandelt ist, das eine Abtastfrequenz von 8 KHz hat und ein Vorzeichenbit und 11 weitere Bits enthält. Es wird weiter angenommen, daß die Länge des in einer Analyse zu analysierenden Bereichs 20 Millisekunden und bezüglich des abgetasteten Werts 160 beträgt und daß die Grundschwingungsperiode extrahiert . wird, wobei der Bereich um 10 Millisekunden und 80 abgetastete Werte verschoben wird.

709808/0857

Der der Eingangsklemme 6 in Zeitintervallen von 125 Mikrosekunden zugeführte Restwert wird dem Tiefpaßfilter 19 zugeführt, um die unnötigen Hochfrequenzkomponenten zu entfernen und dann dem Guantisiergerät 20 zugeleitet. In dem Quantisierer 20 wird das Signal einer Spitzenbegrenzung unterworfen bzw. einer Quantisierung oder dergleichen, um es durch wenige Bits darzustellen. Das quantisierte Signal, welches 80 abgetasteten Werten entspricht, wird in dem Speicher 14 gespeichert. Der Speicher 14 hat die Form eines Schieberegisters oder dergleichen und eine Kapazität im vorliegenden Fall von 1 Bit χ 80 Worten. Wenn die 80 abgetasteten Werte in den Speicher 14 eingeschrieben sind, wird der Inhalt des Speichers 14 dem nächsten Speicher 22 zugeführt, bevor die nachfolgenden abgetasteten Werte an dem Speicher 14 eintreffen, d.h. vor dem Ablauf von 125 MikrοSekunden, worauf die Einspeicherung der neuen abgetasteten Werte im Speicher 14 beginnt. Der Speicher 22 hat eine Kapazität für die Speicherung der abgetasteten Werte eines Bereiches und zwar im vorliegenden Beispiel von 1 Bit χ 160 Worten. Die abgetasteten Werte des unmittelbar vorhergehenden Bereiches und die 80 abgetasteten Werte, die neu von dem Speicher 14 übertragen werden, d.h. eine Gesamtzahl von 16O abgetasteten Werten bilden einen Bereich oder Rahmen in dem Speicher 22. Der Speicher 22 ist als Schieberegister oder dergleichen ausgebildet. Als nächstes wird in dem Autokorrelator 15 der Autokorrelatorkoeffizient auf eine Verzögerung von etwa der hundertsten Ordnung berechnet. In dem Maximalwertselektor 16 wird die Grundschwingungsperiode der Sprache als die Lage des maximalen Autokorrelationskoeffizienten im Abtastbereich (Tq) von Verzögerungen der 20. bis 100. Ordnung erfaßt und steht am Ausgangspunkt 9 zur Verfügung. Der Maximalwert des Autokorrelationskoeffizienten kann am Ausgang 18 abgenommen werden.

70 9 808/0857

Da die Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode der Sprache gemäß der Erfindung nach dem oben beschriebenen Beispiel so ausgeführt ist, daß die unnötigen Hochfrequenzkomponenten, die in dem Restwert enthalten sind, durch ein Tiefpaßfilter abgeschnitten werden, ist es möglich, den Maximalwert des Korrelationskoeffizienten des Restwertes klar zu erkennen. Infolge dessen ist der am Tiefpaßfilter abgenommene Restwert durch ein niedriges Bit dargestellt, so daß bei Ausnutzung des beschriebenen Effektes die Verarbeitungsvorgänge wesentlich vermindert werden können.

Im Fall der Berechnung der Gleichung IV unter den gleichen Bedingungen,wie beim eben genannten Beispiel,erfordern die Vorgänge des bisher bekannten Verfahrens 16000 Multiplikationen von 12 Bits χ 12 Bits und 16000 Additionen von 24 Bits + 24 Bits in 10 Millisekunden. Jedoch wird bei Ausführung nach der Erfindung nur eine Zahl von 16000 Additionen von 1 Bit erforderlich, so daß es sich um eine erhebliche Einsparung handelt. Bei dem bekannten Verfahren mußte der Speicher 14 eine Speicherkapazität von 12 Bits χ 80 Worten haben und der Speicher 22 eine Speicherkapazität von 12 Bits χ 160 Worten. Bei Anwendung der Erfindung ist die erforderliche Speicherkapazität dieser Speicher nur 1 Bit χ 80 Worten bzw. 1 Bit χ 160 Worten. Hierdurch ergeben sich beträchtliche Einsparungen bezüglich der Schaltungsausführung. Die Anordnung der bekannten Art zum Extrahieren der Grundschwingungsperiode benötigte etwa 10000 Tore, jedoch kommt man bei der Schaltungsanordnung gemäß der Erfindung mit etwa 2000 Toren aus, d.h. der Schaltungsaufwand beträgt nur 1/5. Auch die Ansprechzeit der Elemente beträgt nur 1/5 derjenigen bei den bekannten Extraktoren, so daß bei der bekannten Schaltungsanordnung die Verwendung von Schottky TTL-Transistoren erforderlich ist, während bei der Schaltungsanordnung gemäß der Erfindung mit MOS-Elementen gearbeitet wird. Die Schaltungsanordnung gemäß der Erfindung

709808/0857

kann daher mit LSI durchgeführt werden.

Das in Fig. 6 dargestellte Tiefpaßfilter 19 kann ein digitales Filter sein, das beispielsweise in Fig. 7 dargestellt ist.

Das digitale Filter enthält als HauptSchaltungskomponente eine digitale Addierschaltung, einen Multiplikator und ein Verzögerungselement zur Durchführung der Operationen, die durch die folgende lineare Differentialgleichung mit konstantem Koeffizienten gegeben sind.

N r ι N ζ _Ί y(nT) = Z %x [(η-Ai)Tf -^ b^ y £(η-_υ)Τ$ (VII)

wobei x(nT) und y(nT) Eingangs- und Ausgangssignalreihen sind und a und b^ reelle Zahlen sind.

Fig. 7 zeigt ein Rekursivfilter erster Ordnung. Wenn eine Größe χ der Eingangsklemme zugeführt wird, werden die Eingangsund Ausgangsgrößen eines Multiplikators durch eine Addierschaltung voneinander abgezogen, so daß sich die resultierende Differenz als Ausgangssignal am Ausgang der Schaltung ergibt. Gleichzeitig wird diese Differenz einer Verzögerungsschaltung zugeführt und einem Multiplikator mit dem Faktor a, so daß sich eine Ausgangsgröße ax ergibt, die der Addierschaltung zur Subtraktion mit dem nächsten Eingangssignal zugeleitet wird. Danach wird dieser Vorgang wiederholt. Wenn man das obige Filter als ein lineares System betrachtet, nehmen die Ausgangswerte mit dem Koeffizienten a des Multiplikators ab und werden schließlich Null in dem Bereich von |al^L1. Im Fall eines nichtlinearen Systems konvergiert der Ausgangswert nach Null nur in dem Bereich von jaj<0,5 und bei anderen Werten ist das System unstabil.

70 9808/08 57

In der erfindungsgemäßen Anordnung ist jedoch die Ausbildung des digitalen Filters nicht so wichtig und ein Filter so einfachen Aufbaus wie das in Fig. 7 dargestellte genügt, solange die Grenzfrequenz im Bereich von 500 bis 1000Hz liegt.

In den Fig. 8 bis 14 wird die Erfindung mit den bekannten Verfahren verglichen. Fig. 8 zeigt den Schwingungsverlauf eines Restwertes mit einer Länge von 20 Millisekunden und Fig. 9 und 10 zeigen verschiedene Schwingungsverläufe für den Korrelationskoeffizienten bei einem bekannten "Verfahren, wenn der Restwert nach Fig. 8 mit 12 Bits bzw. 1 Bit gequantelt wird. Fig. 11 zeigt den Schwingungsverlauf, wenn das Restsignal einem digitalen Filter mit einer Grenzfrequenz von 500 Hz zugeführt wird und Fig. 12 und 13 zeigen den Verlauf des Korrelationskoeffizienten gemäß der Erfindung, wenn die Schwingung nach Fig. 11 mit 12 Bits und 1 Bit (nur dem Vorzeichen nach) quantisiert wird. Die Schwingungsverläufe der Fig. 8 und 11, 9 und 12 sowie 10 und 13 entsprechen dabei einander.

Wenn bei dem bekannten System der Schwingungsverlauf durch 12 Bits nach Fig. 9 dargestellt wird, kann man Maximalwerte des Korrelationskoeffizienten erkennen. Wenn jedoch der Restwert mit einer niedrigen Bitzahl (1 Bit) nach Fig. 10 dargestellt wird, kann ein zweiter Maximalwert bei diesem Beispiel nicht erkannt werden, so daß fälschlicherweise eine Periode extrahiert wird, die dem doppelten der Grundschwingungsperiode entspricht. . .

Andererseits hat gemäß der Erfindung ein quantisiertes Rauschen die gleiche Periode wie ein periodisches Signal, so daß beim Extrahieren der Grundschwingungsperiode die Quantisierung des Signales nicht wesentlich ist. Wie sich aus Fig. 13 ergibt, ist es möglich, die Grundschwingungsperiode mit genügender

709808/0857

Genauigkeit aus dem Korrelationskoeffizienten lediglich aus dem Vorzeichen des Restwertes zu "bestimmen, nachdem dieser dem Tiefpaßfilter zugeführt ist.

Um die Betriebsgenauigkeit zu erhalten, die für den in Fig· 6 gezeigten Quantisierer (einen D-D-Umsetzer) zu bestimmen, wurde die Grundschwingungsperiode der Sprache mit einer Schaltungsanordnung gemäß der Erfindung ermittelt, wobei die Stimmen von 3 Frauen beim Ablesen eines Textes für etwa 3,5 Sekunden zugrundegelegt wurde. In Fig. 14 sind Fehlerwerte bei der Extraktion von Grundschwingungsperioden dargestellt, wobei eine Betriebsgenauigkeit von 12 bis 1 Bit verwendet wurde und zwar in Prozent der Zahl sämtlicher Bereiche in der Sprachperiode. Fig. 14 zeigt, daß der Fehler etwa W% bei dem üblichen Verfahren der Extraktion betrug jedoch weniger als Λ% bei der Schaltungsanordnung gemäß der Erfindung. Sogar im Fall.der Korrelation mit einem Bit (lediglich mit dem Vorzeichen) wurde eine ausreichende Präzision erhalten.

Die obige Beschreibung wurde im Zusammenhang mit einem System der Sprachanalyse gegeben, bei dem eine Sprachschwingungsform dargestellt wird, wobei ein Partialautokorrelationskoeffizient als Parameter benutzt wird. Es ist jedoch klar, daß die Erfindung auch auf einen Restwert einer Sprachschwingung anwendbar ist, der von einem Filter abgeleitet wird, das eine inverse Kennlinie des Frequenzganges im Vergleich mit der Sprachschwingung hat.

Wie oben angegeben, kann gemäß der Erfindung ein Maximalwert des Korrelationskoeffizienten eines Restwertes deutlich erfaßt werden, indem der Restwert einem Tiefpaßfilter zugeführt wird, so daß;die GrundSchwingungsperiode der Sprache genau und stetig extrahiert werden kann. Besonders da die Korrelation lediglich des Vorzeichens eines Signals zur Extraktion genügt, brauchen

709808/0857

nur Addiervorgänge durchgeführt zu werden, während bei dem bekannten Verfahren Multiplikationen und additive Operationen erforderlich sind. Die Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode gemäß der Erfindung ist daher wesentlich einfacher als die bekannten Geräte. Außerdem kann die Genauigkeit der Bestimmung der Grundschwingungsperiode der Sprache in der oben beschriebenen Weise verbessert werden, so daß die Qualität der synthetisehen Sprache bei der Übertragung der Sprache mit Bandkompression oder bei der Wiedergabe im Hörbereich wesentlich verbessert wird.

709808/0857

Claims

Patentansprüche

1. Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal, bei der die Sprachschwingung einem Filter zugeführt wird, dessen Frequenzkennlinie angenähert invers zu derjenigen eines Sprachsignals verläuft, um einen Restwert zu erhalten, bei der ferner ein Autokorrelator einen Autokorrelationskoeffizienten des Restwertes über Zwischenspeicher errechnet und bei der die Grundschwingungsperiode der Sprache aus der Lage des Maximalwertes des Autokorrelationskoeffizienten erhalten wird,

dadurch gekennzeichnet, daß mit einem Tiefpaßfilter (I9)die unnötigen hochfrequenten Komponenten des Restwertes unterdrückt werden und daß Einrichtungen (20) zur Quantelung des am Ausgang des Tiefpaßfilters anstehenden Restwertes vorgesehen sind.

2. Schaltungsanordnung nach Anspruch 1, dadurch gekennzeichnet,

daß das Tiefpaßfilter als digitales Tiefpaßfilter mit einer Grenzfrequenz von 500 bis 1000 Hz ausgebildet ist.

3. Schaltungsanordnung nach Anspruch 1, dadurch gekennzeichnet,

daß die Quantelung mit einer niedrigen Bitzahl durchgeführt wird.

4. Schaltungsanordnung nach Anspruch 1, dadurch gekennzeichnet,

daß der von dem Autokorrelator errechnete Autokorrelationskoeffizient der Autokorrelationskoeffizient eines Rest-

709808/08 5 7

wertes ist, der durch eine lineare prediktive Analyse erhalten wird.

Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode eines Sprachsignals, bei der die Sprachschwingung einem Filter zugeführt wird, das eine zum Sprachsignal inverse Charakteristik des Frequenzspektrums aufweist, und einen Restwert liefert,

daß aus dem Restwert über Zwischenspeicher mit Hilfe eines Autokorrelators ein Autokorrelationskoeffizient errechnet wird und daß Einrichtungen vorgesehen sind, mit denen aus der Lage eines Maximalwertes des Korrelationskoeffizienten die Grundschwingungsperiode der Sprache erhalten wird,

dadurch gekennzeichnet, daß ein digitales Filter mit einer Grenzfrequenz von 500 bis 1000 Hz zur Unterdrückung der Hochfrequenzkomponenten des Restwertes vorgesehen ist und daß Einrichtungen vorgesehen sind, mit denen lediglich das Vorzeichen des von dem digitalen Filter gelieferten Restwertes festgestellt werden und daß der Autokorrelator den Autokorrelationskoeffizienten lediglich durch Addition berechnet.

Re/Pi.

709808/0857

Leerseite