DE69531464T2

DE69531464T2 - Kodiergerät

Info

Publication number: DE69531464T2
Application number: DE69531464T
Authority: DE
Inventors: Oshikiri 1-1 Shibaura 1-chome Masahiro; Amada 1-1 Shibaura 1-chome Tadashi; Miseki 1-1 Shibaura 1-chome Kimio; Akamine 1-1 Shibaura 1-chome Masami
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1995-03-23
Filing date: 1995-09-29
Publication date: 2004-07-01
Anticipated expiration: 2015-09-30
Also published as: EP0734014A1; CN1115781C; KR960036343A; EP1028411A3; CA2159557C; DE69519421T2; KR100209454B1; EP1028411B1; CA2159557A1; CN1140362A; DE69531464D1; US5878387A; DE69519421D1; JPH08263099A; EP1028411A2; EP0734014B1

Description

Die Erfindung betrifft eine Codiervorrichtung zur Kodierung von Sprachsignalen oder ähnlichem mit hoher Effizienz und insbesondere auf eine Codiervorrichtung, die für eine Codierung mit variabler bzw. veränderbarer Rate geeignet ist.
Das Codieren von Sprachsignalen mit hoher Effizienz und einer niedrigen Bitrate ist eine wichtige Technik zum effektiven Einsatz von elektrischen Wellen und zur Verringerung der Kommunikationskosten auf dem Gebiet der Kommunikation mit mobilen Vorrichtungen, wie etwas Autotelefonen und ähnlichem, und bei der Hauskommunikation in einer Firma. In den letzten Jahren wurde ein Kommunikationssystem mit veränderbarer Rate unter Einsatz eines Code-Teilungs-Mehrfachzugriffsverfahrens (code division multiple access method; CDMA-method) in den Vereinigten Staaten von Amerika geplant und hat die Erwartung für Dienstleistungen mit mehreren Kanälen und hoher Qualität, die die beste Ausnutzung der Eigenschaften von einer veränderbaren Rate machen, erhöht. Zusätzlich ist die Sprachcodierung mit veränderbarer Rate ein Verfahren, das effiziente Nutzung von gespeicherten Datenträgern verwirklicht, da eine effektive Bitverteilung durch die Sprachcodierung mit veränderbarer Rate erreicht werden kann, betrachtet aus dem Blickwinkel der Anwendung auf Speichersysteme, in Übereinstimmung mit den Eigenschaften der Sprache. Vor diesem Hintergrund wurden Studien und Entwicklungen für die Sprachcodierung mit veränderbarer Rate aktiv vorangetrieben.
Im Zusammenhang mit einer festen Rate ist ein CELP-Verfahren (Code Excited Linear Prediction method) als Sprachcodierschema bekannt, das in der Lage ist, eine hochqualitative Sprachsynthese mit einer Bitrate von 8 kbps oder weniger zu erzielen. Jedoch ist das CELP-Verfahren ein Haupttrend auf dem Gebiet einer veränderbaren Rate. In diesem Fall wurden unter einer Vielzahl von Typen vier Arten von Codierbitraten vorgeschlagen, wobei eine Bitrate für jede feste Framelänge ausgewählt wird, und wobei das Codieren durch das CELP-Verfahren optimiert wird, um mit der ausgewählten Bitrate überein zu stimmen. Zusätzlich wird, wenn die Bitrate 1 kbps oder niedriger ist, ein Vorcodiersystem mit einem Zufallsrauschschema für ein Treibersignal in einigen Fällen angewendet, und im allgemeinen wird ein unterschiedliches Codierschema für jede einzelne Bitrate verwendet. Bei Codierungen mit veränderbarer Rate entscheidet sich die Überlegenheit des Verfahrens in Abhängigkeit davon, wie die mittlere Bitrate verringert werden kann, während die Zielqualität beibehalten wird, und daher ist ein Verfahren für die Auswahl eines Codierschemas für jedes Frame wichtig. Bezüglich dieser Anforderung wurden zwei Verfahren beim Stand der Technik vorgeschlagen.
Als ein erstes Verfahren gibt es das QCELP-Verfahren von A. Dejaco u. a. (Dokument 1: "QCELP: The North American CDMA Digital Cellular Variable Rate Speech Coding Standard"; proc. Of the IEEE Workshop on Speech Coding for Telecommunications, PP5, 6, Oktober 1993). Dieses Verfahren wendet ein Schema an, bei dem eine Frame-Power als eine charakteristische Größe extrahiert und ein Codierer auf der Grundlage dieser charakteristischen Größe ausgewählt wird. Zusätzlich wendet ein VRPS-Verfahren von E. Paksoy u. a. (Dokument 2: "Variable Rate Speech Coding with Phonetic Segmentation", Proc. ICASSP 93, PPI I-155 158, April 1993) ein System an, bei dem ein Codierer auf der Grundlage des gewichteten Summenwertes von sieben charakteristischen Größen ausgewählt wird, die eine Niederfrequenz-Sprachenergie, ein Nullkreuz-Verhältnis und ähnliches umfassen.
Obwohl die Codiersystemauswahlverfahren, wie sie vorangehend beschrieben wurden, den Vorteil haben, dass die Verfahren mit relativ geringen Rechenaufwand erzielt werden können, erreicht die decodierte Sprache nicht immer die Zielqualität, die durch das Signal-Rauschverhältnis o. ä. bestimmt ist, sondern sie führen gelegentlich zu niedriger Qualität. Des weiteren kann unter Umständen, in denen Hintergrundrauschen dem Eingabesignal hinzugefügt ist, die Extraktion der charakteristischen Größen nicht immer in geeigneter Weise ausgeführt werden, so dass die bestimmten Auswahlresultate gelegentlich ungeeignet sind. Dies führt gelegentlich zu Beeinträchtigung der Qualität der synthetisierten Stimmen.
Als ein zweites Verfahren wurde ein FS-CELP-Verfahren (Finite-State-CELP-Verfahren) vorgeschlagen (Dokument 3: "Finite State CELP for variable rate speech coding", IEE Proc.-I, vol. 138, No. 6, PP603–610, Dezember 1991).
Obwohl das Codierauswahlverfahren dieses Dokuments den Vorteil hat, dass ein Codierer so ausgewählt wird, dass die Zielqualität erreicht wird, müssen alle vorher vorbereiteten Codierer ausgeführt werden, so dass es ein Problem dahingehend gibt, dass der Rechenaufwand extrem groß ist.
Zusätzlich ist ein Hybridverfahren unter Kombination der ersten und zweiten Verfahren, wie sie vorangehend beschrieben sind, in L. Cellario u. a. beschrieben (Dokument 4: "Variable Rate Speech Coding for UMTS", Proc. Of the IEEE Workshop on Speech Coding for Telecommunications, PPI-2, Oktober 1993). Bei diesem Hybridverfahren werden zunächst Codierer unter Verwendung charakteristischer Größen beschränkt, die durch Analysieren einer Eingabestimme erhalten wurden, und anschließend werden die so eingeschränkten Codierer jeweils die Codierung durchführen, wodurch letztendlich ein Codierer ausgewählt wird, der die Kostenfunktion minimiert. Obwohl eine Zwischenlösung zwischen den ersten und zweiten Verfahren durch dieses Verfahren erhalten werden kann, muss eine Mehrzahl Codierer betrieben werden, und daher bleibt ein Problem dahingehend, dass der Rechenaufwand sehr groß ist.
Wie es vorangehend beschrieben wurde, wird bei dem einen der herkömmlichen Verfahren, bei denen ein Eingabesignal analysiert wird, um eine charakteristische Größe zu extrahieren, und ein Codierer in Übereinstimmung mit der charakteristischen Größe ausgewählt wird, die decodierte Stimme nicht immer die Zielqualität erreichen, und gelegentlich wird dies zu einer Verschlechterung der Qualität führen. In dem Fall, in dem das Eingabesignal mit Hintergrundrauschen versetzt ist, kann die Extraktion der charakteristischen Größen nicht geeignet erzielt werden, so dass ein geeigneter Codierer nicht ausgewählt werden kann, was zu einer Verschlechterung der Qualität der synthetisierten Stimmen führt. Das andere Verfahren, bei dem alle vorbereiteten Codierer zum Durchführen der Codierung verwendet werden, um den Codierer auszuwählen, der die Kostenfunktion minimiert, und bei dem hybriden Verfahren, das die vorher genannten zwei Verfahren kombiniert, führen diese zu einem Problem, dass die Rechenmenge extrem groß ist.
Zusätzlich wird bei der herkömmlichen CELP-Codierung, wenn die Quantisierungsbitrate verringert wird, die Zahl der Quantisierungsbit verringert, was es schwierig macht, Änderungen der Tonlagen-Periode (pitch periode) und des Tonlagen-Signalverlaufs (pitch waveform) auszudrücken. Zusätzlich, da die Tonlagen-Information (pitch Information) bei dem Codierschritt in großem Umfang beschädigt wird, ist das Ausmaß der Wiederherstellung der Pitch-Information auch dann begrenzt, wenn die Wiederherstellungsverarbeitung der Pitch-Information mit einem Post-Filter auf der Decodierseite durchgeführt wird.
Wenn darüber hinaus codierte Daten, die mit einem hinzugefügten Übertragungswegcode übertragen wurden, direkt gespeichert oder ohne Änderung übertragen werden, werden redundante Bits, die sich auf den Übertragungswegcode beziehen und völlig unnötig zum Speichern der übertragenen Daten sind, mitgespeichert oder zusammen übertragen, so dass es ein Problem dahingehend gibt, dass die Effizienz bei der Ausnutzung der Speichervorrichtung oder des Übertragungsweges verringert wird.
Darüber hinaus gibt es ein Problem, dass Kompressionscodierdaten, die für die Übertragung oder das Speichern unnötig sind, in Abhängigkeit von dem Verfahren der Kompressionscodierung der Daten und den Spezifikationen einer Wiedergabevorrichtung mitgespeichert werden, und daher werden die Effizienten bei der Ausnutzung eines Speichermediums und eines Übertragungsweges verringert.
Darüber hinaus werden unnötige Codierdaten, wie etwa Übertragungswegcodes und Kompressionscodes, wie es vorangehend beschrieben wurde, für jede Datenwiederherstellung decodiert, was die Größe der Schaltung für eine Wiedergabevorrichtung und deren Leistungsverbrauch erhöht.
WO 95/04431 offenbart ein System und ein Verfahren zum Speichern und Weiterleiten von Audio/Video-Signalen auf Anforderung. Das System enthält auch ein Verarbeitungsmittel zum Empfang von Daten und zum Abziehen (stripping) unnötiger Bits der Eingabedateien, bevor diese gespeichert werden, um so Plattenraum zu sparen.
Die Erfindung hat als eine Aufgabe das Bereitstellen einer Codiervorrichtung, die eine Auswahl eines Codierschemas verwirklicht, das in der Lage ist, eine Zielqualität mit einer geringen mittleren Rate sowie einem geringen Rechenaufwand zu erzielen.
Erfindungsgemäß, wie es in den Ansprüchen 1 bis 7 beansprucht wird, wird eine Speicher/Übertragungs-Vorrichtung bereitgestellt, mit:
einem Empfangsmittel zum Empfangen codierter Daten, an die ein Übertragungscode angehängt ist;
einem Decodiermittel zum Decodieren der codierten Daten;
einem Datenlöschmittel, um aus den decodierten Daten den Übertragungscode zu löschen, der zum Übertragen von Daten nicht notwendig ist, um komprimierte codierte Daten zu erzeugen;
einem Speicher- und Übertragungsmittel zum Speichern und Übertragen der kompressionscodierten Daten; und
einem Codebedienungsmittel zum Bedienen von Codes, einschließlich eines Fehlerkorrekturcodes, die zum Speichern und Übertragen von Daten an die komprimierten codierten Daten notwendig sind, um die kompressionscodierten Daten zu erzeugen.
In der Erfindung wird ein Bezugsvektor aus einem adaptiven Codebuch extrahiert und durch das Synthesefilter gefiltert, von dem ein Synthesesignal erzeugt wird, und wobei die Ähnlichkeit zwischen dem synthetisierten Signal und einem Zielsignal berechnet wird. Ein Codierschema wird auf der Basis der Ähnlichkeit bestimmt. Im allgemeinen ist ein adaptives Codebuch eine Komponente, die eine Codiervorrichtung eines CELP-Verfahrens bildet und hat ein Merkmal dahingehend, dass ein redundantes Ausmaß eines Zielsignals, das sich einer Tonlagen-Periode wiederholt, effizient ausgedrückt werden kann, so dass ein Zielsignal mit einer hohen Genauigkeit durch einen Vektor eines Treibersignals ausgedrückt werden kann, der in dem adaptiven Codebuch gespeichert ist, wenn ein Zielsignal ein Signal mit einer stark ausgeprägt zyklischen Eigenschaft (intensive cyclic characteristic) ist. Wenn daher ein Zielsignal ein Signal mit einer intensiven zyklischen Eigenschaft ist, kann die Zielqualität leicht erhalten werden, auch wenn die einem Treibersignal zugeordnete Bitzahl verringert wird. Kurz gesagt, die Codierbitrate kann abgesenkt werden. Wenn umgekehrt ein Zielsignal ein Signal ist, mit einer schwach ausgeprägten zyklischen Eigenschaft, dann kann dieses Signal nicht akkurat allein durch ein adaptives Codebuch ausgedrückt werden. Daher kann die Zielqualität nicht erzielt werden, es sei denn die Codierbitrate ist hoch.
Deshalb wird die Ähnlichkeit der synthetisierten Sprachpegel zwischen einem Bezugsvektor, der aus einem adaptiven Codebuch ausgelesen wird, und einem Zielvektor erhalten, und ein Codierschema einer niedrigen Bitrate wird ausgewählt, wenn die Ähnlichkeit hoch ist, wohingegen ein Codierschema mit einer hohen Bitrate ausgewählt wird, wenn die Ähnlichkeit niedrig ist. Auf diese Art ist es möglich, eine Auswahl eines adaptiven Codierschemas mit einer niedrigen mittleren Bitrate und fähig zum Erzielen von Zielqualität zu realisieren.
Insbesondere bei einem Verfahren, bei dem eine charakteristische Größe durch Analysieren eines Zielsignals ausgewählt und ein Codierschema in Abhängigkeit von der Größe und der Änderungsmenge der charakteristischen Größe bestimmt wird, gibt es ein Problem dahingehend, dass eine große Anzahl von Frames, die keine Zielqualität erreichen, erzeugt werden. Jedoch wird erfindungsgemäß ein adaptives Codebuch als eine Komponente verwendet, die die Codiervorrichtung bildet, um ein Codierschema auf der Basis einer Ähnlichkeit in den synthetisierten Stimmpegeln zu erzielen, und daher kann die Zielqualität in fast allen Frames erzielt werden.
Währenddessen gibt es bei dem Verfahren, bei dem die Codierung durchgeführt wird, in dem alle einer Mehrzahl Codierer, die vorher vorbereitet wurden, verwendet werden und ein Codierer, der die Kostenfunktion minimiert, ausgewählt wird, ein Problem dahingehend, dass der Rechenaufwand extrem groß ist. Jedoch ist es bei der Erfindung nur erforderlich, ein adaptives Codebuch wieder herzustellen, wenn die Rechenmenge für das Entscheiden bezüglich eines Bezugsvektors, der in ein Synthesefilter eingegeben wird, relativ groß ist, und der Rechenaufwand zur Auswahl eines Codierschemas ist daher beachtlich klein. Zusätzlich ist, wenn ein Bezugsvektor bestimmt und ein Codierschema durch Analysieren der Tonlage oder des Pitchs eines Zielsignals ausgewählt wird, der Rechenaufwand wesentlich kleiner, als in dem Fall benötigt wird, in dem das Wiederherstellen eines adaptiven Codebuchs ausgeführt wird. Darüber hinaus, wenn ein Bezugsvektor durch die Pitch-Information eines vorangehenden Frames bestimmt und ein Codierschema ausgewählt wird, ist ein Anstieg des Rechenaufwands im wesentlichen unnötig.
Somit ist es erfindungsgemäß möglich, ein Codierschema auszuwählen, welches mit einem geringen Rechenaufwand die mittlere Rate verringert und in der Lage ist, Zielqualität zu erzielen.
Zusätzlich hat die Erfindung die Aufgabe, eine Codiervorrichtung bereitzustellen, so dass eine hinreichende Pitch-Information auf der Codierseite erzielt werden kann, um eine hinreichend hohe Synthesestimmqualität auf der Decodierseite zu erzielen.
Erfindungsgemäß wird eine Codiervorrichtung mit einem Tonlagen- bzw. Pitch-Analyser bereitgestellt, zum Analysieren eines Eingangssignals in einer Tonlage oder Pitch, um eine Tonlagen- bzw. Pitch-Periode und einen Tonlagen- bzw. Pitch-Verstärkungsfaktor zu erzielen, mit einer Hervorhebungs schaltung zum Hervorheben des Eingabesignals mit der Pitch-Periode und dem Pitch-Verstärkungsfaktor.
Darüber hinaus hat die Erfindung eine Aufgabe des Bereitstellens einer Vorrichtung zum Speichern und Übertragen codierter Daten, die die Ausnutzungseffizienz eines Aufzeichnungsmediums bzw. eines Datenträgers und eines Übertragungsweges verbessert, während die Vergrößerung der Schaltungsabmessung einer Wiedergabevorrichtung begrenzt bleibt, und wobei der elektrische Leistungsverbrauch verringert werden kann.
Erfindungsgemäß wird eine Vorrichtung zum Speichern und Übertragen bereitgestellt, die einen Empfänger zum Empfangen codierter Daten bereitstellt, denen ein Übertragungscode angehängt ist, mit einem Datenprozessor zum Decodieren des Codes, einschließlich des Übertragungscodes, der zum Übertragen von Daten unnötig ist, um diesen zu löschen, und zum Anhängen von Codes, einschließlich eines Fehlerkorrekturcodes, die zum Speichern und Übertragen von Daten unnötig sind, zu den Empfangscodedaten zum Ausbilden kompressionscodierter Daten, und mit einem Speicher- und Übertragungsabschnitt zum Speichern und Übertragen der kompressionscodierten Daten.
Die Erfindung kann aus der folgenden detaillierten Beschreibung in Zusammenhang mit den beiliegenden Zeichnungen besser verstanden werden, in denen zeigt/zeigen:
1 ein Blockdiagramm einer Codiervorrichtung, die ein adaptives Codebuch gemäß einer ersten Ausführungsform der Erfindung verwendet;
2 ein Ablaufdiagramm zur Erläuterung von Verarbeitungsprozeduren der gleichen Ausführungsform;
3 ein Blockdiagramm einer Codiervorrichtung, die eine Pitch-Analyse gemäß einer zweiten Ausführungsform der Erfindung verwendet;
4 ein Ablaufdiagramm zur Erläuterung von Verarbeitungsprozeduren der gleichen Ausführungsform;
5 ein Blockdiagramm einer Codiervorrichtung gemäß einer dritten Ausführungsform, die nach allen Bezugsvektoren eines Codebuchs sucht;
6 ein Ablaufdiagramm zur Erläuterung von Verarbeitungsprozeduren der gleichen Ausführungsform;
7 ein Blockdiagramm einer Codiervorrichtung gemäß einer vierten Ausführungsform, die Voraussagesignale gemäß der Erfindung verwendet;
8 ein Ablaufdiagramm zur Erläuterung von Verarbeitungsprozeduren der gleichen Ausführungsform;
9 ein Blockdiagramm einer Sprachcodiervorrichtung, die gemäß einer fünften Ausführungsform mit einer Mehrzahl von Codierungen vorsehen;
10 ein Blockdiagramm einer Sprachcodiervorrichtung, die gemäß einer sechsten Ausführungsform der Erfindung imstande ist, Codierschemata auszuwählen;
11 ein Blockdiagramm einer Codiervorrichtung, die gemäß einer siebten Ausführungsform der Erfindung einen Pitch-Hervorhebungsabschnitt vorsieht;
12 ein Blockdiagramm des in 11 gezeigten Pitch-Hervorhebungsabschnitts;
13 ein Blockdiagramm eines in 11 gezeigten Codierabschnitts;
14 ein Ablaufdiagramm, das die Verarbeitung in dem Pitch-Hervorhebungsabschnitt zeigt;
15 ein Blockdiagramm einer Codiervorrichtung, die durch Hinzufügen einer Rauschlöschvorrichtung zu der Vorrichtung von 11 erhalten wird;
16 eine graphische Darstellung, die Kurzzeitspektren eines Eingangssignals zeigt;
17 eine graphische Darstellung, die eine Beziehung zwischen einer Spektrum-Einhüllenden und einer Spektrum-Feinstruktur zeigt;
18 eine graphische Darstellung, die ein Kurzzeitspektrum zeigt, wenn ein Eingangssignal einer Pitch-Hervorhebung unterworfen wird;
19 eine graphische Darstellung, die eine Beziehung zwischen einer Spektrum-Einhüllenden und einer Spektrum-Feinstruktur zeigt;
20 ein Blockdiagramm eines Sprachdecodierabschnitts hinsichtlich der Codiervorrichtung der Erfindung;
21 ein Blockdiagramm einer Codiervorrichtung gemäß einer neunten Ausführungsform, die imstande ist, ein Pitch-Hervorhebungssignal und ein Eingangssignal beim Codieren zu schalten;
22 ein Blockdiagramm einer Codiervorrichtung gemäß einer neunten Ausführungsform, die imstande ist, ein Pitch-Hervorhebungssignal und ein Eingangssignal beim Codieren zu schalten;
23 ein Ablaufdiagramm, das die Verarbeitung im Bestimmungsabschnitt der neunten Ausführungsform der Erfindung zeigt;
24 ein Ablaufdiagramm, das die Verarbeitung im Bestimmungsabschnitt der neunten Ausführungsform der Erfindung zeigt;
25 ein Ablaufdiagramm, das die Verarbeitung im Bestimmungsabschnitt der neunten Ausführungsform der Erfindung zeigt;
26 ein Ablaufdiagramm, das die Verarbeitung im Bestimmungsabschnitt der zehnten Ausführungsform der Erfindung zeigt;
27 ein Blockdiagramm, das ein Modifikationsbeispiel der siebten Ausführungsform der Erfindung zeigt;
28 ein Blockdiagramm, das die Struktur eines Codierabschnitts zeigt;
29 ein Blockdiagramm, das ein Modifikationsbeispiel der siebten Ausführungsform der Erfindung zeigt;
30 ein Blockdiagramm, das ein Modifikationsbeispiel der neunten Ausführungsform der Erfindung zeigt;
31 ein Blockdiagramm, das ein Modifikationsbeispiel der neunten Ausführungsform der Erfindung zeigt;
32 ein Blockdiagramm, das ein Modifikationsbeispiel der neunten Ausführungsform der Erfindung zeigt;
33 ein Blockdiagramm, das ein Modifikationsbeispiel der zehnten Ausführungsform der Erfindung zeigt;
34 ein Blockdiagramm, das ein Modifikationsbeispiel der zehnten Ausführungsform der Erfindung zeigt;
35 ein Blockdiagramm, das ein Modifikationsbeispiel der zehnten Ausführungsform der Erfindung zeigt;
36 ein Ablaufdiagramm, das die Verarbeitung in dem Bestimmungsabschnitt eines Modifikationsbeispiels der zehnten Ausführungsform der Erfindung zeigt;
37 ein Blockdiagramm eines in einer Codiervorrichtung der Erfindung verwendeten Pitch-Hervorhebungsabschnitts;
38 ein Ablaufdiagramm zur Erläuterung des Betriebs des Pitch-Hervorhebungsabschnitts von 37;
39 ein Blockdiagramm eines Pitch-Hervorhebungsabschnitts gemäß einer weiteren Modifikation;
40 ein Ablaufdiagramm für den Betrieb des in 39 gezeigten Pitch-Hervorhebungsabschnitts;
41 ein Blockdiagramm eines Pitch-Hervorhebungsabschnitts gemäß einer weiteren Modifikation;
42 ein Ablaufdiagramm für den Betrieb des in 41 gezeigten Pitch-Hervorhebungsabschnitts;
43 ein Blockdiagramm eines Pitch-Hervorhebungsabschnitts gemäß einer weiteren Modifikation;
44 ein Blockdiagramm eines Pitch-Hervorhebungsabschnitts gemäß einer weiteren Modifikation;
45 ein Blockdiagramm eines Codierabschnitts der Codiervorrichtung der Erfindung;
46 ein Blockdiagramm einer Codiervorrichtung mit einem Pitch-Hervorhebungsabschnitt gemäß einer elften Ausführungsform;
47 ein Blockdiagramm einer Codiervorrichtung gemäß einer zwölften Ausführungsform, mit einer Rauschlöschvorrichtung, die mit einem Pitch-Hervorhebungsabschnitt verbunden ist;
48 ein Blockdiagramm einer Codiervorrichtung gemäß einer dreizehnten Ausführungsform, die imstande ist, ein Pitch-Hervorhebungssignal und ein Eingangssignal beim Codieren zu schalten;
49 ein Blockdiagramm einer Codiervorrichtung gemäß einer vierzehnten Ausführungsform, die imstande ist, ein Pitch-Hervorhebungssignal und ein Eingangssignal beim Codieren zu schalten;
50 ein Blockdiagramm einer Codiervorrichtung gemäß einer fünfzehnten Ausführungsform, die imstande ist, ein Pitch-Hervorhebungssignal und ein Eingangssignal beim Codieren zu schalten;
51 ein Blockdiagramm einer Codiervorrichtung gemäß einer sechzehnten Ausführungsform, die imstande ist, ein Pitch-Hervorhebungssignal und ein Eingangssignal beim Codieren zu schalten;
52 ein Blockdiagramm, das die Struktur einer Vorrichtung zum Speichern und Transferieren codierter Daten gemäß der siebzehnten Ausführungsform der Erfindung zeigt;
53 ein Ablaufdiagramm zur Erläuterung des Betriebs eines Datenverarbeitungsabschnitts;
54 eine Fig., die insbesondere den Betrieb des Datenverarbeitungsabschnitts erläutert;
55 ein Blockdiagramm, das die Struktur einer Vorrichtung zum Speichern und Transferieren von codierten Daten gemäß der achtzehnten Ausführungsform der Erfindung zeigt;
56 ein Blockdiagramm, das die Struktur einer Vorrichtung zum Speichern und Transferieren von codierten Daten zusammen mit der Struktur einer Übertragungsvorrichtung gemäß der neunzehnten Ausführungsform der Erfindung zeigt;
57A und 57B Blockdiagramme, die die Struktur einer Vorrichtung zum Speichern und Transferieren von codierten Daten zusammen mit der Struktur einer Übertragungsvorrichtung gemäß der zwanzigsten Ausführungsform der Erfindung zeigt; und
58A und 58B Blockdiagramme, die die Struktur einer Vorrichtung zum Speichern und Transferieren von codierten Daten zusammen mit der Struktur einer Übertragungsvorrichtung gemäß der vierzigsten Ausführungsform der Erfindung zeigt.
Im folgenden werden Ausführungsformen der Erfindung mit Bezug auf die Zeichnungen erläutert.
1 ist ein Blockdiagramm, das die Struktur eines Codierschema-Auswahlabschnitts 11 gemäß einer ersten Ausführungsform der Erfindung zeigt. Der Codierschema-Auswahlabschnitt 11 bestimmt ein auszuwählendes Codierschema auf der Grundlage eines Zielsignals r(n), das über einen Eingangsanschluss 12 eingegeben wird, und gibt Codierschema-Auswahlinformation I durch einen Ausgangsanschluss 13 aus. Der Auswahlabschnitt 11 umfasst ein adaptives Codebuch 14, ein Synthesefilter 15, ein Ähnlichkeitsberechnungsmittel 16 und eine Codierschema-Bestimmungsschaltung 17.
Im Folgenden wird die Prozedur zum Auswählen eines Codier-Schemas gemäß dieser Ausführungsform erläutert. Bei dieser Ausführungsform werden jedoch zwei Codierschemata verwendet, um die Erläuterung zu vereinfachen. Der Wert der Codierschema-Auswahlinformation ist "1" oder "2". Ein Codierschema mit einer niedrigen Bitrate wird ausgewählt, wenn I = "1" erfüllt ist, und ein Codierschema mit einer hohen Bitrate wird ausgewählt, wenn I = "2" erfüllt ist.
Zuerst wird ein Zielsignal r(n) durch einen Eingangsanschluss 12 eingegeben. Nachfolgend wird auf einen Vektor p(n) von einem adaptiven Codebuch 14 Bezug genommen, und ein Synthesesignal q(n) wird vom Vektor p(n) mittels eines Synthesefilters 15 erzeugt. Beispielsweise kann ein Betrieb des Synthesefilters 15 durch die folgende Gleichung (1) bezüglich eines z-Umwandlungsbereichs ausgedrückt werden:
Hier stellt {α}l0i = 1 einen linearen Voraussageanalyse-Koeffizienten (LPC = linear prediction analysis coefficient) und γ eine Konstante dar, die größer als 0 und gleich oder kleiner als 1,0 ist. Daher wird die Beziehung zwischen einem Synthesesignal q(n) und einem Bezugsvektor p(n) durch einen Zeitbereich ausgedrückt, wie in der folgenden Gleichung (2) ausgedrückt wird:
Im Folgenden wird die Ähnlichkeit zwischen einem Zielsignal r(n) und einem Synthesesignal q(n) im Ähnlichkeitsberechnungsmittel 16 berechnet. Insbesondere wird, wie nachstehend beschrieben ist, in dem Ähnlichkeitsberechnungsmittel 16 ein Rauschabstandswert für ein Signal durch Multiplizieren eines Synthesesignals q(n) mit einem optimierten Verstärkungsfaktor oder Gain g erhalten und als eine Ähnlichkeit u für ein Zielsignal ausgegeben. Zuerst wird ein quadratischer Fehlerwert E zwischen einem Signal, das durch Multiplizieren eines Synthesesignals q(n) mit einem optimalen Gain g und einem Zielsignal r(n) erhalten wird, definiert, wie es in der folgenden Gleichung (3) ausgedrückt ist: E = Σ(r(n) – g·q(n))2 (3)
Der optimale Gain g ist ein Wert, der erhalten wird, wenn E minimiert wird, und daher wird E einer partiellen Differenzierung unterworfen und dann nach g aufgelöst. Als Ergebnis wird der optimale Gain g wie in der folgenden Gleichung (4) ausgedrückt:
Der Rauschabstandswert S wird wie in der folgenden Gleichung (5) ausgedrückt, wobei der obige optimale Gain g verwendet wird:
Als nächstes bestimmt der Codierschema-Auswahlabschnitt 17 durch Verwenden des Rauschabstandswerts S, welches Codierschema zu verwenden ist. Das Auswahlverfahren wird durchgeführt, um die folgenden Gleichungen unter Verwendung eines Schwellenwerts A zu erfüllen, und eine Codierschema-Auswahlinformation I wird ausgegeben. I = 1 where S ≥ A I = 2 where S < A (6)
Der obige Ablauf wird in 2 zusammengefasst. Zuerst wird ein Bezugsvektor p(n) von einem adaptiven Codebuch 14 im Schritt S11 extrahiert, und dann wird der Vektor p(n) durch ein Synthesefilter 105 geführt, um einen Synthesevektor q(n) zu erstellen. Als nächstes wird ein an einen Synthesevektor q(n) zu liefernder optimale Gain g im Schritt S13 und ferner ein Rauschabstandswert S für r(n) und g·q(n) erhalten.
Zuletzt wird im Schritt S14 der Rauschabstandswert S und der Schwellenwert A miteinander verglichen, um beispielsweise eine Codierschema-Auswahlinformation I zum Auswählen eines niedrigen Bitraten-Codierschemas oder eines hohen Bitraten-Codierschemas zu bestimmen. Die Information I wird durch einen Ausgangsanschluss 13 ausgegeben.
3 ist ein Blockdiagramm, das die Struktur eines Codierschema-Auswahlabschnitts 21 gemäß einer zweiten Ausführungsform der Erfindung zeigt. In der folgenden Erläuterung werden diejenigen Komponenten von 3, die die gleichen Funktionen wie diejenigen von 1 aufweisen, mit den gleichen Bezugssymbolen bezeichnet. Dieser Codierschema-Auswahlabschnitt 21 unterscheidet sich von demjenigen von 1 dadurch, dass ein Zielsignal r(n) durch einen Pitch-Analysator 22 analysiert wird, um einen Pitch T zu erhalten und dieser Pitch T wird verwendet, um einen Vektor p(n) zu bestimmen, auf den durch ein adaptives Codebuch 14 Bezug genommen wird. Daher wird der Pitch-Analysator 28 in der folgenden Erläuterung dargelegt.
Der Pitch-Analysator 28 verwendet ein vorheriges Signal r(n – T), das der Abtastung um eine Zeit T vorausgeht, um ein Zielsignal r(n) vorherzusagen, und gibt T als eine Pitch-Zeitspanne aus, die die Leistung E eines Voraussagefehlersignals der Voraussage minimiert. Insbesondere wird die Voraussagefehler-Signalleistung E wie folgt ausgedrückt:
Hier bezeichnet g einen Pitch-Gain und N eine Pitch-Analyselänge. Um eine stabile Pitch-Zeitspanne zu erhalten, wird eine Pitch-Analyselänge von z. B. N = 256 bevorzugt. Die Gleichung (7) wird partiell differenziert, und die Voraussagefehler-Signalleistung E wird minimal für den Wert 0. Die Gleichung wird wie folgt gelöst:
Hier drückt der Wert von T, der die Gleichung (8) minimiert, die Pitch-Zeitspanne aus. Der erste Ausdruck auf der rechten Seite der Gleichung (8) ist eine Konstante, und daher wird nach einer Pitch-Zeitspanne T, die den zweiten Ausdruck auf der rechten Seite der Gleichung maximiert, bei tatsächlichen Prozeduren gesucht. Mit anderen Worten berechnet der Pitch-Analysator die rechte Seite der Gleichung (8), wenn die Pitch-Zeitspanne geändert wird, und gibt die Pitch-Zeitspanne aus, die erhalten wird, wenn die rechte Seite der Gleichung (8) einen maximalen Wert angibt. Die so erhaltene Pitch-Zeitspanne T wird verwendet, um einen Bezugsvektor p(n) aus dem adaptiven Codebuch 14 zu extrahieren.
Der obige Ablauf ist in 4 zusammengefasst. Zuerst wird ein Zielsignal r(n) vom Pitch-Analysator 22 analysiert, um eine Pitch-Zeitspanne T im Schritt S21 zu erhalten. Als nächstes wird ein Vektor p(n), auf den Bezug zu nehmen ist, unter Verwendung der Pitch-Zeitspanne T im Schritt 22 extrahiert. Mit anderen Worten wird im adaptiven Codebuch 14 nach dem Bezugsvektor p(n) gesucht; der der so erhaltenen Pitch-Zeitspanne T entspricht. Die in den folgenden Schritten S23, S24 und S25 durchgeführte Verarbeitung ist jeweils die gleiche wie diejenige, die in den Schritten S12, S13 und S14 in 2 durchgeführt wurde, und daher wird deren Erläuterung hier weggelassen.
Obgleich erläutert wurde, dass die Pitch-Zeitspanne T gemäß dieser Ausführungsform unter Verwendung eines Zielsignals r(n) erhalten wird, kann eine geeignetere Pitch-Analyse unter Verwendung eines Eingangssprachsignals u(n) in dem Fall erreicht werden, indem das Zielsignal r(n) durch ein Hörgewichtungsfilter gewichtet wird. Da außerdem die Einhüll-Information O eines Sprachsignals unter Verwendung eines Voraussage-Restdifferenzsignals v(n) entfernt werden kann, das durch Durchführen eines Eingangssprachsignals u(n) durch ein LPC-Voraussagefilter erhalten wird, kann eine bessere Pitch-Analyse erreicht werden. Dem gemäß kann bei dieser Ausführungsform ein Eingangssprachsignal u(n) oder ein Voraussage-Restdifferenzsignal v(n) anstelle eines Zielsignals r(n) verwendet werden. Obgleich eine Erläuterung eines Falls durchgeführt wurde, bei dem ein primärer Pitch-Voraussagefilter in dem Pitch-Analysator 22 verwendet wird, kann bei dieser Ausführungsform außerdem ein Voraussagefilter einer höheren Ordnung verwendet werden.
5 ist ein Blockdiagramm, das die Struktur eines Codierschema-Auswahlabschnitts 31 gemäß einer dritten Ausführungsform der Erfindung zeigt. In der folgenden Erläuterung werden diejenigen Komponenten von 5, die die gleichen Funktionen wie diejenigen von 1 aufweisen, mit den gleichen Bezugssymbolen bezeichnet. Dieser Codierschema-Auswahlabschnitt 31 unterscheidet sich von dem Auswahlabschnitt der ersten Ausführungsform dadurch, dass alle Vektoren in dem adaptiven Codebuch 14 als Kandidaten verwendet werden, wobei Synthesevektoren jeweils bezüglich der Bezugsvektoren durch das Synthesefilter 15 erhalten werden, und der Synthesevektor, der dem Zielvektor r(n) am ähnlichsten ist, wird von einem Suchabschnitt 32 gesucht. Daher wird die folgende Erläuterung bezüglich des Suchabschnitts 32 durchgeführt.
Der Suchabschnitt 32 sucht alle in dem adaptiven Codebuch 14 als Bezugsvektoren gespeicherte Vektoren, und veranlasst das Ähnlichkeitsberechnungsmittel 16, einen Rauschabstandswert (SNR-Wert) S zu berechnen. Ferner verwendet der Suchabschnitt 32 den Wert von S, der erhalten wird, wenn dieser Wert maximiert wird, um ein Codierschema mittels des Codierschema-Auswahlabschnitts 17 zu bestimmen, und gibt eine Codierschema-Auswahlinformation I aus.
In allgemeinen Fällen ist es jedoch nicht immer notwendig, für die Suche den SNR-Wert zu erhalten, sondern es ist nur notwendig, nach einem Bezugsvektor zu suchen, der durch den durch Gleichung (3) definierten quadratischen Fehlerwert E minimiert. In diesem Fall wird der Rauschabstandswert berechnet, nachdem der Bezugsvektor erhalten wird, der dem quadratischen Fehlerwert E minimiert, und der berechnete Rauschabstandswert wird an dem Codierbestimmungsabschnitt 17 ausgegeben.
Der obige Ablauf ist in 6 zusammengefasst. Hier bezeichnet L die Anzahl der in dem adaptiven Codebuch 14 gespeicherten Vektoren. Ferner wird ein durch die Gleichung (4) ausgedrückter optimaler Gain g in die Gleichung (3) eingesetzt, und diese Gleichung (3) wird dann wie folgt entwickelt:
Wenn der quadratische Fehlerwert E ein minimierter Wert ist, wird der erste Ausdruck auf der rechten Seite der Gleichung (9) als ein Abhängigkeitsgrad wie folgt erhalten:
Dann wird der Bezugsvektor, der den Abhängigkeitsgrad maximiert, gesucht.
Zuerst werden in einem Schritt S30 Parameter derart eingestellt, dass i = 1, iopt = 1 und Dmax = 0 erfüllt sind. Als nächstes wird ein Synthesevektor qi(n) durch Schritte S31 und S32 erhalten. Es sei bemerkt, dass die Schritte S31 und S32 die gleichen Schritte wie die in 2 gezeigten Schritte S11 und S12 sind, und daher wird deren Erläuterung hier weggelassen. Dann wird der Abhängigkeitsgrad D aus einem Zielvektor r(n) und einem Synthesevektor qi(n) gemäß der Gleichung (10) erhalten. Ferner werden die Größen des Abhängigkeitsgrads D und des maximalen Abhängigkeitsgrads Dmax in einem Schritt S34 miteinander verglichen. Wenn der Abhängigkeitsgrad D hier größer als der maximale Abhängigkeitsgrad Dmax ist, dann wird der Wert von Dmax auf den gleichen Wert wie der Grad D in einem Schritt S35 aktualisiert, und der Wert von i wird zu diesem Zeitpunkt in dem iopt gespeichert. Dann springt die Verarbeitung zu einem Schritt S36. Wenn der Abhängigkeitsgrad D kleiner als der maximale Grad Dmax ist, dann springt die Verarbeitung direkt zu dem Schritt S36 und der Wert von i wird um 1 in dem Schritt S36 erhöht. Der Wert von i wird ferner mit der Anzahl L von Vektoren verglichen, die in dem adaptiven Codebuch 14 enthalten sind. Wenn der Wert von i hier kleiner als L ist, springt die Verarbeitung zu dem Schritt S31 zurück, und der Ablauf der Verarbeitung wird, wie oben beschrieben ist, wiederholt. Wenn der Wert von i größer als L ist, entweicht der Ablauf der Verarbeitung aus dieser Schleife und geht zu einem Schritt S38. In dem Schritt S38 wird ein Rauschabstandswert für einen Zielvektor r(n) und g·qiopt(o) erhalten, und in einem Schritt S39 wird Codierschema-Auswahlinformation I auf der Grundlage des erhaltenen Rauschabstandswerts S ausgegeben. Die Einzelheiten der Schritte S38 und S39 sind die gleichen wie diejenigen der Schritte S13 und S14 in 2, und daher wird deren Erläuterung hier weggelassen.
Gemäß dieser Ausführungsform kann ein Bezugsvektor, der einen maximalen Rauschabstandswert ergibt, aus allen in dem adaptiven Codebuch 14 enthaltenen Vektoren erhalten werden. Daher besteht im Gegensatz zu der zweiten Ausführungsform ein Vorteil darin, dass der tatsächliche Wirkungsgrad des adaptiven Codebuchs 14 ohne Einflüsse auf die Präzision und Genauigkeit des durch die Pitch-Analyse erhaltenen Pitchs bezüglich einer Eingangssprache korrekt beurteilt werden kann, das besonders großes Hintergrundrauschen aufweist.
Obgleich erläutert wurde, dass ein Bezugsvektor aus allen Vektoren in dem adaptiven Codebuch 14 bei der obigen Ausführungsform erhalten wird, ist es möglich, nach einer bestimmten beschränkten Anzahl von Bezugsvektoren als Kandidaten zu durchsuchen.
7 ist ein Blockdiagramm, das die Struktur eines Codierschema-Auswahlabschnitts 14 gemäß einer vierten Ausführungsform der Erfindung zeigt. In der folgenden Erläuterung werden diejenigen Komponenten von 7, die die gleichen Funktionen wie diejenigen von 1 aufweisen, durch die gleichen Bezugssymbole bezeichnet. Der Codierschema-Auswahlabschnitt 41 von 7 unterscheidet sich von demjenigen der ersten Ausführungsform dadurch, dass der Auswahlabschnitt 41 die zum Codieren eines vorherigen Frames erhaltenen Pitch-Information für ein aktuelles Frame verwendet, und dass ein Vektor p(n), auf den sich das adaptive Codebuch bezieht, auf der Grundlage der Pitch-Information für den vorhergehenden Frame bestimmt wird. Insbesondere wird diese Ausführungsform zusätzlich mit einem Puffer 42 versehen, und die für ein vorhergehendes Frame erhaltene Pitch-Information wird in dem Puffer 42 gespeichert. Diese Pitch-Information stellt ein Ergebnis eines Durchsuchens des adaptiven Codebuchs 14 dar, das erhalten wird, wenn eine Codierung für ein vorhergehendes Frame durchgeführt wird, d. h. ein Pitch, der durch Durchsuchen des adaptiven Codebuchs 14 bestimmt wird, wenn eine Codierung für ein vorhergehendes Frame durchgeführt wird.
Dann wird gemäß der in dem Puffer 42 gespeicherten Pitch-Information ein Bezugsvektor p(n) aus einem adaptiven Codebuch 14 extrahiert, und eine Codierschema-Auswahlinformation I wird durch ein Synthesefilter 15, ein Ähnlichkeitsberechnungsmittel 16 und ein Codierschema-Auswahlabschnitt 17 auf der Grundlage des Bezugsvektors p(n) ausgegeben. Die von dem Synthesefilter 15, dem Ähnlichkeitsberechnungsmittel 16 und dem Codierschema-Auswahlabschnitt 17 durchgeführte Verarbeitung ist jeweils die gleiche, wie diejenige, die von den entsprechenden Komponenten der ersten Ausführungsform ausgeführt wurde, und daher wird deren Erläuterung hier weggelassen.
Der obige Ablauf der Verarbeitung wird in 8 zusammengefasst. Zuerst wird ein Bezugsvektor p(n) aus dem adaptiven Codebuch 14 unter Verwendung der in dem Puffer 42 gespeicherten Pitch-Zeitspanne T in einem Schritt S41 ausgewählt. Die Verarbeitung der folgenden Schritte S42, S43 und S44 sind jeweils die gleichen, wie diejenigen der Schritte S12, S13 und S14 in 2.
Da ein Bezugsvektor bei dieser Ausführungsform unter Verwendung einer Pitch-Information eines vorherigen Frames bestimmt wird, besteht ein Vorteil darin, dass die Berechnung zur Bestimmung eines Bezugsvektors, wie beispielsweise eine Pitch-Analyse, gemäß der zweiten Ausführungsform und ein Durchsuchen des adaptiven Codebuchs 14 gemäß der dritten Ausführungsform nicht speziell erforderlich sind, wobei jedoch die Codierschema-Auswahlinformation I mit einer viel kleineren Berechnungsmenge erhalten werden kann.
Nachfolgend wird eine Erläuterung bezüglich einer Ausführungsform durchgeführt, die den oben erwähnten Codierschema-Auswahlabschnitt auf eine Sprachcodiervorrichtung als eine fünfte Ausführungsform adoptiert. 9 ist eine Blockdiagramm, das die Struktur einer Sprachcodiervorrichtung gemäß dieser Ausführungsform zeigt, und der Codierschema-Auswahlabschnitt 52 nimmt eine der Strukturen der Codierschema-Auswahlabschnitte 11, 21, 31 und 41 an, die mit Bezug auf die ersten bis vierten Ausführungsformen erläutert wurden. Codierer 53 bis 55 weisen jeweils unterschiedliche Codierschemata auf, mit anderen Worten unterschiedliche Bitraten, und einer dieser wird von dem Codierschema-Auswahlabschnitt 92 ausgewählt.
Im Folgenden wird ein Betrieb dieser Ausführungsform erläutert. Zuerst wird ein Zielsignal von einem Eingangsanschluss 51 eingegeben. Dieses Zielsignal kann aus einem Signal bestehen, das veranlasst wurde, durch ein Hörgewichtungsfilter zu durchlaufen, und auf das Einflüsse aus einem vorherigen Frame in verschiedenen Fällen verringert wurden. Diejenigen Abschnitte, die sich auf die Verarbeitung beziehen, werden aus dieser Figur weggelassen, um die Erläuterung zu vereinfachen. Das Zielsignal wird in dem Codierschema-Auswahlabschnitt 52 eingegeben, und die Codierschema-Auswahlinformation I wird ausgegeben. Auf der Grundlage der Codierschema-Auswahlinformation I wird einer der Codierer 53 bis 55 ausgewählt, und das Zielsignal wird in den ausgewählten Codierer eingegeben, um dadurch die Codierung durchzuführen. Bei Beendigung der Codierung werden Codierparameter, die als Codierergebnisse erhalten wurden, und die Codierschema-Auswahlinformation I in einen Multiplexer 56 eingegeben und in einen Bitstrom umgewandelt. Danach wird der Bitstrom durch einen Ausgangsanschluss 57 ausgegeben.
Bei dieser Ausführungsform wird eine Erläuterung von spezifischeren Beispielen einer Sprachcodiervorrichtung durchgeführt, bei der beispielsweise ein Codierer vom CELP-Verfahren als Codierer mit hoher Bitrate und ein LPC-Vocoder vom Zufallstreibertyp (der nachstehend als ein LPC-Vocoder bezeichnet wird) als ein Codierer mit niedriger Bitrate verwendet wird.
10 ist ein Blockdiagramm einer Sprachcodiervorrichtung gemäß dieser Ausführungsform. Bei dem CELP-Verfahren sind die als ein Ausgangssignal an einen Decodierer zu übertragenden Parameter: (1) ein adaptiver Vektorindex eines adaptiven Codebuchs 67; (2) ein Rauschvektorindex eines Rauschvektor-Codebuchs 68; (3) ein Pitch-Gain-Index eines Pitch-Gain-Codebuchs 69; (4) ein Rausch-Gain-Index eines Rausch-Gain-Codebuchs 70 und (5) ein als ein Ergebnis einer Quantisierung durch einen LPC-Quantisierer 74 erhaltener LPC-Index.
Als Ausgangssignal von dem LPC-Vocoder an den Decodierer zu übertragenen Parameter sind: (1) ein Gain-Index eines Gain-Codebuchs 78; (2) ein als ein Ergebnis einer Quantisierung durch einen LPC-Quantisierer 82 erhaltener LPC-Index; (3) ein adaptiver Vektorindex eines adaptiven Codebuchs 67 und (4) ein Pitch-Gain-Index eines Pitch-Gain-Codebuchs 69.
Da hier ein LPC-Vocoder einen Zufallswert als ein Treibersignal verwendet, muss Information des Treibersignals nicht an den Decodierer übertragen werden, und daher kann die Codier-Bitrate auf einen extrem kleinen Wert gesetzt werden.
Außerdem werden in vielen Fällen ein LPC-Quantisierer 82 und ein adaptives Gain-Codebuch 88 einer niedrigen Bitrate für einen LPC-Vocoder erstellt, und daher können die Bitraten insgesamt klein eingestellt werden.
Im nachfolgenden wird der Betrieb der Sprachcodiervorrichtung dieser Ausführungsform erläutert. Ein durch einen Eingangseinschluss 61 eingegebenes Sprachsignal wird einer LPC-Analyse durch einen LPC-Analysator 62 unterworfen, und ein linearer Voraussagekoeffizient (der nachstehend als ein LPC-Koeffizient bezeichnet wird) wird dadurch erhalten. Ein Synthesefilter 63, dessen Kennlinie durch den LPG-Koeffizienten definiert ist, wird mit einem von einem adaptiven Codebuch 67 erhaltenen adaptiven Vektor eingegeben, um dadurch ein Synthesesignal zu erhalten. Die Ähnlichkeit zwischen dem Synthesesignal und dem eingegebenen Sprachsignal wird durch ein Ähnlichkeitsberechnungsmittel 64 berechnet, und auf der Basis des Berechnungsergebnisses wird ein Codierschema durch ein Codierschema-Auswahlabschnitt 65 bestimmt.
Dann wird ein Codierer der CELP-Verfahrensart als ein Codierer mit hoher Bitrate oder ein LPC-Vocoder als ein Codierer mit niedriger Bitrate durch einen Selektor 66 in Übereinstimmung mit von dem Codierschema-Auswahlabschnitt 65 ausgegebenen Codierschema-Auswahlinformation ausgewählt.
Die folgende Erläuterung wird für einen Fall durchgeführt, bei dem ein Codierer des CELP-Verfahrens durch den Selektor 66 ausgewählt wird. Es sei bemerkt, dass ein Codierer des CELP-Verfahrens in 10 oberhalb der gestrichelten Linie angegeben ist.
Ein von einem adaptiven Codebuch 67 erhaltener adaptive Vektor und ein von einem Rauschcodebuch 68 erhaltener Rauschvektor werden jeweils durch ein von einem Pitch-Gain-Codebuch 69 erhaltenen Pitch-Gain und einem von einem Rausch- Gain-Codebuch 70 erhaltenen Rausch-Gain durch Multiplizierer 71 und 72 multipliziert. Nach der Multiplikation mit den Pitch- und Rausch-Gains werden ein adaptiver Vektor und ein Rauschvektor miteinander durch eine Addiervorrichtung 73 addiert, um dadurch ein Treibersignal für ein Synthesefilter 75 zu erzeugen.
Unterdessen wird die Kennlinie (characteristic) des Synthesefilters 75 auf der Grundlage eines durch Quantisieren eines von dem LPC-Analysator 62 erhaltenen LPC-Koeffizienten durch den LPC-Quantisierer 74 definiert, und ein von einem Addierer 73 ausgegebenes Treibersignal wird in das Synthesefilter 75 eingegeben, wodurch ein Synthesesignal erzeugt wird. Mit einem Signal, aus dem Einflüsse eines vorherigen Frame verringert sind, das als ein Zielsignal verwendet wird, wird dieses Synthesesignal durch eine Subtrahiervorrichtung 77 von dem Zielsignal subtrahiert, das dem Eingangssignal frei von Einflüssen des vorherigen Frames entspricht, um ein Fehlersignal zu erhalten.
Das Fehlersignal wird durch ein Hörgewichtungsfilter 78 gewichtet, und danach wird die elektrische Leistung des Signals durch eine Fehlerberechnungsvorrichtung 79 erhalten. Eine Kombination eines adaptiven Vektors, eines Rauschvektors, eines Pitch-Gain und eines Rausch-Gain, der die Fehlersignalleistung minimiert, wird aus einem adaptiven Codebuch 67, einem Rausch-Codebuch 68, einem Pitch-Gain-Codebuch 69 und einem Rausch-Gain-Codebuch 70 gesucht. Der adaptive Vektor, der Rauschvektor, der Pitch-Gain und der Rausch-Gain, der die Fehlersignalleistung minimiert, und die als Ergebnis der Suche erhalten werden, werden jeweils als ein adaptiver Vektorindex, ein Rausch-Vektorindex, ein Pitch-Gain-Index und ein Rausch-Gain-Index ausgedrückt. Dieser adaptive Vektorindex, Rauschindex, Pitch-Gain-Index und Rausch-Gain-Index und LPC-Index, der einen LPC-Koeffizient darstellt, werden als Codierparameter an ein Übertragungsmedium oder ein nicht gezeigtes Speichermedium ausgegeben und ferner an eine nicht gezeigte Sprachdecodiervorrichtung übertragen.
Die nächste Erläuterung wird für einen Fall durchgeführt, bei dem ein LPC-Vocoder durch den Selektor 66 ausgewählt wird. Es sei bemerkt, dass ein LPC-Vocoder in 10 unterhalb der gestrichelten Linie angegeben ist.
Der LPC-Vocoder sucht und bestimmt zuerst einen Index eines adaptiven Codebuchs 67 und einen Pitch-Gain eines Pitch-Gain-Codebuchs 69.
Ein Zufallswertvektor, der einen Mittelwert C und einen Abweichungswert I aufweist, wird durch einen Zufallswertgenerator 81 erzeugt. Dieser Zufallswertvektor wird mit einem Gain in einem Multiplizierer 89 multipliziert und zu diesem wird ein adaptiver Vektor von einem Multiplizierer 71 nach Multiplikation mit einem Pitch-Gain addiert, wodurch ein Treibersignal für ein Synthesefilter 82 erzeugt wird. Als nächstes wird ein LPC-Koeffizient durch einen LPC-Quantisierer 82 quantisiert, und die Kennlinie eines Synthesefilters 83 wird auf der Grundlage des LPC-Koeffizienten nach der Quantisierung definiert. Dem Synthesefilter 83 wird von dem Multiplizierer 89 ausgegebenen Treibersignal eingegeben und dadurch ein Synthesesignal erzeugt. Dieses Synthesesignal wird von einem Zielsignal durch eine Subtrahiervorrichtung 84 subtrahiert und dadurch ein Fehlersignal erhalten.
Das Fehlersignal wird durch ein Hörgewichtungsfilter 85 gewichtet, und danach wird die elektrische Leistung durch eine Fehlerberechnungsvorrichtung 86 erhalten. Ein Gain, der die Fehlersignalleistung minimiert, wird aus einem Gain-Codebuch 88 durch einen Suchabschnitt 87 erhalten. In diesem Fall kann der Gain mittels einer Analyse und nicht durch Suchen erhalten werden. Ein Gain-Index, der den Gain darstellt, der die Fehlersignalleistung minimiert, und ein LPC-Index, der einen LPC-Koeffizienten darstellt, werden als Codierparameter an ein Übertragungsmedium oder ein nicht gezeigtes Speichermedium ausgegeben und dann an eine nicht gezeigte Sprachcodiervorrichtung übertragen.
Wie bei der fünften Ausführungsform erläutert wurde, wird eine von dem Codierschemabestimmungsabschnitt 65 erhaltene Codierschema-Auswahlinformation I zusammen mit Codierparametern in einem Bitstrom durch einen nicht gezeigten Multiplexer umgewandelt und an ein Übertragungsmedium oder ein Speichermedium ausgegeben.
Bei dieser Ausführungsform werden das adaptive Codebuch 67 als eine Komponente eines Codierers des CELP-Verfahrens und ein Synthesefilter 63 zur Auswahl eines Codierers (oder Codierschemas) verwendet, und daher ist es möglich, ein geeignetes Codierschema mit dem Codierschema-Auswahlabschnitte auszuwählen, wie obenstehend bei den ersten bis vierten Ausführungsformen erläutert wurde.
Insbesondere kann in diesem Fall, wenn ein Eingangssprachsignal als Zielsignal ein Signal ist, dass eine intensive Periodizität aufweist, das Zielsignal mit einer hohen Genauigkeit durch einen Vektor eines in dem adaptiven Codebuchs 67 gespeicherten Treibersignals ausgedrückt werden. Sogar wenn die einem Treibersignal zugeordnete Anzahl von Bits für das Synthesefilter verringert wird, um klein zu sein, ist es daher möglich, ohne weiteres die Zielqualität zu erreichen und einen LPC-Vocoder mit einer niedrigen Codier-Bitrate zu verwenden, solange wie ein Zielsignal eine intensive Periodizität aufweist. Im Gegensatz dazu kann, wenn ein Zielsignal eine schwache Periodizität aufweist, das Zielsignal nicht allein durch das adaptive Codebuch mit einer hohen Genauigkeit ausgedrückt werden. In diesem Fall ist es daher möglich, eine Zielqualität unter Verwendung eines Codierers mit einem CELP-Verfahren mit einer hohen Codier-Bitrate zu erreichen.
Ferner ist es bei dieser Ausführungsform möglich, ohne weiteres die Zielqualität zu erreichen, während die Durchschnitts-Bitrate abgesenkt wird, indem eine Anordnung vorgesehen wird, durch die die Ähnlichkeit zwischen einem Synthesesignal, das durch Durchlaufen eines von dem adaptiven Codebuch 67 erhaltenen Bezugsvektor durch das Synthesefilter 73 erhalten wurde, und einem Eingangssprachsignal als Zielsignal durch einen Ähnlichkeitsberechnungsvorrichtung 116 erhalten wird, wie bei den ersten bis vierten Ausführungsformen erläutert wurde, und durch die ein Codierer mit niedriger Bitrate ausgewählt wird, wenn die Ähnlichkeit groß ist, wohingegen ein Codierer mit einer hohen Bitrate ausgewählt wird, wenn die Ähnlichkeit klein ist.
Obgleich die Struktur einer Sprachdecodiervorrichtung in den Zeichnungen nicht gezeigt ist, werden unterdessen ein Decodierer mit einem CELP-Verfahren und einem LPC-Vocoder-Verfahren vorgesehen, um der in 10 gezeigten Sprachcodiervorrichtung zu entsprechen. Gemäß der Codierschema-Auswahlinformation von der Sprachcodiervorrichtung wird einer dieser Decodierer ausgewählt, und ein ursprüngliches Sprachsignal wird gemäß den Codierparametern von der Sprachcodiervorrichtung durch den ausgewählten Decodierer decodiert.
Wie oben erläutert wurde, besteht die Grundlage der Erfindung darin, dass eines einer Mehrzahl von erstellten Codierschemata abhängig davon ausgewählt wird, wie genau ein adaptives Codebuch ein Zielsignal ausdrücken kann. Daher ist es erfindungsgemäß möglich, eine Codiervorrichtung vorzusehen, die eine Auswahl eines Codierschemas ermöglicht, das imstande ist, eine niedrige mittlere Rate und Zielqualität zu erreichen, während der für die Auswahl erforderliche Rechenbetrag verringert wird.
Als nächstes wird eine Sprachcodiervorrichtung gemäß einer weiteren Ausführungsform erläutert.
11 ist ein schematisches Blockschaltbild einer Sprachcodiervorrichtung gemäß einer siebten Ausführungsform der Erfindung.
Gemäß dieser Ausführungsform wird ein durch einen Eingangsanschluss 1 eingegebenes Eingangssignal a(n) einer Pitch-Hervorhebung in dem Pitch-Hervorhebungsabschnitt 100 unterworfen und danach durch einen Codierer 200 codiert. Das codierte Signal wird durch einen Ausgangsanschluss 300 übertragen. Dies bedeutet, dass ein Pitch-Hervorhebungsabschnitt 100 zum Durchführen der Pitch-Analyse eines Eingangssignals und einer Pitch-Hervorhebung bei der vorhergehenden Verarbeitung einer Codierverarbeitung vorgesehen ist.
Der Pitch-Hervorhebungsabschnitt 100 umfasst eine Pitch-Analyseberechnungseinheit 101 und eine Pitch-Hervorhebungsberechnungseinheit 102. Es sei bemerkt, dass der Inhalt der Verarbeitung der Pitch-Analyseberechnungseinheit 101 mit Bezug auf 14 erläutert wird. Ein Eingangssignal a(n) wird sequentiell in eine Pitch-Analyseberechnungseinheit 101 eingegeben. Die Pitch-Analyseberechnungseinheit 101 führt eine Pitch-Analyse bei bestimmten Analyseintervallen durch und gibt eine Pitch-Zeitspanne T und einen Pitch-Gain g aus. Unter Berücksichtigung der Sprachkonstanz und der Berechnungsmenge ist ein geeignetes Analyseintervall 5 ms bis 10 ms. Genauer gesagt analysiert die Pitch-Analyseberechnungseinheit 101 das Eingangssignal a(n) bei dem Analyseintervall 5 ms bis 10 ms, um die Pitch-Zeitspanne T und den Pitch-Gain g zu erhalten.
In der Pitch-Analyseberechnungseinheit 101 wird ein Eingangssignal a(n) unter Verwendung eines vorherigen Signals a(n – t) vorhergesagt, das um eine Zeit T vorhergeht, und gibt das T aus, das die Leistung des Voraussagefehlersignals minimiert. Insbesondere wird die Voraussagefehler-Signalleistung E wie folgt ausgedrückt:
Hier bezeichnet g einen Pitch-Gain und N eine Pitch-Analyselänge. Um eine stabile Pitch-Zeitspanne zu erhalten, wird beispielsweise eine Pitch-Analyselänge von N = 40 bis 256 bevorzugt. Die Gleichung (11) wird partiell differenziert, und die Voraussagefehler-Signalleistung E wird minimal, wenn der Wert 0 wird. Die Gleichung wird wie folgt gelöst:
Der Wert von T, der die Gleichung (12) minimiert, drückt die Pitch-Zeitspanne aus. Der erste Ausdruck auf der rechten Seite in der Gleichung (12) ist eine Konstante, und daher wird eine Pitch-Zeitspanne T, die den zweiten Ausdruck auf der rechten Seite der Gleichung maximiert, in den tatsächlichen Prozeduren gesucht. In dieser Stufe wird der Pitch-Gain g wie folgt ausgedrückt:
Außerdem werden, wenn ein verallgemeinerter Welligkeitsfaktor (generalized stationary) aus einem Eingangssignal a(n) angenommen werden kann, der zweite Ausdruck auf der rechten Seite der Gleichung (12) und der Nenner auf der rechten Seite der Gleichung (13) wie folgt ausgedrückt:
Wenn nur dieser Wert außerhalb der Suchschleife der Pitch-Zeitspanne T erhalten wird, kann die Berechnungsmenge verringert werden. Auf diese Art und Weise kann eine Pitch-Zeitspanne T und ein Pitch-Gain g durch die Pitch-Analyseberechnungsabschnitt 101 erhalten werden (in einem Schritt S10).
Obgleich die obige Erläuterung dieser Ausführungsform mit Bezug auf ein Verfahren zum Erhalten einer Pitch-Zeitspanne und eines Pitch-Gains unter Verwendung eines primären Pitch-Voraussagefilters durchgeführt wurde, kann ein Voraussagefilter höherer Ordnung verwendet werden. Außerdem kann ein weiteres Pitch-Analyseverfahren, z. B. ein Nulldurchgangsverfahren, ein Autokorrelationsverfahren, ein Cepstrum-Verfahren oder dergleichen verwendet werden.
Die nächste Erläuterung wird für den Pitch-Hervorhebungsberechnungsabschnitt 102 durchgeführt. Der Pitch-Hervorhebungsberechnungsabschnitt 102 verwendet eine Pitch-Zeitspanne T und einen Pitch-Gain g, der von dem Pitch-Analyseberechnungsabschnitt 101 erhalten wurde, um ein Eingangssignal a(n) hervorzuheben. Hier wird eine Erläuterung eines Falls durchgeführt, wobei ein All-Pol-Pitch-Filter verwendet wird. Die Übertragungsfunktion eines Pitch-Filters vom Poltyp kann wie folgt ausgedrückt werden:
Hier bezeichnet A(z) einen z-Transformationswert eines Eingangssignals a(n), B(z) einen z-Transformationswert eines Eingangssignals b(n), G einen Gain und g einen Pitch-Gain. Ferner ist ε eine Konstante, die gleich oder größer als 0 und kleiner als 1 ist, wobei ε = 0,8 empfohlen wird. Um das Ausbilden eines Schwingungsfilters zu verhindern, ist eine Überwachung notwendig, so dass ein Produkt von g und ε immer kleiner als 1 gehalten wird. Bei dem Fall, bei dem beispielsweise das Produkt von g und ε 0,8 überschreitet, ist es notwendig, zusätzlich eine Sonderbehandlung vorzusehen, um das Produkt von g und ε zwangsweise auf 0,8 zu begrenzen.
Die Gleichung (15) wird wie folgt innerhalb des Zeitbereichs ausgedrückt: b(n) = G·a(n) + g·ε·b(n – T) (16)
Gemäß der Gleichung (16) ist es möglich, ein Signal b(n) zu erzielen, das durch Unterziehen eines Eingangssignals einer Pitch-Hervorhebung erreicht wird (in einem Schritt S20).
Die obige Erläuterung wurde für einen Fall durchgeführt, bei dem ein primäres Pitch-Hervorhebungsfilter verwendet wird. Die Anzahl der Stufen des Pitch-Hervorhebungsfilters muss nicht immer eine Stufe sein, sondern das Pitch-Hervorhebungsfilter kann Stufen aufweisen, die in der Anzahl gleich der Anzahl der Analysestufen einer Pitch-Analyseberechnungseinheit 101 sind. Obgleich die obige Erläuterung für einen Fall durchgeführt wurde, bei dem ein Pitch-Filter vom Poltyp verwendet wird, ist es außerdem natürlich beispielsweise möglich, einen Gesamtnull-Pitch-Filter, ein PN-Pitch-Filter, etc., zu verwenden.
Obgleich die Kennlinie abhängig von dem Pitch-Gain g in dem durch Gleichung (16) ausgedrückten Pitch-Hervorhebungsberechnung geändert wird, ist es möglich, ein Verfahren zum Durchführen einer Pitch-Hervorhebung mit einer Pitch-Hervorhebungsberechnung durchzuführen, das durch eine vorbestimmte Konstante (z. B. 0,7) festgelegt ist, anstatt ein Produkt des Pitch-Gains g und einer Konstante ε zu verwenden. In diesem Fall ist eine Berechnung des Pitch-Gain g nicht notwendig, und daher ist nur eine Pitch-Zeitspanne T ausreichend, die den Ausdruck im Nenner der Gleichung (13) maximiert, was dadurch zu einem Vorteil führt, dass die Berechnungsmenge verringert werden kann.
13 zeigt ein weiteres Beispiel eines Pitch-Hervorhebungsabschnitts 100. Der Pitch-Hervorhebungsabschnitt 100 weist eine Struktur auf, die durch Hinzufügen einer Gain-Einstell-Berechnungseinheit 103 zu dem in 12 gezeigten Pitch-Hervorhebungsabschnitt erhalten wird. Die Gain-Einstell-Berechnungseinheit 103 empfängt ein Eingangssignal a(n) und ein Pitch-Signal b(n) von der Pitch-Hervorhebungsberechnungseinheit 102.
Der Gain G der Gleichung (16) ist so gegeben, dass die Leistung des Signals b(n) nach Durchführen der Pitch-Hervorhebungsberechnung gleich der Leistung des Eingangssignals a(n) ist. Bei der in 37 gezeigten Struktur führt ein Gain-Einstell-Berechnungsabschnitt 103 eine Gain-Einstellung durch, so dass die Leistung eines Eingangssignals a(n) der Leistung eines Signals b(n) nach Durchführen der Pitch-Hervorhebungsberechnung entspricht, vorausgesetzt, dass G = 1 ist. Der Gain-Einstell-Berechnungsabschnitt 103 führt eine Gain-Einstellung durch Multiplizieren eines Signals b(n) nach der Pitch-Hervorhebungsberechnung mit einem Koeffizienten durch, der aus der Leistung σa eines Eingangssignals a(n) und der Leistung σb eines Signals b(n) nach der Pitch-Hervorhebungsberechnung erhalten wurde. Der spezifische Inhalt dieser Verarbeitung wird mit Bezug auf 38 erläutert. Es sei bemerkt, dass diejenigen Komponenten von 37 und 38, auf die mit den gleichen Bezugsnamen wie diejenigen von 12 und 14 Bezug genommen wird, die gleichen Funktionen wie entsprechende Komponenten von 12 und 14 aufweisen. Daher wird eine Erläuterung dieser Komponenten hier weggelassen.
Die Leistung σa eines mit einer Frame-Länge L gepufferten Eingangssignals a(n) wird gemäß der folgenden Gleichung erhalten (in einem Schritt S1012). Eine bevorzugte Frame-Länge L beträgt etwa 40 bis 160.
Die Leistung σb eines Signals b(n) nach der Pitch-Hervorhebungsberechnung, die jeder Abtastung eines Eingangssignals a(n) entspricht, wird auf eine ähnliche Art und Weise wie die Gleichung (17) erhalten (in einem Schritt S1013). Obgleich die Pitch-Hervorhebungsberechnung gemäß der Gleichung (17) durchgeführt wird, sollte beachtet werden, dass der Gain G = 1 zugeführt wird (in einem Schritt S1013).
Ein Koeffizient ζ wird gemäß der Gleichung (19) aus σa und σb wie folgt erhalten (in einem Schritt S1014). ζ = (σa/σb) (19)
Wobei g(n) ein Signal ist, dass durch Multiplizieren eines Signals b(n) nach der Pitch-Hervorhebungsberechnung mit ζ für jede Abtastung erhalten wird, wobei g(n) ausgegeben wird, das wie folgt ausgedrückt werden kann (in einem Schritt S1015) g(n) = ζ·b(n)(n = 0 to L – 1) (20)
Das durch eine Gain-Einstell-Berechnung 103 durchgeführte Verfahren einer Gain-Einstellung ist natürlich nicht auf das oben beschriebene Verfahren begrenzt, und basiert darauf, dass eine Gain-Einstellung durch Multiplizieren des Pitch eines Signals b(n) nach der Pitch-Hervorhebungsberechnung mit einem Koeffizienten erreicht wird, der aus σa und σb erhalten wird, so dass die Leistung eines Eingangssignals gleich der Leistung eines Ausgangssignals ist.
39 zeigt eine weitere Struktur eines Pitch-Hervorhebungsabschnitts 100. Der in 39 gezeigte Pitch-Hervorhebungsabschnitt 100 weist eine Struktur auf, die erhalten wird, in dem ein mit einem Eingangssignal gelieferter Voraussagefilter 104, ein LPC-Analysator 105 und ein Synthesefilter 106 dem in 12 gezeigten Hervorhebungsabschnitt hinzugefügt wird. Der Inhalt der Verarbeitung wird mit Bezug auf 40 erläutert. Es sei bemerkt, dass diejenigen Komponenten von 39 und 40, auf die mit den gleichen Bezugsnamen wie diejenigen von 13 und 14 Bezug genommen wird, die gleichen Funktionen wie die entsprechenden Komponenten von 12 und 14 aufweisen, und daher wird eine Erläuterung dieser Komponenten hier weggelassen.
Zuerst wird eine LPC-Analyse unter mit einem Eingangssignal a(n) durchgeführt, um einen LPC-Koeffizienten {al: 1 = 1 bis = Psymbol 125 \f "Symbol" \s 12 zu erhalten (in einem Schritt S1101). P bezeichnet die Anzahl von zu analysierenden Buchstaben und wird in diesem Falle auf P = 10 gesetzt. Als ein LPC-Analyseverfahren gibt es ein Autokorrelationsverfahren, ein Kovarianzverfahren, ein FLAT-Algorithmus oder dergleichen, und jedes dieser Verfahren kann verwendet werden. Als nächstes wird ein Voraussagefilter aus einem LPC-Koeffizienten gebildet, und ein Eingangssignal wird durch das Voraussagefilter durchgelassen, um dadurch ein Voraussage-Restdifferenzsignal d(n) zu erzeugen (in einem Schritt S1102). Das Voraussage-Restdifferenzsignal d(n) wird mit einem LPC-Koeffizienten wie in der folgenden Gleichung (21) ausgedrückt. Hier bezeichnet L eine Frame-Länge, und L ist vorzugsweise 40 bis 160.
wobei n = 0 bis L – 1 ist.
Als nächstes werden eine Pitch-Zeitspanne T und ein Pitch-Gain g, die E minimieren, gemäß der Gleichung (11) erhalten (in einem Schritt S1103). Es sei bemerkt, dass die Berechnung durchgeführt wird, wobei a(n) der Gleichung (11) durch d(n) ersetzt wird. Als nächstes wird ein Pitch-Hervorhebungssignal d(n) gemäß der Gleichung (16) erhalten (in einem Schritt S1104). Es sei bemerkt, dass die Berechnung durchgeführt wird, wobei a(n) der Gleichung (16) durch d(n) ersetzt wird.
Schließlich wird ein Synthesefilter aus einem LPC-Koeffizienten gebildet, und das Pitch-Hervorhebungssignal b(n) wird durch das Synthesefilter geführt, um ein Pitch hervorgehobenes Eingangssignal e(n) zu erzeugen (in einem Schritt S1105).
wobei n = 0 bis L – 1 ist.
Das somit erhaltene Pitch-hervorgehobene Eingangssignal e(n) wird durch einen Codierer 200 codiert.
41 zeigt eine weitere Struktur des Pitch-Hervorhebungsabschnitts 100. Der Inhalt der Verarbeitung ist in 42 dargestellt. Diese Struktur wird durch Aufweisen einer Gain-Einstell-Berechnung gekennzeichnet. Diejenigen Komponenten von 41 und 42, auf die mit dem gleichen Bezugsnamen wie diejenigen von 39 und 40 Bezug genommen wird, weisen jedoch die gleichen Funktionen wie entsprechende Komponenten von 39 und 40 auf, und daher wird eine Erläuterung dieser Komponenten hier weggelassen. Da die Gain-Einstell-Berechnung bereits mit Bezug auf 37 erläutert wurde, wird außerdem deren Erläuterung hier weggelassen.
Obgleich eine Erläuterung eines Verfahrens zum Analysieren eines Voraussage-Restdifferenzsignals d(n) durchgeführt wurde, wenn eine Pitch-Zeitspanne und ein Pitch-Gain in einem Schritt S11 erhalten werden, ist es möglich, ein Eingangssignal a(n) zu analysieren und zu erhalten. Es ist jedoch bekannt, dass ein Voraussage-Restdifferenzsignal eine genauere Pitch-Analyse gewährleistet, da eine Kurzzeit-Korrelation von dem Voraussage-Restdifferenzsignal entfernt wird, und daher wird ein Verfahren zum Analysierens eines Voraussage-Restdifferenzsignals d(n) empfohlen.
Somit werden jeweils ein Pitch-Hervorhebungssignal b(n), ein Pitch-Hervorhebungssignal g(n) nach einer Gain-Einstellung, ein einer Pitch-Hervorhebung unterworfenes Eingangssignal e(n) und ein Pitch-hervorgehobenes Eingangssignal f(n) nach einer Gain-Einstellung in den Strukturen von 12, 37, 39 und 41 ausgegeben. Diese Ausgangssignale werden einem Codierabschnitt 200 zugeführt, und eine Codierverarbeitung wird durchgeführt. Ferner wird eine als Ergebnis einer Codierung durch den Codierabschnitt 200 erhaltene Indexinformation von einem Ausgangsanschluss 300 ausgegeben.
Der Codierabschnitt 200 kann eine Struktur eines CELP-Verfahrens annehmen, wie in dem in 13 gezeigten Blockdiagramm dargestellt ist. In dieser Figur wird ein, einer Pitch-Hervorhebung durch den Pitch-Hervorhebungsabschnitt 100 unterworfenes Eingangssignal a(n) über einen Eingangsanschluss 200 in Einheiten von Frames eingegeben. Ein Frame besteht aus L Signalabtastungen. Im allgemeinen wird L = 160 angenommen, wobei die Abtastfrequenz 8 kHz ist. Es sei bemerkt, dass vor einem Treibersignalvektor eine LPC-Analyse an einem einer Pitch-Hervorhebung unterworfenen Signal durch einen LPC-Analyseabschnitt 215 durchgeführt wird, wobei ein dadurch erhaltener LPC-Koeffizient durch einen LPC-Quantisierer 216 quantisiert wird, und der quantisierte LPC-Koeffizient αi (αi : i = 1, 2, ..., P) und ein Index (Anzahl) extrahiert werden. Der LPC-Koeffizient αi wird an ein LPC-Synthesefilter 213 geliefert. Es sei bemerkt, dass P eine Voraussage-Stufenanzahl ist, und im allgemeinen P = 10 verwendet wird. Eine Übertragungsfunktion für ein LPC-Synthesefilter 213 wird durch die folgende Gleichung (23) geliefert:
Als nächstes wird eine Erläuterung der Schritte zum Suchen nach einem optimalen Anregungssignalvektor während eines Synthetisieren eines Sprachsignals durchgeführt. Zuerst wird ein Einfluß auf ein aktuelles Frame eines internen Zustands des Synthesefilters 213 in einem vorhergehenden Frame von einem Sprachsignal-Frame, die in einen Eingangsanschluss 201 eingegeben wurden, durch eine Subtrahiervorrichtung 202 subtrahiert. Eine von der Subtrahiervorrichtung 202 erhaltene Signalfolge wird in vier Unter-Frames aufgeteilt, und bilden jeweils Zielsignalvektoren für die Unter-Frames.
Ein Treibersignal wird als ein Eingangssignal eines LPC-Synthesefilters 213 erhalten, indem ein Wert, der durch Multiplizieren mittels eines Multiplizierers 209 eines aus einem adaptiven Codebuch 207 ausgewählten adaptiven Vektors mit einem aus einem Gain-Codebuch 217 erhaltenen vorbestimmten Gain erhalten wird, mittels eines Addierers 212 zu einem Wert addiert wird, der durch Multiplizieren mittels eines Multiplizierers 210 eines aus einem Weiß-Rauschen-Codebuch 208 erhaltenen Rauschvektors mit einem aus einem Gain-Codebuch 218 erhaltenen vorbestimmten Gain erhalten wird.
Hier führt das adaptive Codebuch 207 eine in der vorbekannten Referenz 1 beschriebene Pitch-Voraussageanalyse durch einen Regelschleifenbetrieb oder Analyse durch Synthese durch, und deren Einzelheiten werden in W. B. Kleijin, D. J. Kransinski und R. H. Ketchum in "Improved Speech Quality and Efficient Vector Quantization in CEDLP", Proc. ICASSP, 1988, Seiten 155 bis 158, beschrieben (vorbekannte Referenz 2). Gemäß der Referenz 2 wird ein Treibersignal für das LPC-Synthesefilter 213 durch eine Verzögerungsschaltung 211 für einen Pitch-Suchbereich von a bis b um eine Abtastung verzögert (wobei a und b Abtastzahlen von Treibervektoren bezeichnen, d. h. a = 20 und b = 147), und ein adaptiver Vektor wird für die Pitch-Zeitspanne einer a–b Abtastung erstellt und in einem adaptiven Codebuch 207 gespeichert.
Um eine Suche nach einem optimalen adaptiven Vektor durchzuführen, werden Codewörter adaptiver Vektoren, die den jeweiligen Pitch-Zeitspannen entsprechen, aus dem adaptiven Codebuch 207 einer nach dem anderen ausgelesen und jeweils durch die von dem Multiplizierer 209 erhaltenen vorbestimmten Gains multipliziert. Eine Filterverarbeitung wird durch ein LPC-Synthesefilter 213 durchgeführt, und ein synthetisierter Signalvektor wird erzeugt. Der so erzeugte synthetisierte Signalvektor wird einer Subtrahierung bezüglich eines Zielvektors durch eine Subtrahiervorrichtung 203 unterworfen. Eine Ausgabe der Subtrahiervorrichtung 203 wird durch ein Hörgewichtungsfilter 204 an ein Fehlerberechnungsmittel 205 eingegeben, und ein durchschnittlicher quadratischer Fehler wird erhalten. Information hinsichtlich des durchschnittlichen quadratischen Fehlers wird ferner in eine minimale Entzerrungs-Suchschaltung 206 eingegeben, und der Minimalwert wird erfasst.
Die obigen Schritte werden an allen Kandidaten adaptiver Vektoren in dem adaptiven Codebuch 207 durchgeführt, und ein Index eines Kandidaten, der einen Minimalwert des durchschnittlichen quadratischen Fehlers in der minimalen Entzerrungs-Suchschaltung 206 wird erhalten. Der Index eines durch den Multiplizierer 209 zu multiplizierenden Gains wird bestimmt, um den durchschnittlichen quadratischen Fehler zu minimieren.
Der aus den obigen Schritten erhaltene adaptive Vektor wird mit einem Gain multipliziert, und ein synthetisierter Sprachsignalvektor wird durch eine Filterberechnung durch das LPC-Synthesefilter 213 erzeugt. Der so erzeugte Vektor wird von einem Zielvektor subtrahiert, wodurch ein Signal erhalten wird, das als ein Zielvektor verwendet wird, wenn nach einem Rest-Sprachvektor gesucht wird.
Als nächstes wird nach einem optimalen Rauschvektor auf eine ähnliche Art und Weise gesucht. Insbesondere werden Codewörter von Rauschvektoren aus dem Rauschcodebuch 208 einer nach dem anderen ausgelesen und einer Multiplikation mit einem von dem Gain-Codebuch 218 erhaltenen Gain durch den Multiplizierer 210 unterworfen, um eine Berechnung durch das LPC-Synthesefilter 213 zu filtern. Danach wird eine Erzeugung eines synthetisierten Sprachsignalvektors und eine Berechnung eines durchschnittlichen quadratischen Fehlers bezüglich eines Zielvektors an jedem Rauschvektor durchgeführt. Ein Index eines Rauschvektors und ein Index eines Gains, die einen Minimalwert des durchschnittlichen quadratischen Fehlers liefern, werden erhalten. Auf diese Art und Weise werden Indizes des adaptiven Codebuchs 207 und 208 und ein Index eines LPC-Koeffizienten α1 (i = i = 1, 2, ..., P) durch den LPC-Quantisierer erhalten, und Indizes von in die Multiplizierer 209 und 210 einzugebenen Gains werden jeweils von einem Index-Selektor 214 übertragen. Es sei bemerkt, dass das Hörgewichtungsfilter 204 verwendet wird, um ein Spektrum eines von einem Subtrahiervorrichtung 203 ausgegebenen Fehlersignals zu bilden, wodurch die von menschlichen Ohren erfasste Verzerrung verringert wird.
Wie oben beschrieben wurde, wird der Pitch eines Eingangssignals hervorgehoben, so dass das Signal viel leichter mit einem Treibersignalmodell übereinstimmt, das die Pitch-Information in Form eines adaptiven Codebuchs darstellt. Daher ist es möglich zu erklären, dass der Codierwirkungsgrad eines adaptiven Codebuchs und die subjektive Qualität synthetisierter Sprache verbessert wird.
Es sei bemerkt, dass das Codierschema nicht auf ein CELP-Verfahren beschränkt ist, sondern das andere Codierschemata ohne weiteres anwendbar sind.
20 ist ein Blockdiagramm, das einen Sprachcodierer zeigt, der ein CELP-Verfahren verwendet. Ein adaptiver Vektor wird von einem adaptiven Codebuch 401 mit einem Index eines von einem Codierer übertragenen adaptiven Vektors extrahiert, und ein Gain wird von einem Gain-Codebuch 410 auf der Grundlage eines von dem Codierabschnitt übertragenen Index decodiert. Der adaptive Vektor und der Gain werden einer Multiplikation durch einen Multiplizierer 402 unterworfen. Auf eine ähnliche Art und Weise wird ein Rauschvektor von einem Rauschcodebuch 407 extrahiert und mit einem von einem Gain-Codebuch 4101 decodierten Gain durch einen Multiplizierer 409 multipliziert.
Als nächstes werden diese Vektoren durch eine Addiervorrichtung 403 miteinander addiert, um einen Treibervektor zu erzeugen, der durch ein LPC-Synthesefilter 404 geführt wird, dessen Einstellung durch einen von einem Codierabschnitt übertragenen LPC-Koeffizienten durchgeführt wird, um dadurch ein Synthesesignal zu erzeugen. Um die subjektive Qualität des Synthesesignals zu verbessern, wird das Synthesesignal ferner durch ein Nachfilter 405 geführt, um eine synthetisierte Sprache zu erhalten, die durch einen Ausgangsanschluss 406 ausgegeben wird. Schließlich wird jedes Treibersignal um eine Abtastung verzögert und in dem adaptiven Codebuch 401 gespeichert, um für die nächste Verarbeitung bereit zu sein.
Bei der siebten Ausführungsform kann, obgleich die LPC-Analyse in dem Codierer 900 unter Verwendung eines Pitch hervorgehobenen Signals b(n) durchgeführt wird, die LPC-Analyse unter Verwendung eines Eingangssignals a(n) durchgeführt werden. In diesem Fall wird, wie in 27 gezeigt ist, ein Eingangssignal a(n) zusammen mit einem Pitch-hervorgehobenen Signal b(n) in den Codierabschnitt 200 eingegeben.
Ferner unterscheidet sich diese Ausführungsform von der 13 dadurch, dass die LPC-Analyse mit einem Eingangssignal a(n) durchgeführt wird, wie in 28 gezeigt ist. Ein Vorteil dieser Ausführungsform wird nachstehend mit Bezug auf 16, 17, 18 und 19 erläutert. 16 zeigt ein Spektrum eines Eingangssignals und 17 eine Spektrum-Einhüllende eines Eingangssignals und eine Spektrum-Feinstruktur. 18 zeigt ein Spektrum, wenn ein Eingangssignal einer Pitch-Hervorhebung unterworfen wird. 19 zeigt eine Spektrum-Einhüllende und eine Spektrum-Feinstruktur, wenn ein Eingangssignal einer Pitch-Hervorhebung unterworfen wird.
Im allgemeinen kann ein Kurzzeitspektrum von Sprache als ein Produkt einer Spektrum-Einhüllende, die phonemische Information ausdrückt, und einer Spektrum-Feinstruktur, die Pitch-Information ausdrückt, betrachtet werden. Ein LPC-Koeffizient drückt eine Spektrum-Einhüllende aus. Wenn eine LPC-Analyse bezüglich eines Pitch-hervorgehobenen Signals b(n) durchgeführt wird, wird eine Spektrum-Feinstruktur hervorgehoben, wie in 19 gezeigt ist, und daher wird ein Kurzzeitspektrum (18) in einigen Fällen stark von der Spektrum-Feinstruktur beeinflußt. Daher kann es Fälle geben, bei denen es schwierig ist, einen genauen LPC-Koeffizienten aus einem Signal zu extrahieren, das einer Pitch-Hervorhebung unterworfen wurde, wie es in 19 gezeigt ist, was zu einer Verschlechterung der subjektiven Qualität führt.
Im Gegensatz dazu wird gemäß dieser Ausführungsform ein Eingangssignal a(n) vor einer Pitch-Hervorhebung verwendet, um eine LPC-Analyse durchzuführen, und daher wird eine Kurzzeitspektrum eines in 16 gezeigten Eingangssignals nicht ohne weiteres von der Spektrum-Feinstruktur von 17 beeinflußt, so dass es möglich ist, einen LPC-Koeffizienten zu extrahieren, der ein wesentlich genaueres Spektrum ausdrückt, wie in 19 gezeigt ist.
Wenn der Pitch-Hervorhebungsabschnitt eine in 39 oder 41 gezeigte Struktur aufweist, führt der Pitch-Hervorhebungsabschnitt eine LPC-Analyse mit einem Signal a(n) durch, bevor es einer Pitch-Hervorhebung unterworfen wird, um einen LPC-Koeffizienten zu erhalten. Daher kann, wenn ein Codierabschnitt 900 mit einem LPC-Koeffizienten, der von dem Pitch-Hervorhebungsabschnitt erhalten wurde, zusammen mit einem Eingangssignal, das einer Pitch-Hervorhebung unterworfen wurde, beliefert wird, während der Codierer daran gehindert wird, eine erneute LPC-Analyse durchzuführen, ein genauer LPC-Koeffizient in dem Codierabschnitt verwendet werden, wie es oben erläutert wurde, und eine LPC-Analyse muss nicht von dem Codierabschnitt durchgeführt werden.
43 zeigt einen Pitch-Hervorhebungsabschnitt 110, der die Struktur von 39 aufweist, und der einen LPC-Koeffizienten zusammen mit einem Pitch-Hervorhebungssignal ausgibt. Ebenso zeigt 44 einen Pitch-Hervorhebungsabschnitt 110, der die Struktur von 41 aufweist und einen LPC-Koeffizienten zusammen mit einem Pitch-Hervorhebungssignal ausgibt. Außerdem ist die Struktur eines Codierers, der den Pitch-Hervorhebungsabschnitt 110 verwendet, als ein Codierabschnitt 910 in 45 gezeigt. 45 unterscheidet sich von 28 dadurch, dass keine LPC-Analyse durchgeführt wird. 46 zeigt eine Struktur, bei der der Pitch-Hervorhebungsabschnitt 110 mit dem Codierabschnitt 910 verbunden ist. Hinsichtlich eines von dem Pitch-Hervorhebungsabschnitt 110 ausgegebenen Signals, wird ein einer Pitch-Hervorhebung unterworfenes Eingangssignal e(n) ausgegeben, wenn die Struktur von 43 verwendet wird, wohingegen ein einer Pitch-Hervorhebung nach einer Gain-Einstellung unterworfenes Eingangssignal f(n) ausgegeben wird, wenn die Struktur von 44 verwendet wird. Außerdem wird ein LPC-Koeffizient, der durch eine LPC-Analyse erhalten wurde, immer ausgegeben.
Als nächstes zeigt 15 eine Sprachcodiervorrichtung gemäß einer achten Ausführungsform der Erfindung. Diejenigen Komponenten, auf die mit dem gleichen Bezugsnamen wie diejenigen der siebten Ausführungsform Bezug genommen wird, weisen die gleichen Funktionen wie diejenigen von 1 auf.
Der Unterschied zwischen dieser Ausführungsform und der siebten Ausführungsform besteht darin, dass eine Pitch-Analyse und eine Pitch-Hervorhebung mit einem Signal c(n) durchgeführt wird, das als Ergebnis eines Durchleitens eines Eingangssignals a(n) durch eine Rauschlöschvorrichtung 400 erhalten wird. Bei dieser Ausführungsform wird ein Eingangssignal a(n) durch eine Rauschlöschvorrichtung durchgeleitet, um Hintergrundrauschen zu dämpfen, so dass die Pitch-Zeitspanne und der Pitch-Gain durch einen Pitch-Analysator mit einer höheren Genauigkeit erhalten werden kann. Außerdem ist es möglich, wie es oben beschrieben ist, einen LPC-Koeffizienten zu extrahieren, der im wesentlichen eine genaue Spektrumform ausdrückt, und daher kann eine LPC-Analyse unter Verwendung eines durch die Rauschlöschvorrichtung 400 erhaltenen Signals c(n) durchgeführt werden, wie es in 29 gezeigt ist.
Nun wird eine Sprachcodiervorrichtung gemäß der neunten Ausführungsform der Erfindung mit Bezug auf 21 erläutert. Es sei bemerkt, dass diejenigen Komponenten von 21, auf die mit den gleichen Bezugsziffern wie diejenigen von 1 Bezug genommen wird, die gleichen Funktionen wie diejenigen von 11 aufweisen, und eine Erläuterung dieser Komponenten wird hier weggelassen.
Diese Ausführungsform unterscheidet sich von der siebten Ausführungsform dadurch, dass ein Bestimmungsabschnitt 500 bestimmt, ob ein Eingangssignal, dessen Pitch hervorgehoben wurde, codiert wird, oder ein Eingangssignal auf der Grundlage eines Eingangssignals a(n) direkt codiert wird. Auf der Grundlage eines Ergebnisses einer Bestimmung, die von dem Bestimmungsabschnitt 500 durchgeführt wurde, beliefert der Bestimmungsabschnitt 500 einen Schalter 510 mit einer Anweisung. Wenn alle Eingangssignale einer Pitch-Hervorhebung unterworfen werden, wie bei der obigen Ausführungsform beschrieben ist, kann der Pitch-Gain g sogar dann kaum 0 werden, wenn das Eingangssignal im wesentlichen keine Pitch-Information enthält, und daher werden Eingangssignale mit einer beliebigen Pitch-Zeitspanne T hervorgehoben. Als ein Ergebnis wird eine übermäßige Hervorhebung an einem Eingangssignal durchgeführt, und daher kann sich die subjektive Qualität verschlechtern. Außerdem kann, wenn ein mit Hintergrundrauschen gemischtes Eingangssignal geliefert wird, das Signal bei einer Pitch-Zeitspanne T' hervorgehoben werden, die sich von der Pitch-Zeitspanne T einer Sprache unter Einflüssen des Hintergrundrauschens unterscheidet. Dieses führt zu einer Verschlechterung der subjektiven Qualität. Dieses Problem wird ernster, wenn das gemischte Hintergrundrauschen eine intensive Periodizität aufweist. Unter Berücksichtigung dieses Problems werden Pitches nicht aller Eingangssignale bei der folgenden Ausführungsform hervorgehoben, sondern die folgende Ausführungsform ist derart angeordnet, dass eine bestimmte Bestimmungsbedingung vorbereitet wird, und dass eine Pitch-Hervorhebung nur durchgeführt wird, wenn die Bedingung erfüllt ist. Daher kann das obige Problem vermieden werden. Als ein Bestimmungsbezug dieser Ausführungsform gibt es ein Verfahren, bei dem Pitch-Hervorhebung nicht durchgeführt wird, wenn ein Eingangssignal nicht viel Pitch-Information enthält, z. B. hinsichtlich eines Nichttonabschnitts oder eines Nichtstimmenabschnitts, wohingegen eine Pitch-Hervorhebung durchgeführt wird, wenn ein Eingangssignal viel Pitch-Information enthält, z. B. hinsichtlich des Stimmenabschnitts. Als ein weiterer Bestimmungsbezug gibt es ein Verfahren, bei dem eine Pitch-Hervorhebung nicht durchgeführt wird, wenn die Hintergrundrauschleistung groß ist, wohingegen eine Pitch-Hervorhebung durchgeführt wird, wenn die Hintergrundrauschleistung klein ist. Ferner gibt es ein weiteres Verfahren, bei dem eine Pitch-Hervorhebung nicht durchgeführt wird, wenn periodisches Hintergrundrauschen in einem Eingangssignal gemischt ist, wohingegen eine Pitch-Hervorhebung durchgeführt wird, wenn ein nicht-periodisches Hintergrundrauschen in einem Eingangssignal gemischt ist. Nachfolgend werden drei Betriebsarten des Bestimmungsabschnitts 500 in 21 mit Bezug auf 23 bis 25 erläutert.
Zuerst wird eine Betriebsart des Bestimmungsabschnitts 500 mit Bezug auf 23 erläutert. Als ein Bestimmungsbezug dieser Ausführungsform wird eine Pitch-Hervorhebung nicht durchgeführt, wenn die Hintergrundrauschleistung groß ist, wohingegen eine Pitch-Hervorhebung durchgeführt wird, wenn die Hintergrundrauschleistung klein ist.
Ein Eingangssignal (Block) a(n) wird eingegeben, und die Hintergrundrauschleistung des Eingangssignals wird analysiert (in einem Schritt S601). Ferner wird, in einem Schritt S602, eine Bestimmung abhängig von dem Schwellenwert S der Hintergrundrauschleistung hinsichtlich dessen durchgeführt, ob ein durch Hervorheben des Pitch des Eingangssignals erhaltenes Pitch-Hervorhebungssignal b(n) codiert ist (in einem Schritt S603) oder das Eingangssignal a(n) direkt codiert ist. Insbesondere wird, wenn die Hintergrundrauschleistung größer als der Schwellenwert S ist (beispielsweise wird 20 dB bevorzugt) ein Schalter 510 angewiesen, ein Eingangssignal a(n) direkt zu codieren. Wenn die Hintergrundrauschleistung kleiner als der Schwellenwert S ist, wird der Schalter 510 angewiesen, ein Pitch-Hervorhebungssignal zu codieren, das durch Hervorheben des Pitch eines Eingangssignals erhalten wurde. Ob ein Pitch-Hervorhebungssignal codiert oder ein Eingangssignal a(n) direkt codiert wird, wird somit abhängig von dem Schwellenwert bestimmt, da Signalkomponenten, die das Hintergrundrauschen bilden, unerwünschterweise einer Pitch-Hervorhebung unterworfen werden, wenn der Schwellenwert S für die Hintergrundrauschleistung zu hoch ist, und folglich wird ein codiertes Signal, dessen Rauschkomponenten hervorgehoben werden und ein klares Hören desselben schwierig ist, von der Decodierseite decodiert.
Als nächstes wird eine weitere Betriebsart des Bestimmungsabschnitts 500 mit Bezug auf 24 erläutert. Als ein Bestimmungsbezug dieser Ausführungsform gibt es ein Verfahren, bei dem eine Pitch-Hervorhebung nicht durchgeführt wird, wenn ein periodisches Hintergrundrauschen in einem Eingangssignal gemischt ist, wohingegen eine Pitch-Hervorhebung durchgeführt wird, wenn ein nicht-periodisches Hintergrundrauschen in einem Eingangssignal gemischt ist.
Ein Eingangssignal (Block) a(n) wird eingegeben (in einem Schritt S701), und die Hintergrundrauschleistung des Eingangssignals wird analysiert (in einem Schritt S702). Ferner wird in einem Schritt S703 abhängig von dem Schwellenwert S der Hintergrundrauschleistung bestimmt, ob ein Eingangssignal direkt codiert ist (in einem Schritt S707), oder die Verarbeitung springt zu einem nächsten Schritt S704. Insbesondere wird ein Schalter 510 angewiesen (befohlen), ein Eingangssignal direkt zu codieren, wenn die Hintergrundrauschleistung größer als der Schwellenwert S ist (beispielsweise wird 20 dB bevorzugt). Wenn die Hintergrundrauschleistung kleiner als der Schwellenwert S ist, wird in dem Schritt S704 der Pitch-Gain der Hintergrundabschnitts analysiert, und das zu codierende Ziel wird abhängig davon umgeschaltet, ob der analysierte Pitch-Gain größer oder kleiner als ein Schwellenwert G' ist (in einem Schritt S705). Dies bedeutet, dass, wenn der Pitch-Gain größer als der Schwellenwert G' ist, der Schalter 510 angewiesen wird, ein Eingangssignal a(n) direkt zu codieren (in einem Schritt S707). Wenn der Pitch-Gain kleiner als der Schwellenwert G' ist, wird der Schalter 510 angewiesen, ein durch Hervorheben eines Eingangssignals erhaltenes Pitch-Hervorhebungssignal in Einheiten von einer Pitch-Zeitspanne zu codieren (in einem Schritt S707). Ob ein Pitch-Hervorhebungssignal codiert wird oder ein Eingangssignal a(n) direkt codiert wird, wird somit abhängig von dem Pitch-Gain des Hintergrundabschnitts bestimmt, da ein codiertes Signal, das etwas schwer zu hören ist, auf der Decodierseite decodiert wird, wenn eine Pitch-Hervorhebung durchgeführt wird, wenn die den Hintergrundabschnitt bildenden Signalkomponenten eine bestimmte Periodizität aufweisen.
Als nächstes wird eine Erläuterung einer weiteren Betriebsart des Bestimmungsabschnitts 500 mit Bezug auf 25 durchgeführt. Als ein Bestimmungsbezug dieser Ausführungsform gibt es ein Verfahren, bei dem eine Pitch-Hervorhebung nicht durchgeführt wird, wenn ein Eingangssignal nicht viel Pitch-Information aufweist, z. B. bezüglich einem Nicht-Ton-Abschnitts oder einem Nicht-Stimmen-Abschnitts, wohingegen eine Pitch-Hervorhebung durchgeführt wird, wenn ein Eingangssignal viel Pitch-Information aufweist, z. B. bezüglich eines Stimmenabschnitts.
Ein Eingangssignal (Block) a(n) wird eingegeben (in einem Schritt S801), und die Hintergrundrauschleistung des Eingangssignals wird analysiert (in einem Schritt S802). Ferner wird in einem Schritt S803 abhängig von dem Schwellenwert S des Hintergrundrauschens bestimmt, ob zu einem Schritt S805 oder zu einem Schritt S806 zu springen ist. Insbesondere wird eine Analyse des Pitch-Gains des anderen Abschnitts außer dem Hintergrundabschnitt durchgeführt, wenn die Hintergrundrauschleistung größer als der Schwellenwert S ist (beispielsweise wird 20 dB bevorzugt), wohingegen der Pitch-Gain des Hintergrundabschnitts in dem Schritt S804 analysiert wird, wenn die Hintergrundrauschleistung kleiner als der Schwellenwert S ist. Wenn der Pitch-Gain des anderen Abschnitts als des Hintergrundabschnitts kleiner als der Schwellenwert G' ist, wird der Schalter 510 angewiesen, ein Eingangssignal a(n) direkt zu codieren (in einem Schritt S8101). Wenn der Pitch-Gain größer als der Schwellenwert G'' ist, wird der Schalter angewiesen, ein Pitch-Hervorhebungssignal zu codieren, das durch Hervorheben des Pitch eines Eingangssignals erhalten wurde (in einem Schritt S812). Wenn der Pitch-Gain größer als der Schwellenwert G" als Ergebnis einer Analyse des Hintergrundabschnitts ist, wird unterdessen der Schalter 510 angewiesen, ein Eingangssignal a(n) direkt zu codieren (in einem Schritt S808). Wenn der Pitch-Gain kleiner als der Schwellenwert G" ist, wird der Schalter 510 angewiesen, ein durch Hervorheben eines Eingangssignals erhaltenes Pitch-Hervorhebungssignal in Einheiten einer Pitch-Zeitspanne zu codieren (in einem Schritt S810). Ob ein Pitch-Hervorhebungssignal B(n) codiert wird oder ein Eingangssignal a(n) direkt codiert wird, wird abhängig von den Pitch-Gains des Hintergrundabschnitts und des sich von dem Hintergrundabschnitts unterscheidenden Abschnitts bestimmt, da ein codiertes Signal, das etwas schwer zu hören ist, in der Decodierseite decodiert wird, wenn eine Pitch-Hervorhebung durchgeführt wird, wenn ein Hintergrundabschnitt eine konstante Periodizität aufweist.
Mit Bezug auf Sprache, bei der bereits erkannt wurde, dass sie im wesentlichen kein Hintergrundrauschen aufweist, gibt es außerdem ein Verfahren, bei dem die Pitch-Hervorhebung nicht durchgeführt wird, wenn nicht viel Pitch-Information in einem Eingangssignal enthalten ist, z. B. bezüglich eines Nicht-Tonabschnitts und eines Nicht-Stimmen-Abschnitts, wohingegen eine Pitch-Hervorhebung durchgeführt wird, wenn in einem Ausgangssignal viel Pitch-Information enthalten ist, z. B. bezüglich eines Sprachabschnitts. Dieses Verfahren wird mit Bezug auf 36 erläutert. Dieses Verfahren stellt dadurch einen Vorteil dar, dass Bestimmungsbedingungen abhängig von Hintergrundrauschen nicht notwendig sind, und dadurch, ob eine Pitch-Hervorhebung durchgeführt werden sollte oder nicht, durch viel einfachere Prozeduren bestimmt wird.
Ein Eingangssignal (Block) a(n) wird eingegeben (in einem Schritt 901), und die Leistung des Eingangssignals wird analysiert (in einem Schritt 902). Ferner wird abhängig von einem Schwellenwert S der Signalleitung in einem Schritt 903 bestimmt, ob zu einem Schritt 904 oder zu einem Schritt 906 zu springen ist. Insbesondere wird eine Pitch-Analyse des Eingangssignals durchgeführt, wenn die Hintergrundrauschleistung größer als der Schwellenwert S ist (beispielsweise wird 20 dB bevorzugt), wohingegen der Schalter 510 angewiesen wird, das Eingangssignal a(n) in einem Schritt 906 zu codieren, wenn die Hintergrundrauschleistung kleiner als der Schwellenwert S ist. Die Verarbeitung springt zu einem Schritt 907, wenn der in dem Schritt 904 erhaltene Pitch-Gain größer als ein Schwellenwert G' ist, wohingegen die Verarbeitung zu dem Schritt 906 springt, wenn der Pitch-Gain kleiner als der Schwellenwert G' ist. Dies bedeutet, dass der Schalter 510 angewiesen wird, ein Pitch-Hervorhebungssignal in dem Schritt 907 zu codieren, wenn der Pitch-Gain größer als der Schwellenwert G' ist, wohingegen der Schalter 510 angewiesen wird, das Eingangssignal a(n) zu codieren, wenn der Pitch-Gain kleiner als der Schwellenwert G' ist.
30 zeigt eine Struktur, bei der eine LPC-Analyse mit einem Eingangssignal a(n) durchgeführt wird, um einen LPC-Koeffizienten zu erhalten, der eine genaue Spektrum-Einhüllende auf der Grundlage der in 21 gezeigten Struktur ausdrückt.
Ferner zeigt 31 eine Struktur, bei der eine Rauschlöschvorrichtung mit der Struktur von 21 kombiniert ist, und 32 zeigt eine Struktur, bei der eine Rauschlöschvorrichtung mit der Struktur von 30 kombiniert ist.
Als nächstes wird eine Sprachcodiervorrichtung gemäß einer zehnten Ausführungsform der Erfindung mit Bezug auf 22 erläutert. Es sei bemerkt, dass diejenigen Komponenten von 22, auf die mit den gleichen Ziffern von 11 Bezug genommen wird, so definiert sind, dass sie die gleichen Funktionen wie diejenigen von 11 aufzuweisen, und ihre Erläuterung hier weggelassen wird.
Diese Ausführungsform unterscheidet sich von der neunten Ausführungsform dadurch, dass eine Bestimmung, ob ein durch Hervorheben des Pitch eines Eingangssignals erhaltenes Signal codiert wird oder ob ein Eingangssignal direkt codiert wird, von einem Bestimmungsabschnitt 520 abhängig von einem Signal von einem Pitch-Hervorhebungsabschnitt 100 durchgeführt wird.
Auf der Grundlage eines durch den Bestimmungsabschnitt 520 bestimmten Ergebnisses liefert der Bestimmungsabschnitt 520 eine Anweisung an den Schalter 510.
Ein Betrieb des Bestimmungsabschnitts 520 in 22 wird mit Bezug auf 26 erläutert. Ein durch einen Pitch-Analyseberechnungsabschnitt 101 erhaltener Pitch-Gain eines Pitch-Hervorhebungsabschnitts 100 wird eingegeben (in einem Schritt S813), und in einem Schritt S814 bestimmt der Pitch-Gain G abhängig von dem Schwellenwert S der Leistung, ob ein durch Hervorheben eines Eingangssignals erhaltenes Pitch-Hervorhebungssignal in Einheiten einer Pitch-Zeitspanne codiert ist (in einem Schritt S815) oder ein Eingangssignal a(n) direkt codiert ist (in einem Schritt S816).
33 zeigt eine Struktur, bei der eine LPC-Analyse mit einem Eingangssignal a(n) durchgeführt wird, um einen LPC-Koeffizienten zu erhalten, der eine genaue Spektrum-Einhüllende auf der Grundlage der in 22 gezeigten Struktur ausdrückt. Ferner zeigt 34 eine Struktur, bei der eine Rauschlöschvorrichtung mit der Struktur von 22 kombiniert ist, und 35 zeigt eine Struktur, bei der eine Rauschlöschvorrichtung mit der Struktur von 35 kombiniert ist.
Die folgenden 47 bis 51 zeigen Strukturen, bei denen eine Rauschlöschvorrichtung 500 mit einem Bestimmungsabschnitt 500 oder 520 auf der Basis eines Pitch-Hervorhebungsabschnitts 110 und eines Codierabschnitt 910 kombiniert ist.
47 zeigt eine Struktur, bei der eine Rauschlöschvorrichtung 400 mit der Struktur von 46 kombiniert ist.
48 zeigt eine auf 46 basierende Struktur, bei der ein Bestimmungsabschnitt 500 bestimmt, ob ein Eingangssignal analysiert und ein Ausgangssignal eines Pitch-Hervorhebungsabschnitts 110 durch einen Codierabschnitt 910 codiert wird, oder ein Eingangssignal durch einen Codierabschnitt 910 codiert wird. Ein Schalter 530 gibt ein von dem Pitch-Hervorhebungsabschnitt 110 ausgegebenes Pitch-Hervorhebungssignal oder ein Eingangssignal auf der Basis des Bestimmungsergebnisses von dem Bestimmungsabschnitt 500 aus. Außerdem wird ein von dem Pitch-Hervorhebungsabschnitt 110 ausgegebener LPC-Koeffizient immer von einem Schalter 530 ausgegeben und an einen Codierabschnitt 910 geliefert.
49 zeigt eine Struktur, bei der eine Rauschlöschvorrichtung mit 48 kombiniert ist. 50 zeigt eine im wesentlichen der 48 äquivalente Struktur, ausgenommen darin, dass ein von dem Bestimmungsabschnitt 520 analysiertes Signal ein Pitch-Hervorhebungssignal als eine Ausgabe von der Pitch-Hervorhebungsabschnitt 110 ist. 51 zeigt eine Struktur, bei der eine Rauschlöschvorrichtung 400 mit der Struktur von 50 kombiniert ist.
Wie oben erläutert wurde, wird gemäß der Sprachcodiervorrichtung der Erfindung eine Pitch-Hervorhebung vor einem Codieren eines Eingangssignals durchgeführt, und daher kann eine ausreichende Pitch-Information auf der Seite eines Decodierers sogar dann erhalten werden, wenn eine Pitch-Information bis zu einem gewissen Grad während der Codierprozeduren verloren geht, so dass eine subjektive Qualität verbessert wird.
Als nächstes wird eine Speicher/Transfervorrichtung für codierte Daten gemäß einer siebzehnten Ausführungsform mit Bezug auf die Zeichnungen erläutert.
Die in 52 gezeigte Speicher/Transfervorrichtung umfasst einen Empfangsabschnitt 1110 zum Empfangen transferierter codierter Daten, einen Prozessor 1120 zum Verarbeiten so empfangener codierter Daten, einen Kompressions-Codierer/Decodierer 1130 zum Expandieren eines Kompressionscodes der so verarbeiteten codierten Daten (d. h.
zum Freigeben einer Kompression derselben) und zum Decodieren der codierten Daten, um reproduzierte Daten zu erzeugen, einen Ausgabeabschnitt 1140 zum Ausgeben der reproduzierten Daten, einen Controller 1151 zum Entfernen von zum Speichern /Transferieren unnötiger Daten und zum Steuern von Schreiben /Speichern und Lesen von codierten Daten, zu denen notwendige Daten hinzugefügt sind, einen Schreibabschnitt 1152 zum Durchführen von Schreiben von codierten Daten zum Speichern/Transferieren, und einen Leseabschnitt 1154 zum Lesen gespeicherter codierter Daten auf der Grundlage einer Steuerung durch den Controller 1151, wenn ein Lesen codierter Daten notwendig ist.
Daten, die von einer die obige Struktur aufweisende Speicher/Transfer-Vorrichtung für codierte Daten behandelt werden, werden nachstehend aufgeteilt bezüglich eines Falls zum Speichern von Daten und eines Falls zum Reproduzieren von Daten erläutert.
Beim Speichern von Daten werden empfangene Daten 1011 an einen Empfangsabschnitt 1110 gesendet und dadurch in Transferpfad-Codierdaten 1012 umgewandelt, die einen Transferpfadcode aufweisen. Die Transferpfad-Codierdaten 1012 werden in einem Datenprozessor 1120 gesendet, wobei ein Transferpfadcode decodiert wird und eine Datenlöschung durch einen Transferpfadcode-Decodierer 1122 und einen Datenlöschabschnitt 1121 durchgeführt wird, die den Datenprozessor 1120 bilden. Die Daten werden dann als Kompressions-Codierdaten 1013 ausgegeben. Insbesondere wird, wie in dem Ablaufdiagramm von 53 gezeigt ist, ein in den Transferpfad-Codierdaten aufgenommener Transferpfadcode nach dem Start des Diagramms decodiert (in einem Schritt S1501), und dann werden unnötige Daten aus den Daten gelöscht (in einem Schritt S1502). Danach werden den Daten nach der Löschverarbeitung ein Fehlerkorrekturcode hinzugefügt, womit die Verarbeitung in dem Datenprozessor 1120 beendet ist. Um die obige Datenverarbeitung genauer zu erläutern, wird ein Transferpfadcode durch einen Transferpfadcodierer codiert, wie es in 54 gezeigt ist, und decodierte Daten, aus denen ein Fehlerkorrekturcode gelöscht ist, wie es ebenfalls in dieser Figur gezeigt ist, werden dadurch gebildet. Diese Daten weisen unnötige Daten auf, und die unnötigen Daten werden von dem Datenlöschabschnitt 1121 gelöscht, wohingegen decodierte Daten, die nur die notwendigen Daten aufweisen, von dem Datenlöschabschnitt 1121 ausgegeben werden. Diese decodierten Daten werden in einen Fehlerkorrekturcode-Addierer 1123 eingegeben, und ein Fehlerkorrekturcode wird den decodierten Daten hinzugefügt. Auf diese Art und Weise werden decodierte Daten der verarbeiteten Transferpfad-Codierdaten als Kompressions-Codierdaten 1013 von dem Fehlerkorrekturcode-Addierer 1123 ausgegeben.
Die Kompressions-Codierdaten 1013 von dem Datenprozessor 1120 werden in einem Aufzeichnungsmedium 1153 durch einen Schreibabschnitt 1152 gemäß einer Anweisung von dem Controller 1151 gespeichert. Beim Reproduzieren von Daten werden in dem Aufzeichnungsmedium 1153 gespeicherte Kompressions-Codierdaten, bei denen mindestens der Transferpfadcode gelöscht wurde, von dem Leseabschnitt 1154 ausgelesen und durch einen Kompressions-Code-Decodierer 1130 decodiert, so dass die Daten als reproduzierte Daten 1015 an einen Anwender durch einen Ausgabeabschnitt 1140 geliefert werden.
Wie oben erläutert wurde, werden Transferpfad-Codierdaten 1012 von dem Empfangsabschnitt 1110 ausgegeben, und die Transferpfad-Codierdaten 1012 werden einer Kompressionscodierung von Daten, wie beispielsweise Sprache und Bilder auf der Seite eines Empfängers unterworfen. Danach werden den Transferpfad-Codierdaten ein Fehlererfassungscode, ein Fehlerkorrekturcode und eine Verschachtelung hinzugefügt. Bei dem in dem Datenprozessor 1120 enthaltenen Transferpfadcode-Decodierer 1127 wird eine Entverschachtelung, eine Fehlerkorrektur-Decodierung und eine Fehlererfassungs-Decodierung durchgeführt, und das Ergebnis wird als Kompressions-Codierdaten ausgegeben. Bei dieser Stufe werden abhängig von dem Schema des Transferpfadcodierens ein Fehlererfassungsbit, das das Ergebnis einer Fehlerfassung angibt, in einigen Fällen unabhängig von den Kompressions-Codierdaten ausgegeben. In dem Fall, bei dem ein Fehlererfassungsbit ausgegeben wird, wird ein System vorgesehen, bei dem das Fehlererfassungsbit von dem Kompressions-Code-Decodierer 1130 überwacht wird, und eine Kompensationsverarbeitung wird durchgeführt, wenn ein Fehler erfasst wird, so dass die Qualität von Reproduktionsdaten 1015 nicht verschlechtert wird.
Hinsichtlich eines Verfahrens zum Speichern des Fehlererfassungsbits können zwei Verfahren vorgeschlagen werden. Das erste Verfahren ist ein Verfahren zum Speichern eines Fehlererfassungsbits zusammen mit den Kompressions-Codierdaten 1013. Das zweite Verfahren ist ein Verfahren eines Speicherns von Kompressions-Codierdaten 1013 nachdem eine Kompensationsverarbeitung auf der Grundlage eines Fehlererfassungsbits durchgeführt wurde. Bei dem zweiten Verfahren ist es möglich, wenn eine Reproduzierungsvorrichtung 1202 getrennt vorgesehen ist, Reproduktionsdaten 1024 zu erhalten, die im wesentlichen denjenigen gleichwertig sind, die erhalten werden, indem eine Kompensationsverarbeitung ohne Vorsehen des Kompressions-Code-Decodierers 1280 mit einer Funktion eines Durchführens einer Kompensationsverarbeitung durchgeführt wird. Abhängig von dem Kompensationsverfahren ist es jedoch notwendig, eine Kompensation, wie beispielsweise eine Interpolations verarbeitung für Reproduktionsdaten 1226, durchzuführen. Da in diesem Fall Reproduktionsdaten 1226 zusätzlich zu den Kompressions-Codierdaten 1223 für eine Kompensationsverarbeitung notwendig sind, ist es prinzipiell unmöglich, eine Kompensation nur durch Betreiben von Kompressions-Codierdaten 1223 durchzuführen, so dass das zweite Verfahren nicht verwendet werden kann.
Bei einigen Fällen wird ein unnötiger Abschnitt der durch den Transfer-Code-Decodierer 1222 decodierten Daten von dem im Datenprozessor 1220 enthaltenen Datenlöschabschnitt 1221 gelöscht. Dies ist so, da beispielsweise bezüglich der Kompressions-Codierdaten, die einer geschichteten Codierung (layered coding) oder dergleichen unterworfen sind, alle Kompressions-Codierdaten 1213 abhängig von der Auflösung einer zu verwendenden Reproduktionsvorrichtung in einigen Fällen nicht gespeichert/transferiert werden müssen. Ein weiteres Beispiel ist ein Fall eines Aufzeichnens von Sprachdaten, wie beispielsweise der Inhalt eines Telefongesprächs. In diesem Fall wird die ursprüngliche Aufgabe des Aufzeichnens des Inhalts eines Telefongesprächs sogar dann nicht beeinflußt, wenn eine Nicht-Ton-Zeitspanne oder eine Hintergrundrauschzeitspanne gelöscht wird. Außerdem werden in einem Fehlerkorrektur-Codier-Addierer 1223 durch einen Transferpfadcode-Decodierer 1222 decodierte Daten mit einem Fehlerkorrektur-Code einer kleinen Größe hinzugefügt. Dies ist so, da ein kleiner Fehler beim Speichern oder Transferieren von Daten auftreten kann, und daher können Daten geschützt werden, ohne die Datenmenge und die Berechnungsmenge beim Reproduzieren der Daten wesentlich zu beeinflussen, indem ein einfacher Fehlerkorrektur-Code hinzugefügt wird, obgleich der so hinzugefügte einfache Fehlerkorrektur-Code kein Erfassungs-Code oder Korrektur-Code von einer solchen großen Größe aufweist, wie sie der Transferpfadcode aufweist.
Der Transfer-Code-Decodierer 1222, der Datenlöschabschnitt 1221 und der Fehlerkorrektur-Code-Addierer 1223 können verschiedene Beziehungen untereinander aufweisen. Es gibt einen Fall, bei dem die Datenlöschung nach dem Decodieren eines Transferpfadcodes durchgeführt wird, wie es oben beschrieben ist. Andererseits kann eine Transferpfadcode-Decodierung nach der Datenlöschung durchgeführt werden. Außerdem gibt es einen Fall, bei dem der Fehlerkorrektur-Code-Addierer Daten sofort nach einem Transferpfadcode-Decodieren behandelt, und in einem weiteren Fall, in dem der Fehlerkorrektur-Code-Addierer Daten, die einmal einer Datenlöschung unterworfen wurden, behandelt. Außerdem gibt es einen Fall, bei dem die Datenlöschung oder die Hinzufügung eines Fehlerkorrektur-Codes nicht durchgeführt wird. Die Beziehung zwischen diesen drei Komponenten kann daher abhängig von dem Kompressions-Decodierschema, dem Transferpfad-Codierschema, den Spezifikationen der Speicher/Transfervorrichtung und der Reproduktionsvorrichtung bestimmt werden.
Die so erhaltenen Kompressions-Codierdaten 1213 (die manchmal einen Fehlererfassungsbit aufweisen) werden in ein Speichermedium 1253 durch einen Schreibabschnitt 1252 gemäß einer Anweisung vom Steuerabschnitt 1251 geschrieben. Ein Halbleiterspeicher, eine Magnetplatte, eine IC-Karte oder dergleichen können als das Speichermedium 1253 verwendet werden. Wenn die Kompressions-Codierdaten 1213 gleichzeitig an den Kompressions-Code-Decodierer 1230 geliefert werden, ist es außerdem möglich, die einem Speichervorgang unterzogenen Daten zu decodieren und die Daten für einen Anwender durch den Ausgabeabschnitt 1240 zu liefern. Beim Reproduzieren von Daten werden gespeicherte Daten als Kompressions-Codierdaten 1014 durch einen Leseabschnitt 1254 ausgegeben und durch den Kompressions-Code-Decodierabschnitt 1230 decodiert. Danach werden die Daten an einen Anwender durch den Ausgabeabschnitt 1240 geliefert.
Vorteile einer Speicher/Transfervorrichtung, die die obige Struktur verwendet, wird mit Bezug auf verschiedene Beispiele erläutert. Im Fall eines standardmäßigen Sprach-Codierschemas eines digitalen tragbaren Telefons werden die Kompressions-Codierdaten mit 3,45 Kbps, wie oben beschrieben, und die Transferpfad-Codierdaten mit 5,6 Kbps übertragen. Wenn der Gesprächsinhalt auf der Empfängerseite mit einem Speichermedium mit einem 1-Mbyte-Halbleiterspeicher gespeichert wird, werden nur Daten, die etwa 24 Minuten entsprechen, gemäß einem herkömmlichen Verfahren eines Speicherns von Transferpfad-Codierdaten aufgezeichnet. Bei diesem Fall kann jedoch eine Aufzeichnung von etwa 38 Minuten einschließlich Fehlererfassungsbits gemäß der elften Ausführungsform der Erfindung verwirklicht werden, wobei der Datenprozessor nur ein Transferpfad-Decodiermittel aufweist, und diese Aufzeichnungszeit ist um 14 Minuten länger als beim herkömmliche Verfahren. Hinsichtlich der Berechnungsmengen auf der Empfängerseite ist die Berechnungsmenge des Transferpfadcode-Decodierers außerdem zwei- oder dreimal größer als die Berechnungsmenge des Kompressions-Code-Decodierers. Daher kann eine Reproduktion gemäß dieser Ausführungsform mit einer Berechnungsmenge von 1/3 bis 1/4 einer herkömmlichen Speicher/Transfervorrichtung erreicht werden, so dass ein entsprechender elektrischer Leistungsverbrauch eingespart werden kann, wodurch die Lebensdauer der Batterie verlängert wird.
55 zeigt ein Blockdiagramm, das die Struktur einer Speicher/Transfervorrichtung zum Codieren von Daten gemäß einer achtzehnten Ausführungsform der Erfindung zeigt, Diese zwölfte Ausführungsform schränkt die Verarbeitungsprozeduren eines Datenprozessors bei der in 52 gezeigten siebzehnten Ausführungsform ein. Transferpfadcodedaten 1012 werden durch einen Transferpfadcode-Decodierer 1222 decodiert und danach ein Fehlerkorrektur-Code durch einen Fehlerkorrektur-Code-Addierer 1223 hinzugefügt.
Ein Speicher/Transfersystem, bei dem Daten in einem Speichermedium, wie beispielsweise einer Festplatte oder einem Halbleiterspeicher, gespeichert/transferiert werden, kann ein Auftreten eines Bitfehlers nicht verhindern, obgleich diese Art von System eine niedrigere Wahrscheinlichkeit eines Auftretens im Vergleich mit einem Übertragungssystem erreicht. Obgleich die Wahrscheinlichkeit eines Auftretens eines Bitfehlers somit in einem Speicher/Transfersystem niedriger ist, kann ein Auftreten eines Bitfehlers nicht vernachlässigt werden, um die gespeicherten Lesedaten richtig zu lesen. Gemäß der Struktur dieser achtzehnten Ausführungsform wird ein Fehlerkorrektur-Code kleiner Größe zum Schützen von Daten vor einem leichten Fehler, der in einem Speicher/Transfersystem auftreten kann, hinzugefügt, nachdem ein Transferpfadcode zum Schützen von Daten vor einem schweren Codefehler, die in einem Transferpfad auftreten können, entfernt wurde, und folglich können Daten von einem Fehler in einem Speicher/ Transfersystem geschützt werden, wobei die erforderlichen Bits nur minimal erhöht werden.
Außerdem kann eine Erhöhung der Anzahl von Bits eingeschränkt werden, so dass sie viel kleiner ist, indem eine Codeoptimierung für die Merkmale eines Speicher/Transfersystems verwendet wird, wenn ein Fehlerkorrektur-Code hinzugefügt wird.
56 zeigt ein Blockdiagramm, das die Struktur einer Speicher/Transfervorrichtung für codierte Daten gemäß der neunzehnten Ausführungsform der Erfindung hinsichtlich der Beziehung zu einer Übertragungsvorrichtung zeigt. Die Struktur und der Betrieb einer Speicher/Transfervorrichtung für codierte Daten sind die gleichen wie diejenigen der in 52 gezeigten siebzehnten Ausführungsform. 56 offenbart eine spezifische Struktur der Übertragungsvorrichtung zum Übertragen von Eingangsdaten eines Empfangsabschnitts 1110 der Speicher/Transfervorrichtung. In dieser Figur umfasst die Übertragungsvorrichtung einen Transfercode-Addierer 1410 zum Addieren eines Transferpfadcodes zu den zu übertragenden Daten, einen Speicherabschnitt 1420 zum Speichern der zu übertragenden Daten und einen Übertragungsabschnitt 1430 zum Übertragen von Kompressions-Codierdaten zum Transferpfad, denen ein Transferpfadcode hinzugefügt wurde.
Die in 56 gezeigte Speicher/Transfervorrichtung für codierte Daten gemäß der neunzehnten Ausführungsform ist mit einem Transferpfadcode-Addierer 1410 zum Schützen von Daten vor dem Auftreten eines großen Fehlers in einem Transferpfad versehen und sie wird gleichzeitig mit einem Datenprozessor 1220 versehen, um so dem Addierer 1410 über dem Transferpfad zu entsprechen. Auf der Übertragungsseite fügt der Transferpfadcode-Addierer 1410 einen Transferpfadcode vor einem Übertragen hinzu und überträgt dann Daten, um die Daten im Transferpfad zu schützen. Auf der Empfängerseite decodiert der Datenprozessor 1220 den Transferpfadcode teilweise, wobei nur ein Fehlerkorrektur-Code zum Speichern und Transferieren übrigbleibt und entfernt wird, wodurch die zu speichernde und transferierende Datenmenge verringert wird. Folglich wird ein Vorteil dadurch erreicht, dass Daten zum Speichern und Transferieren ohne Addieren irgendeines neuen Fehlerkorrektur-Codes erhalten werden. Außerdem kann beispielsweise, wenn eine Mehrzahl von Arten von hinzuzu fügenden Transferpfadcodes in der Addiervorrichtung 1410 auf der Übertragungsseite in Übereinstimmung mit der Struktur eines Speichersystems, wie beispielsweise der Art einer Speicherung, erstellt werden, der Speicherwirkungsgrad des Speicher/Transfersystems sehr stark verbessert werden.
57A und 57B sind Blockdiagramme, die eine Bezugsstruktur zwischen einer Speicher/Transfervorrichtung und einer Reproduktionsvorrichtung für codierte Daten gemäß der zwanzigsten Ausführungsform der Erfindung zeigen. Diese Ausführungsform unterscheidet sich von der elften Ausführungsform dadurch, dass eine Reproduktionsvorrichtung 1202 unabhängig von einer Speichervorrichtung 1201 vorgesehen ist. In der Speichervorrichtung 1201 werden von einem Datenprozessor 1220 ausgegebene Kompressionsdaten 1023 in einem Speichermedium 1263 durch einen Schreibabschnitt 1262 gemäß einer Anweisung eines Controllers 1261 gespeichert. In der Reproduktionsvorrichtung 1202 werden im Speichermedium 1271 gespeicherte Daten aus dem Leseabschnitt 1272 ausgelesen und als Kompressions-Codierdaten 1025 ausgegeben, die vom Kompressions-Code-Decodierer 1280 decodiert und als Reproduktionsdaten 1026 durch einen Ausgabeabschnitt 1290 an einen Anwender geliefert werden. Bei einem herkömmlichen Verfahren, bei dem ein Transferpfadcode-Decodierer 1222 im Speichermedium 1263 gespeichert ist, verlangt die Reproduktionsvorrichtung 1202 einen Transferpfadcode-Decodierer 1222 und einen Kompressions-Code-Decodierer 1280. Gemäß der Struktur diese zwanzigsten Ausführungsform erfordert unterdessen die Reproduktionsvorrichtung 1202 keinen Transferpfadcode-Decodierer 1222 und daher ist es möglich, die Schaltkreisgröße der Reproduktionsvorrichtung 1202 zu verringern oder den elektrischen Leistungsverbrauch einzusparen.
58A und 58B sind Blockdiagramme, die Bezugsstrukturen einer Speicher/Transfervorrichtung für codierte baten gemäß der einundzwanzigsten Ausführungsform der Erfindung und eine damit verbundene Reproduktionsvorrichtung zeigen. Die fünfzehnte Ausführungsform unterscheidet sich von der vierzehnten Ausführungsform dadurch, dass die Transfervorrichtung 1301 einen Transferabschnitt 1342 anstelle eines Schreibabschnitts 1262 und eines Speichermediums 1263 umfasst, sowie dadurch, dass die Reproduktionsvorrichtung 1302 einen Empfangsabschnitt 1350 anstelle eines Leseabschnitts 1272 und eines Speichermediums 1271 umfasst. Von einem Datenprozessor 1320 ausgegebene Kompressions-Codierdaten werden an einen Transferpfad durch den Transferabschnitt 1342 ausgegeben. Die Reproduktionsvorrichtung 1302 empfängt die transferierten Daten 1335 mittels des Empfangsabschnitts 1350 und decodiert die Daten mittels des Kompressions-Code-Decodierers 1360. Danach werden die decodierten Daten an einen Anwender durch einen Ausgabeabschnitt 1370 geliefert. Bei der fünfzehnten Ausführungsform würde es vorteilhafter sein, eine Anordnung zu machen, bei der ein einfacher Fehlerkorrektur-Code durch einen Fehlerkorrektur-Code-Addierer 1323 den vom Transferpfadcode-Decodierer 1322 decodierten Daten hinzugefügt wird, um Daten vor einem Fehler zu schützen, wenn Daten transferiert werden. Ferner muss im Fall, bei dem Daten an eine Anzahl von Reproduktionsvorrichtungen 1302 durch ein Netzwerk oder dergleichen transferiert werden, die Reproduktionsvorrichtung 1302 dieser fünfzehnten Ausführungsform nicht mit einem Transferpfadcode-Decodierer 1322 versehen werden, und daher ist es möglich, die Schaltkreisgröße oder den elektrischen Leistungsverbrauch zu verringern. Folglich ist es möglich, die Kosten für die Reproduktionsvorrichtung 1302 zu senken, so dass eine Anzahl von Reproduktionsvorrichtungen 1302 mit einem niedrigen Preis verwendet werden können.
Wie oben erläutert wurde, wird gemäß den Ausführungsformen der Erfindung, wenn transferierte codierte Daten, denen ein Transferpfadcode durch ein Sendesystem hinzugefügt wurde, in einem Speichermittel in einem Empfängersystem gespeichert/transferiert werden, ein Transferpfadcode oder dergleichen, der zum Speichern und Transferieren unnötig ist, decodiert, wodurch eine Datenlöschung bezüglich der empfangenen codierten Daten durchgeführt und ein Fehlerkorrektur-Code einer kleinen Größe zum Verhindern eines Ausfalls von Daten während des Speicherns/Transferierens den Daten hinzugefügt wird. Danach werden codierte Daten in einem Speichersystem gespeichert oder an ein Transfersystem transferiert. Auf diese Art und Weise wird eine wirksame Speicherung/Transferierung verwirklicht, und der Anwendungswirkungsgrad eines Speichermediums und eines Transferpfads kann verbessert werden, wodurch ein Vorteil dahingehend erreicht wird, dass die Schaltkreisgröße der Reproduktionsvorrichtung und der elektrische Leistungsverbrauch der Reproduktionsvorrichtung verringert wird.

Claims

Speicher/Übertragungsvorrichtung mit: einem Empfangsmittel (1110) zum Empfangen codierter Daten, an die ein Übertragungscode angehängt ist; einem Decodiermittel (1122) zum Decodieren der codierten Daten; einem Datenlöschmittel (1121), um aus den decodierten Daten den Übertragungscode zu löschen, der zum Übertragen von Daten nicht notwendig ist, um komprimierte codierte Daten zu erzeugen; einem Codebedienungsmittel (1123) zum Bedienen von Codes einschließlich eines Fehlerkorrekturcodes, die zum Speichern und Übertragen von Daten an die komprimierten codierten Daten notwendig sind, um Kompressionscodierdaten zu erzeugen; und Speicher- und Übertragungsmittel (1151 bis 1154) zum Speichern und Übertragen der Kompressionscodierdaten.
Vorrichtung gemäß Anspruch 1, dadurch gekennzeichnet, dass das Codebedienungsmittel (1123) Mittel zum Bedienen eines Korrekturcodes für kleinere Fehler bedeutenden an den codierten Daten umfasst, aus denen der Übertragungscode gelöscht ist, um die codierten Daten vor einem während des Speicherns und Übertragens auftretenden kleineren Fehler zu schützen.
Vorrichtung gemäß einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, dass das Decodiermittel (1122) eine Entverschachtelung, Fehlerkorrekturdecodierung und Fehlererfassungsdecodierung durchführt.
Vorrichtung gemäß einem der Ansprüche 1 oder 2, gekennzeichnet durch ein Kompressionscode-Decodierer (1130), um unabhängig von den komprimierten codierten Daten eine Kompensationsverarbeitung durchzuführen, wenn das Decodiermittel (1122) ein ein Ergebnis einer Fehlerdetektion angebendes Fehlererfassungsbit ausgibt.
Vorrichtung gemäß einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, dass das Speicher- und Übertragungsmittel (1151 bis 1154) das Fehlererfassungsbit sowie die komprimierten codierten Daten speichert.
Vorrichtung gemäß einem der Ansprüche 1 oder 2, gekennzeichnet durch einen Übertragungswegcodeaddierer (1410) zum Schützen von Daten gegen das Auftreten eines großen Fehlers in einem Übertragungsweg.
Vorrichtung gemäß Anspruch 6, dadurch gekennzeichnet, dass in einer Senderseite der Übertragungswegcodeaddierer (1410) ein Übertragungswegcode vor dem Senden addiert und dann Daten überträgt, um Daten in dem Übertragungsweg zu schützen, und in einer Empfängerseite das Decodiermittel (1122) den Übertragungswegcode teilweise decodiert, wobei nur ein Fehlerkorrekturcode zum Speichern und Übertragen zurückgelassen und entfernt wird.