DE69023402T2 - Verfahren zur Sprachkodierung und -dekodierung. - Google Patents
Verfahren zur Sprachkodierung und -dekodierung.Info
- Publication number
- DE69023402T2 DE69023402T2 DE69023402T DE69023402T DE69023402T2 DE 69023402 T2 DE69023402 T2 DE 69023402T2 DE 69023402 T DE69023402 T DE 69023402T DE 69023402 T DE69023402 T DE 69023402T DE 69023402 T2 DE69023402 T2 DE 69023402T2
- Authority
- DE
- Germany
- Prior art keywords
- pitch
- sound source
- signal
- source signal
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 42
- 238000012937 correction Methods 0.000 claims description 35
- 239000013598 vector Substances 0.000 claims description 21
- 238000001228 spectrum Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 description 9
- 230000004044 response Effects 0.000 description 9
- 230000002194 synthesizing effect Effects 0.000 description 9
- 238000005314 correlation function Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000005311 autocorrelation function Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000013139 quantization Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Description
- Die vorliegende Erfindung betrifft ein Verfahren zur Sprachkodierung und -dekodierung zum Kodieren eines Sprachsignals mit hoher Qualität bei einer niedrigen Bitrate, insbesondere bei 4,8 kb/s oder weniger, durch einen verhältnismäßig kleinen Verarbeitungsaufwand.
- Als Verfahren zum Kodieren eines Sprachsignals bei einer niedrigen Bitrate von ungefähr 4,8 kb/s oder weniger sind Sprachkodierungsverfahren bekannt, die beispielsweise in der JP-A-58100/90 (Referenz 1) und in M. Schroeder und B. Atal, "Code-excited linear prediction: High quality speech at very low bit rates," ICASSP, pp. 937-940, 1985 (Referenz 2) offenbart sind.
- Nach dem Verfahren in Referenz 1 werden auf der Senderseite ein Spektrumparameter, der die Spektrumcharakteristik eines Sprachsignals repräsentiert, und ein Tonhöhenparameter, der dessen Tonhöhe repräsentiert, aus einem Sprachsignal jedes Rahmens extrahiert. Sprachsignale werden in mehrere Signaltypen (z.B. Vokal-, Explosiv-, Reibelautsignal) unter Verwendung von akustischen Merkmalen klassifiziert. Ein Ein-Rahmen- Lautquellesignal in einem Vokallautintervall wird durch eine verbesserte Tonhöheninterpolation auffolgende Weise dargestellt. Eine Signalkomponente in einem Tonhöhenintervall (repräsentatives Intervall) von mehreren Tonhöhenintervallen, die durch Unterteilung eines Rahmens erhalten werden, wird durch einen Mehrfachpuls dargestellt. In anderen Tonhöhenintervallen im gleichen Rahmen werden Amplituden- und Phasenkorrekturkoeffizienten zum Korrigieren der Amplitude und Phase des Mehrfachpulses in dem repräsentativen Intervall in Einheiten des Tonhöhenintervalls gewonnen. Anschließend werden die Amplitude und die Lage des Mehrfachpulses in dem repräsentativen Intervall, die Amplituden- und Phasenkorrekturkoeffizienten in anderen Tonhöhenintervallen und der Spektrum- und Tonhöhenparameter übertragen. In einem Explosivlautsignal wird ein Mehrfachpuls in dem gesamten Rahmen erhalten. In einem Reibelautintervall wird ein Typ Rauschsignal aus einem Kodeverzeichnis ausgewählt, das aus vorgegebenen Typen von Rauschsignalen besteht, um so die unterschiedliche Stärke zwischen einem durch Synthetisierung eines Rauschsignals gewonnenen Signals und dem Eingabesprachsignal zu minimieren, und eine optimale Verstärkung wird berechnet. Als Ergebnis werden ein Index, der den Typ des Rauschsignals repräsentiert, und die Verstärkung übertragen. Eine Beschreibung in Zusammenhang mit der Empfangsseite unterbleibt.
- In dem herkömmlichen, in Referenz 1 offenbarten Verfahren kann in bezug auf eine weibliche Sprecherin mit einer kurzen Tonhöhenperiode, da eine große Anzahl von Tonhöhenintervallen in einem Rahmen vorhanden sind, eine verbesserte Tonhöheninterpolation wirkungsvoll ausgeführt werden, und entsprechend kann eine ausreichende Anzahl von Pulsen für den gesamten Rahmen erhalten werden. Wenn beispielsweise die Rahmenlänge 20 ms beträgt, die Tonhöhenperiode 4 ms und die Anzahl der Pulse in einem typischen Intervall 4 beträgt, können entsprechend 20 Pulse für den gesamten Rahmen erhalten werden.
- Da jedoch in bezug auf einen männlichen Sprecher mit einer langen Tonhöhenperiode eine ausreichende Anzahl von Pulsen für den gesamten Rahmen nicht in entsprechender Weise erhalten werden kann, zeigt eine verbesserte Tonhöheninterpolation keinen zufriedenstellenden Erfolg. Deshalb wird sich ein Problem hinsichtlich der Lautqualität ergeben. Wenn beispielsweise die Tonhöhenperiode 10 ms beträgt und die Anzahl der Pulse pro Tonhöhe 4 ist, ist die Anzahl der Pulse in dem gesamten Rahmen 8, die im Vergleich zur weiblichen Sprecherin sehr klein ist. Um die Anzahl der Pulse im gesamten Rahmen zu erhöhen, muß die Anzahl der Pulse pro Tonhöhe erhöht werden. Wenn jedoch diese Anzahl erhöht wird, wird die Bitrate erhöht. Aus diesem Grund ist es schwierig, die Anzahl der Pulse zu erhöhen.
- Wenn außerdem die Bitrate von 4,8 kb/s auf 3 kb/s oder 2,4 kb/s verringert wird, muß die Anzahl der Pulse pro Tonhöhe auf 2 bis 3 verringert werden. Daher wird sich ein schwierigeres Problem stellen als das oben beschriebene. Bei einer solch niedrigen Bitrate ist die Leistung der verbesserten Tonhöheninterpolation, selbst für eine weibliche Sprecherin, unzureichend.
- In dem in Referenz 2 offenbarten CELP-Verfahren muß, wenn die Bitrate unter 4,8 kb/s gesenkt wird, die Anzahl der Bits eines Kodeverzeichnisses verringert werden, woraus sich eine abrupte Verschlechterung der Lautqualität ergibt. Beispielsweise wird bei 4,8 kb/s allgemein ein 10-Bit Kodeverzeichnis für einen Subrahmen von 5 ms verwendet. Jedoch muß bei 2,4 kb/s die Anzahl der Bits des Kodeverzeichnisses auf 5 verringert werden, unter der Voraussetzung, daß die Periode des Subrahmens von 5 ms beihalten wird. Da 5 Bits als Anzahl von Bits zu wenig sind, um verschiedene Arten von Lautquellesignalen zu erfassen, verschlechtert sich bei einer Bitrate von weniger als 4,8 kb/s abrupt die Lautqualität.
- Ferner zum Verfahren nach Referenz 1 offenbart die IEEE/IEICE GLOBAL TELECOMMUNICATION CONFERENCE, Tokio, 15.-18. Nov. 1987, Bd. 2, Seite 752-756, IEEE, New York, US; S.Ono et al.:"2,4 kBPs pitch interpolation multi-pulse speech coding" ein Tonhöheninterpolationsverfahren.
- Es ist eine Aufgabe der vorliegenden Erfindung, ein Verfahren zur Sprachkodierung und -dekodierung bereitzustellen, das eine Sprachkodierung und -dekodierung in hoher Qualität bei 4,8 kb/s oder weniger mit einem verhältnismäßig kleinen Verarbeitungsaufwand durchführt. Diese Aufgabe wird mit den Merkmalen der Ansprüche gelöst.
- Ein Sprachkodierungsverfahren wie beschrieben weist die Schritte auf:
- Gewinnung eines Spektrumparameters, der eine Spektrumeinhüllende repräsentiert, und eines Tonhöhenparameters, der eine Tonhöhe repräsentiert, aus einem diskreten Eingabesprachsignal, Unterteilung eines Rahmenintervalls in Subintervalle in Übereinstimmung mit dem Tonhöhenparameter, Gewinnung eines Lautquellesignals in einem der Subintervalle durch Gewinnung eines Mehrfachpulses in bezug auf ein Differenzsignal, das durch Durchführung einer Prädiktion auf der Grundlage eines vorherigen Lautquellesignals gewonnen wird, und Gewinnung und Ausgabe von Korrekturdaten zum Korrigieren mindestens einer Amplitude und einer Phase des Lautquellesignals in anderen Tonhöhenintervallen im Rahmen.
- Eine Folge von Verarbeitungsschritten, die auf dem Verfahren zur Sprachkodierung- und -dekodierung der vorliegenden Erfindung basieren, wird nachstehend beschrieben.
- In einem stimmhaften Intervall mit periodischen Eigenschaften für jede Tonhöhe, wird ein eine Tonhöhenperiode repräsentierender Tonhöhenparameter im voraus aus einem Sprachsignal im Rahmen gewonnen. Beispielsweise wird das Rahmenintervall einer in Fig. 3(a) gezeigten Sprachwelle in mehrere Tonhöhenintervalle (Subrahmen) in Einheiten von Tonhöhenperioden, wie in Fig. 3(b) gezeigt, unterteilt. Ein Mehrfachpuls mit einer vorgegebenen Anzahl von Pulsen wird in bezug auf ein Differenzsignal gewonnen, das durch Durchführung einer Prädiktion in einem Tonhöhenintervall (repräsentativen Intervall) der Tonhöhenintervalle unter Verwendung eines vorherigen Lautquellesignals gewonnen wird. Anschließend werden Verstärkungs- und Phasenkorrekturkoeffizienten zum Korrigieren der Verstärkung und Phase des Mehrfachpulses in dem repräsentativen Intervall für andere Subrahmen im gleichen Rahmen gewonnen.
- Ein Verfahren zur Durchführung der Tonhöhenprädiktion wird nachstehend beschrieben. Es sei angenommen, daß ein in dem vorausgehenden Rahmen reproduziertes Antriebslautquellesignal durch v(n) beschrieben wird, und ein Prädiktionskoeffizient und eine Periode jeweils durch b und M beschrieben werden. Außerdem sei angenommen, daß ein Intervall in Fig. 3(c) ein repräsentatives Intervall des aktuellen Rahmens ist, und ein Sprachsignal in diesem Interavll durch x&sub1; (n) beschrieben wird. Der Koeffizient b und die Periode M werden berechnet, um die Differenz der folgenden Gleichung zu minimieren:
- E = [{x&sub1;(n) - b v(n-M)*h(n)}*w(n))² ...(1)
- wobei w(n) die Impulsantwort eines Wahrnehmungsgewichtsfilters (für dessen detaillierte Beschreibung sei auf die Japanische Patentanmeldung Nr. 57-231605, offenbart als offengelegte Patentanmeldung Nr. 59-116794 (Referenz 3) und dergleichen hingewiesen), h(n) die Impulsantwort eines Synthetisierungsfilters, gebildet aus einem Spektrumparameter, der aus der Sprache des aktuellen Rahmens durch bekannte lineare Prädiktionsanalyse (LPC) (für deren detaillierte Beschreibung sei auf Referenz 3 und dergleichen hingewiesen) gewonnen wird, und * die Faltungsoperation ist.
- Um Gleichung (1) zu minimieren, wird Gleichung (1) partiell nach b differenziert und 0 gesetzt, um so die folgende Gleichung zu erhalten:
- Einsetzen von Gleichung (2) in Gleichung (1) ergibt:
- Da der erste Term der Gleichung (4) konstant ist, kann Gleichung (1) durch Maximierung des zweiten Terms der Gleichung (4) minmiert werden. Der zweite Term der Gleichung (4) wird für verschiedene Werte von M berechnet, und der Wert von M, der den zweiten Term maximiert, wird erhalten. Der Wert von b wird dann aus Gleichung (2) berechnet.
- Eine Tonhöhenprädiktion wird in bezug auf das Intervall unter Verwendung der gewonnenen Werte b und M gemäß der folgenden Gleichung durchgeführt, um so ein Differenzsignal e(n) zu erhalten:
- e(n) = x&sub1;(n) - v(n-M)*h(n) ...(5)
- Fig. 3(c) zeigt ein Beispiel für e(n).
- Anschließend wird ein Mehrfachpuls mit einer vorgegebenen Anzahl von Pulsen in bezug auf das Differenzsignal e(n) gewonnen. Als praktisches Verfahren zur Gewinnung eines Mehrfachpulses ist ein Verfahren unter Verwendung einer Kreuzkorrelationsfunktion Φxh und einer Autokorrelationsfunktion Rhh bekannt. Da dieses Verfahren beispielsweise in Referenz 3 und in Araseki, Ozawa, Ono und Ochiai, "Multi-pulse Excited Speech Coder Based on Maximum Cross-Correlation Search A logarithm", GLOBECOM 83, IEEE Global Tele-communications Conference, Votragsnummer 23.3.1983 (Referenz 4) offenbart ist, unterbleibt eine Beschreibung dieses Verfahrens. Fig. 3(d) zeigt den Mehrfachpuls, der im Intervall gewonnen wird, als ein Beispiel, in dem zwei Pulse gewonnen werden.
- Als Ergebnis wird ein Lautquellesignal d(n) im Interavll gemäß folgender Gleichung gewonnen:
- d(n) = b v(n-M) + gi.δ(n-mi) ...(6)
- für δ(n-mj) =
- wobei gi und mi Amplitude und Lage eines i-ten Pulses des Mehrfachpulses sind.
- In anderen Tonhöhenintervallen als dem repräsentativen Intervall werden die Verstärkungs- und Phasenkorrekturkoeffizienten zum Korrigieren der Verstärkung und der Phase des Lautquellesignals in dem repräsentativen Intervall in Einheiten von Tonhöhen-Intervallen berechnet. Wenn ein Verstärkungskorrekturkoeffizient bzw. ein Phasenkorrekturkoeffizient im j- ten Tonhöhenintervall als cj bzw. dj bezeichnet wird, können diese Werte berechnet werden, um die folgende Gleichung zu minimieren:
- E = [{xj(n)-cj d(n-T'-d&sub3;)*h(n)}*w(n)]&sub2; ...(7)
- Da die Lösung obiger Gleichung detailliert in Referenz 3 und dergleichen beschrieben ist, unterbleibt ihre Beschreibung. Ein Lautquellesignal des Rahmnes wird durch Gewinnung von Verstärkungs- und Phasenkorrekturkoeffizienten in jeweils anderen Tonhöhenintervallen als dem repräsentativen Tonhöhenintervall gemäß Gleichung (7) gewonnen.
- Fig. 3(e) zeigt als Beispiel das Antriebslautquellesignal des aktuellen Rahmens, das durch Gewinnung der Verstärkungsund Phasenkorrekturkoeffizienten in anderen Tonhöhenintervallen als dem Intervall reproduziert wird.
- In diesem Fall ist ein repräsentatives Intervall fest mit dem Tonhöhenintervall verbunden. Jedoch kann ein Tonhöhenintervall, in dem die Lautstärkedifferenz zwischen der eingegebenen Sprache eines Rahmens und der synthetisierten Sprache minimiert ist, durch Überprüfen mehrerer Tonhöhenintervalle im Rahmen als repräsentatives Intervall ausgewählt werden. Hinsichtlich einer detaillierten Beschreibung dieses Verfahrens sei auf Referenz 1 und dergleichen hingewiesen.
- Eine als Lautquelleinformation für jeden Rahmen zu übertragende Information beinhaltet die Lage eines repräsentativen Tonhöhenintervalls in einem Rahmen (nicht erforderlich, wenn ein repräsentatives Intervall festgelegt ist); den Prädiktionskoeffizienten b, die Periode M, die Amplitude und Lage des Mehrfachpulses in dem repräsentativen Intervall; und die Verstärkungs- und Phasenkorrekturkoeffizienten in anderen Tonhöhenintervallen im gleichen Rahmen.
- Gemäß dem zweiten Gesichtspunkt der vorliegenden Erfindung wird anstelle der Gewinnung eines Mehrfachpulses in bezug auf ein durch Durchführung einer Prädiktion in einem repräsentativen Intervall gewonnenes Differenzsignal e(n) eine Vektorquantisierung unter Verwendung eines Kodeverzeichnisses durchgeführt. Dieses Verfahren wird nachstehend detailliert beschrieben. Es wird angenommen, daß 2B (B ist die Anzahl der Bits einer Lautquelle) Typen von Lautquellesignalvektoren (Kodevektoren) in dem Kodeverzeichnis gespeichert sind. Wenn ein Lautquellesignalvektor im Kodeverzeichnis durch c(n) beschrieben wird, wird der Lautquellesignalvektor von dem Kodeverzeichnis so ausgewählt, daß die folgende Gleichung minimiert wird:
- E = [{e(n)-g c(n)*h(n)}*w(n)]² ...(8)
- wobei die Verstärkung des Lautquellesignals ist. Um Gleichung (8) zu minimieren, wird Gleichung (8) partiell nach differenziert und 0 gesetzt, um so folgende Gleichung zu erhalten:
- wobei
- ew(n) = e(n)*h(n) ...(10)
- w(n) = c(n)*h(n)*w(n) ...(11)
- Einsetzen von Gleichung (9) in Gleichung (8) ergibt:
- Da der erste Term der Gleichung (12) konstantist, wird der zweite Term für alle Werte des Lautquellevektors c(n) berechnet, und ein Wert, der den zweiten Term maximiert, wird ausgewählt. In diesem Fall wird die Verstärkung gemäß Gleichung (9) gewonnen.
- Das Kodeverzeichnis kann durch Lernen auf der Grundlage von Übungssignalen gebildet werden, oder kann z.B. aus Gaußschen Zufallssignalen gebildet werden. Das erstere Verfahren ist z.B. in Makhoul et al., "Vector Quantization in Speech Coding," Proc. IEEE, Bd. 73, 11, 1551-1588, 1985 (Referenz 5) beschrieben. Das letztere Verfahren ist in Referenz 2 beschrieben.
- Fig. 1 ist ein Blockschaltbild, das ein System auf der Grundlage eines Verfahrens zur Sprachkodierung und -dekodierung gemäß der ersten Ausführungsform der vorliegenden Erfindung zeigt;
- Fig. 2 ist ein Blockschaltbild, das ein System auf der Grundlage eines Verfahrens zur Sprachkodierung und -dekodierung gemäß der zweiten Ausführungsform der vorliegenden Erfindung zeigt; und
- Fig. 3(a) bis 3(e) sind graphische Darstellungen zur Erklärung einer Folge von Verarbeitungsschritten auf der Grundlage des Verfahrens der vorliegenden Erfindung.
- Fig. 1 zeigt ein System zur Ausführung eines Verfahrens zur Sprachkodierung und -dekodierung gemäß der ersten Ausführungsform der vorliegenden Erfindung.
- Mit Bezug auf Fig 1 empfängt eine Senderseite über einen Eingangsanschluß 100 ein Sprachsignal und speichert ein Ein- Rahmen-Sprachsignal (z.B. 20 ms) in einem Pufferspeicher 110.
- Ein LPC- und Tonhöhenrechner 130 führt eine bekannte LPC- Analyse des Ein-Rahmen-Sprachsignals durch, um einen K- Parameter, der einem vorgegebenen Grad P entspricht, als Parameter zu berechnen, der die Spektrumcharakteristiken des Ein-Rahmen-Sprachsignals repräsentiert. Hinsichtlich einer detaillierten Beschreibung dieses Verfahren zur Berechnung des K-Parameters sei auf K-Parameter-Rechner in den vorstehend beschriebenen Referenzen 1 und 3 hingewiesen. Zu beachten ist, daß ein K-Parameter mit einem PARCOR-Koeffizienten identisch ist. Eine Kode 1k, der durch Quantisierung des K-Parameters mit einer vorgegebenen Anzahl von Quantisierungsbits gewonnen wird, wird an einen Multiplexer 260 ausgegeben und wird in einen linearen Prädiktionskoeffizienten ai' (i=1 bis P) dekodiert. Der Koeffizient ai' wird dann an einen Gewichtungsschaltkreis 200, einen Impulsantwortrechner 170 und ein Synthetisierungsfilter 281 ausgegeben. Hinsichtlich Verfahren zum Kodieren des K-Parameters und zum Umwandeln des K-Parameters in den linearen Prädiktionskoeffizienten sei auf die vorstehend beschriebenen Referenzen 1 und 3 hingewiesen. Eine gemittelte Tonhöhenperiode T wird aus dem Ein-Rahmen- Sprachsignal berechnet. Für dieses Verfahren ist ein Verfahren auf der Grundlage einer Autokorrelation bekannt. Hinsichtlich einer detaillierten Beschreibung dieses Verfahren sei auf einen Tonhöhenextraktionsschaltkreis in Referenz 1 hingewiesen. Zusätzlich können andere bekannte Verfahren (z.B. das Cepstrumverfahren, das SIFT-Verfahren und das partielle Korrelationsverfahren) verwendet werden. Ein durch Quantisierung der gemittelten Tonhöhenperiode T mit einer vorgegebenen Anzahl von Bits gewonnener Kode wird an den Multiplexer 260 ausgegeben. Außerdem wird eine durch Dekodierung dieses Kodes gewonnene dekodierte Tonhöhenperiode an einen Subrahmenunterteiler 195, einen Schaltkreis 283 zur Reproduktion der Antriebslautquelle und einen Verstärkung/Phasenkorrekturrechner 270 ausgegeben.
- Der Impulsantwortrechner 170 berechnet eine Impulsantwort hw(n) des Synthetisierungsfilters, das die Wahrnehmungsgewichtung unter Verwendung des linearen Prädiktionskoeffizienten ai' ausführt, und gibt sie an einen Autokorrelationsrechner 180 und einen Kreuzkorrelationsrechner 210 aus.
- Der Autokorrelationsrechner 180 berechnet eine Autokorrelationsfunktion Rhh(n) der Impulsantwort und gibt sie mit einer vorgegebenen Zeitverzögerung aus. Hinsichtlich der Operationen des Impulsantwortrechners 170 und des Autokorrelationsrechners 180 sei auf Referenz 1 und 3 hingewiesen.
- Ein Subtraktor 190 subtrahiert eine Ein-Rahmen-Komponente eines Ausgangssignals vom Synthetisierungsfilter 281 von einem Ein-Rahmen-Sprachsignal x(n) und gibt das Subtraktionsergebnis an den Gewichtungsschaltkreis 200 aus.
- Der Gewichtungsschaltkreis 200 gewinnt ein gewichtetes Signal xw(n) durch Filtern des Subtraktionsergebnisses durch ein Wahrnehmungsgewichtfilter, dessen Impulsantwort durch w(n) beschrieben wird, und gibt es aus. Hinsichtlich des Gewichtungsverfahrens sei auf Referenz 1 und 3 und dergleichen hingewiesen.
- Der Subrahmenunterteiler 195 unterteilt das gewichtete Signal des Rahmens bei Tonhöhenintervallen von T'.
- Ein Prädiktionskoeffizientenrechner 206 gewinnt gemäß Gleichung (1) bis (4) einen Prädiktionskoeffizienten b und eine Periode M unter Verwendung eines vorher reproduzierten Antriebslautquellesignals v(n), der Impulsantwort hw(n) und eines der bei den Tonhöhenintervallen von T' gewichteten Signale in einem vorgegebenen repräsentativen Intervall (z.B. ein Intervall in Fig. 3(c)). Die gewonnenen Werte werden dann mit einer vorgegebenen Anzahl von Bits quantisiert, um Werte b' und M' zu erhalten. Der Prädiktionskoeffizientenrechner 206 berechnet ferner ein Prädiktionslautquellesignal v'(n) gemäß der folgenden Gleichung und gibt es an einen Prädiktionsschaltkreis 205 aus:
- v'(n) = b' v(n-M') ...(13)
- Der Prädiktionsschaltkreis 205 führt eine Prädiktion unter Verwendung des Signals v'(n) gemäß der folgenden Gleichung durch, um in dem repräsentativen Intervall (dem Intervall in Fig. 3(c)) ein Differenzsignal zu erhalten:
- ev(n) = xw(n)-v'(n)*hw(n) ...(14)
- Der Kreuzkorrelationsfunktionsrechner 210 empfängt die Werte ev(n) und hv(n), berechnet eine Kreuzkorrelationsfunktion Φxh mit einer Verzögerungszeit und gibt das Rechenergebnis aus. Hinsichtlich dieses Rechenverfahrens sei auf Referenz 1 und 3 und dergleichen hingewiesen.
- Ein Mehrfachpulsrechner 220 berechnet eine Lage mi und eine Amplitude gi eines Mehrfachpulses in bezug auf das Differenzsignal in dem repräsentativen Intervall, das aus Gleichung (14) unter Verwendung der Kreuzkorrelationsfunktion und der Autokorrelationsfunktion gewonnen wurde.
- Ein Pulskodierer 225 kodiert die Amplitude gi und die Lage mi des Mehrfachpulses in dem repräsentativen Intervall mit einer vorgegebenen Anzahl von Bits und gibt sie an den Multiplexer 260 aus. Gleichzeitig dekodiert der Pulskodierer 225 den kodierten Mehrfachpuls und gibt ihn an den Addierer 235 aus.
- Der Addierer 235 addiert den dekodierten Mehrfachpuls zu dem vom Prädiktionskoeffizientenrechner 206 ausgegebenen Prädiktionslautquellesignal v'(n), um so ein Lautquellesignal d(n) in dem repräsentativen Intervall zu erhalten.
- Wie in der Zusamenfassung beschrieben, berechnet der Verstärkung/Phasenkorrekturrechner 270 einen Verstärkungskorrekturkoeffizienten ck und einen Phasenkorrekturkoeffizienten dk der Lautquelle d(n) in dem repräsentativen Intervall und gibt diese aus, um so ein Lautquellesignal in einem anderen Tonhöhenintervall k in dem gleichen Rahmen zu reproduzieren. Hinsichtlich einer detaillierten Beschreibung dieses Verfahrens sei auf Referenz 1 hingewiesen.
- Ein Kodierer 230 kodiert den Verstärkungskorrekturkoeffizienten ck und den Phasenkorrekturkoeffizienten dk mit einer vorgegebenen Anzahl von Bits und gibt sie an den Multiplexer 260 aus. Außerdem dekodiert sie der Kodierer 230 und gibt die dekodierten Werte an den Schaltkreis 283 zur Reproduktion der Antriebslautquelle aus.
- Der Schaltkreis 283 zur Reproduktion der Antriebslautquelle unterteilt in gleicher Weise wie der Subrahmenunterteiler 195 die Rahmen nach gemittelten Tonhöhenperioden T' und erzeugt das Lautquellesignal d(n) in einem repräsentativen Intervall. Unter Verwendung des Lautquellesignals und der dekodierten Verstärkungs- und Phasenkorrekturkoeffizienten in dem repräsentativen Intervall reproduziert der Schaltkreis 283 ein Antriebslautquellesignal v(n) des gesamten Rahmens in anderen Tonhöhenintervallen als dem repräsentativen Intervall gemäß der folgenden Gleichung:
- v(n) = Ck d(n-T'-dk)+d(n) ... (15)
- Das Synthetisierungsfilter 281 empfängt das reproduzierte Antriebslautquellesignal v(n) und den linearen Prädiktionskoeffizienten ai' und gewinnt ein zusammengesetztes Ein- Rahmen-Sprachsignal. Außerdem berechnet das Filter 281 ein Ein-Rahmen-Einflußsignal, das den nächsten Rahmen beeinflußt, und gibt es an den Subtraktor 190 aus. Hinsichtlich des Verfahrens zum Berechnen des Einflußsignals sei auf Referenz 3 hingewiesen.
- Der Multiplexer 260 koppelt und gibt die Kodes für den Prädiktionskoeffizienten, für die Periode, für die Amplitude und für die Lage des Multipulses in dem repräsentativen Intervall, die Kodes für die Verstärkungs- und Phasenkorrekturkoeffizienten und für die gemittelte Tonhöhenperiode und den Kode für den K-Parameter aus.
- Die vorstehende Beschreibung steht in Verbindung mit der Senderseite gemäß der ersten Ausführungsform der vorliegenden Erfindung.
- Auf der Dekodierungsseite empfängt über einen Anschluß 285 ein Demultiplexer 290 die zusammengekoppelten Kodes und trennt den Kode für den Mehrfachpuls, die Kodes für die Verstärkungs- und Phasenkorrekturkoeffizienten, die Kodes für die Prädiktion und für die Periode, den Kode für die gemittelte Tonhöhenperiode und den Kode für den K-Parameter voneinander und gibt sie aus.
- Ein K-Parameter/Tonhöhen-Dekodierer 330 dekodiert die Kodes für den K-Parameter und die Tonhöhenperiode und gibt die dekodierte Tonhöhenperiode T' an einen Schaltkreis 340 zur Reproduktion der Antriebslautquelle aus.
- Ein Pulsdekodierer 300 dekodiert den Kode für den Mehrfachpuls, erzeugt einen Mehrfachpuls in einem repräsentativen Intervall und gibt ihn an einen Addierer 335 aus.
- Der Addierer 335 addiert den Mehrfachpuls vom Pulsdekodierer 300 zu einem Prädiktionslautquellesignal v'(n) von einem Prädiktionsschaltkreis 345, um so ein Lautquellesignal d(n) zu erhalten.
- Ein Verstärkung/Phasenkorrekturkoeffizienten-Dekodierer empfängt die Kodes für die Verstärkung- und Phasenkorrekturkoeffizienten, dekodiert sie, und gibt die gewonnenen Werte aus.
- Ein Koeffizientendekodierer 325 dekodiert die Kodes für den Prädiktionskoeffizienten und für die Periode, um einen Koeffizienten b' und eine Periode M' zu erhalten, und gibt sie aus.
- Der Prädiktionsschaltkreis 345 berechnet ein Prädiktionslautquellesignal v'(n) von dem Antriebslautquellesignal v(n) des vorhergehenden Rahmens unter Verwendung der Werte b' und M' in Übereinstimmung mit Gleichung (13) und gibt es an den Addierer 335 aus.
- Der Schaltkreis 340 zur Reproduktion der Antriebslautquelle empfängt die Ausgabe vom Addierer 335, die dekodierte Tonhöhenperiode T', den dekodierten Verstärkungskorrekturkoeffizienten und den dekodierten Phasenkorrekturkoeffizienten. Anschließend reproduziert der Schaltkreis 340 durch die gleiche Operation, wie die vom Schaltkreis 283 zur Reproduktion der Antriebslautquelle auf der Senderseite durchgeführte, das Ein-Rahmen-Antriebslautquellesignal v(n) und gibt es aus.
- Ein Synthetisierungsfilter 350 empfängt das reproduzierte Ein-Rahmen-Antriebslautquellesignal und den linearen Prädiktionskoeffizienten ai', berechnet eine synthetisierte Ein- Rahmen-Sprache x(n) und gibt diese über einen Anschluß 360 aus.
- Die vorstehende Beschreibung steht in Verbindung mit der Empfangsseite gemäß der ersten Ausführungsform der vorliegenden Erfindung.
- Fig. 2 zeigt die zweite Ausführungsform der vorliegenden Erfindung. Die gleichen Bezugszeichen in Fig. 2 bezeichnen die gleichen Teile wie in Fig. 1, und deren Beschreibung wird weggelassen.
- In dieser Ausführungsform wird ein optimaler Kodevektor aus einem Kodeverzeichnis 520 in bezug auf ein entsprechend Gleichung (1) bis (4) und (14) berechnetes Prädiktionsdifferenzsignal ausgewählt, und eine Verstärkung g des Kodevektors wird berechnet. In diesem Fall wird ein Kodevektor c(n) ausgewählt, und die Verstärkung g wird in bezug auf einen aus Gleichung (14) gewonnenen Wert ew(n) berechnet, um so Gleichung (8) zu minimieren. Angenommen wird, daß die Anzahl der Dimensionen eines Kodevektors des Kodeverzeichnisses durch L gegeben ist und der Typ des Kodevektors 2B ist. Außerdem wird angenommen, daß das Kodeverzeichnis wie in Referenz 2 aus Gaußschen Zufallssignalen besteht.
- Ein Kreuzkorrelationsrechner 505 berechnet eine Kreuzkorrelationsfunktion Φ und eine Autokorrelationsfunktion R gemäß folgenden Gleichungen:
- Φ = ew(n) w(n) ... (16)
- R = w(n) w(n) ... (17)
- wobei ew(n) und w(n) gemäß Gleichung (10) und (11) berechnet werden. Außerdem entspricht Gleichung (16) bzw. (17) dem Zähler bzw. Nenner der Gleichung (9). Berechnungen auf der Basis von Gleichung (16) und (17) werden für alle Kodevektoren durchgeführt, und die Werte von Φ und R jedes Kodevektors werden an einen Kodeverzeichnisselektor 500 ausgegeben.
- Der Kodeverzeichnisselektor 500 wählt einen Kodevektor, der den zweiten Term von Gleichung (12) maximiert. Der zweite Term von Gleichung (12) kann wie folgt umgeschrieben werden:
- D = Φ2/R ...(18)
- Deshalb wird ein Kodevektor gewählt, der Gleichung (18) maximiert. Die Verstärkung g des gewählten Kodevektors kann durch folgende Gleichung berechnet werden:
- g = Φ/R ...(19)
- Der Kodeverzeichnisselektor 500 gibt die Daten für den Index des ausgewählten Kodeverzeichnisses an einen Multiplexer aus und gibt die berechnete Verstärkung g an einen Verstärkungskodierer 510 aus.
- Der Verstärkungskodierer 510 quantisiert die Verstärkung mit einer vorgegebenen Anzahl von Bits und gibt den Kode an den Multiplexer 260 aus. Unter Verwendung eines dekodierten Wertes g' gewinnt gleichzeitig der Kodierer 510 gemäß folgender Gleichung ein Lautquellesignal z(n) auf der Grundlage des ausgewählten Kodeverzeichnisses und gibt es an einen Addierer 525 aus:
- z(n) = g' c(n) ...(20)
- Der Addierer 525 addiert gemäß der folgenden Gleichung ein aus Gleichung (13) gewonnenes Prädiktionslautquellesignal v'(n) zum Wert z(n), um in dem repräsentativen Intervall ein Lautquellesignal d(n) zu erhalten, und gibt es an einen Antriebslautquelledekodierer 283 und einen Verstärkung/Phasenkorrekturrechner 270 aus:
- d(n) = v'(n) + z(n) ...(21)
- Die vorstehende Beschreibung steht im Verbindung mit der Senderseite gemäß der zweiten Ausführungsform der vorliegenden Erfindung.
- Die Empfangsseite des Systems gemäß der zweiten Ausführungsform wird nachstehend beschrieben. Ein Verstärkungsdekodierer 530 dekodiert den Kode für die Verstärkung und gibt eine dekodierte Verstärkung g' aus. Ein Generator 540 empfängt den Kode für den Index des gewählten Kodeverzeichnisses und wählt in Übereinstimmung mit dem Index einen Kodevektor c(n) aus einem Kodeverzeichnis 520 aus. Der Generator 540 erzeugt dann unter Verwendung der dekodierten Verstärkung g' gemäß Gleichung (20) ein Lautquellesignal z(n) und gibt es an einen Addierer 550 aus.
- Der Addierer 550 führt die gleiche Operation durch, wie der Addierer auf der Senderseite durchführt, um so in dem repräsentativen Intervall durch Addieren des Werts z(n) zu einem von einem Prädiktionsschaltkreis 345 ausgegebenen Prädiktionslautquellesignal v'(n) ein Lautquellesignal d(n) zu gewinnen, und gibt es an einen Schaltkreis 340 zur Reproduktion der Antriebslautquelle aus.
- Die vorstehende Beschreibung steht in Verbindung mit der Empfangsseite gemäß der zweiten Ausführungsform der vorliegenden Erfindung.
- Die vorstehend beschriebenen Ausführungsformen sind lediglich Beispiele der vorliegenden Erfindung, und verschiedenen Abwandlungen können vorgenommen werden.
- In der ersten Ausführungsform werden die Amplitude und Lage des in bezug auf ein Prädiktionsdifferenzsignal in dem repräsentativen Intervall gewonnenen Mehrfachpulses skalar quantisiert (SQed). Um jedoch die Informationsmenge zu verringern, können diese Werte vektoriell quantisiert (VQed) werden. Beispielsweise kann nur die Lage vektoriell guantisiert werden, während die Amplitude skalar quantisiert wird, oder die Amplitude wird skalar quantisiert, während die Lage vektoriell quantisiert wird. Alternativ dazu können sowohl Amplitude als auch Lage vektoriell quantisiert werden. Hinsichtlich einer detaillierten Beschreibung des Verfahrens zur vektoriellen Quantisierung der Lage sei z.B. auf R. Zinser et al., "4800 und 7200 bit/sec Hybrid Codebook Multipulse Coding," (ICASSP, pp. 747-750,1989) hingewiesen (Referenz 6).
- Ferner werden in der ersten Ausführungsform der Verstärkungskorrekturkoeffizient ck und der Phasenkorrekturkoeffizient dk in anderen Tonhöhenintervallen als dem repräsentativen Inervall gewonnen und übertragen. Jedoch kann die dekodierte gemittelte Tonhöhenperiode T' unter Verwendung der angrenzenden Tonhöhenperiode für jedes Tonhöhenintervall interpoliert werden, so daß die Übertragung eines Phasenkorrekturkoeffizienten unterbleiben kann. Anstelle einer Übertragung eines Verstärkungskorrekturkoeffizienten in jedem Tonhöhenintervall kann außerdem ein in jedem Tonhöhenintervall gewonnener Verstärkungskorrekturkoeffizient durch eine Kurve kleinster Quadrate oder eine Linie kleinster Quadrate angenähert werden, und eine Übertragung kann durch Kodierung des Koeffizienten der Kurve oder der Linie durchgeführt werden. Diese Verfahren können in jedweder Kombination verwendet werden. Mit diesen Anordnungen kann die Informationsmenge zur Übertragung der Korrekturinformation verringert werden.
- Anstelle der Gewinnung eines Phasenkorrekturkoeffizienten in jedem Tonhöhenintervall, kann ein linearer Phasenterm τ von einem Endabschnitt eines Rahmens gewonnen werden, um so jedem Tonhöhenintervall zugeordnet zu werden, wie z.B. in Ono und Ozawa et al., "2,4 kbps Pitch Prediction Multi-pulse Speech Coding", Proc. ICASSP 54.9, 1988) veröffentlicht ist (Referenz 7). Gemäß einem anderen Verfahren wird ein in jedem Tonhöhenintervall gewonnener Phasenkorrekturkoeffizient durch eine Linie kleinster Quadrate oder eine Kurve kleinster Quadrate angenähert, und eine Übertragung wird durch Kodierung des Koeffizienten der Linie oder der Kurve durchgeführt.
- Überdies können in der ersten Ausführungsform der vorliegenden Erfindung verschiedene Lautquellesignale in Übereinstimmung mit den Merkmalen eines Ein-Rahmen-Sprachsignals wie in Referenz 1 verwendet werden. Beispielsweise werden Sprachsignale in Vokal- Nasal-, Reibe- und Explosivlautsignale klassifiziert, und die Anordnung der ersten Ausführungsform kann in einem Vokallautintervall verwendet werden.
- In der ersten und zweiten Ausführungsform wird ein K- Parameter als Spektrumparameter kodiert, und eine LPC-Analyse wird als Analyseverfahren verwendet. Jedoch können als Spektrumparameter andere bekannte Parameter wie LSP, LPC- Cepstrum, Cepstrum, verbessertes Cepstrum, allgemeines Cepstrum und Melcepstrum verwendet werden. Ein optimales Analyseverfahren kann für jeden Parameter verwendet werden.
- Ferner wird, wenn eine Prädiktion durchzuführen ist, in der ersten und zweiten Ausführungsform ein repräsentatives Intervall auf ein vorgegebenes Tonhöhenintervall in einem Rahmen festgelegt. Jedoch kann eine Prädiktion in jedem Tonhöhenintervall in einem Rahmen durchgeführt werden, um ein Lautquellesignal in bezug auf ein vorgegebenes Differenzsignal zu berechnen, und Verstärkungs- und Phasenkorrekturkoeffizienten in anderen Tonhöhenintervallen werden berechnet. Ferner wird eine gewichtete Lautstärkedifferenz zwischen einem durch vorstehende Operation reproduzierten Sprachsignal und einem Eingangssignal berechnet, und ein Tonhöhenintervall, das die Lautstärkedifferenz minimiert, wird als repräsentatives Intervall ausgewählt. Hinsichtlich einer detaillierten Beschreibung dieses Verfahrens sei auf Referenz 1 hingewiesen. Obwohl der Verarbeitungsaufwand erhöht ist und die Information über die Lage des repräsentativen Intervalls zusätzlich übertragen werden muß, werden mit dieser Anordnung die Eigenschaften des Systems weiter verbessert.
- In dem Subrahmenunterteiler 195 wird ein Rahmen in Tonhöhenintervalle unterteilt, von denen jedes die gleiche Länge wie eine Tonhöhenperiode hat. Jedoch kann ein Rahmen in Tonhöhenintervalle unterteilt werden, wobei jedes eine vorgegebene Länge (z.B. 5 ms) hat. Obwohl keine Tonhöhenperiode extrahiert werden muß und der Verarbeitungsaufwand verringert wird, wird mit dieser Anordnung die Lautqualität leicht verschlechtert.
- Um den Verarbeitungsaufwand zu verringern, kann ferner auf der Senderseite die Berechnung eines Einflußsignals unterbleiben. Mit diesem Verzicht können auf der Senderseite der Schaltkreis 283 zur Reproduktion der Antriebslautquelle, das Synthetisierungsfilter 281 und der Subtraktor 190 weggelassen werden, die Lautqualität ist jedoch verschlechtert.
- Um die Lautqualität durch Formung des Quantisierungsrauschens zu verbessern, kann ein adaptives Nachfilter, das mindestens auf eine Tonhöhen- oder Spektrumeinhüllende anspricht, an den Ausgangsanschluß des Synthetisierungsfilters an der dekodierenden Seite angeschlossen werden. Hinsichtlich der Anordnung des adaptiven Nachfilters sei z.B. auf Kroon et al., "A Class of Analysis-by-synthesis Predictive Coders for High Quality Speech Coding at Rates between 4,8 und 16 kb/s," (IEEE JSAC, Bd. 6,2, 353-363, 1988) (Referenz 8) hingewiesen.
- Wie auf dem Gebiet der digitalen Signalverarbeitung bekannt ist, entspricht die Autokorrelationsfunktion bzw. die Kreuzkorrelationsfunktion einem Leistungsdichtespektrum bzw. einem Kreuzleistungsdichtespektrum auf der Frequenzachse, und kann damit auf der Grundlage dieser Spektren berechnet werden. Hinsichtlich des Verfahrens zum Berechnen dieser Funktionen sei auf Oppenheim et al., "Digital Signal Processing" (Prentice-Hall, 1975) (Referenz 9) hingewiesen.
- Wie vorstehend beschrieben, kann gemäß der vorliegenden Erfindung ein Lautquellesignal in einem repräsentativen Intervall sehr wirkungsvoll durch Unterteilung eines Rahmens in Einheiten von Tonhöhenperioden, wobei die Prädiktion für ein Tonhöhenintervall (repräsentatives Intervall) auf der Grundlage eines vorherigen Lautquellesignals durchgeführt wird, und durch geeignete Darstellung eines Prädiktionfehlers durch einen Mehrfachpuls oder einen Lautquellesignalvektor (Kodevektor) dargestellt werden. Zusätzlich werden in anderen Tonhöhenintervallen des gleichen Rahmens die Verstärkung und Phase des Lautquellesignals in dem repräsentativen Intervall korrigiert, um das Lautquellesignal des Rahmens zu erhalten, so daß das Lautquellesignal der Sprache des Rahmens in geeigneter Weise durch eine kleine Menge an Lautquelleinformation dargestellt werden kann. Deshalb kann gemäß der vorliegenden Erfindung dekodierte/reproduzierte Sprache in einer im Vergleich zum herkömmlichen Verfahren ausgezeichneten Lautqualität erhalten werden.
Claims (3)
1. Sprachkodierungsverfahren mit folgenden Schritten:
Gewinnung eines eine Spektrumeinhüllende
repräsentierenden Spektrumparameters und eines eine Tonhöhe
repräsentierenden Tonhöhenparameters aus einem diskreten
Eingabesprachsignal;
Unterteilung eines Rahmenintervalls in Subintervalle in
Übereinstimmung mit dem Tonhöhenparameter;
Gewinnung eines Lautquellesignals in einem der
Subintervalle;
Gewinnung und Ausgabe von Korrekturinformation zum
Korrigieren mindestens einer Amplitude und einer Phase des
Lautquellesignals in anderen Subintervallen im Rahmen;
gekennzeichnet dadurch, daß der Schritt zur Gewinnung des
Lautquellesignals aufweist:
(a) Gewinnung eines Differenzsignals durch Durchführung
einer Tonhöhenprädiktion auf der Grundlage eines vorherigen
Lautquellesignals;
(b) Gewinnung eines Mehrfachpulses in bezug auf das
Differenzsignal; und
(c) Addition des Mehrfachpulses zum
Tonhöhenprädiktionssignal.
2. Sprachkodierungsverfahren mit folgenden Schritten:
Gewinnung eines eine Spektrumeinhüllende
repräsentierenden Spektrumparameters und eines eine Tonhöhe
repräsentierenden Tonhöhenparameters aus einem diskreten
Eingabesprachsignal;
Unterteilung eines Rahmenintervalls in Subintervalle in
Übereinstimmung mit dem Tonhöhenparameter;
Gewinnung eines Lautquellesignals in einem der
Subintervalle;
Gewinnung und Ausgabe von Korrekturinformation zum
Korrigieren mindestens einer Amplitude und einer Phase des
Lautquellesignals in anderen Subintervallen im Rahmen;
gekennzeichnet dadurch, daß der Schritt zur Gewinnung des
Lautquellesignals aufweist:
(a) Gewinnung eines Differenzsignals durch Durchführung
einer Tonhöhenprädiktion auf der Grundlage eines vorherigen
Lautquellesignals;
(b) Auswahl eines Vektors des Lautguellesignals in bezug
auf das Differenzsignal aus einem Kodeverzeichnis, in dem
Lautquellesignalvektoren gespeichert sind; und
(c) Addieren des ausgewählten Vektors zum
Tonhöhenprädiktionssignal.
3. Vorrichtung zum Ausführen eines
Sprachkodierungssystems nach Anspruch 1 oder 2.
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1189084A JP2940005B2 (ja) | 1989-07-20 | 1989-07-20 | 音声符号化装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| DE69023402D1 DE69023402D1 (de) | 1995-12-14 |
| DE69023402T2 true DE69023402T2 (de) | 1996-04-04 |
Family
ID=16235051
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE69023402T Expired - Fee Related DE69023402T2 (de) | 1989-07-20 | 1990-07-19 | Verfahren zur Sprachkodierung und -dekodierung. |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US5142584A (de) |
| EP (1) | EP0409239B1 (de) |
| JP (1) | JP2940005B2 (de) |
| DE (1) | DE69023402T2 (de) |
Families Citing this family (176)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5694519A (en) * | 1992-02-18 | 1997-12-02 | Lucent Technologies, Inc. | Tunable post-filter for tandem coders |
| US5255343A (en) * | 1992-06-26 | 1993-10-19 | Northern Telecom Limited | Method for detecting and masking bad frames in coded speech signals |
| SG43128A1 (en) * | 1993-06-10 | 1997-10-17 | Oki Electric Ind Co Ltd | Code excitation linear predictive (celp) encoder and decoder |
| JP2591430B2 (ja) * | 1993-06-30 | 1997-03-19 | 日本電気株式会社 | ベクトル量子化装置 |
| BE1007428A3 (nl) * | 1993-08-02 | 1995-06-13 | Philips Electronics Nv | Transmissiesysteem met reconstructie van ontbrekende signaalmonsters. |
| JP2906968B2 (ja) * | 1993-12-10 | 1999-06-21 | 日本電気株式会社 | マルチパルス符号化方法とその装置並びに分析器及び合成器 |
| JPH07261797A (ja) * | 1994-03-18 | 1995-10-13 | Mitsubishi Electric Corp | 信号符号化装置及び信号復号化装置 |
| JP3087591B2 (ja) * | 1994-12-27 | 2000-09-11 | 日本電気株式会社 | 音声符号化装置 |
| FR2729247A1 (fr) * | 1995-01-06 | 1996-07-12 | Matra Communication | Procede de codage de parole a analyse par synthese |
| DE69615870T2 (de) * | 1995-01-17 | 2002-04-04 | Nec Corp., Tokio/Tokyo | Sprachkodierer mit aus aktuellen und vorhergehenden Rahmen extrahierten Merkmalen |
| JPH08263099A (ja) * | 1995-03-23 | 1996-10-11 | Toshiba Corp | 符号化装置 |
| JP3196595B2 (ja) * | 1995-09-27 | 2001-08-06 | 日本電気株式会社 | 音声符号化装置 |
| US5960386A (en) * | 1996-05-17 | 1999-09-28 | Janiszewski; Thomas John | Method for adaptively controlling the pitch gain of a vocoder's adaptive codebook |
| JP3335841B2 (ja) * | 1996-05-27 | 2002-10-21 | 日本電気株式会社 | 信号符号化装置 |
| DE69737012T2 (de) * | 1996-08-02 | 2007-06-06 | Matsushita Electric Industrial Co., Ltd., Kadoma | Sprachkodierer, sprachdekodierer und aufzeichnungsmedium dafür |
| US6192336B1 (en) | 1996-09-30 | 2001-02-20 | Apple Computer, Inc. | Method and system for searching for an optimal codevector |
| US5794182A (en) * | 1996-09-30 | 1998-08-11 | Apple Computer, Inc. | Linear predictive speech encoding systems with efficient combination pitch coefficients computation |
| CN100583242C (zh) | 1997-12-24 | 2010-01-20 | 三菱电机株式会社 | 声音译码方法和声音译码装置 |
| JP4008607B2 (ja) * | 1999-01-22 | 2007-11-14 | 株式会社東芝 | 音声符号化/復号化方法 |
| EP1221694B1 (de) * | 1999-09-14 | 2006-07-19 | Fujitsu Limited | Sprachkodierer/dekodierer |
| US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
| JP3582589B2 (ja) * | 2001-03-07 | 2004-10-27 | 日本電気株式会社 | 音声符号化装置及び音声復号化装置 |
| US7206739B2 (en) * | 2001-05-23 | 2007-04-17 | Samsung Electronics Co., Ltd. | Excitation codebook search method in a speech coding system |
| ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
| US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
| US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
| JP4827661B2 (ja) * | 2006-08-30 | 2011-11-30 | 富士通株式会社 | 信号処理方法及び装置 |
| US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
| KR101292771B1 (ko) * | 2006-11-24 | 2013-08-16 | 삼성전자주식회사 | 오디오 신호의 오류은폐방법 및 장치 |
| US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
| US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
| US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
| US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
| US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
| US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
| US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
| US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
| US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
| US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
| US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
| US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
| US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
| US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
| US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
| US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
| CN101604525B (zh) * | 2008-12-31 | 2011-04-06 | 华为技术有限公司 | 基音增益获取方法、装置及编码器、解码器 |
| US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
| US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
| US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
| US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
| US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
| US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
| US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
| US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
| US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
| US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
| US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
| US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
| US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
| US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
| US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
| US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
| WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
| US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
| US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
| US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
| US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
| US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
| US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
| US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
| US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
| US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
| US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
| US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
| US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
| US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
| US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
| US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
| US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
| US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
| US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
| US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
| US10019994B2 (en) | 2012-06-08 | 2018-07-10 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
| US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
| US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
| EP2869299B1 (de) * | 2012-08-29 | 2021-07-21 | Nippon Telegraph And Telephone Corporation | Decodierverfahren, decodiervorrichtung, programm und aufzeichnungsmedium dafür |
| US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
| US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
| US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
| DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
| US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
| US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
| US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
| US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
| US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
| US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
| US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
| KR102014665B1 (ko) | 2013-03-15 | 2019-08-26 | 애플 인크. | 지능형 디지털 어시스턴트에 의한 사용자 트레이닝 |
| CN112230878B (zh) | 2013-03-15 | 2024-09-27 | 苹果公司 | 对中断进行上下文相关处理 |
| WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
| CN105027197B (zh) | 2013-03-15 | 2018-12-14 | 苹果公司 | 训练至少部分语音命令系统 |
| WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
| WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
| US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
| WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
| US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
| KR101922663B1 (ko) | 2013-06-09 | 2018-11-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
| CN105265005B (zh) | 2013-06-13 | 2019-09-17 | 苹果公司 | 用于由语音命令发起的紧急呼叫的系统和方法 |
| DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
| US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
| US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
| US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
| US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
| US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
| US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
| US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
| US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
| US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
| US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
| US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
| US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
| US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
| US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
| US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
| US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
| US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
| EP2963645A1 (de) | 2014-07-01 | 2016-01-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Rechner und Verfahren zur Bestimmung der Phasenkorrekturdaten für ein Audiosignal |
| US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
| US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
| US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
| US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
| US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
| US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
| US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
| US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
| US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
| US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
| US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
| US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
| US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
| US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
| US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
| US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
| US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
| US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
| US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
| US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
| US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
| US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
| US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
| US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
| US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
| US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
| US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
| US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
| US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
| US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
| US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
| US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
| US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
| US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
| US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
| US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
| DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
| US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
| US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
| US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
| US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
| US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
| DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
| DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
| DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
| DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
| US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
| DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
| DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
Family Cites Families (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS59116794A (ja) * | 1982-12-24 | 1984-07-05 | 日本電気株式会社 | 音声符号化・復号化装置 |
| CA1255802A (en) * | 1984-07-05 | 1989-06-13 | Kazunori Ozawa | Low bit-rate pattern encoding and decoding with a reduced number of excitation pulses |
| JPS61134000A (ja) * | 1984-12-05 | 1986-06-21 | 株式会社日立製作所 | 音声分析合成方式 |
| JP2844589B2 (ja) * | 1984-12-21 | 1999-01-06 | 日本電気株式会社 | 音声信号符号化方法とその装置 |
| JP2615548B2 (ja) * | 1985-08-13 | 1997-05-28 | 日本電気株式会社 | 高能率音声符号化方式とその装置 |
| FR2579356B1 (fr) * | 1985-03-22 | 1987-05-07 | Cit Alcatel | Procede de codage a faible debit de la parole a signal multi-impulsionnel d'excitation |
| NL8500843A (nl) * | 1985-03-22 | 1986-10-16 | Koninkl Philips Electronics Nv | Multipuls-excitatie lineair-predictieve spraakcoder. |
| US4944013A (en) * | 1985-04-03 | 1990-07-24 | British Telecommunications Public Limited Company | Multi-pulse speech coder |
| GB8621932D0 (en) * | 1986-09-11 | 1986-10-15 | British Telecomm | Speech coding |
| US4896361A (en) * | 1988-01-07 | 1990-01-23 | Motorola, Inc. | Digital speech coder having improved vector excitation source |
| JP2829978B2 (ja) * | 1988-08-24 | 1998-12-02 | 日本電気株式会社 | 音声符号化復号化方法及び音声符号化装置並びに音声復号化装置 |
-
1989
- 1989-07-20 JP JP1189084A patent/JP2940005B2/ja not_active Expired - Fee Related
-
1990
- 1990-07-19 DE DE69023402T patent/DE69023402T2/de not_active Expired - Fee Related
- 1990-07-19 EP EP90113866A patent/EP0409239B1/de not_active Expired - Lifetime
- 1990-07-20 US US07/554,999 patent/US5142584A/en not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| EP0409239B1 (de) | 1995-11-08 |
| EP0409239A3 (en) | 1991-08-07 |
| JP2940005B2 (ja) | 1999-08-25 |
| DE69023402D1 (de) | 1995-12-14 |
| US5142584A (en) | 1992-08-25 |
| JPH0353300A (ja) | 1991-03-07 |
| EP0409239A2 (de) | 1991-01-23 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE69023402T2 (de) | Verfahren zur Sprachkodierung und -dekodierung. | |
| DE69625874T2 (de) | Verfahren und Vorrichtung zur Wiedergabe von Sprachsignalen, zur Dekodierung, zur Sprachsynthese und tragbares Funkendgerät | |
| DE69634055T2 (de) | Verfahren zur Kodierung von akustischen Signalen | |
| DE69322313T2 (de) | C.E.L.P. - Vocoder | |
| DE68912692T2 (de) | Zur Sprachqualitätsmodifizierung geeignetes Übertragungssystem durch Klassifizierung der Sprachsignale. | |
| DE60011051T2 (de) | Celp-transkodierung | |
| DE69900786T2 (de) | Sprachkodierung | |
| DE69420431T2 (de) | Sprachkodierungssystem | |
| DE69928288T2 (de) | Kodierung periodischer sprache | |
| DE60121405T2 (de) | Transkodierer zur Vermeidung einer Kaskadenkodierung von Sprachsignalen | |
| DE69529672T2 (de) | System zur sprachkodierung | |
| DE69613360T2 (de) | Linear-prädiktiver analyse-durch-synthese sprachkodierer | |
| DE60029990T2 (de) | Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer | |
| DE69736446T2 (de) | Audio Dekodierverfahren und -vorrichtung | |
| DE19647298C2 (de) | Kodiersystem | |
| DE69029232T2 (de) | System und Methode zur Sprachkodierung | |
| DE69309557T2 (de) | Verfahren und Vorrichtung zur Sprachkodierung | |
| DE69604526T2 (de) | Verfahren zur Anpassung des Rauschmaskierungspegels in einem Analyse-durch-Synthese-Sprachkodierer mit einem wahrnehmunggebundenen Kurzzeitfilter | |
| DE60124274T2 (de) | Codebuchstruktur und suchverfahren für die sprachkodierung | |
| DE69832358T2 (de) | Verfahren zur Sprachkodierung und -dekodierung | |
| DE69729527T2 (de) | Verfahren und Vorrichtung zur Kodierung von Sprachsignalen | |
| DE68922134T2 (de) | Überträgungssystem für codierte Sprache mit Codebüchern zur Synthetisierung von Komponenten mit niedriger Amplitude. | |
| DE69615870T2 (de) | Sprachkodierer mit aus aktuellen und vorhergehenden Rahmen extrahierten Merkmalen | |
| DE68917584T2 (de) | Zur Sprachqualitätsverbesserung geeignetes Kodiergerät unter Anwendung einer Doppelanlage zur Pulserzeugung. | |
| DE69624449T2 (de) | Vorrichtung zur Sprachkodierung |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 8364 | No opposition during term of opposition | ||
| 8339 | Ceased/non-payment of the annual fee |