DE69619284T3 - Vorrichtung zur Erweiterung der Sprachbandbreite - Google Patents

Vorrichtung zur Erweiterung der Sprachbandbreite

Info

Publication number
DE69619284T3
DE69619284T3 DE1996619284 DE69619284T DE69619284T3 DE 69619284 T3 DE69619284 T3 DE 69619284T3 DE 1996619284 DE1996619284 DE 1996619284 DE 69619284 T DE69619284 T DE 69619284T DE 69619284 T3 DE69619284 T3 DE 69619284T3
Authority
DE
Grant status
Grant
Patent type
Prior art keywords
spectral envelope
means
bandwidth expansion
signal
apparatus according
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE1996619284
Other languages
English (en)
Other versions
DE69619284D1 (de )
DE69619284T2 (de )
Inventor
Yoshihisa Katano-shi Nakatoh
Takeshi Kobe-shi Norimatus
Mineo Neyagawa-shi Tsushima
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Original Assignee
Panasonic Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Grant date
Family has litigation

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00-G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00-G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00-G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients

Description

  • Die vorliegende Erfindung bezieht sich auf eine Vorrichtung zum Erzeugen von breitbandigen Sprachsignalen aus schmalbandigen Sprachsignalen, und insbesondere auf eine Vorrichtung zum Erzeugen von breitbandiger Sprache aus Sprache mit Telephonbandbreite.
  • Unter den früheren Verfahren der Verbreiterung der Sprachbandbreite gibt es das Verfahren, das beschrieben ist in "Recovery of wideband speech from narrowband speech by codebook mapping", Y. Yoshida, T. Abe u. a., Denshi Joho Tsushin Gakkai Shingakuho SP 93-61 (1993-08) (in japanischer Sprache), und das Verfahren, das beschrieben ist in "Statistical recovery of wideband speech from narrowband speech", Y. Cheng, D. O'Shaughnessy, P. Mermelstein, Procced. ICSLP 92 (1992), S. 1577-1580.
  • Gemäß dem Verfahren von Yoshida u. a. waren eine große Anzahl von Codewörtern, z. B. 512 Codes, erforderlich für eine gewissenhafte Verbreiterung der Sprachbandbreite, da das Verfahren auf der Codebuch-Abbildung bzw. dem Codebook-Mapping beruht. Andererseits weist das Verfahren nach Cheng u. a. ein Problem bezüglich der Qualität der synthetisierten Sprache auf, da weißes Rauschen hinzugefügt wird, das nicht mit der ursprünglichen Sprache korreliert.
  • Der Artikel "An algorithm to reconstruct wideband speech from narrowband speech based on codebook mapping", Yoshida u. a., ICLSP 1994, S. 1591-1594, offenbart ferner die Verwendung der Codebuch-Abbildung bei der Erzeugung von breitbandiger Sprache aus schmalbandiger Sprache im Zusammenhang mit der Linearvorhersage-Codierung (LPC = Linearprädikativcodierung). Dieser Artikel offenbart ferner die Filterung der mittels LPC synthetisierten breitbandigen Sprache und das Summieren einer "erhöhtabgetasteten" Version der eingegebenen schmalbandigen Sprache mit dem gefilterten (und leistungsmodifizierten) synthetisierten breitbandigen Sprachsignal, um ein breitbandiges Ausgangssprachsignal zu erzeugen.
  • Es ist daher eine Aufgabe der vorliegenden Erfindung, unter Verwendung einer kleinen Anzahl von Codes ein breitbandiges Sprachsignal aus einem schmalbandigen Sprachsignal zu erzeugen.
  • Eine weitere Aufgabe der vorliegenden Erfindung besteht darin, ein breitbandiges Sprachsignal aus einem Sprachsignal mit Telephonbandbreite zu erzeugen.
  • Eine weitere Aufgabe der vorliegenden Erfindung ist, ein klares breitbandiges Sprachsignal aus einem schmalbandigen Sprachsignal zu erzeugen.
  • Um die obenerwähnten Aufgaben zu lösen, erhält die vorliegende Erfindung ein breitbandiges Sprachsignal aus einem schmalbandigen Sprachsignal durch Hinzuaddieren eines Signals eines Frequenzbereiches außerhalb der Bandbreite des schmalbandigen Sprachsignals. Genauer umfasst die vorliegende Erfindung in einer bandbreiten Verbreiterungsvorrichtung zur Wiedergewinnung einer breitbandigen Sprache aus einer schmalbandigen Sprache:
    eine Bandbreitenverbreiterungseinrichtung zum Extrahieren von Merkmalsgrößen eines schmalbandigen digitalen Eingangssprachsignals und zum Erzeugen eines breitbandigen digitalen Sprachsignals basierend auf den Merkmalsgrößen, wobei die Bandbreitenverbreiterungseinrichtung enthält:
    einen Linearvorhersagecodierungs-(LPC)-Analysator zur Durchführung einer LPC-Analyse des schmalbandigen digitalen Eingangssprachsignals zum Erhalten spektraler Hüllkurvenparameter und eines Restsignals,
    einen Spektralhüllkurvenwandler zum Umwandeln der spektralen Hüllkurvenparameter in diejenigen des breiten Bandes,
    einen Restwandler zum Umwandeln des Restsignals in dasjenige des breiten Bandes, und
    einen LPC-Synthesizer zum Zusammenfügen einer Ausgabe des Spektralhüllkurvenwandlers und einer Ausgabe des Restwandlers, um ein breitbandiges digitales Sprachsignal auszugeben;
    eine Filtereinrichtung zum Extrahieren von in der Bandbreite des schmalbandigen Eingangsdigitalsignals nicht enthaltenen Frequenzkomponenten des von der Bandbreitenverbreiterungseinrichtung ausgegebenen breitbandigen digitalen Sprachsignals; und
    eine Signaladdierereinrichtung zum Addieren des schmalbandigen digitalen Eingangssprachsignals und eines Ausgangssignals der Filtereinrichtung und zum Ausgeben eines synthetisierten breitbandigen digitalen Sprachsignals.
  • Mit dem obigen Aufbau erweitert die vorliegende Erfindung die Bandbreite eines Sprachsignals, ohne die im schmalbandigen Sprachsignal enthaltenen Informationen zu ändern. Ferner kann die vorliegende Erfindung ein synthetisiertes Signal erzeugen, das eine große Korrelation mit dem schmalbandigen Sprachsignal aufweist. Ferner kann die vorliegende Erfindung die Genauigkeit des Systems frei variieren durch Klarstellen des Prozesses der Verbreiterung der Bandbreite.
  • Diese und andere Aufgaben und Merkmale der vorliegenden Erfindung werden deutlich anhand der folgenden Beschreibung in Verbindung mit den bevorzugten Ausführungsformen derselben und mit Bezug auf die beigefügten Zeichnungen, in welchen ähnliche Teile mit ähnlichen Bezugszeichen bezeichnet sind, und in welchen:
  • 1 ein Blockschaltbild ist, das die Vorrichtung zur Verbreiterung der Sprachbandbreite einer Ausführungsform gemäß der vorliegenden Erfindung zeigt;
  • 2 ein Blockschaltbild ist, das einen in 1 gezeigten Spektralhüllkurvenwandler zeigt;
  • 3 ein Blockschaltbild ist, das einen weiteren Spektralhüllkurvenwandler der Ausführungsform gemäß der vorliegenden Erfindung zeigt;
  • 4 ein Blockschaltbild ist, das einen weiteren Spektralhüllkurvenwandler der Ausführungsform gemäß der vorliegenden Erfindung zeigt;
  • 5 ein Blockschaltbild ist, das einen weiteren Spektralhüllkurvenwandler der Ausführungsform gemäß der vorliegenden Erfindung zeigt;
  • 6 ein Blockschaltbild ist, das den in 1 gezeigten Restwandler zeigt;
  • 7 ein Blockschaltbild ist, das die Vorrichtung zum Verbreitern der Sprachbandbreite einer weiteren Ausführungsform gemäß der vorliegenden Erfindung zeigt;
  • 8 eine schematische Zeichnung ist, die die in 1 gezeigte Signalformglättungsvorrichtung zeigt;
  • 9 und 10 einen Graphen für die Anzahl der Unterräume und des mittleren Abstands zwischen Originalwortsprachen und Wortsprachen, die gemäß der vorliegenden Erfindung synthetisiert worden sind, zeigen, wobei 9 die Ergebnisse zeigt, die mittels männlicher Sprachen erhalten werden, und 10 diejenigen zeigt, die mittels weiblicher Sprachen erhalten werden; und
  • 11 die Ergebnisse eines subjektiven Tests für die Bewertung der vorliegenden Erfindung zeigt.
  • Im folgenden werden mit Bezug auf die beigefügten Zeichnungen bevorzugten Ausführungsformen der vorliegenden Erfindung beschrieben.
  • 1 ist ein Blockschaltbild, das die Vorrichtung zum Verbreitern der Sprachbandbreite einer Ausführungsform gemäß der vorliegenden Erfindung zeigt. In 1 bezeichnet 101 einen A/D-Wandler, der ein ursprüngliches schmalbandiges Sprachanalogsignal, das in diesen eingegeben wird, in ein digitales Sprachsignal umsetzt. Die Ausgabe des A/D-Wandlers 101 wird in einen Signaladdierer 103 und einen Additionssignalgenerator 102 eingege ben. Der Additionssignalgenerator 102 extrahiert Merkmale aus dem ausgegebenen Signal des A/D-Wandlers 101, um ein Signal auszugeben, das Frequenzeigenschaften einer Bandbreite aufweist, die breiter ist als die Bandbreite des Eingangs- bzw. Eingabesignals. Der Signaladdierer 103 addiert algebraisch den Ausgang des A/D-Wandlers 101 und den Ausgang des Additionssignalgenerators 102, um das resultierende Signal auszugeben. Ein D/A-Wandler 104 setzt das vom Signaladdierer 103 ausgegebene Digitalsignal in ein auszugebendes Analogsignal um. Die vorliegende Ausführungsform erzeugt mittels dieses Aufbaus ein Ausgangssignal mit einer Bandbreite, die breiter ist als diejenige des ursprünglichen Signals.
  • Als nächstes wird im folgenden der Aufbau des Additionssignalgenerators 102 beschrieben. Eine Bandbreitenverbreiterungsvorrichtung 106 liest das Ausgangssignal des A/D-Wandlers 101, um ein Signal mit einer Bandbreite zu erzeugen, die breiter ist als diejenige des gelesenen Signals. Der Additionssignalgenerator 102 umfasst eine Bandbreitenverbreiterungsvorrichtung 106 und einen Filterabschnitt 105. Das Ausgangssignal der Bandbreitenverbreiterungsvorrichtung 106 wird in einen Filterabschnitt 105 eingegeben. Der Filterabschnitt 105 extrahiert Frequenzkomponenten außerhalb der Bandbreite des ursprünglichen Signals. Wenn z. B. das ursprüngliche Signal Frequenzkomponenten von 300 Hz bis 3.400 Hz aufweist, umfasst die Bandbreite der mittels des Filterabschnitts 105 extrahierten Komponenten das Band unterhalb von 300 Hz und das Band oberhalb von 3.400 Hz.
  • Es ist jedoch nicht notwendig, alle Komponenten außerhalb der Bandbreite des ursprünglichen Signals zu extrahieren. Der Filterabschnitt 105 ist vorzugsweise mittels eines Digitalfilters konfiguriert, das entweder ein FIR-Filter oder ein IIR-Filter sein kann. FIR- und IIR-Filter sind wohlbekannt und können z. B. mittels der Konstruktionen verwirklicht werden, die beschrieben sind in "Instruction to adaptive filters", Simon Hykin, (MacMillan).
  • Als nächstes werden im folgenden der Aufbau und die Operation bzw. der Betrieb der Bandbreitenverbreiterungsvorrichtung 106 beschrieben. In der Bandbreitenverbreiterungsvorrichtung 106 liest zuerst ein LCP-(Linearvorhersagecodierungs)-Analysator 107 das Ausgangssignal des A/D-Wandlers 101, um eine Linearvorhersagecodierungs-(LPC)-Analyse bzw. eine Linearprädikativcodierungs-(LPC)-Analyse durchzuführen. Die LPC-Analyse ist wohlbekannt und kann z. B. mit den Verfahren verwirklicht werden, die beschrieben sind in "Digital processing of speech signals", Lawrence R. Rabiner, (Prentice Hall). Der LPC-Analysator 107 erhält LPC-Koeffizienten, die auch als Linearvorhersagecodierungen bezeichnet werden. Die Anzahl P von LPC-Koeffizienten, d. h. die Dimension P des Merkmalsvektors, der vom LPC-Analysator extrahiert wird, wird in Relation zur Abtastfrequenz gewählt und wird auf 10 oder 16 festgelegt, da die Abtastfrequenz in der Sprachanalyse 16 kHz beträgt. Der LPC-Analysator 107 erhält anschließend mittels Transformationen andere Sätze von Merkmalsgrößen aus den LPC-Koeffizienten. Diese Merkmalsgrößen sind Reflexionskoeffizienten, PARCOR-(Partialkorrelations)-Koeffizienten, Cepstrum-Koeffizienten, LPS-(Linienspektrumspaar)-Koeffizienten und andere, wobei diese alle Spektralhüllkurvenparameter sind, die durch LPC-Koeffizienten erhalten werden. Ferner erhält der LPC-Analysator 107 ein Restsignal aus den LPC-Koeffizienten. Das Restsignal ist die Differenz zwischen dem Ausgangssignal des A/D-Wandlers 101 und dem vorhergesagten Signal, das von einem FIR-Filter ausgegeben wird, der Filterkoeffizienten aufweist, die durch die LPC-Koeffizienten gegeben sind. Das heißt, wenn das Ausgangssignal des A/D-Wandlers 101 mit r(tn) bezeichnet wird, wobei tn einen aktuellen Abtastzeitpunkt bezeichnet und tn–1 (i = 1, 2, ..., p) einen Abtastzeitpunkt i Ereignisse vorher bezeichnet, und die LPC-Koeffizienten mit ai, i = 1, 2, ..., p, bezeichnet werden, ist das Restsignal r(tn) gleich r(tn) = y(tn) – a1y(tn–1) – a2y(tn–2) – ... – apy(tn–p) (1)
  • Die Sprektralhüllkurvenparameter, die vom LPC-Analysator 107 ausgegeben werden, werden mittels eines Spektralhüllkurvenwandlers 109 in Spektralhüllkurvenparameter einer Bandbreite umgesetzt, die breiter ist als die Bandbreite des IIR-Filters, das mit den vom LPC-Analysator 107 ausgegebenen Spektralhüllkurvenparametern konstruiert ist. Andererseits wird das vom LPC-Analysator 107 ausgegebene Restsignal von einem Restwandler 110 in ein Restsignal mit einer Bandbreite umgesetzt, die breiter ist als diejenige des vom LPC-Analysator 107 ausgegebenen Restsignals. Ein LPC-Synthesizer 108 synthetisiert ein digitales Sprachsignal aus der Ausgabe des Spektralhüllkurvenwandlers 109 und aus der Ausgabe des Restwandlers 110.
  • Der Spektralhüllkurvenwandler 109 setzt wie folgt die eingegebenen Spektralhüllkurvenparameter in Spektralhüllkurvenparameter mit breiterer Bandbreite um. Das heißt, unter der Annahme, dass â und fa ^ einen Eingangsmerkmalsvektor mit p Elementen, der die eingegebenen Spektralhüllkurvenparameter umfasst, und einen ausgegebenen oder umgesetzten Merkmalsvektor, der erhalten wird durch die k-te Linearabbildungsfunktion der Matrix
    Figure 00070001
    die Anzahl der Linearabbildungsfunktionen), bezeichnen, ist die Anzahl der linearen Abbildungsfunktionen fa ^ durch die folgende Gleichung gegeben.
  • Figure 00070002
  • Der Spektralhüllkurvenwandler 109 kann ferner mit einem in 2 gezeigten Aufbau verwirklicht werden. Bei diesem Aufbau umfasst der Spektralhüllkurvenwandler 109 ein Spektralhüllkurven-Codebuch 201, das M Spektralhüllkurven-Codes aufweist, z. B. 16 Codes, die jeweils einen Satz von Spektralhüllkurvenparametern darstellen, sowie ein Linearabbildungsfunktions-Codebuch 202, das M Linearabbildungsfunktionen aufweist, die jeweils einem Spektralhüllkurven-Code des Spektralhüllkurven-Codebuches 201 eins-zu-eins entsprechen. Die Spektralhüllkurven-Codes werden erzeugt durch Unterteilen eines mehrdimensionalen Raumes der Spektralhüllkurvenparameter in M Unterräume und Mittelung der Spektralhüllkurvenparameter-Vektoren, die zum jeweiligen Unterraum gehören. Wenn z. B. der j-te Merkmalswert des i-ten Spektralhüllkurvenparameter-Vektors, der zu einem Unterraum gehört, gleich aj ist, dann ist der j-te Merkmalswert cj des Spektralhüllkurven-Codes, der diesem Unterraum entspricht, gleich
    Figure 00070003
    wobei R die Anzahl der Spektralhüllkurvenparameter-Vektoren (Merkmalsvektoren) ist, die zu dem Unterraum gehören.
  • Die vom LPC-Analysator 107 erhaltenen Spektralhüllkurvenparameter werden in eine Abstandberechnungsvorrichtung 203 und eine Linearabbildungsfunktions-Berechnungsvorrichtung 205 eingegeben. Die Abstandberechnungsvorrichtung 203 berechnet den Abstand zwischen den Spektralhüllkurvenparametern a(j), j = 1, ..., p, die vom LPC-Analysator 107 ausgegeben werden, und dem jeweiligen Spektralhüllkurven-Code, der im Spektralhüllkurven-Codebuch 201 gespeichert ist. Wenn der j-te Merkmalswert des i-ten Spektralhüllkurven-Codes gleich cij ist, dann wird der Abstand erhalten mit der Gleichung
    Figure 00080001
    wobei i = 1, ..., M, und wobei M die Anzahl der Spektralhüllkurven-Codes ist, die gleich der Anzahl der unterteilten Unterräume ist. Die berechneten Ergebnisse der Abstandberechnungsvorrichtung 203 werden in einen Komparator bzw. eine Auswählvorrichtung 204 eingegeben. Der Komparator 204 wählt den minimalen Abstand der eingegebenen mehreren Abstände aus und gibt an die Linearabbildungsfunktions-Berechnungsvorrichtung 205 eine Linearabbildungsfunktion aus, die im Lineartransformations-Codebuch 202 gespeichert ist und dem Linearspektralcode entspricht, der den ausgewählten minimalen Abstand liefert. Die Linearabbildungsfunktions-Berechnungsvorrichtung 205 führt eine Berechnung ähnlich der Gleichung (2) durch auf der Grundlage der vom LPC-Analysator 107 ausgegebenen Spektralhüllkurvenparameter und der vom Komparator 204 ausgegebenen Lineartransformation. Der Ausgang bzw. die Ausgabe der Linearabbildungsfunktions-Berechnungsvorrichtung 205 entspricht im vorliegenden Aufbau den umgesetzten Spektralhüllkurvenparametern.
  • Im folgenden wird ein Lernverfahren zum Ermitteln der Spektralhüllkurven-Codes und der entsprechenden Linearabbildungsfunktionen erläutert.
    • (a) Es werden mehrere Wortsprachproben mit breitem Band vorbereitet.
    • (b) Jede dieser Wortsprachproben wird LPC-analysiert, um LPC-Parameter des breiten Bandes zu erhalten.
    • (c) Jede dieser Wortsprachproben wird in eine entsprechende Wortsprachprobe eines schmalen Bandes transformiert mittels Filterung der jeweiligen Originalsprache unter Verwendung eines Tieffrequenzsperrfilters und eines Hochfrequenzsperrfilters. Anschließend wird jede Wortsprachprobe des schmalen Bandes LPC-analysiert, um LPC-Parameter des schmalen Bandes zu erhalten.
    • (d) Anschließend wird ein mehrdimensionaler Raum von Merkmalsvektoren, der so bezüglich der Wortsprachproben des Schmalbandes erhalten wird, in eine geeignete Anzahl von Unterräumen unterteilt. Dies wird so durchgeführt, dass die folgenden Bedingungen erfüllt sind: <d1> Betrachte M Unterräume und berechne einen Mittelwert der Merkmalsvektoren, die zu einem der M Unterräume gehören. Ein Mittenwert, der erhalten wird anhand der Durchschnittswerte von M Unterräumen, liegt so nahe wie möglich an einem Mittenwert, der erhalten wird durch Mitteln aller nun betrachteten Merkmalsvektoren. <d2> Die Anzahl der Merkmalsvektoren, die zu jedem Unterraum gehören, ist im wesentlichen gleich. Das heißt, die Merkmalsvektoren sind gleichmäßig über alle Unterräume verteilt.
    • (e) Wenn die Unterteilung in M Unterräume erreicht ist, werden Linearabbildungsfunktionen für M Unterräume gesucht. Da die Beziehung zwischen jeder Original-Wortsprache und der entsprechenden Schmalband-Wortsprache erhalten worden ist, wird die jeweilige Linearabbildungsfunktion so bestimmt, dass ein Abstand zwischen der Original-Wortsprache des breiten Bandes und einer Wortsprache, die mittels dieser Linearabbildungsfunktion in den entsprechenden Unterraum abgebildet wird, minimiert werden kann.
  • Die 9 und 10 zeigen einen Graphen für die Anzahl der Unterräume bezüglich des durchschnittlichen Abstandes zwischen Original-Wortsprachen und den Wortsprachen, die gemäß der vorliegenden Erfindung synthetisiert worden sind. 9 zeigt die Ergebnisse, die in bezug auf männliche Sprache erhalten werden, während 10 diejenigen zeigt, die in bezug auf weibliche Sprache erhalten werden.
  • Es ist zu beachten, dass der durchschnittliche Abstand bei 16 Unterräumen minimiert ist, wenn 100 Wortsprachproben zum Lernen benutzt wurden. Mit anderen Worten, ein ausreichendes Lernen mit einer ausreichenden Anzahl von Wortsprachproben erfordert eine Anzahl von nicht mehr als 16 Unterräumen. Diese Tatsache zeigt, dass das Verfahren der vorliegenden Erfindung die Verbreiterungsoperation von einem schmalen Band zu einem breiten Band vereinfachen kann, was zu einer schnellen Antwort führt.
  • 3 zeigt einen weiteren Aufbau des Spektralhüllkurvenwandlers 109. Im Aufbau der 3 sind die Konfigurationen des Spektralhüllkurven-Codebuches 201, des Linearabbildungsfunktions-Codebuches 202, der Abstandberechnungsvorrichtung 203 und der Linearabbildungsfunktions-Berechnungsvorrichtung 205 die gleichen wie in 2. Die vom LPC-Analysator 107 ausgegebenen Spektralhüllkurvenparameter werden in die Abstandberechnungsvorrichtung 203 und die Lineartransformations-Berechnungsvorrichtung 205 eingegeben. Die Abstandberechnungsvorrichtung 203 berechnet den Abstand zwischen den vom LPC-Analysator 107 ausgegebenen Spektralhüllkurvenparametern und dem jeweiligen Spektralhüllkurven-Code, der im Spektralhüllkurven-Codebuch 201 gespeichert ist. Die Ergebnisse werden in die Gewichtungsberechnungsvorrichtung 301 eingegeben. Die Gewichtungsberechnungsvorrichtung 301 berechnet eine Gewichtung entsprechend dem jeweiligen Spektralhüllkurven-Code mittels der folgenden Gleichung (5).
    Figure 00100001
    wobei wi die Gewichtung ist, die dem i-ten Spektralhüllkurven-Code zugeordnet ist, und di der Abstand zum i-ten Spektralhüllkurven-Code ist, der von der Abstandberechnungsvorrichtung 203 berechnet wird. Andererseits liest die Linearabbildungsfunktions-Berechnungsvorrichtung 205 die Spektralhüllkurvenparameter â, die vom LPC-Analysator 107 ausgegeben werden, und die jeweilige Linearabbildungsfunktion Bi (i = 1, ..., M), die im Linearabbildungsfunktions-Codebuch 202 gespeichert ist, um die ersteren in Spektralhüllkurvenparameter
    Figure 00110001
    zu transformieren mittels eines Verfahrens, das der Gleichung (2) ähnlich ist. Der Ausgang bzw. die Ausgabe der Gewichtungsberechnungsvorrichtung 301 und der Ausgang bzw. die Ausgabe der Linearabbildungsfunktions-Berechnungsvorrichtung 205 werden in einen Lineartransformationsergebnis-Addierer 302 eingegeben. Der Lineartransformationsergebnis-Addierer 302 berechnet die umgesetzten Spektralhüllkurvenparameter
    Figure 00110002
    mit der folgenden Gleichung (6).
  • Figure 00110003
  • Ein weiterer Aufbau des Spektralhüllkurvenwandlers 109 ist in 4 gezeigt. Bei diesem Aufbau besitzt der Spektralhüllkurvenwandler 109 ein Schmalband-Spektralhüllkurven-Codebuch 401, das mehrere Spektralhüllkurven-Codes mit Schmalband-Spektralhüllkurveninformationen enthält, und ein Breitband-Spektralhüllkurven-Codebuch 402, das Spektralhüllkurven-Codes mit Breitband-Spektralhüllkurveninformationen enthält und eins-zu-eins den Schmalband-Spektralcodes entspricht. Die Spektralhüllkurvenparameter, die vom LPC-Analysator 107 ausgegeben werden, werden in die Abstandberechnungsvorrichtung 203 der 2 eingegeben. Unter Verwendung der Gleichung (4) berechnet die Abstandberechnungsvorrichtung 203 den Abstand zwischen den vom LPC-Analysator 107 ausgegebenen Spektralhüllkurvenparametern und dem jeweiligen Schmalband-Spektralhüllkurven-Code, der im Schmalband-Spektralhüllkurven-Codebuch 401 gespeichert ist, um die berechneten Ergebnisse an den Komparator 403 auszugeben. Die Abstandberechnungsvorrichtung 203 kann die folgende Gleichung (7) anstelle der Gleichung (4) verwenden.
    Figure 00110004
    wobei x ein anderer Wert als 2 sein kann. Vorzugsweise kann x zwischen 2 und 1,5 liegen. Der Komparator 403 extrahiert aus dem Breitband-Spektralhüllkurven-Codebuch 402 den Breitband-Spektralhüllkurven-Code, der dem Schmalband-Spektralhüllkurven-Code entspricht, der den minimalen Wert des Abstandes liefert, der von der Abstandberechnungsvorrichtung 203 berechnet worden ist. Der extrahierte Breitband-Spektralhüllkurven-Code wird im vorliegenden Aufbau zu den umgesetzten Spektralhüllkurvenparametern gemacht.
  • Ein weiterer Aufbau des Spektralhüllkurvenwandlers 109 ist in 5 gezeigt. Bei diesem Aufbau wird ein neuronales Netz verwendet, um die Spektralhüllkurvenparameter umzusetzen. Neuronale Netze sind wohlbekannte Techniken und können z. B. verwirklicht werden mit den Verfahren, die beschrieben sind in "Introduction to computing with neural nets", E. D. Lipmann, IEEE ASSP Magazine (1997.4), S. 4-22. In 5 ist ein Beispiel gezeigt. Die vom LPC-Analysator 7 ausgegebenen Spektralhüllkurvenparameter werden in ein neuronales Netz 501 eingegeben. Wenn die eingegebenen Spektralhüllkurvenparameter a(i), i = 1, ..., p, sind, dann sind die umgesetzten Spektralhüllkurvenparameter im vorliegenden Verfahren fa(k)
    Figure 00120001
    wobei wij und wjk jeweils die Gewichtungen zwischen der i-ten Schicht und der j-ten Schicht und die Gewichtungen zwischen der j-ten Schicht und der k-ten Schicht sind. Neben dem in 5 gezeigten dreischichtigen Aufbau kann das neuronale Netz auch mit einer größeren Anzahl von Schichten konstruiert werden. Ferner können sich die Gleichungen für die Berechnung von (8) und (9) unterscheiden.
  • Als nächstes wird im folgenden mit Bezug auf 6 ein bevorzugtes Beispiel des Restwandlers 110 beschrieben. Das vom LPC-Analysator 107 ausgegebene Restsignal wird in eine Leistungsberechnungsvorrichtung 601 und einen nichtlinearen Prozessor 602 eingegeben. Die Leistungsberechnungsvorrichtung 601 berechnet die Leistung des Restsignals durch Summieren der Leistungen der jeweiligen Werte des Restsignals und Dividieren des Ergebnisses durch die Anzahl der Abtastwerte. Genauer wird die Leistung g berechnet durch
    Figure 00130001
    wobei r(i), i = 1, ..., p, die Restsignalwerte sind. Der nichtlineare Prozessor 602 führt eine nichtlineare Verarbeitung des Restsignals durch, um ein verarbeitetes Restsignal zu erhalten. Das verarbeitete Restsignal wird in eine Leistungsberechnungsvorrichtung 603 und eine Verstärkungsfaktorsteuervorrichtung 604 eingegeben. Die Verstärkungsfaktorsteuervorrichtung 604 multipliziert das verarbeitete Restsignal, das vom nichtlinearen Prozessor 602 ausgegeben wird, mit dem Verhältnis der von der Leistungsberechnungsvorrichtung 601 erhaltenen Leistung zu der von der Leistungsberechnungsvorrichtung 603 erhaltenen Leistung. Das heißt, wenn die vom nichtlinearen Prozessor 602 verarbeiteten Restsignalwerte gleich nr(i), i = 1, ..., p, sind, dann werden die Restsignalwerte fnr(i), i = 1, ..., p, die von der Verstärkungsfaktorsteuervorrichtung ausgegeben werden, berechnet durch fnr(i) = g1/g2∙nr(i), (11)wobei g1 die von der Leistungsberechnungsvorrichtung 601 erhaltene Leistung ist und g2 die von der Leistungsberechnungsvorrichtung 603 erhaltene Leistung ist. Diese fn(i) sind die Ausgabe des Restwandlers 110 des vorliegenden Beispiels.
  • Der nichtlineare Prozessor 602 kann verwirklicht werden unter Verwendung einer Vollwellengleichrichtung oder einer Halbwellengleichrichtung. Alternativ kann der nichtlineare Prozessor 602 verwirklicht werden durch Setzen eines Schwellenwertes und Fixieren der Restsignalwerte auf dem Schwellenwert, wenn die Größe der Original-Restsignalwerte den Schwellenwert überschreitet. In diesem Fall wird der Schwellenwert vorzugsweise ermittelt auf der Grundlage der von der Leistungsberechnungsvorrichtung 601 erhaltenen Leistung. Der Schwellenwert wird z. B. auf 0,8∙g1 gesetzt, wobei g1 die von der Leistungsberechnungsvorrichtung 601 ausgegebene Leistung ist. Andere Verfahren zur Berechnung des Schwellenwertes sind ebenfalls möglich.
  • Ein weiterer Aufbau des nichtlinearen Prozessors 602 kann unter Verwendung des Mehrfachimpulsverfahrens verwirklicht werden. Das Mehrfachimpulsverfahren ist wohlbekannt, und z. B. beschrieben in "A new model of LPC excitation for producing natural sound speech at very low bit rates", B. S. Atal U. a., Proceed. ICASSP (1982), S. 614-617. Bei diesem Aufbau erzeugt der nichtlineare Prozessor 602 Mehrfachimpulse, um die nichtlineare Verarbeitung des vom LPC-Analysator 107 erhaltenen Restsignals durchzuführen.
  • Im folgenden wird eine zweite Ausführungsform gemäß der vorliegenden Erfindung beschrieben. Wie in 7 gezeigt, weist die vorliegende Ausführungsform eine Signalformglättungsvorrichtung 111 zwischen der Bandbreitenverbreiterungsvorrichtung 106 und dem Filterabschnitt 105 der 1 auf.
  • Der Aufbau der Signalformglättungsvorrichtung 111 wird im folgenden unter Verwendung seiner schematischen Darstellung in 8 beschrieben. Wenn das Ausgangssignal der Bandbreitenverbreiterungsvorrichtung 106 für jede ermittelte Zeitperiode (Rahmen- bzw. Framelänge) erhalten wird, besteht eine Unstetigkeit zwischen den aufeinanderfolgenden Frames, wenn die nachfolgenden Framesignale einfach mit dem Ausgang des Filters 105 unverändert verbunden werden. Im Aufbau der zweiten Ausführungsform wird die Unstetigkeit zwischen den Framesignalen gemildert durch die Signalformglättungsvorrichtung 111. Wenn die Bandbreitenverbreitungsvorrichtung 106 so konstruiert ist, dass sie die aufeinanderfolgenden Framesignale zeitlich überlappt, werden die ausgegebenen Framesignale wie in (a) und (d) der 8 gezeigt überlappt. Die Signalformglättungsvorrichtung 111 multipliziert die Ausgangssignale der Bandbreitenverbreiterungsvorrichtung 106 mit den Signalformglättungsfunktionen, um diese über den Zeitbereich zu addieren, wie in 8 gezeigt ist. Genauer werden die ausgegebenen Framesignale (a) und (d) der Bandbreitenverbreiterungsvorrichtung 106 jeweils mit den Glättungsfunktionen (b) und (e) der 8 multipliziert. Die resultierenden Signale (c) und (f) werden anschließend über den Zeitbereich addiert, um das Signal (g) auszugeben. Es seien der Ausgang der Signalformglättungsvorrichtung 111 und der Ausgang der Bandbreitenverbreiterungsvorrichtung 106 jeweils D(N,x) bzw. F(N,x), wobei N die Framenummer und x die Zeit innerhalb jedes Frames ist. Es seien die Signalformglättungsgewichtungsfunktionen für den vergangenen Frame und den aktuellen Frame jeweils CFB bzw. CFF, so dass gilt D(N,x) = CFB(x)∙F(N-1,x) + CFF(x)∙F(N,x). (12)
  • Vorzugsweise sind CFB und CFF definiert als CFB(x) = (-2∙x + L)/L (13) CFF(x) = 2∙x/L (14)wobei L die Framelänge ist.
  • 11 zeigt die Ergebnisse eines subjektiven Tests zur Bewertung der vorliegenden Erfindung. Die Testbedingungen sind folgende:
    • (a) Inhalt des Tests Hörtest einer Originalsprache eines schmalen Bandes und einer entsprechenden Sprache des breiten Bandes, das gemäß der vorliegenden Erfindung wiedergewonnen worden ist.
    • (b) Bewertungsweise Sieben Stufen bewerten, ob die synthetisierte Sprache einen verbreiterten Frequenzbereich im Vergleich zur Originalsprache des schmalen Bandes aufweist.
      *0 Punkte: nicht unterscheidbar,
      *1 (-1) Punkt: etwas unterscheidbar von der Originalsprache (die synthetisierte Sprache),
      *2 (-2) Punkte: unterscheidbar von der Originalsprache (die synthetisierte Sprache), und
      *3 (-3) Punkte: deutlich unterscheidbar von der Originalsprache (die synthetisierte Sprache),
    • (c) Zahl der Testpersonen 12 Personen einschließlich Phonetikforschern.
    • (d) Zahl der verwendeten Linearabbildungsfunktionen 16 Linearabbildungsfunktionen wurden erhalten durch Lernen von 100 Wortsprachproben.
    • (e) Für den Test verwendete Probendaten 10 Sätze von einem einzigen Sprecher mit jeweils einer Länge von etwa 10 Sekunden.
    • (f) Verwendeter Sprecher, monoraler Sprecher Der Test wurde durchgeführt, indem jede Person einen Satz von ursprünglichen und synthetisierten Sprachproben hören mußte, ohne zu wissen, welche die ursprüngliche ist. Jede Person hat nach dem Hören jedes einzelnen Satzes gewertet. Die Abszissenachse in 11 bezeichnet die Werte der sieben Bewertungsstufen, wobei diejenige des Scheitels die Werte der Summierung von 12 Personen bezeichnet.
  • 11 zeigt, dass die gemäß der vorliegenden Erfindung synthetisierten Sprachproben ein deutlich verbreitertes Empfinden bezüglich einer ursprünglichen schmalbandigen Sprache aufweisen.
  • Es ist zu beachten, dass A/D-Wandler und D/A-Wandler dann weggelassen werden können, wenn das für die Verarbeitung eingegebene Sprachsignal ein digitales Sprachsignal ist.
  • Obwohl die vorliegende Erfindung in Verbindung mit ihren bevorzugten Ausführungsformen und mit Bezug auf die beigefügten Zeichnungen genauer beschrieben worden ist, ist klar, dass verschiedene Änderungen und Abwandlungen für Fachleute offensichtlich sind. Der Umfang der Erfindung ist nur durch die beigefügten Ansprüche beschränkt.

Claims (16)

  1. Bandbreitenverbreiterungsvorrichtung zur Wiederherstellung einer breitbandigen Sprache aus einer schmalbandigen Sprache mit: einer Bandbreitenverbreiterungseinrichtung (106) zum Extrahieren von Merkmalsgrößen eines schmalbandigen digitalen Eingangssprachsignals und zum Erzeugen eines breitbandigen digitalen Sprachsignals basierend auf den Merkmalsgrößen, wobei die Bandbreitenverbreiterungseinrichtung enthält einen Linearprädikativcodierungs-(LPC)-Analysator (107) zur Durchführung einer LPC-Analyse des schmalbandigen digitalen Eingangssprachsignals zum Erhalten spektraler Hüllkurvenparameter und eines Restsignals, einen Spektralhüllkurvenwandler (109) zum Umwandeln der spektralen Hüllkurvenparameter in diejenigen des breiten Bandes, einen Restwandler (110) zum Umwandeln des Restsignals in dasjenige des breiten Bandes, und einen LPC-Synthesizer (108) zum Zusammenfügen einer Ausgabe des Spektralhüllkurvenwandlers (109) und einer Ausgabe des Restwandlers (110), um ein breitbandiges digitales Sprachsignal auszugeben; wobei die Bandbreitenverbreiterungsvorrichtung des weiteren umfasst: eine Filtereinrichtung (105) zum Extrahieren von in der Bandbreite des schmalbandigen Eingangsdigitalsignals nicht enthaltenen Frequenzkomponenten des von der Bandbreitenverbreiterungseinrichtung (106) ausgegebenen breitbandigen digitalen Sprachsignals; und eine Signaladdierereinrichtung (103) zum Addieren des schmalbandigen digitalen Eingangssprachsignals und eines Ausgangssignals der Filtereinrichtung (105) und zum Ausgeben eines synthetisierten breitbandigen digitalen Sprachsignals.
  2. Bandbreitenverbreiterungsvorrichtung nach Anspruch 1, wobei eine zur Umwandlung der spektralen Hüllkurvenparameter in spektrale Hüllkurvenparameter des breiten Bandes erforderliche Information erhalten wird durch Lernen entsprechender Beziehungen zwischen einem breitbandigen Sprachsignal und einem in dem breitbandigen Sprachsignal enthaltenen schmalbandigen Sprachsignal für eine Vielzahl von Sprachdatenproben.
  3. Bandbreitenverbreiterungsvorrichtung nach Anspruch 1 oder Anspruch 2, wobei der spektrale Hüllkurvenwandler (109) die spektralen Hüllkurvenparameter in diejenigen des breiten Bandes unter Verwendung linearer Abbildungsfunktionen umwandelt.
  4. Bandbreitenverbreiterungsvorrichtung nach Anspruch 1 oder Anspruch 2, wobei der Spektralhüllkurvenwandler (109) umfasst: ein Spektralhüllkurvencodebuch (201) mit einer Vielzahl von Spektralhüllkurvencodes jeweils repräsentativ für eine Gruppe von spektralen Hüllkurvenparameter, ein Linearabbildungsfunktionscodebuch (202) mit einer Vielzahl von linearen Abbildungsfunktionen, die jeweils einem der Vielzahl von Spektralhüllkurvencodes in einem 1-zu-1-Verhältnis entsprechen, eine Abstandsberechnungseinrichtung (203) zum Berechnen eines Abstands zwischen den spektralen Hüllkurvenparametern und jedem in dem Spektralhüllkurvencodebuch (201) enthaltenen Spektralhüllkurvencode, eine Auswahleinrichtung (204) zum Auswählen einer linearen Abbildungsfunktion in dem Linearabbildungsfunktionscodebuch (202), wobei die eine lineare Abbildungsfunktion demjenigen Spektralhüllkurvencode entspricht, der den minimalen Abstand unter den durch die Abstandsberechnungseinrichtung (203) berechneten Abständen erzeugt, und eine Linearabbildungsfunktionsberechnungseinrichtung (205) zum linearen Abbilden der spektralen Hüllkurvenparameter unter Verwendung der einen durch die Auswahleinrichtung (204) ausgewählten linearen Abbildungsfunktion.
  5. Bandbreitenverbreiterungsvorrichtung nach Anspruch 1 oder Anspruch 2, wobei der Spektralhüllkurvenwandler (109) umfasst: ein Spektralhüllkurvencodebuch (201) mit einer Vielzahl von spektralen Hüllkurvencodes jeweils repräsentativ für eine Gruppe spektraler Hüllkurvenparameter, ein Linearabbildungsfunktionscodebuch (202) mit einer Vielzahl von linearen Abbildungsfunktionen, die jeweils einem der Vielzahl von Spektralhüllkurvencodes in einem 1-zu-1-Verhältnis entsprechen, eine Abstandsberechnungseinrichtung (203) zum Berechnen eines Abstands zwischen dem spektralen Hüllkurvenparameter und jedem in dem Spektralhüllkurvencodebuch (201) enthaltenen Spektralhüllkurvencode, eine Gewichtungsberechnungseinrichtung (301) zum Berechnen von Gewichtungen für jeden Spektralhüllkurvencode basierend auf entsprechenden durch die Abstandsberechnungseinrichtung (203) berechneten Abständen, eine Linearabbildungsfunktionsberechnungseinrichtung (205) zum Umwandeln einer jeden der in dem Linearabbildungsfunktionscodebuch (202) enthaltenen linearen Abbildungsfunktionen unter Verwendung der spektralen Hüllkurvenparameter, und einen Lineartransformationsergebnisaddierer (203) zum Summieren der entsprechend den durch die Gewichtungsberechnungseinrichtung berechneten Gewichten gewichteten Ausgaben der Linearabbildungsfunktionsberechnungseinrichtung.
  6. Bandbreitenverbreiterungsvorrichtung nach Anspruch 1 oder Anspruch 2, wobei der Spektralhüllkurvenwandler (109) umfasst: ein Schmalbandspektralhüllkurvencodebuch (401) mit einer Vielzahl von Schmalbandspektralhüllkurvencodes jeweils repräsentativ für eine Gruppe von Spektralhüllkurvenparametern, ein Breitbandspektralhüllkurvencodebuch (402) mit einer Vielzahl von Breitbandspektralhüllkurvencodes, die jeweils einem der Schmalbandspektralhüllkurvencodes in einem 1-zu-1-Verhältnis entsprechen, eine Abstandsberechnungseinrichtung (203) zum Berechnen des Abstands zwischen den spektralen Hüllkurvenparametern und jedem der Schmalbandspektralhüllkurvencodes, und einen Selektor (403) zum Auswählen und Ausgeben eines der in dem Breitspektralhüllkurvencodebuch (402) enthaltenen Breitbandspektralhüllkunrencodes, der demjenigen Schmalbandspektralhüllkurvencode entspricht, der den minimalen Abstand unter den durch die Abstandsberechnungseinrichtung (203) berechneten Abständen erzeugt.
  7. Bandbreitenverbreiterungsvorrichtung nach einer der vorhergehenden Ansprüche, wobei der Restwandler (110) eine Breitbandverbreiterungsverarbeitung für das von dem LPC-Analysator (107) ausgegebene Restsignal unter Verwendung einer nichtlinearen Verarbeitung durchführt.
  8. Bandbreitenverbreiterungsvorrichtung nach Anspruch 7, wobei der Restwandler (110) eine Vollwellengleichrichtungsverarbeitung bezüglich der Restsignalausgabe des LPC-Analysators (107) durchführt, um ein Breitbandrestsignal zu erhalten.
  9. Bandbreitenverbreiterungsvorrichtung nach Anspruch 7, wobei der Restwandler (110) eine Halbwellengleichrichtungsverarbeitung bezüglich der Restsignalausgabe des LPC-Analysators (107) durchführt, um ein Breitbandrestsignal zu erhalten.
  10. Bandbreitenverbreiterungsvorrichtung nach Anspruch 7, wobei der Restwandler (110) aus dem von dem LPC-Analysator (107) ausgegebenen Restsignal unter Verwendung des Mehrfachpulsverfahrens eine Impulsfolge erzeugt, um ein Breitbandrestsignal zu erhalten.
  11. Bandbreitenverbreiterungsvorrichtung nach einem der vorhergehenden Ansprüche, wobei die spektralen Hüllkurvenparameter als Ergebnis von LPC-Analysen erhaltenen Reflektionskoeffizienten sind.
  12. Bandbreitenverbreiterungsvorrichtung nach einem der Ansprüche 1 bis 10, wobei die spektralen Hüllkurvenparameter durch eine LPC-Analyse erhaltenen lineare prädiktive Kodierungen sind.
  13. Bandbreitenverbreiterungsvorrichtung nach einem der Ansprüche 1 bis 10, wobei die spektralen Hüllkurvenparameter als Ergebnisse einer LPC-Analyse erhaltenen Cepstrum-Koeffizienten sind.
  14. Bandbreitenverbreiterungsvorrichtung nach einem der vorhergehenden Ansprüche, des weiteren umfassend eine Wellenformglättungseinrichtung (111) zum Durchführen einer Wellenformglättungsverarbeitung bezüglich der Ausgabe der Bandbreitenverbreiterungseinrichtung (106) und wobei die Filtereinrichtung (105) die Ausgabe der Wellenformglättungseinrichtung (111) als Eingabe empfängt.
  15. Bandbreitenverbreiterungsvorrichtung nach einem der vorhergehenden Ansprüche, wobei die Filtereinrichtung (105) ein FIR-Filter ist.
  16. Bandbreitenverbreiterungsvorrichtung nach einem der Ansprüche 1 bis 14, wobei die Filtereinrichtung (105) ein Filter ist.
DE1996619284 1995-03-13 1996-03-12 Vorrichtung zur Erweiterung der Sprachbandbreite Expired - Lifetime DE69619284T3 (de)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP5255895A JP3189614B2 (ja) 1995-03-13 1995-03-13 音声帯域拡大装置
JP5255895 1995-03-13
JP11042595 1995-05-09
JP11042595A JP2798003B2 (ja) 1995-05-09 1995-05-09 音声帯域拡大装置および音声帯域拡大方法
JP25844895A JP2956548B2 (ja) 1995-10-05 1995-10-05 音声帯域拡大装置
JP25844895 1995-10-05

Publications (2)

Publication Number Publication Date
DE69619284T2 DE69619284T2 (de) 2002-10-10
DE69619284T3 true DE69619284T3 (de) 2006-04-27

Family

ID=27294668

Family Applications (2)

Application Number Title Priority Date Filing Date
DE1996619284 Expired - Lifetime DE69619284T3 (de) 1995-03-13 1996-03-12 Vorrichtung zur Erweiterung der Sprachbandbreite
DE1996619284 Expired - Lifetime DE69619284D1 (de) 1995-03-13 1996-03-12 Vorrichtung zur Erweiterung der Sprachbandbreite

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE1996619284 Expired - Lifetime DE69619284D1 (de) 1995-03-13 1996-03-12 Vorrichtung zur Erweiterung der Sprachbandbreite

Country Status (3)

Country Link
US (1) US5978759A (de)
EP (1) EP0732687B2 (de)
DE (2) DE69619284T3 (de)

Families Citing this family (78)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4132154B2 (ja) * 1997-10-23 2008-08-13 ソニー株式会社 音声合成方法及び装置、並びに帯域幅拡張方法及び装置
US7392180B1 (en) 1998-01-09 2008-06-24 At&T Corp. System and method of coding sound signals using sound enhancement
US6182033B1 (en) 1998-01-09 2001-01-30 At&T Corp. Modular approach to speech enhancement with an application to speech coding
EP0929065A3 (de) * 1998-01-09 1999-12-22 AT&amp;T Corp. Modulare Sprachverbesserung mit Anwendung an der Sprachkodierung
EP0994464A1 (de) * 1998-10-13 2000-04-19 Philips Electronics N.V. Verfahren und Vorrichtung zur Vergrösserung der Bandbreite von einem schmalbandigen Signal und solch eine Vorrichtung aufweisende Telefoneinrichtung
US6539355B1 (en) * 1998-10-15 2003-03-25 Sony Corporation Signal band expanding method and apparatus and signal synthesis method and apparatus
CA2252170A1 (en) 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
KR20000047944A (ko) * 1998-12-11 2000-07-25 이데이 노부유끼 수신장치 및 방법과 통신장치 및 방법
EP1126620B1 (de) * 1999-05-14 2005-12-21 Matsushita Electric Industrial Co., Ltd. Verfahren und vorrichtung zur banderweiterung eines audiosignals
JP4792613B2 (ja) * 1999-09-29 2011-10-12 ソニー株式会社 情報処理装置および方法、並びに記録媒体
DE69931783T2 (de) * 1999-10-18 2007-06-14 Lucent Technologies Inc. Verbesserung bei digitaler Kommunikationseinrichtung
JP2003514263A (ja) * 1999-11-10 2003-04-15 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ マッピング・マトリックスを用いた広帯域音声合成
GB2357682B (en) * 1999-12-23 2004-09-08 Motorola Ltd Audio circuit and method for wideband to narrowband transition in a communication device
FI119576B (fi) * 2000-03-07 2008-12-31 Nokia Corp Puheenkäsittelylaite ja menetelmä puheen käsittelemiseksi, sekä digitaalinen radiopuhelin
EP1134728A1 (de) * 2000-03-14 2001-09-19 Philips Electronics N.V. Rückgewinnung der Niederfrequenz-Komponenten eines Sprachsignals vom schmalbandigen Signal
US7330814B2 (en) * 2000-05-22 2008-02-12 Texas Instruments Incorporated Wideband speech coding with modulated noise highband excitation system and method
EP1290681A1 (de) * 2000-05-26 2003-03-12 Philips Electronics N.V. Sender zum übertragen eines schmalbandig kodierten sendesignals, und empfänger zur erweiterung der bandbreite des kodierten signals auf der empfangsseite, und ein dementsprechendes übertragungs- und empfangsverfahren sowie entsprechende vorrichtung
US7283961B2 (en) * 2000-08-09 2007-10-16 Sony Corporation High-quality speech synthesis device and method by classification and prediction processing of synthesized sound
DE60134861D1 (de) * 2000-08-09 2008-08-28 Sony Corp Vorrichtung zur verarbeitung von sprachdaten und verfahren der verarbeitung
DE10041512B4 (de) * 2000-08-24 2005-05-04 Infineon Technologies Ag Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
US6615169B1 (en) * 2000-10-18 2003-09-02 Nokia Corporation High frequency enhancement layer coding in wideband speech codec
JP2004513399A (ja) * 2000-11-09 2004-04-30 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィKoninklijke Philips Electronics N.V. 知覚品質を高める電話スピーチの広帯域拡張
US20020128839A1 (en) * 2001-01-12 2002-09-12 Ulf Lindgren Speech bandwidth extension
JP2002268698A (ja) * 2001-03-08 2002-09-20 Nec Corp 音声認識装置と標準パターン作成装置及び方法並びにプログラム
JP2003044098A (ja) * 2001-07-26 2003-02-14 Nec Corp 音声帯域拡張装置及び音声帯域拡張方法
DE50113277D1 (de) * 2001-09-28 2007-12-27 Nokia Siemens Networks Spa Sprachextender und verfahren zum schätzen eines breitbandigen sprachsignals anhand eines schmalbandigen sprachsignals
US7512535B2 (en) 2001-10-03 2009-03-31 Broadcom Corporation Adaptive postfiltering methods and systems for decoding speech
US6895375B2 (en) 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
US6988066B2 (en) * 2001-10-04 2006-01-17 At&T Corp. Method of bandwidth extension for narrow-band speech
JP3579047B2 (ja) * 2002-07-19 2004-10-20 日本電気株式会社 オーディオ復号装置と復号方法およびプログラム
JP3879922B2 (ja) 2002-09-12 2007-02-14 ソニー株式会社 信号処理システム、信号処理装置および方法、記録媒体、並びにプログラム
US7486719B2 (en) * 2002-10-31 2009-02-03 Nec Corporation Transcoder and code conversion method
JP4433668B2 (ja) 2002-10-31 2010-03-17 日本電気株式会社 帯域拡張装置及び方法
US7519530B2 (en) 2003-01-09 2009-04-14 Nokia Corporation Audio signal processing
US20050267739A1 (en) * 2004-05-25 2005-12-01 Nokia Corporation Neuroevolution based artificial bandwidth expansion of telephone band speech
US9355651B2 (en) 2004-09-16 2016-05-31 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US9240188B2 (en) 2004-09-16 2016-01-19 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US8938390B2 (en) * 2007-01-23 2015-01-20 Lena Foundation System and method for expressive language and developmental disorder assessment
JP4963963B2 (ja) * 2004-09-17 2012-06-27 パナソニック株式会社 スケーラブル符号化装置、スケーラブル復号装置、スケーラブル符号化方法およびスケーラブル復号方法
EP1638083B1 (de) * 2004-09-17 2009-04-22 Harman Becker Automotive Systems GmbH Bandbreitenerweiterung von bandbegrenzten Tonsignalen
EP1801785A4 (de) * 2004-10-13 2010-01-20 Panasonic Corp Skalierbarer codierer, skalierbarer decodierer und skalierbares codierungsverfahren
CN101048814B (zh) * 2004-11-05 2011-07-27 松下电器产业株式会社 编码装置、解码装置、编码方法及解码方法
KR100707174B1 (ko) 2004-12-31 2007-04-13 삼성전자주식회사 광대역 음성 부호화 및 복호화 시스템에서 고대역 음성부호화 및 복호화 장치와 그 방법
JP5046654B2 (ja) 2005-01-14 2012-10-10 パナソニック株式会社 スケーラブル復号装置及びスケーラブル復号方法
DE602005013906D1 (de) 2005-01-31 2009-05-28 Harman Becker Automotive Sys Bandbreitenerweiterung eines schmalbandigen akustischen Signals
ES2358125T3 (es) 2005-04-01 2011-05-05 Qualcomm Incorporated Procedimiento y aparato para un filtrado de antidispersión de una señal ensanchada de excitación de predicción de velocidad de ancho de banda.
WO2006116025A1 (en) * 2005-04-22 2006-11-02 Qualcomm Incorporated Systems, methods, and apparatus for gain factor smoothing
US7698143B2 (en) * 2005-05-17 2010-04-13 Mitsubishi Electric Research Laboratories, Inc. Constructing broad-band acoustic signals from lower-band acoustic signals
US8189724B1 (en) 2005-10-26 2012-05-29 Zenith Electronics Llc Closed loop power normalized timing recovery for 8 VSB modulated signals
US8542778B2 (en) * 2005-10-26 2013-09-24 Zenith Electronics Llc Closed loop power normalized timing recovery for 8 VSB modulated signals
WO2007064256A3 (en) 2005-11-30 2007-12-13 Ericsson Telefon Ab L M Efficient speech stream conversion
US20080300866A1 (en) * 2006-05-31 2008-12-04 Motorola, Inc. Method and system for creation and use of a wideband vocoder database for bandwidth extension of voice
US7987089B2 (en) * 2006-07-31 2011-07-26 Qualcomm Incorporated Systems and methods for modifying a zero pad region of a windowed frame of an audio signal
JP4827675B2 (ja) * 2006-09-25 2011-11-30 三洋電機株式会社 低周波帯域音声復元装置、音声信号処理装置および録音機器
KR101565919B1 (ko) 2006-11-17 2015-11-05 삼성전자주식회사 고주파수 신호 부호화 및 복호화 방법 및 장치
EP1947644A1 (de) 2007-01-18 2008-07-23 Harman Becker Automotive Systems GmbH Verfahren und Vorrichtung zur Bereitstellung eines Tonsignals mit erweiterter Bandbreite
CA2676380C (en) 2007-01-23 2015-11-24 Infoture, Inc. System and method for detection and analysis of speech
EP1970900A1 (de) * 2007-03-14 2008-09-17 Harman Becker Automotive Systems GmbH Verfahren und Vorrichtung zum Bereitstellen eines Codebuchs für die Bandbreitenerweiterung eines akustischen Signals
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
US8688441B2 (en) * 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
US8433582B2 (en) * 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
US8463412B2 (en) * 2008-08-21 2013-06-11 Motorola Mobility Llc Method and apparatus to facilitate determining signal bounding frequencies
US8831958B2 (en) * 2008-09-25 2014-09-09 Lg Electronics Inc. Method and an apparatus for a bandwidth extension using different schemes
JP5423684B2 (ja) 2008-12-19 2014-02-19 富士通株式会社 音声帯域拡張装置及び音声帯域拡張方法
US8463599B2 (en) * 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
US8484020B2 (en) 2009-10-23 2013-07-09 Qualcomm Incorporated Determining an upperband signal from a narrowband signal
US8929568B2 (en) 2009-11-19 2015-01-06 Telefonaktiebolaget L M Ericsson (Publ) Bandwidth extension of a low band audio signal
WO2011080855A1 (ja) * 2009-12-28 2011-07-07 三菱電機株式会社 音声信号復元装置および音声信号復元方法
CN102870156B (zh) * 2010-04-12 2015-07-22 飞思卡尔半导体公司 音频通信设备、输出音频信号的方法和通信系统
CA2800208C (en) * 2010-05-25 2016-05-17 Nokia Corporation A bandwidth extender
US10043535B2 (en) 2013-01-15 2018-08-07 Staton Techiya, Llc Method and device for spectral expansion for an audio signal
US10045135B2 (en) 2013-10-24 2018-08-07 Staton Techiya, Llc Method and device for recognition and arbitration of an input connection
CN103594091B (zh) * 2013-11-15 2017-06-30 努比亚技术有限公司 一种移动终端及其语音信号处理方法
US10043534B2 (en) 2013-12-23 2018-08-07 Staton Techiya, Llc Method and device for spectral expansion for an audio signal
JP6281336B2 (ja) * 2014-03-12 2018-02-21 沖電気工業株式会社 音声復号化装置及びプログラム
EP2980796A1 (de) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zur Verarbeitung eines Audiosignals, Audiodecodierer und Audiocodierer
CN107112025A (zh) * 2014-09-12 2017-08-29 美商楼氏电子有限公司 用于恢复语音分量的系统和方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0331857B1 (de) * 1988-03-08 1992-05-20 International Business Machines Corporation Verfahren und Einrichtung zur Sprachkodierung mit niedriger Datenrate
US5293448A (en) * 1989-10-02 1994-03-08 Nippon Telegraph And Telephone Corporation Speech analysis-synthesis method and apparatus therefor
JP2779886B2 (ja) * 1992-10-05 1998-07-23 日本電信電話株式会社 広帯域音声信号復元方法
US5455888A (en) * 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus
DE4343366C2 (de) * 1993-12-18 1996-02-29 Grundig Emv Verfahren und Schaltungsanordnung zur Vergrößerung der Bandbreite von schmalbandigen Sprachsignalen
JP3189614B2 (ja) 1995-03-13 2001-07-16 松下電器産業株式会社 音声帯域拡大装置
JP2798003B2 (ja) 1995-05-09 1998-09-17 松下電器産業株式会社 音声帯域拡大装置および音声帯域拡大方法
JP2956548B2 (ja) 1995-10-05 1999-10-04 松下電器産業株式会社 音声帯域拡大装置

Also Published As

Publication number Publication date Type
EP0732687B2 (de) 2005-10-12 grant
US5978759A (en) 1999-11-02 grant
EP0732687B1 (de) 2002-02-20 grant
DE69619284D1 (de) 2002-03-28 grant
EP0732687A3 (de) 1998-06-17 application
EP0732687A2 (de) 1996-09-18 application
DE69619284T2 (de) 2002-10-10 grant

Similar Documents

Publication Publication Date Title
Van Immerseel et al. Pitch and voiced/unvoiced determination with an auditory model
Lim et al. Enhancement and bandwidth compression of noisy speech
Kleinschmidt Localized spectro-temporal features for automatic speech recognition
US20020010581A1 (en) Voice recognition device
Nilsson et al. Avoiding over-estimation in bandwidth extension of telephony speech
US5978759A (en) Apparatus for expanding narrowband speech to wideband speech by codebook correspondence of linear mapping functions
Abdallah et al. If the independent components of natural images are edges, what are the independent components of natural sounds
Sarikaya et al. Subband based classification of speech under stress
DE19636739C1 (de) Verfahren zur Mehrsprachenverwendung eines hidden Markov Lautmodelles in einem Spracherkennungssystem
Hansen et al. Stress compensation and noise reduction algorithms for robust speech recognition
DE19719381C1 (de) Verfahren zur Spracherkennung durch einen Rechner
DE4317372A1 (de) Ein akustisches und visuelles Spracherkennungssystem auf der Basis eines Neural-Netzwerkes
EP0308817A2 (de) Verfahren zur Umcodierung von Kanalvocoder-Parameter in LPC-Vocoder-Parameter
Kording et al. Learning of sparse auditory receptive fields
Mohammadiha et al. Prediction based filtering and smoothing to exploit temporal dependencies in NMF
Milner et al. Comparison of some noise-compensation methods for speech recognition in adverse environments
Paliwal et al. A study of two-formant models for vowel identification
Nadeu et al. Frequency and time filtering of filter-bank energies for HMM speech recognition
DE19705471A1 (de) Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen
DE19505435C1 (de) Verfahren und Vorrichtung zum Bestimmen der Tonalität eines Audiosignals
Auckenthaler et al. Equalizing sub-band error rates in speaker recognition
DE4436692A1 (de) Trainingssystem für ein Spracherkennungssystem
Burget et al. Data driven design of filter bank for speech recognition
DE4315315A1 (de) Verfahren zur Vektorquantisierung insbesondere von Sprachsignalen
DE10123281C1 (de) Vorrichtung und Verfahren zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen des Audiosignals unter Verwendung einer Autokorrelationsfunktion