DE112010005020B4 - Sprachsignal-Wiederherstellungsvorrichtung und Sprachsignal-Wiederherstellungsverfahren - Google Patents

Sprachsignal-Wiederherstellungsvorrichtung und Sprachsignal-Wiederherstellungsverfahren Download PDF

Info

Publication number
DE112010005020B4
DE112010005020B4 DE112010005020.1T DE112010005020T DE112010005020B4 DE 112010005020 B4 DE112010005020 B4 DE 112010005020B4 DE 112010005020 T DE112010005020 T DE 112010005020T DE 112010005020 B4 DE112010005020 B4 DE 112010005020B4
Authority
DE
Germany
Prior art keywords
speech signal
signal
distortion
speech
signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE112010005020.1T
Other languages
English (en)
Other versions
DE112010005020T5 (de
Inventor
Satoru Furuta
Hirohisa Tasaki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of DE112010005020T5 publication Critical patent/DE112010005020T5/de
Application granted granted Critical
Publication of DE112010005020B4 publication Critical patent/DE112010005020B4/de
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephone Function (AREA)

Abstract

Sprachsignal-Wiederherstellungsvorrichtung (100, 200), welche aufweist:
ein Synthesefilter (106) zum Erzeugen mehrerer Sprachsignale durch Kombinieren von Phonemsignalen und Tonquellensignalen;
eine Verzerrungsbewertungseinheit (107) zum Bewerten, unter Verwendung eines vorgeschriebenen Verzerrungsmaßstabs, einer Wellenformverzerrung jedes der mehreren Sprachsignale, die das Synthesefilter (106) erzeugt, mit Bezug auf ein Vergleichszielsignal mit einer Frequenzkomponente von zumindest einem Teil eines Frequenzbandes der Sprachsignale, die das Synthesefilter (106) erzeugt, und zum Auswählen eines der mehreren Sprachsignale gemäß dem Bewertungsergebnis; und
eine Erzeugungseinheit (110) für ein wiederhergestelltes Sprachsignal zum Erzeugen eines wiederhergestellten Sprachsignals unter Verwendung des Sprachsignals, das die Verzerrungsbewertungseinheit (107) auswählt.

Description

  • TECHNISCHES GEBIET
  • Die vorliegende Erfindung bezieht sich auf eine Sprachsignal-Wiederherstellungsvorrichtung und ihr Verfahren zum Wiederherstellen eines Breitband-Sprachsignals aus einem Sprachsignal, dessen Frequenzband auf ein schmales Band begrenzt ist, und zum Wiederherstellen eines Sprachsignals mit einem verschlechterten oder teilweise zusammengebrochenen Band.
  • STAND DER TECHNIK
  • Bei Analogtelefonen ist das Frequenzband eines durch eine Telefonschaltung übertragenen Sprachsignals auf ein schmales Band wie beispielsweise 300-3400 Hz begrenzt. Somit ist die Qualität von Schall einer herkömmlichen Telefonschaltung nicht gut genug. Zusätzlich ist bei digitaler Sprachkommunikation wie bei Mobiltelefonen, da das Band wie bei den Analogschaltungen aufgrund von starren Grenzen von Bitraten begrenzt ist, die Schallqualität ebenfalls nicht gut genug.
  • Kürzlich jedoch wurde durch die Entwicklung der Sprachverdichtungstechnologie (Sprachcodiertechnologie) die Funkübertragung eines Breitband-Sprachsignals (wie 50-7000 Hz) bei einer niedrigen Bitrate möglich. Da jedoch sowohl das Sendeende als auch das Empfangsende ein entsprechendes Breitband-Sprachcodier-/-decodierverfahren stützen müssen und Basisstationen auf beiden Seiten vollständig mit einem Netzwerk für Breitbandcodierung ausgerüstet sein müssen, wurde sie nur teilweise bei Geschäftskommunikationssystemen in die Praxis umgesetzt. Sie in öffentlichen Telefonkommunikationsnetzen zu implementieren bedeutet nicht nur eine gewaltige ökonomische Last, sondern benötigt auch viel Zeit vor der Ausbreitung.
  • Demgemäß bleibt ein Problem der Schallqualität bei der herkömmlichen Kommunikation mit analogen Telefonschaltungen und der digitalen Sprachkommunikation ungelöst.
  • Somit offenbaren die Patentdokumente 1 und 2 beispielsweise ein Verfahren zum Erzeugen oder Wiederherstellen eines Breitbandsignals aus einem Schmalbandsignal auf einer Empfangsseite in einer Pseudoweise. Eine Frequenzband-Erweiterungsvorrichtung bei dem Patentdokument 1 zieht eine Grundperiode der Sprache durch Berechnung von Autokorrelationskoeffizienten eines Schmalband-Sprachsignals heraus und erhält ein Breitband-Sprachsignal aus der Grundperiode. Zusätzlich codiert eine Breitband-Sprachsignal-Wiederherstellungsvorrichtung nach dem Patentdokument 2 ein Schmalband-Sprachsignal durch ein Codierverfahren auf der Grundlage von Analyse durch Synthese und erhält ein Breitband-Sprachsignal durch Einsetzen von Nullen (Überabtasten) bei einem Tonquellensignal oder Sprachsignal, das als ein endgültiges Ergebnis der Codierung erhalten wurde.
  • Die JP 2007 - 72 264 A sowie die JP H08 - 123 484 A beschreiben jeweils Vorrichtungen und Verfahren zur Wiederherstellung eines Sprachsignals mit Hilfs eines durch einen Synthesefilter erzeugten Sprachsignals.
  • DOKUMENT DES STANDES DER TECHNIK
  • Patentdokument
    • Patentdokument 1: japanisches Patent Nr. JP 3 243 174 B2 (Seiten 3-5 und 1).
    • Patentdokument 2: japanisches Patent Nr. JP 3 230 790 B2 (Seiten 3-4 und 1).
  • OFFENBARUNG DER ERFINDUNG
  • Mit den vorbeschriebenen Konfigurationen haben die herkömmlichen Sprachsignal-Wiederherstellungsvorrichtungen die folgenden Probleme.
  • Die in dem Patentdokument 1 offenbarte Frequenzband-Erweiterungsvorrichtung hat die Grundperiode des Schmalband-Sprachsignals herauszuziehen. Obgleich verschiedene Techniken des Herausziehens der Grundperiode der Sprache offenbart wurden, ist es schwierig, die Grundperiode eines Sprachsignals genau herauszuziehen. Dies wird noch schwieriger in einem störbehafteten Umfeld.
  • Die in dem Patentdokument 2 offenbarte Breitband-Sprachsignal-Wiederherstellungsvorrichtung hat den Vorteil, dass es nicht erforderlich ist, die Grundperiode des Sprachsignals herauszuziehen. Jedoch hat das erzeugte Breitband-Schallquellensignal, obgleich es analysiert und aus dem Schmalbandsignal erzeugt wurde, zu gemischte Aliasingkomponenten, da es durch den Nullfüllvorgang (über Abtastung) in einer Pseudoweise erzeugt ist. Demgemäß ist es nicht optimal als das Breitband-Sprachsignal (insbesondere als ein Hochfrequenzsignal) und hat ein Problem der Verschlechterung der Qualität des Tons.
  • Die vorliegende Erfindung wurde gemacht, um die vorbeschriebenen Probleme zu lösen. Es ist daher eine Aufgabe der vorliegenden Erfindung, eine Sprachsignal-Wiederherstellungsvorrichtung und ein Sprachsignal-Wiederherstellungsverfahren vorzusehen, die in der Lage sind, ein Sprachsignal hoher Qualität wiederherzustellen.
  • Eine Sprachsignal-Wiederherstellungsvorrichtung gemäß der vorliegenden Erfindung enthält: ein Synthesefilter zum Erzeugen mehrerer Sprachsignale durch Kombinieren von Phonemsignalen und Tonquellensignalen; eine Verzerrungsbewertungseinheit zum Bewerten, unter Verwendung eines vorgeschriebenen Verzerrungsmaßstabs, einer Wellenformverzerrung von jedem der mehreren Sprachsignale, die das Synthesefilter erzeugt, mit Bezug auf ein Vergleichszielsignal mit einer Frequenzkomponente von zumindest einem Teil eines Frequenzbands der Sprachsignale, die das Synthesefilter erzeugt, und zum Auswählen eines der mehreren Sprachsignale gemäß dem Bewertungsergebnis; und eine Erzeugungseinheit für ein wiederhergestelltes Sprachsignal zum Erzeugen eines wiederhergestellten Sprachsignals unter Verwendung des von der Verzerrungsbewertungseinheit ausgewählten Sprachsignals.
  • Ein Sprachsignal-Wiederherstellungsverfahren gemäß der vorliegenden Erfindung enthält: einen Synthesefilterschritt des Erzeugens mehrerer Sprachsignale durch Kombinieren von Phonemsignalen und Tonquellensignalen; einen Verzerrungsbewertungsschritt des Bewertens, unter Verwendung eines vorgeschriebenen Verzerrungsmaßstabs, einer Wellenformverzerrung von jedem der mehreren Sprachsignale, die der Synthesefilterschritt erzeugt, mit Bezug auf ein Vergleichszielsignal mit einer Frequenzkomponente von zumindest einem Teil eines Frequenzbands der Sprachsignale, die der Synthesefilterschritt erzeugt, und des Auswählens von einem der mehreren Sprachsignale gemäß dem Bewertungsergebnis; und einen Erzeugungsschritt für ein wiederhergestelltes Sprachsignal zum Erzeugen eines wiederhergestellten Sprachsignals unter Verwendung des von dem Verzerrungsbewertungsschritt ausgewählten Sprachsignals.
  • Die vorliegende Erfindung kann, da sie in einer solchen Weise ausgebildet ist, dass die mehreren Sprachsignale durch Kombinieren der Phonemsignale und Tonquellensignale erzeugt werden, die Wellenformverzerrung von jedem von diesen mit Bezug auf das Vergleichszielsignal unter Verwendung des vorgeschriebenen Verzerrungsmaßstabs bewertet wird und das wiederhergestellte Sprachsignal durch Auswählen eines der Sprachsignale gemäß dem Bewertungsergebnis erzeugt wird, eine Sprachsignal-Wiederherstellungsvorrichtung und ein Sprachsignal-Wiederherstellungsverfahren vorsehen, die in der Lage sind, beispielsweise das Vergleichszielsignal hoher Qualität anhand des Vergleichszielsignals wiederherzustellen, dem die Frequenzkomponente jeglichen gegebenen Frequenzbands aufgrund der Bandbegrenzung oder Störunterdrückung fehlt.
  • Figurenliste
    • 1 ist ein Blockschaltbild, das eine Konfiguration einer Sprachsignal-Wiederherstellungsvorrichtung 100 nach einem Ausführungsbeispiel 1 gemäß der vorliegenden Erfindung zeigt;
    • 2 ist ein Satz von Diagrammen, die schematisch ein von der Sprachsignal-Wiederherstellungsvorrichtung 100 nach dem Ausführungsbeispiel 1 gemäß der vorliegenden Erfindung erzeugtes Sprachsignal zeigen;
    • 3 ist ein Blockschaltbild, das eine Konfiguration einer Sprachsignal-Wiederherstellungsvorrichtung 100 nach einem Ausführungsbeispiel 2 gemäß der vorliegenden Erfindung zeigt;
    • 4 ist ein Blockschaltbild, das eine Konfiguration einer Sprachsignal-Wiederherstellungsvorrichtung 200 nach einem Ausführungsbeispiel 3 gemäß der vorliegenden Erfindung zeigt;
    • 5 ist ein Satz von Diagrammen, die ein von der Sprachsignal-Wiederherstellungsvorrichtung 200 nach dem Ausführungsbeispiel 3 gemäß der vorliegenden Erfindung erzeugtes Sprachsignal zeigen;
    • 6 ist ein Satz von Diagrammen, die eine Verzerrungsbewertungsverarbeitung der Verzerrungsbewertungseinheit 107 einer Sprachsignal-Wiederherstellungsvorrichtung 200 nach einem Ausführungsbeispiel 5 gemäß der vorliegenden Erfindung zeigen;
    • 7 ist ein Blockschaltbild, das eine Variation der in 1 gezeigten Erzeugungseinheit 110 für wiederhergestellte Sprachsignale zeigt; und
    • 8 ist ein Satz von Diagrammen, die schematisch ein von der Erzeugungseinheit 110 für wiederhergestellte Sprachsignale erzeugtes Sprachsignal zeigen.
  • AUSFÜHRUNGSBEISPIELE ZUM DURCHFÜHREN DER ERFINDUNG
  • Die beste Art der Ausführung der Erfindung wird nun im Einzelnen mit Bezug auf die begleitenden Zeichnungen beschrieben.
  • AUSFÜHRUNGSBEISPIEL 1
  • In dem vorliegenden Ausführungsbeispiel 1 wird ein Beispiel für eine Sprachsignal-Wiederherstellungsvorrichtung beschrieben, die zum Verbessern der Qualität des Tons eines Fahrzeug-Navigationssystems, eines Sprachkommunikationssystems wie eines Mobiltelefons und eines Interkom, eines telefonischen Freisprech-Kommunikationssystems, eines Videokonferenzsystems und eines Überwachungssystems, bei dem eine Sprachkommunikation, Sprachspeicherung oder Spracherkennungssystem eingeführt ist, und zum Verbessern einer Erkennungsrate des Spracherkennungssystems verwendet wird und die zum Erzeugen eines Breitband-Sprachsignals aus einem Sprachsignal, dessen Frequenzband auf ein enges Band begrenzt ist, da es durch einen Übertragungspfad wie eine Telefonschaltung hindurchgeht, verwendet wird.
  • 1 ist ein Blockschaltbild, das die gesamte Konfiguration einer Sprachsignal-Wiederherstellungsvorrichtung 100 nach dem vorliegenden Ausführungsbeispiel 1 zeigt.
  • In 1 weist die Sprachsignal-Wiederherstellungsvorrichtung 100 eine Abtastumwandlungseinheit 101, eine Sprachsignal-Erzeugungseinheit 102 und eine Erzeugungseinheit 110 für ein wiederhergestelltes Sprachsignal auf. Die Sprachsignal-Erzeugungseinheit 102 umfasst eine Phonem-/ Tonquellensignal-Speichereinheit 105 enthaltend eine Phonemsignal-Speichereinheit 108 und eine Tonquellensignal-Speichereinheit 109, ein Synthesefilter 106 und eine Verzerrungsbewertungseinheit 107. Zusätzlich weist die Erzeugungseinheit 110 für ein wiederhergestelltes Sprachsignal ein erstes Bandpassfilter 103 und eine Bandsyntheseeinheit 104 auf.
  • 2 zeigt schematisch ein durch die Konfiguration des Ausführungsbeispiels erzeugtes Sprachsignal. 2(a) zeigt ein Schmalband-Sprachsignal (Vergleichszielsignal), das in die Abtastumwandlungseinheit 101 eingegeben wird. 2(b) zeigt ein aufwärts abgetastetes Schmalband-Sprachsignal (Vergleichszielsignal, das durch die Abtastumwandlung hindurchgeht), das die Abtastumwandlungseinheit 101 ausgibt. 2(c) zeigt ein Breitband-Sprachsignal mit minimaler Verzerrung, das die Verzerrungsbewertungseinheit 107 aus mehreren von dem Synthesefilter 106 erzeugten Breitband-Sprachsignalen (Sprachsignalen) auswählt. 2(d) zeigt ein Signal, das durch Herausziehen einer Niedrigfrequenzkomponente und einer Hochfrequenzkomponente aus dem Breitband-Sprachsignal, das von dem ersten Bandpassfilter 103 ausgegeben wird, erhalten wurde. 2(e) zeigt ein wiederhergestelltes Sprachsignal, das ein Ausgabeergebnis der Sprachsignal-Wiederherstellungsvorrichtung 100 ist. Zusätzlich stellen Pfeile in 2 die Reihenfolge der Verarbeitung dar, wobei die vertikale Achse jedes Diagramms die Energie und die horizontale Achse eine Frequenz zeigt.
  • Das Arbeitsprinzip der Sprachsignal-Wiederherstellungsvorrichtung 100 wird nachfolgend mit Bezug auf 1 und 2 beschrieben.
  • Zuerst wird ein Signal wie Sprache und Musik, das durch ein nicht gezeigtes Mikrofon oder dergleichen erfasst wird, einer A/D- (Analog/Digital-) Umwandlung unterzogen, gefolgt durch eine Abtastung mit einer vorgeschriebenen Abtastfrequenz (zum Beispiel 8 kHz) und eine Teilung in Rahmeneinheiten (zum Beispiel 10 ms), und wird weiterhin einer Bandbegrenzung (zum Beispiel 300-3400 Hz) unterzogen und als ein Schmalband-Sprachsignal in die Sprachsignal-Wiederherstellungsvorrichtung 100 nach dem vorliegenden Ausführungsbeispiel 1 eingegeben. Das vorliegende Ausführungsbeispiel 1 wird unter der Annahme beschrieben, dass das Frequenzband des endgültig erhaltenen wiederhergestellten Breitband-Sprachsignals 50-7000 Hz beträgt.
  • Die Abtastumwandlungseinheit 101 führt eine Aufwärtsabtastung beispielsweise bis 16 kHz des eingegebenen Schmalband-Sprachsignals durch, entfernt ein Aliasingsignal durch ein Tiefpassfilter und gibt das aufwärts abgetastete Schmalband-Sprachsignal aus.
  • In der Sprachsignal-Erzeugungseinheit 102 erzeugt das Synthesefilter 106 mehrere Breitband-Sprachsignale unter Verwendung von in der Phonemsignal-Speichereinheit 108 gespeicherten Phonemsignalen und in der Tonquellensignal-Speichereinheit 109 gespeicherten Tonquellensignalen, und die Verzerrungsbewertungseinheit 107 berechnet ihre Wellenformverzerrungen mit Bezug auf das aufwärts abgetastete Schmalband-Sprachsignal gemäß einem vorgeschriebenen Verzerrungsmaßstab und wählt das Breitband-Sprachsignal aus, das die Verzerrung minimiert, und gibt dieses aus. Die Sprachsignal-Erzeugungseinheit 102 kann dieselbe Konfiguration wie ein Decodierverfahren in einem CELP (codeerregte lineare Vorhersage)-Codiersystem haben. In einem derartigen Fall wird ein Phonemcode in der Phonemsignal-Speichereinheit 108 gespeichert, und ein Tonquellencode wird in der Tonquellensignal-Speichereinheit 109 gespeichert.
  • Die Phonemsignal-Speichereinheit 108 hat eine Konfiguration, die die Energie oder Verstärkung der Phonemsignale neben den Phonemsignalen hat, extensive verschiedene Phonemsignale in einem Speicher speichert, um in der Lage zu sein, phonemische Formen (Spektralmuster) von verschiedenen Breitband-Sprachsignalen darzustellen, und die Phonemsignale zu dem Synthesefilter 106 liefert als Antwort auf einen Befehl der Verzerrungsbewertungseinheit 107, die später beschrieben wird. Diese Phonemsignale können unter Anwendung einer öffentlich bekannten Technik wie der linearen Vorhersageanalyse aus Breitband-Sprachsignalen (mit einem Band von beispielsweise 50 - 7000 Hz) erhalten werden. Hinsichtlich der Spektralmuster können sie unter Verwendung eines Spektralsignals selbst oder unter Verwendung einer akustischen Parameterform wie LSP-(Linienspektrumpaar-)Parametern und Cepstrum ausgedrückt werden, und sie werden vorher in geeigneter Weise umgewandelt, so dass sie auf die Filterkoeffizienten des Synthesefilters 106 anwendbar sind. Weiterhin können, um die Speichergröße zu verringern, die erhaltenen Phonemsignale durch eine bekannte Technik wie Skalarquantisierung und Vektorquantisierung verdichtet werden.
  • Die Tonquellensignal-Speichereinheit 109 hat eine Konfiguration, die die Energie oder die Verstärkung der Tonquellensignale neben den Tonquellensignalen hat, extensive verschiedene Tonquellensignale in einem Speicher speichert, um in der Lage zu sein, Tonquellensignalformen (Impulszüge) von verschiedenen Breitband-Sprachsignalen in derselben Weise wie die Phonemsignal-Speichereinheit 108 darzustellen, und die Tonquellensignale zu dem Synthesefilter 106 liefert als Antwort auf einen Befehl der Verzerrungsbewertungseinheit 107, die später beschrieben wird. Diese Tonquellensignale können durch Erlernen durch die CELP-Technik unter Verwendung der Breitband-Sprachsignale (mit einem Band von beispielsweise 50-7000 Hz) und der vorbeschriebenen Phonemsignale erhalten werden. Zusätzlich können, um die Speichergröße zu verringern, die erhaltenen Tonquellensignale durch eine bekannte Technik wie Skalarquantisierung und Vektorquantisierung verdichtet werden, oder die Tonquellensignale können in einem vorgeschriebenen Modell wie das Bilden von Multiimpulsen und einem ACELP (algebraische codeerregte lineare Vorhersage)-System ausgedrückt werden. Zusätzlich ist auch eine Struktur möglich, die auch ein aus vergangenen Tonquellensignalen erzeugtes, adaptives Tonquellen-Codebuch hat, wie ein VSELP (vektorsummenerregte lineare Vorhersage)-Codiersystem.
  • Das Synthesefilter 106 kann eine Synthese nach dem Einstellen der Energie oder der Verstärkung der Phonemsignale bzw. der Energie oder der Verstärkung der Tonquellensignale durchführen. Mit dieser Konfiguration kann, da sie mehrere Breitband-Sprachsignale selbst aus einem einzelnen Phonemsignal und einem einzelnen Tonquellensignal erzeugen kann, die Speichergröße der Phonemsignal-Speichereinheit 108 und der Tonquellensignal-Speichereinheit 109 verringert werden.
  • Die Verzerrungsbewertungseinheit 107 schätzt die Wellenformverzerrungen der Breitband-Sprachsignale, die das Synthesefilter 106 ausgibt, mit Bezug auf das aufwärts abgetastete Schmalband-Sprachsignal, das die Abtastumwandlungseinheit 101 ausgibt. In diesem Fall wird angenommen, dass das Frequenzband (vorgeschriebenes Frequenzband), in welchem die Verzerrung geschätzt wird, auf nur den Bereich des Schmalband-Sprachsignals begrenzt ist, das heißt in diesem Fall 300-3400 Hz. Um die Wellenformverzerrung innerhalb des Frequenzbands des Schmalband-Sprachsignals zu schätzen, nachdem eine Filterverarbeitung bei sowohl dem Breitband-Sprachsignal als auch dem aufwärts abgetasteten Schmalband-Sprachsignal unter Verwendung eines FIR (endliche Impulsantwort)-Filters mit Banddurchlasscharakteristiken von beispielsweise 300-3400 Hz durchgeführt wurde, kann ein Bewertungsverfahren angewendet werden, das die durch den folgenden Ausdruck gegebene durchschnittliche Wellenformverzerrung benutzt oder die euklidische Distanz benutzt. E t = 1 N n = 0 N 1 { s ( n ) u ( n ) } 2
    Figure DE112010005020B4_0001
    worin s(n) und u(n) das Breitband-Sprachsignal und das aufwärts abgetastete Schmalband-Sprachsignal nach dem Hindurchgehen durch die FIR-Filterverarbeitung sind und N die Anzahl von Abtastungen der Sprachsignal-Wellenform (160 Abtastungen in dem Fall der 16-kHz-Abtastung) ist. Wenn nicht ein Niedrigfrequenzbereich, der nicht größer als 300 Hz ist, wiederhergestellt wird, ist es möglich, eine Abwärtsabtastung des Breitband-Sprachsignals zu der Frequenz (8 kHz) des Schmalband-Sprachsignals ohne Verwendung des FIR-Filters durchzuführen und die Verzerrungsbewertung des abwärts abgetasteten Breitband-Sprachsignals mit Bezug auf das Schmalband-Sprachsignal vor der Aufwärtsabtastung durchzuführen. Obgleich die Verzerrungsbewertungseinheit 107 die Filterverarbeitung unter Verwendung des FIR-Filters in der vorstehenden Beschreibung durchführt, kann beispielsweise auch ein IIR (unendliche Impulsantwort)-Filter verwendet werden, solange sie die Verzerrungsbewertung angemessen durchführen kann.
  • Die Verzerrungsbewertungseinheit 107 kann auch die Verzerrungsbewertung nicht auf der Zeitachse, sondern auf der Frequenzachse durchführen. Beispielsweise wandelt sie sowohl das Breitband-Sprachsignal als auch das aufwärts abgetastete Schmalband-Sprachsignal in einen Spektralbereich unter Verwendung einer 256-Punkt-FFT (schnellen Fouriertransformation) um, nachdem das Nullauffüllen und die Fenstertechnik auf sie angewendet wurde, und schätzt die Verzerrung in Form der Gesamtsumme von Differenzen zwischen ihnen in dem Energiespektrum als den folgenden Ausdruck. In diesem Fall ist es nicht erforderlich, die Filterverarbeitung mit den Banddurchlasscharakteristiken wie bei der Bewertung auf der Zeitachse auszuführen. E f = f = F L F H { S ( f ) U ( f ) }
    Figure DE112010005020B4_0002
    worin S(f) und U(f) die Energiespektrumkomponente des Breitband-Sprachsignals und die Energiespektrumkomponente des aufwärts abgetasteten Schmalband-Sprachsignals sind und FL und FH eine Spektralkomponentenzahl bei 300 Hz bzw. 3400 Hz sind.
  • Die Verzerrungsbewertungseinheit 107 weist die Phonemsignal-Speichereinheit 108 und die Tönquellensignal-Speichereinheit 109 aufeinanderfolgend an, eine Kombination aus dem Spektralmuster und dem Tonquellensignal auszugeben, bewirkt, dass das Synthesefilter 106 die Breitband-Signale erzeugt, und berechnet die Verzerrungen gemäß dem vorgenannten Ausdruck (1) oder (2). Dann wählt sie das Breitband-Sprachsignal mit der minimalen Verzerrung aus und liefert es zu dem ersten Bandpassfilter 103. Die Verzerrungsbewertungseinheit 107 kann die Hörgewichtungsverarbeitung, die normalerweise in einem CELP-Sprachcodiersystem verwendet wird, sowohl auf das Breitband-Sprachsignal als auch das aufwärts abgetastete Schmalband-Sprachsignal anwenden und dann die Verzerrung berechnen. Zusätzlich ist es nicht immer erforderlich, dass die Verzerrungsbewertungseinheit 107 das Breitband-Sprachsignal mit der minimalen Verzerrung auswählt. Sie kann das Breitband-Sprachsignal mit der zweitniedrigsten Verzerrung auswählen. Alternativ ist eine Konfiguration möglich, die einen tolerierbaren Bereich für die Verzerrung setzt und das Breitband-Sprachsignal mit der Verzerrung innerhalb dieses Bereichs auswählt, wobei die nachfolgende Verarbeitung des Synthesefilters 106 und der Verzerrungsbewertungseinheit 107 ausgeschlossen werden, wodurch die Anzahl von Malen der Verarbeitung verringert wird.
  • Das erste Bandpassfilter 103 zieht Frequenzkomponenten außerhalb des Bandes des Schmalband-Sprachsignals aus dem Breitband-Sprachsignal heraus und liefert sie zu der Bandsyntheseeinheit 104. Genauer gesagt, sie zieht die Niedrigfrequenzkomponente, die bei dem vorliegenden Ausführungsbeispiel 1 nicht höher als 300 Hz ist, und die Hochfrequenzkomponente, die nicht niedriger als 3400 Hz ist, heraus. Um die Niedrigfrequenzkomponente und die Hochfrequenzkomponente herauszuziehen, kann ein FIR-Filter, ein IIR-Filter oder dergleichen verwendet werden. Als allgemeine Charakteristiken eines Sprachsignals erscheint wahrscheinlich eine harmonische Struktur des Niedrigfrequenzbereichs in dem Hochfrequenzbereich in derselben Weise, und umgekehrt erscheint, wenn die harmonische Struktur auch in dem Hochfrequenzbereich beobachtet wird, sie wahrscheinlich in derselben Weise in dem Niedrigfrequenzbereich. Somit kann, da der Niedrigfrequenz- und der Hochfrequenzbereich eine starke Kreuzkorrelation haben, das optimale wiederhergestellte Sprachsignal gebildet werden durch Erhalten der Niedrigfrequenzkomponente und der Hochfrequenzkomponente, die durch das erste Bandpassfilter 103 aus dem Breitband-Sprachsignal herausgezogen werden, das in einer solchen Weise erzeugt ist, dass es die kleinstmögliche Verzerrung mit Bezug auf das Schmalband-Sprachsignal hat.
  • Die Bandsyntheseeinheit 104 fügt die Niedrigfrequenzkomponente und die Hochfrequenzkomponente des Breitband-Sprachsignals, das das erste Bandpassfilter 103 ausgibt, zu dem aufwärts abgetasteten Schmalband-Sprachsignal, das die Abtastumwandlungseinheit 101 ausgibt, hinzu, um das Breitband-Sprachsignal wiederherzustellen, und gibt das sich ergebende Signal als das wiederhergestellte Sprachsignal aus.
  • Wie vorstehend beschrieben ist, ist gemäß dem vorliegenden Ausführungsbeispiel 1 die Sprachsignal-Wiederherstellungsvorrichtung 100 zum Umwandeln des Schmalband-Sprachsignals, dessen Band auf ein schmales Band begrenzt ist, in das das schmale Band enthaltende Breitband-Sprachsignal in einer solchen Weise ausgebildet, dass sie enthält: die Abtastumwandlungseinheit 101 zur Abtastumwandlung des Schmalband-Sprachsignals in einer solchen Weise, dass es dem Breitband angepasst ist; das Synthesefilter 106 zum Erzeugen mehrerer Breitband-Sprachsignale durch Kombinieren der Phonemsignale und der Tonquellensignale, die die Breitband-Frequenzkomponenten haben und in der Phonem-/Tonquellensignal-Speichereinheit 105 gespeichert sind; die Verzerrungsbewertungseinheit 107 zum Schätzen mit dem vorgeschriebenen Verzerrungsmaßstab der Wellenformverzerrungen der mehreren Breitband-Sprachsignale, die das Synthesefilter 106 erzeugt, mit Bezug auf das aufwärts abgetastete Schmalband-Sprachsignal, das die Abtastumwandlungseinheit 101 durch die Abtastumwandlung erhält, und zum Auswählen des Breitband-Sprachsignals mit der kleinstmöglichen Verzerrung aus dem Schätzergebnis; das erste Bandpassfilter 103 zum Herausziehen der Frequenzkomponenten außerhalb des schmalen Bandes aus dem Breitband-Sprachsignal, das die Verzerrungsbewertungseinheit 107 auswählt; und die Bandsyntheseeinheit 104 zum Kombinieren der Frequenzkomponenten, die das erste Bandpassfilter 103 herauszieht, mit dem aufwärts abgetasteten Schmalband-Sprachsignal, das durch die Abtastumwandlung der Abtastumwandlungseinheit 101 hindurchgeht. Auf diese Weise kann sie, da sie die Niedrigfrequenzkomponente und die Hochfrequenzkomponente, die für die Sprachsignal-Wiederherstellung zu verwenden sind, aus dem in solcher Weise, dass die Verzerrung des Schmalband-Sprachsignals minimiert wird, erzeugten Breitband-Sprachsignal erhält, ein Breitband-Sprachsignal hoher Qualität wiederherstellen.
  • Zusätzlich kann sie gemäß dem vorliegenden Ausführungsbeispiel 1, da sie die Grundperiode der Sprache nicht herauszuziehen braucht und keine Verschlechterung aufgrund eines Fehlers beim Herausziehen der Grundperiode hat, ein Breitband-Sprachsignal hoher Qualität selbst in einem störbehafteten Umfeld, in welchem die Analyse der Grundperiode der Sprache schwierig ist, wiederherstellen.
  • Weiterhin kann sie gemäß dem vorliegenden Ausführungsbeispiel 1, da sie keine nichtlineare Verarbeitung wie eine Nullauffüll- und Vollwellengleichrichtungsverarbeitung durchführt, die die Tonquellensignale verschlechtert, ein Breitband-Sprachsignal hoher Qualität wiederherstellen.
  • Außerdem kann sie gemäß dem vorliegenden Ausführungsbeispiel 1, da sie die Niedrigfrequenzkomponente und die Hochfrequenzkomponente, die für die Sprachsignal-Wiederherstellung zu verwenden sind, von dem Breitband-Sprachsignal erhält, das in einer solchen Weise erzeugt ist, dass die Verzerrung des Schmalband-Sprachsignals minimiert wird, das Schmalband-Sprachsignal mit der Niedrigfrequenzkomponente (oder die Hochfrequenzkomponente mit dem Schmalband-Sprachsignal) theoretisch glatt verbinden, wodurch sie in der Lage ist, das Breitband-Sprachsignal hoher Qualität ohne Anwendung einer Interpolationsverarbeitung wie einer Energiekorrektur bei der Bandsynthese wiederherzustellen.
  • Wenn das Verzerrungsbewertungsergebnis der Verzerrungsbewertungseinheit 107 sehr klein ist, kann die Sprachsignal-Wiederherstellungsvorrichtung 100 nach dem vorbeschriebenen Ausführungsbeispiel 1 die Verarbeitung des ersten Bandpassfilters 103 und der Bandsyntheseeinheit 104 weglassen und direkt das Breitband-Sprachsignal, das die Verzerrungsbewertungseinheit 107 ausgibt, als das wiederhergestellte Sprachsignal ausgeben.
  • Zusätzlich ist, obgleich das vorgeschriebene Ausführungsbeispiel 1 in einer solchen Weise ausgebildet ist, dass, da dem Schmalband-Sprachsignal sowohl die Niedrigfrequenz- als auch die Hochfrequenzkomponente fehlt, sie sowohl die Niedrigfrequenz- als auch die Hochfrequenzkomponente wiederherstellt, die Konfiguration nicht hierauf beschränkt. Beispielsweise ist selbstverständlich, dass das Schmalband-Sprachsignal, dem zumindest eines von dem Niedrigfrequenz-, Mittelfrequenz- und Hochfrequenzband fehlt, auch wiederhergestellt werden kann. Auf diese Weise kann die Sprachsignal-Wiederherstellungsvorrichtung 100 ein Frequenzband mit demselben Band wie das Breitband-Sprachsignal aus dem Schmalband-Sprachsignal wiederherstellen, wenn das Schmalband-Sprachsignal ein Frequenzband enthält, das zumindest einen Teil des Frequenzbandes des Breitband-Sprachsignals, das das Synthesefilter 106 erzeugt, hat.
  • AUSFÜHRUNGSBEISPIEL 2
  • Als eine Variation des vorbeschriebenen Ausführungsbeispiels 1 ist auch eine Konfiguration möglich, die das Analyseergebnis des Schmalband-Sprachsignals als eine Hilfsinformation zum Erzeugen eines Breitband-Sprachsignals verwendet. 3 ist ein Blockschaltbild, das die gesamte Konfiguration der Sprachsignal-Wiederherstellungsvorrichtung 100 des vorliegenden Ausführungsbeispiels 2 zeigt. Sie hat eine Konfiguration, die eine neu zu der in 1 gezeigten Sprachsignal-Wiederherstellungsvorrichtung 100 hinzugefügte Sprachanalyseeinheit 111 enthält. Hinsichtlich der verbleibenden Komponenten werden diejenigen, die den Komponenten in 1 entsprechen, mit denselben Bezugszahlen bezeichnet, und ihre detaillierte Beschreibung wird hier weggelassen.
  • Die Sprachanalyseeinheit 111 analysiert akustische Merkmale des eingegebenen Schmalband-Sprachsignals durch eine öffentlich bekannte Technik wie lineare Vorhersageanalyse, zieht Phonemsignale und Tonquellensignale des Schmalband-Sprachsignals heraus und liefert sie zu der Phonemsignal-Speichereinheit 108 und der Tonquellensignal-Speichereinheit 109. Hier können als die Phonemsignale, obgleich LSP-Parameter mit guten Interpolationseigenschaften bevorzugt sind, auch einige andere Parameter verwendet werden. Zusätzlich kann für die Tonquellensignale die Sprachanalyseeinheit 111 ein inverses Filter aufweisen, das als ihre Filterkoeffizienten die Phonemsignale, die das Analyseergebnis sind, hat, und kann das durch Anwenden der Filterverarbeitung auf das Schmalband-Sprachsignal erhaltene Restsignal als die Tonquellensignale verwenden.
  • Die Phonem-/Tonquellensignal-Speichereinheit 105 verwendet die Phonemsignale und Tonquellensignale des Schmalband-Sprachsignals, die von der Sprachanalyseeinheit 111 zugeführt werden, als die Hilfsinformation der Phonemsignal-Speichereinheit 108 und der Tonquellensignal-Speichereinheit 109. Als die Verwendung der Hilfsinformation kann die Phonemsignal-Speichereinheit 108 beispielsweise den Teil von 300-3400 Hz von den Phonemsignalen des Breitband-Sprachsignals entfernen, und sie kann die Phonemsignale des Schmalband-Sprachsignals dem entfernten Teil zuweisen. Das Zuweisen der Phonemsignale des Schmalband-Sprachsignals macht es möglich, die Phonemsignale des Breitband-Sprachsignals zu erhalten, das dem Schmalband-Sprachsignal stärker angenähert ist. Zusätzlich kann die Phonemsignal-Speichereinheit 108 eine vorläufige Auswahl durchführen, die die Verzerrungsbewertung des Breitband-Sprachsignals mit Bezug auf die Phonemsignale des Schmalband-Sprachsignals beispielsweise bei Spektren durchführt und dem Synthesefilter 106 nur die Phonemsignale des Breitband-Sprachsignals mit einer kleinen Verzerrung zuführt. Die vorläufige Auswahl der Phonemsignale ermöglicht dem Synthesefilter 106 und der Verzerrungsbewertungseinheit 107, die Anzahl von Malen ihrer Verarbeitung herabzusetzen.
  • Hinsichtlich der Verwendung der Hilfsinformation kann die Tonquellensignal-Speichereinheit 109 die Tonquellensignale des Schmalband-Sprachsignals zu dem Breitband-Sprachsignal in derselben Weise wie beispielsweise die Phonemsignal-Speichereinheit 108 hinzufügen oder kann sie als Information für die vorläufige Auswahl verwenden. Das Hinzufügen der Tonquellensignale des Schmalband-Sprachsignals macht es möglich, die Tonquellensignale des Breitband-Sprachsignals zu erhalten, das dem Schmalband-Sprachsignal mehr angenähert ist. Zusätzlich ermöglicht die Durchführung der vorläufigen Auswahl des Tonquellensignals, dass das Synthesefilter 106 und die Verzerrungsbewertungseinheit 107 die Anzahl von Malen ihrer Verarbeitung verringern.
  • Wie vorstehend beschrieben ist, ist gemäß dem vorliegenden Ausführungsbeispiel 2 die Sprachsignal-Wiederherstellungsvorrichtung 100 in einer solchen Weise ausgebildet, dass sie die Sprachanalyseeinheit 111 zum Erzeugen der Hilfsinformation durch Durchführen der akustischen Analyse des Schmalband-Sprachsignals, dessen Band auf ein schmales Band begrenzt ist, aufweist und dass das Synthesefilter 106, das die Hilfsinformation, die die Sprachanalyseeinheit 111 erzeugt, verwendet, die mehreren Phonemsignale und die mehreren Tonquellensignale mit Breitband-Frequenzkomponenten, die die Phonem-/Tonquellensignal-Speichereinheit 105 speichert, kombiniert, wodurch mehrere Breitband-Sprachsignale erzeugt werden. Demgemäß ermöglicht die Verwendung des Analyseergebnisses des Schmalband-Sprachsignals als die Hilfsinformation, dass das Breitband-Sprachsignal, das dem Schmalband-Sprachsignal mehr angenähert ist, erhalten wird und somit das Breitband-Sprachsignal mit höherer Qualität wiederhergestellt wird.
  • Zusätzlich kann sie gemäß dem vorliegenden Ausführungsbeispiel 2, da sie die vorläufige Auswahl der Phonemsignale und der Tonquellensignale unter Verwendung des Analyseergebnisses des Schmalband-Sprachsignals als der Hilfsinformation durchführen kann, wenn das Breitband-Sprachsignal erzeugt wird, den Umfang der Verarbeitung reduzieren, während die hohe Qualität aufrechterhalten wird.
  • Bei dem vorliegenden Ausführungsbeispiel 2 kann, obgleich die Verarbeitung der Sprachanalyseeinheit 111 vor der Eingabe in die Abtastumwandlungseinheit 101 durchgeführt wird, sie nach der Verarbeitung der Abtastumwandlungseinheit 101 durchgeführt werden. In diesem Fall führt sie die Sprachanalyse des aufwärts abgetasteten Schmalband-Sprachsignals durch.
  • Zusätzlich kann hinsichtlich des eingegebenen Schmalband-Sprachsignals die Sprachanalyseeinheit 111 beispielsweise eine Frequenzanalyse des Sprachsignals und des Störsignals durchführen und die Hilfsinformation erzeugen, die das Frequenzband bezeichnet, in welchem das Verhältnis der Sprachsignal-Spektrumenergie zu der Störsignal-Spektrumenergie (ein Störabstand, der von jetzt an als ein S/N-Verhältnis bezeichnet wird) hoch ist. Mit dieser Konfiguration führt die Abtastumwandlungseinheit 101 die Abtastumwandlung der Frequenzkomponente in dem Frequenzband (vorgeschriebenes Frequenzband), das durch die Hilfsinformation bezeichnet ist, in dem Schmalband-Sprachsignal durch, und die Verzerrungsbewertungseinheit 107 führt die Verzerrungsbewertung der mehreren Breitband-Sprachsignale mit Bezug auf das aufwärts abgetastete Schmalband-Sprachsignal zwischen den Frequenzkomponenten in dem durch die Hilfsinformation bezeichneten Frequenzband durch. Weiterhin zieht das erste Bandpassfilter 103 eine Frequenzkomponente außerhalb des durch die Hilfsinformation bezeichneten Frequenzbands aus dem durch die Verzerrungsbewertungseinheit 107 ausgewählten Breitband-Sprachsignal heraus, und die Bandsyntheseeinheit 104 kombiniert sie mit dem aufwärts abgetasteten Schmalband-Sprachsignal des Frequenzbandes. Demgemäß führt die Verzerrungsbewertungseinheit 107 die Verzerrungsbewertung nur in dem Frequenzband durch, das durch die Hilfsinformation bezeichnet ist, anstatt in dem gesamten Frequenzband des Schmalband-Sprachsignals, wodurch sie in der Lage ist, den Umfang der Verarbeitung zu verringern.
  • AUSFÜHRUNGSBEISPIEL 3
  • Bei dem vorhergehenden Ausführungsbeispiel 2 wird die Sprachsignal-Wiederherstellungsvorrichtung 100 zur Erzeugung des Breitband-Sprachsignals aus dem Sprachsignal, dessen Frequenzband auf das schmale Band begrenzt ist, beschrieben, während das vorliegende Ausführungsbeispiel 3 durch Modifizieren und Anwenden der Sprachsignal-Wiederherstellungsvorrichtung 100 eine Sprachsignal-Wiederherstellungsvorrichtung 200 zum Wiederherstellen eines Sprachsignals mit einem verschlechterten oder teilweise zusammengebrochenen Frequenzband aufgrund von Störunterdrückung oder Sprachverdichtung bildet. 4 ist ein Blockschaltbild, das die gesamte Konfiguration der Sprachsignal-Wiederherstellungsvorrichtung 200 nach dem vorliegenden Ausführungsbeispiel 3 zeigt. Sie hat eine Konfiguration, die eine Störunterdrückungseinheit 201 und ein zweites Bandpassfilter 202 zu der in 1 gezeigten Sprachsignal-Wiederherstellungsvorrichtung 100 neu hinzufügt. Bezüglich der verbleibenden Komponenten werden diejenigen, die den Komponenten in 1 entsprechen, mit denselben Bezugszahlen bezeichnet, und ihre detaillierte Beschreibung wird hier weggelassen.
  • Aus Gründen der Kürze wird bei dem vorliegenden Ausführungsbeispiel 3 angenommen, dass das Frequenzband eines eingegebenen, mit Störungen gemischten Sprachsignals gleich 0-4000 Hz ist, dass die zugemischte Störung ein Fahrzeug-Fahrgeräusch ist und dass die Störung in ein 0-500Hz-Band gemischt ist. Hier führen die Phonem-/Tonquellensignal-Speichereinheit 105, das Synthesefilter 106 und die Verzerrungsbewertungseinheit 107 in der Sprachsignal-Erzeugungseinheit 102, das erste Bandpassfilter 103 und das zweite Bandpassfilter 202 die Operation gemäß dem Frequenzband von 0-4000 Hz durch und halten die Phonemsignale und Tonquellensignale zurück. Es ist selbstverständlich, dass diese Bedingungen geändert werden können, wenn sie auf ein reales System angewendet werden.
  • 5 ist ein Diagramm, das schematisch ein durch die Konfiguration des gegenwärtigen Ausführungsbeispiels 3 erzeugtes Sprachsignal zeigt. 5(a) zeigt ein störunterdrücktes Sprachsignal (Vergleichszielsignal), das die Störunterdrückungseinheit 201 ausgibt. 5(b) zeigt ein Breitband-Sprachsignal, das die Verzerrungsbewertungseinheit 107 aus mehreren Breitband-Sprachsignalen (Sprachsignale), die das Synthesefilter 106 erzeugt, auswählt und das die minimale Verzerrung mit Bezug auf das störunterdrückte Sprachsignal hat. 5(c) zeigt ein Signal, das durch Herausziehen einer Niedrigfrequenzkomponente aus dem Breitband-Sprachsignal erhalten wurde, das das Ausgangssignal des ersten Bandpassfilters 103 ist. 5(d) zeigt eine Hochfrequenzkomponente des störunterdrückten Sprachsignals, das das zweite Bandpassfilter 202 ausgibt. 5(e) zeigt ein wiederhergestelltes Sprachsignal, das ein Ausgangsergebnis der Sprachsignal-Wiederherstellungsvorrichtung 200 ist. Zusätzlich zeigen Pfeile in 5 die Reihenfolge der Verarbeitung, und die vertikale Achse jedes Diagramms zeigt die Energie, und die horizontale Achse zeigt eine Frequenz.
  • Das Prinzip der Arbeitsweise der Sprachsignal-Wiederherstellungsvorrichtung 200 wird nachfolgend mit Bezug auf 4 und 5 beschrieben.
  • Die Störunterdrückungseinheit 201 empfängt das mit der Störung gemischte Sprachsignal, in das die Störung gemischt ist, und liefert das störunterdrückte Sprachsignal zu der Verzerrungsbewertungseinheit 107 und dem zweiten Bandpassfilter 202. Zusätzlich gibt die Störunterdrückungseinheit 201 ein Bandinformationssignal aus, das eine Niedrig/Hoch-Bereichsteilungsfrequenz zum Trennen in das Niedrigfrequenzband von 0-500 Hz und das Hochfrequenzband von 500-4000 Hz bezeichnet, die für die Verzerrungsbewertung in der Nachstufen-Verzerrungsbewertungseinheit 107 und dem ersten Bandpassfilter 103 verwendet werden. Obgleich das vorliegende Ausführungsbeispiel 3 das Bandinformationssignal bei 500 Hz fixiert, kann es auch die Analyse des Modus des eingegebenen, mit der Störung gemischten Sprachsignals als Frequenzanalyse des Sprachsignals und des Störsignals durchführen und kann das Bandinformationssignal bei der Frequenz setzen, bei der die Störsignal-Spektrumenergie die Sprachsignal-Spektrumenergie überschreitet (die Frequenz, bei der das SN-Verhältnis 0 dB in dem Spektrum kreuzt). Zusätzlich kann, da die Frequenz in jedem Moment gemäß dem eingegebenen, mit der Störung gemischten Sprachsignal und dem Modus der Störung variiert, die Frequenz beispielsweise für jeden Rahmen von 10 ms geändert werden.
  • Hier können als eine Störunterdrückungstechnik in der Störunterdrückungseinheit 201 öffentlich bekannte Verfahren verwendet werden, wie eine Technik, die auf einer spektralen Subtraktion beruht und die in Steven F. Boll, „Suppression of acoustic noise in speech using spectral subtraction", IEEE Trans. ASSP, Vol. ASSP-27, Nr. 2, Apr. 1979, offenbart ist, und eine Technik der spektralen Amplitudenunterdrückung, die die Größe der Dämpfung zu jeder Spektrumkomponente basierend auf dem SN-Verhältnis jeder Spektrumkomponente gibt und in J. S. Lim und A. V. Oppenheim, „Enhancement and Bandwidth Compression of Noisy Speech", Proc. of the IEEE, vol. 67, pp. 1586-1604, Dez. 1979, offenbart ist, sowie eine Technik, die die spektrale Subtraktion und die spektrale Amplitudenunterdrückung kombiniert (beispielsweise japanisches Patent Nr. JP 3 454 190 B2 ).
  • Wie bei dem vorhergehenden Ausführungsbeispiel 1 erzeugt in der Sprachsignal-Erzeugungseinheit 102 das Synthesefilter 106 mehrere Breitband-Sprachsignale unter Verwendung der Phonemsignale, die in der Phonemsignal-Speichereinheit 108 gespeichert sind, und der Tonquellensignale, die in der Tonquellensignal-Speichereinheit 109 gespeichert sind, und die Verzerrungsbewertungseinheit 107 schätzt ihre Wellenformverzerrungen mit Bezug auf das störunterdrückte Sprachsignal, das durch die Störunterdrückung hindurchgeht, gemäß dem vorbeschriebenen Verzerrungsmaßstab und wählt das Breitband-Sprachsignal mit der Wellenformverzerrung, die einer gegebenen Bedingung genügt, aus und gibt dieses aus.
  • Die Verzerrungsbewertungseinheit 107 begrenzt das Frequenzband (vorgeschriebenes Frequenzband), in welchem sie die Verzerrung schätzt, wenn sie die Wellenformverzerrung bewertet, auf einen Bereich, der höher als die Frequenz ist, die das Bandinformationssignal bezeichnet, und begrenzt in dem Beispiel auf 500-4000 Hz. Um die Wellenformverzerrung in diesem Bereich zu schätzen, kann eine Technik beispielsweise ähnlich der bei dem vorhergehenden Ausführungsbeispiel 1 verwendeten benutzt werden. Die Verzerrungsbewertungseinheit 107 gibt aufeinanderfolgend einen Befehl aus, um zu bewirken, dass die Phonemsignal-Speichereinheit 108 und die Tonquellensignal-Speichereinheit 109 Kombinationen der Spektralmuster und der Tonquellensignale ausgeben, bewirkt, dass das Synthesefilter 106 mehrere Breitband-Sprachsignale erzeugt, wählt das Breitband-Sprachsignale beispielsweise mit der minimalen Wellenformverzerrung aus und liefert es zu dem ersten Bandpassfilter 103.
  • Das erste Bandpassfilter 103 zieht die Niedrigfrequenzkomponente mit einer Frequenz, die nicht größer als die Niedrig/Hoch-Bereichsteilungsfrequenz, die das Bandinformationssignal anzeigt, aus dem von der Verzerrungsbewertungseinheit 107 erzeugten Breitband-Sprachsignal heraus und liefert sie zu der Bandsyntheseeinheit 104. Um die Niedrigfrequenzkomponente durch das erste Bandpassfilter 103 herauszuziehen, kann ein FIR-Filter, ein IIR-Filter oder dergleichen wie bei dem Ausführungsbeispiel 1 verwendet werden. Als allgemeine Charakteristik eines Sprachsignals erscheint wahrscheinlich eine harmonische Struktur eines Niedrigfrequenzbereichs in einem Hochfrequenzbereich in derselben Weise, und wenn umgekehrt die harmonische Struktur in dem Hochfrequenzbereich beobachtet wird, erscheint sie wahrscheinlich in dem Niedrigfrequenzbereich in derselben Weise. Da somit der Niedrigfrequenz- und der Hochfrequenzbereich eine starke Kreuzkorrelation haben, ist es denkbar, dass das optimale wiederhergestellte Sprachsignal gebildet werden kann durch Erhalten der Niedrigfrequenzkomponente, die durch das erste Bandpassfilter 103 aus dem Breitband-Sprachsignal, das in einer solchen Weise erzeugt wurde, dass es die minimale Verzerrung mit Bezug auf das störunterdrückte Sprachsignal hat, herausgezogen wird.
  • Das zweite Bandpassfilter 202 führt die zu der des vorgenannten ersten Bandpassfilters 103 inverse Operation durch. Genauer gesagt, es zieht aus dem störunterdrückten Sprachsignal die Hochfrequenzkomponente mit einem Frequenzbereich heraus, der nicht geringer als die durch das Ba-ndinformationssignal angezeigte Niedrig/Hoch-Bereichsteilungsfrequenz ist und liefert sie zu der Bandsyntheseeinheit 104. Um die Hochfrequenzkomponente durch das zweite Bandpassfilter 202 herauszuziehen, kann ein FIR-Filter, ein IIR-Filter oder dergleichen in derselben Weise wie das erste Bandpassfilter 103 verwendet werden.
  • Die Bandsyntheseeinheit 104 stellt das Sprachsignal wieder her durch Hinzufügen der Niedrigfrequenzkomponente des Breitband-Sprachsignals, die das erste Bandpassfilter 103 ausgibt, und der Hochfrequenzkomponente des störunterdrückten Sprachsignals, die das zweite Bandpassfilter 202 ausgibt, und gibt die Summe als das wiederhergestellte Sprachsignal aus.
  • Gemäß dem vorliegenden Ausführungsbeispiel 3 ist die Sprachsignal-Wiederherstellungsvorrichtung 200, die das verschlechterte oder teilweise zusammengebrochene, störunterdrückte Sprachsignal durch die Störunterdrückung des mit der Störung gemischten Sprachsignals durch die Störunterdrückungsschaltung 201 wiederherstellt und das wiederhergestellte Sprachsignal erzeugt, in einer solchen Weise ausgebildet, dass sie aufweist: das Synthesefilter 106 zum Erzeugen mehrerer Breitband-Sprachsignale durch Kombinieren der Phonemsignale und Tonquellensignale, die die Phonem-/ Tonquellensignal-Speichereinheit 105 speichert; die Verzerrungsbewertungseinheit 107 zum Schätzen der Wellenformverzerrungen der mehreren Breitband-Sprachsignale, die das Synthesefilter 106 erzeugt, mit Bezug auf das störunterdrückte Sprachsignal, und zum Auswählen des Breitband-Sprachsignals mit der minimalen Verzerrung auf der Grundlage des Bewertungsergebnisses unter Verwendung des vorgeschriebenen Verzerrungsmaßstabs; das erste Bandpassfilter 103 zum Herausziehen der Frequenzkomponente mit dem verschlechterten oder teilweise zusammengebrochenen Frequenzband aus dem Breitband-Sprachsignal, das die Verzerrungsbewertungseinheit 107 auswählt; das zweite Bandpassfilter 202 zum Herausziehen der Frequenzkomponente außerhalb des verschlechterten oder teilweise zusammengebrochenen Frequenzbands aus dem störunterdrückten Sprachsignal; und die Bandsyntheseeinheit 104 zum Kombinieren der Frequenzkomponente, die das erste Bandpassfilter 103 herauszieht, und der Frequenzkomponente, die das zweite Bandpassfilter 202 herauszieht. Auf diese Weise kann sie, da sie die für die Sprachsignal-Wiederherstellung zu verwendende Niedrigfrequenzkomponente aus dem in einer solchen Weise, dass die Verzerrung mit Bezug auf das störunterdrückte Sprachsignal minimiert ist, erzeugten Sprachsignal erhält, das Sprachsignal mit hoher Qualität wiederherstellen.
  • Zusätzlich kann sie gemäß dem vorliegenden Ausführungsbeispiel 3, da sie die Grundperiode der Sprache nicht herauszuziehen braucht und keine Verschlechterung aufgrund eines Fehlers beim Herausziehen der Grundperiode hat, ein Breitband-Sprachsignal hoher Qualität selbst in einem störbehafteten Umfeld, in welchem die Analyse der Grundperiode der Sprache schwierig ist, wiederherstellen.
  • Weiterhin kann sie gemäß dem vorliegenden Ausführungsbeispiel 3, da sie die für die Sprachsignal-Wiederherstellung zu verwendende Niedrigfrequenzkomponente aus dem Sprachsignal, das in einer solchen Weise erzeugt ist, dass die Verzerrung mit Bezug auf das störunterdrückte Sprachsignal minimiert wird, erhält, die Hochfrequenzkomponente des störunterdrückten Sprachsignals und die erzeugte Niedrigfrequenzkomponente theoretisch glatt verbinden, wodurch sie in der Lage ist, das Sprachsignal hoher Qualität ohne Verwendung einer Interpolationsverarbeitung wie einer Energiekorrektur bei der Bandsynthese wiederherzustellen.
  • Wenn das Verzerrungsbewertungsergebnis der Verzerrungsbewertungseinheit 107 sehr klein ist, kann die Sprachsignal-Wiederherstellungsvorrichtung 200 nach dem vorstehenden Ausführungsbeispiel 3 die Verarbeitung des ersten Bandpassfilters 103, des zweiten Bandpassfilters 202 und der Bandsyntheseeinheit 104 weglassen, und sie kann direkt das Breitband-Sprachsignal, das die Verzerrungsbewertungseinheit 107 ausgibt, als das wiederhergestellte Sprachsignal ausgeben.
  • Zusätzlich ist, obgleich das vorstehende Ausführungsbeispiel 3 in einer solchen Weise ausgebildet ist, dass die Niedrigfrequenzkomponente für das störunterdrückte Signal, dessen Niedrigfrequenzbereich verschlechtert oder teilweise zusammengebrochen ist, wiederhergestellt wird, die Konfiguration nicht hierauf beschränkt. Beispielsweise ist auch eine Konfiguration möglich, die für das störunterdrückte Sprachsignal, bei dem eine von der Niedrigfrequenzkomponente und der Hochfrequenzkomponente oder beide von diesen verschlechtert oder teilweise zusammengebrochen sind, die Frequenzkomponenten dieser Bänder wiederherstellt. Alternativ ist auch eine Konfiguration möglich, die die Frequenzkomponente eines Zwischenbandes von beispielsweise 800-1000 Hz als Antwort auf das Bandinformationssignal, das die Störunterdrückungseinheit 201 ausgibt, wiederherstellt. Als ein Zustand, in welchem das Zwischenband verschlechtert oder teilweise zusammengebrochen ist, ist ein Fall denkbar, in welchem eine lokale Bandstörung wie eine Windstörung, die während des Fahrens eines Fahrzeugs mit hoher Geschwindigkeit auftritt, in das Sprachsignal gemischt ist. Auf diese Weise kann das Ausführungsbeispiel 3, solange das störunterdrückte Sprachsignal ein Frequenzband von zumindest einem Teil des Frequenzbandes des Breitband-Sprachsignals, das das Synthesefilter 106 erzeugt, hat, die Frequenzkomponente mit dem restlichen Frequenzband des störunterdrückten Sprachsignals in derselben Weise wie die vorhergehenden Ausführungsbeispiele 1 und 2 wiederherstellen.
  • AUSFÜHRUNGSBEISPIEL 4
  • Als eine Variation des vorhergehenden Ausführungsbeispiels 3 ist auch eine Konfiguration möglich, die das Analyseergebnis des störunterdrückten Sprachsignals als Hilfsinformation zum Erzeugen eines Breitband-Sprachsignals in derselben Weise wie das vorstehende Ausführungsbeispiel 2 verwendet. Genauer gesagt, die in 3 gezeigte Sprachanalyseeinheit 111 wird zu der Sprachsignal-Wiederherstellungsvorrichtung des vorhergehenden Ausführungsbeispiels 3 hinzugefügt, analysiert akustische Merkmale hinsichtlich des von der Störunterdrückungseinheit 201 gelieferten störunterdrückten Sprachsignals, zieht die Phonemsignale und Tonquellensignale des störunterdrückten Sprachsignals heraus und liefert sie zu der Phonemsignal-Speichereinheit 108 und der Tonquellensignal-Speichereinheit 109.
  • Gemäß dem vorliegenden Ausführungsbeispiel 4 ist die Sprachsignal-Wiederherstellungsvorrichtung 200 in einer solchen Weise ausgebildet, dass sie die Sprachanalyseeinheit 111 zum Durchführen einer akustischen Analyse des störunterdrückten Sprachsignals und zum Erzeugen der Hilfsinformationen aufweist und dass das Synthesefilter 106 mehrere Breitband-Sprachsignale durch Kombinieren der Phonemsignale und der Tonquellensignale, die die Phonem-/Tonquellensignal-Speichereinheit 105 speichert, unter Verwendung der von der Sprachanalyseeinheit 111 erzeugten Hilfsinformation erzeugt. Eine derartige Verwendung des Analyseergebnisses des störunterdrückten Sprachsignals als die Hilfsinformation ermöglicht das Erhalten eines Breitband-Sprachsignals, das dem störunterdrückten Sprachsignal mehr angenähert ist, wodurch ein Sprachsignal höherer Qualität wiederhergestellt werden kann.
  • Zusätzlich kann gemäß dem vorliegenden Ausführungsbeispiel 4, wenn die Breitband-Sprachsignale erzeugt werden, da eine vorläufige Auswahl der Phonemsignale und der Tonquellensignale unter Verwendung des Analyseergebnisses des störunterdrückten Sprachsignals als die Hilfsinformation durchgeführt werden kann, der Umfang der Verarbeitung reduziert werden, während die hohe Qualität aufrechterhalten bleibt.
  • AUSFÜHRUNGSBEISPIEL 5
  • Obgleich das vorhergehende Ausführungsbeispiel 3 das Sprachsignal in zwei Teile des Niedrigfrequenz- und des Hochfrequenzbereichs gemäß dem Bandinformationssignal teilt und bewirkt, dass die Verzerrungsbewertungsverarbeitung nur die Verzerrung in dem Hochfrequenzbereich schätzt, ist auch eine Konfiguration möglich, die einem Teil der Niedrigfrequenzkomponente Gewichte zuweist, gefolgt durch Verwendung hiervon als ein Ziel der Verzerrungsbewertung, oder die eine Gewichtung gemäß den Frequenzcharakteristiken des Störsignals durchführt, gefolgt durch die Vornahme einer Verzerrungsbewertung. Da die Sprachsignal-Wiederherstellungsvorrichtung nach dem vorliegenden Ausführungsbeispiel 5 dieselbe Konfiguration wie die in 4 gezeigte Sprachsignal-Wiederherstellungsvorrichtung 200 hat, wird die folgende Beschreibung unter Bezugnahme auf 4 gemacht.
  • 6 zeigt ein Beispiel für für die Verzerrungsbewertung der Verzerrungsbewertungseinheit 107 verwendete Wichtungskoeffizienten: 6(a) zeigt einen Fall, der ebenfalls einen Teil der Niedrigfrequenzkomponente als ein Bewertungsziel verwendet; und 6(b) zeigt einen Fall, der die inversen Charakteristiken der Frequenzcharakteristiken des Störsignals als Wichtungskoeffizienten verwendet. In jedem Diagramm in 6 zeigt die vertikale Achse die Amplitude und Verzerrungsbewertungsgewichte, und die horizontale Achse zeigt die Frequenz. Als ein Verfahren des Reflektierens der Wichtungskoeffizienten in der Verzerrungsbewertung der Verzerrungsbewertungseinheit 107 ist ein Verfahren denkbar, das beispielsweise eine Faltung der Wichtungskoeffizienten mit den Filterkoeffizienten durchführt oder das die Energiespektrumkomponenten mit den Wichtungskoeffizienten multipliziert. Zusätzlich sind als die Charakteristiken des ersten Bandpassfilters 103 und des zweiten Bandpassfilters 202 Charakteristiken möglich, die sie bei dem Niedrigfrequenzbereich und dem Hochfrequenzbereich in derselben Weise wie das vorhergehende Ausführungsbeispiel 3 trennen, oder Filtercharakteristiken sind möglich, die die Frequenzcharakteristiken der Wichtungskoeffizienten von 6(a) zeigen.
  • Ein Grund, den Niedrigfrequenzbereich zum Bewertungsziel zu machen, wie in 6(a) gezeigt ist, besteht darin, dass, obgleich die Niedrigfrequenzkomponente einer Störunterdrückung unterzogen wird, ihre Sprachkomponente nicht vollständig verloren ist und dass das Hinzufügen der Komponente zu der Bewertung eine Verbesserung der Qualität des erzeugten Breitband-Sprachsignals ermöglicht. Zusätzlich kann die unter Verwendung der inversen Charakteristiken der Frequenzcharakteristiken der Störung, wie in 6(b) gezeigt ist, durchgeführte Verzerrungsbewertung die Qualität des erzeugten Breitband-Sprachsignals verbessern, da sie Gewichte dem Hochfrequenzbereich mit einem vergleichsweise hohen SN-Verhältnis (Störungsabstand) zuweisen kann.
  • Gemäß dem vorliegenden Ausführungsbeispiel 5 ist die Verzerrungsbewertungseinheit 107 in einer solchen Weise ausgebildet, dass die Wellenformverzerrung unter Verwendung des Verzerrungsmaßstabs, dem Gewichte auf der Frequenzachse zugewiesen sind, bewertet wird. Somit kann die durch Zuweisen von Gewichten zu einem Teil der Niedrigfrequenzkomponente durchgeführte Verzerrungsbewertung die Qualität des erzeugten Sprachsignals verbessern und das Sprachsignal mit höherer Qualität wiederherstellen.
  • Zusätzlich kann sie gemäß dem vorliegenden Ausführungsbeispiel 5, da sie die Verzerrungsbewertung durch Gewichten gemäß den inversen Charakteristiken der Frequenzcharakteristiken der Störung durchführt, die Qualität des erzeugten Sprachsignals verbessern und das Sprachsignal mit höherer Qualität wiederherstellen.
  • Obgleich bei dem vorhergehenden Ausführungsbeispiel 5 das Gewichten der Verzerrungsbewertung für die Wiederherstellung des störunterdrückten Sprachsignals durchgeführt wird, ist dies auch in derselben Weise anwendbar auf die Wiederherstellung des Breitband-Sprachsignals aus dem Schmalband-Sprachsignal durch die Sprachsignal-Wiederherstellungsvorrichtung 100 der vorhergehenden Ausführungsbeispiele 1 und 2.
  • Zusätzlich sind, obgleich die vorhergehenden Ausführungsbeispiele 1 bis 5 einen Fall der Telefonsprache als ein Beispiel für das Schmalband-Sprachsignal beschreiben, diese nicht auf die Telefonsprache beschränkt. Beispielsweise sind sie auch anwendbar auf die Hochfrequenzbereichs-Erzeugungsverarbeitung eines Signals, dessen Hochfrequenzbereich durch eine Akustiksignal-Codiertechnik wie MP3 (MPEG-Audioschicht-3) abgeschnitten ist. Zusätzlich ist das Frequenzband des Breitband-Sprachsignals nicht auf 50 - 7000 Hz begrenzt. Beispielsweise sind sie auf ein weiteres Band wie 50-16000 Hz anwendbar.
  • Zusätzlich ist, obgleich die Erzeugungseinheit 110 für ein wiederhergestelltes Sprachsignal, die in den vorhergehenden Ausführungsbeispielen 1-5 gezeigt ist, eine Konfiguration des Ausschneidens eines bestimmten Frequenzbands aus dem Sprachsignal durch das Bandpassfilter und des Erzeugens des wiederhergestellten Sprachsignals durch Kombinieren von diesem mit einem anderen Sprachsignal durch die Bandsyntheseeinheit hat, sie nicht auf diese Konfiguration beschränkt. Beispielsweise ist auch eine Konfiguration möglich, die das wiederhergestellte Sprachsignal erzeugt, indem eine gewichtete Addition von zwei Typen des in die Erzeugungseinheit 110 für ein wiederhergestelltes Sprachsignal eingegebenen Sprachsignals durchgeführt wird. 7 zeigt ein Beispiel, in welchem die Erzeugungseinheit 110 für ein wiederhergestelltes Sprachsignal mit der Konfiguration angewendet wird auf die Sprachsignal-Wiederherstellungsvorrichtung 100 des vorhergehenden Ausführungsbeispiels 1, und 8 zeigt schematisch das wiederhergestellte Sprachsignal. Die Pfeile in 8 stellen die Reihenfolge der Verarbeitung dar, die vertikale Achse jedes Diagramms zeigt die Energie, und die horizontale Achse zeigt eine Frequenz.
  • Wie in 7 gezeigt ist, weist die Erzeugungseinheit 110 für ein wiederhergestelltes Sprachsignal zwei Gewichtseinstelleinheiten 301 und 302 neu auf. Die Gewichtseinstelleinheit 301 stellt das Gewicht (Verstärkung) des von der Verzerrungsbewertungseinheit 107 ausgegebenen Breitband-Sprachsignals beispielsweise auf 0,2 ein (gestrichelte Linie in 8(a)), und die Gewichtseinstelleinheit 302 stellt das Gewicht (Verstärkung) des von der Abtastumwandlungseinheit 101 ausgegebenen, aufwärts abgetasteten Sprachsignals beispielsweise auf 0,8 ein (gestrichelte Linie in 8(b)). Dann addiert die Bandsyntheseeinheit 104 beide Sprachsignale (8(c)), um das wiederhergestellte Sprachsignal (8(d)) zu erzeugen.
  • Obgleich dies nicht gezeigt ist, kann die Konfiguration nach 7 auf die Sprachsignal-Wiederherstellungsvorrichtung 200 angewendet werden.
  • Die Gewichtseinstelleinheiten 301 und 302 können Gewichte wie benötigt zuweisen, wie die Verwendung eines konstanten Gewichts in der Richtung der Frequenz oder die Verwendung von Gewichten mit Frequenzcharakteristiken, die mit der Frequenz zunehmen. Zusätzlich ist auch eine Konfiguration möglich, die sowohl die Gewichtseinstelleinheit 301 und das erste Bandpassfilter 103 aufweist und bewirkt, dass das erste Bandpassfilter 103 das Frequenzband gleich dem Schmalband-Sprachsignal aus dem Breitband-Sprachsignal, das die Gewichtseinstellung durch die Gewichtseinstelleinheit 301 durchlaufen hat, herauszieht. Umgekehrt ist auch eine Konfiguration möglich, die bewirkt, dass das erste Bandpassfilter 103 das Frequenzband gleich dem Schmalband-Sprachsignal aus dem Breitband-Sprachsignal herauszieht, und bewirkt, dass die Gewichtseinstelleinheit 301 die Gewichtseinstellung des Frequenzbandes durchführt. In gleicher Weise ist eine Konfiguration möglich, die sowohl die Gewichtseinstelleinheit 301 als auch das zweite Bandpassfilter 202 aufweist.
  • Wie vorstehend beschrieben ist, ist die Sprachsignal-Wiederherstellungsvorrichtung gemäß der vorliegenden Erfindung in einer solchen Weise ausgebildet, dass sie das wiederhergestellte Sprachsignal aus dem Breitband-Sprachsignal erzeugt, das ausgewählt ist aus den mehreren Breitband-Sprachsignalen, die aus den Phonemsignalen und den Tonquellensignalen synthetisiert sind, und aus dem Vergleichszielsignal. Demgemäß ist sie geeignet für eine Anwendung zum Wiederherstellen des Vergleichszielsignals, dessen Frequenzband teilweise weggelassen ist, da das Frequenzband auf ein schmales Band begrenzt ist oder teilweise verschlechtert oder zusammengebrochen ist aufgrund von Störunterdrückung oder Sprachverdichtung. Wenn die Sprachsignal-Wiederherstellungsvorrichtung 100 oder 200 durch einen Computer gebildet wird, können Programme, die den Verarbeitungsinhalt der Abtastumwandlungseinheit 101, der Sprachsignal-Erzeugungseinheit 102, der Erzeugungseinheit 110 für ein wiederhergestelltes Sprachsignal, der Sprachanalyseeinheit 111 und der Störunterdrückungseinheit 201 beschreiben, in einem Computerspeicher gespeichert werden, und die CPU des Computers kann die in dem Speicher gespeicherten Programme ausführen.
  • GEWERBLICHE ANWENDBARKEIT
  • Eine Sprachsignal-Wiederherstellungsvorrichtung und ein Sprachsignal-Wiederherstellungsverfahren gemäß der vorliegenden Erfindung sind in einer solchen Weise ausgebildet, dass sie mehrere Sprachsignale durch Kombinieren der Phonemsignale und der Tonquellensignale erzeugen, ihre Wellenformverzerrungen mit Bezug auf das Vergleichszielsignal unter Verwendung eines vorgeschriebenen Verzerrungsmaßstabs schätzen und das wiederhergestellte Sprachsignal durch Auswählen eines der Sprachsignale auf der Grundlage des Bewertungsergebnisses erzeugen. Demgemäß ist sie geeignet für eine Anwendung als die Sprachsignal-Wiederherstellungsvorrichtung und ihres Verfahrens zum Wiederherstellen des Breitband-Sprachsignals aus dem Sprachsignal, dessen Frequenz auf das schmale Band begrenzt ist, und zum Wiederherstellen des Sprachsignals mit einem verschlechterten oder teilweise zusammengebrochenen Band.

Claims (8)

  1. Sprachsignal-Wiederherstellungsvorrichtung (100, 200), welche aufweist: ein Synthesefilter (106) zum Erzeugen mehrerer Sprachsignale durch Kombinieren von Phonemsignalen und Tonquellensignalen; eine Verzerrungsbewertungseinheit (107) zum Bewerten, unter Verwendung eines vorgeschriebenen Verzerrungsmaßstabs, einer Wellenformverzerrung jedes der mehreren Sprachsignale, die das Synthesefilter (106) erzeugt, mit Bezug auf ein Vergleichszielsignal mit einer Frequenzkomponente von zumindest einem Teil eines Frequenzbandes der Sprachsignale, die das Synthesefilter (106) erzeugt, und zum Auswählen eines der mehreren Sprachsignale gemäß dem Bewertungsergebnis; und eine Erzeugungseinheit (110) für ein wiederhergestelltes Sprachsignal zum Erzeugen eines wiederhergestellten Sprachsignals unter Verwendung des Sprachsignals, das die Verzerrungsbewertungseinheit (107) auswählt.
  2. Sprachsignal-Wiederherstellungsvorrichtung (100, 200) nach Anspruch 1, bei der die Erzeugungseinheit (110) für ein wiederhergestelltes Sprachsignal eine Bandsyntheseeinheit (104) zum Kombinieren des Vergleichszielsignals mit dem Sprachsignal, das die Verzerrungsbewertungseinheit (107) auswählt, aufweist.
  3. Sprachsignal-Wiederherstellungsvorrichtung (100, 200) nach Anspruch 1, bei der die Verzerrungsbewertungseinheit (107) eine Wellenformverzerrung einer Frequenzkomponente eines vorgeschriebenen Frequenzbandes von jedem der mehreren Sprachsignale, die das Synthesefilter (106) erzeugt, mit Bezug auf eine Frequenzkomponente des vorgeschriebenen Frequenzbandes des Vergleichszielsignals bewertet.
  4. Sprachsignal-Wiederherstellungsvorrichtung (100, 200) nach Anspruch 3, welche weiterhin aufweist: eine Abtastumwandlungseinheit (101) zum Abtasten und Umwandeln des Vergleichszielsignals in einer Weise, dass das Vergleichszielsignal dem vorgeschriebenen Frequenzband entspricht, wobei die Verzerrungsbewertungseinheit (107) eine Wellenformverzerrung der Frequenzkomponente des vorgeschriebenen Frequenzbands von jedem der mehreren Sprachsignale, die das Synthesefilter (106) erzeugt, mit Bezug auf die Frequenzkomponente des vorgeschriebenen Frequenzbands des Vergleichzielsignals, das durch die Abtastumwandlung der Abtastumwandlungseinheit hindurchgeht, bewertet.
  5. Sprachsignal-Wiederherstellungsverfahren, welches aufweist: einen Synthesefilterschritt des Erzeugens mehrerer Sprachsignale durch Kombinieren von Phonemsignalen und Tonquellensignalen; einen Verzerrungsbewertungsschritt des Bewertens, unter Verwendung eines vorgeschriebenen Verzerrungsmaßstabs, einer Wellenformverzerrung von jedem der mehreren Sprachsignale, die der Synthesefilterschritt erzeugt, mit Bezug auf ein Vergleichszielsignal mit einer Frequenzkomponente von zumindest einem Teil eines Frequenzbands der Sprachsignale, die der Synthesefilterschritt erzeugt, und des Auswählens von einem der mehreren Sprachsignale gemäß dem Bewertungsergebnis; und einen Erzeugungsschritt des Erzeugens eines wiederhergestellten Sprachsignals unter Verwendung des Sprachsignals, das der Verzerrungsbewertungsschritt auswählt.
  6. Sprachsignal-Wiederherstellungsverfahren nach Anspruch 5, bei dem der Erzeugungsschritt einen Bandsyntheseschritt zum Kombinieren des Vergleichszielsignals mit dem Sprachsignal, das der Verzerrungsbewertungsschritt auswählt, aufweist.
  7. Sprachsignal-Wiederherstellungsverfahren nach Anspruch 5, bei dem der Verzerrungsbewertungsschritt eine Wellenformverzerrung einer Frequenzkomponente eines vorgeschriebenen Frequenzbands von jedem der mehreren Sprachsignale, die der Synthesefilterschritt erzeugt, mit Bezug auf eine Frequenzkomponente des vorgeschriebenen Frequenzbands des Vergleichszielsignals bewertet.
  8. Sprachsignal-Wiederherstellungsverfahren nach Anspruch 7, welches weiterhin aufweist: einen Abtastumwandlungsschritt des Abtastens und Umwandeins des Vergleichszielsignals in einer Weise, dass das Vergleichszielsignal dem vorgeschriebenen Frequenzband entspricht, wobei der Verzerrungsbewertungsschritt eine Wellenformverzerrung der Frequenzkomponente des vorgeschriebenen Frequenzbands von jedem der mehreren Sprachsignale, die der Synthesefilterschritt erzeugt, mit Bezug auf eine Frequenzkomponente des vorgeschriebenen Frequenzbands des Vergleichszielsignals, das durch die Abtastumwandlung des Abtastumwandlungsschritt hindurchgeht, bewertet.
DE112010005020.1T 2009-12-28 2010-10-22 Sprachsignal-Wiederherstellungsvorrichtung und Sprachsignal-Wiederherstellungsverfahren Expired - Fee Related DE112010005020B4 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2009-297147 2009-12-28
JP2009297147 2009-12-28
PCT/JP2010/006264 WO2011080855A1 (ja) 2009-12-28 2010-10-22 音声信号復元装置および音声信号復元方法

Publications (2)

Publication Number Publication Date
DE112010005020T5 DE112010005020T5 (de) 2012-10-18
DE112010005020B4 true DE112010005020B4 (de) 2018-12-13

Family

ID=44226287

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112010005020.1T Expired - Fee Related DE112010005020B4 (de) 2009-12-28 2010-10-22 Sprachsignal-Wiederherstellungsvorrichtung und Sprachsignal-Wiederherstellungsverfahren

Country Status (5)

Country Link
US (1) US8706497B2 (de)
JP (1) JP5535241B2 (de)
CN (1) CN102652336B (de)
DE (1) DE112010005020B4 (de)
WO (1) WO2011080855A1 (de)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
JP5552988B2 (ja) * 2010-09-27 2014-07-16 富士通株式会社 音声帯域拡張装置および音声帯域拡張方法
KR102060208B1 (ko) * 2011-07-29 2019-12-27 디티에스 엘엘씨 적응적 음성 명료도 처리기
WO2013098885A1 (ja) * 2011-12-27 2013-07-04 三菱電機株式会社 音声信号復元装置および音声信号復元方法
JP6169849B2 (ja) * 2013-01-15 2017-07-26 本田技研工業株式会社 音響処理装置
US9711156B2 (en) * 2013-02-08 2017-07-18 Qualcomm Incorporated Systems and methods of performing filtering for gain determination
US9304010B2 (en) * 2013-02-28 2016-04-05 Nokia Technologies Oy Methods, apparatuses, and computer program products for providing broadband audio signals associated with navigation instructions
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
US9721584B2 (en) * 2014-07-14 2017-08-01 Intel IP Corporation Wind noise reduction for audio reception
DE112015004185T5 (de) 2014-09-12 2017-06-01 Knowles Electronics, Llc Systeme und Verfahren zur Wiederherstellung von Sprachkomponenten
US10347273B2 (en) * 2014-12-10 2019-07-09 Nec Corporation Speech processing apparatus, speech processing method, and recording medium
US9668048B2 (en) 2015-01-30 2017-05-30 Knowles Electronics, Llc Contextual switching of microphones
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
JP7126061B2 (ja) * 2016-09-27 2022-08-26 パナソニックIpマネジメント株式会社 音声信号処理装置、音声信号処理方法、および制御プログラム
KR102648122B1 (ko) * 2017-10-25 2024-03-19 삼성전자주식회사 전자 장치 및 그 제어 방법
DE102018206335A1 (de) 2018-04-25 2019-10-31 Audi Ag Haupteinheit für ein Infotainmentsystem eines Fahrzeugs

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08123484A (ja) 1994-10-28 1996-05-17 Matsushita Electric Ind Co Ltd 信号合成方法および信号合成装置
JP3230790B2 (ja) 1994-09-02 2001-11-19 日本電信電話株式会社 広帯域音声信号復元方法
JP3243174B2 (ja) 1996-03-21 2002-01-07 株式会社日立国際電気 狭帯域音声信号の周波数帯域拡張回路
JP3454190B2 (ja) 1999-06-09 2003-10-06 三菱電機株式会社 雑音抑圧装置および方法
JP2007072264A (ja) 2005-09-08 2007-03-22 Nippon Telegr & Teleph Corp <Ntt> 音声量子化方法、音声量子化装置、プログラム

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3099047B2 (ja) 1990-02-02 2000-10-16 株式会社 ボッシュ オートモーティブ システム ブラシレスモータの制御装置
JPH03243174A (ja) 1990-02-16 1991-10-30 Toyota Autom Loom Works Ltd アクチュエータ
JP3563772B2 (ja) * 1994-06-16 2004-09-08 キヤノン株式会社 音声合成方法及び装置並びに音声合成制御方法及び装置
DE69619284T3 (de) * 1995-03-13 2006-04-27 Matsushita Electric Industrial Co., Ltd., Kadoma Vorrichtung zur Erweiterung der Sprachbandbreite
JP3189614B2 (ja) 1995-03-13 2001-07-16 松下電器産業株式会社 音声帯域拡大装置
US6240384B1 (en) * 1995-12-04 2001-05-29 Kabushiki Kaisha Toshiba Speech synthesis method
US6081781A (en) * 1996-09-11 2000-06-27 Nippon Telegragh And Telephone Corporation Method and apparatus for speech synthesis and program recorded medium
JPH10124098A (ja) * 1996-10-23 1998-05-15 Kokusai Electric Co Ltd 音声処理装置
JPH10124089A (ja) 1996-10-24 1998-05-15 Sony Corp 音声信号処理装置及び方法、並びに、音声帯域幅拡張装置及び方法
US6587846B1 (en) * 1999-10-01 2003-07-01 Lamuth John E. Inductive inference affective language analyzer simulating artificial intelligence
JP4296714B2 (ja) * 2000-10-11 2009-07-15 ソニー株式会社 ロボット制御装置およびロボット制御方法、記録媒体、並びにプログラム
US7251601B2 (en) * 2001-03-26 2007-07-31 Kabushiki Kaisha Toshiba Speech synthesis method and speech synthesizer
JP4012506B2 (ja) * 2001-08-24 2007-11-21 株式会社ケンウッド 信号の周波数成分を適応的に補間するための装置および方法
DE60215296T2 (de) * 2002-03-15 2007-04-05 Sony France S.A. Verfahren und Vorrichtung zum Sprachsyntheseprogramm, Aufzeichnungsmedium, Verfahren und Vorrichtung zur Erzeugung einer Zwangsinformation und Robotereinrichtung
DE10252070B4 (de) * 2002-11-08 2010-07-15 Palm, Inc. (n.d.Ges. d. Staates Delaware), Sunnyvale Kommunikationsendgerät mit parametrierter Bandbreitenerweiterung und Verfahren zur Bandbreitenerweiterung dafür
KR100463655B1 (ko) * 2002-11-15 2004-12-29 삼성전자주식회사 부가 정보 제공 기능이 있는 텍스트/음성 변환장치 및 방법
WO2004097792A1 (ja) * 2003-04-28 2004-11-11 Fujitsu Limited 音声合成システム
JP4661074B2 (ja) * 2004-04-07 2011-03-30 ソニー株式会社 情報処理システム、情報処理方法、並びにロボット装置
US8296143B2 (en) * 2004-12-27 2012-10-23 P Softhouse Co., Ltd. Audio signal processing apparatus, audio signal processing method, and program for having the method executed by computer
FR2898443A1 (fr) * 2006-03-13 2007-09-14 France Telecom Procede de codage d'un signal audio source, dispositif de codage, procede et dispositif de decodage, signal, produits programme d'ordinateur correspondants
DE602006009927D1 (de) * 2006-08-22 2009-12-03 Harman Becker Automotive Sys Verfahren und System zur Bereitstellung eines Tonsignals mit erweiterter Bandbreite
JP2008185805A (ja) * 2007-01-30 2008-08-14 Internatl Business Mach Corp <Ibm> 高品質の合成音声を生成する技術
JP4966048B2 (ja) * 2007-02-20 2012-07-04 株式会社東芝 声質変換装置及び音声合成装置
JP2009109805A (ja) * 2007-10-31 2009-05-21 Toshiba Corp 音声処理装置及びその方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3230790B2 (ja) 1994-09-02 2001-11-19 日本電信電話株式会社 広帯域音声信号復元方法
JPH08123484A (ja) 1994-10-28 1996-05-17 Matsushita Electric Ind Co Ltd 信号合成方法および信号合成装置
JP3243174B2 (ja) 1996-03-21 2002-01-07 株式会社日立国際電気 狭帯域音声信号の周波数帯域拡張回路
JP3454190B2 (ja) 1999-06-09 2003-10-06 三菱電機株式会社 雑音抑圧装置および方法
JP2007072264A (ja) 2005-09-08 2007-03-22 Nippon Telegr & Teleph Corp <Ntt> 音声量子化方法、音声量子化装置、プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
J. S. Lim und A. V. Oppenheim, „Enhancement and Bandwidth Compression of Noisy Speech", Proc. of the IEEE, vol. 67, pp. 1586-1604, Dez. 1979,
Steven F. Boll, „Suppression of acoustic noise in speech using spectral subtraction", IEEE Trans. ASSP, Vol. ASSP-27, Nr. 2, Apr. 1979,

Also Published As

Publication number Publication date
US8706497B2 (en) 2014-04-22
JP5535241B2 (ja) 2014-07-02
DE112010005020T5 (de) 2012-10-18
CN102652336B (zh) 2015-02-18
JPWO2011080855A1 (ja) 2013-05-09
CN102652336A (zh) 2012-08-29
WO2011080855A1 (ja) 2011-07-07
US20120209611A1 (en) 2012-08-16

Similar Documents

Publication Publication Date Title
DE112010005020B4 (de) Sprachsignal-Wiederherstellungsvorrichtung und Sprachsignal-Wiederherstellungsverfahren
DE60202881T2 (de) Wiederherstellung von hochfrequenzkomponenten
DE69627580T2 (de) Verfahren zur Rauschverminderung in einem Sprachsignal
DE69634645T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE60029990T2 (de) Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE69023402T2 (de) Verfahren zur Sprachkodierung und -dekodierung.
EP1979901B1 (de) Verfahren und anordnungen zur audiosignalkodierung
DE69816810T2 (de) Systeme und verfahren zur audio-kodierung
DE69619284T3 (de) Vorrichtung zur Erweiterung der Sprachbandbreite
DE112010005895B4 (de) Störungsunterdrückungsvorrichtung
EP1825461B1 (de) Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen
DE60006271T2 (de) Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung
DE60013785T2 (de) VERBESSERTE SUBJEKTIVE QUALITäT VON SBR (SPECTRAL BAND REPLICATION)UND HFR (HIGH FREQUENCY RECONSTRUCTION) KODIERVERFAHREN DURCH ADDIEREN VON GRUNDRAUSCHEN UND BEGRENZUNG DER RAUSCHSUBSTITUTION
DE69910240T2 (de) Vorrichtung und verfahren zur wiederherstellung des hochfrequenzanteils eines überabgetasteten synthetisierten breitbandsignals
DE60317722T2 (de) Verfahren zur Reduzierung von Aliasing-Störungen, die durch die Anpassung der spektralen Hüllkurve in Realwertfilterbanken verursacht werden
DE60011051T2 (de) Celp-transkodierung
DE69916321T2 (de) Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen
DE112012005855B4 (de) Störungsunterdrückungsvorrichtung
DE112011105791B4 (de) Störungsunterdrückungsvorrichtung
DE68912692T2 (de) Zur Sprachqualitätsmodifizierung geeignetes Übertragungssystem durch Klassifizierung der Sprachsignale.
DE60128121T2 (de) Wahrnehmungsbezogen verbesserte aufbesserung kodierter akustischer signale
DE602004004950T2 (de) Vorrichtung und Verfahren zum bitraten-skalierbaren Sprachkodieren und -dekodieren
DE60122397T2 (de) Frequenzinterpolationseinrichtung und Frequenzinterpolationsverfahren
DE112011106045B4 (de) Audiosignal-Wiederherstellungsvorrichtung und Audiosignal-Wiederherstellungsverfahren

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R083 Amendment of/additions to inventor(s)
R084 Declaration of willingness to licence
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee