DE112014000945T5 - Sprachbetonungsgerät - Google Patents

Sprachbetonungsgerät Download PDF

Info

Publication number
DE112014000945T5
DE112014000945T5 DE112014000945.8T DE112014000945T DE112014000945T5 DE 112014000945 T5 DE112014000945 T5 DE 112014000945T5 DE 112014000945 T DE112014000945 T DE 112014000945T DE 112014000945 T5 DE112014000945 T5 DE 112014000945T5
Authority
DE
Germany
Prior art keywords
spectrum
frequency
power spectrum
power
input signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE112014000945.8T
Other languages
English (en)
Other versions
DE112014000945B4 (de
Inventor
Satoru Furuta
Kosuke Hosoya
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of DE112014000945T5 publication Critical patent/DE112014000945T5/de
Application granted granted Critical
Publication of DE112014000945B4 publication Critical patent/DE112014000945B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/0332Details of processing therefor involving modification of waveforms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/02Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers
    • H03G9/025Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers frequency-dependent volume compression or expansion, e.g. multiple-band systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Telephone Function (AREA)

Abstract

Ein Eingangssignalanalysator 3 bestimmt eine Grenzfrequenz innerhalb der Grenze eines Bereichs, welcher eine erste Frequenz von dem Modus eines Eingangssignals nicht überschreitet. Ein Spektrumkompressor 6 komprimiert ein Leistungsspektrum von Frequenzen in einem Band höher als die erste Frequenz in einer Frequenzrichtung. Ein Verstärkungskorrektor 7 führt eine Verstärkungskorrektur auf das komprimierte Leistungsspektrum aus. Ein Spektrumsynthetisierer 8 gibt das Leistungsspektrum, das von dem Verstärkungskorrektor 7 ausgegeben wird, in einem Band wieder, das von beiden, der ersten Frequenz und der Grenzfrequenz, bestimmt ist. Ein Frequenz-zu-Zeit-Konverter 9 konvertiert beide, ein synthetisiertes Leistungsspektrum, bereitgestellt durch den Spektrumsynthetisierer 8, und ein Phasenspektrum von dem Eingangssignal in solche in dem Zeitbereich um, und gibt diese Spektren aus.

Description

  • GEBIET DER ERFINDUNG
  • Die vorliegende Erfindung betrifft ein Sprachbetonungsgerät, welches für eine Verbesserung der Tonqualität eines Sprachkommunikationssystems verwendet wird, wie einer Fahrzeugnavigation, Mobiltelefonen, Gegensprechanlagen und Tonsammelgeräten, einem Freisprechrufsystem, einem TV-Konferenzsystem, einem Überwachungssystem, einem Nachrichtensystem, einem Sprachsynthesesystem etc., in welche Sprachkommunikation, ein Sprachspeicher, eine Sprachsynthese und ein Spracherkennungssystem einbezogen sind, und für eine Verbesserung der Erkennungsrate des Spracherkennungssystems, und welches eine Verbesserung der Qualität und Verständlichkeit eines Sprachsignals bietet.
  • HINTERGRUND DER ERFINDUNG
  • Bei Analogtelefonen ist eine Obergrenzenfrequenz des Frequenzbands eines Sprachsignals, das über eine Telefonleitung versendet wird, zum Beispiel bandlimitiert eingeengt auf 3400 Hz. Deshalb kann nicht gesagt werden, dass die Tonqualität einer herkömmlichen Telefonleitung gut ist. Weiterhin kann, da die Bandbreite durch eine starke Einschränkung der Bitrate in dem Fall von digitaler Sprachkommunikation limitiert ist, wie bei Mobiltelefonkommunikationen und drahtlosen Kommunikationen für gewerbliche Anwendungen, wie in dem Fall von analogen Kanälen, auch in diesem Fall nicht gesagt werden, dass die Tonqualität gut ist. Obwohl eine Sprachkonsonantenkomponente und ein eigener "individueller Charakter" und eine "Natürlichkeit" einer Sprache oftmals auch in einem Band gleich oder größer als 3400 Hz existieren, gehen sie aufgrund der vorstehend erwähnten Bandbreitenlimitierung in hohem Maße verloren.
  • Im Übrigen wurde es in letzter Zeit möglich, eine Funkübertragung eines Sprachsignals in einem breiten Band (zum Beispiel ist eine Obergrenzenfrequenz 7000 Hz) bei einer niedrigen Bitrate durchzuführen, da sich Audiokompressionstechnologien (Sprachkodierungstechniken) weiterentwickeln. Da jedoch sowohl ein entsprechendes übertragungsseitiges Endgerät und ein empfangsseitiges Endgerät ein entsprechendes Breitbandsprachkodierungsverfahren und ein entsprechendes Breitbandsprachdekodierungsverfahren unterstützen müssen, und beide Basisstationen auch voll mit einem Netzwerk für Breitbandkodierung ausgestattet sein müssen, wird solch eine Funkübertragung in der Praxis nur in manchen Kommunikationssystemen für gewerbliche Anwendung genutzt, und in dem Fall des Implementierens einer solchen Funkübertragung in einem öffentlichen Telefonkommunikationsnetzwerk wird nicht nur eine große wirtschaftliche Belastung auferlegt, sondern es wird auch viel Zeit benötigt, bevor es weithin verfügbar ist.
  • Um dieses Problem zu lösen wurde ein Versuch des Komprimierens der Frequenz eines Sprachsignals durchgeführt, um ein gesamtes Spektrum des Sprachsignals in ein Durchlassband fallen zu lassen. Ein Problem bei diesem Verfahren besteht jedoch darin, dass während das Sprachsignal, einschließend Signale in einem niedrigen Frequenzband, einschließend Sprachgrundperioden (Tonlagen (pitches)), auf einen niedrigeren Frequenzbereich komprimiert wird, verglichen mit dem ursprünglichen Sprachsignal, wenn dieses komprimierte Signal ohne expandiert zu werden wiedergegeben wird, die wiedergegebene Stimme eine unnatürlich niedrige Tonlage aufweist, und den individuellen Charakter vermissen lässt, und ihre Qualität bemerkenswert herabgesetzt wird. Im Gegensatz dazu ist es erforderlich, obwohl dieses Problem durch Expandieren des komprimierten Signals in dem empfangsseitigen Endgerät gelöst werden kann, um diese Expansion zu implementieren, dass das empfangsseitige Endgerät ein Verfahren zum Expandieren eines Hochbandsignals unterstützen muss, das von dem übertragungsseitigen Endgerät komprimiert wurde. Wie in dem Fall des Unterstützens von Bandverbreiterung ist eine solche Lösung für ein Kommunikationsendgerät nicht praktisch, welches zur Übertragung von komprimierter Information zusammen mit einem Sprachsignal und eine Expansion der komprimierten Information nicht bereit ist.
  • Für das vorstehend erwähnte Problem wurde zum Beispiel eine in Patentreferenz 1 beschriebene Technik zur Verfügung gestellt. Bei dieser Technik wird unter Verwenden eines Verfahrens zum Komprimieren lediglich eines vorherbestimmten Hochfrequenzbereichs ohne Ändern der Stimmlage ein klares Sprachsignal erfasst.
  • STAND DER TECHNIK DOKUMENT
  • Patentreferenz
    • Patentreferenz 1: Veröffentlichte ungeprüfte Japanische Patentanmeldung Nr. 2011-141551
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • VON DER ERFINDUNG ZU LÖSENDE PROBLEME
  • Während die in vorstehend erwähnter Patentreferenz 1 offenbarte konventionelle Technologie einen Vorteil des Erhaltens des individuellen Charakters einer Stimme hat, besteht ein Problem der herkömmlichen Technologie darin, dass weil eine komprimierte Hochbandsignalkomponente einfach auf ein festes Band abgebildet wird, welche innerhalb eines Niederfrequenzbereichs vorherbestimmt ist, ein Fall besteht, in welchem die vorstehend erwähnte Bandbreite nicht optimal ist, abhängig von dem Modus der Stimme, welche das Eingangssignal ist, und in diesem Fall eine Verschlechterung der Klangqualität nicht vermieden wird.
  • Die vorliegende Erfindung wurde gemacht, um das vorstehend erwähnte Problem zu lösen, und ist deshalb eine Aufgabe der vorliegenden Erfindung, ein Sprachbetonungsgerät zur Verfügung zu stellen, das eine hochqualitative Stimme erzeugen kann.
  • MITTEL ZUM LÖSEN DES PROBLEMS
  • In Übereinstimmung mit der vorliegenden Erfindung wird ein Sprachbetonungsgerät bereitgestellt, umfassend: einen Zeit-zu-Frequenz-Konverter, der ein Eingangssignal in einem Zeitbereich in ein Leistungsspektrum konvertiert, welches ein Signal in einem Frequenzbereich ist; einen Eingangssignalanalysator, der einen Modus von besagtem Eingangssignal von besagtem Leistungsspektrum analysiert; einen Banddeterminator, der eine Grenzfrequenz innerhalb einer Grenze eines Bereichs bestimmt, welche eine vorherbestimmte erste Frequenz von dem Modus des besagten Eingangssignals nicht überschreitet; einen Spektrumkompressor, der ein Leistungsspektrum von Frequenzen in einem Band höher als besagte erste Frequenz in einer Frequenzrichtung komprimiert; einen Spektrumsynthetisierer, der besagtes komprimiertes Leistungsspektrum in einem Band wiedergibt, das durch beide, besagte erste Frequenz und besagte Grenzfrequenz, festgelegt ist; und einen Frequenz-zu-Zeit-Konverter, der beide, ein synthetisiertes Leistungsspektrum, ausgegeben von besagtem Spektrumsynthetisierer, und ein Phasenspektrum von besagtem Eingangssignal, in solche in dem Zeitbereich konvertiert, um ein Betonungssignal zu erfassen.
  • VORTEILE DER ERFINDUNG
  • Da das Sprachbetonungsgerät gemäß der vorliegenden Erfindung die Grenzfrequenz bestimmt, welche ein Band festlegt, in welchem eine Hochfrequenzkomponente auf der Basis des Modus des Eingangssignals wiedergegeben wird, kann das Sprachbetonungsgerät einen durch die Spektrumsynthese verursachten fremden Klang verhindern, und einen hervorragenden und klaren Stimmbetonungsprozess durchführen.
  • KURZE BESCHREIBUNG DER FIGUREN
  • 1 ist ein Strukturdiagramm, das ein Sprachbetonungsgerät in Übereinstimmung mit Ausführungsform 1 der vorliegenden Erfindung zeigt;
  • 2 ist ein Strukturdiagramm, das die Details eines Eingangssignalanalysators des Sprachbetonungsgeräts in Übereinstimmung mit Ausführungsform 1 der vorliegenden Erfindung zeigt;
  • 3 ist eine beispielhafte Zeichnung, die schematisch einen Fluss eines Prozesses zeigt, der von dem Sprachbetonungsgerät in Übereinstimmung mit Ausführungsform 1 der vorliegenden Erfindung ausgeführt wird;
  • 4 ist eine beispielhafte Zeichnung, die ein Beispiel eines Eingangssignalspektrums zeigt, das von dem Sprachbetonungsgerät in Übereinstimmung mit Ausführungsform 1 der vorliegenden Erfindung bereitgestellt wird;
  • 5 ist eine beispielhafte Zeichnung, die einen Stimmbetonungsprozess gemäß eines herkömmlichen Verfahrens zeigt; und
  • 6 ist eine beispielhafte Zeichnung, die einen Stimmbetonungsprozess zeigt, der von dem Sprachbetonungsgerät in Übereinstimmung mit Ausführungsform 1 der vorliegenden Erfindung durchgeführt wird.
  • AUSFÜHRUNGSFORMEN DER ERFINDUNG
  • Nachstehend werden, um diese Erfindung detaillierter zu erläutern, die bevorzugten Ausführungsformen der vorliegenden Erfindung unter Bezugnahme auf die beiliegenden Zeichnungen beschrieben.
  • 1 ist ein Strukturdiagramm, das ein Sprachbetonungsgerät in Übereinstimmung mit Ausführungsform 1 der vorliegenden Erfindung zeigt. Das Sprachbetonungsgerät in Übereinstimmung mit dieser Ausführungsform 1 ist mit einem Eingabeendgerät 1, einem Zeit-zu-Frequenz-Konverter 2, einem Eingangssignalanalysator 3, einem Banddeterminator 4, einem Hochfrequenzkomponentenextraktor 5, einem Spektrumkompressor 6, einem Verstärkungskorrektor 7, einem Spektrumsynthetisierer 8, einem Frequenz-zu-Zeit-Konverter 9 und einem Ausgabeendgerät 10 ausgelegt.
  • Das Eingabeendgerät 1 ist ein Endgerät, in welches ein Signal wie ein Sprachsignal als ein Eingangssignal eingegeben wird. Der Zeit-zu-Frequenz-Konverter 2 ist ein Prozessor, der das Eingangssignal in dem Zeitbereich in ein Leistungsspektrum konvertiert, welches ein Signal in dem Frequenzbereich ist. Der Eingangssignalanalysator 3 ist ein Prozessor, welcher den Modus des Eingangssignals analysiert, der angibt, ob das Eingangssignal eine Stimme oder ein Rauschen ist, und wenn das Eingangssignal eine Stimme ist, ob diese Stimme ein Vokal oder ein Konsonant ist, aus dem Leistungsspektrum, das von dem Zeit-zu-Frequenz-Konverter 2 ausgegeben wird. Der Banddeterminator 4 ist ein Prozessor, der eine Grenzfrequenz innerhalb der Grenze eines Bereichs bestimmt, welcher eine vorherbestimmte erste Frequenz nicht überschreitet, aus dem Modus des Eingangssignals, das von dem Eingangssignalanalysator 3 analysiert wird. Der Hochfrequenzkomponentenextraktor 5 ist ein Prozessor, der ein Leistungsspektrum von Frequenzen in einem Band extrahiert, das höher als die erste Frequenz ist. Der Spektrumkompressor 6 ist ein Prozessor, der das Leistungsspektrum in dem Band komprimiert, welches von dem Hochfrequenzkomponentenextraktor 5 in einer Frequenzrichtung extrahiert wird. Der Verstärkungskorrektor 7 ist ein Prozessor, der eine Verstärkungskorrektur durchführt, welche von dem Spektrumkompressor 6 komprimiert wurde. Der Spektrumsynthetisierer 8 ist ein Prozessor, der das komprimierte Leistungsspektrum wiedergibt, auf welches die Verstärkungskorrektur von dem Verstärkungskorrektor 7 in einem Band durchgeführt wird, das durch beide, die erste Frequenz und die Grenzfrequenz, festgelegt ist. Der Frequenz-zu-Zeit-Konverter 19 ist ein Prozessor, der beides, ein synthetisiertes Leistungsspektrum, ausgegeben von dem Spektrumsynthetisierer 8, und ein Phasenspektrum von dem Eingangssignal, in Signale in der Zeitbereich konvertiert, um eine betonte Stimme (betontes Signal) zu erfassen. Das Ausgabeendgerät 10 ist ein Endgerät, das die betonte Stimme, die von dem Frequenz-zu-Zeit-Konverter 9 ausgegeben wird, zur Außenseite des Sprachbetonungsgeräts ausgibt.
  • Als nächstes werden die Details des in 2 gezeigten Eingangssignalanalysators 3 erläutert.
  • Der Autokorrelationsanalysator 11 ist ein Prozessor, der eine normalisierte Autokorrelationsfunktion von dem Leistungsspektrum des Eingangssignals bestimmt. Der Rauschspektrumschätzer 12 ist ein Prozessor, der ein geschätztes Rauschspektrum von dem Leistungsspektrum des Eingangssignals bestimmt. Der S/N-Verhältnisrechner 13 ist ein Prozessor, der ein durchschnittliches S/N-Verhältnis eines ursprünglichen Rahmens von beidem, dem Leistungsspektrum, das von dem Zeit-zu-Frequenzkonverter 2 ausgegeben wird, und dem geschätzten Rauschspektrum, das von dem Rauschspektrumschätzer 12 ausgegeben wird, berechnet. Der Bestimmer 15 ist ein Prozessor, der das Leistungsspektrum, das von dem Zeit-zu-Frequenz-Konverter 2 ausgegeben wird, ein Maximum der normalisierten Autokorrelationsfunktion, das von dem Autokorrelationsanalysator 11 erfasst wird, das Verhältnis von hoher zu niedriger Frequenzleistung, das von dem Leistungsverhältnisanalysator 14 erfasst wird, und das geschätzte Rauschspektrum, das von dem Rauschspektrumschätzer 12 ausgegeben wird, empfängt, und bestimmt, ob das Eingangssignal des aktuellen Rahmens ein Sprachsignal (Vokal, Konsonant) oder ein Rauschen ist.
  • Nachstehend wird das Arbeitsprinzip des Sprachbetonungsgeräts gemäß der vorliegenden Erfindung unter Bezugnahme auf 1 und 2 erläutert.
  • Als erstes wird, nachdem eine Stimme, Musik oder dergleichen, welche über ein Mikrofon oder dergleichen aufgenommen wurden, in ein Signal A/D (Analog-zu-Digital) konvertiert ist, und dieses Signal bei einer vorherbestimmten Abtastfrequenz (zum Beispiel 16 kHz) abgetastet und auch auf einer Rahmen-zu-Rahmen-Basis (zum Beispiel 10 ms) unterteilt ist, dieses dann über das Eingabeendgerät 1 in das Sprachbetonungsgerät eingegeben. In dieser Ausführungsreform wird eine Erläuterung unter der Annahme gegeben, dass ein Prozesssignal, welches letztendlich erfasst wird, ein Band von 0 Hz bis 3400 Hz (erste Frequenz) aufweist, während dieses Band von 0 Hz bis 3400 Hz als ein Durchgangsband, und ein Band von 3400 Hz bis 8000 Hz als ein Hochfrequenzband bezeichnet wird. Sofern nicht anders spezifiziert wird weiterhin angenommen, dass der Prozess auf einem Signal in einem Band von 0 bis 8000 Hz einschließend das Durchgangsband und das Hochfrequenzband ausgeführt wird. Weiterhin wird die Erläuterung so gemacht, dass ein Signal in dem Hochfrequenzband auch als eine Hochfrequenzkomponente bezeichnet ist.
  • Der Zeit-zu-Frequenz-Konverter 2 wendet zum Beispiel ein Hanning-Fenster auf das Eingangssignal x(t) an, welches auf einer Rahmen-zu-Rahmen-Basis unterteilt ist, und führt danach eine 512-Punkt Schnelle-Fourier-Transformation (FSP) durch, wie zum Beispiel in der folgenden Gleichung (1) gezeigt, um das Signal in dem Zeitbereich in spektrale Komponenten X(λ, k) zu konvertieren, welche ein Signal in dem Frequenzbereich sind. X(λ, k) = FT[x(t)] (1)
  • In dieser Gleichung bezeichnet t eine Abtastzeit, λ bezeichnet eine Rahmennummer zu der Zeit, wenn das Eingangssignal in Rahmen unterteilt wird, k bezeichnet eine Anzahl (von hier an bezeichnet als eine Spektrumanzahl) zum Spezifizieren einer Frequenzkomponente in dem Frequenzband des Spektrums, und FT[·] bezeichnet den schnellen Fourier-Transformationsprozess. Dann wird unter Verwenden der folgenden Gleichung (2), während ein Leistungsspektrum Y(λ, k) von der Spektrumskomponente des Eingangssignals erfasst wird, auch ein Phasenspektrum (λ, k) erfasst. Y(λ, k) = √Re{X(λ, k)}² + Im{X(λ, k)}²; 0 ≤ k < 256 (2)
  • In dieser Gleichung bezeichnen Re{X(λ, k)} und Im{X(λ, k)} die entsprechenden reellen und imaginären Teile des Eingangssignalspektrums nach der Fourier-Transformation.
  • Der Eingangssignalanalysator 3 bestimmt, ob das Eingangssignal des aktuellen Rahmens eine Stimme oder ein Rauschen ist. Weiterhin führt, wenn das Eingangssignal eine Stimme ist, der Eingangssignalanalysator auch eine Bestimmung durch, ob die Stimme ein Vokal oder ein Konsonant ist. Als erstes bestimmt der Autokorrelationsanalysator 11 eine normalisierte Autokorrelationsfunktion ρN(λ, τ) von dem Leistungsspektrum (λ, k) unter Verwenden der folgenden Gleichungen (3). ρ(λ, τ) = FT[Y(λ, k)], ρN(λ, τ) = ρ(λ, τ) / ρ(λ, 0), (3)
  • In diesen Gleichungen bezeichnet τ eine Verzögerungszeit und FT[·] bezeichnet den Fourier-Transformationsprozess. Zum Beispiel sollte die Schnelle-Fourier-Transformation nur auf die gleiche Anzahl von Punkten = 512 wie der in Gleichung (1) durchgeführt werden. Da Gleichung (3) auf dem Wiener-Khintchine-Theorem basiert, wird die Erläuterung von dieser Gleichung nachstehend weggelassen. Als nächstes wird ein Maximum ρmax(λ) der normalisierten Autokorrelationsfunktion unter Verwenden von Gleichung (4) berechnet. Gleichung (4) bedeutet, dass das Maximum von ρ(λ, τ) innerhalb des Bereichs von 32 ≤ τ ≤ 192 gesucht wird. ρmax(λ) = max[ρ(λ, τ)], 32 ≤ τ ≤ 192 (4)
  • Der S/N-Verhältnisrechner 13 empfängt dann das Leistungsspektrum Y(λ, k), das von dem Zeit-zu-Frequenz-Konverter 2 ausgegeben wird, und das geschätzte Rauschspektrum N(λ, k), das von dem Rauschspektrumschätzer 12 ausgegeben wird, welches nachstehend erwähnt werden wird, und berechnet ein durchschnittliches S/N-Verhältnis SNRAVE(λ) des aktuellen Rahmens.
    Figure DE112014000945T5_0002
  • In Gleichung (5), bezeichnet N(λ, k) das geschätzte Rauschspektrum, und Spow und Npow bezeichnen entsprechend die Gesamtsumme der Leistungsspektren des Eingangssignals und die Gesamtsumme der geschätzten Rauschspektren.
  • Weiterhin berechnet der S/N-Verhältnisrechner als ein S/N-Verhältnis von jeder spektrale Komponente ein Subband-S/N-Verhältnis SNR(λ, k) unter Verwenden von Gleichung (6), und gibt das Subband-S/N-Verhältnis an den Spektrumsynthetisierer 8, welcher nachstehend erwähnt werden wird. SNR(λ) = 10·log10(Y(λ)/N(λ)) (6)
  • Der Leistungsverhältnisanalysator 14 berechnet das Verhältnis der Hochfrequenzleistung des Eingangssignals des aktuellen Rahmens zu der Niederfrequenzleistung des Eingangssignals (Verhältnis von hoher zu niedriger Frequenzleistung). Dieses Verhältnis nähert sich dem Gradienten des Spektrums an, welcher von einer niedrigen Frequenz zu einer hohen Frequenz geht, und es besteht eine hohe Wahrscheinlichkeit, dass die Stimme ein Konsonant ist, wenn die Hochfrequenzleistung größer ist als die Niederfrequenzleistung, und unter Verwenden dieses Werts deswegen bestimmt werden kann, ob der Modus des Eingangssignals ein Vokal oder ein Konsonant ist. Konkret wird, wie zum Beispiel in Gleichung (7) gezeigt, das Verhältnis der Leistung in einem Band von 125 Hz bis 3000 Hz zu dem in dem Band von 3000 Hz bis 6000 Hz bestimmt.
    Figure DE112014000945T5_0003
  • In dieser Gleichung bezeichnet Ps_Low(λ) die Leistung in dem Band von 125 Hz bis 3000 Hz des Eingangssignals, und Ps_High(λ) bezeichnet die Leistung in dem Band von 3000 Hz bis 6000 Hz des Eingangssignals, und diese Leistungen werden wie folgt berechnet.
    Figure DE112014000945T5_0004
  • Das Verhältnis von Hoch- zu Niederfrequenzleistung PRatio(λ) des aktuellen Rahmens, welches wie vorstehend erfasst wird, wird an den Bestimmer 15 ausgegeben.
  • Der Bestimmer 15 empfängt das Leistungsspektrum Y(λ, k), das von dem Zeit-zu-Frequenz-Konverter 2 ausgegeben wird, das Maximum ρmax(λ) der normalisierten Autokorrelationsfunktion, das von dem Autokorrelationsanalysator 11 erfasst wird, das Verhältnis von Hoch- zu Niederfrequenzleistung PRatio(λ), das von dem Leistungsverhältnisanalysator 14 erfasst wird, und das geschätzte Rauschspektrum N(λ, k), das von dem Rauschspektrumschätzer 12 ausgegeben wird, welcher nachstehend erwähnt werden wird, und bestimmt, ob das Eingangssignal des aktuellen Rahmens eine Stimme (Vokal, Konsonant) oder ein Rauschen ist, und gibt das Ergebnis der Bestimmung als ein Bestimmungskennzeichen (determination flag) aus. Als ein Verfahren zum Bestimmen eines Stimm/Rausch-Abschnitts, wenn zum Beispiel eine durch die folgende Gleichung (9) gegebene Bedingung erfüllt ist, wird bestimmt, dass das Eingangssignal eine Stimme ist, und das Bestimmungskennzeichen Vflag wird auf "1 (Stimme)" gesetzt; andernfalls wird das Bestimmungskennzeichen Vflag auf "0 (Rauschen)" gesetzt, und das Bestimmungskennzeichen wird ausgegeben.
    Figure DE112014000945T5_0005
  • Weiterhin wird, wenn unter Verwendung von Gleichung (9) festgestellt wird, dass das Eingangssignal eine Stimme ist, wenn das Verhältnis von Hoch- zu Niederfrequenzleistung PRatio(λ), das von dem Leistungsverhältnisanalysator 14 ausgegeben wird, einen vorherbestimmten Schwellwert überschreitet, bestimmt, dass das Eingangssignal ein Konsonant ist, und das Bestimmungskennzeichen Vflag wird unter Verwenden der folgenden Gleichung (10) auf "2 (Konsonant)" gesetzt, und das Bestimmungskennzeichen wird ausgegeben.
    Figure DE112014000945T5_0006
  • In dieser Gleichung sind THFR_SN, THACF, und THPOW_Ratio vorbestimmte konstant der Schwellenwerte zur Bestimmung, und THPR_SN = 3,0, THACF = 0,3 und THPOW_Ratio = 1,25 sind als ihre bevorzugten Beispiele vorgesehen, doch sie können gemäß dem Zustand und Rauschpegel des Eingangssignals geeignet variiert werden.
  • Obwohl in dieser Ausführungsform als ein Spracheingabeanalysierverfahren die Autokorrelationsfunktion, und das durchschnittliche S/N-Verhältnis und das Verhältnis von Hoch- zu Niederfrequenzleistung des Eingangssignals verwendet werden, ist das Spracheingabeanalysierverfahren nicht auf dieses Verfahren beschränkt, und ein anderes Verfahren kann zum Beispiel durch Verwenden eines bekannten Verfahrens wie einer Cepstrum-Analyse bereitgestellt werden. Es ist auch möglich, die Genauigkeit der Bestimmung durch Herstellen einer Kombination mit einem von mannigfaltigen bekannten Verfahren, zum Beispiel der Anzahl von Nulldurchgängen, nach dem Ermessen eines Fachmanns in der Technik zu verbessern.
  • Der Rauschspektrumschätzer 12 empfängt das Leistungsspektrum Y(λ, k), das von dem Zeit-zu-Frequenz-Konverter 2 ausgegeben wird, und das Bestimmungskennzeichen Vflag, das von dem Bestimmer 15 ausgegeben wird, schätzt und aktualisiert ein Rauschspektrum gemäß beider, der folgenden Gleichung (11) und dem Bestimmungskennzeichen Vflag, und gibt ein geschätztes Rauschspektrum N(λ, k) aus.
    Figure DE112014000945T5_0007
  • In dieser Gleichung bezeichnet N(λ – 1, k) das geschätzte Rauschspektrum des vorhergehenden Rahmens, und wird in einem Speicher wie einem RAM (Direktzugriffsspeicher; Random Access Memory) in dem Rauschspektrumschätzer 12 gehalten. Wenn das Bestimmungskennzeichen Vflag = 0 in Gleichung (11), weil das Eingangssignal des aktuellen Rahmens als Rauschen bestimmt ist, wird das geschätzte Rauschspektrum N(λ – 1, k) des vorhergehenden Rahmens unter Verwenden beider, des Leistungsspektrums Y(λ, k) des Eingangssignals, und eines Aktualisierungskoeffizienten α aktualisiert. Der Aktualisierungskoeffizient α ist eine vorherbestimmte Konstante mit einem Bereich von 0 < α < 1 und α = 0.95 ist als ein bevorzugtes Beispiel vorgesehen. Als eine Alternative kann der Aktualisierungskoeffizient gemäß dem Zustand und Rauschpegel des Eingangssignals geeignet variiert werden.
  • Im Gegensatz dazu ist, wenn das Bestimmungskennzeichen Vflag = 1 oder Vflag = 2, das Eingangssignal des aktuellen Rahmens eine Stimme und das geschätzte Rauschspektrum N(λ – 1, k) des vorhergehenden Rahmens wird als geschätztes Rauschspektrum N(λ, k) des aktuellen Rahmens ausgegeben, wie es ist.
  • Der Bandbestimmer 4 empfängt das Bestimmungskennzeichen Vflag, das von dem Eingangssignalanalysator 3 ausgegeben wird, und bestimmt für das Durchgangsband eine Grenzfrequenz B (λ), welche die Breite eines Bands zeigt, mit (oder in) welchem eine Hochfrequenzkomponente, welche nachstehend erwähnt werden wird, synthetisiert (oder gefaltet (convolved)) werden muss. Die Grenzfrequenz B (λ) kann unter Verwenden von zum Beispiel Gleichungen (12) und (13) bestimmt werden. Wenn der aktuelle Rahmen in Gleichung (12) als ein Rauschabschnitt festgestellt ist, wird die Bandbreite minimiert, genauer gesagt wird die Grenzfrequenz als ein Wert (3300 Hz) nahe an 3400 Hz bestimmt, welche eine obere Grenzfrequenz des Durchgangsband ist. Weiterhin wird, wenn der aktuelle Rahmen ein Stimmabschnitt ist und ein Vokal ist, da sich in vielen Fällen der Formant der Stimme bei Frequenzen gleich oder kleiner als 3000 Hz konzentriert, um die Hochfrequenzkomponente wiederzugeben, während der Formant gleich oder kleiner als 3000 Hz beibehalten wird, die einzustellende Grenzfrequenz zu 3000 Hz bestimmt und die Hochfrequenzkomponente in eine Bandbreite von 3000 Hz bis 3400 Hz gefaltet. Da auch eine große Menge von Konsonantenkomponenten in einem Hochfrequenzbereich gleich oder größer als 3400 Hz vorkommt, wenn das Eingangssignal ein Konsonant ist, wird das Band aufgeweitet, um diese Komponente in dem Durchgangsband wiederzugeben, genauer gesagt wird die Grenzfrequenz auf einen Wert (2500 Hz) kleiner als den für einen Vokal gesetzt, und die Hochfrequenzkomponente wird in ein Band von 2500 Hz bis 3400 Hz gefaltet.
    Figure DE112014000945T5_0008
  • Nach Feststellen der grundlegenden Grenzfrequenz unter Verwenden vorstehend erwähnter Gleichung (12) bezieht sich der Bandbestimmer auf die Leistung der spektralen Komponente an der niedrigsten (3400 Hz) der hohen Frequenzen, die zu extrahieren sind, und bewegt die Grenzfrequenz hoch oder herunter und passt die Grenzfrequenz an eine optimale Frequenz an, um einen fremdartigen Klang zu reduzieren, der durch einen Unterschied in der Leistung (einer Pegeldifferenz des Leistungsspektrums) zu der Zeit einer Frequenzsynthese herrührt, welche nachstehend erwähnt werden wird. Genauer gesagt, wenn zum Beispiel BF = 3000Hz in Gleichung (12) ausgewählt ist, werden das Leistungsspektrum an einer temporären Grenzfrequenz und das Leistungsspektrum bei 3400 Hz in einem Bereich (2900 Hz bis 3100 Hz) von ±100 Hz unter Bezugnahme auf BF verglichen, und wenn die temporäre Grenzfrequenz, welche den kleinsten Unterschied in der Leistung vorsieht, 2980 Hz ist, wird die Grenzfrequenz auf BF = 2,980 Hz korrigiert.
  • Als nächstes wird die korrigierte Grenzfrequenz BF einem Glätten in einer zeitlichen Richtung von der Grenzfrequenz unter Verwenden der Grenzfrequenz B(λ – 1) des vorhergehenden Rahmens unterzogen, wie in der Gleichung (13) gezeigt, um das Auftreten eines fremdartigen Klangs zu verhindern, welcher durch eine plötzliche Änderung in der Bandbreite von Rahmen verursacht wird.
    Figure DE112014000945T5_0009
  • In dieser Gleichung bezeichnet WB eine vorherbestimmte Konstante zum Glätten in der zeitlichen Richtung und WB = 0.8 ist als bevorzugtes Beispiel vorgesehen. Als eine Alternative kann WB in solch einer Art geeignet variiert werden, dass der Bandbestimmer gemäß der Art des Eingangssignals etc. ausgezeichnet arbeitet.
  • Der Hochfrequenzkomponentenextraktor 5 extrahiert eine Hochfrequenzkomponente auf der Basis des Bestimmungskennzeichens, das von dem Eingangssignalanalysator 3 ausgegeben wird. In dieser Ausführungsform wird, da der Frequenzbereich der Hochfrequenzkomponente derjenige von 3400 Hz bis 8000 Hz ist, dass ein Leistungsspektren Spektrum Y(λ, k) in diesem Bereich extrahiert, und als das Leistungsspektrum Yh(λ, k) der Hochfrequenzkomponente ausgegeben.
  • Der Hochfrequenzkomponentenextraktor kann konfiguriert sein, um die Extraktion durchzuführen, wenn das Bestimmungskennzeichen einen Stimmabschnitt anzeigt, wohingegen die Extraktion nicht durchführt wird, wenn das Bestimmungskennzeichen einen Rauschabschnitt (oder einen stillen Abschnitt) anzeigt. In diesem Fall kann, da der nachstehend erwähnte Spektrumkompressionsprozess und der nachstehende Spektrumsynthetisierungsprozess nicht durchgeführt werden, der Durchsatz reduziert werden. Die extrahierte Hochfrequenzkomponente wird in der nächsten Stufe an den Spektrumkompressor 6 gesendet.
  • Der Spektrumkompressor 6 führt eine Bandkompression in der Frequenzrichtung des Spektrums auf das Leistungsspektrum Yh(λ, k) der Hochfrequenzkomponente durch, die gemäß dem Hochfrequenzkomponentenextraktor 5 in solch einer Art extrahiert wird, dass das Spektrum mit dem auf dem Durchgangsband synthetisiert werden kann, so dass die Bandbreite der Hochfrequenzkomponente mit der des Durchgangsbands übereinstimmend gemacht wird.
  • Wenn die Bandbreite, die von der Grenzfrequenz B(λ) und der Obergrenzenfrequenz BNL = 3400 Hz des Durchgangsbands angegeben ist, das heißt, die Bandbreite, mit welcher die Hochfrequenzkomponente in dem Durchgangsband wiedergegeben wird, durch BW_C(λ) ausgedrückt wird, und die Bandbreite des Bandes zwischen der Obergrenzenfrequenz BNH = 8,000 Hz des Hochfrequenzbands und der Obergrenzenfrequenz BNL = 3400 Hz des Durchgangsbands, das heißt die Bandbreite der Hochfrequenzkomponente durch BW_H ausgedrückt wird, kann die lineare Kompression auf das Spektrumband zum Beispiel durch die folgende Gleichung (14) ausgedrückt werden. Ym(λ, k + B(λ)) = Y(λ, BNL + ⌊k·BW_H/BW_C⌋), k = 0, ..., BW_C(λ) (14)
  • In dieser Gleichung bezeichnet Ym(λ, k) das Leistungsspektrum der Hochfrequenzkomponente, auf welche die Frequenzkompression durchgeführt wird. Weiterhin ist ⌊x⌋ eine Bodenfunktion, welche die größte ganze Zahl bereitstellt, die x nicht überschreitet. Als ein konkretes Beispiel, wenn zum Beispiel B(λ) = 3050 Hz, wird die Kompression in der Frequenzrichtung auf das Spektrum von 3400 Hz bis 8000 Hz durchgeführt, welches die Hochfrequenzkomponente in solch einer Art ist, dass das Spektrum in einem schmaleren Bereich von 3050 Hz bis 3400 Hz auf dem Durchgangsband wiedergegeben werden kann.
  • Der Verstärkungskorrektor 7 führt eine Leistungskorrektur auf das Leistungsspektrum Ym(λ, k) der Hochfrequenzkomponente durch, auf welche die Frequenzkompression durchgeführt wird. Im Grunde führt der Verstärkungskorrektor die Korrektur in solch einer Art durch, dass die Leistung des Bandes vor der Kompression, das heißt die Leistung des Bandes von 3400 Hz bis 8000 Hz vor der Kompression, gleich der der Spektralkomponente nach der Kompression ist. Als eine Alternative kann das Leistungsspektrum mit einem Korrekturkoeffizienten in solch einer Art multipliziert werden, dass das Leistungsspektrum im Hinblick auf Hörbarkeit bevorzugt ist. Der Verstärkungskorrektor gibt das Leistungsspektrum Ŷm(λ, k) der Hochfrequenzkomponente, auf welche die Frequenzkompression und die Verstärkungskorrektur ausgeführt werden, an den Spektrumsynthetisierer 8.
  • Durch Verwenden sowohl des Hochfrequenzkomponentenspektrums Ŷm(λ, k), auf welches die Frequenzkomposition und die Verstärkungskorrektur ausgeführt wird, und des Leistungsspektrums Y(λ, k) des Durchgangsbands, synthetisiert der Spektrumsynthetisierer 8 die Spektren gemäß der folgenden Gleichung, um ein Leistungsspektrum YEMP(λ, k) einer betonten Stimme zu erfassen.
  • Bei der Spektrumsynthese macht der Spektrumsynthetisierer einen Vergleich zwischen dem Subband-S/N-Verhältnis SNR(λ, k) der Spektralkomponente des Durchgangsbandes und dem Subband-S/N-Verhältnis SNRm(λ, k) der Spektralkomponente in dem Hochfrequenzbereich, auf welche die Frequenzkompression ausgeführt wird, unter Verwenden der Subband-S/N-Verhältnisse, die von dem Eingangssignalanalysator 3 ausgegeben werden, und wählt ein Leistungsspektrum mit dem größeren der Subband-S/N-Verhältnisse aus, um das Leistungsspektrum der betonte Sprache, wie in Gleichung (15) gezeigt, zu erfassen.
    Figure DE112014000945T5_0010
  • In dieser Gleichung bezeichnet BW_C(λ) die Bandbreite, die von der Grenzfrequenz B(λ) und der Obergrenzenfrequenz BNL = 3400Hz des Durchgangsbands angegeben ist, wie die beschrieben für den Spektrumkompressor 6. Als nächstes, nach der Spektrumsynthese, führt der Spektrumsynthetisierer ein Glätten zwischen Frequenzen in einem Band nahe der Grenzfrequenz durch. Der Spektrumsynthetisierer führt das Glätten zum Beispiel unter Verwenden eines bekannten Verfahrens durch, wie einem gleitenden Mittelwertfilter, in solch einer Art, dass das Leistungsspektrum innerhalb eines Bereichs von ±100 Hz (einer Breite von 200 Hz) hinsichtlich der Grenzfrequenz geglättet wird. Das Glätten stellt einen Vorteil zur Verfügung, in der Lage zu sein, den Unterschied (Pegeldifferenz) in der Leistung des Leistungsspektrums zu der Zeit der Spektrumsynthese abzuschwächen, und das Auftreten eines fremdartigen Klangs zu verhindern.
  • Danach gibt der Spektrumsynthetisierer das geglättete Leistungsspektrum ŶEMP(λ, k) der betonten Stimme an den Frequenz-zu-Zeit-Konverter 9 aus.
  • Der Frequenz-zu-Zeit-Konverter 9 empfängt sowohl das geglättete Leistungsspektrum ŶEMP(λ, k) der betonten Stimme, und das Phasenspektrum θ(λ, k) der eingegebenen Stimme, und führt nach Durchführen einer inversen FTT einen Downsampling-Prozess des Konvertierens des 16 kHz-abgetasteten (gesampelten) Signals in ein 8 kHz-abgetastetes (gesampelten) Signal durch, und führt dieses Signal durch einen Tiefpassfilter, um ein Zeitsignal in dem Band von 0 Hz bis 3400 Hz zu erzeugen, und gibt dieses Zeitsignal von dem Ausgabeendgerät 10 aus.
  • 3 stellt schematisch die Reihe von Arbeitsprinzipien dieser Ausführungsform 1 dar, um diese verständlicher zu erläutern. (a) bezeichnet das Leistungsspektrum des eingegebenen Stimmsignals, (b) bezeichnet das Leistungsspektrum der Hochfrequenzkomponente, welche die Ausgabe des Hochfrequenzkomponentenextraktors 5 ist, (c) bezeichnet das Leistungsspektrum der Hochfrequenzkomponente, auf welche die Frequenzkompression ausgeführt wird, welche die Ausgabe des Spektrumkompressors 6 ist, und (b) bezeichnet das Leistungsspektrum der Hochfrequenzkomponente, auf welche die Frequenzkompression und die Verstärkungskorrektur ausgeführt werden, welche die Ausgaben des Verstärkungskorrektors 7 sind. Pfeile zeigen die Reihenfolge der Prozesse.
  • 4 sind Beispiele des Eingangssignalspektrums eines Stimmabschnitts. (a) ist ein Beispiel eines Stimmsignals eines Konsonantenabschnitts, und (b) ist ein Beispiel eines Signals zu einer Zeit, wenn dieses Signal ein Konsonantenabschnitt ist, jedoch die Leistung einer Hochfrequenzkomponente, deren Frequenzen gleich oder größer als 3400 Hz sind, gering ist, und Konsonantencharakteristiken des Signals unzureichend sind. 5 ist ein Beispiel eines Falls des Durchführens eines Prozesses gemäß einem herkömmlichen Verfahren auf das in 4 gezeigte Eingangssignal, und 6 ist ein Beispiel eines Falls des ähnlichen Durchführens des Prozesses gemäß dieser Ausführungsform 1 auf das in 4 gezeigte Eingangssignal. Da die Bandbreite fest ist, wie durch einen Pfeil 500a von (a) und einen Pfeil 500b von (b) gezeigt ist, tritt gemäß dem herkömmlichen Verfahren von 5 ein fremdartiger Klang in der verarbeiteten Stimme in dem Fall auf, in welchem das Stimmsignal (b) ohne Konsonantencharakteristiken ist (eine Spitzenkomponente tritt in dem Spektrum auf und ein fremdartiger Klang tritt auf, wie durch die gestrichelte Linie 501 gezeigt ist). Im Gegensatz dazu, gemäß dem Verfahren in Übereinstimmung mit der vorliegenden Erfindung von 6, wie durch einen Pfeil 600a von (a) und einen Pfeil 600b von (b) gezeigt ist, da die Bandbreite gemäß dem Modus des Eingangssignals variabel gemacht wird, können in dem Fall nicht nur Konsonantencharakteristiken sicher in dem Durchgangsband wiedergegeben werden (die Hochfrequenzkomponente wird in einem breiten Niederfrequenzbereich wiedergegeben, wie durch einen Bereich 601a gezeigt ist), in welchem das Stimmensignal (a) ist, sondern es kann auch ein sehr guter Klangbetonungsprozess, welcher ein Auftreten eines fremdartigen Klangs verhindert, durchgeführt werden (das Auftreten einer Spitzenkomponente wird verhindert und kein fremdartiger Klang tritt auf, wie von einem Bereich 601b gezeigt ist), selbst in dem Fall von (b), in welchem das Stimmsignal keine Konsonantencharakteristiken aufweist.
  • Wie vorstehend erwähnt kann, da das Stimmgewichtungsgerät in Übereinstimmung mit dieser Ausführungsform 1 umfasst: den Zeit-zu-Frequenz-Konverter, der ein Eingangssignal in einem Zeitbereich in ein Leistungsspektrum konvertiert, welches ein Signal in dem Frequenzbereich ist; den Eingangssignalanalysator, der einen Modus des Eingangssignals von dem Leistungsspektrum analysiert; einen Banddeterminator, der die Grenzfrequenz innerhalb einer Grenze eines Bereichs bestimmt, welche die vorherbestimmte erste Frequenz von dem Modus des Eingangssignals nicht überschreitet; den Spektrumkompressor, der ein Leistungsspektrum von Frequenzen in einem Band höher als die erste Frequenz in einer Frequenzrichtung komprimiert; den Spektrumsynthetisierer, der das komprimierte Leistungsspektrum in einem Band wiedergibt, das durch beide, die erste Frequenz und die Grenzfrequenz, festgelegt ist; und den Frequenz-zu-Zeit-Konverter, der beide, ein synthetisiertes Leistungsspektrum, ausgegeben von dem Spektrumsynthetisierer, und ein Phasenspektrum von dem Eingangssignal, in Signale in dem Zeitbereich konvertiert, um ein Betonungssignal zu erfassen, das Stimmgewichtungsgerät das Eingangssignal durch Wiedergeben eines Hochbandsignals mit Frequenzen gleich oder größer als dem Durchgangsband gemäß dem Modus des Eingangssignals betonen. Deshalb kann das Stimmgewichtungsgerät die Charakteristiken des Hochfrequenzbands in dem Durchgangsband geeignet wiedergeben, und einen sehr guten und klaren Klangbetonungsprozess ohne einen fremdartigen Klang implementieren, der durch die Spektrumsynthese verursacht wird.
  • Weiterhin kann, da das Stimmgewichtungsgerät in Übereinstimmung mit dieser Ausführungsform 1 den Verstärkungskorrektor einschließt, der durch Korrigieren des Leistungsspektrums, das von dem Spektrumkompressor in solch einer Art komprimiert wird, dass die Leistung des Leistungsspektrums vor der Kompression in dem Band, auf welchem der Spektrumkompressor die Kompression durchführt, gleich zu der des Leistungsspektrums nach der Kompression ist, oder durch Multiplizieren des Leistungsspektrums mit einem vorher bestimmten Korrekturkoeffizienten, welcher auf der Basis einer Ursache von Hörbarkeit festgelegt ist, eine Leistungskorrektur auf dem komprimierten Leistungsspektrum durchführt, und der Spektrumsynthetisierer das Leistungsspektrum wiedergibt, das von dem Verstärkungskorrektor korrigiert wird, das Auftreten eines fremdartigen Klangs zu der Zeit der Spektrumsynthese verhindert werden, und ein sehr guter Klangbetonungsprozess implementiert werden.
  • Weiterhin kann, da in dem Sprachbetonungsgerät in Übereinstimmung mit dieser Ausführungsform 1, wenn das komprimierte Leistungsspektrum wiedergegeben wird, der Bandbestimmer als die Grenzfrequenz eine Frequenz bestimmt, welche die geringste Leistungsdifferenz zu dem Leistungsspektrum liefert, das zu der ersten Frequenz gehört, das Auftreten eines fremdartigen Klangs zu der Zeit der Spektrumsynthese verhindert werden, und ein sehr guter Klangbetonungsprozess implementiert werden.
  • Weiterhin kann, da in dem Stimmgewichtungsgerät in Übereinstimmung mit dieser Ausführungsform 1 der Bandbestimmer die Grenzfrequenz des aktuellen Rahmens in einer zeitlichen Richtung unter Verwenden der Grenzfrequenz des vorhergehenden Rahmens glättet, das Auftreten eines fremdartigen Klangs zu der Zeit der Spektrumsynthese verhindert werden, und ein sehr guter Klanggewichtungsprozess implementiert werden.
  • Weiterhin gibt, da in dem Stimmgewichtungsgerät in Übereinstimmung mit dieser Ausführungsform 1 der Spektrumsynthetisierer das S/N-Verhältnis des Leistungsspektrums des Eingangssignals und das S/N-Verhältnis des komprimierten Leistungsspektrums vergleicht, um ein Leistungsspektrum mit einem höheren S/N-Verhältnis auszuwählen, um das synthetisierte Leistungsspektrum zu erzeugen, wenn das Subband-S/N-Verhältnis des Hochfrequenzbandsignals zu der Zeit der Spektrumsynthese mit der Hochfrequenzkomponente niedrig ist, das Sprachbetonungsgerät die Spektralkomponente in dem Durchlassband nicht wieder. Genauer gesagt, da das Sprachbetonungsgerät verhindern kann, dass die Hochfrequenzkomponente, welche vom Wiedergeben in dem Durchlassband herabgesetzt wurde, kann das Sprachbetonungsgerät einen sehr guten Klangbetonungsprozess implementieren, während ein Ansteigen der Herabsetzung der Klangqualität verhindert wird.
  • Ausführungsform 2.
  • Obwohl in Ausführungsform 1 die Steuerung gemäß dem Modus des Eingangssignals unter Verwenden des Bestimmungskennzeichens durchgeführt wird, welches das Eingangssignalanalyseergebnis bei der Bestimmung der Grenzfrequenz durch den Bandbestimmer 4 ist, ist die vorliegende Erfindung nicht auf diese Ausführungsform beschränkt, und die Steuerung kann zum Beispiel unter Verwenden sowohl des durchschnittlichen S/N-Verhältnisses, ausgegeben durch den S/N-Verhältnisrechner 13, und das Verhältnis von Hoch- zur Niederfrequenzleistung, ausgegeben durch den Leistungsverhältnisrechner 14, durchgeführt werden. Zur der Zeit kann, statt eines Ausdrückens der Grenzfrequenz mit drei diskreten Werten, wie in Gleichung (11) gezeigt, zum Beispiel die Grenzfrequenz auf einen kontinuierlichen Wert zwischen 2500 Hz bis 3400 Hz gemäß den Werten von beiden der S/N-Verhältnisse gesetzt werden.
  • Konkret, da wenn das durchschnittliche S/N-Verhältnis SNRAVE(λ) groß wird, eine höhere Wahrscheinlichkeit besteht, dass das Eingangssignal eine Stimme ist, wird die Grenzfrequenz B(λ) abgesenkt, um die Bandbreite, in welcher die Hochfrequenzkomponente wiedergegeben wird, aufzuweiten. Weiterhin, da wenn das Verhältnis von Hoch- zu Niederfrequenzleistung PRatio(λ) groß wird, eine höhere Wahrscheinlichkeit besteht, dass das Eingangssignal ein Konsonant ist, wird die Grenzfrequenz B(λ) abgesenkt. Im Gegensatz dazu, wenn das durchschnittliche S/N-Verhältnis SNRAVE(λ) niedrig wird, wird die Grenzfrequenz B(λ) erhöht und die Bandbreite, in welcher die Hochfrequenzkomponente wiedergegeben wird, schmaler gemacht.
  • In Übereinstimmung mit dieser Ausführungsform 2 kann, da die Grenzfrequenz gemäß dem S/N-Verhältnis des Eingangssignals kontinuierlich kontrollierbar ist, die Bandbreite auf eine optimale gemäß dem S/N-Verhältnis des Eingangssignals gesetzt werden. Weiterhin, da die Wiedergabe einer überschießenden Hochfrequenzkomponente in dem Durchlassband durch Einengen des Bandes verhindert wird, wenn das durchschnittliche S/N-Verhältnis des Eingangssignals niedrig ist, kann ein Ansteigen des Herabsetzens der Klangqualität verhindert und ein weiterhin sehr guter Klangbetonungsprozess durchgeführt werden.
  • Wie vorstehend erläutert kann, da in dem Sprachbetonungsgerät in Übereinstimmung mit Ausführungsform 2 der Bandbestimmer die Grenzfrequenz auf eine niedrige setzt, wenn das S/N Verhältnis des Eingangssignals hoch ist, und die Grenzfrequenz auf eine höhere setzt, wenn das S/N-Verhältnis niedrig wird, ein Ansteigen der Herabsetzung der Klangqualität verhindert werden und ein weiterhin sehr guter Klangbetonungsprozess durchgeführt werden.
  • Ausführungsform 3.
  • Obwohl in Ausführungsform 1 der Spektrumsynthetisierer 8 das Subband-S/N-Verhältnis der Hochfrequenzkomponente und das Subband-S/N-Verhältnis des Durchlassband vergleicht, und dann die Spektrumsynthese gemäß dem Subband-S/N-Verhältnis durchführt, kann der Spektrumsynthetisierer alternativ einen gewichteten Mittelwert des Leistungsspektrums Y(λ, k) des Eingangssignals und des Leistungsspektrums Ym(λ, k) der Hochfrequenzkomponente, auf welche die Frequenzkompression und die Verstärkungskorrektur durchgeführt werden, für jede Spektralkomponente nehmen, wie Gleichung (16) gezeigt, und die Synthese durchführen, statt unter Verwenden des Subband-S/N-Verhältnisses Spektralkomponenten auszuwählen, um ein Leistungsspektrum eines betonten Signals zu bestimmen. YEMP(λ, k) = (1 – WS(k))·Y(λ, k) + WS(k)·Ŷm(λ, k) (16)
  • In dieser Gleichung bezeichnet WS(k) eine vorherbestimmte Konstante zum Gewichten, und kann als ein bevorzugtes Beispiel wie in Gleichungen (17) gezeigt in solch einer Art gesetzt werden, dass das Gewicht des Leistungsspektrums der Hochfrequenzkomponente groß wird, wenn die Frequenz hoch wird. Als eine Alternative kann WS(k) geeignet in solch einer Art variiert werden, dass der Bandbestimmer gemäß der Art des Eingangssignals etc. sehr gut arbeitet. WS(k) = 0.5 + 0.3·(k/BW_C), k = 0, ..., BW_C(λ) (17)
  • In dieser Gleichung bezeichnet BW_C(λ) die Bandbreite, die durch die Grenzfrequenz B(λ) und die Obergrenzenfrequenz BNL = 3400 Hz des Durchlassbandes angegeben wird, wie die für den Spektrumkompressor 6 beschriebene. Weiterhin kann der konstante Wert, der WS(k) bestimmt, im Vorhinein auf einen bevorzugten Wert gemäß dem Modus des Eingangssignals angepasst werden.
  • Wie vorstehend erwähnt, wird, da in dem Sprachbetonungsgerät in Übereinstimmung mit Ausführungsform 3 der Spektrumsynthetisierer einen gewichteten Mittelwert des Leistungsspektrums des Eingangssignals und des komprimierten Leistungsspektrums nimmt, um ein synthetisiertes Leistungsspektrum zu erzeugen, ein Vorteil bereitgestellt, in der Lage zu sein, eine Leistungsdiskontinuität des Spektrums in der Frequenzrichtung abzuschwächen. Weiterhin wird es zum Beispiel durch Vergrößern des Gewichts des Leistungsspektrums der Hochfrequenzkomponente, wenn die Frequenz hoch wird, möglich, eine größeren Höhe einer Hochfrequenzkomponente in dem Hochfrequenzband wiederzugeben, und es kann ein natürlicherer und klarerer Klangbetonungsprozess durchgeführt werden.
  • Ausführungsform 4.
  • In vorstehend erwähnte Ausführungsform 1 kann, wenn das Spektrum in der Frequenzrichtung durch den Spektrumkompressor 6 komprimiert wird, wenn Spitzen des Spektrums, welche einander durch Formantfrequenzen (Anteile entsprechend zu "Bergen" der Berg-Tal-Struktur des Spektrums) nahe kommen, ein Echo in der betonten Stimme auftreten. Um dieses Echo zu verhindern, werden zum Beispiel die Leistungsspektren entsprechender Spitzen verglichen und eine größere der Komponenten wird ausgewählt, oder die Spektrumkompression wird nicht bei Frequenzen nahe dem Leistungsspektrum der entsprechenden Spitze durchgeführt, um die Spitzen getrennt voneinander zu platzieren.
  • Wie vorstehend erläutert kann, da in dem Sprachbetonungsgerät in Übereinstimmung mit Ausführungsform 4, wenn eine Vielzahl von Leistungsspektrumspitzen innerhalb einer vorher bestimmten Frequenz zu der Zeit der Kompression erzeugt werden, der Spektrumkompressor eine größere Komponente unter den Leistungsspektren entsprechend der Vielzahl von Spitzen auswählt, oder die Spektrumkompression an Frequenzen nahe den Leistungsspektren entsprechend der Vielzahl von Spitzen nicht durchführt, eine Empfindung fremdartigen Klangs der betonten Stimme verhindert werden und ein sehr guter Klanggewichtungsprozess durchgeführt werden, da Spektrumspitzen, welche ein Echo zu der Zeit der Spektrumkompression verursachen können, getrennt voneinander platziert werden können.
  • Ausführungsform 5.
  • In einer Variante von Ausführungsform 4 wird ein Prozess auf Spitzen des Leistungsspektrums, das zu der Zeit der Spektrumsynthese in dem Spektrumsynthetisierer 8 erzeugt wird, nachstehend als Ausführungsform 5 erläutert.
  • Wenn sich Spitzen des Spektrums, welche durch Formantfrequenzen dargestellt werden, als ein Ergebnis des Spektrumsynthetisierer 8 einander nahe kommen, der das Leistungsspektrum des Eingangssignals und das Leistungsspektrum des Hochfrequenzkomponente synthetisiert, auf welche die Spektrumkompression durchgeführt wird, kann ein Echo in der betonten Stimme auftreten. Um dieses Echo zu verhindern, führt der Spektrumsynthetisierer zum Beispiel einen Prozess des Vergleichens einer Komponente entsprechend einer Spitze auf dem Leistungsspektrum des Eingangssignals und der des Leistungsspektrums der Hochfrequenzkomponente durch, und eines Auswählens einer großen dieser Komponenten, oder eines Nicht-Durchführens einer Spektrumkompression bei Frequenzen nahe dem Leistungsspektrum entsprechend der Spitze, und eines Durchführens der Synthese, während die Spitzen getrennt voneinander gehalten werden. Im Ergebnis kann der Spektrumsynthetisierer Spektrumspitzen, welche zu der Zeit der Spektrumkompression ein Echo verursachen, voneinander getrennt platzieren.
  • Wie vorstehend erläutert, kann, da in dem Stimmgewichtungsgerät in Übereinstimmung mit Ausführungsform 5, wenn eine Vielzahl von Leistungsspektrumspitzen innerhalb einer vorherbestimmten Frequenz zu der Zeit des Durchführens der Synthese erzeugt werden, der Spektrumkompressor eine Komponente entsprechend jeder Spitze des Leistungsspektrums des Eingangssignals und der des Leistungsspektrums der Hochfrequenzkomponente vergleicht, und eine größere der Komponenten auswählt, oder die Spektrumkompression bei Frequenzen nahe den Leistungsspektren entsprechend der Vielzahl von Spitzen nicht durchführt, eine Empfindung von fremdartigem Klang der betonten Stimme verhindert werden, und ein sehr guter Klanggewichtungsprozess durchgeführt werden, da Spektrumspitzen, welche zu der Zeit der Spektrumkompression ein Echo verursachen, getrennt voneinander platziert werden können.
  • Obwohl das Durchgangsband in jeder der vorstehend erwähnten Ausführungsformen mit 3400 Hz erläutert ist, ist die vorliegende Erfindung nicht auf dieses Beispiel beschränkt. Zum Beispiel kann die vorliegende Erfindung selbst auf eine 7000 Hz Breitbandübertragung angewendet werden. In diesem Fall kann zum Beispiel ein Eingangssignal in einem 11 kHz Band eingegeben und analysiert werden.
  • Gemäß der vorliegenden Erfindung wird, da solange eine Empfindung eines Breitbands, welches das Durchgangsband überschreitet, bereitgestellt und Lesbarkeit implementiert ist, ein Prozess des Expandierens einer Hochfrequenzkomponente an einer Empfangsseite, das heißt ein zusätzlicher Prozess auf einer Seite eines empfangenden Endgeräts, unnötig, wobei ein Vorteil des Bereitstellens einer Verbesserung der Qualität ohne Zunahme des Speicherumfangs und Zunahme des Durchsatzes und ungeachtet der Art des empfangenden Endgeräts zur Verfügung gestellt wird.
  • Weiterhin zielt die vorliegende Erfindung nicht nur auf eine Stimme, und kann auch auf ein Nicht-Stimmensignal wie Musik angewendet werden. Zu diesem Zeitpunkt wird der Eingangssignalanalysator 3 ersetzt durch etwas, was einem Musikklang angepasst ist, und was notwendig ist, ist nur die Bestimmung unter Verwenden eines bekannten Analysemittels geeignet für Musikklänge, entsprechend zu Konsonanten und Vokalen von Stimmen, durchzuführen.
  • Zusätzlich wird, da die vorliegende Erfindung nicht nur als eine Maßnahme zum Bereitstellen einer Verbesserung der Klangqualität für Bandbreitenbeschränkungen zu der Zeit von drahtloser Kommunikationsübertragung bereitgestellt wird, sondern auch wirksam ist, wenn ein Sprecher in seiner Hochfrequenzwiedergabefähigkeit unzureichend ist und wenn die Hochfrequenzkomponente in einer Lautsprechernachricht oder dergleichen abnimmt, und die Charakteristiken der Hochfrequenzkomponente in einem Band wiedergeben kann, welches über einen Lautsprecher und ein Niederfrequenzband reproduziert wird, welches kaum abfällt, ein Vorteil bereitgestellt, in der Lage zu sein, eine klare Stimme zu reproduzieren. Weiterhin wird, auch wenn die Abtastfrequenz aufgrund einer Beschränkung der Speicherkapazität des Speichergeräts und einer Beschränkung auf der D/A (digital zu analog) Wandlung in elektrischen Haushaltsgeräten, Spielzeugen etc. eingeschränkt ist, auf welchen eine starke Kostenreduktionsanforderung liegt, welche durch das mündliche Lesen eines Fernsehprogrammführers, die Ausgabe einer synthetisierten Stimme in einem Spielzeug oder dergleichen repräsentiert werden, ein Vorteil bereitgestellt, in der Lage zu sein, ein klares Stimmsignal nachzubilden, das die Abtastfrequenz im Sinne von Hörbarkeit überschreitet.
  • Weiterhin kann, obwohl das betonte Ausgangssignal in einer digitalen Datenform an einen von verschiedenen tonakustischen Prozessoren, wie ein Tonverschlüsselungsgerät, ein Spracherkennungsgerät, ein Tonspeichergerät oder ein Freisprechrufgerät, in jeder der vorstehender erwähnten Ausführungsformen ausgesendet wird, das Sprachbetonungsgerät gemäß jeder der Ausführungsformen über ein einziges Gerät oder ein DSP (digitalen Signalprozessor) wie vorstehend erwähnt mit einem anderen Gerät implementiert werden. Das Sprachbetonungsgerät kann alternativ durch Ausführen eines Softwareprogramms als dem Sprachbetonungsgerät implementiert werden. Das Softwareprogramm kann in einer Speichereinheit eines Computer-Geräts gespeichert sein, welches das Software-Programm ausführt, oder kann über ein Speichermedium wie eine CD-ROM verteilt werden. Als eine Alternative kann das Programm über ein Netzwerk bereitgestellt werden. Weiterhin kann, zusätzlich zum Aussenden des betonten Ausgangssignals an einen von verschiedenen tonakustischen Prozessoren, das betonte Ausgangssignal nach D/A-Wandeln durch ein Verstärkungsgerät verstärkt werden, und kann als ein direktes Tonsignal von einem Lautsprecher oder dergleichen ausgegeben werden.
  • Obwohl die Erfindung in ihre bevorzugten Ausführungsformen beschrieben wurde, sollte verständlich sein, dass eine beliebige Kombination von zwei oder mehr der vorstehend erwähnten Ausführungsformen hergestellt werden kann, verschiedene Änderungen in einer beliebigen Komponente in Übereinstimmung mit jeglicher der vorstehend erwähnten Ausführungsformen gemacht werden kann, und eine beliebige Komponente in Übereinstimmung mit jeder der vorstehend erwähnten Ausführungsformen innerhalb des Umfangs der Erfindung weggelassen werden kann.
  • GEWERBLICHE ANWENDBARKEIT
  • Da das Sprachbetonungsgerät in Übereinstimmung mit der vorliegenden Erfindung den Bandbestimmer einschließt, der ein Band bestimmt, in welchem eine Hochfrequenzkomponente innerhalb einer Grenze eines Bereichs wiedergegeben wird, welche eine vorherbestimmte erster Frequenz auf der Basis des Modus eines Eingangssignals nicht überschreitet, und einen fremdartigen Klang verhindern kann, der durch eine Spektrumsynthese verursacht wird, und einen sehr guten, klaren Klangbetonungsprozess durchführen kann, ist das Sprachbetonungsgerät geeignet zur Verwendung bei Fahrzeugnavigation, Mobiltelefonen, Gegensprechanlagen und Tonsammelgeräten, in welchen Sprachkommunikationen, eine Sprachspeicherung, eine Sprachsynthese und ein Spracherkennungssystem einbezogen sind.
  • ERLÄUTERUNGEN DER BEZUGSZIFFERN
    • 1 Eingabeendgerät, 2 Zeit-zu-Frequenz-Konverter, 3 Eingangssignalanalysator, 4 Bandbestimmer, 5 Hochfrequenzkomponentenextraktor, 6 Spektrumkompressor, 7 Verstärkungskorrektor, 8 Spektrumsynthetisierer, 9 Frequenz-zu-Zeit-Konverter, 10 Ausgabeendgerät, 11 Autokorrelationsanalysator, 12 Rauschspektrumschätzer, 13 S/N-Verhältnisrechner, 14 Leistungsverhältnisanalysator, und 15 Bestimmer.

Claims (9)

  1. Sprachbetonungsgerät, umfassend: einen Zeit-zu-Frequenzkonverter, der ein Eingangssignal in einem Zeitbereich in ein Leistungsspektrum konvertiert, welches ein Signal in einem Frequenzbereich ist; einen Eingangssignalanalysator, der einen Modus von besagtem Eingangssignal aus besagtem Leistungsspektrum analysiert; einen Banddeterminator, der eine Grenzfrequenz innerhalb einer Grenze eines Bereichs bestimmt, welche eine vorherbestimmte erste Frequenz nicht überschreitet aus dem Modus des besagten Eingangssignals; einen Spektrumkompressor, der ein Leistungsspektrum von Frequenzen in einem Band höher als besagte erste Frequenz in einer Frequenzrichtung komprimiert; einen Spektrumsynthetisierer, der besagtes komprimiertes Leistungsspektrum in einem Band wiedergibt, das durch beide, besagte erste Frequenz und besagte Grenzfrequenz, festgelegt ist; und einen Frequenz-zu-Zeit-Konverter, der beide, ein synthetisiertes Leistungsspektrum, das von besagtem Spektrumsynthetisierer ausgegeben wird, und ein Phasenspektrum von besagtem Eingangssignal, in solche in dem Zeitbereich konvertiert, um ein Betonungssignal zu erhalten.
  2. Sprachbetonungsgerät nach Anspruch 1, bei welchem ein Verstärkungskorrektor, der durch Berichtigen des von besagtem Spektrumkompressor komprimierten Leistungsspektrums in solch einer Art, dass Leistung von dem Leistungsspektrum vor der Kompression in einem Band, auf welches besagter Spektrumkompressor die Kompression durchführt, gleich der des Leistungsspektrums nach der Kompression ist, oder durch Multiplizieren des Leistungsspektrums durch einen vorherbestimmten Korrekturkoeffizienten, welcher auf einer Basis eines Hörgrunds bestimmt ist, eine Leistungskorrektur an besagtem komprimiertem Leistungsspektrum durchführt, und wobei besagter Spektrumsynthetisierer das Leistungsspektrum wiedergibt, das durch besagten Verstärkungskorrektor berichtigt wurde.
  3. Sprachbetonungsgerät nach Anspruch 1, bei welchem, wenn besagtes komprimiertes Leistungsspektrum wiedergegeben wird, besagter Banddeterminator als besagte Grenzfrequenz eine Frequenz bestimmt, welche eine geringste Leistungsdifferenz zu einem Leistungsspektrum bietet, das zu besagter ersten Frequenz gehört.
  4. Sprachbetonungsgerät nach Anspruch 1, bei welchem besagter Banddeterminator eine Grenzfrequenz eines aktuellen Rahmens in einer zeitlichen Richtung unter Verwenden einer Grenzfrequenz von einem vorhergehenden Rahmen glättet.
  5. Sprachbetonungsgerät nach Anspruch 1, bei welchem besagter Spektrumsynthetisierer ein S/N-Verhältnis des Leistungsspektrums von besagtem Eingangssignal und ein S/N-Verhältnis von besagtem komprimiertem Leistungsspektrum vergleicht, um ein Leistungsspektrum mit einem höheren S/N-Verhältnis auszuwählen, und das synthetisierte Leistungsspektrum erzeugt.
  6. Sprachbetonungsgerät nach Anspruch 1, bei welchem, wenn ein S/N-Verhältnis von besagtem Eingangssignal hoch ist, besagter Banddeterminator besagte Grenzfrequenz auf eine niedrige setzt, und besagte Grenzfrequenz auf eine höhere setzt, wenn besagtes S/N-Verhältnis klein wird.
  7. Sprachbetonungsgerät nach Anspruch 1, bei welchem besagter Spektrumsynthetisierer einen gewichteten Mittelwert auf dem Leistungsspektrum des Eingangssignals und dem komprimierten Leistungsspektrum nimmt, um das synthetisierte Leistungsspektrum zu erzeugen.
  8. Sprachbetonungsgerät nach Anspruch 1, bei welchem, wenn eine Vielzahl von Spitzen des Leistungsspektrums innerhalb einer vorherbestimmten Frequenz zu einer Zeit der Kompression erzeugt wird, besagter Spektrumkompressor eine größere Komponente der Leistungsspektren entsprechend der besagten Vielzahl von Spitzen auswählt, oder die Spektrumkompression bei Frequenzen nahe an Leistungsspektren entsprechend besagter Vielzahl von Spitzen nicht durchführt.
  9. Sprachbetonungsgerät nach Anspruch 1, bei welchem, wenn eine Vielzahl von Spitzen eines Leistungsspektrums innerhalb einer vorgegebenen Frequenz zu einer Zeit erzeugt werden, wenn besagter Spektrumsynthetisierer eine Synthese durchführt, besagter Spektrumsynthetisierer eine Komponente entsprechend jeder Spitze des Leistungsspektrums des Eingangssignals und der von einem Leistungsspektrum einer Hochfrequenzkomponente vergleicht, um eine größere der Komponenten auszuwählen, oder besagter Spektrumkompressor die Spektrumkompression bei Frequenzen nahe an Leistungsspektren entsprechend besagter Vielzahl von Spitzen nicht durchführt.
DE112014000945.8T 2013-02-22 2014-01-15 Sprachbetonungsgerät Active DE112014000945B4 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013-033347 2013-02-22
JP2013033347 2013-02-22
PCT/JP2014/050573 WO2014129233A1 (ja) 2013-02-22 2014-01-15 音声強調装置

Publications (2)

Publication Number Publication Date
DE112014000945T5 true DE112014000945T5 (de) 2015-11-12
DE112014000945B4 DE112014000945B4 (de) 2021-10-28

Family

ID=51391029

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112014000945.8T Active DE112014000945B4 (de) 2013-02-22 2014-01-15 Sprachbetonungsgerät

Country Status (5)

Country Link
US (1) US9530430B2 (de)
JP (1) JP6073456B2 (de)
CN (1) CN104981870B (de)
DE (1) DE112014000945B4 (de)
WO (1) WO2014129233A1 (de)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013140733A1 (ja) * 2012-03-23 2013-09-26 パナソニック株式会社 帯域パワー算出装置及び帯域パワー算出方法
JP6216553B2 (ja) * 2013-06-27 2017-10-18 クラリオン株式会社 伝搬遅延補正装置及び伝搬遅延補正方法
DE102014101307A1 (de) * 2014-02-03 2015-08-06 Osram Opto Semiconductors Gmbh Kodierverfahren zur Datenkompression von Leistungsspektren eines optoelektronischen Bauteils und Dekodierverfahren
US10121488B1 (en) * 2015-02-23 2018-11-06 Sprint Communications Company L.P. Optimizing call quality using vocal frequency fingerprints to filter voice calls
JP2018159759A (ja) * 2017-03-22 2018-10-11 株式会社東芝 音声処理装置、音声処理方法およびプログラム
CN111337213A (zh) * 2020-02-21 2020-06-26 中铁大桥(南京)桥隧诊治有限公司 一种基于合成功率谱桥梁模态频率识别方法及系统
CN113936694B (zh) * 2021-12-17 2022-03-18 珠海普林芯驰科技有限公司 人声实时检测方法、计算机装置及计算机可读存储介质

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0731519B2 (ja) * 1985-05-28 1995-04-10 日本電気株式会社 フオルマント抽出器
CA1250368A (en) 1985-05-28 1989-02-21 Tetsu Taguchi Formant extractor
JPH08321792A (ja) 1995-05-26 1996-12-03 Tohoku Electric Power Co Inc 音声信号帯域圧縮伝送方法
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
DE19941311C1 (de) * 1999-08-31 2001-06-07 Cryoelectra Ges Fuer Kryoelek Bandfilter
JP2002244686A (ja) * 2001-02-13 2002-08-30 Hitachi Ltd 音声加工方法、これを用いた電話機及び中継局
KR20040014431A (ko) * 2001-08-06 2004-02-14 가부시키가이샤 인덱스 명성의 음성적 특징분석에 기초하는 개의 감정판별장치 및방법
DE60204039T2 (de) * 2001-11-02 2006-03-02 Matsushita Electric Industrial Co., Ltd., Kadoma Vorrichtung zur kodierung und dekodierung von audiosignalen
SE0400997D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Efficient coding of multi-channel audio
US8086451B2 (en) * 2005-04-20 2011-12-27 Qnx Software Systems Co. System for improving speech intelligibility through high frequency compression
US7813931B2 (en) * 2005-04-20 2010-10-12 QNX Software Systems, Co. System for improving speech quality and intelligibility with bandwidth compression/expansion
AU2005201813B2 (en) 2005-04-29 2011-03-24 Phonak Ag Sound processing with frequency transposition
CN101194422B (zh) * 2005-07-13 2010-12-29 株式会社村田制作所 声边界波滤波装置
US8295507B2 (en) 2006-11-09 2012-10-23 Sony Corporation Frequency band extending apparatus, frequency band extending method, player apparatus, playing method, program and recording medium
JP5141180B2 (ja) * 2006-11-09 2013-02-13 ソニー株式会社 周波数帯域拡大装置及び周波数帯域拡大方法、再生装置及び再生方法、並びに、プログラム及び記録媒体
JP4984983B2 (ja) * 2007-03-09 2012-07-25 富士通株式会社 符号化装置および符号化方法
EP2077550B8 (de) * 2008-01-04 2012-03-14 Dolby International AB Audiokodierer und -dekodierer
JP5453740B2 (ja) * 2008-07-02 2014-03-26 富士通株式会社 音声強調装置
JP5293817B2 (ja) * 2009-06-19 2013-09-18 富士通株式会社 音声信号処理装置及び音声信号処理方法
PL3570278T3 (pl) * 2010-03-09 2023-03-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Rekonstrukcja wysokiej częstotliwości wejściowego sygnału audio przy użyciu kaskadowych banków filtrów
EP2375782B1 (de) 2010-04-09 2018-12-12 Oticon A/S Verbesserungen in der Geräuschwahrnehmung mittels Frequenztransposition durch Verschiebung des Tonumfangs
JP2012145659A (ja) * 2011-01-07 2012-08-02 Jvc Kenwood Corp 音声信号圧縮装置、音声信号圧縮方法及びプログラム
CN102880767A (zh) * 2012-10-19 2013-01-16 西南交通大学 轨道交通桥梁结构噪声仿真预测方法
US9420368B2 (en) * 2013-09-24 2016-08-16 Analog Devices, Inc. Time-frequency directional processing of audio signals
CN103632676B (zh) * 2013-11-12 2016-08-24 广州海格通信集团股份有限公司 一种低信噪比语音降噪方法
JP6260504B2 (ja) * 2014-02-27 2018-01-17 株式会社Jvcケンウッド オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム

Also Published As

Publication number Publication date
JP6073456B2 (ja) 2017-02-01
JPWO2014129233A1 (ja) 2017-02-02
US20160005420A1 (en) 2016-01-07
CN104981870B (zh) 2018-03-20
US9530430B2 (en) 2016-12-27
DE112014000945B4 (de) 2021-10-28
WO2014129233A1 (ja) 2014-08-28
CN104981870A (zh) 2015-10-14

Similar Documents

Publication Publication Date Title
DE112014000945B4 (de) Sprachbetonungsgerät
US20040138876A1 (en) Method and apparatus for artificial bandwidth expansion in speech processing
DE60101148T2 (de) Vorrichtung und verfahren zur sprachsignalmodifizierung
DE112012005855B4 (de) Störungsunterdrückungsvorrichtung
DE60122203T2 (de) Verfahren und system zur erzeugung von behaglichkeitsrauschen bei der sprachkommunikation
DE69910058T2 (de) Verbesserung der periodizität eines breitbandsignals
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE60032797T2 (de) Geräuschunterdrückung
CN1750124B (zh) 带限音频信号的带宽扩展
DE60128677T2 (de) Verfahren und vorrichtung zur prädiktiven quantisierung von stimmhaften sprachsignalen
DE60027573T2 (de) Quantisierung der spektralen amplitude in einem sprachkodierer
CN100557687C (zh) 用于改善语音质量和可懂度的系统
DE60214358T2 (de) Zeitskalenmodifikation von signalen mit spezifischem verfahren je nach ermitteltem signaltyp
DE60029990T2 (de) Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer
DE69727895T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE60017763T2 (de) Verfahren und vorrichtung zur erhaltung einer ziel-bitrate in einem sprachkodierer
US20070078645A1 (en) Filterbank-based processing of speech signals
JPH07248794A (ja) 音声信号処理方法
EP2316118B1 (de) Verfahren zur definition von signalgrenzfrequenzen
DE112011105791T5 (de) Störungsunterdrückungsvorrichtung
DE60124079T2 (de) Sprachverarbeitung
DE69635141T2 (de) Verfahren zur Erzeugung von Sprachmerkmalsignalen und Vorrichtung zu seiner Durchführung
DE602004007953T2 (de) System und verfahren zur audiosignalverarbeitung
DE60037286T2 (de) Verfahren und Vorrichtung zur Unterabtastung der im Phasenspektrum erhaltenen Information
DE102013111784A1 (de) Audioverarbeitungsvorrichtungen und audioverarbeitungsverfahren

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R082 Change of representative

Representative=s name: PFENNING MEINIG & PARTNER GBR, DE

Representative=s name: PFENNING, MEINIG & PARTNER MBB PATENTANWAELTE, DE

R084 Declaration of willingness to licence
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final