DE112016006218T5 - Schallsignalverbesserung - Google Patents

Schallsignalverbesserung Download PDF

Info

Publication number
DE112016006218T5
DE112016006218T5 DE112016006218.4T DE112016006218T DE112016006218T5 DE 112016006218 T5 DE112016006218 T5 DE 112016006218T5 DE 112016006218 T DE112016006218 T DE 112016006218T DE 112016006218 T5 DE112016006218 T5 DE 112016006218T5
Authority
DE
Germany
Prior art keywords
signal
output
weighting
processor
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE112016006218.4T
Other languages
English (en)
Other versions
DE112016006218B4 (de
Inventor
Satoru Furuta
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of DE112016006218T5 publication Critical patent/DE112016006218T5/de
Application granted granted Critical
Publication of DE112016006218B4 publication Critical patent/DE112016006218B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

Ein erster Signalgewichtungsprozessor gibt ein gewichtetes Signal aus, erlangt durch Durchführen einer Gewichtung an einem Teil eines eingegebenen Signals, das ein Merkmal eines Zielsignals oder von Geräuschen, enthalten in dem eingegebenen Signal, repräsentiert. Ein Prozessor eines neuronalen Netzwerks gibt ein Verbesserungssignal für das Zielsignal unter Verwendung eines Kopplungskoeffizienten aus. Ein inverses Filter hebt die Gewichtung an der Merkmalsrepräsentation des Zielsignals oder den Geräuschen in dem Verbesserungssignal auf. Ein zweiter Signalgewichtungsprozessor gibt ein gewichtetes Signal aus, erlangt durch Durchführen einer Gewichtung an einem Teil eines überwachenden Signals, das ein Merkmal eines Zielsignals oder von Geräuschen repräsentiert. Eine Fehlerauswertungsvorrichtung gibt einen Kopplungskoeffizienten aus, der einen Wert aufweist, der angibt, dass ein Lernfehler zwischen dem von dem zweiten Signalgewichtungsprozessor ausgegebenen gewichteten Signal und dem Ausgabesignal des Prozessors des neuronalen Netzwerks kleiner als ein oder gleich einem eingestellten Wert ist.

Description

  • TECHNISCHES GEBIET
  • Die vorliegende Erfindung betrifft eine Schallsignal-Verbesserungsvorrichtung zum Verbessern eines Zielsignals, das in ein Eingabesignal aufgenommen wurde, durch Unterdrücken unnötiger Signale außer dem Zielsignal.
  • STAND DER TECHNIK
  • Einhergehend mit einem Fortschritt der Technologie digitaler Signalverarbeitung in den letzten Jahren haben sich Sprachkommunikation durch Mobiltelefone im Freien, Freisprech-Sprachkommunikation in Kraftfahrzeugen und Freisprechbetrieb durch Spracherkennung weit verbreitet. Außerdem wurden automatische Überwachungssysteme entwickelt, die Schreie und Gebrüll von Menschen oder durch Maschinen erzeugte anomale Geräusche oder Vibrationen erfassen und detektieren.
  • Vorrichtungen, die die vorstehenden Funktionen implementieren, werden häufig in einer geräuschvollen Umgebung verwendet, wie im Freien oder in Betrieben, oder in einer Umgebung mit starkem Widerhall, in der durch Lautsprecher oder andere Vorrichtungen erzeugte Schallsignale ein Mikrofon erreichen. Folglich werden unnötige Signale wie Hintergrundgeräusche oder Widerhallsignale des Schalls ebenfalls zusammen mit einem Zielsignal in einen Schallwandler wie ein Mikrofon oder einen Vibrationssensor eingegeben. Dieser Vorgang kann in einer Verschlechterung des Kommunikationsschalls und einer Verschlechterung der Spracherkennungsrate, der Detektion anomaler Geräusche und dergleichen resultieren. Zur Implementierung einer angenehmem Sprachkommunikation, hochgenauer Spracherkennung oder einer hochgenauen Detektion anomaler Geräusche ist daher eine Signalverbesserungsvorrichtung erforderlich, die imstande ist, in einem Eingabesignal enthaltene unnötige Signale (im Folgenden werden die vorstehenden unnötigen Signale als „Geräusche“ bezeichnet) außer einem Zielsignal zu unterdrücken und nur das Zielsignal anzuheben.
  • Herkömmlicherweise gibt es ein Verfahren, das ein neuronales Netzwerk verwendet, als ein Verfahren zur Verbesserung nur eines Zielsignals (siehe zum Beispiel Patentliteratur 1). In dem herkömmlichen Verfahren wird ein Zielsignal durch Verbessern des Signal-Rauschverhältnisses eines eingegebenen Signals unter Verwendung des neuronalen Netzwerks angehoben.
  • LISTE DER LITERATURVERWEISE
  • Patentliteratur 1: JP 05-232986 A
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Ein neuronales Netzwerk weist eine Vielzahl von Verarbeitungsschichten auf, jede Kopplungselemente enthaltend. Ein Gewichtungskoeffizient (als ein Kopplungskoeffizient bezeichnet), der die Kopplungsstärke angibt, wird zwischen Kopplungselementen für jedes Paar der Schichten eingestellt. Es ist erforderlich, die Kopplungskoeffizienten des neuronalen Netzwerks anfänglich in Abhängigkeit von einem Zweck im Voraus einzustellen. Ein derartiges anfängliches Einstellen wird als Lernen des neuronalen Netzwerks bezeichnet. Beim allgemeinen Lernen eines neuronalen Netzwerks wird eine Differenz zwischen einem Operationsergebnis des neuronalen Netzwerks und Überwachungssignaldaten als ein Lernfehler definiert, und ein Kopplungskoeffizient wird wiederholt verändert, um die Quadratsumme des Lernfehlers durch ein Rückausbreitungsverfahren oder andere Verfahren zu minimieren.
  • Im Allgemeinen wird in einem neuronalen Netzwerk ein Kopplungskoeffizient zwischen Kopplungselementen durch Lernen unter Verwendung einer großen Menge von Lerndaten optimiert und als ein Ergebnis wird eine Genauigkeit der Signalverbesserung erhöht. Es ist jedoch hinsichtlich von Signalen, die weniger häufig auftreten als ein Zielsignal, oder Geräuschen, wie nicht normal geäußerte Sprache wie Schreie oder Gebrüll, von natürlichen Katastrophen wie Erdbeben begleiteten Geräuschen, unerwartet erzeugten Störungsgeräuschen wie Schüsse, anomalen Geräuschen oder Vibrationen, die einen Ausfall einer Maschine ankündigen, oder Warntönen, die ausgegeben werden, wenn ein Maschinenfehler vorkommt, nur möglich, eine kleine Menge von Lerndaten zu erfassen. Dies beruht darauf, dass eine große Anzahl von Einschränkungen besteht, so dass die Erfassung einer großen Menge von Lerndaten einen großen Zeit- und Kostenaufwand erfordert, oder dass eine Fertigungsstraße gestoppt werden muss, um einen Warnton auszugeben. Daher funktioniert das Lernen eines neuronalen Netzwerks in dem herkömmlichen Verfahren, wie in der Patentliteratur 1 offenbart, aufgrund der unzureichenden Lerndaten nicht gut, und demgemäß besteht ein Problem, dass die Genauigkeit der Verbesserung abnehmen kann.
  • Die vorliegende Erfindung wurde gemacht, um die vorstehenden Probleme zu lösen. Eine Aufgabe der Erfindung besteht in der Bereitstellung einer Schallsignal-Verbesserungsvorrichtung, die imstande ist, ein Verbesserungssignal hoher Qualität eines Schallsignals selbst dann zu erlangen, wenn die Menge der Lerndaten klein ist.
  • Eine Schallsignal-Verbesserungsvorrichtung gemäß der vorliegenden Erfindung enthält: die Schallsignal-Verbesserungsvorrichtung der Ausführungsform 1 enthält: einen ersten Signalgewichtungsprozessor, konfiguriert zum Durchführen einer Gewichtung an einem Teil eines eingegebenen Signals, der ein Merkmal eines Zielsignals oder von Geräuschen repräsentiert, und konfiguriert zum Ausgeben eines gewichteten Signals, wobei das eingegebene Signal das Zielsignal und die Geräusche enthält; einen Prozessor eines neuronalen Netzwerks, konfiguriert zum Durchführen, an dem von dem ersten Signalgewichtungsprozessor ausgegeben gewichteten Signal, von Verbesserung des Zielsignals unter Verwendung eines Kopplungskoeffizienten und konfiguriert zum Ausgeben eines Verbesserungssignals; ein inverses Filter, konfiguriert zum Aufheben der Gewichtung an der Merkmalsrepräsentation des Zielsignals oder der Geräusche in dem Verbesserungssignal; einen zweiten Signalgewichtungsprozessor, konfiguriert zum Durchführen einer Gewichtung an einem Teil eines Überwachungssignals, der ein Merkmal eines Zielsignals oder von Geräuschen repräsentiert, und konfiguriert zum Ausgeben eines gewichteten Signals, wobei das Überwachungssignal zum Lernen eines neuronalen Netzwerks verwendet wird; und eine Fehlerauswertungsvorrichtung, konfiguriert zum Berechnen eines Kopplungskoeffizienten, der einen Wert aufweist, der angibt, dass ein Lernfehler zwischen dem von dem zweiten Signalgewichtungsprozessor ausgegeben gewichteten Signal und dem von dem Prozessor des neuronalen Netzwerks ausgegebenen Verbesserungssignal kleiner als ein oder gleich einem eingestellten Wert ist, und konfiguriert zum Ausgeben eines Ergebnisses der Berechnung als den Kopplungskoeffizienten.
  • Eine Schallsignal-Verbesserungsvorrichtung gemäß der vorliegenden Erfindung führt Gewichten eines Merkmals eines Zielsignals oder von Geräuschen unter Verwendung des ersten Signalgewichtungsprozessors durch, konfiguriert zum Durchführen einer Gewichtung an einem Teil eines eingegebenen Signals, der ein Merkmal eines Zielsignals oder von Geräuschen repräsentiert, und konfiguriert zum Ausgeben eines gewichteten Signals, wobei das eingegebene Signal das Zielsignal und die Geräusche enthält, und des zweiten Signalgewichtungsprozessors, konfiguriert zum Durchführen einer Gewichtung eines Teils eines Überwachungssignals, der ein Merkmal eines Zielsignals oder von Geräuschen repräsentiert, und konfiguriert zum Ausgeben eines gewichteten Signals, wobei das Überwachungssignal zum Lernen eines neuronalen Netzwerks verwendet wurde. Als ein Ergebnis ist es möglich, ein Verbesserungssignal hoher Qualität eines Schallsignals selbst dann zu erlangen, wenn die Menge von Lerndaten klein ist.
  • Figurenliste
    • 1 zeigt ein Blockdiagramm einer Schallsignal-Verbesserungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung.
    • 2A zeigt ein erläuterndes Diagramm eines Spektrums eines Zielsignals, 2B zeigt ein erläuterndes Diagramm eines Spektrums in einem Fall, in dem Geräusche in dem Zielsignal enthalten sind, 2C zeigt ein erläuterndes Diagramm eines Spektrums eines Verbesserungssignals durch ein herkömmliches Verfahren und 2D zeigt ein erläuterndes Diagramm eines Spektrums eines Verbesserungssignals gemäß Ausführungsform 1.
    • 3 zeigt ein Ablaufdiagramm, das ein Beispiel einer Prozedur eines Schallsignal-Verbesserungsprozesses der Schallsignal-Verbesserungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung darstellt.
    • 4 zeigt ein Ablaufdiagramm, das ein Beispiel einer Prozedur des Lernens des neuronalen Netzwerks der Schallsignal-Verbesserungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung darstellt.
    • 5 zeigt ein Blockdiagramm, das eine Hardwarestruktur der Schallsignal-Verbesserungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung darstellt.
    • 6 zeigt ein Blockdiagramm, das eine Hardwarestruktur im Fall der Implementierung der Schallsignal-Verbesserungsvorrichtung von Ausführungsform 1 der vorliegenden Erfindung unter Verwendung eines Computers darstellt.
    • 7 zeigt ein Blockdiagramm einer Schallsignal-Verbesserungsvorrichtung gemäß Ausführungsform 2 der vorliegenden Erfindung.
    • 8 zeigt ein Blockdiagramm einer Schallsignal-Verbesserungsvorrichtung gemäß Ausführungsform 3 der vorliegenden Erfindung.
  • BESCHREIBUNG DER AUSFÜHRUNGSFORMEN
  • Zum ausführlichen Beschreiben der vorliegenden Erfindung werden nachstehend Ausführungsformen zum Ausführen der vorliegenden Erfindung anhand der beigefügten Zeichnungen beschrieben.
  • (Ausführungsform 1)
  • 1 zeigt ein Blockdiagramm, das eine schematische Konfiguration einer Schallsignal-Verbesserungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung darstellt. Die in 1 dargestellte Schallsignal-Verbesserungsvorrichtung enthält einen Signaleingabeteil 1, einen ersten Signalgewichtungsprozessor 2, eine erste Fourier-Transformationsvorrichtung 3, einen Prozessor eines neuronalen Netzwerks 4, eine inverse Fourier-Transformationsvorrichtung 5, ein inverses Filter 6, einen Signalausgabeteil 7, eines Ausgabevorrichtung eines Überwachungssignals 8, einen zweiten Signalgewichtungsprozessor 9, eine zweite Fourier-Transformationsvorrichtung 10 und eine Fehlerauswertungsvorrichtung 11.
  • Eine Eingabe in die Schallsignal-Verbesserungsvorrichtung kann ein Schallsignal wie Sprachschall, Musik, Signalschall oder Geräusche sein, gelesen durch einen Schallwandler wie ein Mikrofon (nicht dargestellt) oder einen Vibrationssensor (nicht dargestellt). Diese Schallsignale werden von analog zu digital umgewandelt (A/D-Umwandlung), bei einer im Voraus bestimmten Abtastfrequenz (zum Beispiel 8 kHz) abgetastet und in Rahmeneinheiten (zum Beispiel 10 ms) aufgeteilt, um Signale für Eingabe zu erzeugen. Hier wird eine Operation mit einem Beispiel, in dem Sprachschall als ein Schallsignal, das ein Zielsignal ist, verwendet wird, beschrieben.
  • Nachstehend werden eine Konfiguration und ein Operationsprinzip der Schallsignal-Verbesserungsvorrichtung der Ausführungsform 1 unter Bezugnahme auf 1 beschrieben.
  • Der Signaleingabeteil 1 liest die vorstehenden Schallsignale bei im Voraus bestimmten Rahmenintervallen und gibt die Schallsignale, die jeweils ein eingegebenes Signal xn(t) in der Zeitdomäne sind, an den ersten Signalgewichtungsprozessor 2 aus. Hier bezeichnet „n“ eine Rahmenanzahl, wenn das eingegebene Signal in Rahmen aufgeteilt wird, und bezeichnet „t“ eine Anzahl diskreter Zeiten beim Abtasten.
  • Der erste Signalgewichtungsprozessor 2 ist ein Verarbeitungsteil, der einen Gewichtungsprozess an einem Teil des eingegebenen Signals xn(t) durchführt, der Merkmale eines Zielsignals oder von Geräuschen gut repräsentiert. Zum Verbessern einer wichtigen Sprachkomponente in einem Sprachspektrum (eine Komponente mit einer großen Spektrumsamplitude) verwendete Formantbetonung, ein so genannter Formant, kann auf den Signalgewichtungsprozess in der vorliegenden Ausführungsform angewandt werden.
  • Die Formantbetonung kann zum Beispiel durch Finden eines Autokorrelationskoeffizienten aus einem Hanning-Fensterung-Sprachsignal, Durchführen von Banderweiterungsverarbeitung, Finden eines linearen Vorhersagekoeffizienten der zwölften Ordnung mit dem Levinson-Durbin-Verfahren, Finden eines Formantbetonungskoeffizienten aus dem linearen Vorhersagekoeffizienten und dann Filtern durch ein kombiniertes Filter eines autoregressiven Bewegungsdurchschnitt- bzw. ARMA-Typs, der den Formantbetonungskoeffizienten verwendet, durchgeführt werden. Die Formantbetonung ist nicht auf das vorstehend beschriebene Verfahren beschränkt und andere bekannte Verfahren können verwendet werden.
    Überdies wird ein Gewichtungskoeffizient wn(j), der für die vorstehende Gewichtung verwendet wird, an das inverse Filter 6 ausgegeben, das später genau beschrieben werden wird. Hier bezeichnet „j“ eine Ordnung des Gewichtungskoeffizienten und korrespondiert mit einer Filterordnung eines Formantbetonungsfilters.
  • Als ein Signalgewichtungsverfahren kann nicht nur die vorstehend beschriebene Formantbetonung verwendet werden, sondern zum Beispiel auch ein Verfahren, das auditive Maskierung verwendet. Die auditive Maskierung bezieht sich auf ein Charakteristikum des menschlichen Hörsinns, dass eine große spektrale Amplitude bei einer bestimmten Frequenz eine spektrale Komponente mit einer kleineren Amplitude bei einer peripheren Frequenz daran hindern kann, wahrgenommen zu werden. Unterdrücken der maskierten spektralen Komponente (die die kleinere Amplitude aufweist) gestattet einen relativen Verbesserungsprozess.
  • Als ein anderes Verfahren des Gewichtungsprozesses eines Merkmals des Sprachsignals des ersten Signalgewichtungsprozessors 2 ist es möglich, Tonhöhenverbesserung durchzuführen, die eine Tonhöhe anhebt, die die grundlegende zyklische Struktur der Sprache angibt. Alternativ ist es außerdem möglich, einen Filterungsprozess durchzuführen, der nur eine spezifische Frequenzkomponente von Geräuschen wie Warntöne oder anomale Töne anhebt. Zum Beispiel ist es in einem Fall, in dem eine Frequenz von Warntönen eine Sinuswelle von 2 kHz ist, möglich, den Bandverbesserung-Filterungsprozess durchzuführen, um die Amplitude von Frequenzkomponenten innerhalb von ±200 Hz um 2 kHz als die Mittenfrequenz um 12 db zu verstärken.
  • Die erste Fourier-Transformationsvorrichtung 3 ist ein Verarbeitungsteil, der das durch den ersten Signalgewichtungsprozessor 2 gewichtete Signal in ein Spektrum transformiert. Das heißt zum Beispiel, dass Hanning-Fensterung an dem eingegebenen Signal xw_n(t), gewichtet durch den ersten Signalgewichtungsprozessor 2, durchgeführt wird und dann schnelle Fourier-Transformation von zum Beispiel 256 Punkten durchgeführt wird, wie in der nachstehenden mathematischen Gleichung (1), wodurch Transformation in eine spektrale Komponente Xw_n(k) aus dem Signal xw_n(t) in der Zeitdomäne erfolgt. X w _ n ( k ) = F F T [ x w _ n ( t ) ]
    Figure DE112016006218T5_0001
  • Dabei repräsentiert „k“ eine Zahl, die eine Frequenzkomponente in dem Frequenzband eines Leistungsspektrums (nachstehend als eine Spektrumszahl bezeichnet) bezeichnet und repräsentiert „FFT[·]“ eine Operation einer schnellen Fourier-Transformation.
  • Anschließend berechnet die erste Fourier-Transformationsvorrichtung 3 ein Leistungsspektrum Yn(k) und ein Phasenspektrum Pn(k) für die spektrale Komponente Xw_n(k) des eingegebenen Signals unter Verwendung der nachstehenden mathematischen Gleichungen (2). Das resultierende Leistungsspektrum Yn(k) wird an den Prozessor des neuronalen Netzwerks 4 ausgegeben. Das resultierende Phasenspektrum Pn(k) wird an die inverse Fourier-Transformationsvorrichtung 5 ausgegeben. Y n ( k ) = Re { X w _ n ( k ) } 2 + Im { X w _ n ( k ) } 2 ; 0 k < M
    Figure DE112016006218T5_0002
    P n ( k ) = A r g ( R E { X w _ n ( k ) } 2 + Im { X w _ n ( k ) } 2 )
    Figure DE112016006218T5_0003
  • Re{Xn(k)} und Im{Xn(k)} repräsentieren einen reellen Teil beziehungsweise einen imaginären Teil des eingegebenen Signalspektrums nach der Fourier-Transformation und M = 128.
  • Der Prozessor des neuronalen Netzwerks 4 ist ein Verarbeitungsteil, der das Spektrum nach Umwandlung in der ersten Fourier-Transformationsvorrichtung 3 anhebt und ein Verbesserungssignal ausgibt, in dem das Zielsignal angehoben ist. Das heißt, der Prozessor des neuronalen Netzwerks 4 weist M Eingabesignalpunkte (oder -knoten) korrespondierend mit dem vorstehend beschriebenen Leistungsspektrum Yn(k) auf. Das 128-Leistungsspektrum Yn(k) wird in das neuronale Netzwerk eingegeben. Im Leistungsspektrum Yn(k) wird das Zielsignal durch Netzwerkverarbeitung basierend auf einem Kopplungskoeffizienten, der im Voraus gelernt wurde, angehoben und als ein angehobenes Leistungsspektrum Sn(k) ausgegeben.
  • Die inverse Fourier-Transformationsvorrichtung 5 ist ein Verarbeitungsteil, der das angehobene Spektrum in ein Verbesserungssignal in der Zeitdomäne transformiert. Das heißt, dass inverse Fourier-Transformation basierend auf dem von dem Prozessor des neuronalen Netzwerks 4 ausgegebenen angehobenen Leistungsspektrum Sn(k) und dem von der ersten Fourier-Transformationsvorrichtung 3 ausgegebenen Phasenspektrum Pn(k) durchgeführt wird. Danach wird ein Überlagerungsprozess an einem Ergebnis der inversen Fourier-Transformation mit einem Ergebnis eines vorherigen Rahmens der Verarbeitung, gespeichert in einem internen Speicher für primäre Speicherung wie ein RAM, durchgeführt und dann wird ein gewichtetes Verbesserungssignal sw_n(t) an das inverse Filter 6 ausgegeben.
  • Das inverse Filter 6 führt unter Verwendung des Gewichtungskoeffizienten wn(j), der von dem ersten Signalgewichtungsprozessor 2 kommt, eine zu der in dem ersten Signalgewichtungsprozessor 2 umgekehrte Operation, nämlich einen Filterungsprozess zum Aufheben der Gewichtung, an den gewichteten Verbesserungssignalen sw_n(t) durch und gibt die Verbesserungssignale sn(t) aus.
  • Der Signalausgabeteil 7 gibt die durch das vorstehende Verfahren angehobenen Verbesserungssignale sn(t) extern aus.
  • Es ist zu beachten, dass, obwohl das durch die schnelle Fourier-Transformation erlangte Leistungsspektrum als das Signal verwendet wird, das in den Prozessor des neuronalen Netzwerks 4 der vorliegenden Ausführungsform eingegeben wird, die vorliegende Erfindung nicht darauf beschränkt ist. Ähnliche Wirkungen können zum Beispiel durch Verwendung akustischer Merkmalsparameter wie „Cepstrum“ oder durch Verwendung bekannter Umwandlungsverarbeitung wie Cosinus-Transformation oder Wavelet-Transformation anstelle von Fourier-Transformation erlangt werden. Im Fall der Wavelet-Transformation kann ein Wavelet anstelle eines Leistungsspektrums verwendet werden.
  • Die Ausgabevorrichtung des Überwachungssignals 8 hält eine große Menge von Signaldaten, die zum Lernen von Kopplungskoeffizienten des Prozessors des neuronalen Netzwerks 4 verwendet werden, und gibt das Überwachungssignal dn(t) zur Zeit des Lernens aus. Ein mit dem Überwachungssignal dn(t) korrespondierendes eingegebenes Signal wird ebenfalls an den ersten Signalgewichtungsprozessor 2 ausgegeben. In dieser Ausführungsform wird angenommen, dass das Zielsignal Sprachschall ist, das Überwachungssignal ein im Voraus bestimmtes Sprachsignal ist, das keine Geräusche enthält, und das eingegebene Signal ein Signal ist, das das gleiche Überwachungssignal zusammen mit Geräuschen enthält.
  • Der zweite Signalgewichtungsprozessor 9 führt Gewichtungsverarbeitung an dem Überwachungssignal dn(t) in einer Weise äquivalent zu der in dem ersten Signalgewichtungsprozessor 2 durch und gibt ein gewichtetes Überwachungssignal dw_n(t) aus.
  • Die zweite Fourier-Transformationsvorrichtung 10 führt schnelle Fourier-Transformationsverarbeitung in einer Weise äquivalent zu der in der ersten Fourier-Transformationsvorrichtung 3 durch und gibt ein Leistungsspektrum Dn(k) des Überwachungssignals aus.
  • Die Fehlerauswertungsvorrichtung 11 berechnet einen Lernfehler E, definiert in der folgenden mathematischen Gleichung (3), unter Verwendung des von dem Prozessor des neuronalen Netzwerks 4 ausgegebenen angehobenen Leistungsspektrums Sn(k) und des von der zweiten Fourier-Transformationsvorrichtung 10 ausgegebenen Leistungsspektrums Dn(k) des Überwachungssignals und gibt einen resultierenden Kopplungskoeffizienten an den Prozessor des neuronalen Netzwerks 4 aus. E = k = 0 M 1 { S n ( k ) D n ( k ) } 2
    Figure DE112016006218T5_0004
  • Ein Betrag der Veränderung in einem Kopplungskoeffizienten wird unter Verwendung des Lernfehlers E als eine Bewertungsfunktion durch zum Beispiel ein Rückausbreitungsverfahren berechnet. Bis der Lernfehler E ausreichend klein wird, wird jeder Kopplungskoeffizient in dem neuronalen Netzwerk aktualisiert.
  • Es ist zu beachten, dass die Ausgabevorrichtung des Überwachungssignals 8, der zweite Signalgewichtungsprozessor 9, die zweite Fourier-Transformationsvorrichtung 10 und die Fehlerauswertungsvorrichtung 11, vorstehend beschrieben, nur zur Zeit des Netzwerklernens des Prozessors des neuronalen Netzwerks 4 operiert werden, das heißt, nur wenn Kopplungskoeffizienten anfänglich optimiert werden. Alternativ können Kopplungskoeffizienten des neuronalen Netzwerks durch Durchführen von sequenziellen oder Vollzeitoperationen, während überwachende Daten in Abhängigkeit vom Zustand des eingegebenen Signals verändert werden, optimiert werden.
  • Selbst wenn sich der Zustand des eingegebenen Signals aufgrund von zum Beispiel einer Veränderung des Typs oder der Größenordnung von Geräuschen, die in dem eingegebenen Signal enthalten sind, verändert, ist es möglich, Verbesserungsverarbeitung durchzuführen, die imstande ist, der Veränderung des Zustands des eingegebenen Signals durch Durchführen von sequenzieller oder Vollzeitoperation der Ausgabevorrichtung des Überwachungssignals 8, des zweiten Signalgewichtungsprozessors 9, der zweiten Fourier-Transformationsvorrichtung 10 und der Fehlerauswertungsvorrichtung 11 unverzüglich zu folgen. Diese Konfiguration ist imstande, die Schallsignal-Verbesserungsvorrichtung mit höherer Qualität bereitzustellen.
  • Die 2A bis 2D zeigen beispielhafte Diagramme von ausgegebenen Signalen der Schallsignal-Verbesserungsvorrichtung gemäß Ausführungsform 1. 2A repräsentiert ein Spektrum eines Sprachsignals, das ein Zielsignal ist. 2B repräsentiert ein Spektrum eines eingegebenen Signals, in dem Straßengeräusche zusammen mit dem Zielsignal enthalten sind. 2C repräsentiert ein Spektrum eines ausgegebenen Signals, erlangt durch einen Verbesserungsprozess mit einem herkömmlichen Verfahren. 2D repräsentiert ein Spektrum eines ausgegebenen Signals, erlangt durch einen durch die Schallsignal-Verbesserungsvorrichtung gemäß der Ausführungsform 1 durchgeführten Verbesserungsprozess. Jede der 2C und 2D gibt ein laufendes Spektrum eines angehobenen Leistungsspektrums Sn(k) an.
  • In jeder der Figuren repräsentiert eine vertikale Achse Frequenzen (die Frequenz steigt nach oben an) und repräsentiert eine horizontale Achse die Zeit. Außerdem gibt in jeder der Figuren der weiße Teil eine große Leistung eines Spektrums an und nimmt die Leistung des Spektrums ab, wenn die Farbe dunkler wird. Es ist ersichtlich, dass das Spektrum von hohen Frequenzen in dem Sprachsignal in einem herkömmlichen Verfahren gedämpft wird, dargestellt in FIG. 2C, während das Spektrum von hohen Frequenzen eines Sprachsignals in dem Verfahren gemäß der vorliegenden Ausführungsform in 2D nicht gedämpft, sondern angehoben wird. Die Wirkung der vorliegenden Erfindung kann bestätigt werden.
  • Als nächsten wird die Operation jedes der Elemente in der Schallsignal-Verbesserungsvorrichtung unter Bezugnahme auf das Ablaufdiagramm von 3 beschrieben.
  • Der Signaleingabeteil 1 liest ein Schallsignal bei im Voraus bestimmten Rahmenintervallen (Schritt ST1A) und gibt es an den ersten Signalgewichtungsprozessor 2 als ein eingegebenes Signal xn(t) als ein Signal in der Zeitdomäne aus. Wenn die Abtastzahl t kleiner ist als ein im Voraus bestimmter Wert T (JA in Schritt ST1B), wird die Verarbeitung von Schritt ST1A wiederholt, bis T = 80 erreicht wird.
  • Der erste Signalgewichtungsprozessor 2 führt Gewichtungsverarbeitung durch die Formantbetonung an einem Teil des eingegebenen Signals xn(t), das das Merkmal eines Zielsignals, enthalten in diesem eingegebenen Signal, gut repräsentiert, durch.
  • Die Formantbetonung wird gemäß dem folgenden Prozess sequenziell durchgeführt. Zuerst wird Hanning-Fensterung an dem eingegebenen Signal xn(t) durchgeführt (Schritt ST2A). Ein Autokorrelationskoeffizient des Hanning-Fensterung-Eingabesignals wird berechnet (Schritt ST2B) und ein Banderweiterungsprozess wird durchgeführt (Schritt ST2C). Anschließend wird ein linearer Vorhersagekoeffizient zwölfter Ordnung durch das Levinson-Durbin-Verfahren berechnet (Schritt ST2D) und wird ein Formantbetonungskoeffizient aus dem linearen Vorhersagekoeffizienten berechnet (Schritt ST2E). Danach wird ein Filterungsprozess mit einem kombinierten Filter des ARMA-Typs durchgeführt, der den berechneten Formantbetonungskoeffizienten verwendet (Schritt ST2F).
  • Die erste Fourier-Transformationsvorrichtung 3 führt zum Beispiel Hanning-Fensterung an dem eingegebenen Signal xw_n(t), gewichtet durch den ersten Signalgewichtungsprozess 2, durch (Schritt ST3A). Die erste Fourier-Transformationsvorrichtung 3 führt die schnelle Fourier-Transformation unter Verwendung von zum Beispiel 256 Punkten durch die vorstehende mathematische Gleichung (1) durch, um das Zeitdomänensignal xw_n(t) in ein Signal xw_n(k) einer spektralen Komponente zu transformieren (Schritt ST3V). Wenn die Spektrumszahl k kleiner ist als ein im Voraus bestimmter Wert N (JA in Schritt ST3C), wird die Verarbeitung in Schritt ST3B wiederholt, bis der im Voraus bestimmte Wert N erreicht wird.
  • Anschließend berechnet die schnelle Fourier-Transformationsvorrichtung 3 ein Leistungsspektrum Yn(k) und ein Phasenspektrum Pn(k) aus der spektralen Komponente Xw_n(k) des eingegebenen Signals unter Verwendung der vorstehenden mathematischen Gleichungen (2) (Schritt ST3D). Das Leistungsspektrum Yn(k) wird an den Prozessor des neuronalen Netzwerks 4 ausgegeben, der nachstehend beschrieben werden wird. Das Phasenspektrum Pn(k) wird an die inverse Fourier-Transformationsvorrichtung 5 ausgegeben, die nachstehend beschrieben werden wird. Der vorstehende Prozess der Berechnung des Leistungsspektrums und des Phasenspektrums in Schritt ST3D wird wiederholt, bis M = 128 erreicht wird, während die Spektrumszahl k kleiner ist als der im Voraus bestimmte Wert M (JA in Schritt ST3E).
  • Der Prozessor des neuronalen Netzwerks 4 weist M Eingangspunkte (oder -knoten) korrespondierend mit dem vorstehend beschriebenen Leistungsspektrum Yn(k) auf, und 128 Leistungsspektren Yn(k) werden in das neuronale Netzwerk eingegeben (Schritt ST4A). In dem Leistungsspektrum Yn(k) wird das Zielsignal durch Netzwerkverarbeitung basierend auf einem Kopplungskoeffizienten, der im Voraus gelernt wurde, angehoben (Schritt ST4B). Ein angehobenes Leistungsspektrum Sn(k) wird ausgegeben.
  • Die inverse Fourier-Transformationsvorrichtung 5 führt inverse Fourier-Transformation unter Verwendung des von dem Prozessor des neuronalen Netzwerks 4 ausgegebenen angehobenen Leistungsspektrum Sn(k) und des von der ersten Fourier-Transformationsvorrichtung 3 ausgegebenen Phasenspektrums Pn(k) durch (Schritt ST5A). Die inverse Fourier-Transformationsvorrichtung 5 führt einen Überlagerungsprozess an einem Ergebnis der inversen Fourier-Transformation mit einem Ergebnis eines vorherigen Rahmens, gespeichert in einem internen Speicher für primäre Speicherung wie ein RAM, durch (Schritt ST5B) und gibt ein gewichtetes Verbesserungssignal sw_n(t) an das inverse Filter 6 aus.
  • Das inverse Filter 6 führt, unter Verwendung des von dem ersten Signalgewichtungsprozessor 2 ausgegebenen Gewichtungskoeffizienten wn(j), eine zu der des ersten Signalgewichtungsprozessor 2 umgekehrte Operation, das heißt einen Filterungsprozess zum Aufheben der Gewichtung, an dem gewichteten Verbesserungssignal sw_n(t) durch (Schritt ST6) und gibt ein Verbesserungssignal sn(t) aus.
  • Der Signalausgabeteil 7 gibt das Verbesserungssignal sn(t) extern aus (Schritt ST7A). Wenn der Schallsignal-Verbesserungsprozess nach Schritt ST7A (JA in Schritt ST7B) fortgesetzt wird, kehrt die Verarbeitungsprozedur zu Schritt ST1A zurück. Wenn dagegen der Schallsignal-Verbesserungsprozess nicht fortgesetzt wird (NEIN in Schritt ST7B), wird der Schallsignal-Verbesserungsprozess beendet.
  • Als nächstes wird ein Beispiel der Operation des Lernens eines neuronalen Netzwerks während des vorstehenden Schallsignal-Verbesserungsprozesses unter Bezugnahme auf 4 beschrieben. 4 zeigt ein Ablaufdiagramm, das ein Beispiel der Prozedur des Lernens des neuronalen Netzwerks der Ausführungsform 1 darstellt.
  • Die Ausgabevorrichtung des Überwachungssignals 8 hält große Mengen von Signaldaten zum Lernen von Kopplungskoeffizienten in dem Prozessor des neuronalen Netzwerks 4, gibt das Überwachungssignal dn(t) zur Zeit des Lernens aus und gibt ein eingegebenes Signal an den ersten Signalgewichtungsprozessor 2 aus (Schritt ST8). In der vorliegenden Ausführungsform wird angenommen, dass das Zielsignal Sprachschall ist, das Überwachungssignal ein Sprachsignal ist, das keine Geräusche enthält, und das eingegebene Signal ein Sprachsignal ist, das Geräusche enthält.
  • Der zweite Signalgewichtungsprozessor 9 führt einen Gewichtungsprozess ähnlich dem durch den ersten Signalgewichtungsprozessor 2 durchgeführten an dem Überwachungssignal dn(t) durch (Schritt ST9) und gibt ein gewichtetes Überwachungssignal dw_n(t) aus.
  • Die zweite Fourier-Transformationsvorrichtung 10 führt einen schnellen Fourier-Transformationsprozess ähnlich dem durch die erste Fourier-Transformationsvorrichtung 3 durchgeführten durch (Schritt ST10) und gibt ein Leistungsspektrum Dn(k) des Überwachungssignals aus.
  • Die Fehlerauswertungsvorrichtung 11 berechnet den Lernfehler E durch die vorstehende mathematische Gleichung (3) unter Verwendung des von dem Prozessor des neuronalen Netzwerks 4 ausgegebenen angehobenen Leistungsspektrums Sn(k) und dem von der zweiten Fourier-Transformationsvorrichtung 10 ausgegebenen Leistungsspektrum Dn(k) des Überwachungssignals (Schritt ST11A). Ein Betrag der Veränderung eines Kopplungskoeffizienten wird unter Verwendung des berechneten Lernfehlers E als eine Bewertungsfunktion durch zum Beispiel ein Rückausbreitungsverfahren berechnet (Schritt ST11B). Der Betrag der Veränderung des Kopplungskoeffizienten wird an den Prozessor des neuronalen Netzwerks 4 ausgegeben (Schritt ST11C). Die Lernfehlerbewertung wird durchgeführt, bis der Lernfehler E kleiner als ein oder gleich einem im Voraus bestimmten Schwellenwert Eth wird. Spezifisch werden, wenn der Lernfehler E größer ist als der Schwellenwert Eth (JA in Schritt ST11D), die Lernfehlerbewertung (Schritt ST11A) und die Neuberechnung des Kopplungskoeffizienten (Schritt ST11B) durchgeführt, und das Neuberechnungsergebnis wird an den Prozessor des neuronalen Netzwerks 4 ausgegeben (Schritt ST11C). Eine derartige Verarbeitung wird wiederholt, bis der Lernfehler E kleiner als der oder gleich dem im Voraus bestimmten Schwellenwert Eth wird (NEIN in Schritt ST11D).
  • Es ist zu beachten, dass die Prozedur des Lernens des neuronalen Netzwerks in der vorstehenden Beschreibung als die Schritte ST8 bis ST11 als Schrittnummern folgend auf die Prozedur des Schallsignal-Verbesserungsprozesses der Schritte ST1 bis ST7 bezeichnet wird. Im Allgemeinen werden die Schritte ST8 bis ST11 jedoch von der Ausführung der Schritte ST1 bis ST7 ausgeführt. Alternativ können, wie nachstehend beschrieben werden wird, die Schritte ST1 bis ST7 und die Schritte ST8 bis ST11 gleichzeitig parallel ausgeführt werden.
  • Eine Hardwarestruktur der Schallsignal-Verbesserungsvorrichtung kann durch einen Computer implementiert werden, der eine Zentralverarbeitungseinheit (CPU) inkorporiert, wie eine Arbeitsstation, ein Großcomputer, ein Personal-Computer oder ein Mikrocomputer zur Inkorporation in einer Vorrichtung. Alternativ kann eine Hardwarestruktur der Schallsignal-Verbesserungsvorrichtung durch eine hochintegrierte Schaltung (LSI) wie ein Digitalsignalprozessor (DSP), eine anwendungsspezifische integrierte Schaltung (ASIC) oder eine feldprogrammierbare Gatteranordnung (FPGA) implementiert werden.
  • 5 zeigt ein Blockdiagramm, das ein Beispiel einer Hardwarestruktur der Schallsignal-Verbesserungsvorrichtung 100 darstellt, hergestellt unter Verwendung einer LSI wie ein DSP, eine ASIC oder eine FPGA. In dem Beispiel von 5 enthält die Schallsignal-Verbesserungsvorrichtung 100 Signaleingabe-/-ausgabeschaltungen 102, Signalverarbeitungsschaltungen 103, ein Aufzeichnungsmedium 104 und einen Signalweg 105 wie einen Datenbus. Die Signaleingabe-/-ausgabeschaltungen 102 sind eine Schnittstellenschaltung, die eine Verbindungsfunktion mit einem Schallwandler 101 und einer externen Vorrichtung 106 implementiert. Als Schallwandler 101 kann eine Vorrichtung verwendet werden, die Schallvibrationen eines Mikrofons, eines Vibrationssensors oder dergleichen erfasst und die Vibrationen in ein elektrisches Signal umwandelt.
  • Die jeweiligen Funktionen des ersten Signalgewichtungsprozessors 2, der ersten Fourier-Transformationsvorrichtung 3, des Prozessors des neuronalen Netzwerks 4, der inversen Fourier-Transformationsvorrichtung 5, des inversen Filters 6, des Computers des Überwachungssignals 8, des zweiten Signalgewichtungsprozessors 9, der zweiten Fourier-Transformationsvorrichtung 10 und der Fehlerauswertungsvorrichtung 11, dargestellt in 1, können durch die Signalverarbeitungsschaltungen 103 und das Aufzeichnungsmedium 104 implementiert werden. Der Signaleingabeteil 1 und der Signalausgabeteil 7 in 1 korrespondieren mit den Signaleingabe-/-ausgabeschaltungen 102.
  • Das Aufzeichnungsmedium 104 wird zum Akkumulieren verschiedener Daten wie verschiedene Einstellungsdaten der Signalverarbeitungsschaltungen 103 oder Signaldaten verwendet. Als das Aufzeichnungsmedium 104 kann zum Beispiel ein flüchtiger Speicher wie ein synchroner DRAM (SDRAM), ein nichtflüchtiger Speicher wie ein Festplattenlaufwerk (HDD) oder ein Festkörperlaufwerk (SSD) verwendet werden, und ein anfänglicher Zustand jedes Kopplungskoeffizienten des neuronalen Netzwerks, verschiedene Einstellungsdaten und überwachende Signaldaten können darin gespeichert werden.
  • Das Schallsignal, das dem Verbesserungsprozess durch die Signalverarbeitungsschaltungen 103 unterzogen wird, wird über die Signaleingabe-/-ausgabeschaltungen 102 hin zu der externen Vorrichtung 106 gesandt. Verschiedene Sprachschallverarbeitungsvorrichtungen wie eine Sprachcodierungsvorrichtung, eine Spracherkennungsvorrichtung, eine Sprachakkumulationsvorrichtung, eine Vorrichtung für Freisprechkommunikation, eine Vorrichtung zum Detektieren anomalen Schalls können als die externe Vorrichtung 106 verwendet werden. Des Weiteren ist es ebenfalls möglich, als eine Funktion der externen Vorrichtung 106, das Schallsignal, das dem Verbesserungsprozess unterzogen wird, durch eine Verstärkungsvorrichtung zu verstärken und das Schallsignal als eine Schallwellenform durch einen Lautsprecher oder andere Vorrichtungen direkt auszugeben. Es ist zu beachten, dass die Schallsignal-Verbesserungsvorrichtung der vorliegenden Ausführungsform durch einen DSP oder dergleichen zusammen mit anderen Vorrichtungen implementiert werden kann, wie vorstehend beschrieben.
  • 6 zeigt ein Blockdiagramm, das ein Beispiel einer Hardwarestruktur der Schallsignal-Verbesserungsvorrichtung 100 darstellt, hergestellt unter Verwendung einer Operationsvorrichtung wie ein Computer. In dem Beispiel von 6 enthält die Schallsignal-Verbesserungsvorrichtung 100 Signaleingabe-/-ausgabeschaltungen 201, einen Prozessor 200, der eine CPU 202 inkorporiert, einen Speicher 203, ein Aufzeichnungsmedium 204 und einen Signalweg 205 wie einen Bus. Die Signaleingabe-/-ausgabeschaltungen 201 sind eine Schnittstellenschaltung, die die Verbindungsfunktion mit dem Schallwandler 101 und der externen Vorrichtung 106 implementiert.
  • Der Speicher 203 ist ein Speicherungsmittel wie ein ROM oder ein RAM, die als ein Programmspeicher zum Speichern verschiedener Programme zum Implementieren des Schallsignal-Verbesserungsprozesses der vorliegenden Ausführungsform, ein durch den Prozessor zum Durchführen von Datenverarbeitung verwendeter Arbeitsspeicher, ein Speicher zum Entwickeln von Signaldaten oder dergleichen verwendet werden.
  • Die jeweiligen Funktionen des ersten Signalgewichtungsprozessors 2, der ersten Fourier-Transformationsvorrichtung 3, des Prozessors des neuronalen Netzwerks 4, der inversen Fourier-Transformationsvorrichtung 5, des inversen Filters 6, des Computers des Überwachungssignals 8, des zweiten Signalgewichtungsprozessors 9, der zweiten Fourier-Transformationsvorrichtung 10 und der Fehlerauswertungsvorrichtung 11 können durch den Prozessor 200 und das Aufzeichnungsmedium 204 implementiert werden. Der Signaleingabeteil 1 und der Signalausgabeteil 7 in 1 korrespondieren mit den Signaleingabe-/-ausgabeschaltungen 201.
  • Das Aufzeichnungsmedium 204 wird zum Akkumulieren verschiedener Daten wie verschiedene Einstellungsdaten des Prozessors 200 und Signaldaten verwendet. Als das Aufzeichnungsmedium 204 kann zum Beispiel ein flüchtiger Speicher wie ein SDRAM, ein HDD oder ein SSD verwendet werden. Programm einschließlich eines Betriebssystems (OS), verschiedene Daten wie verschiedene Einstellungsdaten und Schalldaten können akkumuliert werden. Es ist zu beachten, dass Daten in dem Speicher 203 ebenfalls in dem Aufzeichnungsmedium 204 gespeichert werden können.
  • Der Prozessor 200 kann Signalverarbeitung ähnlich der des ersten Signalgewichtungsprozessors 2, der ersten Fourier-Transformationsvorrichtung 3, des Prozessors des neuronalen Netzwerks 4, der inversen Fourier-Transformationsvorrichtung 5, des inversen Filters 6, des Computers des Überwachungssignals 8, des zweiten Signalgewichtungsprozessors 9, der zweiten Fourier-Transformationsvorrichtung 10 und der Fehlerauswertungsvorrichtung 11 unter Verwendung des RAM in dem Speicher 203 als einen Arbeitsspeicher und Operieren gemäß einem aus dem ROM in dem Speicher 203 gelesenen Computerprogramm ausführen.
  • Das Schallsignal, das dem Verbesserungsprozess unterzogen wird, wird über die Signaleingabe-/-ausgabeschaltungen 201 hin zu der externen Vorrichtung 106 gesandt. Verschiedene Sprachschall-Verarbeitungsvorrichtungen korrespondieren mit der externen Vorrichtung wie zum Beispiel eine Sprachcodierungsvorrichtung, eine Spracherkennungsvorrichtung, eine Sprachakkumulationsvorrichtung, eine Vorrichtung für Freisprechkommunikation, eine Vorrichtung zum Detektieren von anomalem Schall. Des Weiteren ist es ebenfalls möglich, als eine Funktion der externen Vorrichtung 106 zu implementieren, das dem Verbesserungsprozess unterzogene Schallsignal durch eine Verstärkungsvorrichtung zu verstärken und das Schallsignal als eine Schallwellenform durch einen Lautsprecher oder andere Vorrichtungen direkt auszugeben. Es ist zu beachten, dass die Schallsignal-Verbesserungsvorrichtung der vorliegenden Ausführungsform durch Ausführung als ein Softwareprogramm zusammen mit anderen Vorrichtungen implementiert werden kann, wie vorstehend beschrieben.
  • Ein Programm zum Ausführen der Schallsignal-Verbesserungsvorrichtung der vorliegenden Ausführungsform kann in einer Speichervorrichtung in einem Computer zum Ausführen des Softwareprogramms gespeichert werden oder kann durch ein Speichermedium wie eine CD-ROM verteilt werden. Alternativ ist es möglich, das Programm von einem anderen Computer über ein drahtloses oder drahtgebundenes Netzwerk wie ein lokales Bereichsnetzwerk (LAN) zu erfassen. Des Weiteren können hinsichtlich des Schallwandlers 101 und der externen Vorrichtung 106, verbunden mit der Schallsignal-Verbesserungsvorrichtung 100 der vorliegenden Ausführungsform, verschiedene Daten über ein drahtloses oder ein drahtgebundenes Netzwerk übertragen und empfangen werden.
  • Die Schallsignal-Verbesserungsvorrichtung der Ausführungsform 1 ist konfiguriert, wie vorstehend beschrieben. Das heißt, vor dem Lernen eines neuronalen Netzwerks wird ein Teil von Sprachschall als ein Zielsignal, der ein wichtiges Merkmal angibt, angehoben. Daher ist es möglich, das neuronale Netzwerk wirksam zu lernen, selbst wenn die Menge von Zieldaten, die als überwachende Daten dienen, klein ist, wodurch die Bereitstellung der Schallsignal-Verbesserungsvorrichtung hoher Qualität zu ermöglichen. Außerdem wird für andere Geräusche als das Zielsignal (Störungsgeräusche) eine Wirkung ähnlich der in dem Fall des Zielsignals (in diesem Fall Funktionen zum Reduzieren der Geräusche) erhalten. Daher ist es möglich, wirksam zu lernen, selbst wenn Eingabesignaldaten, die Geräusche mit niedriger Vorkommensfrequenz enthalten, nicht ausreichend erstellt werden können, dadurch kann eine Schallsignal-Verbesserungsvorrichtung hoher Qualität bereitgestellt werden.
  • Des Weiteren ist es gemäß Ausführungsform 1 möglich, da überwachende Daten in Abhängigkeit von einem Modus des Eingabesignals für sequenzielle oder konstante Operation geändert werden können, die Kopplungskoeffizienten des neuronalen Netzwerks sequenziell zu optimieren. Daher kann, selbst wenn sich der Typ des Eingabesignals verändert, zum Beispiel, wenn sich der Typ oder die Größenordnung von in dem Eingabesignal enthaltenen Geräusche verändert, eine Schallsignal-Verbesserungsvorrichtung bereitgestellt werden, die imstande ist, der Veränderung in dem Eingabesignal unverzüglich zu folgen.
  • Wie vorstehend beschrieben, enthält die Schallsignal-Verbesserungsvorrichtung der Ausführungsform 1: einen ersten Signalgewichtungsprozessor, konfiguriert zum Durchführen einer Gewichtung an einem Teil eines Eingabesignals, das ein Merkmal eines Zielsignals oder von Geräuschen repräsentiert, und konfiguriert zum Ausgeben eines gewichteten Signals, das Eingabesignal enthaltend des Zielsignal und die Geräusche; einen Prozessor eines neuronalen Netzwerks, konfiguriert zum Durchführen, an dem von dem ersten Signalgewichtungsprozessor ausgegebenen gewichteten Signal, von Verbesserung des Zielsignals unter Verwendung eines Kopplungskoeffizienten und konfiguriert zum Ausgeben eines Verbesserungssignals; ein inverses Filter, konfiguriert zum Aufheben der Gewichtung an der Merkmalsrepräsentation des Zielsignals oder der Geräusche in dem Verbesserungssignal; einen zweiten Signalgewichtungsprozessor, konfiguriert zum Durchführen einer Gewichtung an einem Teil eines Überwachungssignals, das ein Merkmal eines Zielsignals oder von Geräuschen repräsentiert, und konfiguriert zum Ausgeben eines gewichteten Signals, wobei das Überwachungssignal zum Lernen eines neuronalen Netzwerks verwendet wird; und eine Fehlerauswertungsvorrichtung, konfiguriert zum Berechnen eines Kopplungskoeffizienten, der einen Wert aufweist, der angibt, dass ein Lernfehler zwischen dem von dem zweiten Signalgewichtungsprozessor ausgegebenen gewichteten Signal und dem von dem Prozessor des neuronalen Netzwerks ausgegebenen Verbesserungssignal kleiner als ein oder gleich einem eingestellten Wert ist, und konfiguriert zum Ausgeben eines Ergebnisses der Berechnung als den Kopplungskoeffizienten. Daher ist es möglich, ein Verbesserungssignal hoher Qualität eines Schallsignals selbst dann zu erhalten, wenn die Menge von Lerndaten klein ist.
  • Des Weiteren enthält die Schallsignal-Verbesserungsvorrichtung der Ausführungsform 1: einen ersten Signalgewichtungsprozessor, konfiguriert zum Durchführen einer Gewichtung an einem Teil eines eingegebenen Signals, das ein Merkmal eines Zielsignals oder von Geräuschen repräsentiert, und konfiguriert zum Ausgeben eines gewichteten Signals, das eingegebene Signal enthaltend das Zielsignal und die Geräusche; eine erste Fourier-Transformationsvorrichtung, konfiguriert zum Transformieren, in ein Spektrum, des von dem ersten Signalgewichtungsprozessor ausgegebenen gewichteten Signals; einen Prozessor eines neuronalen Netzwerks, konfiguriert zum Durchführen, an dem Spektrum, von Verbesserung des Zielsignals unter Verwendung eines Kopplungskoeffizienten, und konfiguriert zum Ausgeben eines Verbesserungssignals; eine inverse Fourier-Transformationsvorrichtung, konfiguriert zum Transformieren des von dem Prozessor des neuronalen Netzwerks ausgegebenen Verbesserungssignals in ein Verbesserungssignal in einer Zeitdomäne; ein inverses Filter, konfiguriert zum Aufheben der Gewichtung an der Merkmalsrepräsentation des Zielsignals oder der Geräusche in dem von der inversen Fourier-Transformationsvorrichtung ausgegebenen Verbesserungssignal; einen zweiten Signalgewichtungsprozessor, konfiguriert zum Durchführen einer Gewichtung an einem Teil eines Überwachungssignals, das ein Merkmal eines Zielsignals oder von Geräuschen repräsentiert, und konfiguriert zum Ausgeben eines gewichteten Signals, wobei das Überwachungssignal zum Lernen eines neuronalen Netzwerks verwendet wird; und eine zweite Fourier-Transformationsvorrichtung, konfiguriert zum Transformieren des von dem zweiten Signalgewichtungsprozessor ausgegebenen gewichteten Signals in ein Spektrum; und eine Fehlerauswertungsvorrichtung, konfiguriert zum Berechnen eines Kopplungskoeffizienten, der einen Wert aufweist, der angibt, dass ein Lernfehler zwischen einem von der zweiten Fourier-Transformationsvorrichtung ausgegebenen Signal und dem von dem Prozessor des neuronalen Netzwerks ausgegebenen Verbesserungssignal kleiner als ein oder gleich einem eingestellten Wert ist, und konfiguriert zum Ausgeben eines Ergebnisses der Berechnung als den Kopplungskoeffizienten. Daher ist es möglich, wirksam selbst dann zu lernen, wenn die Menge von Zielsignalen, die als Überwachungssignale dienen, klein ist, und die Schallsignal-Verbesserungsvorrichtung hoher Qualität kann bereitgestellt werden. Außerdem wird für andere Geräusche als das Zielsignal (Störungsgeräusche) eine Wirkung ähnlich der in dem Fall des Zielsignals (in diesem Fall Funktionen zum Reduzieren der Geräusche) erhalten. Daher ist es möglich, selbst in einer Situation wirksam zu lernen, in der eingegebene Signaldaten, die Geräusche mit niedriger Vorkommensfrequenz enthalten, nicht ausreichend erstellt werden können, daher ist es möglich, eine Schallsignal-Verbesserungsvorrichtung hoher Qualität bereitzustellen.
  • (Ausführungsform 2)
  • In der vorstehenden Ausführungsform 1 wird der Gewichtungsprozess des eingegebenen Signals in der Zeitwellenformdomäne durchgeführt. Alternativ ist es möglich, den Gewichtungsprozess eines eingegebenen Signals in der Frequenzdomäne durchzuführen. Diese Konfiguration wird in Ausführungsform 2 beschrieben.
  • 7 zeigt eine interne Konfiguration einer Schallsignal-Verbesserungsvorrichtung gemäß der Ausführungsform 2. In 7 enthalten Konfigurationen, die von denen der in 1 dargestellten Schallsignal-Verbesserungsvorrichtung der Ausführungsform 1 verschieden sind, einen ersten Signalgewichtungsprozessor 12, ein inverses Filter 13 und einen zweiten Signalgewichtungsprozessor 14. Andere Konfigurationen sind ähnlich denen der Ausführungsform 1 und folglich wird das gleiche Symbol für korrespondierende Teile bereitgestellt und werden Beschreibungen davon ausgelassen.
  • Der erste Signalgewichtungsprozessor 12 ist ein Verarbeitungsteil, der ein von einer ersten Fourier-Transformationsvorrichtung 3 ausgegebenes Leistungsspektrum Yn(k) empfängt, in der Frequenzdomäne einen zu dem in dem ersten Signalgewichtungsprozessor 2 der vorstehenden Ausführungsform 1 äquivalenten Prozess durchführt und ein gewichtetes Frequenzspektrum Yw_n(k) ausgibt. Außerdem gibt der erste Signalgewichtungsprozessor 12 einen Frequenzgewichtungskoeffizienten Wn(k) aus, der für jede Frequenz eingestellt ist, das heißt, für jedes Leistungsspektrum.
  • Das inverse Filter 13 empfängt den durch den ersten Signalgewichtungsprozessor 12 ausgegebenen Frequenzgewichtungskoeffizienten Wn(k) und ein durch einen Prozessor des neuronalen Netzwerks 4 ausgegebenes angehobenes Leistungsspektrum Sn(k), führt in der Frequenzdomäne einen zu dem in dem inversen Filter 6 der vorstehenden Ausführungsform 1 äquivalenten Prozess durch und erlangt inverse Filterausgänge des angehobenen Leistungsspektrums Sn(k).
  • Der zweite Signalgewichtungsprozessor 14 empfängt ein Leistungsspektrum Dn(k) eines durch eine zweite Fourier-Transformationsvorrichtung 10 ausgegebenen Überwachungssignals und führt in der Frequenzdomäne einen zu dem in dem zweiten Signalgewichtungsprozessor 9 der vorstehenden Ausführungsform 1 äquivalenten Prozess durch und gibt ein gewichtetes Leistungsspektrum Dw_n(k) des Überwachungssignals aus.
  • In der Schallsignal-Verbesserungsvorrichtung gemäß der Ausführungsform 2, konfiguriert in der vorstehend beschriebenen Weise, gibt der Signaleingabeteil 1 das eingegebene Signal xn(t) der Zeitdomäne an die erste Fourier-Transformationsvorrichtung 3 aus. Die erste Fourier-Transformationsvorrichtung 3 führt den zu dem in der Ausführungsform 1 äquivalenten Prozess an einem eingegebenen Signal xn(t) durch und berechnet das Leistungsspektrum Yn(k) und ein Phasenspektrum Pn(k). Die erste Fourier-Transformationsvorrichtung 3 gibt das Leistungsspektrum Yn(k) an den ersten Signalgewichtungsprozessor 12 aus und gibt das Phasenspektrum Pn(k) an eine inverse Fourier-Transformationsvorrichtung 5 aus. Der erste Signalgewichtungsprozessor 12 empfängt das durch die erste Fourier-Transformationsvorrichtung 3 ausgegebene Leistungsspektrum Yn(k), führt in der Frequenzdomäne den zu dem in dem ersten Signalgewichtungsprozessor 2 der Ausführungsform 1 äquivalenten Prozess durch und gibt das gewichtete Leistungsspektrum Yw_n(k) und den Frequenzgewichtungskoeffizienten Wn(k) aus. Der Prozessor des neuronalen Netzwerks 4 hebt das Zielsignal aus dem gewichteten Leistungsspektrum Yw_n(k) an und gibt das angehobene Leistungsspektrum Sn(k) aus. Das inverse Filter 13 führt eine zu der in dem ersten Signalgewichtungsprozessor 2 umgekehrte Operation an dem angehobenen Leistungsspektrum Sn(k), das heißt, einen Filterungsprozess zum Aufheben der Gewichtung, unter Verwendung des von dem ersten Signalgewichtungsprozessor 12 ausgegebenen Frequenzgewichtungskoeffizienten wn(k) durch und gibt ein Ergebnis der Operation des inversen Filters an die inverse Fourier-Transformationsvorrichtung 5 aus. Die inverse Fourier-Transformationsvorrichtung 5 führt die inverse Fourier-Transformation unter Verwendung des von der ersten Fourier-Transformationsvorrichtung 3 ausgegebenen Phasenspektrums Pn(k) durch, führt einen Überlagerungsprozess an dem Ergebnis der Operation des inversen Filters mit einem Ergebnis eines in einem internen Speicher für primäre Speicherung wie ein RAM gespeicherten Rahmens durch und gibt ein Verbesserungssignal sn(t) an den Signalausgabeteil 7 aus.
  • Die Operation des Lernens des neuronalen Netzwerks der Ausführungsform 2 ist von der der Ausführungsform 1 insofern verschieden, dass, nachdem die Fourier-Transformation durch die zweite Fourier-Transformationsvorrichtung 10 an dem durch eine Ausgabevorrichtung des Überwachungssignals 8 ausgegebenen Überwachungssignal dn(t) durchgeführt wurde, die Gewichtung durch den zweiten Signalgewichtungsprozessor 14 durchgeführt wird. Das heißt, die zweite Fourier-Transformationsvorrichtung 10 führt an dem Überwachungssignal dn(t) einen schnellen Fourier-Transformationsprozess äquivalent zu dem in der ersten Fourier-Transformationsvorrichtung 3 durch und gibt ein Leistungsspektrum Dn(k) des Überwachungssignals aus. Der zweite Signalgewichtungsprozessor 14 führt an dem Leistungsspektrum Dn(k) des Überwachungssignals den Gewichtungsprozess äquivalent zu dem in dem ersten Signalgewichtungsprozessor 12 durch und gibt ein gewichtetes Leistungsspektrum Dw_n(k) des Überwachungssignals aus.
  • Die Fehlerauswertungsvorrichtung 11 berechnet einen Lernfehler E und berechnet Kopplungskoeffizienten neu, bis der Lernfehler E kleiner als ein oder gleich einem im Voraus bestimmten Schwellenwert Eth ähnlich der Ausführungsform 1 wird, unter Verwendung des von dem Prozessor des neuronalen Netzwerks 4 ausgegebenen angehobenen Leistungsspektrums Sn(k) und des von dem zweiten Signalgewichtungsprozessor 14 ausgegebenen gewichteten Leistungsspektrums Dw_n(k).
  • Wie vorstehend beschrieben, enthält die Schallsignal-Verbesserungsvorrichtung der Ausführungsform 2: eine erste Fourier-Transformationsvorrichtung, konfiguriert zum Transformieren, in ein Spektrum, eines eingegebenen Signals, das ein Zielsignal und Geräusche enthält; einen ersten Signalgewichtungsprozessor, konfiguriert zum Durchführen einer Gewichtung in der Frequenzdomäne an einem Teil des Spektrums, das ein Merkmal eines Zielsignals oder von Geräuschen repräsentiert, und konfiguriert zum Ausgeben eines gewichteten Signals an einen Prozessor eines neuronalen Netzwerks, konfiguriert zum Durchführen, an dem von dem ersten Signalgewichtungsprozessor ausgegebenen gewichteten Signal, einer Verbesserung des Zielsignals unter Verwendung eines Kopplungskoeffizienten und konfiguriert zum Ausgeben eines Verbesserungssignals; ein inverses Filter, konfiguriert zum Aufheben der Gewichtung an der Merkmalsrepräsentation des Zielsignals oder der Geräusche in dem Verbesserungssignal; eine inverse Fourier-Transformationsvorrichtung, konfiguriert zum Transformieren eines von dem inversen Filter ausgegebenen Signals in ein Verbesserungssignal in einer Zeitdomäne; eine zweite Fourier-Transformationsvorrichtung, konfiguriert zum Transformieren eines Überwachungssignals in ein Spektrum, wobei das Überwachungssignal zum Lernen eines neuronalen Netzwerks verwendet wird; einen zweiten Signalgewichtungsprozessor, konfiguriert zum Durchführen einer Gewichtung an einem Teil eines von der zweiten Fourier-Transformationsvorrichtung ausgegebenen Signals, das ein Merkmal eines Zielsignals oder von Geräuschen repräsentiert, und konfiguriert zum Ausgeben eines gewichteten Signals; und eine Fehlerauswertungsvorrichtung, konfiguriert zum Berechnen eines Kopplungskoeffizienten, der einen Wert aufweist, der angibt, dass ein Lernfehler zwischen dem von der zweiten Fourier-Transformationsvorrichtung ausgegebenen gewichteten Signal und dem von dem Prozessor des neuronalen Netzwerks ausgegebenen Verbesserungssignal kleiner als ein oder gleich einem eingestellten Wert ist, und konfiguriert zum Ausgeben eines Ergebnisses der Berechnung als den Kopplungskoeffizienten. Daher ist zusätzlich zu der Wirkung der Ausführungsform 1 eine präzisere Gewichtung möglich, da es möglich ist, eine Gewichtung für jede Frequenz fein einzustellen und eine Vielzahl von Teilen des Gewichtungsprozesses zu einer Zeit in der Frequenzdomäne durch Gewichten des eingegebenen Signals in der Frequenzdomäne durchzuführen, wodurch Bereitstellung einer Schallsignal-Verbesserungsvorrichtung einer noch höheren Qualität ermöglicht wird.
  • (Ausführungsform 3)
  • In den vorstehenden Ausführungsformen 1 und 2, die oben beschrieben werden, wird ein Leistungsspektrum, das ein Signal in der Frequenzdomäne ist, in den Prozessor des neuronalen Netzwerks 4 eingegeben und von dort ausgegeben. Alternativ ist es möglich, ein Zeitwellenformsignal einzugeben. Diese Konfiguration wird als Ausführungsform 3 beschrieben werden.
  • 8 zeigt eine interne Konfiguration einer Schallsignal-Verbesserungsvorrichtung gemäß der vorliegenden Ausführungsform. In 8 ist eine Operation einer Fehlerauswertungsvorrichtung 15 von der in 1 verschieden. Andere Konfigurationen sind ähnlich denen in 1 und folglich werden die gleichen Symbole für korrespondierende Teile bereitgestellt und die Beschreibungen davon ausgelassen.
  • Ein Prozessor eines neuronalen Netzwerks 4 empfängt ein gewichtetes eingegebenes Signal xw_n(t), ausgegeben von dem ersten Signalgewichtungsprozessor 2, und gibt, ähnlich dem Prozessor des neuronalen Netzwerks 4 der vorstehenden Ausführungsform 1, Verbesserungssignale sn(t), in denen ein Zielsignal angehoben ist, aus.
  • Die Fehlerauswertungsvorrichtung 15 berechnet einen Lernfehler Et durch die folgende mathematische Gleichung (4) unter Verwendung der von dem Prozessor des neuronalen Netzwerks 4 ausgegebenen Verbesserungssignale sn(t) und eines durch einen zweiten Signalgewichtungsprozessor 9 ausgegebenen gewichteten Überwachungssignals dw_n(t). Die Fehlerauswertungsvorrichtung 15 berechnet einen Kopplungskoeffizienten und gibt diesen an den Prozessor des neuronalen Netzwerks 4 aus. E t = t = 0 T 1 { s n ( t ) d w _ n ( t ) } 2
    Figure DE112016006218T5_0005
    • T ist die Anzahl von Abtastungen in einem Zeitrahmen und T = 80.
    • Da andere Operationen ähnlich denen der Ausführungsform 1 sind, werden Beschreibungen hier folglich ausgelassen.
  • Wie vorstehend beschrieben, sind das eingegebene Signal und das Überwachungssignal in der Schallsignal-Verbesserungsvorrichtung der Ausführungsform 3 Zeitwellenformsignale. Dementsprechend sind, indem die Zeitwellenformsignale direkt in das neuronale Netzwerk eingegeben werden, die Prozesse der Fourier-Transformation und der inversen Fourier-Transformation nicht erforderlich, wodurch eine Wirkung erreicht wird, dass ein Verarbeitungsaufwand und ein Speicheraufwand reduziert werden können.
  • Es ist zu beachten, dass, obwohl das neuronale Netzwerk in den vorstehenden Ausführungsformen 1 bis 3 eine Struktur von vier Schichten aufweist, die vorliegende Erfindung nicht darauf beschränkt ist. Es versteht sich von selbst, dass ein neuronales Netzwerk mit einer tieferen Struktur von fünf oder mehr Schichten verwendet werden kann. Alternativ kann ein bekannter abgeleiteter verbesserter Typ eines neuronalen Netzwerks wie ein rekurrentes neuronales Netzwerk (RNN) zum Zurücksenden eines ausgegebenen Signals an einen Eingang davon oder ein Lang-Kurzfrist-Speicher- bzw. LSTM-RNN, das ein RNN mit einer verbesserten Struktur von Kopplungselementen ist, verwendet werden.
  • Des Weiteren werden in den vorstehenden Ausführungsformen 1 und 2 Frequenzkomponenten eines Leistungsspektrums, ausgegeben durch die erste Fourier-Transformationsvorrichtung 3, in den Prozessor des neuronalen Netzwerks 4 eingegeben. Alternativ ist es möglich, Frequenzkomponenten des Leistungsspektrums für jede spezifische Bandbreite kollektiv einzugeben. Die spezifische Bandbreite kann zum Beispiel eine kritische Bandbreite sein. Das heißt, dass ein Bark-Spektrum, das mit der so genannten Bark-Skala bandaufgeteilt ist, in das neuronale Netzwerk eingegeben wird. Durch Eingeben des Bark-Spektrums wird es möglich, menschliche auditive Merkmale zu simulieren, und die Anzahl von Knoten eines neuronalen Netzwerks kann reduziert wird, und folglich können der für die Operation des neuronalen Netzwerks erforderliche Verarbeitungsaufwand und Speicheraufwand reduziert werden. Alternativ können ähnliche Wirkungen unter Verwendung der Mel-Skala, als ein anderes Beispiel als das Bark-Spektrum, erlangt werden.
  • Des Weiteren ist die vorliegende Erfindung, obwohl in jeder der vorstehenden Ausführungsformen Straßengeräusche als ein Beispiel von Geräuschen und Sprache als ein Beispiel des Zielsignals beschrieben wurden, nicht darauf beschränkt. Die vorliegende Erfindung kann zum Beispiel auf die Fahrgeräusche eines Kraftfahrzeugs oder einer Eisenbahn, Flugzeuggeräusche, Hubbetriebsgeräusche eines Fahrstuhls, Maschinengeräusche in einem Werk, einschließlich von Geräuschen, in denen eine große Menge von menschlicher Stimme enthalten ist, wie die in einer Ausstellungshalle oder an anderen Orten, Geräusche des Lebens in einem allgemeinen Haushalt, Schallechos, erzeugt aus dem empfangenen Schall zur Zeit der Freisprech-Kommunikation, angewandt werden. Die in den jeweiligen Ausführungsformen beschriebenen Wirkungen werden ebenfalls für diese Arten von Geräuschen und Zielsignalen in ähnlicher Weise ausgeübt.
  • Obwohl angenommen wurde, dass die Frequenzbandbreite des eingegebenen Signals 4 kHz ist, ist die vorliegende Erfindung des Weiteren nicht darauf beschränkt. Die vorliegende Erfindung kann zum Beispiel auf Sprachsignale eines Breitbands, einer Ultraschallwelle mit einer Frequenz höher als oder gleich 20 kHz, die nicht von einer Person gehört werden kann, und ein Niederfrequenzsignal mit einer Frequenz niedriger als oder gleich 50 Hz angewandt werden.
  • Anders als das Vorstehende kann die vorliegende Erfindung eine Abwandlung jeder beliebigen Komponente der jeweiligen Ausführungsformen oder ein Weglassen jeder beliebigen Komponente in den jeweiligen Ausführungsformen im Schutzumfang der vorliegenden Erfindung enthalten.
  • Wie vorstehend beschrieben, ist eine Schallsignal-Verbesserungsvorrichtung gemäß der vorliegenden Erfindung imstande zu Signalverbesserung hoher Qualität (oder Geräuschunterdrückung oder Schallechoreduktion) und folglich geeignet zur Verwendung bei der Verbesserung der Schallqualität von Spracherkennungssystemen wie Fahrzeugnavigation, Mobiltelefone und Sprechanlagen, Freisprech-Kommunikationssysteme, TV-Konferenzsysteme und Überwachungssysteme, in die eines von Sprachkommunikation, Sprachakkumulation, ein Spracherkennungssystem eingeführt wird, Verbesserung der Erkennungsrate von Spracherkennungssystemen und Verbesserung der Detektionsrate von anomalem Schall von automatischen Überwachungssystemen.
  • Bezugszeichenliste
  • 1: Signaleingabevorrichtung; 2 und 12: erster Signalgewichtungsprozessor; 3: erste Fourier-Transformationsvorrichtung; 4: Prozessor des neuronalen Netzwerks; 5: inverse Fourier-Transformationsvorrichtung; 6: inverses Filter; 7: Signalausgabevorrichtung; 8: Ausgabevorrichtung des Überwachungssignals; 9 und 14: zweiter Signalgewichtungsprozessor; 10: zweite Fourier-Transformationsvorrichtung; 11 und 15: Fehlerauswertungsvorrichtung; 13: inverses Filter
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • JP 5232986 A [0005]

Claims (4)

  1. Schallsignal-Verbesserungsvorrichtung, umfassend: einen ersten Signalgewichtungsprozessor (2; 12), konfiguriert zum Durchführen einer Gewichtung an einem Teil eines eingegebenen Signals, der ein Merkmal eines Zielsignals oder von Geräuschen repräsentiert, und konfiguriert zum Ausgeben eines gewichteten Signals, wobei das eingegebene Signal das Zielsignal und die Geräusche enthält; einen Prozessor eines neuronalen Netzwerks (4), konfiguriert zum Durchführen, an dem von dem ersten Signalgewichtungsprozessor (2; 12) ausgegebenen gewichteten Signal, von Verbesserung des Zielsignals unter Verwendung eines Kopplungskoeffizienten und konfiguriert zum Ausgeben eines Verbesserungssignals; ein inverses Filter (6; 13), konfiguriert zum Aufheben der Gewichtung an der Merkmalsrepräsentation des Zielsignals oder der Geräusche in dem Verbesserungssignal; einen zweiten Signalgewichtungsprozessor (9; 14), konfiguriert zum Durchführen einer Gewichtung an einem Teil eines überwachenden Signals, der ein Merkmal eines Zielsignals oder von Geräuschen repräsentiert, und konfiguriert zum Ausgeben eines gewichteten Signals, wobei das überwachende Signal zum Lernen eines neuronalen Netzwerks verwendet wird; und eine Fehlerauswertungsvorrichtung (11), konfiguriert zum Berechnen eines Kopplungskoeffizienten, der einen Wert aufweist, der angibt, dass ein Lernfehler zwischen dem von dem zweiten Signalgewichtungsprozessor (9; 14) ausgegeben gewichteten Signal und dem von dem Prozessor des neuronalen Netzwerks (4) ausgegebenen Verbesserungssignal kleiner als ein oder gleich einem eingestellten Wert ist, und konfiguriert zum Ausgeben eines Ergebnisses der Berechnung als den Kopplungskoeffizienten.
  2. Schallsignal-Verbesserungsvorrichtung, umfassend: einen ersten Signalgewichtungsprozessor (2), konfiguriert zum Durchführen einer Gewichtung an einem Teil eines eingegebenen Signals, der ein Merkmal eines Zielsignals oder von Geräuschen repräsentiert, und konfiguriert zum Ausgeben eines gewichteten Signals, wobei das eingegebene Signal das Zielsignal und die Geräusche enthält; eine erste Fourier-Transformationsvorrichtung (3), konfiguriert zum Transformieren, in ein Spektrum, des von dem ersten Signalgewichtungsprozessor (2) ausgegebenen gewichteten Signals; einen Prozessor eines neuronalen Netzwerks (4), konfiguriert zum Durchführen, an dem Spektrum, einer Verbesserung des Zielsignals unter Verwendung eines Kopplungskoeffizienten, und konfiguriert zum Ausgeben eines Verbesserungssignals; eine inverse Fourier-Transformationsvorrichtung (5), konfiguriert zum Transformieren des von dem Prozessor des neuronalen Netzwerks (4) ausgegebenen Verbesserungssignals in ein Verbesserungssignal in einer Zeitdomäne; ein inverses Filter (6), konfiguriert zum Aufheben der Gewichtung der Merkmalrepräsentation des Zielsignals oder der Geräusche in dem von der inversen Fourier-Transformationsvorrichtung (5) ausgegebenen Verbesserungssignal; einen zweiten Signalgewichtungsprozessor (9), konfiguriert zum Durchführen einer Gewichtung eines Teils eines überwachenden Signals, der ein Merkmal eines Zielsignals oder von Geräuschen repräsentiert, und konfiguriert zum Ausgeben eines gewichteten Signals, wobei das überwachende Signal zum Lernen eines neuronalen Netzwerks verwendet wird; und eine zweite Fourier-Transformationsvorrichtung (10), konfiguriert zum Transformieren des von dem zweiten Signalgewichtungsprozessor (9) ausgegebenen gewichteten Signals in ein Spektrum; und eine Fehlerauswertungsvorrichtung (11), konfiguriert zum Berechnen eines Kopplungskoeffizienten, der einen Wert aufweist, der angibt, dass ein Lernfehler zwischen einem von der zweiten Fourier-Transformationsvorrichtung (10) ausgegebenen Signal und dem von dem Prozessor des neuronalen Netzwerks (4) ausgegebenen Verbesserungssignal kleiner als ein oder gleich einem eingestellten Wert ist, und konfiguriert zum Ausgeben eines Ergebnisses der Berechnung als den Kopplungskoeffizienten.
  3. Schallsignal-Verbesserungsvorrichtung, umfassend: eine erste Fourier-Transformationsvorrichtung (3), konfiguriert zum Transformieren, in ein Spektrum, eines eingegebenen Signals, das ein Zielsignal und Geräusche enthält; einen ersten Signalgewichtungsprozessor (12), konfiguriert zum Durchführen einer Gewichtung in einer Frequenzdomäne an einem Teil des Spektrums, der ein Merkmal eines Zielsignals oder von Geräuschen repräsentiert, und konfiguriert zum Ausgeben eines gewichteten Signals; einen Prozessor eines neuronalen Netzwerks (4), konfiguriert zum Durchführen, an dem von dem ersten Signalgewichtungsprozessor (12) ausgegebenen gewichteten Signal, einer Verbesserung des Zielsignals unter Verwendung eines Kopplungskoeffizienten, und konfiguriert zum Ausgeben eines Verbesserungssignals; ein inverses Filter (13), konfiguriert zum Aufheben der Gewichtung an der Merkmalsrepräsentation des Zielsignals oder der Geräusche in dem Verbesserungssignal; eine inverse Fourier-Transformationsvorrichtung (5), konfiguriert zum Transformieren eines von dem inversen Filter (13) ausgegebenen Signals in ein Verbesserungssignal in einer Zeitdomäne; eine zweite Fourier-Transformationsvorrichtung (10), konfiguriert zum Transformieren eines überwachenden Signals in ein Spektrum, wobei das überwachende Signal zum Lernen eines neuronalen Netzwerks verwendet wird; einen zweiten Signalgewichtungsprozessor (14), konfiguriert zum Durchführen einer Gewichtung an einem Teil eines ausgegebenen Signals von der zweiten Fourier-Transformationsvorrichtung (10), der ein Merkmal eines Zielsignals oder von Geräuschen repräsentiert, und konfiguriert zum Ausgeben eines gewichteten Signals; und eine Fehlerauswertungsvorrichtung (11), konfiguriert zum Berechnen eines Kopplungskoeffizienten, der einen Wert aufweist, der angibt, dass ein Lernfehler zwischen dem von der zweiten Fourier-Transformationsvorrichtung (14) ausgegebenen gewichteten Signal und dem von dem Prozessor des neuronalen Netzwerks (4) ausgegebenen Verbesserungssignal kleiner als ein oder gleich einem eingestellten Wert ist, und konfiguriert zum Ausgeben eines Ergebnisses der Berechnung als den Kopplungskoeffizienten.
  4. Schallsignal-Verbesserungsvorrichtung nach Anspruch 1, wobei jedes von eingegebenem Signal und überwachendem Signal ein Zeitwellenformsignal ist.
DE112016006218.4T 2016-02-15 2016-02-15 Schallsignal-Verbesserungsvorrichtung Active DE112016006218B4 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2016/054297 WO2017141317A1 (ja) 2016-02-15 2016-02-15 音響信号強調装置

Publications (2)

Publication Number Publication Date
DE112016006218T5 true DE112016006218T5 (de) 2018-09-27
DE112016006218B4 DE112016006218B4 (de) 2022-02-10

Family

ID=59625729

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112016006218.4T Active DE112016006218B4 (de) 2016-02-15 2016-02-15 Schallsignal-Verbesserungsvorrichtung

Country Status (5)

Country Link
US (1) US10741195B2 (de)
JP (1) JP6279181B2 (de)
CN (1) CN108604452B (de)
DE (1) DE112016006218B4 (de)
WO (1) WO2017141317A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102019112383B4 (de) 2018-06-22 2022-11-24 Intel Corporation Neuronalnetzwerk zur Sprachentrauschung, das mit tiefen Merkmalsverlusten trainiert wird

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107068161B (zh) * 2017-04-14 2020-07-28 百度在线网络技术(北京)有限公司 基于人工智能的语音降噪方法、装置和计算机设备
EP3688754A1 (de) 2017-09-26 2020-08-05 Sony Europe B.V. Verfahren und elektronische vorrichtung zur formantdämpfung/-verstärkung
JP6827908B2 (ja) * 2017-11-15 2021-02-10 日本電信電話株式会社 音源強調装置、音源強調学習装置、音源強調方法、プログラム
CN110797021B (zh) * 2018-05-24 2022-06-07 腾讯科技(深圳)有限公司 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质
GB201810710D0 (en) 2018-06-29 2018-08-15 Smartkem Ltd Sputter Protective Layer For Organic Electronic Devices
JP6741051B2 (ja) * 2018-08-10 2020-08-19 ヤマハ株式会社 情報処理方法、情報処理装置およびプログラム
WO2020047264A1 (en) 2018-08-31 2020-03-05 The Trustees Of Dartmouth College A device embedded in, or attached to, a pillow configured for in-bed monitoring of respiration
CN111261179A (zh) * 2018-11-30 2020-06-09 阿里巴巴集团控股有限公司 回声消除方法及装置和智能设备
CN110491407B (zh) * 2019-08-15 2021-09-21 广州方硅信息技术有限公司 语音降噪的方法、装置、电子设备及存储介质
GB201919031D0 (en) 2019-12-20 2020-02-05 Smartkem Ltd Sputter protective layer for organic electronic devices
JP2021177598A (ja) * 2020-05-08 2021-11-11 シャープ株式会社 音声処理システム、音声処理方法、及び音声処理プログラム
US20220019948A1 (en) * 2020-07-15 2022-01-20 Mitsubishi Electric Research Laboratories, Inc. System and Method for Controlling Motion of a Bank of Elevators
GB202017982D0 (en) 2020-11-16 2020-12-30 Smartkem Ltd Organic thin film transistor
GB202209042D0 (en) 2022-06-20 2022-08-10 Smartkem Ltd An integrated circuit for a flat-panel display

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5232986A (en) 1975-09-10 1977-03-12 Nippon Oil Co Ltd Process for the preparation of polyolefin

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0566795A (ja) 1991-09-06 1993-03-19 Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho 雑音抑圧装置とその調整装置
JPH05232986A (ja) * 1992-02-21 1993-09-10 Hitachi Ltd 音声信号用前処理方法
US5432883A (en) * 1992-04-24 1995-07-11 Olympus Optical Co., Ltd. Voice coding apparatus with synthesized speech LPC code book
JPH0776880B2 (ja) * 1993-01-13 1995-08-16 日本電気株式会社 パターン認識方法および装置
JP2993396B2 (ja) * 1995-05-12 1999-12-20 三菱電機株式会社 音声加工フィルタ及び音声合成装置
JP3591068B2 (ja) * 1995-06-30 2004-11-17 ソニー株式会社 音声信号の雑音低減方法
DE19524847C1 (de) * 1995-07-07 1997-02-13 Siemens Ag Vorrichtung zur Verbesserung gestörter Sprachsignale
US7076168B1 (en) * 1998-02-12 2006-07-11 Aquity, Llc Method and apparatus for using multicarrier interferometry to enhance optical fiber communications
JPH11259445A (ja) * 1998-03-13 1999-09-24 Matsushita Electric Ind Co Ltd 学習装置
US6862558B2 (en) * 2001-02-14 2005-03-01 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Empirical mode decomposition for analyzing acoustical signals
US6941263B2 (en) * 2001-06-29 2005-09-06 Microsoft Corporation Frequency domain postfiltering for quality enhancement of coded speech
AU2003274864A1 (en) * 2003-10-24 2005-05-11 Nokia Corpration Noise-dependent postfiltering
US7620546B2 (en) * 2004-03-23 2009-11-17 Qnx Software Systems (Wavemakers), Inc. Isolating speech signals utilizing neural networks
JP2008052117A (ja) * 2006-08-25 2008-03-06 Oki Electric Ind Co Ltd 雑音除去装置、方法及びプログラム
JP4455614B2 (ja) * 2007-06-13 2010-04-21 株式会社東芝 音響信号処理方法及び装置
ES2678415T3 (es) * 2008-08-05 2018-08-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para procesamiento y señal de audio para mejora de habla mediante el uso de una extracción de característica
US8639502B1 (en) * 2009-02-16 2014-01-28 Arrowhead Center, Inc. Speaker model-based speech enhancement system
CN101599274B (zh) * 2009-06-26 2012-03-28 瑞声声学科技(深圳)有限公司 语音增强的方法
WO2011085483A1 (en) * 2010-01-13 2011-07-21 Voiceage Corporation Forward time-domain aliasing cancellation using linear-predictive filtering
CN103109320B (zh) * 2010-09-21 2015-08-05 三菱电机株式会社 噪声抑制装置
WO2012070684A1 (ja) * 2010-11-25 2012-05-31 日本電気株式会社 信号処理装置、信号処理方法、及び信号処理プログラム
US8548803B2 (en) * 2011-08-08 2013-10-01 The Intellisis Corporation System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain
US20140136451A1 (en) * 2012-11-09 2014-05-15 Apple Inc. Determining Preferential Device Behavior
US9131308B2 (en) * 2014-01-21 2015-09-08 Dopler Labs, Inc. Passive audio ear filters with multiple filter elements
EP3103204B1 (de) * 2014-02-27 2019-11-13 Nuance Communications, Inc. Adaptive verstärkungssteuerung in einem kommunikationssystem
US20160019890A1 (en) * 2014-07-17 2016-01-21 Ford Global Technologies, Llc Vehicle State-Based Hands-Free Phone Noise Reduction With Learning Capability
US9536537B2 (en) * 2015-02-27 2017-01-03 Qualcomm Incorporated Systems and methods for speech restoration
US20190147852A1 (en) * 2015-07-26 2019-05-16 Vocalzoom Systems Ltd. Signal processing and source separation
US10307108B2 (en) * 2015-10-13 2019-06-04 Elekta, Inc. Pseudo-CT generation from MR data using a feature regression model

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5232986A (en) 1975-09-10 1977-03-12 Nippon Oil Co Ltd Process for the preparation of polyolefin

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102019112383B4 (de) 2018-06-22 2022-11-24 Intel Corporation Neuronalnetzwerk zur Sprachentrauschung, das mit tiefen Merkmalsverlusten trainiert wird

Also Published As

Publication number Publication date
CN108604452A (zh) 2018-09-28
WO2017141317A1 (ja) 2017-08-24
US10741195B2 (en) 2020-08-11
DE112016006218B4 (de) 2022-02-10
JP6279181B2 (ja) 2018-02-14
JPWO2017141317A1 (ja) 2018-02-22
US20180374497A1 (en) 2018-12-27
CN108604452B (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
DE112016006218B4 (de) Schallsignal-Verbesserungsvorrichtung
DE602005000539T2 (de) Verstärkungsgesteuerte Geräuschunterdrückung
DE102006042059B4 (de) Tonsammelvorrichtung mit Bündelung, Tonsammelverfahren mit Bündelung und Speicherprodukt
DE112010005895B4 (de) Störungsunterdrückungsvorrichtung
DE102019110272A1 (de) Neuronalnetzwerkbasierte zeit-frequenzmaskenschätzung und strahlformung zur sprachvorverarbeitung
DE60027438T2 (de) Verbesserung eines verrauschten akustischen signals
DE60316704T2 (de) Mehrkanalige spracherkennung in ungünstigen umgebungen
DE112009000805B4 (de) Rauschreduktion
DE60023517T2 (de) Klassifizierung von schallquellen
DE69606978T2 (de) Verfahren zur rauschunterdrückung mittels spektraler subtraktion
DE102018127071B3 (de) Audiosignalverarbeitung mit akustischer Echounterdrückung
EP1143416A2 (de) Geräuschunterdrückung im Zeitbereich
DE69830017T2 (de) Verfahren und Vorrichtung zur Spracherkennung
EP1386307B1 (de) Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals
DE112007003625T5 (de) Echounterdrückungsvorrichtung, echounterdrückungssystem, Echounterdrückungsverfahren und Computerprogramm
DE112017007005B4 (de) Akustiksignal-verarbeitungsvorrichtung, akustiksignalverarbeitungsverfahren und freisprech-kommunikationsvorrichtung
DE112011106045B4 (de) Audiosignal-Wiederherstellungsvorrichtung und Audiosignal-Wiederherstellungsverfahren
DE102014002899A1 (de) Verfahren, Vorrichtung und Herstellung zur Zwei-Mikrofon-Array-Sprachverbesserung für eine Kraftfahrzeugumgebung
EP3197181A1 (de) Verfahren zur reduktion der latenzzeit einer filterbank zur filterung eines audiosignals sowie verfahren zum latenzarmen betrieb eines hörsystems
DE69517075T2 (de) Gerät zur Diagnose von Schall- und Schwingungsquellen
DE102014207437B4 (de) Spracherkennung mit einer Mehrzahl an Mikrofonen
DE112014006281T5 (de) Tonsammelvorrichtung, Korrekturverfahren für Eingangssignal von Tonsammelvorrichtung und Mobilgeräte-Informationssystem
EP3065417A1 (de) Verfahren zur unterdrückung eines störgeräusches in einem akustischen system
DE60033039T2 (de) Vorrichtung und verfahren zur unterdrückung von zischlauten unter verwendung von adaptiven filteralgorithmen
DE112017007051B4 (de) Signalverarbeitungsvorrichtung

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R084 Declaration of willingness to licence
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final