DE112018006332T5 - Vorrichtung zur trennung akistuscher signale und verfahren zur trennung akustischer signale - Google Patents

Vorrichtung zur trennung akistuscher signale und verfahren zur trennung akustischer signale Download PDF

Info

Publication number
DE112018006332T5
DE112018006332T5 DE112018006332.1T DE112018006332T DE112018006332T5 DE 112018006332 T5 DE112018006332 T5 DE 112018006332T5 DE 112018006332 T DE112018006332 T DE 112018006332T DE 112018006332 T5 DE112018006332 T5 DE 112018006332T5
Authority
DE
Germany
Prior art keywords
unit
components
data
classification
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE112018006332.1T
Other languages
English (en)
Other versions
DE112018006332B4 (de
Inventor
Tatsuhiko Saito
Keigo KAWASHIMA
Jun Ishii
Yohei Okato
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of DE112018006332T5 publication Critical patent/DE112018006332T5/de
Application granted granted Critical
Publication of DE112018006332B4 publication Critical patent/DE112018006332B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

In einer Vorrichtung zur Trennung akustischer Signale (1) bestimmt eine Bestimmungseinheit (6), ob Komponenten von mehreren Schallquellen in jedem der akustischen Signale jeweiliger Komponenten, das von einer Signalregenerierungseinheit (5) regeneriert wird, gemischt sind oder nicht, und wenn bestimmt wird, dass mehrere Komponenten gemischt sind, wird eine Reihe von Prozessen von einer Merkmalswert-Extraktionseinheit (2), einer Datenschätzeinheit (3), einer Datenklassifizierungseinheit (4) und einer Signalregenerierungseinheit (5) wiederholt ausgeführt, bis akustische Signale der Komponenten der jeweiligen Schallquellen regeneriert sind.

Description

  • TECHNISCHES GEBIET
  • Die vorliegende Erfindung betrifft eine Vorrichtung zur Trennung akustischer Signale und ein Verfahren zur Trennung akustischer Signale zum Trennen eines akustischen Signals, in dem Komponenten von einer oder mehreren Schallquellen in akustische Signale der jeweiligen Komponenten gemischt sind.
  • STAND DER TECHNIK
  • Als eine Technik zum Trennen eines akustischen Signals, in dem Komponenten von einer oder mehreren Schallquellen in akustische Signale der jeweiligen Komponenten gemischt sind, gibt es ein Verfahren, das beispielsweise in Patentliteratur 1 beschrieben wird. Bei diesem Verfahren wird ein akustisches Signal, in dem eine oder mehrere Komponenten gemischt sind, in akustische Signale der jeweiligen Komponenten getrennt, indem ein tiefes neuronales Netz (im Folgenden als DNN bezeichnet) verwendet wird.
  • ZITIERTE DOKUMENTE
  • PATENTLITERATUR
  • Patentliteratur 1: WO 2017/007035 A
  • KURZDARSTELLUNG DER ERFINDUNG
  • VON DER ERFINDUNG ZU LÖSENDE AUFGABE
  • Da das in Patentliteratur 1 beschriebene Verfahren nicht bestätigen kann, ob das akustische Signal nach dem Trennen des akustischen Signals in geeigneter Weise in Komponenten jeweiliger Schallquellen getrennt ist, gab es ein Problem dahingehend, dass es einen Fall gibt, in dem das akustische Signal nicht korrekt in Komponenten jeweiliger Schallquellen getrennt wird, falls die Anzahl von Schallquellen unbekannt ist.
  • Die vorliegende Erfindung ist gemacht worden, um das vorstehende Problem zu lösen und zielt darauf ab, eine Vorrichtung zur Trennung akustischer Signale und ein Verfahren zur Trennung akustischer Signale bereitzustellen, die ein akustisches Signal auch dann in geeigneter Weise in Komponenten jeweiliger Schallquellen trennen können, wenn die Anzahl der Schallquellen unbekannt ist.
  • MITTEL ZUM LÖSEN DER AUFGABE
  • Eine Vorrichtung zur Trennung akustischer Signale gemäß der vorliegenden Erfindung weist eine Merkmalswert-Extraktionseinheit, eine Datenschätzeinheit, eine Datenklassifizierungseinheit, eine Signalregenerierungseinheit und eine Bestimmungseinheit auf. Die Merkmalswert-Extraktionseinheit extrahiert einen Merkmalswert aus einem Eingangssignal, das ein akustisches Signal beinhaltet, in dem eine oder mehrere Komponenten gemischt sind. Die Datenschätzeinheit schätzt Klassifizierungsdaten basierend auf dem von der Merkmalswert-Extraktionseinheit extrahierten Merkmalswert, indem ein DNN verwendet wird, das dafür trainiert ist, die Klassifizierungsdaten zur Verknüpfung zwischen Komponenten wenigstens eines akustischen Signals, das von einer identischen Schallquelle ausgegeben wird, zu schätzen. Die Datenklassifizierungseinheit klassifiziert die von der Datenschätzeinheit geschätzten Klassifizierungsdaten in Datenteile, die akustischen Signalen jeweiliger Komponenten entsprechen. Die Signalregenerierungseinheit regeneriert die akustischen Signale der jeweiligen Komponenten basierend auf den Klassifizierungsdaten, die von der Datenklassifizierungseinheit für jede der Komponenten der akustischen Signale klassifiziert werden, sowie dem Merkmalswert, der von der Merkmalswert-Extraktionseinheit extrahiert wird. Die Bestimmungseinheit bestimmt, ob Komponenten von mehreren Schallquellen in jedem der akustischen Signale der jeweiligen Komponenten, die von der Signalregenerierungseinheit regeneriert werden, gemischt sind oder nicht. In dieser Konfiguration wird, wenn von der Bestimmungseinheit bestimmt wird, dass die Komponenten von den mehreren Schallquellen gemischt sind, eine Reihe von Prozessen von der Merkmalswert-Extraktionseinheit, der Datenschätzeinheit, der Datenklassifizierungseinheit und der Signalregenerierungseinheit wiederholt ausgeführt, bis akustische Signale der Komponenten jeweiliger Schallquellen regeneriert sind.
  • VORTEILHAFTE EFFEKTE DER ERFINDUNG
  • Gemäß der vorliegenden Erfindung bestimmt die Vorrichtung zur Trennung akustischer Signale, ob Komponenten von mehreren Schallquellen in jedem der regenerierten akustischen Signale der jeweiligen Komponenten gemischt sind oder nicht, und wenn bestimmt wird, dass mehrere Komponenten gemischt sind, wird eine Reihe von Prozessen durch die Merkmalswert-Extraktionseinheit, die Datenschätzeinheit, die Datenklassifizierungseinheit und die Signalregenerierungseinheit ausgeführt, bis akustische Signale von Komponenten der jeweiligen Schallquellen regeneriert sind.
  • Mit dieser Konfiguration kann die Vorrichtung zur Trennung akustischer Signale das akustische Signal auch dann in geeigneter Weise in Komponenten jeweiliger Schallquellen trennen, wenn die Anzahl von Schallquellen unbekannt ist.
  • Figurenliste
    • 1 ist ein Blockschaltbild, das eine Konfiguration einer Vorrichtung zur Trennung akustischer Signale gemäß einer ersten Ausführungsform der vorliegenden Erfindung veranschaulicht.
    • 2A ist ein Blockschaltbild, das eine Hardwarekonfiguration zum Implementieren einer Funktion der Vorrichtung zur Trennung akustischer Signale gemäß der ersten Ausführungsform veranschaulicht. 2B ist ein Blockschaltbild, das eine Hardwarekonfiguration zum Ausführen von Software zum Implementieren der Funktion der Vorrichtung zur Trennung akustischer Signale gemäß der ersten Ausführungsform veranschaulicht.
    • 3 ist ein Flussdiagramm, das ein Verfahren zur Trennung akustischer Signale gemäß der ersten Ausführungsform veranschaulicht.
    • 4A ist eine Darstellung, die Teile von Klassifizierungsdaten veranschaulicht, welche zwei Arten von Komponenten wenigstens eines akustischen Signals entsprechen, abgebildet in einem zweidimensionalen Raum. 4B ist eine Darstellung, welche die Teile von Klassifizierungsdaten veranschaulicht, die in jede der Komponenten des akustischen Signals klassifiziert sind, abgebildet in einem zweidimensionalen Raum.
    • 5 ist eine Darstellung, die eine Beziehung zwischen Klassifizierungsergebnissen von Teilen von Klassifizierungsdaten veranschaulicht, welche Komponenten von drei Schallquellen und Zeit entsprechen.
    • 6 ist eine Darstellung, die Beispiele für Spracherkennungsergebnisse von akustischen Signalen jeweiliger Komponenten veranschaulicht.
    • 7A veranschaulicht eine Beziehung zwischen einem Klassifizierungsergebnis von Klassifizierungsdaten, die einem akustischen Signal entsprechen, in dem Komponenten von zwei Schallquellen gemischt sind, und einem Klassifizierungsergebnis von Klassifizierungsdaten, die einem akustischen Signal einer Komponente von einer Schallquelle entsprechen, und Zeit. 7B ist eine Darstellung, die eine Beziehung zwischen Klassifizierungsergebnissen von Klassifizierungsdaten, die akustischen Signalen entsprechen, welche korrekt in Komponenten von jeweiligen drei Schallquellen getrennt sind, und Zeit veranschaulicht.
    • 8 ist eine Darstellung, die ein Spracherkennungsergebnis für jedes von einem akustischen Signal, in dem Komponenten von mehreren Schallquellen gemischt sind, und einem akustischen Signal einer Komponente, die von einer Schallquelle ausgegeben wird, veranschaulicht.
    • 9 ist eine Darstellung, die ein Spracherkennungsergebnis und eine Erkennungswahrscheinlichkeit für jedes von einem akustischen Signal, in dem Komponenten von mehreren Schallquellen gemischt sind, und einem akustischen Signal einer Komponente von einer Schallquelle veranschaulicht.
  • BESCHREIBUNG VON AUSFÜHRUNGSFORMEN
  • Im Folgenden werden, um die vorliegende Erfindung ausführlicher zu erläutern, Ausführungsformen zum Ausführen der vorliegenden Erfindung unter Bezugnahme auf die beigefügten Zeichnungen beschrieben.
  • Erste Ausführungsform.
  • 1 ist ein Blockschaltbild, das eine Konfiguration einer Vorrichtung zur Trennung akustischer Signale 1 gemäß einer ersten Ausführungsform der vorliegenden Erfindung veranschaulicht. Die Vorrichtung zur Trennung akustischer Signale 1 weist eine Merkmalswert-Extraktionseinheit 2, eine Datenschätzeinheit 3, eine Datenklassifizierungseinheit 4, eine Signalregenerierungseinheit 5 und eine Bestimmungseinheit 6 auf und trennt ein akustisches Signal, das in einem Eingangssignal a enthalten ist, in akustische Signale jeweiliger Komponenten und gibt Ausgangssignale h aus, die die akustischen Signale der jeweiligen Komponenten beinhalten.
  • Die Merkmalswert-Extraktionseinheit 2 extrahiert Merkmalswerte aus dem Eingangssignal a. Das Eingangssignal a kann ein akustisches Signal sein, in dem eine oder mehrere Komponenten gemischt sind, oder ein Signal, das ein akustisches Signal und ein anderes Signal beinhaltet. Beispielsweise kann das Eingangssignal a ein Signal sein, das zusätzlich zu einem akustischen Signal ein Bildsignal oder Textdaten beinhaltet, die mit dem akustischen Signal verknüpft sind.
  • Bei den Merkmalswerten, die von der Merkmalswert-Extraktionseinheit 2 aus dem Eingangssignal a extrahiert werden, handelt es sich um einen Klassifizierungsmerkmal-Wert b und einen Signalregenerierungsmerkmal-Wert c. Der Klassifizierungsmerkmal-Wert b ist ein Merkmalswert, der zur Schätzung von Klassifizierungsdaten d durch die Datenschätzeinheit 3 verwendet wird. Beispielsweise führt die Merkmalswert-Extraktionseinheit 2 eine Kurzzeit-Fourier-Transformation für das akustische Signal, das im Eingangssignal a enthalten ist, durch, um eine Amplitude auf der Frequenzachse zu erhalten, und berechnet einen Merkmalswert basierend auf der Amplitude auf der Frequenzachse. Daten, die durch Anordnen der Merkmalswerte erhalten werden, die anhand des akustischen Signals auf diese Weise in Zeitreihen berechnet werden, können als der Klassifizierungsmerkmal-Wert b verwendet werden.
  • Der Signalregenerierungsmerkmal-Wert c ist ein Merkmalswert, der zur Generierung eines Ausgangssignals f durch die Signalregenerierungseinheit 5 verwendet wird. Beispielsweise kann der Signalregenerierungsmerkmal-Wert c ein Spektralkoeffizient sein, der in der Merkmalswert-Extraktionseinheit 2 berechnet wird, indem eine Kurzzeit-Fourier-Transformation für das akustische Signal, das im Eingangssignal a enthalten ist, durchgeführt wird, oder kann Bildinformationen oder Textdaten beinhalten, die im Eingangssignal a enthalten sind.
  • Die Datenschätzeinheit 3 schätzt die Klassifizierungsdaten d, durch Verwenden eines DNN 3a, basierend auf dem Klassifizierungsmerkmal-Wert b, der von der Merkmalswert-Extraktionseinheit 2 aus dem Eingangssignal a extrahiert wird. Die Klassifizierungsdaten d sind Daten zur Verknüpfung zwischen Komponenten wenigstens eines akustischen Signals, das von derselben Schallquelle ausgegeben wird.
  • Beispielsweise kann es sich bei den Klassifizierungsdaten d um einen Aufwand zwischen Komponenten eines akustischen Signals handeln, das umgewandelt wird, so dass ein Abstand zwischen Zeit-Frequenz-Komponenten des wenigstens einen akustischen Signals, das von derselben Schallquelle ausgegeben wird, kurz ist.
  • Im DNN 3a ist ein Netzwerkparameter 3b eingestellt, der vorab gelernt worden ist, um die Klassifizierungsdaten d basierend auf dem Klassifizierungsmerkmal-Wert b zu schätzen. Das DNN 3a, in dem der Netzwerkparameter 3b eingestellt ist, schätzt die Klassifizierungsdaten d, indem eine Operation hierarchisch für den Klassifizierungsmerkmal-Wert b durchgeführt wird. Beispielsweise kann ein rekurrentes neuronales Netz (Recurrent Neural Network, RNN) oder ein faltendes neuronales Netz (Convolutional Neural Network, CNN) als DNN 3a verwendet werden.
  • Die Datenklassifizierungseinheit 4 klassifiziert die Klassifizierungsdaten d, die von der Datenschätzeinheit 3 für jede Komponente von der Schallquelle geschätzt wird. Die Klassifizierungsdaten d können klassifiziert werden, indem Klassifizierungsverfahren wie etwa k-means, Clustering oder Gaußsche Mischverteilungsmodelle (Gaussian Mixture Models, GMMs) verwendet werden. Klassifizierungsergebnis-Informationen e, bei denen es sich um die von der Datenklassifizierungseinheit 4 klassifizierten Klassifizierungsdaten d handelt, werden an die Signalregenerierungseinheit 5 ausgegeben.
  • Die Signalregenerierungseinheit 5 empfängt die Klassifizierungsergebnis-Informationen e von der Datenklassifizierungseinheit 4 und regeneriert akustische Signale jeweiliger Komponenten anhand des Signalregenerierungsmerkmal-Wertes c basierend auf den Klassifizierungsdaten d für jede Komponente in den Klassifizierungsergebnis-Informationen e. Die Signalregenerierungseinheit 5 gibt das Ausgangssignal f, welches die regenerierten akustischen Signale der jeweiligen Komponenten beinhaltet, an die Bestimmungseinheit 6 aus. Es sei darauf hingewiesen, dass das Ausgangssignal f Bildsignale und Textinformationen enthalten kann, die den regenerierten akustischen Signalen der jeweiligen Komponenten entsprechen.
  • Die Bestimmungseinheit 6 bestimmt, ob Komponenten von mehreren Schallquellen in jedem der akustischen Signale der jeweiligen Komponenten, das in dem Ausgangssignal f der Signalregenerierungseinheit 5 enthalten ist, gemischt sind oder nicht. Beispielsweise bestimmt die Bestimmungseinheit 6 basierend auf einem Spracherkennungsergebnis jedes der akustischen Signale der jeweiligen Komponenten, ob Komponenten von mehreren Schallquellen in jedem der akustischen Signale der jeweiligen Komponente, das in dem Ausgangssignal f enthalten ist, gemischt sind oder nicht. Des Weiteren kann die Bestimmungseinheit 6 basierend auf einer Erkennungswahrscheinlichkeit des Spracherkennungsergebnisses jedes der akustischen Signale der jeweiligen Komponenten bestimmen, ob Komponenten von mehreren Schallquellen in jedem der akustischen Signale der jeweiligen Komponente, das in dem Ausgangssignal f enthalten ist, gemischt sind oder nicht.
  • Die Bestimmungseinheit 6 gibt ein Ausgangssignal g, welches ein akustisches Signal beinhaltet, das als akustisches Signal bestimmt wird, in dem Komponenten von mehreren Schallquellen gemischt sind, an die Merkmalswert-Extraktionseinheit 2 zurück. Infolgedessen wird eine Reihe von Prozessen von der Merkmalswert-Extraktionseinheit 2, der Datenschätzeinheit 3, der Datenklassifizierungseinheit 4 und der Signalregenerierungseinheit 5 wiederholt ausgeführt, bis akustische Signale von Komponenten jeweiliger Schallquellen in geeigneter Weise regeneriert sind. Die Bestimmungseinheit 6 gibt die Ausgangssignale h aus. Die Ausgangssignale h sind Signale, welche die akustischen Signale der Komponenten der jeweiligen Schallquellen enthalten, die von der Signalregenerierungseinheit 5 regeneriert werden, und können Bildsignale und Textinformationen beinhalten, die diesen akustischen Signalen entsprechen.
  • 2A ist ein Blockschaltbild, das eine Hardwarekonfiguration zum Implementieren einer Funktion der Vorrichtung zur Trennung akustischer Signale 1 veranschaulicht. 2B ist ein Blockschaltbild, das eine Hardwarekonfiguration zum Ausführen von Software zum Implementieren der Funktion der Vorrichtung zur Trennung akustischer Signale 1 veranschaulicht. In 2A und 2B ist eine akustische Schnittstelle 100 eine Schnittstelle zum Eingeben eines akustischen Signals, das im Eingangssignal a enthalten ist, und zum Ausgeben von akustischen Signalen, die in den Ausgangssignalen h enthalten sind. Beispielsweise ist die akustische Schnittstelle 100 mit einem Mikrofon zum Sammeln von akustischen Signalen verbunden und ist mit einem Lautsprecher zum Ausgeben von akustischen Signalen verbunden.
  • Eine Bildschnittstelle 101 ist eine Schnittstelle zum Eingeben eines Bildsignals, das im Eingangssignal a enthalten ist, und zum Ausgaben eines Bildsignals, das in den Ausgangssignalen h enthalten ist. Beispielsweise ist die Bildschnittstelle 101 mit einer Kamera zum Erfassen eines Bildsignals verbunden und ist mit einem Bildschirm zum Anzeigen des Bildsignals verbunden.
  • Eine Texteingabeschnittstelle 102 ist eine Schnittstelle zum Eingeben von Textinformationen, die im Eingangssignal a enthalten sind, und zum Ausgeben von Textinformationen, die in den Ausgangssignalen h enthalten sind. Beispielsweise ist die Texteingabeschnittstelle 102 mit einer Tastatur oder Maus zum Eingeben von Textinformationen verbunden und ist mit einem Bildschirm zum Anzeigen der Textinformationen verbunden.
  • Ein (nicht dargestellter) Speicher, der in einer Verarbeitungsschaltung 103 enthalten ist, veranschaulicht in 2A, oder ein Speicher 105 wie in 2B veranschaulicht speichert temporär das Eingangssignal a, den Klassifizierungsmerkmal-Wert b, den Signalregenerierungsmerkmal-Wert c, die Klassifizierungsdaten d, die Klassifizierungsergebnis-Informationen e, das Ausgangssignal f, das Ausgangssignal g und die Ausgangssignale h.
  • Die Verarbeitungsschaltung 103 oder ein Prozessor 104 liest diese Datenteile nach Bedarf aus dem Speicher aus und führt eine Trennungsverarbeitung für das akustische Signal durch.
  • Funktionen der Merkmalswert-Extraktionseinheit 2, der Datenschätzeinheit 3, der Datenklassifizierungseinheit 4, der Signalregenerierungseinheit 5 und der Bestimmungseinheit 6 in der Vorrichtung zur Trennung akustischer Signale 1 sind durch eine Verarbeitungsschaltung implementiert.
  • Das heißt, die Vorrichtung zur Trennung akustischer Signale 1 weist eine Verarbeitungsschaltung zum Ausführen der Prozesse von Schritt ST1 bis Schritt ST5 auf, was an späterer Stelle unter Bezugnahme auf 3 beschrieben wird. Die Verarbeitungsschaltung kann eine dedizierte Hardware sein, oder eine zentrale Verarbeitungseinheit (Central Processing Unit, CPU) zum Ausführen eines Programms, das in einem Speicher gespeichert ist.
  • Wenn die Verarbeitungsschaltung die Verarbeitungsschaltung 103 der in 2A veranschaulichten dedizierten Hardware ist, beinhalten Beispiele der Verarbeitungsschaltung 103 eine einzelne Schaltung, eine Verbundschaltung, einen programmierten Prozessor, einen parallel programmierten Prozessor, eine anwendungsspezifische integrierte Schaltung (Application-Specific Integrated Circuit, ASIC), eine feldprogrammierbare Gatteranordnung (Field Programmable Gate Array, FPGA) und eine Kombination davon. Die Funktionen der Merkmalswert-Extraktionseinheit 2, der Datenschätzeinheit 3, der Datenklassifizierungseinheit 4, der Signalregenerierungseinheit 5 und der Bestimmungseinheit 6 können durch getrennte Verarbeitungsschaltungen implementiert sein, oder diese Funktionen können zusammen durch eine Verarbeitungsschaltung implementiert sein.
  • Wenn die Verarbeitungsschaltung der in 2B veranschaulichte Prozessor 104 ist, sind die Funktionen der Merkmalswert-Extraktionseinheit 2, der Datenschätzeinheit 3, der Datenklassifizierungseinheit 4, der Signalregenerierungseinheit 5 und der Bestimmungseinheit 6 durch Software, Firmware oder eine Kombination von Software und Firmware implementiert. Die Software oder die Firmware ist als ein Programm beschrieben und im Speicher 105 gespeichert.
  • Der Prozessor 104 liest und führt das im Speicher 105 gespeicherte Programm aus, wodurch die Funktionen der Merkmalswert-Extraktionseinheit 2, der Datenschätzeinheit 3, der Datenklassifizierungseinheit 4, der Signalregenerierungseinheit 5 und der Bestimmungseinheit 6 implementiert werden. Das heißt, die Vorrichtung zur Trennung akustischer Signale 1 weist den Speicher 105 zum Speichern eines oder mehrerer Programme auf, die, wenn sie von dem Prozessor 104 ausgeführt werden, daraus resultierend die in 3 veranschaulichten Prozesse von Schritt ST1 bis Schritt ST5 durchführen.
  • Diese Programme veranlassen einen Computer, Prozeduren oder Verfahren der Merkmalswert-Extraktionseinheit 2, der Datenschätzeinheit 3, der Datenklassifizierungseinheit 4, der Signalregenerierungseinheit 5 und der Bestimmungseinheit 6 auszuführen.
  • Der Speicher 105 kann ein computerlesbares Medium sein, auf dem ein Programm gespeichert ist, das einen Computer veranlasst, als Merkmalswert-Extraktionseinheit 2, Datenschätzeinheit 3, Datenklassifizierungseinheit 4, Signalregenerierungseinheit 5 und Bestimmungseinheit 6 zu fungieren.
  • Beispiele für den Speicher 105 beinhalten nichtflüchtigen oder flüchtigen Halbleiterspeicher wie etwa einen Direktzugriffsspeicher (Random Access Memory, RAM), einen Festwertspeicher (Read-Only Memory, ROM), Flash-Speicher, löschbaren programmierbaren Festwertspeicher (Erasable Programmable Read-Only Memory, EPROM) oder elektrisch löschbaren programmierbaren Festwertspeicher (Electrically Erasable Programmable Read-Only Memory, EEPROM), eine Magnetplatte, eine Diskette, eine optische Platte, eine CompactDisk, eine Mini-Disk, eine DVD und dergleichen. Des Weiteren kann es sich bei dem Speicher 105 um einen externen Speicher handeln, beispielsweise einen USB (Universal Serial Bus)-Speicher.
  • Einige der Funktionen der Merkmalswert-Extraktionseinheit 2, der Datenschätzeinheit 3, der Datenklassifizierungseinheit 4, der Signalregenerierungseinheit 5 und der Bestimmungseinheit 6 können durch dedizierte Hardware implementiert sein, und einige der Funktionen können durch Software oder Firmware implementiert sein. Beispielsweise sind die Funktionen der Merkmalswert-Extraktionseinheit 2 und der Datenschätzeinheit 3 durch eine Verarbeitungsschaltung implementiert, bei der es sich um dedizierte Hardware handelt. Für die Datenklassifizierungseinheit 4, die Signalregenerierungseinheit 5 und die Bestimmungseinheit 6 kann der Prozessor 104 die Funktionen davon durch Auslesen und Ausführen des im Speicher 105 gespeicherten Programms implementieren. Wie vorstehend beschrieben, kann die Verarbeitungsschaltung jede der vorstehend beschriebenen Funktionen durch Hardware, Software, Firmware oder eine Kombination davon implementieren.
  • Als Nächstes wird die Operation beschrieben.
  • 3 ist ein Flussdiagramm, das ein Verfahren zur Trennung akustischer Signale gemäß der ersten Ausführungsform veranschaulicht.
  • Die Merkmalswert-Extraktionseinheit 2 extrahiert den Klassifizierungsmerkmal-Wert b und den Signalregenerierungsmerkmal-Wert c aus dem Eingangssignal a (Schritt ST1). Der Klassifizierungsmerkmal-Wert b wird ausgehend von der Merkmalswert-Extraktionseinheit 2 an die Datenschätzeinheit 3 ausgegeben, und der Signalregenerierungsmerkmal-Wert c wird ausgehend von der Merkmalswert-Extraktionseinheit 2 an die Signalregenerierungseinheit 5 ausgegeben.
  • Das Eingangssignal a kann eine Bildsignaleingabe von der Bildschnittstelle 101 oder eine Textinformationseingabe von der Texteingabeschnittstelle 102 beinhalten, zusätzlich zu dem akustischen Signal, dessen Eingabe von der akustischen Schnittstelle 100 akzeptiert wird.
  • Des Weiteren kann die Merkmalswert-Extraktionseinheit 2 das Eingangssignal a aus dem (nicht dargestellten) Speicher, der in der Verarbeitungsschaltung 103 enthalten ist, oder dem Speicher 105 auslesen und einen Merkmalswert extrahieren.
  • Darüber hinaus kann es sich bei dem Eingangssignal a um Datenstromdaten handeln.
  • Als Nächstes schätzt die Datenschätzeinheit 3 die Klassifizierungsdaten d basierend auf dem Klassifizierungsmerkmal-Wert b, indem das DNN 3a verwendet wird (Schritt ST2). Die Klassifizierungsdaten d werden ausgehend von der Datenschätzeinheit 3 an die Datenklassifizierungseinheit 4 ausgegeben.
  • Nachfolgend klassifiziert die Datenklassifizierungseinheit 4 die von der Datenschätzeinheit 3 für jede Komponente geschätzten Klassifizierungsdaten d basierend auf der vorab spezifizierten Anzahl von Schallquellen (Schritt ST3). Die Datenklassifizierungseinheit 4 gibt die Klassifizierungsergebnis-Informationen e, bei denen es sich um die Klassifizierungsdaten d handelt, die für jede Komponente klassifiziert werden, an die Signalregenerierungseinheit 5 aus.
  • 4A ist eine Darstellung, die Teile von Klassifizierungsdaten d1 und d2 veranschaulicht, welche zwei Arten von Komponenten wenigstens eines akustischen Signals entsprechen, abgebildet in einem zweidimensionalen Raum. 4B ist eine Darstellung, welche die Teile von Klassifizierungsdaten d1 und d2 veranschaulicht, die für jede der Komponenten des akustischen Signals klassifiziert sind, abgebildet in einem zweidimensionalen Raum. In dem Beispiel von 4A gibt es zwei Schallquellen, eine Schallquelle A und eine Schallquelle B, und es wird angenommen, dass eine Komponente eines akustischen Signal, das von der Schallquelle A ausgegeben wird, und eine Komponente eines akustischen Signals, das von der Schallquelle B ausgegeben wird, in dem Eingangssignal a gemischt sind.
  • Die Klassifizierungsdaten d1, angezeigt durch ein kreisförmiges Symbol, sind Daten zur Verknüpfung zwischen Komponenten des akustischen Signals, das von der Schallquelle A ausgegeben wird, und Klassifizierungsdaten d2, angezeigt durch ein Dreiecksymbol, sind Daten zur Verknüpfung zwischen Komponenten des akustischen Signals, das von der Schallquelle B ausgegeben wird.
  • Wenn sich beispielsweise ein Ausgabezustand des akustischen Signals von der Schallquelle ändert, ändert sich der Klassifizierungsmerkmal-Wert b entsprechend. Wenn die Datenschätzeinheit 3 die Klassifizierungsdaten d basierend auf dem Klassifizierungsmerkmal-Wert b unter Verwendung des DNN 3a schätzt, können, auch in dem Fall, dass die Klassifizierungsdaten d den Komponenten des wenigstens einen akustischen Signals entsprechen, das von derselben Schallquelle ausgegeben wird, Werte der Klassifizierungsdaten d je nach Änderung des Klassifizierungsmerkmal-Wertes b variieren. Aus diesem Grund erfolgt die Eingabe für die Datenklassifizierungseinheit 4 in einem Zustand, in dem es nicht bekannt ist, ob es sich bei den Klassifizierungsdaten d, die in mehreren Werten verteilt sind, um die Klassifizierungsdaten d1 handelt, die zu der Schallquelle A gehören, oder um die Klassifizierungsdaten d2, die zu der Schallquelle B gehören.
  • 4B ist eine Darstellung, welche die Klassifizierungsdaten d1 und d2 veranschaulicht, die für jede der Komponenten von den Schallquellen klassifiziert sind. In 4A und 4B gibt es zwei Schallquellen, die Schallquelle A und die Schallquelle B.
  • Wenn die Klassifizierungsdaten d ausgehend von der Datenschätzeinheit 3 eingegeben werden, klassifiziert die Datenklassifizierungseinheit 4 die Klassifizierungsdaten d basierend auf „2“, also der Anzahl von vorab spezifizierten Schallquellen. Infolgedessen erhält man ein Klassifizierungsergebnis A1, das die Klassifizierungsdaten d1 angibt, die der Schallquelle A entsprechen, und ein Klassifizierungsergebnis A2, das die Klassifizierungsdaten d2 angibt, die der Schallquelle B entsprechen.
  • 5 ist eine Darstellung, die eine Beziehung zwischen Klassifizierungsergebnissen der Teile von Klassifizierungsdaten d1, d2 und d3, die den Komponenten von jeweiligen drei Schallquellen A, B und C entsprechen und Zeit veranschaulicht. In 5 sind die Klassifizierungsdaten d3, angegeben durch ein Rechtecksymbol, in ein Klassifizierungsergebnis G1 klassifiziert, das der Schallquelle C entspricht, die Klassifizierungsdaten d2, angegeben durch ein Dreiecksymbol, sind in ein Klassifizierungsergebnis G2 klassifiziert, das der Schallquelle B entspricht, und die Klassifizierungsdaten d1, angegeben durch ein kreisförmiges Symbol, sind in ein Klassifizierungsergebnis G3 klassifiziert, das der Schallquelle A entspricht.
  • Die Beschreibung wird nachstehend unter erneuter Bezugnahme auf 3 fortgesetzt.
  • Die Signalregenerierungseinheit 5 regeneriert die akustischen Signale jeweiliger Komponenten basierend auf dem Signalregenerierungsmerkmal-Wert c, der ausgehend von der Merkmalswert-Extraktionseinheit 2 eingegeben wird, und der Klassifizierungsdaten d für jede der Komponenten in den Klassifizierungsergebnis-Informationen e, die ausgehend von der Datenklassifizierungseinheit 4 eingegeben werden (Schritt ST4). Beispielsweise identifiziert die Signalregenerierungseinheit 5 den Signalregenerierungsmerkmal-Wert c entsprechend der Schallquelle, indem die Klassifizierungsdaten d verwendet werden, die in dieselbe Komponente klassifiziert sind, und regeneriert die akustischen Signale der jeweiligen Komponenten basierend auf dem identifizierten Signalregenerierungsmerkmal-Wert c und den Klassifizierungsdaten d. Die Signalregenerierungseinheit 5 gibt das Ausgangssignal f, welches die regenerierten akustischen Signale der jeweiligen Komponenten beinhaltet, an die Bestimmungseinheit 6 aus.
  • Die Bestimmungseinheit 6 bestimmt, ob Komponenten von mehreren Schallquellen in jedem der akustischen Signale der jeweiligen Komponenten, das in dem Ausgangssignal f der Signalregenerierungseinheit 5 enthalten ist, gemischt sind oder nicht (Schritt ST5). Beispielsweise bestimmt die Bestimmungseinheit 6 basierend auf einem Spracherkennungsergebnis des akustischen Signals, ob Komponenten von mehreren Schallquellen in einem akustischen Signal gemischt sind oder nicht. Eine Erkennungstechnik wie etwa die sogenannte „Mustererkennung“ kann für eine Spracherkennungsverarbeitung verwendet werden. Die Bestimmungseinheit 6 bestimmt, dass ein akustisches Signal, für welches das Spracherkennungsergebnis erhalten wurde, nur eine Komponente von einer Schallquelle aufweist, und ein akustisches Signal, für welches das Spracherkennungsergebnis nicht erhalten wurde, ein akustisches Signal ist, in dem Komponenten von mehreren Schallquellen gemischt sind.
  • Beispielsweise führt die Bestimmungseinheit 6 die Spracherkennungsverarbeitung für ein akustisches Signal durch, das in dem Ausgangssignal f von der Signalregenerierungseinheit 5 enthalten ist. Des Weiteren kann die Bestimmungseinheit 6 die Spracherkennungsverarbeitung für das akustische Signal durchführen, indem ein DNN verwendet wird, das getrennt vom DNN 3a bereitgestellt ist.
  • 6 ist eine Darstellung, die Beispiele für die Spracherkennungsergebnisse der akustischen Signale jeweiliger Komponenten veranschaulicht und Spracherkennungsergebnisse für die akustischen Signale jeweiliger Komponenten veranschaulicht, die unter Verwendung der Klassifizierungsergebnisse G1 bis G3 in 5 regeneriert werden. In 6 ist ein „anhand von Klassifizierungsergebnis G1 generiertes Signal“ ein akustisches Signal einer Komponente von der Schallquelle C, das von der Signalregenerierungseinheit 5 basierend auf den Klassifizierungsdaten d3 des Klassifizierungsergebnisses G1 regeneriert wird. Ein „anhand von Klassifizierungsergebnis G2 generiertes Signal“ ist ein akustisches Signal einer Komponente von der Schallquelle B, das von der Signalregenerierungseinheit 5 basierend auf den Klassifizierungsdaten d2 des Klassifizierungsergebnisses G2 regeneriert wird. Ein „anhand von Klassifizierungsergebnis G3 generiertes Signal“ ist ein akustisches Signal einer Komponente von der Schallquelle A, das von der Signalregenerierungseinheit 5 basierend auf den Klassifizierungsdaten d1 des Klassifizierungsergebnisses G3 regeneriert wird.
  • Die Spracherkennungsverarbeitung kann mit hoher Genauigkeit für ein akustisches Signal durchgeführt werden, das in geeigneter Weise für jede der Komponenten von den jeweiligen Schallquellen getrennt ist. Indem eine Spracherkennung für das akustische Signal durchgeführt wird, das basierend auf den Klassifizierungsdaten d3 des Klassifizierungsergebnisses G1 regeneriert wird, wird ein Spracherkennungsergebnis 10a erhalten. Indem eine Spracherkennung für das akustische Signal durchgeführt wird, das basierend auf dem Klassifizierungsergebnis G2 regeneriert wird, wird ein Spracherkennungsergebnis 10b erhalten. Indem eine Spracherkennung für das regenerierte akustische Signal basierend auf dem Klassifizierungsergebnis G3 durchgeführt wird, wird ein Spracherkennungsergebnis 10c erhalten.
  • Wenn das Spracherkennungsergebnis des akustischen Signals erhalten wird, bestimmt die Bestimmungseinheit 6, dass Komponenten von mehreren Schallquellen nicht in dem akustischen Signal gemischt sind und nicht in mehrere Komponenten getrennt werden können (Schritt ST5; NEIN), und gibt die Ausgangssignale h, die das akustische Signal enthalten, nach außen aus und beendet den Prozess.
  • 7A veranschaulicht eine Beziehung zwischen einem Klassifizierungsergebnis G0 von Klassifizierungsdaten, die einem akustischen Signal entsprechen, in dem die Komponente von der Schallquelle B und die Komponente von der Schallquelle C gemischt sind, und dem Klassifizierungsergebnis G3 von Klassifizierungsdaten, die dem akustischen Signal der Komponente von der Schallquelle A entsprechen, und Zeit. 7B ist eine Darstellung, die eine Beziehung veranschaulicht zwischen Klassifizierungsergebnissen G1, G2 und G3 von Klassifizierungsdaten, die akustischen Signalen entsprechen, welche korrekt in jeweilige Komponenten von der Schallquelle A, der Schallquelle B und der Schallquelle C getrennt sind, und Zeit. 7A und 7B veranschaulichen einen Fall, bei dem ein akustisches Signal, in dem Komponenten von den Schallquellen A, B und C gemischt sind, in die Komponenten der jeweiligen Schallquellen getrennt werden.
  • Wenn das akustische Signal, in dem Komponenten von den jeweiligen Schallquellen A, Bund C gemischt sind, in die Komponenten der jeweiligen Schallquellen gemischt werden, muss die Datenklassifizierungseinheit 4 eine jeweilige Klassifizierung durchführen, in die Klassifizierungsdaten d1, die der Komponente von der Schallquelle A entsprechen, die Klassifizierungsdaten d2, die der Schallquelle B entsprechen, und die Klassifizierungsdaten d3, die der Komponente von der Schallquelle C entsprechen.
  • Allerdings ist in 7A die Anzahl von Schallquellen unbekannt, und die Datenklassifizierungseinheit 4 klassifiziert die Klassifizierungsdaten d basierend auf „2“, also der Anzahl von vorab spezifizierten Schallquellen. Aus diesem Grund werden beispielsweise die Klassifizierungsdaten d1 korrekt in das Klassifizierungsergebnis G3 klassifiziert, das der Schallquelle A entspricht, aber die Klassifizierungsdaten d2 und die Klassifizierungsdaten d3 werden fälschlicherweise in das Klassifizierungsergebnis G0 klassifiziert, das einem akustischen Signal entspricht, in dem die Komponente von der Schallquelle B und die Komponente von der Schallquelle C gemischt sind.
  • 8 ist eine Darstellung, die ein Spracherkennungsergebnis für jedes der akustischen Signale, in dem die Komponente von der Schallquelle B und die Komponente von der Schallquelle C gemischt sind, und das akustische Signal der Komponente von der Schallquelle A veranschaulicht. In 8 ist ein „anhand von Klassifizierungsergebnis G0 generiertes Signal“ ein akustisches Signal, das von der Signalregenerierungseinheit 5 basierend auf den Teilen von Klassifizierungsdaten d2 und d3 des Klassifizierungsergebnisses G0 regeneriert wird und in dem die Komponente von der Schallquelle B und die Komponente von der Schallquelle C gemischt sind. Das „anhand von Klassifizierungsergebnis G1 generierte Signal“ ist ein akustisches Signal der Komponente von der Schallquelle C, das basierend auf den Klassifizierungsdaten d3 des Klassifizierungsergebnisses G1 regeneriert wird. Das „anhand von Klassifizierungsergebnis G2 generierte Signal“ ist ein akustisches Signal der Komponente von der Schallquelle B, das basierend auf den Klassifizierungsdaten d2 des Klassifizierungsergebnisses G2 regeneriert wird. Das „anhand von Klassifizierungsergebnis G3 generierte Signal“ ist ein akustisches Signal der Komponente von der Schallquelle A, das basierend auf den Klassifizierungsdaten d1 des Klassifizierungsergebnisses G3 regeneriert wird.
  • Das Spracherkennungsergebnis 10a wird erhalten, indem eine Spracherkennung für das akustische Signal der Komponente von der Schallquelle C durchgeführt wird. Das Spracherkennungsergebnis 10b wird erhalten, indem eine Spracherkennung für das akustische Signal der Komponente von der Schallquelle B durchgeführt wird, und das Spracherkennungsergebnis 10c wird erhalten, indem eine Spracherkennung für das akustische Signal der Komponente von der Schallquelle A durchgeführt wird.
  • Allerdings ist die Genauigkeit der Spracherkennung in dem akustischen Signal, in dem die Komponente von der Schallquelle B und die Komponente von der Schallquelle C gemischt sind, gering, und somit kann ein Erkennungsergebnis nicht wie in 8 veranschaulicht erhalten werden.
  • Wenn das Spracherkennungsergebnis des akustischen Signals nicht erhalten wird, bestimmt die Bestimmungseinheit 6, dass Komponenten von mehreren Schallquellen in dem akustischen Signal gemischt sind (Schritt ST5; JA). Zu diesem Zeitpunkt wird die in der Datenklassifizierungseinheit 4 spezifizierte Anzahl von Schallquellen oder eine zu verarbeitende Audiodatei geändert (Schritt ST6). Beispielsweise erhöht die Datenklassifizierungseinheit 4 die vorab spezifizierte Anzahl von Schallquellen um +1. Danach gibt die Bestimmungseinheit 6 das Ausgangssignal g, das sowohl die Komponente des vorstehend beschriebenen akustischen Signals als auch die Komponente des akustischen Signals, welches zusammen mit der Komponente des vorstehend beschriebenen akustischen Signals regeneriert wird, an die Merkmalswert-Extraktionseinheit 2 aus, und der Prozess kehrt zu Schritt ST1 zurück. Des Weiteren gibt, wenn die zu verarbeitende Audiodatei geändert wird, die Bestimmungseinheit 6 nur das akustische Signal, in dem Komponenten von mehreren Schallquellen gemischt sind, an die Merkmalswert-Extraktionseinheit 2 aus, und der Prozess kehrt zu Schritt ST1 zurück.
  • Danach führen die Merkmalswert-Extraktionseinheit 2, die Datenschätzeinheit 3, die Datenklassifizierungseinheit 4 und die Signalregenerierungseinheit 5 eine Reihe von Prozessen von Schritt ST1 bis Schritt ST4 für das akustische Signal aus, bis das akustische Signal in geeigneter Weise in akustische Signale von Komponenten jeweiliger Schallquellen getrennt ist.
  • Wenn die Reihe von Prozessen von Schritt ST1 bis Schritt ST4 wiederholt ausgeführt wird, klassifiziert die Datenklassifizierungseinheit 4, wie in 7B veranschaulicht, die Klassifizierungsdaten d1 in das Klassifizierungsergebnis G3, welches der Schallquelle A entspricht, die Klassifizierungsdaten d2 in das Klassifizierungsergebnis G2, welches der Schallquelle B entspricht, und die Klassifizierungsdaten d3 in das Klassifizierungsergebnis G1, welches der Schallquelle C entspricht. Basierend auf dem Klassifizierungsergebnis G1, dem Klassifizierungsergebnis G2 und dem Klassifizierungsergebnis G3 regeneriert die Signalregenerierungseinheit 5 ein akustisches Signal der Komponente von der Schallquelle C, ein akustisches Signal der Komponente von der Schallquelle B und ein akustisches Signal der Komponente von der Schallquelle A.
  • Wie vorstehend beschrieben, bestimmt die Vorrichtung zur Trennung akustischer Signale 1, ob Komponenten von mehreren Schallquellen in jedem der regenerierten akustischen Signale der jeweiligen Komponenten gemischt sind oder nicht, und führt wiederholt eine Komponententrennungsverarbeitung durch, bis ein akustisches Signal, das als akustisches Signal bestimmt ist, in dem Komponenten von mehreren Schallquellen gemischt sind, in geeigneter Weise in die Komponenten der jeweiligen Schallquellen getrennt ist. Infolgedessen kann, auch wenn die Anzahl von Schallquellen unbekannt ist, das akustische Signal in geeigneter Weise in Komponenten der jeweiligen Schallquellen getrennt werden.
  • Es sei darauf hingewiesen, dass die Spracherkennungsverarbeitung nicht auf eine Musterkennung beschränkt ist und beispielsweise auf eine andere Spracherkennungsverarbeitung als die in einem Verweis beschriebene Musterkennung zurückgreifen kann.
  • (Verweis) Sadaoki Furui, „Speech Information Processing“, Morikita Publishing, 1998, S. 79-132
  • Des Weiteren kann, basierend auf einer Erkennungswahrscheinlichkeit eines Spracherkennungsergebnisses eines akustischen Zielsignals, die Bestimmungseinheit 6 bestimmen, ob Komponenten von mehreren Schallquellen darin gemischt sind oder nicht.
  • 9 ist eine Darstellung, die ein Spracherkennungsergebnis und eine Erkennungswahrscheinlichkeit für jedes von einem akustischen Signal, in dem Komponenten von mehreren Schallquellen gemischt sind, und einem akustischen Signal einer Komponente von einer Schallquelle veranschaulicht. Bis hierhin ist angenommen worden, dass eine Spracherkennung nicht für ein akustisches Signal durchgeführt werden kann, in dem in dem Komponenten von mehreren Schallquellen gemischt sind; allerdings kann, in der Praxis, auch wenn die Erkennungsgenauigkeit gering ist, ein Erkennungsergebnis erhalten werden.
  • In 9 ist das „anhand von Klassifizierungsergebnis G0 generierte Signal“ das akustische Signal, das von der Signalregenerierungseinheit 5 basierend auf den Teilen von Klassifizierungsdaten d2 und d3 des Klassifizierungsergebnisses G0 regeneriert wird und in dem die Komponente von der Schallquelle B und die Komponente von der Schallquelle C gemischt sind. Das „anhand von Klassifizierungsergebnis G1 generierte Signal“ ist das akustische Signal der Komponente von der Schallquelle C, das basierend auf den Klassifizierungsdaten d3 des Klassifizierungsergebnisses G1 regeneriert wird. Das „anhand von Klassifizierungsergebnis G2 generierte Signal“ ist das akustische Signal der Komponente von der Schallquelle B, das basierend auf den Klassifizierungsdaten d2 des Klassifizierungsergebnisses G2 regeneriert wird. Das „anhand von Klassifizierungsergebnis G3 generierte Signal“ ist das akustische Signal der Komponente von der Schallquelle A, das basierend auf den Klassifizierungsdaten d1 des Klassifizierungsergebnisses G3 regeneriert wird.
  • Das Spracherkennungsergebnis 10a wird erhalten, indem eine Spracherkennung für das akustische Signal der Komponente von der Schallquelle C durchgeführt wird und die Erkennungswahrscheinlichkeit „0,9“ ist. Das Spracherkennungsergebnis 10b wird erhalten, indem eine Spracherkennung für das akustische Signal der Komponente von der Schallquelle B durchgeführt wird und die Erkennungswahrscheinlichkeit „0,8“ ist. Das Spracherkennungsergebnis 10c wird erhalten, indem eine Spracherkennung für das akustische Signal der Komponente von der Schallquelle A durchgeführt wird und die Erkennungswahrscheinlichkeit „1,0“ ist. Andererseits wird ein singuläres Spracherkennungsergebnis 10d erhalten, indem eine Spracherkennung für das akustische Signal durchgeführt wird, in dem die Komponente von der Schallquelle B und die Komponente von der Schallquelle C gemischt sind, und die Wahrscheinlichkeit „0,1“ ist.
  • Die Bestimmungseinheit 6 vergleicht die Erkennungswahrscheinlichkeit des Spracherkennungsergebnisses des akustischen Zielsignals mit einem voreingestellten Schwellwert und bestimmt, dass Komponenten von mehreren Schallquellen nicht in dem akustischen Signal gemischt sind, falls die Erkennungswahrscheinlichkeit höher ist als der Schwellwert, und bestimmt, dass Komponenten von mehreren Schallquellen in dem akustischen Signal gemischt sind, falls die Erkennungswahrscheinlichkeit kleiner oder gleich dem Schwellwert ist. Beispielsweise bestimmt, wenn der Schwellwert bezüglich der Erkennungswahrscheinlichkeit 0,5 ist, die Bestimmungseinheit 6, dass Komponenten von mehreren Schallquellen in dem „anhand von Klassifizierungsergebnis G0 generierten Signal“ gemischt sind, welche eine Erkennungswahrscheinlichkeit von kleiner oder gleich 0,5 aufweisen.
  • Beispielsweise führt die Bestimmungseinheit 6 eine Spracherkennungsverarbeitung und die Berechnung einer Erkennungswahrscheinlichkeit an einem akustischen Signal durch, das in dem Ausgangssignal f von der Signalregenerierungseinheit 5 enthalten ist. Des Weiteren kann die Bestimmungseinheit 6 die Spracherkennungsverarbeitung und die Berechnung der Erkennungswahrscheinlichkeit für das akustische Signal durchführen, indem ein DNN verwendet wird, das getrennt vom DNN 3a bereitgestellt ist.
  • Bis hierhin ist der Fall beschrieben worden, in dem die Reihe der in 3 veranschaulichten Prozesse von Schritt ST1 bis ST4 für das Ausgangssignal g ausgeführt wird, welches das akustische Signal, das als akustisches Signal bestimmt wird, in dem Komponenten von mehreren Schallquellen gemischt sind, und die Komponente des akustischen Signals, welches zusammen mit der Komponente des bestimmten akustischen Signals regeneriert wird, beinhaltet; allerdings stellt dies keine Einschränkung dar.
  • Beispielsweise kann, wenn bestimmt wird, dass Komponenten von mehreren Schallquellen in dem Signal gemischt sind, das von der Signalregenerierungseinheit 5 regeneriert wird, die Datenklassifizierungseinheit 4 die Anzahl von vorab spezifizierten Schallquellen ändern (beispielsweise die Anzahl von Schallquellen, die in 4A und 4B auf „2“ gesetzt ist), und die Vorrichtung zur Trennung akustischer Signale 1 kann das im Eingangssignal a enthaltene akustische Signal in Signale entsprechend der Anzahl von Schallquellen nach dem Ändern trennen.
  • Des Weiteren kann die Vorrichtung zur Trennung akustischer Signale 1 die Reihe von Prozessen von Schritt ST1 bis Schritt ST4 für das Ausgangssignal g durchführen, welches nur die Komponente des akustischen Signals beinhaltet, das als akustisches Signal bestimmt ist, in dem Komponenten von mehreren Schallquellen gemischt sind. Auch in diesen Fällen, wenn bestimmt wird, dass Komponenten von mehreren Schallquellen in dem von der Signalregenerierungseinheit 5 regenerierten Signal gemischt sind, wird die Reihe von Prozessen von Schritt ST1 bis Schritt ST4 wiederholt.
  • Wie vorstehend beschrieben, bestimmt, in der Vorrichtung zur Trennung akustischer Signale 1 gemäß der ersten Ausführungsform, die Bestimmungseinheit 6, ob Komponenten von mehreren Schallquellen in jedem der regenerierten akustischen Signale der jeweiligen Komponenten gemischt sind oder nicht. Wenn bestimmt wird, dass mehrere Komponenten gemischt sind, wird die Reihe von Prozessen von der Merkmalswert-Extraktionseinheit 2, der Datenschätzeinheit 3, der Datenklassifizierungseinheit 4 und der Signalregenerierungseinheit 5 wiederholt ausgeführt, bis das akustische Signal in akustische Signale der Komponenten der jeweiligen Schallquellen getrennt ist. In dieser Konfiguration bestimmt die Bestimmungseinheit 6 basierend auf dem Spracherkennungsergebnis von jedem der akustischen Signale der jeweiligen Komponenten, ob Komponenten von mehreren Schallquellen gemischt sind oder nicht. Alternativ bestimmt die Bestimmungseinheit 6 basierend auf der Erkennungswahrscheinlichkeit für die Spracherkennung für jedes der akustischen Signale der jeweiligen Komponenten, ob Komponenten von mehreren Schallquellen gemischt sind oder nicht.
  • Mit einer solchen Konfiguration kann die Vorrichtung zur Trennung akustischer Signale 1 das akustische Signal auch dann in geeigneter Weise in Komponenten jeweiliger Schallquellen trennen, wenn die Anzahl von Schallquellen unbekannt ist.
  • Es sei darauf hingewiesen, dass die vorliegende Erfindung nicht auf die vorstehend beschriebene Ausführungsform beschränkt ist und innerhalb des Schutzbereichs der vorliegenden Erfindung Bestandteile der Ausführungsform modifiziert werden können oder Bestandteile der Ausführungsform ausgelassen werden können.
  • INDUSTRIELLE ANWENDBARKEIT
  • Die Vorrichtung zur Trennung akustischer Signale gemäß der vorliegenden Erfindung kann ein akustisches Signal auch dann in geeigneter Weise in Komponenten jeweiliger Schallquellen trennen, wenn die Anzahl von Schallquellen unbekannt ist, sodass die Vorrichtung zur Trennung akustischer Signale beispielsweise für ein Konferenzsystem verwendet werden kann, in dem mehrere Schallquellen existieren.
  • Bezugszeichenliste
  • 1:
    Vorrichtung zur Trennung akustischer Signale,
    2:
    Merkmalswert-Extraktionseinheit,
    3:
    Datenschätzeinheit,
    3a:
    DNN,
    3b:
    Netzwerkparameter,
    4:
    Datenklassifizierungseinheit,
    5:
    Signalregenerierungseinheit,
    6:
    Bestimmungseinheit,
    10a bis 10d:
    Spracherkennungsergebnis,
    100:
    Akustische Schnittstelle,
    101:
    Bildschnittstelle,
    102:
    Texteingabeschnittstelle,
    103:
    Verarbeitungsschaltung,
    104:
    Prozessor,
    105:
    Speicher
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • WO 2017/007035 A [0003]

Claims (4)

  1. Vorrichtung zur Trennung akustischer Signale, umfassend: eine Merkmalswert-Extraktionseinheit zum Extrahieren eines Merkmalswertes aus einem Eingangssignal, das ein akustisches Signal beinhaltet, in dem eine oder mehrere Komponenten gemischt sind; eine Datenschätzeinheit zum Schätzen von Klassifizierungsdaten basierend auf dem von der Merkmalswert-Extraktionseinheit extrahierten Merkmalswert, unter Verwendung eines tiefen neuronalen Netzes, das dafür trainiert ist, die Klassifizierungsdaten zur Verknüpfung zwischen Komponenten wenigstens eines akustischen Signals, das von einer identischen Schallquelle ausgegeben wird, zu schätzen; eine Datenklassifizierungseinheit zum Klassifizieren der von der Datenschätzeinheit geschätzten Klassifizierungsdaten in Datenteile, die akustischen Signalen jeweiliger Komponenten entsprechen; eine Signalregenerierungseinheit zum Regenerieren der akustischen Signale der jeweiligen Komponenten basierend auf den Klassifizierungsdaten, die von der Datenklassifizierungseinheit für jede der Komponenten der akustischen Signale klassifiziert werden, sowie dem Merkmalswert, der von der Merkmalswert-Extraktionseinheit extrahiert wird; und eine Bestimmungseinheit zum Bestimmen, ob Komponenten von mehreren Schallquellen in jedem der akustischen Signale der jeweiligen Komponenten, die von der Signalregenerierungseinheit regeneriert werden, gemischt sind oder nicht, wobei wenn von der Bestimmungseinheit bestimmt wird, dass die Komponenten von den mehreren Schallquellen gemischt sind, eine Reihe von Prozessen von der Merkmalswert-Extraktionseinheit, der Datenschätzeinheit, der Datenklassifizierungseinheit und der Signalregenerierungseinheit wiederholt ausgeführt werden, bis akustische Signale der Komponenten der jeweiligen Schallquellen regeneriert sind.
  2. Vorrichtung zur Trennung akustischer Signale gemäß Anspruch 1, wobei die Bestimmungseinheit bestimmt, ob die Komponenten von den mehreren Schallquellen gemischt sind oder nicht, basierend auf einem Spracherkennungsergebnis jedes der akustischen Signale der jeweiligen Komponenten.
  3. Vorrichtung zur Trennung akustischer Signale gemäß Anspruch 1, wobei die Bestimmungseinheit bestimmt, ob die Komponenten von den mehreren Schallquellen gemischt sind oder nicht, basierend auf einer Erkennungswahrscheinlichkeit für die Spracherkennung für jedes der akustischen Signale der jeweiligen Komponenten.
  4. Verfahren zur Trennung akustischer Signale, umfassend: Extrahieren, durch eine Merkmalswert-Extraktionseinheit, eines Merkmalswertes aus einem Eingangssignal, das ein akustisches Signal beinhaltet, in dem eine oder mehrere Komponenten gemischt sind; Schätzen, durch eine Datenschätzeinheit, von Klassifizierungsdaten basierend auf dem von der Merkmalswert-Extraktionseinheit extrahierten Merkmalswert, unter Verwendung eines tiefen neuronalen Netzes, das dafür trainiert ist, die Klassifizierungsdaten zur Verknüpfung zwischen Komponenten wenigstens eines akustischen Signals, das von einer identischen Schallquelle ausgegeben wird, zu schätzen; Klassifizieren, durch eine Datenklassifizierungseinheit, der von der Datenschätzeinheit geschätzten Klassifizierungsdaten in Datenteile, die akustischen Signalen jeweiliger Komponenten entsprechen; Regenerieren, durch eine Signalregenerierungseinheit, der akustischen Signale der jeweiligen Komponenten basierend auf den Klassifizierungsdaten, die von der Datenklassifizierungseinheit für jede der Komponenten der akustischen Signale klassifiziert werden, sowie dem Merkmalswert, der von der Merkmalswert-Extraktionseinheit extrahiert wird; und Bestimmen, durch eine Bestimmungseinheit, ob Komponenten von mehreren Schallquellen in jedem der akustischen Signale der jeweiligen Komponenten, die von der Signalregenerierungseinheit regeneriert werden, gemischt sind oder nicht, wobei wenn von der Bestimmungseinheit bestimmt wird, dass die Komponenten von den mehreren Schallquellen gemischt sind, eine Reihe von Prozessen von der Merkmalswert-Extraktionseinheit, der Datenschätzeinheit, der Datenklassifizierungseinheit und der Signalregenerierungseinheit wiederholt ausgeführt werden, bis akustische Signale der Komponenten der jeweiligen Schallquellen regeneriert sind.
DE112018006332.1T 2018-01-15 2018-01-15 Vorrichtung und Verfahren zur Trennung akustischer Signale Active DE112018006332B4 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/000803 WO2019138573A1 (ja) 2018-01-15 2018-01-15 音響信号分離装置および音響信号分離方法

Publications (2)

Publication Number Publication Date
DE112018006332T5 true DE112018006332T5 (de) 2020-08-27
DE112018006332B4 DE112018006332B4 (de) 2021-07-08

Family

ID=67218559

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112018006332.1T Active DE112018006332B4 (de) 2018-01-15 2018-01-15 Vorrichtung und Verfahren zur Trennung akustischer Signale

Country Status (5)

Country Link
US (1) US11250871B2 (de)
JP (1) JP6725185B2 (de)
CN (1) CN111566732B (de)
DE (1) DE112018006332B4 (de)
WO (1) WO2019138573A1 (de)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070083365A1 (en) * 2005-10-06 2007-04-12 Dts, Inc. Neural network classifier for separating audio sources from a monophonic audio signal
JP5029986B2 (ja) 2007-05-07 2012-09-19 Necカシオモバイルコミュニケーションズ株式会社 情報処理装置、プログラム
JP2011107603A (ja) * 2009-11-20 2011-06-02 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
US8924214B2 (en) * 2010-06-07 2014-12-30 The United States Of America, As Represented By The Secretary Of The Navy Radar microphone speech recognition
FR2981492B1 (fr) * 2011-10-14 2013-12-13 Univ Bordeaux 1 Procede et dispositif pour separer des signaux par filtrage spatial iteratif
CN106328152B (zh) * 2015-06-30 2020-01-31 芋头科技(杭州)有限公司 一种室内噪声污染自动识别监测系统
US9368110B1 (en) * 2015-07-07 2016-06-14 Mitsubishi Electric Research Laboratories, Inc. Method for distinguishing components of an acoustic signal
CN106710599A (zh) * 2016-12-02 2017-05-24 深圳撒哈拉数据科技有限公司 一种基于深度神经网络的特定声源检测方法与系统

Also Published As

Publication number Publication date
JPWO2019138573A1 (ja) 2020-05-28
CN111566732B (zh) 2023-04-04
DE112018006332B4 (de) 2021-07-08
WO2019138573A1 (ja) 2019-07-18
JP6725185B2 (ja) 2020-07-15
US11250871B2 (en) 2022-02-15
CN111566732A (zh) 2020-08-21
US20210193163A1 (en) 2021-06-24

Similar Documents

Publication Publication Date Title
DE69019095T2 (de) Verdichtung der Echtheitsprüfungsdaten von Unterschriften zur Speicherung auf einer Identifikationskarte.
DE102018113034A1 (de) Stimmenerkennungssystem und stimmenerkennungsverfahren zum analysieren eines befehls, welcher mehrere absichten hat
DE112018006885B4 (de) Trainingsvorrichtung,sprachaktivitätsdetektor und verfahren zur erfassung einer sprachaktivität
DE102015222034A1 (de) Spracherkennungssystem und Spracherkennungsverfahren
DE60312374T2 (de) Verfahren und system zur trennung von mehreren akustischen signalen erzeugt durch eine mehrzahl akustischer quellen
DE102014118450A1 (de) Audiobasiertes System und Verfahren zur Klassifikation von fahrzeuginternem Kontext
DE112020005572T5 (de) Tiefe Gesichtserkennung basierend auf Clustern über unbezeichnete Gesichtsdaten
EP4000010A1 (de) Vorrichtung und computerimplementiertes verfahren für die verarbeitung digitaler sensordaten und trainingsverfahren dafür
DE102022110889A1 (de) Halbüberwachtes training grober labels bei bildsegmentierung
DE102021204550A1 (de) Verfahren zum Erzeugen wenigstens eines Datensatzes zum Trainieren eines Algorithmus maschinellen Lernens
DE112018006332B4 (de) Vorrichtung und Verfahren zur Trennung akustischer Signale
DE112018006438T5 (de) Clustering von facetten auf einem zweidimensionalen facettenwürfel für text-mining
DE112018007277T5 (de) Vorrichtung und verfahren zur automatischen fehlerschwellenwerterkennung für bilder
DE102004028693A1 (de) Vorrichtung und Verfahren zum Bestimmen eines Akkordtyps, der einem Testsignal zugrunde liegt
WO2011039351A1 (de) Verfahren und vorrichtung zum erkennen einer fehldetektion eines objekts in einem bild
CH695402A5 (de) Verfahren zur Bestimmung eines charakteristischen Datensatzes für ein Tonsignal.
CN115662456A (zh) 一种环境噪声自适应滤波方法、装置、设备及存储介质
CN113191233B (zh) 盲信号分离方法及系统、电子设备及存储介质
DE112020006661T5 (de) Merkmalsmenge-extrahierungseinrichtung, zeitsequentielle inferenzvorrichtung,zeitsequentielles lernsystem, zeitsequentielles merkmalsemengeextrahierungsverfahren,zeitsequentielles inferenzverfahren und zeitsequentielles lernverfahren
DE102020202795A1 (de) Verfahren und Vorrichtung zum Komprimieren eines Neuronalen Netzes
DE102020200946A1 (de) Verfahren und Vorrichtung zur Erkennung von akustischen Anomalien
DE102009048118A1 (de) Verfahren und Vorrichtung zum Verwalten von Objektansichtsdaten in einer Objektdatenbank
DE102012221155A1 (de) Verfahren und Vorrichtung zum Bereitstellen einer Auswertematrix zur Erkennung eines Verkehrszeichens sowie Verfahren und Vorrichtung zur Erkennung eines Verkehrszeichens
DE102019219927A1 (de) Verfahren und Vorrichtung zum Erkennen einer Entfremdung einer Sensordatendomäne von einer Referenzdatendomäne
CN112084896B (zh) 基于Lp/q-混合范数的联合递归加权空间滤波方法

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R084 Declaration of willingness to licence
R020 Patent grant now final