DE112018006885T5 - Trainingsvorrichtung,sprachaktivitätsdetektor und verfahren zur erfassung einer sprachaktivität - Google Patents

Trainingsvorrichtung,sprachaktivitätsdetektor und verfahren zur erfassung einer sprachaktivität Download PDF

Info

Publication number
DE112018006885T5
DE112018006885T5 DE112018006885.4T DE112018006885T DE112018006885T5 DE 112018006885 T5 DE112018006885 T5 DE 112018006885T5 DE 112018006885 T DE112018006885 T DE 112018006885T DE 112018006885 T5 DE112018006885 T5 DE 112018006885T5
Authority
DE
Germany
Prior art keywords
speech
unit
training
neural network
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE112018006885.4T
Other languages
English (en)
Other versions
DE112018006885B4 (de
Inventor
Toshiyuki Hanazawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of DE112018006885T5 publication Critical patent/DE112018006885T5/de
Application granted granted Critical
Publication of DE112018006885B4 publication Critical patent/DE112018006885B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Telephonic Communication Services (AREA)
  • Image Analysis (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

Eine Wahrscheinlichkeit für Sprache, die ein Unterscheidungsmaß zwischen Geräusch und Sprache ist, wird unter Verwendung eines Gaußschen Mischmodells für Geräusche, das in einem Zeitabschnitt trainiert wird, in dem ein Eingangssignal aus Geräuschen besteht, korrigiert und eine Sprachaktivität wird auf Basis der korrigierten Wahrscheinlichkeit für Sprache erfasst.

Description

  • GEBIET DER TECHNIK
  • Die vorliegende Erfindung betrifft eine Trainingsvorrichtung, einen Sprachaktivitätsdetektor und ein Verfahren zum Erfassen einer Sprachaktivität, die für die Erfassung einer Sprachaktivität an einem Eingangssignal verwendet werden.
  • ALLGEMEINER STAND DER TECHNIK
  • Bei einer Spracherkennungsverarbeitung wird eine Mustererkennung an einer Sprachaktivität durchgeführt, die aus einem Eingangssignal erfasst wird, um ein Erkennungsergebnis zu erhalten, so dass dann, wenn ein Fehler in der Erfassung der Sprachaktivität vorliegt, eine Erfassungsgenauigkeit der Spracherkennungsverarbeitung stark verringert ist. Zur Erfassung der Sprachaktivität gibt es ein Verfahren zur Erfassung einer Aktivität, bei der eine Stärke eines Eingangssignals größer oder gleich einem Schwellenwert ist, als Sprachaktivität. Das Verfahren ist in einer Umgebung wirksam, bei der Hintergrundgeräusche relativ niedrig und gleichmäßig sind.
  • Dagegen ist eine Spracherkennung, die eine Informationseingabe ohne Gebrauch der Hände ermöglicht, eine sehr effektive Benutzerschnittstelle bei einer Eingabe von Inspektionsergebnissen bei Wartungsarbeiten an Betriebsausstattungen oder bei der Unterstützung des Betriebs verschiedener Fabrikautomatisierungsvorrichtungen (im Folgenden als FA-Vorrichtungen bezeichnet).
    Jedoch ist die Umgebung, in der Wartungsarbeiten an der Betriebsausstattung stattfinden oder die Betriebsumgebung der FA-Vorrichtungen häufig eine Umgebung, in der laute Geräusche erzeugt werden, und wenn eine Erfassung einer Sprachaktivität unter Verwendung der Stärke eines Eingangssignals unternommen wird, ist es sehr wahrscheinlich, dass ungleichmäßige Geräusche fälschlicherweise als Sprache erfasst werden. Aus diesem Grund ist eine Erfassungsgenauigkeit der Sprachaktivität verringert und auch in der darauffolgenden Spracherkennungsverarbeitung kann keine ausreichende Erkennungsqualität erhalten werden.
  • Um dieses Problem zu lösen, wird beispielsweise im Patentdokument 1 ein Verfahren zur Erkennung einer Sprachaktivität an einem Eingangssignal unter Verwendung eines Hidden-Markov-Modells (im Folgenden als HMM bezeichnet) mit einem Cepstrum, das eine Spektrumeigenschaft des Eingangssignals als Parameter verwendet, vorgesehen. In dem Verfahren werden ein Sprach-HMM und ein Geräusch-HMM trainiert, und eine Sprachaktivität wird auf Basis der Wahrscheinlichkeit des trainierten HMM zur Zeit der Erfassung einer Startflanke, die ein Startpunkt der Sprachaktivität ist, erfasst. Zum Beispiel wird bei 12 Frames (die Zahl der Frames liegt in 120 Millisekunden vor), wenn 4 oder mehr Frames mit der höchsten Wahrscheinlichkeit für das HMM vorhanden sind, der erste Frame von den 12 Frames als die Startflanke der Sprachaktivität erfasst.
  • LISTE DER ENTGEGENHALTUNGEN
  • PATENTDOKUMENTE
  • Patentdokument 1: JP 2001-343983 A
  • KURZFASSUNG DER ERFINDUNG
  • TECHNISCHES PROBLEM
  • In dem Verfahren, das im Patentdokument 1 beschrieben wird, können in einer Umgebung mit unbekannten Geräuschen, von der zum Trainieren des Geräusch-HMM verwendete Trainingsdaten nicht erwartet werden, die Geräusche und die Sprache nicht ausreichend gut voneinander unterschieden werden, und die Geräuschaktivität kann fälschlicherweise als Sprachaktivität bestimmt werden, und es besteht das Problem, dass die Erfassungsgenauigkeit der Sprachaktivität gering ist.
  • Die vorliegende Erfindung soll das oben beschriebene Problem lösen und hat zum Ziel, eine Trainingsvorrichtung, einen Sprachaktivitätsdetektor und ein Verfahren zur Erfassung einer Sprachaktivität bereitzustellen, mit denen die Erfassungsgenauigkeit einer Sprachaktivität eines Eingangssignals verbessert werden kann.
  • LÖSUNG DES PROBLEMS
  • Eine Trainingsvorrichtung gemäß der vorliegenden Erfindung trainiert ein synthetisches neuronales Netz und ein Gaußsches Mischmodell für Geräusch und Sprache in einem Sprachaktivitätsdetektor zur Erfassung einer Sprachaktivität an einem Eingangssignal und weist eine erste Trainingseinheit, eine Anfangswerterzeugungseinheit, eine zweite Trainingseinheit, eine Netzerzeugungseinheit, eine Syntheseeinheit und eine erste Modelltrainingseinheit auf. Die erste Trainingseinheit trainiert ein erstes neuronales Netz auf solche Weise, dass das erste neuronale Netz eine Wahrscheinlichkeit für Sprache, die ein Unterscheidungsmaß für Geräusch und Sprache ist, mit einem Merkmalswert von Geräuschdaten und einem Merkmalswert von Sprachdaten als Trainingsdaten berechnet. Die Anfangswerterzeugungseinheit erzeugt einen Anfangswert eines neuronalen Netzes, der eine Struktur angibt, in der eine neue Zwischenschicht zwischen eine Ausgabeschicht und eine letzte Schicht einer Zwischenschicht des ersten neuronalen Netzes eingefügt wird. Die zweite Trainingseinheit trainiert ein zweites neuronales Netz auf solche Weise, dass das zweite neuronale Netz zwischen Geräusch und Sprache unterscheidet, unter Verwendung des Anfangswerts des neuronalen Netzes und der Trainingsdaten. Die Netzerzeugungseinheit erzeugt ein drittes neuronales Netz, wobei das dritte neuronale Netz eine Struktur aufweist, bei der eine Ausgabeschicht des zweiten neuronalen Netzes entfernt worden ist und eine letzte Schicht einer Zwischenschicht des zweiten neuronalen Netzes eine neue Ausgabeschicht ist, zum Ausgeben eines Bottleneck-Merkmalswerts, der für eine Unterscheidung zwischen Geräusch und Sprache aus der neuen Ausgabeschicht geeignet ist. Die Syntheseeinheit erzeugt das synthetische neuronale Netz, wobei das synthetische neuronale Netz eine gleiche Struktur aufweist wie eine Struktur, die weder die Ausgabeschicht des ersten neuronalen Netzes noch die des dritten neuronalen Netzes ist, zur Berechnung einer Wahrscheinlichkeit von Sprache und des Bottleneck-Merkmalswerts. Die erste Modelltrainingseinheit trainiert das Gaußsche Mischmodell für Geräusch und Sprache unter Verwendung des Bottleneck-Merkmalswerts, der vom dritten neuronalen Netz ausgegeben wird, und der Trainingsdaten.
  • Ein Sprachaktivitätsdetektor gemäß der vorliegenden Erfindung weist eine Analyseeinheit, eine zweite Modelltrainingseinheit, eine Korrektureinheit und eine Erfassungseinheit auf. Die Analyseeinheit analysiert einen Merkmalswert eines Eingangssignals und erzeugt Zeitreihendaten des Merkmalswerts des Eingangssignals. Die zweite Modelltrainingseinheit berechnet den Bottleneck-Merkmalswert unter Verwendung des synthetischen neuronalen Netzes, das von der Trainingsvorrichtung erzeugt worden ist, mit den Zeitreihendaten des Merkmalswerts, die von der Analyseeinheit erzeugt worden sind, als Eingabe, in einem Zeitabschnitt, in dem das Eingangssignal aus Geräuschen besteht, und trainiert ein Gaußsches Mischmodell von Geräuschen in dem Zeitabschnitt unter Verwendung des berechneten Bottleneck-Merkmalswerts. Die Korrektureinheit berechnet eine Korrekturwahrscheinlichkeit für Sprache unter Verwendung des Gaußschen Mischmodells für Geräusch und Sprache, das von der Trainingsvorrichtung trainiert worden ist, und des Gaußschen Mischmodells für Sprache, das von der zweiten Modelltrainingseinheit trainiert worden ist, mit den Zeitreihendaten des Merkmalswerts, die von der Analyseeinheit erzeugt worden sind, als Eingabe und korrigiert die Wahrscheinlichkeit für Sprache, die von dem synthetischen neuronalen Netz berechnet worden ist, unter Verwendung der Korrekturwahrscheinlichkeit für Sprache. Die Erfassungseinheit erfasst eine Sprachaktivität des Eingangssignals auf Basis eines Ergebnisses eines Vergleichs der Wahrscheinlichkeit für Sprache, die von der Korrektureinheit korrigiert worden ist, mit einem Erfassungsschwellenwert.
  • VORTEILHAFTE WIRKUNGEN DER ERFINDUNG
  • Gemäß der vorliegenden Erfindung erzeugt die Trainingseinheit das synthetische neuronale Netz zur Berechnung der Wahrscheinlichkeit für Sprache, die ein Unterscheidungsmaß zwischen Geräusch und Sprache ist, und des Bottleneck-Merkmalswerts, der für eine Unterscheidung zwischen Geräusch und Sprache geeignet ist, und trainiert das Gaußsche Mischmodell für Geräusch und Sprache unter Verwendung des Bottleneck-Merkmalswerts, der für die Unterscheidung zwischen Geräusch und Sprache geeignet ist, und der Trainingsdaten. Der Sprachaktivitätsdetektor trainiert das Gaußsche Mischmodell für Geräusche in dem Zeitabschnitt, in dem das Eingangssignal aus Geräuschen besteht, unter Verwendung des synthetischen neuronalen Netzes und korrigiert die Wahrscheinlichkeit für Sprache unter Verwendung des Gaußschen Mischmodells für Geräusche und des Gaußschen Mischmodells für Geräusch und Sprache. Da der Sprachaktivitätsdetektor die Sprachaktivität des Eingangssignals auf Basis des Ergebnisses des Vergleichs der korrigierten Wahrscheinlichkeit für Sprache mit dem Erfassungsschwellenwert erfasst, kann die Erfassungsgenauigkeit der Sprachaktivität des Eingangssignals verbessert werden.
  • Figurenliste
    • 1 ist ein Blockschema, das eine Konfiguration eines Sprachaktivitätserfassungssystems darstellt, das eine Trainingsvorrichtung und einen Sprachaktivitätsdetektor gemäß einer ersten Ausführungsform der vorliegenden Erfindung aufweist.
    • 2 ist ein Blockschema, das eine Konfiguration der Trainingsvorrichtung gemäß der ersten Ausführungsform darstellt.
    • 3 ist ein Blockschema, das einen Aufbau eines Sprachaktivitätsdetektors gemäß der ersten Ausführungsform darstellt.
    • 4 ist ein Ablaufschema, das ein Trainingsverfahren gemäß der ersten Ausführungsform darstellt.
    • 5 ist eine schematische Darstellung, die eine Struktur eines ersten neuronalen Netzes darstellt.
    • 6 ist eine schematische Darstellung, die eine Struktur eines zweiten neuronalen Netzes darstellt.
    • 7 ist eine schematische Darstellung, die eine Struktur eines dritten neuronalen Netzes darstellt.
    • 8 ist eine schematische Darstellung, die eine Struktur eines synthetischen neuronalen Netzes darstellt.
    • 9 ist ein Ablaufschema, das ein Verfahren zum Erfassen einer Sprachaktivität gemäß der ersten Ausführungsform darstellt.
    • 10 ist ein Ablaufschema, das eine Verarbeitung zum Korrigieren einer Wahrscheinlichkeit für Sprache in der ersten Ausführungsform darstellt.
    • 11 ist ein Ablaufschema, das einen anderen Modus der Verarbeitung zum Korrigieren der Wahrscheinlichkeit für Sprache in der ersten Ausführungsform darstellt.
    • 12A ist ein Blockschema, das eine Hardware-Konfiguration zum Implementieren einer Funktion der Trainingsvorrichtung oder des Sprachaktivitätsdetektors gemäß der ersten Ausführungsform darstellt. 12B ist ein Blockschema, das eine Hardware-Konfiguration zur Ausführung von Software zur Implementierung der Funktion der Trainingsvorrichtung oder des Sprachaktivitätsdetektors gemäß der ersten Ausführungsform darstellt.
  • BESCHREIBUNG VON AUSFÜHRUNGSFORMEN
  • Um die vorliegende Erfindung ausführlicher zu erläutern, werden nachstehend Ausführungsformen zur Ausführung der vorliegenden Erfindung unter Bezugnahme auf die begleitenden Zeichnungen beschrieben.
  • Erste Ausführungsform.
  • 1 ist ein Blockschema, das eine Konfiguration eines Sprachaktivitätserfassungssystems 1 darstellt, das eine Trainingsvorrichtung 2 und einen Sprachaktivitätsdetektor 3 gemäß einer ersten Ausführungsform der vorliegenden Erfindung aufweist. Die Trainingsvorrichtung 2 gibt Trainingsdaten a ein, erzeugt ein synthetisches neuronales Netz b (im Folgenden als synthetisches NN b bezeichnet) und trainiert ein Gaußsches Mischmodell c für Geräusch und Sprache (im Folgenden als GMM c für Geräusch und Sprache bezeichnet). Der Sprachaktivitätsdetektor 3 erfasst eine Sprachaktivität eines Eingangssignals auf Basis des synthetischen NN b, des GMM c für Geräusch und Sprache und eines Gaußschen Mischmodells d für Geräusche (im Folgenden als Geräusch-GMM d bezeichnet) und gibt ein Sprachaktivitätserfassungsergebnis aus.
  • Die Trainingsdaten a sind Daten, die Spektrummerkmalswerte von Geräuschdaten und Sprachdaten einschließen. Der Spektrummerkmalswert umfasst beispielsweise Vektordaten von 1 bis 12 Dimensionen eines Mel-Frequenz-Cepstrum-Koeffizienten (im Folgenden als MFCC bezeichnet). Im Folgenden werden zur Vereinfachung der Erläuterung die Vektordaten von 1 bis 12 Dimensionen des MFCC einfach als MFCC bezeichnet. Da sowohl die Geräuschdaten als auch die Sprachdaten unterschiedliche Daten sind, wird angenommen, dass sowohl für die Geräuschdaten als auch für die Sprachdaten mehrere MFCCs vorhanden sind.
  • Das synthetische NN b wurde trainiert, um eine Wahrscheinlichkeit für Sprache, die ein Unterscheidungsmaß zwischen Geräusch und Sprache ist, und einen Bottleneck-Merkmalswert, der sich für die Unterscheidung zwischen Geräusch und Sprache eignet, zu berechnen. Das GMM c für Geräusch und Sprache schließt ein Gaußsches Mischmodell für Geräusche und ein Gaußsches Mischmodell für Sprache ein und wird durch Trainieren unter Verwendung des Bottleneck-Merkmalswerts, der für eine Unterscheidung zwischen Geräusch und Sprache geeignet ist, und unter Verwendung der Trainingsdaten a erhalten. Das Geräusch-GMM d ist ein Gaußsches Mischmodell für Geräusche, das in einem Zeitabschnitt trainiert wird, in dem das Eingangssignal aus Geräuschen besteht.
  • 2 ist ein Blockschema, das eine Konfiguration der Trainingsvorrichtung 2 darstellt. Die in 2 dargestellte Trainingsvorrichtung 2 weist eine erste Trainingseinheit 20, eine Anfangswerterzeugungseinheit 21, eine zweite Trainingseinheit 22, eine Netzerzeugungseinheit 23, eine Syntheseeinheit 24 und eine Modelltrainingseinheit 25 auf. Die erste Trainingseinheit 20 trainiert ein erstes neuronales Netz e (im Folgenden als erstes NN e bezeichnet) unter Verwendung der Trainingsdaten a. Das erste NN e ist ein neuronales Netz, das trainiert wird, um die Wahrscheinlichkeit für Sprache zu berechnen, die ein Unterscheidungsmaß zwischen Geräusch und Sprache ist.
  • Die Anfangswerterzeugungseinheit 21 erzeugt einen Anfangswert f (im Folgenden als NN-Anfangswert f bezeichnet) eines neuronalen Netzes, der zum Trainieren eines zweiten neuronalen Netzes g auf Basis von Parametern, die das erste NN e definieren, verwendet wird. Es sei bemerkt, dass der NN-Anfangswert f ein Parameter ist, der eine Struktur definiert, in der eine neue Zwischenschicht zwischen eine letzten Schicht einer Zwischenschicht und eine Ausgabeschicht im ersten NN e eingefügt wird.
  • Die zweite Trainingseinheit 22 trainiert das zweite neuronale Netz g (im Folgenden als zweites NN g bezeichnet) zur Unterscheidung zwischen Geräusch und Sprache unter Verwendung des NN-Anfangswerts f, der von der Anfangswerterzeugungseinheit 21 erzeugt worden ist, und der Trainingsdaten a.
  • Die Netzerzeugungseinheit 23 erzeugt ein drittes neuronales Netz h (im Folgenden als drittes NN h bezeichnet). Das dritte NN h ist ein neuronales Netz mit einer Struktur, in der eine Ausgabeschicht des zweiten NN g entfernt worden ist und eine letzte Schicht der Zwischenschicht eine neue Ausgabeschicht ist, und ein Ausgabewert der neuen Ausgabeschicht der Bottleneck-Merkmalswert ist, der geeignet ist für eine Unterscheidung zwischen Geräusch und Sprache.
  • Die Syntheseeinheit 24 erzeugt das synthetische NN b, das dafür ausgelegt ist, die Wahrscheinlichkeit für Sprache, die ein Unterscheidungsmaß zwischen Geräusch und Sprache ist, zu berechnen und den Bottleneck-Merkmalswert zu berechnen, der sich für die Unterscheidung zwischen Geräusch und Sprache eignet. Das synthetische NN b weist die gleiche Struktur auf wie eine Struktur außer der Ausgabeschicht mit sowohl dem ersten NN e als auch dem dritten NN h und berechnet die Wahrscheinlichkeit für Sprache, die ein Ausgabewert des ersten NN e ist, und den Bottleneck-Merkmalswert, welcher der Ausgabewert des dritten NN h ist.
  • Die Modelltrainingseinheit 25 ist eine erste Modelltrainingseinheit zum Trainieren des GMM c für Geräusch und Sprache unter Verwendung des Bottleneck-Merkmalswerts, der vom dritten NN h ausgegeben wird, und der Trainingsdaten a.
    Zum Trainieren des Gaußschen Mischmodells wird beispielsweise ein Verfahren zum Schätzen einer höchsten Wahrscheinlichkeit verwendet. In dem Verfahren zum Schätzen einer höchsten Wahrscheinlichkeit werden Parameter eines Gaußschen Mischmodells, wie etwa ein Durchschnittswert der Merkmalswerte, und ein Varianzgewicht und ein Mischgewicht der Wahrscheinlichkeitsdichte des Merkmalswerts in der Gaußschen Verteilung, so berechnet, dass eine Wahrscheinlichkeit des Merkmalswerts, der in den Trainingsdaten a enthalten ist, maximiert wird.
  • 3 ist ein Blockschema, das eine Konfiguration des Sprachaktivitätsdetektors 3 darstellt. Wie in 3 dargestellt ist, weist der Sprachaktivitätsdetektor 3 ein Analyseeinheit 30, eine Modelltrainingseinheit 31, eine Korrektureinheit 32 und eine Erfassungseinheit 33 auf. Die Analyseeinheit 30 analysiert einen Merkmalswert eines Eingangssignals und erzeugt Zeitreihendaten des Merkmalswerts des Eingangssignals. Zum Beispiel analysiert die Analyseeinheit 30 einen Spektrummerkmalswert des Eingangssignals und erzeugt Zeitreihendaten, in denen Merkmalswerte, die durch die Analyse erhalten werden, in bestimmten Zeitintervallen angeordnet sind.
  • Die Modelltrainingseinheit 31 ist eine zweite Modelltrainingseinheit zum Trainieren des Geräusch-GMM d unter Verwendung des synthetischen NN b mit den von der Analyseeinheit 30 erzeugten Zeitreihendaten als Eingabe.
    Zum Beispiel berechnet die Modelltrainingseinheit 31 in einem Zeitabschnitt, in dem das Eingangssignal aus Geräuschen besteht, den Bottleneck-Merkmalswert, der für eine Unterscheidung zwischen Geräusch und Sprache geeignet ist, unter Verwendung des synthetischen NN b mit dem Merkmalswert des Eingangssignals in den Zeitreihendaten als Eingabe und trainiert das Geräusch-GMM d unter Verwendung des berechneten Bottleneck-Merkmalswerts. Hierbei ist der Zeitabschnitt, in dem das Eingangssignal aus Geräuschen besteht, ein Zeitabschnitt, in dem im Voraus bekannt ist, dass das Eingangssignal aus Geräuschen besteht. Zum Beispiel ist es möglich, einen Zeitabschnitt einzustellen, in dem das Eingangssignal etwas anderes als Sprache ist, das heißt aus Geräuschen besteht, indem ein Nutzer des Sprachaktivitätserfassungssystems 1 zuvor angewiesen wird, für eine bestimmte Zeit still zu sein (nichts zu sagen). Im Folgenden wird dieser Abschnitt als Geräuschtrainingsabschnitt bezeichnet. Als Geräuschtrainingsabschnitt kann beispielsweise ein Zeitabschnitt ab Inbetriebnahme des Sprachaktivitätsdetektors 3 bis Ende eines bestimmten Zeitabschnitts in der Modelltrainingseinheit 31 eingestellt werden.
  • Die Korrektureinheit 32 berechnet die Wahrscheinlichkeit für Sprache unter Verwendung des synthetischen NN b mit den Zeitreihendaten des Merkmalswerts des Eingangssignals, der von der Analyseeinheit 30 erzeugt wird, als Eingabe. Außerdem berechnet die Korrektureinheit 32 eine Korrekturwahrscheinlichkeit für Sprache unter Verwendung des Geräusch-GMM d, das von der Modelltrainingseinheit 31 trainiert wird, und des GMM c für Geräusch und Sprache, das von der Trainingsvorrichtung 2 trainiert wird, mit den Zeitreihendaten des Merkmalswerts des Eingangssignals als Eingabe. Dann korrigiert die Korrektureinheit 32 die Wahrscheinlichkeit für Sprache, die unter Verwendung des synthetischen NN b auf der Basis der Korrekturwahrscheinlichkeit für Sprache berechnet wird.
  • Die Erfassungseinheit 33 erfasst die Sprachaktivität des Eingangssignals auf Basis eines Ergebnisses eines Vergleichs der Wahrscheinlichkeit für Sprache, die von der Korrektureinheit 32 korrigiert worden ist, mit einem Erfassungsschwellenwert Sth. Zum Beispiel erfasst die Erfassungseinheit 33 eine Aktivität, in der die Zeitreihendaten der korrigierten Wahrscheinlichkeit für Sprache für eine bestimmte Zeit oder länger kontinuierlich größer oder gleich dem Erfassungsschwellenwert Sth ist, als Sprachaktivität des Eingangssignals. Die Erfassungseinheit 33 gibt Informationen, die einen Startpunkt und einen Endpunkt der Sprachaktivität als Sprachaktivitätserfassungsergebnis aus.
  • Nun wird die Funktionsweise beschrieben.
    Zunächst wird eine Beschreibung der Trainingsverarbeitung durch die Trainingsvorrichtung 2 gegeben.
    4 ist ein Ablaufschema, das ein Modelltrainingsverfahren gemäß der ersten Ausführungsform darstellt.
    Zuerst trainiert die erste Trainingseinheit 20 das erste NN e unter Verwendung der Trainingsdaten a (Schritt ST1). Das erste NN e weist eine hierarchische Struktur auf, die eine Eingabeschicht, eine oder mehrere Zwischenschichten und eine Ausgabeschicht einschließt, und jede Schicht weist eine oder mehrere Einheiten auf.
  • 5 ist eine schematische Darstellung, welche die Struktur des ersten NN e darstellt, und Einheiten sind mit runden Formen dargestellt. In 5 ist ein Satz von Einheiten, die vertikal angeordnet sind, eine Schicht. Das erste NN e weist eine Eingabeschicht 40, eine Zwischenschicht 41 aus mehreren Schichten und eine Ausgabeschicht 42 auf. Die Eingabeschicht 40 weist Einheiten auf, wobei die Zahl der Einheiten der Zahl der Dimensionen des Merkmalswerts, der aus Eingangsdaten besteht, gleich ist und jede von diesen Einheiten mit einem Merkmalswert für jeweils eine von den Dimensionen assoziiert ist. Einheiten in Schichten außer der Eingabeschicht 40 sind mit Einheiten in einer unmittelbar vorausgehenden Schicht verbunden, und für jede der Verbindungen wird ein Eingabegewichtskoeffizient vergeben. Die unmittelbar vorausgehende Schicht ist eine Schicht, die auf der Seite der Eingabeschicht 40 der entsprechenden Schicht an jede Schicht angrenzt.
  • Die Ausgabeschicht 42 des ersten NN e weist eine Geräuscheinheit 42a und eine Spracheinheit 42b auf. Das erste NN e wird so trainiert, dass die Geräuscheinheit 42a einen hohen Wert ausgibt, wenn die Eingabe aus Geräuschen besteht, und die Spracheinheit 42b einen hohen Wert ausgibt, wenn die Eingabe Sprache ist.
  • Das Trainieren eines neuronalen Netzes ist eine Verarbeitung zur Bestimmung eines Eingabegewichtskoeffizienten, der ein Parameter des neuronalen Netzes ist. Zum Beispiel wird der Eingabegewichtskoeffizient des ersten NN e unter Verwendung des Fehlerrückführungsverfahrens trainiert. Beim Trainieren des Eingabegewichtskoeffizienten unter Verwendung des Fehlerrückführungsverfahrens stellt die erste Trainingseinheit 20 den Eingabegewichtskoeffizienten auf einen Zufallswert ein und aktualisiert dann allmählich den Wert des Eingabegewichtskoeffizienten, so dass eine Kreuzentropie der Trainingsdaten verringert wird. Die Wahrscheinlichkeit für Sprache, die auf diese Weise vom ersten NN e trainiert wird, wird als Differenz erhalten, die durch Subtrahieren eines Ausgabewerts der Geräuscheinheit 42a von einem Ausgabewert der Spracheinheit 42b in der Ausgabeschicht 42 erhalten wird.
  • Jede von mehreren Einheiten in der Eingabeschicht 40 gibt den Merkmalswert der entsprechenden Dimension unverändert aus. In der Zwischenschicht 41 wird in eine Einheit der Schicht, die an die mehreren Einheiten der Eingabeschicht 40 angrenzt, ein Wert eingegeben, der durch Multiplizieren von Ausgabewerten der entsprechenden mehreren Einheiten der Eingabeschicht 40 mit entsprechenden Eingabegewichtskoeffizienten, die jeweiligen Verbindungen zwischen den mehreren Einheiten der Eingabeschicht 40 und der Einheit der angrenzenden Schicht verliehen werden, und durch Addieren der Multiplikationsergebnisse erhalten wird. Die Einheit der Zwischenschicht 41 gibt einen Wert aus, der durch Umwandeln eines Eingabewerts durch eine nicht-lineare Funktion erhalten wird. Zum Beispiel wird eine logische sigmoidale Funktion als nicht-lineare Funktion verwendet.
  • Ebenso wird in eine Einheit einer folgenden Schicht der Zwischenschicht 41 auf der Seite der Ausgabeschicht 42 ein Wert eingegeben, der durch jeweiliges Multiplizieren von Ausgabewerten mehrerer Werte in der unmittelbar vorausgehenden Schicht mit entsprechenden Eingabegewichtskoeffizienten und durch Addieren der Multiplikationsergebnisse erhalten wird, und ein Wert wird ausgegeben, der durch Umwandeln des Eingabewerts durch eine nicht-lineare Funktion erhalten wird. In den Einheiten des ersten NN e werden diese Prozesse nacheinander bis zur Ausgabeschicht 42 durchgeführt, so dass der Ausgabewert der Geräuscheinheit 42a und der Ausgabewert der Spracheinheit 42b erhalten werden. Im Folgenden wird die Verarbeitung zur Berechnung des Ausgabewerts des neuronalen Netzes durch Eingeben des Merkmalswerts auf diese Weise als Ausgabewertberechnungsverarbeitung bezeichnet.
  • Die Beschreibung wird unter Verweis auf die Beschreibung von 4 fortgesetzt.
    Die Anfangswerterzeugungseinheit 21 erzeugt den NN-Anfangswert f auf der Basis der Parameter, die das erste NN e definieren (Schritt ST2). Ein neuronales Netz, das vom NN-Anfangswert f definiert wird, weist eine Struktur auf, in der eine neue Zwischenschicht zwischen die letzte Schicht der Zwischenschicht 41 und die Ausgabeschicht 42 im ersten NN e eingefügt wird. Es wird angenommen, dass die Zahl der Einheiten in der neu eingefügten Zwischenschicht kleiner ist als die Zahl der Einheiten in der letzten Schicht der Zwischenschicht 41. Wenn zum Beispiel die Zahl der Einheiten in der letzten Schicht der Zwischenschicht 41 256 ist, ist die Zahl der Einheiten in der neu eingeführten Zwischenschicht 16.
  • Für den NN-Anfangswert f werden ein Eingabegewichtskoeffizient, der den einzelnen Verbindungen zwischen Einheiten der letzten Schicht der Zwischenschicht 41 und Einheiten der neu eingefügten Zwischenschicht verliehen wird, und ein Eingabegewichtskoeffizient, der den einzelnen Verbindungen zwischen den Einheiten der neu eingefügten Zwischenschicht und Einheiten der Ausgabeschicht verliehen wird, auf Zufallswerte eingestellt.
    Es sei bemerkt, dass für einen Eingabegewichtskoeffizienten, der für die einzelnen Verbindungen in Schichten außer diesen verliehen wird, der gleiche Wert wie der des ersten NN e für den ersten NN-Anfangswert f eingestellt wird.
  • Dann trainiert die zweite Trainingseinheit 22 das zweite NN g zur Unterscheidung zwischen Geräusch und Sprache unter Verwendung des NN-Anfangswerts f und der Trainingsdaten a (Schritt ST3). Zum Beispiel trainiert die zweite Trainingseinheit 22 Parameter des zweiten NN g unter Verwendung des Fehlerrückführungsverfahrens.
  • 6 ist eine schematische Darstellung, die eine Struktur des zweiten NN g darstellt, und stellt die Struktur des zweiten NN g dar, das unter Verwendung des NN-Anfangswerts f, der auf Basis des ersten NN e, der in 5 dargestellt ist, erhalten wird. Zum Beispiel trainiert die zweite Trainingseinheit 22 unter Verwendung des Fehlerrückführungsverfahrens die Eingabegewichtskoeffizienten, die auf Zufallswerte eingestellt sind, für den NN-Anfangswert f, so dass die Geräuscheinheit 42a einen hohen Wert ausgibt, wenn die Eingabe aus Geräuschen besteht, und die Spracheinheit 42b einen hohen Wert ausgibt, wenn die Eingabe Sprache ist.
  • Eingabegewichtskoeffizienten, die trainiert werden sollen, sind Eingabegewichtskoeffizienten, die Verbindungen B1 zwischen Einheiten der letzten Schicht der Zwischenschicht 41 und Einheiten der neu eingefügten Zwischenschicht verliehen werden, und Eingabegewichtskoeffizienten, die Verbindungen B2 zwischen den Einheiten der neu eingefügten Zwischenschicht und Einheiten der Ausgabeschicht verliehen werden, die in 6 dargestellt sind. Eingabegewichtskoeffizienten, die Verbindungen zwischen Einheiten in Schichten außer diesen verliehen werden, werden nicht trainiert.
  • Durch Trainieren des zweiten NN g auf diese Weise unterscheiden sich die Eingabegewichtskoeffizienten, die den Verbindungen B1 und den Verbindungen B2 im zweiten NN g verliehen werden, von denen des ersten NN e verschieden. Die Zahl der Einheiten und die Eingabegewichtskoeffizienten, die Verbindungen zwischen Einheiten in den Schichten außer diesen verliehen werden (ein Teil wird in 6 mit einem Bezugszeichen A bezeichnet), sind denen im ersten NN e gleich. Wie oben beschrieben, wird das zweite NN g so trainiert, dass die Einheiten in der Ausgabeschicht 42 den Bottleneck-Merkmalswert ausgeben, der für die Unterscheidung zwischen Geräusch und Sprache geeignet sind.
  • Anschließend erzeugt die Netzerzeugungseinheit 23 das dritte NN h unter Verwendung des zweiten NN g (Schritt ST4). Das dritte NN h weist eine Struktur auf, in der die Ausgabeschicht 42 des zweiten NN g entfernt worden ist und die letzte Schicht der Zwischenschicht 41 die neue Ausgabeschicht ist.
  • 7 ist eine schematische Darstellung, die die Struktur des dritten NN h darstellt und das dritte NN h darstellt, das unter Verwendung des in 6 dargestellten zweiten NN g erzeugt wird. Die Struktur des dritten NN h, das in 7 dargestellt ist, ist der Struktur gleich, die durch Entfernen der Ausgabeschicht 42 aus dem zweiten, in 6 dargestellten NN g erhalten wird, und ein Teil, der nicht die letzte Schicht der Zwischenschicht 41 ist, die in 6 dargestellt ist, ist eine Zwischenschicht 43, und die letzte Schicht der Zwischenschicht 41 ist eine Ausgabeschicht 44.
  • In 7 sind die Zahl der Einheiten und die Werte der Eingabegewichtskoeffizienten eines Teils, der von einem Bezugszeichen B bezeichnet wird (der Eingabeschicht 40 und der Zwischenschicht 43) die gleichen Werte wie die des in 6 dargestellten zweiten NN g. Da das zweite NN g so trainiert wurde, dass der Ausgabewert der Einheiten der Ausgabeschicht 42 für die Unterscheidung zwischen Geräusch und Sprache geeignet ist, ist der Bottleneck-Merkmalswert, der von der Ausgabeschicht 44 des dritten NN h ausgegeben wird, ein Wert, der sich für die Unterscheidung zwischen Geräusch und Sprache eignet.
  • Dann erzeugt de Syntheseeinheit 24 das synthetische NN b unter Verwendung des ersten NN e und des dritten NN h (Schritt ST5). Das synthetische NN b weist die gleiche Struktur auf wie die Struktur außer der Ausgabeschicht mit sowohl dem ersten NN e als auch dem dritten NN h und ist dafür ausgelegt, die Wahrscheinlichkeit für Sprache, die ein Ausgabewert des ersten NN e ist, und den Bottleneck-Merkmalswert, welcher der Ausgabewert des dritten NN h ist, zu berechnen.
  • 8 ist eine schematische Darstellung, die eine Struktur des synthetischen NN b darstellt und das synthetische NN b darstellt, das unter Verwendung des in 7 dargestellten dritten NN h erzeugt wird. In dem synthetischen NN b sind die Zahl der Einheiten und die Werte der Eingabegewichtskoeffizienten von der Eingabeschicht 40 zur letzten Schicht der Zwischenschicht 43 die gleichen Werte wie die des ersten NN e. Eine Ausgabeschicht 45 des synthetischen NN b weist die Geräuscheinheit 42a und die Spracheinheit 42b, die in eine Gruppe 42A klassifiziert sind, und mehrere Einheiten, die in eine Gruppe 44A klassifiziert sind, auf.
  • Die Geräuscheinheit 42a und die Spracheinheit 42b, die in die Gruppe 42A klassifiziert sind, entsprechen den Einheiten der Ausgabeschicht 42 des ersten NN e. Für Verbindungen zwischen der Geräuscheinheit 42a und der Spracheinheit 42b und Einheiten einer Schicht, die der Ausgabeschicht 45 unmittelbar vorangeht, werden Eingabegewichtskoeffizienten mit den gleichen Werten wie für die Eingabegewichtskoeffizienten, die den Verbindungen zwischen den Einheiten der letzten Schicht der Zwischenschicht 41 und den Einheiten der Ausgabeschicht 42 im ersten NN e verliehen werden, verliehen.
  • Die mehreren Einheiten, die in die Gruppe 44A klassifiziert sind, entsprechen den Einheiten der Ausgabeschicht 44 des dritten NN h. Für Verbindungen zwischen den mehreren Einheiten, die in die Gruppe 44A klassifiziert sind, und den Einheiten der Schicht, die der Ausgabeschicht 45 unmittelbar vorangeht, werden Eingabegewichtskoeffizienten mit den gleichen Werten wie für die Eingabegewichtskoeffizienten, die den Verbindungen zwischen den Einheiten der letzten Schicht der Zwischenschicht 43 des dritten NN h und den Einheiten der Ausgabeschicht 44 verliehen werden, verliehen.
  • Von der Eingabeschicht 40 zur letzten Schicht der Zwischenschicht 43 im synthetischen NN b sind die Zahl der Einheiten und die Eingabegewichtskoeffizienten denen von der Eingabeschicht zur letzten Schicht der Zwischenschicht in jedem vom ersten NN e und dritten NN h gleich. Aus diesem Grund ist der Ausgabewert der letzten Schicht der Zwischenschicht 43 des synthetischen NN b der gleiche Wert wie der Ausgabewert der letzten Schicht der Zwischenschicht von jedem vom ersten NN e und dritten NN h. Wie oben beschrieben ist im synthetischen NN b die Ausgabewertberechnungsverarbeitung von der Eingabeschicht zur letzten Schicht der Zwischenschicht bei jedem vom ersten NN e und dritten NN h gleich, so dass die Wahrscheinlichkeit für Sprache, die eine Ausgabe des ersten NN e ist, und der Bottleneck-Merkmalswert, der die Ausgabe des dritten NN h ist, effizient berechnet werden kann.
  • Die Ausgabewerte der Einheiten der Ausgabeschicht 45 können unter Verwendung der Eingabegewichtskoeffizienten, die den Verbindungen zwischen den Einheiten von sowohl der Ausgabeschicht 42 des ersten NN e als auch der Ausgabeschicht 44 des dritten NN e und den Einheiten der entsprechenden unmittelbar vorausgehenden Schicht verliehen werden, berechnet werden. Außerdem kann der Ausgabewert der Einheiten der Ausgabeschicht 42 des ersten NN e als Ausgabewert der Einheiten berechnet werden, die in die Gruppe 42A klassifiziert sind, und der Ausgabewert der Einheiten der Ausgabeschicht 44 des dritten NN h kann als Ausgabewert der Einheiten berechnet werden, die in die Gruppe 44A klassifiziert sind.
  • Die Modelltrainingseinheit 25 trainiert das GMM c für Geräusch und Sprache unter Verwendung des Bottleneck-Merkmalswerts, der vom dritten NN h berechnet wird, und der Trainingsdaten a (Schritt ST6).
    Zum Beispiel gibt die Modelltrainingseinheit 25 nacheinander Spektrummerkmalswerte der Geräuschdaten, die in den Lerndaten enthalten sind, einen nach dem anderen in das dritte NN h ein. Das dritte NN h berechnet einen Bottleneck-Merkmalswert, der sich für die Unterscheidung zwischen Geräusch und Sprache eignet, in Bezug auf den Spektrummerkmalswert der Geräuschdaten und gibt den berechneten Bottleneck-Merkmalswert an die Modelltrainingseinheit 25 aus. Die Modelltrainingseinheit 25 merkt sich den Bottleneck-Merkmalswert, der vom dritten NN h berechnet wird.
  • Nachdem sie sich die Bottleneck-Merkmalswerte, die für all die Spektrummerkmalswerte in den Geräuschwerten berechnet worden sind, gemerkt hat, trainiert die Modelltrainingseinheit 25 ein Gaußsches Mischmodell für Geräusche unter Verwendung dieser Merkmalswerte. Wenn das Verfahren zum Schätzen der höchsten Wahrscheinlichkeit zum Trainieren des Gaußschen Mischmodells verwendet wird, berechnet die Modelltrainingseinheit 25 den Durchschnittswert, das Varianzgewicht und das Mischgewicht der Merkmalswerte, die Parameter des Gaußschen Mischmodells sind, so, dass eine Wahrscheinlichkeit des Spektrummerkmalswerts, die in den Trainingsdaten a enthalten sind, maximiert wird.
    Es sei bemerkt, dass die Modelltrainingseinheit 25 ein Gaußsches Mischmodell von Sprache in einem ähnlichen Ablauf auch für Sprachdaten trainiert. Das GMM c für Geräusch und Sprache weist das Gaußschen Mischmodell für Geräusch und das Gaußsche Mischmodell für Sprache auf, die auf diese Weise trainiert wurden.
  • Der Bottleneck-Merkmalswert, der vom dritten NN h berechnet wird, ist ein Merkmalswert, der für eine Unterscheidung zwischen Geräusch und Sprache geeignet ist. Aus diesem Grund kann die Trainingsverarbeitung des Gaußschen Mischmodells in der ersten Ausführungsform die Zahl der Mischungen im Vergleich zu dem Fall verringern, in dem das Gaußsche Mischungsverteilungsmodell unter Verwendung des Spektrummerkmalswerts (MFCC), der in den Trainingsdaten a enthalten ist, trainiert wird. Somit ist es in der Trainingsvorrichtung 2 möglich, die Speicherkapazität und die Menge der Berechnungen, die für die Trainingsverarbeitung nötig sind, zu verringern.
  • Im Gaußschen Mischmodell können ein Geräuschmodell und ein Sprachmodell unabhängig trainiert werden, wie das GMM c für Geräusch und Sprache.
    Dagegen können beim Trainieren des neuronalen Netzes die Geräuscheinheit und die Spracheinheit in der Ausgabeschicht nicht unabhängig trainiert werden, und häufig wird eine längere Trainingszeit benötigt als im Gaußschen Mischmodell.
    Wenn Geräusche einer neuen Geräuschumgebung trainiert werden, muss die Trainingsvorrichtung 2 nur das Gaußsche Mischmodell für Geräusche als das GMM c für Geräusch und Sprache trainieren, so dass ein schnelles Training möglich ist.
  • Man beachte, dass zwar eine Unterscheidung zwischen Geräusch und Sprache beschrieben wurde, die Trainingsvorrichtung 2 aber das synthetische NN b und das GMM c für Geräusch und Sprache darauf trainieren kann, Geräusch und Vokale zu unterscheiden. In diesem Fall ist es möglich, die Trainingsdaten a einschließlich von Spektrummerkmalswerten verschiedener Geräuschdaten und Spektrummerkmalswerten verschiedener Vokaldaten zu verwenden.
  • Es folgt eine Beschreibung der Sprachaktivitätserfassungsverarbeitung durch den Sprachaktivitätsdetektor 3.
    9 ist ein Ablaufschema, das ein Verfahren zum Erfassen einer Sprachaktivität gemäß der ersten Ausführungsform darstellt.
    Die Analyseeinheit 30 analysiert einen Merkmalswert eines Eingangssignals und erzeugt Zeitreihendaten des Merkmalswerts des Eingangssignals (Schritt ST1A). Zum Beispiel analysiert die Analyseeinheit 30 den Spektrummerkmalswert des Eingangssignals und erzeugt dadurch Zeitreihendaten, in denen Merkmalswerte x(t) (t = 1, 2, 3, ..., T) als Analyseergebnisse in bestimmten Zeitintervallen angeordnet sind. Hierbei ist T die Länge der Zeitreihe. Das Zeitintervall zum Anordnen der Merkmalswerte x(t) ist beispielsweise 10 Millisekunden. Arten der Merkmalswerte des Eingangssignals, das von der Analyseeinheit 30 analysiert wird, sind die gleichen wie die Arten des Merkmalswerts der Geräuschdaten und des Merkmalswerts der Sprachdaten, die in den Trainingsdaten a enthalten sind. Zum Beispiel erzeugt die Analyseeinheit 30 Zeitreihendaten des MFCC des Eingangssignals.
  • Zuerst analysiert die Analyseeinheit 30 den Merkmalswert des Eingangssignals im Geräuschtrainingsabschnitt und erzeugt die Zeitreihendaten des Merkmalswerts des Eingangssignals. Die Zeitreihendaten des Merkmalswerts des Eingangssignals im Geräuschtrainingsabschnitt wird von der Analyseeinheit 30 an die Modelltrainingseinheit 31 ausgegeben. Zum Beispiel kann für den Geräuschtrainingsabschnitt ein Zeitabschnitt von dann, wenn der Betrieb des Sprachaktivitätsdetektors 3 gestartet wird, bis dann, wenn 0,5 Sekunden vergangen sind, als Geräuschtrainingsabschnitt betrachtet werden.
    Dann analysiert die Analyseeinheit 30 in einem Zeitabschnitt nach dem Geräuschtrainingsabschnitt, das heißt in einem Zeitabschnitt, in dem Geräusch und Sprache im Eingangssignal gemischt sein können, den Merkmalswert des Eingangssignals und erzeugt die Zeitreihendaten des Merkmalswerts des Eingangssignals. Die Zeitreihendaten des Merkmalswerts des Eingangssignals in diesem Zeitabschnitt wird von der Analyseeinheit 30 an die Korrektureinheit 32 ausgegeben.
  • Nach dem Empfang der Zeitreihendaten des Merkmalswerts des Eingangssignals im Geräuschtrainingsabschnitt aus der Analyseeinheit 30 trainiert die Modelltrainingseinheit 31 das Geräusch-GMM d unter Verwendung des synthetischen NN b mit den Zeitreihendaten als Eingabe (Schritt ST2A). Zum Beispiel gibt die Modelltrainingseinheit 31 die Merkmalswerte in den Zeitreihendaten einen nach dem anderen in das synthetische NN b ein und bewirkt, dass der Bottleneck-Merkmalswert, der für eine Unterscheidung zwischen Geräusch und Sprache geeignet ist, für jeden der Merkmalswerte berechnet wird. Der Bottleneck-Merkmalswert, der vom synthetischen NN b für jeden von den Merkmalswerten berechnet wird, wird in der Modelltrainingseinheit 31 gemerkt. Nachdem sie sich die Bottleneck-Merkmalswerte für all die Merkmalswerte in den Zeitreihendaten gemerkt hat, trainiert die Modelltrainingseinheit 31 das Geräusch-GMM d unter Verwendung dieser Bottleneck-Merkmalswerte.
  • Zum Trainieren des Geräusch-GMM d wird beispielsweise ein Verfahren zum Schätzen einer höchsten Wahrscheinlichkeit verwendet. Hierbei wird angenommen, dass die Zahl der Mischungen des Gaußschen Mischmodells eins ist. Wie oben beschrieben, gibt die Analyseeinheit 30 den Merkmalswert alle 10 Millisekunden an die Modelltrainingseinheit 31 aus. Wenn der Geräuschtrainingsabschnitt 0,5 Sekunden beträgt, trainiert die Modelltrainingseinheit 31 das Geräusch-GMM d unter Verwendung von 0,5 Sekunden/10 Millisekunden = 50 Merkmalswerten. Es sei bemerkt, dass jüngere Computer das Geräusch-GMM d mit einer sehr hohen Geschwindigkeit für etwa 50 Merkmalswerte trainieren können.
  • Die Korrektureinheit 32 berechnet die Korrekturwahrscheinlichkeit für Sprache unter Verwendung des GMM c für Geräusch und Sprache und des Geräusch-GMM d mit den Zeitreihendaten des Merkmalswerts des Eingangssignals als Eingabe und korrigiert die Wahrscheinlichkeit für Sprache, die von dem synthetischen NN b berechnet wird, mit den Zeitreihendaten des Merkmalswerts des Eingangssignals als Eingabe auf Basis der Korrekturwahrscheinlichkeit für Sprache (Schritt ST3A). Zum Beispiel berechnet die Korrektureinheit 32 eine korrigierte Wahrscheinlichkeit für Sprache Sv2(t) unter Verwendung einer Korrekturwahrscheinlichkeit für Sprache So(t) (t = 1, 2, 3, ..., T) für jeden von den Merkmalswerten des Eingangssignals.
  • Die Erfassungseinheit 33 erfasst die Sprachaktivität des Eingangssignals auf Basis eines Ergebnisses eines Vergleichs der korrigierten Wahrscheinlichkeit für Sprache Sv2(t) mit dem Erfassungsschwellenwert Sth (Schritt ST4A). Zum Beispiel erfasst die Erfassungseinheit 33 einen Zeitabschnitt, in dem die korrigierte Wahrscheinlichkeit für Sprache Sv2(t) für eine bestimmte Zeit oder länger kontinuierlich größer oder gleich dem Erfassungsschwellenwert Sth ist, als Sprachaktivität des Eingangssignals. Der Erfassungsschwellenwert Sth ist ein Schwellenwert in Bezug auf eine Wahrscheinlichkeit für Sprache, die als Sprachaktivität bestimmt wird. Die Erfassungseinheit 33 stellt eine Zeit t, zu der die korrigierte Wahrscheinlichkeit für Sprache Sv2(t) zum ersten Mal größer oder gleich dem Erfassungsschwellenwert Sth ist, als Startzeit Tb der Sprachaktivität ein und stellt eine Zeit t, zu der die korrigierte Wahrscheinlichkeit für Sprache Sv2(t) das letzte Mal größer oder gleich dem Erfassungsschwellenwert Sth ist, als Endzeit Te der Sprachaktivität ein. Die Erfassungseinheit 33 gibt die Zeit Tb und die Zeit Te als Sprachaktivitätserfassungsergebnisse aus.
  • Nun wird die Verarbeitung zum Korrigieren der Wahrscheinlichkeit für Sprache ausführlich beschrieben.
    10 ist ein Ablaufschema, das die Verarbeitung zum Korrigieren der Wahrscheinlichkeit für Sprache in der ersten Ausführungsform darstellt, und stellt eine ausführliche Verarbeitung des Schrittes ST3A von 9 dar.
    Die Korrektureinheit 32 gibt den Merkmalswert x(t) (t = 1, 2, 3, ..., T) des Eingangssignals aus den Zeitreihendaten, die in dem Zeitabschnitt nach dem Geräuschtrainingsabschnitt erzeugt worden sind, in den synthetischen NN b für jede Zeit t ein. Das synthetische NN b berechnet eine Wahrscheinlichkeit für Sprache Sv(t) für jeden Merkmalswert x(t) (Schritt ST1B). Die Wahrscheinlichkeit für Sprache Sv(t) wird als Differenz erhalten, die durch Subtrahieren des Ausgabewerts der Geräuscheinheit 42a vom Ausgabewert der Spracheinheit 42b erhalten wird.
  • Mit dem Merkmalswert x(t) des Eingangssignals als Eingabe berechnet die Korrektureinheit 32 eine Log-Likelihood Ln(t) des Gaußschen Mischmodells für Geräusche und eine Log-Likelihood Lv(t) des Gaußschen Mischmodells für Sprache für jeden Merkmalswert x(t). Ferner berechnet die Korrektureinheit 32 mit dem Merkmalswert x(t) des Eingangssignals als Eingabe eine Log-Likelihood Ln2(t) des Geräusch-GMM d für jeden Merkmalswert x(t). Hierbei sind das Gaußsche Mischmodell für Geräusche und das Gaußsche Mischmodell für Sprache Mischmodelle, die das GMM c für Geräusch und Sprache bilden. Außerdem ist die Log-Likelihood ein natürlicher Logarithmus eines Wertes, der durch eine gewichtete Summe von Wahrscheinlichkeitsdichten der Merkmalswerte in den Gaußschen Verteilungen erhalten wird, die von dem Gaußschen Mischmodell angegeben werden, wobei die Wahrscheinlichkeitsdichten durch Mischgewichte der jeweiligen Gaußschen Verteilungen gewichtet werden.
  • Die Korrektureinheit 32 berechnet die Korrekturwahrscheinlichkeit für Sprache So(t) aus der folgenden Gleichung (1) unter Verwendung der Log-Likelihood Lv(t), Ln(t) und Ln2(t) (Schritt ST2B). In der folgenden Gleichung (1) ist MAX (Ln(t), Ln2(t)) ein Operator, der angibt, dass von Ln(t) und Ln2(t) ein größerer Wert ausgewählt wird. So ( t ) = Lv ( t ) MAX ( Ln ( t ) , Ln2 ( t ) )
    Figure DE112018006885T5_0001
  • Die Log-Likelihood Ln2(t) des Geräusch-GMM d wird aus dem Geräusch-GMM d berechnet, der im Geräuschtrainingsabschnitt trainiert wird, und eine Zeitdifferenz zwischen dem Geräuschtrainingsabschnitt und der aktuellen Zeit t ist klein. Aus diesem Grund wird erwartet, dass die Geräuschumgebung zur aktuellen Zeit t fast die gleiche ist wie die des Geräuschtrainingsabschnitts. Die Log-Likelihood Ln2(t) des Geräusch-GMM d für laute Geräusche hat einen großen Wert, und die Korrekturwahrscheinlichkeit für Sprache So(t), die aus der Gleichung (1) berechnet wird, hat einen niedrigen Wert. Das heißt, auch in einer unbekannten Geräuschumgebung, die nicht in den Trainingsdaten a enthalten ist, weist die Korrekturwahrscheinlichkeit für Sprache So(t) einen niedrigen Wert auf, wenn das Eingangssignal nicht aus Sprache, sondern aus Geräusch besteht.
  • Die Korrektureinheit 32 bestimmt mit der folgenden Gleichung (2), ob die Korrekturwahrscheinlichkeit für Sprache So(t) geringer ist als α (Schritt ST3B). Das Symbol α ist eine Konstante, die in der Korrektureinheit 32 als erster Schwellenwert in Bezug auf die Korrekturwahrscheinlichkeit für Sprache So(t) eingestellt ist. In der Korrektureinheit 32 wird ein Wert α eingestellt, der in Versuchen vorab bestimmt wird, so dass das Eingabesignal mit hoher Wahrscheinlichkeit als Geräusch unterschieden wird (beispielsweise mit einer Wahrscheinlichkeit von größer oder gleich 95 %), wenn die Korrekturwahrscheinlichkeit für Sprache So(t) kleiner ist als α.
    Wenn die Korrekturwahrscheinlichkeit für Sprache So(t) kleiner ist als α (Schritt ST3B: JA), stellt die Korrektureinheit 32 Z als Korrekturwahrscheinlichkeit für Sprache Sv2(t) ein (Schritt ST4B-1). Das Symbol Z ist ein konstanter Wert, der kleiner ist als der Erfassungsschwellenwert Sth.
    Wenn die Korrekturwahrscheinlichkeit für Sprache So(t) größer oder gleich α ist (Schritt ST3B: NEIN), stellt die Korrektureinheit 32 die Wahrscheinlichkeit für Sprache Sv(t), die im synthetischen NN b berechnet worden ist, unverändert als korrigierte Wahrscheinlichkeit für Sprache Sv2(t) ein (Schritt ST4B-2). Sv2 ( t ) = ( So ( t ) < α )
    Figure DE112018006885T5_0002
    Sv2 ( t ) = Sv ( t ) ( So ( t ) α )
    Figure DE112018006885T5_0003
  • Die Korrektureinheit 32 gibt nacheinander die korrigierte Wahrscheinlichkeit für Sprache Sv2(t) für jede Zeit an die Erfassungseinheit 33 aus (Schritt ST5B). Auch wenn die Genauigkeit der Berechnung der Wahrscheinlichkeit für Sprache Sv(t) in der unbekannten Geräuschumgebung abnimmt und daher die Wahrscheinlichkeit für Sprache Sv(t) einen höheren Wert in der Sprachaktivität aufweist, stellt die Korrektureinheit 32 Z, das ist ein Wert, der kleiner ist als der Erfassungsschwellenwert Sth, als die Wahrscheinlichkeit für Sprache Sv2(t) ein, falls die Korrekturwahrscheinlichkeit für Sprache So(t) kleiner ist als α. Infolgedessen kann verhindert werden, dass die Erfassungseinheit 33 die Geräuschaktivität fälschlicherweise als Sprachaktivität erfasst. Die Korrektureinheit 32 führt eine Reihe von Verarbeitungsschritten, die in 10 dargestellt sind, von der Zeit t = 1 bis T wiederholt aus und gibt die Zeitreihendaten der korrigierten Wahrscheinlichkeit für Sprache Sv2(t) an die Erfassungseinheit 33 aus.
  • Das Verfahren zum Berechnen der korrigierten Wahrscheinlichkeit für Sprache Sv2(t) ist nicht auf die Verarbeitung beschränkt, die auf der Gleichung (2) basiert. Zum Beispiel kann die Korrektureinheit 32 die korrigierte Wahrscheinlichkeit für Sprache Sv2(t) berechnen wie unten beschrieben. 11 ist ein Ablaufschema, das einen anderen Modus der Verarbeitung zum Korrigieren der Wahrscheinlichkeit für Sprache in der ersten Ausführungsform darstellt. Die Verarbeitung von Schritt ST1C bis Schritt ST2C in 11 ist die gleiche wie die Verarbeitung von Schritt ST1B bis Schritt ST2B in 10, so dass auf ihre Beschreibung verzichtet wird.
  • Die Korrektureinheit 32 bestimmt mit der folgenden Gleichung (3), ob die Korrekturwahrscheinlichkeit für Sprache So(t) geringer ist als β (Schritt ST3C). Wenn die Korrekturwahrscheinlichkeit für Sprache So(t) kleiner ist als β (Schritt ST3C: JA), stellt die Korrektureinheit 32 [Sv(t) - γ*{β - So(t)}] als die korrigierte Wahrscheinlichkeit für Sprache Sv3(t) ein (Schritt ST4C-1). Das Symbol β ist eine Konstante, die in der Korrektureinheit 32 als zweiter Schwellenwert in Bezug auf die Korrekturwahrscheinlichkeit für Sprache So(t) eingestellt ist. Das Symbol γ ist eine positive Konstante.
    In der Korrektureinheit 32 werden Werte für β und γ zum Ableiten von γ*{β - So(t)} eingestellt, durch die der Wert der korrigierten Wahrscheinlichkeit für Sprache Sv3(t) kleiner ist als der Erfassungsschwellenwert, und vorab eingestellt, so dass das Eingabesignal mit hoher Wahrscheinlichkeit als Geräusch unterschieden wird (beispielsweise mit einer Wahrscheinlichkeit von größer oder gleich 95 %), wenn die Korrekturwahrscheinlichkeit für Sprache So(t) kleiner ist als β.
    Wenn die Korrekturwahrscheinlichkeit für Sprache So(t) größer oder gleich β ist (Schritt ST3C: NEIN), stellt die Korrektureinheit 32 die Wahrscheinlichkeit für Sprache Sv(t), die im synthetischen NN b berechnet worden ist, unverändert als korrigierte Wahrscheinlichkeit für Sprache Sv3(t) ein (Schritt ST4C-2). Sv 3 ( t ) = Sv ( t ) γ * { β− So ( t ) } ( So ( t ) < β )
    Figure DE112018006885T5_0004
    Sv 3 ( t ) = Sv ( t )   ( So ( t ) β )
    Figure DE112018006885T5_0005
  • Die Korrektureinheit 32 gibt nacheinander die korrigierte Wahrscheinlichkeit für Sprache Sv3(t) für jede Zeit an die Erfassungseinheit 33 aus (Schritt ST5C). Auch wenn die Genauigkeit der Berechnung der Wahrscheinlichkeit für Sprache Sv(t) durch das synthetische NN b in der unbekannten Geräuschumgebung abnimmt und daher die Wahrscheinlichkeit für Sprache Sv(t) einen hohen Wert in der Sprachaktivität aufweist, berechnet die Korrektureinheit 32 die korrigierte Wahrscheinlichkeit für Sprache Sv3(t) so, dass die Wahrscheinlichkeit für Sprache Sv(t) so weit verringert ist, dass sie geringer ist als der Erfassungsschwellenwert Sth, falls die Korrekturwahrscheinlichkeit für Sprache So(t) kleiner ist als β. Infolgedessen kann verhindert werden, dass die Erfassungseinheit 33 die Geräuschaktivität fälschlicherweise als Sprachaktivität erfasst. Die Korrektureinheit 32 führt eine Reihe von Verarbeitungsschritten, die in 11 dargestellt sind, von der Zeit t = 1 bis T wiederholt aus und gibt die Zeitreihendaten der korrigierten Wahrscheinlichkeit für Sprache Sv3(t) an die Erfassungseinheit 33 aus.
  • Funktionen der ersten Trainingseinheit 20, der Anfangswerterzeugungseinheit 21, der zweiten Trainingseinheit 22, der Netzerzeugungseinheit 23, der Syntheseeinheit 24 und der Modelltrainingseinheit 25 in der Trainingsvorrichtung 2 werden durch eine Verarbeitungsschaltung implementiert. Das heißt, die Trainingsvorrichtung 2 schließt die Verarbeitungsschaltung zum Ausführen der Verarbeitung ab Schritt ST1 bis Schritt ST6 ein, die in 4 dargestellt ist.
  • Ebenso werden Funktionen der Analyseeinheit 30, der Modelltrainingseinheit 31, der Korrektureinheit 32 und der Erfassungseinheit 33 im Sprachaktivitätsdetektor 3 von einer Verarbeitungsschaltung implementiert. Das heißt, der Sprachaktivitätsdetektor 3 weist die Verarbeitungsschaltung zum Ausführen der Verarbeitung ab Schritt ST1A bis Schritt ST4A auf, die in 9 dargestellt ist. Jede von den Verarbeitungsschaltungen kann zweckbestimmte Hardware oder eine zentrale Verarbeitungseinheit (CPU) zum Ausführen eines in einem Speicher gespeicherten Programms sein.
  • 12A ist ein Blockschema, das eine Hardware-Konfiguration zum Implementieren einer Funktion der Trainingsvorrichtung 2 oder des Sprachaktivitätsdetektors 3 darstellt. 12B ist ein Blockschema, das eine Hardware-Konfiguration zur Ausführung von Software zur Implementierung der Funktion der Trainingsvorrichtung 2 oder des Sprachaktivitätsdetektors 3 darstellt.
    Wenn die Trainingsvorrichtung 2 die in 12A oder 12B dargestellte Hardware-Konfiguration aufweist, speichert eine Speichervorrichtung 100 Parameter des trainierten neuronalen Netzes und Parameter des trainierten GMM c für Geräusch und Sprache zusätzlich zu den Trainingsdaten a und dem NN-Anfangswert f. Die Parameter des trainierten neuronalen Netzes sind beispielsweise strukturelle Daten, welche die Struktur von sowohl dem synthetischen NN b, dem ersten NN e, dem zweiten NN g und dem dritten NN h und die trainierten Eingabegewichtskoeffizienten definieren.
  • Wenn der Sprachaktivitätsdetektor 3 die in 12A oder 12B dargestellte Hardware-Konfiguration aufweist, speichert die Speichervorrichtung 100 die Parameter des trainierten synthetischen Netzes NN b, die Parameter des trainierten GMM c für Geräusch und Sprache und Parameter des trainierten Geräusch-GMM d.
    Es sei bemerkt, dass die Speichervorrichtung 100 von der Trainingsvorrichtung 2 und dem Sprachaktivitätsdetektor 3 gemeinsam genutzt werden kann. Ferner kann die Speichervorrichtung 100 ein wichtiges Element sein, das in der Trainingsvorrichtung 2 oder dem Sprachaktivitätsdetektor 3 enthalten ist, oder kann in einer Vorrichtung enthalten sein, die von der Trainingsvorrichtung 2 und dem Sprachaktivitätsdetektor 3 unabhängig ist. Zum Beispiel kann die Speichervorrichtung 100 eine Vorrichtung an einem Kommunikationsnetz sein, auf das durch eine Kommunikation von der Lernvorrichtung 2 und dem Sprachaktivitätsdetektor 3 zugegriffen werden kann.
  • Wenn die in der Trainingsvorrichtung 2 oder dem Sprachaktivitätsdetektor 3 enthaltene Verarbeitungsschaltung eine zweckgebundene Hardware-Verarbeitungsschaltung 101 ist, die in 12A dargestellt ist, schließen Beispiele für die Verarbeitungsschaltung 101 eine einzelne Schaltung, eine zusammengesetzte Schaltung, einen programmierten Prozessor, eine anwendungsspezifische integrierte Schaltung (ASIC), eine im Feld programmierbare Gatteranordnung (FPGA) oder eine Kombination davon ein. Die Funktionen der ersten Trainingseinheit 20, der Anfangswerterzeugungseinheit 21, der zweiten Trainingseinheit 22, der Netzerzeugungseinheit 23, der Syntheseeinheit 24 und der Modelltrainingseinheit 25 in der Trainingsvorrichtung 2 können durch separate Verarbeitungsschaltungen implementiert werden, oder diese Funktionen können gemeinsam durch eine einzige Verarbeitungsschaltung implementiert werden. Die Funktionen der Analyseeinheit 30, der Modelltrainingseinheit 31, der Korrektureinheit 32 und der Erfassungseinheit 33 im Sprachaktivitätsdetektor 3 können durch separate Verarbeitungsschaltungen implementiert werden, oder diese Funktionen können gemeinsam von einer einzigen Verarbeitungsschaltung implementiert werden.
  • Wenn die Verarbeitungsschaltung ein Prozessor 102 ist, der in 12B dargestellt ist, werden die Funktionen der ersten Trainingseinheit 20, der Anfangswerterzeugungseinheit 21, der zweiten Trainingseinheit 22, der Netzerzeugungseinheit 23, der Syntheseeinheit 24 und der Modelltrainingseinheit 25 in der Trainingsvorrichtung 2 durch Software, Firmware oder eine Kombination aus Software und Firmware implementiert. Außerdem werden die Funktionen der Analyseeinheit 30, der Modelltrainingseinheit 31, der Korrektureinheit 32 und der Erfassungseinheit 33 im Sprachaktivitätsdetektor 3 durch Software, Firmware oder eine Kombination aus Software und Firmware implementiert. Es sei bemerkt, dass die Software oder die Firmware als Programm beschrieben und im Speicher 103 gespeichert wird.
  • Der Prozessor 102 liest und führt das im Speicher 103 gespeicherte Programm aus, wodurch die Funktionen der ersten Trainingseinheit 20, der Anfangswerterzeugungseinheit 21, der zweiten Trainingseinheit 22, der Netzerzeugungseinheit 23, der Syntheseeinheit 24 und der Modelltrainingseinheit 25 in der Trainingsvorrichtung 2 implementiert werden. Das heißt, die Lernvorrichtung 2 schließt den Speicher 103 zum Speichern von Programmen ein, durch welche als Ergebnis die Verarbeitung ab Schritt ST1 bis Schritt ST6 ein, die in 4 dargestellt ist, ausgeführt wird, wenn sie von dem Prozessor 102 ausgeführt werden. Diese Programme bewirken, dass der Computer Abläufe oder Verfahren der ersten Trainingseinheit 20, der Anfangswerterzeugungseinheit 21, der zweiten Trainingseinheit 22, der Netzerzeugungseinheit 23, der Syntheseeinheit 24 und der Modelltrainingseinheit 25 ausführt.
    Der Speicher 103 kann ein computerlesbares Speichermedium sein, das ein Programm speichert, durch das bewirkt wird, dass der Computer als erste Trainingseinheit 20, als Anfangswerterzeugungseinheit 21, als zweite Trainingseinheit 22, als Netzerzeugungseinheit 23, als Syntheseeinheit 24 und als Modelltrainingseinheit 25 fungiert.
  • Ebenso liest und führt der Prozessor 102 das im Speicher 103 gespeicherte Programm aus, wodurch die jeweiligen Funktionen der Analyseeinheit 30, der Modelltrainingseinheit 31, der Korrektureinheit 32 und der Erfassungseinheit 33 im Sprachaktivitätsdetektor 3 implementiert werden. Das heißt, der Sprachaktivitätsdetektor 3 schließt den Speicher 103 zum Speichern von Programmen ein, durch welche als Ergebnis die Verarbeitung ab Schritt ST1A bis Schritt ST4A, die in 9 dargestellt ist, ausgeführt wird, wenn sie von dem Prozessor 102 ausgeführt werden. Diese Programme bewirken, dass ein Computer Abläufe oder Verfahren der Analyseeinheit 30, der Modelltrainingseinheit 31, der Korrektureinheit 32 und der Erfassungseinheit 33 ausführt.
    Der Speicher 103 kann ein computerlesbares Speichermedium sein, das ein Programm speichert, durch das bewirkt wird, dass der Computer als die Analyseeinheit 30, die Modelltrainingseinheit 31, die Korrektureinheit 32 und die Erfassungseinheit 33 fungiert.
  • Beispiele für den Speicher 103 schließen einen nichtflüchtigen oder flüchtigen Halbleiterspeicher, wie etwa einen Speicher mit wahlfreiem Zugriff (RAM), einen Nur-Lese-Speicher (ROM), einen Flash-Speicher, einen löschbaren programmierbaren Speicher mit wahlfreiem Zugriff (EPROM) oder einen elektrischen EPROM (EEPROM), eine Magnetscheibe, eine Diskette, eine optische Scheibe, eine Compact Disk, eine Minidisk, eine DVD und dergleichen.
  • Einige der Funktionen der ersten Trainingseinheit 20, der Anfangswerterzeugungseinheit 21, der zweiten Trainingseinheit 22, der Netzerzeugungseinheit 23, der Syntheseeinheit 24 und der Modelltrainingseinheit 25 können durch zweckgebundene Hardware implementiert werden, und manche von diesen Funktionen können durch Software oder Firmware implementiert werden. Zum Beispiel werden die Funktionen der ersten Trainingseinheit 20, der Anfangswerterzeugungseinheit 21, der zweiten Trainingseinheit 22 und der Netzerzeugungseinheit 23 durch eine Verarbeitungsschaltung als zweckgebundene Hardware implementiert. Die Funktionen der Syntheseeinheit 24 und der Modelltrainingseinheit 25 können dadurch implementiert werden, dass der Prozessor 102 veranlasst wird, das im Speicher 103 gespeicherte Programm zu lesen und auszuführen. Das gleiche gilt für die Analyseeinheit 30, die Modelltrainingseinheit 31, die Korrektureinheit 32 und die Erfassungseinheit 33 im Sprachaktivitätsdetektor 3.
    Wie oben beschrieben kann die Verarbeitungsschaltung die Funktionen durch Hardware, Software, Firmware oder eine Kombination davon implementieren.
  • Wie oben beschrieben erzeugt in der Trainingsvorrichtung 2 gemäß der ersten Ausführungsform die Syntheseeinheit 24 das synthetische NN b, und die Modelltrainingseinheit 25 trainiert das GMM c für Geräusch und Sprache. Da die Modelltrainingseinheit 25 das GMM c für Geräusch und Sprache unter Verwendung der Trainingsdaten a trainiert, kann die Zahl der Mischungen im Vergleich zu dem Fall, dass unter Verwendung des in den Trainingsdaten a enthaltenen Merkmalswert ein Gaußsches Mischungsverteilungsmodell trainiert wird, verringert werden. Somit ist es in der Trainingsvorrichtung 2 möglich, die Speicherkapazität und die Menge der Berechnungen, die für die Trainingsverarbeitung nötig sind, zu verringern. Außerdem verwendet der Sprachaktivitätsdetektor 3 das synthetische NN b, das von der Trainingsvorrichtung 2 erzeugt wird, und das GMM c für Geräusch und Sprache, wodurch eine robuste Sprachaktivitätserfassungsverarbeitung auch in der unbekannten Geräuschumgebung möglich ist.
  • Im Sprachaktivitätsdetektor 3 gemäß der ersten Ausführungsform erzeugt die Analyseeinheit 30 die Zeitreihendaten des Merkmalswerts des Eingangssignals. Die Modelltrainingseinheit 31 trainiert das Geräusch-GMM d unter Verwendung der Zeitreihendaten des Merkmalswerts, die durch die Analyseeinheit 30 erzeugt werden, im gleichen Abschnitt, in dem das Eingangssignal aus Geräusch besteht. Die Korrektureinheit 32 korrigiert die Wahrscheinlichkeit für Sprache unter Verwendung des Geräusch-GMM d. Die Erfassungseinheit 33 erfasst die Sprachaktivität des Eingangssignals auf Basis eines Ergebnisses eines Vergleichs zwischen der korrigierten Wahrscheinlichkeit für Sprache und dem Erfassungsschwellenwert Sth. Der Sprachaktivitätsdetektor 3 korrigiert die Wahrscheinlichkeit für Sprache, die ein Unterscheidungsmaß zwischen Geräusch und Sprache ist, unter Verwendung des Geräusch-GMM d, das in dem Zeitabschnitt trainiert wird, in dem das Eingangssignal aus Geräusch besteht, und erfasst die Sprachaktivität auf Basis der korrigierten Wahrscheinlichkeit für Sprache so, dass die Erfassungsgenauigkeit der Sprachaktivität des Eingangssignals verbessert werden kann.
    Auch wenn zum Beispiel die Wahrscheinlichkeit für Sprache Sv(t) in der unbekannten Geräuschumgebung einen hohen Wert aufweist, korrigiert der Sprachaktivitätsdetektor 3, falls die Korrekturwahrscheinlichkeit für Sprache So(t), die unter Verwendung des Geräusch-GMM d berechnet wird, kleiner ist als α, die Wahrscheinlichkeit für Sprache Sv(t) auf eine Wahrscheinlichkeit für Sprache, die nicht größer oder gleich dem Erfassungsschwellenwert Sth ist. Infolgedessen kann verhindert werden, dass die Geräuschaktivität fälschlicherweise als Sprachaktivität erfasst wird.
  • Es sei bemerkt, dass die vorliegende Erfindung nicht auf die oben beschriebene Ausführungsform beschränkt ist und dass innerhalb des Bereichs der vorliegenden Erfindung alle Bestandteile der Ausführungsform modifiziert werden können oder jeder Bestandteil der Ausführungsform weggelassen werden kann.
  • INDUSTRIELLE ANWENDBARKEIT
  • Die Trainingsvorrichtung gemäß der vorliegenden Erfindung kann die Erfassungsgenauigkeit einer Sprachaktivität eines Eingangssignals in einem Sprachaktivitätsdetektor verbessern und kann somit für eine Vorrichtung verwendet werden, die eine Sprachaktivität erfassen muss, beispielsweise eine Spracherkennungsvorrichtung.
  • Bezugszeichenliste
  • 1:
    Sprachaktivitätserfassungssystem,
    2:
    Trainingsvorrichtung,
    3:
    Sprachaktivitätsdetektor,
    20:
    erste Trainingseinheit,
    21:
    Anfangswerterzeugungseinheit,
    22:
    zweite Trainingseinheit,
    23:
    Netzerzeugungseinheit,
    24:
    Syntheseeinheit,
    25, 31:
    Modelltrainingseinheit,
    30:
    Analyseeinheit,
    32:
    Korrektureinheit,
    33:
    Erfassungseinheit,
    40:
    Eingabeschicht,
    41, 43:
    Zwischenschicht,
    42, 44, 45:
    Ausgabeschicht,
    42A, 44A:
    Gruppe,
    42a:
    Geräuscheinheit,
    42b:
    Spracheinheit,
    100:
    Speichervorrichtung,
    101:
    Verarbeitungsschaltung,
    102:
    Prozessor,
    103:
    Speicher.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • JP 2001343983 A [0005]

Claims (5)

  1. Trainingsvorrichtung zum Trainieren eines synthetischen neuronalen Netzes und eines Gaußschen Mischmodells für Geräusch und Sprache in einem Sprachaktivitätsdetektor zum Erfassen einer Sprachaktivität eines Eingangssignals, wobei die Trainingsvorrichtung umfasst: eine erste Trainingseinheit zum Trainieren eines ersten neuronalen Netzes auf solche Weise, dass das erste neuronale Netz eine Wahrscheinlichkeit für Sprache, die ein Unterscheidungsmaß für Geräusch und Sprache ist, mit einem Merkmalswert von Geräuschdaten und einem Merkmalswert von Sprachdaten als Trainingsdaten berechnet; eine Anfangswerterzeugungseinheit zur Erzeugung eines Anfangswerts eines neuronalen Netzes, daseine Struktur angibt, in der eine neue Zwischenschicht zwischen eine Ausgabeschicht und eine letzte Schicht einer Zwischenschicht des ersten neuronalen Netzes eingefügt wird; eine zweite Trainingseinheit zum Trainieren eines zweiten neuronalen Netzes auf solche Weise, dass das zweite neuronale Netz zwischen Geräusch und Sprache unterscheidet, unter Verwendung des Anfangswerts des neuronalen Netzes und der Trainingsdaten; eine Netzerzeugungseinheit zur Erzeugung eines dritten neuronalen Netzes, wobei das dritte neuronale Netz eine Struktur aufweist, bei der eine Ausgabeschicht des zweiten neuronalen Netzes entfernt worden ist und eine letzte Schicht einer Zwischenschicht des zweiten neuronalen Netzes eine neue Ausgabeschicht ist, zum Ausgeben eines Bottleneck-Merkmalswerts, der für eine Unterscheidung zwischen Geräusch und Sprache aus der neuen Ausgabeschicht geeignet ist; eine Syntheseeinheit zur Erzeugung des synthetischen neuronalen Netzes, wobei das synthetische neuronale Netz eine gleiche Struktur aufweist wie eine Struktur, die weder die Ausgabeschicht des ersten neuronalen Netzes noch die des dritten neuronalen Netzes ist, zur Berechnung einer Wahrscheinlichkeit von Sprache und des Bottleneck-Merkmalswerts; und eine erste Modelltrainingseinheit zum Trainieren des Gaußschen Mischmodells für Geräusch und Sprache unter Verwendung des Bottleneck-Merkmalswerts, der vom dritten neuronalen Netz ausgegeben wird, und der Trainingsdaten.
  2. Sprachaktivitätsdetektor, umfassend: eine Analyseeinheit zum Analysieren eines Merkmalswerts eines Eingangssignals und zum Erzeugen von Zeitreihendaten des Merkmalswerts des Eingangssignals; eine zweite Modelltrainingseinheit zum Berechnen des Bottleneck-Merkmalswerts unter Verwendung des synthetischen neuronalen Netzes, das von der Trainingsvorrichtung nach Anspruch 1 erzeugt worden ist, mit den Zeitreihendaten des Merkmalswerts, die von der Analyseeinheit erzeugt worden sind, als Eingabe, in einem Zeitabschnitt, in dem das Eingangssignal aus Geräuschen besteht, und zum Trainieren eines Gaußschen Mischmodells von Geräuschen in dem Zeitabschnitt unter Verwendung des berechneten Bottleneck-Merkmalswerts; eine Korrektureinheit zum Berechnen einer Korrekturwahrscheinlichkeit für Sprache unter Verwendung des Gaußschen Mischmodells für Geräusch und Sprache, das von der Trainingsvorrichtung gemäß Anspruch 1 trainiert worden ist, und des Gaußschen Mischmodells für Sprache, das von der zweiten Modelltrainingseinheit trainiert worden ist, mit den Zeitreihendaten des Merkmalswerts, die von der Analyseeinheit erzeugt worden sind, als Eingabe und zum Korrigieren der Wahrscheinlichkeit für Sprache, die von dem synthetischen neuronalen Netz berechnet worden ist, unter Verwendung der Korrekturwahrscheinlichkeit für Sprache; und eine Erfassungseinheit zum Erfassen einer Sprachaktivität des Eingangssignals auf Basis eines Ergebnisses eines Vergleichs der Wahrscheinlichkeit für Sprache, die von der Korrektureinheit korrigiert worden ist, mit einem Erfassungsschwellenwert.
  3. Sprachaktivitätsdetektor nach Anspruch 2, wobei die Erfassungseinheit eine Aktivität, in der die Wahrscheinlichkeit für Sprache, die von der Korrektureinheit korrigiert wird, größer oder gleich dem Erfassungsschwellenwert ist, als die Sprachaktivität des Eingangssignals erfasst; und die Korrektureinheit die Wahrscheinlichkeit für Sprache, die von dem synthetischen neuronalen Netz berechnet wird, auf einen Wert korrigiert, der kleiner ist als der Erfassungsschwellenwert, wenn die Korrekturwahrscheinlichkeit für Sprache kleiner ist als ein erster Schwellenwert.
  4. Sprachaktivitätsdetektor nach Anspruch 2, wobei die Erfassungseinheit eine Aktivität, in der die Wahrscheinlichkeit für Sprache, die von der Korrektureinheit korrigiert wird, größer oder gleich dem Erfassungsschwellenwert ist, als die Sprachaktivität des Eingangssignals erfasst; und die Korrektureinheit die Wahrscheinlichkeit für Sprache, die von dem synthetischen neuronalen Netz berechnet wird, unter Verwendung der Korrekturwahrscheinlichkeit für Sprache auf einen Wert senkt, der kleiner ist als der Erfassungsschwellenwert, wenn die Korrekturwahrscheinlichkeit für Sprache kleiner ist als ein zweiter Schwellenwert.
  5. Verfahren zum Erfassen einer Sprachaktivität, umfassend: einen Schritt, in dem durch eine Analyseeinheit ein Merkmalswert eines Eingangssignals analysiert wird und Zeitreihendaten des Merkmalswerts des Eingangssignals erzeugt werden; einen Schritt, in dem durch eine zweite Modelltrainingseinheit der Bottleneck-Merkmalswert unter Verwendung des synthetischen neuronalen Netzes, das von der Trainingsvorrichtung gemäß Anspruch 1 erzeugt worden ist, mit den Zeitreihendaten des Merkmalswerts, die von der Analyseeinheit erzeugt worden sind, als Eingabe, in einem Zeitabschnitt, in dem das Eingangssignal aus Geräuschen besteht, berechnet wird und ein Gaußsches Mischmodell von Geräuschen in dem Zeitabschnitt unter Verwendung des berechneten Bottleneck-Merkmalswerts trainiert wird; einen Schritt, in dem durch eine Korrektureinheit eine Korrekturwahrscheinlichkeit für Sprache unter Verwendung des Gaußschen Mischmodells für Geräusch und Sprache, das von der Trainingsvorrichtung gemäß Anspruch 1 trainiert worden ist, und des Gaußschen Mischmodells für Sprache, das von der zweiten Modelltrainingseinheit trainiert worden ist, mit den Zeitreihendaten des Merkmalswerts, die von der Analyseeinheit erzeugt worden sind, als Eingabe berechnet wird und die Wahrscheinlichkeit für Sprache, die von dem synthetischen neuronalen Netz berechnet worden ist, unter Verwendung der Korrekturwahrscheinlichkeit für Sprache korrigiert wird; und einen Schritt, in dem durch eine Erfassungseinheit eine Sprachaktivität des Eingangssignals auf Basis eines Ergebnisses eines Vergleichs der Wahrscheinlichkeit für Sprache, die von der Korrektureinheit korrigiert worden ist, mit einem Erfassungsschwellenwert erfasst wird.
DE112018006885.4T 2018-02-20 2018-02-20 Trainingsvorrichtung,sprachaktivitätsdetektor und verfahren zur erfassung einer sprachaktivität Active DE112018006885B4 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/005938 WO2019162990A1 (ja) 2018-02-20 2018-02-20 学習装置、音声区間検出装置および音声区間検出方法

Publications (2)

Publication Number Publication Date
DE112018006885T5 true DE112018006885T5 (de) 2020-10-01
DE112018006885B4 DE112018006885B4 (de) 2021-11-04

Family

ID=67688217

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112018006885.4T Active DE112018006885B4 (de) 2018-02-20 2018-02-20 Trainingsvorrichtung,sprachaktivitätsdetektor und verfahren zur erfassung einer sprachaktivität

Country Status (5)

Country Link
US (1) US11527259B2 (de)
JP (1) JP6725186B2 (de)
CN (1) CN111788629B (de)
DE (1) DE112018006885B4 (de)
WO (1) WO2019162990A1 (de)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7228961B2 (ja) * 2018-04-02 2023-02-27 キヤノン株式会社 ニューラルネットワークの学習装置およびその制御方法
JP7400824B2 (ja) * 2019-09-18 2023-12-19 日本電気株式会社 パラメータ決定装置、信号送信装置、パラメータ決定方法、信号送信方法、及び、記録媒体
US11776562B2 (en) * 2020-05-29 2023-10-03 Qualcomm Incorporated Context-aware hardware-based voice activity detection
US20220085837A1 (en) * 2020-09-17 2022-03-17 Nec Corporation Parameter determination apparatus, signal transmission apparatus, parameter determination method, signal transmission method and program recording medium
JP2023552090A (ja) * 2020-11-20 2023-12-14 ザ トラスティーズ オブ コロンビア ユニバーシティ イン ザ シティー オブ ニューヨーク 連邦政府が後援する研究に関する音声ノイズ除去の声明のためのニューラルネットワークベースの手法
JP7467370B2 (ja) 2021-03-05 2024-04-15 株式会社東芝 音声区間検出装置、学習装置及び音声区間検出プログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3721948B2 (ja) 2000-05-30 2005-11-30 株式会社国際電気通信基礎技術研究所 音声始端検出方法、音声認識装置における音声区間検出方法および音声認識装置
JP4911034B2 (ja) * 2005-10-20 2012-04-04 日本電気株式会社 音声判別システム、音声判別方法及び音声判別用プログラム
CN101136199B (zh) * 2006-08-30 2011-09-07 纽昂斯通讯公司 语音数据处理方法和设备
JP4746533B2 (ja) * 2006-12-21 2011-08-10 日本電信電話株式会社 多音源有音区間判定装置、方法、プログラム及びその記録媒体
JP4960845B2 (ja) * 2007-12-12 2012-06-27 日本電信電話株式会社 音声パラメータ学習装置とその方法、それらを用いた音声認識装置と音声認識方法、それらのプログラムと記録媒体
CN102473412B (zh) * 2009-07-21 2014-06-11 日本电信电话株式会社 语音信号区间估计装置与方法
US8239196B1 (en) * 2011-07-28 2012-08-07 Google Inc. System and method for multi-channel multi-feature speech/noise classification for noise suppression
US20160034811A1 (en) * 2014-07-31 2016-02-04 Apple Inc. Efficient generation of complementary acoustic models for performing automatic speech recognition system combination
JP6243858B2 (ja) * 2015-02-05 2017-12-06 日本電信電話株式会社 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム
JP6444490B2 (ja) * 2015-03-12 2018-12-26 三菱電機株式会社 音声区間検出装置および音声区間検出方法
KR101704926B1 (ko) * 2015-10-23 2017-02-23 한양대학교 산학협력단 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 장치 및 음성 검출 방법
US11132998B2 (en) * 2017-03-24 2021-09-28 Mitsubishi Electric Corporation Voice recognition device and voice recognition method
CN110310647B (zh) * 2017-09-29 2022-02-25 腾讯科技(深圳)有限公司 一种语音身份特征提取器、分类器训练方法及相关设备
KR20210009596A (ko) * 2019-07-17 2021-01-27 엘지전자 주식회사 지능적 음성 인식 방법, 음성 인식 장치 및 지능형 컴퓨팅 디바이스

Also Published As

Publication number Publication date
CN111788629B (zh) 2023-08-15
CN111788629A (zh) 2020-10-16
US20200395042A1 (en) 2020-12-17
JPWO2019162990A1 (ja) 2020-05-28
DE112018006885B4 (de) 2021-11-04
JP6725186B2 (ja) 2020-07-15
WO2019162990A1 (ja) 2019-08-29
US11527259B2 (en) 2022-12-13

Similar Documents

Publication Publication Date Title
DE112018006885B4 (de) Trainingsvorrichtung,sprachaktivitätsdetektor und verfahren zur erfassung einer sprachaktivität
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE112017004548B4 (de) Verfahren und Vorrichtung zur robusten Geräuschschätzung für eine Sprachverbesserung in variablen Geräuschbedingungen
DE112015004785B4 (de) Verfahren zum Umwandeln eines verrauschten Signals in ein verbessertes Audiosignal
DE60311548T2 (de) Verfahren zur iterativen Geräuschschätzung in einem rekursiven Zusammenhang
DE60033549T2 (de) Verfahren und vorrichtung zur signalanalyse
DE69926851T2 (de) Verfahren und Vorrichtung zur Sprachaktivitätsdetektion
DE212020000731U1 (de) Kontrastives Vortraining für Sprachaufgaben
DE602006000109T2 (de) Verfahren und Vorrichtung zur Verringerung von Geräuschbeeinträchtigung eines alternativen Sensorsignals während multisensorischer Sprachverstärkung
DE69830017T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE102014223226A1 (de) Diskriminator, Unterscheidungsprogramm und Unterscheidungsverfahren
WO2004010327A2 (de) Vorrichtung und verfahren zum charakterisieren eines informationssignals
DE112014004836B4 (de) Verfahren und System zum Verbessern eines verrauschten Eingangssignals
WO2004090807A2 (de) Verfahren zum trainieren von neuronalen netzen
WO2005122136A1 (de) Vorrichtung und verfahren zum bestimmen eines akkordtyps, der einem testsignal zugrunde liegt
DE102023100643A1 (de) Modelltraining für maschinelles lernen mit entrauschten daten und modellvorhersage mit rauschkorrektur
DE602004008666T2 (de) Verfolgen von Vokaltraktresonanzen unter Verwendung eines nichtlinearen Prädiktors
DE602004002312T2 (de) Verfahren und Vorrichtung zur Bestimmung von Formanten unter Benutzung eines Restsignalmodells
DE2949582A1 (de) Verfahren und anordnung zur bestimmung der tonhoehe in menschlicher sprache
DE60036522T2 (de) Verziehung der Frequenzen für Spracherkennung
DE69922769T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
EP3291234A1 (de) Verfahren zum beurteilen einer qualität eines stimmeinsatzes eines sprechenden
DE19581667C2 (de) Spracherkennungssystem und Verfahren zur Spracherkennung
DE112017006049B4 (de) Verfahren und Vorrichtung zur Klangidentifizierung anhand periodischer Anzeichen
DE102021124716A1 (de) Verfahren zum Erhalten eines hochwertigen rein chemischen NMR-Verschiebungsspektrums

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R084 Declaration of willingness to licence
R020 Patent grant now final