DE102019107928A1

DE102019107928A1 - Generative Modellierung von neuronalen Netzen zum Transformieren von Sprachäußerungen und Erweitern von Trainingsdaten

Info

Publication number: DE102019107928A1
Application number: DE102019107928.4A
Authority: DE
Inventors: Praveen Narayanan; Lisa Scaria; Francois Charette; Ashley Elizabeth Micks; Ryan Burke
Original assignee: Ford Global Technologies LLC
Current assignee: Ford Global Technologies LLC
Priority date: 2018-03-29
Filing date: 2019-03-27
Publication date: 2019-10-02
Also published as: US20190304480A1; CN110335584A; US10937438B2

Abstract

Diese Offenbarung stellt generative Modellierung von neuronalen Netzen zum Transformieren von Sprachäußerungen und Erweitern von Trainingsdaten bereit. Es werden Systeme, Verfahren und Vorrichtungen zur Sprachtransformation und zum Erzeugen von synthetischer Sprache unter Verwendung von tiefen generativen Modellen offenbart. Ein Verfahren der Offenbarung beinhaltet Empfangen von Eingabeaudiodaten, die eine Vielzahl von Iterationen einer Sprachäußerung von einer Vielzahl von Sprechern umfassen. Das Verfahren beinhaltet Erzeugen eines Eingabespektrogramms auf Grundlage der Eingabeaudiodaten und Übertragen des Eingabespektrogramms an ein neuronales Netz, das dazu konfiguriert ist, ein Ausgabespektrogramm zu erzeugen. Das Verfahren beinhaltet Empfangen des Ausgabespektrogramms von dem neuronalen Netz und auf Grundlage des Ausgabespektrogramms Erzeugen von synthetischen Audiodaten, die die Sprachäußerung umfassen.

Description

GEBIET DER TECHNIK
Die Offenbarung betrifft im Allgemeinen Systeme, Verfahren und Vorrichtungen zur Sprachtransformation. Die Offenbarung betrifft insbesondere Systeme, Verfahren und Vorrichtungen zum Erzeugen von synthetischer Sprache auf Grundlage einer Vielzahl von Sprechern.
ALLGEMEINER STAND DER TECHNIK
Neuronale Netze sind als praktikable Lösung zum Durchführen von End-to-End-Lernen bei zahlreichen datenintensiven Anwendungen aufgekommen. Neuronale Netze beinhalten einen Satz von Algorithmen, die frei nach dem menschlichen Gehirn modelliert sind und dazu ausgestaltet sind, Muster zu erkennen. Das neuronale Netz interpretiert sensorische Daten durch maschinelle Wahrnehmung und ist dazu konfiguriert, Rohdateneingaben zu kennzeichnen oder zu Clustern zusammenzufassen. Neuronale Netze sind dazu konfiguriert, numerische Muster zu erkennen, die in Vektoren enthalten sind, in die alle Daten aus der echten Welt, seien es Bilder, Ton, Text oder Zeitreihen, übersetzt werden müssen. Neuronale Netze können dazu konfiguriert sein, Daten zu Clustern zusammenzufassen und zu klassifizieren und ungekennzeichnete Daten gemäß Ähnlichkeiten unter beispielhaften Eingaben zu gruppieren und Daten zu klassifizieren, wenn ein gekennzeichneter Datensatz vorliegt, mit dem das neuronale Netz trainiert werden soll.
Automatische Spracherkennung (Automatic Speech Recognition - ASR) und Verstehen natürlicher Sprache (Natural Language Understanding - NLU) sind technische Bereiche, die unter Verwendung von Systemen mit tiefen neuronalen Netzen (deep neural network - DNN) Fortschritte gemacht haben. Derartige neuronale Netze können trainiert werden, damit sie unter anderem Stimmen erkennen und detektieren, Sprecher identifizieren, Sprache in Text transkribieren und Gefühle in Stimmen erkennen. Der Anmelder erkennt, dass ein begrenzender Faktor dabei, derartige Technik nutzbar zu machen, die Daten sind, die Forschern zum Training und zur Interferenz zur Verfügung stehen. Der Anmelder erkennt, dass neuronale Netze am besten mit reichlich Daten trainiert werden, die merkmalsreich sind und Szenarien aus der echten Welt einbeziehen können. Es versteht sich, dass die Datenverfügbarkeit, die umfangreiche und um Merkmale erweiterte Daten beinhaltet, bei jeder Anwendung eine Voraussetzung zum Trainieren eines DNN darstellt. Die Verfügbarkeit von großen Mengen von umfangreichen, um Merkmale erweiterten Datensätzen, insbesondere Sprachdatensätzen, ist jedoch äußerst begrenzt und schränkt den Erfolg beim Trainieren eines DNN zur Spracherkennung ein. Ferner können Sprachdatensätze sehr kostspielig sein und stundenlange Sprache von zweifelhafter Qualität enthalten.
Der Anmelder stellt in der vorliegenden Schrift Systeme, Verfahren und Vorrichtungen zum Erweitern und Erzeugen von Sprachdatensätzen dar, die bei Anwendungen zur Spracherkennung verwendet werden können. Die hier offenbarten Systeme, Verfahren und Vorrichtungen können dazu konfiguriert sein, synthetische Sprachäußerungen zur Verwendung bei Trainingszwecken auf dem technischen Gebiet der neuronalen Netze herzustellen.
KURZDARSTELLUNG
Gemäß einer Ausführungsform der Offenbarung wird ein Verfahren zum Erzeugen von synthetischer Sprache offenbart. In einer Ausführungsform wird das Verfahren durch eine Rechenvorrichtung in Kommunikation mit einem neuronalen Netz durchgeführt. Das Verfahren beinhaltet Empfangen von Eingabeaudiodaten, die eine Vielzahl von Iterationen einer Sprachäußerung von einer Vielzahl von Sprechern umfassen. Das Verfahren beinhaltet Erzeugen eines Eingabespektrogramms auf Grundlage der Eingabeaudiodaten und Übertragen des Eingabespektrogramms an ein neuronales Netz, das dazu konfiguriert ist, ein Ausgabespektrogramm zu erzeugen. Das Verfahren beinhaltet Empfangen des Ausgabespektrogramms von dem neuronalen Netz und auf Grundlage des Ausgabespektrogramms Erzeugen von synthetischen Audiodaten, die die Sprachäußerung umfassen.
Gemäß einer Ausführungsform wird ein System zum Erzeugen von synthetischer Sprache offenbart. In einer Ausführungsform beinhaltet das System ein neuronales Netz, das dazu konfiguriert ist, ein zweidimensionales Audiospektrogramm zu erzeugen. Das System beinhaltet ferner computerlesbare Speichermedien, auf denen Anweisungen gespeichert sind, die bei Ausführung durch einen oder mehrere Prozessoren den einen oder die mehreren Prozessoren zum Empfangen von Eingabeaudiodaten, die eine Vielzahl von Iterationen einer Sprachäußerung von einer Vielzahl von Sprechern umfassen, veranlassen. Die Prozessoren werden ferner zum Erzeugen eines Eingabespektrogramms auf Grundlage der Eingabeaudiodaten und Übertragen des Eingabespektrogramms an das neuronale Netz veranlasst. Die Prozessoren werden ferner zum Empfangen eines Ausgabespektrogramms von dem neuronalen Netz und auf Grundlage des Ausgabespektrogramms Erzeugen von synthetischen Audiodaten, die die Sprachäußerung umfassen, veranlasst.
Figurenliste
Nicht einschränkende und nicht erschöpfende Umsetzungen der vorliegenden Offenbarung werden unter Bezugnahme auf die folgenden Figuren beschrieben, wobei sich in den verschiedenen Ansichten gleiche Bezugszeichen auf gleiche Teile beziehen, sofern nicht anderweitig angegeben. Vorteile der vorliegenden Offenbarung werden im Hinblick auf die folgende Beschreibung und beigefügten Zeichnungen besser verständlich, in denen Folgendes gilt:

1 ist ein schematisches Blockdiagramm, das einen Prozessablauf zum Transformieren von Sprachdaten gemäß einer Umsetzung veranschaulicht;
2 ist ein Ablaufdiagramm eines Verfahrens zum Transformieren von Sprachdaten gemäß einer Umsetzung;
3 ist ein Ablaufdiagramm eines Verfahrens zum Transformieren von Sprachdaten gemäß einer Umsetzung;
4 ist ein Ablaufdiagramm eines Verfahrens zum Transformieren von Sprachdaten gemäß einer Umsetzung;
5 ist ein Ablaufdiagramm eines Verfahrens zum Transformieren von Sprachdaten gemäß einer Umsetzung;
6 ist ein schematisches Ablaufdiagramm, das eine beispielhafte Trainingsphase gemäß einer Umsetzung veranschaulicht;
7 ist ein schematisches Ablaufdiagramm, das eine beispielhafte Test- und/oder Erzeugungsphase gemäß einer Umsetzung veranschaulicht;
8 ist ein schematisches Diagramm einer vollständig verbundenen Faltung eines neuronalen Netzes gemäß einer Umsetzung; und
9 ist ein schematisches Blockdiagramm einer beispielhaften Rechenvorrichtung gemäß einer Umsetzung.

DETAILLIERTE BESCHREIBUNG
Neuronale Netze, zu denen Systeme mit tiefen neuronalen Netzen (DNN) gehören, stellen praktikable Lösungen zum Durchführen von End-to-End-Lernen bei zahlreichen datenintensiven Anwendungen bereit. Derartige neuronale Netze werden unter Verwendung von großen Mengen von umfangreichen, um Merkmale erweiterten Datensätzen trainiert. Bei einer Anwendung, bei der ein neuronales Netz zur automatischen Spracherkennung (ASR) und/oder zum Verstehen natürlicher Sprache (NLU) trainiert wird, wird das neuronale Netz unter Verwendung von großen Mengen von Audiodaten trainiert, die Sprachdaten von einer Vielzahl von Sprechern beinhalten.
In der vorliegenden Offenbarung schlägt der Anmelder Systeme, Verfahren und Vorrichtungen zur Sprachtransformation und insbesondere zur Spracherzeugung unter Verwendung von tiefen generativen Modellen vor und stellt diese dar. Derartige Systeme, Verfahren und Vorrichtungen können mit einem neuronalen Faltungsnetz (convolutional neural network - CNN) auf Grundlage eines derartigen CNN integriert sein, das zur Sprachdetektion verwendet wird, wozu automatische Spracherkennung (ASR) und Verstehen natürlicher Sprache (NLU) gehören.
Der Anmelder schlägt Systeme, Verfahren und Vorrichtungen zum Erzeugen und Bereitstellen von großen Mengen von umfangreichen, um Merkmale erweiterten Datensätzen zur Verwendung mit einem neuronalen Netz vor. Der Anmelder schlägt derartige Systeme, Verfahren und Vorrichtungen vor, die insbesondere auf das Erzeugen qualitativ hochwertiger sprachbasierter Datensätze gerichtet ist, die synthetisches Audio für eine Vielzahl von Sprachäußerungen beinhalten. Derartige Datensätze können zum Trainieren eines neuronalen Netzes und Entwickeln von Spracherkennungsschnittstellen der nächsten Generation mit fortgeschrittener Funktionsweise verwendet werden.
Bevor die Verfahren, Systeme und Vorrichtungen zum Detektieren eines Objekts, wie etwa eines Herstellungsteils, offenbart und beschrieben werden, versteht es sich, dass diese Offenbarung nicht auf die hier offenbarten Konfigurationen, Prozessschritte und Materialien beschränkt sind, da derartige Konfigurationen, Prozessschritte und Materialien etwas variieren können. Es versteht sich zudem, dass die hier eingesetzte Terminologie nur zum Beschreiben von Umsetzungen eingesetzt ist und nicht einschränkend sein soll, da der Umfang der Offenbarung nur durch die beigefügten Patentansprüche und Äquivalente davon eingeschränkt sein wird.
Beim Beschreiben und Beanspruchen der Offenbarung wird die folgende Terminologie gemäß den nachstehend aufgeführten Definitionen verwendet.
Es ist anzumerken, dass die Singularformen „ein“, „eine“ und „der“, „die“, „das“ im in dieser Beschreibung und den beigefügten Patentansprüchen verwendeten Sinne Pluralbezüge beinhalten, sofern der Kontext nicht eindeutig etwas anderes vorgibt.
Im hier verwendeten Sinne sind die Ausdrücke „umfassend“, „beinhaltend“, „enthaltend“, „gekennzeichnet durch“ und grammatische Äquivalente davon inklusive oder offene Ausdrücke, die zusätzliche, nicht genannte Elemente oder Verfahrensschritte nicht ausschließen.
Es wird nun auf die Figuren Bezug genommen, in denen 1 einen beispielhaften Prozess 100 zum Transformieren von Sprache unter Verwendung von tiefen generativen Modellen veranschaulicht. Der Prozess 100 beinhaltet Empfangen von Eingabeaudiodaten 102 und Erzeugen eines Eingabespektrogramms 104 auf Grundlage der Eingabeaudiodaten 102. Das Eingabespektrogramm 104 wird an ein neuronales Netz übertragen, wo ein Codierer-Modul 106 des neuronalen Netzes das Eingabespektrogramm 104 empfängt. Das Eingabespektrogramm 104 kann durch eine oder mehrere Faltungen mit erhöhter Schrittweite 108, 114 des Codierer-Moduls 106 empfangen werden, die eine Faltung mit erhöhter Schrittweite µ (My) 108 und eine Faltung mit erhöhter Schrittweite σ (Sigma) 114 beinhalten. Die Faltungen mit erhöhter Schrittweite 108, 114 übertragen das Eingabespektrogramm 104 an eine oder mehrere vollständig verbundene Faltungen 110, 116, wie etwa eine vollständig verbundene Faltung µ (My) 110 und eine vollständig verbundene Faltung σ (Sigma) 116. Die vollständig verbundene Faltung µ 110 stellt das verarbeitete Eingabespektrogramm µ (My) 112 bereit und die vollständig verbundene Faltung σ 116 stellt das verarbeitete Eingabespektrogramm σ (Sigma) 118 bereit. Eine Standardnormalverteilung 130 wird abgetastet, um eine Rechnung ε (Epsilon) zu empfangen. Es wird eine Berechnung 120 gleich der Folgenden durchgeführt: $ε * σ+μ$
Das Ergebnis der Berechnung 120 wird dem Decodierer-Modul 124 bereitgestellt. Die Entfaltungen mit erhöhter Schrittweite 126 des Decodierer-Moduls 124 empfangen das Ergebnis der Berechnung 120 und stellen das Ergebnis den vollständig verbundenen Faltungen 128 bereit. Das Decodierer-Modul 124 erzeugt ein Ausgabespektrogramm 134 und stellt das Ausgabespektrogramm 134 einer Rechenvorrichtung bereit. Die Rechenvorrichtung empfängt das Ausgabespektrogramm 134 und erzeugt Ausgabeaudiodaten 138 unter Verwendung einer Griffin-Lim-Rekonstruktion 136.
Die Eingabeaudiodaten 102 beinhalten beliebige geeignete fachbekannte Eingabeaudiodaten 102 und können Rohaudiodaten beinhalten, die von einem Sprecher empfangen werden. In einer Ausführungsform beinhalten die Eingabeaudiodaten 102 eine Vielzahl von Iterationen einer Sprachäußerung, wobei die Vielzahl von Iterationen von einem oder mehreren Sprechern empfangen wird. Die Sprachäußerung beinhaltet eine beliebige geeignete Sprachäußerung, wozu zum Beispiel ein Wort, eine Phrase, ein Satz, ein Lied, ein Geräusch, ein Ton und so weiter gehören. In einer Ausführungsform wird eine einzige Iteration einer Sprachäußerung von einem einzigen Sprecher empfangen und eine zusätzliche einzige Iteration der Sprachäußerung von einem anderen Sprecher empfangen. In einer Ausführungsform stellt ein einziger Sprecher eine Vielzahl von Iterationen der Sprachäußerung bereit. In einer Ausführungsform beinhalten die Eingabeaudiodaten 102 eine Vielzahl von Iterationen der Sprachäußerung von einem einzigen Sprecher und sie beinhalten zusätzlich Iterationen der Sprachäußerung von zusätzlichen Sprechern. In einer Ausführungsform geben verschiedene Iterationen der Sprachäußerung unterschiedliche Stimmen, unterschiedliche Personen, unterschiedliche synthetische Stimmen, unterschiedliche Tonfälle, unterschiedliche Akzente, unterschiedliche Sprachen und so weiter wieder.
In einer Ausführungsform beinhaltet das Eingabespektrogramm 104 ein zweidimensionales Audiospektrogramm. Die Spektrogrammdarstellung wird dazu verwendet, die in den Eingabeaudiodaten 102 empfangenen Audiosignale darzustellen. In einer Ausführungsform werden eindimensionale Eingabeaudiodaten 102 in eine zweidimensionale Spektrogrammdarstellung der Eingabeaudiodaten 102 umgewandelt. Das Eingabespektrogramm 104 wird erzeugt und mit der quadratischen Verlustfunktion (Mean Square Error loss function - MSE-Verlustfunktion) als Trainingskriterium in das neuronale Netz eingespeist und die Fehler werden unter Verwendung einer Optimierung durch ein Gradientenverfahren zurückpropagiert.
In einer Ausführungsform beinhaltet das Ausgabespektrogramm 134 ein zweidimensionales Audiospektrogramm. Die Spektrogrammdarstellung kann dazu verwendet werden, die Ausgabeaudiodaten 138 darzustellen. In einer Ausführungsform wird das Ausgabespektrogramm 134 unter Verwendung der Griffin-Lim-Rekonstruktion 136 invertiert, um die Ausgabeaudiodaten 138 zu erzeugen. Die Griffin-Lim-Rekonstruktion 136 wird dazu verwendet, Phaseninformationen aus dem Ausgabespektrogramm 134 zurückzugewinnen. Es versteht sich, dass Training von neuronalen Netzen in jedem beliebigen Programmiergerüst erfolgen kann, in dem Zurückpropagierung durch ein Gradientenverfahren verwendet wird. In einer Ausführungsform wird ein Programmiergerüst mit einem Grafikprozessor (graphical processing unit - GPU) auf Grundlage von Python verwendet.
Das Eingabespektrogramm 104 und das Ausgabespektrogramm 134 sind Darstellungen eines Sprachsignals und können als zweidimensionales Bild aufgenommen werden, das eine Breite T (Zeit) und eine Höhe F (Frequenz) umfasst. Da Sprachsignale Translationsinvarianz online im Zeitbereich zeigen, können die Frequenz-Bins zusammengeklappt werden, indem anfänglich Faltungen der Größe 1xF genommen werden. Im Anschluss an diesen anfänglichen Vorgang können die Faltungen der Größe Wx1 angewendet werden, wobei W die Größe der Faltungsmatrizen ist. In verschiedenen Ausführungsformen können Max-Pooling und Faltungen mit erhöhter Schrittweite besonders erfolgreich sein. Entfaltungsschichten können gleichermaßen umgesetzt sein.
Der Prozess der Griffin-Lim-Rekonstruktion 136 bezieht sich auf den Griffin-Lim-Algorithmus. Eine weitere Offenbarung zum Griffin-Lim-Algorithmus ist in Griffin, Daniel W., und Jae S. Lim. „Signal Estimation from Modified Short-Time Fourier Transform.“ IEEE Transactions on Acoustics, Speech, and signal Processing, Band ASSP-32, Nr. 2 (April 1984): 236-243 zu finden, was durch Bezugnahme hier aufgenommen ist. Der Algorithmus ist dazu konfiguriert, ein Signal anhand seiner modifizierten Kurzzeit-Fourier-Transformation zu schätzen. Der Algorithmus wird dadurch erlangt, dass der mittlere quadratische Fehler zwischen der Kurzzeit-Fourier-Transformation des geschätzten Signals und der modifizierten Kurzzeit-Fourier-Transformation minimiert wird. Es ist gezeigt, dass der Algorithmus bei jeder Iteration den mittleren quadratischen Fehler zwischen der Größe der Kurzzeit-Fourier-Transformation des geschätzten Signals und der Größe der modifizierten Kurzzeit-Fourier-Transformation verringert. Bei der Hauptrechnung, die an dem iterativen Algorithmus beteiligt ist, handelt es sich um die Rechnung der diskreten Fourier-Transformation, und der Algorithmus ist in Echtzeit umsetzbar. In einer Ausführungsform wird der Algorithmus auf Zeitskalenmodifikation von Sprache angewendet, um qualitativ hochwertige und merkmalsreiche synthetische Sprache zu erzeugen.
Die Ausgabeaudiodaten 138 beinhalten ein beliebiges geeignetes fachbekanntes Audiodatenformat. In einer Ausführungsform beinhalten die Ausgabeaudiodaten 138 synthetische Audiodaten, die eine Vielzahl von Iterationen einer Sprachäußerung durch eine Vielzahl von synthetischen Stimmen umfassen. Die Ausgabeaudiodaten 138 können eine Vielzahl von Iterationen einer bestimmten Sprachäußerung umfassen, wie etwa eines Worts, einer Phrase, eines Satzes, eines Tons, eines erkennbaren Geräuschs und so weiter. In einer derartigen Ausführungsform kann die Vielzahl von Iterationen in einer Vielzahl von Stimmen, Frequenzen, Akzenten, Geschwindigkeiten und so weiter durchgeführt werden. Die Ausgabeaudiodaten 138 können eine merkmalsreiche und vielfältige Sammlung von synthetischen Audiodaten für eine Vielzahl von Sprachäußerungen beinhalten. In einer Ausführungsform sind die Ausgabeaudiodaten 138 dazu konfiguriert, zu Trainingszwecken durch ein neuronales Netz verwendet zu werden.
Die Berechnung 120 beinhaltet die durch das Codierer-Modul 106 des neuronalen Netzes bereitgestellte Bestimmung. Die Berechnung 120 beinhaltet, wobei Epsilon 132 mit Sigma 118 multipliziert und zu My 112 addiert wird. Epsilon 132 stellt das Ergebnis aus dem Abtasten einer Standardnormalverteilung 130 bei N (0,1) dar. Sigma 118 wird von seinem jeweiligen neuronalen Netz in Kommunikation mit dem Codierer-Modul 106 empfangen. My 112 wird von seinem jeweiligen neuronalen Netz in Kommunikation mit dem Codierer-Modul 106 empfangen.
In einer Ausführungsform sind das Codierer-Modul 106 und das Decodierer-Modul 124 Komponenten eines neuronalen Netzes. In einer Ausführungsform ist das neuronale Netz ein neuronales Faltungsnetz (CNN), wie auf dem Fachgebiet bekannt. Das CNN umfasst Faltungsschichten als Kernbaustein des neuronalen Netzes. Zu den Parametern einer Faltungsschicht gehören ein Satz von erlernbaren Filtern oder Matrizen, die ein kleines rezeptives Feld aufweisen, sich jedoch durch die vollständige Tiefe des Eingabevolumens erstrecken. Während des Vorwärtspasses wird jedes Filter über die Breite und Höhe des Eingabevolumens gefaltet, wobei das Skalarprodukt zwischen den Einträgen des Filters und der Eingabe berechnet wird und eine zweidimensionale Aktivierungskarte des Filters hergestellt wird. Infolgedessen lernt das neuronale Netz 106 Filter, die aktiviert werden, wenn es eine konkrete Art von Merkmal, wie etwa ein konkretes Merkmal an einem Herstellungsteil, an einer räumlichen Position in der Eingabe detektiert. In dem neuronalen Netz 106 bildet Stapeln der Aktivierungskarten für alle Filter entlang der Tiefendimension das volle Ausgabevolumen der Faltungsschicht aus. Jeder Eintrag in dem Ausgabevolumen kann somit auch als eine Ausgabe eines Neurons interpretiert werden, das auf einen kleinen Bereich in der Eingabe schaut und Parameter mit Neuronen in derselben Aktivierungskarte teilt. Das neuronale Netz kann als CNN Bilderkennung mit einer sehr niedrigen Fehlerrate erfolgreich erzielen, was das Identifizieren eines Herstellungsteils anhand eines Bilds beinhaltet, das durch eine Vorrichtung 102 für erweiterte Realität aufgenommen wird.
Der einschlägige Fachmann versteht, dass ein einziges neuronales Netz aus einer Vielzahl von Knoten und Kanten, die die Knoten verbinden, besteht. Gewichte oder Werte für die Kanten oder Knoten werden dazu verwendet, eine Ausgabe für eine Kante, die mit einem anschließenden Knoten verbunden ist, zu berechnen. Ein einziges neuronales Netz kann somit aus einer Vielzahl von neuronalen Netzen bestehen, um eine oder mehrere Aufgaben durchzuführen. In einer Ausführungsform beinhaltet das neuronale Netz einige gemeinsame Schichten als Basisabschnitt oder gemeinsamen Abschnitt des neuronalen Netzes. Die gemeinsamen Schichten können als ein Teilnetz des neuronalen Netzes bildend verstanden werden. Die in den gemeinsamen Schichten erfolgte(n) Rechnungen und Verarbeitung werden dann durch erste Aufgabenschichten, zweite Aufgabenschichten, dritte Aufgabenschichten und so weiter verwendet. Somit beinhaltet das neuronale Netz eine sich verzweigende Topologie, wobei die Ergebnisse der gemeinsamen Schichten dann unabhängig voneinander durch jedes einer Vielzahl von Teilnetzen in Zweigen des neuronalen Netzes verwendet werden. Da die gemeinsamen Schichten sequentiell auf eine Vielzahl von Aufgaben trainiert wurden, um zu vermeiden, dass zuvor trainierte Aufgaben vergessen werden, können die gemeinsamen Schichten eine Aufgabe durchführen, die jedem der Zweige des neuronalen Netzes gute Dienste leistet. Des Weiteren führen die gemeinsamen Schichten zu reduziertem Rechnen, da die Aufgabe der gemeinsamen Schichten einmal für alle Aufgaben, die durch die Zweige dargestellt werden, anstatt einmal für jede Aufgabe durchgeführt wird. Ein Beispiel für die durch die gemeinsamen Schichten durchzuführende Aufgabe ist die Merkmalextraktion. Es können sich jedoch beliebige Aufgaben, die eine geteilte anfängliche Verarbeitungsaufgabe aufweisen können, gemeinsame Schichten teilen.
2 veranschaulicht ein schematisches Ablaufdiagramm eines Verfahrens 200 zum Transformieren von Sprache. Das Verfahren 200 beginnt und eine Rechenvorrichtung empfängt bei 202 Eingabeaudiodaten 102, die eine Vielzahl von Iterationen einer Sprachäußerung von einer Vielzahl von Sprechern umfassen. Das Verfahren 200 wird fortgesetzt und die Rechenvorrichtung erzeugt bei 204 ein Eingabespektrogramm 104 auf Grundlage der Eingabeaudiodaten 102 und überträgt bei 206 das Eingabespektrogramm 104 an ein neuronales Netz, wobei das neuronale Netz dazu konfiguriert ist, ein Ausgabespektrogramm 134 zu erzeugen. Die Rechenvorrichtung empfängt bei 208 das Ausgabespektrogramm 134 von dem neuronalen Netz. Die Rechenvorrichtung erzeugt bei 210 synthetische Audiodaten, die die Sprachäußerung umfassen, auf Grundlage des Ausgabespektrogramms 134.
3 veranschaulicht ein schematisches Ablaufdiagramm eines Verfahrens 300 zum Transformieren von Sprache. Das Verfahren 300 beginnt und eine Rechenvorrichtung empfängt bei 302 Eingabeaudiodaten 102, die eine Vielzahl von Iterationen einer Sprachäußerung von einer Vielzahl von Sprechern umfassen. Die Rechenvorrichtung erzeugt bei 304 ein zweidimensionales Eingabeaudiospektrogramm auf Grundlage der Eingabeaudiodaten 102. Die Rechenvorrichtung überträgt bei 306 unter Verwendung einer quadratischen Verlustfunktion (MSE-Verlustfunktion) das zweidimensionale Eingabeaudiospektrogramm an ein neuronales Netz, wobei das neuronale Netz dazu konfiguriert ist, ein zweidimensionales Ausgabeaudiospektrogramm zu erzeugen. Die Rechenvorrichtung empfängt bei 308 das zweidimensionale Ausgabespektrogramm 134 von dem neuronalen Netz. Die Rechenvorrichtung erzeugt bei 310 synthetische Audiodaten, die die Sprachäußerung umfassen, auf Grundlage des zweidimensionalen Ausgabespektrogramms 134.
4 veranschaulicht ein schematisches Ablaufdiagramm eines Verfahrens 400 zum Transformieren von Sprache. Das Verfahren 400 beginnt und ein neuronales Netz empfängt bei 402 ein Eingabespektrogramm 104, wobei das Eingabespektrogramm 104 auf Grundlage von Eingabeaudiodaten 102 erzeugt wird, die von einer Vielzahl von Sprechern empfangen werden. Das neuronale Netz wird bei 404 unter Verwendung einer quadratischen Verlustfunktion (MSE-Verlustfunktion) als Trainingskriterium trainiert. Das neuronale Netz wird trainiert, indem das Eingabespektrogramm 104 bei 406 mit der Grundwahrheit verglichen wird.
5 veranschaulicht ein schematisches Ablaufdiagramm eines Verfahrens 500 zum Transformieren von Sprache. Das Verfahren 500 beginnt und ein neuronales Netz empfängt bei 502 ein Eingabespektrogramm 104, wobei das Eingabespektrogramm 104 auf Grundlage von Eingabeaudiodaten 102 erzeugt wird, die von einer Vielzahl von Sprechern empfangen werden. Das neuronale Netz tastet bei 504 aus einer latenten Schicht eines Variational Autoencoder ab. Das neuronale Netz erzeugt bei 506 ein Ausgabespektrogramm 134, wobei das Ausgabespektrogramm 134 ein zweidimensionales Audiospektrogramm umfasst.
6 veranschaulicht ein schematisches Ablaufdiagramm eines Prozesses 600 zum Trainieren eines neuronalen Netzes. In einer Ausführungsform stellt 6 eine Prozedur während einer Trainingsphase zum Transformieren und/oder Erzeugen von Sprachdaten dar. Der Prozess 600 beinhaltet Empfangen einer Eingabe 602 und Verarbeiten der Eingabe 602 durch ein Codiermodul 604. Das Codiermodul 604 stellt µ (My) 606 und σ (Sigma) 607 her. ε (Epsilon) 610 wird durch Abtasten einer Standardnormalverteilung bei N (0,1) erzeugt. Es wird eine Rechnung 608 gleich Z=µ+εσ durchgeführt, wobei Z gleich einem latenten Raumvektor ist. Das Ergebnis der Rechnung 608 wird einem Decodiermodul 612 bereitgestellt und das Decodiermodul 612 stellt eine Ausgabe 614 bereit. Während des Trainings wird das neuronale Netz End-to-End trainiert, indem die Ausgabespektrogramme und die Rekonstruktionen, die durch das Decodiermodul 612 des Variational Autoencoder für Sprache erzeugt werden, verglichen werden. 6 veranschaulicht die Vor- und Nachverarbeitungsstufe des Umwandelns der Eingabeaudiodaten 102 in ein Eingabespektrogramm 104 und zurück in die Ausgabeaudiodaten 138 mittels der Griffin-Lim-Rekonstruktion 136. Das Eingabespektrogramm 104 wird in die latente Darstellung Z umgewandelt, indem es an das Codiermodul 604 gesendet wird. Das Ausgabespektrogramm 134 wird durch das Decodiermodul 612 erzeugt.
7 veranschaulicht ein schematisches Ablaufdiagramm eines Prozesses 700 zum Trainieren und/oder Erzeugen durch ein neuronales Netz. Der Prozess 700 beinhaltet Bestimmen einer latenten Darstellung Z 702 und Verarbeiten der latenten Darstellung Z 702 durch einen Prozess zum Decodieren 704. Die latente Darstellung Z 702 wird dadurch bestimmt, dass sie aus einem latenten Raumbereich (-a,a) abgetastet wird, um den latenten Raumvektor Z zu schaffen, der die gleichen Abmessungen aufweist, wie beim Trainieren verwendet wurden (siehe 6). Der Prozess zum Decodieren 704 empfängt die latente Darstellung Z 702 als Eingabe, die zum Bestimmen des erzeugten Spektrogramms 706 notwendig ist. Der Prozess 700 beinhaltet Bereitstellen eines erzeugten Spektrogramms 706 mittels des Prozesses zum Decodieren 704. Während der Testzeit werden neue Audioabtastungen dadurch erzeugt, dass die latente Darstellung Z 702 (erlangt durch Addieren der Ausgaben des Codierers µ (My) und σ (Sigma), das mit der aus einer Standardnormalverteilung entnommenen Abtastvariablen ε (Epsilon) multipliziert ist (siehe Rechnung 608), zu dem Decodiermodul 704 gesendet wird. Das Decodiermodul 704 stellt dann ein erzeugtes Spektrogramm 706 bereit, das ein neues Audiospektrogramm umfasst. Das erzeugte Spektrogramm 706 wird einem Modul zur Griffin-Lim-Rekonstruktion 136 bereitgestellt, damit es wieder in ein Audiosignal (Ausgabeaudiodaten 138) invertiert wird. Während des Prozesses 600 zum Trainieren wird die latente Darstellung Z dadurch erlangt, dass die codierten Mengen (µ, σ) der Rechnung 608 unterzogen werden, nachdem sie aus einer Standardnormalverteilung 610 abgetastet worden sind. Während des Prozesses 700 zum Testen und/oder Erzeugen wird die latente Darstellung Z 702 aus einem Bereich, z. B. (-a,a), abgetastet, um neue Äußerungen zu erzeugen.
8 veranschaulicht ein schematisches Blockdiagramm einer vollständig verbundenen Architektur 800 für einen Variational Autoencoder. In weiteren Ausführungsformen wird eine Architektur mit Faltungen mit erhöhter Schrittweite verwendet. Die vollständig verbundene Architektur 800 (siehe auch 110, 116, 128) beinhaltet einen Codierer 802 und einen Decodierer 808. Der Codierer 802 empfängt eine Eingabe 804 und bringt die Daten der Eingabe 804 von einer hochdimensionalen Eingabe zu einer Engpassschicht, wo die Anzahl von Neuronen am geringsten ist. Der Decodierer 808 nimmt die codierte Eingabe und wandelt sie als rekonstruierte Eingabe 810 wieder in die ursprüngliche Eingabeform um. Die latente Raumdarstellung 806 umfasst den Raum, in dem Daten in der Engpassschicht liegen. In einer Ausführungsform beinhaltet die latente Raumdarstellung 806 eine komprimierte Darstellung der Daten, bei denen es sich um die einzigen Informationen handelt, die der Decodierer verwendet, um die rekonstruierte Eingabe 810 bereitzustellen. Demnach extrahiert das neuronale Netz die relevantesten Merkmale in dem Engpass.
Es wird nun auf 9 Bezug genommen, die ein Blockdiagramm einer beispielhaften Rechenvorrichtung 900 veranschaulicht. Die Rechenvorrichtung 900 kann dazu verwendet werden, verschiedene Prozeduren, wie etwa die hier erörterten, durchzuführen. In einer Ausführungsform kann die Rechenvorrichtung 900 als neuronales Netz, Codierer-Modul 106, Decodierer-Modul 124 und dergleichen funktionieren. Die Rechenvorrichtung 900 kann verschiedene Überwachungsfunktionen durchführen, wie hier erörtert, und ein oder mehrere Anwendungsprogramme ausführen, wie etwa die hier beschriebenen Anwendungsprogramme oder Funktionalitäten. Die Rechenvorrichtung 900 kann eine beliebige aus einer großen Vielfalt von Rechenvorrichtungen sein, wie etwa ein Desktop-Computer, Armaturenbrett-Computer, ein Fahrzeugsteuersystem, ein Notebook-Computer, ein Server-Computer, ein Handheld-Computer, Tablet-Computer und dergleichen.
Die Rechenvorrichtung 900 beinhaltet einen oder mehrere Prozessor(en) 902, eine oder mehrere Speichervorrichtung(en) 804, eine oder mehrere Schnittstelle(n) 906, eine oder mehrere Massenspeichervorrichtung(en) 908, eine oder mehrere Ein-/Ausgabe-(E/A-)Vorrichtung(en) 910 und eine Anzeigevorrichtung 930, die alle an einen Bus 912 gekoppelt sind. Der bzw. die Prozessor(en) 902 beinhaltet bzw. beinhalten eine(n) oder mehrere Prozessoren oder Steuerungen, die in der bzw. den Speichervorrichtung(en) 904 und/oder Massenspeichervorrichtung(en) 908 gespeicherte Anweisungen ausführen. Der bzw. die Prozessor(en) 902 kann bzw. können zudem verschiedene Arten von computerlesbaren Medien beinhalten, wie etwa Cache-Speicher.
Die Speichervorrichtung(en) 904 beinhaltet bzw. beinhalten verschiedene computerlesbare Medien, wie etwa flüchtigen Speicher (z. B. Direktzugriffsspeicher (random access memory - RAM) 914) und/oder nichtflüchtigen Speicher (z. B. Festwertspeicher (read-only memory - ROM) 916). Die Speichervorrichtung(en) 904 kann bzw. können zudem wiederbeschreibbaren ROM beinhalten, wie etwa Flash-Speicher.
Die Massenspeichervorrichtung(en) 908 beinhaltet bzw. beinhalten verschiedene computerlesbare Medien, wie etwa Magnetbänder, Magnetplatten, optische Platten, Festkörperspeicher (z. B. Flash-Speicher) und so weiter. Wie in 9 gezeigt, ist eine besondere Massenspeichervorrichtung ein Festplattenlaufwerk 924. Zudem können verschiedene Laufwerke in der bzw. den Massenspeichervorrichtung(en) 908 enthalten sein, um ein Auslesen aus und/oder Schreiben auf die verschiedenen computerlesbaren Medien zu ermöglichen. Die Massenspeichervorrichtung(en) 908 beinhaltet bzw. beinhalten Wechselmedien 926 und/oder Nicht-Wechselmedien.
Die E/A-Vorrichtung(en) 910 beinhaltet bzw. beinhalten verschiedene Vorrichtungen, die es ermöglichen, dass Daten und/oder andere Informationen in die Rechenvorrichtung 900 eingegeben oder daraus abgerufen werden. Zu (einer) beispielhaften E/A-Vorrichtung(en) 910 gehören Cursorsteuervorrichtungen, Tastaturen, Tastenfelder, Mikrofone, Monitore oder andere Anzeigevorrichtungen, Lautsprecher, Drucker, Netzwerkschnittstellenkarten, Modems und dergleichen.
Die Anzeigevorrichtung 930 beinhaltet eine beliebige Art von Vorrichtung, die dazu in der Lage ist, einem oder mehreren Benutzern der Rechenvorrichtung 900 Informationen anzuzeigen. Zu Beispielen für die Anzeigevorrichtung 930 gehören ein Monitor, ein Anzeigeendgerät, eine Videoprojektionsvorrichtung und dergleichen.
Die Schnittstelle(n) 906 beinhaltet bzw. beinhalten verschiedene Schnittstellen, die es der Rechenvorrichtung 900 ermöglichen, mit anderen Systemen, Vorrichtungen oder Rechenumgebungen zu interagieren. Zu (einer) beispielhaften Schnittstelle(n) 906 können eine beliebige Anzahl von unterschiedlichen Netzwerkschnittstellen 920 wie etwa Schnittstellen zu lokalen Netzen (local area networks - LANs), Weitverkehrsnetzen (wide area networks - WANs), Drahtlosnetzwerken und dem Internet gehören. Zu (einer) andere(n) Schnittstelle(n) gehören eine Benutzerschnittstelle 918 und eine Peripherievorrichtungsschnittstelle 922. Die Schnittstelle(n) 906 kann bzw. können zudem ein oder mehrere Benutzerschnittstellenelemente 918 beinhalten. Zu der bzw. den Schnittstelle(n) 906 können zudem eine oder mehrere Peripherieschnittstellen wie etwa Schnittstellen für Drucker, Zeigevorrichtungen (Mäuse, Trackpad oder eine beliebige geeignete Benutzerschnittstelle, die dem Durchschnittsfachmann derzeit bekannt ist oder später entdeckt wird), Tastaturen und dergleichen gehören.
Der Bus 912 ermöglicht es dem bzw. den Prozessor(en) 902, der bzw. den Speichervorrichtung(en) 904, der bzw. den Schnittstelle(n) 906, der bzw. den Massenspeichervorrichtung(en) 908 und der bzw. den E/A-Vorrichtung(en) 910, miteinander sowie mit anderen Vorrichtungen oder Komponenten, die an den Bus 912 gekoppelt sind, zu kommunizieren. Der Bus 912 stellt eine oder mehrere von mehreren Arten von Busstrukturen dar, wie etwa einen Systembus, PCI-Bus, IEEE-Bus, USB-Bus und so weiter.
Zum Zwecke der Veranschaulichung sind Programme und andere ausführbare Programmkomponenten hier als diskrete Blöcke gezeigt, obwohl es sich versteht, dass sich derartige Programme und Komponenten zu verschiedenen Zeitpunkten in unterschiedlichen Speicherkomponenten der Rechenvorrichtung 900 befinden können, und werden durch den bzw. die Prozessor(en) 902 ausgeführt. Alternativ können die hier beschriebenen Systeme und Prozeduren in Hardware oder einer Kombination aus Hardware, Software und/oder Firmware umgesetzt sein. Eine oder mehrere anwendungsspezifische integrierte Schaltungen (application specific integrated circuits - ASICs) können zum Beispiel so programmiert sein, dass sie eines bzw. eine oder mehrere der hier beschriebenen Systeme und Prozeduren ausführen.
BEISPIELE
Die folgenden Beispiele betreffen weitere Ausführungsformen.
Beispiel 1 ist ein Verfahren zum Erzeugen von synthetischen Sprachdaten. Das Verfahren beinhaltet Folgendes: Empfangen von Eingabeaudiodaten, die eine Vielzahl von Iterationen einer Sprachäußerung von einer Vielzahl von Sprechern umfassen; Erzeugen eines Eingabespektrogramms auf Grundlage der Eingabeaudiodaten; Übertragen des Eingabespektrogramms an ein neuronales Netz, das dazu konfiguriert ist, ein Ausgabespektrogramm zu erzeugen; Empfangen des Ausgabespektrogramms von dem neuronalen Netz; und auf Grundlage des Ausgabespektrogramms Erzeugen von synthetischen Audiodaten, die die Sprachäußerung umfassen.
Beispiel 2 ist ein Verfahren wie in Beispiel 1, wobei eines oder mehrere des Eingabespektrogramms und des Ausgabespektrogramms eine zweidimensionale Audiospektrogrammdarstellung umfassen.
Beispiel 3 ist ein Verfahren wie in einem der Beispiele 1-2, wobei die Sprachäußerung eines oder mehrere von einem Wort, einer Phrase, einem Satz oder einem Geräusch umfasst.
Beispiel 4 ist ein Verfahren wie in einem der Beispiele 1-3, wobei die Vielzahl von Sprechern echte Sprecher und synthetische Sprecher umfasst.
Beispiel 5 ist ein Verfahren wie in einem der Beispiele 1-4, ferner umfassend Übertragen der synthetischen Audiodaten, die die Sprachäußerung umfassen, an ein neuronales Trainingsnetz, das dazu konfiguriert ist, unter Verwendung der synthetischen Audiodaten trainiert zu werden.
Beispiel 6 ist ein Verfahren wie in einem der Beispiele 1-5, wobei das neuronale Netz eine modifizierte Architektur eines neuronalen Netzes umfasst, die eine Faltungsschicht in einem Codierer und Entfaltungsschichten in einem Decodierer umfasst.
Beispiel 7 ist ein Verfahren wie in einem der Beispiele 1-6, wobei das neuronale Netz zu Folgendem konfiguriert ist: Durchlaufen einer Trainingsphase und einer Erzeugungsphase, wobei die Trainingsphase Lernen einer Vielzahl von Parametern zum Herstellen des Ausgabespektrogramms umfasst und die Erzeugungsphase Erzeugen des Ausgabespektrogramms durch Abtasten aus einer latenten Schicht umfasst.
Beispiel 8 ist ein Verfahren wie in einem der Beispiele 1-7, wobei die Eingabeaudiodaten ein eindimensionales Eingabeaudiosignal umfassen.
Beispiel 9 ist ein Verfahren wie in einem der Beispiele 1-8, wobei Übertragen des Eingabespektrogramms an das neuronale Netz Einspeisen des Eingabespektrogramms unter Verwendung einer quadratischen Verlustfunktion als Trainingskriterium umfasst.
Beispiel 10 ist ein Verfahren wie in einem der Beispiele 1-9, wobei das neuronale Netz dazu konfiguriert ist, das Ausgabespektrogramm mittels Griffin-Lim-Rekonstruktion zu erzeugen.
Beispiel 11 ist ein Verfahren wie in einem der Beispiele 1-10, wobei eines oder mehrere des Eingabespektrogramms und des Ausgabespektrogramms ein zweidimensionales Bild umfassen, das eine Zeitachse und eine Frequenzachse umfasst.
Beispiel 12 ist ein System zum Erzeugen von synthetischen Sprachdaten. Das System beinhaltet Folgendes: ein neuronales Netz, das dazu konfiguriert ist, ein zweidimensionales Audiospektrogramm zu erzeugen; und computerlesbare Speichermedien, auf denen Anweisungen gespeichert sind, die bei Ausführung durch einen oder mehrere Prozessoren den einen oder die mehreren Prozessoren zu Folgendem veranlassen: Empfangen von Eingabeaudiodaten, die eine Vielzahl von Iterationen einer Sprachäußerung von einer Vielzahl von Sprechern umfassen; Erzeugen eines Eingabespektrogramms auf Grundlage der Eingabeaudiodaten; Übertragen des Eingabespektrogramms an das neuronale Netz; Empfangen eines Ausgabespektrogramms von dem neuronalen Netz; und auf Grundlage des Ausgabespektrogramms Erzeugen von synthetischen Audiodaten, die die Sprachäußerung umfassen.
Beispiel 13 ist ein Verfahren wie in Beispiel 12, wobei das neuronale Netz eine modifizierte Architektur eines neuronalen Netzes auf Grundlage eines Modells eines Variational Autoencoder umfasst und wobei das neuronale Netz Faltungsschichten, die in einem Codierer verwendet werden, und Entfaltungsschichten, die in einem Decodierer verwendet werden, umfasst.
Beispiel 14 ist ein System wie in einem der Beispiele 12-13, wobei das neuronale Netz einen Arbeitsablauf umfasst und der Arbeitsablauf Folgendes umfasst: eine Trainingsphase, in der das neuronale Netz als Autoencoder fungiert und dazu konfiguriert ist, eine Vielzahl von Parametern zum Erzeugen des Ausgabespektrogramms zu lernen; und eine Erzeugungsphase, in der das neuronale Netz das Ausgabespektrogramm erzeugt.
Beispiel 15 ist ein System wie in einem der Beispiele 12-14, wobei das neuronale Netz die Erzeugungsphase durchläuft, nachdem das neuronale Netz trainiert worden ist und eine Codierungsschicht des neuronalen Netzes entfernt worden ist.
Beispiel 16 ist ein System wie in einem der Beispiele 12-15, wobei das neuronale Netz dazu konfiguriert ist, das Ausgabespektrogramm durch Abtasten aus einer latenten Schicht zu erzeugen.
Beispiel 17 ist ein System wie in einem der Beispiele 12-16, wobei die computerlesbaren Speichermedien synthetische Audiodaten mittels Griffin-Lim-Rekonstruktion erzeugen, um Phaseninformationen zurückzugewinnen.
Beispiel 18 ist ein System wie in einem der Beispiele 12-17, wobei die computerlesbaren Speichermedien das Eingabespektrogramm mit einer quadratischen Verlustfunktion als Trainingskriterium an das neuronale Netz übertragen, wobei Fehler unter Verwendung von Optimierung durch ein Gradientenverfahren zurückpropagiert werden.
Beispiel 19 ist ein System wie in einem der Beispiele 12-18, wobei das neuronale Netz eine Architektur eines Variational Autoencoder umfasst, die Faltungen mit erhöhter Schrittweite, vollständig verbundene Faltungen und Entfaltungen mit erhöhter Schrittweite umfasst.
Beispiel 20 ist computerlesbare Speichermedien, auf denen Anweisungen gespeichert sind, die bei Ausführung durch einen oder mehrere Prozessoren den einen oder die mehreren Prozessoren zu Folgendem veranlassen: Empfangen von Eingabeaudiodaten, die eine Vielzahl von Iterationen einer Sprachäußerung von einer Vielzahl von Sprechern umfassen; Erzeugen eines zweidimensionalen Eingabeaudiospektrogramms auf Grundlage der Eingabeaudiodaten; Übertragen des zweidimensionalen Eingabeaudiospektrogramms an ein neuronales Netz; Empfangen eines zweidimensionalen Ausgabeaudiospektrogramms von dem neuronalen Netz; und auf Grundlage des zweidimensionalen Ausgabeaudiospektrogramms Erzeugen von synthetischen Audiodaten, die die Sprachäußerung umfassen.
In der vorstehenden Offenbarung wurde auf die beigefügten Zeichnungen Bezug genommen, die einen Teil hiervon bilden und in denen zur Veranschaulichung konkrete Umsetzungen gezeigt sind, in denen die Offenbarung ausgeführt sein kann. Es versteht sich, dass andere Umsetzungen verwendet werden können und strukturelle Änderungen vorgenommen werden können, ohne vom Umfang der vorliegenden Offenbarung abzuweichen. Bezugnahmen in der Beschreibung auf „eine Ausführungsform“, „ein Ausführungsbeispiel“ usw. geben an, dass die beschriebene Ausführungsform ein(e) bestimmte(s) Merkmal, Struktur oder Eigenschaft beinhalten kann, doch es muss nicht unbedingt jede Ausführungsform diese(s) bestimmte Merkmal, Struktur oder Eigenschaft beinhalten. Darüber hinaus beziehen sich derartige Formulierungen nicht unbedingt auf dieselbe Ausführungsform. Ferner sei darauf hingewiesen, dass, wenn ein(e) bestimmte(s) Merkmal, Struktur oder Eigenschaft in Verbindung mit einer Ausführungsform beschrieben ist, es im Bereich des Fachwissens des Fachmanns liegt, ein(e) derartige(s) Merkmal, Struktur oder Eigenschaft in Verbindung mit anderen Ausführungsformen umzusetzen, ob dies nun ausdrücklich beschrieben ist oder nicht.
Umsetzungen der hier offenbarten Systeme, Vorrichtungen und Verfahren können einen Spezial- oder Universalcomputer umfassen oder verwenden, der Computerhardware beinhaltet, wie zum Beispiel einen oder mehrere Prozessoren und Systemspeicher, wie sie hier erörtert sind. Umsetzungen innerhalb des Umfangs der vorliegenden Offenbarung können zudem physische und andere computerlesbare Medien zum Transportieren oder Speichern von computerausführbaren Anweisungen und/oder Datenstrukturen beinhalten. Bei derartigen computerlesbaren Medien kann es sich um beliebige verfügbare Medien handeln, auf die durch ein Universal- oder Spezialcomputersystem zugegriffen werden kann. Bei computerlesbaren Medien, auf denen computerausführbare Anweisungen gespeichert werden, handelt es sich um Computerspeichermedien (-vorrichtungen). Bei computerlesbaren Medien, die computerausführbare Anweisungen transportieren, handelt es sich um Übertragungsmedien. Somit können Umsetzungen der Offenbarung beispielsweise und nicht einschränkend mindestens zwei deutlich unterschiedliche Arten von computerlesbaren Medien umfassen: Computerspeichermedien (-vorrichtungen) und Übertragungsmedien.
Computerspeichermedien (-vorrichtungen) beinhalten RAM, ROM, EEPROM, CD-ROM, Festkörperlaufwerke (solid state drives - „SSDs“) (z. B. auf Grundlage von RAM), Flash-Speicher, Phasenwechselspeicher (phase-change memory - „PCM“), andere Speicherarten, andere optische Plattenspeicher, Magnetplattenspeicher oder andere magnetische Speichervorrichtungen oder ein beliebiges anderes Medium, das dazu verwendet werden kann, gewünschte Programmcodemittel in Form von computerausführbaren Anweisungen oder Datenstrukturen zu speichern, und auf das durch einen Universal- oder Spezialcomputer zugegriffen werden kann.
Eine Umsetzung der hier offenbarten Vorrichtungen, Systeme und Verfahren kann über ein Computernetzwerk kommunizieren. Ein „Netzwerk“ ist als eine oder mehrere Datenverbindungen definiert, die den Transport elektronischer Daten zwischen Computersystemen und/oder Modulen und/oder anderen elektronischen Vorrichtungen ermöglichen. Wenn Informationen über ein Netzwerk oder eine andere (entweder festverdrahtete, drahtlose oder eine Kombination aus festverdrahteter oder drahtloser) Kommunikationsverbindung an einen Computer übertragen oder diesem bereitgestellt werden, sieht der Computer die Verbindung korrekt als Übertragungsmedium an. Übertragungsmedien können ein Netzwerk und/oder Datenverbindungen beinhalten, die dazu verwendet werden können, gewünschte Programmcodemittel in Form von computerausführbaren Anweisungen oder Datenstrukturen zu transportieren, und auf die durch einen Universal- oder Spezialcomputer zugegriffen werden kann. Kombinationen aus dem Vorstehenden sollten ebenfalls im Umfang computerlesbarer Medien enthalten sein.
Computerausführbare Anweisungen umfassen zum Beispiel Anweisungen und Daten, die bei Ausführung an einem Prozessor bewirken, dass ein Universalcomputer, ein Spezialcomputer oder eine Spezialverarbeitungsvorrichtung eine bestimmte Funktion oder Gruppe von Funktionen durchführt. Die computerausführbaren Anweisungen können zum Beispiel Binärdateien, Anweisungen in einem Zwischenformat wie etwa Assemblersprache oder auch Quellcode sein. Obwohl der Gegenstand in für Strukturmerkmale und/oder methodische Handlungen spezifischer Sprache beschrieben wurde, versteht es sich, dass der in den beigefügten Patentansprüchen definierte Gegenstand nicht unbedingt auf die vorstehend beschriebenen Merkmale oder Handlungen beschränkt ist. Die beschriebenen Merkmale und Handlungen sind vielmehr als beispielhafte Umsetzungsformen der Patentansprüche offenbart.
Der Fachmann wird verstehen, dass die Offenbarung in Network-Computing-Umgebungen mit vielen Arten von Computersystemkonfigurationen angewendet werden kann, einschließlich eines Armaturenbrett-Fahrzeugcomputers, PCs, Desktop-Computern, Laptops, Nachrichtenprozessoren, Handheld-Vorrichtungen, Multiprozessorsystemen, Unterhaltungselektronik auf Mikroprozessorbasis oder programmierbarer Unterhaltungselektronik, Netzwerk-PCs, Minicomputern, Mainframe-Computern, Mobiltelefonen, PDAs, Tablets, Pagern, Routern, Switches, verschiedenen Speichervorrichtungen und dergleichen. Die Offenbarung kann zudem in verteilten Systemumgebungen umgesetzt werden, in denen sowohl lokale Computersysteme als auch Remote-Computersysteme, die durch ein Netzwerk (entweder durch festverdrahtete Datenverbindungen, drahtlose Datenverbindungen oder durch eine Kombination aus festverdrahteten und drahtlosen Datenverbindungen) verbunden sind, Aufgaben ausführen. In einer verteilten Systemumgebung können sich Programmmodule sowohl in lokalen Speichervorrichtungen als auch in Remote-Speichervorrichtungen befinden.
Ferner können die hier beschriebenen Funktionen gegebenenfalls in einem oder mehreren der Folgenden durchgeführt werden: Hardware, Software, Firmware, digitalen Komponenten oder analogen Komponenten. Eine oder mehrere anwendungsspezifische integrierte Schaltungen (ASICs) können zum Beispiel so programmiert sein, dass sie eines bzw. eine oder mehrere der hier beschriebenen Systeme und Prozeduren ausführen. Bestimmte Ausdrücke werden in der gesamten Beschreibung und den Patentansprüchen verwendet, um auf bestimmte Systemkomponenten Bezug zu nehmen. Die Begriffe „Module“ und „Komponenten“ werden in den Bezeichnungen von bestimmten Komponenten verwendet, um ihre Umsetzungsunabhängigkeit in Software, Hardware, Schaltungen, Sensoren oder dergleichen wiederzugeben. Der Fachmann wird verstehen, dass auf Komponenten mit unterschiedlichen Bezeichnungen Bezug genommen werden kann. In dieser Schrift soll nicht zwischen Komponenten unterschieden werden, die sich dem Namen nach unterscheiden, nicht jedoch der Funktion nach.
Es ist anzumerken, dass die vorstehend erörterten Sensorausführungsformen Computerhardware, -software, -firmware oder eine beliebige Kombination daraus umfassen können, um mindestens einen Teil ihrer Funktionen durchzuführen. Ein Sensor kann zum Beispiel Computercode beinhalten, der dazu konfiguriert ist, in einem oder mehreren Prozessoren ausgeführt zu werden, und kann Hardware-Logikschaltungen/elektrische Schaltungen beinhalten, die durch den Computercode gesteuert werden. Diese beispielhaften Vorrichtungen sind hier zum Zwecke der Veranschaulichung bereitgestellt und sollen nicht einschränkend sein. Ausführungsformen der vorliegenden Offenbarung können in weiteren Arten von Vorrichtungen umgesetzt werden, wie es dem einschlägigen Fachmann bekannt ist.
Mindestens einige Ausführungsformen der Offenbarung sind auf Computerprogrammprodukte gerichtet, die eine derartige Logik (z. B. in Form von Software) umfassen, die auf einem beliebigen computernutzbaren Medium gespeichert ist. Derartige Software bewirkt bei Ausführung in einer oder mehreren Datenverarbeitungsvorrichtungen, dass eine Vorrichtung wie hier beschrieben betrieben wird.
Wenngleich vorstehend verschiedene Ausführungsformen der vorliegenden Offenbarung beschrieben wurden, versteht es sich, dass diese lediglich als Beispiele dienen und nicht als Einschränkung. Für den einschlägigen Fachmann ist ersichtlich, dass verschiedene Änderungen hinsichtlich Form und Detaillierungsgrad daran vorgenommen werden können, ohne vom Geist und Umfang der Offenbarung abzuweichen. Somit sollten die Breite und der Umfang der vorliegenden Offenbarung durch keine der vorstehend beschriebenen beispielhaften Ausführungsformen eingeschränkt werden, sondern lediglich gemäß den folgenden Patentansprüchen und ihren Äquivalenten definiert sein. Die vorstehende Beschreibung wurde zum Zwecke der Veranschaulichung und Beschreibung dargelegt. Sie erhebt keinerlei Anspruch auf Vollständigkeit und soll die Offenbarung nicht auf die konkrete offenbarte Form beschränken. Viele Modifikationen und Variationen sind unter Berücksichtigung der vorstehenden Lehren möglich. Ferner ist anzumerken, dass beliebige oder alle der vorstehend genannten alternativen Umsetzungen in einer beliebigen gewünschten Kombination verwendet werden können, um zusätzliche Hybridumsetzungen der Offenbarung zu bilden.
Ferner soll die Offenbarung, obwohl konkrete Umsetzungen der Offenbarung beschrieben und veranschaulicht wurden, nicht auf die beschriebenen und veranschaulichten konkreten Formen oder Anordnungen von Teilen beschränkt werden. Der Umfang der Offenbarung soll durch die hier beigefügten Patentansprüche, jegliche zukünftigen hier und in anderen Anmeldungen beantragten Patentansprüche und deren Äquivalente definiert werden.
Gemäß der vorliegenden Erfindung beinhaltet ein Verfahren zum Erzeugen von synthetischen Sprachdaten Empfangen von Eingabeaudiodaten, die eine Vielzahl von Iterationen einer Sprachäußerung von einer Vielzahl von Sprechern umfassen; Erzeugen eines Eingabespektrogramms auf Grundlage der Eingabeaudiodaten; Übertragen des Eingabespektrogramms an ein neuronales Netz, das dazu konfiguriert ist, ein Ausgabespektrogramm zu erzeugen; Empfangen des Ausgabespektrogramms von dem neuronalen Netz; und auf Grundlage des Ausgabespektrogramms Erzeugen von synthetischen Audiodaten, die die Sprachäußerung umfassen.
Gemäß einer Ausführungsform umfassen eines oder mehrere des Eingabespektrogramms und des Ausgabespektrogramms eine zweidimensionale Audiospektrogrammdarstellung.
Gemäß einer Ausführungsform umfasst die Sprachäußerung eines oder mehrere von einem Wort, einer Phrase, einem Satz oder einem Geräusch.
Gemäß einer Ausführungsform umfasst die Vielzahl von Sprechern echte Sprecher und synthetische Sprecher.
Gemäß einer Ausführungsform ist die vorstehende Erfindung ferner durch Folgendes gekennzeichnet: Übertragen der synthetischen Audiodaten, die die Sprachäußerung umfassen, an ein neuronales Trainingsnetz, das dazu konfiguriert ist, unter Verwendung der synthetischen Audiodaten trainiert zu werden.
Gemäß einer Ausführungsform umfasst das neuronale Netz eine modifizierte Architektur eines neuronalen Netzes, die eine Faltungsschicht in einem Codierer-Modul und eine Entfaltungsschicht in einem Decodierer-Modul umfasst.
Gemäß einer Ausführungsform ist das neuronale Netz zu Folgendem konfiguriert: Durchlaufen einer Trainingsphase und einer Erzeugungsphase, wobei die Trainingsphase Lernen einer Vielzahl von Parametern zum Herstellen des Ausgabespektrogramms umfasst und die Erzeugungsphase Erzeugen des Ausgabespektrogramms durch Abtasten aus einer latenten Schicht umfasst.
Gemäß einer Ausführungsform umfassen die Eingabeaudiodaten ein eindimensionales Eingabeaudiosignal.
Gemäß einer Ausführungsform umfasst Übertragen des Eingabespektrogramms an das neuronale Netz Einspeisen des Eingabespektrogramms unter Verwendung einer quadratischen Verlustfunktion als Trainingskriterium.
Gemäß einer Ausführungsform ist das neuronale Netz dazu konfiguriert, das Ausgabespektrogramm mittels Griffin-Lim-Rekonstruktion zu erzeugen.
Gemäß einer Ausführungsform umfassen eines oder mehrere des Eingabespektrogramms und des Ausgabespektrogramms ein zweidimensionales Bild, das eine Zeitachse und eine Frequenzachse umfasst.
Gemäß der vorliegenden Erfindung wird ein System zum Erzeugen von synthetischen Sprachdaten bereitgestellt, das Folgendes aufweist: ein neuronales Netz, das dazu konfiguriert ist, ein zweidimensionales Audiospektrogramm zu erzeugen; und computerlesbare Speichermedien, auf denen Anweisungen gespeichert sind, die bei Ausführung durch einen oder mehrere Prozessoren den einen oder die mehreren Prozessoren zu Folgendem veranlassen: Empfangen von Eingabeaudiodaten, die eine Vielzahl von Iterationen einer Sprachäußerung von einer Vielzahl von Sprechern umfassen; Erzeugen eines Eingabespektrogramms auf Grundlage der Eingabeaudiodaten; Übertragen des Eingabespektrogramms an das neuronale Netz; Empfangen eines Ausgabespektrogramms von dem neuronalen Netz; und auf Grundlage des Ausgabespektrogramms Erzeugen von synthetischen Audiodaten, die die Sprachäußerung umfassen.
Gemäß einer Ausführungsform umfasst das neuronale Netz eine modifizierte Architektur eines neuronalen Netzes auf Grundlage eines Modells eines Variational Autoencoder, und wobei das neuronale Netz eine Faltungsschicht, die in einem Codierer-Modul verwendet wird, und eine Entfaltungsschicht, die in einem Decodierer-Modul verwendet wird, umfasst.
Gemäß einer Ausführungsform umfasst das neuronale Netz einen Arbeitsablauf und umfasst der Arbeitsablauf Folgendes: eine Trainingsphase, in der das neuronale Netz als Autoencoder fungiert und dazu konfiguriert ist, eine Vielzahl von Parametern zum Erzeugen des Ausgabespektrogramms zu lernen; und eine Erzeugungsphase, in der das neuronale Netz das Ausgabespektrogramm erzeugt.
Gemäß einer Ausführungsform durchläuft das neuronale Netz die Erzeugungsphase, nachdem das neuronale Netz trainiert worden ist und eine Codierungsschicht des neuronalen Netzes entfernt worden ist.
Gemäß einer Ausführungsform ist das neuronale Netz dazu konfiguriert, das Ausgabespektrogramm durch Abtasten aus einer latenten Schicht zu erzeugen.
Gemäß einer Ausführungsform erzeugen die computerlesbaren Speichermedien synthetische Audiodaten mittels Griffin-Lim-Rekonstruktion, um Phaseninformationen zurückzugewinnen.
Gemäß einer Ausführungsform übertragen die computerlesbaren Speichermedien das Eingabespektrogramm mit einer quadratischen Verlustfunktion als Trainingskriterium an das neuronale Netz, wobei Fehler unter Verwendung von Optimierung durch ein Gradientenverfahren zurückpropagiert werden.
Gemäß einer Ausführungsform umfasst das neuronale Netz eine Architektur eines Variational Autoencoder, die eine Faltung mit erhöhter Schrittweite, eine vollständig verbundene Faltung und eine Entfaltung mit erhöhter Schrittweite umfasst.
Gemäß der vorliegenden Erfindung werden computerlesbare Speichermedien bereitgestellt, auf denen Anweisungen gespeichert sind, die bei Ausführung durch einen oder mehrere Prozessoren den einen oder die mehreren Prozessoren zu Folgendem veranlassen: Empfangen von Eingabeaudiodaten, die eine Vielzahl von Iterationen einer Sprachäußerung von einer Vielzahl von Sprechern umfassen, Erzeugen eines zweidimensionalen Eingabeaudiospektrogramms auf Grundlage der Eingabeaudiodaten, Übertragen des zweidimensionalen Eingabeaudiospektrogramms an ein neuronales Netz, Empfangen eines zweidimensionalen Ausgabeaudiospektrogramms von dem neuronalen Netz, und auf Grundlage des zweidimensionalen Ausgabeaudiospektrogramms Erzeugen von synthetischen Audiodaten, die die Sprachäußerung umfassen.

Claims

Verfahren zum Erzeugen von synthetischen Sprachdaten, wobei das Verfahren Folgendes umfasst: Empfangen von Eingabeaudiodaten, die eine Vielzahl von Iterationen einer Sprachäußerung von einer Vielzahl von Sprechern umfassen; Erzeugen eines Eingabespektrogramms auf Grundlage der Eingabeaudiodaten; Übertragen des Eingabespektrogramms an ein neuronales Netz, das dazu konfiguriert ist, ein Ausgabespektrogramm zu erzeugen; Empfangen des Ausgabespektrogramms von dem neuronalen Netz; und auf Grundlage des Ausgabespektrogramms Erzeugen von synthetischen Audiodaten, die die Sprachäußerung umfassen.
Verfahren nach Anspruch 1, wobei eines oder mehrere des Eingabespektrogramms und des Ausgabespektrogramms eine zweidimensionale Audiospektrogrammdarstellung umfassen.
Verfahren nach Anspruch 1, wobei die Sprachäußerung eines oder mehrere von einem Wort, einer Phrase, einem Satz oder einem Geräusch umfasst.
Verfahren nach Anspruch 1, wobei die Vielzahl von Sprechern echte Sprecher und synthetische Sprecher umfasst.
Verfahren nach Anspruch 1, ferner umfassend Übertragen der synthetischen Audiodaten, die die Sprachäußerung umfassen, an ein neuronales Trainingsnetz, das dazu konfiguriert ist, unter Verwendung der synthetischen Audiodaten trainiert zu werden.
Verfahren nach Anspruch 1, wobei das neuronale Netz eine modifizierte Architektur eines neuronalen Netzes umfasst, die eine Faltungsschicht in einem Codierer-Modul und eine Entfaltungsschicht in einem Decodierer-Modul umfasst, und wobei das neuronale Netz zu einem oder mehreren der Folgenden konfiguriert ist: Durchlaufen einer Trainingsphase und einer Erzeugungsphase, wobei die Trainingsphase Lernen einer Vielzahl von Parametern zum Herstellen des Ausgabespektrogramms umfasst und die Erzeugungsphase Erzeugen des Ausgabespektrogramms durch Abtasten aus einer latenten Schicht umfasst; oder Erzeugen des Ausgabespektrogramms mittels Griffin-Lim-Rekonstruktion.
Verfahren nach Anspruch 1, wobei eines oder mehrere der Folgenden gelten: die Eingabeaudiodaten umfassen ein eindimensionales Eingabeaudiosignal; oder das Eingabespektrogramm und das Ausgabespektrogramm umfassen ein zweidimensionales Bild, das eine Zeitachse und eine Frequenzachse umfasst.
Verfahren nach Anspruch 1, wobei Übertragen des Eingabespektrogramms an das neuronale Netz Einspeisen des Eingabespektrogramms unter Verwendung einer quadratischen Verlustfunktion als Trainingskriterium umfasst.
System zum Erzeugen von synthetischen Sprachdaten, wobei das System Folgendes umfasst: ein neuronales Netz, das dazu konfiguriert ist, ein zweidimensionales Audiospektrogramm zu erzeugen; und computerlesbare Speichermedien, auf denen Anweisungen gespeichert sind, die bei Ausführung durch einen oder mehrere Prozessoren den einen oder die mehreren Prozessoren zu Folgendem veranlassen: Empfangen von Eingabeaudiodaten, die eine Vielzahl von Iterationen einer Sprachäußerung von einer Vielzahl von Sprechern umfassen; Erzeugen eines Eingabespektrogramms auf Grundlage der Eingabeaudiodaten; Übertragen des Eingabespektrogramms an das neuronale Netz; Empfangen eines Ausgabespektrogramms von dem neuronalen Netz; und auf Grundlage des Ausgabespektrogramms Erzeugen von synthetischen Audiodaten, die die Sprachäußerung umfassen.
System nach Anspruch 9, wobei das neuronale Netz eine modifizierte Architektur eines neuronalen Netzes auf Grundlage eines Modells eines Variational Autoencoder umfasst und wobei das neuronale Netz eine Faltungsschicht, die in einem Codierer-Modul verwendet wird, und eine Entfaltungsschicht, die in einem Decodierer-Modul verwendet wird, umfasst.
System nach Anspruch 9, wobei das neuronale Netz einen Arbeitsablauf umfasst und der Arbeitsablauf Folgendes umfasst: eine Trainingsphase, in der das neuronale Netz als Autoencoder fungiert und dazu konfiguriert ist, eine Vielzahl von Parametern zum Erzeugen des Ausgabespektrogramms zu lernen; und eine Erzeugungsphase, in der das neuronale Netz das Ausgabespektrogramm erzeugt.
System nach Anspruch 11, wobei eines oder mehrere der Folgenden gelten: das neuronale Netz durchläuft die Erzeugungsphase, nachdem das neuronale Netz trainiert worden ist und eine Codierungsschicht des neuronalen Netzes entfernt worden ist; das neuronale Netz ist dazu konfiguriert, das Ausgabespektrogramm durch Abtasten aus einer latenten Schicht zu erzeugen; oder das neuronale Netz umfasst eine Architektur eines Variational Autoencoder, die eine Faltung mit erhöhter Schrittweite, eine vollständig verbundene Faltung und eine Entfaltung mit erhöhter Schrittweite umfasst.
System nach Anspruch 9, wobei die computerlesbaren Speichermedien synthetische Audiodaten mittels Griffin-Lim-Rekonstruktion erzeugen, um Phaseninformationen zurückzugewinnen.
System nach Anspruch 9, wobei die computerlesbaren Speichermedien das Eingabespektrogramm mit einer quadratischen Verlustfunktion als Trainingskriterium an das neuronale Netz übertragen, wobei Fehler unter Verwendung von Optimierung durch ein Gradientenverfahren zurückpropagiert werden.
Computerlesbare Speichermedien, auf denen Anweisungen gespeichert sind, die bei Ausführung durch einen oder mehrere Prozessoren den einen oder die mehreren Prozessoren zu Folgendem veranlassen: Empfangen von Eingabeaudiodaten, die eine Vielzahl von Iterationen einer Sprachäußerung von einer Vielzahl von Sprechern umfassen; Erzeugen eines zweidimensionalen Eingabeaudiospektrogramms auf Grundlage der Eingabeaudiodaten; Übertragen des zweidimensionalen Eingabeaudiospektrogramms an ein neuronales Netz; Empfangen eines zweidimensionalen Ausgabeaudiospektrogramms von dem neuronalen Netz; und auf Grundlage des zweidimensionalen Ausgabeaudiospektrogramms Erzeugen von synthetischen Audiodaten, die die Sprachäußerung umfassen.