DE112021004661T5

DE112021004661T5 - Transliterationsbasierte datenerweiterung für ein trainieren vonmehrsprachigen akustischen asr-modellen in umgebungen mit geringenressourcen

Info

Publication number: DE112021004661T5
Application number: DE112021004661.6T
Authority: DE
Inventors: Samuel Thomas; Kartik Audhkhasi; Brian E. D. Kingsbury
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-10-17
Filing date: 2021-10-15
Publication date: 2023-06-29
Also published as: US11568858B2; CN116368561A; GB2615912A; WO2022078506A1; GB202306470D0; JP2023545103A; US20220122585A1

Abstract

Ein auf einem Computer ausgeführtes Verfahren zum Aufbauen eines mehrsprachigen akustischen Modells für automatische Spracherkennung in einer Umgebung mit geringen Ressourcen umfasst ein Trainieren eines mehrsprachigen Netzes anhand eines Satzes von Trainingssprachen mit umgeschriebenen ursprünglichen Daten, um ein mehrsprachiges akustisches Grundlinienmodell zu erstellen. Eine Transliteration von umgeschriebenen Trainingsdaten wird durch Verarbeiten einer Mehrzahl von mehrsprachigen Datentypen aus dem Satz von Sprachen durch das mehrsprachige Netz und Ausgeben eines Pools von transliterierten Daten durchgeführt. Eine Filterungsmetrik wird auf den Pool von ausgegebenen transliterierten Daten angewendet, um einen oder mehrere Teile der transliterierten Daten für ein erneutes Trainieren des akustischen Modells auszuwählen. Eine Datenerweiterung wird durch Hinzufügen eines oder mehrerer ausgewählter Teile der ausgegebenen transliterierten Daten zu den umgeschriebenen ursprünglichen Trainingsdaten durchgeführt, um Trainingsdaten zu aktualisieren. Das Trainieren eines neuen mehrsprachigen akustischen Modells durch das mehrsprachige Netz wird unter Verwendung der aktualisierten Trainingsdaten durchgeführt.

Description

HINTERGRUND
Technisches Gebiet
Die vorliegende Offenbarung betrifft im Allgemeinen die akustische Spracherkennung (ASR, acoustic speech recognition) und im Besonderen ein Trainieren von mehrsprachigen akustischen ASR-Modellen.
Beschreibung des Standes der Technik
Akustische Modelle für Spracherkennungssysteme gehen üblicherweise mit mehreren hundert Stunden an aufgabenspezifischen Trainingsdaten einher. Allerdings ergeben sich Herausforderungen, wenn die Menge an verfügbaren Ressourcen für ein aufgabenspezifisches Trainieren gering ist, zum Beispiel in einem Umfang, der weit unter den üblichen Hunderten oder Tausenden von Stunden liegt (z.B. im Bereich von einigen Dutzend Stunden). In Umgebungen mit geringen Ressourcen ist es schwierig, akustische Modelle ausreichend zu trainieren. Daher ist die Fehlerrate derartiger akustischer Modelle üblicherweise viel höher als in einem Fall, in dem ausreichend Trainingsressourcen vorhanden sind.
In derartigen Umgebungen mit geringen Ressourcen können umgeschriebene Daten aus anderen Sprachen verwendet werden, um mehrsprachige akustische Modelle aufzubauen. Derartige mehrsprachige akustische Modelle werden dann entweder zum Extrahieren von mehrsprachigen Engpassmerkmalen für ein nachfolgendes Verarbeiten verwendet oder können direkt als akustische Modelle eingesetzt werden, nachdem ein Feinabstimmungsschritt für die Sprache mit geringen Ressourcen durchgeführt wurde. Frühere Versuche, das Problem von Umgebungen mit geringen Ressourcen zu lösen, umfassten ein Anwenden von Datenerweiterungen auf Trainingsdaten, was jedoch nicht zu einer spürbaren Verbesserung beim Trainieren der akustischen Modelle führte, sowie ein manuelles Eingreifen.
Allerdings sind die Wortfehlerraten (WER, word error rates) von akustischen Modellen, die in Umgebungen mit geringen Ressourcen trainiert wurden, selbst mit den zusätzlichen umgeschriebenen Daten relativ hoch. Bisherige Versuche, die Leistung zu verbessern, umfassen: (1) Datenerweiterung zum Bereinigen von Sprache; (2) Vokaltraktlängenstörungen (VTLP, vocal tract length perturbation); (3) Audiogeschwindigkeits- und -tempostörungen sowie verschiedene Kombinationen derartiger Verfahren.
Dementsprechend besteht die Notwendigkeit, das Problem des Trainierens von mehrsprachigen akustischen Modellen in Umgebungen mit geringen Ressourcen mit einer verringerten WER anzugehen.
KURZDARSTELLUNG
Gemäß einer Ausführungsform umfasst ein auf einem Computer ausgeführtes Verfahren zum Aufbauen eines mehrsprachigen akustischen Modells für automatische Spracherkennung in einer Umgebung mit geringen Ressourcen ein Trainieren eines mehrsprachigen Netzes anhand eines Satzes von Trainingssprachen mit umgeschriebenen ursprünglichen Trainingsdaten, um ein mehrsprachiges akustisches Grundlinienmodell zu erstellen. Eine Transliteration von umgeschriebenen Trainingsdaten wird durch Verarbeiten einer Mehrzahl von mehrsprachigen Datentypen aus dem Satz von Sprachen durch das mehrsprachige Netz und Ausgeben eines Pools von transliterierten Daten durchgeführt. Eine Filterungsmetrik wird auf den Pool von ausgegebenen transliterierten Daten angewendet, um einen oder mehrere Teile der transliterierten Daten für ein erneutes Trainieren des akustischen Modells auszuwählen. Eine Datenerweiterung wird durch Hinzufügen eines oder mehrerer ausgewählter Teile der ausgegebenen transliterierten Daten zu den umgeschriebenen ursprünglichen Trainingsdaten durchgeführt, um Trainingsdaten zu aktualisieren. Ein neues mehrsprachiges akustisches Modell wird mit den aktualisierten Trainingsdaten trainiert. Dieses auf einem Computer ausgeführte Verfahren stellt ein genaueres Trainieren eines mehrsprachigen akustischen Modells bereit, zumindest aufgrund der Arbeitsschritte der Transliteration und der Datenerweiterung sowie des Durchführens der Datenerweiterung für die ausgegebenen transliterierten Daten. Die Anwendung der Datenerweiterung auf die ausgegebenen transliterierten Daten, insbesondere in einer Umgebung mit geringen Ressourcen, sorgt auch für ein vielfältigeres und genaueres Trainieren des akustischen Modells, da die Trainingsdaten verbessert und erweitert werden.
In einer Ausführungsform umfasst das auf einem Computer ausgeführte Verfahren darüber hinaus ein erneutes Trainieren des mehrsprachigen akustischen Grundlinienmodells mit den aktualisierten Trainingsdaten. Dieser Arbeitsschritt führt zu einem genaueren und robusteren akustischen Grundlinienmodell.
In einer Ausführungsform stammen die ursprünglichen Trainingsdaten aus einer Sprache mit geringen Ressourcen, und das mehrsprachige Netz umfasst ein neuronales Netz mit einer Mehrzahl von sprachspezifischen Ausgabeschichten, die so konfiguriert sind, dass sie Sätze von Symbolen jeder Sprache gesondert modellieren, und wobei das neuronale Netz einen sprachspezifischen Teil der transliterierten Daten an mindestens eine entsprechende sprachspezifische Ausgabeschicht ausgibt. Durch Verwenden eines neuronalen Netzes wird ein schnelleres und effizienteres Trainieren des akustischen Modells bereitgestellt.
In einer Ausführungsform umfasst das Hinzufügen des einen oder der mehreren ausgewählten Teile der ausgegebenen transliterierten Daten zu dem umgeschriebenen ursprünglichen Training einem neuen Kennsatz zugeordnete Daten, die unter Verwendung von Symbolen anderer Sprachen aus neuen Kopien von Daten gebildet werden. Das Neuzuordnen von Kennsätzen zu den Daten, die aus neuen Kopien von Daten gebildet werden, die Symbole anderer Sprachen verwenden, hilft dem mehrsprachigen Netz beim Trainieren des mehrsprachigen akustischen Modells.
In einer Ausführungsform wird das Trainieren des mehrsprachigen Netzes anhand eines Satzes von Trainingssprachen mit der Umgebung mit geringen Ressourcen der umgeschriebenen ursprünglichen Daten durchgeführt, die einige Dutzend Stunden der umgeschriebenen ursprünglichen Daten aufweisen. Das Verfahren sorgt für ein genaueres Trainieren des akustischen Modells, da es ansonsten schwierig ist, in Umgebungen mit geringen Ressourcen genau und effizient zu trainieren.
In einer Ausführungsform umfasst das auf einem Computer ausgeführte Verfahren ein Generieren von halbüberwachten Kennsätzen als Reaktion auf ein Verarbeiten von nicht umgeschriebenen Daten durch das mehrsprachige neuronale Netz.
In einer Ausführungsform wird das Filtern des Pools von transliterierten Daten durch Auswählen des einen oder der mehreren Teile des Pools von transliterierten Daten mit einer relativ höheren Anzahl von Symbolen im Vergleich zu einem Rest der transliterierten Daten durchgeführt. Dieser Arbeitsschritt sorgt für ein Trainieren eines genaueren akustischen Modells. Die Anwendung einer Filterungsmetrik sorgt für ein robusteres und genaueres Training des mehrsprachigen akustischen Modells.
In einer Ausführungsform wird die Anwendung der Metrikfilterung auf den Pool von transliterierten Daten durch ein Vergleichen eines Verhältnisses von Symbolen in den transliterierten Daten mit Symbolen in einer Äußerung, welche die umgeschriebenen ursprünglichen Trainingsdaten aufweist, und durch ein Auswählen eines oder mehrerer Teile des Pools von transliterierten Daten mit dem höheren Verhältnis von Symbolen durchgeführt. Die Anwendung einer Filterungsmetrik sorgt für ein robusteres und genaueres Training des mehrsprachigen akustischen Modells.
In einer Ausführungsform umfasst das Verarbeiten der Mehrzahl von mehrsprachigen Datentypen ein Verarbeiten von: umgeschriebenen Trainingsdaten, nicht umgeschriebenen Daten aus demselben Satz von Trainingssprachen und nicht umgeschriebenen Daten aus verschiedenen Sprachen.
In einer Ausführungsform wird der Eingabe in das mehrsprachige Netz eine neue Sprache hinzugefügt, und die transliterierten Daten in der neuen Sprache werden ausgegeben. Neue Sprachen erweitern die Vielfalt des robusten Modells und verbessern die Genauigkeit und das Trainieren.
Gemäß einer Ausführungsform umfasst ein automatisches Spracherkennungssystem, das für eine transliterationsbasierte Datenerweiterung eines mehrsprachigen akustischen Modells konfiguriert ist, einen Prozessor und einen mit dem Prozessor verbundenen Speicher. In dem Speicher sind Anweisungen gespeichert, die den Prozessor veranlassen, Prozesse durchzuführen, darunter: ein Trainieren eines mehrsprachigen Netzes anhand eines Satzes von Trainingssprachen mit umgeschriebenen ursprünglichen Trainingsdaten, um ein mehrsprachiges akustisches Grundlinienmodell zu erstellen, ein Durchführen einer Transliteration durch Verarbeiten einer Mehrzahl von mehrsprachigen Datentypen aus dem Satz von Sprachen durch das mehrsprachige Netz und ein Ausgeben eines Pools von transliterierten Daten. Eine Filterungsmetrik wird auf den Pool von aus dem mehrsprachigen Netz ausgegebenen transliterierten Daten angewendet, um einen oder mehrere Teile der transliterierten Daten für ein erneutes Trainieren des akustischen Modells auszuwählen. Eine Datenerweiterung wird durch Hinzufügen des einen oder der mehreren ausgewählten Teile der ausgegebenen transliterierten Daten zu den umgeschriebenen ursprünglichen Trainingsdaten durchgeführt, um aktualisierte Trainingsdaten zu erhalten. Die aktualisierten Trainingsdaten werden durch das mehrsprachige Netz verarbeitet, und das mehrsprachige akustische Modell wird mit den aktualisierten Trainingsdaten neu trainiert. Diese Konfiguration stellt ein genaueres Trainieren eines akustischen Modells bereit, zumindest aufgrund der Arbeitsschritte der Transliteration und der Datenerweiterung sowie des Durchführens der Datenerweiterung für die ausgegebenen transliterierten Daten.
In einer Ausführungsform weist das mehrsprachige Netz ein neuronales Netz mit einer Mehrzahl von sprachspezifischen Ausgabeschichten auf, die konfiguriert sind zum gesonderten Modellieren von Sätzen von Symbolen jeder Sprache, und wobei das neuronale Netz konfiguriert ist zum Ausgeben eines sprachspezifischen Teils der transliterierten Daten an mindestens eine entsprechende sprachspezifische Ausgabeschicht. Durch Verwenden eines neuronalen Netzes wird ein schnelleres und effizienteres Trainieren des akustischen Modells bereitgestellt.
Gemäß einer Ausführungsform enthält ein nichtflüchtiges, durch einen Computer lesbares Speichermedium, das einen durch einen Computer lesbaren Programmcode mit durch einen Computer lesbaren Anweisungen physisch enthält, der, wenn er ausgeführt wird, eine Computereinheit veranlasst, ein Verfahren zum Aufbauen eines mehrsprachigen akustischen Modells für automatische Spracherkennung in einem Umfeld mit geringen Ressourcen durchzuführen. Das Verfahren umfasst ein Trainieren eines mehrsprachigen Modells mit durchgängig wiederkehrenden Schichten anhand eines gebündelten Datensatzes, der aus einer Mehrzahl von Sprachen gezogen wurde.
Umgeschriebene Trainingsdaten werden transliteriert, indem akustische Merkmale für jede Äußerung vorwärts durch ein trainiertes Netz geleitet werden. Nicht umgeschriebene Trainingsdaten, die zu Sprachen gehören, die zum Trainieren des Netzes verwendet werden, werden transliteriert, indem die Daten vorwärts durch das Netz geleitet werden. Es wird eine Filterungsmetrik angewendet, die eine Anzahl von mehreren Symbolen in einer transliterierten Ausgabe einer Äußerung und/oder ein Verhältnis zwischen einer Anzahl von mehreren Symbolen in einer transliterierten Sprache und einer Anzahl von Symbolen in der Bezugsumschrift umfasst. Eine Datenerweiterung wird durch Hinzufügen der transliterierten Daten zu dem Trainingspool von Sprachen und Trainieren eines neuen mehrsprachigen Modells durchgeführt.
Diese und weitere Merkmale ergeben sich aus der folgenden ausführlichen Beschreibung von veranschaulichenden Ausführungsformen davon, die in Verbindung mit den beigefügten Zeichnungen zu lesen ist.
Figurenliste
Die Zeichnungen zeigen veranschaulichende Ausführungsformen. Sie veranschaulichen nicht sämtliche Ausführungsformen. Andere Ausführungsformen können zusätzlich oder stattdessen verwendet werden. Einzelheiten, die möglicherweise offensichtlich oder unnötig sind, können aus Platzgründen oder für eine effektivere Veranschaulichung weggelassen sein. Einige Ausführungsformen können mit zusätzlichen Komponenten oder Schritten und/oder ohne alle der abgebildeten Komponenten oder Schritte umgesetzt werden. Wenn die gleiche Zahl in verschiedenen Zeichnungen erscheint, bezieht sie sich auf gleiche oder ähnliche Komponenten oder Schritte.

1 stellt einen Überblick über die Architektur eines mehrsprachigen Netzes in Übereinstimmung mit einer veranschaulichenden Ausführungsform bereit.
2 zeigt das mehrsprachige Netz aus 1 mit verschiedenen Arten von Trainingsdaten und einer Filterungsmetrik in Übereinstimmung mit einer veranschaulichenden Ausführungsform.
3 veranschaulicht eine Leistung eines akustischen Modells in Übereinstimmung mit einer veranschaulichenden Ausführungsform.
4 veranschaulicht eine Leistung eines akustischen Modells in Übereinstimmung mit einer veranschaulichenden Ausführungsform.
5 veranschaulicht eine Leistung eines Modells in Bezug auf eine Wortfehlerrate (WER%) nach dem Portieren des Modells, damit es eine neue Sprache umfasst, in Übereinstimmung mit einer veranschaulichenden Ausführungsform.
6 ist ein Ablaufplan, der ein auf einem Computer ausgeführtes Verfahren zum Aufbauen eines mehrsprachigen akustischen Modells für ASR in Übereinstimmung mit einer veranschaulichten Ausführungsform veranschaulicht.
7 ist eine Darstellung eines funktionalen Blockschaubildes einer Computer-Hardware-Plattform, die mit verschiedenen vernetzten Komponenten eines Systems für seismische Bildgebung Daten austauschen kann, in Übereinstimmung mit einer veranschaulichenden Ausführungsform.
8 stellt eine veranschaulichende Cloud-Computing-Umgebung in Übereinstimmung mit einer veranschaulichenden Ausführungsform dar.
9 stellt einen Satz von funktionalen Abstraktionsschichten in Übereinstimmung mit einer veranschaulichenden Ausführungsformen dar, die durch eine Cloud-Computing-Umgebung bereitgestellt werden.

AUSFÜHRLICHE BESCHREIBUNG
Überblick
In der folgenden ausführlichen Beschreibung werden anhand von Beispielen zahlreiche spezifische Details dargelegt, um ein vollständiges Verständnis der relevanten Lehren bereitzustellen. Es sollte jedoch klar sein, dass die vorliegenden Lehren auch ohne derartige Details umgesetzt werden können. In anderen Fällen wurden allgemein bekannte Verfahren, Vorgänge, Komponenten und/oder Schaltungen auf einer relativ hohen Ebene und ohne Einzelheiten beschrieben, um Aspekte der vorliegenden Lehren nicht unnötig unklar zu machen.
Obwohl veranschaulichende Ausführungsformen der vorliegenden Offenbarung auf ein Aufbauen von mehrsprachigen akustischen Modellen für ursprüngliche Trainingsdaten in Umgebungen mit geringen Ressourcen ausgerichtet sind, sind die auf einem Computer ausgeführten Verfahren und das System nicht auf derartige Bedingungen beschränkt. Bei einer Umgebung mit geringen Ressourcen handelt es sich zum Beispiel um eine Umgebung, in der lediglich einige Dutzend Stunden an Trainingsdaten zur Verfügung stehen. Es sollte klar sein, dass es sich bei einer „Sprache mit geringen Ressourcen“ um eine Sprache handelt, bei der die Menge an Sprachressourcen nicht ausreichend ist, um ein automatisches Spracherkennungssystem so zu trainieren, dass es mit einer vertretbaren Wortfehlerrate arbeitet. Für einige Sprachen gibt es mehrere Dialekte, für die nicht genügend Trainingsdaten zur Verfügung stehen. Obwohl die vorliegende Offenbarung angeht, wie das Problem mit dem Trainieren von automatischen Spracherkennungssystemen überwunden werden kann, sind die Lehren auch anwendbar auf Umgebungen mit mehr Ressourcen, die möglicherweise Tausende von Stunden an Trainingsdaten zur Verfügung haben, im Vergleich zu den Dutzenden von Stunden, die möglicherweise für Umgebungen mit geringen Ressourcen zur Verfügung stehen, und stellen dort Vorteile bereit.
Das auf einem Computer ausgeführte Verfahren und die Einheit der vorliegenden Offenbarung sorgen für eine Verbesserung der Genauigkeit beim Trainieren und bei der Umsetzung von akustischen Modellen, die in Einheiten wie zum Beispiel automatischen Spracherkennungssystemen (ASR) verwendet werden, insbesondere in Fällen, in denen es Umgebungen mit geringen Ressourcen an Trainingsdaten gibt, die möglicherweise nicht ausreichen, um die akustischen Modelle so zu trainieren, dass sie mit einer zufriedenstellenden Genauigkeitsrate arbeiten. Zusätzlich stellen das auf einem Computer ausgeführte Verfahren und die Einheit der vorliegenden Offenbarung eine Verbesserung der Effizienz von Computerarbeitsschritten dar. Zum Beispiel führt die technische Verbesserung aufgrund der Lehren hierin zu einer Verringerung der zum Trainieren und Betreiben von akustischen Modellen in ASR-Systemen erforderlichen Menge an Verarbeitungsleistung, da weniger Epochen, Iterationen und weniger Zeit benötigt werden, um Modelle zu erhalten, die genaue Ergebnisse bereitstellen. Es gibt einen verringerten und/oder keinen Bedarf an menschlicher Interaktion zum Korrigieren von Fehlern in Arbeitsschritten des akustischen Modells, was den Computerbetrieb effizienter gestaltet. Die Verringerung von Epochen und Iterationen stellt auch eine Verringerung der Verwendung des Computerspeichers bereit. Es gibt eine Zeitersparnis beim Erstellen eines genaueren akustischen Modells unter Verwendung der Lehren der vorliegenden Offenbarung.
Beispielhafte Architektur
1 stellt einen Überblick über eine beispielhafte Architektur 100 eines mehrsprachigen Netzes in Übereinstimmung mit einer veranschaulichenden Ausführungsform bereit. In dieser veranschaulichenden Ausführungsform umfasst das mehrsprachige Netz 105 eine Eingabemerkmalsschicht 110, eine Mehrzahl von gemeinsam genutzten sprachunabhängigen wiederkehrenden Schichten 115 und sprachspezifische Ausgabeschichten 120a, 120b und 120c. Umgeschriebenen Trainingsdaten 135 werden ebenfalls gezeigt.
Die Eingabemerkmalsschicht 110 empfängt die umgeschriebenen ursprünglichen Daten. Bei den umgeschriebenen ursprünglichen Daten handelt es sich um eine Darstellung von gesprochenen oder ausgestoßenen Lauten, wie zum Beispiel von Äußerungen. In einem automatischen Spracherkennungssystem wird eine Äußerung in Symbole umgeschrieben, die der Sprache der Äußerung zugehörig sind. Zum Beispiel wird eine englische Äußerung ins Englische umgeschrieben, eine japanische Äußerung wird ins Japanische umgeschrieben, usw. Die umgeschriebenen Daten werden von dem mehrsprachigen Netz 105 durchgeschleust (z.B. verarbeitet). Bei dem mehrsprachigen Netz kann es sich um ein neuronales Netz handeln, und wie in dieser veranschaulichenden Ausführungsform gezeigt, führen die Schichten des neuronalen Netzes verschiedene Funktionen der Sprachverarbeitung durch. Die gemeinsam genutzten unabhängigen wiederkehrenden Schichten verarbeiten die umgeschriebenen ursprünglichen Daten, indem sie Arbeitsschritte wie zum Beispiel eine Transliteration durchführen. Die Transliterationsfunktionen wenden Symbole anderer Sprachen an, um die Äußerung darzustellen. Da die von Menschen erzeugten Laute ein gewisses Maß an Gemeinsamkeiten aufweisen, kann eine Äußerung in englischer Sprache in Symbole verschiedener Sprachen (z.B. Hindi, Mongolisch, Javanisch, Spanisch, Mandarin) transliteriert werden, um einen Pool von transliterierten Daten zu erstellen. Die gemeinsam genutzten sprachabhängigen wiederkehrenden Schichten 115 stellen die transliterierten Daten den sprachspezifischen Ausgabeschichten 120a, 120b, 120c usw. zur Verfügung. In dieser veranschaulichenden Ausführungsform gibt die Ausgabeschicht 120 die umgeschriebenen ursprünglichen Daten aus, während es sich bei den Ausgabeschichten 120a und 120c um transliterierte Ausgabeschichten handelt, was bedeutet, dass eine sprachspezifische Ausgabe von transliterierten Daten erfolgt. Die umgeschriebenen Trainingsdaten 135 umfassen Daten, die zusätzlichen Verarbeitungsfunktionen unterzogen werden, bevor sie zum weiteren Verarbeiten wieder in die Schichten des mehrsprachigen Netzes eingefügt werden.
2 zeigt einen Überblick 200 über das mehrsprachige Netz aus 1 mit verschiedenen Arten von Trainingsdaten und einer Filterungsmetrik in Übereinstimmung mit einer veranschaulichenden Ausführungsform. Zum Beispiel zeigt 2 verschiedene Arten von Eingabedaten, die einer Eingabemerkmalsschicht 210 bereitgestellt werden können. Die umgeschriebenen ursprünglichen Trainingsdaten 205, die eine oder mehrere Äußerungen in den Symbolen der Sprache darstellen können, sind als eine der Eingaben für die Eingangsmerkmalschicht 210 gezeigt. Zusätzliche Daten wie zum Beispiel erste nicht umgeschriebene Daten 207 in derselben Sprache wie die umgeschriebenen Trainingsdaten der Äußerungen und zweite nicht umgeschriebene Daten 209 in einer anderen Sprache als der Sprache der umgeschriebenen Daten der Äußerungen sind gezeigt. Eine oder beide Arten der nicht umgeschriebenen Daten können zusammen mit den umgeschriebenen ursprünglichen Daten eingegeben werden, um das Trainieren eines mehrsprachigen akustischen Modells im Hinblick auf die Genauigkeit und die Fähigkeit des akustischen Modells zu verbessern, das zum Trainieren von automatischen Spracherkennungssystemen verwendet werden soll.
Unter Bezugnahme auf die vorstehende Beschreibung zu 1 und 2 stellen die in 2 gezeigten sprachspezifischen Ausgabeschichten 220a, 220b, 220c den Ausgabe-Pool von transliterierten Daten bereit. Auf den Ausgabe-Datenpool wird eine Filterungsmetrik 225 angewendet, um die Daten auszuwählen, mit denen die Genauigkeit des Trainierens eines akustischen Modells erhöht wird. Es gibt mehrere Funktionen, die als Filterungsmetrik 225 verwendet werden können.
Eine Art eines derartigen Filterns gemäß der Filterungsmetrik 225 erfolgt durch Durchführen einer Zählung der Symbole von transliterierten Daten für jede der sprachspezifischen Ausgaben und Auswählen einer höchsten oder einer Gruppe mit der höchsten oder einer relativ hohen Anzahl von Symbolen (im Vergleich zu Sprachen mit einer niedrigeren Anzahl von Symbolen). Die höhere Anzahl von Symbolen kann für die Auswahl von transliterierten Daten sorgen, die ein genaueres Training des mehrsprachigen akustischen Modells ermöglicht.
Eine andere Filterungsfunktion, die gemäß der Filterungsmetrik 225 durchgeführt werden kann, ist ein Vergleichen eines Verhältnisses von Symbolen in den transliterierten Daten mit Symbolen in den umgeschriebenen ursprünglichen Daten der Äußerung und ein Auswählen eines oder mehrerer Teile der transliterierten Ausgabedaten mit dem höheren Verhältnis von Symbolen.
Dann kann eine mehrsprachige Datenerweiterung durch Hinzufügen eines oder mehrerer ausgewählter Teile der transliterierten Ausgabedaten 230 zu den umgeschriebenen ursprünglichen Trainingsdaten 235 durchgeführt werden. 2 gibt die Sprachen der drei sprachspezifischen Ausgabeschichten an, wobei es sich bei 235a, 235c um die von den jeweiligen Schichten 220a, 220c ausgegebene Sprache handelt, die der Filterungsmetrik und der Datenerweiterung unterzogen wurde. Die umgeschriebenen ursprünglichen Daten 235b nach der Datenerweiterung stellen die Ausgabe der sprachspezifischen Schicht 220b nach einem zusätzlichen Verarbeiten dar. Die erweiterten Daten 235a, 235b, 235c werden dann zum weiteren Verarbeiten wieder in das mehrsprachige Netz eingegeben. Es kann eine Reihe von Iterationen durchgeführt werden, so dass Trainingsdaten für ein mehrsprachiges akustisches Modell erstellt werden, um die Genauigkeit des akustischen Modells zu erhöhen. In Umgebungen mit geringen Ressourcen sorgen die Lehre der vorliegenden Offenbarung für ein genaueres Training des mehrsprachigen akustischen Modells, während gleichzeitig Berechnungsressourcen geschont werden.
3 ist eine Tabelle 305, die eine Leistung eines akustischen Modells in Übereinstimmung mit einer veranschaulichenden Ausführungsform veranschaulicht. 3 gibt Versuche zu Sprachen mit geringen Ressourcen an (bezeichnet als Bedingungen 401, 402, 403 und 404). Diese einsprachigen Modelle umfassen Mongolisch, Javanisch, Dhuluo bzw. Georgisch. Der Kennsatz „C1“ gibt die Verwendung sämtlicher transliterierten Daten an, während „D1“ Daten angibt, die mit Hilfe einer Filterungsmetrik ausgewählt wurden, E1 gibt 50 Stunden Daten unter Verwendung einer Filterungsmetrik an, und F1 gibt 100 Stunden Daten unter Verwendung einer Filterungsmetrik an. Es ist zu erkennen, dass die prozentuale Wortfehlerrate in jeder der Sprachen durch die Verwendung von transliterierten Trainingsdaten sinkt. Mit zunehmender Anzahl von Ressourcen zeigt sich in jeder der Sprachen eine Verbesserung der prozentualen Wortfehlerrate.
4 veranschaulicht eine Leistung eines akustischen Modells in Übereinstimmung mit einer veranschaulichenden Ausführungsform. Ähnlich wie in 3 sind die Grundlinienleistung 405 und eine Modellleistung mit nicht umgeschriebenen Trainingsdaten 415 gezeigt. Die Leistung des Modells mit nicht umgeschriebenen sprachenübergreifenden Daten 420 ist ebenfalls gezeigt.
Die Grundlinie 405 umfasst einsprachige und mehrsprachige Bedingungen. Die Leistung des Modells mit nicht umgeschriebenen Trainingsdaten 415 umfasst halbüberwachte (ST, semi-supervised) Umschriften. Zum Beispiel kann das mehrsprachige Netz zum Umschreiben von nicht umgeschriebenen Daten verwendet werden. Wenn nicht umgeschriebene Daten, die einer Sprache entsprechen, zum Trainieren des mehrsprachigen Netzes verwendet werden, kann das Netz Umschriften für diese Daten erstellen. Da die Kennsätze automatisch und ohne menschliche Anmerkungen generiert werden, spricht man von halbüberwachten Daten. Zusätzlich umfasst die Leistung des Modells 415 transliterierte (TL) Sprachsymbole. In Bezug auf die Leistung des Modells mit nicht umgeschriebenen sprachenübergreifenden Daten 420 umfasst „CSR1“ die Sprachen Cebuano, Kasachisch, Telegu und Litauisch, „CSR2“ umfasst Paschtu, paraguayisches Guarani, Igbo und Amharisch.
5 veranschaulicht eine Leistung eines Modells (WER%) nach einem Portieren des Modells, damit es eine neue Sprache umfasst, in Übereinstimmung mit einer veranschaulichenden Ausführungsform. 5 zeigt das Portieren des Modells, damit es eine neue Sprache (Italienisch) umfasst. Es ist zu erkennen, dass es mit zunehmenden Trainingsstunden eine Verbesserung der Leistung gibt.
Mit weiterem Bezug auf 5 ist darüber hinaus Italienisch die neue Sprache, mit der trainiert wird. Zum Beispiel ist A4 der Fall, wenn ein Netz lediglich mit Italienisch trainiert wird - die Gewichtungen für dieses Netz werden zufällig initialisiert. Bei B4 wird das Netz wiederum nur auf Italienisch trainiert, aber dieses Mal wird das Netz so initialisiert, dass es ein mehrsprachiges Netz bildet, das mit vielen Sprachen trainiert wurde (aber noch nicht mit Italienisch). Das Netz ist in diesem Fall besser initialisiert, und daher ist B4 besser als A4. C4 ist der Fall, wenn ein mehrsprachiges System trainiert wird. Italienisch gehört nun zu den mehrsprachigen Sprachen, und daher kann das trainierte Modell auch zum Verarbeiten der italienischen Sprache verwendet werden. C4 ist wegen des mehrsprachigen Trainierens besser als A4 bzw. B4. D4 ist ein Fall, in dem ein noch besseres mehrsprachiges Netz trainiert wird. Dieses Modell verwendet nun zusätzliche transliterierte Daten für das Trainieren.
Es sollte klar sein, dass akustische Modelle, die für ASR trainiert werden, im Allgemeinen in zwei Kategorien eingeteilt werden - hybride akustische Modelle oder durchgängige akustische Modelle. Die Lehren der vorliegenden Offenbarung lassen sich auf beide Kategorien anwenden. Obwohl die konnektionistische temporale Klassifikation (CTC) eine Art von Trainingsverfahren ist, das für ein durchgängiges Trainieren eines akustischen Modells verwendet werden kann, ist die vorliegende Offenbarung nicht auf das Trainieren eines durchgängigen akustischen Modells beschränkt.
Beispielhafter Prozess
Nach dem vorangegangenen Überblick über die beispielhafte Architektur ist es möglicherweise hilfreich, nun einen Prozess auf hoher Ebene zu betrachten. Zu diesem Zweck ist in 6 in Verbindung mit 1 bis 5 ein Ablaufplan 600 dargestellt, der einen Arbeitsschritt für seismische Bildgebung in Übereinstimmung mit einer veranschaulichenden Ausführungsform veranschaulicht, der eine Konfigurationsphase und eine Ausführungsphase umfasst. Der Prozess 600 ist als eine Sammlung von Blöcken in einem logischen Ablaufplan veranschaulicht, der eine Abfolge von Arbeitsschritten darstellt, die in Hardware, Software oder einer Kombination davon umgesetzt werden können. Im Kontext von Software stellen die Blöcke auf einem Computer ausführbare Anweisungen dar, die, wenn sie von einem oder mehreren Prozessoren ausgeführt werden, die angeführten Arbeitsschritte durchführen. Im Allgemeinen können auf einem Computer ausführbare Anweisungen Routinen, Programme, Objekte, Komponenten, Datenstrukturen und dergleichen umfassen, die Funktionen durchführen oder abstrakte Datentypen umsetzen. In jedem Prozess ist die Reihenfolge, in der die Arbeitsschritte beschrieben werden, nicht als Einschränkung zu verstehen, und es kann jede beliebige Anzahl der beschriebenen Blöcke in einer beliebigen Reihenfolge kombiniert und/oder parallel durchgeführt werden, um den Prozess umzusetzen.
Unter Bezugnahme auf 6 wird in Arbeitsschritt 605 ein mehrsprachiges Netz anhand eines Satzes von Trainingssprachen mit umgeschriebenen ursprünglichen Trainingsdaten trainiert. Bei den umgeschriebenen ursprünglichen Trainingsdaten handelt es sich zum Beispiel um Äußerungen, die in ihre Muttersprache umgeschrieben werden. Zum Beispiel wird eine englische Äußerung mit Hilfe englischer Symbole und Grapheme umgeschrieben. Allerdings sollte klar sein, dass auch andere Symbole verwendet werden können. Phoneme, Teilwörter, ganze Wörter usw. können auch anstelle von oder zusammen mit Graphemen verwendet werden. In diesem Beispiel handelt es sich bei der umgeschriebenen ursprünglichen Umgebung um eine Umgebung mit geringen Ressourcen, was bedeutet, dass es einige Dutzend Stunden an Trainingsdaten gibt (im Gegensatz zu Hunderten oder Tausenden von Stunden an Trainingsdaten in einer üblichen Ressourcenumgebung).
In Arbeitsschritt 610 wird die Transliteration durch Verarbeiten einer Mehrzahl von mehrsprachigen Daten durchgeführt. Bei der Transliteration wird eine Äußerung in einer Sprache durch Symbole einer anderen Sprache als der, in der die Äußerung gemacht wird, dargestellt. In einem Umfeld einer Umgebung mit geringen Ressourcen kann ein Pool von transliterierten Daten durch das mehrsprachige Netz ausgegeben werden.
In Arbeitsschritt 615 wird eine Filterungsmetrik auf den Pool von aus dem mehrsprachigen Netz ausgegebenen transliterierten Daten angewendet, um einen oder mehrere Teile der transliterierten Daten für das erneute Trainieren des akustischen Modells auszuwählen. Die Teile werden ausgewählt, um das akustische Modell neu zu trainieren und die Genauigkeit zu erhöhen (d.h. die Wortfehlerrate zu verringern) und um das akustische Modell robuster zu machen, indem die Menge an Trainingsdaten erhöht wird. Ein Beispiel für ein Anwenden einer Filterungsmetrik ist ein Auswählen des einen oder der mehreren Teile der transliterierten Daten mit einer relativ höheren Anzahl von Symbolen im Vergleich zu einem Rest der transliterierten Daten. Zum Beispiel kann im Falle einer Äußerung eine höhere Anzahl von Symbolen die Äußerung genauer definieren.
In einem anderen Beispiel wird das Anwenden der Filterungsmetrik auf den Ausgabe-Pool von transliterierten Daten durch Vergleichen eines Verhältnisses von Symbolen in den transliterierten Daten mit Symbolen in einer Äußerung, welche die umgeschriebenen ursprünglichen Trainingsdaten aufweist, und durch Auswählen eines oder mehrerer Teile der ausgegebenen transliterierten Daten durchgeführt, die das höhere Verhältnis von Symbolen aufweisen. Es wird darauf hingewiesen, dass in einer Ausführungsform die höchsten Verhältnisse einer Reihenfolge folgen können (z.B. höchstes, zweithöchstes, dritthöchste usw.), wenn mehrere Teile ausgewählt sind.
In Arbeitsschritt 620 wird die Datenerweiterung durch Hinzufügen des einen oder der mehreren ausgewählten Teile der transliterierten Daten, die durch Anwendung der Filterungsmetrik ausgewählt wurden, zu den umgeschriebenen ursprünglichen Daten durchgeführt. Die Datenerweiterung kann zum Beispiel mehrere Darstellungen einer Äußerung bereitstellen, und zwar sowohl in der Sprache der umgeschriebenen ursprünglichen Daten als auch in den erweiterten Daten, welche die Äußerung unter Verwendung von Symbolen in einer anderen Sprache als der Sprache der Äußerung darstellen können. Zum Beispiel kann die Äußerung auf Englisch sein, aber die erweiterten Daten können Symbole in Hindi verwenden, um die Äußerung auszudrücken. Folglich können die erweiterten Daten als aktualisierte Trainingsdaten angesehen werden.
In Arbeitsschritt 625 trainiert das mehrsprachige Netz ein neues mehrsprachiges akustisches Modell mit den aktualisierten Trainingsdaten. Der Prozess endet nach Arbeitsschritt 625. Allerdings sollte klar sein, dass mehrere Epochen durchgeführt werden können, um die Genauigkeit und Robustheit des mehrsprachigen akustischen Modells zu erhöhen. Neue Sprachen können hinzugefügt und zusätzliche transliterierte Daten erzeugt werden, um die Genauigkeit und Robustheit des mehrsprachigen akustischen Modells zu erhöhen. In der vorliegenden Offenbarung ist es auch möglich, das mehrsprachige akustische Grundlinienmodell mit den aktualisierten Trainingsdaten neu zu trainieren.
7 stellt eine Darstellung eines funktionalen Blockschaubildes 700 einer Computer-Hardware-Plattform bereit. Insbesondere veranschaulicht 7 eine besonders konfigurierte Netzwerk- oder Host-Computer-Plattform 700, wie sie zum Umsetzen des in 6 gezeigten Verfahrens verwendet werden kann.
Die Computerplattform 700 kann eine Zentraleinheit (CPU) 704, ein Festplattenlaufwerk (HDD) 706, einen Direktzugriffsspeicher (RAM) und/oder einen Nur-Lese-Speicher (ROM) 708, eine Tastatur 710, eine Maus 712, eine Anzeige 714 und eine Datenübertragungsschnittstelle 716 umfassen, die mit einem Systembus 702 verbunden sind. Das HDD 706 kann Datenspeicher (data stores) umfassen.
In einer Ausführungsform verfügt das HDD 706 über Funktionen, zu denen ein Speichern eines Programms gehört, das verschiedene Prozesse wie zum Beispiel einen Arbeitsschritt der automatischen Spracherkennung 705 (ASR) in einer hierin beschriebenen Weise ausführen kann. Das ASR-Modul 705 stellt die Verwaltung eines automatischen Spracherkennungsprozesses bereit, wie zum Beispiel zum Trainieren eines mehrsprachigen akustischen Modells 742. Ein Netzwerkverarbeitungsmodul 710 verarbeitet Trainingsdaten in einer Umgebung mit geringen Ressourcen, um ein mehrsprachiges akustisches Grundlinienmodul zu erstellen. Das Transliterationsmodul 720 verwendet Symbole aus mindestens einer Sprache, um eine Äußerung, die in einer anderen Sprache gemacht wurde, darzustellen, und das Netzwerkverarbeitungsmodul 720 gibt einen Pool von transliterierten Daten aus. Das Filterungsmetrikmodul 730 ist so konfiguriert, dass es auf den Ausgabe-Pool von transliterierten Daten angewendet werden kann, und ist darüber hinaus so konfiguriert, dass es einen oder mehrere Teile der transliterierten Daten für ein erneutes Training des akustischen Modells 742 auswählt. Ein Datenerweiterungsmodul 735 ist so konfiguriert, dass es die Trainingsdaten durch Hinzufügen eines oder mehrerer ausgewählter Teile der ausgegebenen transliterierten Daten zu den umgeschriebenen ursprünglichen Daten erweitert, um das akustische Modell 742 neu zu trainieren. In einem Trainingsbeispielmodul 740 sind mehrsprachige Daten zum Trainieren des Netzwerkprozessormoduls gespeichert.
Beispielhafte Cloud-Plattform
Wie vorstehend erörtert, können Funktionen, die sich auf umgebungsbezogene und ökologische Optimierungsverfahren beziehen, eine Cloud umfassen. Es sei von vornherein klargestellt, dass eine Umsetzung der hierin angeführten Lehren nicht auf eine wie nachstehend erörterte Cloud-Computing-Umgebung beschränkt ist, obwohl diese Offenbarung eine ausführliche Beschreibung von Cloud-Computing umfasst. Vielmehr können Ausführungsformen der vorliegenden Offenbarung gemeinsam mit jeder beliebigen Art von jetzt bekannter oder später erfundener Datenverarbeitungsumgebung umgesetzt werden.
Cloud-Computing ist ein Servicebereitstellungsmodell zum Ermöglichen eines problemlosen bedarfsgesteuerten Netzwerkzugriffs auf einen gemeinsam genutzten Pool von konfigurierbaren Datenverarbeitungsressourcen (z.B. Netzwerke, Netzwerkbandbreite, Server, Verarbeitung, Hauptspeicher, Speicher, Anwendungen, virtuelle Maschinen und Dienste), die mit minimalem Verwaltungsaufwand bzw. minimaler Interaktion mit einem Anbieter des Service schnell bereitgestellt und freigegeben werden können. Dieses Cloud-Modell kann mindestens fünf Eigenschaften umfassen, mindestens drei Dienstmodelle und mindestens vier Implementierungsmodelle.
Bei den Eigenschaften handelt es sich um die Folgenden:
On-Demand Self-Service: Ein Cloud-Nutzer kann einseitig automatisch nach Bedarf für Datenverarbeitungsfunktionen wie Serverzeit und Netzwerkspeicher sorgen, ohne dass eine menschliche Interaktion mit dem Anbieter der Dienste erforderlich ist.
Broad Network Access: Es sind Funktionen über ein Netzwerk verfügbar, auf die durch Standardmechanismen zugegriffen wird, welche die Verwendung durch heterogene Thin- oder Thick-Client-Plattformen (z.B. Mobiltelefone, Laptops und PDAs) unterstützen.
Resource Pooling: Die Datenverarbeitungsressourcen des Anbieters werden zusammengeschlossen, um mehreren Nutzern unter Verwendung eines Multi-Tenant-Modells zu dienen, wobei verschiedene physische und virtuelle Ressourcen dynamisch nach Bedarf zugewiesen und neu zugewiesen werden. Es gibt eine gefühlte Standortunabhängigkeit, da der Nutzer allgemein keine Kontrolle bzw. Kenntnis über den genauen Standort der bereitgestellten Ressourcen hat, aber in der Lage sein kann, einen Standort auf einer höheren Abstraktionsebene festzulegen (z.B. Land, Staat oder Rechenzentrum).
Rapid Elasticity: Funktionen können für eine schnelle horizontale Skalierung (scale out) schnell und elastisch bereitgestellt werden, in einigen Fällen auch automatisch, und für ein schnelles Scale-in schnell freigegeben werden. Für den Nutzer erscheinen die für das Bereitstellen verfügbaren Funktionen häufig unbegrenzt und sie können jederzeit in jeder beliebigen Menge gekauft werden.
Measured Service: Cloud-Systeme steuern und optimieren die Verwendung von Ressourcen automatisch, indem sie eine Messfunktion auf einer gewissen Abstraktionsebene nutzen, die für die Art von Dienst geeignet ist (z.B. Speicher, Verarbeitung, Bandbreite sowie aktive Benutzerkonten). Die Nutzung von Ressourcen kann überwacht, gesteuert und gemeldet werden, wodurch sowohl für den Anbieter als auch für den Nutzer des verwendeten Dienstes Transparenz geschaffen wird.
Bei den Dienstmodellen handelt es sich um die Folgenden:
Software as a Service (SaaS): Die dem Nutzer bereitgestellte Funktion besteht darin, die in einer Cloud-Infrastruktur laufenden Anwendungen des Anbieters zu verwenden. Die Anwendungen sind über eine Thin-Client-Schnittstelle wie einen Web-Browser (z.B. auf dem Web beruhende E-Mail) von verschiedenen Client-Einheiten her zugänglich. Der Nutzer verwaltet bzw. steuert die zugrunde liegende Cloud-Infrastruktur nicht, darunter das Netzwerk, Server, Betriebssysteme, Speicher bzw. sogar einzelne Anwendungsfunktionen, mit der möglichen Ausnahme von eingeschränkten benutzerspezifischen Anwendungskonfigurationseinstellungen.
Platform as a Service (PaaS): Die dem Nutzer bereitgestellte Funktion besteht darin, durch einen Nutzer erstellte bzw. erhaltene Anwendungen, die unter Verwendung von durch den Anbieter unterstützten Programmiersprachen und Tools erstellt wurden, in der Cloud-Infrastruktur einzusetzen. Der Nutzer verwaltet bzw. steuert die zugrunde liegende Cloud-Infrastruktur nicht, darunter Netzwerke, Server, Betriebssysteme bzw. Speicher, hat aber die Kontrolle über die eingesetzten Anwendungen und möglicherweise über Konfigurationen des Application Hosting Environment.
Infrastructure as a Service (laaS): Die dem Nutzer bereitgestellte Funktion besteht darin, das Verarbeiten, Speicher, Netzwerke und andere grundlegende Datenverarbeitungsressourcen bereitzustellen, wobei der Nutzer in der Lage ist, beliebige Software einzusetzen und auszuführen, zu der Betriebssysteme und Anwendungen gehören können. Der Nutzer verwaltet bzw. steuert die zugrunde liegende Cloud-Infrastruktur nicht, hat aber die Kontrolle über Betriebssysteme, Speicher, eingesetzte Anwendungen und möglicherweise eine eingeschränkte Kontrolle über ausgewählte Netzwerkkomponenten (z.B. Host-Firewalls).
Bei den Einsatzmodellen handelt es sich um die Folgenden:
Private Cloud: Die Cloud-Infrastruktur wird einzig und allein für eine Organisation betrieben. Sie kann durch die Organisation oder einen Dritten verwaltet werden und kann sich in den eigenen Räumen oder in fremden Räumen befinden.
Community Cloud: Die Cloud-Infrastruktur wird von mehreren Organisationen gemeinsam genutzt und unterstützt eine spezielle Benutzergemeinschaft, die gemeinsame Angelegenheiten hat (z.B. Mission, Sicherheitsanforderungen, Richtlinien sowie Überlegungen bezüglich der Einhaltung von Vorschriften). Sie kann durch die Organisationen oder einen Dritten verwaltet werden und kann in den eigenen Räumen oder fremden Räumen stehen.
Public Cloud: Die Cloud-Infrastruktur wird der allgemeinen Öffentlichkeit oder einer großen Industriegruppe zur Verfügung gestellt und sie gehört einer Cloud-Dienste verkaufenden Organisation.
Hybrid Cloud: Die Cloud-Infrastruktur ist eine Zusammensetzung aus zwei oder mehreren Clouds (privat, Benutzergemeinschaft oder öffentlich), die zwar einzelne Einheiten bleiben, aber durch eine standardisierte oder proprietäre Technologie miteinander verbunden sind, die Daten- und Anwendungsportierbarkeit ermöglicht (z.B. Cloud-Zielgruppenverteilung für den Lastenausgleich zwischen Clouds).
Eine Cloud-Computing-Umgebung ist dienstorientiert mit Fokus auf Statusunabhängigkeit, geringer Kopplung, Modularität und semantischer Interoperabilität. Im Herzen von Cloud-Computing liegt eine Infrastruktur, die ein Netzwerk aus zusammengeschalteten Knoten umfasst.
Unter Bezugnahme auf 8 ist eine veranschaulichende Cloud-Computing-Umgebung 800 abgebildet, die Cloud-Computing nutzt. Wie gezeigt ist, umfasst die Cloud-Computing-Umgebung 800 eine Cloud 850 mit einem oder mehreren Cloud-Computing-Knoten 810, mit denen von Cloud-Nutzern verwendete lokale Datenverarbeitungseinheiten wie ein elektronischer Assistent (PDA, personal digital assistant) oder ein Mobiltelefon 854A, ein Desktop-Computer 854B, ein Laptop-Computer 854C und/oder ein Automobil-ComputerSystem 854N Daten austauschen können. Die Knoten 810 können miteinander Daten austauschen. Sie können physisch oder virtuell in ein oder mehrere Netzwerke wie private, Benutzergemeinschafts-, öffentliche oder hybride Clouds gruppiert werden (nicht gezeigt), wie vorstehend beschrieben wurde, oder in eine Kombination daraus. Dies ermöglicht es der Cloud-Computing-Umgebung 800, Infrastruktur, Plattformen und/oder Software als Dienst anzubieten, für die ein Cloud-Nutzer keine Ressourcen auf einer lokalen Datenverarbeitungseinheit vorhalten muss. Es sei darauf hingewiesen, dass die Arten der in 8 gezeigten Datenverarbeitungseinheiten 854A bis N lediglich veranschaulichend sein sollen und dass die Datenverarbeitungsknoten 810 und die Cloud-Computing-Umgebung 850 über eine beliebige Art Netzwerk und/oder über eine beliebige Art von über ein Netzwerk aufrufbarer Verbindung (z.B. unter Verwendung eines Web-Browsers) mit einer beliebigen Art von computergestützter Einheit Daten austauschen können.
Unter Bezugnahme auf 9 ist ein Satz von funktionalen Abstraktionsschichten 900 gezeigt, die durch die Cloud-Computing-Umgebung 800 (8) bereitgestellt werden. Es sollte von vornherein klar sein, dass die in 9 gezeigten Komponenten, Schichten und Funktionen lediglich veranschaulichend sein sollen und Ausführungsformen der Offenbarung nicht darauf beschränkt sind. Wie dargestellt ist, werden die folgenden Schichten und entsprechenden Funktionen bereitgestellt:
Eine Hardware- und Software-Schicht 960 umfasst Hardware- und Software-Komponenten. Zu Beispielen für Hardware-Komponenten gehören: Mainframe-Computer 961; auf der RISC- (Reduced Instruction Set Computer) Architektur beruhende Server 962; Server 963; Blade-Server 964; Speichereinheiten 965; und Netzwerke sowie Netzwerkkomponenten 966. In einigen Ausführungsformen umfassen Software-Komponenten eine Netzwerk-Anwendungsserver-Software 967 und eine Datenbank-Software 968.
Eine Virtualisierungsschicht 970 stellt eine Abstraktionsschicht bereit, aus der die folgenden Beispiele für virtuelle Einheiten bereitgestellt werden können: virtuelle Server 971, virtueller Speicher 972, virtuelle Netzwerke 973, darunter virtuelle private Netzwerke, virtuelle Anwendungen und Betriebssysteme 974; und virtuelle Clients 975.
In einem Beispiel kann eine Verwaltungsschicht 980 die nachfolgend beschriebenen Funktionen bereitstellen. Eine Ressourcen-Bereitstellung 981 stellt die dynamische Beschaffung von Datenverarbeitungsressourcen sowie anderen Ressourcen bereit, die zum Durchführen von Aufgaben innerhalb der Cloud-Computing-Umgebung verwendet werden. Ein Messen und eine Preisfindung 982 stellen die Kostenverfolgung beim Verwenden von Ressourcen innerhalb der Cloud-Computing-Umgebung sowie die Abrechnung oder Rechnungsstellung für den Verbrauch dieser Ressourcen bereit. In einem Beispiel können diese Ressourcen Anwendungs-Software-Lizenzen umfassen. Eine Sicherheit stellt die Identitätsüberprüfung für Cloud-Nutzer und Aufgaben sowie Schutz für Daten und andere Ressourcen bereit. Ein Benutzerportal 983 stellt Nutzern und Systemadministratoren den Zugang zu der Cloud-Computing-Umgebung bereit. Eine Verwaltung des Dienstumfangs 984 stellt die Zuordnung und Verwaltung von Cloud-Computing-Ressourcen bereit, so dass die benötigten Dienstziele erreicht werden. Ein Planen und Erfüllen von Vereinbarungen zum Dienstumfang (SLA, Service Level Agreement) 985 stellt die Anordnung vorab und die Beschaffung von Cloud-Computing-Ressourcen, für die eine zukünftige Anforderung vorausgesehen wird, gemäß einer SLA bereit.
Eine Arbeitslastschicht 990 stellt Beispiele für die Funktionalität bereit, für welche die Cloud-Computing-Umgebung verwendet werden kann. Zu Beispielen für Arbeitslasten und Funktionen, die von dieser Schicht bereitgestellt werden können, gehören: Abbildung und Navigation 991; Software-Entwicklung und Lebenszyklusverwaltung 992; Bereitstellung von Ausbildung in virtuellen Klassenzimmern 993; Datenanalytikverarbeitung 994; Transaktionsverarbeitung 995; und ein ASR-Modul 996 zum Durchführen seismischer Bildgebung auf einer hybriden Cloud-basierten Plattform, wie hierin erörtert.
Schlussfolgerung
Die Beschreibungen der verschiedenen Ausführungsformen der vorliegenden Lehren wurden zum Zwecke der Veranschaulichung aufgeführt, sollen jedoch nicht gesamthaft stehen für bzw. begrenzt sein auf die offenbarten Ausführungsformen. Für Fachleute werden viele Abänderungen und Abwandlungen ersichtlich sein, ohne von dem Umfang der beschriebenen Ausführungsformen abzuweichen. Die hierin verwendete Terminologie wurde gewählt, um die Grundgedanken der Ausführungsformen, die praktische Anwendung oder technische Verbesserung gegenüber auf dem Markt vorgefundenen Technologien bestmöglich zu erläutern oder um es anderen Fachleuten zu ermöglichen, die hierin dargelegten Ausführungsformen zu verstehen.
Während das Vorstehende das, was als der beste Zustand angesehen wird, und/oder andere Beispiele beschrieben hat, ist es klar, dass verschiedene Abänderungen daran vorgenommen werden können und dass der hierin offenbarte Gegenstand in verschiedenen Formen und Beispielen umgesetzt werden kann, und dass die Lehren in zahlreichen Anwendungen angewendet werden können, von denen hierin lediglich einige beschrieben wurden. Mit den folgenden Ansprüchen sollen alle Anwendungen, Abänderungen und Abwandlungen beansprucht werden, die in den wahren Umfang der vorliegenden Lehren fallen.
Die Komponenten, Schritte, Merkmale, Objekte, Nutzen und Vorteile, die hierin erörtert wurden, sind lediglich veranschaulichend. Weder diese noch die Erörterungen, die sie betreffen, zielen darauf ab, den Schutzbereich einzuschränken. Obwohl hierin verschiedene Vorteile erörtert wurden, ist klar, dass nicht alle Ausführungsformen unbedingt alle Vorteile umfassen. Sofern nicht anders angegeben, sind alle Messungen, Werte, Nennwerte, Positionen, Größenordnungen, Größen und andere Spezifikationen, die in dieser Beschreibung, einschließlich der folgenden Ansprüche, aufgeführt sind, nicht exakt, sondern nur annähernd. Sie sollen einen angemessenen Umfang haben, der mit den Funktionen, die sie betreffen, und mit dem, was in dem Fachgebiet, zu dem sie gehören, üblich ist, übereinstimmt.
Zahlreiche andere Ausführungsformen werden ebenfalls in Betracht gezogen. Dazu gehören Ausführungsformen, die weniger, zusätzliche und/oder andere Komponenten, Schritte, Merkmale, Objekte, Nutzen und Vorteile aufweisen. Dazu gehören auch Ausführungsformen, bei denen die Komponenten und/oder Schritte anders angeordnet sind und/oder eine andere Reihenfolge aufweisen.
Der Ablaufplan und die Schaubilder in den Figuren hierin veranschaulichen die Architektur, die Funktionalität und den Betrieb von möglichen Umsetzungen gemäß verschiedenen Ausführungsformen der vorliegenden Offenbarung.
Obwohl die vorstehenden Ausführungen in Verbindung mit beispielhaften Ausführungsformen beschrieben wurden, ist klar, dass der Begriff „beispielhaft“ lediglich als Beispiel zu verstehen ist, und nicht als das Beste oder Optimale. Abgesehen von den unmittelbar vorangehenden Ausführungen ist nichts von dem, was angegeben oder veranschaulicht wurde, dazu bestimmt oder sollte so ausgelegt werden, dass es zu einer Widmung eines Bestandteils, eines Schritts, eines Merkmals, eines Objekts, eines Nutzens, eines Vorteils oder eines Äquivalents für die Öffentlichkeit führt, unabhängig davon, ob es in den Ansprüchen erwähnt wird.
Es ist klar, dass die hierin verwendeten Begriffe und Ausdrücke die übliche Bedeutung haben, die diesen Begriffen und Ausdrücken in Bezug auf ihre entsprechenden jeweiligen Gebiete der Untersuchung und des Studiums zukommt, es sei denn, dass hierin besondere Bedeutungen dargelegt sind. Relationale Begriffe wie erster und zweiter und dergleichen werden möglicherweise nur verwendet, um eine Entität oder Aktion von einer anderen zu unterscheiden, ohne notwendigerweise eine derartige tatsächliche Beziehung oder Reihenfolge zwischen derartigen Entitäten oder Aktionen zu erfordern oder zu implizieren. Die Begriffe „umfasst“, „aufweisend“ oder jede beliebige andere Abwandlung davon sollen eine nicht ausschließliche Einbeziehung abdecken, so dass ein Prozess, ein Verfahren, ein Gegenstand oder eine Vorrichtung, der/die/das eine Liste von Elementen aufweist, nicht nur diese Elemente umfasst, sondern auch andere Elemente enthalten kann, die nicht ausdrücklich aufgeführt sind oder zu einem derartigen Prozess, Verfahren, Gegenstand oder einer Vorrichtung gehören. Ein mit „ein“ oder „eine“ eingeleitetes Element schließt ohne zusätzliche Einschränkungen nicht aus, dass in dem Prozess, dem Verfahren, dem Gegenstand oder der Vorrichtung, der/die dieses Element aufweist, zusätzliche identische Elemente vorhanden sind.
Die Zusammenfassung der Offenbarung wird bereitgestellt, um dem Leser zu ermöglichen, die Art der technischen Offenbarung schnell herauszufinden. Sie wird mit der Maßgabe vorgelegt, dass sie nicht zum Auslegen oder Einschränken des Umfangs oder der Bedeutung der Ansprüche herangezogen wird. Zusätzlich ist in der vorstehenden detaillierten Beschreibung zu erkennen, dass verschiedene Merkmale in verschiedenen Ausführungsformen zusammengefasst sind, um die Offenbarung zu straffen. Dieses Verfahren der Offenbarung ist nicht so zu verstehen, dass die beanspruchten Ausführungsformen mehr Merkmale aufweisen sollen, als in den einzelnen Ansprüchen ausdrücklich angegeben sind. Vielmehr liegt der Erfindungsgegenstand, wie die folgenden Ansprüche zeigen, in weniger als allen Merkmalen einer einzelnen offenbarten Ausführungsform. Daher werden die folgenden Ansprüche hiermit in die ausführliche Beschreibung aufgenommen, wobei jeder Anspruch für sich genommen einen gesonderten beanspruchten Gegenstand darstellt.

Claims

Auf einem Computer ausgeführtes Verfahren zum Aufbauen eines mehrsprachigen akustischen Modells für automatische Spracherkennung in einer Umgebung mit geringen Ressourcen, das Verfahren aufweisend: Trainieren eines mehrsprachigen Netzes anhand eines Satzes von Trainingssprachen mit umgeschriebenen ursprünglichen Trainingsdaten, um ein mehrsprachiges akustisches Grundlinienmodell zu erstellen; Durchführen einer Transliteration durch Verarbeiten einer Mehrzahl von mehrsprachigen Datentypen aus dem Satz von Sprachen durch das mehrsprachige Netz und Ausgeben eines Pools von transliterierten Daten; Anwenden einer Filterungsmetrik auf den Pool von aus dem mehrsprachigen Netz ausgegebenen transliterierten Daten, um einen oder mehrere Teile der transliterierten Daten für ein erneutes Trainieren des akustischen Modells auszuwählen; Durchführen einer Datenerweiterung durch Hinzufügen des einen oder der mehreren ausgewählten Teile des Pools von transliterierten Daten zu den umgeschriebenen ursprünglichen Trainingsdaten, um aktualisierte Trainingsdaten zu erhalten; und Trainieren eines neuen mehrsprachigen akustischen Modells durch das mehrsprachige Netz unter Verwendung der aktualisierten Trainingsdaten.
Auf einem Computer ausgeführtes Verfahren nach Anspruch 1, darüber hinaus aufweisend: erneutes Trainieren des mehrsprachigen akustischen Grundlinienmodells mit den aktualisierten Trainingsdaten.
Auf einem Computer ausgeführtes Verfahren nach Anspruch 1, wobei: die ursprünglichen Trainingsdaten aus einer Sprache mit geringen Ressourcen stammen; das mehrsprachige Netz ein neuronales Netz mit einer Mehrzahl von sprachspezifischen Ausgabeschichten aufweist, die konfiguriert sind zum gesonderten Modellieren von Sätzen von Symbolen jeder Sprache; und das neuronale Netz einen sprachspezifischen Teil der transliterierten Daten an mindestens eine entsprechende sprachspezifische Ausgabeschicht ausgibt.
Auf einem Computer ausgeführtes Verfahren nach Anspruch 3, wobei das Hinzufügen des einen oder der mehreren ausgewählten Teile des Pools von transliterierten Daten zu dem umgeschriebenen ursprünglichen Training einem neuen Kennsatz zugeordnete Daten aufweist, die neue Kopien von Daten mit Symbolen anderer Sprachen umfassen.
Auf einem Computer ausgeführtes Verfahren nach Anspruch 3, wobei das Trainieren des mehrsprachigen Netzes anhand eines Satzes von Trainingssprachen mit der Sprache mit geringen Ressourcen der umgeschriebenen ursprünglichen Trainingsdaten durchgeführt wird, die einige Dutzend Stunden der umgeschriebenen ursprünglichen Daten aufweisen.
Auf einem Computer ausgeführtes Verfahren nach Anspruch 3, darüber hinaus aufweisend ein Generieren von halbüberwachten Kennsätzen als Reaktion auf ein Verarbeiten von nicht umgeschriebenen Daten durch das mehrsprachige neuronale Netz.
Auf einem Computer ausgeführtes Verfahren nach Anspruch 1, wobei das Anwenden der Metrikfilterung auf den Pool von transliterierten Daten durch Auswählen des einen oder der mehreren Teile der ausgegebenen transliterierten Daten mit einer relativ höheren Anzahl von Symbolen im Vergleich zu einem Rest der transliterierten Daten durchgeführt wird.
Auf einem Computer ausgeführtes Verfahren nach Anspruch 1, wobei das Anwenden der Metrikfilterung auf den Pool von transliterierten Daten durch Vergleichen eines Verhältnisses von Symbolen in den transliterierten Daten mit Symbolen in einer Äußerung, welche die umgeschriebenen ursprünglichen Trainingsdaten aufweist, und durch Auswählen eines oder mehrerer Teile der ausgegebenen transliterierten Daten durchgeführt wird, die das höhere Verhältnis von Symbolen aufweisen.
Auf einem Computer ausgeführtes Verfahren nach Anspruch 1, wobei das Verarbeiten der Mehrzahl von mehrsprachigen Datentypen ein Verarbeiten von umgeschriebenen Trainingsdaten, nicht umgeschriebenen Daten aus demselben Satz von Trainingssprachen und nicht umgeschriebenen Daten aus verschiedenen Sprachen umfasst.
Auf einem Computer ausgeführtes Verfahren nach Anspruch 1, darüber hinaus aufweisend: Hinzufügen einer neuen Sprache zu dem mehrsprachigen Netz; und Ausgeben von transliterierten Daten in der neuen Sprache.
Automatisches Spracherkennungssystem, das für eine transliterationsbasierte Datenerweiterung eines mehrsprachigen akustischen Modells in einer Umgebung mit geringen Ressourcen konfiguriert ist, das System aufweisend: einen Prozessor; einen mit dem Prozessor verbundenen Speicher, der Anweisungen speichert, um den Prozess zu veranlassen oder Aktionen durchzuführen, aufweisend: Trainieren eines mehrsprachigen Netzes anhand eines Satzes von Trainingssprachen mit umgeschriebenen ursprünglichen Trainingsdaten, um ein mehrsprachiges akustisches Grundlinienmodell zu erstellen; Durchführen einer Transliteration durch Verarbeiten einer Mehrzahl von mehrsprachigen Datentypen aus dem Satz von Sprachen durch das mehrsprachige Netz und Ausgeben eines Pools von transliterierten Daten; Anwenden einer Filterungsmetrik auf den Pool von aus dem mehrsprachigen Netz ausgegebenen transliterierten Daten, um einen oder mehrere Teile der transliterierten Daten für ein erneutes Trainieren des akustischen Modells auszuwählen; Durchführen einer Datenerweiterung durch Hinzufügen des einen oder der mehreren ausgewählten Teile der ausgegebenen transliterierten Daten zu den umgeschriebenen ursprünglichen Trainingsdaten, um aktualisierte Trainingsdaten zu erhalten; und Trainieren eines neuen mehrsprachigen akustischen Modells unter Verwendung der aktualisierten Trainingsdaten.
System nach Anspruch 11, wobei die Anweisungen den Prozessor veranlassen, eine zusätzliche Aktion durchzuführen, aufweisend: erneutes Trainieren des mehrsprachigen akustischen Grundlinienmodells mit den aktualisierten Trainingsdaten.
System nach Anspruch 11, wobei: das mehrsprachige Netz ein neuronales Netz mit einer Mehrzahl von sprachspezifischen Ausgabeschichten aufweist, die konfiguriert sind zum gesonderten Modellieren von Sätzen von Symbolen jeder Sprache: und das neuronale Netz zum Ausgeben eines sprachspezifischen Teils der transliterierten Daten an mindestens eine entsprechende sprachspezifische Ausgabeschicht konfiguriert ist.
System nach Anspruch 11, wobei die Anweisungen den Prozessor veranlassen, eine zusätzliche Aktion durchzuführen, aufweisend: Filtern des Pools von transliterierten Daten durch Auswählen des einen oder der mehreren Teile der ausgegebenen transliterierten Daten mit einer relativ höheren Anzahl von Symbolen im Vergleich zu einem Rest der transliterierten Daten.
System nach Anspruch 11, wobei die Anweisungen den Prozessor veranlassen, zusätzliche Aktionen durchzuführen, aufweisend: Filtern des Pools von transliterierten Daten durch Vergleichen eines Verhältnisses von Symbolen in den transliterierten Daten mit Symbolen in einer Äußerung, welche die umgeschriebenen ursprünglichen Trainingsdaten aufweist; und Auswählen eines oder mehrerer Teile der ausgegebenen transliterierten Daten mit einem höheren Verhältnis von Symbolen.
System nach Anspruch 11, wobei das Verarbeiten der Mehrzahl von mehrsprachigen Datentypen ein Verarbeiten von umgeschriebenen Trainingsdaten, nicht umgeschriebenen Daten aus demselben Satz von Trainingssprachen und nicht umgeschriebenen Daten aus verschiedenen Sprachen umfasst.
System nach Anspruch 16, wobei die Anweisungen den Prozessor veranlassen, zusätzliche Aktionen durchzuführen, aufweisend: Hinzufügen einer neuen Sprache zu dem mehrsprachigen Netz: und Ausgeben von transliterierten Daten in der neuen Sprache.
Nichtflüchtiges, durch einen Computer lesbares Speichermedium, das einen durch einen Computer lesbaren Programmcode mit durch einen Computer lesbaren Anweisungen physisch enthält, der, wenn er ausgeführt wird, eine Computereinheit veranlasst, ein Verfahren zum Aufbauen eines mehrsprachigen akustischen Modells für automatische Spracherkennung in einem Umfeld mit geringen Ressourcen durchzuführen, das Verfahren aufweisend: Trainieren eines mehrsprachigen Modells mit durchgängig wiederkehrenden Schichten anhand eines gebündelten Datensatzes, der aus einer Mehrzahl von Sprachen gezogen wurde; Transliterieren von umgeschriebenen Trainingsdaten, indem akustische Merkmale für jede Äußerung vorwärts durch ein trainiertes Netz geleitet werden; Transliterieren von nicht umgeschriebenen Trainingsdaten, die zu Sprachen gehören, die zum Trainieren des Netzes verwendet werden, indem die Daten vorwärts durch das Netz geleitet werden; Anwenden einer Filterungsmetrik, die eine Anzahl von mehreren Symbolen in einer transliterierten Ausgabe einer Äußerung und/oder ein Verhältnis zwischen einer Anzahl von mehreren Symbolen in einer transliterierten Sprache und einer Anzahl von Symbolen in der Bezugsumschrift aufweist; und Durchführen einer Datenerweiterung durch Hinzufügen der transliterierten Daten zu dem Trainingspool von Sprachen und Trainieren eines neuen mehrsprachigen Modells.
Durch einen Computer lesbares Speichermedium nach Anspruch 18, wobei in einem ersten Arbeitsschritt eine Grundlinie des mehrsprachigen Modells für eine feste Anzahl von Epochen trainiert wird.
Durch einen Computer lesbares Speichermedium nach Anspruch 18, wobei das Durchführen der Datenerweiterung ein Verwenden von nicht überwachten Daten und ein Durchführen der Transliteration über den Trainingspool von Sprachen umfasst, um das akustische Modell in Umgebungen mit geringen Ressourcen zu verbessern.