DE112021005230T5

DE112021005230T5 - Erzeugen alternativer veränderlicher kennsätze

Info

Publication number: DE112021005230T5
Application number: DE112021005230.6T
Authority: DE
Inventors: Tohru Nagano; Takashi Fukuda; Gakuto Kurata
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-12-10
Filing date: 2021-11-24
Publication date: 2023-08-24
Also published as: CN116601648A; WO2022121684A1; US20220188622A1; GB2617729A; GB202310170D0; JP2023552711A

Abstract

Es kann ein Ansatz zum Identifizieren von alternativen veränderlichen Kennsätzen für ein Trainieren eines Schülermodells bereitgestellt werden. Ein Lehrmodell kann einen veränderlichen Kennsatz für Trainingsdaten mit Kennsatz erzeugen. Bei den Trainingsdaten kann es sich um eine akustische Datei für Sprache oder eine gesprochene natürliche Sprache handeln. Ein Pool von veränderlichen Kennsätzen, die zuvor von Lehrermodellen erzeugt wurden, kann auf der Kennsatzebene durchsucht werden, um veränderliche Kennsätze zu identifizieren, die dem erzeugten veränderlichen Kennsatz ähnlich sind. Die ähnlichen veränderlichen Kennsätze können eine ähnliche Länge oder Sequenz auf der Wortphonem- und/oder Zustandsebene aufweisen. Die identifizierten ähnlichen veränderlichen Kennsätze können in Verbindung mit dem erzeugten veränderlichen Kennsatz verwendet werden, um ein Schülermodell zu trainieren.

Description

HINTERGRUND DER ERFINDUNG
Die vorliegende Erfindung bezieht sich im Allgemeinen auf das Gebiet des maschinellen Lernens, insbesondere auf ein Trainieren von Schülermodellen durch Wissensdestillation.
Trainieren eines maschinellen Lernmodells erfordert große Datensätze und zahlreiche Datenverarbeitungsressourcen. Techniken zur Wissensdestillation, mit denen versucht wird, Wissen aus komplexen Lehrernetzwerken auf ein einfaches Schülernetzwerk zu übertragen, werden für ein Trainieren von maschinellen Lernmodellen verwendet. Das Schülernetzwerk wird anhand der veränderlichen Ausgaben von Lehrern so trainiert, dass die Unterschiede zwischen den Schüler- und Lehrerverteilungen minimiert werden. Das Trainieren des Schülermodells erfolgte unter Verwendung der herabgesetzten Funktion als Eingabe und der veränderlichen Ziele für die bessere Funktion aus dem Lehrernetzwerk als Ziel. Für solche Ansätze sind zusätzliche parallele Daten erforderlich, um ihre Genauigkeit bei Schülernetzwerken zu verbessern.
KURZDARSTELLUNG
Ausführungsformen der vorliegenden Offenbarung umfassen ein auf einem Computer implementiertes Verfahren, ein Computerprogrammprodukt und ein System zum Trainieren eines akustischen Schülermodells. Ausführungsformen können ein Empfangen einer akustischen Funktion mit Kennsatz (labeled acoustic feature) umfassen. Des Weiteren können Ausführungsformen ein Erzeugen eines veränderlichen Kennsatzes (soft label) für die akustische Funktion mit Kennsatz durch ein Lehrermodell umfassen. Die Ausführungsformen können ferner ein Extrahieren eines zweiten veränderlichen Kennsatzes aus einem Pool von veränderlichen Kennsätzen durch den einen oder die mehreren Prozessoren umfassen, der dem ersten veränderlichen Kennsatz ähnlich ist. Abschließend können Ausführungsformen ein Trainieren eines Schülermodells unter Verwendung des ersten veränderlichen Kennsatzes und des zweiten veränderlichen Kennsatzes umfassen.
Die obige Zusammenfassung dient nicht dazu, jede veranschaulichte Ausführungsform jeder Umsetzung der vorliegenden Offenbarung zu beschreiben.
Figurenliste

1 zeigt ein funktionales Blockschaubild, im Allgemeinen eine Umgebung zum Erzeugen von veränderlichen Kennsätzen, gemäß einer Ausführungsform der vorliegenden Erfindung.
2 zeigt ein funktionales Blockschaubild, das eine Steuerroutine zum Identifizieren von alternativen veränderlichen Kennsätzen gemäß einer Ausführungsform der vorliegenden Erfindung darstellt.
3 zeigt einen Ablaufplan, der ein Verfahren zum Erzeugen von alternativen veränderlichen Kennsätzen gemäß einer Ausführungsform der vorliegenden Erfindung darstellt.
4 zeigt ein funktionales Blockschaltbild eines beispielhaften Datenverarbeitungssystems innerhalb einer Code-Refaktorierungs-Benennungsumgebung gemäß einer Ausführungsform der vorliegenden Erfindung.
5 zeigt eine Darstellung, die eine Cloud-Computing-Umgebung gemäß einer Ausführungsform der vorliegenden Erfindung darstellt.
6 zeigt ein funktionales Blockschaubild, das Abstraktionsmodellschichten gemäß einer Ausführungsform der vorliegenden Erfindung darstellt.

Zwar können die hier beschriebenen Ausführungsformen verschiedene Modifikationen und alternative Formen aufweisen, aber in den Zeichnungen sind spezifische Ausführungsformen davon beispielhaft dargestellt und werden im Einzelnen beschrieben. Es versteht sich jedoch, dass die spezifischen Ausführungsformen, die beschrieben werden, nicht in einem beschränkenden Sinne zu verstehen sind. Vielmehr ist beabsichtigt, alle Modifikationen, Äquivalente und Alternativen abzudecken, die dem Umfang der Offenbarung entsprechen.
AUSFÜHRLICHE BESCHREIBUNG
Die dargestellten Ausführungsformen ermöglichen es, Trainingsdaten für veränderliche Kennsätze für ein Schülermodell zu erzeugen, und zwar auf der Grundlage eines Erzeugens von Trainingsdaten durch ein Lehrermodell. Komplexe akustische Modelle können nicht für ein Decodieren in Echtzeit von Streaming-Sprachdaten bereitgestellt werden. Dies ist in erster Linie darauf zurückzuführen, dass aufgrund fehlender Datenverarbeitungsressourcen auf Einheiten wie Smartphones, Tablets und Laptops Einschränkungen bestehen. Ein weiterer Faktor im Zusammenhang mit Problemen beim Bereitstellen komplexer akustischer Modelle sind Latenzprobleme, wenn eine Einheit versucht, die Daten über ein Netzwerk an ein Modell auf einem Server zu übertragen. In einem Versuch, die Rechen- und Latenzprobleme komplexer akustischer Modelle zu umgehen, wurden kompakte akustische Modelle mit Hilfe von Techniken der Wissensdestillation trainiert. Kompakten akustischen Modellen fehlen die Schichten oder die analytische Leistung, die komplexen oder breitbandigen akustischen Modellen zugehörig sind. Dies ermöglicht jedoch eine schnellere Rückmeldung und einen geringeren Bedarf an Datenverarbeitungsressourcen. Um die Leistung der Ausgaben von kompakten akustischen Modellen zu steigern, werden die Trainingsdaten von komplexen Modellen herunterdestilliert, wodurch mehr Informationen in den Schichten von kompakten akustischen Modellen enthalten sein können.
Bei der Spracherkennung wird für ein akustisches Modell in der Regel ein neuronales Netzwerk (NN) verwendet, um aus akustischen Funktionen, die aus einem Sprachsignal (Audiosignal) abgeleitet werden, eine Wahrscheinlichkeitsverteilung über Zustände des Hidden-Markov-Modells (HMM, verdecktes Markowmodell) zu erstellen. Die HMM-Zustände können Clustern von kontextabhängigen Phonemzuständen oder einfach kontextunabhängigen Phonemzuständen entsprechen. Zu den kontextabhängigen Modellen gehört ein Quinphon-Modell, bei dem jedes einzelne Phon-Modell für jeweils zwei verschiedene linke bzw. rechte Phon-Kontexte verwendet wird.
Zum Beispiel gibt es in der englischen Sprache 44 Phoneme. Werden Phoneme vor und nach zentralen Phonemen mit gemeinsamer Nutzung von Parametern berücksichtigt, ergeben sich für ein typisches Spracherkennungssystem Tausende bis mehrere Zehntausende von kontextabhängigen Phonemzuständen. Das neuronale Netzwerkmodell für das akustische Modell umfasst in der Regel eine Eingabeschicht, die aus einem Sprachsignal abgeleitete akustische Funktionen empfängt; eine oder mehrere ausgeblendete Schichten, die die akustischen Funktionen verarbeiten; und eine Ausgabeschicht, die auf der Grundlage von Aktivierungen der ausgeblendeten Schichten eine Wahrscheinlichkeitsverteilung über HMM-Zustände ausgibt.
1 zeigt ein funktionales Blockschaubild, das eine Umgebung zum Erzeugen von veränderlichen Kennsätzen 100 darstellt. Die Umgebung zum Erzeugen von veränderlichen Kennsätzen 100 weist ein Lehrermodell 104 und eine Steuerroutine 106 zum Identifizieren von alternativen veränderlichen Kennsätzen auf, die auf dem Server 102 in Betrieb sind, sowie einen auf dem Server 102 gespeicherten Pool von veränderlichen Kennsätzen 108, ein Schülermodell 114, das auf dem Server 112 in Betrieb ist, und ein Netzwerk 110.
Bei den Servern 102 und 112 kann es sich um eine eigenständige Datenverarbeitungseinheit, einen Verwaltungsserver, einen Webserver, eine mobile Datenverarbeitungseinheit oder eine andere elektronische Einheit oder ein Datenverarbeitungssystem handeln, das Daten empfangen, senden und verarbeiten kann. In anderen Ausführungsformen können die Server 102 und 112 ein Server-Datenverarbeitungssystem darstellen, das mehrere Computer als Server-System verwendet. In einer weiteren Ausführungsform kann es sich bei den Servern 102 und 112 um einen Laptop-Computer, einen Tablet-Computer, einen Netbook-Computer, einen Personal Computer, einen Desktop-Computer oder eine beliebige programmierbare elektronische Einheit handeln, die über das Netzwerk 110 mit anderen (nicht dargestellten) Datenverarbeitungseinheiten innerhalb der Umgebung zum Erzeugen veränderlicher Kennsätze 100 Daten austauschen kann.
In einer weiteren Ausführungsform stellen die Server 102 und 112 ein Datenverarbeitungssystem dar, in dem geclusterte Computer und Komponenten verwendet werden (z.B. Datenbank-Server-Computer, Anwendungs-Server-Computer usw.), die beim Zugriff innerhalb der verteilten Umgebung zum Erzeugen veränderlicher Kennsätze 100 als ein einziger Pool von nahtlosen Ressourcen fungieren. Die Server 102 und 112 können interne und externe Hardware-Komponenten umfassen, wie sie in 4 abgebildet und näher beschrieben sind. Es sei darauf hingewiesen, dass in 1 zwar nur die Server 102 und 112 dargestellt sind, in der Umgebung zum Erzeugen von veränderlichen Kennsätzen 100 jedoch mehrere Datenverarbeitungseinheiten vorliegen können. Zum Beispiel kann ein Client-Computer (nicht dargestellt) über das Netzwerk 110 mit den Servern 102 und 112 Daten austauschen. In einem anderen Beispiel können die Server 102 und 112 Teil eines Cloud-Server-Netzwerks sein, in dem eine Datenverarbeitungseinheit (nicht dargestellt), die mit dem Netzwerk 110 verbunden ist, auf die Server 102 und 112 zugreifen kann (z.B. das Internet).
Bei dem Lehrermodell 104 handelt es sich in der Regel um ein ressourcenintensives Klassifizierungsmodell, das ein einzelnes Modell oder ein Ensemble aus mehreren Modellen enthält. Das Lehrermodell 104 kann sogar über Ressourcen verfügen, die zu schwer sind, um tatsächlich als praktischer Dienst bereitgestellt zu werden. Bei dem einzelnen Klassifizierungsmodell oder den jeweiligen Klassifizierungsmodellen in dem Ensemble kann es sich um ein beliebiges neuronales Standardnetzwerk handeln, darunter auf einem DNN (deep neural network, tiefes neuronales Netzwerk), CNN (convolutional neural network, faltendes neuronales Netzwerk), RNN (recurrent neural network, rekurrentes neuronales Netzwerk) beruhende Modelle und ein neuronales Netzwerkmodell, das Funktionen mehrerer neuronaler Netzwerktypen verknüpft. In einer bestimmten Ausführungsform umfasst das Lehrermodell 104 ein VGG-Modell (Visual Geometry Group), ein LSTM (long short-term memory, langes Kurzzeitgedächtnis) und/oder ein ResNet (residual neural network, residuales neuronales Netzwerk), ohne auf diese beschränkt zu sein. In der beschriebenen Ausführungsform wurde das Lehrermodell 104 bereits vor der Wissensdestillation unter Verwendung einer ausreichend großen Sammlung von Trainingsdaten trainiert. Es sei darauf hingewiesen, dass das Lehrermodell 104 so konfiguriert werden kann, dass es akustische Funktionen mit Kennsatz in eine oder mehrere Klassen klassifiziert. Bei dem veränderlichen Kennsatz kann es sich um eine Vorhersage der Wahrscheinlichkeit handeln, mit der eine akustische Funktion einer bestimmten Klasse zugeordnet wird. Des Weiteren kann das Lehrermodell 104 in einigen Ausführungsformen unveränderliche Funktionen für eine akustische Funktion mit Kennsatz erzeugen. Bei einem unveränderlichen Kennsatz (hard label) handelt es sich um eine Ja- oder Nein-Klassifizierung, ob eine eingegebene akustische Funktion zu der Klasse gehört. Bei einem veränderlichen Kennsatz handelt es sich um eine Vorhersage (d.h. die Wahrscheinlichkeit), dass eine eingegebene akustische Funktion zu einer Klasse gehört.
Bei der Steuerroutine 106 zum Identifizieren von alternativen veränderlichen Kennsätzen handelt es sich um ein Computermodul, das so konfiguriert werden kann, dass es einen oder mehrere veränderliche Kennsätze im Pool von veränderlichen Kennsätzen 108 identifiziert, die einem von dem Lehrermodell 104 ausgegebenen Referenzkennsatz ähnlich sind. Die Steuerroutine 106 zum Identifizieren von alternativen veränderlichen Kennsätzen kann die von einem trainierten Lehrermodell erzeugten Referenzkennsätze durchsuchen. Ferner kann die Steuerroutine 106 zum Identifizieren von alternativen veränderlichen Kennsätzen in einigen Ausführungsformen in Frage kommende ähnliche veränderliche Kennsätze auf der Grundlage der Phoneme identifizieren, die dem Referenzkennsatz im Pool von veränderlichen Kennsätzen 108 zugehörig sind. Es sei darauf hingewiesen, dass es sich bei dem Lehrermodell, das die veränderlichen Kennsätze im Pool von veränderlichen Kennsätzen 108 erzeugt, um ein anderes Lehrermodell handeln kann als das Lehrermodell 104 in der Umgebung zum Erzeugen von veränderlichen Kennsätzen 100. Die Steuerroutine 106 zum Identifizieren von alternativen veränderlichen Kennsätzen kann ferner eine Ähnlichkeitsbewertung aus den in Frage kommenden veränderlichen Kennsätzen extrahieren, um alternative veränderliche Kennsätze für ein Trainieren des Schülermodells 114 zu erzeugen. Die Steuerroutine 106 zum Identifizieren von alternativen veränderlichen Kennsätzen kann die erzeugten veränderlichen Kennsätze über das Netzwerk 110 an das Schülermodell 114 senden.
Der Pool von veränderlichen Kennsätzen 108 ist so konfiguriert, dass er eine Sammlung von veränderlichen Kennsätzen, die jeweiligen Rahmen in Sprachdaten zugeordnet sind, und einen Referenzkennsatz speichert. In der beispielhaften Ausführungsform handelt es sich bei einer Dateneinheit um einen Rahmen in den Sprachdaten. Die Sprachdaten, die zum Erzeugen des veränderlichen Kennsatzes gesammelt werden, können alle Sprachdaten umfassen, die tatsächliche Äußerungen in Gesprächen, Erzählungen usw. erfassen. Jeder veränderliche Kennsatz innerhalb des Pools von veränderlichen Kennsätzen kann eine Phonemklasse umfassen, die durch ein erzwungenes Ausrichten an einem entsprechenden Rahmen des Lehrermodells 104 ausgerichtet ist. Anders ausgedrückt wird jeder Rahmen im Voraus parallel mit einer korrekten Phonemklasse gekennzeichnet, die aus dem Klassensatz auf Lehrerseite ausgewählt wird. Der Pool von veränderlichen Kennsätzen 108 wird von einem Datenspeicher oder einem Speicherbereich eines beliebigen Speichermediums oder beliebigen Speichereinheiten bereitgestellt, die funktionsmäßig mit der Steuerroutine 106 zum Identifizieren von alternativen veränderlichen Kennsätzen verbunden sind, die ein Erzeugen von alternativen veränderlichen Kennsätzen für eine Wissensdestillation zu dem Schülermodell implementiert.
Bei dem Netzwerk 110 kann es sich um ein lokales Netzwerk (LAN), ein Weitverkehrsnetz (WAN) wie das Internet oder eine Kombination aus den zwei genannten Netzwerken handeln, und es kann drahtgebundene, drahtlose oder Lichtwellenleiter-Verbindungen umfassen. Im Allgemeinen kann es sich bei dem Netzwerk 110 um eine beliebige Kombination von Verbindungen und Protokollen handeln, die eine Datenübertragung zwischen Servern 102, 112 und anderen Datenverarbeitungseinheiten (nicht dargestellt) unterstützen.
Bei dem Schülermodell 114 handelt es sich in der Regel um ein leichtgewichtiges, kompaktes Klassifikationsmodell, das problemlos als akustisches Produktionsmodell verwendet werden kann. Bei dem Schülermodell 114 kann es sich um ein beliebiges neuronales Standardnetzwerk handeln, darunter auf einem DNN, CNN, RNN beruhende Modelle und ein neuronales Netzwerk, das Funktionen mehrerer neuronaler Netzwerktypen verknüpft. In einer oder mehreren Ausführungsformen hat das Schülermodell 114 eine andere Struktur als das Lehrermodell 104. In der beispielhaften Ausführungsform ist das Schülermodell 114 kleiner und einfacher als das Lehrermodell 104 (d.h. weniger Parameter). Ein Modell, das größer und/oder komplexer ist als das Lehrermodell 104, darf jedoch nicht von den Modellen für das Schülermodell 114 ausgeschlossen werden. Es sei darauf hingewiesen, dass das Schülermodell 114 in derselben Klasse wie das Lehrermodell 104 trainiert werden kann. Das Schülermodell 114 kann auch in mehreren Klassen trainiert werden und Trainingsdaten von mehreren Lehrermodellen empfangen (nicht dargestellt).
2 zeigt ein funktionales Blockschaubild 200, das eine Steuerroutine 106 zum Identifizieren von alternativen veränderlichen Kennsätzen gemäß einer Ausführungsform der vorliegenden Erfindung darstellt.
In 2 ist eine Steuerroutine 106 zum Identifizieren von alternativen veränderlichen Kennsätzen dargestellt. In der Steuerroutine 106 zum Identifizieren von alternativen veränderlichen Kennsätzen sind das Modul zum Suchen von Referenzkennsätzen 202 und das Modul zum Extrahieren von Ähnlichkeiten 204 in Betrieb.
Bei dem Modul zum Suchen von Referenzkennsätzen 202 handelt es sich um ein Computermodul, das so konfiguriert werden kann, dass es auf der Grundlage der Referenzkennsätze, die den veränderlichen Kennsätzen innerhalb des Pools von veränderlichen Kennsätzen 108 zugehörig sind, in Frage kommende veränderliche Kennsätze aus dem Pool von veränderlichen Kennsätzen 108 identifiziert. In einigen Ausführungsformen kann das Modul zum Suchen von Referenzkennsätzen 202 Daten empfangen, die einem durch das Lehrermodul 104 ausgegebenen veränderlichen Kennsatz zugehörig sind. Die Daten können eine Referenz auf die identifizierte Sprache oder Äußerung umfassen. Zum Beispiel kann der Referenzkennsatz eines veränderlichen Kennsatzes von dem Lehrermodell 104 „Ich habe eine Frage“ lauten, mit dem Ziel „Frage“. Das Modul zum Suchen von Referenzkennsätzen 202 kann alle Referenzkennsätze durchsuchen, die veränderlichen Kennsätzen im Pool von veränderlichen Kennsätzen 108 zugehörig sind, um in Frage kommende veränderliche Kennsätze zu finden. Im obigen Beispiel identifiziert das Modul zum Suchen von Referenzkennsätzen 202 aus dem Pool von veränderlichen Kennsätzen 108 Folgendes: „...gute Frage...", „...Ihre Frage...", und „...zwei Fragen...". In Frage kommende veränderliche Kennsätze mit „Frage“ im Referenzkennsatz können zu der Steuerroutine 106 zum Identifizieren von alternativen veränderlichen Kennsätzen gesendet werden. Es sei darauf hingewiesen, dass es sich bei den Referenzkennsätzen um die erzeugte Transkription einer Audiodatei handeln kann, die eine Äußerung enthält, wobei die Audiodatei von einem automatischen Spracherkennungssystem verarbeitet wurde. In einigen Ausführungsformen kann es sich bei den Referenzkennsätzen um von einem Menschen annotierte Transkriptionen des Inhalts einer Audiodatei handeln.
Bei dem Modul zum Extrahieren von Ähnlichkeiten 204 handelt es sich um ein Computermodul, das so konfiguriert werden kann, dass es ähnliche veränderliche Kennsätze aus den von dem Modul zum Suchen von Referenzkennsätzen 202 identifizierten in Frage kommenden veränderlichen Kennsätzen identifiziert. Das Modul zum Extrahieren von Ähnlichkeiten 204 kann ähnliche veränderliche Kennsätze auf der Grundlage einer Analyse der Daten innerhalb der Sprachdaten für den veränderlichen Kennsatz identifizieren. In einigen Ausführungsformen extrahiert das Modul zum Extrahieren von Ähnlichkeiten 204 eine Wortsequenz mit ähnlicher Länge auf Wort-, Phonem- oder Zustandsebene. In einer anderen Ausführungsform kann das Modul zum Extrahieren von Ähnlichkeiten 204 ein Wort der gleichen oder einer ähnlichen Sequenz auf der Wortphonem- oder Zustandsebene extrahieren. In anderen Ausführungsformen kann das Modul zum Extrahieren von Ähnlichkeiten 204 eine Phonemsequenz gleicher oder ähnlicher Länge auf der Phonem- oder Zustandsebene identifizieren. In einigen Ausführungsformen kann das Modul zum Extrahieren von Ähnlichkeiten 204 so konfiguriert werden, dass es eine Ähnlichkeitsbewertung für in Frage kommende veränderliche Kennsätze auf der Grundlage von einer Vielfalt von Faktoren erzeugt (z.B. exakte Übereinstimmung von Wort/Phonem/Zustand, Geschlecht, Alter, Sprechereigenschaften usw.). Es sei darauf hingewiesen, dass das Modul zum Extrahieren von Ähnlichkeiten 204 so konfiguriert werden kann, dass es bei Transkriptionen aus dem Pool von veränderlichen Kennsätzen 108 ein Ausrichten erzwingt. Die zwangsausgerichteten Transkriptionen können dann an den Audiodateien ausgerichtet werden, wobei das Modul zum Extrahieren von Ähnlichkeiten 204 ferner ein Spektrogramm der Audiodatei verarbeiten kann. In einer Ausführungsform analysiert das Modul zum Extrahieren von Ähnlichkeiten 204 sprachliche Ähnlichkeiten. Ist das Zielwort „Frage“, wählt das Modul zum Extrahieren von Ähnlichkeiten 204 aus dem Pool von veränderlichen Kennsätzen 208 den Äußerungsbereich „Frage“ aus, der die gleiche oder eine ähnliche Dauer hat. Für das Wort „Frage“ im Zielbereich würde das Modul zum Extrahieren von Ähnlichkeiten 204 zum Beispiel auf der Wortebene im Pool von veränderlichen Kennsätzen 208 nach „Frage(24)“ suchen, auf der Phonebene würde das Modul zum Extrahieren von Ähnlichkeiten 204 im Pool von veränderlichen Kennsätzen 208 nach „K(3)-W(3)-EH(4)-S(3)-CH(5)-IH(3)-N(3)“ suchen, und auf der Zustandsebene würde das Modul zum Extrahieren von Ähnlichkeiten 204 nach „K(1-1-1)-W(1-1-1)-EH(1-2-1)-S(1-1-1)-CH(1-3-1)-IH(1-1-1)-N(1-1-1)“ suchen. Es sei darauf hingewiesen, dass die akustischen Funktionen für „Frage“ aus dem Zielbereich, der ursprüngliche veränderliche Kennsatz für „Frage“ und der alternative veränderliche Kennsatz für „Frage“ aus den ausgewählten Äußerungsbereichen zum Trainieren des Schülermodells verwendet werden.
In einem anderen Beispiel könnte es sich in einer Ausführungsform, in der das Modul zum Extrahieren von Ähnlichkeiten 204 die Wortsequenz auf ähnliche Länge analysiert, bei der Eingabe für den vom Lehrer erzeugten veränderlichen Kennsatz um „Frage“ in „Ich habe eine Frage“ (I have a question) handeln. Aus dem Pool von veränderlichen Kennsätzen 108 wurden die in Frage kommenden veränderlichen Kennsätze und Daten für die folgenden beiden Wortsegmente aus den Referenzkennsätzen identifiziert: „...das sind zwei Fragen, Sir" (...that's two questions, sir) und „...sehr gute Frage" (...very good question). Das Modul zum Extrahieren von Ähnlichkeiten 204 würde berücksichtigen, dass eines der in Frage kommenden Segmente mit dem Wort „Frage“ endet, während eines der in Frage kommenden Segmente wie das Eingabesegment vier Wörter enthält. In dem Beispiel wurde das Modul zum Extrahieren von Ähnlichkeiten 204 so konfiguriert, dass es eine Ähnlichkeitsbewertung für die in Frage kommenden veränderlichen Kennsätze erzeugt. Die Ähnlichkeitsbewertung für „...sehr gute Frage" beträgt 96 % und die Ähnlichkeitsbewertung für „...das sind zwei Fragen, Sir" beträgt 70 %. In dieser beispielhaften Konfiguration werden nur in Frage kommende veränderliche Kennsätze mit einer Bewertung von etwa 83 % an das Schülermodell 114 zum Trainieren gesendet.
Wenn das Modell zum Extrahieren von Ähnlichkeiten 204 in weiteren Ausführungsformen feststellt, dass ein oder mehrere in Frage kommende Kennsätze dem vom Lehrermodell 104 erzeugten veränderlichen Kennsatz ähnlich sind, kann das Modell zum Extrahieren von Ähnlichkeiten ferner ähnliche veränderliche Kennsätze aus den ermittelten in Frage kommenden Kennsätzen extrahieren. In einer Ausführungsform kann das Modell zum Extrahieren von Ähnlichkeiten 204 alle übereinstimmenden veränderlichen Kennsätze an das Schülermodell 114 zum Trainieren senden. In einer anderen Ausführungsform kann das Modell zum Extrahieren von Ähnlichkeiten nur die größte Übereinstimmung (z.B. die erste beste (1-best)) oder die n-besten veränderlichen Kennsätze (wobei es sich bei n- um eine positive ganze Zahl handelt) an das Schülermodell 114 zum Trainieren senden. In noch einer anderen Ausführungsform kann das Modell zum Extrahieren von Ähnlichkeiten 204 die veränderlichen Kennsätze mit einer hohen Kurtosis-Verteilung zum Trainieren des Schülermodells 114 senden.
3 zeigt einen Ablaufplan, der ein Verfahren 300 zum Erzeugen von alternativen veränderlichen Kennsätzen gemäß einer Ausführungsform der vorliegenden Erfindung darstellt. In Schritt 302 werden Trainingsdaten beim Lehrermodell 104 empfangen. In einigen Ausführungsformen handelt es sich bei den Trainingsdaten um eine Audiodatei von einem Benutzer oder einer Datenbank. In einigen Ausführungsformen werden die Trainingsdaten mit einer Transkription gekennzeichnet. Des Weiteren können die Trainingsdaten ein Spektrogramm enthalten, das die der Audiodatei zugehörigen Schallwellen darstellt. In einigen Ausführungsformen hat ein automatisches Spracherkennungssystem Funktionsvektoren für die Trainingsdaten erzeugt.
In Schritt 304 wird von dem Lehrermodell 104 ein veränderlicher Kennsatz für die Trainingsdaten erzeugt. In einigen Ausführungsformen kann das Lehrermodell 104 einen veränderlichen Kennsatz für Trainingsdaten erzeugen, wobei es sich bei einem veränderlichen Kennsatz um die Wahrscheinlichkeitsvorhersage für Trainingsdaten handelt, die ein Wort oder ein Wortsegment in eine bestimmte Klasse einordnet, für die das Lehrermodell zur Klassifizierung vorgesehen ist. In einigen Ausführungsformen kann das Lehrermodell 104 auch so konfiguriert werden, dass es ein unveränderliches Label für die Trainingsdaten erzeugt.
In Schritt 306 wird mit der Steuerroutine 106 zum Identifizieren von alternativen veränderlichen Kennsätzen ein ähnlicher veränderlicher Kennsatz aus dem Pool von veränderlichen Kennsätzen 108 extrahiert. Zum Beispiel kann die Steuerroutine 106 zum Identifizieren von alternativen veränderlichen Kennsätzen den veränderlichen Kennsatz empfangen, der von dem Lehrermodell 104 erzeugt und den Trainingsdaten zugeordnet wurde. Das Modul zum Suchen von Referenzkennsätzen 202 kann auf der Grundlage des Referenzkennsatzes, der den Trainingsdaten zugehörig ist, nach in Frage kommenden veränderlichen Kennsätzen innerhalb des Pools von veränderlichen Kennsätzen 108 suchen. In einigen Ausführungsformen kann ein Zielwort innerhalb des Referenzkennsatzes der Trainingsdaten zur weiteren Verfeinerung isoliert werden. In einem anderen Beispiel kann das Modul zum Extrahieren von Ähnlichkeiten 204 die identifizierten in Frage kommenden veränderlichen Kennsätze auf der Grundlage der Sprachdaten analysieren, die den veränderlichen Kennsätzen zugehörig sind. Bei den Sprachdaten kann auf der Grundlage eines Zielworts ein Ausrichten an den Sprachdaten des erzeugten veränderlichen Ziels erzwungen werden. In einigen Ausführungsformen kann die Phonemsequenz der Sprachdaten für den in Frage kommenden veränderlichen Kennsatz in Bezug auf die Phonemsequenz der Sprachdaten für den erzeugten veränderlichen Kennsatz analysiert werden. In einigen Ausführungsformen kann durch das Modul zum Extrahieren von Ähnlichkeiten 204 eine Ähnlichkeitsbewertung für jeden identifizierten in Frage kommenden veränderlichen Kennsatz erzeugt werden. Wenn ferner ein in Frage kommender veränderlicher Kennsatz über einem Schwellenwert der Ähnlichkeitsbewertung identifiziert wird, kann der in Frage kommende veränderliche Kennsatz an das Schülermodell 114 zum Trainieren gesendet werden. In einigen Ausführungsformen können ein oder mehrere ähnliche veränderliche Kennsätze auf der Grundlage der Konfiguration der Steuerroutine 106 zum Identifizieren von alternativen veränderlichen Kennsätzen an das Schülermodell 114 zum Trainieren gesendet werden.
In Schritt 308 wird das Schülermodell 114 mit dem von dem Lehrermodell 104 erzeugten veränderlichen Kennsatz und dem ähnlichen veränderlichen Kennsatz, der von der Steuerroutine 106 zum Identifizieren von alternativen veränderlichen Kennsätzen identifiziert wurde, trainiert. In einigen Ausführungsformen kann mehr als ein ähnlicher veränderlicher Kennsatz verwendet werden, um das Schülermodell 114 zu trainieren.
4 stellt das Computersystem 400 dar, wobei es sich um ein beispielhaftes Computersystem handelt, das die Server 102 und 112 oder eine andere Datenverarbeitungseinheit in einer Ausführungsform der Erfindung darstellt. Das Computersystem 400 umfasst eine Datenübertragungs-Struktur 412, die eine Datenübertragung zwischen Computerprozessor(en) 414, Speicher 416, dauerhaftem Speicher 418, Netzwerkadapter 428 sowie Eingabe/Ausgabe-(E/A-)Schnittstelle(n) 426 bereitstellt. Die Datenübertragungsstruktur 412 kann mit jeder Architektur implementiert werden, die für ein Übertragen von Daten und/oder Steuerinformationen zwischen Prozessoren (wie Mikroprozessoren, Datenübertragungs- und Netzwerkprozessoren usw.), Systemspeicher, peripheren Einheiten und anderen Hardwarekomponenten innerhalb eines Systems konzipiert ist. Zum Beispiel kann die Datenübertragungsstruktur 412 mit einem oder mehreren Bussen implementiert werden.
Das Computersystem 400 umfasst Prozessoren 414, Cache 422, Speicher 416, Netzwerkadapter 428, Eingabe/Ausgabe-(E/A-)Schnittstelle(n) 426 und Datenübertragungs-Struktur 412. Die Datenübertragungs-Struktur 412 stellt eine Datenübertragung zwischen Cache 422, Speicher 416, dauerhaftem Speicher 418, Netzwerkadapter 428 und Eingabe/Ausgabe-(E/A-)Schnittstelle(n) 426 bereit. Die Datenübertragungsstruktur 412 kann mit jeder Architektur implementiert werden, die für ein Übertragen von Daten und/oder Steuerinformationen zwischen Prozessoren (wie Mikroprozessoren, Datenübertragungs- und Netzwerkprozessoren usw.), Systemspeicher, peripheren Einheiten und anderen Hardwarekomponenten innerhalb eines Systems konzipiert ist. Zum Beispiel kann die Datenübertragungs-Struktur 412 mit einem oder mehreren Bussen oder einer Crossbar-Einheit implementiert werden.
Bei dem Speicher 416 und dem dauerhaften Speicher 418 handelt es sich um durch einen Computer lesbare Speichermedien. In dieser Ausführungsform umfasst der Speicher 416 dauerhaften Speicher 418, Direktzugriffsspeicher (RAM) 420, Cache 422 und Programmmodul 424. Im Allgemeinen kann es sich bei dem Speicher 416 um jedes geeignete flüchtige oder nichtflüchtige durch einen Computer lesbare Speichermedium handeln. Bei dem Cache 422 handelt es sich um einen schnellen Speicher, der die Leistung der Prozessoren 414 erhöht, indem er Daten aus dem Speicher 416 speichert, auf die kurz zuvor zugegriffen wurde, sowie Daten nahe der Daten, auf die kurz zuvor zugegriffen wurde. Wie im Folgenden eingehender dargestellt und beschrieben, kann der Speicher 416 mindestens ein Programmmodul 424 umfassen, das so konfiguriert ist, dass es die Funktionen von Ausführungsformen der Erfindung ausführt.
Das Programm/Dienstprogramm, das mindestens ein Programmmodul 424 enthält, kann beispielsweise, aber nicht darauf beschränkt, im Speicher 416 gespeichert werden, ebenso wie ein Betriebssystem, ein oder mehrere Anwendungsprogramme, andere Programmmodule sowie Programmdaten. Jedes der Betriebssysteme, ein oder mehreren Anwendungsprogramme, anderen Programmmodule sowie Programmdaten oder eine Kombination davon kann eine Implementierung einer Netzwerkumgebung umfassen. Das Programmmodul 424 führt im Allgemeinen die Funktionen und/oder Methodiken von hier beschriebenen Ausführungsformen der Erfindung aus.
Programmanweisungen und Daten, die zum Ausführen von Ausführungsformen der vorliegenden Erfindung verwendet werden, können im dauerhaften Speicher 418 und im Speicher 416 zum Ausführen durch einen oder mehrere der jeweiligen Prozessoren 414 über den Cache 422 gespeichert werden. In einer Ausführungsform umfasst der dauerhafte Speicher 418 ein magnetisches Festplattenlaufwerk. Alternativ oder zusätzlich zu einem magnetischen Festplattenlaufwerk kann der dauerhafte Speicher 418 einen Halbleiterdatenträger, eine Halbleiterspeichereinheit, einen Nur-Lese-Speicher (ROM), einen elektronisch löschbaren programmierbaren Nur-Lese-Speicher (EPROM), einen Flash-Speicher oder jedes andere durch einen Computer lesbare Speichermedium umfassen, das Programmanweisungen oder digitale Informationen speichern kann.
Die von dem dauerhaften Speicher 418 verwendeten Medien können auch wechselbar sein. Es kann zum Beispiel eine wechselbare Festplatte für den dauerhaften Speicher 418 verwendet werden. Zu anderen Beispielen gehören optische Platten und Magnetplatten, USB-Sticks und Speicherkarten, die in ein Laufwerk eingelegt werden, um auf ein anderes durch einen Computer lesbares Speichermedium übertragen zu werden, das ebenfalls Teil des dauerhaften Speichers 418 ist.
Der Netzwerkadapter 428 stellt in diesen Beispielen eine Datenübertragung zu anderen Datenverarbeitungssystemen oder-einheiten bereit. In diesen Beispielen umfasst der Netzwerkadapter 428 eine oder mehrere Netzwerk-Schnittstellenkarten. Der Netzwerkadapter 428 kann eine Datenübertragung mittels physischer und/oder drahtloser Datenübertragungsverbindungen bereitstellen. Programmanweisungen und Daten, die zum Ausführen von Ausführungsformen der vorliegenden Erfindung verwendet werden, können über den Netzwerkadapter 428 in den dauerhaften Speicher 418 heruntergeladen werden.
Die E/A-Schnittstelle(n) 426 ermöglicht (ermöglichen) die Eingabe und Ausgabe von Daten von anderen/an andere Einheiten, die mit dem jeweiligen Computersystem verbunden werden können. Zum Beispiel kann die E/A-Schnittstelle 426 eine Verbindung zu externen Einheiten 430 bereitstellen, zum Beispiel zu einer Tastatur, einem Tastenfeld, einem Berührungsbildschirm und/oder einer anderen geeigneten Eingabeeinheit. Die externen Einheiten 430 können auch tragbare, durch einen Computer lesbare Speichermedien umfassen, zum Beispiel USB-Sticks, tragbare optische oder magnetische Festplatten und Speicherkarten. Software und Daten, die zum Durchführen von Ausführungsformen der vorliegenden Erfindung verwendet werden, können auf solchen tragbaren, durch einen Computer lesbaren Speichermedien gespeichert und über die E/A-Schnittstelle(n) 426 in den dauerhaften Speicher 418 geladen werden. Die E/A-Schnittstelle(n) 426 ist (sind) auch mit Anzeige 432 verbunden.
Die Anzeige 432 stellt einen Mechanismus zur Anzeige von Daten für einen Benutzer bereit, wobei es sich zum Beispiel um einen Computermonitor oder eine virtuelle grafische Benutzeroberfläche handeln kann.
Die hierin beschriebenen Komponenten werden auf der Grundlage von der Anwendung identifiziert, für die sie in einer bestimmten Ausführungsform der Erfindung implementiert sind. Es sollte jedoch beachtet werden, dass eine bestimmte Komponenten-Nomenklatur hierin nur der Einfachheit halber verwendet wird, und daher sollte die Erfindung nicht auf ein Verwenden in einer bestimmten Anwendung beschränkt werden, die mittels einer solchen Nomenklatur identifiziert und/oder impliziert wird.
Bei der vorliegenden Erfindung kann es sich um ein System, ein Verfahren und/oder ein Computerprogrammprodukt handeln. Das Computerprogrammprodukt kann (ein) durch einen Computer lesbare(s) Speichermedium (oder -medien) umfassen, auf dem/denen durch einen Computer lesbare Programmanweisungen gespeichert ist/sind, um einen Prozessor dazu zu veranlassen, Aspekte der vorliegenden Erfindung auszuführen.
Bei dem durch einen Computer lesbaren Speichermedium kann es sich um eine physische Einheit handeln, die Anweisungen zur Verwendung durch ein System zur Ausführung von Anweisungen behalten und speichern kann. Bei dem durch einen Computer lesbaren Speichermedium kann es sich zum Beispiel um eine elektronische Speichereinheit, eine magnetische Speichereinheit, eine optische Speichereinheit, eine elektromagnetische Speichereinheit, eine Halbleiterspeichereinheit oder jede geeignete Kombination daraus handeln, ohne auf diese beschränkt zu sein. Zu einer nicht erschöpfenden Liste spezifischerer Beispiele des durch einen Computer lesbaren Speichermediums gehören die folgenden: eine tragbare Computerdiskette, eine Festplatte, ein Direktzugriffsspeicher (RAM), ein Nur-Lese-Speicher (ROM), ein löschbarer programmierbarer Nur-Lese-Speicher (EPROM bzw. Flash-Speicher), ein statischer Direktzugriffsspeicher (SRAM), ein tragbarer Kompaktspeicherplatte-Nur-Lese-Speicher (CD-ROM), eine DVD (digital versatile disc), ein Speicher-Stick, eine Diskette, eine mechanisch codierte Einheit wie zum Beispiel Lochkarten oder erhabene Strukturen in einer Rille, auf denen Anweisungen gespeichert sind, und jede geeignete Kombination daraus. Ein durch einen Computer lesbares Speichermedium soll in der Verwendung hierin nicht als flüchtige Signale an sich aufgefasst werden, wie zum Beispiel Funkwellen oder andere sich frei ausbreitende elektromagnetische Wellen, elektromagnetische Wellen, die sich durch einen Wellenleiter oder ein anderes Übertragungsmedium ausbreiten (z.B. ein Lichtwellenleiterkabel durchlaufende Lichtimpulse) oder durch einen Draht übertragene elektrische Signale.
Hierin beschriebene, durch einen Computer lesbare Programmanweisungen können von einem durch einen Computer lesbaren Speichermedium auf jeweilige Datenverarbeitungs-/Verarbeitungseinheiten oder über ein Netzwerk wie zum Beispiel das Internet, ein lokales Netzwerk, ein Weitverkehrsnetz und/oder ein drahtloses Netzwerk auf einen externen Computer oder eine externe Speichereinheit heruntergeladen werden. Das Netzwerk kann Kupferübertragungskabel, Lichtwellenübertragungsleiter, drahtlose Übertragung, Leitwegrechner, Firewalls, Vermittlungseinheiten, Gateway-Computer und/oder Edge-Server aufweisen. Eine Netzwerkadapterkarte oder Netzwerkschnittstelle in jeder Datenverarbeitungs-/Verarbeitungseinheit empfängt durch einen Computer lesbare Programmanweisungen aus dem Netzwerk und leitet die durch einen Computer lesbaren Programmanweisungen zur Speicherung in einem durch einen Computer lesbaren Speichermedium innerhalb der entsprechenden Datenverarbeitungs-/Verarbeitungseinheit weiter.
Bei durch einen Computer lesbaren Programmanweisungen zum Ausführen von Arbeitsschritten der vorliegenden Erfindung kann es sich um Assembler-Anweisungen, ISA-Anweisungen (Instruction-Set-Architecture), Maschinenanweisungen, maschinenabhängige Anweisungen, Mikrocode, Firmware-Anweisungen, zustandssetzende Daten oder entweder Quellcode oder Objektcode handeln, die in einer beliebigen Kombination aus einer oder mehreren Programmiersprachen geschrieben werden, darunter objektorientierte Programmiersprachen wie Smalltalk, C++ o.ä. sowie herkömmliche prozedurale Programmiersprachen wie die Programmiersprache „C“ oder ähnliche Programmiersprachen. Die durch einen Computer lesbaren Programmanweisungen können vollständig auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Software-Paket, teilweise auf dem Computer des Benutzers und teilweise auf einem entfernt angeordneten Computer oder vollständig auf dem entfernt angeordneten Computer oder Server ausgeführt werden. In letzterem Fall kann der entfernt angeordnete Computer mit dem Computer des Benutzers durch eine beliebige Art Netzwerk verbunden sein, darunter ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetz (WAN), oder die Verbindung kann mit einem externen Computer hergestellt werden (zum Beispiel über das Internet unter Verwendung eines Internet-Dienstanbieters). In einigen Ausführungsformen können elektronische Schaltungen, darunter zum Beispiel programmierbare Logikschaltungen, vor Ort programmierbare Gatter-Anordnungen (FPGA, field programmable gate arrays) oder programmierbare Logikanordnungen (PLA, programmable logic arrays) die durch einen Computer lesbaren Programmanweisungen ausführen, indem sie Zustandsinformationen der durch einen Computer lesbaren Programmanweisungen nutzen, um die elektronischen Schaltungen zu personalisieren, um Aspekte der vorliegenden Erfindung durchzuführen.
Aspekte der vorliegenden Erfindung sind hierin unter Bezugnahme auf Ablaufpläne und/oder Blockschaltbilder bzw. Schaubilder von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es versteht sich, dass jeder Block der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder sowie Kombinationen von Blöcken in den Ablaufplänen und/oder den Blockschaltbildern bzw. Schaubildern mittels durch einen Computer lesbare Programmanweisungen ausgeführt werden können.
Diese durch einen Computer lesbaren Programmanweisungen können einem Prozessor eines Universalcomputers, eines Spezialcomputers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu erzeugen, so dass die über den Prozessor des Computers bzw. der anderen programmierbaren Datenverarbeitungsvorrichtung ausgeführten Anweisungen ein Mittel zur Umsetzung der in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder festgelegten Funktionen/Schritte erzeugen. Diese durch einen Computer lesbaren Programmanweisungen können auch auf einem durch einen Computer lesbaren Speichermedium gespeichert sein, das einen Computer, eine programmierbare Datenverarbeitungsvorrichtung und/oder andere Einheiten so steuern kann, dass sie auf eine bestimmte Art funktionieren, so dass das durch einen Computer lesbare Speichermedium, auf dem Anweisungen gespeichert sind, ein Herstellungsprodukt aufweist, darunter Anweisungen, welche Aspekte der/des in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder festgelegten Funktion/Schritts umsetzen.
Die durch einen Computer lesbaren Programmanweisungen können auch auf einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder eine andere Einheit geladen werden, um das Ausführen einer Reihe von Prozessschritten auf dem Computer bzw. der anderen programmierbaren Vorrichtung oder anderen Einheit zu verursachen, um einen auf einem Computer ausgeführten Prozess zu erzeugen, so dass die auf dem Computer, einer anderen programmierbaren Vorrichtung oder einer anderen Einheit ausgeführten Anweisungen die in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder festgelegten Funktionen/Schritte umsetzen.
Die Ablaufpläne und die Blockschaltbilder bzw. Schaubilder in den Figuren veranschaulichen die Architektur, die Funktionalität und den Betrieb möglicher Ausführungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung. In diesem Zusammenhang kann jeder Block in den Ablaufplänen oder Blockschaltbildern bzw. Schaubildern ein Modul, ein Segment oder einen Teil von Anweisungen darstellen, die eine oder mehrere ausführbare Anweisungen zur Ausführung der bestimmten logischen Funktion(en) aufweisen. In einigen alternativen Ausführungen können die in dem Block angegebenen Funktionen in einer anderen Reihenfolge als in den Figuren gezeigt stattfinden. Zwei nacheinander gezeigte Blöcke können zum Beispiel in Wirklichkeit im Wesentlichen gleichzeitig ausgeführt werden, oder die Blöcke können manchmal je nach entsprechender Funktionalität in umgekehrter Reihenfolge ausgeführt werden. Es ist ferner anzumerken, dass jeder Block der Blockschaltbilder bzw. Schaubilder und/oder der Ablaufpläne sowie Kombinationen aus Blöcken in den Blockschaltbildern bzw. Schaubildern und/oder den Ablaufplänen durch spezielle auf Hardware beruhende Systeme umgesetzt werden können, welche die festgelegten Funktionen oder Schritte durchführen, oder Kombinationen aus Spezial-Hardware und Computeranweisungen ausführen.
Es versteht sich, dass das Umsetzen der hierin angeführten Lehren nicht auf eine Cloud-Computing-Umgebung beschränkt ist, obwohl diese Offenbarung eine ausführliche Beschreibung von Cloud-Computing umfasst. Stattdessen können Ausführungsformen der vorliegenden Erfindung gemeinsam mit jeder beliebigen Art von jetzt bekannter oder später erfundener Datenverarbeitungsumgebung umgesetzt werden.
Cloud-Computing ist ein Servicebereitstellungsmodell zum Ermöglichen eines problemlosen, bedarfsgesteuerten Netzwerkzugriffs auf einen gemeinsam genutzten Pool von konfigurierbaren Datenverarbeitungsressourcen (z.B. Netzwerke, Netzwerkbandbreite, Server, Verarbeitung, Hauptspeicher, Speicher, Anwendungen, virtuelle Maschinen und Dienste), die mit minimalem Verwaltungsaufwand bzw. minimaler Interaktion mit einem Anbieter des Service schnell bereitgestellt und freigegeben werden können. Dieses Cloud-Modell kann mindestens fünf Eigenschaften umfassen, mindestens drei Dienstmodelle und mindestens vier Implementierungsmodelle.
Bei den Eigenschaften handelt es sich um die folgenden:
On-Demand Self-Service: Ein Cloud-Nutzer kann einseitig automatisch nach Bedarf für Datenverarbeitungsfunktionen wie Serverzeit und Netzwerkspeicher sorgen, ohne dass eine menschliche Interaktion mit dem Anbieter der Dienste erforderlich ist.
Broad Network Access: Es sind Funktionen über ein Netzwerk verfügbar, auf die durch Standardmechanismen zugegriffen wird, welche die Verwendung durch heterogene Thin- oder Thick-Client-Plattformen (z.B. Mobiltelefone, Laptops und PDAs) unterstützen.
Resource-Pooling: Die Datenverarbeitungsressourcen des Anbieters werden zusammengeschlossen, um mehreren Nutzern unter Verwendung eines Multi-Tenant-Modells zu dienen, wobei verschiedene physische und virtuelle Ressourcen dynamisch nach Bedarf zugewiesen und neu zugewiesen werden. Es gibt eine gefühlte Standortunabhängigkeit, da der Nutzer allgemein keine Kontrolle bzw. Kenntnis über den genauen Standort der bereitgestellten Ressourcen hat, aber in der Lage sein kann, einen Standort auf einer höheren Abstraktionsebene festzulegen (z.B. Land, Staat oder Rechenzentrum).
Rapid Elasticity: Funktionen können für eine schnelle horizontale Skalierung (scale out) schnell und elastisch bereitgestellt werden, in einigen Fällen auch automatisch, und für ein schnelles Scale-in schnell freigegeben werden. Für den Nutzer erscheinen die für das Bereitstellen verfügbaren Funktionen häufig unbegrenzt und sie können jederzeit in jeder beliebigen Menge gekauft werden.
Measured Service: Cloud-Systeme steuern und optimieren die Verwendung von Ressourcen automatisch, indem sie eine Messfunktion auf einer gewissen Abstraktionsebene nutzen, die für die Art von Dienst geeignet ist (z.B. Speicher, Verarbeitung, Bandbreite sowie aktive Benutzerkonten). Die Nutzung von Ressourcen kann überwacht, gesteuert und gemeldet werden, wodurch sowohl für den Anbieter als auch für den Nutzer des verwendeten Dienstes Transparenz geschaffen wird.
Bei den Dienstmodellen handelt es sich um die folgenden:
Software as a Service (SaaS): Die dem Nutzer bereitgestellte Funktion besteht darin, die in einer Cloud-Infrastruktur laufenden Anwendungen des Anbieters zu verwenden. Die Anwendungen sind über eine Thin-Client-Schnittstelle wie einen Web-Browser (z.B. auf dem Web beruhende eMail) von verschiedenen Client-Einheiten her zugänglich. Der Benutzer verwaltet bzw. steuert die zugrunde liegende Cloud-Infrastruktur nicht, darunter das Netzwerk, Server, Betriebssysteme, Speicher bzw. sogar einzelne Anwendungsfunktionen, mit der möglichen Ausnahme von eingeschränkten benutzerspezifischen Anwendungskonfigurationseinstellungen.
Platform as a Service (PaaS): Die dem Nutzer bereitgestellte Funktion besteht darin, durch einen Nutzer erstellte bzw. erhaltene Anwendungen, die unter Verwendung von durch den Anbieter unterstützten Programmiersprachen und Tools erstellt wurden, in der Cloud-Infrastruktur einzusetzen. Der Nutzer verwaltet bzw. steuert die zugrunde liegende Cloud-Infrastruktur nicht, darunter Netzwerke, Server, Betriebssysteme bzw. Speicher, hat aber die Kontrolle über die eingesetzten Anwendungen und möglicherweise über Konfigurationen der Application Hosting Environment.
Infrastructure as a Service (laaS): Die dem Nutzer bereitgestellte Funktion besteht darin, das Verarbeiten, Speicher, Netzwerke und andere grundlegende Datenverarbeitungsressourcen bereitzustellen, wobei der Nutzer in der Lage ist, beliebige Software einzusetzen und auszuführen, zu der Betriebssysteme und Anwendungen gehören können. Der Nutzer verwaltet bzw. steuert die zugrunde liegende Cloud-Infrastruktur nicht, hat aber die Kontrolle über Betriebssysteme, Speicher, eingesetzte Anwendungen und möglicherweise eine eingeschränkte Kontrolle über ausgewählte Netzwerkkomponenten (z.B. Host-Firewalls).
Bei den Einsatzmodellen handelt es sich um die folgenden:
Private Cloud: Die Cloud-Infrastruktur wird einzig und allein für eine Organisation betrieben. Sie kann durch die Organisation oder einen Dritten verwaltet werden und kann sich in den eigenen Räumen oder in fremden Räumen befinden.
Community Cloud: Die Cloud-Infrastruktur wird von mehreren Organisationen gemeinsam genutzt und unterstützt eine spezielle Benutzergemeinschaft, die gemeinsame Angelegenheiten hat (z.B. Mission, Sicherheitsanforderungen, Richtlinien sowie Überlegungen bezüglich der Einhaltung von Vorschriften). Sie kann durch die Organisationen oder einen Dritten verwaltet werden und kann in den eigenen Räumen oder fremden Räumen stehen.
Public Cloud: Die Cloud-Infrastruktur wird der allgemeinen Öffentlichkeit oder einer großen Industriegruppe zur Verfügung gestellt, und sie gehört einer Cloud-Dienste verkaufenden Organisation.
Hybrid Cloud: Die Cloud-Infrastruktur ist eine Zusammensetzung aus zwei oder mehreren Clouds (privat, Benutzergemeinschaft oder öffentlich), die zwar einzelne Einheiten bleiben, aber durch eine standardisierte oder proprietäre Technologie miteinander verbunden sind, die Daten- und Anwendungsportierbarkeit ermöglicht (z.B. Cloud-Zielgruppenverteilung für den Lastenausgleich zwischen Clouds).
Eine Cloud-Computing-Umgebung ist dienstorientiert mit Fokus auf Statusunabhängigkeit, geringer Kopplung, Modularität und semantischer Interoperabilität. Im Herzen von Cloud-Computing liegt eine Infrastruktur, die ein Netzwerk aus zusammengeschalteten Knoten aufweist.
5 zeigt ein Blockschaubild, das eine Cloud-Computing-Umgebung 50 gemäß mindestens einer Ausführungsform der vorliegenden Erfindung darstellt. Die Cloud-Computing-Umgebung 50 weist einen oder mehrere Cloud-Computing-Knoten 10 auf, mit denen von Cloud-Nutzern verwendete lokale Datenverarbeitungseinheiten wie der elektronische Assistent (PDA, personal digital assistant) oder das Mobiltelefon 54A, der Desktop-Computer 54B, der Laptop-Computer 54C und/oder das Automobil-ComputerSystem 54N Daten austauschen können. Die Knoten 10 können miteinander Daten austauschen. Sie können physisch oder virtuell in ein oder mehrere Netzwerke wie private, Benutzergemeinschafts-, öffentliche oder hybride Clouds gruppiert werden (nicht gezeigt), wie vorstehend beschrieben wurde, oder in eine Kombination daraus. Dies ermöglicht es der Cloud-Computing-Umgebung 50, Infrastruktur, Plattformen und/oder Software als Dienst anzubieten, für die ein Cloud-Nutzer keine Ressourcen auf einer lokalen Datenverarbeitungseinheit vorhalten muss. Es versteht sich, dass die Arten von in 6 gezeigten Datenverarbeitungseinheiten 54A bis N lediglich veranschaulichend sein sollen und dass die Datenverarbeitungsknoten 10 und die Cloud-Computing-Umgebung 50 über eine beliebige Art Netzwerk und/oder über eine beliebige Art von über ein Netzwerk aufrufbarer Verbindung (z.B. unter Verwendung eines Web-Browsers) mit einer beliebigen Art von computergestützter Einheit Daten austauschen können.
6 zeigt ein Blockschaubild, das einen Satz von funktionalen Abstraktionsmodellschichten darstellt, die durch die in 5 dargestellten Cloud-Computing-Umgebung 50 gemäß mindestens einer Ausführungsform der vorliegenden Erfindung bereitgestellt wird. Es versteht sich von Vornherein, dass die in 6 gezeigten Komponenten, Schichten und Funktionen lediglich veranschaulichend sein sollen und Ausführungsformen der Erfindung nicht darauf beschränkt sind. Wie abgebildet ist, werden die folgenden Schichten und entsprechenden Funktionen bereitgestellt:
Eine Hardware- und Software-Schicht 60 umfasst Hardware- und Software-Komponenten. Zu Beispielen für Hardware-Komponenten gehören: Mainframe-Computer 61; auf der RISC- (Reduced Instruction Set Computer) Architektur beruhende Server 62; Server 63; Blade-Server 64; Speichereinheiten 65; und Netzwerke sowie Netzwerkkomponenten 66. In einigen Ausführungsformen umfassen Software-Komponenten eine Netzwerk-Anwendungsserver-Software 67 und eine Datenbank-Software 68.
Die Virtualisierungsschicht 70 stellt eine Abstraktionsschicht bereit, aus der die folgenden Beispiele für virtuelle Einheiten bereitgestellt werden können: virtuelle Server 71; virtueller Speicher 72; virtuelle Netzwerke 73, darunter virtuelle private Netzwerke, virtuelle Anwendungen und Betriebssysteme 74; und virtuelle Clients 75.
In einem Beispiel kann die Verwaltungsschicht 80 die nachfolgend beschriebenen Funktionen bereitstellen. Eine Ressourcen-Bereitstellung 81 stellt die dynamische Beschaffung von Datenverarbeitungsressourcen sowie anderen Ressourcen bereit, die zum Durchführen von Aufgaben innerhalb der Cloud-Computing-Umgebung verwendet werden. Ein Messen und eine Preisfindung 82 stellen die Kostenverfolgung bei einem Verwenden von Ressourcen innerhalb der Cloud-Computing-Umgebung sowie die Abrechnung oder Rechnungsstellung für die Inanspruchnahme dieser Ressourcen bereit. In einem Beispiel können diese Ressourcen Anwendungs-Software-Lizenzen aufweisen. Die Sicherheit stellt die Identitätsüberprüfung für Cloud-Nutzer und Aufgaben sowie Schutz für Daten und andere Ressourcen bereit. Ein Benutzerportal 83 stellt Nutzern und Systemadministratoren den Zugang zu der Cloud-Computing-Umgebung bereit. Eine Verwaltung des Dienstumfangs 84 stellt die Zuordnung und Verwaltung von Cloud-Computing-Ressourcen bereit, so dass die benötigten Dienstziele erreicht werden. Ein Planen und Erfüllen von Vereinbarungen zum Dienstumfang (SLA, Service Level Agreement) 85 stellt die Anordnung vorab und die Beschaffung von Cloud-Computing-Ressourcen, für die eine zukünftige Anforderung vorausgesehen wird, gemäß einem SLA bereit.
Eine Arbeitslastenschicht 90 stellt Beispiele für die Funktionalität bereit, für welche die Cloud-Computing-Umgebung verwendet werden kann. Zu Beispielen für Arbeitslasten und Funktionen, die von dieser Schicht bereitgestellt werden können, gehören: Abbildung und Navigation 91; Software-Entwicklung und Lebenszyklusverwaltung 92; Bereitstellung von Ausbildung in virtuellen Klassenzimmern 93; Datenanalytikverarbeitung 94; Transaktionsverarbeitung 95; und Identifizierung alternativer veränderlicher Kennsätze 96.
Die Beschreibungen der verschiedenen Ausführungsformen der vorliegenden Erfindung wurden zur Veranschaulichung vorgelegt, sollen aber weder erschöpfend noch auf die offenbarten Ausführungsformen beschränkt sein. Für den Fachmann sind viele Modifikationen und Variationen erkennbar, ohne vom Umfang der Erfindung abzuweichen. Die hier verwendete Terminologie wurde gewählt, um die Grundgedanken der Ausführungsform, die praktische Anwendung oder die technische Verbesserung gegenüber den auf dem Markt befindlichen Technologien bestmöglich zu erklären oder um es dem Fachmann zu ermöglichen, die hier offenbarten Ausführungsformen zu verstehen.

Claims

Auf einem Computer implementiertes Verfahren zum Trainieren eines Schülermodells durch Wissensdestillation mit ergänzten Trainingsdaten mit Kennsatz, wobei das Verfahren umfasst: Empfangen einer akustischen Funktion mit Kennsatz durch einen oder mehrere Prozessoren; Erzeugen eines veränderlichen Kennsatzes für die akustische Funktion mit Kennsatz durch ein Lehrermodell durch den einen oder die mehreren Prozessoren; Extrahieren eines zweiten veränderlichen Kennsatzes aus einem Pool von veränderlichen Kennsätzen durch den einen oder die mehreren Prozessoren, der dem ersten veränderlichen Kennsatz ähnlich ist; und Trainieren eines Schülermodells durch den einen oder die mehreren Prozessoren unter Verwendung des ersten veränderlichen Kennsatzes und des zweiten veränderlichen Kennsatzes.
Auf einem Computer implementiertes Verfahren nach Anspruch 1, wobei das Extrahieren eines zweiten veränderlichen Kennsatzes ferner umfasst: Identifizieren eines oder mehrerer in Frage kommender veränderlicher Kennsätze durch einen oder mehrere Prozessoren auf der Grundlage von jedem Referenzkennsatz, der den veränderlichen Kennsätzen zugehörig ist; Ermitteln durch einen oder mehrere Prozessoren, ob jeder der einen oder mehreren in Frage kommenden veränderlichen Kennsätze der akustischen Funktion mit Kennsatz ähnlich ist, wobei der eine oder die mehreren in Frage kommenden veränderlichen Kennsätze ähnlich sind, wenn der eine oder die mehreren die gleiche Sequenz von Phonemen wie die akustische Funktion mit Kennsatz aufweisen; und als Reaktion auf das Feststellen, dass der eine oder die mehreren in Frage kommenden veränderlichen Kennsätze der akustischen Funktion mit Kennsatz ähnlich sind: Ausgeben des einen oder der mehreren in Frage kommenden veränderlichen Kennsätze durch den einen oder die mehreren Prozessoren, wenn festgestellt wird, dass sie der akustischen Funktion ähnlich sind.
Auf einem Computer implementiertes Verfahren nach Anspruch 1, wobei ein Pool von veränderlichen Kennsätzen durch das Lehrermodell erzeugt wurde.
Auf einem Computer implementiertes Verfahren nach Anspruch 1, wobei es sich beim dem Lehrermodell und dem Schülermodell um automatische Spracherkennungssysteme handelt.
Auf einem Computer implementiertes Verfahren nach Anspruch 1, wobei die akustische Funktion mit Kennsatz durch einen Erzeuger akustischer Funktionen erzeugt wird, wobei es sich bei dem Erzeuger akustischer Funktionen um ein faltendes neuronales Netzwerk handelt.
Auf einem Computer implementiertes Verfahren nach Anspruch 1, wobei es sich bei dem Lehrermodell um ein Modell der Visual Geometry Group handelt.
Auf einem Computer implementiertes Verfahren nach Anspruch 1, das ferner umfasst: Erzeugen eines unveränderlichen Kennsatzes für die akustische Funktion mit Kennsatz durch den einen oder die mehreren Prozessoren; und Trainieren des Schülermodells mit dem unveränderlichen Label durch den einen oder die mehreren Prozessoren.
Ein System zum Erzeugen von Trainingsdaten mit Kennsatz für ein Schülermodell, wobei das System aufweist: einen oder mehrere Computerprozessoren; ein oder mehrere durch einen Computer lesbare Speichermedien; und Computerprogrammanweisungen zum: Empfangen von ersten Trainingsdaten, die eine Mehrzahl von Paaren eines ersten unveränderlichen Kennsatzes und eines ersten veränderlichen Kennsatzes umfassen, wobei jeder erste veränderliche Kennsatz durch ein Lehrermodell erzeugt wird; Erkennen eines zweiten veränderlichen Kennsatzes aus einem Pool von veränderlichen Kennsätzen durch den einen oder die mehreren Prozessoren, der dem ersten veränderlichen Kennsatz ähnlich ist; Ausgeben des zweiten veränderlichen Kennsatzes in Form von zusätzlichen Trainingsdaten für jeden ersten veränderlichen Kennsatz; und Trainieren eines Schülermodells unter Verwendung des ersten veränderlichen Kennsatzes und des zweiten veränderlichen Kennsatzes.
System nach Anspruch 8, wobei das Erkennen eines zweiten veränderlichen Kennsatzes ferner ein Extrahieren einer Wortsequenz der gleichen Länge auf der Zustandsebene aus dem Pool von veränderlichen Kennsätzen durch einen oder mehrere Prozessoren aufweist.
System nach Anspruch 8, wobei das Erkennen eines zweiten veränderlichen Kennsatzes ferner ein Extrahieren einer Phonemsequenz der gleichen Länge aus dem Pool von veränderlichen Kennsätzen aufweist.
System nach Anspruch 8, wobei es sich beim dem Lehrermodell und dem Schülermodell um automatische Spracherkennungssysteme handelt.
System nach Anspruch 8, wobei das Erzeugen von Merkmalsvektoren für den Quellcode der Mehrzahl von Funktionen und der Mehrzahl von Klassen durch einen Code-Codierer durchgeführt wird.
System nach Anspruch 8, wobei es sich bei dem Lehrermodell um ein Modell der Visual Geometry Group handelt.
System nach Anspruch 8, wobei es sich bei dem Schülermodell um ein faltendes neuronales Netzwerk handelt.
Computerprogrammprodukt zum Code-Refaktorierungs-Umbenennen, das ein durch einen Computer lesbares Speichermedium aufweist, in dem Programmanweisungen verkörpert sind, wobei die Programmanweisungen durch einen Prozessor ausführbar sind, um die Prozessoren zu veranlassen, eine Funktion durchzuführen, wobei die Funktion umfasst: Empfangen von ersten Trainingsdaten, die eine Mehrzahl von Paaren eines ersten unveränderlichen Kennsatzes und eines ersten veränderlichen Kennsatzes umfassen, wobei jeder erste veränderliche Kennsatz durch ein Lehrermodell erzeugt wird; Erkennen eines zweiten veränderlichen Kennsatzes aus einem Pool von veränderlichen Kennsätzen durch den einen oder die mehreren Prozessoren, der dem ersten veränderlichen Kennsatz ähnlich ist; Ausgeben des zweiten veränderlichen Kennsatzes in Form von zusätzlichen Trainingsdaten für jeden ersten veränderlichen Kennsatz; und Trainieren eines Schülermodells unter Verwendung des ersten veränderlichen Kennsatzes und des zweiten veränderlichen Kennsatzes.
Computerprogrammprodukt nach Anspruch 15, wobei das Erkennen eines zweiten veränderlichen Kennsatzes ferner ein Extrahieren einer Wortsequenz der gleichen Länge auf der Zustandsebene aus dem Pool von veränderlichen Kennsätzen durch einen oder mehrere Prozessoren umfasst.
Computerprogrammprodukt nach Anspruch 15, wobei das Erkennen eines zweiten veränderlichen Kennsatzes ferner ein Extrahieren einer Phonemsequenz der gleichen Länge aus dem Pool von veränderlichen Kennsätzen umfasst.
Computerprogrammprodukt nach Anspruch 15, wobei es sich beim dem Lehrermodell und dem Schülermodell um automatische Spracherkennungssysteme handelt.
Computerprogrammprodukt nach Anspruch 15, wobei es sich bei dem Lehrermodell um ein Modell der Visual Geometry Group handelt.
Computerprogrammprodukt nach Anspruch 15, wobei es sich bei dem Schülermodell um ein faltendes neuronales Netzwerk handelt.