DE202022104426U1

DE202022104426U1 - System zur Vorbereitung und Untersuchung eines Englisch-Mizo-Korpus durch Auffinden von tonalen Wörtern

Info

Publication number: DE202022104426U1
Application number: DE202022104426.0U
Authority: DE
Original assignee: Individual
Current assignee: Individual
Priority date: 2022-08-03
Filing date: 2022-08-03
Publication date: 2022-08-09
Anticipated expiration: 2032-08-04

Abstract

System (100) zum Vorbereiten und Untersuchen eines Englisch (En)-Mizo (Mz)-Korpus durch Auffinden tonaler Wörter, wobei das Verfahren umfasst:
eine sprachunabhängige Schlüsselwort-Extraktionseinheit (102) zur Extraktion von Schlüsselwörtern mit tonalen Wörtern aus einsprachigen Daten von Mz;
eine rückwärts gerichtete neuronale Maschinenübersetzungseinheit (NMT) (104), um synthetische En-Sätze aus den extrahierten Schlüsselwörtern mit tonalen Wörtern zu erzeugen, wobei Leerzeilen und unterübersetzte Sätze aus den synthetischen En-Sätzen und den tonalen Mz-Sätzen entfernt werden, um synthetische parallele Sätze vorzubereiten;
eine synthetische parallele Korpuseinheit (106), die mit einer ursprünglichen parallelen Korpuseinheit (108) verbunden ist, um die Daten aus den erzeugten synthetischen Sätzen zu ergänzen;
eine künstliche Token-Einheit (110), die so konfiguriert ist, dass sie Zielsätze für Mz und En am Anfang von Quellensätzen erkennt;
eine Vorwärts-NMT-Einheit (112), um die gezielten Mz- und En-Sätze für die Vorwärts-En-zu-Mz-Übersetzung zu trainieren, wobei die trainierten Mz- und En-Sätze konfiguriert sind, um vorhergesagte Sätze zu erhalten, wobei die gezielten Mz- und En-Sätze unidirektional unter Verwendung eines unidirektionalen Parallelkorpus und bidirektional unter Verwendung eines bidirektionalen Parallelkorpus trainiert werden; und
eine auf Beispielen basierende Wörterbucheinheit (114), um die vorhergesagten Sätze nachzubearbeiten, wobei die auf Beispielen basierende Wörterbucheinheit (114) versucht, den betreffenden Tonmarker zu korrigieren, wenn die Forward-NMT-Einheit (112) nicht in der Lage ist, einen geeigneten Tonmarker in dem Übersetzungsprozess zu erfassen.

Description

BEREICH DER ERFINDUNG
Die vorliegende Erfindung bezieht sich allgemein auf ein System zur Vorbereitung und Untersuchung eines Englisch (En)-Mizo (Mz)-Korpus durch das Auffinden von tonalen Wörtern.
HINTERGRUND DER ERFINDUNG
Im Bereich der Kommunikation gibt es zahlreiche Möglichkeiten für Sprecher von Nicht-Erstsprachen, zu kommunizieren. Sie können mit menschlichen Übersetzern zusammenarbeiten, die sowohl die Muttersprache ihres Arbeitgebers (die Ausgangssprache) als auch die Sprache, in der sie sich unterhalten müssen (die Zielsprache), fließend beherrschen. Nachdem der Redner eine Botschaft in der Ausgangssprache vorgetragen hat, dolmetscht ein Dolmetscher dieselbe Botschaft in die Zielsprache. Diese Methode hat eine Reihe von Nachteilen: Dolmetscher können unbezahlbar oder aus anderen Gründen nicht verfügbar sein, oder sie könnten absichtlich falsch übersetzen, wenn ihre Ziele mit denen des Sprechers in Konflikt stehen. Die Verwendung eines Sprachführers ist eine weitere Möglichkeit, die von vielen Reisenden bevorzugt wird. Dieser bietet eine phonetische Übersetzung des Satzes in der Zielsprache und ermöglicht es den Sprechern, gebräuchliche Wörter und Ausdrücke in ihrer eigenen Sprache nachzuschlagen. Der Nachteil dieser Option ist, dass die Suche nach einem Wort oder einer Phrase sehr lange dauert, was die Kommunikation recht langsam macht.
In einer Lösung umfasst ein Verfahren zur Bereitstellung einer Übersetzung von Informationen in ein übersetztes Format folgende Schritte: Empfangen von Informationen in einem ersten Format; Identifizieren des ersten Formats, wobei das erste Format eines von mehreren verschiedenen Formaten ist, die zum Empfangen konfiguriert sind; Verarbeiten der Informationen in Übereinstimmung mit dem ersten Format und Extrahieren eines oder mehrerer Sprachelemente aus den Informationen; Identifizieren, durch mindestens einen Prozessor, der konfiguriert ist, um die empfangenen Informationen zu übersetzen, eines oder mehrerer Gebärdensprachidentifikatoren, die dem einen oder den mehreren extrahierten Sprachelementen entsprechen, wobei mindestens einer des einen oder der mehreren Gebärdensprachidentifikatoren direkt einem Synonym mindestens eines des einen oder der mehreren Sprachelemente entspricht; und Bewirken, dass ein oder mehrere Gebärdensprachclips, die mindestens einem des einen oder der mehreren Gebärdensprachidentifikatoren entsprechen, auf einer Anzeige einer Anzeigevorrichtung wiedergegeben werden.
In einer anderen Lösung, ein Verfahren und ein System für einen übersetzungsbasierten Kommunikationsdienstbetrieb. Das Verfahren umfasst: Einrichten eines Kommunikationsdienstkanals zwischen einem senderseitigen Endgerät und einem empfängerseitigen Endgerät; Übersetzen eines Textes in einer ersten Sprache und/oder eines Sprachsignals in der ersten Sprache, das von dem senderseitigen Endgerät gesammelt wurde, in eine zweite Sprache, um einen Übersetzungstext in einer zweiten Sprache und/oder eine Übersetzungsstimme in der zweiten Sprache zu erzeugen; und Empfangen und Ausgeben des erzeugten Übersetzungstextes in der zweiten Sprache und/oder des Übersetzungssprachsignals in der zweiten Sprache durch das empfängerseitige Endgerät.
Ferner ein mehrsprachiges Gerät, das in der Lage ist, verbale Eingaben in mehreren Sprachen zu empfangen, und ferner in der Lage ist, Gesprächsantworten in mehreren Sprachen zu geben. In verschiedenen Implementierungen enthält die mehrsprachige Vorrichtung eine automatische Spracherkennungsmaschine, die in der Lage ist, verbale Eingaben in einer ersten natürlichen Sprache zu empfangen und eine Textdarstellung der Eingabe und einen Konfidenzwert für die Erkennung zu liefern. Das mehrsprachige Gerät kann auch eine maschinelle Übersetzungsmaschine enthalten, die in der Lage ist, Texteingaben aus der ersten natürlichen Sprache in eine zweite natürliche Sprache zu übersetzen. Die maschinelle Übersetzungsmaschine kann einen Konfidenzwert für die Übersetzung ausgeben. Das mehrsprachige Gerät kann ferner eine natürliche Sprachverarbeitung enthalten, die in der Lage ist, von der zweiten natürlichen Sprache in eine computergestützte Sprache zu übersetzen. Eingaben in der computergestützten Sprache können verarbeitet werden, und das mehrsprachige Gerät kann auf der Grundlage des Ergebnisses der Verarbeitung eine Aktion ausführen.
Die bestehenden Systeme, Methoden oder Geräte bieten keine Lösung für das Problem der tonalen Wörter in der Mizo-Sprache. Daher besteht ein Bedarf an einer besseren Lösung für den Umgang mit tonalen Wörtern in der Mizo-Sprache.
ZUSAMMENFASSUNG DER ERFINDUNG
Die vorliegende Erfindung offenbart ein System zur Vorbereitung und Untersuchung eines Englisch (En)-Mizo (Mz) Korpus durch das Auffinden von tonalen Wörtern. In der vorliegenden Erfindung wurde ein System vorgeschlagen, um eine Sprachressource, d.h. ein Englisch-zu-Mizo-Korpus, vorzubereiten und eine En-zu-Mz-Übersetzung durch das Auftreten tonaler Wörter zu untersuchen, indem verschiedene NMT-Modelle auf dem entwickelten Datensatz erforscht werden.
In einer Ausführungsform wird ein System zum Vorbereiten und Untersuchen eines Englisch (En)-Mizo (Mz)-Korpus durch Auffinden von tonalen Wörtern offenbart, wobei das System umfasst: eine sprachunabhängige Schlüsselwort-Extraktionseinheit zum Extrahieren von Schlüsselwörtern mit tonalen Wörtern aus einsprachigen Daten von Mz; eine rückwärts gerichtete neuronale Maschinenübersetzungseinheit (NMT) zum Erzeugen synthetischer En-Sätze aus den extrahierten Schlüsselwörtern mit tonalen Wörtern, wobei Leerzeilen und unterübersetzte Sätze aus den synthetischen En-Sätzen und den tonalen Mz-Sätzen entfernt werden, um synthetische parallele Sätze vorzubereiten; eine synthetische parallele Korpuseinheit, die mit einer ursprünglichen parallelen Korpuseinheit verbunden ist, um Daten aus den erzeugten synthetischen En-Sätzen zu ergänzen; eine künstliche Token-Einheit, die so konfiguriert ist, dass sie Zielsätze für Mz und En am Anfang von Quellensätzen erkennt; eine Vorwärts-NMT-Einheit, um die gezielten Mz- und En-Sätze für die Vorwärts-En-zu-Mz-Übersetzung zu trainieren, wobei die trainierten Mz- und En-Sätze konfiguriert sind, um vorhergesagte Sätze zu erhalten, wobei die gezielten Mz- und En-Sätze unidirektional unter Verwendung eines unidirektionalen Parallelkorpus und bidirektional unter Verwendung eines bidirektionalen Parallelkorpus trainiert werden; und eine beispielbasierte Wörterbucheinheit, um die vorhergesagten Sätze nachzubearbeiten, wobei, wenn die vorwärtsgerichtete NMT-Einheit nicht in der Lage ist, eine geeignete Tonmarkierung im Übersetzungsprozess zu erfassen, die beispielbasierte Wörterbucheinheit dann versucht, die betreffende Tonmarkierung zu korrigieren.
Ziel der vorliegenden Erfindung ist es, ein Englisch (En)-Mizo (Mz)-Korpus zu erstellen und zu untersuchen, indem tonale Wörter gefunden werden.
Ein weiteres Ziel der vorliegenden Erfindung ist es, tonale Wörter, die in der Übersetzungssprache Englisch-Mizo existieren, zu behandeln.
Ein weiteres Ziel der vorliegenden Offenbarung ist die Verbesserung des vorhergesagten Satzes während des Nachbearbeitungsschritts.
Ein weiteres Ziel der vorliegenden Offenbarung ist die Verbesserung der Übersetzungsgenauigkeit bei der Begegnung mit tonalen Wörtern.
Um die Vorteile und Merkmale der vorliegenden Erfindung weiter zu verdeutlichen, wird eine genauere Beschreibung der Erfindung durch Bezugnahme auf bestimmte Ausführungsformen davon, die in den beigefügten Figuren dargestellt sind, gegeben. Es wird davon ausgegangen, dass diese Figuren nur typische Ausführungsformen der Erfindung darstellen und daher nicht als einschränkend für ihren Umfang anzusehen sind. Die Erfindung wird mit zusätzlicher Spezifität und Detail mit den beigefügten Figuren beschrieben und erläutert werden.
Figurenliste
Diese und andere Merkmale, Aspekte und Vorteile der vorliegenden Erfindung werden besser verstanden, wenn die folgende detaillierte Beschreibung unter Bezugnahme auf die beigefügten Figuren gelesen wird, in denen gleiche Zeichen gleiche Teile in den Figuren darstellen, wobei:

1 ein Blockdiagramm eines Systems zur Vorbereitung und Untersuchung eines Englisch (En)-Mizo (Mz)-Korpus durch Auffinden tonaler Wörter gemäß einer Ausführungsform der vorliegenden Offenbarung zeigt; und
2 das English-to-Mizo NMT System gemäß einer Ausführungsform der vorliegenden Offenbarung zeigt.

Der Fachmann wird verstehen, dass die Elemente in den Figuren der Einfachheit halber dargestellt sind und nicht unbedingt maßstabsgetreu gezeichnet wurden. Die Flussdiagramme veranschaulichen beispielsweise das Verfahren in Form der wichtigsten Schritte, die zum besseren Verständnis der Aspekte der vorliegenden Erfindung beitragen. Darüber hinaus kann es sein, dass eine oder mehrere Komponenten der Vorrichtung in den Figuren durch herkömmliche Symbole dargestellt sind, und dass die Figuren nur die spezifischen Details zeigen, die für das Verständnis der Ausführungsformen der vorliegenden Erfindung von Bedeutung sind, um die Figuren nicht mit Details zu überfrachten, die für Fachleute, die mit der vorliegenden Beschreibung vertraut sind, ohne weiteres erkennbar sind.
DETAILLIERTE BESCHREIBUNG
Um das Verständnis der Erfindung zu fördern, wird nun auf die in den Figuren dargestellte Ausführungsform Bezug genommen und diese mit bestimmten Worten beschrieben. Es versteht sich jedoch von selbst, dass damit keine Einschränkung des Umfangs der Erfindung beabsichtigt ist, wobei solche Änderungen und weitere Modifikationen des dargestellten Systems und solche weiteren Anwendungen der darin dargestellten Grundsätze der Erfindung in Betracht gezogen werden, wie sie einem Fachmann auf dem Gebiet der Erfindung normalerweise einfallen würden.
Es versteht sich für den Fachmann von selbst, dass die vorstehende allgemeine Beschreibung und die folgende detaillierte Beschreibung beispielhaft und erläuternd für die Erfindung sind und diese nicht einschränken sollen.
Wenn in dieser Beschreibung von „einem Aspekt“, „einem anderen Aspekt“ oder ähnlichem die Rede ist, bedeutet dies, dass ein bestimmtes Merkmal, eine bestimmte Struktur oder eine bestimmte Eigenschaft, die im Zusammenhang mit der Ausführungsform beschrieben wird, in mindestens einer Ausführungsform der vorliegenden Erfindung enthalten ist. Daher können sich die Ausdrücke „in einer Ausführungsform“, „in einer anderen Ausführungsform“ und ähnliche Ausdrücke in dieser Beschreibung alle auf dieselbe Ausführungsform beziehen, müssen es aber nicht.
Die Ausdrücke „umfasst“, „enthaltend“ oder andere Variationen davon sollen eine nicht ausschließliche Einbeziehung abdecken, so dass ein Verfahren oder eine Methode, die eine Liste von Schritten umfasst, nicht nur diese Schritte einschließt, sondern auch andere Schritte enthalten kann, die nicht ausdrücklich aufgeführt sind oder zu einem solchen Verfahren oder einer solchen Methode gehören. Ebenso schließen eine oder mehrere Vorrichtungen oder Teilsysteme oder Elemente oder Strukturen oder Komponenten, die mit „umfasst...a“ eingeleitet werden, nicht ohne weitere Einschränkungen die Existenz anderer Vorrichtungen oder anderer Teilsysteme oder anderer Elemente oder anderer Strukturen oder anderer Komponenten oder zusätzlicher Vorrichtungen oder zusätzlicher Teilsysteme oder zusätzlicher Elemente oder zusätzlicher Strukturen oder zusätzlicher Komponenten aus.
Sofern nicht anders definiert, haben alle hierin verwendeten technischen und wissenschaftlichen Begriffe die gleiche Bedeutung, wie sie von einem Fachmann auf dem Gebiet, zu dem diese Erfindung gehört, gemeinhin verstanden wird. Das System und die Beispiele, die hier angegeben werden, sind nur illustrativ und nicht als Einschränkung gedacht.
Ausführungsformen der vorliegenden Erfindung werden im Folgenden unter Bezugnahme auf die beigefügten Figuren im Detail beschrieben.
1 zeigt ein Blockdiagramm eines Systems (100) zur Vorbereitung und Untersuchung eines Englisch (En)-Mizo (Mz)-Korpus durch Auffinden tonaler Wörter. Das System (100) gemäß der vorliegenden Erfindung umfasst: eine sprachunabhängige Schlüsselwort-Extraktionseinheit (102) zum Extrahieren von Schlüsselwörtern mit tonalen Wörtern aus einsprachigen Mz-Daten; eine rückwärts gerichtete neuronale Maschinenübersetzungseinheit (NMT) (104) zum Erzeugen synthetischer En-Sätze aus den extrahierten Schlüsselwörtern mit tonalen Wörtern, wobei Leerzeilen und unterübersetzte Sätze aus den synthetischen En-Sätzen und den tonalen Mz-Sätzen entfernt werden, um synthetische parallele Sätze vorzubereiten; eine synthetische parallele Korpuseinheit (106), die mit einer ursprünglichen parallelen Korpuseinheit (108) verbunden ist, um Daten aus den erzeugten synthetischen En-Sätzen zu ergänzen; eine künstliche Token-Einheit (110), die so konfiguriert ist, dass sie Zielsätze für Mz und En am Anfang von Quellensätzen erkennt; eine Vorwärts-NMT-Einheit (112), um die gezielten Mz- und En-Sätze für die Vorwärts-En-zu-Mz-Übersetzung zu trainieren, wobei die trainierten Mz- und En-Sätze konfiguriert sind, um vorhergesagte Sätze zu erhalten, wobei die gezielten Mz- und En-Sätze unidirektional unter Verwendung eines unidirektionalen Parallelkorpus und bidirektional unter Verwendung eines bidirektionalen Parallelkorpus trainiert werden; und eine beispielbasierte Wörterbucheinheit (114), um die vorhergesagten Sätze nachzubearbeiten, wobei, wenn die Vorwärts-NMT-Einheit (112) nicht in der Lage ist, einen geeigneten Tonmarker im Übersetzungsprozess zu erfassen, die beispielbasierte Wörterbucheinheit (114) versucht, den betreffenden Tonmarker zu korrigieren.
In einer Ausführungsform wird die vorwärtsgerichtete NMT-Einheit (112) verwendet, um die vortrainierte Einheit von En zu nutzen.
In einer Ausführungsform verarbeitet die Vorwärts-NMT-Einheit (112) eine Eingangssequenz, indem sie die Eingangssequenz in Darstellungen transformiert.
In einer Ausführungsform verarbeitet eine NMT-Kodierschicht die Darstellungen durch eine Aufmerksamkeitseinheit für bidirektionale Kodierdarstellungen aus Transformatoren (BERT).
In einer Ausführungsform werden neben der NMT-Geberschicht auch die vorhergehenden Darstellungen der NMT-Geberschicht durch eine Selbstbeobachtung weiterverarbeitet.
In einer Ausführungsform erzeugt die Vorwärts-NMT-Einheit (112) eine verschmolzene Darstellung durch die NMT-Encoder-Schichten des Vorwärtsnetzwerks, indem sie die beiden Ausgaben der BERT-Encoder-Aufmerksamkeitseinheit und der Selbstaufmerksamkeit zusammenführt.
In einer Ausführungsform wird eine BERT-Decoder-Aufmerksamkeitseinheit in eine NMT-Decoder-Schicht eingeführt, um die Zielsätze vorherzusagen.
In einer Ausführungsform wird ein Adam-Optimierer mit einer Lernrate von 0.001, Drop-Outs von 0.3 im Falle von RNN und 0.1 im Falle von Transformer im Trainingsprozess der angestrebten Mz- und En-Sätze verwendet.
In einer Ausführungsform erzeugt die beispielbasierte Wörterbucheinheit (114) die tonalen Wörter mit entsprechenden tonalen Markierungen.
In einer Ausführungsform stellen die Tonmarkierungen in tonalen Wörtern die kontextuelle Bedeutung der Sätze dar
Das beispielbasierte Wörterbuch wird für die Nachbearbeitung der vorhergesagten Sätze verwendet. Das Schlüsselwort K_z wird in den vorhergesagten Sätzen gesucht, und wenn es gefunden wird, wird das Schlüsselwort K_z durch das Schlüsselwort von K_y ersetzt. Der Nachbearbeitungsschritt wird genutzt, um die betreffende Tonmarkierung mithilfe eines beispielbasierten Wörterbuchs zu korrigieren, wenn das trainierte Modell nicht in der Lage ist, die entsprechende Tonmarkierung im Übersetzungsprozess zu erfassen. Die beispielbasierte Wörterbucheinheit wird verwendet, da das tonale Wort kontextabhängig vom Vor- oder Nachwort des betreffenden tonalen Wortes ist.
Der vorgeschlagene Ansatz basiert auf der BERT-fusionierten NMT (Transformatormodell), einer bidirektionalen Datenerweiterung mit einem synthetischen Parallelkorpus und einem beispielbasierten Nachbearbeitungsschritt.
2 zeigt das English-to-Mizo NMT System. Die vorliegende Erfindung umfasst 33.021 synthetische parallele Sätze, wobei der synthetische parallele Korpus mit dem ursprünglichen parallelen Korpus ergänzt wird, um Daten aus den generierten synthetischen En-Sätzen zu ergänzen. Dann wird ein künstliches Token am Anfang der Quellensätze hinzugefügt, um die Zielsätze zu erkennen, und mit BERT-fusionierter NMT für die Vorwärtsübersetzung von En nach Mz trainiert. Die BERT-fusionierte NMT wird verwendet, um das vorab trainierte Modell des Englischen zu nutzen, wobei die Mz- und En-Zielsätze unidirektional unter Verwendung eines unidirektionalen Parallelkorpus und bidirektional unter Verwendung eines bidirektionalen Parallelkorpus trainiert werden.
In der vorliegenden Erfindung wird ein System vorgeschlagen, um Englisch-Mizo-Korpus vorzubereiten und En-to-Mz-Übersetzung zu untersuchen, indem verschiedene NMT-Modelle auf dem entwickelten Datensatz erforscht werden, wenn tonale Wörter auftreten. Die BERT-fusionierte NMT mit bidirektionaler Datenerweiterung mit synthetischem Parallelkorpus und einem beispielbasierten Nachbearbeitungsschritt erreicht eine bessere Übersetzungsgenauigkeit als ein herkömmlicher Transformator und eine BERT-fusionierte NMT
In einer Ausführungsform werden Experimente sowohl für En-zu-Mz- als auch für Mzzu-En-Übersetzungen unter Verwendung eines RNN-Transformatormodells mit einem Teilwort-Segmentierungsprozess, d.h. Byte-Paar-Kodierung (BPE), durchgeführt. Die quantitativen Ergebnisse werden anhand der automatischen Bewertungsmetrik BLEU (bilingual evaluation understudy) und der menschlichen Bewertung (HE) an 100 zufällig ausgewählten Beispielsätzen durch einen Linguistikexperten bewertet. Eine Standardkonfiguration des Open NMT-py Toolkits wird verwendet, um das RNN und das Transformatormodell zu implementieren. Der Adam-Optimierer mit einer Lernrate von 0.001, Drop-outs von 0.3 (im Falle des RNN) und 0.1 (im Falle des Transformators) werden im Trainingsprozess verwendet. Die Standardkonfigurationen von Fair seq toolkit werden auch für die Implementierung von BERT-fusionierter NMT verwendet. Das vorliegende System stößt auf eine höhere Häufigkeit tonaler Wörter als herkömmliche Transformer- und BERT-fusionierte Transformer-Modelle, die weit von der Häufigkeit tonaler Wörter in Referenztestsätzen entfernt ist. Darüber hinaus generiert der Nachbearbeitungsansatz tonale Wörter mit entsprechenden tonalen Markern. Durch die Erfassung von Tonwertmarkern in tonalen Wörtern stellt das vorliegende System die kontextuelle Bedeutung der Sätze in signifikanter Weise dar.
Die Figuren und die vorangehende Beschreibung geben Beispiele für Ausführungsformen. Der Fachmann wird verstehen, dass eines oder mehrere der beschriebenen Elemente durchaus zu einem einzigen Funktionselement kombiniert werden können. Alternativ dazu können bestimmte Elemente in mehrere Funktionselemente aufgeteilt werden. Elemente aus einer Ausführungsform können einer anderen Ausführungsform hinzugefügt werden. So kann beispielsweise die Reihenfolge der hier beschriebenen Prozesse geändert werden und ist nicht auf die hier beschriebene Weise beschränkt. Darüber hinaus müssen die Aktionen eines Flussdiagramms nicht in der gezeigten Reihenfolge ausgeführt werden; auch müssen nicht unbedingt alle Aktionen durchgeführt werden. Auch können diejenigen Handlungen, die nicht von anderen Handlungen abhängig sind, parallel zu den anderen Handlungen ausgeführt werden. Der Umfang der Ausführungsformen ist durch diese spezifischen Beispiele keineswegs begrenzt. Zahlreiche Variationen sind möglich, unabhängig davon, ob sie in der Beschreibung explizit aufgeführt sind oder nicht, wie z. B. Unterschiede in der Struktur, den Abmessungen und der Verwendung von Materialien. Der Umfang der Ausführungsformen ist mindestens so groß wie in den folgenden Ansprüchen angegeben.
Vorteile, andere Vorzüge und Problemlösungen wurden oben im Hinblick auf bestimmte Ausführungsformen beschrieben. Die Vorteile, Vorzüge, Problemlösungen und Komponenten, die dazu führen können, dass ein Vorteil, ein Nutzen oder eine Lösung auftritt oder ausgeprägter wird, sind jedoch nicht als kritisches, erforderliches oder wesentliches Merkmal oder Komponente eines oder aller Ansprüche zu verstehen.
Bezugszeichenliste

100: Ein System zur Vorbereitung und Untersuchung eines Englisch (En)-Mizo (Mz) Korpus durch das Auffinden von tonalen Wörtern.
102: Sprachunabhängige Schlüsselwort-Extraktionseinheit
104: Neuronale maschinelle Rückwärtsübersetzung (NMT)
106: Einheit Synthetischer Parallelkorpus
108: Original-Parallelkorpus-Einheit
110: Künstliche Token-Einheit
112: Vorwärts-NMT-Einheit
114: Beispielbasierte Wörterbucheinheit
202: Mz einsprachiger Satz
204: Extrahiert
206: Mz Tonaler Satz
208: Rückwärts-NMT-Modell (Transformer)
210: En Synthetischer Satz
212: Synthetischer Parallelkorpus
214: Original-Parallelkorpus
216: Datenerweiterung
218: Ausbildung
220: Vorwärts-NMT-Modell (BERT-Fused)Transformator
222: Nachbearbeitung
224: Vorausgesagter Satz (Mz)
226: Ausgangssatz (En)

Claims

System (100) zum Vorbereiten und Untersuchen eines Englisch (En)-Mizo (Mz)-Korpus durch Auffinden tonaler Wörter, wobei das Verfahren umfasst: eine sprachunabhängige Schlüsselwort-Extraktionseinheit (102) zur Extraktion von Schlüsselwörtern mit tonalen Wörtern aus einsprachigen Daten von Mz; eine rückwärts gerichtete neuronale Maschinenübersetzungseinheit (NMT) (104), um synthetische En-Sätze aus den extrahierten Schlüsselwörtern mit tonalen Wörtern zu erzeugen, wobei Leerzeilen und unterübersetzte Sätze aus den synthetischen En-Sätzen und den tonalen Mz-Sätzen entfernt werden, um synthetische parallele Sätze vorzubereiten; eine synthetische parallele Korpuseinheit (106), die mit einer ursprünglichen parallelen Korpuseinheit (108) verbunden ist, um die Daten aus den erzeugten synthetischen Sätzen zu ergänzen; eine künstliche Token-Einheit (110), die so konfiguriert ist, dass sie Zielsätze für Mz und En am Anfang von Quellensätzen erkennt; eine Vorwärts-NMT-Einheit (112), um die gezielten Mz- und En-Sätze für die Vorwärts-En-zu-Mz-Übersetzung zu trainieren, wobei die trainierten Mz- und En-Sätze konfiguriert sind, um vorhergesagte Sätze zu erhalten, wobei die gezielten Mz- und En-Sätze unidirektional unter Verwendung eines unidirektionalen Parallelkorpus und bidirektional unter Verwendung eines bidirektionalen Parallelkorpus trainiert werden; und eine auf Beispielen basierende Wörterbucheinheit (114), um die vorhergesagten Sätze nachzubearbeiten, wobei die auf Beispielen basierende Wörterbucheinheit (114) versucht, den betreffenden Tonmarker zu korrigieren, wenn die Forward-NMT-Einheit (112) nicht in der Lage ist, einen geeigneten Tonmarker in dem Übersetzungsprozess zu erfassen.
System nach Anspruch 1, wobei die Vorwärts-NMT-Einheit (112) dazu verwendet wird, die vortrainierte Einheit von En zu nutzen.
System nach Anspruch 1, wobei die Vorwärts-NMT-Einheit (112) eine Eingangssequenz verarbeitet, indem sie die Eingangssequenz in Darstellungen transformiert.
System nach Anspruch 1, wobei eine NMT-Kodierschicht die Darstellungen durch eine BERT (Bidirectional Encoder Representations from Transformers)-Kodieraufmerksamkeitseinheit verarbeitet.
System nach Anspruch 1, wobei neben der NMT-Codierschicht eine Selbstbeobachtung weiterhin die vorherigen NMT-Codierschichtdarstellungen verarbeitet.
System nach Anspruch 1, wobei die vorwärtsgerichtete NMT-Einheit (112) eine verschmolzene Darstellung durch das vorwärtsgerichtete Netzwerk der NMT-Kodierschichten erzeugt, indem sie die beiden Ausgaben der BERT-Kodier-Aufmerksamkeitseinheit und der Selbstaufmerksamkeit zusammenführt.
System nach Anspruch 1, bei dem eine BERT-Decoder-Aufmerksamkeitseinheit in eine NMT-Decoderschicht eingeführt wird, um die Zielsätze vorherzusagen.
System nach Anspruch 1, wobei ein Adam-Optimierer mit einer Lernrate von 0.001, Drop-Outs von 0.3 im Fall von RNN und 0.1 im Fall von Transformer im Trainingsprozess der gezielten Mz- und En-Sätze verwendet wird.
System nach Anspruch 1, wobei die beispielbasierte Wörterbucheinheit (114) die tonalen Wörter mit geeigneten tonalen Markern erzeugt.
System nach Anspruch 1, wobei die Tonmarkierungen in tonalen Wörtern die kontextuelle Bedeutung der Sätze darstellen.