DE202022104426U1 - System zur Vorbereitung und Untersuchung eines Englisch-Mizo-Korpus durch Auffinden von tonalen Wörtern - Google Patents
System zur Vorbereitung und Untersuchung eines Englisch-Mizo-Korpus durch Auffinden von tonalen Wörtern Download PDFInfo
- Publication number
- DE202022104426U1 DE202022104426U1 DE202022104426.0U DE202022104426U DE202022104426U1 DE 202022104426 U1 DE202022104426 U1 DE 202022104426U1 DE 202022104426 U DE202022104426 U DE 202022104426U DE 202022104426 U1 DE202022104426 U1 DE 202022104426U1
- Authority
- DE
- Germany
- Prior art keywords
- unit
- sentences
- tonal
- nmt
- synthetic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000013519 translation Methods 0.000 claims abstract description 31
- 230000008569 process Effects 0.000 claims abstract description 16
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 7
- 238000000605 extraction Methods 0.000 claims abstract description 5
- 230000001537 neural effect Effects 0.000 claims abstract description 5
- 230000001502 supplementing effect Effects 0.000 claims abstract description 4
- 239000003550 marker Substances 0.000 claims abstract description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 2
- 230000014616 translation Effects 0.000 description 25
- 230000008901 benefit Effects 0.000 description 8
- 238000012805 post-processing Methods 0.000 description 7
- 230000009471 action Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/47—Machine-assisted translation, e.g. using translation memory
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
System (100) zum Vorbereiten und Untersuchen eines Englisch (En)-Mizo (Mz)-Korpus durch Auffinden tonaler Wörter, wobei das Verfahren umfasst:
eine sprachunabhängige Schlüsselwort-Extraktionseinheit (102) zur Extraktion von Schlüsselwörtern mit tonalen Wörtern aus einsprachigen Daten von Mz;
eine rückwärts gerichtete neuronale Maschinenübersetzungseinheit (NMT) (104), um synthetische En-Sätze aus den extrahierten Schlüsselwörtern mit tonalen Wörtern zu erzeugen, wobei Leerzeilen und unterübersetzte Sätze aus den synthetischen En-Sätzen und den tonalen Mz-Sätzen entfernt werden, um synthetische parallele Sätze vorzubereiten;
eine synthetische parallele Korpuseinheit (106), die mit einer ursprünglichen parallelen Korpuseinheit (108) verbunden ist, um die Daten aus den erzeugten synthetischen Sätzen zu ergänzen;
eine künstliche Token-Einheit (110), die so konfiguriert ist, dass sie Zielsätze für Mz und En am Anfang von Quellensätzen erkennt;
eine Vorwärts-NMT-Einheit (112), um die gezielten Mz- und En-Sätze für die Vorwärts-En-zu-Mz-Übersetzung zu trainieren, wobei die trainierten Mz- und En-Sätze konfiguriert sind, um vorhergesagte Sätze zu erhalten, wobei die gezielten Mz- und En-Sätze unidirektional unter Verwendung eines unidirektionalen Parallelkorpus und bidirektional unter Verwendung eines bidirektionalen Parallelkorpus trainiert werden; und
eine auf Beispielen basierende Wörterbucheinheit (114), um die vorhergesagten Sätze nachzubearbeiten, wobei die auf Beispielen basierende Wörterbucheinheit (114) versucht, den betreffenden Tonmarker zu korrigieren, wenn die Forward-NMT-Einheit (112) nicht in der Lage ist, einen geeigneten Tonmarker in dem Übersetzungsprozess zu erfassen.
eine sprachunabhängige Schlüsselwort-Extraktionseinheit (102) zur Extraktion von Schlüsselwörtern mit tonalen Wörtern aus einsprachigen Daten von Mz;
eine rückwärts gerichtete neuronale Maschinenübersetzungseinheit (NMT) (104), um synthetische En-Sätze aus den extrahierten Schlüsselwörtern mit tonalen Wörtern zu erzeugen, wobei Leerzeilen und unterübersetzte Sätze aus den synthetischen En-Sätzen und den tonalen Mz-Sätzen entfernt werden, um synthetische parallele Sätze vorzubereiten;
eine synthetische parallele Korpuseinheit (106), die mit einer ursprünglichen parallelen Korpuseinheit (108) verbunden ist, um die Daten aus den erzeugten synthetischen Sätzen zu ergänzen;
eine künstliche Token-Einheit (110), die so konfiguriert ist, dass sie Zielsätze für Mz und En am Anfang von Quellensätzen erkennt;
eine Vorwärts-NMT-Einheit (112), um die gezielten Mz- und En-Sätze für die Vorwärts-En-zu-Mz-Übersetzung zu trainieren, wobei die trainierten Mz- und En-Sätze konfiguriert sind, um vorhergesagte Sätze zu erhalten, wobei die gezielten Mz- und En-Sätze unidirektional unter Verwendung eines unidirektionalen Parallelkorpus und bidirektional unter Verwendung eines bidirektionalen Parallelkorpus trainiert werden; und
eine auf Beispielen basierende Wörterbucheinheit (114), um die vorhergesagten Sätze nachzubearbeiten, wobei die auf Beispielen basierende Wörterbucheinheit (114) versucht, den betreffenden Tonmarker zu korrigieren, wenn die Forward-NMT-Einheit (112) nicht in der Lage ist, einen geeigneten Tonmarker in dem Übersetzungsprozess zu erfassen.
Description
- BEREICH DER ERFINDUNG
- Die vorliegende Erfindung bezieht sich allgemein auf ein System zur Vorbereitung und Untersuchung eines Englisch (En)-Mizo (Mz)-Korpus durch das Auffinden von tonalen Wörtern.
- HINTERGRUND DER ERFINDUNG
- Im Bereich der Kommunikation gibt es zahlreiche Möglichkeiten für Sprecher von Nicht-Erstsprachen, zu kommunizieren. Sie können mit menschlichen Übersetzern zusammenarbeiten, die sowohl die Muttersprache ihres Arbeitgebers (die Ausgangssprache) als auch die Sprache, in der sie sich unterhalten müssen (die Zielsprache), fließend beherrschen. Nachdem der Redner eine Botschaft in der Ausgangssprache vorgetragen hat, dolmetscht ein Dolmetscher dieselbe Botschaft in die Zielsprache. Diese Methode hat eine Reihe von Nachteilen: Dolmetscher können unbezahlbar oder aus anderen Gründen nicht verfügbar sein, oder sie könnten absichtlich falsch übersetzen, wenn ihre Ziele mit denen des Sprechers in Konflikt stehen. Die Verwendung eines Sprachführers ist eine weitere Möglichkeit, die von vielen Reisenden bevorzugt wird. Dieser bietet eine phonetische Übersetzung des Satzes in der Zielsprache und ermöglicht es den Sprechern, gebräuchliche Wörter und Ausdrücke in ihrer eigenen Sprache nachzuschlagen. Der Nachteil dieser Option ist, dass die Suche nach einem Wort oder einer Phrase sehr lange dauert, was die Kommunikation recht langsam macht.
- In einer Lösung umfasst ein Verfahren zur Bereitstellung einer Übersetzung von Informationen in ein übersetztes Format folgende Schritte: Empfangen von Informationen in einem ersten Format; Identifizieren des ersten Formats, wobei das erste Format eines von mehreren verschiedenen Formaten ist, die zum Empfangen konfiguriert sind; Verarbeiten der Informationen in Übereinstimmung mit dem ersten Format und Extrahieren eines oder mehrerer Sprachelemente aus den Informationen; Identifizieren, durch mindestens einen Prozessor, der konfiguriert ist, um die empfangenen Informationen zu übersetzen, eines oder mehrerer Gebärdensprachidentifikatoren, die dem einen oder den mehreren extrahierten Sprachelementen entsprechen, wobei mindestens einer des einen oder der mehreren Gebärdensprachidentifikatoren direkt einem Synonym mindestens eines des einen oder der mehreren Sprachelemente entspricht; und Bewirken, dass ein oder mehrere Gebärdensprachclips, die mindestens einem des einen oder der mehreren Gebärdensprachidentifikatoren entsprechen, auf einer Anzeige einer Anzeigevorrichtung wiedergegeben werden.
- In einer anderen Lösung, ein Verfahren und ein System für einen übersetzungsbasierten Kommunikationsdienstbetrieb. Das Verfahren umfasst: Einrichten eines Kommunikationsdienstkanals zwischen einem senderseitigen Endgerät und einem empfängerseitigen Endgerät; Übersetzen eines Textes in einer ersten Sprache und/oder eines Sprachsignals in der ersten Sprache, das von dem senderseitigen Endgerät gesammelt wurde, in eine zweite Sprache, um einen Übersetzungstext in einer zweiten Sprache und/oder eine Übersetzungsstimme in der zweiten Sprache zu erzeugen; und Empfangen und Ausgeben des erzeugten Übersetzungstextes in der zweiten Sprache und/oder des Übersetzungssprachsignals in der zweiten Sprache durch das empfängerseitige Endgerät.
- Ferner ein mehrsprachiges Gerät, das in der Lage ist, verbale Eingaben in mehreren Sprachen zu empfangen, und ferner in der Lage ist, Gesprächsantworten in mehreren Sprachen zu geben. In verschiedenen Implementierungen enthält die mehrsprachige Vorrichtung eine automatische Spracherkennungsmaschine, die in der Lage ist, verbale Eingaben in einer ersten natürlichen Sprache zu empfangen und eine Textdarstellung der Eingabe und einen Konfidenzwert für die Erkennung zu liefern. Das mehrsprachige Gerät kann auch eine maschinelle Übersetzungsmaschine enthalten, die in der Lage ist, Texteingaben aus der ersten natürlichen Sprache in eine zweite natürliche Sprache zu übersetzen. Die maschinelle Übersetzungsmaschine kann einen Konfidenzwert für die Übersetzung ausgeben. Das mehrsprachige Gerät kann ferner eine natürliche Sprachverarbeitung enthalten, die in der Lage ist, von der zweiten natürlichen Sprache in eine computergestützte Sprache zu übersetzen. Eingaben in der computergestützten Sprache können verarbeitet werden, und das mehrsprachige Gerät kann auf der Grundlage des Ergebnisses der Verarbeitung eine Aktion ausführen.
- Die bestehenden Systeme, Methoden oder Geräte bieten keine Lösung für das Problem der tonalen Wörter in der Mizo-Sprache. Daher besteht ein Bedarf an einer besseren Lösung für den Umgang mit tonalen Wörtern in der Mizo-Sprache.
- ZUSAMMENFASSUNG DER ERFINDUNG
- Die vorliegende Erfindung offenbart ein System zur Vorbereitung und Untersuchung eines Englisch (En)-Mizo (Mz) Korpus durch das Auffinden von tonalen Wörtern. In der vorliegenden Erfindung wurde ein System vorgeschlagen, um eine Sprachressource, d.h. ein Englisch-zu-Mizo-Korpus, vorzubereiten und eine En-zu-Mz-Übersetzung durch das Auftreten tonaler Wörter zu untersuchen, indem verschiedene NMT-Modelle auf dem entwickelten Datensatz erforscht werden.
- In einer Ausführungsform wird ein System zum Vorbereiten und Untersuchen eines Englisch (En)-Mizo (Mz)-Korpus durch Auffinden von tonalen Wörtern offenbart, wobei das System umfasst: eine sprachunabhängige Schlüsselwort-Extraktionseinheit zum Extrahieren von Schlüsselwörtern mit tonalen Wörtern aus einsprachigen Daten von Mz; eine rückwärts gerichtete neuronale Maschinenübersetzungseinheit (NMT) zum Erzeugen synthetischer En-Sätze aus den extrahierten Schlüsselwörtern mit tonalen Wörtern, wobei Leerzeilen und unterübersetzte Sätze aus den synthetischen En-Sätzen und den tonalen Mz-Sätzen entfernt werden, um synthetische parallele Sätze vorzubereiten; eine synthetische parallele Korpuseinheit, die mit einer ursprünglichen parallelen Korpuseinheit verbunden ist, um Daten aus den erzeugten synthetischen En-Sätzen zu ergänzen; eine künstliche Token-Einheit, die so konfiguriert ist, dass sie Zielsätze für Mz und En am Anfang von Quellensätzen erkennt; eine Vorwärts-NMT-Einheit, um die gezielten Mz- und En-Sätze für die Vorwärts-En-zu-Mz-Übersetzung zu trainieren, wobei die trainierten Mz- und En-Sätze konfiguriert sind, um vorhergesagte Sätze zu erhalten, wobei die gezielten Mz- und En-Sätze unidirektional unter Verwendung eines unidirektionalen Parallelkorpus und bidirektional unter Verwendung eines bidirektionalen Parallelkorpus trainiert werden; und eine beispielbasierte Wörterbucheinheit, um die vorhergesagten Sätze nachzubearbeiten, wobei, wenn die vorwärtsgerichtete NMT-Einheit nicht in der Lage ist, eine geeignete Tonmarkierung im Übersetzungsprozess zu erfassen, die beispielbasierte Wörterbucheinheit dann versucht, die betreffende Tonmarkierung zu korrigieren.
- Ziel der vorliegenden Erfindung ist es, ein Englisch (En)-Mizo (Mz)-Korpus zu erstellen und zu untersuchen, indem tonale Wörter gefunden werden.
- Ein weiteres Ziel der vorliegenden Erfindung ist es, tonale Wörter, die in der Übersetzungssprache Englisch-Mizo existieren, zu behandeln.
- Ein weiteres Ziel der vorliegenden Offenbarung ist die Verbesserung des vorhergesagten Satzes während des Nachbearbeitungsschritts.
- Ein weiteres Ziel der vorliegenden Offenbarung ist die Verbesserung der Übersetzungsgenauigkeit bei der Begegnung mit tonalen Wörtern.
- Um die Vorteile und Merkmale der vorliegenden Erfindung weiter zu verdeutlichen, wird eine genauere Beschreibung der Erfindung durch Bezugnahme auf bestimmte Ausführungsformen davon, die in den beigefügten Figuren dargestellt sind, gegeben. Es wird davon ausgegangen, dass diese Figuren nur typische Ausführungsformen der Erfindung darstellen und daher nicht als einschränkend für ihren Umfang anzusehen sind. Die Erfindung wird mit zusätzlicher Spezifität und Detail mit den beigefügten Figuren beschrieben und erläutert werden.
- Figurenliste
- Diese und andere Merkmale, Aspekte und Vorteile der vorliegenden Erfindung werden besser verstanden, wenn die folgende detaillierte Beschreibung unter Bezugnahme auf die beigefügten Figuren gelesen wird, in denen gleiche Zeichen gleiche Teile in den Figuren darstellen, wobei:
-
1 ein Blockdiagramm eines Systems zur Vorbereitung und Untersuchung eines Englisch (En)-Mizo (Mz)-Korpus durch Auffinden tonaler Wörter gemäß einer Ausführungsform der vorliegenden Offenbarung zeigt; und -
2 das English-to-Mizo NMT System gemäß einer Ausführungsform der vorliegenden Offenbarung zeigt. - Der Fachmann wird verstehen, dass die Elemente in den Figuren der Einfachheit halber dargestellt sind und nicht unbedingt maßstabsgetreu gezeichnet wurden. Die Flussdiagramme veranschaulichen beispielsweise das Verfahren in Form der wichtigsten Schritte, die zum besseren Verständnis der Aspekte der vorliegenden Erfindung beitragen. Darüber hinaus kann es sein, dass eine oder mehrere Komponenten der Vorrichtung in den Figuren durch herkömmliche Symbole dargestellt sind, und dass die Figuren nur die spezifischen Details zeigen, die für das Verständnis der Ausführungsformen der vorliegenden Erfindung von Bedeutung sind, um die Figuren nicht mit Details zu überfrachten, die für Fachleute, die mit der vorliegenden Beschreibung vertraut sind, ohne weiteres erkennbar sind.
- DETAILLIERTE BESCHREIBUNG
- Um das Verständnis der Erfindung zu fördern, wird nun auf die in den Figuren dargestellte Ausführungsform Bezug genommen und diese mit bestimmten Worten beschrieben. Es versteht sich jedoch von selbst, dass damit keine Einschränkung des Umfangs der Erfindung beabsichtigt ist, wobei solche Änderungen und weitere Modifikationen des dargestellten Systems und solche weiteren Anwendungen der darin dargestellten Grundsätze der Erfindung in Betracht gezogen werden, wie sie einem Fachmann auf dem Gebiet der Erfindung normalerweise einfallen würden.
- Es versteht sich für den Fachmann von selbst, dass die vorstehende allgemeine Beschreibung und die folgende detaillierte Beschreibung beispielhaft und erläuternd für die Erfindung sind und diese nicht einschränken sollen.
- Wenn in dieser Beschreibung von „einem Aspekt“, „einem anderen Aspekt“ oder ähnlichem die Rede ist, bedeutet dies, dass ein bestimmtes Merkmal, eine bestimmte Struktur oder eine bestimmte Eigenschaft, die im Zusammenhang mit der Ausführungsform beschrieben wird, in mindestens einer Ausführungsform der vorliegenden Erfindung enthalten ist. Daher können sich die Ausdrücke „in einer Ausführungsform“, „in einer anderen Ausführungsform“ und ähnliche Ausdrücke in dieser Beschreibung alle auf dieselbe Ausführungsform beziehen, müssen es aber nicht.
- Die Ausdrücke „umfasst“, „enthaltend“ oder andere Variationen davon sollen eine nicht ausschließliche Einbeziehung abdecken, so dass ein Verfahren oder eine Methode, die eine Liste von Schritten umfasst, nicht nur diese Schritte einschließt, sondern auch andere Schritte enthalten kann, die nicht ausdrücklich aufgeführt sind oder zu einem solchen Verfahren oder einer solchen Methode gehören. Ebenso schließen eine oder mehrere Vorrichtungen oder Teilsysteme oder Elemente oder Strukturen oder Komponenten, die mit „umfasst...a“ eingeleitet werden, nicht ohne weitere Einschränkungen die Existenz anderer Vorrichtungen oder anderer Teilsysteme oder anderer Elemente oder anderer Strukturen oder anderer Komponenten oder zusätzlicher Vorrichtungen oder zusätzlicher Teilsysteme oder zusätzlicher Elemente oder zusätzlicher Strukturen oder zusätzlicher Komponenten aus.
- Sofern nicht anders definiert, haben alle hierin verwendeten technischen und wissenschaftlichen Begriffe die gleiche Bedeutung, wie sie von einem Fachmann auf dem Gebiet, zu dem diese Erfindung gehört, gemeinhin verstanden wird. Das System und die Beispiele, die hier angegeben werden, sind nur illustrativ und nicht als Einschränkung gedacht.
- Ausführungsformen der vorliegenden Erfindung werden im Folgenden unter Bezugnahme auf die beigefügten Figuren im Detail beschrieben.
-
1 zeigt ein Blockdiagramm eines Systems (100) zur Vorbereitung und Untersuchung eines Englisch (En)-Mizo (Mz)-Korpus durch Auffinden tonaler Wörter. Das System (100) gemäß der vorliegenden Erfindung umfasst: eine sprachunabhängige Schlüsselwort-Extraktionseinheit (102) zum Extrahieren von Schlüsselwörtern mit tonalen Wörtern aus einsprachigen Mz-Daten; eine rückwärts gerichtete neuronale Maschinenübersetzungseinheit (NMT) (104) zum Erzeugen synthetischer En-Sätze aus den extrahierten Schlüsselwörtern mit tonalen Wörtern, wobei Leerzeilen und unterübersetzte Sätze aus den synthetischen En-Sätzen und den tonalen Mz-Sätzen entfernt werden, um synthetische parallele Sätze vorzubereiten; eine synthetische parallele Korpuseinheit (106), die mit einer ursprünglichen parallelen Korpuseinheit (108) verbunden ist, um Daten aus den erzeugten synthetischen En-Sätzen zu ergänzen; eine künstliche Token-Einheit (110), die so konfiguriert ist, dass sie Zielsätze für Mz und En am Anfang von Quellensätzen erkennt; eine Vorwärts-NMT-Einheit (112), um die gezielten Mz- und En-Sätze für die Vorwärts-En-zu-Mz-Übersetzung zu trainieren, wobei die trainierten Mz- und En-Sätze konfiguriert sind, um vorhergesagte Sätze zu erhalten, wobei die gezielten Mz- und En-Sätze unidirektional unter Verwendung eines unidirektionalen Parallelkorpus und bidirektional unter Verwendung eines bidirektionalen Parallelkorpus trainiert werden; und eine beispielbasierte Wörterbucheinheit (114), um die vorhergesagten Sätze nachzubearbeiten, wobei, wenn die Vorwärts-NMT-Einheit (112) nicht in der Lage ist, einen geeigneten Tonmarker im Übersetzungsprozess zu erfassen, die beispielbasierte Wörterbucheinheit (114) versucht, den betreffenden Tonmarker zu korrigieren. - In einer Ausführungsform wird die vorwärtsgerichtete NMT-Einheit (112) verwendet, um die vortrainierte Einheit von En zu nutzen.
- In einer Ausführungsform verarbeitet die Vorwärts-NMT-Einheit (112) eine Eingangssequenz, indem sie die Eingangssequenz in Darstellungen transformiert.
- In einer Ausführungsform verarbeitet eine NMT-Kodierschicht die Darstellungen durch eine Aufmerksamkeitseinheit für bidirektionale Kodierdarstellungen aus Transformatoren (BERT).
- In einer Ausführungsform werden neben der NMT-Geberschicht auch die vorhergehenden Darstellungen der NMT-Geberschicht durch eine Selbstbeobachtung weiterverarbeitet.
- In einer Ausführungsform erzeugt die Vorwärts-NMT-Einheit (112) eine verschmolzene Darstellung durch die NMT-Encoder-Schichten des Vorwärtsnetzwerks, indem sie die beiden Ausgaben der BERT-Encoder-Aufmerksamkeitseinheit und der Selbstaufmerksamkeit zusammenführt.
- In einer Ausführungsform wird eine BERT-Decoder-Aufmerksamkeitseinheit in eine NMT-Decoder-Schicht eingeführt, um die Zielsätze vorherzusagen.
- In einer Ausführungsform wird ein Adam-Optimierer mit einer Lernrate von 0.001, Drop-Outs von 0.3 im Falle von RNN und 0.1 im Falle von Transformer im Trainingsprozess der angestrebten Mz- und En-Sätze verwendet.
- In einer Ausführungsform erzeugt die beispielbasierte Wörterbucheinheit (114) die tonalen Wörter mit entsprechenden tonalen Markierungen.
- In einer Ausführungsform stellen die Tonmarkierungen in tonalen Wörtern die kontextuelle Bedeutung der Sätze dar
- Das beispielbasierte Wörterbuch wird für die Nachbearbeitung der vorhergesagten Sätze verwendet. Das Schlüsselwort Kz wird in den vorhergesagten Sätzen gesucht, und wenn es gefunden wird, wird das Schlüsselwort Kz durch das Schlüsselwort von Ky ersetzt. Der Nachbearbeitungsschritt wird genutzt, um die betreffende Tonmarkierung mithilfe eines beispielbasierten Wörterbuchs zu korrigieren, wenn das trainierte Modell nicht in der Lage ist, die entsprechende Tonmarkierung im Übersetzungsprozess zu erfassen. Die beispielbasierte Wörterbucheinheit wird verwendet, da das tonale Wort kontextabhängig vom Vor- oder Nachwort des betreffenden tonalen Wortes ist.
- Der vorgeschlagene Ansatz basiert auf der BERT-fusionierten NMT (Transformatormodell), einer bidirektionalen Datenerweiterung mit einem synthetischen Parallelkorpus und einem beispielbasierten Nachbearbeitungsschritt.
-
2 zeigt das English-to-Mizo NMT System. Die vorliegende Erfindung umfasst 33.021 synthetische parallele Sätze, wobei der synthetische parallele Korpus mit dem ursprünglichen parallelen Korpus ergänzt wird, um Daten aus den generierten synthetischen En-Sätzen zu ergänzen. Dann wird ein künstliches Token am Anfang der Quellensätze hinzugefügt, um die Zielsätze zu erkennen, und mit BERT-fusionierter NMT für die Vorwärtsübersetzung von En nach Mz trainiert. Die BERT-fusionierte NMT wird verwendet, um das vorab trainierte Modell des Englischen zu nutzen, wobei die Mz- und En-Zielsätze unidirektional unter Verwendung eines unidirektionalen Parallelkorpus und bidirektional unter Verwendung eines bidirektionalen Parallelkorpus trainiert werden. - In der vorliegenden Erfindung wird ein System vorgeschlagen, um Englisch-Mizo-Korpus vorzubereiten und En-to-Mz-Übersetzung zu untersuchen, indem verschiedene NMT-Modelle auf dem entwickelten Datensatz erforscht werden, wenn tonale Wörter auftreten. Die BERT-fusionierte NMT mit bidirektionaler Datenerweiterung mit synthetischem Parallelkorpus und einem beispielbasierten Nachbearbeitungsschritt erreicht eine bessere Übersetzungsgenauigkeit als ein herkömmlicher Transformator und eine BERT-fusionierte NMT
- In einer Ausführungsform werden Experimente sowohl für En-zu-Mz- als auch für Mzzu-En-Übersetzungen unter Verwendung eines RNN-Transformatormodells mit einem Teilwort-Segmentierungsprozess, d.h. Byte-Paar-Kodierung (BPE), durchgeführt. Die quantitativen Ergebnisse werden anhand der automatischen Bewertungsmetrik BLEU (bilingual evaluation understudy) und der menschlichen Bewertung (HE) an 100 zufällig ausgewählten Beispielsätzen durch einen Linguistikexperten bewertet. Eine Standardkonfiguration des Open NMT-py Toolkits wird verwendet, um das RNN und das Transformatormodell zu implementieren. Der Adam-Optimierer mit einer Lernrate von 0.001, Drop-outs von 0.3 (im Falle des RNN) und 0.1 (im Falle des Transformators) werden im Trainingsprozess verwendet. Die Standardkonfigurationen von Fair seq toolkit werden auch für die Implementierung von BERT-fusionierter NMT verwendet. Das vorliegende System stößt auf eine höhere Häufigkeit tonaler Wörter als herkömmliche Transformer- und BERT-fusionierte Transformer-Modelle, die weit von der Häufigkeit tonaler Wörter in Referenztestsätzen entfernt ist. Darüber hinaus generiert der Nachbearbeitungsansatz tonale Wörter mit entsprechenden tonalen Markern. Durch die Erfassung von Tonwertmarkern in tonalen Wörtern stellt das vorliegende System die kontextuelle Bedeutung der Sätze in signifikanter Weise dar.
- Die Figuren und die vorangehende Beschreibung geben Beispiele für Ausführungsformen. Der Fachmann wird verstehen, dass eines oder mehrere der beschriebenen Elemente durchaus zu einem einzigen Funktionselement kombiniert werden können. Alternativ dazu können bestimmte Elemente in mehrere Funktionselemente aufgeteilt werden. Elemente aus einer Ausführungsform können einer anderen Ausführungsform hinzugefügt werden. So kann beispielsweise die Reihenfolge der hier beschriebenen Prozesse geändert werden und ist nicht auf die hier beschriebene Weise beschränkt. Darüber hinaus müssen die Aktionen eines Flussdiagramms nicht in der gezeigten Reihenfolge ausgeführt werden; auch müssen nicht unbedingt alle Aktionen durchgeführt werden. Auch können diejenigen Handlungen, die nicht von anderen Handlungen abhängig sind, parallel zu den anderen Handlungen ausgeführt werden. Der Umfang der Ausführungsformen ist durch diese spezifischen Beispiele keineswegs begrenzt. Zahlreiche Variationen sind möglich, unabhängig davon, ob sie in der Beschreibung explizit aufgeführt sind oder nicht, wie z. B. Unterschiede in der Struktur, den Abmessungen und der Verwendung von Materialien. Der Umfang der Ausführungsformen ist mindestens so groß wie in den folgenden Ansprüchen angegeben.
- Vorteile, andere Vorzüge und Problemlösungen wurden oben im Hinblick auf bestimmte Ausführungsformen beschrieben. Die Vorteile, Vorzüge, Problemlösungen und Komponenten, die dazu führen können, dass ein Vorteil, ein Nutzen oder eine Lösung auftritt oder ausgeprägter wird, sind jedoch nicht als kritisches, erforderliches oder wesentliches Merkmal oder Komponente eines oder aller Ansprüche zu verstehen.
- Bezugszeichenliste
-
- 100
- Ein System zur Vorbereitung und Untersuchung eines Englisch (En)-Mizo (Mz) Korpus durch das Auffinden von tonalen Wörtern.
- 102
- Sprachunabhängige Schlüsselwort-Extraktionseinheit
- 104
- Neuronale maschinelle Rückwärtsübersetzung (NMT)
- 106
- Einheit Synthetischer Parallelkorpus
- 108
- Original-Parallelkorpus-Einheit
- 110
- Künstliche Token-Einheit
- 112
- Vorwärts-NMT-Einheit
- 114
- Beispielbasierte Wörterbucheinheit
- 202
- Mz einsprachiger Satz
- 204
- Extrahiert
- 206
- Mz Tonaler Satz
- 208
- Rückwärts-NMT-Modell (Transformer)
- 210
- En Synthetischer Satz
- 212
- Synthetischer Parallelkorpus
- 214
- Original-Parallelkorpus
- 216
- Datenerweiterung
- 218
- Ausbildung
- 220
- Vorwärts-NMT-Modell (BERT-Fused)Transformator
- 222
- Nachbearbeitung
- 224
- Vorausgesagter Satz (Mz)
- 226
- Ausgangssatz (En)
Claims (10)
- System (100) zum Vorbereiten und Untersuchen eines Englisch (En)-Mizo (Mz)-Korpus durch Auffinden tonaler Wörter, wobei das Verfahren umfasst: eine sprachunabhängige Schlüsselwort-Extraktionseinheit (102) zur Extraktion von Schlüsselwörtern mit tonalen Wörtern aus einsprachigen Daten von Mz; eine rückwärts gerichtete neuronale Maschinenübersetzungseinheit (NMT) (104), um synthetische En-Sätze aus den extrahierten Schlüsselwörtern mit tonalen Wörtern zu erzeugen, wobei Leerzeilen und unterübersetzte Sätze aus den synthetischen En-Sätzen und den tonalen Mz-Sätzen entfernt werden, um synthetische parallele Sätze vorzubereiten; eine synthetische parallele Korpuseinheit (106), die mit einer ursprünglichen parallelen Korpuseinheit (108) verbunden ist, um die Daten aus den erzeugten synthetischen Sätzen zu ergänzen; eine künstliche Token-Einheit (110), die so konfiguriert ist, dass sie Zielsätze für Mz und En am Anfang von Quellensätzen erkennt; eine Vorwärts-NMT-Einheit (112), um die gezielten Mz- und En-Sätze für die Vorwärts-En-zu-Mz-Übersetzung zu trainieren, wobei die trainierten Mz- und En-Sätze konfiguriert sind, um vorhergesagte Sätze zu erhalten, wobei die gezielten Mz- und En-Sätze unidirektional unter Verwendung eines unidirektionalen Parallelkorpus und bidirektional unter Verwendung eines bidirektionalen Parallelkorpus trainiert werden; und eine auf Beispielen basierende Wörterbucheinheit (114), um die vorhergesagten Sätze nachzubearbeiten, wobei die auf Beispielen basierende Wörterbucheinheit (114) versucht, den betreffenden Tonmarker zu korrigieren, wenn die Forward-NMT-Einheit (112) nicht in der Lage ist, einen geeigneten Tonmarker in dem Übersetzungsprozess zu erfassen.
- System nach
Anspruch 1 , wobei die Vorwärts-NMT-Einheit (112) dazu verwendet wird, die vortrainierte Einheit von En zu nutzen. - System nach
Anspruch 1 , wobei die Vorwärts-NMT-Einheit (112) eine Eingangssequenz verarbeitet, indem sie die Eingangssequenz in Darstellungen transformiert. - System nach
Anspruch 1 , wobei eine NMT-Kodierschicht die Darstellungen durch eine BERT (Bidirectional Encoder Representations from Transformers)-Kodieraufmerksamkeitseinheit verarbeitet. - System nach
Anspruch 1 , wobei neben der NMT-Codierschicht eine Selbstbeobachtung weiterhin die vorherigen NMT-Codierschichtdarstellungen verarbeitet. - System nach
Anspruch 1 , wobei die vorwärtsgerichtete NMT-Einheit (112) eine verschmolzene Darstellung durch das vorwärtsgerichtete Netzwerk der NMT-Kodierschichten erzeugt, indem sie die beiden Ausgaben der BERT-Kodier-Aufmerksamkeitseinheit und der Selbstaufmerksamkeit zusammenführt. - System nach
Anspruch 1 , bei dem eine BERT-Decoder-Aufmerksamkeitseinheit in eine NMT-Decoderschicht eingeführt wird, um die Zielsätze vorherzusagen. - System nach
Anspruch 1 , wobei ein Adam-Optimierer mit einer Lernrate von 0.001, Drop-Outs von 0.3 im Fall von RNN und 0.1 im Fall von Transformer im Trainingsprozess der gezielten Mz- und En-Sätze verwendet wird. - System nach
Anspruch 1 , wobei die beispielbasierte Wörterbucheinheit (114) die tonalen Wörter mit geeigneten tonalen Markern erzeugt. - System nach
Anspruch 1 , wobei die Tonmarkierungen in tonalen Wörtern die kontextuelle Bedeutung der Sätze darstellen.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE202022104426.0U DE202022104426U1 (de) | 2022-08-03 | 2022-08-03 | System zur Vorbereitung und Untersuchung eines Englisch-Mizo-Korpus durch Auffinden von tonalen Wörtern |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE202022104426.0U DE202022104426U1 (de) | 2022-08-03 | 2022-08-03 | System zur Vorbereitung und Untersuchung eines Englisch-Mizo-Korpus durch Auffinden von tonalen Wörtern |
Publications (1)
Publication Number | Publication Date |
---|---|
DE202022104426U1 true DE202022104426U1 (de) | 2022-08-09 |
Family
ID=83005493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE202022104426.0U Active DE202022104426U1 (de) | 2022-08-03 | 2022-08-03 | System zur Vorbereitung und Untersuchung eines Englisch-Mizo-Korpus durch Auffinden von tonalen Wörtern |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE202022104426U1 (de) |
-
2022
- 2022-08-03 DE DE202022104426.0U patent/DE202022104426U1/de active Active
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3788488T2 (de) | Sprachenübersetzungssystem. | |
DE102020205786B4 (de) | Spracherkennung unter verwendung von nlu (natural language understanding)-bezogenem wissen über tiefe vorwärtsgerichtete neuronale netze | |
DE69937176T2 (de) | Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern | |
DE68913669T2 (de) | Namenaussprache durch einen Synthetisator. | |
DE60123952T2 (de) | Erzeugung von einem einheitlichen aufgabeabhängigen sprachmodell mittels informationsauffindungverfahren | |
DE69829389T2 (de) | Textnormalisierung unter verwendung einer kontextfreien grammatik | |
DE69829074T2 (de) | Identifizierung der sprache und des zeichensatzes aus text-repräsentierenden daten | |
DE19721198C2 (de) | Statistisches Sprachmodell für flektierende Sprachen | |
DE69925831T2 (de) | Maschinenunterstützte übersetzungswerkzeuge | |
DE112017006151T5 (de) | Anpassbare Verarbeitungskomponenten | |
EP3100174A1 (de) | Verfahren zur automatischen sinnerkennung und messung der eindeutigkeit von text | |
DE19825205C2 (de) | Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz | |
DE102013202365A1 (de) | Herausziehen von informationen aus krankenakten | |
DE202005022113U1 (de) | Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet | |
DE102017124264A1 (de) | Bestimmen phonetischer Beziehungen | |
DE102018007165A1 (de) | Vorhersage von stilbrüchen innerhalb eines textinhalts | |
EP1273003B1 (de) | Verfahren und vorrichtung zum bestimmen prosodischer markierungen | |
CN113268576B (zh) | 一种基于深度学习的部门语义信息抽取的方法及装置 | |
Dotan et al. | Separate mechanisms for number reading and word reading: Evidence from selective impairments | |
DE102022201753A1 (de) | Erweiterung Graph- basierter Kennzeichnungsregeln für schwach überwachtesTraining von auf maschinellem Lernen basierender Eigennamenerkennung | |
DE102021202469A1 (de) | System und verfahren zur generativen textzusammenfassung | |
CN116304023A (zh) | 一种基于nlp技术的招投标要素抽取方法、系统及存储介质 | |
WO2014000764A1 (en) | A system and method for automatic generation of a reference utility | |
CN115130038A (zh) | 网页分类方法及装置 | |
Wang et al. | Corpus research on hedges in linguistics and EFL journal papers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R207 | Utility model specification | ||
R082 | Change of representative |
Representative=s name: LIPPERT STACHOW PATENTANWAELTE RECHTSANWAELTE , DE |