DE202022104426U1 - System zur Vorbereitung und Untersuchung eines Englisch-Mizo-Korpus durch Auffinden von tonalen Wörtern - Google Patents

System zur Vorbereitung und Untersuchung eines Englisch-Mizo-Korpus durch Auffinden von tonalen Wörtern Download PDF

Info

Publication number
DE202022104426U1
DE202022104426U1 DE202022104426.0U DE202022104426U DE202022104426U1 DE 202022104426 U1 DE202022104426 U1 DE 202022104426U1 DE 202022104426 U DE202022104426 U DE 202022104426U DE 202022104426 U1 DE202022104426 U1 DE 202022104426U1
Authority
DE
Germany
Prior art keywords
unit
sentences
tonal
nmt
synthetic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE202022104426.0U
Other languages
English (en)
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to DE202022104426.0U priority Critical patent/DE202022104426U1/de
Publication of DE202022104426U1 publication Critical patent/DE202022104426U1/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

System (100) zum Vorbereiten und Untersuchen eines Englisch (En)-Mizo (Mz)-Korpus durch Auffinden tonaler Wörter, wobei das Verfahren umfasst:
eine sprachunabhängige Schlüsselwort-Extraktionseinheit (102) zur Extraktion von Schlüsselwörtern mit tonalen Wörtern aus einsprachigen Daten von Mz;
eine rückwärts gerichtete neuronale Maschinenübersetzungseinheit (NMT) (104), um synthetische En-Sätze aus den extrahierten Schlüsselwörtern mit tonalen Wörtern zu erzeugen, wobei Leerzeilen und unterübersetzte Sätze aus den synthetischen En-Sätzen und den tonalen Mz-Sätzen entfernt werden, um synthetische parallele Sätze vorzubereiten;
eine synthetische parallele Korpuseinheit (106), die mit einer ursprünglichen parallelen Korpuseinheit (108) verbunden ist, um die Daten aus den erzeugten synthetischen Sätzen zu ergänzen;
eine künstliche Token-Einheit (110), die so konfiguriert ist, dass sie Zielsätze für Mz und En am Anfang von Quellensätzen erkennt;
eine Vorwärts-NMT-Einheit (112), um die gezielten Mz- und En-Sätze für die Vorwärts-En-zu-Mz-Übersetzung zu trainieren, wobei die trainierten Mz- und En-Sätze konfiguriert sind, um vorhergesagte Sätze zu erhalten, wobei die gezielten Mz- und En-Sätze unidirektional unter Verwendung eines unidirektionalen Parallelkorpus und bidirektional unter Verwendung eines bidirektionalen Parallelkorpus trainiert werden; und
eine auf Beispielen basierende Wörterbucheinheit (114), um die vorhergesagten Sätze nachzubearbeiten, wobei die auf Beispielen basierende Wörterbucheinheit (114) versucht, den betreffenden Tonmarker zu korrigieren, wenn die Forward-NMT-Einheit (112) nicht in der Lage ist, einen geeigneten Tonmarker in dem Übersetzungsprozess zu erfassen.

Description

  • BEREICH DER ERFINDUNG
  • Die vorliegende Erfindung bezieht sich allgemein auf ein System zur Vorbereitung und Untersuchung eines Englisch (En)-Mizo (Mz)-Korpus durch das Auffinden von tonalen Wörtern.
  • HINTERGRUND DER ERFINDUNG
  • Im Bereich der Kommunikation gibt es zahlreiche Möglichkeiten für Sprecher von Nicht-Erstsprachen, zu kommunizieren. Sie können mit menschlichen Übersetzern zusammenarbeiten, die sowohl die Muttersprache ihres Arbeitgebers (die Ausgangssprache) als auch die Sprache, in der sie sich unterhalten müssen (die Zielsprache), fließend beherrschen. Nachdem der Redner eine Botschaft in der Ausgangssprache vorgetragen hat, dolmetscht ein Dolmetscher dieselbe Botschaft in die Zielsprache. Diese Methode hat eine Reihe von Nachteilen: Dolmetscher können unbezahlbar oder aus anderen Gründen nicht verfügbar sein, oder sie könnten absichtlich falsch übersetzen, wenn ihre Ziele mit denen des Sprechers in Konflikt stehen. Die Verwendung eines Sprachführers ist eine weitere Möglichkeit, die von vielen Reisenden bevorzugt wird. Dieser bietet eine phonetische Übersetzung des Satzes in der Zielsprache und ermöglicht es den Sprechern, gebräuchliche Wörter und Ausdrücke in ihrer eigenen Sprache nachzuschlagen. Der Nachteil dieser Option ist, dass die Suche nach einem Wort oder einer Phrase sehr lange dauert, was die Kommunikation recht langsam macht.
  • In einer Lösung umfasst ein Verfahren zur Bereitstellung einer Übersetzung von Informationen in ein übersetztes Format folgende Schritte: Empfangen von Informationen in einem ersten Format; Identifizieren des ersten Formats, wobei das erste Format eines von mehreren verschiedenen Formaten ist, die zum Empfangen konfiguriert sind; Verarbeiten der Informationen in Übereinstimmung mit dem ersten Format und Extrahieren eines oder mehrerer Sprachelemente aus den Informationen; Identifizieren, durch mindestens einen Prozessor, der konfiguriert ist, um die empfangenen Informationen zu übersetzen, eines oder mehrerer Gebärdensprachidentifikatoren, die dem einen oder den mehreren extrahierten Sprachelementen entsprechen, wobei mindestens einer des einen oder der mehreren Gebärdensprachidentifikatoren direkt einem Synonym mindestens eines des einen oder der mehreren Sprachelemente entspricht; und Bewirken, dass ein oder mehrere Gebärdensprachclips, die mindestens einem des einen oder der mehreren Gebärdensprachidentifikatoren entsprechen, auf einer Anzeige einer Anzeigevorrichtung wiedergegeben werden.
  • In einer anderen Lösung, ein Verfahren und ein System für einen übersetzungsbasierten Kommunikationsdienstbetrieb. Das Verfahren umfasst: Einrichten eines Kommunikationsdienstkanals zwischen einem senderseitigen Endgerät und einem empfängerseitigen Endgerät; Übersetzen eines Textes in einer ersten Sprache und/oder eines Sprachsignals in der ersten Sprache, das von dem senderseitigen Endgerät gesammelt wurde, in eine zweite Sprache, um einen Übersetzungstext in einer zweiten Sprache und/oder eine Übersetzungsstimme in der zweiten Sprache zu erzeugen; und Empfangen und Ausgeben des erzeugten Übersetzungstextes in der zweiten Sprache und/oder des Übersetzungssprachsignals in der zweiten Sprache durch das empfängerseitige Endgerät.
  • Ferner ein mehrsprachiges Gerät, das in der Lage ist, verbale Eingaben in mehreren Sprachen zu empfangen, und ferner in der Lage ist, Gesprächsantworten in mehreren Sprachen zu geben. In verschiedenen Implementierungen enthält die mehrsprachige Vorrichtung eine automatische Spracherkennungsmaschine, die in der Lage ist, verbale Eingaben in einer ersten natürlichen Sprache zu empfangen und eine Textdarstellung der Eingabe und einen Konfidenzwert für die Erkennung zu liefern. Das mehrsprachige Gerät kann auch eine maschinelle Übersetzungsmaschine enthalten, die in der Lage ist, Texteingaben aus der ersten natürlichen Sprache in eine zweite natürliche Sprache zu übersetzen. Die maschinelle Übersetzungsmaschine kann einen Konfidenzwert für die Übersetzung ausgeben. Das mehrsprachige Gerät kann ferner eine natürliche Sprachverarbeitung enthalten, die in der Lage ist, von der zweiten natürlichen Sprache in eine computergestützte Sprache zu übersetzen. Eingaben in der computergestützten Sprache können verarbeitet werden, und das mehrsprachige Gerät kann auf der Grundlage des Ergebnisses der Verarbeitung eine Aktion ausführen.
  • Die bestehenden Systeme, Methoden oder Geräte bieten keine Lösung für das Problem der tonalen Wörter in der Mizo-Sprache. Daher besteht ein Bedarf an einer besseren Lösung für den Umgang mit tonalen Wörtern in der Mizo-Sprache.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Die vorliegende Erfindung offenbart ein System zur Vorbereitung und Untersuchung eines Englisch (En)-Mizo (Mz) Korpus durch das Auffinden von tonalen Wörtern. In der vorliegenden Erfindung wurde ein System vorgeschlagen, um eine Sprachressource, d.h. ein Englisch-zu-Mizo-Korpus, vorzubereiten und eine En-zu-Mz-Übersetzung durch das Auftreten tonaler Wörter zu untersuchen, indem verschiedene NMT-Modelle auf dem entwickelten Datensatz erforscht werden.
  • In einer Ausführungsform wird ein System zum Vorbereiten und Untersuchen eines Englisch (En)-Mizo (Mz)-Korpus durch Auffinden von tonalen Wörtern offenbart, wobei das System umfasst: eine sprachunabhängige Schlüsselwort-Extraktionseinheit zum Extrahieren von Schlüsselwörtern mit tonalen Wörtern aus einsprachigen Daten von Mz; eine rückwärts gerichtete neuronale Maschinenübersetzungseinheit (NMT) zum Erzeugen synthetischer En-Sätze aus den extrahierten Schlüsselwörtern mit tonalen Wörtern, wobei Leerzeilen und unterübersetzte Sätze aus den synthetischen En-Sätzen und den tonalen Mz-Sätzen entfernt werden, um synthetische parallele Sätze vorzubereiten; eine synthetische parallele Korpuseinheit, die mit einer ursprünglichen parallelen Korpuseinheit verbunden ist, um Daten aus den erzeugten synthetischen En-Sätzen zu ergänzen; eine künstliche Token-Einheit, die so konfiguriert ist, dass sie Zielsätze für Mz und En am Anfang von Quellensätzen erkennt; eine Vorwärts-NMT-Einheit, um die gezielten Mz- und En-Sätze für die Vorwärts-En-zu-Mz-Übersetzung zu trainieren, wobei die trainierten Mz- und En-Sätze konfiguriert sind, um vorhergesagte Sätze zu erhalten, wobei die gezielten Mz- und En-Sätze unidirektional unter Verwendung eines unidirektionalen Parallelkorpus und bidirektional unter Verwendung eines bidirektionalen Parallelkorpus trainiert werden; und eine beispielbasierte Wörterbucheinheit, um die vorhergesagten Sätze nachzubearbeiten, wobei, wenn die vorwärtsgerichtete NMT-Einheit nicht in der Lage ist, eine geeignete Tonmarkierung im Übersetzungsprozess zu erfassen, die beispielbasierte Wörterbucheinheit dann versucht, die betreffende Tonmarkierung zu korrigieren.
  • Ziel der vorliegenden Erfindung ist es, ein Englisch (En)-Mizo (Mz)-Korpus zu erstellen und zu untersuchen, indem tonale Wörter gefunden werden.
  • Ein weiteres Ziel der vorliegenden Erfindung ist es, tonale Wörter, die in der Übersetzungssprache Englisch-Mizo existieren, zu behandeln.
  • Ein weiteres Ziel der vorliegenden Offenbarung ist die Verbesserung des vorhergesagten Satzes während des Nachbearbeitungsschritts.
  • Ein weiteres Ziel der vorliegenden Offenbarung ist die Verbesserung der Übersetzungsgenauigkeit bei der Begegnung mit tonalen Wörtern.
  • Um die Vorteile und Merkmale der vorliegenden Erfindung weiter zu verdeutlichen, wird eine genauere Beschreibung der Erfindung durch Bezugnahme auf bestimmte Ausführungsformen davon, die in den beigefügten Figuren dargestellt sind, gegeben. Es wird davon ausgegangen, dass diese Figuren nur typische Ausführungsformen der Erfindung darstellen und daher nicht als einschränkend für ihren Umfang anzusehen sind. Die Erfindung wird mit zusätzlicher Spezifität und Detail mit den beigefügten Figuren beschrieben und erläutert werden.
  • Figurenliste
  • Diese und andere Merkmale, Aspekte und Vorteile der vorliegenden Erfindung werden besser verstanden, wenn die folgende detaillierte Beschreibung unter Bezugnahme auf die beigefügten Figuren gelesen wird, in denen gleiche Zeichen gleiche Teile in den Figuren darstellen, wobei:
    • 1 ein Blockdiagramm eines Systems zur Vorbereitung und Untersuchung eines Englisch (En)-Mizo (Mz)-Korpus durch Auffinden tonaler Wörter gemäß einer Ausführungsform der vorliegenden Offenbarung zeigt; und
    • 2 das English-to-Mizo NMT System gemäß einer Ausführungsform der vorliegenden Offenbarung zeigt.
  • Der Fachmann wird verstehen, dass die Elemente in den Figuren der Einfachheit halber dargestellt sind und nicht unbedingt maßstabsgetreu gezeichnet wurden. Die Flussdiagramme veranschaulichen beispielsweise das Verfahren in Form der wichtigsten Schritte, die zum besseren Verständnis der Aspekte der vorliegenden Erfindung beitragen. Darüber hinaus kann es sein, dass eine oder mehrere Komponenten der Vorrichtung in den Figuren durch herkömmliche Symbole dargestellt sind, und dass die Figuren nur die spezifischen Details zeigen, die für das Verständnis der Ausführungsformen der vorliegenden Erfindung von Bedeutung sind, um die Figuren nicht mit Details zu überfrachten, die für Fachleute, die mit der vorliegenden Beschreibung vertraut sind, ohne weiteres erkennbar sind.
  • DETAILLIERTE BESCHREIBUNG
  • Um das Verständnis der Erfindung zu fördern, wird nun auf die in den Figuren dargestellte Ausführungsform Bezug genommen und diese mit bestimmten Worten beschrieben. Es versteht sich jedoch von selbst, dass damit keine Einschränkung des Umfangs der Erfindung beabsichtigt ist, wobei solche Änderungen und weitere Modifikationen des dargestellten Systems und solche weiteren Anwendungen der darin dargestellten Grundsätze der Erfindung in Betracht gezogen werden, wie sie einem Fachmann auf dem Gebiet der Erfindung normalerweise einfallen würden.
  • Es versteht sich für den Fachmann von selbst, dass die vorstehende allgemeine Beschreibung und die folgende detaillierte Beschreibung beispielhaft und erläuternd für die Erfindung sind und diese nicht einschränken sollen.
  • Wenn in dieser Beschreibung von „einem Aspekt“, „einem anderen Aspekt“ oder ähnlichem die Rede ist, bedeutet dies, dass ein bestimmtes Merkmal, eine bestimmte Struktur oder eine bestimmte Eigenschaft, die im Zusammenhang mit der Ausführungsform beschrieben wird, in mindestens einer Ausführungsform der vorliegenden Erfindung enthalten ist. Daher können sich die Ausdrücke „in einer Ausführungsform“, „in einer anderen Ausführungsform“ und ähnliche Ausdrücke in dieser Beschreibung alle auf dieselbe Ausführungsform beziehen, müssen es aber nicht.
  • Die Ausdrücke „umfasst“, „enthaltend“ oder andere Variationen davon sollen eine nicht ausschließliche Einbeziehung abdecken, so dass ein Verfahren oder eine Methode, die eine Liste von Schritten umfasst, nicht nur diese Schritte einschließt, sondern auch andere Schritte enthalten kann, die nicht ausdrücklich aufgeführt sind oder zu einem solchen Verfahren oder einer solchen Methode gehören. Ebenso schließen eine oder mehrere Vorrichtungen oder Teilsysteme oder Elemente oder Strukturen oder Komponenten, die mit „umfasst...a“ eingeleitet werden, nicht ohne weitere Einschränkungen die Existenz anderer Vorrichtungen oder anderer Teilsysteme oder anderer Elemente oder anderer Strukturen oder anderer Komponenten oder zusätzlicher Vorrichtungen oder zusätzlicher Teilsysteme oder zusätzlicher Elemente oder zusätzlicher Strukturen oder zusätzlicher Komponenten aus.
  • Sofern nicht anders definiert, haben alle hierin verwendeten technischen und wissenschaftlichen Begriffe die gleiche Bedeutung, wie sie von einem Fachmann auf dem Gebiet, zu dem diese Erfindung gehört, gemeinhin verstanden wird. Das System und die Beispiele, die hier angegeben werden, sind nur illustrativ und nicht als Einschränkung gedacht.
  • Ausführungsformen der vorliegenden Erfindung werden im Folgenden unter Bezugnahme auf die beigefügten Figuren im Detail beschrieben.
  • 1 zeigt ein Blockdiagramm eines Systems (100) zur Vorbereitung und Untersuchung eines Englisch (En)-Mizo (Mz)-Korpus durch Auffinden tonaler Wörter. Das System (100) gemäß der vorliegenden Erfindung umfasst: eine sprachunabhängige Schlüsselwort-Extraktionseinheit (102) zum Extrahieren von Schlüsselwörtern mit tonalen Wörtern aus einsprachigen Mz-Daten; eine rückwärts gerichtete neuronale Maschinenübersetzungseinheit (NMT) (104) zum Erzeugen synthetischer En-Sätze aus den extrahierten Schlüsselwörtern mit tonalen Wörtern, wobei Leerzeilen und unterübersetzte Sätze aus den synthetischen En-Sätzen und den tonalen Mz-Sätzen entfernt werden, um synthetische parallele Sätze vorzubereiten; eine synthetische parallele Korpuseinheit (106), die mit einer ursprünglichen parallelen Korpuseinheit (108) verbunden ist, um Daten aus den erzeugten synthetischen En-Sätzen zu ergänzen; eine künstliche Token-Einheit (110), die so konfiguriert ist, dass sie Zielsätze für Mz und En am Anfang von Quellensätzen erkennt; eine Vorwärts-NMT-Einheit (112), um die gezielten Mz- und En-Sätze für die Vorwärts-En-zu-Mz-Übersetzung zu trainieren, wobei die trainierten Mz- und En-Sätze konfiguriert sind, um vorhergesagte Sätze zu erhalten, wobei die gezielten Mz- und En-Sätze unidirektional unter Verwendung eines unidirektionalen Parallelkorpus und bidirektional unter Verwendung eines bidirektionalen Parallelkorpus trainiert werden; und eine beispielbasierte Wörterbucheinheit (114), um die vorhergesagten Sätze nachzubearbeiten, wobei, wenn die Vorwärts-NMT-Einheit (112) nicht in der Lage ist, einen geeigneten Tonmarker im Übersetzungsprozess zu erfassen, die beispielbasierte Wörterbucheinheit (114) versucht, den betreffenden Tonmarker zu korrigieren.
  • In einer Ausführungsform wird die vorwärtsgerichtete NMT-Einheit (112) verwendet, um die vortrainierte Einheit von En zu nutzen.
  • In einer Ausführungsform verarbeitet die Vorwärts-NMT-Einheit (112) eine Eingangssequenz, indem sie die Eingangssequenz in Darstellungen transformiert.
  • In einer Ausführungsform verarbeitet eine NMT-Kodierschicht die Darstellungen durch eine Aufmerksamkeitseinheit für bidirektionale Kodierdarstellungen aus Transformatoren (BERT).
  • In einer Ausführungsform werden neben der NMT-Geberschicht auch die vorhergehenden Darstellungen der NMT-Geberschicht durch eine Selbstbeobachtung weiterverarbeitet.
  • In einer Ausführungsform erzeugt die Vorwärts-NMT-Einheit (112) eine verschmolzene Darstellung durch die NMT-Encoder-Schichten des Vorwärtsnetzwerks, indem sie die beiden Ausgaben der BERT-Encoder-Aufmerksamkeitseinheit und der Selbstaufmerksamkeit zusammenführt.
  • In einer Ausführungsform wird eine BERT-Decoder-Aufmerksamkeitseinheit in eine NMT-Decoder-Schicht eingeführt, um die Zielsätze vorherzusagen.
  • In einer Ausführungsform wird ein Adam-Optimierer mit einer Lernrate von 0.001, Drop-Outs von 0.3 im Falle von RNN und 0.1 im Falle von Transformer im Trainingsprozess der angestrebten Mz- und En-Sätze verwendet.
  • In einer Ausführungsform erzeugt die beispielbasierte Wörterbucheinheit (114) die tonalen Wörter mit entsprechenden tonalen Markierungen.
  • In einer Ausführungsform stellen die Tonmarkierungen in tonalen Wörtern die kontextuelle Bedeutung der Sätze dar
  • Das beispielbasierte Wörterbuch wird für die Nachbearbeitung der vorhergesagten Sätze verwendet. Das Schlüsselwort Kz wird in den vorhergesagten Sätzen gesucht, und wenn es gefunden wird, wird das Schlüsselwort Kz durch das Schlüsselwort von Ky ersetzt. Der Nachbearbeitungsschritt wird genutzt, um die betreffende Tonmarkierung mithilfe eines beispielbasierten Wörterbuchs zu korrigieren, wenn das trainierte Modell nicht in der Lage ist, die entsprechende Tonmarkierung im Übersetzungsprozess zu erfassen. Die beispielbasierte Wörterbucheinheit wird verwendet, da das tonale Wort kontextabhängig vom Vor- oder Nachwort des betreffenden tonalen Wortes ist.
  • Der vorgeschlagene Ansatz basiert auf der BERT-fusionierten NMT (Transformatormodell), einer bidirektionalen Datenerweiterung mit einem synthetischen Parallelkorpus und einem beispielbasierten Nachbearbeitungsschritt.
  • 2 zeigt das English-to-Mizo NMT System. Die vorliegende Erfindung umfasst 33.021 synthetische parallele Sätze, wobei der synthetische parallele Korpus mit dem ursprünglichen parallelen Korpus ergänzt wird, um Daten aus den generierten synthetischen En-Sätzen zu ergänzen. Dann wird ein künstliches Token am Anfang der Quellensätze hinzugefügt, um die Zielsätze zu erkennen, und mit BERT-fusionierter NMT für die Vorwärtsübersetzung von En nach Mz trainiert. Die BERT-fusionierte NMT wird verwendet, um das vorab trainierte Modell des Englischen zu nutzen, wobei die Mz- und En-Zielsätze unidirektional unter Verwendung eines unidirektionalen Parallelkorpus und bidirektional unter Verwendung eines bidirektionalen Parallelkorpus trainiert werden.
  • In der vorliegenden Erfindung wird ein System vorgeschlagen, um Englisch-Mizo-Korpus vorzubereiten und En-to-Mz-Übersetzung zu untersuchen, indem verschiedene NMT-Modelle auf dem entwickelten Datensatz erforscht werden, wenn tonale Wörter auftreten. Die BERT-fusionierte NMT mit bidirektionaler Datenerweiterung mit synthetischem Parallelkorpus und einem beispielbasierten Nachbearbeitungsschritt erreicht eine bessere Übersetzungsgenauigkeit als ein herkömmlicher Transformator und eine BERT-fusionierte NMT
  • In einer Ausführungsform werden Experimente sowohl für En-zu-Mz- als auch für Mzzu-En-Übersetzungen unter Verwendung eines RNN-Transformatormodells mit einem Teilwort-Segmentierungsprozess, d.h. Byte-Paar-Kodierung (BPE), durchgeführt. Die quantitativen Ergebnisse werden anhand der automatischen Bewertungsmetrik BLEU (bilingual evaluation understudy) und der menschlichen Bewertung (HE) an 100 zufällig ausgewählten Beispielsätzen durch einen Linguistikexperten bewertet. Eine Standardkonfiguration des Open NMT-py Toolkits wird verwendet, um das RNN und das Transformatormodell zu implementieren. Der Adam-Optimierer mit einer Lernrate von 0.001, Drop-outs von 0.3 (im Falle des RNN) und 0.1 (im Falle des Transformators) werden im Trainingsprozess verwendet. Die Standardkonfigurationen von Fair seq toolkit werden auch für die Implementierung von BERT-fusionierter NMT verwendet. Das vorliegende System stößt auf eine höhere Häufigkeit tonaler Wörter als herkömmliche Transformer- und BERT-fusionierte Transformer-Modelle, die weit von der Häufigkeit tonaler Wörter in Referenztestsätzen entfernt ist. Darüber hinaus generiert der Nachbearbeitungsansatz tonale Wörter mit entsprechenden tonalen Markern. Durch die Erfassung von Tonwertmarkern in tonalen Wörtern stellt das vorliegende System die kontextuelle Bedeutung der Sätze in signifikanter Weise dar.
  • Die Figuren und die vorangehende Beschreibung geben Beispiele für Ausführungsformen. Der Fachmann wird verstehen, dass eines oder mehrere der beschriebenen Elemente durchaus zu einem einzigen Funktionselement kombiniert werden können. Alternativ dazu können bestimmte Elemente in mehrere Funktionselemente aufgeteilt werden. Elemente aus einer Ausführungsform können einer anderen Ausführungsform hinzugefügt werden. So kann beispielsweise die Reihenfolge der hier beschriebenen Prozesse geändert werden und ist nicht auf die hier beschriebene Weise beschränkt. Darüber hinaus müssen die Aktionen eines Flussdiagramms nicht in der gezeigten Reihenfolge ausgeführt werden; auch müssen nicht unbedingt alle Aktionen durchgeführt werden. Auch können diejenigen Handlungen, die nicht von anderen Handlungen abhängig sind, parallel zu den anderen Handlungen ausgeführt werden. Der Umfang der Ausführungsformen ist durch diese spezifischen Beispiele keineswegs begrenzt. Zahlreiche Variationen sind möglich, unabhängig davon, ob sie in der Beschreibung explizit aufgeführt sind oder nicht, wie z. B. Unterschiede in der Struktur, den Abmessungen und der Verwendung von Materialien. Der Umfang der Ausführungsformen ist mindestens so groß wie in den folgenden Ansprüchen angegeben.
  • Vorteile, andere Vorzüge und Problemlösungen wurden oben im Hinblick auf bestimmte Ausführungsformen beschrieben. Die Vorteile, Vorzüge, Problemlösungen und Komponenten, die dazu führen können, dass ein Vorteil, ein Nutzen oder eine Lösung auftritt oder ausgeprägter wird, sind jedoch nicht als kritisches, erforderliches oder wesentliches Merkmal oder Komponente eines oder aller Ansprüche zu verstehen.
  • Bezugszeichenliste
  • 100
    Ein System zur Vorbereitung und Untersuchung eines Englisch (En)-Mizo (Mz) Korpus durch das Auffinden von tonalen Wörtern.
    102
    Sprachunabhängige Schlüsselwort-Extraktionseinheit
    104
    Neuronale maschinelle Rückwärtsübersetzung (NMT)
    106
    Einheit Synthetischer Parallelkorpus
    108
    Original-Parallelkorpus-Einheit
    110
    Künstliche Token-Einheit
    112
    Vorwärts-NMT-Einheit
    114
    Beispielbasierte Wörterbucheinheit
    202
    Mz einsprachiger Satz
    204
    Extrahiert
    206
    Mz Tonaler Satz
    208
    Rückwärts-NMT-Modell (Transformer)
    210
    En Synthetischer Satz
    212
    Synthetischer Parallelkorpus
    214
    Original-Parallelkorpus
    216
    Datenerweiterung
    218
    Ausbildung
    220
    Vorwärts-NMT-Modell (BERT-Fused)Transformator
    222
    Nachbearbeitung
    224
    Vorausgesagter Satz (Mz)
    226
    Ausgangssatz (En)

Claims (10)

  1. System (100) zum Vorbereiten und Untersuchen eines Englisch (En)-Mizo (Mz)-Korpus durch Auffinden tonaler Wörter, wobei das Verfahren umfasst: eine sprachunabhängige Schlüsselwort-Extraktionseinheit (102) zur Extraktion von Schlüsselwörtern mit tonalen Wörtern aus einsprachigen Daten von Mz; eine rückwärts gerichtete neuronale Maschinenübersetzungseinheit (NMT) (104), um synthetische En-Sätze aus den extrahierten Schlüsselwörtern mit tonalen Wörtern zu erzeugen, wobei Leerzeilen und unterübersetzte Sätze aus den synthetischen En-Sätzen und den tonalen Mz-Sätzen entfernt werden, um synthetische parallele Sätze vorzubereiten; eine synthetische parallele Korpuseinheit (106), die mit einer ursprünglichen parallelen Korpuseinheit (108) verbunden ist, um die Daten aus den erzeugten synthetischen Sätzen zu ergänzen; eine künstliche Token-Einheit (110), die so konfiguriert ist, dass sie Zielsätze für Mz und En am Anfang von Quellensätzen erkennt; eine Vorwärts-NMT-Einheit (112), um die gezielten Mz- und En-Sätze für die Vorwärts-En-zu-Mz-Übersetzung zu trainieren, wobei die trainierten Mz- und En-Sätze konfiguriert sind, um vorhergesagte Sätze zu erhalten, wobei die gezielten Mz- und En-Sätze unidirektional unter Verwendung eines unidirektionalen Parallelkorpus und bidirektional unter Verwendung eines bidirektionalen Parallelkorpus trainiert werden; und eine auf Beispielen basierende Wörterbucheinheit (114), um die vorhergesagten Sätze nachzubearbeiten, wobei die auf Beispielen basierende Wörterbucheinheit (114) versucht, den betreffenden Tonmarker zu korrigieren, wenn die Forward-NMT-Einheit (112) nicht in der Lage ist, einen geeigneten Tonmarker in dem Übersetzungsprozess zu erfassen.
  2. System nach Anspruch 1, wobei die Vorwärts-NMT-Einheit (112) dazu verwendet wird, die vortrainierte Einheit von En zu nutzen.
  3. System nach Anspruch 1, wobei die Vorwärts-NMT-Einheit (112) eine Eingangssequenz verarbeitet, indem sie die Eingangssequenz in Darstellungen transformiert.
  4. System nach Anspruch 1, wobei eine NMT-Kodierschicht die Darstellungen durch eine BERT (Bidirectional Encoder Representations from Transformers)-Kodieraufmerksamkeitseinheit verarbeitet.
  5. System nach Anspruch 1, wobei neben der NMT-Codierschicht eine Selbstbeobachtung weiterhin die vorherigen NMT-Codierschichtdarstellungen verarbeitet.
  6. System nach Anspruch 1, wobei die vorwärtsgerichtete NMT-Einheit (112) eine verschmolzene Darstellung durch das vorwärtsgerichtete Netzwerk der NMT-Kodierschichten erzeugt, indem sie die beiden Ausgaben der BERT-Kodier-Aufmerksamkeitseinheit und der Selbstaufmerksamkeit zusammenführt.
  7. System nach Anspruch 1, bei dem eine BERT-Decoder-Aufmerksamkeitseinheit in eine NMT-Decoderschicht eingeführt wird, um die Zielsätze vorherzusagen.
  8. System nach Anspruch 1, wobei ein Adam-Optimierer mit einer Lernrate von 0.001, Drop-Outs von 0.3 im Fall von RNN und 0.1 im Fall von Transformer im Trainingsprozess der gezielten Mz- und En-Sätze verwendet wird.
  9. System nach Anspruch 1, wobei die beispielbasierte Wörterbucheinheit (114) die tonalen Wörter mit geeigneten tonalen Markern erzeugt.
  10. System nach Anspruch 1, wobei die Tonmarkierungen in tonalen Wörtern die kontextuelle Bedeutung der Sätze darstellen.
DE202022104426.0U 2022-08-03 2022-08-03 System zur Vorbereitung und Untersuchung eines Englisch-Mizo-Korpus durch Auffinden von tonalen Wörtern Active DE202022104426U1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE202022104426.0U DE202022104426U1 (de) 2022-08-03 2022-08-03 System zur Vorbereitung und Untersuchung eines Englisch-Mizo-Korpus durch Auffinden von tonalen Wörtern

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE202022104426.0U DE202022104426U1 (de) 2022-08-03 2022-08-03 System zur Vorbereitung und Untersuchung eines Englisch-Mizo-Korpus durch Auffinden von tonalen Wörtern

Publications (1)

Publication Number Publication Date
DE202022104426U1 true DE202022104426U1 (de) 2022-08-09

Family

ID=83005493

Family Applications (1)

Application Number Title Priority Date Filing Date
DE202022104426.0U Active DE202022104426U1 (de) 2022-08-03 2022-08-03 System zur Vorbereitung und Untersuchung eines Englisch-Mizo-Korpus durch Auffinden von tonalen Wörtern

Country Status (1)

Country Link
DE (1) DE202022104426U1 (de)

Similar Documents

Publication Publication Date Title
DE3788488T2 (de) Sprachenübersetzungssystem.
DE102020205786B4 (de) Spracherkennung unter verwendung von nlu (natural language understanding)-bezogenem wissen über tiefe vorwärtsgerichtete neuronale netze
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
DE68913669T2 (de) Namenaussprache durch einen Synthetisator.
DE60123952T2 (de) Erzeugung von einem einheitlichen aufgabeabhängigen sprachmodell mittels informationsauffindungverfahren
DE69829389T2 (de) Textnormalisierung unter verwendung einer kontextfreien grammatik
DE69829074T2 (de) Identifizierung der sprache und des zeichensatzes aus text-repräsentierenden daten
DE19721198C2 (de) Statistisches Sprachmodell für flektierende Sprachen
DE69925831T2 (de) Maschinenunterstützte übersetzungswerkzeuge
DE112017006151T5 (de) Anpassbare Verarbeitungskomponenten
EP3100174A1 (de) Verfahren zur automatischen sinnerkennung und messung der eindeutigkeit von text
DE19825205C2 (de) Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz
DE102013202365A1 (de) Herausziehen von informationen aus krankenakten
DE202005022113U1 (de) Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet
DE102017124264A1 (de) Bestimmen phonetischer Beziehungen
DE102018007165A1 (de) Vorhersage von stilbrüchen innerhalb eines textinhalts
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
CN113268576B (zh) 一种基于深度学习的部门语义信息抽取的方法及装置
Dotan et al. Separate mechanisms for number reading and word reading: Evidence from selective impairments
DE102022201753A1 (de) Erweiterung Graph- basierter Kennzeichnungsregeln für schwach überwachtesTraining von auf maschinellem Lernen basierender Eigennamenerkennung
DE102021202469A1 (de) System und verfahren zur generativen textzusammenfassung
CN116304023A (zh) 一种基于nlp技术的招投标要素抽取方法、系统及存储介质
WO2014000764A1 (en) A system and method for automatic generation of a reference utility
CN115130038A (zh) 网页分类方法及装置
Wang et al. Corpus research on hedges in linguistics and EFL journal papers

Legal Events

Date Code Title Description
R207 Utility model specification
R082 Change of representative

Representative=s name: LIPPERT STACHOW PATENTANWAELTE RECHTSANWAELTE , DE