EP3494488A1 - Verfahren zum zumindest teilweise maschinellen transferieren in einer quellsprache abgefassten wortfolge in eine wortfolge einer zielsprache - Google Patents

Verfahren zum zumindest teilweise maschinellen transferieren in einer quellsprache abgefassten wortfolge in eine wortfolge einer zielsprache

Info

Publication number
EP3494488A1
EP3494488A1 EP17755228.8A EP17755228A EP3494488A1 EP 3494488 A1 EP3494488 A1 EP 3494488A1 EP 17755228 A EP17755228 A EP 17755228A EP 3494488 A1 EP3494488 A1 EP 3494488A1
Authority
EP
European Patent Office
Prior art keywords
term
word sequence
source language
language
lexical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
EP17755228.8A
Other languages
English (en)
French (fr)
Inventor
Ute Rummel
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Claas Selbstfahrende Erntemaschinen GmbH
Original Assignee
Claas Selbstfahrende Erntemaschinen GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Claas Selbstfahrende Erntemaschinen GmbH filed Critical Claas Selbstfahrende Erntemaschinen GmbH
Publication of EP3494488A1 publication Critical patent/EP3494488A1/de
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation

Definitions

  • the present invention relates to a method for at least partially mechanically transferring a word sequence written in a source language into a meaning-correspondingly corresponding word sequence of a target language according to the preamble of claim 1 and to a data processing device according to the preamble of claim 12.
  • CONFIRMATION COPY In contrast to a human translator, a word sequence that has been translated into a meaning-corresponding word order of a target language is not or only conditionally able to recognize the context of a word sequence in the source language in which the term is used in order to assign it to the correct term in the target language to be able to assign. Accordingly, a machine translation requires a revision by a human translator when it comes to dispel misunderstandings in terms of content and avoid them. This applies in particular to translations in sensitive areas such as technical documentation.
  • Object of the present invention is to further develop the method and the data processing device of the type mentioned in such a way that they are characterized by a lower error rate and a higher processing speed.
  • a method for at least partially mechanically transferring a word sequence written in a source language into a meaning-correspondingly corresponding word sequence of a target language is proposed, which is characterized by the following method steps: a) entering the word order written in the source language;
  • the word sequence to be translated which may be composed of a single term or terms, is entered by, for example, providing it as an existing electronic document or by means of text recognition software or otherwise, for example typing using a keyboard, as a computer readable Text is provided.
  • the single term or terms of the input word sequence are automatically analyzed and the presence of one or more lexical ambiguity terms identified by comparison with a terminology database lexical ambiguity term dictionary.
  • the terms with lexical ambiguity of the terminology database are several, depending on their meaning number
  • the term identifier may each be implemented as a consecutive numbering representing the number of different meanings of a term with lexical ambiguity.
  • the selection of a term identifier is performed depending on the context of the word order written in the source language. Based on the selection of the selected term identifier, the corresponding term is determined in the target language.
  • contextual- The meaning of the term with lexical ambiguity in the target language is then translated into the target language with the lexical uniqueness of the word sequence written in the source language. Following this, the word sequence transferred to the target language is output.
  • the essential advantage of the method is that the assignment of the term identifier to the term with lexical ambiguity in the source language provides a clear definition of the term for translating the word sequence into the target language. This makes a translation less error prone, resulting in a significant reduction in post processing.
  • the word sequence written in the source language and the word sequence output in the target language can be stored as separate electronic documents. This allows a simple data exchange as well as a simple further processing or processing of the word sequences written or generated.
  • the respective term identifier may be assigned to the identified term with lexical ambiguity worded in the source language as a machine-readable label. This has the advantage that in a later check of the source text, it is readily possible to keep track of the specific meaning assigned to the identified term with lexical ambiguity within a word sequence.
  • the respective term identifier can be assigned to the term selected in the target language as the translation of the term with lexical ambiguity as a machine-readable label.
  • the respective label can be embedded in the stored document as a logical link to the term stored in the terminology database with lexical ambiguity. This simplifies visualization of the selected meaning of the term with lexical ambiguity.
  • the logical link allows direct access to the entry of the terminology database corresponding to the term identifier.
  • the respective meaning can be represented in text form and / or in graphical form by means of the assigned term identifier.
  • the logical link can be realized for example in the form of a so-called hyperlink, which is embedded in the text of the electronic document when selecting the term identifier.
  • the respective label within the electronic document by means of a filter function can be faded in and out. This makes it possible to increase the readability of the text of the electronic document.
  • the stored electronic document can be converted into different file formats for later further processing, the labels associated with the respective term having lexical ambiguity being obtained. This preserves the link between the term with lexical ambiguity, the term identifier and the meaning stored in the terminology database in order to be able to keep track of the selected assignment of the term identifier during the translation process.
  • At least one keyword is stored to determine the context of the word sequence.
  • at least one keyword can be entered or linked to it, which in an automatic selection of the term identifier in Depending on the context of the word sequence written in the source language can be used.
  • the automation of the method can be extended.
  • the at least one keyword can thereby lead to a reduction of the available for a term with lexical ambiguity selectable term identifiers.
  • a request for manual assignment of the label may be issued.
  • a person inputting the word sequence written in the source language is alerted by means of an automatically generated indication of the existence of a term with lexical ambiguity, and is prompted to appropriately select a term from among the number of terms provided by the terminology database.
  • the term corresponding to the identified term with lexical ambiguity can be assigned the term identifier corresponding to the context, which is assigned as a machine-readable label to the identified term with lexical ambiguity within the input electronic document.
  • a term with lexical uniqueness of the source language can be assigned a term identifier if the corresponding one in the target language is a term with lexical ambiguity.
  • the term identifier can refer to the terminology database of the target language.
  • a data processing device for automatically transferring a word sequence written in a source language into a meaning-corresponding word sequence of a target language comprising:
  • a memory device in which a term with lexical ambiguity of the source language comprehensive terminology database, to which a plurality of term identifiers are assigned depending on their meaning number, is deposited;
  • a processing means adapted to analyze the input word sequence and the identification terms with lexical ambiguity in the word sequence by comparison with the terms with lexical ambiguity of the terminology database
  • processing device is set up to select a term identifier in dependence on a context of the word sequence written in the source language, the processing device is set up to select a term corresponding to the selected term identifier in the target language, and
  • processing means is adapted to translate the terms with lexical uniqueness of the word order in the target language; such as
  • the device for entering the word sequence written in the source language is set up so that a direct or indirect input of the word sequence can take place.
  • the input can be viewed by means of a keyboard, that is, an operator type in a word sequence.
  • the input can be made by means of an opto-mechanical device by means of which a word sequence is captured as a graphic and converted into machine-readable data.
  • Optical character recognition transforms the graphic into a string that is merged into an electronic document.
  • the transmission of an electronic document from a computer regardless of its mode of origin, can be transmitted by means of a network to the device for inputting the data processing device.
  • the memory device In the memory device, a term with lexical ambiguity of the source language comprehensive terminology database is deposited. The terms with lexical ambiguity are assigned a number of term identifiers depending on their meaning number.
  • the memory device serves, inter alia, as memory for input word sequences or electronic documents.
  • the processing means By means of the processing means arranged to analyze the input word sequence and to identify lexical ambiguity terms in the word order by matching the lexical ambiguity terms of the terminology database, the input word sequence is analytically analyzed for the presence of lexical ambiguity terms. Siert. To this end, the processing means accesses the terminology database with the terms of lexical ambiguity contained in the source language to identify individual terms with lexical ambiguity within a word order.
  • the processing device is set up to select a term identifier as a function of a context of the word sequence written in the source language.
  • the corresponding term identifier is selected in order to give the identified term with lexical ambiguity of the word sequence its meaning corresponding to the context.
  • the selection can for example be made automatically based on one or more keywords, which are given to the entered word sequence.
  • the processing device is set up to translate terms with lexical uniqueness of the word order into the target language.
  • the transferred word sequence is provided.
  • FIG. 1 is a schematic representation of a data processing device
  • FIG. 2 is a simplified flow diagram of a method for automatically transferring a word sequence written in a source language into a meaning-corresponding word sequence of a target language
  • FIG. 2 is a simplified flow diagram of a method for automatically transferring a word sequence written in a source language into a meaning-corresponding word sequence of a target language
  • FIG. 3 shows an illustration of the method with reference to a concrete example of a word sequence.
  • FIG. 1 shows a schematic representation of a data processing device 1, which is set up for the purpose of mechanically transferring a word sequence written in a source language into a word sequence of a target language corresponding in meaning.
  • the data processing device 1 comprises a device for input 2 of a word sequence written in a source language, a memory device 3, a processing device 4 and a device for outputting the word sequence in a target language.
  • a programming interface is provided which has access to a network 10, in particular the Internet, in order to cooperate with a corresponding application or other inputting device, for example a keyboard, a scanner, a data carrier or the like more.
  • the memory device 3 is used for the non-volatile storage of one or more application programs 6, at least one terminology database 7 and the storage of the word sequence entered in the source language or the transferred into the target language word sequence as a file 8, 9.
  • the number of required terminology databases 7 is based on the Number of source and target languages in which word sequences are to be entered.
  • the processing device 4 has processors that are set up to execute application programs.
  • the processing device 4 is in bidirectional data exchange with the memory device 3.
  • the device for output 5 is also designed as a programming interface (API). Alternatively or additionally, the For example, it may be a device for outputting 5 as a screen, a printer or any other device serving to output data.
  • the input of a word sequence by means of the device designed as a programming interface for input 2 of the data processing device 1 is carried out in the illustrated embodiment by a provided on a decentralized computer 11 application software, in the simplest case a web browser 12th
  • FIG. 2 shows a simplified flowchart of a method for the automatic transfer of a word sequence written in a source language into a word sequence of a target language corresponding in meaning.
  • the source language of the input word sequence can be automatically recognized by appropriate analysis by means of the processing device.
  • the source language and the target language are given.
  • a step 20 the input of a word sequence consisting of at least one word by means of the input device 2 takes place.
  • the word sequence entered in a source language is stored in the memory device 3 as a file 8.
  • the semantic and syntactic analysis of the input word sequence is performed by the processing device 4.
  • the input word sequence is read from the processing device 4 from the memory device 3.
  • the analysis involves checking the word order for the existence of at least one term with lexical ambiguity.
  • An example of a term with lexical ambiguity is the German word "Tau", which may mean a rope, the morning rainfall or a letter of the Greek alphabet
  • the processing of the input word sequence is carried out sequentially Analyzing the word sequence and the at least one identified one
  • the term with lexical ambiguity in the word sequence is performed by matching the terms with lexical ambiguity of the source language comprehensive terminology database 7 of the memory device 3.
  • step 21 If at least one term with lexical ambiguity is identified in the course of the analysis in step 21, then in a subsequent step 22 an indication of the existence of a term with lexical ambiguity is output. This is done in the present embodiment by an output on the computer 1 1, by means of which the word sequence to be transferred is entered in the source language. Related to this is the requirement to define the term with lexical ambiguity in terms of its meaning in the context of the word order.
  • a selection of the possible meanings or definitions of the term with lexical ambiguity as a function of different contexts is displayed in step 23 on the basis of the term with lexical ambiguity identified when matching with the terminology database 7 to which a plurality of term identifiers are assigned depending on its meaning number.
  • the meaning number of the term with lexical ambiguity "Tau" would correspond to the value three, in the above example that this three term identifiers are assigned. From this illustrated selection, which can be done as a simple tabular listing of different meanings, to a text output combined with a graphical illustration, the one term identifier corresponding to the context of the input word sequence is selected.
  • this selected term identifier is assigned to the term with lexical ambiguity.
  • This assignment of the specific term identifier is shown in the file 8, which contains the word sequence in the source contains saved.
  • the respective term identifier is associated with the lexical ambiguity identified in the source language as a machine-readable label.
  • step 25 the translation of the analyzed word sequence from the source language into the target language takes place.
  • the selection of a term corresponding to the selected term identifier in the target language and, on the other hand, the translation of the terms with lexical uniqueness of the word sequence into the target language, so that a meaning sequence corresponding word sequence is generated.
  • a step 26 the assignment of the term identifier selected in step 23 to the term of the target language corresponding to the identified term with lexical ambiguity of the source language takes place.
  • the respective term identifier by means of which the term was selected in the target language, is likewise assigned to the corresponding term of the target language as a machine-readable label.
  • the translation of the word order into the target language is stored in the file 9 together with the associated labell or notes.
  • This assignment allows a later resort to the terminology database 7, that is, the retrieval and representation of the respective identified term with lexical ambiguity in the source language and its meaning and the term resulting from the selection of the term identifier in the target language. Again, this representation can be done as a simple tabular listing, up to a textual output combined with a graphical illustration of the meaning.
  • step 27 the word order is output in the target language.
  • the output is made according to the selected embodiment by the web browser 12.
  • Fig. 3 illustrates the method with reference to a concrete example of a word sequence.
  • one from the computer 11 to the data processing unit comprises Direction 1 transmitted in the source language word sequence 30 the individual terms "Please take the brake.”
  • This word sequence for example, written in an HTML format is entered by means of the input device 3 in the data processing device 1 for further processing
  • Analysis of the word order in step 21 is identified next to the terms with lexical uniqueness 31 "Please refer to” the term lexical ambiguity 32 "brake.”
  • the terminology database 7 for this term with lexical ambiguity 32 has two possible meanings 35, 36 , so that two term identifiers 33, 34 have been assigned.
  • the term identifiers 33, 34 represent a key of the terminology database 7.
  • lexical ambiguity 32 is intended to be in the context of an assembly to stop a movement and not an insect
  • definition of the term “lexical ambiguity” "brake” in the sense of an insect is associated with the term identifier 33.
  • definition of the term “lexical ambiguity” "brake” in the sense of an assembly for stopping a movement is assigned to the term identifier 34.
  • the term identifier 34 is selected according to the context of the word order. The selection is made, as already described above, manually by an operator or automated. The assignment of the selected term identifier 34 to the lexical ambiguity term 32 in the source language occurs in step 24, as already explained. Through the selection of the term identifier 34, the meaning-corresponding word order is defined in the target language. Thus, for the translation of the term with lexical ambiguity 32 "brake” not the corresponding English-language term 37 "horsefly" but the term 38 "brake” is used. chooses. The selected term 38 is assigned the term identifier 34, which is retained in the word sequence 39 to be output in the target language. This is done in steps 26 and 27.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

Die vorliegende Erfindung betrifft ein Verfahren zum zumindest teilweise maschinellen Transferieren einer in einer Quellsprache abgefassten Wortfolge (30) in eine bedeutungsinhaltlich korrespondierende Wortfolge (39) einer Zielsprache. Durch das Analysieren der Wortfolge (30) in der Quellsprache und das Identifizieren von Begriffen mit lexikalischer Mehrdeutigkeit (32) in der Wortfolge durch Abgleich mit einer Begriffe mit lexikalischer Mehrdeutigkeit der Quellsprache umfassenden Terminologiedatenbank (7), denen in Abhängigkeit von ihrer Bedeutungsanzahl mehrere Begriffsidentifikatoren (33, 34) zugeordnet sind, wird durch eine Zuordnung eines Begriffsidentifikators (33, 34) zu dem Begriff mit lexikalischer Mehrdeutigkeit (32) in der Quellsprache eine eindeutige Begriffsdefinition zur Übersetzung der Wortfolge (39) in die Zielsprache zur Verfügung gestellt. Dadurch wird eine insbesondere vollständig maschinelle Übersetzung weniger fehleranfällig.

Description

Anmelderin:
CLAAS Selbstfahrende Erntemaschinen GmbH
Verfahren zum zumindest teilweise maschinellen Transferieren einer in einer Quellsprache abgefassten Wortfolge in eine Wortfolge einer Zielsprache
Die vorliegende Erfindung betrifft ein Verfahren zum zumindest teilweise maschinellen Transferieren einer in einer Quellsprache abgefassten Wortfolge in eine bedeutungsinhaltlich korrespondierende Wortfolge einer Zielsprache gemäß dem Oberbegriff des Anspruches 1 sowie eine Datenverarbeitungseinrichtung gemäß dem Oberbegriff des Anspruches 12.
Bei der Übersetzung eines aus einer Wortfolge oder mehreren Wortfolgen gebildeten Textes einer Quellsprache in eine bedeutungsinhaltlich korrespondierende Wortfolge einer Zielsprache ist es wesentlich, den Kontext der Wortfolge zu erkennen, um sprachliche Missverständnisse zu vermeiden. Sprachliche Missverständnisse beruhen im Allgemeinen auf einer Fehlinterpretation eines einzelnen Begriffes in einer Wortfolge, welchem in der Quellsprache in Abhängigkeit vom Kontext, in welchem dieser Begriff genutzt wird, verschiedene inhaltliche Bedeutungen zukommen. Man spricht in diesem Zusammenhang von einem homonymen beziehungsweise polysemen Begriff oder auch von einem Begriff mit lexikalischer Mehrdeutigkeit. Beispielhaft sei hierfür der deutsche Begriff„Verletzung" angeführt, der bei einer Übersetzung ins Englische unterschiedlich interpretierbar ist. So kann der deutsche Begriff„Verletzung" unter anderem im Englischen mit„injury" oder„infringement" übersetzt werden. Während der Begriff„injury" im medizinischen Kontext als das Vorliegen physischen Verletzung eines Lebewesens verstanden wird, wird der Begriff„infringement" im juristischen Kontext als eine Rechtsverletzung durch eine Handlung eines Dritten verwendet. Ein Verfahren respektive eine Datenverarbeitungseinrichtung zum zumindest teilweise maschinellen Transferieren einer in einer Quellsprache
BESTÄTIGUNGSKOPIE abgefassten Wortfolge in eine bedeutungsinhaltlich korrespondierende Wortfolg einer Zielsprache ist, im Gegensatz zu einem Humanübersetzer, nicht oder nur bedingt in der Lage, den Kontext einer Wortfolge in der Quellsprache zu erkennen, in welchem der Begriff verwendet wird, um diesen dem richtigen Begriff in der Zielsprache zuordnen zu können. Entsprechend bedarf eine maschinelle Übersetzung einer Überarbeitung durch einen Humanübersetzer, wenn es gilt, inhaltliche Missverständnisse auszuräumen und zu vermeiden. Dies gilt insbesondere für Übersetzungen in sensiblen Bereichen wie technische Dokumentationen.
Aus der EP 0 737 928 A1 sind ein Verfahren sowie eine Datenverarbeitungseinrichtung der eingangs genannten Art vorbekannt.
Aufgabe der vorliegenden Erfindung ist es, das Verfahren sowie die Datenverarbeitungseinrichtung der eingangs genannten Art derart weiterzuentwickeln, dass diese sich durch eine geringere Fehleranfälligkeit und eine höhere Verarbeitungsgeschwindigkeit auszeichnen.
Diese Aufgabe wird bezogen auf ein Verfahren zum zumindest teilweise maschinellen Transferieren einer in einer Quellsprache abgefassten Wortfolge in eine bedeutungsinhaltlich korrespondierende Wortfolge einer Zielsprache durch die kennzeichnenden Merkmale des Anspruches 1 und bezüglich einer Datenverarbeitungseinrichtung durch die kennzeichnenden Merkmale des Anspruches 12 gelöst.
Vorteilhafte Weiterbildungen der Erfindung sind Gegenstand der Unteransprüche.
Gemäß dem Anspruch 1 wird ein Verfahren zum zumindest teilweise maschinellen Transferieren einer in einer Quellsprache abgefassten Wortfolge in eine bedeutungsinhaltlich korrespondierende Wortfolge einer Zielsprache vorgeschla gen, welches durch die nachfolgenden Verfahrensschritte gekennzeichnet ist: a) Eingeben der in der Quellsprache abgefassten Wortfolge;
b) Analysieren der Wortfolge und Identifizieren von Begriffen mit lexikalischer Mehrdeutigkeit in der Wortfolge durch Abgleich mit einer Begriffe mit lexikalischer Mehrdeutigkeit der Quellsprache umfassenden Terminologiedatenbank, denen in Abhängigkeit von ihrer Bedeutungsanzahl mehrere Begriffsidentifi- katoren zugeordnet sind;
c) Auswahl eines Begriffsidentifikators in Abhängigkeit vom Kontext der in der Quellsprache abgefassten Wortfolge;
d) Auswahl eines mit dem ausgewählten Begriffsidentifikator korrespondierenden Begriffes in der Zielsprache;
e) Übersetzen der Begriffe mit lexikalischer Eindeutigkeit der Wortfolge in die Zielsprache;
f) Ausgeben der Wortfolge in der Zielsprache.
Die zu übersetzende Wortfolge, die sich aus einem einzelnen Begriff oder mehreren Begriffen zusammensetzen kann, wird eingegeben, indem diese beispielsweise als bestehendes elektronisches Dokument zur Verfügung gestellt oder mittels einer Texterkennungssoftware erfasst oder in sonstiger Weise, zum Beispiel Eintippen mittels einer Tastatur, als ein computerlesbarer Text bereitgestellt wird. Der einzelne Begriff oder die Begriffe der eingegebenen Wortfolge werden automatisiert analysiert und das Vorliegen eines oder mehrerer Begriffe mit lexikalischer Mehrdeutigkeit durch einen Abgleich mit einer Begriffe mit lexikalischer Mehrdeutigkeit der Quellsprache umfassenden Terminologiedatenbank identifiziert. Den Begriffen mit lexikalischer Mehrdeutigkeit der Terminologiedatenbank sind in Abhängigkeit von ihrer Bedeutungsanzahl mehrere
Begriffsidentifikatoren zugeordnet. Der Begriffsidentifikator kann jeweils als eine fortlaufende Nummerierung ausgeführt sein, die für die Anzahl unterschiedlicher Bedeutungen eines Begriffes mit lexikalischer Mehrdeutigkeit steht. Die Auswahl eines Begriffsidentifikators wird in Abhängigkeit vom Kontext der in der Quellsprache abgefassten Wortfolge durchgeführt. Basierend auf der Auswahl des ausgewählten Begriffsidentifikators wird der korrespondierende Begriff in der Zielsprache bestimmt. In Kenntnis der inhaltlichen, sich am Kontext orientieren- den Bedeutung des Begriffes mit lexikalischer Mehrdeutigkeit in der Zielsprache werden dann die übrigen Begriffe mit lexikalischer Eindeutigkeit der in der Quellsprache abgefassten Wortfolge in die Zielsprache übersetzt. Im Anschluss daran wird die in die Zielsprache transferierte Wortfolge ausgegeben. Der wesentliche Vorteil des Verfahrens besteht darin, dass durch die Zuordnung des Begriffsidentifikators zu dem Begriff mit lexikalischer Mehrdeutigkeit in der Quellsprache eine eindeutige Begriffsdefinition zur Übersetzung der Wortfolge in die Zielsprache zur Verfügung steht. Dadurch wird eine Übersetzung weniger fehleranfällig, was zu einer signifikanten Reduzierung einer Nachbearbeitung führt.
Vorteilhafterweise können die in der Quellsprache abgefasste eingegebene Wortfolge und die in der Zielsprache ausgegebene Wortfolge als separate elektronische Dokumente abgespeichert werden. Dies ermöglicht einen einfachen Datenaustausch sowie eine einfache Weiterbe- oder -Verarbeitung der abgefassten beziehungsweise erzeugten Wortfolgen.
Vorzugsweise kann der jeweilige Begriffsidentifikator dem in der Quellsprache abgefassten identifizierten Begriff mit lexikalischer Mehrdeutigkeit als ein maschinenlesbares Label zugeordnet werden. Dies hat den Vorteil, dass bei einer späteren Überprüfung des Quelltextes es ohne weiteres möglich ist, die dem identifizierten Begriff mit lexikalischer Mehrdeutigkeit zugordnete spezifische Bedeutung innerhalb einer Wortfolge nachzuhalten.
Insbesondere kann der jeweilige Begriffsidentifikator dem in der Zielsprache als Übersetzung des Begriffes mit lexikalischer Mehrdeutigkeit ausgewählten Begriff als ein maschinenlesbares Label zugeordnet werden. Dies hat den Vorteil, dass eine Person, welche die in die Zielsprache transferierte Wortfolge inhaltlich überprüft, in die Lage versetzt wird, die vorgenommene Auswahl des Begriffsidentifikators nachzuvollziehen. Eine mit der Übersetzung der Wortfolge beauftragte Person erhält automatisiert Zusatzinformationen, wodurch sich eine Erhöhung der Qualität der Übersetzung erreichen lässt. Eine Person, welche die in die Zielsprache übersetzte Wortfolge liest, erhält auf diesem Wege eine Zusatzinformation, wodurch die übersetzte Wortfolge verständlicher wird.
Weiterhin kann das jeweilige Label in dem abgespeicherten Dokument als eine logische Verknüpfung zu dem in der Terminologiedatenbank hinterlegten Begriff mit lexikalischer Mehrdeutigkeit eingebettet werden. Dies vereinfacht eine Visualisierung der ausgewählten Bedeutung des Begriffes mit lexikalischer Mehrdeutigkeit. So kann durch die logische Verknüpfung ein direkter Zugriff auf den mit dem Begriffsidentifikator korrespondierenden Eintrag der Terminologiedatenbank ermöglicht werden. Insbesondere kann mittels des zugeordneten Begriffsidentifikators die jeweilige Bedeutung in Textform und/oder in grafischer Form dargestellt werden. Die logische Verknüpfung kann beispielsweise in Form eines sogenannten Hyperlinks realisiert werden, der bei Auswahl des Begriffsidentifikators in den Text des elektronischen Dokumentes eingebettet wird.
Vorzugsweise kann das jeweilige Label innerhalb des elektronischen Dokumentes mittels einer Filterfunktion ein- und ausgeblendet werden. Hierdurch lässt sich die Lesbarkeit des Textes des elektronischen Dokumentes erhöhen.
Des Weiteren kann das abgespeicherte elektronische Dokument zu einer späteren Weiterverarbeitung in unterschiedliche Dateiformate konvertiert werden, wobei die dem jeweiligen Begriff mit lexikalischer Mehrdeutigkeit zugeordneten Label erhalten werden. Dadurch bleibt die Verknüpfung zwischen dem Begriff mit lexikalischer Mehrdeutigkeit, dem Begriffsidentifikator und der in der Terminologiedatenbank hinterlegten Bedeutung erhalten, um die gewählte Zuordnung des Begriffsidentifikators während des Übersetzungsvorganges nachhalten zu können.
Vorteilhaft ist es, wenn zur Bestimmung des Kontextes der Wortfolge zumindest ein Schlüsselwort hinterlegt wird. Mit der Eingabe der zu transferierenden Wortfolge kann zumindest ein Schlüsselwort eingegeben oder mit dieser verknüpft werden, welches bei einer automatischen Auswahl des Begriffsidentifikators in Abhängigkeit vom Kontext der in der Quellsprache abgefassten Wortfolge herangezogen werden kann. Hierdurch kann die Automatisierung des Verfahrens erweitert werden. Das zumindest eine Schlüsselwort kann dabei zu einer Reduzierung der für einen Begriff mit lexikalischer Mehrdeutigkeit zur Verfügung stehenden auswählbaren Begriffsidentifikatoren führen.
Alternativ oder zusätzlich kann während der Identifikation eines Begriffes mit lexikalischer Mehrdeutigkeit innerhalb der Wortfolge eine Aufforderung zur manuellen Zuordnung des Labels ausgegeben werden. Eine die in der Quellsprache abgefasste Wortfolge eingebende Person wird mittels eines automatisiert generierten Hinweises auf das Vorhandensein eines Begriffes mit lexikalischer Mehrdeutigkeit aufmerksam gemacht und zu einer entsprechenden Auswahl eines Begriffes aus der Anzahl von Begriffen, die mittels der Terminologiedatenbank bereitgestellt werden, aufgefordert. Hierbei kann während der Eingabe der in der Quellsprache abgefassten Wortfolge dem identifizierten Begriff mit lexikalischer Mehrdeutigkeit der dem Kontext entsprechende Begriffsi- dentifikator zugeordnet werden, welcher als maschinenlesbares Label dem identifizierten Begriff mit lexikalischer Mehrdeutigkeit innerhalb des eingegebenen elektronischen Dokumentes zugewiesen wird.
Gemäß einer vorteilhaften Weiterbildung kann vorgesehen sein, dass Begriffe mit lexikalischer Eindeutigkeit der Quellsprache mit einer Begriffe mit lexikalischer Mehrdeutigkeit der Zielsprache umfassenden Terminologiedatenbank abgeglichen werden. Dies ist vor dem Hintergrund sinnvoll, dass ein in der Quellsprache bedeutungsinhaltlich eindeutiger Begriff in der Zielsprache ein Begriff mit lexikalischer Mehrdeutigkeit sein kann, so dass dessen Interpretation beim Lesen des in die Zielsprache übersetzten Textes irreführend sein kann.
Dabei kann einem Begriffe mit lexikalischer Eindeutigkeit der Quellsprache ein Begriffsidentifikator zugeordnet werden, wenn der korrespondierende in der Zielsprache ein Begriff mit lexikalischer Mehrdeutigkeit ist. Hierzu kann der Begriffsidentifikator auf die Terminologiedatenbank der Zielsprache referenzie- ren. Auf diese Weise kann gewährleistet werden, dass den Begriffen mit lexikalischer Eindeutigkeit der Quellsprache, die in der Zielsprache Begriffe mit lexikalischer Mehrdeutigkeit sind, eine in der Zielsprache dem Bedeutungsinhalt des Begriffes entsprechende Übersetzung zugewiesen wird.
Vorteilhaft ist, dass mittels der Zuordnung von Begriffsidentifikatoren eine nachträgliche Bearbeitung der elektronischen Dokumente der Quellsprache als auch der Zielsprache möglich ist. Insbesondere können im Nachhinein Begriffsidentifikatoren hinzugefügt werden. Ein weiterer Vorteil besteht darin, dass in einer Wortfolge verwendete Begriffe mit lexikalischer Mehrdeutigkeit maschinell ausgefiltert und exportiert werden können. Somit werden die elektronischen Dokumente der Quell- und Zielsprache auch ohne eine Anbindung an die jeweilige Terminologiedatenbank austauschbar.
Weiterhin wird gemäß dem unabhängigen Anspruch 12 eine Datenverarbeitungseinrichtung zum maschinellen Transferieren einer in einer Quellsprache abgefassten Wortfolge in eine bedeutungsinhaltlich korrespondierende Wortfolge einer Zielsprache vorgeschlagen, umfassend:
- eine Vorrichtung zur Eingabe der in der Quellsprache abgefassten Wortfolge;
- eine Speichereinrichtung, in der eine Begriffe mit lexikalischer Mehrdeutigkeit der Quellsprache umfassende Terminologiedatenbank, denen in Abhängigkeit von ihrer Bedeutungsanzahl mehrere Begriffsidentifikatoren zugeordnet sind, hinterlegt ist;
- eine Verarbeitungseinrichtung, die zur Analyse der eingegebenen Wortfolge und der Identifikation Begriffe mit lexikalischer Mehrdeutigkeit in der Wortfolge durch Abgleich mit den Begriffen mit lexikalischer Mehrdeutigkeit der Terminologiedatenbank eingerichtet ist,
- wobei die Verarbeitungseinrichtung zur Auswahl eines Begriffsidentifikators in Abhängigkeit von einem Kontext der in der Quellsprache abgefassten Wortfolge eingerichtet ist, - die Verarbeitungseinrichtung zur Auswahl eines mit dem ausgewählten Be- griffsidentifikators korrespondierenden Begriffes in der Zielsprache eingerichtet ist, und
- dass die Verarbeitungseinrichtung zur Übersetzung der Begriffe mit lexikalischer Eindeutigkeit der Wortfolge in die Zielsprache eingerichtet ist; sowie
- eine Vorrichtung zur Ausgabe der Wortfolge in der Zielsprache.
Die Vorrichtung zur Eingabe der in der Quellsprache abgefassten Wortfolge ist dazu eingerichtet, dass eine unmittelbare oder mittelbare Eingabe der Wortfolge erfolgen kann. Als unmittelbare Eingabe kann die Eingabe mittels einer Tastatur angesehen werden, das heißt eine Bedienperson tippt eine Wortfolge ein.
Alternativ kann die Eingabe mittels einer optomechanischen Einrichtung erfolgen, mittels der eine Wortfolge als Grafik erfasst und in maschinenlesbare Daten umgewandelt wird. Durch eine optische Zeichenerkennung wird die Grafik in eine Zeichenfolge umgewandelt, die in einem elektronischen Dokument zusammengeführt wird. Als mittelbare Eingabe kann die Übertragung eines elektronischen Dokumentes von einem Rechner, unabhängig von dessen Entstehungsweise, mittels eines Netzwerkes an die Vorrichtung zur Eingabe der Datenverarbeitungseinrichtung übertragen werden.
In der Speichereinrichtung ist eine Begriffe mit lexikalischer Mehrdeutigkeit der Quellsprache umfassende Terminologiedatenbank hinterlegt. Den Begriffen mit lexikalischer Mehrdeutigkeit sind in Abhängigkeit von ihrer Bedeutungsanzahl mehrere Begriffsidentifikatoren zugeordnet. Darüber hinaus dient die Speichereinrichtung unter anderem als Speicher für eingegebene Wortfolgen respektive elektronische Dokumente.
Mittels der Verarbeitungseinrichtung, die zur Analyse der eingegebenen Wortfolge und der Identifikation von Begriffen mit lexikalischer Mehrdeutigkeit in der Wortfolge durch Abgleich mit den Begriffen mit lexikalischer Mehrdeutigkeit der Terminologiedatenbank eingerichtet ist, wird die eingegebene Wortfolge hinsichtlich des Vorhandenseins von Begriffen mit lexikalischer Mehrdeutigkeit analy- siert. Hierzu greift die Verarbeitungseinrichtung auf die Terminologiedatenbank mit den in der der Quellsprache enthaltenen Begriffen mit lexikalischer Mehrdeutigkeit zurück, um einzelne Begriffe mit lexikalischer Mehrdeutigkeit innerhalb einer Wortfolge zu identifizieren.
Die Verarbeitungseinrichtung ist zur Auswahl eines Begriffsidentifikators in Abhängigkeit von einem Kontext der in der Quellsprache abgefassten Wortfolge eingerichtet. In Abhängigkeit von dem Kontext der in der Quellsprache abgefassten Wortfolge wird der entsprechende Begriffsidentifikator ausgewählt, um dem identifizierten Begriff mit lexikalischer Mehrdeutigkeit der Wortfolge seine dem Kontext entsprechende Bedeutung zukommen zu lassen. Die Auswahl kann beispielsweise automatisiert anhand eines oder mehrerer Schlüsselworte erfolgen, welche der eingegebenen Wortfolge mitgegeben werden. Alternativ erfolgt eine gezielte Auswahl durch eine die Wortfolge eingebende Person auf eine automatisch generierte Aufforderung hin. Diese Aufforderung wird von der Verarbeitungseinrichtung für jeden identifizierten Begriff mit lexikalischer Mehrdeutigkeit einer Wortfolge ausgegeben.
Darüber hinaus ist die Verärbeitungseinrichtung zur Übersetzung von Begriffen mit lexikalischer Eindeutigkeit der Wortfolge in die Zielsprache eingerichtet.
Mittels einer Vorrichtung zur Ausgabe der Wortfolge in der Zielsprache, wird die transferierte Wortfolge zur Verfügung gestellt.
Die vorliegende Erfindung wird nachstehend anhand von in den Zeichnungen dargestellten Ausführungsbeispielen näher erläutert.
Es zeigen:
Fig. 1 eine schematische Darstellung einer Datenverarbeitungseinrichtung; Fig. 2 ein vereinfachtes Ablaufdiagramm eines Verfahrens zum maschinellen Transferieren einer in einer Quellsprache abgefassten Wortfolge in eine bedeutungsinhaltlich korrespondierende Wortfolge einer Zielsprache;
Fig. 3 eine Veranschaulichung des Verfahren anhand eines konkreten Beispiels einer Wortfolge.
Die Darstellung in Fig. 1 zeigt eine schematische Darstellung einer Datenverarbeitungseinrichtung 1 , welche zum maschinellen Transferieren einer in einer Quellsprache abgefassten Wortfolge in eine bedeutungsinhaltlich korrespondierende Wortfolge einer Zielsprache eingerichtet ist.
Die Datenverarbeitungseinrichtung 1 umfasst eine Vorrichtung zur Eingabe 2 einer in einer Quellsprache abgefassten Wortfolge, eine Speichereinrichtung 3, eine Verarbeitungseinrichtung 4 sowie eine Vorrichtung zur Ausgabe 5 der Wortfolge in einer Zielsprache. Als Vorrichtung zur Eingabe 2 ist eine Programmierschnittstelle (API) vorgesehen, die Zugang zu einem Netzwerk 10, insbesondere dem Internet, hat, um mit einer korrespondieren Anwendung zusammenzuarbeiten oder eine sonstige, der Eingabe von Daten dienende Einrichtung, beispielsweise eine Tastatur, ein Scanner, ein Datenträger oder dergleichen mehr. Die Speichereinrichtung 3 dient der nichtflüchtigen Hinterlegung von einem oder mehreren Anwendungsprogrammen 6, zumindest einer Terminologiedatenbank 7 sowie der Speicherung der in der Quellsprache eingegebenen Wortfolge beziehungsweise der in die Zielsprache transferierten Wortfolge als Datei 8, 9. Die Anzahl der erforderlichen Terminologiedatenbanken 7 orientiert sich an der Anzahl der Quell- und Zielsprachen, in denen Wortfolgen eingegeben werden sollen. Die Verarbeitungseinrichtung 4 weist Prozessoren auf, die zur Ausführung von Anwendungsprogrammen eingerichtet sind. Die Verarbeitungseinrichtung 4 steht im bidirektionalen Datenaustausch mit der Speichereinrichtung 3. Die Vorrichtung zur Ausgabe 5 ist ebenfalls als eine Programmierschnittstelle (API) ausgeführt. Alternativ oder ergänzend kann die Vorrichtung zur Ausgabe 5 beispielsweise als ein Bildschirm, ein Drucker oder eine sonstige der Ausgabe von Daten dienende Einrichtung sein.
Die Eingabe einer Wortfolge mittels der als Programmierschnittstelle ausgebildeten Vorrichtung zur Eingabe 2 der Datenverarbeitungseinrichtung 1 erfolgt im dargestellten Ausführungsbeispiel durch eine auf einem dezentral angeordneten Rechner 11 vorgesehene Anwendungssoftware, im einfachsten Fall einem Webbrowser 12.
In Fig. 2 ist ein vereinfachtes Ablaufdiagramm eines Verfahrens zum maschinellen Transferieren einer in einer Quellsprache abgefassten Wortfolge in eine bedeutungsinhaltlich korrespondierende Wortfolge einer Zielsprache dargestellt. Hierbei kann zumindest die Quellsprache der eingegebenen Wortfolge durch entsprechende Analyse mittels der Verarbeitungseinrichtung automatisch erkannt werden. Im Allgemeinen werden die Quellsprache und die Zielsprache jedoch vorgegeben.
In einem Schritt 20 erfolgt die Eingabe einer aus wenigstens einem Wort bestehenden Wortfolge mittels der Vorrichtung zur Eingabe 2. Die in einer Quellsprache eingegebene Wortfolge wird in der Speichereinrichtung 3 als Datei 8 abgelegt.
In einem nachfolgenden Schritt 21 erfolgt die semantische und syntaktische Analyse der eingegebenen Wortfolge durch die Verarbeitungseinrichtung 4. Hierzu wird die eingegebene Wortfolge von der Verarbeitungseinrichtung 4 aus der Speichereinrichtung 3 eingelesen. Die Analyse umfasst dabei die Überprüfung der Wortfolge auf das Vorhandensein wenigstens eines Begriffes mit lexikalischer Mehrdeutigkeit. Ein Beispiel für einen Begriff mit lexikalischer Mehrdeutigkeit ist das deutsche Wort„Tau", das ein Seil, den morgendlichen Niederschlag oder einen Buchstaben des griechischen Alphabets bedeuten kann. Die Abarbeitung der eingegebenen Wortfolge wird sequentiell durchgeführt. Das Analysieren der Wortfolge und des wenigstens einen identifizierten Begriffes mit lexikalischer Mehrdeutigkeit in der Wortfolge wird durch einen Abgleich mit der Begriffe mit lexikalischer Mehrdeutigkeit der Quellsprache umfassenden Terminologiedatenbank 7 der Speichereinrichtung 3 durchgeführt.
Wird im Schritt 21 zumindest ein Begriff mit lexikalischer Mehrdeutigkeit im Rahmen der Analyse identifiziert, so wird in einem nachfolgenden Schritt 22 ein Hinweis auf ein Vorliegen eines Begriffes mit lexikalischer Mehrdeutigkeit ausgegeben. Dies erfolgt im vorliegenden Ausführungsbeispiel durch eine Ausgabe auf dem Rechner 1 1 , mittels dem die zu transferierende Wortfolge in der Quellsprache eingegeben wird. Hiermit verbunden ist die Aufforderung, den Begriff mit lexikalischer Mehrdeutigkeit hinsichtlich seiner Bedeutung im Kontext der Wortfolge zu definieren.
Hierzu wird im Schritt 23 anhand des beim Abgleichen mit der Terminologiedatenbank 7 identifizierten Begriffes mit lexikalischer Mehrdeutigkeit, dem in Abhängigkeit von seiner Bedeutungsanzahl mehrere Begriffsidentifikatoren zugeordnet sind, eine Auswahl der möglichen Bedeutungen respektive Definitionen des Begriffes mit lexikalischer Mehrdeutigkeit in Abhängigkeit von unterschiedlichen Kontexten angezeigt. Die Anzeige der Auswahl erfolgt auf dem Rechner 1 1 mittels des Webbrowsers 12. Entsprechend dem weiter oben angeführten Beispiel des deutschen Begriffes„Tau", der drei unterschiedliche Bedeutungen aufweist, entspräche die Bedeutungsanzahl des Begriffes mit lexikalischer Mehrdeutigkeit„Tau" dem Wert drei, so dass diesem drei Begriffsidentifikatoren zugeordnet sind. Aus dieser dargestellten Auswahl, die als eine einfache tabellarische Auflistung der unterschiedlichen Bedeutungen erfolgen kann, bis hin zu einer Textausgabe kombiniert mit einer grafischen Veranschaulichung, wird derjenige Begriffsidentifikator ausgewählt, der dem Kontext der eingegebenen Wortfolge entspricht.
Im nachfolgenden Schritt 24 wird dieser ausgewählte Begriffsidentifikator dem Begriff mit lexikalischer Mehrdeutigkeit zugeordnet. Diese Zuordnung des spezifischen Begriffsidentifikators wird in der Datei 8, die die Wortfolge in der Quell- spräche enthält, abgespeichert. Hierzu wird der jeweilige Begriffsidentifikator dem in der Quellsprache abgefassten identifizierten Begriff mit lexikalischer Mehrdeutigkeit als ein maschinenlesbares Label zugeordnet.
Im darauffolgenden Schritt 25 findet die Übersetzung der analysierten Wortfolge aus der Quellsprache in die Zielsprache statt. Hierzu erfolgen zum einen die Auswahl eines mit dem ausgewählten Begriffsidentifikator korrespondierenden Begriffes in der Zielsprache und zum anderen das Übersetzen der Begriffe mit lexikalischer Eindeutigkeit der Wortfolge in die Zielsprache, so dass eine bedeutungsinhaltlich korrespondierende Wortfolge erzeugt wird.
Daraufhin erfolgt in einem Schritt 26 die Zuordnung des im Schritt 23 ausgewählten Begriffsidentifikators zu dem mit dem identifizierten Begriff mit lexikalischer Mehrdeutigkeit der Quellsprache korrespondierenden Begriff der Zielsprache. Der jeweilige Begriffsidentifikator, mittels dem der Begriff in der Zielsprache ausgewählt wurde, wird dem entsprechenden Begriff der Zielsprache gleichfalls als ein maschinenlesbares Label zugeordnet. Die Übersetzung der Wortfolge in die Zielsprache wird zusammen mit dem oder den zugeordneten Labein in der Datei 9 gespeichert. Diese Zuordnung erlaubt zu einem späteren Zeitpunkt einen Rückgriff auf die Terminologiedatenbank 7, das heißt den Abruf und die Darstellung des jeweils identifizierten Begriffes mit lexikalischer Mehrdeutigkeit in der Quellsprache sowie dessen Bedeutung und dem aus der Auswahl des Begriffsidentifikators resultierenden Begriffes in der Zielsprache. Auch diese Darstellung kann als eine einfache tabellarische Auflistung erfolgen, bis hin zu einer Textausgabe kombiniert mit einer grafischen Veranschaulichung der Bedeutung.
Abschließend wird im Schritt 27 die Wortfolge in der Zielsprache ausgegeben. Die Ausgabe erfolgt gemäß dem gewählten Ausführungsbeispiel durch den Webbrowsers 12.
Fig. 3 veranschaulicht das Verfahren anhand eines konkreten Beispiels einer Wortfolge. Hierbei umfasst eine vom Rechner 11 an die Datenverarbeitungsein- richtung 1 übertragene, in der Quellsprache abgefasste Wortfolge 30 die einzelnen Begriffe„Bitte treten Sie auf die Bremse". Diese beispielsweise in einem HTML-Format abgefasste Wortfolge wird mittels der Vorrichtung zur Eingabe 3 in die Datenverarbeitungseinrichtung 1 zur weiteren Verarbeitung eingegeben. Im Zuge der Analyse der Wortfolge im Schritt 21 wird neben den Begriffen mit lexikalischer Eindeutigkeit 31„Bitte treten Sie auf die" der Begriff mit lexikalischer Mehrdeutigkeit 32„Bremse" identifiziert. Die Terminologiedatenbank 7 weist für diesen Begriff mit lexikalischer Mehrdeutigkeit 32 zwei mögliche Bedeutungen 35, 36 aus, so dass zwei Begriffsidentifikatoren 33, 34 vergeben wurden. Die Begriffsidentifikatoren 33, 34 stellen einen Schlüssel der Terminologiedatenbank 7 dar.
Aufgrund der Identifikation des Begriffes mit lexikalischer Mehrdeutigkeit 32 wird zur Auswahl eines der Begriffsidentifikatoren 33, 34 in Abhängigkeit vom Kontext der in der Quellsprache abgefassten Wortfolge 30 aufgefordert. Im vorliegenden Ausführungsbeispiel soll der Begriff mit lexikalischer Mehrdeutigkeit 32„Bremse" im Kontext mit einer Baugruppe zum Stoppen einer Bewegung stehen und nicht ein Insekt betreffen. Der Definition des Begriffs mitlexikalischer Mehrdeutigkeit 32 „Bremse" im Sinne eines Insekts ist der Begriffsidentifikator 33 zugeordnet. Der Definition des Begriffs mitlexikalischer Mehrdeutigkeit 32 „Bremse" im Sinne einer Baugruppe zum Stoppen einer Bewegung ist der Begriffsidentifikator 34 zugeordnet.
Entsprechend wird gemäß dem Kontext der Wortfolge der Begriffsidentifikator 34 ausgewählt. Die Auswahl erfolgt, wie weiter oben bereits beschrieben, manuell durch eine Bedienperson oder automatisiert. Die Zuordnung des ausgewählten Begriffsidentifikators 34 zu dem Begriff mit lexikalischer Mehrdeutigkeit 32 in der Quellsprache erfolgt in dem Schritt 24, wie bereits ausgeführt. Durch die Auswahl des Begriffsidentifikators 34 ist die bedeutungsinhaltlich korrespondierende Wortfolge in der Zielsprache festgelegt. So wird für die Übersetzung des Begriffes mit lexikalischer Mehrdeutigkeit 32 „Bremse" nicht der korrespondierende englischsprachige Begriff 37„horsefly" sondern der Begriff 38„brake" ausge- wählt. Dem ausgewählten Begriff 38 wird der Begriffsidentifikator 34 zugeordnet, welcher in der in der Zielsprache auszugebenen Wortfolge 39 erhalten bleibt. Dies wird in den Schritten 26 und 27 ausgeführt.
Bezugszeichenliste
1 Datenverarbeitungseinrichtung Bedeutung von 32
2 Vorrichtung zur Eingabe englischsprachiger Begriff
3 Speichereinrichtung englischsprachiger Begriff
4 Verarbeitungseinrichtung Wortfolge in der Zielsprache
5 Vorrichtung zur Ausgabe
6 Anwendungsprogramm
7 Terminologiedatenbank
8 Datei
9 Datei
10 Netzwerk
1 1 Rechner
12 Webbrowser
20 Schritt
21 Schritt
22 Schritt
23 Schritt
24 Schritt
25 Schritt
26 Schritt
27 Schritt
Wortfolge in Quellsprache
Begriff mit lexikalischer Eindeutigkeit
Begriff mit lexikalischer Mehrdeutigkeit
Begriffsidentifikator
Begriffsidentifikator
Bedeutung von 32

Claims

Patentansprüche
Verfahren zum zumindest teilweise maschinellen Transferieren einer in einer Quellsprache abgefassten Wortfolge (30) in eine bedeutungsinhaltlich korrespondierende Wortfolge einer Zielsprache (39), gekennzeichnet durch die Verfahrensschritte: a) Eingeben der in der Quellsprache abgefassten Wortfolge (30);
b) Analysieren der Wortfolge (30) und Identifizieren von Begriffen mit lexikalischer Mehrdeutigkeit (32) in der Wortfolge (30) durch Abgleich mit einer Begriffe mit lexikalischer Mehrdeutigkeit der Quellsprache umfassenden
Terminologiedatenbank (7), denen in Abhängigkeit von ihrer Bedeutungsanzahl mehrere Begriffsidentifikatoren (33, 34) zugeordnet sind;
c) Auswahl eines Begriffsidentifikators (33, 34) in Abhängigkeit vom Kontext der in der Quellsprache abgefassten Wortfolge (30);
d) Auswahl eines mit dem ausgewählten Begriffsidentifikator (33, 34) korrespondierenden Begriffes (37, 38) in der Zielsprache;
e) Übersetzen von Begriffen mit lexikalischer Eindeutigkeit (31) der Wortfolge (30) in die Zielsprache;
f) Ausgeben der Wortfolge (39) in der Zielsprache.
Verfahren nach Anspruch 1 , dadurch gekennzeichnet, dass die in der Quellsprache abgefasste eingegebene Wortfolge (30) und die in der Zielsprache ausgegebene Wortfolge (39) als separate elektronische Dokumente (8, 9) abgespeichert werden.
Verfahren nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, dass der jeweilige Begriffsidentifikator (33, 34) dem in der Quellsprache abgefassten identifizierten Begriff mit lexikalischer Mehrdeutigkeit (32) als ein maschinenlesbares Label zugeordnet wird.
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass der jeweilige Begriffsidentifikator (33, 34) dem in der Zielsprache als Übersetzung des Begriffes mit lexikalischer Mehrdeutigkeit (32) ausgewählten Begriff (37, 38) als ein maschinenlesbares Label zugeordnet wird.
5. Verfahren nach einem der Ansprüche 2 bis 4, dadurch gekennzeichnet, dass das jeweilige Label in dem abgespeicherten Dokument (8, 9) als eine logische Verknüpfung zu dem in der Terminologiedatenbank (7) hinterlegten Begriff mit lexikalischer Mehrdeutigkeit (32) eingebettet wird.
6. Verfahren nach einem der Ansprüche 2 bis 5, dadurch gekennzeichnet, dass das jeweilige Label innerhalb des elektronischen Dokumentes (8, 9) mittels einer Filterfunktion ein- und ausgeblendet wird.
7. Verfahren nach einem der Ansprüche 2 bis 6, dadurch gekennzeichnet, dass das abgespeicherte elektronische Dokument (8, 9) zu einer Weiterverarbeitung in unterschiedliche Dateiformate konvertiert wird, wobei die dem jeweiligen Begriff mit lexikalischer Mehrdeutigkeit (32) zugeordneten Label erhalten werden.
8. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass zur Bestimmung des Kontextes der in der Quellsprache abgefassten Wortfolge (30) zumindest ein Schlüsselwort hinterlegt wird.
9. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass während der Identifikation eines Begriffes mit lexikalischer Mehrdeutigkeit (32) innerhalb der Wortfolge (30) eine Aufforderung zur manuellen Zuordnung des Labels ausgegeben wird.
10. Verfahren nach einem der Ansprüche 1 bis 9, dadurch gekennzeichnet, dass Begriffe mit lexikalischer Eindeutigkeit der Quellsprache mit einer Begriffe mit lexikalischer Mehrdeutigkeit der Zielsprache umfassenden Terminolo- giedatenbank abgeglichen werden.
11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, dass einem
Begriff mit lexikalischer Eindeutigkeit der Quellsprache ein Begriffsidentifikator zugeordnet wird, wenn der korrespondierende in der Zielsprache ein Begriff mit lexikalischer Mehrdeutigkeit ist.
12. Datenverarbeitungseinrichtung (1 ) zum maschinellen Transferieren einer in einer Quellsprache abgefassten Wortfolge (30) in eine bedeutungsinhaltlich korrespondierende Wortfolge (39) einer Zielsprache, umfassend:
- eine Vorrichtung zur Eingabe (2) der in der Quellsprache abgefassten Wortfolge (30);
- eine Speichereinrichtung (3), in der eine Begriffe mit lexikalischer Mehrdeutigkeit (32) der Quellsprache umfassende Terminologiedatenbank (7), denen in Abhängigkeit von ihrer Bedeutungsanzahl mehrere Begriffsidentifikatoren (33, 34) zugeordnet sind, hinterlegt ist;
- eine Verarbeitungseinrichtung (4), die zur Analyse der eingegebenen Wortfolge (30) und der Identifikation von Begriffen mit lexikalischer Mehrdeutigkeit (32) in der Wortfolge (30) durch Abgleich mit den Begriffen mit lexikalischer Mehrdeutigkeit der Terminologiedatenbank (7) eingerichtet ist,
- wobei die Verarbeitungseinrichtung (4) zur Auswahl eines Begriffsidentifika- tors (33, 34) in Abhängigkeit von einem Kontext der in der Quellsprache abgefassten Wortfolge (30) eingerichtet ist,
- wobei die Verarbeitungseinrichtung (4) zur Auswahl eines mit dem ausgewählten Begriffsidentifikators (33, 34) korrespondierenden Begriffes (37, 38) in der Zielsprache eingerichtet ist, und
- dass die Verarbeitungseinrichtung (4) zur Übersetzung von Begriffen mit lexikalischer Eindeutigkeit (31 ) der Wortfolge (30) in die Zielsprache eingerichtet ist; sowie
- eine Vorrichtung zur Ausgabe (5) der Wortfolge (39) in der Zielsprache.
EP17755228.8A 2016-08-02 2017-07-24 Verfahren zum zumindest teilweise maschinellen transferieren in einer quellsprache abgefassten wortfolge in eine wortfolge einer zielsprache Pending EP3494488A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102016114265.4A DE102016114265A1 (de) 2016-08-02 2016-08-02 Verfahren zum zumindest teilweise maschinellen Transferieren einer in einer Quellsprache abgefassten Wortfolge in eine Wortfolge einer Zielsprache
PCT/IB2017/000862 WO2018073635A1 (de) 2016-08-02 2017-07-24 Verfahren zum zumindest teilweise maschinellen transferieren in einer quellsprache abgefassten wortfolge in eine wortfolge einer zielsprache

Publications (1)

Publication Number Publication Date
EP3494488A1 true EP3494488A1 (de) 2019-06-12

Family

ID=59683607

Family Applications (1)

Application Number Title Priority Date Filing Date
EP17755228.8A Pending EP3494488A1 (de) 2016-08-02 2017-07-24 Verfahren zum zumindest teilweise maschinellen transferieren in einer quellsprache abgefassten wortfolge in eine wortfolge einer zielsprache

Country Status (4)

Country Link
US (1) US11132515B2 (de)
EP (1) EP3494488A1 (de)
DE (1) DE102016114265A1 (de)
WO (1) WO2018073635A1 (de)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11836454B2 (en) 2018-05-02 2023-12-05 Language Scientific, Inc. Systems and methods for producing reliable translation in near real-time
CN113228028A (zh) * 2019-01-15 2021-08-06 松下知识产权经营株式会社 翻译装置、翻译方法以及程序

Family Cites Families (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2300495A (en) 1995-04-13 1996-11-06 Canon Kk Language processing
US8521506B2 (en) * 2006-09-21 2013-08-27 Sdl Plc Computer-implemented method, computer software and apparatus for use in a translation system
US9128926B2 (en) * 2006-10-26 2015-09-08 Facebook, Inc. Simultaneous translation of open domain lectures and speeches
US8209164B2 (en) * 2007-11-21 2012-06-26 University Of Washington Use of lexical translations for facilitating searches
JP5007977B2 (ja) * 2008-02-13 2012-08-22 独立行政法人情報通信研究機構 機械翻訳装置、機械翻訳方法、及びプログラム
US9110890B2 (en) * 2008-02-15 2015-08-18 International Business Machines Corporation Selecting a language encoding of a static communication in a virtual universe
US20110202512A1 (en) * 2010-02-14 2011-08-18 Georges Pierre Pantanelli Method to obtain a better understanding and/or translation of texts by using semantic analysis and/or artificial intelligence and/or connotations and/or rating
CN103370705B (zh) * 2011-01-05 2018-01-02 谷歌公司 用于便利文本输入的方法和系统
KR101870729B1 (ko) * 2011-09-01 2018-07-20 삼성전자주식회사 휴대용 단말기의 번역 트리구조를 이용한 번역장치 및 방법
EP2595143B1 (de) * 2011-11-17 2019-04-24 Svox AG Text-zu-Sprache-Synthese für Texte mit fremdsprachlichen Einfügungen
US9110891B2 (en) * 2011-12-12 2015-08-18 Google Inc. Auto-translation for multi user audio and video
US9483461B2 (en) * 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9043205B2 (en) * 2012-06-21 2015-05-26 Google Inc. Dynamic language model
US10354650B2 (en) * 2012-06-26 2019-07-16 Google Llc Recognizing speech with mixed speech recognition models to generate transcriptions
US8923829B2 (en) * 2012-12-28 2014-12-30 Verizon Patent And Licensing Inc. Filtering and enhancement of voice calls in a telecommunications network
US9418655B2 (en) * 2013-01-17 2016-08-16 Speech Morphing Systems, Inc. Method and apparatus to model and transfer the prosody of tags across languages
US8996352B2 (en) * 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for correcting translations in multi-user multi-lingual communications
US20140365200A1 (en) * 2013-06-05 2014-12-11 Lexifone Communication Systems (2010) Ltd. System and method for automatic speech translation
JP2015060095A (ja) * 2013-09-19 2015-03-30 株式会社東芝 音声翻訳装置、音声翻訳方法およびプログラム
US9747897B2 (en) * 2013-12-17 2017-08-29 Google Inc. Identifying substitute pronunciations
KR102425917B1 (ko) * 2014-01-28 2022-07-26 스피치 센츠 게엠베하 자동으로 텍스트의 의미를 검출하고 텍스트의 일의성을 측정하기 위한 방법
US9740687B2 (en) * 2014-06-11 2017-08-22 Facebook, Inc. Classifying languages for objects and entities
US9864744B2 (en) * 2014-12-03 2018-01-09 Facebook, Inc. Mining multi-lingual data
GB2533370A (en) * 2014-12-18 2016-06-22 Ibm Orthographic error correction using phonetic transcription
US9477652B2 (en) * 2015-02-13 2016-10-25 Facebook, Inc. Machine learning dialect identification
US10332511B2 (en) * 2015-07-24 2019-06-25 International Business Machines Corporation Processing speech to text queries by optimizing conversion of speech queries to text
US9734142B2 (en) * 2015-09-22 2017-08-15 Facebook, Inc. Universal translation
US10468016B2 (en) * 2015-11-24 2019-11-05 International Business Machines Corporation System and method for supporting automatic speech recognition of regional accents based on statistical information and user corrections
KR102545764B1 (ko) * 2016-04-01 2023-06-20 삼성전자주식회사 음성 번역을 위한 장치 및 방법
KR101827773B1 (ko) * 2016-08-02 2018-02-09 주식회사 하이퍼커넥트 통역 장치 및 방법
KR102610021B1 (ko) * 2016-08-12 2023-12-04 매직 립, 인코포레이티드 단어 흐름 주석
US20180067927A1 (en) * 2016-09-06 2018-03-08 International Business Machines Corporation Customized Translation Comprehension
US20180143956A1 (en) * 2016-11-18 2018-05-24 Microsoft Technology Licensing, Llc Real-time caption correction by audience
US10311876B2 (en) * 2017-02-14 2019-06-04 Google Llc Server side hotwording
CN107193807B (zh) * 2017-05-12 2021-05-28 北京百度网讯科技有限公司 基于人工智能的语言转换处理方法、装置及终端
WO2019016985A1 (ja) * 2017-07-20 2019-01-24 パナソニックIpマネジメント株式会社 翻訳装置、翻訳方法及びプログラム
US11450311B2 (en) * 2018-12-13 2022-09-20 i2x GmbH System and methods for accent and dialect modification
US10839788B2 (en) * 2018-12-13 2020-11-17 i2x GmbH Systems and methods for selecting accent and dialect based on context
US20200226327A1 (en) * 2019-01-11 2020-07-16 Applications Technology (Apptek), Llc System and method for direct speech translation system
JP7251181B2 (ja) * 2019-02-05 2023-04-04 富士通株式会社 対訳処理方法および対訳処理プログラム
US11151332B2 (en) * 2019-03-07 2021-10-19 International Business Machines Business Dialog based speech recognition
US11093720B2 (en) * 2019-03-28 2021-08-17 Lenovo (Singapore) Pte. Ltd. Apparatus, method, and program product for converting multiple language variations
US11151996B2 (en) * 2019-04-16 2021-10-19 International Business Machines Corporation Vocal recognition using generally available speech-to-text systems and user-defined vocal training
US11501089B2 (en) * 2019-06-05 2022-11-15 Samsung Electronics Co., Ltd. Electronic device and method for controlling the electronic device thereof based on determining intent of a user speech in a first language machine translated into a predefined second language
KR20190080834A (ko) * 2019-06-18 2019-07-08 엘지전자 주식회사 사투리 음소 적응 학습 시스템 및 방법
KR20190113693A (ko) * 2019-09-18 2019-10-08 엘지전자 주식회사 단어 사용 빈도를 고려하여 사용자의 음성을 인식하는 인공 지능 장치 및 그 방법

Also Published As

Publication number Publication date
US20210081618A1 (en) 2021-03-18
WO2018073635A1 (de) 2018-04-26
DE102016114265A1 (de) 2018-02-08
US11132515B2 (en) 2021-09-28

Similar Documents

Publication Publication Date Title
EP1665132B1 (de) Verfahren und system zum erfassen von daten aus mehreren maschinell lesbaren dokumenten
DE69911842T2 (de) Verfahren und Vorrichtung zum Wiederauffinden von Information und entsprechendes Speichermedium
DE69829074T2 (de) Identifizierung der sprache und des zeichensatzes aus text-repräsentierenden daten
EP1902407B1 (de) System zum übertragen von daten aus einer dokumentenanwendung in eine datenanwendung
DE10300545B4 (de) Vorrichtung, Verfahren, Speichermedium und Datenstruktur zur Kennzeichnung und Speicherung von Daten
DE102017008430A1 (de) Verfahren und Systeme zum Erzeugen von virtuelle Realität-Umgebungen aus elektronischen Dokumenten
EP1671262B1 (de) Verfahren und system zum erfassen von daten aus maschinell lesbaren dokumenten
DE102007021284A1 (de) Verfahren zur rechnerbasierten Unterstützung der manuellen Annotation von Merkmalen in einem Textkörper
DE112020005268T5 (de) Automatisches erzeugen von schema-annotationsdateien zum umwandeln von abfragen in natürlicher sprache in eine strukturierte abfragesprache
EP1917588B1 (de) Verfahren und vorrichtung zur störungsbehebung einer datenverarbeitungseinrichtung
WO2018073635A1 (de) Verfahren zum zumindest teilweise maschinellen transferieren in einer quellsprache abgefassten wortfolge in eine wortfolge einer zielsprache
DE102014105666A1 (de) Übersetzungsprüfung
EP3168699B1 (de) Verfahren mit einem suchprogramm und einem suchfeld
WO2022037818A1 (de) Vorrichtung und verfahren zur interaktion mit einer graphischen benutzeroberfläche und zum testen einer applikation
WO2013174407A1 (de) Erzeugung von anfragen an ein datenverarbeitendes system
DE4311211C2 (de) Computersystem und Verfahren zur automatisierten Analyse eines Textes
DE2613703C2 (de) Schaltungsanordnung zum Übersetzen von Programmtexten
DE202015006393U1 (de) System zur Identifizierung und Kennzeichnung eines mathematischen Ausdrucks in einem elektronischen Text-Dokument
DE202022104426U1 (de) System zur Vorbereitung und Untersuchung eines Englisch-Mizo-Korpus durch Auffinden von tonalen Wörtern
WO2010091674A2 (de) Verfahren und ein system zum übersetzen eines textes aus einer ersten sprache in zumindest eine weitere sprache sowie ein computer-programm-produkt
DE19958861C2 (de) Verfahren zum automatischen Registrieren bei einer Suchmaschine eines Computer-Netzwerks
DE10253786B4 (de) Verfahren zur rechnergestützten Ermittlung einer Ähnlichkeit eines elektronisch erfassten ersten Kennzeichens zu mindestens einem elektronisch erfassten zweiten Kennzeichen sowie Vorrichtung und Computerprogramm zur Durchführung desselben
DE10142379B4 (de) Verfahren zum Erstellen von Hyperlinks und deren Verwendung zum Aufruf von Zieldokumenten aus einem Ausgangsdokument
DE102022115382A1 (de) Analyse eines Lastenhefts für einen technischen Gegenstand
DE102022128157A1 (de) Computerimplementiertes Verfahren zur Standardisierung von Teilenamen

Legal Events

Date Code Title Description
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: UNKNOWN

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20190304

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

AX Request for extension of the european patent

Extension state: BA ME

DAV Request for validation of the european patent (deleted)
DAX Request for extension of the european patent (deleted)
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: EXAMINATION IS IN PROGRESS

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: EXAMINATION IS IN PROGRESS

17Q First examination report despatched

Effective date: 20211206

P01 Opt-out of the competence of the unified patent court (upc) registered

Effective date: 20230516