-
Hintergrund
der Erfindung
-
Die
vorliegende Erfindung betrifft ein System und ein Verfahren zur
Sicherung der Qualität
einer Übersetzung.
Sie stellt ein wichtiges Glied in der Produktionskette von Übersetzungen
dar.
-
Es
zählt heute
zum Stand der Technik, Dokumentationen mit Hilfe von Translation
Memory Systemen (TM-Systeme oder CAT- bzw. Computer-Aided-Translation-Systeme)
zu produzieren. Diese Systeme ersetzen den humanen Übersetzer
nicht, sondern unterstützen
ihn während
seiner Arbeit. Sie speichern alle Segmente, die übersetzt werden, und schlagen
sie dem Übersetzer
wieder vor, wenn ein Ausgangssegment sich wiederholt. Unter Segment versteht
man eine Übersetzungseinheit.
Sie ist oft ein Satz, kann aber anders definiert werden. TM-Systeme
können
auch zusammen mit Terminologiedatenbanken eingesetzt werden. Sobald-
ein Begriff aus einer Terminologie erkannt wird, wird die Übersetzung dieses
Begriffs dem Übersetzer
vorgeschlagen.
-
TM-Systeme
werden von einigen Anwendern zusammen mit maschinellen Übersetzungsprogrammen
(MT – Machine-Translation-Systeme)
eingesetzt. Das MT-System übersetzt
einen Text automatisch vor. Der Übersetzer
korrigiert das Ergebnis der maschinellen Übersetzung und speichert die
korrigierten Segmente im TM-System.
-
Die
bisherigen TM-Systeme haben keine oder sehr bescheidene Funktionen
zur Qualitätssicherung.
Auch bieten vorhandene Systeme nicht die Möglichkeit, alle Fehler im Batchverfahren
zu prüfen. Unter
Batchverfahren versteht man die sequentielle Abarbeitung von Befehlen.
Bei umfangreichen Texten schreckt dies bereits die meisten Anwender
vor einer rechnergestützte
Prüfung
der Übersetzungsqualität ab. Die
in diesem Abschnitt geschilderten Nachteile führen dazu, dass die Qualitätskontrolle heute
immer noch weitgehendst eine manuelle Tätigkeit ist. Dies bringt zum
einen hohe Kosten und Verzögerungen
vor der Auslieferung der Übersetzungen mit
sich und zum anderen ist die Prüfgenauigkeit
von der Erfahrung und Aufmerksamkeit eines einzelnen Prüfers abhängig.
-
Als
weiteres Problem im Bereich der Qualitätssicherung von Übersetzungen
gilt die Schwierigkeit, Übersetzungen
objektiv zu bewerten und dem Übersetzer
ohne Verzögerung
Fehlerlisten zur Verfügung
zu stellen. Die am Markt vorhandene Übersetzungstechnologie bietet
hier keine Antwort.
-
Aufgrund
der oben geschilderten Nachteile des Standes der Technik wurde nach
einem System und einem Verfahren gesucht, mit denen ein Teil der Qualitätskontrolle
von Übersetzungen
automatisiert werden und mit denen die Qualität von Übersetzungen objektiv bewertet
werden kann.
-
Diese
Aufgabe wird mit den Merkmalen der unabhängigen Ansprüche gelöst. Die
abhängigen Ansprüche beziehen
sich auf bevorzugte Ausführungsformen
der vorliegenden Erfindung.
-
Das
erfindungsgemäße System
ist ein Computerprogramm zur Ausführung auf programmierbarer
Hardware. Es verwendet eine Reihe von Prüfverfahren, die ein schnelles
und genaues Auffinden von Fehlern in Übersetzungen ermöglicht.
Zur Optimierung und Automatisierung der Qualitätskontrolle von Übersetzungen
existiert eine Reihe objektiver Messfaktoren, die für die Qualität einer Übersetzung
wichtig sind. Diese Faktoren sind z.B.: Verwendung der vorgegebenen
Terminologie, Vollständigkeit
der Übersetzung,
Richtigkeit der Zahlen und Zif fern in der Übersetzung, Integrität der Tags
in der übersetzten Textversion,
korrekte Übernahme
von Akronymen, Konsistenz der Übersetzung.
Der Anwender des erfindungsgemäßen Programms
kann die Messungen dieser Faktoren konfigurieren. Das erfindungsgemäße Programm
prüft Texte
automatisch nach der Einhaltung der Sollwerte (Werte oder Begriffe)
und listet alle Abweichungen als potentielle Fehler auf. Die Prüfung erfolgt
automatisch im Batchverfahren und dauert in Abhängigkeit von der Leistungsfähigkeit des
verwendeten Rechners in der Regel 0,5-2 Minuten. Die gemeldeten
Fehler können
vom Anwender durchgesehen und abgelehnt oder bestätigt werden und
anschließend
im Prüftext
korrigiert werden. Neben den automatischen Prüfungen bietet das erfindungsgemäße Programm
auch die Möglichkeit
interaktiver Prüfungen
wie die Suche nach Segmenten, die eine bestimmte Übersetzung
nicht enthalten. Ferner kann der Prüfer für Fehler, die von einer Software nicht
objektiv bewertet werden können
(beispielsweise Verständnisfehler)
eigene Kategorien definieren und diese in die Berichte übernehmen.
-
Zur
Durchführung
der Prüfungen
arbeitet das erfindungsgemäße Programm
mit einem zweisprachigen Text. Der Text ist in Übersetzungseinheiten (sogenannte "Segmente") segmentiert, und
es stehen nebeneinander das Segment der Ausgangssprache und der
Zielsprache. Unter Ausgangssprache versteht man die Sprache aus
der übersetzt
wird und unter Zielsprache versteht man die Sprache in die übersetzt
wird. Das erfindungsgemäße Programm vergleicht
die Sollwerte in den beiden Sprachversionen miteinander und meldet
Abweichungen als potentielle Fehler.
-
Die
Ergebnisse des Programms, ggf. einschließlich der Prüfung und Überarbeitung
durch den Anwender, sind sofort verfügbar, vorzugsweise in Form
einer Fehlerliste und einer Be wertung der Übersetzungsqualität, die auf
Gewichtungsfaktoren und Qualitätsstufen
basiert, die vom Anwender konfigurierbar sind.
-
Das
System und Verfahren zur Sicherung der Qualität einer Übersetzung, welche durch das
erfindungsgemäße Programm
verkörpert
werden, bieten gegenüber
vorhandenen Ansätzen
mehrere Vorteile. Ein erster Vorteil liegt in der Geschwindigkeit der
Qualitätskontrolle.
Dadurch, dass viele Prüfungen
automatisch und in Batchverfahren erfolgen, liegt eine Fehlerliste
auch bei sehr umfangreichen Texten und Terminologien bereits innerhalb
von Minuten vor. Durch die Funktionen des erfindungsgemäßen Programms
reduziert sich der Zeitaufwand des Anwenders auf etwa die Hälfte.
-
Ein
weiterer Vorteil des erfindungsgemäßen Verfahrens und Systems
liegt in der Prüfgenauigkeit. Es
kann von keinem Anwender erwartet werden, dass er ohne Unterstützung einer
Softwareanwendung unter Zeitdruck keine Fehler übersieht. Das erfindungsgemäße Programm
sucht strikt nach den vorgegebenen Sollwerten und lässt keinen
Fehler aus. Hierdurch wird eine eindeutig höhere Genauigkeit der Qualitätsprüfung erreicht.
-
Schließlich liegt
noch ein weiterer Vorteil des erfindungsgemäßen Programms in der Optimierung der
Produktionskette für Übersetzungen.
So haben beispielsweise externe Übersetzer
mit einer Remote-Version die Möglichkeit,
ihre Arbeit sofort zu prüfen,
bevor diese an ihre Auftraggeber weitergeschickt wird. Dadurch werden
Fehler gleich an der Quelle behoben, bevor sie an das nächste Glied
in der Produktionskette weitergereicht werden.
-
Kurzdarstellung
der Erfindung
-
Allgemein
gesagt, wird mit der vorliegenden Erfindung ein Verfahren und ein
System zu Qualitätssicherung
von Übersetzungen
bereitgestellt.
-
Der
Anwender kann objektive Kriterien für eine genaue und effiziente
Prüfung
von Übersetzungen
konfigurieren. Diese Kriterien sind die Sollwerte (Begriffe oder
Zahlen), die das erfindungsgemäße Programm
in der (den) zu prüfenden
Dateien) sucht. Die zu prüfende(n)
Datei(en) enthält
(enthalten) beide Sprachversionen (Ausgangstext und dessen Übersetzung),
die in Prüfeinheiten
(Segmenten) segmentiert sind. Das erfindungsgemäße Programm liest einen Ausgangssatz,
prüft ob
sie Elemente enthalten, die geprüft
werden sollen und liest anschließend die übersetzten Segmente ein, um
nach den entsprechenden Sollwerten zu suchen. Abweichungen werden
automatisch ermittelt und in einer Fehlerliste aufgenommen.
-
Mit
dem erfindungsgemäßen Programm
wird eine objektive Bewertung der Übersetzungsqualität ermöglicht.
Die Bewertungsfaktoren sind konfigurierbar. Die Bewertung basiert
auf dem Verhältnis
Gewichtete Fehlerpunkte/Wortumfang des zu prüfenden Textes.
-
Mit
dem erfindungsgemäßen Programm
werden wesentliche Fortschritte bei der Automatisierung und bei
der Genauigkeit der Qualitätsprüfung von Übersetzungen
erzielt.
-
Im
Folgenden wird die Erfindung unter Bezugnahme auf die beigefügten Zeichnungen
näher erläutert.
-
Kurzbeschreibung
der Zeichnungen
-
Die
zur Veranschaulichung bestimmten Zeichnungen sollen die vorliegende
Erfindung nicht einschränken.
-
1 ist ein Blockdiagramm,
das die wesentlichen Arbeitsschritte beim Ablauf des erfindungsgemäßen Programms
darstellt.
-
2 ist ein Flussdiagramm,
das beschreibt, wie Daten in das erfindungsgemäße Programm eingelesen und
interpretiert werden.
-
3 ist ein Flussdiagramm,
das beschreibt, wie Terminologie eingelesen und daraus ein Terminologiebaum
aufgebaut wird.
-
4 ist ein Flussdiagramm,
das generisch beschreibt, wie Fehler gefunden und erfasst werden.
-
5 ist ein Blockdiagramm,
das beschreibt, welche Prüfungen
vom Anwender konfiguriert werden können.
-
Detaillierte
Beschreibung der Erfindung
-
Zunächst wird
auf 1 Bezug genommen, in
der die Hauptarbeitsschritte des Programms beschrieben werden. Diese
Arbeitsschritte werden durch Funktionen des Programms umgesetzt.
Das erfindungsgemäße Programm
umfasst in einem ersten Schritt das Einlesen und Parsen der Prüfdateien [100].
Unter Parsen versteht man das Analysieren, Segmentieren und Kodieren
maschinenlesbarer Daten. In einem zweiten Schritt wird es dem Anwender ermöglicht,
die einzelnen Prüfungen
zu konfigurieren [110]. Es kann aber auch auf eine bereits
vorhandene Konfigurationsdatei zurück gegriffen werden. Danach wird
die Terminologie eingelesen [120]. Die einzelnen Prüfaufgaben
werden automatisch durchgeführt [130].
Nach Bereitstellung der Daten zur Validierung und ggf. Validierung
der Fehler durch den Anwender [140] werden Berichte ausgegeben
[150], z.B. ein Bewertungsbericht und eine Fehlerliste.
Schließlich können die
Korrekturen in die Originaldatei zurückgespielt und die Markierungen
aus der Korrekturdatei entfernt werden [160].
-
Das
erfindungsgemäße Programm
arbeitet mit Projekten. Ein Projekt stellt eine zusammengehörige Arbeitseinheit
dar. Ein Projekt kann mehrere Dateien umfassen, die einzeln geprüft werden.
Bevor eine zu prüfende
Datei eingelesen wird, muss ein Projekt, d.h. eine Projektdatei,
vorhanden sein bzw. angelegt werden. Beim Anlegen des Projekts wird
die Beschaffenheit der Datei vom Anwender vorgegeben. Das erfindungsgemäße Programm
benutzt diese Information, um zu erkennen, wie die Segmente in der
Ausgangssprache und Zielsprache voneinander getrennt sind. Es sind
z.B. folgende Trennungen möglich:
proprietäre
Trennungen, die z.B. ein Übersetzungsprogramm
wie beispielsweise Trados® definiert, Tabulatoren
oder Trennzeichen, die der Anwender selbst definieren kann.
-
Wenn
das Projekt angelegt ist bzw. die Projektdatei vorhanden ist, wird
eine Datei in das Projekt importiert [200]. Das erfindungsgemäße Programm liest
die zu prüfende
Datei ein und parst sie dabei, um die einzelnen Segmentpaare zu
identifizieren und zu kennzeichnen. Alle weiteren Prüfungen und
Korrekturen erfolgen vorzugsweise in dieser Arbeitsdatei, die eine
Kopie der Originaldatei ist. In 2 wird
der Schritt Prüfdatei
einlesen [100] detailliert dargestellt.
-
Das
erfindungsgemäße Programm
startet ein Textverarbeitungsprogramm wie z.B. MS-Word® bzw.
verwendet es, wenn es bereits geöffnet
ist, um die zu prüfende
Datei zu öffnen
[200]. Die zu prüfende
Datei wird dann vorzugsweise als neue Datei gespeichert [205].
Es handelt sich dabei um eine Arbeitsdatei, die eine Erfindung wie
z.B. "_es.doc" erhält.
-
Danach
werden Zeichen einzeln eingelesen [
210]. Die Zeichen werden
mit ihrem Wert beispielsweise in ASCII oder Unicode gespeichert.
ASCII ist die Abkürzung
für engl.
American Standard Code of Information Interchange und stellt ein
Zeichencode zur Darstellung bestimmter Informationen in Rechnern
dar. Unicode ist ebenfalls ein Zeichencode und arbeitet im Gegensatz
zum ASCII-Code mit 16 Bit und erlaubt die Darstellung von 65.536
Zeichen (2 hoch 16 = 65.536). So erhält z.B. die Buchstabe "r" den Wert 114 oder das chinesische Zeichen
den Wert
30340. Somit können
mit dem erfindungsgemäßen Programm
alle Sprachen geprüft
werden. Nach dem Einlesen eines Zeichens liest das erfindungsgemäße Programm
auch das Format des Zeichens ein [
215]. Unter Format werden
die Darstellungsattribute (rot, fett, kursiv...) des Zeichens verstanden.
Die Zeichen werden so lange eingelesen, bis der Anfang eines Segments
erkannt wird [
220].
-
Das
erfindungsgemäße Programm
liest alle Zeichen ein [225], bis das Ende des Ausgangssegment
(Segment der Ausgangssprache) erkannt wird [235]. Das Ende
des Ausgangssegment wird aufgrund der Vorgabe in der Projektkonfiguration
erkannt. Wenn z.B. ein Tag "<EAS>" als Trennsymbol zwischen Ausgangssprache
und Zielsprache definiert wurde, erkennt das erfindungsgemäße Programm
dieses Symbol als Ende des Segments der Ausgangssprache.
-
Nach
diesem Symbol sucht das erfindungsgemäße Programm den Beginn des
Zielsegments. Falls der Beginn des Zielsegments gefunden wird, liest
das erfindungsgemäße Programm
die Übersetzung
des Ausgangssegments in der Zielsprache bis zum Ende des Zielsegments
ein [265].
-
Falls
indessen statt des Anfangs des Zielsegments eine Absatzmarke oder
der Beginn eines neuen Ausgangssegments gefunden wird, wird das bereits
eingelesene Ausgangssegment aus dem Arbeitsspeicher entfernt und
verworfen und das erfindungsgemäße Programm
verzweigt zu [210] zurück und
sucht den Anfang des nächsten
Ausgangssegments. Diese Möglichkeit
wurde in 2 bewusst nicht
dargestellt, um diese Abbildung übersichtlich
zu halten.
-
Jedes
Gesamtsegment, bestehend aus Ausgangssprache und Zielsprache, wird
indiziert [270]. Als nächster
Schritt markiert das erfindungsgemäße Programm jedes Segment durch
Textmarken, die vor Anfang des Segments der Ausgangssprache und nach
Ende des Segment der Zielsprache stehen [275]. Als maximale
Anzahl von Segmenten, die das erfindungsgemäße Programm mit Textmarken
kennzeichnen kann, wird ein Wert von 16370 als sinnvoll angesehen.
-
Schließlich ermittelt
das erfindungsgemäße Programm
die Wortzahl in der Prüfdatei
[280]. Es zählt
hierzu die Wörter
in den Ausgangssegmenten. Diese Methode wurde gewählt, um
die genaue Anzahl von zu übersetzenden
Wörtern
zu ermitteln. Dokumente können
eine Vielzahl von Texten enthalten, die nicht zu übersetzen
sind. Diese würden
in normalen Textzählprogrammen
mitgezählt.
-
Nachdem
die Prüfdatei
eingelesen wurde [100], werden die Daten in einer Form
bereitgestellt, die den Anwender in die Lage versetzt, den Schritt "Prüfungen konfigurieren" [110] durchzuführen. Dabei
können
alle notwendigen Parameter für
den Schritt "Prüfungen durchführen" [130] definiert
werden. Auf diese Parameter wird während dieses Schrittes über die
einzelnen Funktionen des erfindungsgemäßen Programms zugegriffen.
Es handelt sich um die nachfolgend geschilderten Konfigurationen:
Bei
der Terminologieprüfung
[500] wird geprüft,
ob für jeden
Begriff aus einem Ausgangssegment, der in einer Terminologieliste
vorhanden ist, auch die Übersetzung
verwendet wurde, die sich in dieser Terminologieliste befindet.
Unter Terminologie werden in diesem Zusammenhang z.B. Begriffe oder
Abkürzungen verstanden,
die als produkt- oder firmenspezifisch sind und für die eine Übersetzung
vorgegeben wird. Die Terminologieliste ist eine zweispaltige Liste,
die in einem Tabellenprogramm wie z.B. MS-Excel® gespeichert
wurde. Eine erste Konfigurationsmöglichkeit ist die Berücksichtigung
der Groß-/Kleinschreibung
beim Terminologievergleich. Eine weitere Konfigurationsmöglichkeit
gilt für
den Fall, dass mehr als eine Übersetzung
für einen
Ausgangsbegriff gilt. Der Anwender gibt das Zeichen ein, durch das
zwei gleichwertige Übersetzungen
in der Zelle der MS-Excel Tabelle für die Übersetzung getrennt sind. Beim Schritt
Terminologie einlesen [120] wird nach diesem Trennzeichen
gesucht.
-
Weitere
Konfigurationsmöglichkeiten
gelten für
Präfixe
und Suffixe, die beim Vergleich von Ausgangsbegriff und Übersetzung
berücksichtigt
werden können.
Ein Präfix
bezeichnet hier die Buchstaben, die vor einem Terminologieeintrag
stehen. Ein Suffix bezeichnet die Buchstaben, die nach einem Terminologieeintrag
stehen. Das erfindungsgemäße Programm
bietet über
Präfixe
und Suffixe die Möglichkeit,
nicht nur die exakte identische Schreibweise eines Begriffs in der
Ausgangssprache bzw. in der Zielsprache zu vergleichen, sondern
auch Varianten dieser Begriffe mit in den Vergleich zu ziehen. So
kann mit dem deutschen Suffix "e" und dem englischen Suffix "s" nicht nur das Begriffspaar "Tisch/Table" sondern auch die
Variante "Tische/Tables" geprüft werden.
Programme, die eine morphologische Analyse von Wörtern durchführen, sind
sehr aufwändig und
nur für
eine begrenzte Zahl von Sprachen verfügbar. Unter morphologische
Analyse versteht man die Zerlegung von Wörtern in kleinsten bedeutungstragenden
Einheiten. Mit dem Ansatz von Präfix-
und Suffix-Dateien ist es indessen für eine Vielzahl von Sprachen
möglich,
mehrere morphologische Varianten eines Wortes bei der Terminologieprüfung zu
berücksichtigen.
-
Die
Einstellungen der Terminologieprüfung gelten
sinnvoller Weise auch für
die umgekehrte Terminologieprüfung.
Bei dieser Prüfung
prüft das
erfindungsgemäße Programm,
ob ein Begriff aus der Terminologieliste, der im Zielsegment gefunden
wurde, auch die erwartete Entsprechung in der Ausgangssprache hat.
-
Bei
der Tagprüfung
[510] wird geprüft,
ob die Tags im Ausgangs- und im Zielsegment miteinander übereinstimmen.
Unter Tag versteht man Markierungszeichen, die den Zustand von Daten,
Datenbereichen oder Dateien kennzeichnen. In einem Eingabefenster
kann dem erfindungsgemäßen Programm zur
Konfiguration durch den Anwender mitgeteilt werden, was ein Tagbegrenzer
ist. Die Zeichen, die hier vom Anwender eingegeben werden, werden
von den Funktionen des erfindungsgemäßen Programms als Anfang bzw.
Ende eines Tags gesucht. Es gibt bestimmte Tagtypen, die in der Übersetzung
verschwinden. Dies ist beispielsweise für Tags der Fall, die eine optionale
Worttrennung kennzeichnen. Das erfindungsgemäße Programm bietet die Möglichkeit,
solche Tags in eine Liste aufzunehmen und vom Vergleich auszuschließen.
-
Bei
der Zahlenprüfung
[520] wird geprüft,
ob die Zahlen im Ausgangs- und im Zielsegment miteinander übereinstimmen.
Dabei werden nicht nur einzelne Ziffer miteinander verglichen sondern
auch komplette Zahlen. Eine Zahl kann auch Zeichen enthalten, die
keine Ziffer sind. Dies sind zuerst die Dezimal- und Tausender-Trennzeichen.
Diese Zeichen können
getrennt für
die Ausgangs- und Zielsprache gesetzt werden. Das erfindungsgemäße Programm sucht
zuerst nach den Dezimal- und Tausender-Trennzeichen. Danach sucht
es nach möglichen weiteren
Zeichen, die innerhalb einer Zahl vorkommen dürfen. Solche Zeichen können beispielsweise die
Zeichen "-" oder "/" sein. Diese weiteren Zeichen können vom
Anwender eingegeben werden.
-
Zur
Konfiguration der Vollständigkeitsprüfung [530]
kann der Anwender zwei Werte eingegeben, die das erfindungsgemäße Programm
bei seiner Prüfroutine
verwendet. Die Vollständigkeitsprüfung besteht
darin, dass die tatsächliche
Länge des
Segments der Zielsprache mit seiner Soll-Länge verglichen wird. Die Soll-Länge wird
in Prozent ausgedrückt
und stellt das durchschnittliche Längenverhältnis Ausgangssprache/Zielsprache
dar. Wenn der Anwender beispielsweise die Soll-Länge 80 eingibt, bedeutet dies,
dass das erfindungsgemäße Programm alle übersetzten
Segmente als Fehler meldet, deren Länge unter 80 % der Länge des
Ausgangssegment liegt. Unterschreitet ein Zielsegment die eingegebene
Soll-Länge,
wird es als Fehler gekennzeichnet. Bei kleineren Segmenten sind
die Längenunterschiede
oft größer, da
es sich meistens um Einzelwörter handelt.
Um zu vermeiden, dass bei solchen Segmenten Fehler gemeldet werden,
ist eine Schwelllänge
vorge sehen. Das ist die Länge,
ab welcher das erfindungsgemäße Programm
die Länge
des Zielsegments prüft.
-
Bei
der Akronymprüfung
[540] wird geprüft, ob
die Akronyme im Ausgangs- und im Zielsegment miteinander übereinstimmen.
Ein Akronym ist eine beliebige Kombination von Buchstaben, Sonderzeichen
und Ziffern. Der Anwender definiert die Beschaffenheit der Akronyme.
Er kann mehrere Akronymtypen definieren. Die Definition eines Akronyms kann
mehrere Bedingungen mit Booleschen Operatoren miteinander kombinieren
wie z.B.: "Beginnt
mit 2 Großbuchstaben
AND enthält
2 Ziffern AND enthält '-'".
Es gibt jedoch einige Begriffe, die dieselbe Struktur wie Akronyme
haben, und trotzdem übersetzt werden.
Diese Begriffe können
in eine Ausschlussliste aufgenommen werden. In diesem Fall prüft das erfindungsgemäße Programm,
ob das gefundene Akronym mit einem Eintrag aus dieser Ausschlussliste übereinstimmt
und schließt
diesen Eintrag von der Akronymprüfung
aus. Die Akronymdefinition kann der Anwender vorzugsweise als Vorlage
speichern. Die Vorlage enthält
z.B. die Erfindung "acr".
-
In 3 wird der Schritt "Terminologie einlesen" [120] detailliert
dargestellt. Dieser Schritt ist für drei Prüfungsarten wichtig: Terminologieprüfung, umgekehrte
Terminologieprüfung
und Einzelbegriffprüfung.
Während
dieses Prozesses wird eine Originaldatei, die z.B. eine MS-Excel®-Datei
ist, in einen indizierten Suchbaum umgewandelt. Dieser Schritt ist wichtig,
um ein schnelles und effizientes Suchen nach Terminologieeinträgen zu gewährleisten.
-
Zuerst öffnet das
erfindungsgemäße Programm
die MS-Excel®-Tabelle, die die
Terminologie in zwei Spalten (Ausgangssprache/Zielsprache) enthält [300].
Dann liest das erfindungsgemäße Programm
den Ausgangsbegriff aus der ersten Zelle der ersten Spalte der MS-Excel®-Tabelle
ein [305]. Anschließend
liest es den Inhalte der ersten Zelle der zweiten Spalte ein [310]
und prüft,
ob diese Zelle ein Trennzeichen enthält, das mehrere akzeptierte Übersetzungen
eines Ausgangsbegriffs trennt [315]. Falls dies der Fall
ist, erfasst das erfindungsgemäße Programm
den oder die Begriff(e), die nach diesem Trennzeichen kommen als
gültige
Begriffe für
die Zielsprache.
-
Nachdem
ein Begriff mit seiner/seinen Übersetzung(en)
eingelesen wurde, erfolgt der Schritt Begriffe indizieren [320].
Anschließend
baut das erfindungsgemäße Programm
mit Hilfe des an sich bekannten Aho-Corasick-Algorithmus ein Terminologiebaum
auf. Die Grundidee dieses Algorithmus ist, dass bei einem Unterschied
eines Zeichens während des
Vergleichsvorgangs das Suchmuster nicht nur um ein Zeichen weiterverschoben
wird, sondern um mehrere, da sich aus der Information der zuvor
verglichenen Zeichen ein Vorteil ermitteln lässt. Dazu berechnet das erfindungsgemäße Programm
die Länge
des Suffixes des Begriffs [325]. Mit Suffix sind hier die
Zeichen gemeint, die nach dem Begriffswurzeln kommen. Der ermittelte
Wert wird dem Begriff als Status zugewiesen [330] und dient
dazu, einen Terminologiebaum aufzubauen [335]. Der eingelesene
Begriff kann über
seine Position im Baum (seine Suffixlänge) und seine Position im
Zweig (sein Index) gefunden werden.
-
Wenn
der erste Begriff eingelesen und indiziert wurde, sucht das erfindungsgemäße Programm, ob
weitere Begriffe kommen [340]. Ist das erfindungsgemäße Programm
an das Ende der MS-Excel®-Terminologieliste
gekommen, speichert es den Terminologiebaum als Datei [345].
Diese Datei erhält
z.B. die Endung "sm".
-
Auf
die Konsistenzprüfung
[550] wird weiter unten eingegangen.
-
Als
letzter Schritt bei der Konfiguration der Prüfungen [110] gilt
das Konfigurieren der Berichte [560]. Diese Konfiguration
ist für
den Schritt Berichte erzeugen [150] wichtig. Der Anwender
gibt vorzugsweise dem erfindungsgemäßen Programm hauptsächlich zwei
Informationen. Zum einen kann er einen gewichteten Wert für jede Fehlerkategorie
nennen. Mit diesem Wert wird die Fehlerzahl multipliziert. Zum anderen
kann er Werte für
die einzelnen Bewertungsstufen eingeben. Diese Werte entsprechen
in Prozent dem Verhältnis
der gewichteten Fehlerpunkte zu Wortzahl im Dokument. Das erfindungsgemäße Programm
arbeitet mit mindestens zwei und vorzugsweise mit drei Bewertungsstufen,
wie z.B.: "gut", "akzeptabel" und "nicht ausreichend". Eine Beschränkung auf
3 Stufen erleichtert die Selektion der Übersetzer bei Projekten. Aus
diesem Grund ist es sinnvoll, das erfindungsgemäße Programm auf diese 3 Bewertungen
zu beschränken.
-
Die
Einstellungen, die vom Anwender konfiguriert wurden, speichert das
erfindungsgemäße Programm
als Vorlagedatei z.B. mit der Erfindung "opt",
wenn der Anwender dies möchte.
Diese Vorlage kann der Anwender vorzugsweise laden, wenn er ein
neues Projekt startet.
-
Die
Funktionen Prüfdatei
einlesen [100], Prüfungen
konfigurieren [110] und Terminologie einlesen [110]
dienten bisher zur Vorbereitung der eigentlichen Prüfung der Übersetzung
durch das erfindungsgemäße Programm.
Bei den Prüfungsarten
wird zwischen automatischen und interaktiven Prüfungen unterschieden. Automatische
Prüfungen
werden im Batchverfahren durchgeführt. Es sind die Terminologie-,
ungekehrte Terminologie-, Tag-, Vollständigkeits-, Zahlen- und Akronymprüfun gen.
Die interaktiven Prüfungen
können
durch den Anwender ausgelöst
werden. Es handelt sich dabei um die Einzelbegriffprüfung, die
Konsistenzprüfung
und die selbstdefinierten Fehler. Unter Konsistenzprüfung wird
hier eine Prüfung
verstanden, die gewährleistet,
dass gleiche Ausgangssegmente auch gleich übersetzt wurden. Die Konsistenzprüfung ist
zwar eine automatische Prüfung,
sie kann aber nicht gleichzeitig mit den anderen Prüfungen laufen,
da alle Segmente, die in der Ausgangssprache identisch sind, angezeigt sind.
Dass heißt,
dass auch nicht fehlerhafte Segmente angezeigt werden.
-
Die
Funktion Prüfungen
durchführen
[130] erfolgt in mehreren Schritten. Zuerst werden alle Werte
zurückgesetzt
[400]. Das erfindungsgemäße Programm initialisiert dann
die einzelnen Prüfungen [405].
Dabei prüft
es, welche Prüfungen
bei der Konfiguration durch den Anwender aktiviert wurden und welche
Einstellungen für
die einzelnen Prüfungen
definiert wurden. Die Prüfungen
werden vorzugsweise in einer bestimmten Reihenfolge durchgeführt, z.B.: Vollständigkeitsprüfung, Zahlenprüfung, Tagprüfung, Terminologieprüfung, umgekehrte
Terminologieprüfung
und Akronymprüfung.
Bei jeder Prüfungsart
ist die Vorgehensweise des erfindungsgemäßen Programm ähnlich:
Im Ausgangssegment wird zuerst das zu prüfende Merkmal gesucht [415].
Danach liest das erfindungsgemäße Programm
das Zielsegment und sucht nach dem Sollwert (Begriff, Zahl) des Merkmals
in der Zielsprache [420]. Bei der umgekehrten Terminologieprüfung erfolgt
dies in der umgekehrten Reihenfolge. Das erfindungsgemäße Programm
prüft,
ob die erwarteten Werte gefunden wurden [425]. Sollte es
nicht der Fall gewesen sein, wird zuerst der Fehler im Ausgangssegment
z.B. farblich hervorgehoben [430], falls diese Markieroption
vom Anwender gewählt
wurde. Danach wird der Fehler in die Fehlerliste aufgenommen [435].
Diese Liste kann sich im Haupt fenster des erfindungsgemäßen Programms
befinden. Das erfindungsgemäße Programm
prüft,
ob ein weiteres Segment zu prüfen
ist [440]. Wenn das letzte Segment erreicht wurde [445], ermittelt
das erfindungsgemäße Programm,
ob weitere Prüfungen
stattfinden sollen [450].
-
Der
Anwender hat nun eine rohe Fehlerliste, die er validieren kann [140].
Er kann diese Liste nach der Reihenfolge der Fehler im Text oder
nach Kategorie bzw. Fehlertext sortieren. Jeder Fehler hat nämlich zuerst
den Status "ungeklärt". Der Anwender kann
jeden einzelnen Fehler sichten und akzeptieren bzw. verwerfen. Er
kann z.B. durch Doppelklicken direkt an die fehlerhafte Stelle im
Text gelangen und prüfen,
ob es sich um einen tatsächlichen
Fehler handelt. Gleichzeitig kann er in einem Segmentfenster z.B.
im Hauptfenster des erfindungsgemäßen Programms sehen, welche
Segmente fehlerhaft sind und welche Terminologie erwartet wurde.
Wenn der Anwender einen Fehler annimmt, vergibt er ihn den Status "Angenommen". Ansonsten vergibt
er den Status "Abgelehnt". Diese Statusvergabe
kann er auch im Batchverfahren für
alle Fehler eines bestimmten Typs durchführen wie z.B. alle Terminologiefehler
für einen
bestimmten Begriff. Dieser Status wird vom erfindungsgemäßen Programm
verwendet, um die Bewertung der Übersetzung
und die Fehlerliste zu generieren [150]. Der Anwender hat bei jedem
Fehler die Möglichkeit,
diesen in der Arbeitsdatei zu korrigieren. Die Korrektur erfolgt
sinnvoller Weise nicht in der übersetzten
Originaldatei, die bei Schritt [100] eingelesen wurde.
-
Die
interaktiven Prüfungen,
die durch das erfindungsgemäße Programm
möglich
sind, sind die Einzelbegriffprüfung
und die Konsistenzprüfung [550].
Bei der Einzelbegriffprüfung
gibt der Anwender in einem Dialogfenster zuerst den Ausgangsbegriff nach
dem das erfindungsgemäße Programm
suchen soll. In einem zweiten Feld gibt er den Begriff ein, der im
Zielsatz erscheinen bzw. nicht erscheinen soll. Diese Variablen
werden mit Boolschen Operatoren an die Suchfunktion des erfindungsgemäßen Programms
gegeben. Das erfindungsgemäße Programm
listet in einem Fenster alle Segmente auf, die gefunden wurden.
-
Wenn
die Ergebnisse validiert wurden [140], hat der Anwender
die Möglichkeit,
eine Bewertung der Übersetzung
und eine Fehlerliste zu erzeugen. Die Bewertung der Übersetzung
ergibt sich aus dem Verhältnis
gewichtete Fehlerpunkte zu Wortzahl im Dokument. Anhand der im Programmteil
Prüfungen konfigurieren
[110] ermittelten Werte, ermittelt das erfindungsgemäße Programm,
ob die Übersetzung z.B.
gut, akzeptabel oder nicht ausreichend ist. Anschließend werden
die Berichte erzeugt [150].
-
Der
letzte Schritt bei der Arbeit mit dem erfindungsgemäßen Programm
besteht darin, die Korrekturen, die vom Anwender in die Arbeitsdatei
eingegeben wurden, zurück
in die Originaldatei zu spielen [160]. Dabei prüft das erfindungsgemäße Programm welche
Zielsegmente sich geändert
haben und ersetzt in der Originaldatei das Originalsegment durch das
geänderte
Segment. Anschließend
entfernt das erfindungsgemäße Programm
alle Markierungen aus der Prüfdatei.
-
Das
erfindungsgemäße Programm
kann beispielsweise in 3 Versionen ausgeführt werden, z.B.: eine Standardversion,
eine Unternehmensversion und eine Remote-Version. Die Funktionalität und Methoden
der Standardversion sind in den obigen Abschnitten beschrieben worden.
Eine Erweiterung des erfindungsgemäßen Programms bieten die beiden anderen
Versionen. Mit der Unternehmensversion kann der Anwender Prüfpakete
schnüren,
die von einer kostenlosen Version (der Remote-Ver sion) geprüft werden
können.
In einem Prüfpaket
werden alle Dateien und Einstellungen gespeichert, die für das Prüfen von
Obersetzungen notwendig sind. Das erfindungsgemäße Programm speichert folgende
Dateien in einem Prüfpaket:
Präfix-Datei für die Ausgangs-
und die Zielsprache, Suffix-Datei für die Ausgangs- und die Zielsprache,
Tagausschlussdatei, die Terminologiedatei und die Projektdatei.
Die zu prüfende
Datei ist in diesem Paket nicht enthalten, weil sie meistens noch
nicht übersetzt
wurde. Das Prüfpaket
ist eine Datei z.B. mit der Erfindung "dog".
Das erfindungsgemäße Programm
verwendet folgende Methode, um zu verhindern, dass die kostenlose
Version für
andere Aufgaben verwendet wird als für die Prüfung eines spezifischen Projektes.
Das Projekt ist zuerst mit einem Verfallsdatum versehen, das auf
dem vom Anwender eingegebenen Lieferdatum für das Projekt basiert. Ist
das Datum verfallen, kann das Programm nicht mehr eingesetzt werden.
Ferner prüfen
die Routinen des erfindungsgemäßen Programms
die Anzahl der in das Projekt importierten Dateien. Eine vom Anwender
vorgegebenen Anzahl von Dateien darf nicht überschritten werden. Bereits importierten
Dateien können
auch nicht entfernt werden. Eine Prüfroutine des erfindungsgemäßen Programms
verhindert, dass Dateien aus dem Projekt ausgetauscht werden. Die
zu prüfende
Datei wird geöffnet
und als Arbeitsdatei z.B. mit der Erfindung "_es.doc" gespeichert [205]. Die Prüfroutine
prüft, dass
die bereits in das Projekt importierten Ausgangsegmente mit den
Segmenten der zu prüfenden
Datei übereinstimmen.
Damit wird vermieden, dass Dateien lediglich umbenannt werden, um
in einem Projekt der Remote-Version geprüft zu werden. Schließlich sind
die Konfigurationsmöglichkeiten
in der Remote-Version gesperrt. Es können nur die vom Anwender mit
der Unternehmensversion definierten Einstellungen und Terminologien
verwendet werden. Mit dem Konzept der Remote-Version erlaubt das
erfindungsgemäße Programm
die Verteilung der Prüfarbeit
auf verschiedene Standorten und Arbeitsplätze.