-
Die vorliegende Erfindung betrifft ein computergestütztes Hilfsmittel bzw. Computerprogrammprodukt für ein Verfahren zur Erstellung von fremdsprachigen Dokumenten gemäss Oberbegriff des Anspruchs 1, sowie einen Datenträger für dieses Computerprogrammprodukt bzw. Hilfsmittel.
-
Verfahren zur Erstellung von fremdsprachigen Dokumenten finden ihre Anwendung ganz allgemein in der Kommunikationstechnologie und insbesondere in technischen Bereichen, wie beispielsweise in der Fahrzeugindustrie, Maschinenindustrie oder Uhrenindustrie, wo Bedienungsanleitungen, Ersatzteilkataloge, Serviceanleitungen und viele andere Dokumentationen in mehrere Sprachen übersetzt werden. Derartige Dokumentationen wurden bisher im Wesentlichen von Übersetzern in eine andere Sprache übersetzt, anschliessend von anderen Fachpersonen mit einem vorgegebenen Layout versehen und von weiteren Fachpersonen gedruckt bzw. publiziert. Es versteht sich, dass diese Vorgehensweise viel Zeit und Geld kostet.
-
Es ist deshalb das allgemeine Bestreben in der Kommunikationstechnologie, das Erstellen von Publikationen in verschiedenen Sprachen zu automatisieren. Technische Dokumentationen dieser Art enthalten viele Wiederholungen und eigenen sich deshalb, in einer Terminologie-Datenbank abgelegt zu werden, um die Übersetzer von Routinearbeiten zu entlasten.
-
So sind verschiedene Terminologie-Datenbanken bekannt, welche spezielle Begriffe auf den angesprochenen Gebieten verwalten und den Übersetzungsprozess bei der Erstellung von mehrsprachigen Publikationen rationalisieren. Die dazu verwendeten Computerprogramme machen Gebrauch vom sogenannten Delta-Prinzip, d. h. dass bei der Übersetzung von nur wenig geänderten Dokumenten lediglich die Teile der Dokumentation manuell bearbeitet werden müssen, welche neu eingebracht worden sind. So lassen sich technische Dokumentationen schneller und kostengünstiger erstellen. Weiterentwicklungen dieser computerunterstützten Übersetzungstechnik sind im Stand, Querverbindungen zwischen einzelnen Publikationen, bspw. zwischen einem Ersatzteilkatalog und einer Service-Anleitung, herzustellen.
-
Zur Steigerung der Bearbeitungseffizienz und Übersetzungsqualität, insbesondere der konsequenten Verwendung einer fachspezifischen Terminologie, werden heute bei der Übersetzung von Texten maschinenunterstützte Verfahren verwendet, welche als Machine Translation Systems oder Translation Memory Systems bekannt sind. Ein derartiges Translation Memory System ist bspw. aus der
EP 1 349 079 oder der
EP 0 952 532 bekannt und beruht darauf, einmal erbrachte Übersetzungsarbeiten automatisch wieder zur Verfügung zu stellen, insbesondere übersetzte Begriffe, Sätze oder ganze Textsegmente. Dabei können auch nur teilweise zutreffende Textpassagen aus der Translation Memory zur Wiederverwendung vorgeschlagen werden. Bei der Machine Translation-Technik wird im Wesentlichen über die Kombination von Syntax- und/oder Semantik-Analyse eine automatische Übersetzung maschinell generiert. Ein derartiges Verfahren wird bspw. in der
WO 99/57651 oder
WO 02/093416 beschrieben.
-
Die mit Hilfe der Machine Translation oder Translation Memory Systeme übersetzten Originaltexte werden in der Regel direkt wieder als Dokumentationen, d. h. Printmedien, elektronische Publikationen oder als maschinenlesbare Information ausgegeben. Dabei liegen die zu übersetzenden Texte meist in einem proprietären Format vor, typischerweise in einem maschinenlesbaren Code.
-
Die zu bearbeitenden Originaltexte werden mit Hilfe von unterschiedlichen Layoutgeneratoren (DTP-Programme, wie Word@, QuarkXPressO, FrameMaker@, etc.) erstellt. Diese Layoutgeneratoren verwenden wiederum produktspezifische Hilfsmittel, z. B. Satz- oder Layoutprogramme.
-
Fehler oder Unregelmässigkeiten der Formatierungsbefehle (Titel, Leerschläge, Zeilenumbruch, Trennzeichen, etc.) bei den mit diesen Layoutgeneratoren erzeugten maschinenlesbaren Codes reduzieren die Trefferquote bei den genannten maschinenunterstützen Übersetzungshilfen (Translation Memory und/oder Machine Translation) und tragen zur Verschlechterung der Übersetzungsergebnisse wesentlich bei.
-
Es erweist sich deshalb als besonders nachteilig für die Trefferquote bei der maschinenunterstützten Übersetzung, dass die Originaltexte mit gleichen oder ähnlichen semantischen Inhalten wegen ihrer unterschiedlichen Erstellungswege mit unterschiedlichen Layouthilfsmitteln/Layoutcodes erstellt worden sind. Insbesondere führen diese unterschiedlichen Layoutcodes dazu, dass bei der anschliessenden maschinenunterstützten Übersetzung, d. h. beim maschinellen Vergleich der semantischen Inhalte, die Trefferquote schlechter ausfällt, als bei einem Vergleich von Texten mit ähnlichen oder gleichen Layoutcodes. Dies ist die wesentliche Ursache, weshalb Machine Translation und/oder Translation Memory Systeme teilweise weniger hohe Trefferquoten liefern, als auf Grund der Originaltexte selbst zu erwarten wäre. Bei der Vorbereitung von Daten für die Übersetzung, insbesondere den Import in eine Übersetzungsumgebung eines Machine Translation und/oder Translation Memory Systems, werden die vom Erstellungsverfahren erzeugten Layoutbefehle nach Möglichkeit automatisch von den Textdaten getrennt und für die automatische Layoutgenerierung der übersetzten Daten nach Möglichkeit wieder verwendet (vergleiche
WO 99/57651 ).
-
Es ist deshalb Aufgabe der vorliegenden Erfindung, die bei der Erstellung und/oder Übernahme von maschinenlesbaren Formatierungscodes entstandenen Fehler oder Unregelmässigkeiten zu bereinigen.
-
Es wird deshalb vorgeschlagen, für die Überprüfung und Verbesserung von maschinenlesbaren Layoutcodes und im Hinblick auf die bei der Erstellung oder Übernahme von maschinenlesbaren Codes entstandenen Fehler oder Unregelmässigkeiten, Mittel (mit oder ohne direkte Interaktionsmöglichkeit) für die Bereinigung dieser Fehler und/oder Unregelmässigkeiten zu schaffen.
-
Erfindungsgemäss weisen diese Mittel die Merkmale des Anspruchs 1 auf. Insbesondere sieht die vorliegende Erfindung vor, ein Computerprogrammprodukt bzw. computergestütztes Hilfsmittel zur Überprüfung eines Verfahrens zur Erstellung von fremdsprachigen Dokumenten einzusetzen, bei welchem ein formatierter Quelltext mit Hilfe einer maschinellen Übersetzungsvorrichtung (Machine Translation System) und/oder unter Verwendung eines Übersetzungsspeichers (Translation Memory) in einen Zieltext übersetzt wird, wobei der formatierte Quelltext vor einer maschinellen Übersetzung auf Abweichungen und/oder Fehler bei den Formatierungsbefehlen geprüft wird. Dabei werden Abweichungen und/oder Fehler bei den Formatierungsbefehlen im Quelltext mit einer Regelliste verglichen, welche Regelliste Semantik- und Syntax-Regeln, wie auch Regeln für die Formatierung aufweist. Mit diesem Computerprogrammprodukt bzw. Hilfsmittel können festgestellte Abweichungen und/oder Fehler bei den Formatierungsbefehlen im Quelltext in einem Log-File gespeichert werden und/oder für eine manuelle Korrektur über ein Dialogfeld angezeigt werden.
-
Weitere bevorzugte Ausführungsformen weisen die Merkmale der Unteransprüche auf. Die Vorteile des vorliegenden Computerprogrammprodukts bzw. Hilfsmittels sind dem Fachmann unmittelbar ersichtlich und sind darin zu sehen, dass die vorgeschlagene Bereinigung dazu führt, dass die folgende Weiterverarbeitung und Weiterverwendung der Formatierungscodes, vor allem bei der Übersetzung und der maschinengestützten automatischen Generierung der Zielpublikation, zu besseren Übersetzungsergebnissen führt. Ganz allgemein kann gesagt werden, dass durch die Verwendung des erfindungsgemässen Computerprogrammprodukts bzw. Hilfsmittels die Fehlerquote bei der automatischen Übersetzung wesentlich verringert wird, weil die Trefferquote bei den Translation Memory und/oder Machine Translation Systemen erhöht wird. Damit reduziert sich auch der Aufwand für die jeweiligen Sachbearbeiter.
-
Im Folgenden soll die Erfindung anhand eines Ausführungsbeispiels und mit Hilfe der Figur näher erläutert werden. Es zeigt:
-
1 ein Flussdiagramm, das die Erfindung verdeutlicht.
-
Diese Figur macht deutlich, wie mit dem erfindungsgemässen Computerprogrammprodukt bzw. Hilfsmittel (Format Checker) die DTP-Qualität (Formatierungsqualität) der einem Übersetzungsverfahren zugeführten Quelldaten geprüft wird. Insbesondere werden alle in einem spezifischen Übersetzungsprogramm auszuschliesseriden Fehler (z. B. unzulässiges Leerfeld am Zeilenanfang) in einem Fehlerscript festgehalten. Das erfindungsgemässe Computerprogrammprodukt bzw. Hilfsmittel prüft das Vorkommen bestimmter Fehler und erzeugt für jede Datenprüfung ein Log-File mit einer Rückmeldung über Art und Häufigkeit dieser Fehler. Im Folgenden soll unter dem Begriff ”Formatierungsfehler” eine definierte Abweichung von einer Standard gemässen Gestaltung eines vorgegebenen Satzspiegels verstanden werden. Der zu prüfende Text 1 oder Textbaustein wird mit Hilfe eines Konverters 2 aus einem beliebigen Ausgangsformat sowohl als Plain Text 3 als auch im XML-Format (STAR OWN FORMAT) ausgegeben. Der Konverter lässt sich für die Bearbeitung von beliebigen Queilformaten (z. B. WinWord®, FrameMaker®) programmieren und ist im erfindungsgemässen Computerprogrammprodukt bzw. Hilfsmittel integriert. Der Plain Text 3 wird vorzugsweise in Unicode abgebildet. Das XML-Format wird hier ebenfalls in Unicode als Plain Text angezeigt und verwendet zusätzlich die Zeichen der User Defined Area (E000-F8FF), um die Formateigenschaften von Dokumentenbausteinen zu beschreiben. Diese Zeichen werden Control Characters oder Controls genannt und können per Definition einfache wie auch komplexe Formatierungsinformationen indizieren. Controls können somit auf kleinste formatierungsrelevante Werte, wie ”fett-Anfang”, ”fett-Ende” etc. oder auf Bilder respektive Graphiken verweisen. Einfache wie auch komplexe Formateinstellungen werden jeweils nur durch ein einziges Control wiedergegeben.
-
Bei dem erfindungsgemässen Computerprogrammprodukt bzw. Hilfsmittel werden bestimmte Formatierungsfehler in einer Fehlerliste 5 aufgeführt. Bei den Fehlerregeln handelt es sich um reguläre Ausdrücke (regular expressions), die nach Zeichenketten suchen. Diese Fehlerliste ist im vorliegenden Fall eine ini-Datei, aus welcher das erfindungsgemässe Computerprogrammprodukt bzw. Hilfsmittel die Regeln lädt. Die Regeln werden entweder im Plain Text oder im XML-Format gesucht. Bei den aufgelisteten Fehlerregeln wird zwischen rein Text-bezogene Regeln 6 und solchen Regeln 7 unterschieden, die formatierungsrelevante Daten benötigen, welche über die Controls geliefert werden. Handelt es sich um eine durch eine Text-bezogene Regel definierte Abweichung, steuert das erfindungsgemässe Computerprogrammprodukt bzw. Hilfsmittel den in Plain Text Format abgebildeten Dokumentenmodus an. Im anderen Fall wird der Fehler in der Dokumentenansicht des XML-Format gesucht. Eine Text-bezogene Regel definiert z. B. zwei hinter einander gesetzte Leerschritte als Fehler. Eine Regel, die Controls enthält, könnte beispielsweise einen unzulässigen Formatwechsel anzeigen. Die Liste der Regular Expressions ist beliebig erweiterbar. Das erfindungsgemässe Computerprogrammprodukt bzw. Hilfsmittel ist über eine Schaltfläche in das Ausgangsprogramm, beispielsweise WinWord®, eingebunden und wird über diese Schaltfläche ansteuert. Durch Aktivieren der Schaltfläche wird der im Bildschirmfenster angezeigte Text in Plain Text und XML-Format umgewandelt. Dies geschieht gleichsam im Hintergrund 8, ohne dass der Text für den Benutzer sichtbar im XML-Format auf dem Bildschirm angezeigt wird. Wird das erfindungsgemässe Computerprogrammprodukt bzw. Hilfsmittel über die Schaltfläche angesteuert, beginnt die Prüfroutine an der jeweiligen Cursor Position im aktuell geladenen Dokument. Da das erfindungsgemässe Computerprogrammprodukt bzw. Hilfsmittel somit an jeder beliebigen Stelle im Dokument mit der Fehlersuche beginnen kann, lässt sich der zu prüfende Bereich beliebig auswählen. Das erfindungsgemässe Computerprogrammprodukt bzw. Hilfsmittel vergleicht formatierungstechnisch bearbeitete Dokumente nach dem Prinzip des Pattern Matching mit Hilfe der unterlegten Regellisten 6 oder 7, wobei die Regelliste der Reihe nach abgearbeitet wird. Übereinstimmungen mit in der Liste definierten Fehlern und dem Dokument werden durch eine Rückmeldung im Ausgangsprogramm auf dem Bildschirm angezeigt. Der Cursor wird von dem erfindungsgemässen Computerprogrammprodukt bzw. Hilfsmittel automatisch an die fehlerhafte Stelle im Dokument gesetzt und es wird ein Dialogfenster 9 mit einer inhaltlichen Beschreibung des Fehlers geöffnet. Mit Hilfe einer Stop-Funktion hat der Benutzer nun die Möglichkeit, das erfindungsgemässe Programm anzuhalten und den Fehler manuell zu korrigieren oder das Programm nach der nächsten Übereinstimmung mit der unterlegten Regelliste weitersuchen zu lassen. Die gefundenen Fehler werden in diesem Fall in einem Log-File 10 ausgegeben.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
- EP 1349079 [0005]
- EP 0952532 [0005]
- WO 99/57651 [0005, 0009]
- WO 02/093416 [0005]