DE69711761T2

DE69711761T2 - Anordnung zur Dokumentkonvertierung

Info

Publication number: DE69711761T2
Application number: DE69711761T
Authority: DE
Inventors: Ryoichi Sugimura
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp
Priority date: 1996-05-29
Filing date: 1997-05-29
Publication date: 2002-08-14
Anticipated expiration: 2017-05-30
Also published as: EP0810533A3; US5987403A; DE69711761D1; EP0810533B1; EP0810533A2

Description

HINTERGRUND DER ERFINDUNG

(1) Gebiet der Erfindung

Diese Erfindung betrifft eine Datenverarbeitungsvorrichtung, welche in einer Sprache geschriebenen Text in eine weitere Sprache umwandelt, oder welche in einem Dialekt geschriebene Textdaten in Text eines weiteren Dialektes derselben Sprache umwandelt oder, genauer gesagt eine Vorrichtung, welche die Übersetzung/Umwandlung unter Beibehaltung der dem Text vor der Übersetzung/Umwandlung angehängten Anzeigeeigenschaften durchführt.

(2) Stand der Technik

Es wird heutzutage immer üblicher, Textdaten in das und aus dem Ausland über internationale Kommunikationsnetzwerke, wie z. B. das Internet zu senden bzw. zu empfangen. Textdaten bestehen normalerweise aus Markierungssymbolen und dem Textkörper ohne Markierungssymbole. Markierungssymbole bestehen aus Startmarkierungen und Endlmarkierungen. Startmarkierungen werden durch Eingabe des Markierungsnamens zwischen einem "< " und einem "> " ausgebildet, während Endmarkierungen ein "/" vor dem Markierungsnamen aufweisen. Beispielsweise verwendet HTML B für Fett- Darstellung, I für Kursiv-Darstellung und U für eine unterstrichene Darstellung. Ferner können in aus dem Internet empfangenen Textdaten Ankermarkierungen als Startmarkierungen verwendet werden, um ein Zeiger auf eine weitere Datei anzuzeigen. Ankermarkierungen werden in dem Format < AHREF = "Link-Zieltext"> geschrieben.
Wenn der Datentext aus dem Ausland über das Internet empfangen wird, muss der in der fremden Sprache geschriebene Textkörper in die eigene Muttersprache übersetzt werden. Für diesen Zweck wird eine Maschinenübersetzungssoftware verwendet.
Die japanische offengelegte Patentanmeldung #6-44296 ist eine allgemein bekannte herkömmliche Maschinenübersetzungsvorrichtung. Diese konventionelle Vorrichtung besteht aus einer Trennungseinheit, welche den aus dem Internet empfangenen Text in den Textkörper und die Markierungssymbole auftrennt, einer Speichereinheit, welche das Markierungssymbol speichert und das Symbol seinem Begleitwort zuordnet, einer Wörterbuch-Nachschlage/Morphologie-Analyseeinheit, welche im Wörterbuch nachschlägt und morphologische Analysen an dem Textkörper vornimmt, einer Syntaxanalyseeinheit, welche Syntaxanalysen an dem Textkörper nach der morphologischen Analyse vornimmt, einer Umwandlungseinheit, welche das Ergebnis der Syntaxanalyse umwandelt und einen Syntaxanalysebaum der Zielsprache erzeugt, und einer Übersetzungstext-Erzeugungseinheit, welche sich auf die Inhalte der Speichereinheit bezieht, - um einen übersetzten Text in der Zielsprache auf der Basis des Syntaxanalysebaums der Zielsprache mit eingefügten Markierungszeichen zu erzeugen.
Es gibt jedoch einen Nachteil bei der herkömmlichen Maschinenübersetzungsvorrichtung. Die Vorrichtung hängt Markierungssymbole an das Zielsprachenwort entsprechend dem Wort mit den Markierungssymbolen in der Quellensprache an. So lange die Anzeigeeigenschaften der Zielsprache dieselben wie diejenigen der Quellensprache sind, besteht keine Inkongruenz. Es gibt aber oft Fälle, bei denen das Markierungssymbol nur einigen von den Buchstaben in einem Wort zugeordnet ist. Wenn dieses passiert, werden die den Textdaten in der Zielsprache angehängten Anzeigeeigenschaften in den Textdaten der Zielsprache ignoriert und daher nicht angezeigt. Wenn beispielsweise die Textdaten der Zielsprache gleich " I < B> h< /B> ave a pen." sind, werden die Markierungssymbole in den Textdaten der Zielsprache weggelassen, so dass der Textkörper zu " " ohne die Markierungssymbole wird. Diese führt zu einer unnatürlichen Übersetzung.
Aus dem Internet empfangene Textdaten enthalten auch Zeiger als Ankermarkierungen, welche Links zu anderen Dateien anzeigen. Wenn die Ankermarkierung nur einigen wenigen von den Buchstaben in dem Wort zugeordnet ist, werden die Markierungssymbole in den Dokumentdaten der Übersetzung fallen gelassen, so dass man sich nicht auf die Link-Zieldatei unter Verwendung des übersetzten Textes bewegen kann.
Obwohl das vorstehende Problem bei der Übersetzung von einer Sprache in eine andere Sprache auftritt, kann ein ähnliches Problem auftreten, wenn ein Dialekt in einen anderen Dialekt derselben Sprache übersetzt wird.
US-A-5,361,205 offenbart eine Vorrichtung, welche ein Dokument (Zeichenfolge) mit verschiedenen Arten typographischer Information, wie z. B. Schriftgrösse und Schriftart als Zeichenattribute aufweist und die einem Originaltext des Dokumentes angefügte typographische Information reflektiert. Die Vorrichtung führt eine Morphemanalyse mit typographische Information als ein Morphem für ein Dokument mit typographischer Information zwischen Zeichen aus. Die Vorrichtung bewerte die jedem ein Morphem bildenden Zeichen angehängte typographische Information nach der Durchführung einer Morphemanalyse für einen Satz, welcher einen Teil der typographischen Information als ein Zeichenatiribut besitzt und ermittelt die typographische Information des Morphems, wenn ein einzelnes Morphem bildende Zeichen unterschiedliche Teile der typographischen Information tragen. Die Vorrichtung trennt auch einen Satz, dessen Morphem analysiert wird, in einen Teil typographischer Information und einen Originaltext, übersetzt das Originaldokument in irgendeine andere Sprache und wandelt das Stück der typographischen Information wie erforderlich in eine entsprechende unter Vorwegnahme eines Falles um, in welchen der dem Originaldokument hinzugefügte Teil der typographischen Information nicht so "wie er ist" seinem Übersetzungsergebnis hinzugefügt werden kann.
In EP-A-0 805 402, welche einen Teil des Stands der Technik aufgrund von Artikel 54(3) EPC darstellt, wird, wenn eine natürliche Sprachverarbeitung auf ein Dokument angewendet wird, welches eine typographische Effekte spezifizierende eingebettete Information erhält, die eingebettete Information zuerst umgewandelt, so dass jede Einheit der eingebetteten Information nur auf die eine Einheit der natürlichen Sprache zutrifft, dann verdeckt, so dass die natürliche Sprachverarbeitung an den natürlichen Spracheinheiten alleine ausgeführt werden kann. Nach der Verarbeitung der natürlichen Sprache kann die eingebettete Information wieder hergestellt und redundante Teile der eingebetteten Information entfernt werden.

ZUSAMMENFASSUNG DER ERFINDUNG

Es ist daher eine Hauptaufgabe dieser Erfindung, eine Zeichenfolgen- Umwandlungsvorrichtung bereitzustellen, welche den Teil, welcher der zweiten Zeichenfolge entspricht, ohne Fallenlassen des Teils der Zeichenfolge mit Anzeigeeigenschaften selbst dann darstellen kann, wenn die Anzeigeeigenschaften nur einen Teil der Zeichenfolge zugeordnet sind.
Die vorliegende Erfindung stellt eine Dokumenten-Umwandlungsvorrichtung zum Umwandeln von Quellendaten in Zieldaten bereit, die umfasst:
eine Quellentext-Speichereinrichtung, die einen Quellentext speichert;
eine Quellenanzeigedaten-Speichereinrichtung, die Quellenanzeigedaten speichert, wobei es sich bei den Quellenanzeigedaten um eine Kombination aus Quellenanzeigeeigenschaften, die in dem Quellentext enthalten sind, und einer Position handelt, an der Quellenanzeigeeigenschaften an den Quellentext angehängt sind;
eine Umwandlungseinrichtung, die einen Quellentextkörper in einen Zielkörper umwandelt, wobei es sich bei dem Quellentextkörper um Text handelt, in dem Quellenanzeigeeigenschaften ausgeschlossen sind, und es sich bei dem Zieltext ebenfalls um Text handelt, in dem Anzeigeeigenschaften ausgeschlossen sind;
eine Zieltext-Speichereinrichtung, die den umgewandelten Zieltextkörper speichert; eine Umwandlungs-Paarinformations-Speichereinrichtung, die Umwandlungs- Paarinformationen speichert, wobei es sich bei den Umwandlungs-Paarinformationen um eine Kombination handelt, die zeigt, wie die Worte in dem Quellentext den Worten in Zieltext entsprechen, wobei ein Wort als eine Einheit mit Bedeutung definiert ist;
eine Verarbeitungseinrichtung, die den Quellentextkörper verarbeitet und Zielanzeigedaten erzeugt, indem die Quellenanzeigedaten und die Umwandlungs-Paarinformationen durchsucht werden, und wobei es sich bei den Zielanzeigedaten um Daten handelt, die Zielanzeigeeigenschaften, die anzuhängen sind, und eine Position in dem Zieltextkörper zeigen, an die Zielanzeigeeigenschaften anzuhängen sind, die den Quellenanzeigeeigenschaften entsprechen;
eine Zieltext-Erzeugungseinrichtung, die einen Zieltext erzeugt, indem sie die Anzeigeeigenschaften an den Zieltextkörper anhängt, der in der Zieltext-Speichereinrichtung gespeichert ist, wobei das Anhängen ausgeführt wird, indem eine Anpassung an den Inhalt der Zielanzeigedaten vorgenommen wird, die von der Verarbeitungseinrichtung bestimmt werden; und
eine Anzeigeeinrichtung, die den erzeugten Zieltext anzeigt, wobei die Verarbeitungseinrichtung umfasst:
eine Anzeigeeigenschaften-Anhängebereich-Sucheinheit, die die Position der Quellenanzeigeeigenschaften und des Wortes prüft, das von der Information des Quellentextes der Umwandlungs-Paarinformation gezeigt wird, und in Ein-Buchstaben-Einheiten durchsucht, um herauszufinden, ob die Anzeigeeigenschaften an einen der Buchstaben innerhalb des Quellentextes angehängt sind;
eine Feststelleinheit, die entsprechend dem Suchergebnis feststellt, ob Quellenanzeigeeigenschaften an einen Teil des Wortes angehängt sind oder Anzeigeeigenschaften an das gesamte Wort angehängt sind; und
eine Haupt-Erzeugungs-Verarbeitungseinheit, die die Informationen des Zieltextes in den Umwandlungs-Paarinformationen prüft und das Ergebnis der Feststellung nutzt, um den Zieltextkörper zu verarbeiten und die Zielanzeigedaten zu erzeugen.
Hier können die Quellenanzeigeeigenschaften und die Zielanzeigeeigenschaften Zeichenverzierung und Zeiger zu Verknüpfungszieldateien einschliessen.
Oder der Quellentext und der Zieltext können beide HTML-Dokumente sein und die Inhalte und der Bereich Quellen- und Zielanzeigedaten kann durch Markierungssymbote angezeigt sein
Ferner kann die Haupt-Erzeugungs-Verarbeitungseinheit eine Einheit, die das Vorhandensein von Umwandlungswörtem erfasst und die Umwandlungs-Paarinformationen durchsucht, um herauszufinden, ob das Wort, das dem Wort in dem Quellentext entspricht, in dem Zieltext vorhanden ist; eine erste Erzeugungs-Verarbeitungseinheit, die den Vorgang des Einfügens von speziellen Symbolen in den Zieltext, der in der Zieltext-Speichereinrichtung gespeichert ist, ausführt, während die Zielanzeigedaten für die speziellen Symbole erzeugt werden, wenn die Einheit zum Erfassen des Vorhandenseins des Umwandlungswortes feststellt, dass kein entsprechendes Wort in dem Zieltext vorhanden ist; und eine zweite Erzeugungs-Verarbeitungseinheit enthalten, die die Zielanzeigedaten für den Buchstaben in dem Wort erzeugt, wenn die Einheit zum Erfassen des Vorhandenseins des Umwandlungswortes ermittelt, dass ein entsprechendes Wort in dem Zieltext vorhanden ist.
Ferner kann der Vorgang des Anhängens spezieller Symbole, der von der ersten Erzeugungs-Verarbeitungseinheit ausgeführt wird, ein Vorgang sein kann, bei dem Buchstaben" die nicht zu einer Zielsprache gehören, als spezielle Symbole verwendet werden, die an der Start- oder Endpositionen des Zieltextkörpers eingefügt werden.
Ferner kann die zweite Erzeugungs-Verarbeitungseinheit eine erste Verarbeitungseinheit, die wirksam wird, wenn die Feststelleinheit ermittelt, dass die Anzeigeeigenschaften an das gesamte Wort angehängt sind; und eine zweite Verarbeitungseinheit umfassen, die wirksam wird, wenn die Feststelleinheit ermittelt, dass die Anzeigeeigenschaften an einen Teil des Wortes angehängt sind.
Ferner kann die erste Verarbeitungseinheit das Wort in dem Zieltext, das dem Wort in dem Quellentext entspricht, auf der Grundlage der Umwandlungs-Paarinformationen erfassen und die Zielanzeigedaten erzeugen, die Zielanzeigeeigenschaften des gesamten Wortes enthalten, und wobei die zweite Erzeugungs-Verarbeitungseinheit die Zielanzeigedaten erzeugt, die Zielanzeigeeigenschaften eines Teils des entsprechenden Wortes in dem Zieltext enthalten.
Ferner kann die zweite Erzeugungs-Verarbeitungseinheit ein Buchstabenanzahl- Erfassungselement, das die Anzahl von Buchstaben vom Beginn des Wortes in dem Quellentext bis zu dem Buchstaben mit angehängten Anzeigeeigenschaften erfasst; und ein Verarbeitungselement umfassen, das die Zielanzeigedaten erzeugt, die die Anzeigeeigenschaften vom Beginn des entsprechenden Wortes in dem Zieltext bis zu der Position enthält, die um die gleiche Anzahl von Buchstaben entfernt ist, wie die Anzahl von Buchstaben, die zuvor erfasst wurde.
Ferner kann das Verarbeitungselement ein Vergleichselement, das die Anzahl von Buchstaben des Wortes in dem Zieltext mit der erfassten Anzahl von Buchstaben des Buchstabenanzahl-Erfassungselementes vergleicht; ein erstes Element, das wirksam wird, wenn sich als Vergleich des Ergebnisses ergibt, dass die Anzahl von Buchstaben in dem Wort der Anzahl erfasster Buchstaben entspricht oder grösser ist als diese; ein zweites Element umfassen, das wirksam wird, wenn die Anzahl von Buchstaben in dem Wort des Zieltextes geringer ist als die Anzahl erfasster Buchstaben.
Ferner erzeugt das erste Element die Zielanzeigedaten, die Anzeigeeigenschaften enthalten, die an Buchstaben in einem Wort des Zieltextes angehängt sind, wobei die Buchstaben eine erfasste Anzahl von Buchstaben mit dem ersten Buchstaben des Wortes beginnend ausschliessen.
Ferner kann das zweite Element den Vorgang des Einfügens eines speziellen Symbols nach dem entsprechenden Wort in dem Zieltext ausführen, der in der Zieltext- Speichereinrichtung gespeichert ist, und kann die Zielanzeigedaten für das spezielle Symbol erzeugen.
Und die Verarbeitungseinheit kann eine Umwandlungs-Paarinformations-Überlappungs- Sucheinheit, die eine Suche ausführt, um herauszufinden, ob mehr als zwei Sätze von Umwandlungs-Paarinformationen für ein und dasselbe Wort in dem Quellentext vorhanden sind; und eine Auswähleinheit, die die Zielanzeigedaten, die unter Verwendung eines Satzes der Umwandlungs-Paärinformationen erzeugt werden, auswählt, wenn mehr als zwei Sätze vorhanden sind; und eine Zieltext-Erzeugungseinrichtung umfassen, die Texterzeugung unter Verwendung der Zielanzeigedaten ausführt, die von der Auswähleinheit ausgewählt werden.
Ferner können die Zieltextanzeigedaten, die von der Auswähleinheit ausgewählt werden, für das Wort in dem Zieltext bestimmt sein, das näher an dem Satzfang ist, oder für das Wort, das näher an dem Satzende ist.
Ferner kann die Umwandlungsvorrichtung eine Quellentext-Gewinnungseinrichtung, die Quellentext, der in HTML geschrieben ist und von aussen empfangen wird, gewinnt und speichert und eine Quellenanzeigedaten-Erzeugungseinrichtung enthalten, die Quellenanzeigedaten erzeugt und speichert, den Quellentext liest und den Inhalt von Anzeigeeigenschaften und Positionen findet, an die die Anzeigeeigenschaften angehängt sind, indem sie nach den Etikettenmarkierungen sucht, die an den Quellentext angehängt sind, wobei es sich bei den Quellenanzeigedaten um ein Paar handelt, das aus Daten besteht, die den Inhalt der Anzeigeeigenschaften und die Position zeigen, an die Anzeigeeigenschaften angehängt sind.

KURZBESCHREIBUNG DER ZEICHNUNGEN

Diese und weitere Aufgaben, Vorteile und Merkmale der Erfindung werden aus ihrer nachstehenden Beschreibung in Verbindung mit den beigefügten Zeichnungen, welche eine spezifische Ausführungsform der Erfindung darstellen; ersichtlich. In den Zeichnungen ist:
Fig. 1 eine Blockdarstellung der Dokumentumwandlungsvorrichtung als eine Ausführungsform der Erfindung.
Fig. 2 eine Darstellung, welche ein Beispiel von Quellendaten zeigt.
Fig. 3 eine Darstellung, welche den Quelltextkörper, den Zieltextkörper und die zugehörige Umwandlungs-Paarinformationen anzeigt.
Fig. 4 eine Darstellung, welche die Reihenfolge der Erzeugung der Quellenanzeigedaten und die erzeugten Quelleanzeigendaten darstellt.
Fig. 5 eine Darstellung, welche die Zielanzeigedaten und eine tatsächliche Darstellung der Zieldaten zeigt.
Fig. 6 eine Darstellung, welche ein Beispiel eines dargestellten Quellentextes und Zieltextes zeigt.
Fig. 7 eine Darstellung, welche einen Zieltext zeigt, der einer Vielzahl von Quelltexten entspricht und die Umwandlungs-Paarinformation des Quellen- und Zieltextes in Tabellenformat.
Fig. 8 ein Hauptflussdiagramm, welches den Ablauf der Anzeigedaten-Sucheinheit und der Neu-Schreibeeinheit darstellt.
Fig. 9 eine Darstellung, welche den vorderen Teil des Flussdiagramms darstellt, der den Stapelladevorgang zeigt.
Fig. 10 eine Darstellung, welche den hinteren Teil des Flussdiagramms darstellt, der den Stapelladevorgang zeigt.
Fig. 11 ein Flussdiagramm, welches den Zielanzeigedaten-Erzeugungsvorgang und den Einfügevorgang spezieller Symbole darstellt.
Fig. 12 ein Flussdiagramm, welches die Zielanzeigedatenherstellungsvorgänge 1 und 2 darstellt.
Fig. 13 ein Flussdiagramm, welches die Zielanzeigedatenherstellungsvorgänge 1 und 2 darstellt.
Fig. 14 ein Flussdiagramm, welches die Zielanzeigedatenherstellungsvorgänge 1 und 2 darstellt:
Fig. 15 ein Flussdiagramm, welches den Zieldatenherstellungsvorgang 3 darstellt.
Fig. 16 ein Flussdiagramm, welches den Einfügevorgang für spezielle Symbole darstellt.
Fig. 17 eine Darstellung, welcher sich überlappende Bereiche zwischen dem Wort und dem Bereich mit angefügten Anzeigeeigenschaften darstellt.

BEVORZUGTE AUSFÜHRUNGSFORM

Fig. 1 stellt eine Zeichenfolgen-Umwandlungsvorrichtung als ein Beispiel dieser Erfindung dar. In der Zeichnung ist 1 die Texterfassungseinheit, welche die Textdaten beispielsweise aus dem Internet empfängt. Ein Beispiel von Textdaten ist in Fig. 2 darstellt. Gemäss Darstellung in dieser Figur bestehen die Textdaten aus einem Textkörper, welcher nicht den Satz der Markierungssymbole a1a2 und a1a2 enthält. Wie vorstehend festgestellt, bestehen die Markierungssymbole aus Startmarkierungssymbolen und Endrnarkierungssymbolen. Die durch die Textdatenerfassungseinheit erfassten Textdaten sind in dem Quelldatenspeicher 2 gespeichert.
Die Umwandlungseinheit 3 enthält die gesamte Konfiguration der herkömmlichen Maschinenübersetzungsvorrichtung mit Ausnahme des Markierungssymbolspeichers. Die Umwandlungseinheit 3 enthält nämlich eine Trennungseinheit, welche die Textdaten der Quellsprache in den Textkörper und die Markierungssymbole trennt, eine WörterbuchsuchelMorphemanalyseeinheit, eine Syntaxanalyseeinheit, und eine Übersetzungstext- Erzeugungseinheit, welche sich auf die Inhalte der Speichereinheit bezieht und die Umwandlungseinheit, um einen übersetzten Textkörper in der Zielsprache auf der Basis des Syntaxanalysebaums der Zielsprache zu erzeugen.
Fig. 3 (A) stellt den Textkörper der Quellsprache getrennt von den Markierungssymbolen dar. Fig. 3 (B) stellt den Textkörper in der Zielsprache dar. Die Zahlen unterhalb beider Textkörper zeigen die Reihenfolge jedes Buchstabens von Beginn des Textkörpers an. Ein Leerzeichen zwischen zwei Worten wird als ein Buchstabe gezählt, wobei der erste Buchstabe des Textes mit 0 beziffert ist. Fig. 3 (C) ist eine Figur, welche die entsprechenden Wort der Quellen- und Zielsprachen in Ziffernpaaren von Beginn des Textkörpers aus darstellt. Die Paarinformation von Fig. 3 (C) wird als Umwandlungs- Paarinformation bezeichnet.
Die von den Textdaten in der Umwandlungseinheit 3 getrennten Markierungssymbole werden an die Quellenanzeigedaten-Erzeugungsspeichereinheit 4 gesendet, und der von der Umwandlungseinheit 3 umgewandelte Textkörper wird in der Zieldaten- Speichereinheit 5 gespeichert. Die Umwandlungs-Paarinformation wird in einer Beziehungsentsprechungs-Speichereinheit 6 gespeichert.
Die Quellenanzeigedaten-Erzeugungsspeichereinheit 4 empfängt Markierungssymbole aus der Umwandlungseinheit 3 und prüft die in der Quellendatenspeichereinheit 2 gespeicherten Textdaten, erzeugt und speichert ein Paar von der Anzahl von Buchstaben von dem Start der Textdaten zu dem von dem Markierungssymbolen eingeschlossenen Wort, und den Namen der Markierung. Die auf diese Weise erzeugte Paarinformation wird als Quellenanzeigedaten bezeichnet. Fig. 4 (C) stellt die unter Bezugnahme auf Dokumentdaten von Fig. 4 (A) erzeugten Quellenanzeigedaten dar.
Die Anzeigedaten-Sucheinheit 7, verwendet die Quellenanzeigedaten, welche in der Quellenanzeigedaten-Herstellungsspeichereinheit 4 erzeugt wurden, sucht die in der Umwandlungsentsprechungs-Speichereinheit 6 gespeicherte Umwandlungs- Paarinformation, verarbeitet den Textkörper der Zielsprache, während die Stelle berechnet wird, an welcher das entsprechende Markierungssymbol in dem Textkörper angefügt werden sollte. Die aus dem Markierungsnamen und der Stelle bestehende Information wird als Zielanzeigedaten bezeichnet.
In dem Beispiel von Fig. 4 sind die Quellenanzeigedaten die zwei (2-2, Bold) (Bold bedeutet Fett-Dastellung) und die (9-11, Bold). Für die Information von (9-11, Bold) werden die entsprechenden Zielanzeigedaten unmittelbar als (2-3, Bold) gefunden, da die Buchstabenposition der Zielsprache der Buchstabenposition 9-11 der Quellensprache entspricht aus der Umwandlungs-Paarinformation von Fig. 2(C) offensichtlich ist. Für die Quellenanzeigedaten (2-2, Bold) gibt es jedoch nichts, was der (2-2) in der Quellensprache der Umwandlungs-Paarinformation von Fig. 2(C) entspricht, so dass sie durch die nachstehende Berechnung gefunden wird. Somit wird die Umwandlungs-Paarinformation, welches die Buchstabenposition (2-2) auf der Zielsprachenseite enthält, gesuciht und die Überlappungsanzahl a der Buchstaben sowohl der Umwandlungs-Paarinformation, als auch der Quellenanzeigedaten, und die Startposition β der sich überlappenden Buchstaben von Beginn des Wortes an gefunden. In diesem Falle ist die Quellensprachenseite, welche (2-2) enthält, gleich (2-5), α = 1 und β = 0 von dem ersten Buchstaben in dem entsprechenden Wort aus, welches in der Umwandlungs-Paarinformation dargestellt ist. β wird mittels der Anzahl der Buchstaben von dem ersten Buch = staben der Umwandlungs-Paarinformation aus berechnet. Dann ist die Zielsprache der Umwandlungs-Paarinformation, welche (2-5) entspricht gleich (5-10), und innerhalb des Wortes der Buchstaben in dem Bereich von β bis α + β, womit der Bereich von dem fünften Buchstaben der Zielsprache aus als die Buchstaben beurteilt wird, welchen die Anzeigeeigenschaften der Zielsprache angehängt werden sollte. Hier ist α = 1 und β = 0, so dass letztlich die Position, welcher die Anzeigeeigenschaften der Zielsprache angehängt werden sollten, gleich (5-5) ist. Somit werden die Zielanzeigedaten, welche den Quellenanzeigedaten von (2-2, Bold) entsprechen; auf (5-5, Bold) gesetzt. Fig. 5 (A) stellt die in der vorstehenden Weise erzeugte Zielanzeige dar. Fig. 5 (B) zeigt ein Beispiel des Textkörpers der Zielsprache dargestellt in Übereinstimmung mit diesen Anzeigedaten. Die durch Zielanzeigedaten angegebenen Buchstaben werden fett dargestellt, und man kann sehen, dass sie natürlich mit den Dokumentdaten der in Fig. 2 dargestellten Quellensprache übereinstimmen. Detailliertere Verarbeitungsoperationen der Anzeigedaten-Sucheinheit 7 werden in Fig. 8 bis 16 dargestellt und später diskutiert. Die Zielanzeigedaten, welche die Anzeigedaten-Sucheinheit 7 sucht und festlegt, werden kurzzeitig in der Zielanzeigedaten-Speichereinheit 5 gespeichert. Dieses Zielanzeigedaten werden jedoch manchmal durch die Funktionen der Anzeigeinformations- Umwandlungseinheit 9 überschrieben.
Die Anzeigeinformations-Umwandlungseinheit 9 ist mit der Bevorzugte-Anzeigeeigenschaft-Speichereinheit 10 verbunden. Die Information für die Hinzufügung bestimmter Anzeigeeigenschaften, welche sich von den Anzeigeeigenschaften der Quellensprachenseite unterscheiden, werden in der Bevorzugte-Anzeigeeigenschaft-Speichereinheit 10 gespeichert. Diese umfassen Fälle, in welchen die Textdaten einen bestimmten Satzbau aufweisen, wie z. B. einen Befehl oder einen Ausruf, die Übersetzung von einer bestimmten Quellensprache in eine bestimmte Zielsprache erfolgt, oder die Quellensprachenseite bestimmte Anzeigeeigenschaften angefügt hat. Beispielsweise wäre es anstelle einer Übersetzung der englischen Zeichenfolge "That's it!" in das japanische " "durch Beibehalten der Anzeigeeigenschaften so wie sie sind, leichter die Aufmerksamkeit einer durchschnittlichen japanischen Person durch eine Vergrösserung der Zeichen zu gewinnen, und somit eine sinnvollere Übersetzung zu erreichen. Die Bevorzugte-Anzeigeeigenschaft-Speichereinheit 10 speichert diese Art von Information, um eine Veränderung in den Anzeigeeigenschaften dieser Art eines Satzes in der Quellensprache anzuweisen.
Wenn Zielanzeigedaten, welche in der Zieldaten-Sucheinheit 7 erzeugt wurden in die Zielanzeigedaten-Speichereinheit 8 geladen werden, prüft die Anzeigeinformations- Umwandlungseinheit 9 die in der Textdaten-Speichereinheit 2 gespeicherten Textdaten und führt eine Suche innerhalb der Bevorzugte-Anzeigeeigenschaft-Speichereinheit 10 aus, indem sie nach einer Trefferinformation sucht. Wenn eine entsprechende Information vorliegt, überschreibt sie die Anzeigeeigenschaften auf der Basis dieser, und wenn keine entsprechende Information vorliegt, führt sie keine Überschreibung aus.
Die überschreibungseinheit 11 ist der Teil, welcher die Einfügung von speziellen Symbolen ausführt, eine Funktion der Anzeigedaten-Sucheinheit 7, und die Umwandlungs- Paarinformationen und die Zielanzeigedaten überschreibt, indem sie die Buchstaben nach der Einfügungsposition um eine Stelle verschiebt. Beispielsweise entspricht das in der Zielsprachenzeile 2 zu sehende P und die Zeile (hierin nachstehend "Zeichenfolge") 4 in IFig. 7 einem speziellen Symbol. Die Einfügung des speziellen Symbols P wird in dem Textkörper in der Zieldaten-Speichereinheit 5 durchgeführt. In diesem Falle werden, wenn das spezielle Symbol zwischen zwei Worten in der Mitte des Textkörpers eingefügt wird, wie es in der Zeichenfolge #4 von Fig. 7 dargestellt ist, die Positionen jedes Buchstabens nach der Einfügungsstelle um einen Platz von der Einfügung des Symbol aus verschoben. Und aufgrund dieser Verschiebung in der Buchstabenposition wird es erforderlich, die Umwandlungs-Paarinformation und die Zielanzeigedaten zu überschreiben. Die Überschreibungseinheit 11 führt eine derartige Überschreibung der entsprechenden Paarinformation in der Umwandlungsentsprechungs-Speichereinheit 6 und der Zielanzeigedaten-Speichereinheit 8 durch.
Die Ziel-HTML-Erzeugungseinheit 12 erzeugt ein HTML-Dokument unter Verwendung des in der Zielspeichereinheit 5 gespeicherten endgültigen Textkörpers und der in der Zielanzeigedaten-Speichereinheit 8 gespeicherten Zielanzeigedaten.
Die Anzeigeeinheit 13 stellt den Quelltext (HTML-Dokument), welcher in der Quellendaten-Speichereinheit 2 gespeichert ist, und den Zieltext (HTML-Dokument), der von der Ziel-HTML-Erzeugungseinheit 12 erzeugt wird, gemäss den Inhalten der Anzeigeeigenschaffen dar.
Fig. 6 zeigt ein in der Anzeigeeinheit 13 dargestelltes Beispiel. L1 ist die Quellensprache, während L2 die Zielsprache ist.
Anschliessend werden die Steueroperationen der Anzeigedaten-Sucheinheit 7 und der Überschreibungseinheit 11 unter Verwendung der Flussdiagramme von Fig. 18 bis 16 unter Bezugnahme auf die Beispiele in Fig. 7 beschrieben.
In Fig. 8 wird, wenn das Programm in dem Hauptflussdiagramm startet, der Stapelladevorgang (Schritt 1) durchgeführt, um dann der Zielanzeigedaten-Erzeugungsvorgang (Schritt 2) durchgeführt. Diese Schritte, Schritt 1 und Schrift 2, werden in den Subroutinen von Fig. 9 bis 16 im Detail dargestellt.
Zuerst werden die in dem Flussdiagramm verwendeten Symbole erläutert. i ist die Anzahl der Queflenanzeigedaten. Mehrere Quellenanzeigedaten werden für ein Textdatenefement erzeugt, wobei aber in diesem Falle eine kleine Zahl i den Quellenanzeigedaten zugeordnet wird, welche einen kleinen Wert der Buchstabenreihenfolge von dem Beginn der Dokumentdaten aus besitzen. j ist die Anzahl der Umwandlungs-Paarinformationen. In diesem Falle von j, ist ein kleiner Wert dem kleinen Wert der Buchstabenreihenfolge sowohl der Quellensprachenseite als auch der Zielsprachenseite zugeordnet. A und B sind Register, welche die rechts-seitigen und links-seitigen Buchstabenpositionen der Quellenanzeigedaten festlegen. Beispielsweise wird in dem Falle von Quellenanzeigedaten (9-11, Bold) welche zu dem Dokumentdaten der Zeichenfolge #1 gehören, dann A auf 9 gesetzt und B auf 11 gesetzt. In derselben Weise sind A1 und B1 Register, welche die rechts-seitigen und links-seitigen Buchstabenpositionen der Quellensprache der Umwandlungs-Paarinformationen festlegen. Das Setzen von A2 und B2 wird zu derselben Zeit wie das von A1 und B4 durchgeführt. Fig. 9 und 10 sind Subroutinen von Schritt 1.
Die Anzeigedaten-Sucheinheit 7 wird aktiviert, wenn die Quellenanzeigedaten neu erzeugt und in der Quellenanzeigedatenerzeugungs-Speichereinheit 4 gespeichert werden und nachdem die Aktivierung in der Subroutine im Schritt S1 aufgerufen wird und die Vorgänge in Fig. 9 und 10 ausführt. Zuerst setzt die Anzeigedaten-Sucheinheit 7 i und j (Schritt 11, 12) lädt die ersten von den Quellenanzeigedaten (Schritt 15), prüft diese Information und setzt die Register mit den Werten von A und B. Beispielsweise wird in dem Falle der Dokumentdaten der Zeichenfolge #4 in Fig. 7 (9, UL) als das erste von den Quellenanzeigedatenelementen geladen, und A und B auf 9 gesetzt. Anschliessend wird die erste Umwandlungs-Paarinformation aus der Umwandlungsentsprechungs- Speichereinheit 6 (Schritt 17) geladen, und die rechts-seitigen und links-seitigen Buchstabenpositionen der Quellensprache werden in den Registern A1 und B1 (Schritt 18) gesetzt. In dem Falle der Dokumentdaten der Zeichenfolge #4 in Fig. 7 ist die erste Umwandlungs-Paarinformationseinheit (0, 0-1), so dass A1 und B1 auf Null gesetzt werden.
In den Schritten 19 bis 23, werden die Werte von A, B mit den Werten von A1 und B1 verglichen. Durch den Vergleich dieser kann man feststellen, welches in Fig. 17 dargestellte Muster der Relation der Werte von A, B und A1, B1 entspricht. In Fig. 17 stellt das Muster 1 eine Form dar, in welcher A1, B1 in dem Buchstabenbereich von dem Raum A bis B (hierin nachstehend A bis B) enthalten sind. Das Muster 2 stellt die Form dar, in welcher A bis B teilweise mit A und B übereinstimmen. Das Muster 3 stellt die Form dar, in welcher A bis B vollständig von A1 bis B1 unterschiedlich sind und das Muster 4 stellt die I = orm dar, in welcher A bis B vollständig in A1 bis B1 enthalten sind (entgegengesetzte Form von Muster 1).
Ein Ergebnis von "ja" in den Schritten 19 bis 21 bedeutet das Muster 1. Ergebnisse von "nein" im Schritt 21 und "ja" in den Schritten 19, 22 und 23 bedeuten das Muster 2. Ergebnisse von "nein" im Schritt 20 und "ja" im Schritt 22 bedeuten das Muster 3. Und Ergebnisse von "ja" im Schritt 23 bedeuten das Muster 4.
Wenn die Muster 1, 2 oder 4 detektiert werden, werden die Quellenanzeigedaten der Position i und die Umwandlungs-Paarinformationen der Position j in dem entsprechenden ersten bis dritten Stapel gespeichert. Wenn das Muster 3 detektiert wird, wird in keinem der Stapel etwas gespeichert. Wenn die Muster 1, 2 oder 4 detektiert werden, wird dann der Schritt 28 nach der Beendigung des Ladevorgangs ausgeführt, wenn aber das Muster 3 detektiert wird, wird der Schritt 28 sofort ausgeführt. Dann wird j um 1 inkrementiert, da die zweite Umwandlungs-Paarinformation gespeichert wird (Schritt 17) und die Ladeoperationen in den Stapel wie vorstehend (Schritte 18, 19 bis 27) ausgeführt werden. Danach werden dieselben Vorgänge durch Inkrementieren von j um jeweils 1 ausgeführt, bis j die letzte Umwandlungs-Paarinformation erreicht hat. Dann wird, nachdem die Verarbeitung der Umwandlungs-Paarinformationen beendet ist, i inkrementiert (Schritt 14), während j zurückgesetzt wird (Schritt 12), und die zweiten von dem Quellenanzeigedaten werden gespeichert (Schritt 29). In den zweiten von den Quellenarizeigedaten wird j schrittweise inkrementiert, während die Zielanzeigedaten mit jeder Umwandlungs-Paarinformation verglichen werden und dann wird festgestellt, welches Muster entspricht. Wenn die Muster 1, 2 oder 4 entsprechen, wird der Ladevorgang der ersten Anzeigeinformation und der Umwandlungs-Paarinformation in den entsprechenden Stapel ausgeführt. Dieser Vorgang wird auf alle Quellenanzeigedaten, die in den Textdaten vorhanden sind, angewendet. Beispielsweise würden, wenn es die Dokumentdaten der Zeichenfolge #4 in Fig. 7 wären und alle von den Quellenanzeigedaten schrittweise mit der Umwandlungs-Paarinformation verglichen würden, keine Informationen in die Stapel 1 oder 2 geladen, sondern 3 Informationssätze, nämlich (9, UL): (9-11 2-3), (10, Bold): (9-11, 2-3); (11, Italic: Pointer): (9-1, 2-3) (ltalic = Kursivdarstellung; Pointer = Zeiger)in den Stapel 3 geladen.
In ähnlicher Weise würde in dem Falle der Dokumentdaten der Zeichenfolge #1, dann nur der eine Satz, welcher aus (9-11, Bold): (9-11, 2-3) besteht in den Stapel 1 geladen. In dem Falle der Dokumentdaten der Zeichenfolge #2 würden dann keine Daten in irgendeinem Stapel geladen werden. In dem Falle der Textdaten in der Zeichenfolge #3, werdlen die zwei Sätze, welche aus (2-3, UL): (2-2, 5-9) und (4-5, Bold): (2-5, 5-9) bestehen, geladen. Im Falle der Textdaten in der Zeichenfolge #5 werden die zwei Sätze der Information bestehend aus (2-6, UL): (2-6, 2-4) und (2-6, UL): (2-6, 7-8) ge- Iaden. Ferner werden in dem Falle der Textdaten der Zeichenfolge #6 ein Informationssatz bestehend aus (0-9, UL): (0-9, 0-3 geladen. Wie vorstehend erläutert, können jedoch die Textdaten der Zeichenfolge #6 durch die Inhalte der Bevorzugte- Anzeigeeigenschaften-Speichereinheit 10 modifiziert werden, so dass diese Daten nicht angezeigt werden.
Wenn der Ladevorgang für alle von den Quellenanzeigedaten abgeschlossen ist (Schritt 13) kehrt der Vorgang zu dem Hauptflussdiagramm zurück. Dann werden mit dem Übergang auf den Schritt 2 die Subroutinen der Fig. 11 bis 16 aufgerufen. Fig. 11 stellt den Zielanzeigedaten-Erzeugungsvorgang dar. Zuerst wird im Schritt 30 die Variable i, welche die Quellenanzeigedaten bezeichnet auf 1 gesetzt. Hier sind die mit i bezeichneten Quellenanzeigedaten, die in der Quellenanzeigedaten-Speichereinheit gespeicherten Informationen. Dann werden die Sätze, welche aus den ersten von den zu bezeichnenden Quellenanzeigedaten und der Umwandlungs-Paarinformation bestehen, geprüft, um zu sehen, ob sie in den Stapeln 1, 2 oder 3 (Schritte 32 bis 34) gespeichert sind. Wenn ein Satz im Stapel 2 oder Stapel 3 gespeichert ist, wird der Zielanzeigedaten-Erzeugungsvorgang 1 ausgeführt (Schritte 35 bis 36), und wenn ein anderer Satz im Stapel 1 gespeichert ist, wird der Zielanzeigedaten-Erzeugungsvorgang 2 ausgeführt (Schritt 37). Wenn die Quellenanzeigedaten weder in der Quellenanzeigedatenerzeugungs-Speichereinheit 4 noch in irgendeinem Stapel gespeichert sind, werden die Quellenanzeigedaten als mit Anzeigeeigenschaften versehen betrachtet, die einem Wort ohne japanische Übersetzung, wie z. B. einem Infinitiv entsprechen, betrachtet und der Einfügungsvorgang für spezielle Symbole ausgeführt.
Nachdem die vorstehenden Vorgänge unter Zurücklassung keiner von den Quellenanzeigedaten (Schritt 31) ausgeführt worden sind, wird i um 1 (Schritt 14) erhöht und derselbe Vorgang an den Quellenanzeigedaten in der nächsten Position ausgeführt. Wenn dieser an allen von den Quellenanzeigedaten ausgeführt ist, welche in der Quellenanzeigedatenerzeugungs-Speichereinheit 4 gespeichert sind, kehrt der Vorgang dann zu dem Hauptflussdiagramm zurück.
Ferner ist die Entscheidung bei dem Vorgang 30, ob die Vorgänge der Schritte 35 bis 38 an den Quellenanzeigedaten an der Stelle i vollständig ausgeführt worden sind, von zwei Dingen abhängig. Das Erste ist die Suche, ob der Identifikator der Information der Verarbeitungsspeichereinheit entspricht, welche den verarbeiteten gesetzten Identifikator gespeichert hat, selbst dann wenn diese Information in keinem Stapel existiert. Das Zweite ist die Suche, ob der Satz der Quellenanzeigedaten und der Umwandlungs- Paarinformationen in der Position i in die Stapel 1, 2 oder geladen wurden oder nicht.
Das Nachstehende ist eine Erläuterung auf der Basis von Fig. 12, 14 und 15 der Vorgänge für die Herstellung der Zielanzeigedaten, wenn festgestellt wird, dass ein Satz bestehend aus den ersten von den Quellenanzeigedaten und einer von den Umwandlungs-Paarinformationen in dem Stapel 3 gespeichert ist. Zuerst werden die links-seitige Buchstabenposition und die rechts-seitige Buchstabenposition der Quellensprache in den Umwandlungs-Paarinformationen, welche ein Satz mit den Quellenanzeigedaten sind, in dem Register von A1, B1 gesetzt, während die links-seitige Buchstabenposition setzt werden (Schritt 43). Dann werden die Stapel 2 und 3 durchsucht, um zu sehen, ob irgendwelche anderen spezifischen Quellenanzeigedaten vorliegen. Die hier erwähnten spezifischen Quellendaten sind Daten, welche zusammen mit der Umwandlungs-Paarinformationen, welche die Buchstabenpositionen von A1 bis B1 gemeinsam haben, ein Satz sind. Wenn als ein Ergebnis der Suche festgestellt wird, dass keine anderen vorhanden sind (Schritt 45), werden die links-seitigen Buchstaben- und rechts-seitigen Buchstabenpositionen der ersten von den Quellenanzeigedaten in den Registern A, B (Schritt 46) gesetzt und die Anzahl der überlappenden Buchstaben a von A bis B, A1 bis B1, und die Anzahl der Buchstaben β von der Überlappungsstartposition von A1 gesucht (Schritt 47). Anschliessend wird β mit der Anzahl der Buchstaben (B2 - A2 + 1) in dem Wort der Zielsprache gesucht (Schritt 48). Diese Entscheidung dient zur Behandlung der Situation, wenn die Anzahl von Buchstaben von dem Beginn des Wortes in der Quellensprache bis zu dem Buchstaben mit der angehängten Anzeigeeigenschaft zahlreicher sind, als die Anzahl der Buchstaben des entsprechenden Wortes in der Zielsprache. Mit anderen Worten in dieser Situation wird ein spezielles Symbol, welches die Anzeigeeigenschaften darstellt, an dem Ende des entsprechenden Wortes eingefügt (nach dem Wort in der Position B2) in der Zielsprache (Schritt 49). Anschliessend wird der Vorgang, welcher die Buchstabenposition um 1 erhöht, im Schritt 491 an den Zielanzeigedaten und den Umwandlungs-Paarinformationen durchgeführt, was eine Überschreibung der Buchstabenpositionen wegen der Einfügung des speziellen Symbols erfordert. Dann werden die Zielanzeigedaten unter Verwendung der Einfügeposition des speziellen Symbols (B2 + 1) und die Anzeigeeigenschaften der Quellenanzeigedaten erzeugt (Schritt 15). Beispielsweise ist das an dem Ende von " " in dem angezeigten Text der Zielsprache der Textzeichenfolge #4 in Fig. 7 eingefügte "P" ein Beispiel eines derartigen speziellen Symbols. In diesem Falle ist das "n" von "pen" in der Quellensprache ein Zeiger, welcher auf die Verknüpfungszieldatei zeigt, so dass ein "P" verwendet wird, um darzustellen, dass es ein Zeiger auf den Zielsprachenseite ist. Auch die Erzeugung der Zielanzeigedaten macht von der Buchsht von der Buchstabenposit "P" Gebrauch.
Andererseits wird, wenn festgestellt wird, dass die Anzahl von Buchstaben in dem Wort der Zielsprache (B2 - A2 + 1) grösser als der Wert von β ist, die Anzahl der Buchstaben in dem Wort (B2 A2 + 1) weiter bestimmt, ob sie den Wert von β + α überschreiten (Schritt 51). Durch diese Ermittlung wird klar, ob die Anzahl der Buchstaben in dem Wort in der Zielsprache grösser oder kleiner als die Anzahl der Buchstaben von dem Beginn des Wortes bis zu dem letzten Buchstaben mit den in der Quellensprache angefügten Anzeigeeigenschaften ist. Wenn die Anzahl der Buchstaben des Wortes in der Zielsprache als kleiner ermittelt wird, wird der Bereich der Zielsprache mit angehängten Anzeigeeigenschaften als das Abschlussende des Wortes in der Zielsprache gesetzt (Schritt S2). Wenn jedoch die Anzahl der Buchstaben des Wortes in der Zielsprache als grösser ermittelt wird, wird dann der Bereich der Zielsprache mit angehängten Anzeigeeigenschaften auf denselben Bereich (β bis α + β) gesetzt(Schritt S3).
Wenn die Erzeugung der Zielanzeigedaten in der vorstehenden Weise abgeschlossen ist, wird der entsprechende Satz in dem Stapel 3 gelöscht (Schritt S4), und die gelöschten Satzidentifikatoren werden in der Verarbeitungsspeichereinheit gespeichert (Schritt 55). Die Löschung der Sätze aus den Stapeln in Schritt S4 dient zur Verhinderung, dass derselbe Satz ein zweites Mal aus dem Stapel ausgelesen wird. Auch die Speicherung des verwendeten Satzidentifikators in der Bearbeitungsspeichereinheit im Schritt S5 dient zur Aufzeichnung des Umstandes, dass der Satz in einem der Stapel gespeichert war, und zur Unterscheidung zwischen den Quellenanzeigedaten, welche bereits in irgendeinem Stapel gespeichert waren.
Ferner werden in dem Falle, wenn das Vorhandensein einer Vielzahl von Quellenanzeigedaten in den Stapeln 2 und 3 im Schritt 45 festgestellt wird, alle vorhandenen Sätze geladen (Schritt S6) und die Zielanzeigedaten entsprechend den geladenen Sätzen erzeugt (Schritt S7). Diese Erzeugungsverarbeitung ist dieselbe wie im Schritt 35, wenn der Satz in dem Stapel 2 geladen ist, und derselbe wie in dem Vorgang in den Schritten 46 bis 55, wenn der Satz in dem Stapel 3 geladen ist. Der Schritt 35 wird später erläutert, so dass eine detaillierte Erläuterung hier unterlassen wird. Der Schritt S7 wird wiederholt an dem ausgelesenen Satz durchgeführt. Wenn keine unverarbeiteten Sätze zurückbleiben (Schritt S8) werden die für die Erzeugung der Zielanzeigedaten in dem Schritt S7 verwendeten Sätze aus den entsprechenden Stapeln gelöscht (Schritt S4), und die Identifikatoren der Quellenanzeigedaten in den gelöschten Sätzen werden in der Verarbeitungsspeichereinheit (Schritt S5) gespeichert. Der Vorgang kehrt dann zu dem Hauptflussdiagramm zurück. Hier sollte angemerkt werden, dass der zur Erzeugung der Zielanzeigedaten in der Kette der Vorgänge in den Schritten 56, 57 und 58 verwendete Satz die mit A1 bis B1 numerierten Buchstaben in den Textkörper der Quellensprache abdeckt, durch A1 bis B1 abgedeckt ist, der Satz der Anzeigedaten ist, welcher A1 bis B1 und die Umwandlungs-Paarinformation, welche A1 bis B1 an der Quellensprachenbuchstabenposition überlappt, und nicht die vollständigen Anzeigedaten #i ist. Dieses ist der Fall, weil selbst dann, wenn dieses die Quellenanzeigedaten #i sind, Sätze mit Umwandlungs-Paarinformation mit Quellensprachen-Buchstabenpositionen ausserhalb A1 bis B1 vorhanden sind. Ein Beispiel dafür ist, wenn die Überlappung des Bereichs, in welcher die Wort- und die Anzeigeeigenschaften der Quellensprache überlappen, nur ein Teilbereich ist wie in dem Muster 2. Der von der Überlappung ausgeschlossene angefügte Teil der Anzeigeeigenschaften überlappt oft einen Teilbereich oder alles von dem vorhergehenden oder nächsten Wort.
Wenn der Vorgang des Schrittes 35 in der vorstehenden Weise endet, wird ermittelt, ob der in der Umwandlungs-Paarinformation enthaltene Satz in Stapel 2 oder Stapel 1 enthalten ist oder nicht (Schritt 31), und wenn er noch nicht gespeichert ist, wird der Vorgang ausgeführt. Wenn beispielsweise ermittelt wird, dass der entsprechende Satz in dem Stapel 2 zu speichern ist, (Schritt 33), wird der Zielanzeigedaten-Erzeugungsvorgang 2 ausgeführt. Dieser Vorgang wird durch dieselbe Subroutine, wie vorstehend beschrieben, ausgeführt. Bezüglich der Quellenanzeigedaten #1 ist die Suche und die Löschung der durch den Vorgang 1 gespeicherten Sätze nicht nur in dem Stapel 3, sondern auch in den Stapel 2 vollständig, so dass wenn der Vorgang 2 ausgeführt wird, nur einige wenige Sätze mit Quellenanzeigedaten #1 in dem Stapel 2 verbleiben. Der Satz, welcher für das in dem A1, B1 Register in dem Vorgang 1 registrierte Wort ist, bleibt möglicherweise nicht zurück, sodass der Satz, welcher für das nächste Wort ist (der Satz welcher wahrscheinlich zu dem Muster 2 gehört) der einzige verbleibende Satz ist. Jedoch wird der Satz, welcher für das nächste Wort ist, und die weiterführenden Quellenanzeigedaten #2 enthält, als zu dem Muster 2 oder Muster 3 zugehörig betrachtet. Demzufolge wird der Vorgang 2 zur Erzeugung für Zielanzeigedaten dieser Art eines Satzes. Da jedoch der Zielanzeigedaten-Erzeugungsvorgang 2 durch dieselbe Subroutine wie der Vorgang 1 ausgeführt, wird hier eine detailliertere Erläuterung unterlassen.
Wenn die vorstehenden Vorgänge abgeschlossen sind, wird ermittelt, ob Sätze vorhanden sind, welche die Quellenanzeigedaten in Stapel 1 enthalten(Schritt 31, 34). Wenn welche vorhanden sind, wird der Zielanzeigedaten-Erzeugungsvorgang 3 ausgeführt (Schritt 37). Wenn festgestellt wird, dass ein derartiger Satz in dem Stapel 1 gespeichert ist, wird die Subroutine in Fig. 15 ausgeführt. In dem Falle des im Stapel 1 gespeicherten Satzes stehen das Wort in der Quellensprache und die Zeichenfolge mit angefügten Anzeigeeigenschaften in Beziehung zu dem in Fig. 17 dargestellten Muster 1, und die Tatsache, dass der Bereich mit beigefügten Anzeigeeigenschaften immer grösser als die Anzahl der Buchstaben des Wortes ist, unterscheidet sich von den anderen Mustern. Deshalb wird der Zielanzeigedaten-Erzeugungsvorgang getrennt abhängig davon ausgeführt, ob der Satz in dem Stapel 1, oder in den Stapeln 2 oder 3 gespeichert ist.
In dieser Situation setzt der Vorgang die links-seifige Position und die rechts-seitige Position der Zeichenfolge, welche die Quellenanzeigedaten #1 enthalten in dem A- und B- Register (Schritt 81) und sucht, ob eine andere Umwandlungs-Paarinformation die Zeichenposition (A1 bis B2) aufweist, welche die Zeichenpositionen A bis B (Schritt 82) enthält. Das heißt, der Vorgang sucht herauszufinden, ob noch andere Sätze des Musters 1 vorhanden sind, welche sich die Buchstabenpositionen A bis B teilen. Wenn als Folge der Suche festgestellt wird, dass andere vorhanden sind (Schritt 83), wird dann die Umwandlungs-Paarinformation mit der links-seitigen Buchstabenposition (Quellensprache) von allen aufgedeckten Sätzen ausgewählt, und die Zielanzeigedaten erzeugt (Schritt 84). In diesem Falle verwendet die Buchstabenposition der Zielanzeigedaten die Buchstabenposition der Zielsprache der Umwandlungs-Paarinformation so wie sie ist und verwendet die Quellenanzeigedaten so wie sie sind. Wenn die Erzeugung der Zielanzeigedaten abgeschlossen ist, wird der verwendete Satz aus den Stapel 1 gelöscht (Schritt 85), und der Identifikator der Quellenanzeigedaten innerhalb des gelöschten Satzes wird in der Verarbeitungsspeichereinheit gespeichert (Schritt 85). Dann wird die Suche des Schrittes 82 noch einmal ausgeführt, und die Zielanzeigedaten werden unter Verwendung der Umwandlungs-Paarinformation mit der links-seitigen Buchstabenposition aus dem aufgedeckten Satz erzeugt(Schritt 84). Dieser Vorgang wird ausgeführt, bis der letzte Satz aus dem Stapel 1 aufgedeckt ist.
In der vorstehenden Weise wird der Vorgang von Schritt 37 abgeschlossen, und wieder einmal wird jeder Stapel abgesucht, um herauszufinden, ob nicht verarbeitete Daten der ersten Quellenanzeigedaten im Schritt 31 vorhanden sind. Wenn keine vorhanden sind, wird i um 1 erhöht, und der Vorgang der ersten Quellenanzeigedaten für die zweiten Quellenanzeigedaten ausgeführt und die zweiten Anzeigedaten erzeugt.
Wenn z. B. der Satz der zweiten Quellenanzeigedaten und die Umwandlungs-Paarinformation nicht aus irgendeinem der Stapel 1 bis 3 detektiert werden, und die Identifikatoren nicht in der Verarbeitungsspeichereinheit vorhanden sind, geht der Vorgang zu dem Schritt 38 über und führt die Einfügung von speziellen Symbolen aus. D. h., dass, wenn es der Fall ist, dass Quellenanzeigedaten ohne den Satz, welcher die zweiten Quellenanzeigedaten in den Stapeln 1 bis 3 enthält vorhanden sind, und auch die verarbeiteten Satzidentifikatoren, die zu den zweiten Quellenanzeigedaten gehören, nicht in der Verarbeitungsspeichereinheit gespeichert sind, dieses bedeutet, dass es ein Wort ohne entsprechender Übersetzung in der Zielsprache gibt, wie z. B. den unbestimmten Artikel "a". Demzufolge geht, wenn ein derartiges Wort angehängte Anzeigeeigenschaften aufweist, der Vorgang zu dem Schritt 38 über, und führt die Einführung spezieller Symbole in den Textkörper des Zieltextes aus, und informiert den Anwender, dass ein nicht übersetztes Wort angehängte Anzeigeeigenschaften aufweist. Gemäss Darstellung in Fig. 16 fügt der Einfügevorgang des speziellen Symbols das spezielle Symbol in den Teil, welchen dem Ende des Satzes in dem Zielanzeigedaten entspricht ein (Schritt 91), erzeugt Zielanzeigedaten mit der Kombination der Einfügungsposition und den Anzeigeeigenschaften, welche die Quellenanzeigedaten enthalten (Schrill 92). Dann werden die zweiten Quellenanzeigedaten in der Verarbeitungsspeichereinheit (Schritt 93) gespeichert. Der Identifikator wird gespeichert, um eine Bestätigung zu ermöglichen, ob der Einfügungsvorgang des speziellen Symbols abgeschlossen ist, wenn der Vorgang zu dem Schritt 31 übergeht. Wenn der Abschluss des Einfügungsvorgang des speziellen Symbols ermittelt wurde, wird dann der gesamte Vorgang der Erzeugung der Zielanzeigedaten unter Verwendung der Quellenanzeigedaten als beendet betrachtet, und i um 1 inkrementiert, während der Vorgang für die Erzeugung der Quellenanzeigedaten beginnt.
Wenn die Erzeugung der Zielanzeigedaten für die gesamten Quellenanzeigedaten in der vorstehenden Weise abgeschlossen ist (Schritt 39), kehrt der Vorgang zu dem Hauptflussdiagramm zurück. Somit ist der Erzeugungsvorgang der Zielanzeigedaten für ein gesamtes Dokument abgeschlossen.
Die in Fig. 7 angezeigten Zielanzeigedaten sind Beispiele, die in dem vorstehenden Flussdiagramm unter Verwendung derselben Zeichenfolge von Quellenanzeigedaten und Umwandlungs-Paarinformation erzeugt wurden.
Ferner sind in dem Falle, in welchem sich eine Unterstreichung unter "never", wie in dem Quelltextkörper der Zeichenfolge #5 befindet, die Quellenanzeigedaten (2-6, UL); während die Umwandlungs-Paarinformationen (2-6, 2-4) und (2-6, 7-8) so, so dass zwei gemeinsame Positionen in der Quellenbuchstabenposition enthalten sind. Daher werden mit der Konfiguration der vorstehenden Ausführungsform zwei Zielanzeigedaten erzeugt und demzufolge ein Vorgang, in welchem die zwei Buchstabenfolgen von und in dem Zieltext unterstrichen werden. Wenn dieses erfolgt, ist irgend etwas unnatürlich dahingehend, dass eine Unterstreichung an einer Stelle in dem Quelltext zwei Stellen in dem Zieltext entspricht. Deshalb wird die Ausgabe von einem der zwei erzeugten Zielanzeigedatenelement gestoppt und das andere in die Zielanzeigedaten-Speichereinheit 8 geschrieben. Beispielsweise werden nur die Zielanzeigedaten, die dem Ende des Satzes am nächsten liegen ausgewählt und in die Speichereinheit 8 geschrieben. Der Zielsprachentext in der Zeichenfolge #5 von Fig. 7 ist ein Beispiel, wenn nur ein Zielanzeigedatensatz ausgewählt wird.
In der vorstehenden Ausführungsform ist der Quellentext Englisch und der Zieltext Japanisch, wobei aber diese Erfindung nicht auf die vorstehenden Sprachen beschränkt ist. Ferner ist es nicht erforderlich, dass der Quelltext und der Zieltext verschiedene Sprachen sind, da diese Erfindung für die Umwandlung eines Dokumentes von einem Dialekt in einen weiteren Dialekt derselben Sprache verwendet werden kann.

Claims

1. Dokumenten-Umwandlungsvorrichtung zum Umwandeln von Quellendaten in Zieldaten, die umfasst:

eine Quellentext-Speichereinrichtung (2), die einen Quellentext speichert; eine Quellenanzeigedaten-Speichereinrichtung (4), die Quellenanzeigedaten speichert, wobei es sich bei den Quellenanzeigedaten um eine Kombination aus Quellenanzeigeeigenschaften, die in dem Quellentext enthalten sind, und einer Position handelt, an der Quellenanzeigeeigenschaften an den Quellentext angehängt sind;

eine Umwandlungseinrichtung (3), die einen Quellentextkörper in einen Zielkörper umwandelt, wobei es sich bei dem Quellentextkörper um Text handelt, in dem Quellenanzeigeeigenschaften ausgeschlossen sind, und es sich bei dem Zieltext ebenfalls um Text handelt, in dem Anzeigeeigenschaften ausgeschlossen sind;

eine Zieltext-Speichereinrichtung (5), die den umgewandelten Zieltextkörper speichert;

eine Umwandlungs-Paarinformations-Speichereinrichtung (6), die Umwandlungs- Paarinformationen speichert, wobei es sich bei den Umwandlungs-Paarinformationen um eine Kombination handelt, die zeigt, wießie Worte in dem Quellentext den Worten in Zieltext entsprechen, wobei ein Wort als eine Einheit mit Bedeutung definiert ist;

eine Verarbeitungseinrichtung (9, 7, 11), die den Quellentextkörper verarbeitet und Zielanzeigedaten erzeugt, indem die Quellenanzeigedaten und die Umwandlungs- Paar-Informationen durchsucht werden, und wobei es sich bei den Zielanzeigedaten um Daten handelt, die Zielanzeigeeigenschaften, die anzuhängen sind, und eine Position in dem Zieltextkörper zeigen, an die Zielanzeigeeigenschaften anzuhängen sind, die den Quellenanzeigeeigenschaften entsprechen;

eine Zieltext-Erzeugungseinrichtung (10), die einen Zieltext erzeugt, indem sie die Anzeigeeigenschaften an den Zieltextkörper anhängt, der in der Zieltext-Speichereinrichtung gespeichert ist, wobei das Anhängen ausgeführt wird, indem Anpassung an den Inhalt der Zielanzeigedaten vorgenommen wird, die von der Verarbeitungseinrichtung bestimmt werden; und

eine Anzeigeeinrichtung (13) umfasst, die den erzeugten Zieltext anzeigt, wobei die Verarbeitungseinrichtung umfasst:

eine Anzeigeeigenschaften-Anhängebereich-Sucheinheit (7), die die Position der Quellenanzeigeeigenschaften und des Wortes prüft, das von der Information des Quellentextes der Umwandlungs-Paarinformation gezeigt wird, und in Ein-Buchstaben-Einheiten durchsucht, um herauszufinden, ob die Anzeigeeigenschaften an einen der Buchstaben innerhalb des Quellentextes angehängt sind;

eine Feststelleinheit, die entsprechend dem Suchergebnis feststellt, ob Quellenanzeigeeigenschaften an einen Teil des Wortes angehängt sind oder Anzeigeeigenschaften an das gesamte Wort angehängt sind; und

eine Haupt-Erzeugungs-Verarbeitungseinheit (11), die die Informationen des Zieltextes in den Umwandlungs-Paarintormationen prüft und das Ergebnis der Feststellung nutzt, um den Zieltextkörper zu verarbeiten und die Zielanzeigedaten zu erzeugen.

2. Dokumenten-Umwandlungsvorrichtung nach Anspruch 1, wobei die Quellenanzeigeeigenschaften und die Zielanzeigeeigenschaften Zeichenverzierung und Zeiger zu Verknüpfungszieldateien einschließen.

3. Dokumenten-Umwandlungsvorrichtung nach Anspruch 1 oder 2, wobei die Haupt- Erzeugungs-Verarbeitungseinheit umfasst:

eine Einheit, die das Vorhandensein von Umwandlungswörtern erfasst und die Umwandlungs-Paarinformationen durchsucht, um herauszufinden, ob das Wort, das dem Wort in dem Quellentext entspricht, in dem Zieltext vorhanden ist;

eine erste Erzeugungs-Verarbeitungseinheit, die den Vorgang des Einfügens von speziellen Symbolen in den Zieltext, der in der Zieltext-Speichereinrichtung gespeichert ist, ausführt, während die Zielanzeigedaten für die speziellen Symbole erzeugt werden, wenn die Einheit zum Erfassen des Vorhandenseins des Umwandlungswortes feststellt, dass kein entsprechendes Wort in dem Zieltext vorhanden ist; und

eine zweite Erzeugungs-Verarbeitungseinheit, die die Zielanzeigedaten für den.

Buchstaben in dem Wort erzeugt, wenn die Einheit zum Erfassen des Vorhandenseins des Umwandlungswortes ermittelt, dass ein entsprechendes Wort in dem Zieltext vorhanden ist.

4. Dokumenten-Umwandlungsvorrichtung nach Anspruch 3, wobei der Vorgang des Anhängens spezieller Symbole, der von der ersten Erzeugungs-Verarbeitungseinheit ausgeführt wird, ein Vorgang sein kann, bei dem Buchstaben, die nicht zu einer Zielsprache gehören, als spezielle Symbole verwendet werden, die an der Start- oder Endpositionen des Zieltextkörpers eingefügt werden.

5. Dokumenten-Umwandlungsvorrichtung nach Anspruch 4, wobei die zweite Erzeugungs-Verarbeitungseinheit umfasst:

eine erste Verarbeitungseinheit, die wirksam wird, wenn die Feststelleinheit ermittelt, dass die Anzeigeeigenschaften an das gesamte Wort angehängt sind; und

eine zweite Verarbeitungseinheit, die wirksam wird, wenn die Feststelleinheit ermittelt, dass die Anzeigeeigenschaften an einen Teil des Wortes angehängt sind.

6. Dokumenten-Umwandlungsvorrichtung nach Anspruch 5, wobei die erste Verarbeitungseinheit das Wort in dem Zieltext, das dem Wort in dem Quellentext entspricht, auf der Grundlage der Umwandlungs-Paarinformationen erfasst und die Zielanzeigedaten erzeugt, die Zielanzeigeeigenschaften des gesamten Wortes enthalten, und

wobei die zweite Erzeugungs-Verarbeitungseinheit die Zielanzeigedaten erzeugt, die Zielanzeigeeigenschaften eines Teils des entsprechenden Wortes in dem Zieltext enthalten.

7. Dokumenten-Umwandlungsvorrichtung nach Anspruch 6, wobei die zweite Erzeugungs-Verarbeitungseinheit umfasst:

ein Buchstabenanzahl-Erfassungselement, das die Anzahl von Buchstaben vom Beginn des Wortes in dem Quellentext bis zu dem Buchstaben mit angehängten Anzeigeeigenschaften erfasst; und

ein Verarbeitungselement, das die Zielanzeigedaten erzeugt, die die Anzeigeeigenschaften vom Beginn des entsprechenden Wortes in dem Zieltext bis zu der Position enthält, die um die gleiche Anzahl von Buchstaben entfernt ist, wie die Anzahl von Buchstaben, die zuvor erfasst wurde.

8. Dokumenten-Umwandlungsvorrichtung nach Anspruch 7, wobei das Verarbeitungselement umfasst:

ein Vergleichselement, das die Anzahl von Buchstaben des Wortes in dem Zieltext mit der erfassten Anzahl von Buchstaben des Buchstabenanzahl-Erfassungselementes vergleicht;

ein erstes Element, das wirksam wird, wenn sich als Vergleich des Ergebnisses ergibt, dass die Anzahl von Buchstaben in dem Wort der Anzahl erfasster Buchstaben entspricht oder größer ist als diese;

ein zweites Element, das wirksam wird, wenn die Anzahl von Buchstaben in dem Wort des Zieltextes geringer ist als die Anzahl erfasster Buchstaben.

9. Dokumenten-Umwandlungsvorrichtung nach Anspruch 8, wobei das erste Element die Zielanzeigedaten erzeugt, die Anzeigeeigenschaften enthalten, die an Buchstaben in einem Wort des Zieltextes angehängt sind, wobei die Buchstaben eine erfasste Anzahl von Buchstaben mit dem ersten Buchstaben des Wortes beginnend ausschließen.

10. Dokumenten-Umwandlungsvorrichtung nach Anspruch 9, wobei das zweite Element den Vorgang des Einfügens eines speziellen Symbols nach dem entsprechenden Wort in dem Zieltext ausführt, der in der Zieltext-Speichereinrichtung gespeichert ist und die Zielanzeigedaten für das spezielle Symbol erzeugt.

11. Dokumenten-Umwandlungsvorrichtung nach einem der vorangehenden Ansprüche, wobei der Quellentext und der Zieltext beide HTML-Dokumente sind und der Inhalt sowie der Bereich der Quellen- und Zielanzeigeeigenschaften mit Etikettensymbolen angezeigt werden.

12. Dokumenten-Umwandlungsvorrichtung nach einem der vorangehenden Ansprüche, wobei die Verarbeitungseinheit des Weiteren umfasst:

eine Umwandlungs-Paarinformations-Überlappungs-Sucheinheit, die Suche ausführt, um herauszufinden, ob mehr als zwei Sätze von Umwandlungs-Paarinformationen für ein und dasselbe Wort in dem Quellentext vorhanden sind;

eine Auswähleinheit, die die Zielanzeigedaten, die unter Verwendung eines Satzes der Umwandlungs-Paarinformationen erzeugt werden, auswählt, wenn mehr als zwei Sätze vorhanden sind; und

eine Zieltext-Erzeugungseinrichtung, die Texterzeugung unter Verwendung der Zielanzeigedaten ausführt, die von der Auswähleinheit ausgewählt werden.

13. Dokumenten-Umwandlungsvorrichtung nach Anspruch 12, wobei die Zieltextanzeigedaten, die von der Auswähleinheit ausgewählt werden, für das Wort in dem Zieltext bestimmt sind, das näher an dem Satzfang ist, oder für das Wort, das näher an dem Satzende ist.

14. Dokumenten-Umwandlungsvorrichtung nach einem der Ansprüche 1 bis 10, die umfasst:

eine Quellentext-Gewinnungseinrichtung, die Quellentext, der in HTML geschrieben ist und von außenempfangen wird, gewinnt und speichert, wobei die Quellenanzeigedaten-Erzeugungseinrichtung, die Quellenanzeigedaten erzeugt und speichert, den Quellentext liest und den Inhalt von Anzeigeeigenschaften und Positionen findet, an die die Anzeigeeigenschaften angehängt sind, indem sie nach den Etikettenmarkierungen sucht, die an den Quellentext angehängt sind;

wobei es sich bei den Quellenanzeigedaten um ein Paar handelt, das aus Daten besteht, die den Inhalt der Anzeigeeigenschaften und die Position zeigen, an die Anzeigeeigenschaften angehängt sind.