JP3898799B2

JP3898799B2 - 文書変換装置

Info

Publication number: JP3898799B2
Application number: JP14027497A
Authority: JP
Inventors: 領一杉村
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 1996-05-29
Filing date: 1997-05-29
Publication date: 2007-03-28
Anticipated expiration: 2017-05-29
Also published as: JPH1097539A

Description

【０００１】
【発明の属する技術分野】
本発明は機械翻訳装置や翻訳ソフトウェアなど、ある言語で書かれたテキストデータを他の言語へ翻訳したり、同一言語内である方言で記述されたテキストデータから他の方言のテキストデータへ変換したりする情報処理装置に関し、より詳しくは翻訳前、変換前のテキストデータに付加されている表示属性も含めて翻訳、変換を行う装置に関する。
【０００２】
【従来の技術】
近年インターネット等の国際的な通信ネットワークを通じて外国との間でテキストデータを送受する機会が増えている。通常テキストデータはタグ記号とタグ記号を含まないテキスト本体とからなっている。タグ記号は開始タグと終了タグとからなり、開始タグは”＜”と”＞”の間にタグ名を記入して構成され、終了タグはタグ名の前に”／”が付された構造をしている。タグ名はテキスト本体の書体、文字修飾等の表示属性を示す。タグ名は例えばＨＴＭＬにおいては太字で表示する場合はＢが、アンダーラインを付す場合はＵが、イタリック体で表示する場合はＩが夫々用いられる。また、インターネットを通じて送受信されるテキストデータは、前記開始タグとしてアンカータグを用いて、他のファイルへのポインタを示すことができるようになっている。アンカータグは＜ＡＨＲＥＦ＝”リンク先文字列”＞という形式で記述されている。
【０００３】
ところで、インターネット等で外国からテキストデータを受信した場合、外国語で記述されたテキスト本体を母国語へ翻訳する必要があり、そのために機械翻訳装置が利用されている。従来において機械翻訳装置としては特開平６−４４２９６号公報が知られている。この従来装置は、インターネットなどから受信したソース言語としてのテキストデータをテキスト本体とタグ記号とに分離する分離部と、タグ記号をそれが付されていた単語と関連付けて記憶する記憶部と、テキスト本体に対して辞書引き・形態素解析処理を行う辞書引き・形態素解析処理部と、形態素解析されたテキスト本体に対して構文解析を行う構文解析部と、構文解析の結果を変換してターゲット言語の構造解析木を生成するための変換部と、記憶部の内容を参照してターゲット言語の構造解析木に基づき、タグ記号が挿入されたターゲット言語の翻訳文を生成するための翻訳文生成部とからなっている。
【０００４】
【発明が解決しようとする課題】
ところで、上記従来の機械翻訳装置によれば、ソース言語においてタグ記号が付された単語と対応するターゲット言語側単語に対してタグ記号が付されるので、ターゲット言語の表示形態もソース言語の表示形態と同じであり、違和感はないのであるが、時としてタグ記号が単語の中の一部の文字だけに付される場合があり、その場合ソース言語のテキストデータに付されていた表示属性がターゲット言語のテキストデータにおいては無視されてしまい、表示にも反映されなくなるといった問題がある。例えば、ソース言語のテキストデータが”Ｉ＜Ｂ＞ｈ＜／Ｂ＞ａｖｅａｐｅｎ．”であった場合、ターゲット言語のテキストデータにおいては前記タグ記号が欠落され、”私はペンを持っている。”というテキスト本体だけになってしまうのである。このため、翻訳に不自然さが生じてしまうのである。
【０００５】
また、インターネットを通じて受信したテキストデータには既に述べたように他のファイルへのリンクを示すポインタがアンカータグとして含まれているが、この場合もそのアンカータグが単語の中の一部の文字に対して付されていた場合、翻訳語の文書データではそのタグ記号が欠落してしまい、従って翻訳文を用いてはリンク先ファイルへの移行ができない場合も生じている。以上の問題点はある言語から他の言語への翻訳に伴って生じる問題であるが、同様な問題は同一言語間における一の方言から他の一の方言への変換とかいった文章データの変換に際しても起こり得るものである。
【０００６】
従ってこの発明は表示属性が単語相当文字列のうちの一部の文字だけに付されているソーステキストであってもその表示属性を欠落させることなくターゲットテキストの対応する部所に反映表示することのできる文字列処理装置を提供することを主たる目的としている。
【０００７】
【課題を解決するための手段】
上記目的を達成するため、本発明はソーステキストからターゲットテキストに変換する文書変換装置であって、ソーステキストを記憶しているソーステキスト記憶手段と、ソーステキスト中の文字修飾及びリンク先ファイルのポインタを含む表示属性とそれが付されている位置との組み合わせである第１の表示組情報を記憶する第１表示組情報記憶手段と、ソーステキストから前記表示属性を除いたテキスト本体をターゲットテキスト本体に変換する変換手段と、変換されたターゲットテキスト本体を記憶するターゲットテキスト記憶手段と、ソーステキスト本体の単語相当の文字列がターゲットテキスト本体中の単語相当の文字列のどれに該当するかの組み合わせを示す変換組情報を記憶する変換組情報記憶手段と、第１表示組情報と変換組情報を検索してターゲットテキスト本体の加工と、ソーステキスト中の前記表示属性に相当する表示属性をターゲットテキスト中のどの位置に付すべきかを示す第２表示組情報の作成とを行う加工処理手段と、ターゲットテキスト記憶手段に記憶されているターゲットテキスト本体に、第２表示組情報作成手段から得る第２表示組情報の内容に従って表示属性を付与し、ターゲットテキストを作成するターゲットテキスト作成手段と、作成したテキストを表示する表示手段とを備え、
前記加工処理手段は、第１表示組情報が示す表示属性が付されている位置と変換組情報のソーステキスト側の単語相当文字列を参照して、表示属性がいずれの文字列中の文字に付されているかを一文字毎に検出する表示属性付与範囲検出部と、検出結果に従って表示属性が文字列の一部に付されているか、文字列全体に付されているか判別する判別部と、変換組情報のターゲットテキスト側の単語相当文字列を参照し、前記判別結果を用いてターゲットテキスト本体の加工と第２表示組情報の作成を行う加工処理本体部とを含み前記加工処理本体部は、ソーステキスト側の単語相当文字列に対応する単語相当文字列がターゲットテキスト側に存在するかどうかを、変換組情報を検索して検出する変換単語存否検出部と、変換単語存否検出部がターゲットテキスト側に対応する単語相当文字列が存在しないと検出したときに、ターゲットテキスト記憶手段に記憶されているターゲットテキスト本体に特殊記号を付加する処理を行うと共に、特殊記号を対象とする第２表示組情報を作成する第１の作成処理部と、ターゲットテキスト側に対応する単語相当文字列が存在すると検出したときに、その単語相当文字列内文字を対象とした第２の表示組情報を作成する第２の作成処理部とを含み、更に、前記ソーステキスト及びターゲットテキストはＨＴＭＬ文書であり、表示属性の内容及び付される範囲はタグ記号を用いて指示されていることを特徴としている。
【０００９】
また、上記目的を達成するため本発明は、文書変換装置であって、外部からＨＴＭＬで記述されたソーステキストを取得し、記憶するソーステキスト取得手段と、記憶されているソーステキストを読み出し、ソーステキストに付されたタグマークを検出して表示属性の内容とその表示属性が付されている位置とを求め、第１表示組情報を作成する第１表示組情報作成手段と、ソーステキストから表示属性を除いたテキスト本体をターゲットテキスト本体に変換する変換手段と、変換されたターゲットテキスト本体を記憶するターゲットテキスト記憶手段と、ソーステキスト本体の単語相当の文字列がターゲットテキスト本体中の単語相当の文字列のどれに該当するかの組み合わせを示す変換組情報を記憶する変換組情報記憶手段と、第１表示組情報と変換組情報を検索してターゲットテキスト本体の加工と、ソーステキスト中の表示属性に相当する表示属性をターゲットテキスト中のどの位置に付すべきかを示す第２表示組情報の作成とを行う加工処理手段と、ターゲットテキスト記憶手段に記憶されているターゲットテキスト本体に、第２表示組情報の内容に従ってタグ記号を挿入し、テキストを作成するターゲットテキスト作成手段と、作成したテキストを表示する表示手段とを備え
前記加工処理手段は、第１表示組情報が示す表示属性が付されている位置と変換組情報のソーステキスト側の単語相当文字列を参照して、表示属性がいずれの文字列中の文字に付されているかを一文字毎に検出する表示属性付与範囲検出部と、検出結果に従って表示属性が文字列の一部に付されているか、文字列全体に付されているか判別する判別部と、変換組情報のターゲットテキスト側の単語相当文字列を参照し、前記判別結果を用いてターゲットテキスト本体の加工と第２表示組情報の作成を行う加工処理本体部とを含み、
前記加工処理本体部は、ソーステキスト側の単語相当文字列に対応する単語相当文字列がターゲットテキスト側に存在するかどうかを、変換組情報を検索して検出する変換単語存否検出部と、変換単語存否検出部がターゲットテキスト側に対応する単語相当文字列が存在しないと検出したときに、ターゲットテキスト記憶手段に記憶されているターゲットテキスト本体に特殊記号を付加する処理を行うと共に、特殊記号を対象とする第２表示組情報を作成する第１の作成処理部と、ターゲットテキスト側に対応する単語相当文字列が存在すると検出したときに、その単語相当文字列内文字を対象とした第２の表示組情報を作成する第２の作成処理部とを含むことを特徴としている。
【００１０】
【発明の実施の形態】
＜全体構成＞
図１は本発明の一例としての文字列変換装置を示し、図中、１はテキストデータ取得部で、例えばインターネット等を通じてテキストデータを取得する。テキストデータの例を図２に示す。同図に示すようにテキストデータは一対のタグ記号ａ1 ａ2 とタグ記号ａ1 ａ2 を含まないテキスト本体とからなっている。タグ記号は既述したように開始タグと終了タグとからなっている。テキストデータ取得部１の取得したテキストデータはソースデータ記憶部２に記憶される。
【００１１】
変換部３は従来の機械翻訳装置の全構成のうちタグ記号の記憶部を除いた構成を含む、即ち、ソース言語のテキストデータをテキスト本体とタグ記号とに分離する分離部、辞書引き・形態素解析部、構文解析部、構文解析の結果を変換してターゲット語の構造解析木を生成するための変換部及び前記記憶部の内容を参照して、ターゲット言語の構造解析木に基づき、ターゲット言語のテキスト本体を生成する翻訳文生成部を含む。
【００１２】
図３（Ａ）は変換部３においてタグ記号と分離されたソース言語のテキスト本体、図３（Ｂ）はターゲット言語のテキスト本体を示す。各テキスト本体の下部に付された数字はテキスト本体の先頭から各文字までの字数である。単語間の空白も１字と数え、また先頭文字は０番目としている。図３（Ｃ）はソース言語とターゲット言語のテキスト本体の対応する単語同士を、テキスト本体先頭からの字数のペアで表わしたものである。この図３（Ｃ）の組み情報を変換組み情報と呼ぶ。変換部３でテキスト本体と分離されたタグ記号は第１表示組情報作成記憶部４に送られるし、翻訳文生成部で生成されたテキスト本体はターゲットデータ記憶部５に記憶される。また、変換組み情報は対応関係記憶部６に記憶される。
【００１３】
第１表示組情報作成記憶部４は、変換部３からタグ記号を受け取ると、ソースデータ記憶部２に記憶されているテキストデータを参照し、一対のタグ記号で囲まれている文字列のテキストデータ先頭からの文字数とタグ名の組を作成し、記憶する。上記のように作成した組情報を第１表示組情報という。図４（Ｃ）に図４（Ａ）の文書データを参照して作成した第１表示組情報を示す。表示情報検索部７は、第１表示組情報作成記憶部４で作成された第１表示組情報を用いて、対応関係記憶部６に記憶されている変換組情報を検索し、ターゲット言語のテキスト本体を加工すると共に、そのテキスト本体上での対応するタグ記号が付されるべき位置を演算によって求める。このようにして求めた組情報を第２表示組情報と呼ぶ。テキスト本体の加工とは、後述するようにテキスト本体に特殊記号を付す処理をいう。
【００１４】
図４の例では第１表示組情報は（２−２，Bold）と（９−１１，Bold）の２つであり、このうち（９−１１，Bold）の組情報については図２（Ｃ）の変換組情報からソース言語の文字位置９−１１に対応するターゲット言語の文字位置が２−３であることが明らかであるので、対応する第２表示組情報は直ちに（２−３，Bold）と求まる。一方、第１表示組情報（２−２，Bold）については、図２（Ｃ）の変換組情報のソース言語に（２−２）に一致するものがないため、次のように演算して求める。即ち、文字位置（２−２）をソース言語側に含む変換組情報を検索し、両者の重なり文字数αと重なり開始文字位置βを求める。今の場合、（２−２）を含む変換組情報のソース言語側は（２−５）であり、α＝１，β＝０である。但し、βは変換側情報の先頭文字からの文字数で計算している。そして、（２−５）に対応する変換組情報のターゲット言語は（５−１０）であり、この先頭文字からβ文字目よりα文字数をターゲット言語側の表示属性を付すべき文字であると判断する。ここで、α＝１，β＝０であるので、結局、ターゲット言語側の表示属性を付すべき文字は（５−５）となる。かくして（２−２,Bold ）の第１表示組情報に対応する第２表示組情報は（５−５,Bold ）と決定される。図５（Ａ）に上記のようにして決定された第２表示組情報を示す。同図（Ｂ）はこの表示組情報に従ってターゲット言語のテキスト本体を表示した例を示している。第２表示組情報が指示する順位の文字が太字で表示され、丁度図２に示したソース言語の文書データと自然に対応しているのが理解される。尚、表示情報検索部７のより詳しい処理動作は図８〜図１６のフローチャートに示し、後述する。
【００１５】
表示組情報検索部７が検索し、決定した第２表示組情報は第２表示組情報記憶部８に一時記憶される。但し、この第２表示組情報は表示情報変換部９の働きによって書き換えられる場合がある。表示情報変換部９は優先表示属性記憶部１０と接続されている。優先表示属性記憶部１０はソース言語のテキストデータが命令文とか感嘆文とかのある特定の文型である場合であるとか、特定のソース言語から特定のターゲット言語への翻訳の場合であるとか、ソース言語側に特定の表示属性が付されている場合であるとかにソース言語側の表示属性とは異なった特定の表示属性をターゲット言語側に付すための情報が記述されている。例えば英文で”That's it!”という表示文字列は日本語で”そこまで”というように表示属性をそのまま残して表記するよりも、アンダーラインをなくし、文字自体を大きくして表記した方が日本人一般に対してより一層注意を喚起することができ、その方が意味を汲んだ訳といえる。優先表示属性記憶部１０はこのようなソース言語の特定文に対する表示属性の変更を指示する情報が格納されている。
【００１６】
表示情報変換部９は第２表示組情報記憶部８に表示組情報検索部７で作成された第２表示組情報が書き込まれた際に、ソースデータ記憶部２に記憶されたテキストデータを参照して優先表示属性記憶部１０内を検索し、ヒットする情報を探す。該当する情報があれば、それに基づいて第２表示組情報の表示属性の書き換えを行って、該当情報がなければ書き換えは行わない。
【００１７】
書き換え部１１は、表示組情報検索部７の機能の一つである特殊記号の挿入を実行すると共に、その特殊記号の挿入によって挿入位置より後方の文字位置が一文字分ずれることによる変換組情報、第２表示組情報の書き換えを行う部分である。特殊記号は例えば図７の列番号２と４のターゲット言語の表示書の文列にみられるＰが該当する。特殊記号Ｐの挿入はターゲットデータ記憶部５内のテキスト本体に対して行われる。この場合、特殊記号の挿入を図７の列番号４に示すようにテキスト本体の中程の文字間に対して行う場合には、挿入位置よりも後方の各文字の文字位置が挿入前の位置よりも＋１ズレる。そして、この文字位置のズレに起因して変換情報及び第２の表示組情報の書き換えが必要になる。書き換え部１１はそのために対応関係記憶部６及び第２表示組情報記憶部８に対して該当する組情報の書き換えを行う。
【００１８】
ターゲットＨＴＭＬ作成部１２は、ターゲット記憶部５に格納された最終のテキスト本体と第２表示組情報記憶部８に記憶された最終の第２表示組情報とを用いてＨＴＭＬ文書を作成する。表示部１３は、ソースデータ記憶部２が記憶しているソーステキスト（ＨＴＭＬ文書）とターゲットＨＴＭＬ作成部１２で作成されたターゲットテキスト（ＨＴＭＬ文書）とを表示属性の内容に従って表示する。図６は表示部１１で表示された例を示している。図中のＬ１がソース言語、Ｌ２がターゲット言語である。
【００１９】
＜フローチャートの説明＞
次に、表示組情報検索部７及び書き換え部１１の制御動作について図８〜図１６のフローチャートを用いて、図７の各例を参照しながら説明する。
図８は、メインフローでプログラムが起動すると、スタック格納処理（Ｓ１）を行い、続いて第２表示組情報作成処理（Ｓ２）を行う。これら各ステップＳ１，Ｓ２は図９〜図１６のサブルーチンに詳細に示されている。
【００２０】
最初にフローチャート上で使用している記号について解説しておく。ｉは第１表示組情報の番号である。一つのテキストデータに対していくつかの第１表示組情報が作成されるが、その場合、文書データ先頭からの文字順位の小さな値を有している第１表示組情報に小さなｉ番号が割り振られている。ｊは変換組情報の番号である。この番号ｊについても、ソース言語側或いはターゲット言語側のいずれかの文字順位が小さなものに小さな値を割り振っている。Ａ，Ｂは処理中の第１表示組情報の左端の文字位置、右端の文字位置をセットするレジスタである。例えば図７において列番号１番の文書データに関する第１表示組情報（９−１１，Bold）の場合であると、Ａ＝９，Ｂ＝１１にセットされる。Ａ１，Ｂ１は、変換組情報のソース言語側の左端文字位置、右端文字位置がセットされるレジスタである。例えば変換組情報が（９−１１，２−３）であると、Ａ１＝９，Ｂ１＝１１にセットされる。同様にＡ２，Ｂ２は変換組情報のターゲット言語側の左端文字位置、右端文字位置がセットされるレジスタである。Ａ２，Ｂ２はＡ１，Ｂ１へのセットと同時に行われる。図９、図１０はＳ１のサブルーチンである。（１）スタック格納処理
表示組情報検索部７は第１表示組情報作成記憶部４にて新たに第１表示組情報が作成されて記憶されると起動され、起動後ステップＳ１にてサブルーチンコールされ、図９、１０の処理を行う。まず、ｉ，ｊのリセットを行い（Ｓ１１、Ｓ１２）、１番目の第１表示組情報を読み込んで（Ｓ１４）、その情報を参照し、Ａ，Ｂの値をレジスタにセットする（Ｓ１５）。例えば、図７の列番号４の文書データであると、１番目の第１表示組情報として（９，ＵＬ）が読み込まれ、Ａ，Ｂ＝９とセットされる。続いて１番目の変換組情報が対応関係記憶部６から読み込まれ（Ｓ１７）、ソース言語の左端文字位置、右端文字位置をＡ１，Ｂ１レジスタにセットする（Ｓ１８）。図７の列番号４の文書データの場合、１番目の変換組情報は（０，０−１）であるので、Ａ１，Ｂ１＝０とセットされる。
【００２１】
続くＳ１９〜Ｓ２３においてはＡ，Ｂの値とＡ１，Ｂ１の値が比較される。比較によってＡ，ＢとＡ１，Ｂ１の値の関係が図１７に示すいずれのパターンに該当するかが判断される。図１７においてパターン１はＡ番目からＢ番目までの文字範囲（以下、Ａ〜Ｂと表記する）にＡ１，Ｂ１の値が包含される形態を示し、パターン２はＡ〜ＢとＡ１〜Ｂ１が一部一致する形態を示し、パターン３はＡ〜ＢとＡ１〜Ｂ１が全く異なっており一部の一致もしていない形態を示している。更に、パターン４はＡ〜ＢがＡ１〜Ｂ１に完全に包含される形態（パターン１と逆の関係の形態）を示している。
【００２２】
ステップＳ１９→Ｓ２０→Ｓ２１でYes と判断されると、パターン１を意味し、Ｓ２１でNoと判断された場合及びＳ１９→Ｓ２２→Ｓ２３でいずれもNoと判断された場合はパターン２を意味し、Ｓ２０でNoと判断された場合、及びＳ２２でYes と判断された場合はパターン３を意味し、Ｓ２３でYes と判断された場合にはパターン４を意味している。
【００２３】
パターン１，２，４のいずれかと判断された場合にはｉ番目の第１表示組情報とｊ番目の変換組情報を該当する第１〜第３のスタックに格納する（Ｓ２４〜Ｓ２７）。パターン３と判断された場合はいずれのスタックにも格納しない。パターン１，２，４と判断された場合はスタックへの格納を終わった後、パターン３と判断された場合は直ちにステップ（Ｓ２８）に進み、ｊを１つインクリメントし、２番目の変換組情報を読み込んで（Ｓ１７）、先ほどと同様スタックへの格納処理を行う（Ｓ１８→Ｓ１９→・・・Ｓ２７）。以後ｊを１つずつインクリメントして文書データの最後の変換組み情報に到るまで同様な処理を行う。そして、最後の変換組み情報についての処理も完了すると（Ｓ１６）、次にｉを１つインクリメントし（Ｓ２９）、またｊをリセットして（Ｓ１２）、２番目の第１表示組情報を読み込み（Ｓ１４）、この２番目の第１表示組情報についてｊを１ずつインクリメントしながら各変換組情報と比較し、パターン１〜４のいずれかであるか判定し、パターン１，２，４については該当するスタックに１セットの第１表示組情報と変換組情報を格納する処理を行う。この処理を１つのテキストデータに存する全ての第１表示組情報に対して行う。例えば図７の列番号４の文書データであれば、全ての第１表示組情報を変換組情報と逐一比較した場合、スタック１，スタック２には何らの情報も格納されていないが、スタック３には（９，ＵＬ）：（９−１１，２−３），（１０，Bold）：（９−１１，２−３），（１１，Italy:Pointer ）：（９−１１，２−３）の３セットの情報が格納される。
【００２４】
同様に列番号１の文書データであればスタック１に（９−１１，Bold）：（９−１１，２−３）の１セットの情報が格納されるだけであり、列番号２の文書データであれば、いずれのスタックへも格納されない。列番号３のテキストデータの場合、スタック３に（２−３，UL）：（２−５，５−９）と（４−５，Bold）：（２−５，５−９）との２セットの情報が格納される。列番号５のテキストデータの場合には、スタック１に（２−６，UL）：（２−６，２−４）と（２−６，UL）：（２−６，７−８）との２セットの情報が格納される。更に列番号６のテキストデータの場合、スタック１に（０−９，UL）：（０−９，０−３）の１セットの情報が格納される。但し、この列番号６のテキストデータは既述したように優先表示属性記憶部１０の内容によって書き換えられるので、表示に供されることはない。
（２）第２表示情報の作成及び特殊記号の挿入
全て第１表示情報についてのスタック格納処理が終了すると（Ｓ１３）、メインフローへリターンする。そして、ステップ２に進み、図１１〜１６のサブルーチンがコールされる。図１１は、第２表示組情報作成及び特殊起動挿入処理を示しており、最初、Ｓ３０にて第１表示組情報を指定する変数ｉを１にセットする。ここで、ｉが指定する第１表示組情報は第１表示組情報記憶部４に格納されているものである。そして、１番目に指定した第１表示組情報といずれかの変換組情報との組からなるセットがスタック３，２，１のいずれかに格納されているかどうかを検索する（Ｓ３２〜Ｓ３４）。スタック３又はスタック２に格納されている場合には第２表示組情報作成処理１を行い（Ｓ３５，Ｓ３６）、スタック１に格納されている場合には第２表示組情報作成処理２を行う（Ｓ３７）。第１表示組情報は第１表示組情報作成記憶部４には記憶されていないが、いずれのスタックにも格納されていない場合には、不定詞等の和文へ訳出しない単語に表示属性が付されていると判定して特定記号挿入処理を行う（Ｓ３８）。
【００２５】
以上の処理をｉ番目の第１表示組情報について残すところなく行えば（Ｓ３１）、ｉを１つアップして（Ｓ４０）、次順位の第１表示組情報について同様な処理を行い、これを第１表示組情報作成記憶部４に格納されている全ての第１表示組情報について行うと（Ｓ３９）、メインフローへリターンする。
尚、Ｓ３１でｉ番目の第１表示組情報についてＳ３５〜Ｓ３８の処理を全て行ったかどうかの判断は、ｉ番目の第１表示組情報と変換組情報のセットがいずれかのスタック１〜３にまだ格納されているかどうかの検出と、いずれのスタックにも存在しなくても処理済のセット識別子を書き込んだ処理済記憶部に該当する情報の識別子が格納されているかどうかの検出によって行える。
（２−１）第２表示組情報作成処理１及び２
次に、１番目の第１表示組情報といずれかの変換組情報からなるセットがスタック３に格納されていると判明した場合における第２表示組情報の作成処理１を図１２、図１３、図１４に基づき説明する。先ず、第１表示組情報とセットになっている変換組情報のソース言語側の左端文字位置、右端文字位置をＡ１，Ｂ１レジスタに、ターゲット言語側の左端文字位置、右端文字位置をＡ２，Ｂ２レジスタに夫々セットし（Ｓ４３）、文字位置Ａ１〜Ｂ１とパターン２又はパターン４の関係にある第１表示組情報が他にないか、スタック２，３を検索する（Ｓ４４）。検索の結果、無いと判明すれば（Ｓ４５）、１番目の第１表示組情報が含む左端文字、右端文字位置をレジスタＡ，Ｂにセットし（Ｓ４６）、Ａ〜Ｂ、Ａ１〜Ｂ１からソース言語側の単語と表示属性が付された文字列との重なり文字数αとＡ１から重なり開始位置までの文字数βを求める（Ｓ４７）。続いてβとターゲット言語側単語の文字数（Ｂ２−Ａ２＋１）を比較する（Ｓ４８）。この判断は、ターゲット言語の対応する単語の文字数が少なく、ソース言語の単語の先頭から表示属性が付された文字までの字数の方が多い場合に対処するためである。即ち、そのような場合には、ターゲット言語の対応する単語の後（Ｂ２番目の文字の後）に表示属性を示す特殊記号を挿入し（Ｓ４９）、次いで、特殊記号の挿入によって文字位置の書き換えが必要となる第２表示組情報と変換組情報についてＳ４９１にて文字位置を＋１する処理を行う。続いて、特殊文字挿入位置（Ｂ２＋１）と第１表示組情報の表示属性を用いて第２表示組情報を作成する（Ｓ５０）。例えば図７の列番号のターゲット言語の表示書体における”ペン”の後に挿入された”Ｐ”は特殊文字の例である。この例では、ソース言語の単語”ＰＥＮ”の”Ｎ”がリンク先ファイルを示すポインタとなっているので、ターゲット言語側においてもポインタであることを示す”Ｐ”を用いている。そして、このＰの挿入位置を用いて第２表示組情報が作成されている。
【００２６】
一方、Ｓ４８においてターゲット言語の単語の文字数（Ｂ２−Ａ２＋１）がβの値より多いと判定された場合には、更にその単語の文字数（Ｂ２−Ａ２＋１）がβ＋α値より多いか否かが判定される（Ｓ５１）。この判断によって、ターゲット言語の単語の文字数がソース言語の単語の先頭から表示属性が付された文字列の最後の文字までの文字数よりも多いか少ないかが明らかになり、ターゲット言語の文字数の方が少ないと判断された場合は、ターゲット言語において表示属性を付す範囲をターゲット言語の単語の後端とし（Ｓ５２）、他方、多いと判断された場合にはターゲット言語において表示属性を付す範囲をソース言語に表示属性が付された範囲と同じ範囲（β〜α＋β）とする（Ｓ５３）。
【００２７】
以上の如くして第２の表示組情報の作成を完了すると、スタック３から該当するセットを削除し（Ｓ５４）、削除したセット識別子を処理済記憶部に書き込む（Ｓ５５）。Ｓ５４においてセットをスタックから削除するのは、同じセットが繰り返しスタックから読み出されるのを防ぐためである。また、Ｓ５５において使用済みセット識別子を処理済記憶部に格納するのは、いずれかのスタックに格納されていたセットであった事実を記憶し、いずれのスタックにも格納されることのない第１表示組情報と区別できるようにするためである。
【００２８】
尚、Ｓ４５においてスタック２，３の中に複数の第１表示組情報が存在することが判明すると、存在する全てのセットを読み出し（Ｓ５６）、読み出したセットに対応した第２表示組情報を作成する（Ｓ５７）。この作成処理は、セットがスタック２に格納されている場合はＳ３５と同一であるし、セットがスタック３に格納されている場合は既に述べたＳ４６〜Ｓ５５の処理と同一であり、Ｓ３５については後に説明しているので、詳細な説明はここでは省略する。読み出したセットについてＳ５７の処理を繰り返し行い、もはや未処理のセットが無くなった場合には（Ｓ５８）、Ｓ５７において第２表示組情報の作成に使用されたセットを該当するスタックから削除（Ｓ５４）し、削除したセット中の第１表示組情報識別子を処理済記憶部に書込み（Ｓ５５）、リターンする。ここで、Ｓ４５→Ｓ５６→Ｓ５７→Ｓ５８の一連の処理で第２の表示組情報の作成に用いられるセットは、ソース言語側テキスト本体の文字数Ａ１〜Ｂ１をカバーし、Ａ１〜Ｂ１にカバーされ、Ａ１〜Ｂ１とオーバラップする第１表示組情報（ｉ番目には限らない）とＡ１〜Ｂ１をソース言語側文字位置とする変換情報とのセットであり、ｉ番目の表示組情報の全てではないことに注意すべきである。即ち、ｉ番目の第１表示組情報であってもソース言語側文字位置がＡ１〜Ｂ１以外の変換情報とのセットがあるからである。例えば、パターン２のようにソース言語の単語と表示属性が付された範囲の重合が一部だけの場合がこれに該当する。重合から外れた表示属性の付与部分は多くの場合隣の単語の一部又は全部と重合しているからである。
【００２９】
以上のようにしてＳ３５の処理が終われば、１番目の第１表示組情報についていずれかの変換組情報とのセットがスタック２、スタック１に格納されていないか判定し（Ｓ３１）、まだ格納されていれば、それらの処理を行う。例えば、該当するセットがスタック２に格納されていると判定すると（Ｓ３３）、第２表示組情報作成処理２のサブルーチンを実行する。この処理２は既に述べた処理１と同じサブルーチンによって実行される。しかも１番目の第１表示組情報については、処理１を通じてスタック３のみでなくスタック２にも格納されているセットの検索並びに削除が完了しているので、処理２を実行する際にスタック２に残っている１番目の第１表示組情報を含むセットは残り少ない。おそらく、処理１においてＡ１，Ｂ１レジスタに文字位置を登録した単語を対象としたセットは残っていないので、その単語の隣の単語を対象としたセット（パターン２に属するセットであろう。）が残っているだけになる。但し、その隣の単語を対象にし、２番目以降の第１表示組情報を含むセットはパターン３，パターン２のものが存在すると予想される。従って、処理２はこのようなセットを対象とした第２表示組情報の作成になる。尚、第２の表示組情報作成処理２は処理１と同一サブルーチンで実行されるのでこれ以上の説明は省略する。
（２−２）第２表示組情報作成処理３
そして、以上の処理が終わると、スタック１に１番目の第１表示組情報を含むセットが存在するかどうか判定し（Ｓ３１，Ｓ３４）、存在する場合には第２表示組情報再生処理３を実行する（Ｓ３７）。スタック１に格納されていると判定すると、図１５のサブルーチンを実行する。スタック１に格納されているセットはソース言語の一単語と表示属性の付された文字列とが図１７に示すパターン１の関係にあり、表示属性が付された範囲が一単語の文字数よりも必ず広い点が他のパターンと異なっている。このため、セットがスタック２，３に格納されている場合と、スタック１に格納されている場合とで第２表示組情報の作成処理を分けて行うようにしている。
【００３０】
この場合の処理はまず１番目の第１表示組情報に含まれる文字左端位置、右端位置をＡ，Ｂレジスタにセットし（Ｓ８１）、文字位置Ａ〜Ｂに含まれる文字位置（Ａ１〜Ｂ１）をもつ他の変換組情報がスタック１内に存在しないか検索する（Ｓ８２）。即ち、文字位置Ａ〜Ｂを共通にするパターン１のセットが他にないか検索するのである。検索の結果、他に存在することが判明すると（Ｓ８３）、発見した全てのセットの中で、最左端の文字位置（ソース言語）を持った変換組情報を選択して第２表示組情報を作成する（Ｓ８４）。この場合の第２表示組情報の文字位置は変換組情報のターゲット言語側の文字位置をそのまま用い、表示属性は第１表示組情報の表示属性をそのまま用いる。第２表示組情報の作成を完了すると、使用したセットをスタック１から削除し（Ｓ８５）、削除したセット中の第１表示組情報の識別子を処理済記憶部に書き込む（Ｓ８６）。そして、再び発見したセットの中で最左端の文字位置をもった変換組情報を用いて第２表示組情報を作成する（Ｓ８４）。この処理をスタック１内から発見される最後のセットまで行う。
【００３１】
以上で、Ｓ３７の処理を終え、再びＳ３１にて１番目の第１表示組情報について未処理のものが残っていないか、各スタックを検索する。残っていない場合には、ｉを１つインクリメントして２番目の第１表示組情報について１番目の第１表示組情報と同様な処理を行い、第２表示組情報を作成する。
（２−３）特殊記号挿入処理
２番目の第１表示組情報に関して、例えばそれと変換組情報のセットがいずれのスタック１〜３からも検出されず、また処理済記憶部にも処理済セット識別子が存在しなかったとすると、処理はＳ３８に進み、特定記号の挿入を行う。即ち、このように全スタック１〜３に２番目の第１表示組情報を含むセットが存在せず、しかも２番目の第１表示組情報に関する処理済セット識別子が処理済記憶部に全く書き込まれていなくて、第１表示組情報は存在するという場合は、ターゲット言語には訳出されない単語、例えば不定冠詞の”ａ”であることを意味する。従って、このような単語に表示属性が付されていた場合には、Ｓ３８に進んで、ターゲット言語のテキスト本体に特定記号を挿入する処理を行い、看者に対して訳出されない単語に表示属性が付されていることを明示するのである。この特殊記号挿入処理は図１６に示すように、ターゲットデータ記憶部の文末相当部分に特殊記号を挿入し（Ｓ９１）、その挿入位置と第１表示組情報が含む表示属性の組で第２表示組情報を作成する（Ｓ９２）。そして、処理済記憶部に、２番目の第１表示組情報識別子を書き込む（Ｓ９３）。この識別子を書き込むのは、Ｓ３１に処理が進んだとき、特殊記号挿入処理が既に完了しているかどうかを確認できるようにするためである。特殊記号挿入処理が完了していると確認すれば、その第１表示組情報を用いての第２表示組情報の作成は全て終了していることとなり、ｉをインクリメントして次順の第１表示組情報についての処理にかかる。
【００３２】
以上のようにして、全ての第１表示組情報を対象にした第２表示組情報の作成が完了すると（Ｓ３９）、メインフローへリターンする。かくして、一つの文書データについての第２表示組情報の作成処理を終了する。
図７の１〜４の各列に揚げる第２表示組情報は、同一列の第１表示組情報と変換組情報を用いて、上記フローチャートによって作成された例を示している。
【００３３】
尚、図７の列番号５のソーステキストの本体のように"never" にアンダーラインがある場合、第１表示組情報が（２−６，UL）であり、変換組情報に（２−６，２−４）と（２−６，７−８）のようにソース側文字位置を共通にするものが２つ含まれているので、上記実施例の構成であれば第２表示組情報は２つ作成され、その結果、ターゲットテキストでは「決して」と「ない」の２つの文字列部分にアンダーラインが付される処理が行われる。この場合、ソーステキストの１箇所のアンダーラインにターゲットテキストの２箇所のアンダーラインが対応することとなってやや不自然さがあると感じられる。そのため、このような場合は２つ生成される第２表示組情報の一方の出力を停止させ、第２表示組情報記憶部８には他の一方のみ書き込むようにする。例えばターゲットテキストにおいて文後端に近い方の第２表示組情報のみ選択し、記憶部８に書き込む。図７の列番号５のターゲット側の表示書体はこのように一方の第２表示組情報のみ選択された場合の表示例を示している。
【００３４】
また上記実施例はソーステキストとして英文、ターゲットテキストとして日本文の例を示しているが言語はこれに限られるものではない。更に、ソーステキストとターゲットテキストとで言語は必ずしも異なっている必要はなく、同一言語で異なった方言の文章に変換する場合にも適用できる。
【００３５】
【発明の効果】
以上説明したように本発明に係る文書変換装置は、変換組情報の他に、ソーステキストに含まれている表示属性とそれが付されている位置との組み合わせである第１の表示組情報とを用い、加工処理手段にて第２の表示組情報を作成し、更に必要な場合にはターゲットテキスト本体に加工を施して、これらを直接及びターゲットテキスト記憶手段を通じてターゲットテキスト作成手段に送給してターゲットテキストを作成し、表示手段にてそのテキストの表示を行うものであるから、従来技術のようにソーステキストに付された表示属性のうち単語の先頭から後端にわたって付された表示属性だけをターゲットテキストの対応する文字列に付する処理を行うものと異なり、単語の一部の文字列に表示属性が付されていたとしてもその内容が第１表示組情報に反映されている限り、ターゲットテキストにおいても対応する文字列部分に表示属性を付す処理が行え、表示した状態においても不自然さがなくなるものである。
【００３６】
その上、ソーステキストに付された表示属性がリンク先のファイルのアドレスを示すものである場合、テキストデータにおいても対応する表示属性が付されるので、ターゲットテキストを主体にファイルの呼び出しが行え便利である。
加えて、本発明において、前記加工処理手段は、第１表示組情報が示す表示属性が付されている位置と変換組情報のソーステキスト側の単語相当文字列を参照して、表示属性がいずれの文字列中の文字に付されているかを一文字毎に検出する表示属性付与範囲検出部と、検出結果に従って表示属性が文字列の一部に付されているか、文字列全体に付されているか判別する判別部と、変換組情報のターゲットテキスト側の単語相当文字列を参照し、前記判別結果を用いてターゲットテキスト本体の加工と第２表示組情報の作成を行う加工処理本体部とを含むので、表示属性がソーステキストの一文字に付されていたとしてもターゲットテキストの対応箇所に表示属性を付与でき、ターゲットテキストとソーステキストとの表示属性に関する厳密な一致が図れるものである。
【００３７】
また、前記加工処理本体部は、ソーステキスト側の単語相当文字列に対応する単語相当文字列がターゲットテキスト側に存在するかどうかを、変換組情報を検索して検出する変換単語存否検出部と、変換単語存否検出部がターゲットテキスト側に対応する単語相当文字列が存在しないと検出したときに、ターゲットテキスト記憶手段に記憶されているターゲットテキスト本体に特殊記号を付加する処理を行うと共に、特殊記号を対象とする第２表示組情報を作成する第１の作成処理部と、ターゲットテキスト側に対応する単語相当文字列が存在すると検出したときに、その単語相当文字列内文字を対象とした第２の表示組情報を作成する第２の作成処理部と、を含むので、ソーステキスト側に存在する単語に対応する文字列がターゲットテキスト側にない場合であってもこれを検出し、特殊記号をターゲットテキスト側に付加すると共に、これに表示属性を付することができ、言語の違いからくる対応単語不遜剤の場合にも表示属性に関してはソーステキストとターゲットテキストとの厳密な一致が図られるものである。
【図面の簡単な説明】
【図１】本発明の一実施例としての文書変換装置のブロック図である。
【図２】ソーステキストの一例を示す図である。
【図３】ソーステキスト本体、ターゲットテキスト本体及びそれらのテキスト本体に関する変換組情報を示した図である。
【図４】第１表示組情報を作成する手順及び作成した第１表示組情報を示す図である。
【図５】第２表示組情報とターゲットテキストの表示形態を示す図である。
【図６】ソーステキストとターゲットテキストの表示例を示す図である。
【図７】複数のソーステキストに対応したターゲットテキスト及び第１、第２変換組情報、変換組情報をテーブル形式で示した図である。
【図８】表示組情報検索部及び書き換え部の処理を示すメインフローチャートである。
【図９】スタック格納処理を示すフローチャートの前半部分を示す図である。
【図１０】スタック格納処理を示すフローチャートの後半部分を示す図である。
【図１１】第２表示組情報作成及び特殊記号挿入処理を示すフローチャートである。
【図１２】第２表示組情報作成処理１及び２を示すフローチャートである。
【図１３】第２表示組情報作成処理１及び２を示すフローチャートである。
【図１４】第２表示組情報作成処理１及び２を示すフローチャートである。
【図１５】第２表示組情報作成処理３を示すフローチャートである。
【図１６】特殊記号挿入処理を示すフローチャートである。
【図１７】表示属性が付される範囲と単語との重なりパターンを示した図である。

Claims

ソーステキストからターゲットテキストに変換する文書変換装置であって、ソーステキストを記憶しているソーステキスト記憶手段と、ソーステキスト中の文字修飾及びリンク先ファイルのポインタを含む表示属性とそれが付されている位置との組み合わせである第１の表示組情報を記憶する第１表示組情報記憶手段と、ソーステキストから前記表示属性を除いたテキスト本体をターゲットテキスト本体に変換する変換手段と、変換されたターゲットテキスト本体を記憶するターゲットテキスト記憶手段と、ソーステキスト本体の単語相当の文字列がターゲットテキスト本体中の単語相当の文字列のどれに該当するかの組み合わせを示す変換組情報を記憶する変換組情報記憶手段と、第１表示組情報と変換組情報を検索してターゲットテキスト本体の加工と、ソーステキスト中の前記表示属性に相当する表示属性をターゲットテキスト中のどの位置に付すべきかを示す第２表示組情報の作成とを行う加工処理手段と、ターゲットテキスト記憶手段に記憶されているターゲットテキスト本体に、第２表示組情報作成手段から得る第２表示組情報の内容に従って表示属性を付与し、ターゲットテキストを作成するターゲットテキスト作成手段と、作成したテキストを表示する表示手段とを備え、
前記加工処理手段は、第１表示組情報が示す表示属性が付されている位置と変換組情報のソーステキスト側の単語相当文字列を参照して、表示属性がいずれの文字列中の文字に付されているかを一文字毎に検出する表示属性付与範囲検出部と、検出結果に従って表示属性が文字列の一部に付されているか、文字列全体に付されているか判別する判別部と、変換組情報のターゲットテキスト側の単語相当文字列を参照し、前記判別結果を用いてターゲットテキスト本体の加工と第２表示組情報の作成を行う加工処理本体部とを含み前記加工処理本体部は、ソーステキスト側の単語相当文字列に対応する単語相当文字列がターゲットテキスト側に存在するかどうかを、変換組情報を検索して検出する変換単語存否検出部と、変換単語存否検出部がターゲットテキスト側に対応する単語相当文字列が存在しないと検出したときに、ターゲットテキスト記憶手段に記憶されているターゲットテキスト本体に特殊記号を付加する処理を行うと共に、特殊記号を対象とする第２表示組情報を作成する第１の作成処理部と、ターゲットテキスト側に対応する単語相当文字列が存在すると検出したときに、その単語相当文字列内文字を対象とした第２の表示組情報を作成する第２の作成処理部とを含み、
更に、前記ソーステキスト及びターゲットテキストはＨＴＭＬ文書であり、表示属性の内容及び付される範囲はタグ記号を用いて指示されている
ことを特徴とする文書変換装置。
文書変換装置であって、外部からＨＴＭＬで記述されたソーステキストを取得し、記憶するソーステキスト取得手段と、記憶されているソーステキストを読み出し、ソーステキストに付されたタグマークを検出して表示属性の内容とその表示属性が付されている位置とを求め、第１表示組情報を作成する第１表示組情報作成手段と、ソーステキストから表示属性を除いたテキスト本体をターゲットテキスト本体に変換する変換手段と、変換されたターゲットテキスト本体を記憶するターゲットテキスト記憶手段と、ソーステキスト本体の単語相当の文字列がターゲットテキスト本体中の単語相当の文字列のどれに該当するかの組み合わせを示す変換組情報を記憶する変換組情報記憶手段と、第１表示組情報と変換組情報を検索してターゲットテキスト本体の加工と、ソーステキスト中の表示属性に相当する表示属性をターゲットテキスト中のどの位置に付すべきかを示す第２表示組情報の作成とを行う加工処理手段と、ターゲットテキスト記憶手段に記憶されているターゲットテキスト本体に、第２表示組情報の内容に従ってタグ記号を挿入し、テキストを作成するターゲットテキスト作成手段と、作成したテキストを表示する表示手段とを備え、
前記加工処理手段は、第１表示組情報が示す表示属性が付されている位置と変換組情報のソーステキスト側の単語相当文字列を参照して、表示属性がいずれの文字列中の文字に付されているかを一文字毎に検出する表示属性付与範囲検出部と、検出結果に従って表示属性が文字列の一部に付されているか、文字列全体に付されているか判別する判別部と、変換組情報のターゲットテキスト側の単語相当文字列を参照し、前記判別結果を用いてターゲットテキスト本体の加工と第２表示組情報の作成を行う加工処理本体部とを含み前記加工処理本体部は、ソーステキスト側の単語相当文字列に対応する単語相当文字列がターゲットテキスト側に存在するかどうかを、変換組情報を検索して検出する変換単語存否検出部と、変換単語存否検出部がターゲットテキスト側に対応する単語相当文字列が存在しないと検出したときに、ターゲットテキスト記憶手段に記憶されているターゲットテキスト本体に特殊記号を付加する処理を行うと共に、特殊記号を対象とする第２表示組情報を作成する第１の作成処理部と、ターゲットテキスト側に対応する単語相当文字列が存在すると検出したときに、その単語相当文字列内文字を対象とした第２の表示組情報を作成する第２の作成処理部とを含むことを特徴とする文書変換装置。
前記第１の作成処理部の行う特殊記号の付加処理は、特殊記号としてターゲットテキスト本体において使われないキャラクターを用い、それをターゲットテキスト本体の文頭又は文末位置に付加する処理であるこことを特徴とする請求項１、２のいずれかに記載の文書変換装置。
前記第２の作成処理部は、判別部が単語相当文字列の全体に表示属性が付されていると判別した場合に作動する第１の処理ユニットと、判別部が単語相当文字列の一部に表示属性が付されていると判別した場合に作動する第２の処理ユニットとを含むことを特徴とする請求項１ないし３に記載の文書変換装置。
第１の処理ユニットは、変換組情報からソーステキスト側文字列に対応するターゲットテキスト側文字列を検出し、その文字列全体に表示属性を付することを内容とする第２表示組情報を作成し、第２の作成処理ユニットは、ターゲットテキスト側の対応する文字列の一部に表示属性を付することを内容とする第２表示組情報を作成することを特徴とする請求項４記載の文書変換装置。
第２の作成処理ユニットは、ソーステキスト側の単語相当文字列の先頭から表示属性が付されている最初の文字までの文字数を検出する文字検出エレメントと、ターゲットテキスト側の対応する単語相当文字列の先頭から前記検出文字数と同一文字数離れた位置から表示属性を付することを内容とする第２表示組情報を作成する処理エレメントからなることを特徴とする請求項５記載の文書変換装置。
前記処理エレメントは、ターゲットテキスト側の単語相当文字列の文字数を前記文字検出部分の検出文字数と比較する比較エレメントと、比較の結果ターゲットテキスト側の単語相当文字列の文字数が検出文字数と同数かそれより多い場合に作動する第１エレメントと、ターゲットテキスト側の単語相当文字列の文字数が検出文字数よりも少ない場合に作動する第２エレメントとからなることを特徴とする請求項６記載の文書変換装置。
第１エレメントは、ターゲットテキスト側の単語相当文字列の先頭から検出文字列の後端までの文字に表示属性を付することを内容とする第２表示組情報を作成することを特徴とする請求項７記載の文書変換装置。
第２エレメントは、ターゲットテキスト記憶手段に記憶されたターゲットテキスト本体の単語相当文字列の後に特殊記号を挿入する処理を行うと共に、その特殊記号を対象とした第２表示組情報を作成することを特徴とする請求項７又は８に記載の文書変換装置。