JPH11272668A

JPH11272668A - 入力テキスト処理方法およびその装置、概翻訳を行う方法およびその装置、ならびに記憶媒体

Info

Publication number: JPH11272668A
Application number: JP11019164A
Authority: JP
Inventors: Victor Poznanski; ポズナンスキービクター; Jan Jaap Ijdens; ヤープアイデンスヤン; Peter John Whitelock; ジョンホワイトロックピーター
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1998-01-30
Filing date: 1999-01-27
Publication date: 1999-10-08
Also published as: US6397174B1; EP0933713A2; EP0933713A3; GB2334115A; GB9802141D0

Abstract

(57)【要約】【課題】グロシング翻訳を行うための方法および装置
を提供する。【解決手段】複数の単語を含む入力テキストを処理す
る方法が提供される。上記方法は、入力テキストから、
複数の集合を導出するステップであって、各集合が、入
力テキストの単語のうちの少なくとも１つを含み、各集
合の単語がすべて、入力テキスト内に存在し、１つより
も多い単語を含む集合があれば、その各々の集合の単語
が連語を構成するステップと、各集合に、固有の相対ラ
ンクを割り当てるステップと、各集合を、相対ランクの
高い順に、入力テキストと比較するステップと、単語が
すべて入力テキスト内に存在し、且つ、以前に選択され
た、より高い相対ランクの集合には、単語が存在しない
集合の各々を選択するステップとを包含する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、入力テキストを処
理する方法およびその装置に関する。本発明はまた、概
翻訳（approximate translation）を行う方法およびそ
の装置に関する。本発明はさらに、記憶媒体に関する。
そのような方法および装置は、自然言語処理、文書処理
およびテキスト処理において使用され得る。例えば、そ
のような方法および装置は、入力テキスト中の、単語ま
たは単語群から、異なる自然言語の対応する単語もしく
は記号、または単語群もしくは記号群への翻訳を提供す
るグロシング（glossing）システムとして使用され得
る。

【０００２】

【従来の技術】自然言語のテキストは、通常、単語また
は記号を含み、これらの単語または記号は、互いに関連
して、単語または記号の個々の意味とは異なる意味を持
つ。そのような群は、「連語」と呼ばれ、例えば辞書
（一か国語、二か国語、または多国語）、類語辞典、ま
たは百科事典のインデックスにアクセスするために、テ
キストを正しく処理したい場合には、連語として同定さ
れなければならない。

【０００３】入力テキストを構文解析によって解析する
ための公知のシステム、即ち、文を解析して単語間の関
係を決定するための公知のシステムがある。構文解析の
使用は、文に、連語のラベルを最適に付ける際に効果的
である。しかし、この技術は、一般に、必要以上の処理
を含み、計算が複雑である。この技術はまた、この技術
を実行するために、莫大な量の知識（例えば、関連する
単語が互いに及ぼす文法規則および意味論的制約）を必
要とする。

【０００４】別の公知の技術は、連続する最大の連語を
見つける。このコンテクストでの「連続する」とは、入
力テキストにおいて、連語中の単語が互いに隣接するこ
とを意味する。しかし、そのような技術は、同じ長さの
連語を識別することができない。例えば、「Ａｉｒｐａ
ｓｓｅｓｏｕｔｏｆｔｈｅｆｕｒｎａｃｅｔｈｒｏｕｇ
ｈａｐｉｐｅ」という文には、それぞれが２つの単語か
らなる２つの連語、即ち、「ｐａｓｓｅｓｏｕｔ」およ
び「ｏｕｔｏｆ」がある。この技術では、これらの連語
のうちのいずれが選択されるべきであるかを決定するこ
とができない。

【０００５】連続していない連語を見つけるための公知
の技術は、ＥＰ０６３７８０５に開示されている。この
技術では、品詞タガー（tagger）を用いて、入力テキス
トから最良の連語を選択しようと試みる。そのような技
術は、「ｔｈｅｂｕｓｓｔｏｐｓａｔＧｒｅｎｏｂｌ
ｅ」という文において、「ｓｔｏｐｓ」が名詞である
「ｂｕｓｓｔｏｐｓ」と、「ｓｔｏｐｓ」が動詞である
「ｓｔｏｐｓａｔ」とを識別する助けとなる。しかし、
この技術では、これらの可能な連語のうちのどれが最適
であるかを示すことができない。さらに、この技術は、
文について、連語の一貫したラベル付けを見つけるため
の手段を提供しない。

【０００６】

【発明が解決しようとする課題】これらの技術は、入力
テキストから、同一の単語を共有しない連語を、矛盾す
ることなく決定することができるが、２つ以上の可能な
連語が１つ以上の単語を共通に有する場合に、どれが最
適な連語であるかを同定することができない。上記の例
が示すように、例えば辞書のようなインデックスにアク
セスするために、連語を使用する必要がある場合には、
正しい連語を、高い信頼性で選択することが不可欠であ
る。

【０００７】

【課題を解決するための手段】本発明の第１の局面によ
れば、複数の単語を含む入力テキストを処理する方法で
あって、入力テキストから、複数の集合を導出するステ
ップであって、各集合が、入力テキストの単語のうちの
少なくとも１つを含み、各集合の単語がすべて、入力テ
キスト内に存在し、１つよりも多い単語を含む集合があ
れば、その各々の集合の単語が連語を構成するステップ
と、各集合に、固有の相対ランクを割り当てるステップ
と、各集合を、相対ランクの高い順に、入力テキストと
比較するステップと、単語がすべて入力テキスト内に存
在し、且つ、以前に選択された、より高い相対ランクの
集合には、単語が存在しない集合の各々を選択するステ
ップとを包含する方法が提供される。

【０００８】入力テキストの単語の各々は、集合のうち
の少なくとも１つに存在し得る。

【０００９】入力テキストの単語はすべて、選択された
集合の和集合に存在し得る。「和集合」という用語は、
従来の数学的な意味で使用されており、選択された集合
の単語をすべて含む集合を意味する。

【００１０】入力テキストは、文法的に完全な、テキス
トのサンプルを含み得る。

【００１１】単語は、予備ステップの言語（例えば、形
態素）解析により、もとのテキストから導出された、基
本語形を含み得る。

【００１２】割り当てステップは、集合の単語数が増加
するに従って増加する優先順位値を割り当てる第１のス
テップを包含し得る。

【００１３】割り当てステップは、入力テキスト中の集
合の単語のスパンが増加するに従って減少する優先順位
値を割り当てる第２のステップを包含し得る。「スパ
ン」という用語は、集合のうちで、入力テキストにおい
て最初に起こる単語と、入力テキストにおいて最後に起
こる単語との間（これらの２つの単語を含む）の単語数
を意味する。

【００１４】第２のステップは、第１のステップの結
果、１つよりも多い集合が同一の優先順位値を有する場
合にのみ、行われ得る。

【００１５】割り当てステップは、集合の少なくとも１
つの単語と、その集合には存在しない、入力テキスト中
にある少なくとも１つの単語との間の言語学的関係に依
存する優先順位値を割り当てる第３のステップを包含し
得る。

【００１６】第３のステップは、第２のステップの結
果、１つよりも多い集合が同一の優先順位値を有する場
合にのみ、行われ得る。

【００１７】割り当てステップは、集合の最も右側の単
語が入力テキストにおいて右側に位置するに従って増加
する優先順位値を割り当てる第４のステップを包含し得
る。これは、右分岐（right-branching）である場合が
多い、英語などの言語において適切である。

【００１８】第４のステップは、第３のステップの結
果、１つよりも多い集合が同一の優先順位値を有する場
合にのみ、行われ得る。

【００１９】割り当てステップは、デフォルトにより優
先順位値を割り当てる第５のステップを包含し得る。

【００２０】第５のステップは、第４のステップの結
果、１つよりも多い集合が同一の優先順位値を有する場
合にのみ、行われ得る。

【００２１】割り当てステップは、各集合の確率の測定
値に基づいて、優先順位値を割り当てるステップを包含
し得る。

【００２２】上記方法は、選択された集合のうちの少な
くとも１つを用いて、単語集合のインデックスにアクセ
スするステップを包含し得る。

【００２３】本発明の第２の局面によれば、第１の自然
言語の入力テキストの、第２の自然言語への概翻訳を行
う方法であって、本発明の第１の局面による方法を行う
ステップであって、インデックスが二か国語辞書などの
辞書である、ステップと、選択された集合に対応する、
第２の言語の辞書エントリを出力するステップとを包含
する方法が提供される。

【００２４】第１および第２の言語は、同一の言語であ
ってもよいが、通常は、異なる言語である。

【００２５】本発明の第３の局面によれば、複数の単語
を含む入力テキストを処理するための装置であって、入
力テキストから、複数の集合を導出するための手段を含
み、各集合が、入力テキストの単語のうちの少なくとも
１つを含み、各集合の単語がすべて入力テキスト内に存
在し、１つよりも多い単語を含む集合があれば、その各
々の集合の単語が連語を構成し、各集合に、固有の相対
ランクを割り当てるための手段と、各集合を、相対ラン
クの高い順に、入力テキストと比較するための手段と、
単語がすべて入力テキスト内に存在し、且つ、以前に選
択された、より高い相対ランクの集合には、単語が存在
しない、集合の各々を選択するための手段とをさらに含
む装置が提供される。

【００２６】導出手段は、入力テキストの単語の各々
が、集合のうちの少なくとも１つに存在するように構成
され得る。

【００２７】選択手段は、入力テキストの単語がすべ
て、選択された集合の和集合に存在するように構成され
得る。

【００２８】入力テキストは、文法的に完全な、テキス
トのサンプルであって、ピリオド、セミコロン、または
コロンなどの句読点によって範囲が定められるサンプル
を含み得る。そのようなサンプルの例は、句、節、およ
び文である。

【００２９】単語は、基本語形を含み得、装置は、もと
のテキストを解析して、基本語形を与えるための言語解
析装置を含み得る。

【００３０】割り当て手段は、集合の単語数が増加する
に従って増加する優先順位値を割り当てるための第１の
手段を含み得る。

【００３１】割り当て手段は、入力テキスト中の集合の
単語のスパンが増加するに従って減少する優先順位値を
割り当てるための第２の手段を含み得る。

【００３２】第２の手段は、第１の手段が、１つよりも
多い集合に同一の優先順位値割り当てる場合にのみ、イ
ネーブルされ得る。

【００３３】割り当て手段は、集合の少なくとも１つの
単語と、その集合には存在しない、入力テキスト中にあ
る少なくとも１つの単語との間の言語学的関係に依存す
る優先順位値を割り当てるための第３の手段を含み得
る。

【００３４】第３の手段は、第２の手段が、１つよりも
多い集合に同一の優先順位値を割り当てる場合にのみ、
イネーブルされ得る。

【００３５】割り当て手段は、集合の最も右側の単語が
入力テキストにおいて右側に位置するに従って増加する
優先順位値を割り当てるための第４の手段を含み得る。

【００３６】第４の手段は、第３の手段が、１つよりも
多い集合に同一の優先順位値を割り当てる場合にのみ、
イネーブルされ得る。

【００３７】割り当て手段は、デフォルトにより優先順
位値を割り当てるための第５の手段を含み得る。

【００３８】第５の手段は、第４の手段が、１つよりも
多い集合に同一の優先順位値を割り当てる場合にのみ、
イネーブルされ得る。

【００３９】割り当て手段は、各集合の確率の測定値に
基づいて、優先順位値を割り当てるように構成され得
る。

【００４０】上記装置は、単語集合のインデックスを含
む記憶装置と、選択された集合のうちの少なくとも１つ
を用いてインデックスにアクセスするための手段と含み
得る。

【００４１】本発明の第４の局面によれば、第１の自然
言語の入力テキストから、第２の自然言語への概翻訳を
行うための装置であって、本発明の第３の局面による装
置と、辞書を構成するエントリを含む記憶装置と、選択
された集合のうちの少なくとも１つを用いて、二か国語
辞書にアクセスするための手段とを含む装置が提供され
る。

【００４２】本発明の第１または第２の局面による装置
は、プログラムされたデータプロセッサを含み得る。

【００４３】本発明の第５の局面によれば、本発明の第
３または第４の局面による装置のデータプロセッサのた
めのプログラムを含む記憶媒体が提供される。

【００４４】従って、最適な連語が選択されることを可
能にする技術を提供することが可能である。正しい連語
の候補が２つ以上あり、これらの候補がすべて、同一の
単語を含む場合、この技術は、より高い信頼性で、正し
い候補が選択されることを可能にする。

【００４５】上記方法および装置は、一般に、コンピュ
ータなどのプログラムされたデータプロセッサによって
実行または実施される。上記技術は、計算が節約され、
公知の構文解析技術よりもはるかに少ない計算時間およ
び資源しか必要としない。例えば、この技術は、ｎｌｏ
ｇｎ（ｎは、以下に説明されるようなソート前の同意語
の数）のオーダの時間での最適な連語選択を可能にする
が、構文解析では、ｎ ³のオーダの時間が必要である。
連続する連語の検出には、ｎのオーダの時間が必要とさ
れるが、この検出では、同じ長さの連語を識別すること
ができず（以下に説明する）、乏しい結果しか得られな
い。

【００４６】入力デバイス２０は、テキストの部分（文
など）を形態素解析装置２１に供給する。形態素解析装
置２１からの単語または基本語形は、集合導出装置２２
に供給される。集合導出装置２２は、複数の集合を選択
し、各集合は、入力文の単語のうちの少なくとも１つを
含む。各集合の単語はすべて、入力文に存在する。連語
の候補である任意の単語が集められて集合にされる。割
り当て装置２３は、各集合に、固有の優先順位値を割り
当てる。比較器およびセレクタ２４は、集合を、優先順
位の高い順に、入力文と比較し、単語がすべて入力テキ
ストに存在し、且つ、前に選択された、より高い優先順
位の集合には単語が存在しない集合の各々を選択する。
その後、選択された集合は、記憶装置２５への入力とし
て使用され得る。記憶装置２５は、例えば、二か国語辞
書の形のエントリを含む。

【００４７】以下に、添付の図面を参照して、本発明を
例示的に説明する。

【００４８】

【発明の実施の形態】図１に示される方法は、入力テキ
ストの解析に、一文ずつ、単語および連語の翻訳の注釈
を付けることによって、第１の言語の入力テキストの、
第２の言語への概翻訳（例えば、以下に説明するよう
な、英語からオランダ語への翻訳など）を提供するグロ
シングシステムを表す。この方法は、二か国語の同意語
（例えば、別の言語の単語または連語と意味および品詞
が等しい、ある言語の単語または連語）を含む二か国語
の機械可読辞書を利用する。単語および連語の最適な
「グロス」またはグロス翻訳を見つけるためには、入力
文中の同一の単語または同一の単語群に対して競合する
同意語（即ち、文の単語のうちの１つ以上を共通に有す
る異なる連語）の間で選択を行うことが必要である。こ
の方法では、二か国語の同意語は、資源（即ち、単語を
翻訳（最良の正しい翻訳は１つしかあり得ない）の一部
分として使用する権利）に対して競合する「消費者」で
あると考えられ得る。すべての同意語が、資源をロック
するまたは請求する権利があるかどうかを決定するため
の十分な情報を有していると仮定する。競合する消費者
は、どの消費者が優先されるかを決定するために、比較
される。この技術を支持するためには、「正当化（just
ification）」、即ち、ターゲットアイテムが導出され
るソースアイテムおよび導出方法を、すべての翻訳に関
連付けることが必要である。

【００４９】図１のステップ１で、入力文のソース単語
のリストが形成され、「ＩｎｐｕｔＷｏｒｄｓ」という
名称が割り当てられる。ソース単語は、文に現れる実際
の単語であり得る。あるいは、ソース単語は、形態素解
析により文から導出される基本語形であり得る。例え
ば、各単語には、その品詞を示すためのタグが与えられ
得る。動詞の候補は、不定形に直され得、動詞の候補に
は、好適には、その時制がタグ付けされ得る。名詞は、
単数にされ得、単数または複数を示すためのタグが付け
られ得る。１つの単語が異なる品詞として存在し得る場
合、リストには、その単語が複数回出現し、各単語に
は、それぞれの可能な品詞のタグが付けられる。例え
ば、単語「ｓｔｏｐ」は、名詞または動詞であり得るた
め、例えば、「ｓｔｏｐ（ｎ）」および「ｓｔｏｐ
（ｖ）」として、「ＩｎｐｕｔＷｏｒｄｓ」に二度現れ
る。

【００５０】ステップ２で、集合「Ｃｏｎｓｕｍｅｒ
ｓ」が、うまくあてはめられた二か国語の同意語の集合
として導出される。「ＩｎｐｕｔＷｏｒｄｓ」中の単語
の各々は、二か国語の同意語（二か国語の辞書エントリ
と等価である）にアクセスするために使用され、その単
語が現れる二か国語の同意語が選択される。二か国語の
同意語が連語を含む場合、この同意語は、その連語中の
単語がすべて「ＩｎｐｕｔＷｏｒｄｓ」に存在する場合
にのみ選択される。

【００５１】ステップ３で、「Ｃｏｎｓｕｍｅｒｓ」
は、同意語の相対ランクまたは優先順位値を決定する優
先順位機能に従ってソートされる。相対ランクまたは優
先順位値を割り当てるための幾つかの技術があり、その
中には、入力テキストの言語の性質に少なくとも部分的
に依存する技術もある。以下、２つの実施例を説明す
る。

【００５２】第１の実施例では、「Ｃｏｎｓｕｍｅｒ
ｓ」に相対ランクまたは優先順位値を割り当てるため
に、幾つかの基準が使用される。これらの基準は、英語
に適用され、基準の幾つかまたはすべては、他の言語に
適用される。この基準は、「バッグ可能性（baggabilit
y）」、「コンパクト性（compactness）」、「リーディ
ングスコア（reading score）」、「最も右（rightmost
ness）」および「デフォルト性（defaultness）」であ
る。

【００５３】「バッグ可能性」とは、同意語によって消
費されるソース単語の数であり、正当化の濃度を表す。
例えば、文の一部分である「... ｍａｋｅｕｐｆｏｒｌ
ｏｓｔｔｉｍｅ ...」では、連語「ｍａｋｅｕｐｆｏｒ
（補償する）」には、連語「ｍａｋｅｕｐ（調停す
る）」という連語よりも高い相対ランクまたは優先順位
値が割り当てられる。なぜなら、前者の連語が３つのソ
ース単語を消費しているのに対し、後者の連語は２つの
ソース単語を消費しているからである。これは、より多
くの単語からなる連語が、最適または正しい連語である
可能性がより高いという、英語などの多くの言語の特徴
に基づいている。これらの具体例は、隣接する単語から
なる連語であるが、連続していない連語（即ち、連語を
形成するが、入力文の連語にはない単語によって分離さ
れている単語）にも、同じ原理が適用される。

【００５４】「コンパクト性」では、より小さいスパン
の連語、即ち、入力文において連語の最初または最も左
側の単語と、最後または最も右側の単語との間にある、
連語の単語を含む単語数がより少ない連語に、より高い
相対ランクまたは優先順位値を与える。文の一部分であ
る「... ｇｅｔｓｏｍｅｔｈｉｎｇｔｏｅａｔ ...」に
は、それぞれ２つの単語からなる２つの連語、即ち、
「ｓｏｍｅｔｈｉｎｇｔｏ」および「ｇｅｔｔｏ」があ
る。「ｓｏｍｅｔｈｉｎｇｔｏ」のスパンは２単語であ
り、「ｇｅｔｔｏ」のスパンは３単語である。「バッグ
可能性」基準では、同一の濃度（即ち、同一の単語数）
を有する連語の相対ランクまたは優先順位値を識別する
ことができないが、「コンパクト性」基準では、より小
さいスパンの連語に、より高い相対ランクまたは優先順
位値が割り当てられる。従って、「コンパクト性」の基
準では、単語同士がより近接している連語が、適切であ
る可能性がより高いという直観的原理に基づいて、連語
「ｓｏｍｅｔｈｉｎｇｔｏ」が選ばれる。一般に、「バ
ッグ可能性」基準で、すべての連語に異なる相対ランク
または優先順位値を割り与えることができなければ、即
ち、同じ単語数からなる連語が複数個あれば、「コンパ
クト性」基準が適用される。

【００５５】「リーディングスコア」基準では、例えば
予備の形態素解析によって、またはタグ付けアルゴリズ
ムもしくはルーチンなどによって確立される、より可能
性の高い品詞が好まれる。例えば、「ｗａｙ＿Ｎｔｏ」
の形の連語は２つあり、ここで、「ｔｏ」は、不定詞の
不変化詞（例えば、「ｔｈｅｗａｙｔｏｄｏｉｔ」）
か、前置詞（例えば、「ｔｈｅｗａｙｔｏＬｏｎｄｏ
ｎ」）のいずれかである。従って、このタイプの場合、
入力文の連語付近にある単語（例えば、入力文の連語の
すぐ右またはすぐ左にある単語）が、より可能性の高い
リーディングを示す。上記の例のうちの一方では、連語
「ｗａｙ＿Ｎｔｏ」は、名詞である単語「Ｌｏｎｄｏ
ｎ」の直前にある。従って、「ｔｏ」が前置詞として使
用されていることが示され、正しい連語が同定され得
る。次の単語に依存して、これらの２つのリーディング
に対する異なる確率が割り当てられ得、リーディングス
コア基準では、この情報を用いて、より可能性の高い連
語を選ぶ。

【００５６】「最も右」基準は、表現が、入力文の中
の、どれくらい右側の位置で起こるかを参照する。例え
ば、文の一部分である「... ｓｔｏｐｏｐｅｒａｔｉｎ
ｇｓｙｓｔｅｍｓｃｒａｓｈｉｎｇ...」では、「ｓｔ
ｏｐｏｐｅｒａｔｉｎｇ」および「ｏｐｅｒａｔｉｎｇ
ｓｙｓｔｅｍｓ」が連語である。これらの連語は、同一
の「バッグ可能性」および「コンパクト性」を有する
が、「ｏｐｅｒａｔｉｎｇｓｙｓｔｅｍｓ」の方がより
右側で起こる。従って、前の基準で、最適な連語に対し
て競合する候補を識別することができなければ、最も右
側の表現が選択される。この理由は、英語などのある特
定の言語が右分岐である場合が多いからである。しか
し、日本語などの、左分岐である他の言語の場合、「最
も右」基準は適用できないため、省略されてもよく、ま
たは、「最も左」の基準と置き換えられてもよい。

【００５７】「デフォルト性」は、連語がデフォルトに
よって選択されるかどうかを示す。これは、上で挙げた
５つの基準の中で、発見的で且つ意味論を含む唯一の基
準である。他の事項はすべて等しく、最も一般的な連語
が、デフォルトにより適合するべきである。

【００５８】第２の実施例では、連語である同意語へ
の、相対ランクまたは優先順位値の割り当ては、各連語
が当てはまる確率の単一の統一測定値（unified measur
e）に基づいて行われる。これは、ソース言語の大量の
テキストの事前の解析に基づいて確率を確立するという
点で、以前の５つの基準とは異なる。そのようなデータ
は、ルックアップテーブルとして格納され得、このルッ
クアップテーブルは、ステップ３で、連語の各単語でイ
ンデックス付け（indexing）を行うことによって参照さ
れる。

【００５９】英語の動詞句「ｍａｋｅｕｐ」などの、
２単語からなる連語の場合、これら２つの単語がこの順
で文に現れるすべての例が集められる。それぞれの出現
は、この連語の肯定的または否定的な例であるかについ
て分類され（任意の意味において）、この分類から、こ
の連語のエレメントを分離する単語の数に対する頻度分
布

【数１】がプロットされ得る。これは、

【数２】として表現され得る。文の２つのエレメントに確率分布
ｔ_makeおよびｔ_upが割り当てられていれば、左側が、
「ｍａｋｅ..._nｕｐ」（単語「ｍａｋｅ」および「ｕ
ｐ」が、ｎ個の単語によって分離される）の形の連語と
一致する確率は、ｔ_ma _ke（ｖ）．ｔ_up（ＡＰＡＲＴ）．
ｆ_makeup（ｎ）となる。

【００６０】即ち、この確率は、「ｍａｋｅ」が動詞で
ある確率、「ｕｐ」が副詞的小詞である確率、ならび
に、「ｍａｋｅ」および「ｕｐ」がこの分離で連語にさ
れる確率、という３つの確率の積である。

【００６１】上述の第１の実施例の５つの基準の場合、
同意語の優先順位値は、常に固有である。即ち、２つの
同意語は、同じ優先順位値を有し得ず、相対ランクは、
相対優先順位値と等価である。確率測定値に基づく第２
の実施例の場合、２つ（またはそれ以上）の同意語が、
同じ確率、従って、同じ優先順位値を有することが可能
である。その後の方法ステップが、同意語のあいまいで
ない（unambiguous）「順序付け」に依存するため、同
じ優先順位値を有する同意語は、あいまいでないランク
付けを与えるように識別されなければならない。これ
は、そのような同意語に、異なる相対ランクであるが隣
接する相対ランクを任意に与える（ascribe）ことによ
って達成され得る。

【００６２】ステップ４では、ステップ３でソートされ
た「Ｃｏｎｓｕｍｅｒｓ」のリストがコピーされ、そし
て、「ＲａｎｋｅｄＣｏｎｓｕｍｅｒｓ」としてタイト
ルが付けられる。ステップ５で、「ＲａｎｋｅｄＣｏｎ
ｓｕｍｅｒｓ」の中、または「ＲａｎｋｅｄＣｏｎｓｕ
ｍｅｒｓ」内の左側に、同意語があるかどうかを検査す
る。同意語があれば、ステップ６で、「ＲａｎｋｅｄＣ
ｏｎｓｕｍｅｒｓ」の中の、最上位にランク付けされ
た、または最も優先順位の高い、二か国語の同意語を、
「ＴｏｐＥｑｕｉｖａｌｅｎｃｅ」に割り当てる。ステ
ップ７で、「ＴｏｐＥｑｕｉｖａｌｅｎｃｅ」が消費す
る、「ＩｎｐｕｔＷｏｒｄｓ」のソース単語のすべて
が、利用可能であるかどうかを検査する。即ち、ステッ
プ７では、「ＴｏｐＥｑｕｉｖａｌｅｎｃｅ」のすべて
のソース単語がまだ使用または消費されていないかどう
かを検査する。使用または消費されていなければ、ステ
ップ８で、「ＴｏｐＥｑｕｉｖａｌｅｎｃｅ」が消費す
る、「ＩｎｐｕｔＷｏｒｄｓ」のソース単語のすべて
が、「使用済み（used）」としてマークされ、ステップ
９で、「ＴｏｐＥｑｕｉｖａｌｅｎｃｅ」に、「Ｔｏｐ
Ｅｑｕｉｖａｌｅｎｃｅ」が消費するソース単語の「最
良の翻訳（best translation）」がマークされる。その
後、ステップ１０は、ステップ９の後（または、ステッ
プ７の検査結果がノーである場合はステップ７の後）の
「ＲａｎｋｅｄＣｏｎｓｕｍｅｒｓ」リストから、「Ｔ
ｏｐＥｑｕｉｖａｌｅｎｃｅ」を除去する。その後、制
御はステップ５に戻り、これは、「ＲａｎｋｅｄＣｏｎ
ｓｕｍｅｒｓ」内の左側に同意語が無くなるまで繰り返
される。

【００６３】ステップ１１は、ステップ４と同じであ
り、ソートされた「Ｃｏｎｓｕｍｅｒｓ」のリストを、
「ＲａｎｋｅｄＣｏｎｓｕｍｅｒｓ」としてコピーす
る。ステップ１２で、「ＲｅｓｕｌｔｉｎｇＧｌｏｓ
ｓ」をリセットして空のリストにし、ステップ１３で、
「ＲａｎｋｅｄＣｏｎｓｕｍｅｒｓ」の中、または「Ｒ
ａｎｋｅｄＣｏｎｓｕｍｅｒｓ」内の左側に、同意語が
あるかどうかを判定する。同意語があれば、ステップ１
４で、「ＴｏｐＥｑｕｉｖａｌｅｎｃｅ」を、「Ｒａｎ
ｋｅｄＣｏｎｓｕｍｅｒｓ」の中の、最上位にランク付
けされた、または最も優先順位が高い、二か国語の同意
語にセットする。ステップ１５で、「ＴｏｐＥｑｕｉｖ
ａｌｅｎｃｅ」に、「ＴｏｐＥｑｕｉｖａｌｅｎｃｅ」
が消費するソース単語の「最良の翻訳」がマークされて
いるかどうかを検査する。マークされていれば、ステッ
プ１６で、「ＲｅｓｕｌｔｉｎｇＧｌｏｓｓ」リスト
に、「ＴｏｐＥｑｕｉｖａｌｅｎｃｅ」を付加する。ス
テップ１７で、「ＲａｎｋｅｄＣｏｎｓｕｍｅｒｓ」リ
ストから「ＴｏｐＥｑｕｉｖａｌｅｎｃｅ」を除去す
る。ステップ１７は、ステップ１６の後に続くステップ
であり、ステップ１５の検査結果がノーの場合は、ステ
ップ１５の後に続くステップである。ステップ１３〜１
７は、「ＲａｎｋｅｄＣｏｎｓｕｍｅｒｓ」内の左側に
同意語が無くなるまで、繰り返される。その後、ステッ
プ１８で、「ＲｅｓｕｌｔｉｎｇＧｌｏｓｓ」リスト
を、入力文の二か国語の同意語またはグロス翻訳として
戻す。

【００６４】例えば計算時間または計算要件などに関す
る、この技術の複雑さは、以下のように評価され得る。
二か国語の同意語の各々は、最も頻度の低い単語をキー
として選ぶことによってインデックス付けされる。入力
文のすべての単語によってインデックス付けされたすべ
ての二か国語の同意語が、取り出される。それぞれの取
り出し動作または取り出しステップには、実質的に同じ
時間がかかると仮定され得る。同意語がｎ個ある場合、
単純な規則では、それらの同意語のあてはめは、ｎのオ
ーダである（同意語のあてはめは、文の長さまたは同意
語の数によって変動しないため、そのコストは一定であ
るとみなされる）。図１に示される技術は、基本的にソ
ーティング技術であり、全体的な複雑さは、（ｎｌｏｇ
ｎ）のオーダである。

【００６５】この技術では、グロシングが「貪欲なタイ
リング（greedy tiling）」を行うように構成されなけ
れば、入力文を完全にタイリングすることが保証されな
い。貪欲なまたは完全なタイリングが望まれる場合、扱
いやすい解決策は、すべての単語が、単一の単語キーと
ともに少なくとも１つの二か国語の同意語を有すること
を保証することである。グロシングの場合、これは必要
でなく、また、望ましくもない場合がある。なぜなら、
すべての単語の翻訳を有することが常に有用であるとは
限らないからである。さらに、すべての二か国語の同意
語が、単に存在するだけではなく、正しいものであるこ
と、および、キーの集合が完全であることを保証するこ
とができなければ、タイリングが何らかの意味をなすこ
とを保証することはできない。文の完全なテセレーショ
ン（tessellation）を卓越したものにすることにより、
翻訳の質および効率がより悪くなるのであれば、この整
合性は無意味である。

【００６６】以下の実施例は、図１に示される方法によ
る、英語の文からオランダ語のグロス翻訳の生成を説明
する。例示のために、以下の英語の文が、システムへの
入力として使用される。

【００６７】

【表１】

【００６８】予備ステップとして、上記の文に対し、予
備タグ付けおよび形態素解析を行い、文中のすべての単
語について、単語に当てはまり得る形態素リーディング
のリストを生成する。例えば、これは、ＧＢ２３１４１
８３およびＥＰ０８１３１６０に開示される技術によっ
て行われ得る。その後、リストの要素が、二か国語の同
意語にあてはめられる。即ち、可能な単語および連語の
各々により、英語−オランダ語の二か国語辞書の英語側
にアクセスされる。これは、図１のステップ２に対応す
る。アクセスに成功した同意語は、以下のように列挙さ
れる。

【００６９】

【表２】

【００７０】これらの同意語は、上で説明した５つの基
準を用いて順序付けされる。例えば、「バッグ可能性」
は、「ｐａｓｓ」よりも、「ｐａｓｓ＜４＞ｏｕｔ」を
好む。なぜなら、後者が、前者よりも多くの単語を消費
するからである。「ｐａｓｓ＜４＞ｏｕｔ」という表記
は、入力文において、単語「ｏｕｔ」が、４個以下の単
語分だけ、単語「ｐａｓｓ」よりも右側にある場合にの
み、「ｐａｓｓ」および「ｏｕｔ」が連語であるとみな
され得ることを意味する。

【００７１】「バッグ可能性」が同じである連語の場
合、「コンパクト性」基準が適用され、連語「ｐａｓｓ
＜４＞ｔｈｒｏｕｇｈ」よりも「ｐａｓｓ＜４＞ｏｕ
ｔ」が好まれる。なぜなら、後者のスパン（２）が、前
者のスパン（６）よりも小さいからである。

【００７２】「バッグ可能性」および「コンパクト性」
の基準では「ｏｕｔ＜１＞ｏｆ」および「ｐａｓｓ＜４
＞ｏｕｔ」などの２つの連語のランクまたは優先順位値
を分離することができない場合、「最も右」基準が適用
される。入力文において「ｏｕｔ＜１＞ｏｆ」が「ｐａ
ｓｓ＜４＞ｏｕｔ」の右にあるため、前者の連語に、よ
り高いランクまたは優先順位値が与えられる。

【００７３】２つの同意語が、以前の基準のすべてに基
づいて同じランクまたは優先順位値を有する場合、デフ
ォルト翻訳（フラグ「！」で示される）が好まれる。こ
の入力文についての同意語リストでは、同意語「ａ⇔ｅ
ｅｎ」よりも「ａ⇔＜ゼロ翻訳＞」が好まれる。

【００７４】これらの基準を用いて、同意語は、ランク
または優先順位値の順に、以下のようにソートされる
（これは、図１のステップ３に対応する）。

【００７５】

【表３】

【００７６】その後、これらの同意語が、ランクまたは
優先順位値の大きい順に、入力文にあてはめられ（図
１、ステップ６）、グロス翻訳が生成される。上で説明
したように、入力文のソース単語は、同意語をあてはめ
ることによって消費される資源とみなされ得る。この消
費の結果、ソース単語に、目標言語翻訳が添付される。

【００７７】従って、以下のように、第１の同意語「ｏ
ｕｔ＜１＞ｏｆ」が最初にあてはめられ、ソース単語
「ｏｕｔ」および「ｏｆ」を消費し（消費された単語
は、太字の活字で示される）、その一方で、オランダ語
翻訳が添付される。

【００７８】

【表４】

【００７９】次のステップで、同意語「ｐａｓｓ＜４＞
ｏｕｔ」があてはめられるが、拒絶される。これは、ソ
ース単語「ｏｕｔ」が、既に消費されているからであ
る。同意語「ｐａｓｓ＜４＞ｔｈｒｏｕｇｈ」が、うま
くあてはめられ、以下のようになる。

【００８０】

【表５】

【００８１】これらのステップはそれぞれ、図１のステ
ップ５〜１７に対応する。このプロセスは、すべての同
意語があてはめられ、且つ、すべてのソース単語が消費
されるまで続く。その結果、以下のような文全体のグロ
ス翻訳が得られる。

【００８２】

【表６】

【００８３】図２は、図１に示されるタイプの方法を行
うために適した装置を示す。装置は、任意の適切なタイ
プの専用ハードウェアとして実施され得るが、通常は、
プログラムされたデータプロセッサまたはコンピュータ
として実施される。

【００８４】装置は、処理される入力テキストを受け取
り、装置の残りに、テキストのサンプル（文など）を、
処理のために一度に１つずつ供給するための入力デバイ
ス２０を含む。形態素解析装置２１は、文の形態素解析
を行い、集合導出装置２２は、例えば基本語形などの形
の単語の集合を導出する。ここで、各集合は、１つ以上
の単語を含む。その後、割り当て装置２３が、集合導出
装置２２によって導出された集合の各々に、相対ランク
または優先順位値を割り当てる。

【００８５】割り当て装置２３は、第１から第５の割り
当て装置２３ａ〜２３ｅを含み、これらの割り当て装置
２３ａ〜２３ｅのそれぞれの出力は、比較器およびセレ
クタ２４に接続される。例えば、第１の割り当て装置２
３ａは、「バッグ可能性」基準を適用し、固有の優先順
位値を有する集合を、比較器およびセレクタ２４に供給
する。この基準により識別できない集合は、第２の割り
当て装置２３ｂに供給される。第２の割り当て装置２３
ｂは、「コンパクト性」基準を適用する。この基準によ
り優先順位値が識別できる集合は、比較器およびセレク
タ２４に供給され、優先順位値がこの基準でもまだ分離
できない集合は、第３の割り当て装置２３ｃに供給され
る。第３の割り当て装置２３ｃは、「リーディングスコ
ア」基準を適用して、これらの集合の優先順位値を分離
し、比較器およびセレクタ２４に供給する。同様に、第
４および第５の割り当て装置２３ｄおよび２３ｅはそれ
ぞれ、上流の割り当て装置で優先順位値が分離できなか
った集合に、「最も右」基準および「デフォルト性」基
準を適用する。あるいは、割り当て装置２３は、上で説
明したように、確率測定値に基づいて相対ランクを決定
するように構成され得る。

【００８６】比較器およびセレクタ２４は、各集合を、
優先順位値の高い順に、入力テキストと比較し、単語が
すべて入力テキスト内に存在する集合であって、以前に
選択された、より高い優先順位値の集合には単語が存在
しない集合の各々を選択する。比較器およびセレクタ２
４が集合を選択し終わると、これらの集合は、二か国語
の同意語の記憶装置２５に含まれるルックアップテーブ
ルへの入力として与えられる。結果として得られた翻訳
は、対応する単語集合の注釈が入力文に付けられたまた
は付けられていない状態で、視覚的なディスプレイユニ
ット、プリンタ、またはメモリなどの出力デバイス２６
に供給される。

【００８７】図３は、図２に示される装置を実施するた
め、および、図１に示される方法を行うために適したプ
ログラマブルシステムを示す。システムは、プログラム
メモリ３１とともにプログラマブルデータプロセッサ３
０を含む。プログラムメモリ３１は、例えばリードオン
リメモリ（ＲＯＭ）などの形であり、データプロセッサ
３０を制御して例えば図１に示される方法などを行うた
めのプログラムを格納する。システムは、例えば、電源
がない状態で保持されなければならない任意のデータな
どを格納するための不揮発性読み出し／書き込みメモリ
３２をさらに含む。ランダムアクセスメモリ（ＲＡＭ）
３３によって、データプロセッサのための「ワーキン
グ」または「スクラッチパッド」メモリが与えられる。
例えばコマンドおよびデータを受け取るなどのための入
力インタフェース３４が設けられる。例えば方法の進捗
状況および結果に関する情報を表示するための出力イン
タフェース３５が設けられる。

【００８８】テキストサンプルは、入力インタフェース
３４を介して供給され得るか、または、機械可読記憶装
置３６によって選択的に提供され得る。類語辞典３７お
よび／または辞書３８は、データプロセッサ３０によっ
てアクセスされ得る。例えば、図１に示されるグロシン
グ翻訳方法を行うために、辞書３８は、二か国語辞書を
含み得る。

【００８９】上で説明したシステムを動作させるため、
および方法を行うためのプログラムは、プログラムメモ
リ３１に格納される。プログラムメモリ３１は、例えば
上で説明したＲＯＭタイプの半導体メモリとして実施さ
れ得る。しかし、プログラムは、フロッピーディスク３
１ａまたはＣＤ−ＲＯＭ３１ｂなどの他の任意の適切な
記憶媒体に格納され得る。

【００９０】以上、グロシング翻訳を行うための方法お
よび装置を説明したが、これらの技術は、他のアプリケ
ーションに使用され得る。例えば、これらの技術は、単
語を用いてインデックス付けを行う、または、大まかな
構文解析を必要とする任意のシステムにおいて、使用さ
れ得る。例えば、これらの技術は、情報取り出しシステ
ムにおいて連語を用いてインデックス付けおよび問い合
わせを行うために使用され得る。また、そのような技術
は、辞書ベースのシステムにおいて使用され得る。

【００９１】

【発明の効果】本発明により、２つ以上の可能な連語が
１つ以上の単語を共通に有する場合に、どれが最適な連
語であるかを同定することができる。辞書のようなイン
デックスにアクセスするために、連語を使用する必要が
ある場合には、正しい連語を、高い信頼性で選択するこ
とが可能となる。

【図面の簡単な説明】

【図１】本発明の第１の実施形態を構成する、入力テキ
ストの処理方法を説明するフロー図である。

【図２】本発明の第２の実施形態を構成する装置の概略
ブロック図である。

【図３】本発明の第３の実施形態を構成する、プログラ
マブルデータプロセッサベースの装置の概略ブロック図
である。

【符号の説明】

２０入力装置２１形態素解析装置２２集合導出装置２３割り当て装置２３ａ第１の割り当て装置２３ｂ第２の割り当て装置２３ｃ第３の割り当て装置２３ｄ第４の割り当て装置２３ｅ第５の割り当て装置２４比較器およびセレクタ２５格納装置（ルックアップテーブル）２６出力デバイス

───────────────────────────────────────────────────── フロントページの続き (72)発明者ピータージョンホワイトロックイギリス国オーエックス２９エイゼットオックスフォード，ボトレイ，ラレイパークロード 25

Claims

【特許請求の範囲】

【請求項１】複数の単語を含む入力テキストを処理す
る方法であって、入力テキストから、複数の集合を導出するステップであ
って、各集合が、該入力テキストの単語のうちの少なく
とも１つを含み、各集合の単語がすべて、入力テキスト
内に存在し、１つよりも多い単語を含む集合があれば、
その各々の集合の単語が連語を構成するステップと、各集合に、固有の相対ランクを割り当てるステップと、各集合を、相対ランクの高い順に、該入力テキストと比
較するステップと、単語がすべて入力テキスト内に存在し、且つ、以前に選
択された、より高い相対ランクの集合には、単語が存在
しない集合の各々を選択するステップとを包含する、方
法。
【請求項２】前記入力テキストの前記単語の各々が、
前記集合のうちの少なくとも１つに存在する、請求項１
に記載の方法。
【請求項３】前記入力テキストの前記単語がすべて、
前記選択された集合の和集合に存在する、請求項１に記
載の方法。
【請求項４】前記入力テキストが、文法的に完全な、
テキストのサンプルを含む、請求項１に記載の方法。
【請求項５】前記単語が、予備ステップの言語解析に
より、もとのテキストから導出された基本語形を含む、
請求項１に記載の方法。
【請求項６】前記割り当てステップが、集合の単語数
が増加するに従って増加する優先順位値を割り当てる第
１のステップを包含する、請求項１に記載の方法。
【請求項７】前記割り当てステップが、前記入力テキ
スト中の集合の単語のスパンが増加するに従って減少す
る優先順位値を割り当てる第２のステップを包含する、
請求項１に記載の方法。
【請求項８】前記割り当てステップが、前記入力テキ
スト中の集合の単語のスパンが増加するに従って減少す
る優先順位値を割り当てる第２のステップを包含し、該
第２のステップが、前記第１のステップの結果、１つよ
りも多い集合が同一の優先順位値を有する場合にのみ行
われる、請求項６に記載の方法。
【請求項９】前記割り当てステップが、集合の少なく
とも１つの単語と、その集合には存在しない、入力テキ
スト中にある少なくとも１つの単語との間の言語学的関
係に依存する優先順位値を割り当てる第３のステップを
包含する、請求項１に記載の方法。
【請求項１０】前記割り当てステップが、集合の少な
くとも１つの単語と、その集合には存在しない、入力テ
キスト中にある少なくとも１つの単語との間の言語学的
関係に依存する優先順位値を割り当てる第３のステップ
を包含し、該第３のステップが、前記第２のステップの
結果、１つよりも多い集合が同一の優先順位値を有する
場合にのみ行われる、請求項７に記載の方法。
【請求項１１】前記割り当てステップが、集合の最も
右側の単語が入力テキストにおいて右側に位置するに従
って増加する優先順位値を割り当てる第４のステップを
包含する、請求項１に記載の方法。
【請求項１２】前記割り当てステップが、集合の最も
右側の単語が入力テキストにおいて右側に位置するに従
って増加する優先順位値を割り当てる第４のステップを
包含し、該第４のステップが、前記第３のステップの結
果、１つよりも多い集合が同一の優先順位値を有する場
合にのみ行われる、請求項９に記載の方法。
【請求項１３】前記割り当てステップが、デフォルト
により優先順位値を割り当てる第５のステップを包含す
る、請求項１に記載の方法。
【請求項１４】前記割り当てステップが、デフォルト
により優先順位値を割り当てる第５のステップを包含
し、該第５のステップが、前記第４のステップの結果、
１つよりも多い集合が同一の優先順位値を有する場合に
のみ行われる、請求項１１に記載の方法。
【請求項１５】前記割り当てステップが、各集合の確
率の測定値に基づいて、優先順位値を割り当てるステッ
プを包含する、請求項１に記載の方法。
【請求項１６】前記選択された集合のうちの少なくと
も１つを用いて、単語集合のインデックスにアクセスす
るステップをさらに包含する、請求項１に記載の方法。
【請求項１７】第１の自然言語の入力テキストの、第
２の自然言語への概翻訳を行う方法であって、請求項１６に記載の方法を行うステップであって、前記
インデックスが辞書である、ステップと、前記選択された集合に対応する、第２の言語の辞書エン
トリを出力するステップとを包含する、方法。
【請求項１８】複数の単語を含む入力テキストを処理
するための装置であって、該入力テキストから、複数の集合を導出するための手段
を含み、各集合が、該入力テキストの該単語のうちの少
なくとも１つを含み、各集合の単語がすべて、該入力テ
キスト内に存在し、１つよりも多い単語を含む集合があ
れば、その各々の集合の単語が連語を構成し、各集合に、固有の相対ランクを割り当てるための手段
と、各集合を、相対ランクの高い順に、該入力テキストと比
較するための手段と、単語がすべて該入力テキスト内に存在し、且つ、以前に
選択された、より高い相対ランクの集合には、単語が存
在しない集合の各々を選択するための手段とをさらに含
む、装置。
【請求項１９】前記導出手段が、前記入力テキストの
前記単語の各々が、前記集合のうちの少なくとも１つに
存在するように構成される、請求項１８に記載の装置。
【請求項２０】前記選択手段が、前記入力テキストの
前記単語がすべて、前記選択された集合の和集合に存在
するように構成される、請求項１８に記載の装置。
【請求項２１】前記入力テキストが、文法的に完全
な、テキストのサンプルを含む、請求項１８に記載の装
置。
【請求項２２】前記単語が、基本語形を含み、前記装
置が、もとのテキストを解析して、該基本語形を与える
ための言語解析装置を含む、請求項１８に記載の装置。
【請求項２３】前記割り当て手段が、集合の単語数が
増加するに従って増加する優先順位値を割り当てるため
の第１の手段を含む、請求項１８に記載の装置。
【請求項２４】前記割り当て手段が、前記入力テキス
ト中の集合の単語のスパンが増加するに従って減少する
優先順位値を割り当てるための第２の手段を含む、請求
項１８に記載の装置。
【請求項２５】前記割り当て手段が、前記入力テキス
ト中の集合の単語のスパンが増加するに従って減少する
優先順位値を割り当てるための第２の手段を含み、該第
２の手段は、前記第１の手段が、１つよりも多い集合に
同一の優先順位値割り当てる場合にのみ、イネーブルさ
れる、請求項２３に記載の装置。
【請求項２６】前記割り当て手段が、集合の少なくと
も１つの単語と、その集合には存在しない、前記入力テ
キスト中にある少なくとも１つの単語との間の言語学的
関係に依存する優先順位値を割り当てるための第３の手
段を含む、請求項１８に記載の装置。
【請求項２７】前記割り当て手段が、集合の少なくと
も１つの単語と、その集合には存在しない、前記入力テ
キスト中にある少なくとも１つの単語との間の言語学的
関係に依存する優先順位値を割り当てるための第３の手
段を含み、該第３の手段は、前記第２の手段が、１つよ
りも多い集合に同一の優先順位値を割り当てる場合にの
み、イネーブルされる、請求項２４に記載の装置。
【請求項２８】前記割り当て手段が、集合の最も右側
の単語が前記入力テキストにおいて右側に位置するに従
って増加する優先順位値を割り当てるための第４の手段
を含む、請求項１８に記載の装置。
【請求項２９】前記割り当て手段が、集合の最も右側
の単語が前記入力テキストにおいて右側に位置するに従
って増加する優先順位値を割り当てるための第４の手段
を含み、該第４の手段は、前記第３の手段が、１つより
も多い集合に同一の優先順位値を割り当てる場合にの
み、イネーブルされる、請求項２６に記載の装置。
【請求項３０】前記割り当て手段が、デフォルトによ
り優先順位値を割り当てるための第５の手段を含む、請
求項１８に記載の装置。
【請求項３１】前記割り当て手段が、デフォルトによ
り優先順位値を割り当てるための第５の手段を含み、該
第５の手段は、前記第４の手段が、１つよりも多い集合
に同一の優先順位値を割り当てる場合にのみ、イネーブ
ルされる、請求項２８に記載の装置。
【請求項３２】前記割り当て手段が、各集合の確率の
測定値に基づいて、優先順位値を割り当てるように構成
される、請求項１８に記載の装置。
【請求項３３】単語集合のインデックスを含む記憶装
置と、前記選択された集合のうちの少なくとも１つを用
いて該インデックスにアクセスするための手段とをさら
に含む、請求項１８に記載の装置。
【請求項３４】第１の自然言語の入力テキストから、
第２の自然言語への概翻訳を行うための装置であって、
請求項３３に記載の装置を含み、前記記憶装置が、辞書
を構成するエントリを含む、装置。
【請求項３５】プログラムされたデータプロセッサを
さらに含む、請求項１８に記載の装置。
【請求項３６】請求項３５に記載の装置のデータプロ
セッサのためのプログラムを含む、記憶媒体。