JPH11272668A - 入力テキスト処理方法およびその装置、概翻訳を行う方法およびその装置、ならびに記憶媒体 - Google Patents

入力テキスト処理方法およびその装置、概翻訳を行う方法およびその装置、ならびに記憶媒体

Info

Publication number
JPH11272668A
JPH11272668A JP11019164A JP1916499A JPH11272668A JP H11272668 A JPH11272668 A JP H11272668A JP 11019164 A JP11019164 A JP 11019164A JP 1916499 A JP1916499 A JP 1916499A JP H11272668 A JPH11272668 A JP H11272668A
Authority
JP
Japan
Prior art keywords
assigning
words
input text
priority value
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11019164A
Other languages
English (en)
Inventor
Victor Poznanski
ポズナンスキー ビクター
Jan Jaap Ijdens
ヤープ アイデンス ヤン
Peter John Whitelock
ジョン ホワイトロック ピーター
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Publication of JPH11272668A publication Critical patent/JPH11272668A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 グロシング翻訳を行うための方法および装置
を提供する。 【解決手段】 複数の単語を含む入力テキストを処理す
る方法が提供される。上記方法は、入力テキストから、
複数の集合を導出するステップであって、各集合が、入
力テキストの単語のうちの少なくとも1つを含み、各集
合の単語がすべて、入力テキスト内に存在し、1つより
も多い単語を含む集合があれば、その各々の集合の単語
が連語を構成するステップと、各集合に、固有の相対ラ
ンクを割り当てるステップと、各集合を、相対ランクの
高い順に、入力テキストと比較するステップと、単語が
すべて入力テキスト内に存在し、且つ、以前に選択され
た、より高い相対ランクの集合には、単語が存在しない
集合の各々を選択するステップとを包含する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力テキストを処
理する方法およびその装置に関する。本発明はまた、概
翻訳(approximate translation)を行う方法およびそ
の装置に関する。本発明はさらに、記憶媒体に関する。
そのような方法および装置は、自然言語処理、文書処理
およびテキスト処理において使用され得る。例えば、そ
のような方法および装置は、入力テキスト中の、単語ま
たは単語群から、異なる自然言語の対応する単語もしく
は記号、または単語群もしくは記号群への翻訳を提供す
るグロシング(glossing)システムとして使用され得
る。
【0002】
【従来の技術】自然言語のテキストは、通常、単語また
は記号を含み、これらの単語または記号は、互いに関連
して、単語または記号の個々の意味とは異なる意味を持
つ。そのような群は、「連語」と呼ばれ、例えば辞書
(一か国語、二か国語、または多国語)、類語辞典、ま
たは百科事典のインデックスにアクセスするために、テ
キストを正しく処理したい場合には、連語として同定さ
れなければならない。
【0003】入力テキストを構文解析によって解析する
ための公知のシステム、即ち、文を解析して単語間の関
係を決定するための公知のシステムがある。構文解析の
使用は、文に、連語のラベルを最適に付ける際に効果的
である。しかし、この技術は、一般に、必要以上の処理
を含み、計算が複雑である。この技術はまた、この技術
を実行するために、莫大な量の知識(例えば、関連する
単語が互いに及ぼす文法規則および意味論的制約)を必
要とする。
【0004】別の公知の技術は、連続する最大の連語を
見つける。このコンテクストでの「連続する」とは、入
力テキストにおいて、連語中の単語が互いに隣接するこ
とを意味する。しかし、そのような技術は、同じ長さの
連語を識別することができない。例えば、「Airpa
ssesoutofthefurnacethroug
hapipe」という文には、それぞれが2つの単語か
らなる2つの連語、即ち、「passesout」およ
び「outof」がある。この技術では、これらの連語
のうちのいずれが選択されるべきであるかを決定するこ
とができない。
【0005】連続していない連語を見つけるための公知
の技術は、EP0637805に開示されている。この
技術では、品詞タガー(tagger)を用いて、入力テキス
トから最良の連語を選択しようと試みる。そのような技
術は、「thebusstopsatGrenobl
e」という文において、「stops」が名詞である
「busstops」と、「stops」が動詞である
「stopsat」とを識別する助けとなる。しかし、
この技術では、これらの可能な連語のうちのどれが最適
であるかを示すことができない。さらに、この技術は、
文について、連語の一貫したラベル付けを見つけるため
の手段を提供しない。
【0006】
【発明が解決しようとする課題】これらの技術は、入力
テキストから、同一の単語を共有しない連語を、矛盾す
ることなく決定することができるが、2つ以上の可能な
連語が1つ以上の単語を共通に有する場合に、どれが最
適な連語であるかを同定することができない。上記の例
が示すように、例えば辞書のようなインデックスにアク
セスするために、連語を使用する必要がある場合には、
正しい連語を、高い信頼性で選択することが不可欠であ
る。
【0007】
【課題を解決するための手段】本発明の第1の局面によ
れば、複数の単語を含む入力テキストを処理する方法で
あって、入力テキストから、複数の集合を導出するステ
ップであって、各集合が、入力テキストの単語のうちの
少なくとも1つを含み、各集合の単語がすべて、入力テ
キスト内に存在し、1つよりも多い単語を含む集合があ
れば、その各々の集合の単語が連語を構成するステップ
と、各集合に、固有の相対ランクを割り当てるステップ
と、各集合を、相対ランクの高い順に、入力テキストと
比較するステップと、単語がすべて入力テキスト内に存
在し、且つ、以前に選択された、より高い相対ランクの
集合には、単語が存在しない集合の各々を選択するステ
ップとを包含する方法が提供される。
【0008】入力テキストの単語の各々は、集合のうち
の少なくとも1つに存在し得る。
【0009】入力テキストの単語はすべて、選択された
集合の和集合に存在し得る。「和集合」という用語は、
従来の数学的な意味で使用されており、選択された集合
の単語をすべて含む集合を意味する。
【0010】入力テキストは、文法的に完全な、テキス
トのサンプルを含み得る。
【0011】単語は、予備ステップの言語(例えば、形
態素)解析により、もとのテキストから導出された、基
本語形を含み得る。
【0012】割り当てステップは、集合の単語数が増加
するに従って増加する優先順位値を割り当てる第1のス
テップを包含し得る。
【0013】割り当てステップは、入力テキスト中の集
合の単語のスパンが増加するに従って減少する優先順位
値を割り当てる第2のステップを包含し得る。「スパ
ン」という用語は、集合のうちで、入力テキストにおい
て最初に起こる単語と、入力テキストにおいて最後に起
こる単語との間(これらの2つの単語を含む)の単語数
を意味する。
【0014】第2のステップは、第1のステップの結
果、1つよりも多い集合が同一の優先順位値を有する場
合にのみ、行われ得る。
【0015】割り当てステップは、集合の少なくとも1
つの単語と、その集合には存在しない、入力テキスト中
にある少なくとも1つの単語との間の言語学的関係に依
存する優先順位値を割り当てる第3のステップを包含し
得る。
【0016】第3のステップは、第2のステップの結
果、1つよりも多い集合が同一の優先順位値を有する場
合にのみ、行われ得る。
【0017】割り当てステップは、集合の最も右側の単
語が入力テキストにおいて右側に位置するに従って増加
する優先順位値を割り当てる第4のステップを包含し得
る。これは、右分岐(right-branching)である場合が
多い、英語などの言語において適切である。
【0018】第4のステップは、第3のステップの結
果、1つよりも多い集合が同一の優先順位値を有する場
合にのみ、行われ得る。
【0019】割り当てステップは、デフォルトにより優
先順位値を割り当てる第5のステップを包含し得る。
【0020】第5のステップは、第4のステップの結
果、1つよりも多い集合が同一の優先順位値を有する場
合にのみ、行われ得る。
【0021】割り当てステップは、各集合の確率の測定
値に基づいて、優先順位値を割り当てるステップを包含
し得る。
【0022】上記方法は、選択された集合のうちの少な
くとも1つを用いて、単語集合のインデックスにアクセ
スするステップを包含し得る。
【0023】本発明の第2の局面によれば、第1の自然
言語の入力テキストの、第2の自然言語への概翻訳を行
う方法であって、本発明の第1の局面による方法を行う
ステップであって、インデックスが二か国語辞書などの
辞書である、ステップと、選択された集合に対応する、
第2の言語の辞書エントリを出力するステップとを包含
する方法が提供される。
【0024】第1および第2の言語は、同一の言語であ
ってもよいが、通常は、異なる言語である。
【0025】本発明の第3の局面によれば、複数の単語
を含む入力テキストを処理するための装置であって、入
力テキストから、複数の集合を導出するための手段を含
み、各集合が、入力テキストの単語のうちの少なくとも
1つを含み、各集合の単語がすべて入力テキスト内に存
在し、1つよりも多い単語を含む集合があれば、その各
々の集合の単語が連語を構成し、各集合に、固有の相対
ランクを割り当てるための手段と、各集合を、相対ラン
クの高い順に、入力テキストと比較するための手段と、
単語がすべて入力テキスト内に存在し、且つ、以前に選
択された、より高い相対ランクの集合には、単語が存在
しない、集合の各々を選択するための手段とをさらに含
む装置が提供される。
【0026】導出手段は、入力テキストの単語の各々
が、集合のうちの少なくとも1つに存在するように構成
され得る。
【0027】選択手段は、入力テキストの単語がすべ
て、選択された集合の和集合に存在するように構成され
得る。
【0028】入力テキストは、文法的に完全な、テキス
トのサンプルであって、ピリオド、セミコロン、または
コロンなどの句読点によって範囲が定められるサンプル
を含み得る。そのようなサンプルの例は、句、節、およ
び文である。
【0029】単語は、基本語形を含み得、装置は、もと
のテキストを解析して、基本語形を与えるための言語解
析装置を含み得る。
【0030】割り当て手段は、集合の単語数が増加する
に従って増加する優先順位値を割り当てるための第1の
手段を含み得る。
【0031】割り当て手段は、入力テキスト中の集合の
単語のスパンが増加するに従って減少する優先順位値を
割り当てるための第2の手段を含み得る。
【0032】第2の手段は、第1の手段が、1つよりも
多い集合に同一の優先順位値割り当てる場合にのみ、イ
ネーブルされ得る。
【0033】割り当て手段は、集合の少なくとも1つの
単語と、その集合には存在しない、入力テキスト中にあ
る少なくとも1つの単語との間の言語学的関係に依存す
る優先順位値を割り当てるための第3の手段を含み得
る。
【0034】第3の手段は、第2の手段が、1つよりも
多い集合に同一の優先順位値を割り当てる場合にのみ、
イネーブルされ得る。
【0035】割り当て手段は、集合の最も右側の単語が
入力テキストにおいて右側に位置するに従って増加する
優先順位値を割り当てるための第4の手段を含み得る。
【0036】第4の手段は、第3の手段が、1つよりも
多い集合に同一の優先順位値を割り当てる場合にのみ、
イネーブルされ得る。
【0037】割り当て手段は、デフォルトにより優先順
位値を割り当てるための第5の手段を含み得る。
【0038】第5の手段は、第4の手段が、1つよりも
多い集合に同一の優先順位値を割り当てる場合にのみ、
イネーブルされ得る。
【0039】割り当て手段は、各集合の確率の測定値に
基づいて、優先順位値を割り当てるように構成され得
る。
【0040】上記装置は、単語集合のインデックスを含
む記憶装置と、選択された集合のうちの少なくとも1つ
を用いてインデックスにアクセスするための手段と含み
得る。
【0041】本発明の第4の局面によれば、第1の自然
言語の入力テキストから、第2の自然言語への概翻訳を
行うための装置であって、本発明の第3の局面による装
置と、辞書を構成するエントリを含む記憶装置と、選択
された集合のうちの少なくとも1つを用いて、二か国語
辞書にアクセスするための手段とを含む装置が提供され
る。
【0042】本発明の第1または第2の局面による装置
は、プログラムされたデータプロセッサを含み得る。
【0043】本発明の第5の局面によれば、本発明の第
3または第4の局面による装置のデータプロセッサのた
めのプログラムを含む記憶媒体が提供される。
【0044】従って、最適な連語が選択されることを可
能にする技術を提供することが可能である。正しい連語
の候補が2つ以上あり、これらの候補がすべて、同一の
単語を含む場合、この技術は、より高い信頼性で、正し
い候補が選択されることを可能にする。
【0045】上記方法および装置は、一般に、コンピュ
ータなどのプログラムされたデータプロセッサによって
実行または実施される。上記技術は、計算が節約され、
公知の構文解析技術よりもはるかに少ない計算時間およ
び資源しか必要としない。例えば、この技術は、nlo
gn(nは、以下に説明されるようなソート前の同意語
の数)のオーダの時間での最適な連語選択を可能にする
が、構文解析では、n 3のオーダの時間が必要である。
連続する連語の検出には、nのオーダの時間が必要とさ
れるが、この検出では、同じ長さの連語を識別すること
ができず(以下に説明する)、乏しい結果しか得られな
い。
【0046】入力デバイス20は、テキストの部分(文
など)を形態素解析装置21に供給する。形態素解析装
置21からの単語または基本語形は、集合導出装置22
に供給される。集合導出装置22は、複数の集合を選択
し、各集合は、入力文の単語のうちの少なくとも1つを
含む。各集合の単語はすべて、入力文に存在する。連語
の候補である任意の単語が集められて集合にされる。割
り当て装置23は、各集合に、固有の優先順位値を割り
当てる。比較器およびセレクタ24は、集合を、優先順
位の高い順に、入力文と比較し、単語がすべて入力テキ
ストに存在し、且つ、前に選択された、より高い優先順
位の集合には単語が存在しない集合の各々を選択する。
その後、選択された集合は、記憶装置25への入力とし
て使用され得る。記憶装置25は、例えば、二か国語辞
書の形のエントリを含む。
【0047】以下に、添付の図面を参照して、本発明を
例示的に説明する。
【0048】
【発明の実施の形態】図1に示される方法は、入力テキ
ストの解析に、一文ずつ、単語および連語の翻訳の注釈
を付けることによって、第1の言語の入力テキストの、
第2の言語への概翻訳(例えば、以下に説明するよう
な、英語からオランダ語への翻訳など)を提供するグロ
シングシステムを表す。この方法は、二か国語の同意語
(例えば、別の言語の単語または連語と意味および品詞
が等しい、ある言語の単語または連語)を含む二か国語
の機械可読辞書を利用する。単語および連語の最適な
「グロス」またはグロス翻訳を見つけるためには、入力
文中の同一の単語または同一の単語群に対して競合する
同意語(即ち、文の単語のうちの1つ以上を共通に有す
る異なる連語)の間で選択を行うことが必要である。こ
の方法では、二か国語の同意語は、資源(即ち、単語を
翻訳(最良の正しい翻訳は1つしかあり得ない)の一部
分として使用する権利)に対して競合する「消費者」で
あると考えられ得る。すべての同意語が、資源をロック
するまたは請求する権利があるかどうかを決定するため
の十分な情報を有していると仮定する。競合する消費者
は、どの消費者が優先されるかを決定するために、比較
される。この技術を支持するためには、「正当化(just
ification)」、即ち、ターゲットアイテムが導出され
るソースアイテムおよび導出方法を、すべての翻訳に関
連付けることが必要である。
【0049】図1のステップ1で、入力文のソース単語
のリストが形成され、「InputWords」という
名称が割り当てられる。ソース単語は、文に現れる実際
の単語であり得る。あるいは、ソース単語は、形態素解
析により文から導出される基本語形であり得る。例え
ば、各単語には、その品詞を示すためのタグが与えられ
得る。動詞の候補は、不定形に直され得、動詞の候補に
は、好適には、その時制がタグ付けされ得る。名詞は、
単数にされ得、単数または複数を示すためのタグが付け
られ得る。1つの単語が異なる品詞として存在し得る場
合、リストには、その単語が複数回出現し、各単語に
は、それぞれの可能な品詞のタグが付けられる。例え
ば、単語「stop」は、名詞または動詞であり得るた
め、例えば、「stop(n)」および「stop
(v)」として、「InputWords」に二度現れ
る。
【0050】ステップ2で、集合「Consumer
s」が、うまくあてはめられた二か国語の同意語の集合
として導出される。「InputWords」中の単語
の各々は、二か国語の同意語(二か国語の辞書エントリ
と等価である)にアクセスするために使用され、その単
語が現れる二か国語の同意語が選択される。二か国語の
同意語が連語を含む場合、この同意語は、その連語中の
単語がすべて「InputWords」に存在する場合
にのみ選択される。
【0051】ステップ3で、「Consumers」
は、同意語の相対ランクまたは優先順位値を決定する優
先順位機能に従ってソートされる。相対ランクまたは優
先順位値を割り当てるための幾つかの技術があり、その
中には、入力テキストの言語の性質に少なくとも部分的
に依存する技術もある。以下、2つの実施例を説明す
る。
【0052】第1の実施例では、「Consumer
s」に相対ランクまたは優先順位値を割り当てるため
に、幾つかの基準が使用される。これらの基準は、英語
に適用され、基準の幾つかまたはすべては、他の言語に
適用される。この基準は、「バッグ可能性(baggabilit
y)」、「コンパクト性(compactness)」、「リーディ
ングスコア(reading score)」、「最も右(rightmost
ness)」および「デフォルト性(defaultness)」であ
る。
【0053】「バッグ可能性」とは、同意語によって消
費されるソース単語の数であり、正当化の濃度を表す。
例えば、文の一部分である「... makeupforl
osttime ...」では、連語「makeupfor
(補償する)」には、連語「makeup(調停す
る)」という連語よりも高い相対ランクまたは優先順位
値が割り当てられる。なぜなら、前者の連語が3つのソ
ース単語を消費しているのに対し、後者の連語は2つの
ソース単語を消費しているからである。これは、より多
くの単語からなる連語が、最適または正しい連語である
可能性がより高いという、英語などの多くの言語の特徴
に基づいている。これらの具体例は、隣接する単語から
なる連語であるが、連続していない連語(即ち、連語を
形成するが、入力文の連語にはない単語によって分離さ
れている単語)にも、同じ原理が適用される。
【0054】「コンパクト性」では、より小さいスパン
の連語、即ち、入力文において連語の最初または最も左
側の単語と、最後または最も右側の単語との間にある、
連語の単語を含む単語数がより少ない連語に、より高い
相対ランクまたは優先順位値を与える。文の一部分であ
る「... getsomethingtoeat ...」に
は、それぞれ2つの単語からなる2つの連語、即ち、
「somethingto」および「getto」があ
る。「somethingto」のスパンは2単語であ
り、「getto」のスパンは3単語である。「バッグ
可能性」基準では、同一の濃度(即ち、同一の単語数)
を有する連語の相対ランクまたは優先順位値を識別する
ことができないが、「コンパクト性」基準では、より小
さいスパンの連語に、より高い相対ランクまたは優先順
位値が割り当てられる。従って、「コンパクト性」の基
準では、単語同士がより近接している連語が、適切であ
る可能性がより高いという直観的原理に基づいて、連語
「somethingto」が選ばれる。一般に、「バ
ッグ可能性」基準で、すべての連語に異なる相対ランク
または優先順位値を割り与えることができなければ、即
ち、同じ単語数からなる連語が複数個あれば、「コンパ
クト性」基準が適用される。
【0055】「リーディングスコア」基準では、例えば
予備の形態素解析によって、またはタグ付けアルゴリズ
ムもしくはルーチンなどによって確立される、より可能
性の高い品詞が好まれる。例えば、「way_Nto」
の形の連語は2つあり、ここで、「to」は、不定詞の
不変化詞(例えば、「thewaytodoit」)
か、前置詞(例えば、「thewaytoLondo
n」)のいずれかである。従って、このタイプの場合、
入力文の連語付近にある単語(例えば、入力文の連語の
すぐ右またはすぐ左にある単語)が、より可能性の高い
リーディングを示す。上記の例のうちの一方では、連語
「way_Nto」は、名詞である単語「Londo
n」の直前にある。従って、「to」が前置詞として使
用されていることが示され、正しい連語が同定され得
る。次の単語に依存して、これらの2つのリーディング
に対する異なる確率が割り当てられ得、リーディングス
コア基準では、この情報を用いて、より可能性の高い連
語を選ぶ。
【0056】「最も右」基準は、表現が、入力文の中
の、どれくらい右側の位置で起こるかを参照する。例え
ば、文の一部分である「... stopoperatin
gsystemscrashing...」では、「st
opoperating」および「operating
systems」が連語である。これらの連語は、同一
の「バッグ可能性」および「コンパクト性」を有する
が、「operatingsystems」の方がより
右側で起こる。従って、前の基準で、最適な連語に対し
て競合する候補を識別することができなければ、最も右
側の表現が選択される。この理由は、英語などのある特
定の言語が右分岐である場合が多いからである。しか
し、日本語などの、左分岐である他の言語の場合、「最
も右」基準は適用できないため、省略されてもよく、ま
たは、「最も左」の基準と置き換えられてもよい。
【0057】「デフォルト性」は、連語がデフォルトに
よって選択されるかどうかを示す。これは、上で挙げた
5つの基準の中で、発見的で且つ意味論を含む唯一の基
準である。他の事項はすべて等しく、最も一般的な連語
が、デフォルトにより適合するべきである。
【0058】第2の実施例では、連語である同意語へ
の、相対ランクまたは優先順位値の割り当ては、各連語
が当てはまる確率の単一の統一測定値(unified measur
e)に基づいて行われる。これは、ソース言語の大量の
テキストの事前の解析に基づいて確率を確立するという
点で、以前の5つの基準とは異なる。そのようなデータ
は、ルックアップテーブルとして格納され得、このルッ
クアップテーブルは、ステップ3で、連語の各単語でイ
ンデックス付け(indexing)を行うことによって参照さ
れる。
【0059】英語の動詞句「make up」などの、
2単語からなる連語の場合、これら2つの単語がこの順
で文に現れるすべての例が集められる。それぞれの出現
は、この連語の肯定的または否定的な例であるかについ
て分類され(任意の意味において)、この分類から、こ
の連語のエレメントを分離する単語の数に対する頻度分
【数1】 がプロットされ得る。これは、
【数2】 として表現され得る。文の2つのエレメントに確率分布
makeおよびtupが割り当てられていれば、左側が、
「make...nup」(単語「make」および「u
p」が、n個の単語によって分離される)の形の連語と
一致する確率は、tma ke(v).tup(APART).
makeup(n)となる。
【0060】即ち、この確率は、「make」が動詞で
ある確率、「up」が副詞的小詞である確率、ならび
に、「make」および「up」がこの分離で連語にさ
れる確率、という3つの確率の積である。
【0061】上述の第1の実施例の5つの基準の場合、
同意語の優先順位値は、常に固有である。即ち、2つの
同意語は、同じ優先順位値を有し得ず、相対ランクは、
相対優先順位値と等価である。確率測定値に基づく第2
の実施例の場合、2つ(またはそれ以上)の同意語が、
同じ確率、従って、同じ優先順位値を有することが可能
である。その後の方法ステップが、同意語のあいまいで
ない(unambiguous)「順序付け」に依存するため、同
じ優先順位値を有する同意語は、あいまいでないランク
付けを与えるように識別されなければならない。これ
は、そのような同意語に、異なる相対ランクであるが隣
接する相対ランクを任意に与える(ascribe)ことによ
って達成され得る。
【0062】ステップ4では、ステップ3でソートされ
た「Consumers」のリストがコピーされ、そし
て、「RankedConsumers」としてタイト
ルが付けられる。ステップ5で、「RankedCon
sumers」の中、または「RankedConsu
mers」内の左側に、同意語があるかどうかを検査す
る。同意語があれば、ステップ6で、「RankedC
onsumers」の中の、最上位にランク付けされ
た、または最も優先順位の高い、二か国語の同意語を、
「TopEquivalence」に割り当てる。ステ
ップ7で、「TopEquivalence」が消費す
る、「InputWords」のソース単語のすべて
が、利用可能であるかどうかを検査する。即ち、ステッ
プ7では、「TopEquivalence」のすべて
のソース単語がまだ使用または消費されていないかどう
かを検査する。使用または消費されていなければ、ステ
ップ8で、「TopEquivalence」が消費す
る、「InputWords」のソース単語のすべて
が、「使用済み(used)」としてマークされ、ステップ
9で、「TopEquivalence」に、「Top
Equivalence」が消費するソース単語の「最
良の翻訳(best translation)」がマークされる。その
後、ステップ10は、ステップ9の後(または、ステッ
プ7の検査結果がノーである場合はステップ7の後)の
「RankedConsumers」リストから、「T
opEquivalence」を除去する。その後、制
御はステップ5に戻り、これは、「RankedCon
sumers」内の左側に同意語が無くなるまで繰り返
される。
【0063】ステップ11は、ステップ4と同じであ
り、ソートされた「Consumers」のリストを、
「RankedConsumers」としてコピーす
る。ステップ12で、「ResultingGlos
s」をリセットして空のリストにし、ステップ13で、
「RankedConsumers」の中、または「R
ankedConsumers」内の左側に、同意語が
あるかどうかを判定する。同意語があれば、ステップ1
4で、「TopEquivalence」を、「Ran
kedConsumers」の中の、最上位にランク付
けされた、または最も優先順位が高い、二か国語の同意
語にセットする。ステップ15で、「TopEquiv
alence」に、「TopEquivalence」
が消費するソース単語の「最良の翻訳」がマークされて
いるかどうかを検査する。マークされていれば、ステッ
プ16で、「ResultingGloss」リスト
に、「TopEquivalence」を付加する。ス
テップ17で、「RankedConsumers」リ
ストから「TopEquivalence」を除去す
る。ステップ17は、ステップ16の後に続くステップ
であり、ステップ15の検査結果がノーの場合は、ステ
ップ15の後に続くステップである。ステップ13〜1
7は、「RankedConsumers」内の左側に
同意語が無くなるまで、繰り返される。その後、ステッ
プ18で、「ResultingGloss」リスト
を、入力文の二か国語の同意語またはグロス翻訳として
戻す。
【0064】例えば計算時間または計算要件などに関す
る、この技術の複雑さは、以下のように評価され得る。
二か国語の同意語の各々は、最も頻度の低い単語をキー
として選ぶことによってインデックス付けされる。入力
文のすべての単語によってインデックス付けされたすべ
ての二か国語の同意語が、取り出される。それぞれの取
り出し動作または取り出しステップには、実質的に同じ
時間がかかると仮定され得る。同意語がn個ある場合、
単純な規則では、それらの同意語のあてはめは、nのオ
ーダである(同意語のあてはめは、文の長さまたは同意
語の数によって変動しないため、そのコストは一定であ
るとみなされる)。図1に示される技術は、基本的にソ
ーティング技術であり、全体的な複雑さは、(nlog
n)のオーダである。
【0065】この技術では、グロシングが「貪欲なタイ
リング(greedy tiling)」を行うように構成されなけ
れば、入力文を完全にタイリングすることが保証されな
い。貪欲なまたは完全なタイリングが望まれる場合、扱
いやすい解決策は、すべての単語が、単一の単語キーと
ともに少なくとも1つの二か国語の同意語を有すること
を保証することである。グロシングの場合、これは必要
でなく、また、望ましくもない場合がある。なぜなら、
すべての単語の翻訳を有することが常に有用であるとは
限らないからである。さらに、すべての二か国語の同意
語が、単に存在するだけではなく、正しいものであるこ
と、および、キーの集合が完全であることを保証するこ
とができなければ、タイリングが何らかの意味をなすこ
とを保証することはできない。文の完全なテセレーショ
ン(tessellation)を卓越したものにすることにより、
翻訳の質および効率がより悪くなるのであれば、この整
合性は無意味である。
【0066】以下の実施例は、図1に示される方法によ
る、英語の文からオランダ語のグロス翻訳の生成を説明
する。例示のために、以下の英語の文が、システムへの
入力として使用される。
【0067】
【表1】
【0068】予備ステップとして、上記の文に対し、予
備タグ付けおよび形態素解析を行い、文中のすべての単
語について、単語に当てはまり得る形態素リーディング
のリストを生成する。例えば、これは、GB23141
83およびEP0813160に開示される技術によっ
て行われ得る。その後、リストの要素が、二か国語の同
意語にあてはめられる。即ち、可能な単語および連語の
各々により、英語−オランダ語の二か国語辞書の英語側
にアクセスされる。これは、図1のステップ2に対応す
る。アクセスに成功した同意語は、以下のように列挙さ
れる。
【0069】
【表2】
【0070】これらの同意語は、上で説明した5つの基
準を用いて順序付けされる。例えば、「バッグ可能性」
は、「pass」よりも、「pass<4>out」を
好む。なぜなら、後者が、前者よりも多くの単語を消費
するからである。「pass<4>out」という表記
は、入力文において、単語「out」が、4個以下の単
語分だけ、単語「pass」よりも右側にある場合にの
み、「pass」および「out」が連語であるとみな
され得ることを意味する。
【0071】「バッグ可能性」が同じである連語の場
合、「コンパクト性」基準が適用され、連語「pass
<4>through」よりも「pass<4>ou
t」が好まれる。なぜなら、後者のスパン(2)が、前
者のスパン(6)よりも小さいからである。
【0072】「バッグ可能性」および「コンパクト性」
の基準では「out<1>of」および「pass<4
>out」などの2つの連語のランクまたは優先順位値
を分離することができない場合、「最も右」基準が適用
される。入力文において「out<1>of」が「pa
ss<4>out」の右にあるため、前者の連語に、よ
り高いランクまたは優先順位値が与えられる。
【0073】2つの同意語が、以前の基準のすべてに基
づいて同じランクまたは優先順位値を有する場合、デフ
ォルト翻訳(フラグ「!」で示される)が好まれる。こ
の入力文についての同意語リストでは、同意語「a⇔e
en」よりも「a⇔<ゼロ翻訳>」が好まれる。
【0074】これらの基準を用いて、同意語は、ランク
または優先順位値の順に、以下のようにソートされる
(これは、図1のステップ3に対応する)。
【0075】
【表3】
【0076】その後、これらの同意語が、ランクまたは
優先順位値の大きい順に、入力文にあてはめられ(図
1、ステップ6)、グロス翻訳が生成される。上で説明
したように、入力文のソース単語は、同意語をあてはめ
ることによって消費される資源とみなされ得る。この消
費の結果、ソース単語に、目標言語翻訳が添付される。
【0077】従って、以下のように、第1の同意語「o
ut<1>of」が最初にあてはめられ、ソース単語
「out」および「of」を消費し(消費された単語
は、太字の活字で示される)、その一方で、オランダ語
翻訳が添付される。
【0078】
【表4】
【0079】次のステップで、同意語「pass<4>
out」があてはめられるが、拒絶される。これは、ソ
ース単語「out」が、既に消費されているからであ
る。同意語「pass<4>through」が、うま
くあてはめられ、以下のようになる。
【0080】
【表5】
【0081】これらのステップはそれぞれ、図1のステ
ップ5〜17に対応する。このプロセスは、すべての同
意語があてはめられ、且つ、すべてのソース単語が消費
されるまで続く。その結果、以下のような文全体のグロ
ス翻訳が得られる。
【0082】
【表6】
【0083】図2は、図1に示されるタイプの方法を行
うために適した装置を示す。装置は、任意の適切なタイ
プの専用ハードウェアとして実施され得るが、通常は、
プログラムされたデータプロセッサまたはコンピュータ
として実施される。
【0084】装置は、処理される入力テキストを受け取
り、装置の残りに、テキストのサンプル(文など)を、
処理のために一度に1つずつ供給するための入力デバイ
ス20を含む。形態素解析装置21は、文の形態素解析
を行い、集合導出装置22は、例えば基本語形などの形
の単語の集合を導出する。ここで、各集合は、1つ以上
の単語を含む。その後、割り当て装置23が、集合導出
装置22によって導出された集合の各々に、相対ランク
または優先順位値を割り当てる。
【0085】割り当て装置23は、第1から第5の割り
当て装置23a〜23eを含み、これらの割り当て装置
23a〜23eのそれぞれの出力は、比較器およびセレ
クタ24に接続される。例えば、第1の割り当て装置2
3aは、「バッグ可能性」基準を適用し、固有の優先順
位値を有する集合を、比較器およびセレクタ24に供給
する。この基準により識別できない集合は、第2の割り
当て装置23bに供給される。第2の割り当て装置23
bは、「コンパクト性」基準を適用する。この基準によ
り優先順位値が識別できる集合は、比較器およびセレク
タ24に供給され、優先順位値がこの基準でもまだ分離
できない集合は、第3の割り当て装置23cに供給され
る。第3の割り当て装置23cは、「リーディングスコ
ア」基準を適用して、これらの集合の優先順位値を分離
し、比較器およびセレクタ24に供給する。同様に、第
4および第5の割り当て装置23dおよび23eはそれ
ぞれ、上流の割り当て装置で優先順位値が分離できなか
った集合に、「最も右」基準および「デフォルト性」基
準を適用する。あるいは、割り当て装置23は、上で説
明したように、確率測定値に基づいて相対ランクを決定
するように構成され得る。
【0086】比較器およびセレクタ24は、各集合を、
優先順位値の高い順に、入力テキストと比較し、単語が
すべて入力テキスト内に存在する集合であって、以前に
選択された、より高い優先順位値の集合には単語が存在
しない集合の各々を選択する。比較器およびセレクタ2
4が集合を選択し終わると、これらの集合は、二か国語
の同意語の記憶装置25に含まれるルックアップテーブ
ルへの入力として与えられる。結果として得られた翻訳
は、対応する単語集合の注釈が入力文に付けられたまた
は付けられていない状態で、視覚的なディスプレイユニ
ット、プリンタ、またはメモリなどの出力デバイス26
に供給される。
【0087】図3は、図2に示される装置を実施するた
め、および、図1に示される方法を行うために適したプ
ログラマブルシステムを示す。システムは、プログラム
メモリ31とともにプログラマブルデータプロセッサ3
0を含む。プログラムメモリ31は、例えばリードオン
リメモリ(ROM)などの形であり、データプロセッサ
30を制御して例えば図1に示される方法などを行うた
めのプログラムを格納する。システムは、例えば、電源
がない状態で保持されなければならない任意のデータな
どを格納するための不揮発性読み出し/書き込みメモリ
32をさらに含む。ランダムアクセスメモリ(RAM)
33によって、データプロセッサのための「ワーキン
グ」または「スクラッチパッド」メモリが与えられる。
例えばコマンドおよびデータを受け取るなどのための入
力インタフェース34が設けられる。例えば方法の進捗
状況および結果に関する情報を表示するための出力イン
タフェース35が設けられる。
【0088】テキストサンプルは、入力インタフェース
34を介して供給され得るか、または、機械可読記憶装
置36によって選択的に提供され得る。類語辞典37お
よび/または辞書38は、データプロセッサ30によっ
てアクセスされ得る。例えば、図1に示されるグロシン
グ翻訳方法を行うために、辞書38は、二か国語辞書を
含み得る。
【0089】上で説明したシステムを動作させるため、
および方法を行うためのプログラムは、プログラムメモ
リ31に格納される。プログラムメモリ31は、例えば
上で説明したROMタイプの半導体メモリとして実施さ
れ得る。しかし、プログラムは、フロッピーディスク3
1aまたはCD−ROM31bなどの他の任意の適切な
記憶媒体に格納され得る。
【0090】以上、グロシング翻訳を行うための方法お
よび装置を説明したが、これらの技術は、他のアプリケ
ーションに使用され得る。例えば、これらの技術は、単
語を用いてインデックス付けを行う、または、大まかな
構文解析を必要とする任意のシステムにおいて、使用さ
れ得る。例えば、これらの技術は、情報取り出しシステ
ムにおいて連語を用いてインデックス付けおよび問い合
わせを行うために使用され得る。また、そのような技術
は、辞書ベースのシステムにおいて使用され得る。
【0091】
【発明の効果】本発明により、2つ以上の可能な連語が
1つ以上の単語を共通に有する場合に、どれが最適な連
語であるかを同定することができる。辞書のようなイン
デックスにアクセスするために、連語を使用する必要が
ある場合には、正しい連語を、高い信頼性で選択するこ
とが可能となる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態を構成する、入力テキ
ストの処理方法を説明するフロー図である。
【図2】本発明の第2の実施形態を構成する装置の概略
ブロック図である。
【図3】本発明の第3の実施形態を構成する、プログラ
マブルデータプロセッサベースの装置の概略ブロック図
である。
【符号の説明】
20 入力装置 21 形態素解析装置 22 集合導出装置 23 割り当て装置 23a 第1の割り当て装置 23b 第2の割り当て装置 23c 第3の割り当て装置 23d 第4の割り当て装置 23e 第5の割り当て装置 24 比較器およびセレクタ 25 格納装置(ルックアップテーブル) 26 出力デバイス
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ピーター ジョン ホワイトロック イギリス国 オーエックス2 9エイゼッ ト オックスフォード, ボトレイ, ラ レイ パーク ロード 25

Claims (36)

    【特許請求の範囲】
  1. 【請求項1】 複数の単語を含む入力テキストを処理す
    る方法であって、 入力テキストから、複数の集合を導出するステップであ
    って、各集合が、該入力テキストの単語のうちの少なく
    とも1つを含み、各集合の単語がすべて、入力テキスト
    内に存在し、1つよりも多い単語を含む集合があれば、
    その各々の集合の単語が連語を構成するステップと、 各集合に、固有の相対ランクを割り当てるステップと、 各集合を、相対ランクの高い順に、該入力テキストと比
    較するステップと、 単語がすべて入力テキスト内に存在し、且つ、以前に選
    択された、より高い相対ランクの集合には、単語が存在
    しない集合の各々を選択するステップとを包含する、方
    法。
  2. 【請求項2】 前記入力テキストの前記単語の各々が、
    前記集合のうちの少なくとも1つに存在する、請求項1
    に記載の方法。
  3. 【請求項3】 前記入力テキストの前記単語がすべて、
    前記選択された集合の和集合に存在する、請求項1に記
    載の方法。
  4. 【請求項4】 前記入力テキストが、文法的に完全な、
    テキストのサンプルを含む、請求項1に記載の方法。
  5. 【請求項5】 前記単語が、予備ステップの言語解析に
    より、もとのテキストから導出された基本語形を含む、
    請求項1に記載の方法。
  6. 【請求項6】 前記割り当てステップが、集合の単語数
    が増加するに従って増加する優先順位値を割り当てる第
    1のステップを包含する、請求項1に記載の方法。
  7. 【請求項7】 前記割り当てステップが、前記入力テキ
    スト中の集合の単語のスパンが増加するに従って減少す
    る優先順位値を割り当てる第2のステップを包含する、
    請求項1に記載の方法。
  8. 【請求項8】 前記割り当てステップが、前記入力テキ
    スト中の集合の単語のスパンが増加するに従って減少す
    る優先順位値を割り当てる第2のステップを包含し、該
    第2のステップが、前記第1のステップの結果、1つよ
    りも多い集合が同一の優先順位値を有する場合にのみ行
    われる、請求項6に記載の方法。
  9. 【請求項9】 前記割り当てステップが、集合の少なく
    とも1つの単語と、その集合には存在しない、入力テキ
    スト中にある少なくとも1つの単語との間の言語学的関
    係に依存する優先順位値を割り当てる第3のステップを
    包含する、請求項1に記載の方法。
  10. 【請求項10】 前記割り当てステップが、集合の少な
    くとも1つの単語と、その集合には存在しない、入力テ
    キスト中にある少なくとも1つの単語との間の言語学的
    関係に依存する優先順位値を割り当てる第3のステップ
    を包含し、該第3のステップが、前記第2のステップの
    結果、1つよりも多い集合が同一の優先順位値を有する
    場合にのみ行われる、請求項7に記載の方法。
  11. 【請求項11】 前記割り当てステップが、集合の最も
    右側の単語が入力テキストにおいて右側に位置するに従
    って増加する優先順位値を割り当てる第4のステップを
    包含する、請求項1に記載の方法。
  12. 【請求項12】 前記割り当てステップが、集合の最も
    右側の単語が入力テキストにおいて右側に位置するに従
    って増加する優先順位値を割り当てる第4のステップを
    包含し、該第4のステップが、前記第3のステップの結
    果、1つよりも多い集合が同一の優先順位値を有する場
    合にのみ行われる、請求項9に記載の方法。
  13. 【請求項13】 前記割り当てステップが、デフォルト
    により優先順位値を割り当てる第5のステップを包含す
    る、請求項1に記載の方法。
  14. 【請求項14】 前記割り当てステップが、デフォルト
    により優先順位値を割り当てる第5のステップを包含
    し、該第5のステップが、前記第4のステップの結果、
    1つよりも多い集合が同一の優先順位値を有する場合に
    のみ行われる、請求項11に記載の方法。
  15. 【請求項15】 前記割り当てステップが、各集合の確
    率の測定値に基づいて、優先順位値を割り当てるステッ
    プを包含する、請求項1に記載の方法。
  16. 【請求項16】 前記選択された集合のうちの少なくと
    も1つを用いて、単語集合のインデックスにアクセスす
    るステップをさらに包含する、請求項1に記載の方法。
  17. 【請求項17】 第1の自然言語の入力テキストの、第
    2の自然言語への概翻訳を行う方法であって、 請求項16に記載の方法を行うステップであって、前記
    インデックスが辞書である、ステップと、 前記選択された集合に対応する、第2の言語の辞書エン
    トリを出力するステップとを包含する、方法。
  18. 【請求項18】 複数の単語を含む入力テキストを処理
    するための装置であって、 該入力テキストから、複数の集合を導出するための手段
    を含み、各集合が、該入力テキストの該単語のうちの少
    なくとも1つを含み、各集合の単語がすべて、該入力テ
    キスト内に存在し、1つよりも多い単語を含む集合があ
    れば、その各々の集合の単語が連語を構成し、 各集合に、固有の相対ランクを割り当てるための手段
    と、 各集合を、相対ランクの高い順に、該入力テキストと比
    較するための手段と、 単語がすべて該入力テキスト内に存在し、且つ、以前に
    選択された、より高い相対ランクの集合には、単語が存
    在しない集合の各々を選択するための手段とをさらに含
    む、装置。
  19. 【請求項19】 前記導出手段が、前記入力テキストの
    前記単語の各々が、前記集合のうちの少なくとも1つに
    存在するように構成される、請求項18に記載の装置。
  20. 【請求項20】 前記選択手段が、前記入力テキストの
    前記単語がすべて、前記選択された集合の和集合に存在
    するように構成される、請求項18に記載の装置。
  21. 【請求項21】 前記入力テキストが、文法的に完全
    な、テキストのサンプルを含む、請求項18に記載の装
    置。
  22. 【請求項22】 前記単語が、基本語形を含み、前記装
    置が、もとのテキストを解析して、該基本語形を与える
    ための言語解析装置を含む、請求項18に記載の装置。
  23. 【請求項23】 前記割り当て手段が、集合の単語数が
    増加するに従って増加する優先順位値を割り当てるため
    の第1の手段を含む、請求項18に記載の装置。
  24. 【請求項24】 前記割り当て手段が、前記入力テキス
    ト中の集合の単語のスパンが増加するに従って減少する
    優先順位値を割り当てるための第2の手段を含む、請求
    項18に記載の装置。
  25. 【請求項25】 前記割り当て手段が、前記入力テキス
    ト中の集合の単語のスパンが増加するに従って減少する
    優先順位値を割り当てるための第2の手段を含み、該第
    2の手段は、前記第1の手段が、1つよりも多い集合に
    同一の優先順位値割り当てる場合にのみ、イネーブルさ
    れる、請求項23に記載の装置。
  26. 【請求項26】 前記割り当て手段が、集合の少なくと
    も1つの単語と、その集合には存在しない、前記入力テ
    キスト中にある少なくとも1つの単語との間の言語学的
    関係に依存する優先順位値を割り当てるための第3の手
    段を含む、請求項18に記載の装置。
  27. 【請求項27】 前記割り当て手段が、集合の少なくと
    も1つの単語と、その集合には存在しない、前記入力テ
    キスト中にある少なくとも1つの単語との間の言語学的
    関係に依存する優先順位値を割り当てるための第3の手
    段を含み、該第3の手段は、前記第2の手段が、1つよ
    りも多い集合に同一の優先順位値を割り当てる場合にの
    み、イネーブルされる、請求項24に記載の装置。
  28. 【請求項28】 前記割り当て手段が、集合の最も右側
    の単語が前記入力テキストにおいて右側に位置するに従
    って増加する優先順位値を割り当てるための第4の手段
    を含む、請求項18に記載の装置。
  29. 【請求項29】 前記割り当て手段が、集合の最も右側
    の単語が前記入力テキストにおいて右側に位置するに従
    って増加する優先順位値を割り当てるための第4の手段
    を含み、該第4の手段は、前記第3の手段が、1つより
    も多い集合に同一の優先順位値を割り当てる場合にの
    み、イネーブルされる、請求項26に記載の装置。
  30. 【請求項30】 前記割り当て手段が、デフォルトによ
    り優先順位値を割り当てるための第5の手段を含む、請
    求項18に記載の装置。
  31. 【請求項31】 前記割り当て手段が、デフォルトによ
    り優先順位値を割り当てるための第5の手段を含み、該
    第5の手段は、前記第4の手段が、1つよりも多い集合
    に同一の優先順位値を割り当てる場合にのみ、イネーブ
    ルされる、請求項28に記載の装置。
  32. 【請求項32】 前記割り当て手段が、各集合の確率の
    測定値に基づいて、優先順位値を割り当てるように構成
    される、請求項18に記載の装置。
  33. 【請求項33】 単語集合のインデックスを含む記憶装
    置と、前記選択された集合のうちの少なくとも1つを用
    いて該インデックスにアクセスするための手段とをさら
    に含む、請求項18に記載の装置。
  34. 【請求項34】 第1の自然言語の入力テキストから、
    第2の自然言語への概翻訳を行うための装置であって、
    請求項33に記載の装置を含み、前記記憶装置が、辞書
    を構成するエントリを含む、装置。
  35. 【請求項35】 プログラムされたデータプロセッサを
    さらに含む、請求項18に記載の装置。
  36. 【請求項36】 請求項35に記載の装置のデータプロ
    セッサのためのプログラムを含む、記憶媒体。
JP11019164A 1998-01-30 1999-01-27 入力テキスト処理方法およびその装置、概翻訳を行う方法およびその装置、ならびに記憶媒体 Pending JPH11272668A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB9802141A GB2334115A (en) 1998-01-30 1998-01-30 Processing text eg for approximate translation
GB9802141.3 1998-01-30

Publications (1)

Publication Number Publication Date
JPH11272668A true JPH11272668A (ja) 1999-10-08

Family

ID=10826263

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11019164A Pending JPH11272668A (ja) 1998-01-30 1999-01-27 入力テキスト処理方法およびその装置、概翻訳を行う方法およびその装置、ならびに記憶媒体

Country Status (4)

Country Link
US (1) US6397174B1 (ja)
EP (1) EP0933713A3 (ja)
JP (1) JPH11272668A (ja)
GB (1) GB2334115A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010515178A (ja) * 2007-01-04 2010-05-06 シンキング ソリューションズ ピーティーワイ リミテッド 言語分析

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100709722B1 (ko) * 2002-12-26 2007-04-23 가시오게산키 가부시키가이샤 예문을 갖는 전자 사전
US20050125218A1 (en) * 2003-12-04 2005-06-09 Nitendra Rajput Language modelling for mixed language expressions
US7689412B2 (en) * 2003-12-05 2010-03-30 Microsoft Corporation Synonymous collocation extraction using translation information
US20060282255A1 (en) * 2005-06-14 2006-12-14 Microsoft Corporation Collocation translation from monolingual and available bilingual corpora
US7064700B1 (en) * 2005-06-15 2006-06-20 Freescale Semiconductor, Inc. Multi-channel analog to digital converter
US7574348B2 (en) * 2005-07-08 2009-08-11 Microsoft Corporation Processing collocation mistakes in documents
US20070016397A1 (en) * 2005-07-18 2007-01-18 Microsoft Corporation Collocation translation using monolingual corpora
US7649957B2 (en) * 2006-03-22 2010-01-19 Freescale Semiconductor, Inc. Non-overlapping multi-stage clock generator system
GB2448357A (en) * 2007-04-13 2008-10-15 Stephen Molton System for estimating text readability
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10318634B2 (en) * 2017-01-02 2019-06-11 International Business Machines Corporation Enhancing QA system cognition with improved lexical simplification using multilingual resources
US10318633B2 (en) * 2017-01-02 2019-06-11 International Business Machines Corporation Using multilingual lexical resources to improve lexical simplification
US11010180B2 (en) * 2018-05-29 2021-05-18 Wipro Limited Method and system for providing real-time guidance to users during troubleshooting of devices

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4868750A (en) * 1987-10-07 1989-09-19 Houghton Mifflin Company Collocational grammar system
JPH02288960A (ja) * 1989-02-27 1990-11-28 Hitachi Ltd 文書作成支援方法及びそのシステム
US5383120A (en) * 1992-03-02 1995-01-17 General Electric Company Method for tagging collocations in text
US5617488A (en) * 1995-02-01 1997-04-01 The Research Foundation Of State University Of New York Relaxation word recognizer
US6137911A (en) * 1997-06-16 2000-10-24 The Dialog Corporation Plc Test classification system and method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010515178A (ja) * 2007-01-04 2010-05-06 シンキング ソリューションズ ピーティーワイ リミテッド 言語分析

Also Published As

Publication number Publication date
US6397174B1 (en) 2002-05-28
EP0933713A2 (en) 1999-08-04
EP0933713A3 (en) 2002-03-20
GB2334115A (en) 1999-08-11
GB9802141D0 (en) 1998-04-01

Similar Documents

Publication Publication Date Title
US6389387B1 (en) Method and apparatus for multi-language indexing
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US7603353B2 (en) Method for re-ranking documents retrieved from a multi-lingual document database
US9495358B2 (en) Cross-language text clustering
US9262409B2 (en) Translation of a selected text fragment of a screen
US20130054612A1 (en) Universal Document Similarity
US9189482B2 (en) Similar document search
EP0378848A2 (en) Method for use of morphological information to cross reference keywords used for information retrieval
US9239826B2 (en) Method and system for generating new entries in natural language dictionary
US20110257963A1 (en) Method and system for semantic searching
US9235573B2 (en) Universal difference measure
US5285386A (en) Machine translation apparatus having means for translating polysemous words using dominated codes
Macklovitch et al. What’s been forgotten in translation memory
JPH11272668A (ja) 入力テキスト処理方法およびその装置、概翻訳を行う方法およびその装置、ならびに記憶媒体
JPH11184855A (ja) 翻訳方法およびシステム
Li et al. Identifying important concepts from medical documents
JPH09101991A (ja) 情報フィルタリング装置
JPH05314166A (ja) 電子化辞書および辞書検索装置
JP2010157260A (ja) 漢字文における単語区分方法
US8892423B1 (en) Method and system to automatically create content for dictionaries
JPH11110409A (ja) 情報分類方法及び装置
Salam et al. Developing the bangladeshi national corpus-a balanced and representative bangla corpus
JP4088718B2 (ja) 辞書登録装置,辞書登録方法,およびコンピュータプログラム
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
Rapp A Part-of-Speech-Based Search Algorithm for Translation Memories.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20031209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060815

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061006

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061031