JPH10198681A - 構文的な単語の集まりを明瞭化する方法およびシステム - Google Patents

構文的な単語の集まりを明瞭化する方法およびシステム

Info

Publication number
JPH10198681A
JPH10198681A JP10003504A JP350498A JPH10198681A JP H10198681 A JPH10198681 A JP H10198681A JP 10003504 A JP10003504 A JP 10003504A JP 350498 A JP350498 A JP 350498A JP H10198681 A JPH10198681 A JP H10198681A
Authority
JP
Japan
Prior art keywords
word
words
meaning
meanings
syntactic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10003504A
Other languages
English (en)
Other versions
JP3360803B2 (ja
Inventor
Antonio Sanfilippo
サンフィリッポ アントニオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Publication of JPH10198681A publication Critical patent/JPH10198681A/ja
Application granted granted Critical
Publication of JP3360803B2 publication Critical patent/JP3360803B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 文脈で単語の意味を明確にすることができ、
且つ単語間の意味の類似性の概念を用いて、構文的に関
係のある単語の集まりを自動的に明瞭化する方法および
システムを提供する。 【解決手段】 テキストのサンプルから得られた構文的
に関係のある単語に基づいて、関連語と、この単語と構
文関係で被関連語とを含む集合が形成される(ステップ
9からステップ49)。これらの関連語は、単語の意味
のすべてに拡大される(ステップ50)。結果として得
られた集合を対で比較した場合の共通部分が形成され
(ステップ53)、意味的に両立可能な単語のクラスタ
対が形成され(ステップ55)、これらのクラスタ対
は、同時発生制限コード対として格納され得る(ステッ
プ60からステップ62)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、連語であり得る
(即ち、隣接して発生し得る)単語対のような構文的な
単語の集まりを明瞭化する方法およびシステムに関す
る。そのような方法およびシステムは、例えば言語間の
機械翻訳を助けるための自然言語処理(NLP)におい
て用いられ得る。
【0002】
【従来の技術】「明瞭化する」という用語は、単語(ま
たは単語群)に適用された場合、単語(または単語群)
が発生する文脈を参照してその単語(または単語群)の
意味を明確にすることを意味する。例えば、動詞「fir
e」は、「fire pistol」のように射撃行為を表すために
用いるか、または、「fire employee」のように解雇行
為を表すために用いることができる。「fire pistol」
における動詞「fire」の明瞭化であれば、この動詞が
「射撃」の意味で用いられていることを明確にすること
を含むであろう。
【0003】NLPシステムでは、構文解析を与え、こ
の構文解析により「パーサ」が入力されたまたは格納さ
れたテキストを解析して異なる「品詞」に分けることが
知られている。しかし、自然言語では、同じ綴りおよび
品詞の同じ単語でも、その単語が発生する文脈によって
異なる意味を有し得る。例えば、上述のように、動詞
「fire」は、「fire pistol」という文脈では射撃行為
を表し、「fire employee」という文脈では解雇行為を
表す。そのような場合、従来のパーサで行うことができ
る構文解析では、文脈で単語の意味を明確にすることは
できない。従って、NLPシステムの構文解析を完全な
ものにするために、「単語の明瞭化」が必要とされてい
る。
【0004】単語の明瞭化の第1のステップは、単語の
意味を、意味の類似性に関してクラスタ化することによ
って行われ得る。単語の意味は、例えば、電子辞書およ
びシソーラスで見つけることが可能である。意味の類似
性は、同義語リンクが明瞭化される、即ち、各同義語リ
ンクが特定の単語の意味に関連する電子シソーラスから
評価することができる。
【0005】単語間の意味が十分に近い場合、これらの
単語は「意味的に類似した」または「意味的に一致す
る」と言われる。単語の意味の近さは、単語を使用する
際の等価性または両立性という点で確立され得る。例え
ば、「gun」および「pistol」という単語は同じ物体を
表すために用いることができるため、これらの単語の意
味は非常に近い。同様に、「ale」および「beer」とい
う単語に関しては、「ale」は「beer」の具体例である
ため、即ち、「ale」は「beer」の種類であるため、意
味が非常に近い。さらに、意味の類似性の概念を相対的
な意味で用いて、単語の意味の近さの程度を表すことも
できる。この場合、意味の等価性または両立性はない。
例えば、明らかに「doctor」および「nurse」という単
語は「doctor」および「computer」という単語よりも意
味が近い。「doctor」および「nurse」という単語は別
個の職業を表しているため、意味的に等価でなく且つ両
立性もないが、ともに、病人の世話をするために訓練を
受ける人のことを指している。「doctor」および「comp
uter」という単語は、どちらも具体的な実体を指してい
ること以外、共有点がほとんどない。この場合、共有概
念(例えば、「病人の世話をするために訓練された人」
に対して「具体的な実体」)の特定性によって、単語間
の相対的な意味の類似性が決定される。
【0006】機械読取可能なシソーラスを用いて2つの
単語間の意味の類似性を見いだすための既知の技術には
幾つかのものがある。そのような技術の例は、欧州特許
出願第91480001.6号、および1995年にRe
snikによって刊行された「情報内容を用いた、分類学に
おける意味の類似性の評価(Using Information Conten
t to Evaluate Semantic Similarity in a Taxonom
y)」(IJCAI−95)および「ワードネットの意
味に関する、名詞群の明瞭化(Disambiguating Noun Gr
oupings with Respect to WordNet Senses)」と題され
た論文に開示されている(コンピュータ言語学協会(As
sociation for Computational Linguistics)、大全集
についての第3回研究集会)。Resnikによって開示され
たこれらの技術は、1991年にBeckwithらによって米
国ニュージャージー州ヒルズデール(Hillsdale)、L
EA、レキシカル・アクイジション(Lexical Acquisit
ion)の「ワードネット:心理言語学の原理に基づいて
編成された辞書データベース(WordNet: A Lexical Dat
abase Organised on Psycholinguistic Principles)」
で開示されたワードネット辞書データベース(WordNet
Lexical Database)を利用している。
【0007】Resnikは、2つの単語間の意味の類似性
を、これらの2つの単語によって包含されるまたは暗示
される、最も情報を与える概念の「エントロピー」値と
して定義している。この評価は、上述のワードネットの
ような辞書データベースを参照して行われ、ここで、単
語の意味が包含リンクに関して階層的に配列される。例
えば、ワードネットにおいて、名詞「clerk」および「s
alesperson」のすべての意味は、名詞「employee」、
「worker」および「person」の最初の意味にリンクさ
れ、「clerk」および「salesperson」が、「person」の
種類である「worker」の種類である「employee」の種類
であることを示す。この場合、「clerk」と「salespers
on」との間の意味の類似性は、これらの2つの単語が共
有する最も情報を与える(即ち、最も固有の)概念のエ
ントロピー値に対応するであろう。
【0008】
【発明が解決しようとする課題】同義語の集合(例えば
fire、dismiss、terminate、sackなど)の概念cの情報
内容(またはエントロピー)は、形式的には以下のよう
に定義される。
【0009】−log p(c) ここで、pはcの確率である。cの確率はテキストサン
プルまたは集まりKの各選択について得られる。このc
の確率は、Kにおけるcの頻度を、Kの中で発生する単
語であってcにおける単語の意味と同じ品詞を有する単
語の総数Wで割ることによって得られる。これは、以下
の式で表すことができる。
【0010】p(cpos)=(freq(cpos))/(Wpos) ここで、posは同じ品詞を示す。概念の頻度は、この
概念の(即ち、この概念に包含される)例であるすべて
の単語の発生数を数えることによって計算される。即
ち、Kにおいて単語wに遭遇するたびに、wを包含する
すべての概念のカウントが1だけ増加される。これを、
以下の式で表すことができる。
【0011】
【数1】
【0012】2つの単語W1とW2との間の意味の類似
性は、W1およびW2の両方を包含する最も情報を与え
る概念cのエントロピー値で表される。
【0013】
【数2】
【0014】意味の類似性が保たれるW1およびW2の
特定の意味は、cをW1およびW2にリンクする包含関
係に関して決定され得る。例えば、ワードネット辞書デ
ータベースを用いて2つの動詞「fire」および「dismis
s」の意味の類似性を計算する際に、最も情報を与える
概念がremove_v_2という単語の意味を含む同義語集合に
よって表されることが分かれば、意味の類似性が保たれ
る「fire」および「dismiss」の意味がfire_v_4およびd
ismiss_v_4であることが分かる。なぜなら、これらの動
詞は、ワードネット階層においてremove_v_2によって包
含される単語の意味の集合にしか属さないからである。
【0015】従来のパーサで行うことができる構文解析
では、文脈で単語の意味を明確にすることはできない。
従って、NLPシステムの構文解析を完全なものにする
ために、「単語の明瞭化」が必要とされている。
【0016】また、Resnikの論文に開示されている技術
では、意味の類似性は、名詞群などの、同じ品詞を有す
る単語のクラスタを明瞭化するために用いられるだけで
ある。
【0017】本発明は、上記課題を解決するためになさ
れたものであり、その目的とするところは、文脈で単語
の意味を明確にすることができ、且つ単語間の意味の類
似性の概念を用いて、構文的に関係のある単語の集まり
を自動的に明瞭化する方法およびシステムを提供するこ
とにある。
【0018】
【課題を解決するための手段】本発明の構文的な単語の
集まりを明瞭化する方法は、(a)複数の第1の集合を
形成するステップであって、該複数の第1の集合の各々
が、第1の単語の複数の意味を含む第1の部分集合と、
該第1の単語と第1の所定の構文関係にあることが可能
であり且つ意味的に類似した意味を有する複数の第1の
単語の意味を含む第2の部分集合とを含む、ステップ
と、(b)複数の第2の集合を形成するステップであっ
て、該複数の第2の集合の各々が、該第2の単語と該第
1の所定の構文関係にあることが可能であり且つ意味的
に類似した意味を有する複数の第2の単語の意味を含む
第3の部分集合と、該第2の単語の複数の意味を含む第
4の部分集合とを含む、ステップと、(c)該第1の単
語の意味の各々と、該第2の単語の意味の各々とを含む
出力集合を選択するステップであって、該第1の単語お
よび該第2の単語の該意味が、該第1の集合のうちの少
なくとも1つおよび該第2の集合のうちの少なくとも1
つにおいて一緒に発生する、ステップと、を包含し、該
第1の所定の構文関係で発生する該第1および第2の単
語を明瞭化し、そのことにより上記目的が達成される。
【0019】ある実施形態では、該第1および第2の単
語は、テキストサンプルにおいて第1の所定の構文関係
で発生し、前記第2の部分集合に意味が含まれる単語の
うちの少なくとも1つは、該テキストサンプルにおいて
該第1の単語に対して該第1の所定の構文関係で発生
し、前記第3の部分集合に意味が含まれる単語のうちの
少なくとも1つは該テキストサンプルにおいて該第2の
単語に対して該第1の所定の構文関係で発生する。
【0020】ある実施形態では、該テキストサンプル
は、共通の用語を共有する主題に関連する複数のサブサ
ンプルを含む。
【0021】ある実施形態では、該ステップ(a)から
ステップ(c)は、該テキストサンプルにおいて該第1
の所定の構文関係で発生する第1および第2の単語のす
べてに対して繰り返される。
【0022】ある実施形態では、該ステップ(a)から
ステップ(c)は、少なくとも1つの別の所定の構文関
係に対して繰り返される。
【0023】ある実施形態では、複数の第1および第2
の単語の対に対して該ステップ(a)からステップ
(c)を繰り返すステップと、該第1の単語の意味が同
義語関係にあるかまたは意味的に類似しており、かつ該
第2の単語の意味が同義語関係にあるかまたは意味的に
類似しているすべての出力集合の和集合を形成するステ
ップとをさらに包含する。
【0024】ある実施形態では、該ステップ(c)を行
う前に、(i)該第1の部分集合から統計的に少ない第
1の単語の意味を取り除くステップと、(ii)該第3
の部分集合から統計的に少ない第2の単語の意味を取り
除くステップとの少なくとも1つをさらに包含する。
【0025】ある実施形態では、該統計的に少ない第1
または第2の単語の意味のうちの少なくとも1つが該出
力集合に加えられ、該出力集合において、該加えられた
意味と意味的に類似する1つ以上の単語とともに配置さ
れる。
【0026】ある実施形態では、該出力集合が該第1の
単語の意味のうちの2つ以上を含む場合、他の第1の単
語の意味との意味類似性が最も大きい第1の単語の意味
が優先される。
【0027】本発明の記憶媒体は、プログラマブルデー
タプロセッサを制御して、該方法を行うためのプログラ
ムを含む。
【0028】本発明の構文的な単語の集まりを明瞭化す
るシステムは、(a)複数の第1の集合を形成するステ
ップであって、該第1の集合の各々が、該第1の単語の
複数の意味を含む第1の部分集合と、該第1の単語と該
第1の所定の構文関係にあることが可能であり且つ意味
的に類似した意味を有する複数の第1の単語の意味を含
む第2の部分集合とを含むステップと、(b)複数の第
2の集合を形成するステップであって、該複数の第2の
集合の各々が、該第2の単語と該第1の所定の構文関係
にあることが可能であり且つ意味的に類似した意味を有
する複数の第2の単語の意味を含む第3の部分集合と、
該第2の単語の複数の意味を含む第4の部分集合とを含
むステップと、(c)該第1の単語の意味の各々と、該
第2の単語の意味の各々とを含む出力集合を選択するス
テップであって、該第1の単語および該第2の単語の該
意味が、該第1の集合のうちの少なくとも1つおよび該
第2の集合のうちの少なくとも1つにおいて一緒に発生
するステップとを行うようにプログラムされたデータプ
ロセッサを備え、該第1の所定の構文関係で発生する該
第1および第2の単語を明瞭化し、そのことにより上記
目的が達成される。
【0029】本発明の第1の局面によれば、第1の所定
の構文関係で発生する第1および第2の単語を明瞭化す
る方法が提供され、該方法は、(a)複数の第1の集合
を形成するステップを包含し、該複数の第1の集合の各
々は、該第1の単語の複数の意味を含む第1の部分集合
と、該第1の単語と該第1の所定の構文関係にあること
が可能で且つ意味的に類似した意味を有する複数の第1
の単語の意味を含む第2の部分集合とを含み、(b)複
数の第2の集合を形成するステップをさらに包含し、該
複数の第2の集合の各々は、該第2の単語と該第1の所
定の構文関係にあることが可能で且つ意味的に類似した
意味を有する複数の第2の単語の意味を含む第3の部分
集合と、該第2の単語の複数の意味を含む第4の部分集
合とを含み、(c)該第1の単語の意味の各々と、該第
2の単語の意味の各々とを含む出力集合を選択するステ
ップをさらに包含し、該第1の単語および該第2の単語
の該意味は、該第1の集合のうちの少なくとも1つおよ
び該第2の集合のうちの少なくとも1つに一緒に発生す
る。
【0030】本発明の第2の局面によれば、第1の所定
の構文関係で発生する第1および第2の単語を明瞭化す
るためのシステムが提供され、該システムは、(a)複
数の第1の集合を形成するステップを包含し、該第1の
集合の各々は、該第1の単語の複数の意味を含む第1の
部分集合と、該第1の単語と該第1の所定の構文関係に
あることが可能で且つ意味的に類似した意味を有する複
数の第1の単語の意味を含む第2の部分集合とを含み、
(b)複数の第2の集合を形成するステップをさらに包
含し、該複数の第2の集合の各々は、該第2の単語と該
第1の所定の構文関係にあることが可能で且つ意味的に
類似した意味を有する複数の第2の単語の意味を含む第
3の部分集合と、該第2の単語の複数の意味を含む第4
の部分集合とを含み、(c)該第1の単語の意味の各々
と、該第2の単語の意味の各々とを含む出力集合を選択
するステップをさらに包含し、該第1の単語および該第
2の単語の該意味は、該第1の集合のうちの少なくとも
1つおよび該第2の集合のうちの少なくとも1つに一緒
に発生するステップを行うようにプログラムされたデー
タプロセッサを備える。
【0031】「構文関係」という用語は、隣接して発生
するまたは同じ句、節、もしくは文の中に発生する単語
間の文法的なリンクを表す「〜の主語」、「〜の述
語」、「〜の目的語」、「〜の副詞」などの概念に関す
る一般的な用語である。例えば、「Edgar types quickl
y」という文では、2つの構文関係が発生する。「述語
−主語」関係は、動詞「types」を名詞「Edgar」にリン
クする。「述語−副詞」関係は、動詞「types」を時を
表す副詞「quickly」にリンクする。
【0032】従って、例えば、構文的な連語、即ち、隣
接して発生し且つ構文関係にある単語を明瞭化すること
ができる方法およびシステムを提供することが可能であ
る。明瞭化は高い信頼性で起こり、この明瞭化を用い
て、従来のルックアップ手順を行うだけでその後の明瞭
化を行うことを可能にするルックアップテーブルを与え
ることができる。
【0033】好ましくは、第1および第2の単語は、テ
キストサンプルにおいて第1の所定の構文関係で発生
し、第2の部分集合にその意味が含まれる単語のうちの
少なくとも幾つかは、該テキストサンプルにおいて該第
1の単語に対して該第1の所定の構文関係で発生し、第
3の部分集合にその意味が含まれる単語のうち少なくと
も幾つかは、該テキストサンプルにおいて該第2の単語
に対して該第1の所定の構文関係で発生する。非常に大
量のテキストを含み得るテキストサンプルを解析するこ
とによって、明瞭化を、特定の言語と該テキストサンプ
ル内でのその用法とに関係づけられ得る。例えば、テキ
ストサンプルは、共通の用語を共有する主題に関する複
数のサブサンプルを含み得る。これにより、例えば、法
律、金融、または医療分野などの特定の特殊言語分野に
含まれる特定の主題に固有のまたはその主題に典型的な
連語の明瞭化が可能になる。
【0034】好ましくは、ステップ(a)および(c)
は、テキストサンプルにおいて第1の所定の構文関係で
発生する第1および第2の単語のすべてに対して繰り返
され得る。例えば、該第1の所定の構文関係は、すべて
の動詞−目的語の連語が明瞭化されるように、動詞−目
的語の単語対または連語を含み得る。このようにして、
該第1の所定の構文関係にあるすべての連語の明瞭化を
達成することができる。
【0035】ステップ(a)から(c)は、少なくとも
1つの別の所定の構文関係に対して繰り返され得る。他
のそのような関係には、動詞−主語および形容詞−名詞
の連語がある。従って、テキストサンプルを用いて、可
能なすべての構文関係を有する多数の連語または単語群
のすべての明瞭化を最大限にすることができる。
【0036】ステップ(a)から(c)は、複数の第1
および第2の単語対に対して繰り返され得る。第1の単
語の意味が同義語関係にあるまたは意味的に類似してお
り、すべての第2の単語の意味が同義語関係にあるまた
は意味的に類似している出力集合のすべてから和集合が
形成され得る。これにより、同義語のクラスタの形成が
可能となり、効果的な明瞭化能力が増加する。
【0037】2つの単語が等価な意味を有する場合、こ
れらの単語は「同義語関係」にある、即ち、これらの単
語は同義語である。例えば、「gun」および「pistol」
という単語は、同じ物体を指すのに用いることができる
ため、同義語関係にある。単語間の同義語リンクは、通
常、シソーラスの収録語において与えられる。
【0038】従って、意味の類似性の概念は、例えば、
動詞−目的語または動詞−主語の関係にある動詞−名詞
の単語対などの単語対を、その単語対が発生する構文の
文脈を参照して明瞭化するために用いられる。これは、
上で引用したResnikによる論文に開示されている技術と
は異なる。
【0039】
【発明の実施の形態】添付の図面を参照しながら、好適
な実施形態についての以下の詳細な説明を考慮すること
により、本発明がより良く理解される。尚、図中、同一
の参照番号は同一の部分を示す。
【0040】本発明の好適な実施形態を構成する、構文
的に関連する単語対を自動的に明瞭化する方法を、図1
から図5のフロー図を用いて説明する。この実施形態
は、上述のワードネット辞書データベース中の単語の意
味を利用している。このワードネット辞書データベース
からの引用を以下の表に示す。
【0041】
【表1】
【0042】この表は、辞書の見出し語の例を部分的に
示しており、ここでは同義語リンクは省略している。P
OSは、「part of speech(品詞)」を表しており、
「sense(意味)」の欄の整数は、単語の特定の用法を
指すインデックスである。ワードネット辞書データベー
スから単語の意味を引き出すために、< fire_v,clerk_
n >などの入力を与えることができる。ここで、この入
力は、「fire」および「clerk」という単語とともに、
品詞「verb(動詞)」および「noun(名詞)」をそれぞ
れ示す略語「v」および「n」を含む集合を含む。デー
タベースからの出力は、<{fire_v_4},{clerk_n_1,cl
erk_n_2} >の形式である。この出力は、2つの部分集
合を有する集合を含み、品詞を表す略語の後の整数は、
辞書データベース中の単語の意味を示す。従って、ワー
ドネット辞書データベースにアクセスすると、動詞とし
て「fire」を含み且つ名詞として「clerk」を含む単語
対の場合、「fire」が4番目の意味の動詞として用いら
れ、「clerk」が最初または2番目の意味の名詞として
用いられていると判断される。
【0043】図1に示すように、ステップ1で、明瞭化
が法律、金融、または医療の主題などの特定の主題に対
して行われるように、テキストのサブサンプルが選択さ
れる。ステップ1が編集ステップを含み、サブサンプル
が同じ用語を用いる特定の主題に対して明瞭化を行うよ
うに調節することができるよう、関連テキストが既に機
械読取可能な形式であると仮定する。
【0044】ステップ2で、例えば既知のタイプの粗い
(robust)パーサを用いて、構文依存性の対がテキスト
サンプルから抽出される。例えば、パーサにより、すべ
ての動詞−目的語対、すべての動詞−主語対、およびす
べての形容詞−名詞対が抽出され、これらにラベルが付
けられる。ステップ3で、これらの単語対が構文依存性
に従って分類され、ステップ4で、動詞−目的語などの
第1の構文依存性が選ばれる。
【0045】ステップ5で構文的連語が抽出され、ステ
ップ6で、すべての構文依存性が用いられたかどうかが
確認される。用いられていなければ、ステップ7で別の
構文依存性が選ばれ、すべての構文依存性が用いられる
までステップ5が繰り返される。
【0046】図2および図3にステップ5を詳細に示し
ている。ステップ9で、構文依存性の単語対のうちの第
1のものから関連語(associating word)が選択され、
第1の集合の第1の部分集合に入れられる。例えば、関
連語として、動詞の目的語としての関連語「employee」
が選ばれ得る。ステップ10で、被関連語(associated
word)が選択される。特に、ステップ10では、動詞
−目的語の構文依存性を有し、テキストサンプル中で
「employee」を目的語として有する動詞が選択される。
ステップ11で、テキストサンプル中の動詞の目的語と
しての関連語の発生数N1が数えられる。ステップ12
で、テキストサンプル中の被関連語の目的語としての関
連語の発生数N2が数えられる。ステップ13で、テキ
ストサンプルにおける、名詞(「employee」)が与えら
れた動詞(例えば、「fire」)の条件付き確率P1がN2
/N1として計算される。
【0047】ステップ14で、この条件付き確率が、関
連語(「employee」)に統計的に関連性のある被関連語
の集合への包含についてのしきい値を表すしきい値T1
と比較される。統計的関連性についてのこのしきい値T
1は、手動で選択されるか、または、最も偏在する条件
付き確率値として自動的に決定され得る。例えば、empl
oyeeについての以下に示す関連付けられる動詞の条件付
き確率を参照して、T1が自動的に計算されるとする。
【0048】< fire_v/.25,employee_n > < dismiss_v/.223,employee_n > < hire_v/.27,employee_n > < recruit_v/.22,employee_n > < attract_v/.02,employee_n > < be_v/.002,employee_n > < make_v/.005,employee_n > < affect_v/.01,employee_n > これは、すべての確率を、10個のセルのテンプレート
に分布することにより得ることができる。ここで、各セ
ルには、例えば0.01よりも大きい値から始まり徐々
に大きい値が入れられる。
【0049】
【表2】
【0050】最も多くの要素が割り当てられたセルの中
の最低値がT1として選択される。この場合、最低値は
0.22である。
【0051】条件付き確率がしきい値T1を上回る場
合、ステップ15で、被関連語が、第1の集合の第2の
部分集合に入れられる。その後、制御はステップ16に
移り、ステップ16で、現在の関連語に関連する単語が
すべて使われたかどうかが確認される。使われていなけ
れば、ステップ17で、別の被関連語が選択され、制御
はステップ12に戻る。一旦すべての被関連語が用いら
れると、ステップ18で、動詞の目的語としてのすべて
の関連語が用いられたかどうかが確認される。用いられ
ていなければ、ステップ19で、別の構文依存性対のう
ちの第1のものから別の関連語が選択され、別の第1の
集合の第1の部分集合に入れられる。制御はその後、ス
テップ10に進む。
【0052】テキストサンプルにおいて、「employee」
を動詞の目的語として発生するすべての単語対の具体例
は、以下の通りである。
【0053】< fire_v,employee_n > < dismiss_v,employee_n > < hire_v,employee_n > < recruit_v,employee_n > < attract_v,employee_n > < be_v,employee_n > < make_v,employee_n > < affect_v,employee_n > ステップ11からステップ15で、これらの被関連語に
条件付き確率が割り当てられ、これらは以下のように表
される。
【0054】< fire_v/.25,employee_n > < dismiss_v/.223,employee_n > < hire_v/.27,employee_n > < recruit_v/.22,employee_n > < attract_v/.02,employee_n > < be_v/.002,employee_n > < make_v/.005,employee_n > < affect_v/.01,employee_n > しきい値T1が0.22の場合、動詞fire、dismiss、h
ire、およびrecruitだけが、第1の部分集合として「em
ployee」を含む第1の集合の第2の部分集合に入れられ
る。その結果、第1の集合は、< {fire_v,dismiss_v,h
ire_v,recruit_v},employee_n >を含む。
【0055】一旦動詞−目的語対の目的語がすべてこの
ようにして解析されて対応の第1の集合が生じると、動
詞−目的語対の動詞が図3に示すように解析される。ス
テップ20からステップ30はそれぞれステップ9から
ステップ19に対応するが、ステップ20からステップ
30では、複数の第2の集合が生じる。この複数の第2
の集合の各々は、動詞−目的語対の動詞の形の関連語に
対応し、この関連語を含む第4の部分集合と、この関連
語に統計的に関連性のある被関連語からなる第3の部分
集合とを含む。例えば、動詞「fire」では、以下に示す
動詞−目的語対が生じ得る。
【0056】< fire_v,gun_n > < fire_v,rocket_n > < fire_v,employee_n > < fire_v,clerk_n > < fire_v,hymn_n > < fire_v,rate_n > ステップ22からステップ26の結果、目的語「hymn」
および「rate」は統計的に関連性がないことが分かる。
従って、第2の集合は以下のようになる。
【0057】< fire_v,{gun_n,rocket_n,employee_n,c
lerk_n} > ここで、第4の部分集合は動詞として関連語「fire」を
含み、第3の部分集合は名詞として被関連語gun、rocke
t、employee、およびclerkを含む。
【0058】図1のステップ6で、すべての構文依存性
が用いられていることが検出されると、制御は図4のス
テップ40に移る。ステップ40で、第2または第3の
部分集合から第1の被関連語が選択され、新しい部分集
合に入れられる。ステップ41で、この選択された第1
の単語と第1の単語に関連する別の単語との組合せが選
択される。例えば、第1の部分集合を形成する関連語と
して「employee」を有する上で述べた第1の集合の場
合、ステップ40で第1の被関連語「fire」が選択さ
れ、ステップ41で「dismiss」が選択される。ステッ
プ42で、これらの単語間の意味の類似性が決定され、
類似性が数値で表される。その後、この数値は、ステッ
プ43でしきい値T3と比較され、類似性がしきい値を
上回っていれば、ステップ44で前述の新しい部分集合
に該別の単語が入れられる。
【0059】ステップ45で、第2または第3の部分集
合の中の被関連語の対の組合せがすべて用いられたかど
うかが評価される。用いられていなければ、ステップ4
6で、新しい組合せが形成され、ステップ42からステ
ップ45が繰り返される。一旦、ステップ45で、すべ
ての組合せが用いられていると判断されると、ステップ
47で、前述の新しい部分集合の中の残りの単語を第1
または第2の集合の関連語に関連させることによって新
しい集合が形成される。ステップ48で、すべての第2
および第3の部分集合のすべての単語が第1の単語とし
て用いられたかどうかが確認される。用いられていなけ
れば、ステップ49で、第2または第3の部分集合から
別の第1の被関連語が選択され、別の新しい部分集合に
入れられる。その後、第2および第3の部分集合の中の
被関連語がすべて用いられるまで、ステップ41からス
テップ47が繰り返される。
【0060】これらのステップによって、このように、
被関連語の部分集合の各々から同一の要素を含まないす
べての可能な一意の単語対が形成される。例えば、被関
連語の部分集合が{fire, dismiss, hire, recruit}であ
る場合、{fire-dismiss, fire-hire, fire-recruit, di
smiss-hire, dismiss-recruit, hire-recruit}という単
語対が形成される。
【0061】同様に、被関連語の部分集合が{gun, rock
et, employee, clerk}である場合、{gun-rocket, gun-e
mployee, gun-clerk, rocket-employee, rocket-clerk,
employee-clerk}という単語対が形成される。
【0062】その後、例えばシソーラスを参照すること
によって意味の類似性が評価される。上述の2つの単語
対集合の場合、以下のような意味の類似性が得られる。
【0063】 {[fire_v_4,dismiss_v_4,11], [fire-hire,0] [fire-recruit,0] [dismiss-hire,0] [dismiss-recruit,0] [hire_v_3,recruit_v_2,11]} {[gun_n_1,rocket_n_1,5.008], [gun_n_3/gun_n_2/gun_n_1,employee_n_1,1.415], [gun_n_3/gun_n_2/gun_n_1,clerk_n_1/clerk_n_2,1.415], [rocket_n_3,employee_n_1,2.2555] [rocket_n_3,clerk_n_1/clerk_n_2,2.255] [employee_n_i,clerk_n_1/clerk_n_2,4.144]} 上で挙げた意味の類似性に関して、意味的に一致する単
語の意味を決定するために、意味の類似性のしきい値T
3が確立される。意味の類似性のしきい値T3は、手動
で選択されるか、または、最も偏在する意味の類似性値
として自動的に決定され得る。統計的関連性についての
しきい値T1の場合と同様に、T3の自動的な決定は、
(1)各セルに0よりも大きい値から始まり徐々に大き
くなる値が入るn個のセルのテンプレートにすべての意
味の類似性スコアを分布し、その後、(2)最も多くの
要素が割り当てられたセルの中の最低値を選択すること
によって行うことができる。
【0064】本実施形態の場合、T3は手動で3に固定
される。
【0065】上で挙げた例に関してステップ43で生成
される部分集合は、3よりも大きい意味的類似性を有す
る部分集合であり、以下のような部分集合である。
【0066】{fire_v_4,dismiss_v_4} {hire_v_3,recruit_v_2} {clerk_n_1,clerk_n_2,employee_n_1} {gun_n_1,rocket_n_1} 従って、結果として得られる新しい部分集合は、意味的
に互いに関係がある単語のみを含み、ステップ47で、
そのような部分集合の各々をその関連語に関連付けら
れ、新しい集合が形成される。
【0067】その後、図5に示すステップ50で、例え
ば電子シソーラスまたは辞書を参照することによって、
新しい集合の各々の中の関連語を、その可能なすべての
意味に拡大する。これらの単語の意味としては、被関連
語および関連語のすべてに関する意味が含まれる。例え
ば、結果として得られた、上述の具体例に対応する拡大
された新しい集合は、以下の通りである。
【0068】< {hire_v_3,recruit_v_2},{employee_n_
1} > < {dismiss_v_4,fire_v_4},{employee_n_1} > < {fire_v_1,fire_v_2,fire_v_3,fire_v_4,fire_v_5,f
ire_v_6,fire_v_7,fire_v_8},{clerk_n_1,clerk_n_2,em
ployee_n_1} > < {fire_v_1,fire_v_2,fire_v_3,fire_v_4,fire_v_5,f
ire_v_6,fire_v_7,fire_v_8},{gun_n_1,rocket_n_1} > 関連語「employee」の場合意味は1つしか無いため、拡
大された新しい集合の各々の第1の部分集合は「employ
ee_n_1」を含む。しかしながら、関連語「fire」は可能
な意味が8つあるため、第4の部分集合はこれらの8つ
の意味の各々を含む。従って、拡大された新しい集合の
各々は、意味的に互いに関係がある被関連語を含む部分
集合と、関連語の意味をすべて含む別の部分集合とを含
む。
【0069】ステップ51および52で、拡大された新
しい集合のうちの2つが選択され、ステップ53で、こ
れらの2つの集合の共通部分が求められる。特に、動詞
−目的語対の場合、これらの2つの新しい集合の、動詞
を含む部分集合の共通部分が求められ、同様に、目的語
を含む部分集合の共通部分が求められる。従って、ステ
ップ53の出力は、これらの2つの集合が、「動詞」集
合と「目的語」集合とにおいて1つ以上の共通要素を有
する場合、空でない新しい集合を含む。上述の具体例で
あるこれらの拡大された新しい集合の場合、集合[{dism
iss_v_4,fire_v_4},{employee_n_1}]と集合[{fire_v_1,
fire_v_2,fire_v_3,fire_v_4,fire_v_5,fire_v_6,fire_
v_7,fire_v_8},{clerk_n_1,clerk_n_2,employee_n_1}]
との共通部分を求めると、結果として得られる共通部分
は、集合[{fire_v_4},{employee_n_1}]を含む。
【0070】これらの4つの拡大された新しい集合を対
で比較した場合の他のすべての共通部分は空である。な
ぜなら、各対の組合せの集合に共通する動詞および目的
語が無いからである。
【0071】ステップ54で、共通部分が空であるかど
うかが判断される。もし空でなければ、ステップ55
で、この共通部分によって形成される集合が、既存の集
合に加えられる。ステップ53および54で明瞭化が効
果的に行われ、ステップ55で、シソーラス機能および
/または意味の類似性の概念を用いて、この明瞭化の結
果が、意味的に両立可能な単語クラスタの対に併合され
る。ステップ55の結果形成された部分集合またはクラ
スタに含まれる単語の意味はすべて、意味的に互いに類
似する(おそらく、同義語関係にある)。例えば、 < fire_v_4,employee_n_1 > < dismiss_v_4,clerk_n_1 > < give_the_axe_v_1,salesclerk_n_1 > < sack_v_2,shop_clerk_n_1 > < terminate_v_4,clerk_n_2 > という集合の場合、< {fire_v_4,dismiss_v_4,give_th
e_axe_v_1,sack_v_2,terminate_v_4},{clerk_n_1,emplo
yee_n_1,salesclerk_n_1,shop_clerk_n_1,clerk_n_2}
>という集合に併合され得る。
【0072】ステップ56で、他のすべての新しい集合
が用いられたかどうかが確認され、これにより、ステッ
プ51で選択された新しい集合との可能な共通部分がす
べて形成されたかどうかが効果的に判断される。形成さ
れていなければ、ステップ57で別の新しい集合が選択
され、制御はステップ53に戻る。ステップ51で選択
された新しい集合を含むすべての対の組合せが形成され
ると、ステップ59で、新しい集合がすべて用いられた
かどうかが確認される。用いられていなければ、ステッ
プ58で別の新しい集合が選択され、拡大された新しい
集合の各々と、他の拡大された新しい集合の各々との共
通部分が得られるまでこのプロセスが繰り返される。
【0073】上述のステップ1からステップ59までの
結果は、例えば、 < {fire_v_4,dismiss_v_4,give_the_axe_v_1,send_away_v_2,sack_v_2,force _out_v_2,terminate_v_4} {clerk_n_1,employee_n_1,salesclerk_n_1,shop_clerk_n_1,clerk_n_2} > < {lease_v_4,rent_v_3,hire_v_3,charter_v_3,engage_v_6,take_v_22,recru it_v_2}, {clerk_n_1,employee_n_1,salesclerk_n_1,shop_clerk_n_1,clerk_n_2} > のような、意味的に一致する単語の意味のクラスタ対の
集合を含む。
【0074】その後、これらの結果が格納され、以後、
単語の意味が関連しているもののうちのいずれかの明瞭
化を簡単なテーブルのルックアップだけで行うことがで
きるようになる。ステップ60で、各集合のクラスタま
たは部分集合に、共通の第1のサブコードが割り当てら
れる。ステップ61で、その構文依存性を表す各部分集
合またはクラスタに、第2のサブコードが割り当てられ
る。例えば、第1のサブコードVOは各動詞クラスタに
割り当てられ、第2のサブコードOVは各動詞目的語ク
ラスタに割り当てられ得る。この具体例は、以下の通り
である。
【0075】 < {102_VO,fire_v_4,dismiss_v_4,give_the_axe_v_1,send_away_v_2,sack_v_ 2,force_out_v_2,terminate_v_4} {102_OV,clerk_n_1,employee_n_1,salesclerk_n_1,shop_clerk_n_1,clerk_ n_2} > < {103_VO,lease_v_4,rent_v_3,hire_v_3,charter_v_3,engage_v_6,take_v_2 2,recruit_v_2}, {103_OV-,clerk_n_1,employee_n_1,salesclerk_n_1,shop_clerk_n_1,clerk _n_2} > < {104_VO,shoot_v_3,fire_v_1,...}, {104_OV,gun_n_1,rocket_n_1,...}> ステップ62で、これらのコードは、例えば以下の形式
の同時発生(cooccurrence)制限テーブルに格納され
る。
【0076】
【表3】
【0077】ステップ63で、第1および第2のサブコ
ードを含む割り当てられたコードに対する部分集合また
はクラスタを格納する。例えば、クラスタにおける単語
の意味の各々の品詞および正しい綴りが、関連する意味
要素およびクラスタコードと共に、テーブルに以下のよ
うに格納され得る。
【0078】
【表4】
【0079】一旦明瞭化手順が終了すると、その後の単
語対または単語の集まりの明瞭化は、上の表を用いた従
来のテーブルルックアップによって達成され得る。例え
ば、[fire_v,employee_n]のような構文的に関係のある
単語の明瞭化は、この単語対の各単語についてのすべて
のクラスタコードを検索し、可能なすべての対の組合
せ、即ち、 < 102_VO, 102_OV > < 104_VO, 102_OV > を作成することによって行われる。
【0080】同時発生制限テーブルにないコード対はそ
の後削除され、 < 102_VO, 102_OV > を残す。
【0081】その後、決定されたクラスタコード対を用
いて、入力単語についての適切な意味が検索され、 < fire_v_4,employee_n_1 > を与える。
【0082】図6は、単語対を明瞭化するのに適切なシ
ステムを概略的に示している。このシステムはプログラ
マブルデータプロセッサ70を備え、このプログラマブ
ルデータプロセッサ70は、プログラマブルデータプロ
セッサ70を制御して図1から図5に示す方法を行うた
めのプログラムを格納する例えばリードオンリメモリ
(ROM)の形態のプログラムメモリ71を有する。こ
のシステムは、同時発生制限テーブルと、コードに対す
る単語の意味のテーブルとを格納するための不揮発性読
出/書込メモリ72をさらに備える。ランダムアクセス
メモリ(RAM)73によって、データプロセッサ用の
「ワーキング」または「スクラッチパッド」メモリが与
えられる。例えばコマンドおよびデータを受け取るため
の入力インタフェース74が設けられる。例えば明瞭化
の進行および結果に関係する情報を表示するための出力
インタフェース75が設けられる。
【0083】テキストサンプルは、入力インタフェース
74を介して供給されるか、またはオプションとしては
機械読取可能な記憶装置76に与えられ得る。シソーラ
スおよび/または辞書は、リードオンリメモリ71に与
えられるか、または入力インタフェース74を介して与
えられる。あるいは、電子または機械読取可能なシソー
ラス77および電子または機械読取可能な辞書78が与
えられてもよい。
【0084】システムを動作させるため且つ上述の方法
を行うためのプログラムは、プログラムメモリ71に格
納される。プログラムメモリは、例えば上述のようなR
OMタイプの半導体メモリとして実施されてもよい。し
かし、プログラムは、フロッピーディスク71aまたは
CD−ROM71bなどの他の任意の適切な記憶媒体に
格納されてもよい。
【0085】図1から図5を参照して上で説明した方法
は、統計的に少ない連語、即ち、図2および図3のそれ
ぞれのステップ14およびステップ25のしきい値テス
トを満たさない連語も扱うように拡張することができ
る。上述の方法では、統計的に関連のある連語だけを選
んで明瞭化プロセス(ステップ14参照)を行うため、
種々の単語対について同時発生制限を得ることができな
い可能性がある。これは、例えば、名詞が動詞のあまり
典型的でない目的語である<fire_v,hand_n>などの動
詞−目的語対にあてはまる場合があり、従って、頻繁に
は起こらない。統計的に少ない連語を分類するために既
に得られた同時発生制限を用いることによって、この問
題点に取り組むことができる。これについて、動詞−目
的語対< fire_v,hand_n >に関して以下に説明する。
【0086】まず、動詞fireを含む動詞−目的語同時発
生制限をすべて見つける。これらの同時発生制限は、上
で挙げた例に関しては、< 102_VO,102_OV >、< 104_
VO,104_OV >である。
【0087】次に、直接目的語としての連語の類の要素
のすべてを検索する。この結果、例えば、以下のように
なる。
【0088】102_OV → clerk_n_1,employee_n_1 104_OV → gun_n_1,rocket_n_1 その後、図4のステップ41からステップ47に示す手
順の後、統計的に少ない連語は、意味の類似性に従っ
て、直接目的語としての連語の類のすべての要素ととも
にクラスタ化される。これにより、統計的に少ない連語
についての1つ以上の意味類別が得られる。この場合、
hand_nがclerk_n_1およびemployee_n_1と共にクラスタ
化されると、ワードネットの意味2および9(「farm l
abourer」および「crew member」として説明されてい
る)が与えられ、例えば、 IN:{hand_n,clerk_n_1,employee_n_1,gun_n_1,rocke
t_n_1} OUT:{{hand_n_2/9,clerk_n_1,employee_n_1}{gun_n
_1,rocket_n_1}} のようになる。
【0089】その後、この明瞭化された統計的に少ない
連語は、この連語と共にクラスタ化された単語の意味と
同じコードに関連付けられる。例えば、この関連づけ
は、以下の表に示すように行われる。
【0090】
【表5】
【0091】これにより、上述の方法に従って、handが
fireなどの動詞の直接目的語として発生する文脈におい
て、handについて意味2および9を選ぶことができるよ
うになる。
【0092】図1から図5を参照して上で説明した明瞭
化法では、多数の結果が得られる場合がある。例えば、
動詞および目的語からなる単語の集まりの対< {wear_
v,have_on_v,record_v,file_v},{suit_n,garment_n,clo
thes_n,uniform_n} >の場合を考えると、対IN:< w
ear_v suit_n_1 >の明瞭化により、OUT:{ <wear_
v_1 suit_n_1>,<wear_v_9 suit_n_1> }という結果が
得られ得る。典型的には、ソース辞書データベースで単
語について与えられた意味の幾つかが意味的に近い場合
に多数の明瞭化の結果が生じる。例えば、ワードネット
では、wearの意味1を「be dressed in」として定義し
ており、意味9を「putting clothes onone's body」と
して定義している。
【0093】この問題点を克服するために、多数の単語
の意味の決定(resolution)を、明瞭化の間に、単語の
意味をクラスタ化する(図4のステップ42)際に用い
られる意味類似性スコアを参照してランク付けすること
ができる。基本的な概念は、より高い意味類似性スコア
を有する単語クラスタによって表される単語の意味の決
定の選択であり、明瞭化のよりよい仮定が得られる。例
えば、動詞−目的語対< wear suit >に関する単語の
特定の意味は、明瞭化された単語の集まり{ <{have_on
_v_1,wear_v_1},{clothes_n_1,garment_n_1,suit_n_1,u
niform_n_1}><{file_v_2,wear_v_9},{clothes_n_1,ga
rment_n_1,suit_n_1,uniform_n_1}> }によって与えら
れる。
【0094】これらの単語の集まりは、図5のステップ
50からステップ59に関連して説明したように、関連
語と、その被関連語からなる意味的に一致するクラスタ
との意味のすべてからなる対の共通部分を求めることに
よって生じる。ステップ41からステップ47に従って
関連付けられる動詞の集合を得るために用いられる下に
示す意味類似性スコアを考慮すると、wear suitという
文脈での動詞wearの単語の意味の最良の候補は、wear_v
_1であろう。
【0095】図1から図5を参照して上で説明した方法
のさらなる拡張として、動詞の他動詞などの単語の文法
上の特性を用いて、ステップ50での関連語に関する意
味の拡大の回数を減らすことによって、明瞭化プロセス
を促進し且つ向上することができる。例えば、< fire_
v,{clerk_n_1/2,employee_n_1} >における関連語fire_
vを拡大する場合、辞書データベースで特定される、動
詞fireの非他動詞的用法に関するfire_vの意味(例え
ば、open fireとして定義される意味1)をすべて取り
除くことができる。これは、明瞭化している文脈では動
詞の他動詞的用法が必要だからである。
【0096】
【発明の効果】本発明によれば、少なくとも以下の効果
が得られる。
【0097】構文的な連語、即ち、隣接して発生し且つ
構文関係にある単語を明瞭化することができる方法およ
びシステムを提供することが可能である。明瞭化は高い
信頼性で起こり、この明瞭化を用いて、従来のルックア
ップ手順を行うだけでその後の明瞭化を行うことを可能
にするルックアップテーブルを与えることができる。
【図面の簡単な説明】
【図1】本発明の実施形態を構成する明瞭化方法の第1
の部分を示すフロー図である。
【図2】図1に示す方法の一部分で行われるステップの
うちの1つをより詳細に示すフロー図である。
【図3】図1に示す方法の一部分で行われるステップの
うちの1つをより詳細に示すフロー図である。
【図4】本発明の実施形態を構成する明瞭化方法の残り
の部分を示すフロー図である。
【図5】本発明の実施形態を構成する明瞭化方法の残り
の部分を示すフロー図である。
【図6】図1から図5に示す方法を行うための本発明の
実施形態を構成するシステムの概略ブロック図である。
【符号の説明】
70 プログラマブルデータプロセッサ 71 プログラムメモリ(ROM) 71a フロッピーディスク 71b CD−ROM 72 不揮発性読出/書込メモリ 73 「ワーキング」メモリ(RAM) 74 入力インタフェース 75 出力インタフェース 76 テキストサンプル記憶装置 77 シソーラス 78 辞書

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 構文的な単語の集まりを明瞭化する方法
    であって、該方法は、 (a)複数の第1の集合を形成するステップであって、
    該複数の第1の集合の各々が、第1の単語の複数の意味
    を含む第1の部分集合と、該第1の単語と第1の所定の
    構文関係にあることが可能であり且つ意味的に類似した
    意味を有する複数の第1の単語の意味を含む第2の部分
    集合とを含む、ステップと、 (b)複数の第2の集合を形成するステップであって、
    該複数の第2の集合の各々が、該第2の単語と該第1の
    所定の構文関係にあることが可能であり且つ意味的に類
    似した意味を有する複数の第2の単語の意味を含む第3
    の部分集合と、該第2の単語の複数の意味を含む第4の
    部分集合とを含む、ステップと、 (c)該第1の単語の意味の各々と、該第2の単語の意
    味の各々とを含む出力集合を選択するステップであっ
    て、該第1の単語および該第2の単語の該意味が、該第
    1の集合のうちの少なくとも1つおよび該第2の集合の
    うちの少なくとも1つにおいて一緒に発生する、ステッ
    プと、を包含し、 そのことによって、該第1の所定の構文関係で発生する
    該第1および第2の単語を明瞭化する、構文的な単語の
    集まりを明瞭化する方法。
  2. 【請求項2】 前記第1および第2の単語は、テキスト
    サンプルにおいて第1の所定の構文関係で発生し、前記
    第2の部分集合に意味が含まれる単語のうちの少なくと
    も1つは、該テキストサンプルにおいて該第1の単語に
    対して該第1の所定の構文関係で発生し、前記第3の部
    分集合に意味が含まれる単語のうちの少なくとも1つは
    該テキストサンプルにおいて該第2の単語に対して該第
    1の所定の構文関係で発生する、請求項1に記載の構文
    的な単語の集まりを明瞭化する方法。
  3. 【請求項3】 前記テキストサンプルは、共通の用語を
    共有する主題に関連する複数のサブサンプルを含む、請
    求項2に記載の構文的な単語の集まりを明瞭化する方
    法。
  4. 【請求項4】 前記ステップ(a)からステップ(c)
    は、前記テキストサンプルにおいて前記第1の所定の構
    文関係で発生する第1および第2の単語のすべてに対し
    て繰り返される、請求項2または3に記載の構文的な単
    語の集まりを明瞭化する方法。
  5. 【請求項5】 前記ステップ(a)からステップ(c)
    は、少なくとも1つの別の所定の構文関係に対して繰り
    返される、請求項2から4のいずれかに記載の構文的な
    単語の集まりを明瞭化する方法。
  6. 【請求項6】 複数の第1および第2の単語の対に対し
    て前記ステップ(a)からステップ(c)を繰り返すス
    テップと、該第1の単語の意味が同義語関係にあるかま
    たは意味的に類似しており、かつ該第2の単語の意味が
    同義語関係にあるかまたは意味的に類似しているすべて
    の出力集合の和集合を形成するステップとをさらに包含
    する、請求項1から5のいずれかに記載の構文的な単語
    の集まりを明瞭化する方法。
  7. 【請求項7】 前記ステップ(c)を行う前に、 (i)前記第1の部分集合から統計的に少ない第1の単
    語の意味を取り除くステップと、 (ii)前記第3の部分集合から統計的に少ない第2の
    単語の意味を取り除くステップとの少なくとも1つをさ
    らに包含する、請求項1から6のいずれかに記載の構文
    的な単語の集まりを明瞭化する方法。
  8. 【請求項8】 前記統計的に少ない第1または第2の単
    語の意味のうちの少なくとも1つが前記出力集合に加え
    られ、該出力集合において、該加えられた意味と意味的
    に類似する1つ以上の単語とともに配置される、請求項
    7に記載の構文的な単語の集まりを明瞭化する方法。
  9. 【請求項9】 前記出力集合が前記第1の単語の意味の
    うちの2つ以上を含む場合、他の第1の単語の意味との
    意味類似性が最も大きい第1の単語の意味が優先され
    る、請求項1から8のいずれかに記載の構文的な単語の
    集まりを明瞭化する方法。
  10. 【請求項10】 プログラマブルデータプロセッサを制
    御して、請求項1から9のいずれかに記載の方法を行う
    ためのプログラムを含む、記憶媒体。
  11. 【請求項11】 構文的な単語の集まりを明瞭化するシ
    ステムであって、該システムは、 (a)複数の第1の集合を形成するステップであって、
    該第1の集合の各々が、該第1の単語の複数の意味を含
    む第1の部分集合と、該第1の単語と第1の所定の構文
    関係にあることが可能であり且つ意味的に類似した意味
    を有する複数の第1の単語の意味を含む第2の部分集合
    とを含む、ステップと、 (b)複数の第2の集合を形成するステップであって、
    該複数の第2の集合の各々が、該第2の単語と該第1の
    所定の構文関係にあることが可能であり且つ意味的に類
    似した意味を有する複数の第2の単語の意味を含む第3
    の部分集合と、該第2の単語の複数の意味を含む第4の
    部分集合とを含む、ステップと、 (c)該第1の単語の意味の各々と、該第2の単語の意
    味の各々とを含む出力集合を選択するステップであっ
    て、該第1の単語および該第2の単語の該意味が、該第
    1の集合のうちの少なくとも1つおよび該第2の集合の
    うちの少なくとも1つにおいて一緒に発生する、ステッ
    プと、を行うようにプログラムされたデータプロセッサ
    を備え、 そのことによって該第1の所定の構文関係で発生する該
    第1および第2の単語を明瞭化する、構文的な単語の集
    まりを明瞭化するシステム。
JP00350498A 1997-01-09 1998-01-09 関連する単語の意味の決定方法の実施に使用される記録媒体およびそのシステム Expired - Fee Related JP3360803B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB9700338.8 1997-01-09
GB9700338A GB2321117A (en) 1997-01-09 1997-01-09 Disambiguating syntactic word multiples

Publications (2)

Publication Number Publication Date
JPH10198681A true JPH10198681A (ja) 1998-07-31
JP3360803B2 JP3360803B2 (ja) 2003-01-07

Family

ID=10805716

Family Applications (1)

Application Number Title Priority Date Filing Date
JP00350498A Expired - Fee Related JP3360803B2 (ja) 1997-01-09 1998-01-09 関連する単語の意味の決定方法の実施に使用される記録媒体およびそのシステム

Country Status (4)

Country Link
EP (1) EP0853286B1 (ja)
JP (1) JP3360803B2 (ja)
DE (1) DE69830524T2 (ja)
GB (1) GB2321117A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1283476A1 (en) * 2001-08-08 2003-02-12 Sail Labs Technology AG A process for the automatic processing of natural languages
JP6927300B2 (ja) * 2017-06-21 2021-08-25 日本電気株式会社 情報処理装置、情報処理システム、情報処理方法、及び、プログラム
CN115329767B (zh) * 2022-10-11 2023-01-06 北京云迹科技股份有限公司 抽取文本实体的方法、装置、电子设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6140672A (ja) * 1984-07-31 1986-02-26 Hitachi Ltd 多品詞解消処理方式
US5541836A (en) * 1991-12-30 1996-07-30 At&T Corp. Word disambiguation apparatus and methods
JP2640793B2 (ja) * 1992-01-17 1997-08-13 松下電器産業株式会社 共起辞書構築装置及びこの共起辞書を用いた文解析装置

Also Published As

Publication number Publication date
JP3360803B2 (ja) 2003-01-07
GB2321117A (en) 1998-07-15
EP0853286A1 (en) 1998-07-15
GB9700338D0 (en) 1997-02-26
DE69830524D1 (de) 2005-07-21
EP0853286B1 (en) 2005-06-15
DE69830524T2 (de) 2006-05-11

Similar Documents

Publication Publication Date Title
US6260008B1 (en) Method of and system for disambiguating syntactic word multiples
US9519634B2 (en) Systems and methods for determining lexical associations among words in a corpus
Kaplan et al. Speed and accuracy in shallow and deep stochastic parsing
CA2397985C (en) Apparatus and method for context-based highlighting of an electronic document
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US5680628A (en) Method and apparatus for automated search and retrieval process
US7707023B2 (en) Method of finding answers to questions
US6405162B1 (en) Type-based selection of rules for semantically disambiguating words
JP3266246B2 (ja) 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法
Kavalec et al. A study on automated relation labelling in ontology learning
US20070016863A1 (en) Method and apparatus for extracting and structuring domain terms
US20070073745A1 (en) Similarity metric for semantic profiling
EP1014276A2 (en) Automatic language identification using both N-Gram and word information
US20050080613A1 (en) System and method for processing text utilizing a suite of disambiguation techniques
CA2366485C (en) System and method for parsing a document
JPH083815B2 (ja) 自然言語の共起関係辞書保守方法
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
US8327265B1 (en) System and method for parsing a document
US7957956B2 (en) Systems and methods for normalization of linguistic structures
Schuller et al. Learning and knowledge-based sentiment analysis in movie review key excerpts
Gaustad et al. Accurate stemming of Dutch for text classification
EP1290574B1 (en) System and method for matching a textual input to a lexical knowledge base and for utilizing results of that match
Xu et al. The design and implementation of a part of speech tagger for english
JP3360803B2 (ja) 関連する単語の意味の決定方法の実施に使用される記録媒体およびそのシステム
Lehmann et al. BNCweb

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20020424

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20021002

LAPS Cancellation because of no payment of annual fees