JP4426479B2

JP4426479B2 - 単語階層関係解析装置及びそれに用いる方法、単語階層関係解析プログラム

Info

Publication number: JP4426479B2
Application number: JP2005042814A
Authority: JP
Inventors: 克亘伊藤; 康智大石; 一哉武田; 敦藤井
Original assignee: Toshiba Information Systems Japan Corp
Current assignee: Toshiba Information Systems Japan Corp
Priority date: 2005-02-18
Filing date: 2005-02-18
Publication date: 2010-03-03
Anticipated expiration: 2025-02-18
Also published as: JP2006228042A

Description

この発明は、２単語間の階層関係を自動判別するための単語階層関係解析装置、更にコンピュータに２単語間の階層関係を自動判別を実行させるための単語階層関係解析プログラムに関するものである。

高度な情報検索や自然言語処理には、多様な辞書が必要である。その中でも、有用な辞書に、単語間の上位下位関係や同義関係を表現したシソーラスがある。シソーラスは情報検索におけるユーザが入力した検索式の拡張や単語間の意味的な距離を計算することで多義性の解消、機械翻訳といった多くのシステムにおいて利用されている。

シソーラスは，人手によって作成されるのが主流である。しかし、単語と単語の関係を手作業で調べるため、時間と手間を要する。また、単語間の関係を理解するためには、情報量の多い意味解析のできる辞書が必要となる。つまり、単一の国語辞典や百科事典のみでは、語の説明が少量であり、また新しい事柄や専門技術、新しい定義などが頻繁に改訂されるわけではないため、単語と単語の深い意味的な関係を見出すことができないという問題点がある。

一方、非特許文献１、２に示されているように、シソーラスの自動構築への試みとして、文書中の語の並列関係の表現形式のパターン化をすることによって、テキストコーパスから単語の同義関係を自動的に抽出する研究が知られている。しかし、文章中には様々な表現があるため、その表現のパターンを網羅的に特定することは困難である。
Marti A.Hearst, "Automatic Acquisition of Hyponyms from Large Text Corpora" Proceedings of the Fourteenth International Conference on Computational Linguistics, July.1992 鶴丸弘昭、竹下克典、伊丹克企、柳川俊英、吉田将、"国語辞典情報を用いたシソーラスの作成について"情報処理学会研究報告、１９９１−ＮＬ−８３

また、既存のシソーラスに未知語を配置することによってシソーラスを拡張する研究がある(浦本直彦、“コーパスに基づくシソーラス−統計情報を用いた既存のシソーラスへの未知語の配置”情報処理学会論文誌、Vol.37,No.12,pp.2182-2189,Dec.1996)。既存のシソーラス自体が人手で作られたものなので、完全な自動化ヘは至っていない。本発明では、大規模かつ情報量の多いテキストコーパスを用いて統計的な手法で単語間の意味的な関係を自動的に推定することを課題とする。

本発明に係る単語階層関係解析装置は、解析対象文中に含まれている複数の単語に一意的に1から始まる整数をＩＤとして付し、ＩＤが整数ｉである見出し語ｗ_ｉに関する説明文中においてＩＤが整数ｊである見出し語ｗ_ｊが現れる出現頻度Ｎ（ｗ_ｊ ⁽¹⁾｜ｗ_ｉ）を全てのｉ、ｊについて求める出現頻度検出手段と、
前記出現頻度検出手段により検出された出現頻度に基づき、見出し語ｗ_ｉに関する説明文中において見出し語ｗ_ｊが現れる出現確率Ｐ（ｗ_ｊ ⁽¹⁾｜ｗ_ｉ）を全てのｉ、ｊについて求める確率算出手段と、
前記解析対象文中に含まれている総単語数をｍとし、前記確率算出手段により算出された出現確率Ｐ（ｗ_ｊ ⁽¹⁾｜ｗ_ｉ）を用いて、ｊ行目でｉ列目の要素がＰ（ｗ_ｊ ⁽¹⁾｜ｗ_ｉ）となるｍ行ｍ列の行列Ａを作成する行列作成手段と、
見出し語の説明文中に出現する単語を、次の見出し語とする説明文を２次説明文とし、この２次説明文中に出現する単語を、次の見出し語とする説明文を３次説明文とし、以下再帰的に説明文を無限に展開した拡張説明文について重みα_１，α_２，・・・，α_ｎ，・・・を用いた行列Ｃを
Ｃ＝α_１Ａ＋α_２Ａ²＋・・・＋α_ｎＡⁿ＋・・・とし、この拡張説明文の行列Ｃを、右辺第１項から任意に定める項までを計算することにより、近似的に求める拡張説明文行列算出手段と、
前記拡張説明文行列算出手段により得られた拡張説明文の行列Ｃにおいて、見出し語ｗ_ｉ，ｗ_ｊについてのＣ（ｗ_ｊ，ｗ_ｉ）とその対称の成分Ｃ（ｗ_ｉ，ｗ_ｊ）についての大小関係に基づき単語ｗ_ｉ，ｗ_ｊの上位下位関係を判定する判定手段と
を具備することを特徴とする。

本発明に係る単語階層関係解析装置では、前記拡張説明文行列算出手段は、Ｃ＝α_１Ａ＋α_２Ａ²＋・・・＋α_ｎＡⁿ＋・・・の計算に代えて、０＜ａ＜１の間で任意に定められる定数ａを用いてＣ＝（１−ａ）（Ｉ−ａＡ）^−１なる行列Ｃを計算することにより拡張説明文の行列Ｃを求めることを特徴とする。

本発明に係る単語階層関係解析装置では、前記判定手段は、Ｃ（ｗ_ｊ，ｗ_ｉ）とその対象の成分Ｃ（ｗ_ｉ，ｗ_ｊ）の差分ｄを求め、このｄの符号が正の場合には単語ｗ_ｊが上位語であると判定し、このｄの符号が負の場合には単語ｗ_ｉが上位語であると判定することを特徴とする。

本発明に係る単語階層関係解析装置では、前記拡張説明文行列算出手段は、予め定められた重みα _１，α _２，・・・，α _ｎ，・・・を設定する重み設定部を具備することを特徴とする。

本発明に係る単語階層関係解析プログラムは、コンピュータを、
解析対象文中に含まれている複数の単語に一意的に1から始まる整数をＩＤとして付し、ＩＤが整数ｉである見出し語ｗ_ｉに関する説明文中においてＩＤが整数ｊである見出し語ｗ_ｊが現れる出現頻度Ｎ（ｗ_ｊ ⁽¹⁾｜ｗ_ｉ）を全てのｉ、ｊについて求める出現頻度検出手段、
前記出現頻度検出手段により検出された出現頻度に基づき、見出し語ｗ_ｉに関する説明文中において見出し語ｗ_ｊが現れる出現確率Ｐ（ｗ_ｊ ⁽¹⁾｜ｗ_ｉ）を全てのｉ、ｊについて求める確率算出手段、
前記解析対象文中に含まれている総単語数をｍとし、前記確率算出手段により算出された出現確率Ｐ（ｗ_ｊ ⁽¹⁾｜ｗ_ｉ）を用いて、ｊ行目でｉ列目の要素がＰ（ｗ_ｊ ⁽¹⁾｜ｗ_ｉ）となるｍ行ｍ列の行列Ａを作成する行列作成手段、
見出し語の説明文中に出現する単語を、次の見出し語とする説明文を２次説明文とし、この２次説明文中に出現する単語を、次の見出し語とする説明文を３次説明文とし、以下再帰的に説明文を無限に展開した拡張説明文について重みα_１，α_２，・・・，α_ｎ，・・・を用いた行列Ｃを
Ｃ＝α_１Ａ＋α_２Ａ²＋・・・＋α_ｎＡⁿ＋・・・とし、この拡張説明文の行列Ｃを、右辺第１項から任意に定める項までを計算することにより、近似的に求める拡張説明文行列算出手段、
前記拡張説明文行列算出手段により得られた拡張説明文の行列Ｃにおいて、見出し語ｗ_ｉ，ｗ_ｊについてのＣ（ｗ_ｊ，ｗ_ｉ）とその対称の成分Ｃ（ｗ_ｉ，ｗ_ｊ）についての大小関係に基づき単語ｗ_ｉ，ｗ_ｊの上位下位関係を判定する判定手段
として機能させることを特徴とする。

本発明に係る単語階層関係解析プログラムでは、コンピュータを、Ｃ＝α_１Ａ＋α_２Ａ²＋・・・＋α_ｎＡⁿ＋・・・の計算に代えて、０＜ａ＜１の間で任意に定められる定数ａを用いてＣ＝（１−ａ）（Ｉ−ａＡ）^−１なる行列Ｃを計算することにより拡張説明文の行列Ｃを求める拡張説明文行列算出手段として機能させることを特徴とする。

本発明に係る単語階層関係解析プログラムでは、コンピュータを、Ｃ（ｗ_ｊ，ｗ_ｉ）とその対称の成分Ｃ（ｗ_ｉ，ｗ_ｊ）の差分ｄを求め、このｄの符号が正の場合には単語ｗ_ｊが上位語であると判定し、このｄの符号が負の場合には単語ｗ_ｉが上位語であると判定する判定手段として機能させることを特徴とする。

本発明に係る単語階層関係解析プログラムでは、コンピュータを、予め定められた重みα _１，α _２，・・・，α _ｎ，・・・を設定する重み設定手段として機能させることを特徴とする。

本発明によれば、拡張説明文という、説明文を再帰的に展開する手法を採用しているので、大規模かつ事典的な性質を持つコーパスを用いて、単語の共起から意味的な上位下位関係を推定した結果、70％に近い正解率で見出し語間の上位と下位を推定することができた。

本発明では、見出し語の説明文中に出現する単語を、次の見出し語とする説明文を２次説明文とし、この２次説明文中に出現する単語を、次の見出し語とする説明文を３次説明文とし、以下再帰的に説明文を無限に展開した拡張説明文について行列Ｃを求め、この行列Ｃにおいて、見出し語ｗ_ｉ，ｗ_ｊについてのＣ（ｗ_ｊ，ｗ_ｉ）とその対称の成分Ｃ（ｗ_ｉ，ｗ_ｊ）についての大小関係に基づき単語ｗ_ｉ，ｗ_ｊの上位下位関係を判定している。この場合に、Ｃ＝α_１Ａ＋α_２Ａ²＋・・・＋α_ｎＡⁿ＋・・・として求めている。ここで、行列Ａは、解析対象文中に含まれている複数の単語に一意的に1から始まる整数をＩＤとして付し、ＩＤが整数ｉである見出し語ｗ_ｉに関する説明文中においてＩＤが整数ｊである見出し語ｗ_ｊが現れる出現頻度Ｎ（ｗ_ｊ ⁽¹⁾｜ｗ_ｉ）を全てのｉ、ｊについて検出し、検出された出現頻度に基づき、見出し語ｗ_ｉに関する説明文中において見出し語ｗ_ｊが現れる出現確率Ｐ（ｗ_ｊ ⁽¹⁾｜ｗ_ｉ）を全てのｉ、ｊについて算出し、上記解析対象文中に含まれている総単語数をｍとし、算出された出現確率Ｐ（ｗ_ｊ ⁽¹⁾｜ｗ_ｉ）を用いて、ｊ行目でｉ列目の要素がＰ（ｗ_ｊ ⁽¹⁾｜ｗ_ｉ）となるｍ行ｍ列の行列Ａを作成するのである。行列Ｃは、Ｃ＝α_１Ａ＋α_２Ａ²＋・・・＋α_ｎＡⁿ＋・・・の計算に代えて、Ｃ＝（１−ａ）（Ｉ−ａＡ）^-1なる行列Ｃを計算することによっても算出することができる。上記において、α_１，α_２，・・・，α_ｎ，・・・は重み、ａは０＜ａ＜１の間で任意に定められる定数である。

辞典コーパス

以下添付図面を参照して、本発明に係る単語階層関係解析装置及びそれに用いる方法、単語階層関係解析プログラムを説明する。本発明では、大規模かつ情報量の多いテキストコーパスとして、Ｗｅｂから構築した事典コーパス（藤井敦、伊藤克亘、石川徹也、“ＷＷＷは百科事典として使えるか？−大規模コーパスの構築−”情報処理学会研究報告、２００２−ＮＬ−１４９）を用いる。本発明で用いた事典コーパスは、Ｗｅｂを事典的に利用することを目的として、約20万語のデータを整備して作成したものである。

当該事典コーパスの構築は、以下のように行った。
１．Ｗｅｂ検索エンジンを用いて、ある見出し語を含むＷｅｂページを網羅的に取得する。
２．取得したページにおけるＨＴＭＬのタグ構造を利用してページのレイアウトを解析し、見出し語を含む領域（段落）を抽出し、これを見出し語に対する説明文とする。

つまり１つの見出し語につき、Ｗｅｂから集めた説明文が多数存在する。その結果、２０万語の見出し語に対し、平均10以上の説明文を集めることができている。現時点では、情報通信技術（ＩＴ）分野における見出し語の各説明文に対して、以下のような判定を行った。

・判定Ａ：（見出し語を説明している）
・判定Ｂ：（見出し語を部分的に説明している）
・判定Ｃ：（見出し語を説明していない）
この３段階で判定し、さらに用語の語義や分野に応じて分類をする。

本発明では、このコーパスが１つの見出し語につき、多数の説明文をもつという構成により，出現頻度に基づく単語の共起が明確になり、単語と単語の上位下位関係、同義関係を推定できると考えられるため使用することとした。

［単語間の上位下位関係の推定］
＜単語間の上位下位関係の指標＞
ある単語を説明するとき、「〜の種類」「〜のひとつ」というような表現をするのが一般的である。ここで「〜」は見出し語の上位語にあたる。例えば、「ライオン」の説明文では「ネコ科の哺乳類」と表現する．つまり説明文中において「哺乳類」という単語の出現頻度が高い。しかし、見出し語「哺乳類」を説明するとき「ライオン」という単語を説明に用いることは少ない。つまり、説明文において「ライオン」の出現頻度が低い。このことから説明文に出現する単語は、見出し語の上位語の出現頻度が高い。この例では、「哺乳類」が「ライオン」の上位語であると推定できる。つまり、見出し語ｗ_ｉの説明文中における見出し語ｗ_ｊの出現頻度と，見出し語ｗ_ｊの説明文中における見出し語ｗ_ｉの出現頻度を比較することが単語間の上位下位関係を推定する１つの指標であると考えられる。

＜拡張説明文＞
説明文における単語の出現頻度を比較することで見出し語の上位語を推定することは可能である。ただ、本発明で用いる事典コーパスはＷｅｂから集めてきた説明文であるため、各説明文における信頼性の水準に差が生じている。そこで、ある見出し語の説明文中に出現する単語も説明文を持つ、と考えることで説明文を再帰的に展開する手法を利用する。例えば「ＲＯＭ」の説明文中に見出し語「ＲＡＭ」が出現していたとする。また「ＲＡＭ」の説明文では「記憶装置」が出現していたとする。このとき、説明文を展開することで「ＲＯＭ」の上位語として「記憶装置」を推定することが可能となる。

つまり、説明文を見出し語の集合であると考えると、見出し語に対する説明文は無限に展開できる。この手法は拡張説明文（鈴木敏、“辞書に基づく単語の確率ベクトル”技術情報レターズ(ＦＩＴ２００２)、Vol.1,pp.79-80,2002）と呼ばれ、見出し語と意味的な関係はあるが、説明文には出現しない単語の出現確率を、説明文を展開することによって推定することが可能となる。

以下、説明文中の単語をｎ回展開した説明文を「ｎ次説明文」と呼ぶ。見出し語ｗ_ｉに対して、元の説明文（１次説明文）からｎ次説明文は全てｗ_ｉを説明する文となる。まず、ｗ_ｉのｎ次説明文中に単語ｗ_ｊが現れる確率をＰ（ｗ_ｊ ⁽ⁿ⁾｜ｗ_ｉ）とすると、１次説明文での単語間の関係は

と表される。説明文中の単語の出現頻度をＮ（ｗ_ｊ ⁽ⁿ⁾｜ｗ_ｉ）とすると、各要素は

と表される。

２次説明文に関しては、

が成立ち、行列Ａを用いれば全体はＡ²と表せる。同様に、ｎ次説明文に関しては、全体を表す式はＡⁿとなる。

ここで１次説明文からｎ次説明文までの全てをまとめた拡張説明文の行列Ｃを
Ｃ＝α_１Ａ＋α_２Ａ²＋・・・＋α_ｎＡⁿ＋・・・（３）
を定義する。α_ｎはｎ次説明文の全体に対する重みである。拡張説明文の行列Ｃの要素にあたるＣ（ｗ_ｊ，ｗ_ｉ）の値は、見出し語ｗ_ｉの拡張した説明文中に見出し語ｗ_ｊが出現する確率を表している。

＜拡張説明文の利用＞
拡張説明文という手法は本来、単語間の類似度を算出する手法として提案された。見出し語ｗ_ｉから見出し語ｗ_ｊを想起する確率は、

により与えられる。

そこで、国語辞典を用いて拡張説明文の行列Ｃを算出し、その要素を用いて計算されるＰ（ｗ_ｊ｜ｗ_ｉ）を単語間の類似度として考え、同義語を抽出する。ここで、拡張説明文の行列Ｃにおける各ｎ次説明文の重みは後述する指数重みを用いる。

本発明では、この拡張説明文の行列Ｃにこそ、単語と単語の意味的なベクトルが含まれていると考えることで、単語間の上位下位関係を推定するために利用する。先に述べた単語間の意味的な上位下位関係を導く指標を用いると、見出し語ｗ_ｉとｗ_ｊにおける成分Ｃ（ｗ_ｊ，ｗ_ｉ）の値と、その対称の成分Ｃ（ｗ_ｉ，ｗ_ｊ）の値を比較することに帰着する。本発明では、
ｄ＝Ｃ（ｗ_ｊ，ｗ_ｉ）−Ｃ（ｗ_ｉ，ｗ_ｊ）（５）
を計算し，ｄの値が正であればｗ_ｊはｗ_ｉの上位の語であると推定し、負であればｗ_ｊはｗ_ｉの下位の語であると推定することにする。

＜拡張説明文における重み＞
本発明では、式（１）を用いて式（０）に示した確率行列Ａを計算し、式（３）に示した拡張説明文の行列Ｃを算出するときにおける各ｎ次説明文の重みの付け方についで二種類の方法を提案する。

＜最適な重みの推定＞
式（３）においてｎ次説明文までを考慮するのではなく、低次の説明文のみを用いて、単語と単語の上位下位関係を推定する。低次の説明文を特徴量と考えて、最適な重みを線形判別分析により学習し、拡張説明文の行列Ｃを計算する。これは見出し語数を増やし大規模にモデルを試すときに生じる計算量の問題に対処するためである。この学習、評価法については後述の「評価実験」の項において説明する。

＜指数重み＞
１次説明文ほどその見出し語を直接的に表現しているという考えから１次説明文に最も高い重みを与え、ｎの値に応じて指数的に減少するような重みを考える。ａを定数とするとき、式（３）は、
Ｃ＝ｂ（ａＡ＋ａ²Ａ²＋・・・＋ａⁿＡⁿ＋・・・）（６）

となる。式（３）において、α_nＡⁿまでの項を加算した結果を行列Ｃとし、α_iとしては、

としてα_iを予め決めた値として与えるか、実験的に求めて設定する。

また、上記（７）式より、特に行列式ｄｅｔ（Ｉ−ａＡ）≠０ならば
Ｃ＝ａｂＡ（Ｉ−ａＡ）^-1 （８）
となり、上記（８）式により拡張説明文の行列Ｃを計算する。なお、Ｉは単位行列を示すものである。

上記（８）式において、ａｂ＝（１−ａ）であるようなｂを選択するならば、（８）式は、
Ｃ＝（１−ａ）Ａ（Ｉ−ａＡ）^-1 （８’）
となり、上記（８’）式により拡張説明文の行列Ｃを計算することもできる。

[評価実験]
語彙中の語と語の上位下位関係を語に対応する説明文を用いて推定をおこなう。このとき説明文の質による推定精度を確認するために、事典コーパスにおいて説明文が人手によってＡ、Ｂ、Ｃと判定されているＩＴ用語に限定し、その中の語の上位下位関係を推定する。今回はその見出し語に対応する複数の説明文すべてをまとめて、１つの説明文と考える。表１に、使用したＩＴ用語の説明文の判定別データを示す。この表１においては、二人の判定が一致した場合に、単独に、Ａ判定、Ｂ判定、Ｃ判定として分類しており、Ａ、Ｂが共存する欄は判定がＡとＢに割れた場合を示し、Ａ、Ｂ、Ｃが共存する欄は全ての判定データを示す。判評価用としてはＪＩＣＳＴ科学技術シソーラス1999年度版（約43000 語を記述）（JST(JICST)科学技術シソーラス1999年版、http://jois.jst.go.jp/jois/html/thesaurus_index.htm.）を用いる。その中で表２のように、ＩＴ用語中の二つの見出し語の上位下位関係の判定がされているものを抽出し、利用した。ＪＩＣＳＴシソーラスに記述されていないＩＴ用語の上位下位関係については、今回は評価を行っていない。

ＪＩＣＳＴシソーラスから抽出したデータを４等分し、そのうち１つを評価用に、残り３つを学習用データとする。この４等分とは、判定の対象となる二つの見出し語のもつ説明文数の和の多い順に並び替え、均等にデータセットを４つ作成することである。

＜重みの学習＞
まず、式（５）をｎ次説明文まで用いて、以下のように展開する。
ｄ＝Ｃ（ｗ_ｊ，ｗ_ｉ）−Ｃ（ｗ_ｉ，ｗ_ｊ）
＝α₁｛Ｐ（ｗ_ｊ ⁽¹⁾｜ｗ_ｉ）−Ｐ（ｗ_ｉ ⁽¹⁾｜ｗ_ｊ）｝
＋α₂｛Ｐ（ｗ_ｊ ⁽²⁾｜ｗ_ｉ）−Ｐ（ｗ_ｉ ⁽²⁾｜ｗ_ｊ）｝（９）
＋・・・・
＋α_n｛Ｐ（ｗ_ｊ ⁽ⁿ⁾｜ｗ_ｉ）−Ｐ（ｗ_ｉ ⁽ⁿ⁾｜ｗ_ｊ）｝

式（９）を線形判別関数と考え、ＪＩＣＳＴシソーラスからの見出し語間の正しい上位下位関係を示す学習用データを用いてｄが正の値と、負の値の２クラスに判別できるように係数α_iを求める。

ここで、フィッシャーの線形判別法(石井健一郎、上田修功、前田英作、村瀬洋、“パターン認識”オーム社（2002）)を利用する。これはｐ個の特徴量に対して
ｚ＝α₁ｘ₁＋α₂ｘ₂＋・・・・＋α_pｘ_p （１０）
という線形結合ｚの値によって判別ができるように係数α_iを決定する手法である。

２クラスの判別を行うときのｚの変動を表す平方和は、

と展開される。右辺第１項はクラス間平方和Ｓ_Ｂ、第２項はクラス内平方和Ｓ_Ｗである。ｎ_kは各クラスにおける要素数である。

すなわち、ｚをよく判別できるためにはクラス内平方和Ｓ_Ｗを小さく、クラス間平方和Ｓ_Ｂを大きくするように係数α_iを決定することに帰着する。そこで、フィッシャーは評価基準として式（１２）を定義した。
Ｊ_Ｓ＝Ｓ_Ｂ／Ｓ_Ｗ（１２）

上記Ｊ_Ｓの値が大きくなるように係数α_iを決定すればよい。式（１２）をさらに展開すると固有値問題が得られる。この固有値問題について通例の解法により固有値を得て、このうちの最大固有値に対応する固有ベクトルが係数α_iとする。

上記における係数α_iの算出手法は、以下に示す処理１〜処理６による算出法と等価である。
（処理１）既述の情報源であるＪＩＣＳＴシソーラスについて、対象とする語彙に含まれる語のうち上位下位関係が判明している語の組をｎ_ｐ組用意する。なお、用意する語の組は、対象とする語彙のうち、ごく一部であってもよい。
（処理２）ｉ番目の組に含まれる語の上位の語について、当該上位の語が含まれていた元の語彙におけるＩＤをｗ_x、また、ｉ番目の組に含まれる語の下位の語について、当該下位の語が含まれていた元の語彙におけるＩＤをｗ_yとし、ベクトルｚ_iを式（０）におけるＡを用いて、

と定義する。

（処理３）ベクトルｚiの平均ｚ_AVを

より計算する。

（処理４）Ｓ_Ｗを

とする。ここに、ｔは転置を表している。

（処理５）Ｓ_Ｂを

とする。

（処理６）上記処理４と上記処理５によるＳ_Ｗ、Ｓ_Ｂを用いて、Ｓ_Ｂ／Ｓ_Ｗの最大固有値とそれに対応するベクトルを計算する。このベクトルの要素が重みα_iとなる。

上述した単語階層関係解析の方法は、図１のフローチャートに示される各ステップの処理を順次実行することにより実現される。即ち、処理がスタートとなり、解析対象文中に含まれている単語に一意的に付したＩＤをｉ、ｊとするとき、見出し語ｗ_ｉに関する説明文中において見出し語ｗ_ｊが現れる出現頻度Ｎ（ｗ_ｊ ⁽¹⁾｜ｗ_ｉ）を全てのｉ、ｊについて求める（Ｓ１：出現頻度検出ステップ）。

次に、上記ステップＳ１において検出した出現頻度Ｎ（ｗ_ｊ ⁽¹⁾｜ｗ_ｉ）に基づき、（１）式により、見出し語ｗ_ｉに関する説明文中において見出し語ｗ_ｊが現れる出現確率Ｐ（ｗ_ｊ ^（１）｜ｗ_ｉ）を全てのｉ、ｊについて求める（Ｓ２：確率算出ステップ）。

更に、上記ステップＳ２により算出された出現確率Ｐ（ｗ_ｊ ⁽¹⁾｜ｗ_ｉ）を用いて、Ａ_ｉ＝Ｐ（ｗ_ｊ ⁽¹⁾｜ｗ_ｉ）となる行列Ａ（（０）式）を作成する（Ｓ３：行列作成ステップ）。

ステップＳ３に次いで、拡張説明文について行列Ｃを（３）式により求める（Ｓ４：拡張説明文行列算出ステップ）。ここで、（３）式では無限大次までの総和となっているが、実際上はｎ次までとして、ｎを予め定めるか実験的に適当な値を求めるかして与える。また、重みα_iについても、予め定めるか実験的に適当な値を求めるかして与える（重みを設定する重み設定部を備える）ものとし、次の式の関係を有している。

実験的に重みα_iを求める場合の処理は、既述の（処理１）〜（処理６）による。なお、この拡張説明文行列算出ステップＳ４においては、上記式（３）式に代えて、（８）式或いは（８’）式を採用することもできる。

上記ステップＳ４の次に、拡張説明文の行列Ｃにおいて、見出し語ｗ_ｉ、ｗ_ｊについてのＣ（ｗ_ｊ，ｗ_ｉ）とその対称の成分Ｃ（ｗ_ｉ，ｗ_ｊ）についての大小関係を、例えば、ｄ＝Ｃ（ｗ_ｊ，ｗ_ｉ）−Ｃ（ｗ_ｉ，ｗ_ｊ）を計算することにより求め、これに基づき単語ｗ_ｉ，ｗ_ｊの上位下位関係を判定する（Ｓ５：判定ステップ）。

判定ステップＳ５における上位下位関係判定の具体的手法は既に述べた通り、ｄの符号が正の場合には単語ｗ_ｊが単語ｗ_ｉの上位語であると判定し、このｄの符号が負の場合には単語ｗ_ｉが単語ｗ_ｊの上位語であると判定するものである。

上記図１に示したフローチャートによる単語階層関係解析方法は、同フローチャートに対応するプログラムをプロセッサに実行させて実現する。この場合に、プロセッサは、図２に示すブロック構成を有する単語階層関係解析装置となる。

図２に示す単語階層関係解析装置は、出現頻度検出手段１、確率算出手段２、行列作成手段３、拡張説明文行列算出手段４、判定手段５及び解析対象文が記憶され出現頻度検出手段１により解析対象文が取り出される記憶手段１０を具備している。

出現頻度検出手段１は、記憶手段１０に記憶されている解析対象文を取り出し、該解析対象文中に含まれている単語に一意的に付したＩＤをｉ、ｊとするとき、見出し語ｗ_ｉに関する説明文中において見出し語ｗ_ｊが現れる出現頻度Ｎ（ｗ_ｊ ⁽¹⁾｜ｗ_ｉ）を全てのｉ、ｊについて求め、確率算出手段２へ送出するものである。

確率算出手段２は、出現頻度検出手段１により検出された出現頻度に基づき、見出し語ｗ_ｉに関する説明文中において見出し語ｗ_ｊが現れる出現確率Ｐ（ｗ_ｊ ⁽¹⁾｜ｗ_ｉ）を全てのｉ、ｊについて求めるものであり、算出結果を行列作成手段３へ送出するものである。

行列作成手段３は、確率算出手段２により算出された出現確率Ｐ（ｗ_ｊ ⁽¹⁾｜ｗ_ｉ）を用いて、Ａ_ｉ＝Ｐ（ｗ_ｊ ⁽¹⁾｜ｗ_ｉ）となる行列Ａを作成するものである。行列作成手段３により作成された行列Ａは拡張説明文行列算出手段４へ送出される。

拡張説明文行列算出手段４は、拡張説明文について行列Ｃを（３）式により求める。ここで、（３）式では無限大次までの総和となっているが、実際上はｎ次までとして、ｎを予め定めるか実験的に適当な値を求めるかして与える。また、重みα_iについても、予め定めるか実験的に適当な値を求めるかして、重みを設定する重み設定部を具備するものとし、先に図１のフローチャートにおいて拡張説明文行列算出ステップと同じものである。実験的に重みαi を求める場合の処理は、既述の（処理１）〜（処理６）による。なお、この拡張説明文行列算出手段４は、上記式（３）式に代えて、（８）式或いは（８’）式を採用することもできる。拡張説明文行列算出手段４より得られた結果は、判定手段５へ送出される。

判定手段５は、拡張説明文の行列Ｃにおいて、見出し語ｗ_ｉ、ｗ_ｊについてのＣ（ｗ_ｊ，ｗ_ｉ）とその対称の成分Ｃ（ｗ_ｉ，ｗ_ｊ）についての大小関係を、例えば、ｄ＝Ｃ（ｗ_ｊ，ｗ_ｉ）−Ｃ（ｗ_ｉ，ｗ_ｊ）を計算することにより求め、これに基づき単語ｗ_ｉ，ｗ_ｊの上位下位関係を判定するものである。

判定手段５における上位下位関係判定の具体的手法は既に述べた通り、ｄの符号が正の場合には単語ｗ_ｊが単語ｗ_ｉの上位語であると判定し、このｄの符号が負の場合には単語ｗ_ｉが単語ｗ_ｊの上位語であると判定する。

＜重みの評価＞
上記のようにして学習して得られた重みα_iを用いて、ＪＩＣＳＴシソーラスから得られた評価用セットの正解率を算出する。評価用セッ卜における見出し語の組に対して式（９）を計算し、値が正であったものを全ての見出し語の組（評価用セッ卜のデータ数）で割ったものを正解率式（１３）とした。

＜線形判別法により推定した重みの検証＞
上述の線形判別法により推定した重みについて以下の手順１〜手順５を実行して、重みの検証を行った。
（手順１）１次説明文（Ａ）と２次説明文（Ａ^２）を計算し、ＪＩＣＳＴシソーラスにおける学習用データを用いて、その重みα_iをフィッシャーの線形判別法を用いて学習する。
（手順２）学習した重みα_iを用いて、ＪＩＣＳＴシソーラスから得られた評価用セットにおける正解率を計算する。
（手順３）４回のクロスバリデーション（交叉検定）をおこない、正解率の平均値を求める。
（手順４）３次説明文を特徴量として増やし、同様の学習、評価を繰り返す。
（手順５）以後、判定Ａ，判定Ｂ，判定Ｃの説明文毎に、展開した説明文を特徴量として増加させながら重みを学習し、評価を行う。

上記の通りの手順１〜手順５による判定ごとに、特徴量を増やしながら重みの推定を行ったときの正解率の推移を図３に示す。

考察すると、図３において、低次の展開した説明文のみを用いて学習による最適な重みを推定したところ、Ａ判定の説明文では１〜５次説明文を用いたときに70.0％の正解率を得た。またＣ判定の説明文では69.1％の正解率を得ることができ、上位語の推定のためのスタートラインとしては十分な数字であると考えられる。つまり、Ａ判定の説明文は、１次説明文のみを用いただけでは正解率が40.0％であったものの、説明文を展開することによって正解率は向上し、見出し語間の上位下位関係を推定することが可能であるといえる。また、判定Ｃの説明文に関しては１見出し語あたりの平均説明文数が80.7文と非常に多いため、上位語の推定性能が高いと考えられる。つまりＷｅｂのような信頼性の水準に差がある説明文であっても、大規模に説明文を集めることで上位語の推定は可能であると考えられる。

＜指数重みの検証＞
指数重みを用いる場合には、上記式（８）或いは式（８’）の定数ａの値を変化させながら拡張説明文の行列Ｃを算出する。そして、式（５）から計算できるｄの値とＪＩＣＳＴシソーラスからの見出し語間の正しい上位下位関係を示すデータを比較するために式（１３）を用いて正解率を算出する。そのときの正解率の遷移を図４に示す。

考察すると、図４から、パラメータａが１に近づくにつれて、Ｂ判定、Ｃ判定の説明文を用いた拡張説明文では、正解率が向上していくのがわかる。つまり１次説明文ほど高い重みを与え、指数的になだらかに重みを減少させていくことで正解率が上がっている。これは、低次の説明文ほど見出し語の上位の語が含まれている可能性が高いことを示している。最も高い正解率はＡ判定、Ｂ判定の説明文を使用しａ＝0.7 のときであり、73.7％の正解率が得られた。

重みのつけ方について比較すると図４では一見、図３よりも高い正解率が得られているが、見出し語数を増やすにつれて、式（８）における逆行列の計算量が増えることにつながる。しかし図１における学習による最適な重みの推定を行えば、さらに展開した説明文（次元）を増やしても次元数の固有値問題を解くことに帰着するので少ない計算量で高い正解率が得られると予想される。

また、今回はある二つの見出し語に対して、ｄの値が０より大きいか小さいかで上位下位を判定している。閾値を０にするのではなく、ｄの値が０付近のものを１つのクラスとして抽出することができれば、同義語として単語をまとめることが可能であると考えられる。この閾値のとり方については今後考えてゆく課題と思料される。

本発明に係る単語階層関係解析の方法による動作を示すフローチャート。本発明に係る単語階層関係解析装置の構成を示すブロック図。本発明に係る単語階層関係解析において特徴量(次元)の増加に伴う正解率の推移を示す図。本発明に係る単語階層関係解析において指数的な重みの変化による正解率の推移を示す図。

符号の説明

１出現頻度検出手段
２確率算出手段
３行列作成手段
４拡張説明文行列算出手段
５判定手段

Claims

解析対象文中に含まれている複数の単語に一意的に1から始まる整数をＩＤとして付し、ＩＤが整数ｉである見出し語ｗ_ｉに関する説明文中においてＩＤが整数ｊである見出し語ｗ_ｊが現れる出現頻度Ｎ（ｗ_ｊ ⁽¹⁾｜ｗ_ｉ）を全てのｉ、ｊについて求める出現頻度検出手段と、
前記出現頻度検出手段により検出された出現頻度に基づき、見出し語ｗ_ｉに関する説明文中において見出し語ｗ_ｊが現れる出現確率Ｐ（ｗ_ｊ ⁽¹⁾｜ｗ_ｉ）を全てのｉ、ｊについて求める確率算出手段と、
前記解析対象文中に含まれている総単語数をｍとし、前記確率算出手段により算出された出現確率Ｐ（ｗ_ｊ ⁽¹⁾｜ｗ_ｉ）を用いて、ｊ行目でｉ列目の要素がＰ（ｗ_ｊ ⁽¹⁾｜ｗ_ｉ）となるｍ行ｍ列の行列Ａを作成する行列作成手段と、
見出し語の説明文中に出現する単語を、次の見出し語とする説明文を２次説明文とし、この２次説明文中
に出現する単語を、次の見出し語とする説明文を３次説明文とし、以下再帰的に説明文を無限に展開した拡張説明文について重みα_１，α_２，・・・，α_ｎ，・・・を用いた行列Ｃを
Ｃ＝α_１Ａ＋α_２Ａ²＋・・・＋α_ｎＡⁿ＋・・・とし、この拡張説明文の行列Ｃを、右辺第１項から任意に定める項までを計算することにより、近似的に求める拡張説明文行列算出手段と、
前記拡張説明文行列算出手段により得られた拡張説明文の行列Ｃにおいて、見出し語ｗ_ｉ，ｗ_ｊについてのＣ（ｗ_ｊ，ｗ_ｉ）とその対称の成分Ｃ（ｗ_ｉ，ｗ_ｊ）についての大小関係に基づき単語ｗ_ｉ，ｗ_ｊの上位下位関係を判定する判定手段と
を具備することを特徴とする単語階層関係解析装置。
前記拡張説明文行列算出手段は、Ｃ＝α_１Ａ＋α_２Ａ²＋・・・＋α_ｎＡⁿ＋・・・の計算に代えて、０＜ａ＜１の間で任意に定められる定数ａを用いてＣ＝（１−ａ）（Ｉ−ａＡ）^−１なる行列Ｃを計算することにより拡張説明文の行列Ｃを求めることを特徴とする請求項１に記載の単語階層関係解析装置。
前記判定手段は、Ｃ（ｗ_ｊ，ｗ_ｉ）とその対称の成分Ｃ（ｗ_ｉ，ｗ_ｊ）の差分ｄを求め、このｄの符号が正の場合には単語ｗ_ｊが上位語であると判定し、このｄの符号が負の場合には単語ｗ_ｉが上位語であると判定することを特徴とする請求項１または２に記載の単語階層関係解析装置。
前記拡張説明文行列算出手段は、予め定められた重みα_１，α_２，・・・，α_ｎ，・・・を設定する重み設定部を具備することを特徴とする請求項１に記載の単語階層関係解析装置。
コンピュータを、
解析対象文中に含まれている複数の単語に一意的に1から始まる整数をＩＤとして付し、ＩＤが整数ｉである見出し語ｗ_ｉに関する説明文中においてＩＤが整数ｊである見出し語ｗ_ｊが現れる出現頻度Ｎ（ｗ_ｊ ⁽¹⁾｜ｗ_ｉ）を全てのｉ、ｊについて求める出現頻度検出手段、
前記出現頻度検出手段により検出された出現頻度に基づき、見出し語ｗ_ｉに関する説明文中において見出し語ｗ_ｊが現れる出現確率Ｐ（ｗ_ｊ ⁽¹⁾｜ｗ_ｉ）を全てのｉ、ｊについて求める確率算出手段、
前記解析対象文中に含まれている総単語数をｍとし、前記確率算出手段により算出された出現確率Ｐ（ｗ_ｊ ⁽¹⁾｜ｗ_ｉ）を用いて、ｊ行目でｉ列目の要素がＰ（ｗ_ｊ ⁽¹⁾｜ｗ_ｉ）となるｍ行ｍ列の行列Ａを作成する行列作成手段、
見出し語の説明文中に出現する単語を、次の見出し語とする説明文を２次説明文とし、この２次説明文中に出現する単語を、次の見出し語とする説明文を３次説明文とし、以下再帰的に説明文を無限に展開した拡張説明文について重みα_１，α_２，・・・，α_ｎ，・・・を用いた行列Ｃを
Ｃ＝α_１Ａ＋α_２Ａ²＋・・・＋α_ｎＡⁿ＋・・・とし、この拡張説明文の行列Ｃを、右辺第１項から任意に定める項までを計算することにより、近似的に求める拡張説明文行列算出手段、
前記拡張説明文行列算出手段により得られた拡張説明文の行列Ｃにおいて、見出し語ｗ_ｉ，ｗ_ｊについてのＣ（ｗ_ｊ，ｗ_ｉ）とその対称の成分Ｃ（ｗ_ｉ，ｗ_ｊ）についての大小関係に基づき単語ｗ_ｉ，ｗ_ｊの上位下位関係を判定する判定手段
として機能させることを特徴とする単語階層関係解析プログラム。
コンピュータを、Ｃ＝α_１Ａ＋α_２Ａ²＋・・・＋α_ｎＡⁿ＋・・・の計算に代えて、０＜ａ＜１の間で任意に定められる定数ａを用いてＣ＝（１−ａ）（Ｉ−ａＡ）^−１なる行列Ｃを計算することにより拡張説明文の行列Ｃを求める拡張説明文行列算出手段として機能させることを特徴とする請求項５に記載の単語階層関係解析プログラム。
コンピュータを、Ｃ（ｗ_ｊ，ｗ_ｉ）とその対称の成分Ｃ（ｗ_ｉ，ｗ_ｊ）の差分ｄを求め、このｄの符号が正の場合には単語ｗ_ｊが上位語であると判定し、このｄの符号が負の場合には単語ｗ_ｉが上位語であると判定する判定手段として機能させることを特徴とする請求項５または６に記載の単語階層関係解析プログラム。
コンピュータを、予め定められた重みα_１，α_２，・・・，α_ｎ，・・・を設定する重み設定手段として機能させることを特徴とする請求項５に記載の単語階層関係解析プログラム。