JP3928351B2

JP3928351B2 - 確率を用いた特徴単語の選択方法

Info

Publication number: JP3928351B2
Application number: JP2000354407A
Authority: JP
Inventors: 徹久光
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2000-11-16
Filing date: 2000-11-16
Publication date: 2007-06-13
Anticipated expiration: 2020-11-16
Also published as: JP2002157273A

Description

【０００１】
【発明の属する技術分野】
本発明は、与えられた文書群中の単語の重要性を測る技術に係り，文献検索の支援，単語辞書の自動作成等に利用される．
【０００２】
【従来の技術】
図１は，検索された文書内の「特徴単語」を提示するウィンドウを持つ文書検索システムの例である。右側のウィンドウには左側に示されている文書中の単語が選択され，表示されている．このような検索システムの例として，例えば、特開平10-74210「文献検索支援方法及び装置およびこれを用いた文献検索サービス」(文献１)があげられる。
【０００３】
また、影浦峡（他），"Methods of automatic term recognition: A review", Terminology, 1996)(文献２)には、単語の重要度を計算する方法が記載されている。単語の重要度を計算する方法は，専門用語の自動抽出や，文献検索の際に文書を特徴付ける単語に重みをつけることを目的として，長い間研究されてきた．
単語の重み付けに関して，特定の文書集合内から重要語を抽出することを目的とするものでもっとも有名なものは，tf-idfである．idfは，全文書数N_allをある単語wが現れる文書数N(w)で割ったものの対数，tf，より詳しく書くとtf(w,D)は，単語の文書集合D内での出現頻度であり，tf-idfは，これらの積として， tf(w,d)×log₂(N_all/N(w)) で表される．ここで，N_allは，全文書数， N(w) はwの出現する文書数である。tf-idfの基本的な性質として，単語がより多く，より少ない文書に偏って出現するほど大きくなる．tf-idfは，定義が簡便なため，少ない計算で単語の重みが計算できる。
【０００４】
情報検索の分野では，近年になって，後述するSMARTと呼ばれる重み付け方法(A. Singhal et al. Pivoted Document Length Normalization, Proc. of ACM SIGIR96, pp126-133, 1996; 文献3)が開発され，現時点では最も高精度とされている。
【０００５】
【発明が解決しようとする課題】
しかし，上記のtf-idfは，単語の頻度の影響を受けすぎるため，頻度の非常に高い，「する」，「いる」等の不要語を排除できないという問題があった。
【０００６】
他に，直感的に妥当と思われるものに，tf(w,d)を，wの全文書集合中の出現頻度TF(w)で割った値がある。しかし，この値は，頻度が1回しかない単語の重みを最大(=1)にしてしまうため，低頻度語に偏りすぎる問題があった。
【０００７】
また、SMARTと呼ばれる重み付け方法は、ＳＭＡＲＴ値は後述の定義式から分かる通り，かなり多くの計算を必要とする問題があった。
【０００８】
本発明は，高頻度語にも，低頻度語にも偏らず，部分文書集合が与えられたときに，それに応じてリアルタイムで単語の重みを計算でき，既存の手法より高精度な単語の重み付け方法を提案することである．
【０００９】
【課題を解決するための手段】
本発明では，全語数がNの文書集合中に全部でK回現れる単語が，n語を含む部分文書集合中にk回あらわれるとき，これに，「N個の玉の中に印のついたK個の玉が入っているとき，これから任意にn個の玉を取り出したときに印のついた玉がk個以上含まれる確率」（これをhgs(N, K, n, k)と書く）の対数値の符号を反転させた重みW(N, K, n, k)を与え，この重みを用いて前記部分文書集合中の特徴単語を選択する。ここで，「N個の玉の中に印のついたK個の玉が入っているとき，これから任意にn個の玉を取り出したときに印のついた玉がちょうどk個含まれる確率（超幾何分布）」をhg (N, K, n, k)と書くとき，W(N, K, n, k), hgs(N, K, n, k)，hg(N, K, n, k)は，次の式で定義される：
【００１０】
【数１】

【００１１】
ここで，C(t,u)は， t個のことなるものの中からu個を選ぶ組み合わせの数を表わす。上述の確率は，「個々の単語の出現が独立である」と仮定したとき（独立性の仮定），n語を含む部分文書集合中に特定の単語がk回あらわれることがどのくらい珍しいかを示すものである。
【００１２】
ここで，「k個以上」である場合の和をとるのは，「特定の単語がk個現れる」という事象が，同単語が可能な限り最大個数現れる（すなわち，min{n,K }個現れる）という事象からどの程度離れているかを測るためである。このように和を取ることにより，「出現が少なすぎる方向にめずらしい」場合と，「出現が多すぎる方向に珍しい」場合を区別できる。すなわち，k₁＜k₂であって，hg(N, K, n, k₁)= hg(N, K, n, k₂)の場合，hgs(N, K, n, k₁)> hgs(N, K, n, k₂)，したがってW(N, K, n, k₁)< W(N, K, n, k₂) となる。（図２）
上述の確率的解釈により， Nや Kと比較してnやkが大きな場合も小さな場合も，一貫した意味付けをもつ公平な重み付けができる。言葉を替えれば，SMARTで行われるような文書サイズによる正規化が，確率を使うことにより自動的に行われている。
【００１３】
本発明の重み付けの精度上の優位性は，以下の実験によって確認された。まず，本発明の方式を含む， wを含む文書集合D(w)中の任意の語v重み付けの指標を選び，これら指標の集合をMとする：
tf：詳しくはtf(v|D(w))。もっとも単純な重みで vのD(w)での頻度そのものを用いる。
tf-idf： Saltonらによって提案された方法で(文献2参照)，
tf-idf(v|D(w))=tf(v|D(w))×log(N_all/N(v))
で定義する。ここで， N_allは全文書数， N(v)はvが現れる文書数。
【００１４】
tf/TF：vのD(w)中での出現確率と，全文書中での出現確率とを比較したもので，
tf/TF = tf(v|D(w))/TF(v),
で定義する。但し，TF(v)はvの全文書集合中での頻度。
【００１５】
SMART
情報検索の分野で近年提案されたもので(文献３)，この重みに対して最適化された文書
類似度計算方法とともに用いると，最も高精度な類似文書検索ができるとされている。
【００１６】
【数２】

【００１７】
ここで， Ave{}は，{}内の要素の平均を取るオペレータ。
【００１８】
HGS：数１のW(N,K,n,k)による重み付け。但し，N= N_all，Kはvの全文書での頻度， nはD(w)の単語数，kはvのD(w)での頻度。
【００１９】
次に，日経新聞1998年版より，D(w)の含む文書数が似通ったwを2語ずつ計8単語選んだ。8単語と各々に対するD(w)が含む文書数は次の通り(括弧内の数字がD(w)の文書数)：
{エリツィン(947), オリンピック(934)，オウム (265),エイズ(202),イントラネット(152)，
プリペイドカード(126),オゾン(52)，テポドン(50)}
Mの各要素mにより，各D(w)に含まれる全ての単語を重み付けし，それぞれの上位50位までとった単語の集合をw(m, 50)とし，これらをマージした単語集合をw(M, 50)とする。w(M, 50)の各要素に対し，各単語があらわれるコンテクストを参照し，D(w)の内容を概観するうえで有用と思われるもの(検索内容の確認に有効or内容の絞込みに有効or関連トピックへの手がかりとして有効)にP粕，概観に現れるのにふさわしくないものにN粕，どちらともいえないものにU粕を付与し，各 w(m, 50)中に，w(M, 50)でP粕，N粕と分類される単語がそれぞれ何個含まれるかを数えた。
【００２０】
その結果を示したのが図３，図４である。上記8単語すべてについて， HGSの優位性が示された。
【００２１】
【発明の実施の形態】
以下では，上で与えた文書集合中の単語への重み付けを実現する方法と，その情報検索システムへの応用を示す．
重みを計算するためのシステム構成例を図５に示す．以下図５，６を用いて重み付けの計算について述べる．４０１は記憶装置であり，ハードディスク等を用いて文書データ，各種のプログラムモジュール等を格納する．また，プログラムの作業用領域としても利用される．以下，４０１１は，文書データ．以下の例では日本語を用いるが，言語にはよらない．４０１２は，形態素解析プログラム，文書を構成する単語を同定する．日本語の場合は分かち書き＋品詞付け，英語の場合は原型還元等の処理を行う．この手法については特定しない．両言語とも，商用・研究用をとわずさまざまなシステムが公開されている．４０１３は，単語・文書対応付けモジュール。形態素解析の結果から，どの単語がどの文書に何回あらわれているか，逆にどの文書にどのような単語が何回あらわれているかを調べる．基本的には単語と文書をそれぞれ行・列とする行列の要素を計数により埋める作業であり，この手法については特定しない．４０１４は，単語・文書対応データベース（ＤＢ）。上記で計算された単語・文書対応データを記録するＤＢ．４０１５は，単語ベクトル計算モジュールであって，語wが与えられたとき，４０１４の単語・文書対応ＤＢにより， D(w)中の各単語とその出現回数を求め，それらを記憶した単語ベクトルV(D(w)) を生成すると同時に， D(w)中の全単語数#D(w)を求め，４０１７の作業用領域内に記録する。４０１５が最初に起動された時は，併せて，対象とするDB内の全文書中の単語頻度ベクトルV(D)と全単語数N_allを計算し，４０１７の作業用領域内に記録する。V(D(w))はD(w)中の単語の集合(D(w)の部分でも全体でも)の重み付けがされている間保持され，V(D)とN_allは，全文書集合を変えない限り保持される。これらのデータは，４０１６の語の重み付けモジュールで必要に応じて参照される。図６に４０１６の構成を示す。４０１７は，上に述べた作業用の領域で，複数のプログラム間で共通に参照するデータを記録する．４０２は，入力装置，４０３は，通信装置，４０４は，メインメモリ，４０５は，CPU、４０６は，ディスプレイ，キーボード等より構成される端末装置，である．
４０１６の語の重み付け計算モジュールが， D(w)中の語vの重み付けを求める手法を説明する． D(w)中の語vに対し，４０１７に記録された全文書数N_all， V(D)中に記録されたvのD中の頻度TF(v)，# D(w)， V(D(w)) 中に記録されたvのD中の頻度tf(v|D(w))を求め，N=N_all，K= TF(v), n=# D(w)，k= tf(v|D(w))として，数の組(N, K, n, k)を生成する。そして，数式１に従って，重みW(N,K,n,k)を求める。ここで，数式１の定義式におけるhg(N, K, n, l)の計算に際しては，まず対数を取り積和変換する。階乗t!の計算は，t<150のとき表を引き，そうでないときはStirlingの公式で近似する。こうすることにより，二項分布近似を行うことなく，任意の(N, K, n, l)に対して高精度に直接計算可能である。hgs(N, K, n, k)を求める際は，和の収束性を調べ，収束が早い場合は少ない項数で切り上げる等の工夫をする。また，「特異的に多い」ものを求めるのが目的なので，hg (N, K, n, k+1) >hg (N, K, n, k)のときは，直ちに計算をやめて， W(N, K, n, k)としてlog(hg (N, K, n, k))を返す(これは負値)等の工夫をすることにより，十分な高速計算が可能である。
図６は，本発明を文献検索支援のための検索内容表示に応用する場合の構成例である．本図は，(文献1)の文献検索支援方法において，ナヴィゲーションウィンドウにおける特徴語表示に本発明を適用する場合の検索装置の構成を示したものである．ここで，５４４の特徴単語表示手段作動ルーチンは，５４４１特徴語抽出ルーチン，５４４２共起関係解析ルーチン，５４４３グラフ配置ルーチン，５４４４グラフ表示ルーチンからなる．５４４１の特徴語抽出ルーチンにおいて，図５に示した語の重み付けモジュールを使って語に重みを付け，この重みを利用して(文献1)の方法で単語を選出する．５４４以外の説明は省略する。
【００２２】
【発明の効果】
本発明で提案する語の重み付けを用いる事により，文書集合中の語について，語の頻度の影響を受けない，高精度な語の重み付け方法が実現でき，単語情報検索インタフェースに役立てることができる．
【図面の簡単な説明】
【図１】検索された文書内の「特徴単語」を提示するウィンドウを持つ文書検索システムの例。
【図２】 hgs(N,K,n,k)の模式図。
【図３】五つの重み付けについて，検索結果の要約としてふさわしい単語を上位50位に選出する数を比較したグラフ。
【図４】五つの重み付けについて，検索結果の要約としてふさわしくない単語が上位50位に現れる数を比較したグラフ。
【図５】提案する単語の重要度計算方法を実現するための装置構成。
【図６】文献検索支援のための検索内容表示に本願の重み付けを応用する場合の構成例。
【符号の説明】
４０１：記憶装置
４０１１：文書データ
４０１２：形態素解析プログラム
４０１３：単語・文書対応付けプログラム
４０１４：単語・文書対応データベース（ＤＢ）
４０１５：単語ベクトル計算モジュール
４０１６：語の重み付け計算モジュール
４０１７：作業用の領域
４０２：入力装置
４０３：通信装置
４０４：メインメモリ，
４０５：CPU
４０６：端末装置，
５４４１：特徴語抽出ルーチン
５４４２：共起関係解析ルーチン
５４４３：グラフ配置ルーチン
５４４４：グラフ表示ルーチン。

Claims

記憶装置に格納された全体の単語数がNである文書データと、前記文書データから抽出された部分文書データとから、前記文書データの特徴語を選出して表示する単語選択表示方法であって、
演算手段が、前記記憶装置に格納された第一の計算モジュールによって、前記文書データに含まれる任意の単語Xの出現頻度Kを求め、前記記憶装置の記憶領域に記録するステップと、
前記演算手段が、前記部分文書データについて、前記第一の計算モジュールもしくは前記記憶装置に格納された第二の計算モジュールによって、前記部分文書データの全単語数ｎおよび前記部分文書データに含まれる前記任意の単語Xの出現頻度ｋを求め、前記記憶領域に記録するステップと、
前記記憶装置に格納された第三の計算モジュールによって、前記演算手段が、前記記憶領域のデータを参照して前記N、前記n、前記K、および前記ｋを用い、前記任意の単語Xの重みを、全体でN個の玉の中に赤玉がKあるとき、全体から無作為にn個取り出したときに赤玉がk個以上含まれる確率に対応付け、かつ前記確率が低いほど大きくなるように定めるステップと、
前記演算手段が、前記重みにより、前記文書データを特徴付ける特徴語を選出するするステップと、
前記演算手段が、表示手段に、前記特徴語を表示させるステップとを有することを特徴とする単語選択表示方法。