JP4679003B2

JP4679003B2 - データからの特徴アイテム抽出方法

Info

Publication number: JP4679003B2
Application number: JP2001254905A
Authority: JP
Inventors: 豊松尾; 満石塚
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2001-08-24
Filing date: 2001-08-24
Publication date: 2011-04-27
Anticipated expiration: 2021-08-24
Also published as: JP2003067412A

Description

【０００１】
【発明の属する技術分野】
本発明は、データからの特徴アイテム抽出方法に関するものである。特に、本発明は、文章からキーワードを抽出する方法に関するものである。
【０００２】
【発明の背景】
文書からのキーワード抽出法としては、TFIDFが良く知られている。この方法は、同一カテゴリに含まれる文書における単語の出現傾向をdfとして取り出しておき、それと当データ自身のtf値とを比較することにより、特徴的な語を取り出すものである。この方法は、対象となるデータの大きさがある程度以上あれば、単独で適用することができる。しかしながら、データ量が少ない場合には、適用が難しいという問題がある。
【０００３】
その他、χ²検定により一般語と重要語とを区別しようという研究も行われている。しかしながら、この研究においても、少ないデータ量で精度良くキーワードを得る方法は実現されていない。
【０００４】
【発明が解決しようとする課題】
本発明は、前記の事情を背景としてなされたもので、少ないデータ量であっても、比較的に精度良く特徴アイテムを抽出することができる、特徴アイテム抽出方法の提供を目的としている。
【０００５】
【課題を解決するための手段】
請求項１は、以下の手段を備える特徴アイテム抽出システムとされている。
記憶部に記憶されたデータ中のアイテムから頻出アイテムを抽出する頻出アイテム抽出手段と、前記各アイテムと頻出アイテムとの共起確率分布の偏りに基づいて、前記アイテムから特徴アイテムを抽出する特徴アイテム抽出手段。
【０００６】
請求項２は、請求項１記載の特徴アイテム抽出システムにおいて、前記アイテムを、単数または複数の語であるとしたものである。
【０００７】
請求項３は、請求項２記載の特徴アイテム抽出システムにおいて、前記共起確率を、同じ文中での共起に基づいて算出するものである。
【０００８】
請求項４は、請求項２記載の特徴アイテム抽出システムにおいて、前記共起確率を、前記頻出アイテムの前後における規定された語数の範囲での共起に基づいて算出するものである。
【０００９】
請求項５は、請求項２〜４のいずれか１項記載の特徴アイテム抽出システムにおいて、前記頻出アイテムを、同じ文中に現れる確率の比較的高いものどうしがまとめられてクラスタ化されたものとし、前記共起確率分布の偏りの算出を、前記各アイテムと、前記クラスタ化された頻出アイテムとの間で行うものである。
【００１０】
請求項６は、請求項１〜５のいずれか１項記載の特徴アイテム抽出システムにおいて、前記特徴アイテム抽出手段は、前記データ中における各頻出アイテムの頻度分布を示す情報を取得するステップと、前記頻出アイテムと各アイテムとの共起度の頻度分布を示す情報を取得するステップと、各頻出アイテムの頻度分布を示す情報と、前記共起度の頻度分布を示す情報とに基づいて、前記共起確率分布の偏りを取得するステップと、を行うものである。
【００１１】
請求項７は、請求項６記載の特徴アイテム抽出システムにおいて、前記各頻出アイテムの頻度分布を示す情報とは、各頻出アイテムの出現確率を示す情報であるとする。
【００１２】
請求項８は、請求項１〜７のいずれか１項記載の特徴アイテム抽出システムにおいて、前記共起確率分布の偏りを、下記式におけるχ^２値の大きさとして算出するものである。
【数１】

ただし、この式において、ｗ：アイテム、ｇ：頻出アイテム、Ｇ：全頻出アイテムの集合、ｐ_ｇ：頻出アイテム(g)の出現確率、ｎ_ｗ：アイテム(w)と全頻出アイテムの集合(Ｇ)中の頻出アイテムとの共起頻度の総数、cooc(w,g)：アイテム(w)と頻出アイテム(ｇ)との共起度数、である。
【００１３】
請求項９は、請求項８に記載の特徴アイテム抽出システムにおいて、p_ｇ=（頻出アイテム(ｇ)の出現頻度）／（集合(Ｇ)に属する頻出アイテム(ｇ)全体の出現頻度の合計）であり、ｎ_ｗは、アイテム(ｗ)と集合(Ｇ)中の頻出アイテム(ｇ)との共起頻度の総数であるとする。
【００１４】
請求項１０は、請求項８に記載の特徴アイテム抽出システムにおいて、ｐ_ｇ＝（頻出アイテム(ｇ)が出現する文の語数の合計）／（文書全体の語数の合計）であり、ｎ_ｗは、前記アイテム(ｗ)が出現する文の語数の合計であるとする。
【００１５】
請求項１１は、以下のステップを備える特徴アイテム抽出方法となっている。データ中のアイテムから頻出アイテムを抽出する頻出アイテム抽出ステップと、各アイテムと頻出アイテムとの共起確率分布の偏りに基づいて、前記アイテムから特徴アイテムを抽出する特徴アイテム抽出ステップ。
【００１６】
請求項１２は、コンピュータに、請求項１１に記載の特徴アイテム抽出方法における前記ステップの機能を実行させる、コンピュータで実行または読み取り可能なプログラムとなっている。
【００１９】
【発明の実施の形態】
本発明の一実施形態に係る特徴アイテム抽出方法について、添付の図面を参照しながら以下に説明する。以下の例においては、データの例として文章を用いている。この場合、特徴アイテムとしては、キーワードとなる。
【００２０】
まず、この方法の実施のために用いる、特徴アイテム抽出システムの構成について説明する。このシステムは、ＣＰＵ１と、インタフェース部２と、ＣＰＵ１によって利用可能な記憶部３と、通信部４とを備えている。このようなシステムは、例えばパーソナルコンピュータやワークステーションにより構成することができる。
【００２１】
インタフェース部２は、操作者とコンピュータとのインタフェースを行う機能を有しており、例えば、キーボード、マウスなどの入力機器や、ディスプレイなどの出力機器を含んでいる。
【００２２】
記憶部３は、文書データ３１と、頻出語（頻出アイテムに相当）抽出モジュール３２と、キーワード（特徴アイテムに相当）決定モジュール３３とを備えている。文書データ３１は、抽出対象となる文章のデータである。頻出語抽出モジュール３２は、「文章（データに相当）の中の語（アイテムに相当）から頻出語を抽出する動作」をＣＰＵ１に行わせるソフトウエアである。キーワード決定モジュール３３は、「各アイテムと頻出アイテムとの共起確率分布の偏りに基づいて、アイテムから特徴アイテムを抽出する動作」をＣＰＵ１に行わせるソフトウエアである。各モジュールの動作の詳細は、後述する抽出方法の説明において説明する。記憶部３は、任意のハードウエア、例えばハードディスクによって構成できる。前記モジュール３２および３３を含め、本実施形態の実施のために用いられるソフトウエアは、任意の、コンピュータで利用または読み取り可能な記録媒体に記録しておくことができる。
【００２３】
通信部４は、外部コンピュータとの通信のために用いられるものであり、例えば、ネットワークカードやモデムである。
【００２４】
つぎに、本実施形態に係るキーワード（特徴アイテム）抽出方法について説明する。まず、全体的な手順について図２を用いて説明する。
【００２５】
（ステップＳ２−１）
このステップでは、文章中の単語情報を取得する。まず、文章（その一部でもよい）を文単位および語（単語）単位に分解して、分解結果を文書データ３１に記録する。ここで、言語の種類は問わない。例えば言語が日本語であれば、語単位への分解は、通常の形態素解析を用いて行うことができる。また、文章中に２回以上出現する熟語（語の並び）も一語として把握する。つまり、この実施形態においては、語とは熟語を含む意味である。例えば、「最適化問題」という語が文章中に２回以上出現するのであれば、「最適化」「問題」として把握するほか、「最適化問題」という熟語としても把握する。また、文章中に３回以上出現する熟語（語の並び）を一語として把握してもよい。さらに、熟語を構成する語の数の上限を定めてもよい。さらに、「最適化問題」という語の並びを「最適化問題」という熟語として把握した際には「最適化」「問題」というばらばらの語としては把握しないという処理も可能である。
【００２６】
言語が日本語であれば、語として取り出すものは、名詞、動詞、形容詞、形容動詞、未知語のみとする。さらに、「こと」「もの」「する」「なる」などの一般的な語は不要語として削除する。言語が英語であれば、例えば、サルトン（Salton）のストップワード（stop word）として知られる不要語を削除する。このように、言語に拘わらず、不要語を処理することが望ましい。また、言語が日本語であれば、動詞や形容詞、形容動詞は語の原形または語幹の形式とする。言語が英語であれば動詞の活用語尾であるingやed、複数形のsなどを除去するステミング（stemming）という処理を行う。言語に拘わらず、語の活用語尾の処理を行っておくことが望ましい。なお、本実施形態では、同じ文中でｎ回出現した語は、そのまま、ｎ回の出現頻度と把握する。しかし、同文中でｎ回出現した場合には、１回の出現頻度と把握することも可能である。
例えば、「日本語の場合は、形態素解析を行い、名詞、動詞、形容詞だけを原形の形で分かち書きします。」という文章を仮定すると、まず、文を、「日本語場合形態素行う名詞動詞形容詞原形形分かつ書く。」とする。この文の各語が取得される。このステップの機能は、例えば、頻出語抽出モジュール３２によって実行される。
【００２７】
（ステップＳ２−２）：請求項１のステップ（１）に対応
ついで、前記語から、頻出語を抽出する。頻出語の抽出は、次のように行う。すなわち、対象となる文章中の各語について、出現頻度を計算し、頻度の多い語（例えば文章全体で１０００語のうちの上位１０語）を頻出語とする。ここで、本実施形態では、頻出語の把握においては、同じ一文中で共に現れる確率の高いものどうしをまとめてクラスタ化しておく。本実施形態における一つの頻出語とは、このようにクラスタ化された一つの群を示す。
【００２８】
頻出語のクラスタ化の一例を以下に示す。語aと語bとが出現する文の数のJaccard係数が閾値(0.5)を越えれば、語aと語bとは同一のクラスタ（つまり同一の頻出語）とする。Jaccard係数J(a, b)は、以下の式で与えられ、語aと語bの集合の重なり具合を示している。

【００２９】
ただし、S(a∩b)は語aと語bの両方が出現する文の数、S(a∪b)は語aまたは語bが出現する文の数とする。クラスタ化の方法としては、Jaccard係数を用いる方法の他にも、両語の共起頻度を用いる方法、相互情報量を用いる方法、および、他の語との共起の分布の類似度を用いる方法などがある。他の語との共起の分布の類似度を用いる方法は、例えば、語aと他の語c,d,e,...,x,y,z、語bと他の語c,d,e,...,x,y,zの共起分布が似ていれば語aと語bを同じクラスタとするものである。つまり、共起行列において分布の類似している２つの列をまとめる操作となる。なお、クラスタ化は、後述する、語と頻出語との共起度の頻度を取得した後に行われ、同一クラスタに属する語についての共起度の頻度を足し合わせて一つにまとめることになる。ただし、クラスタ化の時期はこれに限らず、それより前に行われても良い。この場合は、まずクラスタ単位で共起度を取得することになる。このようなクラスタ化を行うことで、共起度を求める際に、同様の語をまとめてカウントすることができ、共起行列（すなわち共起度の頻度分布）がより適切な値になる。
【００３０】
以下、例を挙げて説明する。表１に、ある文書における上位１０個の頻出語（ａ〜ｊ）と、その出現度数（頻度）と、出現確率（その頻出語が出現する度数を全頻出語の出現度数で割ったもの）の分布とを示す。
【００３１】
【表１】

【００３２】
このステップＳ２−２は、頻出語抽出モジュール３２により実行される。
【００３３】
（ステップＳ２−３）：請求項１のステップ（２）に対応
このステップにおいては、各語と頻出語との共起確率分布の偏りに基づいて、語のうちから特徴アイテムを抽出する。この操作を、図３に基づいてさらに詳しく説明する。なお、このステップＳ２−３は、キーワード決定モジュール３３によって実行される。
【００３４】
（ステップＳ３−１）
まず、各頻出語の頻度分布を示す情報を取得する。この情報とは、例えば、各頻出語の頻度分布、および、各頻出語の（理論）出現確率である。この情報は、前記ステップＳ２−２において取得できる。このように、各ステップは、独立で存在しなくても良く、実質的にそのステップの機能が実行されればよい。
【００３５】
（ステップＳ３−２）
次に、各語と頻出語との共起度（すなわち共起回数）の頻度分布を取得する。このステップを具体的に説明する。同じ文の中で、各頻出語と共起する各語の頻度を集計することにより、表２のような共起行列を作ることができる。これが共起度の頻度分布の一例である。
【表２】

【００３６】
この表は、頻出語上位10語(表中ａ〜ｊ；頻出語の集合をGとする)についての行列を求めたものである。上部における10×10の行列は対称行列である。この対称行列における対角要素は、各頻出語の文書中での出現回数を表す。さらに、この行列は、下方向には、頻出語以外の語（〜ｘ）も扱っている。つまり、この表は、頻出語とは限らないある語wと頻出語g∈Gの共起度数を示している。共起度計算の例を以下に説明する。例えば、
「今日は暑い。昨日も関東地方は暑かった。」
という文を仮定する。ここにおいては、(今日、暑い）は、最初の文において１回共起している。２番目の文においては、（昨日、関東）、（昨日、地方）、（昨日、暑い）、（関東、地方）、（関東、暑い）、（地方、暑い）もそれぞれ１回共起していることになる。
【００３７】
共起行列中で、語wに対応する行の各要素をその行の要素の合計値（表２における計の列の値に相当する）で割ることにより、語wと頻出語gとの共起確率分布が得られる。ここで、仮に、語wが頻出語g∈Gと全く独立に生起するなら、語wと語g∈Gが共起する確率分布は、表１の確率分布（つまり頻出語の確率分布）と同様になるはずである。一方、語wと頻出語g∈Gの間に何らかの意味的なつながりがあれば、確率分布は偏ることになる。なお、ここで、確率分布とは、実質的に確率を表すものであればよく、共起頻度をそのまま数値として用いて以下の計算を行うことも可能である。
【００３８】
図４および図５に、ある語と頻出語との共起確率の分布と、頻出語単独での出現確率（図中手前）の分布の比較の一例を示す。いずれの語も、10回前後しか文書中に出現していないが、discussionやcaseなどの一般的な語は、どの頻出語g∈Gとも同じような割合で用いられるのに対し、transformation Lやhypothesesなどの語は大きく偏った分布をしている。これらの語は、特定の語とは選択的に多く共起しているが、その他の語とはほとんど共起していない。こういった、分布に偏りのある語は、文書中で何らかの意味を持っていると考えられる。実際、もとになった文書は「仮説推論におけるホーン節から制約式への変換方法のひとつである変換 L」について述べた論文なので、transformation Lやhypothesesなどの語は、論文中で出現頻度は少ないが重要な語である。
【００３９】
（ステップＳ３−３）
ついで、χ^２値を全ての語ｗについて計算する。前記したように、ある語の共起確率の分布が、基準となる出現確率から大きくずれていれば、その語は特徴的な語であり、文章において重要な語である可能性が高いと考えることができる。しかしながら、語の出現頻度自体が少なければ確率分布のずれは信頼できなくなる。例えば、表１から、語aの出現確率は0.177である。このとき、出現回数１回の語w₁が語aと1回（つまり確率1で）共起していることよりも、出現回数10回の語w₂が語aと10回（つまり確率1で）共起している方が、基準からのずれは大きいはずである。したがって、統計的に有意なずれを評価するために、χ²検定を用いる。
【００４０】
このステップでは、頻出語単独での出現確率(表１)を出現確率p_g (g ∈ G)とし、語wと頻出語ｇとの共起頻度の総数をn_w（表２における語wに対応する行の「計」の列の値に相当する）、(実際に観測された)共起度数をcooc(w,g)（表２における語w（表中のａ〜ｘ）に対応する行の値、または、頻出語g（表中のａ〜ｊ）に対応する列の値に相当する）として、各語ｗについて、統計量χ²を以下の（１）式で求める。

【００４１】
つまり、各頻出語ｇについての共起度数cooc(w,g)が、表１における共起度の頻度分布に相当する。よって、共起度数cooc(w,g)は、本実施形態における「頻度分布を示す情報」に相当する。また、（１）式において、n_wp_gは、頻出語ｇについての理論共起度数を示している。
【００４２】
χ²(w)＞χ_α ^２であれば、「語wの頻出語g∈Gとの共起回数(観測度数)は（理論）出現確率p_g (g∈G)に適合している」という仮説H₀が有意水準αで棄却される。（χ_α ^２は通常χ²分布表より得る）。したがって、χ²(w)の大きな語wは、出現確率からのずれが大きな語と判断することができる。このような語をキーワードとする（ステップＳ３−４）。
【００４３】
例として、表３、表４に、χ²の値が高い語上位10個、低い語上位10個をそれぞれ示した。なお、これらは、25個の頻出語(表５)を基準としており、その分布のずれを測っている。表から分かる通り、χ²値の高い語は、特徴的な（すなわち論旨と直接関係する可能性の高い）語であり、χ²値の低い語は一般的な語である傾向が強い。
【表３】

【表４】

【表５】

【００４４】
本実施形態の方法は、最初にデータ自身の全体的な傾向を求め、それと大きく異なる特徴を持つアイテムを取り出すものと言える。
【００４５】
【実施例】
（実施例１）
前記実施形態の方法を用いて、下記論文からキーワードを抽出した。比較のため、頻出語のみからキーワードを抽出した例も示す。
論文：「SL法：線形計画法と非線形計画法の併用によるコストに基づく仮説推論の準最適解計算」（松尾豊、二田丈之、石塚満：人工知能学会誌Vol.13, No.6, pp.953-961,1998）
【表６】

【表７】

【００４６】
前記の論文を要約すると、「コストに基づく仮説推論の準最適解を得るSL法という手法を提案する。SL法は、まず仮説推論問題を線形計画問題に置き換え、単体法で初期探索点を決定した後、その周りを非線形関数を最小化することにより探索を行う。局所最適解に陥った場合には固定化を行う。」という内容である。従って、本実施形態では、「準最適解」や「非線形関数最小化」など、論文中の主旨である語が、論文中の文章のみを解析することでうまく取り出すことができた。
【００４７】
（実施例２）
下記のURLから取得した小泉首相所信表明演説に対して、本実施形態の方法を適用した。結果は下記の通りである。
http://www.kantei.go.jp/jp/koizumispeech/2001/0507syosin.html
【表８】

【表９】

【００４８】
前記演説の内容は、構造改革、経済について、外交についてなど多岐に渡っており、この演説のメインのテーマである「新世紀維新」という語は２回しか言及されていない。しかしながら、本実施形態の方法では、この語をキーワードとして取り出すことができた。
【００４９】
（実施例３）
朝日新聞2001年7月1日社説「ＰＬ野球部――暴力の温床を断とう」に本実施形態の方法を適用した。結果は下記の通りである。
【表１０】

【表１１】

【００５０】
前記社説は、野球部での暴力問題と、日本の高校・大学スポーツでのしごきについてのものである。主旨は、指導者が事態を改善する努力をすべきであるというものである。したがって、本実施形態により、適切なキーワードを抽出できていることが判る。
【００５１】
なお、前記実施形態の記載は単なる一例に過ぎず、本発明に必須の構成を示したものではない。各部の構成は、本発明の趣旨を達成できるものであれば、上記に限らない。例えば、特徴アイテム抽出システムは、複数のコンピュータの協働によって実現されても良い。また、前記した各モジュールが分割されたり集約されたプログラムとなっていてもよい。「各アイテムと頻出アイテムとの共起確率分布の偏りを判断する手法」としては、χ²検定以外に、カルバック・ライブラー情報量を使うものや、尤度比検定、フィッシャーの正確検定、コルモゴロフ・スミルノフ検定がある。
【００５２】
さらに、前記実施形態では、共起度を、同じ文中であることを基準として測定したが、頻出語の前後における単語数の範囲（例えば前後５語づつの範囲）を規定し、その範囲での共起度を測定してもよい。また、共起度を、同文中でかつ、頻出語の前後における規定の単語数の範囲内で測定するもの、としてもよい。さらに、頻出語の出現する理論出現確率p_g (g ∈ G)を、（gが出現する文の語数の合計）/（文書全体の語数の合計）とし、前記（１）式中のn_wを語wが出現する文の語数の合計とすることができる。このようにすると、χ^２値について、文の長さを考慮した（つまり短い文で共起する２つの語はより関係が強いと考える）正確な計算結果が得られる。
【００５３】
【発明の効果】
本発明によれば、少ないデータ量であっても、比較的に精度良く特徴アイテムを抽出できる特徴アイテム抽出方法を提供することができる。
【図面の簡単な説明】
【図１】本発明の一実施形態におけるキーワード抽出システムの概略的な構成を示すブロック図である。
【図２】本発明の一実施形態におけるキーワード抽出方法の概略的な手順を示すフローチャートである。
【図３】本発明の一実施形態におけるキーワード抽出方法において、キーワード決定についての手順を示すフローチャートである。
【図４】本実施形態における確率分布の偏りの一例を示すグラフである。
【図５】本実施形態における確率分布の偏りの他の例を示すグラフである。
【符号の説明】
１ＣＰＵ
２インタフェース部
３記憶部
３１文書データ
３２頻出語（頻出アイテム）抽出モジュール
３３キーワード（特徴アイテム）決定モジュール
４通信部

Claims

記憶部に記憶されたデータ中のアイテムから出現頻度が高い所定数のアイテムを頻出アイテムとして抽出する頻出アイテム抽出手段と、
前記頻出アイテム抽出手段が抽出した前記頻出アイテムの出現度数を、全ての頻出アイテムの出現度数の合計で除算することにより算出した出現確率の分布に対して、前記記憶部に記憶されたアイテムであって前記頻出アイテム以外の各アイテムのうち前記頻出アイテムとの共起確率の分布のずれが大きいものほど、前記記憶部に記憶されたデータの特徴を示す特徴アイテムとして当該アイテムを抽出する特徴アイテム抽出手段と、
を備えることを特徴とする特徴アイテム抽出システム。
前記データは、文章またはその一部であり、
前記アイテムは、単数または複数の語であることを特徴とする請求項１記載の特徴アイテム抽出システム。
前記共起確率は、
同じ文中での共起に基づいて算出されることを特徴とする請求項２記載の特徴アイテム抽出システム。
前記共起確率は、
前記頻出アイテムの前後における規定された語数の範囲での共起に基づいて算出されることを特徴とする請求項２記載の特徴アイテム抽出システム。
前記頻出アイテムは、
同じ文中に現れる確率が所定の閾値よりも高いものどうしがまとめられてクラスタ化されており、
前記共起確率の分布の算出は、
前記各アイテムと、前記クラスタ化された頻出アイテムとの間で行われることを特徴とする請求項２〜４のいずれか１項記載の特徴アイテム抽出システム。
前記出現確率と前記共起確率との分布のずれは、
下記式におけるχ^２値の大きさとして算出されることを特徴とする請求項１〜５のいずれか１項記載の特徴アイテム抽出システム。

ただし、この式において、
ｗ：アイテム、
ｇ：頻出アイテム、
Ｇ：全頻出アイテムの集合
ｐ_ｇ：頻出アイテム（ｇ）の出現度数を全ての頻出アイテム（ｇ）の出現度数の合計で除算して算出した出現確率、
ｎ_ｗ：アイテム（ｗ）と全頻出アイテムの集合（Ｇ）中の頻出アイテムとの共起頻度の総数、
ｃｏｏｃ（ｗ，ｇ）：アイテム（ｗ）と頻出アイテム（ｇ）との共起度数、である。
ｐ_ｇ＝（頻出アイテム（ｇ）の出現頻度）／（集合（Ｇ）に属する頻出アイテム（ｇ）全体の出現頻度の合計）であり、ｎ_ｗは、アイテム（ｗ）と集合（Ｇ）中の頻出アイテム（ｇ）との共起頻度の総数であることを特徴とする請求項６に記載の特徴アイテム抽出システム。
ｐ_ｇ＝（頻出アイテム（ｇ）が出現する文の語数の合計）／（文書全体の語数の合計）であり、
ｎ_ｗは、前記アイテム（ｗ）が出現する文の語数の合計であることを特徴とする請求項６に記載の特徴アイテム抽出システム。
コンピュータが、データ中のアイテムから出現頻度が高い所定数のアイテムを頻出アイテムとして抽出する頻出アイテム抽出ステップと、
前記コンピュータが、前記頻出アイテム抽出ステップにおいて抽出した前記頻出アイテムの出現度数を、全ての頻出アイテムの出現度数の合計で除算することにより算出した出現確率の分布に対して、前記データ中のアイテムであって前記頻出アイテム以外の各アイテムのうち前記頻出アイテムとの共起確率の分布のずれが大きいものほど、前記データの特徴を示す特徴アイテムとして当該アイテムを抽出する特徴アイテム抽出ステップと、
を備えることを特徴とする特徴アイテム抽出方法。
コンピュータに、
請求項９に記載の方法を実行させることを特徴とするコンピュータで実行または読み取り可能なプログラム。