JP4679003B2 - データからの特徴アイテム抽出方法 - Google Patents

データからの特徴アイテム抽出方法 Download PDF

Info

Publication number
JP4679003B2
JP4679003B2 JP2001254905A JP2001254905A JP4679003B2 JP 4679003 B2 JP4679003 B2 JP 4679003B2 JP 2001254905 A JP2001254905 A JP 2001254905A JP 2001254905 A JP2001254905 A JP 2001254905A JP 4679003 B2 JP4679003 B2 JP 4679003B2
Authority
JP
Japan
Prior art keywords
item
frequent
items
feature
occurrence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2001254905A
Other languages
English (en)
Other versions
JP2003067412A5 (ja
JP2003067412A (ja
Inventor
豊 松尾
満 石塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2001254905A priority Critical patent/JP4679003B2/ja
Publication of JP2003067412A publication Critical patent/JP2003067412A/ja
Publication of JP2003067412A5 publication Critical patent/JP2003067412A5/ja
Application granted granted Critical
Publication of JP4679003B2 publication Critical patent/JP4679003B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、データからの特徴アイテム抽出方法に関するものである。特に、本発明は、文章からキーワードを抽出する方法に関するものである。
【0002】
【発明の背景】
文書からのキーワード抽出法としては、TFIDFが良く知られている。この方法は、同一カテゴリに含まれる文書における単語の出現傾向をdfとして取り出しておき、それと当データ自身のtf値とを比較することにより、特徴的な語を取り出すものである。この方法は、対象となるデータの大きさがある程度以上あれば、単独で適用することができる。しかしながら、データ量が少ない場合には、適用が難しいという問題がある。
【0003】
その他、χ2検定により一般語と重要語とを区別しようという研究も行われている。しかしながら、この研究においても、少ないデータ量で精度良くキーワードを得る方法は実現されていない。
【0004】
【発明が解決しようとする課題】
本発明は、前記の事情を背景としてなされたもので、少ないデータ量であっても、比較的に精度良く特徴アイテムを抽出することができる、特徴アイテム抽出方法の提供を目的としている。
【0005】
【課題を解決するための手段】
請求項1は、以下の手段備える特徴アイテム抽出システムとされている。
記憶部に記憶されたデータ中のアイテムから頻出アイテムを抽出する頻出アイテム抽出手段と、前記各アイテムと頻出アイテムとの共起確率分布の偏りに基づいて、前記アイテムから特徴アイテムを抽出する特徴アイテム抽出手段
【0006】
請求項2は、請求項1記載の特徴アイテム抽出システムにおいて、前記アイテムを単数または複数の語であるとしたものである。
【0007】
請求項3は、請求項2記載の特徴アイテム抽出システムにおいて、前記共起確率を、同じ文中での共起に基づいて算出するものである。
【0008】
請求項4は、請求項2記載の特徴アイテム抽出システムにおいて、前記共起確率を、前記頻出アイテムの前後における規定された語数の範囲での共起に基づいて算出するものである。
【0009】
請求項5は、請求項2〜4のいずれか1項記載の特徴アイテム抽出システムにおいて、前記頻出アイテムを、同じ文中に現れる確率の比較的高いものどうしがまとめられてクラスタ化されたものとし、前記共起確率分布の偏りの算出を、前記各アイテムと、前記クラスタ化された頻出アイテムとの間で行うものである。
【0010】
請求項6は、請求項1〜5のいずれか1項記載の特徴アイテム抽出システムにおいて、前記特徴アイテム抽出手段は、前記データ中における各頻出アイテムの頻度分布を示す情報を取得するステップと、前記頻出アイテムと各アイテムとの共起度の頻度分布を示す情報を取得するステップと、各頻出アイテムの頻度分布を示す情報と、前記共起度の頻度分布を示す情報とに基づいて、前記共起確率分布の偏りを取得するステップと、を行うものである
【0011】
請求項7は、請求項6記載の特徴アイテム抽出システムにおいて、前記各頻出アイテムの頻度分布を示す情報とは、各頻出アイテムの出現確率を示す情報であるとする。
【0012】
請求項8は、請求項1〜7のいずれか1項記載の特徴アイテム抽出システムにおいて、前記共起確率分布の偏りを、下記式におけるχ値の大きさとして算出するものである。
【数1】
Figure 0004679003
ただし、この式において、w:アイテム、g:頻出アイテム、G:全頻出アイテムの集合:頻出アイテム(g)の出現確率、n:アイテム(w)と全頻出アイテムの集合(G)中の頻出アイテムとの共起頻度の総数、cooc(w,g):アイテム(w)と頻出アイテム(g)との共起度数、である。
【0013】
請求項9は、請求項8に記載の特徴アイテム抽出システムにおいて、p=(頻出アイテム(g)の出現頻度)/(集合(G)に属する頻出アイテム(g)全体の出現頻度の合計)であり、nは、アイテム(w)と集合(G)中の頻出アイテム(g)との共起頻度の総数であるとする。
【0014】
請求項10は、請求項8に記載の特徴アイテム抽出システムにおいて、p=(頻出アイテム(g)が出現する文の語数の合計)/(文書全体の語数の合計)であり、nは、前記アイテム(w)が出現する文の語数の合計であるとする。
【0015】
請求項11は、以下のステップを備える特徴アイテム抽出方法となっている。データ中のアイテムから頻出アイテムを抽出する頻出アイテム抽出ステップと、各アイテムと頻出アイテムとの共起確率分布の偏りに基づいて、前記アイテムから特徴アイテムを抽出する特徴アイテム抽出ステップ
【0016】
請求項12は、コンピュータに、請求項11に記載の特徴アイテム抽出方法における前記ステップの機能を実行させる、コンピュータで実行または読み取り可能なプログラムとなっている。
【0019】
【発明の実施の形態】
本発明の一実施形態に係る特徴アイテム抽出方法について、添付の図面を参照しながら以下に説明する。以下の例においては、データの例として文章を用いている。この場合、特徴アイテムとしては、キーワードとなる。
【0020】
まず、この方法の実施のために用いる、特徴アイテム抽出システムの構成について説明する。このシステムは、CPU1と、インタフェース部2と、CPU1によって利用可能な記憶部3と、通信部4とを備えている。このようなシステムは、例えばパーソナルコンピュータやワークステーションにより構成することができる。
【0021】
インタフェース部2は、操作者とコンピュータとのインタフェースを行う機能を有しており、例えば、キーボード、マウスなどの入力機器や、ディスプレイなどの出力機器を含んでいる。
【0022】
記憶部3は、文書データ31と、頻出語(頻出アイテムに相当)抽出モジュール32と、キーワード(特徴アイテムに相当)決定モジュール33とを備えている。文書データ31は、抽出対象となる文章のデータである。頻出語抽出モジュール32は、「文章(データに相当)の中の語(アイテムに相当)から頻出語を抽出する動作」をCPU1に行わせるソフトウエアである。キーワード決定モジュール33は、「各アイテムと頻出アイテムとの共起確率分布の偏りに基づいて、アイテムから特徴アイテムを抽出する動作」をCPU1に行わせるソフトウエアである。各モジュールの動作の詳細は、後述する抽出方法の説明において説明する。記憶部3は、任意のハードウエア、例えばハードディスクによって構成できる。前記モジュール32および33を含め、本実施形態の実施のために用いられるソフトウエアは、任意の、コンピュータで利用または読み取り可能な記録媒体に記録しておくことができる。
【0023】
通信部4は、外部コンピュータとの通信のために用いられるものであり、例えば、ネットワークカードやモデムである。
【0024】
つぎに、本実施形態に係るキーワード(特徴アイテム)抽出方法について説明する。まず、全体的な手順について図2を用いて説明する。
【0025】
(ステップS2−1)
このステップでは、文章中の単語情報を取得する。まず、文章(その一部でもよい)を文単位および語(単語)単位に分解して、分解結果を文書データ31に記録する。ここで、言語の種類は問わない。例えば言語が日本語であれば、語単位への分解は、通常の形態素解析を用いて行うことができる。また、文章中に2回以上出現する熟語(語の並び)も一語として把握する。つまり、この実施形態においては、語とは熟語を含む意味である。例えば、「最適化 問題」という語が文章中に2回以上出現するのであれば、「最適化」「問題」として把握するほか、「最適化問題」という熟語としても把握する。また、文章中に3回以上出現する熟語(語の並び)を一語として把握してもよい。さらに、熟語を構成する語の数の上限を定めてもよい。さらに、「最適化 問題」という語の並びを「最適化問題」という熟語として把握した際には「最適化」「問題」というばらばらの語としては把握しないという処理も可能である。
【0026】
言語が日本語であれば、語として取り出すものは、名詞、動詞、形容詞、形容動詞、未知語のみとする。さらに、「こと」「もの」「する」「なる」などの一般的な語は不要語として削除する。言語が英語であれば、例えば、サルトン(Salton)のストップワード(stop word)として知られる不要語を削除する。このように、言語に拘わらず、不要語を処理することが望ましい。また、言語が日本語であれば、動詞や形容詞、形容動詞は語の原形または語幹の形式とする。言語が英語であれば動詞の活用語尾であるingやed、複数形のsなどを除去するステミング(stemming)という処理を行う。言語に拘わらず、語の活用語尾の処理を行っておくことが望ましい。なお、本実施形態では、同じ文中でn回出現した語は、そのまま、n回の出現頻度と把握する。しかし、同文中でn回出現した場合には、1回の出現頻度と把握することも可能である。
例えば、「日本語の場合は、形態素解析を行い、名詞、動詞、形容詞だけを原形の形で分かち書きします。」という文章を仮定すると、まず、文を、「日本語場合 形態素 行う 名詞 動詞 形容詞 原形 形 分かつ 書く。」とする。この文の各語が取得される。このステップの機能は、例えば、頻出語抽出モジュール32によって実行される。
【0027】
(ステップS2−2):請求項1のステップ(1)に対応
ついで、前記語から、頻出語を抽出する。頻出語の抽出は、次のように行う。すなわち、対象となる文章中の各語について、出現頻度を計算し、頻度の多い語(例えば文章全体で1000語のうちの上位10語)を頻出語とする。ここで、本実施形態では、頻出語の把握においては、同じ一文中で共に現れる確率の高いものどうしをまとめてクラスタ化しておく。本実施形態における一つの頻出語とは、このようにクラスタ化された一つの群を示す。
【0028】
頻出語のクラスタ化の一例を以下に示す。語aと語bとが出現する文の数のJaccard係数が閾値(0.5)を越えれば、語aと語bとは同一のクラスタ(つまり同一の頻出語)とする。Jaccard係数J(a, b)は、以下の式で与えられ、語aと語bの集合の重なり具合を示している。
Figure 0004679003
【0029】
ただし、S(a∩b)は語aと語bの両方が出現する文の数、S(a∪b)は語aまたは語bが出現する文の数とする。クラスタ化の方法としては、Jaccard係数を用いる方法の他にも、両語の共起頻度を用いる方法、相互情報量を用いる方法、および、他の語との共起の分布の類似度を用いる方法などがある。他の語との共起の分布の類似度を用いる方法は、例えば、語aと他の語c,d,e,...,x,y,z、語bと他の語c,d,e,...,x,y,zの共起分布が似ていれば語aと語bを同じクラスタとするものである。つまり、共起行列において分布の類似している2つの列をまとめる操作となる。なお、クラスタ化は、後述する、語と頻出語との共起度の頻度を取得した後に行われ、同一クラスタに属する語についての共起度の頻度を足し合わせて一つにまとめることになる。ただし、クラスタ化の時期はこれに限らず、それより前に行われても良い。この場合は、まずクラスタ単位で共起度を取得することになる。このようなクラスタ化を行うことで、共起度を求める際に、同様の語をまとめてカウントすることができ、共起行列(すなわち共起度の頻度分布)がより適切な値になる。
【0030】
以下、例を挙げて説明する。表1に、ある文書における上位10個の頻出語(a〜j)と、その出現度数(頻度)と、出現確率(その頻出語が出現する度数を全頻出語の出現度数で割ったもの)の分布とを示す。
【0031】
【表1】
Figure 0004679003
【0032】
このステップS2−2は、頻出語抽出モジュール32により実行される。
【0033】
(ステップS2−3):請求項1のステップ(2)に対応
このステップにおいては、各語と頻出語との共起確率分布の偏りに基づいて、語のうちから特徴アイテムを抽出する。この操作を、図3に基づいてさらに詳しく説明する。なお、このステップS2−3は、キーワード決定モジュール33によって実行される。
【0034】
(ステップS3−1)
まず、各頻出語の頻度分布を示す情報を取得する。この情報とは、例えば、各頻出語の頻度分布、および、各頻出語の(理論)出現確率である。この情報は、前記ステップS2−2において取得できる。このように、各ステップは、独立で存在しなくても良く、実質的にそのステップの機能が実行されればよい。
【0035】
(ステップS3−2)
次に、各語と頻出語との共起度(すなわち共起回数)の頻度分布を取得する。このステップを具体的に説明する。同じ文の中で、各頻出語と共起する各語の頻度を集計することにより、表2のような共起行列を作ることができる。これが共起度の頻度分布の一例である。
【表2】
Figure 0004679003
【0036】
この表は、頻出語上位10語(表中a〜j;頻出語の集合をGとする)についての行列を求めたものである。上部における10×10の行列は対称行列である。この対称行列における対角要素は、各頻出語の文書中での出現回数を表す。さらに、この行列は、下方向には、頻出語以外の語(〜x)も扱っている。つまり、この表は、頻出語とは限らないある語wと頻出語g∈Gの共起度数を示している。共起度計算の例を以下に説明する。例えば、
「今日は暑い。昨日も関東地方は暑かった。」
という文を仮定する。ここにおいては、(今日、暑い)は、最初の文において1回共起している。2番目の文においては、(昨日、関東)、(昨日、地方)、(昨日、暑い)、(関東、地方)、(関東、暑い)、(地方、暑い)もそれぞれ1回共起していることになる。
【0037】
共起行列中で、語wに対応する行の各要素をその行の要素の合計値(表2における計の列の値に相当する)で割ることにより、語wと頻出語gとの共起確率分布が得られる。ここで、仮に、語wが頻出語g∈Gと全く独立に生起するなら、語wと語g∈Gが共起する確率分布は、表1の確率分布(つまり頻出語の確率分布)と同様になるはずである。一方、語wと頻出語g∈Gの間に何らかの意味的なつながりがあれば、確率分布は偏ることになる。なお、ここで、確率分布とは、実質的に確率を表すものであればよく、共起頻度をそのまま数値として用いて以下の計算を行うことも可能である。
【0038】
図4および図5に、ある語と頻出語との共起確率の分布と、頻出語単独での出現確率(図中手前)の分布の比較の一例を示す。いずれの語も、10回前後しか文書中に出現していないが、discussionやcaseなどの一般的な語は、どの頻出語g∈Gとも同じような割合で用いられるのに対し、transformation Lやhypothesesなどの語は大きく偏った分布をしている。これらの語は、特定の語とは選択的に多く共起しているが、その他の語とはほとんど共起していない。こういった、分布に偏りのある語は、文書中で何らかの意味を持っていると考えられる。実際、もとになった文書は「仮説推論におけるホーン節から制約式への変換方法のひとつである変換 L」について述べた論文なので、transformation Lやhypothesesなどの語は、論文中で出現頻度は少ないが重要な語である。
【0039】
(ステップS3−3)
ついで、χ値を全ての語wについて計算する。前記したように、ある語の共起確率の分布が、基準となる出現確率から大きくずれていれば、その語は特徴的な語であり、文章において重要な語である可能性が高いと考えることができる。しかしながら、語の出現頻度自体が少なければ確率分布のずれは信頼できなくなる。例えば、表1から、語aの出現確率は0.177である。このとき、出現回数1回の語w1が語aと1回(つまり確率1で)共起していることよりも、出現回数10回の語w2が語aと10回(つまり確率1で)共起している方が、基準からのずれは大きいはずである。したがって、統計的に有意なずれを評価するために、χ2検定を用いる。
【0040】
このステップでは、頻出語単独での出現確率(表1)を出現確率pg (g ∈ G)とし、語wと頻出語gとの共起頻度の総数をnw(表2における語wに対応する行の「計」の列の値に相当する)、(実際に観測された)共起度数をcooc(w,g)(表2における語w(表中のa〜x)に対応する行の値、または、頻出語g(表中のa〜j)に対応する列の値に相当する)として、各語wについて、統計量χ2を以下の(1)式で求める。
Figure 0004679003
【0041】
つまり、各頻出語gについての共起度数cooc(w,g)が、表1における共起度の頻度分布に相当する。よって、共起度数cooc(w,g)は、本実施形態における「頻度分布を示す情報」に相当する。また、(1)式において、nwpgは、頻出語gについての理論共起度数を示している。
【0042】
χ2(w)>χα であれば、「語wの頻出語g∈Gとの共起回数(観測度数)は(理論)出現確率pg (g∈G)に適合している」という仮説H0が有意水準αで棄却される。(χα は通常χ2分布表より得る)。したがって、χ2(w)の大きな語wは、出現確率からのずれが大きな語と判断することができる。このような語をキーワードとする(ステップS3−4)。
【0043】
例として、表3、表4に、χ2の値が高い語上位10個、低い語上位10個をそれぞれ示した。なお、これらは、25個の頻出語(表5)を基準としており、その分布のずれを測っている。表から分かる通り、χ2値の高い語は、特徴的な(すなわち論旨と直接関係する可能性の高い)語であり、χ2値の低い語は一般的な語である傾向が強い。
【表3】
Figure 0004679003
【表4】
Figure 0004679003
【表5】
Figure 0004679003
【0044】
本実施形態の方法は、最初にデータ自身の全体的な傾向を求め、それと大きく異なる特徴を持つアイテムを取り出すものと言える。
【0045】
【実施例】
(実施例1)
前記実施形態の方法を用いて、下記論文からキーワードを抽出した。比較のため、頻出語のみからキーワードを抽出した例も示す。
論文:「SL法:線形計画法と非線形計画法の併用によるコストに基づく仮説推論の準最適解計算」(松尾 豊、二田 丈之、石塚 満:人工知能学会誌Vol.13, No.6, pp.953-961,1998)
【表6】
Figure 0004679003
【表7】
Figure 0004679003
【0046】
前記の論文を要約すると、「コストに基づく仮説推論の準最適解を得るSL法という手法を提案する。SL法は、まず仮説推論問題を線形計画問題に置き換え、単体法で初期探索点を決定した後、その周りを非線形関数を最小化することにより探索を行う。局所最適解に陥った場合には固定化を行う。」という内容である。従って、本実施形態では、「準最適解」や「非線形関数最小化」など、論文中の主旨である語が、論文中の文章のみを解析することでうまく取り出すことができた。
【0047】
(実施例2)
下記のURLから取得した小泉首相所信表明演説に対して、本実施形態の方法を適用した。結果は下記の通りである。
http://www.kantei.go.jp/jp/koizumispeech/2001/0507syosin.html
【表8】
Figure 0004679003
【表9】
Figure 0004679003
【0048】
前記演説の内容は、構造改革、経済について、外交についてなど多岐に渡っており、この演説のメインのテーマである「新世紀維新」という語は2回しか言及されていない。しかしながら、本実施形態の方法では、この語をキーワードとして取り出すことができた。
【0049】
(実施例3)
朝日新聞2001年7月1日社説「PL野球部――暴力の温床を断とう」に本実施形態の方法を適用した。結果は下記の通りである。
【表10】
Figure 0004679003
【表11】
Figure 0004679003
【0050】
前記社説は、野球部での暴力問題と、日本の高校・大学スポーツでのしごきについてのものである。主旨は、指導者が事態を改善する努力をすべきであるというものである。したがって、本実施形態により、適切なキーワードを抽出できていることが判る。
【0051】
なお、前記実施形態の記載は単なる一例に過ぎず、本発明に必須の構成を示したものではない。各部の構成は、本発明の趣旨を達成できるものであれば、上記に限らない。例えば、特徴アイテム抽出システムは、複数のコンピュータの協働によって実現されても良い。また、前記した各モジュールが分割されたり集約されたプログラムとなっていてもよい。「各アイテムと頻出アイテムとの共起確率分布の偏りを判断する手法」としては、χ2検定以外に、カルバック・ライブラー情報量を使うものや、尤度比検定、フィッシャーの正確検定、コルモゴロフ・スミルノフ検定がある。
【0052】
さらに、前記実施形態では、共起度を、同じ文中であることを基準として測定したが、頻出語の前後における単語数の範囲(例えば前後5語づつの範囲)を規定し、その範囲での共起度を測定してもよい。また、共起度を、同文中でかつ、頻出語の前後における規定の単語数の範囲内で測定するもの、としてもよい。さらに、頻出語の出現する理論出現確率pg (g ∈ G)を、(gが出現する文の語数の合計)/(文書全体の語数の合計)とし、前記(1)式中のnwを語wが出現する文の語数の合計とすることができる。このようにすると、χ値について、文の長さを考慮した(つまり短い文で共起する2つの語はより関係が強いと考える)正確な計算結果が得られる。
【0053】
【発明の効果】
本発明によれば、少ないデータ量であっても、比較的に精度良く特徴アイテムを抽出できる特徴アイテム抽出方法を提供することができる。
【図面の簡単な説明】
【図1】本発明の一実施形態におけるキーワード抽出システムの概略的な構成を示すブロック図である。
【図2】本発明の一実施形態におけるキーワード抽出方法の概略的な手順を示すフローチャートである。
【図3】本発明の一実施形態におけるキーワード抽出方法において、キーワード決定についての手順を示すフローチャートである。
【図4】本実施形態における確率分布の偏りの一例を示すグラフである。
【図5】本実施形態における確率分布の偏りの他の例を示すグラフである。
【符号の説明】
1 CPU
2 インタフェース部
3 記憶部
31 文書データ
32 頻出語(頻出アイテム)抽出モジュール
33 キーワード(特徴アイテム)決定モジュール
4 通信部

Claims (10)

  1. 記憶部に記憶されたデータ中のアイテムから出現頻度が高い所定数のアイテムを頻出アイテムとして抽出する頻出アイテム抽出手段と、
    前記頻出アイテム抽出手段が抽出した前記頻出アイテムの出現度数を、全ての頻出アイテムの出現度数の合計で除算することにより算出した出現確率の分布に対して、前記記憶部に記憶されたアイテムであって前記頻出アイテム以外の各アイテムのうち前記頻出アイテムとの共起確率分布のずれが大きいものほど、前記記憶部に記憶されたデータの特徴を示す特徴アイテムとして当該アイテムを抽出する特徴アイテム抽出手段と、
    を備えることを特徴とする特徴アイテム抽出システム。
  2. 前記データは、文章またはその一部であり、
    前記アイテムは、単数または複数の語であることを特徴とする請求項1記載の特徴アイテム抽出システム。
  3. 前記共起確率は、
    同じ文中での共起に基づいて算出されることを特徴とする請求項2記載の特徴アイテム抽出システム。
  4. 前記共起確率は、
    前記頻出アイテムの前後における規定された語数の範囲での共起に基づいて算出されることを特徴とする請求項2記載の特徴アイテム抽出システム。
  5. 前記頻出アイテムは、
    同じ文中に現れる確率が所定の閾値よりも高いものどうしがまとめられてクラスタ化されており、
    前記共起確率分布算出は、
    前記各アイテムと、前記クラスタ化された頻出アイテムとの間で行われることを特徴とする請求項2〜4のいずれか1項記載の特徴アイテム抽出システム。
  6. 前記出現確率と前記共起確率との分布のずれは、
    下記式におけるχ値の大きさとして算出されることを特徴とする請求項1〜のいずれか1項記載の特徴アイテム抽出システム。
    Figure 0004679003
    ただし、この式において、
    w:アイテム、
    g:頻出アイテム、
    G:全頻出アイテムの集合
    :頻出アイテム(g)の出現度数を全ての頻出アイテム(g)の出現度数の合計で除算して算出した出現確率、
    :アイテム(w)と全頻出アイテムの集合(G)中の頻出アイテムとの共起頻度の総数、
    cooc(w,g):アイテム(w)と頻出アイテム(g)との共起度数、である。
  7. =(頻出アイテム(g)の出現頻度)/(集合(G)に属する頻出アイテム(g)全体の出現頻度の合計)であり、nは、アイテム(w)と集合(G)中の頻出アイテム(g)との共起頻度の総数であることを特徴とする請求項に記載の特徴アイテム抽出システム。
  8. =(頻出アイテム(g)が出現する文の語数の合計)/(文書全体の語数の合計)であり、
    は、前記アイテム(w)が出現する文の語数の合計であることを特徴とする請求項に記載の特徴アイテム抽出システム。
  9. コンピュータが、データ中のアイテムから出現頻度が高い所定数のアイテムを頻出アイテムとして抽出する頻出アイテム抽出ステップと、
    前記コンピュータが、前記頻出アイテム抽出ステップにおいて抽出した前記頻出アイテムの出現度数を、全ての頻出アイテムの出現度数の合計で除算することにより算出した出現確率の分布に対して、前記データ中のアイテムであって前記頻出アイテム以外の各アイテムのうち前記頻出アイテムとの共起確率分布のずれが大きいものほど、前記データの特徴を示す特徴アイテムとして当該アイテムを抽出する特徴アイテム抽出ステップと、
    を備えることを特徴とする特徴アイテム抽出方法。
  10. コンピュータに、
    請求項に記載の方法を実行させることを特徴とするコンピュータで実行または読み取り可能なプログラム。
JP2001254905A 2001-08-24 2001-08-24 データからの特徴アイテム抽出方法 Expired - Lifetime JP4679003B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001254905A JP4679003B2 (ja) 2001-08-24 2001-08-24 データからの特徴アイテム抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001254905A JP4679003B2 (ja) 2001-08-24 2001-08-24 データからの特徴アイテム抽出方法

Publications (3)

Publication Number Publication Date
JP2003067412A JP2003067412A (ja) 2003-03-07
JP2003067412A5 JP2003067412A5 (ja) 2008-05-15
JP4679003B2 true JP4679003B2 (ja) 2011-04-27

Family

ID=19082986

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001254905A Expired - Lifetime JP4679003B2 (ja) 2001-08-24 2001-08-24 データからの特徴アイテム抽出方法

Country Status (1)

Country Link
JP (1) JP4679003B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2494506A4 (en) * 2009-10-27 2013-04-24 Ericsson Telefon Ab L M RECOMMENDATION FOR COOPERATIVE KASUISTICS
CN103198057B (zh) 2012-01-05 2017-11-07 深圳市世纪光速信息技术有限公司 一种自动给文档添加标签的方法和装置
JP6758632B2 (ja) * 2017-09-14 2020-09-23 日本電信電話株式会社 正確検定計算装置、正確検定計算方法、およびプログラム
JP7111662B2 (ja) * 2019-07-18 2022-08-02 富士フイルム株式会社 画像解析装置、画像解析方法、コンピュータプログラム、及び記録媒体

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02285419A (ja) * 1989-04-27 1990-11-22 Ricoh Co Ltd 意味分類方法
JPH08202737A (ja) * 1995-01-26 1996-08-09 N T T Data Tsushin Kk キーワード自動抽出装置およびキーワード自動抽出方法
JP2001067362A (ja) * 1999-08-25 2001-03-16 Hitachi Ltd 単語の重要度計算方法、文献検索インタフェイス、単語辞書作成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02285419A (ja) * 1989-04-27 1990-11-22 Ricoh Co Ltd 意味分類方法
JPH08202737A (ja) * 1995-01-26 1996-08-09 N T T Data Tsushin Kk キーワード自動抽出装置およびキーワード自動抽出方法
JP2001067362A (ja) * 1999-08-25 2001-03-16 Hitachi Ltd 単語の重要度計算方法、文献検索インタフェイス、単語辞書作成方法

Also Published As

Publication number Publication date
JP2003067412A (ja) 2003-03-07

Similar Documents

Publication Publication Date Title
Elghazaly et al. Political sentiment analysis using twitter data
US8630989B2 (en) Systems and methods for information extraction using contextual pattern discovery
Misra et al. Text segmentation via topic modeling: an analytical study
Ehsan et al. Candidate document retrieval for cross-lingual plagiarism detection using two-level proximity information
US20160299955A1 (en) Text mining system and tool
Anita et al. An approach to cluster Tamil literatures using discourse connectives
Singh et al. A novel unsupervised corpus-based stemming technique using lexicon and corpus statistics
Islam et al. Comparing word relatedness measures based on google n-grams
Yalcin et al. An external plagiarism detection system based on part-of-speech (POS) tag n-grams and word embedding
Basha et al. Evaluating the impact of feature selection on overall performance of sentiment analysis
Gentile et al. Explore and exploit. Dictionary expansion with human-in-the-loop
Aleksandrova et al. Multilingual sentence-level bias detection in Wikipedia
Fragkou Applying named entity recognition and co-reference resolution for segmenting english texts
Ando et al. Mostly-unsupervised statistical segmentation of Japanese kanji sequences
Mohemad et al. Performance analysis in text clustering using k-means and k-medoids algorithms for Malay crime documents
Mohapatra et al. Domain knowledge driven key term extraction for IT services
JP4679003B2 (ja) データからの特徴アイテム抽出方法
Zhang et al. Chinese novelty mining
Agichtein et al. Predicting accuracy of extracting information from unstructured text collections
Mekki et al. Tokenization of Tunisian Arabic: a comparison between three Machine Learning models
Panahandeh et al. Correction of spaces in Persian sentences for tokenization
Agurto et al. Predictive linguistic markers of suicidality in poets
Medagoda et al. Keywords based temporal sentiment analysis
JP4567025B2 (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
Jain et al. Information extraction from CORD-19 using hierarchical clustering and word bank

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20050928

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20050928

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080327

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080327

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100831

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101101

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110118

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110201

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4679003

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140210

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term