JP4679003B2 - データからの特徴アイテム抽出方法 - Google Patents
データからの特徴アイテム抽出方法 Download PDFInfo
- Publication number
- JP4679003B2 JP4679003B2 JP2001254905A JP2001254905A JP4679003B2 JP 4679003 B2 JP4679003 B2 JP 4679003B2 JP 2001254905 A JP2001254905 A JP 2001254905A JP 2001254905 A JP2001254905 A JP 2001254905A JP 4679003 B2 JP4679003 B2 JP 4679003B2
- Authority
- JP
- Japan
- Prior art keywords
- item
- frequent
- items
- feature
- occurrence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Landscapes
- Complex Calculations (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は、データからの特徴アイテム抽出方法に関するものである。特に、本発明は、文章からキーワードを抽出する方法に関するものである。
【0002】
【発明の背景】
文書からのキーワード抽出法としては、TFIDFが良く知られている。この方法は、同一カテゴリに含まれる文書における単語の出現傾向をdfとして取り出しておき、それと当データ自身のtf値とを比較することにより、特徴的な語を取り出すものである。この方法は、対象となるデータの大きさがある程度以上あれば、単独で適用することができる。しかしながら、データ量が少ない場合には、適用が難しいという問題がある。
【0003】
その他、χ2検定により一般語と重要語とを区別しようという研究も行われている。しかしながら、この研究においても、少ないデータ量で精度良くキーワードを得る方法は実現されていない。
【0004】
【発明が解決しようとする課題】
本発明は、前記の事情を背景としてなされたもので、少ないデータ量であっても、比較的に精度良く特徴アイテムを抽出することができる、特徴アイテム抽出方法の提供を目的としている。
【0005】
【課題を解決するための手段】
請求項1は、以下の手段を備える特徴アイテム抽出システムとされている。
記憶部に記憶されたデータ中のアイテムから頻出アイテムを抽出する頻出アイテム抽出手段と、前記各アイテムと頻出アイテムとの共起確率分布の偏りに基づいて、前記アイテムから特徴アイテムを抽出する特徴アイテム抽出手段。
【0006】
請求項2は、請求項1記載の特徴アイテム抽出システムにおいて、前記アイテムを、単数または複数の語であるとしたものである。
【0007】
請求項3は、請求項2記載の特徴アイテム抽出システムにおいて、前記共起確率を、同じ文中での共起に基づいて算出するものである。
【0008】
請求項4は、請求項2記載の特徴アイテム抽出システムにおいて、前記共起確率を、前記頻出アイテムの前後における規定された語数の範囲での共起に基づいて算出するものである。
【0009】
請求項5は、請求項2〜4のいずれか1項記載の特徴アイテム抽出システムにおいて、前記頻出アイテムを、同じ文中に現れる確率の比較的高いものどうしがまとめられてクラスタ化されたものとし、前記共起確率分布の偏りの算出を、前記各アイテムと、前記クラスタ化された頻出アイテムとの間で行うものである。
【0010】
請求項6は、請求項1〜5のいずれか1項記載の特徴アイテム抽出システムにおいて、前記特徴アイテム抽出手段は、前記データ中における各頻出アイテムの頻度分布を示す情報を取得するステップと、前記頻出アイテムと各アイテムとの共起度の頻度分布を示す情報を取得するステップと、各頻出アイテムの頻度分布を示す情報と、前記共起度の頻度分布を示す情報とに基づいて、前記共起確率分布の偏りを取得するステップと、を行うものである。
【0011】
請求項7は、請求項6記載の特徴アイテム抽出システムにおいて、前記各頻出アイテムの頻度分布を示す情報とは、各頻出アイテムの出現確率を示す情報であるとする。
【0012】
請求項8は、請求項1〜7のいずれか1項記載の特徴アイテム抽出システムにおいて、前記共起確率分布の偏りを、下記式におけるχ2値の大きさとして算出するものである。
【数1】
ただし、この式において、w:アイテム、g:頻出アイテム、G:全頻出アイテムの集合、pg:頻出アイテム(g)の出現確率、nw:アイテム(w)と全頻出アイテムの集合(G)中の頻出アイテムとの共起頻度の総数、cooc(w,g):アイテム(w)と頻出アイテム(g)との共起度数、である。
【0013】
請求項9は、請求項8に記載の特徴アイテム抽出システムにおいて、pg=(頻出アイテム(g)の出現頻度)/(集合(G)に属する頻出アイテム(g)全体の出現頻度の合計)であり、nwは、アイテム(w)と集合(G)中の頻出アイテム(g)との共起頻度の総数であるとする。
【0014】
請求項10は、請求項8に記載の特徴アイテム抽出システムにおいて、pg=(頻出アイテム(g)が出現する文の語数の合計)/(文書全体の語数の合計)であり、nwは、前記アイテム(w)が出現する文の語数の合計であるとする。
【0015】
請求項11は、以下のステップを備える特徴アイテム抽出方法となっている。データ中のアイテムから頻出アイテムを抽出する頻出アイテム抽出ステップと、各アイテムと頻出アイテムとの共起確率分布の偏りに基づいて、前記アイテムから特徴アイテムを抽出する特徴アイテム抽出ステップ。
【0016】
請求項12は、コンピュータに、請求項11に記載の特徴アイテム抽出方法における前記ステップの機能を実行させる、コンピュータで実行または読み取り可能なプログラムとなっている。
【0019】
【発明の実施の形態】
本発明の一実施形態に係る特徴アイテム抽出方法について、添付の図面を参照しながら以下に説明する。以下の例においては、データの例として文章を用いている。この場合、特徴アイテムとしては、キーワードとなる。
【0020】
まず、この方法の実施のために用いる、特徴アイテム抽出システムの構成について説明する。このシステムは、CPU1と、インタフェース部2と、CPU1によって利用可能な記憶部3と、通信部4とを備えている。このようなシステムは、例えばパーソナルコンピュータやワークステーションにより構成することができる。
【0021】
インタフェース部2は、操作者とコンピュータとのインタフェースを行う機能を有しており、例えば、キーボード、マウスなどの入力機器や、ディスプレイなどの出力機器を含んでいる。
【0022】
記憶部3は、文書データ31と、頻出語(頻出アイテムに相当)抽出モジュール32と、キーワード(特徴アイテムに相当)決定モジュール33とを備えている。文書データ31は、抽出対象となる文章のデータである。頻出語抽出モジュール32は、「文章(データに相当)の中の語(アイテムに相当)から頻出語を抽出する動作」をCPU1に行わせるソフトウエアである。キーワード決定モジュール33は、「各アイテムと頻出アイテムとの共起確率分布の偏りに基づいて、アイテムから特徴アイテムを抽出する動作」をCPU1に行わせるソフトウエアである。各モジュールの動作の詳細は、後述する抽出方法の説明において説明する。記憶部3は、任意のハードウエア、例えばハードディスクによって構成できる。前記モジュール32および33を含め、本実施形態の実施のために用いられるソフトウエアは、任意の、コンピュータで利用または読み取り可能な記録媒体に記録しておくことができる。
【0023】
通信部4は、外部コンピュータとの通信のために用いられるものであり、例えば、ネットワークカードやモデムである。
【0024】
つぎに、本実施形態に係るキーワード(特徴アイテム)抽出方法について説明する。まず、全体的な手順について図2を用いて説明する。
【0025】
(ステップS2−1)
このステップでは、文章中の単語情報を取得する。まず、文章(その一部でもよい)を文単位および語(単語)単位に分解して、分解結果を文書データ31に記録する。ここで、言語の種類は問わない。例えば言語が日本語であれば、語単位への分解は、通常の形態素解析を用いて行うことができる。また、文章中に2回以上出現する熟語(語の並び)も一語として把握する。つまり、この実施形態においては、語とは熟語を含む意味である。例えば、「最適化 問題」という語が文章中に2回以上出現するのであれば、「最適化」「問題」として把握するほか、「最適化問題」という熟語としても把握する。また、文章中に3回以上出現する熟語(語の並び)を一語として把握してもよい。さらに、熟語を構成する語の数の上限を定めてもよい。さらに、「最適化 問題」という語の並びを「最適化問題」という熟語として把握した際には「最適化」「問題」というばらばらの語としては把握しないという処理も可能である。
【0026】
言語が日本語であれば、語として取り出すものは、名詞、動詞、形容詞、形容動詞、未知語のみとする。さらに、「こと」「もの」「する」「なる」などの一般的な語は不要語として削除する。言語が英語であれば、例えば、サルトン(Salton)のストップワード(stop word)として知られる不要語を削除する。このように、言語に拘わらず、不要語を処理することが望ましい。また、言語が日本語であれば、動詞や形容詞、形容動詞は語の原形または語幹の形式とする。言語が英語であれば動詞の活用語尾であるingやed、複数形のsなどを除去するステミング(stemming)という処理を行う。言語に拘わらず、語の活用語尾の処理を行っておくことが望ましい。なお、本実施形態では、同じ文中でn回出現した語は、そのまま、n回の出現頻度と把握する。しかし、同文中でn回出現した場合には、1回の出現頻度と把握することも可能である。
例えば、「日本語の場合は、形態素解析を行い、名詞、動詞、形容詞だけを原形の形で分かち書きします。」という文章を仮定すると、まず、文を、「日本語場合 形態素 行う 名詞 動詞 形容詞 原形 形 分かつ 書く。」とする。この文の各語が取得される。このステップの機能は、例えば、頻出語抽出モジュール32によって実行される。
【0027】
(ステップS2−2):請求項1のステップ(1)に対応
ついで、前記語から、頻出語を抽出する。頻出語の抽出は、次のように行う。すなわち、対象となる文章中の各語について、出現頻度を計算し、頻度の多い語(例えば文章全体で1000語のうちの上位10語)を頻出語とする。ここで、本実施形態では、頻出語の把握においては、同じ一文中で共に現れる確率の高いものどうしをまとめてクラスタ化しておく。本実施形態における一つの頻出語とは、このようにクラスタ化された一つの群を示す。
【0028】
頻出語のクラスタ化の一例を以下に示す。語aと語bとが出現する文の数のJaccard係数が閾値(0.5)を越えれば、語aと語bとは同一のクラスタ(つまり同一の頻出語)とする。Jaccard係数J(a, b)は、以下の式で与えられ、語aと語bの集合の重なり具合を示している。
【0029】
ただし、S(a∩b)は語aと語bの両方が出現する文の数、S(a∪b)は語aまたは語bが出現する文の数とする。クラスタ化の方法としては、Jaccard係数を用いる方法の他にも、両語の共起頻度を用いる方法、相互情報量を用いる方法、および、他の語との共起の分布の類似度を用いる方法などがある。他の語との共起の分布の類似度を用いる方法は、例えば、語aと他の語c,d,e,...,x,y,z、語bと他の語c,d,e,...,x,y,zの共起分布が似ていれば語aと語bを同じクラスタとするものである。つまり、共起行列において分布の類似している2つの列をまとめる操作となる。なお、クラスタ化は、後述する、語と頻出語との共起度の頻度を取得した後に行われ、同一クラスタに属する語についての共起度の頻度を足し合わせて一つにまとめることになる。ただし、クラスタ化の時期はこれに限らず、それより前に行われても良い。この場合は、まずクラスタ単位で共起度を取得することになる。このようなクラスタ化を行うことで、共起度を求める際に、同様の語をまとめてカウントすることができ、共起行列(すなわち共起度の頻度分布)がより適切な値になる。
【0030】
以下、例を挙げて説明する。表1に、ある文書における上位10個の頻出語(a〜j)と、その出現度数(頻度)と、出現確率(その頻出語が出現する度数を全頻出語の出現度数で割ったもの)の分布とを示す。
【0031】
【表1】
【0032】
このステップS2−2は、頻出語抽出モジュール32により実行される。
【0033】
(ステップS2−3):請求項1のステップ(2)に対応
このステップにおいては、各語と頻出語との共起確率分布の偏りに基づいて、語のうちから特徴アイテムを抽出する。この操作を、図3に基づいてさらに詳しく説明する。なお、このステップS2−3は、キーワード決定モジュール33によって実行される。
【0034】
(ステップS3−1)
まず、各頻出語の頻度分布を示す情報を取得する。この情報とは、例えば、各頻出語の頻度分布、および、各頻出語の(理論)出現確率である。この情報は、前記ステップS2−2において取得できる。このように、各ステップは、独立で存在しなくても良く、実質的にそのステップの機能が実行されればよい。
【0035】
(ステップS3−2)
次に、各語と頻出語との共起度(すなわち共起回数)の頻度分布を取得する。このステップを具体的に説明する。同じ文の中で、各頻出語と共起する各語の頻度を集計することにより、表2のような共起行列を作ることができる。これが共起度の頻度分布の一例である。
【表2】
【0036】
この表は、頻出語上位10語(表中a〜j;頻出語の集合をGとする)についての行列を求めたものである。上部における10×10の行列は対称行列である。この対称行列における対角要素は、各頻出語の文書中での出現回数を表す。さらに、この行列は、下方向には、頻出語以外の語(〜x)も扱っている。つまり、この表は、頻出語とは限らないある語wと頻出語g∈Gの共起度数を示している。共起度計算の例を以下に説明する。例えば、
「今日は暑い。昨日も関東地方は暑かった。」
という文を仮定する。ここにおいては、(今日、暑い)は、最初の文において1回共起している。2番目の文においては、(昨日、関東)、(昨日、地方)、(昨日、暑い)、(関東、地方)、(関東、暑い)、(地方、暑い)もそれぞれ1回共起していることになる。
【0037】
共起行列中で、語wに対応する行の各要素をその行の要素の合計値(表2における計の列の値に相当する)で割ることにより、語wと頻出語gとの共起確率分布が得られる。ここで、仮に、語wが頻出語g∈Gと全く独立に生起するなら、語wと語g∈Gが共起する確率分布は、表1の確率分布(つまり頻出語の確率分布)と同様になるはずである。一方、語wと頻出語g∈Gの間に何らかの意味的なつながりがあれば、確率分布は偏ることになる。なお、ここで、確率分布とは、実質的に確率を表すものであればよく、共起頻度をそのまま数値として用いて以下の計算を行うことも可能である。
【0038】
図4および図5に、ある語と頻出語との共起確率の分布と、頻出語単独での出現確率(図中手前)の分布の比較の一例を示す。いずれの語も、10回前後しか文書中に出現していないが、discussionやcaseなどの一般的な語は、どの頻出語g∈Gとも同じような割合で用いられるのに対し、transformation Lやhypothesesなどの語は大きく偏った分布をしている。これらの語は、特定の語とは選択的に多く共起しているが、その他の語とはほとんど共起していない。こういった、分布に偏りのある語は、文書中で何らかの意味を持っていると考えられる。実際、もとになった文書は「仮説推論におけるホーン節から制約式への変換方法のひとつである変換 L」について述べた論文なので、transformation Lやhypothesesなどの語は、論文中で出現頻度は少ないが重要な語である。
【0039】
(ステップS3−3)
ついで、χ2値を全ての語wについて計算する。前記したように、ある語の共起確率の分布が、基準となる出現確率から大きくずれていれば、その語は特徴的な語であり、文章において重要な語である可能性が高いと考えることができる。しかしながら、語の出現頻度自体が少なければ確率分布のずれは信頼できなくなる。例えば、表1から、語aの出現確率は0.177である。このとき、出現回数1回の語w1が語aと1回(つまり確率1で)共起していることよりも、出現回数10回の語w2が語aと10回(つまり確率1で)共起している方が、基準からのずれは大きいはずである。したがって、統計的に有意なずれを評価するために、χ2検定を用いる。
【0040】
このステップでは、頻出語単独での出現確率(表1)を出現確率pg (g ∈ G)とし、語wと頻出語gとの共起頻度の総数をnw(表2における語wに対応する行の「計」の列の値に相当する)、(実際に観測された)共起度数をcooc(w,g)(表2における語w(表中のa〜x)に対応する行の値、または、頻出語g(表中のa〜j)に対応する列の値に相当する)として、各語wについて、統計量χ2を以下の(1)式で求める。
【0041】
つまり、各頻出語gについての共起度数cooc(w,g)が、表1における共起度の頻度分布に相当する。よって、共起度数cooc(w,g)は、本実施形態における「頻度分布を示す情報」に相当する。また、(1)式において、nwpgは、頻出語gについての理論共起度数を示している。
【0042】
χ2(w)>χα 2であれば、「語wの頻出語g∈Gとの共起回数(観測度数)は(理論)出現確率pg (g∈G)に適合している」という仮説H0が有意水準αで棄却される。(χα 2は通常χ2分布表より得る)。したがって、χ2(w)の大きな語wは、出現確率からのずれが大きな語と判断することができる。このような語をキーワードとする(ステップS3−4)。
【0043】
例として、表3、表4に、χ2の値が高い語上位10個、低い語上位10個をそれぞれ示した。なお、これらは、25個の頻出語(表5)を基準としており、その分布のずれを測っている。表から分かる通り、χ2値の高い語は、特徴的な(すなわち論旨と直接関係する可能性の高い)語であり、χ2値の低い語は一般的な語である傾向が強い。
【表3】
【表4】
【表5】
【0044】
本実施形態の方法は、最初にデータ自身の全体的な傾向を求め、それと大きく異なる特徴を持つアイテムを取り出すものと言える。
【0045】
【実施例】
(実施例1)
前記実施形態の方法を用いて、下記論文からキーワードを抽出した。比較のため、頻出語のみからキーワードを抽出した例も示す。
論文:「SL法:線形計画法と非線形計画法の併用によるコストに基づく仮説推論の準最適解計算」(松尾 豊、二田 丈之、石塚 満:人工知能学会誌Vol.13, No.6, pp.953-961,1998)
【表6】
【表7】
【0046】
前記の論文を要約すると、「コストに基づく仮説推論の準最適解を得るSL法という手法を提案する。SL法は、まず仮説推論問題を線形計画問題に置き換え、単体法で初期探索点を決定した後、その周りを非線形関数を最小化することにより探索を行う。局所最適解に陥った場合には固定化を行う。」という内容である。従って、本実施形態では、「準最適解」や「非線形関数最小化」など、論文中の主旨である語が、論文中の文章のみを解析することでうまく取り出すことができた。
【0047】
(実施例2)
下記のURLから取得した小泉首相所信表明演説に対して、本実施形態の方法を適用した。結果は下記の通りである。
http://www.kantei.go.jp/jp/koizumispeech/2001/0507syosin.html
【表8】
【表9】
【0048】
前記演説の内容は、構造改革、経済について、外交についてなど多岐に渡っており、この演説のメインのテーマである「新世紀維新」という語は2回しか言及されていない。しかしながら、本実施形態の方法では、この語をキーワードとして取り出すことができた。
【0049】
(実施例3)
朝日新聞2001年7月1日社説「PL野球部――暴力の温床を断とう」に本実施形態の方法を適用した。結果は下記の通りである。
【表10】
【表11】
【0050】
前記社説は、野球部での暴力問題と、日本の高校・大学スポーツでのしごきについてのものである。主旨は、指導者が事態を改善する努力をすべきであるというものである。したがって、本実施形態により、適切なキーワードを抽出できていることが判る。
【0051】
なお、前記実施形態の記載は単なる一例に過ぎず、本発明に必須の構成を示したものではない。各部の構成は、本発明の趣旨を達成できるものであれば、上記に限らない。例えば、特徴アイテム抽出システムは、複数のコンピュータの協働によって実現されても良い。また、前記した各モジュールが分割されたり集約されたプログラムとなっていてもよい。「各アイテムと頻出アイテムとの共起確率分布の偏りを判断する手法」としては、χ2検定以外に、カルバック・ライブラー情報量を使うものや、尤度比検定、フィッシャーの正確検定、コルモゴロフ・スミルノフ検定がある。
【0052】
さらに、前記実施形態では、共起度を、同じ文中であることを基準として測定したが、頻出語の前後における単語数の範囲(例えば前後5語づつの範囲)を規定し、その範囲での共起度を測定してもよい。また、共起度を、同文中でかつ、頻出語の前後における規定の単語数の範囲内で測定するもの、としてもよい。さらに、頻出語の出現する理論出現確率pg (g ∈ G)を、(gが出現する文の語数の合計)/(文書全体の語数の合計)とし、前記(1)式中のnwを語wが出現する文の語数の合計とすることができる。このようにすると、χ2値について、文の長さを考慮した(つまり短い文で共起する2つの語はより関係が強いと考える)正確な計算結果が得られる。
【0053】
【発明の効果】
本発明によれば、少ないデータ量であっても、比較的に精度良く特徴アイテムを抽出できる特徴アイテム抽出方法を提供することができる。
【図面の簡単な説明】
【図1】本発明の一実施形態におけるキーワード抽出システムの概略的な構成を示すブロック図である。
【図2】本発明の一実施形態におけるキーワード抽出方法の概略的な手順を示すフローチャートである。
【図3】本発明の一実施形態におけるキーワード抽出方法において、キーワード決定についての手順を示すフローチャートである。
【図4】本実施形態における確率分布の偏りの一例を示すグラフである。
【図5】本実施形態における確率分布の偏りの他の例を示すグラフである。
【符号の説明】
1 CPU
2 インタフェース部
3 記憶部
31 文書データ
32 頻出語(頻出アイテム)抽出モジュール
33 キーワード(特徴アイテム)決定モジュール
4 通信部
Claims (10)
- 記憶部に記憶されたデータ中のアイテムから出現頻度が高い所定数のアイテムを頻出アイテムとして抽出する頻出アイテム抽出手段と、
前記頻出アイテム抽出手段が抽出した前記頻出アイテムの出現度数を、全ての頻出アイテムの出現度数の合計で除算することにより算出した出現確率の分布に対して、前記記憶部に記憶されたアイテムであって前記頻出アイテム以外の各アイテムのうち前記頻出アイテムとの共起確率の分布のずれが大きいものほど、前記記憶部に記憶されたデータの特徴を示す特徴アイテムとして当該アイテムを抽出する特徴アイテム抽出手段と、
を備えることを特徴とする特徴アイテム抽出システム。 - 前記データは、文章またはその一部であり、
前記アイテムは、単数または複数の語であることを特徴とする請求項1記載の特徴アイテム抽出システム。 - 前記共起確率は、
同じ文中での共起に基づいて算出されることを特徴とする請求項2記載の特徴アイテム抽出システム。 - 前記共起確率は、
前記頻出アイテムの前後における規定された語数の範囲での共起に基づいて算出されることを特徴とする請求項2記載の特徴アイテム抽出システム。 - 前記頻出アイテムは、
同じ文中に現れる確率が所定の閾値よりも高いものどうしがまとめられてクラスタ化されており、
前記共起確率の分布の算出は、
前記各アイテムと、前記クラスタ化された頻出アイテムとの間で行われることを特徴とする請求項2〜4のいずれか1項記載の特徴アイテム抽出システム。 - pg=(頻出アイテム(g)の出現頻度)/(集合(G)に属する頻出アイテム(g)全体の出現頻度の合計)であり、nwは、アイテム(w)と集合(G)中の頻出アイテム(g)との共起頻度の総数であることを特徴とする請求項6に記載の特徴アイテム抽出システム。
- pg=(頻出アイテム(g)が出現する文の語数の合計)/(文書全体の語数の合計)であり、
nwは、前記アイテム(w)が出現する文の語数の合計であることを特徴とする請求項6に記載の特徴アイテム抽出システム。 - コンピュータが、データ中のアイテムから出現頻度が高い所定数のアイテムを頻出アイテムとして抽出する頻出アイテム抽出ステップと、
前記コンピュータが、前記頻出アイテム抽出ステップにおいて抽出した前記頻出アイテムの出現度数を、全ての頻出アイテムの出現度数の合計で除算することにより算出した出現確率の分布に対して、前記データ中のアイテムであって前記頻出アイテム以外の各アイテムのうち前記頻出アイテムとの共起確率の分布のずれが大きいものほど、前記データの特徴を示す特徴アイテムとして当該アイテムを抽出する特徴アイテム抽出ステップと、
を備えることを特徴とする特徴アイテム抽出方法。 - コンピュータに、
請求項9に記載の方法を実行させることを特徴とするコンピュータで実行または読み取り可能なプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001254905A JP4679003B2 (ja) | 2001-08-24 | 2001-08-24 | データからの特徴アイテム抽出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001254905A JP4679003B2 (ja) | 2001-08-24 | 2001-08-24 | データからの特徴アイテム抽出方法 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2003067412A JP2003067412A (ja) | 2003-03-07 |
JP2003067412A5 JP2003067412A5 (ja) | 2008-05-15 |
JP4679003B2 true JP4679003B2 (ja) | 2011-04-27 |
Family
ID=19082986
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001254905A Expired - Lifetime JP4679003B2 (ja) | 2001-08-24 | 2001-08-24 | データからの特徴アイテム抽出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4679003B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2494506A4 (en) * | 2009-10-27 | 2013-04-24 | Ericsson Telefon Ab L M | RECOMMENDATION FOR COOPERATIVE KASUISTICS |
CN103198057B (zh) | 2012-01-05 | 2017-11-07 | 深圳市世纪光速信息技术有限公司 | 一种自动给文档添加标签的方法和装置 |
JP6758632B2 (ja) * | 2017-09-14 | 2020-09-23 | 日本電信電話株式会社 | 正確検定計算装置、正確検定計算方法、およびプログラム |
JP7111662B2 (ja) * | 2019-07-18 | 2022-08-02 | 富士フイルム株式会社 | 画像解析装置、画像解析方法、コンピュータプログラム、及び記録媒体 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02285419A (ja) * | 1989-04-27 | 1990-11-22 | Ricoh Co Ltd | 意味分類方法 |
JPH08202737A (ja) * | 1995-01-26 | 1996-08-09 | N T T Data Tsushin Kk | キーワード自動抽出装置およびキーワード自動抽出方法 |
JP2001067362A (ja) * | 1999-08-25 | 2001-03-16 | Hitachi Ltd | 単語の重要度計算方法、文献検索インタフェイス、単語辞書作成方法 |
-
2001
- 2001-08-24 JP JP2001254905A patent/JP4679003B2/ja not_active Expired - Lifetime
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02285419A (ja) * | 1989-04-27 | 1990-11-22 | Ricoh Co Ltd | 意味分類方法 |
JPH08202737A (ja) * | 1995-01-26 | 1996-08-09 | N T T Data Tsushin Kk | キーワード自動抽出装置およびキーワード自動抽出方法 |
JP2001067362A (ja) * | 1999-08-25 | 2001-03-16 | Hitachi Ltd | 単語の重要度計算方法、文献検索インタフェイス、単語辞書作成方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2003067412A (ja) | 2003-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Elghazaly et al. | Political sentiment analysis using twitter data | |
US8630989B2 (en) | Systems and methods for information extraction using contextual pattern discovery | |
Misra et al. | Text segmentation via topic modeling: an analytical study | |
Ehsan et al. | Candidate document retrieval for cross-lingual plagiarism detection using two-level proximity information | |
US20160299955A1 (en) | Text mining system and tool | |
Anita et al. | An approach to cluster Tamil literatures using discourse connectives | |
Singh et al. | A novel unsupervised corpus-based stemming technique using lexicon and corpus statistics | |
Islam et al. | Comparing word relatedness measures based on google n-grams | |
Yalcin et al. | An external plagiarism detection system based on part-of-speech (POS) tag n-grams and word embedding | |
Basha et al. | Evaluating the impact of feature selection on overall performance of sentiment analysis | |
Gentile et al. | Explore and exploit. Dictionary expansion with human-in-the-loop | |
Aleksandrova et al. | Multilingual sentence-level bias detection in Wikipedia | |
Fragkou | Applying named entity recognition and co-reference resolution for segmenting english texts | |
Ando et al. | Mostly-unsupervised statistical segmentation of Japanese kanji sequences | |
Mohemad et al. | Performance analysis in text clustering using k-means and k-medoids algorithms for Malay crime documents | |
Mohapatra et al. | Domain knowledge driven key term extraction for IT services | |
JP4679003B2 (ja) | データからの特徴アイテム抽出方法 | |
Zhang et al. | Chinese novelty mining | |
Agichtein et al. | Predicting accuracy of extracting information from unstructured text collections | |
Mekki et al. | Tokenization of Tunisian Arabic: a comparison between three Machine Learning models | |
Panahandeh et al. | Correction of spaces in Persian sentences for tokenization | |
Agurto et al. | Predictive linguistic markers of suicidality in poets | |
Medagoda et al. | Keywords based temporal sentiment analysis | |
JP4567025B2 (ja) | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 | |
Jain et al. | Information extraction from CORD-19 using hierarchical clustering and word bank |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20050928 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20050928 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080327 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080327 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100825 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100831 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101101 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110118 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110201 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4679003 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140210 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |