JP2004030202A - 特徴語抽出システム - Google Patents
特徴語抽出システム Download PDFInfo
- Publication number
- JP2004030202A JP2004030202A JP2002185173A JP2002185173A JP2004030202A JP 2004030202 A JP2004030202 A JP 2004030202A JP 2002185173 A JP2002185173 A JP 2002185173A JP 2002185173 A JP2002185173 A JP 2002185173A JP 2004030202 A JP2004030202 A JP 2004030202A
- Authority
- JP
- Japan
- Prior art keywords
- category
- document
- documents
- word
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】文書とカテゴリとカテゴリ毎に分類される特徴語との対応関係及び特徴語の出現属性を設定した情報を格納する計算データ格納部53、2つ以上のカテゴリに分類されるマルチラベルの文書を含む文書集合の中で、文書を同一カテゴリ数の文書集合にグループ分けし、グループ分けした文書集合を取出し、その文書集合が、マルチラベル文書の文書集合であればシングルラベル文書の文書集合に分割し、分割したシングルラベル文書の文書集合からカテゴリ毎の特徴語抽出を行い、グループ分けした全ての文書集合に対し、それぞれ同様に特徴語抽出を行い、得られたカテゴリ毎の特徴語を集める、テキスト解析手段41、カテゴリ毎に集められた特徴語郡の情報を格納する特徴語格納部52、を備える。
【選択図】 図1
Description
【発明の属する技術分野】
本発明は、文書、インターネットホームページ、電子メール、ニュース記事などの電子化された情報類を利用するための技術(特徴語抽出、情報分類、等)、統計解析および機械学習の分野に関し、特に特徴語抽出システムに関する。
【0002】
【従来の技術】
文書からキーワードを抽出する手法としては、文書群全体を対象にして統計的に特徴のある単語を見つけ出す方法と、カテゴリ別に分類された文書群を対象にしてそれぞれのカテゴリに特有の単語を統計的に見つけ出す方法とがある。前者には、単純に中程度頻度の単語を選ぶ方法や、文書検索などにおいて文書特定能力の高い単語を選ぶ方法(tfIDF:term frequency Inverse Document Frequencyなどを用いる方法)があり、後者には、カテゴリ特定能力の高い単語を選ぶ方法(カテゴリ別相対頻度やKullback−Leibler情報量、相互情報量などを用いる方法)がある。本発明では、後者の手法に絞って議論の対象としている。本明細書では、文書とは前記電子化された情報類を意味する。
【0003】
カテゴリ別に特徴語を抽出するためには、カテゴリ別に分類済みの文書の集合(正解セット)を用意して、それぞれのカテゴリにおける単語の出現属性(出現頻度、出現確率など)を調べることにより、カテゴリに特有の単語を、前述のような統計的な基準を基にして見つけ出す。ここで、特徴語とは、特定のカテゴリの文書の中で頻度よく出現し、かつ、他のカテゴリにおいて相対的に出現頻度が低い言葉を意味する。
【0004】
従来の抽出法における正解セットは、通常、1つの文書に1つのカテゴリを分類先に割り当てる方法(シングルラベル)に基づき作成される。実際の文書の多くは複数の話題を含んでいるが、シングルラベルの正解セットにおいては、文書中の複数の話題の内、分類先として割り当てられなかったカテゴリの話題に使われる単語は、その出現の程度によっては本来関係付けられるべき分野の特徴語だけではなく、分類先として割り当てられたカテゴリの特徴語として抽出されてしまい、結果として、1つのカテゴリに異なる話題の分野(カテゴリ)に属する特徴語が混在し、適合率が低下するという問題があった。例えば、「公共事業」という単語(特徴語)が政治や経済のカテゴリに属する文書にそれぞれ出現し、その単語がどのカテゴリに属する特徴語か特定が困難であった。このシングルラベルによる手法は、このような事情を意識したものではなかった。
【0005】
また、正解セットとして、1つの文書に複数のカテゴリを分類先として重複して割り当てる方法(マルチラベル)も考えられるが、このマルチラベルによる手法は、シングルラベルの場合と同じく、単純にそれぞれの分類カテゴリに所属する文書群からそのまま統計的基準に基づき単語を抽出するだけであり、やはり、この手法でも、異なる話題の分野(カテゴリ)に属する特徴語が混在する可能性がある。
【0006】
【発明が解決しようとする課題】
従って、本発明は、カテゴリ特定能力の高い単語(特徴語)を選ぶカテゴリ別の特徴語抽出システムであって、分類カテゴリとカテゴリに分類される特徴語との対応関係を正確に行う特徴語抽出システムを提供することを目的とする。
【0007】
【課題を解決するための手段】
上記目的を達成する本発明による特徴語抽出システムは、電子化された情報類としての文書が何れのカテゴリに分類されるかを特定する特徴語を複数の文書集合から抽出する特徴語抽出システムにおいて、文書とカテゴリとカテゴリ毎に分類される特徴語との対応関係、および、特徴語の出現属性を設定した情報を格納する計算データ格納部と、2つ以上のカテゴリに分類されるマルチラベルの文書を含む文書集合の中で、前記文書を同一カテゴリ数の文書集合にグループ分けし、グループ分けした該文書集合を取出し、該文書集合が、マルチラベル文書の文書集合であればシングルラベル文書の文書集合に分割し、分割したシングルラベル文書の文書集合からカテゴリ毎の特徴語抽出を行い、前記グループ分けした全ての文書集合に対し、それぞれ前記と同様に特徴語抽出を行い、得られたカテゴリ毎の特徴語を集める、テキスト解析手段と、前記カテゴリ毎に集められた特徴語群の情報を格納する特徴語格納部と、を備えることを特徴とする。
【0008】
上記特徴語抽出システムにおいて、前記テキスト解析手段は、分類されるカテゴリ数が少ない順に文書を並ばせ、前記カテゴリ数の少ない順に前記文書集合を逐次取出し、該文書集合が、単一のカテゴリのみからなるシングルラベル文書の第1文書集合であれば該第1文書集合からカテゴリ毎の特徴語抽出を行い、複数のカテゴリからなるマルチラベル文書の第2文書集合であればシングルラベル文書の文書集合に分割し、分割したシングルラベル文書の文書集合からカテゴリ毎の特徴語抽出を逐次行う。
【0009】
上記特徴語抽出システムにおいて、前記文書集合に含まれる特徴語と該特徴語が分類されるカテゴリとの関係が大きい程、該特徴語の該カテゴリでの関連度が大きくなるように重みづけをつける統計計算手段を備える。
【0010】
本発明は、上記構成により、カテゴリ別の特徴語抽出において、マルチラベルの正解セット(カテゴリ別に分類済みの文書の集合)に対し、分類情報に関わる特徴語群を分類カテゴリ毎に推定、分割し、その展開結果のデータ構造をもとに逐次的に特徴語を抽出するので、マルチラベルの文書集合から正確に追随する特徴語抽出を行うことが可能となる。
【0011】
【発明の実施の形態】
以下、添付図面を参照しつつ本発明の実施の形態を詳細に説明する。
【0012】
(1) 図1は本発明の一実施形態に係る特徴語抽出システムのブロック構成図である。図1全体に示す本発明の特徴語抽出システム10は、基本的に電子計算機により構成され、システム10全体の流れを制御する制御部(CPU)1、システム10に対し利用者が選択や要求等の情報を入力するためのキーボードやマウス等の入力部2、システム10が利用者に表示や印字等して情報を出力するCRTやプリンタ等の出力部3、半導体メモリからなる小容量高速処理の主記憶4、ディスクからなる大容量低速処理の補助記憶5および通信回線を介して外部のコンピュータと情報交換するための通信部6を有する。
【0013】
主記憶4には、CPU1にテキスト解析手段41、統計計算手段42として機能させるためのプログラムが書込まれている。通常これらのプログラムはディスク5に格納されており要求に応じてメモリ4に転送され、CPU1により実行される。
【0014】
補助記憶5には、情報源格納部51、特徴語格納部52および計算データ格納部53が設けられている。
【0015】
情報源格納部51は、文書、インターネットホームページ、電子メール、ニュース記事などの電子化された情報類、および情報類を一意に識別可能なID情報とともに格納する。
【0016】
特徴語格納部52は、カテゴリ毎に所属する特徴語群DOCを属性データとともに格納する。
【0017】
計算データ格納部53は、システム10に登録する文書の各々に対する、分類カテゴリとカテゴリに分類される特徴語との対応関係を示すマトリクスを格納する。より具体的には、計算データ格納部53は、カテゴリ別に分類済みの文書の集合である正解セットにおける各々の文書に付与された、カテゴリ群とその帰属度および出現語群とその出現属性を、マトリクス形式で格納する。
【0018】
テキスト解析手段41は、情報源の情報や文書のテキスト情報を解析して単語分割を行い、単語の出現属性を計算データ格納部53に格納する。なお、単語分割には通常の形態素解析などを用いる。また、文書中に出現する全ての単語を文書マトリクスとして格納するのではなく、通常特徴語として有用と考えられる名詞類などを指定しておくこともできる。形態素解析について簡単に説明する。日本語の文書から特徴語を抽出するような場合、日本語の文書中の単語は英語のように単語と単語の間にブランクがないので、まず文書から単語を分割する手段を要するが、このような手段の一つが形態素解析であり、これによれば、辞書や文法情報に基づき文から単語が切り分けられる。
【0019】
統計計算手段42は、本発明の中核となる種々の統計計算を行う。
【0020】
(2) 図2は計算データ格納部53に格納される文書マトリクスの一例を示す図である。例えば、ID情報がIDk の文書に関するカテゴリCj への帰属度はAk,j 、単語Wi の出現属性はfk,i である。
【0021】
本発明の対象は、所与の文書マトリクスを出発点とするので、既に計算データ格納部53には、図2に示されるように、K個の文書ID1, . ,IDk, . ,IDK の各々に対し、J 個の分類先カテゴリC1, . ,Cj, . ,CJに関する帰属度Ak,1, . ,Ak,j, . ,Ak,Jと、I個の単語W1, . ,Wi, . ,WIに関する出現属性fk,1, . ,fk,i, . ,fk,Iと、がマトリクス形式で格納されていることを前提とする。
【0022】
計算データ格納部53におけるマルチラベル分類データ、すなわち文書マトリクスのデータの内、ラベル数(当該文書に付与された分類カテゴリの数)の少ないデータ順に、逐次的特徴語抽出を行う。
【0023】
(3) 図3は本発明による特徴語抽出の処理手順のフローを示す図である。図中、矢で示すように、ラベル数が少ない順(1、2、…、n)に特徴語抽出を行う。
【0024】
最初は、ラベル数が1のシングルラベルのデータを対象の文書ID1, . ,IDk, .,IDKとする。
【0025】
これに相当するデータ(例えば、文書IDk)では、カテゴリC1, . ,Cj, . ,CJに関する帰属度Ak,1, . ,Ak,j, . ,Ak,J の内、1個のみが「帰属」を表す値(例えば、1)で、他のJ−1個は「帰属せず」を表す値(例えば、0)になっている。これらの文書集合をDOC1とすると、これらは通常のシングルラベルの正解セットになっているので、従来の特徴語抽出法を用いて特徴語を抽出すればよい。ここで、正解セットとは、所定のカテゴリに関する文書であるとして予め設定され、計算データ格納部53に格納される文書ID1 , . ,IDk , . ,IDK の集合(例えばDOC1)を言う。
【0026】
また、文書集合DOC1は、カテゴリという観点から見ると、複数J個のカテゴリに対応した文書集合(DOC1−1,DOC1−2,…,DOC1−J)に分割され、それぞれの文書集合にはカテゴリへの帰属度に応じて対応する文書が含まれる。具体的には、例えば、物理というカテゴリCjの文書集合DOC1−jには、物理に関する文書1−j−1、1−j−2、…、などが含まれ、文書集合DOC1−jは物理というカテゴリの正解セットとなる。これらの関係は、図2に示すような文書マトリクスの形式で計算データ格納部53に格納される。なお、文書1−j−1、1−j−2、などは、実際には、文書ID1 ,…,IDk のいずれかに対応する。
【0027】
特徴語抽出のカテゴリ関連度の基準としては、Kullback−Leibler情報量、相互情報量、tfIDF,、相対出現頻度、単純出現頻度、相関係数などが考えられる。また、カテゴリ毎の特徴語の足切り条件としては、特徴語とカテゴリとの相関の有意性判定、上位定数個数、上位定率個数などの条件が考えられる。ここで、特徴語の足切りとは、例えば物理のカテゴリに分類される文書から抽出される特徴語を出現率の高い順に列挙したら、重力、エネルギ、半導体、モータ、レンズ、…、液晶、光ファイバ、…、等の順になった、と仮定する。このとき、足切りをカテゴリ関連度が高い順から100番目(液晶)までに設定すると、液晶までが物理というカテゴリの特徴語として選択され、光ファイバ以降のカテゴリ関連度の低い単語は物理というカテゴリの特徴語として選択されない。
【0028】
このような足切りの結果、特徴語格納部52にカテゴリ毎の特徴語群とその出現属性のデータ(単語)が格納される。
【0029】
カテゴリ毎の特徴語の集合をそれぞれKW(C1), KW(C2), . . ,KW(CJ)で示す。
【0030】
以上でシングルラベルの文書集合に対する特徴語抽出が完了する。
【0031】
(4) 以後、マルチラベルのデータが対象となる。
【0032】
図4はマルチラベルの文書データの展開例を示す図である。
【0033】
次に、2ラベルの文書集合に対する特徴語抽出を以下のように行う。
【0034】
ここでは、文書マトリクスのデータの内、ラベル数が2のデータを対象とする。つまり、帰属度Ak,1, . ,Ak,j, . ,Ak,m, , ,Ak,Jの内、2個Ak,jとAk,mとが「帰属」、他は「帰属せず」となる。これらの文書集合をDOC2とする。
【0035】
IDk ∈ DOC2 なる文書IDk に対して、このレコード(文書)IDkを後述する仮想的な2つのレコードIDk (j) とIDk (m) に展開する。ここで、∈は∈の左側のものが∈の右側の集合の要素であることを意味する記号であるので、IDk ∈ DOC2 は、文書IDk が文書集合DOC2の要素であることを意味する。このように、全てのIDk ∈ DOC2 な文書IDk に対して、展開して分割された文書IDk (j) とIDk (m) を集めた文書集合がDOC2’である。
【0036】
帰属するカテゴリが、Cj ,Cm である時、単語Wiの単語別ラベル数(単語Wi がCj ,Cm の中で特徴語となっている数)をniと置く。例えば、「エネルギ」という単語が「物理」カテゴリと「化学」カテゴリの特徴語となっているならば、単語別ラベル数はni=2となる。
【0037】
レコードの展開において、単語の出現属性値の変換を行う(計算法は後述する)。この変換は、単語が対象カテゴリの特徴語となっているか否かにより、重み付けを行う。λは重み付けのためのパラメータであり、0≦λ≦0.5 とする。
【0038】
レコードIDk (j)は、Cj の特性に合わせて以下のように定める。
【0039】
カテゴリ帰属度: A’k ,j = Ak,j, ∀t≠j なるt に対し、A’k,t = 0,
ここで、∀は、全てを意味する記号である。したがって、「∀t≠j なるt 」は、「j でない全てのt 」を意味する。
【0040】
単語出現属性: 1≦i≦Iなる単語Wi に対して、
(a)ni = 1かつWi ∈ KW(Cj) の場合 f’k,i = (1−λ) fk,i,
(b)ni = 1かつWi ∈ KW(Cj) でない場合 f’k,i = λfk,i,
(c)ni = 0あるいはni = 2の場合、f’k,i = fk,i / 2
ここで、(a)はWiとCjの関係が大のとき、(b)はWiとCjの関係が小のとき、(c)はWiとCjの関係が中のときに分けられる。例えば、カテゴリCj に分類される特徴語Wiの出現頻度の重みづけのパラメータλがλ=0.3であれば、(a)のf’k,i = 0.7fk,i 、(b)のf’k,i = 0.3fk,iとなり、7:3の重みづけとなる。この重みづけの数字は、予め指定した定数であってもよいし、1つ前のラベル数までに特徴語抽出された特徴語とカテゴリとの関係を利用して決定してもよい。これにより、より精度よくカテゴリに合った特徴語の抽出が可能になる。
【0041】
ここで注目すべき点は、Wi ∈ KW(Cj) の時のf’k,i = (1−λ) fk,iとWi ∈ KW(Cj) でない時のf’k,i = λfk,iとを加算( (1−λ) fk,i+λfk,i)すると、元のfk,iになることである。
【0042】
レコードIDk (m)は、Cm の特性に合わせて以下のように定める。
【0043】
カテゴリ帰属度: A”k ,m = Ak,m, ∀t≠m なるtに対しA”k,t = 0,
単語出現属性: 1≦i≦Iなる単語Wi に対して、
(a)ni = 1かつWi ∈ KW(Cm) の場合 f”k,i = (1−λ) fk,i,
(b)ni = 1かつWi ∈ KW(Cm) でない場合 f”k,i = λfk,i,
(c)ni = 0あるいはni = 2の場合、f”k,i = fk,i / 2
このようにして、マルチラベル(上記の例では2つのラベル)の付いた文書の性質を2つの仮想的なシングルラベルの文書として展開する。全てのIDk ∈ DOC2
なる文書IDkに対して同様のシングルラベル化の操作を行う。
【0044】
上述したシングルラベル化の操作により、DOC1とDOC2に対応する文書のデータは、図4の下段に示すように、見かけ上、全てシングルラベルとなるので、この文書集合に対して(3)と同様の特徴語抽出を行い、その結果として、特徴語格納部52にカテゴリ毎の特徴語群とその出現属性のデータを格納する。
【0045】
カテゴリ毎の特徴語の集合をあらためて、KW(C1),KW(C2), . . ,KW(CJ)とする。すなわち、2つのラベルの特徴語抽出おいてはシングルラベルの特徴語抽出で用いた文書集合DOC1 に、DOC2 を展開したDOC’2 を加えた文書集合を新たな正解セットとして用いて、これから抽出した特徴語を新たにKW(C1),KW(C2), . . ,KW(CJ)とする。
【0046】
(5) 以下、同様にして、文書のラベル数を3, 4, . . . ,J個まで可能な限り順次増やして、上記と同様の処理を行う。もちろん、特定のラベル数となる正解セットの文書が無ければ、そのラベル数の特徴語抽出サイクルをスキップして、ラベル数を1増やして次のサイクルの繰り返し処理に移る。
【0047】
すなわちラベル数 = n個の場合(3≦n≦J)、帰属度Ak,1, . ,Ak,j, . ,Ak,l, . ,Ak,m, , ,Ak,Jの内、n個Ak,jとAk,lとAk,mと…が帰属、他は帰属せずとなる。これらの文書集合をDOCnとする。
【0048】
IDk ∈ DOCn なる文書IDk に対して、当該レコードをn個のレコードに展開する。帰属するカテゴリがCj1, . . . , Cjnである時、この添え字集合をJCk = { j1, j2, . . . , jn },単語Wiの単語別ラベル数(単語WiがCj1, . . . , Cjn の中で特徴語となっている数)をniと置く。
【0049】
レコードの展開における単語の出現属性値の変換の重み付けパラメータをλとし、0≦λ≦0.5 とする。このλは、ラベル数に応じてサイクルごとに変えてもよい。
【0050】
ラベル数nの場合におけるレコードの展開について以下に示す。
【0051】
∀j ∈ JCk なる j に対して、
レコードIDk (j) は、Cj の特性に合わせて以下のように定める。
【0052】
カテゴリ帰属度: A’k ,j = Ak,j , ∀t≠j なるt に対しA’k,t = 0 ,
単語出現属性: 1≦i≦Iなる単語Wi に対して、
(a)Wi ∈ KW(Cj) の時 f(j) k,i = (1−λ) fk,i /Δ,
(b)Wi ∈ KW(Cj) でない時 f(j) k,i = λfk,i /Δ,
(但し、Δは正規化の係数で、Δ = (1 − λ)ni +λ(n − ni))
上記計算式(a)、(b)は任意のni の場合にも適用できる。
【0053】
なお、ni = 0あるいはni = nの時 f’k,i = fk,i / n
であるが、これは、(a)、(b)にni = 0あるいはni = nを代入すれば得られる。
【0054】
以下に、計算式(a)、(b)の整合性について述べる。
【0055】
(a)の場合、すなわち、単語Wi がカテゴリCj の特徴語になっている場合の数はni 通りである。(定義より、添え字集合JCk の要素の内ni 個の要素を添え字とするカテゴリがWi を特徴語としているからである。)
また(b)の場合は、すなわち(a)でない場合であり、これは(n−ni)通りである。
【0056】
次に、(a)の場合のf(j) k,i の値をni倍し、(b)の場合のf(j) k,i の値を(n−ni)倍して合計した値はfk,i となる。すなわち、レコードの展開の前後における単語出現属性値の合計値は不変となるように属性値を設定してある。また、ラベル数=nの場合の計算式(a)、(b)は、ラベル数が2の場合の計算式とも整合性があるし、もちろん、ラベル数が1の場合の単語出現属性値とも整合する。
【0057】
このようにして、マルチラベルの付いた文書の性質をn個のシングルラベルの文書として展開する。全てのIDk ∈ DOCnなる文書IDk に対して同様のシングルラベル化の操作を行う。図4において、ラベル3のときは、下の枠が2つでなく3つの文書IDがシングルラベルに展開され、同様に、ラベルnのときは、下の枠が2つでなくn個の文書IDが各々シングルラベルに展開される。
【0058】
これにより、DOC1,DOC2, . . ,DOCnに対応する文書のデータは、見かけ上、全てシングルラベルとなるので、この文書集合に対して(3)と同様の特徴語抽出を行い、その結果として、特徴語格納部52にカテゴリ毎の特徴語群とその出現属性のデータを格納する。
【0059】
それぞれのカテゴリの特徴語の集合をあらためて、KW(C1),KW(C2), . . . ,KW(CJ) とする。すなわち、n個のラベルの特徴語抽出で、(n−1)のラベル数までに用いた文書集合DOC1 , DOC2’〜DOC(n−1) ’にDOCn を展開したDOC’n を加えた文書集合を新たな正解セットとして用いて、これから抽出した特徴語を新たにKW(C1),KW(C2), . . ,KW(CJ)とする。
【0060】
(6) 最終的に全ての文書データが、見かけ上シングルラベルとなるので、全体の文書集合に対して特徴語抽出を行い、その結果として、特徴語格納部52に最終的なカテゴリ毎の特徴語群とその出現属性のデータを格納し、終了する。
【0061】
なお、各計算データは、ステップ毎に新たに計算し直すのではなく、ラベル数が低い場合のデータを利用して、逐次的な計算を行い、冗長な計算を回避する。
【0062】
(付記1)
電子化された情報類としての文書が何れのカテゴリに分類されるかを特定する特徴語を複数の文書集合から抽出する特徴語抽出システムにおいて、
文書とカテゴリとカテゴリ毎に分類される特徴語との対応関係、および、特徴語の出現属性を設定した情報を格納する計算データ格納部と、
2つ以上のカテゴリに分類されるマルチラベルの文書を含む文書集合の中で、前記文書を同一カテゴリ数の文書集合にグループ分けし、グループ分けした該文書集合を取出し、該文書集合が、マルチラベル文書の文書集合であればシングルラベル文書の文書集合に分割し、分割したシングルラベル文書の文書集合からカテゴリ毎の特徴語抽出を行い、前記グループ分けした全ての文書集合に対し、それぞれ前記と同様に特徴語抽出を行い、得られたカテゴリ毎の特徴語を集める、テキスト解析手段と、
前記カテゴリ毎に集められた特徴語群の情報を格納する特徴語格納部と、
を備えることを特徴とする特徴語抽出システム。(1)
(付記2)
前記テキスト解析手段は、
分類されるカテゴリ数が少ない順に文書を並ばせ、前記カテゴリ数の少ない順に前記文書集合を逐次取出し、該文書集合が、単一のカテゴリのみからなるシングルラベル文書の第1文書集合であれば該第1文書集合からカテゴリ毎の特徴語抽出を行い、複数のカテゴリからなるマルチラベル文書の第2文書集合であればシングルラベル文書の文書集合に分割し、分割したシングルラベル文書の文書集合からカテゴリ毎の特徴語抽出を逐次行う、
付記1に記載の特徴語抽出システム。(2)
(付記3)
前記文書集合に含まれる特徴語と該特徴語が分類されるカテゴリとの関係が大きい程、該特徴語の該カテゴリでの関連度が大きくなるように重みづけをつける統計計算手段を備える、付記1または2に記載の特徴語抽出システム。(3)
(付記4)
電子化された情報類としての文書が何れのカテゴリに分類されるかを特定する特徴語を複数の文書集合から抽出する特徴語抽出方法において、
予め文書とカテゴリとカテゴリ毎に分類される特徴語との対応関係、および、特徴語の出現属性を設定した情報を格納し、
2つ以上のカテゴリに分類されるマルチラベルの文書を含む文書集合の中で、前記文書を同一カテゴリ数の文書集合にグループ分けし、
前記文書集合を取出し、該文書集合が、マルチラベル文書の文書集合であればシングルラベル文書の文書集合に分割し、分割したシングルラベル文書の文書集合から所定の処理でカテゴリ毎の特徴語抽出を行い、
前記グループ分けした全ての文書集合に対し、それぞれ前記と同様に特徴語抽出を行い、得られたカテゴリ毎の特徴語を集め、
前記カテゴリ毎に集められた特徴語群の情報を格納する、
各ステップを備えることを特徴とする特徴語抽出方法。
【0063】
(付記5)
前記特徴語抽出ステップにおいて、
分類されるカテゴリ数が少ない順に文書を並ばせ、前記カテゴリ数の少ない順に前記文書集合を逐次取出し、該文書集合が、単一のカテゴリのみからなるシングルラベル文書の第1文書集合であれば該第1文書集合から所定の処理でカテゴリ毎の特徴語抽出を行い、複数のカテゴリからなるマルチラベル文書の第2文書集合であればシングルラベル文書の文書集合に分割し、分割したシングルラベル文書の文書集合から所定の処理でカテゴリ毎の特徴語抽出を逐次行う、
付記1に記載の特徴語抽出方法。
【0064】
(付記6)
前記所定の処理において、
前記文書集合に含まれる特徴語と該特徴語が分類されるカテゴリとの関係が大きい程、該特徴語の該カテゴリでの関連度が大きくなるように重みづけをつける、付記1または2に記載の特徴語抽出方法。
【0065】
【発明の効果】
以上説明したように、本発明によれば、特徴語抽出において計算精度を落とすことなくマルチラベルの正解セット(カテゴリ別に分類済みの文書の集合)を有効利用することが可能となり、その結果として、特徴語をより正確なカテゴリに分類できる。すなわち、複数の話題の分野(カテゴリ)とカテゴリに分類される特徴語との相関関係がより精度よく整理でき、これにより、マルチラベル自動分類(文書が属する複数個のカテゴリの解析)や、分野別辞書作成支援、などの文書処理技術の解析精度向上に寄与できる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る特徴語抽出システムのブロック構成図である。
【図2】計算データ格納部に格納される文書マトリクスの一例を示す図である。
【図3】本発明による特徴語抽出の処理手順のフローを示す図である。
【図4】マルチラベルの文書データの展開例を示す図である。
【符号の説明】
1…制御部(CPU)
2…入力部
3…出力部
4…主記憶(メモリ)
5…補助記憶(ディスク)
6…通信部
10…特徴語抽出システム
41…テキスト解析手段
42…統計計算手段
51…情報源格納部
52…特徴語格納部
53…計算データ格納部
Claims (3)
- 電子化された情報類としての文書が何れのカテゴリに分類されるかを特定する特徴語を複数の文書集合から抽出する特徴語抽出システムにおいて、
文書とカテゴリとカテゴリ毎に分類される特徴語との対応関係、および、特徴語の出現属性を設定した情報を格納する計算データ格納部と、
2つ以上のカテゴリに分類されるマルチラベルの文書を含む文書集合の中で、前記文書を同一カテゴリ数の文書集合にグループ分けし、グループ分けした該文書集合を取出し、該文書集合が、マルチラベル文書の文書集合であればシングルラベル文書の文書集合に分割し、分割したシングルラベル文書の文書集合からカテゴリ毎の特徴語抽出を行い、前記グループ分けした全ての文書集合に対し、それぞれ前記と同様に特徴語抽出を行い、得られたカテゴリ毎の特徴語を集める、テキスト解析手段と、
前記カテゴリ毎に集められた特徴語群の情報を格納する特徴語格納部と、
を備えることを特徴とする特徴語抽出システム。 - 前記テキスト解析手段は、
分類されるカテゴリ数が少ない順に文書を並ばせ、前記カテゴリ数の少ない順に前記文書集合を逐次取出し、該文書集合が、単一のカテゴリのみからなるシングルラベル文書の第1文書集合であれば該第1文書集合からカテゴリ毎の特徴語抽出を行い、複数のカテゴリからなるマルチラベル文書の第2文書集合であればシングルラベル文書の文書集合に分割し、分割したシングルラベル文書の文書集合からカテゴリ毎の特徴語抽出を逐次行う、
請求項1に記載の特徴語抽出システム。 - 前記文書集合に含まれる特徴語と該特徴語が分類されるカテゴリとの関係が大きい程、該特徴語の該カテゴリでの関連度が大きくなるように重みづけをつける統計計算手段を備える、請求項1または2に記載の特徴語抽出システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002185173A JP4219122B2 (ja) | 2002-06-25 | 2002-06-25 | 特徴語抽出システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002185173A JP4219122B2 (ja) | 2002-06-25 | 2002-06-25 | 特徴語抽出システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004030202A true JP2004030202A (ja) | 2004-01-29 |
JP4219122B2 JP4219122B2 (ja) | 2009-02-04 |
Family
ID=31180897
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002185173A Expired - Fee Related JP4219122B2 (ja) | 2002-06-25 | 2002-06-25 | 特徴語抽出システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4219122B2 (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005275505A (ja) * | 2004-03-23 | 2005-10-06 | Sony Corp | 情報処理装置および方法、プログラム |
JP2007079948A (ja) * | 2005-09-14 | 2007-03-29 | Nec Corp | 専門用語抽出装置、専門用語抽出方法および専門用語抽出プログラム |
JP2010009307A (ja) * | 2008-06-26 | 2010-01-14 | Kyoto Univ | 特徴語自動学習システム、コンテンツ連動型広告配信コンピュータシステム、検索連動型広告配信コンピュータシステム、およびテキスト分類コンピュータシステム、並びにこれらのコンピュータプログラムおよび方法 |
JP2011164791A (ja) * | 2010-02-05 | 2011-08-25 | Ntt Data Corp | 特徴語抽出装置、特徴語抽出方法および特徴語抽出プログラム |
JP2014215658A (ja) * | 2013-04-23 | 2014-11-17 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 情報の取得を支援する装置及び方法 |
JP2017073024A (ja) * | 2015-10-08 | 2017-04-13 | Necパーソナルコンピュータ株式会社 | 情報処理装置、情報処理システムおよび情報処理方法 |
JP2017084249A (ja) * | 2015-10-30 | 2017-05-18 | 株式会社Ubic | データ分類システム,方法,プログラムおよびその記録媒体 |
CN107894971A (zh) * | 2017-10-27 | 2018-04-10 | 北京大学 | 一种可扩展的基于神经网络的序列标注方法 |
KR20190017597A (ko) * | 2017-08-11 | 2019-02-20 | 주식회사 인데이터랩 | 사용자 반응 데이터 분석 방법 및 장치 |
-
2002
- 2002-06-25 JP JP2002185173A patent/JP4219122B2/ja not_active Expired - Fee Related
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4569143B2 (ja) * | 2004-03-23 | 2010-10-27 | ソニー株式会社 | 情報処理装置および方法、プログラム |
JP2005275505A (ja) * | 2004-03-23 | 2005-10-06 | Sony Corp | 情報処理装置および方法、プログラム |
JP2007079948A (ja) * | 2005-09-14 | 2007-03-29 | Nec Corp | 専門用語抽出装置、専門用語抽出方法および専門用語抽出プログラム |
JP2010009307A (ja) * | 2008-06-26 | 2010-01-14 | Kyoto Univ | 特徴語自動学習システム、コンテンツ連動型広告配信コンピュータシステム、検索連動型広告配信コンピュータシステム、およびテキスト分類コンピュータシステム、並びにこれらのコンピュータプログラムおよび方法 |
JP2011164791A (ja) * | 2010-02-05 | 2011-08-25 | Ntt Data Corp | 特徴語抽出装置、特徴語抽出方法および特徴語抽出プログラム |
US9626433B2 (en) | 2013-04-23 | 2017-04-18 | International Business Machines Corporation | Supporting acquisition of information |
JP2014215658A (ja) * | 2013-04-23 | 2014-11-17 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 情報の取得を支援する装置及び方法 |
JP2017073024A (ja) * | 2015-10-08 | 2017-04-13 | Necパーソナルコンピュータ株式会社 | 情報処理装置、情報処理システムおよび情報処理方法 |
JP2017084249A (ja) * | 2015-10-30 | 2017-05-18 | 株式会社Ubic | データ分類システム,方法,プログラムおよびその記録媒体 |
KR20190017597A (ko) * | 2017-08-11 | 2019-02-20 | 주식회사 인데이터랩 | 사용자 반응 데이터 분석 방법 및 장치 |
KR102023516B1 (ko) * | 2017-08-11 | 2019-09-20 | 주식회사 인데이터랩 | 사용자 반응 데이터 분석 방법 및 장치 |
CN107894971A (zh) * | 2017-10-27 | 2018-04-10 | 北京大学 | 一种可扩展的基于神经网络的序列标注方法 |
CN107894971B (zh) * | 2017-10-27 | 2019-11-26 | 北京大学 | 一种可扩展的基于神经网络的序列标注方法 |
Also Published As
Publication number | Publication date |
---|---|
JP4219122B2 (ja) | 2009-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110892399B (zh) | 自动生成主题内容摘要的系统和方法 | |
CA2777520C (en) | System and method for phrase identification | |
JP4489994B2 (ja) | 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体 | |
US8156430B2 (en) | System and method for clustering nodes of a tree structure | |
WO2019091026A1 (zh) | 知识库文档快速检索方法、应用服务器及计算机可读存储介质 | |
US7386438B1 (en) | Identifying language attributes through probabilistic analysis | |
US8849787B2 (en) | Two stage search | |
JP2005526317A (ja) | ドキュメントコーパスからコンセプト階層構造を自動に捜索する方法及びシステム | |
GB2401972A (en) | Identifying special word usage in a document | |
US20080288442A1 (en) | Ontology Based Text Indexing | |
JP2005122295A (ja) | 関係図作成プログラム、関係図作成方法、および関係図作成装置 | |
CN107357777B (zh) | 提取标签信息的方法和装置 | |
KR102046692B1 (ko) | 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법 및 시스템 | |
US7107550B2 (en) | Method and apparatus for segmenting hierarchical information for display purposes | |
Abdallah et al. | URL-based web page classification: With n-gram language models | |
JP4219122B2 (ja) | 特徴語抽出システム | |
JP6522446B2 (ja) | ラベル付与装置、方法およびプログラム | |
JP2007140639A (ja) | データ表示装置、データ表示方法およびデータ表示プログラム | |
Phan et al. | Automated data extraction from the web with conditional models | |
CN112925817A (zh) | 图书馆书籍检索方法及检索系统 | |
Eiken et al. | Ord i dag: Mining Norwegian daily newswire | |
JP5135766B2 (ja) | 検索端末装置、検索システムおよびプログラム | |
Benna et al. | Building a social network, based on collaborative tagging, to enhance social information retrieval | |
CN113656574B (zh) | 用于搜索结果排序的方法、计算设备和存储介质 | |
TWI813028B (zh) | 文字資料之篩選關聯方法及系統 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041124 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070925 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071126 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080108 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080310 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20080319 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080513 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080714 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080812 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080910 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081014 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081111 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111121 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111121 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121121 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121121 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131121 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |