JP4219122B2

JP4219122B2 - 特徴語抽出システム

Info

Publication number: JP4219122B2
Application number: JP2002185173A
Authority: JP
Inventors: 忠星合
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2002-06-25
Filing date: 2002-06-25
Publication date: 2009-02-04
Anticipated expiration: 2022-06-25
Also published as: JP2004030202A

Description

【０００１】
【発明の属する技術分野】
本発明は、文書、インターネットホームページ、電子メール、ニュース記事などの電子化された情報類を利用するための技術（特徴語抽出、情報分類、等）、統計解析および機械学習の分野に関し、特に特徴語抽出システムに関する。
【０００２】
【従来の技術】
文書からキーワードを抽出する手法としては、文書群全体を対象にして統計的に特徴のある単語を見つけ出す方法と、カテゴリ別に分類された文書群を対象にしてそれぞれのカテゴリに特有の単語を統計的に見つけ出す方法とがある。前者には、単純に中程度頻度の単語を選ぶ方法や、文書検索などにおいて文書特定能力の高い単語を選ぶ方法（tfIDF:term frequency Inverse Document Frequencyなどを用いる方法）があり、後者には、カテゴリ特定能力の高い単語を選ぶ方法（カテゴリ別相対頻度やKullback-Leibler情報量、相互情報量などを用いる方法）がある。本発明では、後者の手法に絞って議論の対象としている。本明細書では、文書とは前記電子化された情報類を意味する。
【０００３】
カテゴリ別に特徴語を抽出するためには、カテゴリ別に分類済みの文書の集合（正解セット）を用意して、それぞれのカテゴリにおける単語の出現属性（出現頻度、出現確率など）を調べることにより、カテゴリに特有の単語を、前述のような統計的な基準を基にして見つけ出す。ここで、特徴語とは、特定のカテゴリの文書の中で頻度よく出現し、かつ、他のカテゴリにおいて相対的に出現頻度が低い言葉を意味する。
【０００４】
従来の抽出法における正解セットは、通常、１つの文書に１つのカテゴリを分類先に割り当てる方法（シングルラベル）に基づき作成される。実際の文書の多くは複数の話題を含んでいるが、シングルラベルの正解セットにおいては、文書中の複数の話題の内、分類先として割り当てられなかったカテゴリの話題に使われる単語は、その出現の程度によっては本来関係付けられるべき分野の特徴語だけではなく、分類先として割り当てられたカテゴリの特徴語として抽出されてしまい、結果として、１つのカテゴリに異なる話題の分野（カテゴリ）に属する特徴語が混在し、適合率が低下するという問題があった。例えば、「公共事業」という単語（特徴語）が政治や経済のカテゴリに属する文書にそれぞれ出現し、その単語がどのカテゴリに属する特徴語か特定が困難であった。このシングルラベルによる手法は、このような事情を意識したものではなかった。
【０００５】
また、正解セットとして、１つの文書に複数のカテゴリを分類先として重複して割り当てる方法（マルチラベル）も考えられるが、このマルチラベルによる手法は、シングルラベルの場合と同じく、単純にそれぞれの分類カテゴリに所属する文書群からそのまま統計的基準に基づき単語を抽出するだけであり、やはり、この手法でも、異なる話題の分野（カテゴリ）に属する特徴語が混在する可能性がある。
【０００６】
【発明が解決しようとする課題】
従って、本発明は、カテゴリ特定能力の高い単語（特徴語）を選ぶカテゴリ別の特徴語抽出システムであって、分類カテゴリとカテゴリに分類される特徴語との対応関係を正確に行う特徴語抽出システムを提供することを目的とする。
【０００７】
【課題を解決するための手段】
上記目的を達成する本発明による特徴語抽出システムは、電子化された情報類としての文書が何れのカテゴリに分類されるかを特定する特徴語を複数の文書集合から抽出する特徴語抽出システムにおいて、単一のカテゴリに分類される文書であるシングルラベルの文書、又は、２つ以上のカテゴリに分類される文書であるマルチラベルの文書の何れかに分類される文書と、該文書の属するカテゴリと、該文書に含まれる単語の出現頻度又は出現確率である出現属性から構成される文書データからなる文書集合を、マトリクス形式で表現した文書マトリクスを格納する計算データ格納部と、前記出現属性の計算、及び、該出現属性の重み付けを含む統計計算を行う統計計算手段と、カテゴリ毎に特徴語群とその出現属性を格納する特徴語格納部と、前記計算データ格納部に格納された文書データの中で、分類されるカテゴリ数が少ない順に前記文書データを並ばせ、前記カテゴリ数の少ない順に前記グループ分けした全ての文書データを逐次取出し、該文書データが、シングルラベル文書からなる第１文書データであれば、該第１文書データに含まれる単語の出現属性に基づきカテゴリ毎の特徴語抽出を行い、マルチラベル文書からなる第２文書データであれば、該第２文書データの単語の出現属性を重み付け計算することにより該第２文書データをシングルラベル文書に展開した際の新たな出現属性を計算した上で、該第２文書データをシングルラベル文書の文書データに展開することにより、シングルラベル文書の文書データのみからなる文書集合を作成し、該文書集合からカテゴリ毎の特徴語抽出を逐次行い、抽出された特徴語とその出現属性を特徴語格納部に格納するテキスト解析手段と、を備えることを特徴とする。
【００１０】
本発明は、上記構成により、カテゴリ別の特徴語抽出において、マルチラベルの正解セット（カテゴリ別に分類済みの文書の集合）に対し、分類情報に関わる特徴語群を分類カテゴリ毎に推定、分割し、その展開結果のデータ構造をもとに逐次的に特徴語を抽出するので、マルチラベルの文書集合から正確に追随する特徴語抽出を行うことが可能となる。
【００１１】
【発明の実施の形態】
以下、添付図面を参照しつつ本発明の実施の形態を詳細に説明する。
【００１２】
(1) 図１は本発明の一実施形態に係る特徴語抽出システムのブロック構成図である。図１全体に示す本発明の特徴語抽出システム１０は、基本的に電子計算機により構成され、システム１０全体の流れを制御する制御部（ＣＰＵ）１、システム１０に対し利用者が選択や要求等の情報を入力するためのキーボードやマウス等の入力部２、システム１０が利用者に表示や印字等して情報を出力するＣＲＴやプリンタ等の出力部３、半導体メモリからなる小容量高速処理の主記憶４、ディスクからなる大容量低速処理の補助記憶５および通信回線を介して外部のコンピュータと情報交換するための通信部６を有する。
【００１３】
主記憶４には、ＣＰＵ１にテキスト解析手段４１、統計計算手段４２として機能させるためのプログラムが書込まれている。通常これらのプログラムはディスク５に格納されており要求に応じてメモリ４に転送され、ＣＰＵ１により実行される。
【００１４】
補助記憶５には、情報源格納部５１、特徴語格納部５２および計算データ格納部５３が設けられている。
【００１５】
情報源格納部５１は、文書、インターネットホームページ、電子メール、ニュース記事などの電子化された情報類、および情報類を一意に識別可能なID情報とともに格納する。
【００１６】
特徴語格納部５２は、カテゴリ毎に所属する特徴語群DOCを属性データとともに格納する。
【００１７】
計算データ格納部５３は、システム１０に登録する文書の各々に対する、分類カテゴリとカテゴリに分類される特徴語との対応関係を示すマトリクスを格納する。より具体的には、計算データ格納部５３は、カテゴリ別に分類済みの文書の集合である正解セットにおける各々の文書に付与された、カテゴリ群とその帰属度および出現語群とその出現属性を、マトリクス形式で格納する。
【００１８】
テキスト解析手段４１は、情報源の情報や文書のテキスト情報を解析して単語分割を行い、単語の出現属性を計算データ格納部５３に格納する。なお、単語分割には通常の形態素解析などを用いる。また、文書中に出現する全ての単語を文書マトリクスとして格納するのではなく、通常特徴語として有用と考えられる名詞類などを指定しておくこともできる。形態素解析について簡単に説明する。日本語の文書から特徴語を抽出するような場合、日本語の文書中の単語は英語のように単語と単語の間にブランクがないので、まず文書から単語を分割する手段を要するが、このような手段の一つが形態素解析であり、これによれば、辞書や文法情報に基づき文から単語が切り分けられる。
【００１９】
統計計算手段４２は、本発明の中核となる種々の統計計算を行う。
【００２０】
(2) 図２は計算データ格納部５３に格納される文書マトリクスの一例を示す図である。例えば、ID情報がID_k の文書に関するカテゴリC_j への帰属度はA_k,j 、単語W_i の出現属性はf_k,i である。
【００２１】
本発明の対象は、所与の文書マトリクスを出発点とするので、既に計算データ格納部５３には、図２に示されるように、K個の文書ID₁, . ,ID_k, . ,ID_K の各々に対し、J 個の分類先カテゴリC₁, . ,C_j, . ,C_Jに関する帰属度A_k,1, . ,A_k,j, . ,A_k,Jと、I個の単語W₁, . ,W_i, . ,W_Iに関する出現属性f_k,1, . ,f_k,i, . ,f_k,Iと、がマトリクス形式で格納されていることを前提とする。
【００２２】
計算データ格納部５３におけるマルチラベル分類データ、すなわち文書マトリクスのデータの内、ラベル数（当該文書に付与された分類カテゴリの数）の少ないデータ順に、逐次的特徴語抽出を行う。
【００２３】
(3) 図３は本発明による特徴語抽出の処理手順のフローを示す図である。図中、矢で示すように、ラベル数が少ない順（１、２、…、ｎ）に特徴語抽出を行う。
【００２４】
最初は、ラベル数が１のシングルラベルのデータを対象の文書ID₁, . ,ID_k, . ,ID_Kとする。
【００２５】
これに相当するデータ（例えば、文書ID_ｋ）では、カテゴリC₁, . ,C_j, . ,C_Jに関する帰属度A_k,1, . ,A_k,j, . ,A_k,J の内、1個のみが「帰属」を表す値（例えば、1）で、他のJ-1個は「帰属せず」を表す値（例えば、0）になっている。これらの文書集合をDOC₁とすると、これらは通常のシングルラベルの正解セットになっているので、従来の特徴語抽出法を用いて特徴語を抽出すればよい。ここで、正解セットとは、所定のカテゴリに関する文書であるとして予め設定され、計算データ格納部５３に格納される文書ID₁ , . ,ID_k , . ,ID_K の集合（例えばDOC₁）を言う。
【００２６】
また、文書集合DOC₁は、カテゴリという観点から見ると、複数Ｊ個のカテゴリに対応した文書集合（DOC_1-1,DOC_1-2,…,DOC_1-J）に分割され、それぞれの文書集合にはカテゴリへの帰属度に応じて対応する文書が含まれる。具体的には、例えば、物理というカテゴリC_jの文書集合DOC_1-jには、物理に関する文書１−ｊ−１、１−ｊ−２、…、などが含まれ、文書集合DOC_1-jは物理というカテゴリの正解セットとなる。これらの関係は、図２に示すような文書マトリクスの形式で計算データ格納部５３に格納される。なお、文書１−ｊ−１、１−ｊ−２、などは、実際には、文書ID₁ ,…,ID_k のいずれかに対応する。
【００２７】
特徴語抽出のカテゴリ関連度の基準としては、Kullback-Leibler情報量、相互情報量、tfIDF,、相対出現頻度、単純出現頻度、相関係数などが考えられる。また、カテゴリ毎の特徴語の足切り条件としては、特徴語とカテゴリとの相関の有意性判定、上位定数個数、上位定率個数などの条件が考えられる。ここで、特徴語の足切りとは、例えば物理のカテゴリに分類される文書から抽出される特徴語を出現率の高い順に列挙したら、重力、エネルギ、半導体、モータ、レンズ、…、液晶、光ファイバ、…、等の順になった、と仮定する。このとき、足切りをカテゴリ関連度が高い順から１００番目（液晶）までに設定すると、液晶までが物理というカテゴリの特徴語として選択され、光ファイバ以降のカテゴリ関連度の低い単語は物理というカテゴリの特徴語として選択されない。
【００２８】
このような足切りの結果、特徴語格納部５２にカテゴリ毎の特徴語群とその出現属性のデータ（単語）が格納される。
【００２９】
カテゴリ毎の特徴語の集合をそれぞれKW(C₁), KW(C₂), . . ,KW(C_J)で示す。
【００３０】
以上でシングルラベルの文書集合に対する特徴語抽出が完了する。
【００３１】
(4) 以後、マルチラベルのデータが対象となる。
【００３２】
図４はマルチラベルの文書データの展開例を示す図である。
【００３３】
次に、２ラベルの文書集合に対する特徴語抽出を以下のように行う。
【００３４】
ここでは、文書マトリクスのデータの内、ラベル数が２のデータを対象とする。つまり、帰属度A_k,1, . ,A_k,j, . ,A_k,m, , ,A_k,Jの内、2個A_k,jとA_k,mとが「帰属」、他は「帰属せず」となる。これらの文書集合をDOC₂とする。
【００３５】
ID_k ∈ DOC₂ なる文書ID_k に対して、このレコード（文書）ID_kを後述する仮想的な２つのレコードID_k ^(j) とID_k ^(m) に展開する。ここで、∈は∈の左側のものが∈の右側の集合の要素であることを意味する記号であるので、ID_k ∈ DOC₂ は、文書ID_k が文書集合DOC₂の要素であることを意味する。このように、全てのID_k ∈ DOC₂ な文書ID_k に対して、展開して分割された文書ID_k ^(j) とID_k ^(m) を集めた文書集合がDOC₂'である。
【００３６】
帰属するカテゴリが、C_j ,C_m である時、単語W_iの単語別ラベル数（単語W_i がC_j ,C_m の中で特徴語となっている数）をn_iと置く。例えば、「エネルギ」という単語が「物理」カテゴリと「化学」カテゴリの特徴語となっているならば、単語別ラベル数はn_i＝２となる。
【００３７】
レコードの展開において、単語の出現属性値の変換を行う(計算法は後述する)。この変換は、単語が対象カテゴリの特徴語となっているか否かにより、重み付けを行う。λは重み付けのためのパラメータであり、0≦λ≦0.5 とする。
【００３８】
レコードID_k ^(j)は、C_j の特性に合わせて以下のように定める。
【００３９】
カテゴリ帰属度： A’_ｋ _,j = A_k,j, ∀t≠j なるt に対し、A’_k,t = 0,
ここで、∀は、全てを意味する記号である。したがって、「∀t≠j なるt 」は、「j でない全てのt 」を意味する。
【００４０】
単語出現属性： 1≦i≦Iなる単語W_i に対して、
（ａ）n_i = 1かつW_i ∈ KW(C_j) の場合 f’_k,i = (1-λ) f_k,i,
（ｂ）n_i = 1かつW_i ∈ KW(C_j) でない場合 f’_k,i = λf_k,i,
（ｃ）n_i = 0あるいはn_i = 2の場合、f’_k,i = f_k,i / 2
ここで、（ａ）はW_iとC_jの関係が大のとき、（ｂ）はW_iとC_jの関係が小のとき、（ｃ）はW_iとC_jの関係が中のときに分けられる。例えば、カテゴリC_j に分類される特徴語W_iの出現頻度の重みづけのパラメータλがλ＝０．３であれば、（ａ）のf’_k,i = ０．７f_k,i 、（ｂ）のf’_k,i = ０．３f_k,iとなり、７：３の重みづけとなる。この重みづけの数字は、予め指定した定数であってもよいし、１つ前のラベル数までに特徴語抽出された特徴語とカテゴリとの関係を利用して決定してもよい。これにより、より精度よくカテゴリに合った特徴語の抽出が可能になる。
【００４１】
ここで注目すべき点は、W_i ∈ KW(C_j) の時のf’_k,i = (1-λ) f_k,iとW_i ∈ KW(C_j) でない時のf’_k,i = λf_k,iとを加算（ (1-λ) f_k,i＋λf_k,i）すると、元のf_k,iになることである。
【００４２】
レコードID_k ^(m)は、C_m の特性に合わせて以下のように定める。
【００４３】
カテゴリ帰属度： A"_ｋ _,m = A_k,m, ∀t≠m なるtに対しA"_k,t = 0,
単語出現属性： 1≦i≦Iなる単語W_i に対して、
（ａ）n_i = 1かつW_i ∈ KW(C_m) の場合 f"_k,i = (1-λ) f_k,i,
（ｂ）n_i = 1かつW_i ∈ KW(C_m) でない場合 f"_k,i = λf_k,i,
（ｃ）n_i = 0あるいはn_i = 2の場合、f"_k,i = f_k,i / 2
このようにして、マルチラベル（上記の例では２つのラベル）の付いた文書の性質を2つの仮想的なシングルラベルの文書として展開する。全てのID_k ∈ DOC₂
なる文書ID_kに対して同様のシングルラベル化の操作を行う。
【００４４】
上述したシングルラベル化の操作により、DOC₁とDOC₂に対応する文書のデータは、図４の下段に示すように、見かけ上、全てシングルラベルとなるので、この文書集合に対して(3)と同様の特徴語抽出を行い、その結果として、特徴語格納部５２にカテゴリ毎の特徴語群とその出現属性のデータを格納する。
【００４５】
カテゴリ毎の特徴語の集合をあらためて、KW(C₁),KW(C₂), . . ,KW(C_J)とする。すなわち、２つのラベルの特徴語抽出おいてはシングルラベルの特徴語抽出で用いた文書集合DOC₁ に、DOC₂ を展開したDOC'₂ を加えた文書集合を新たな正解セットとして用いて、これから抽出した特徴語を新たにKW(C₁),KW(C₂), . . ,KW(C_J)とする。
【００４６】
(5) 以下、同様にして、文書のラベル数を3, 4, . . . ,J個まで可能な限り順次増やして、上記と同様の処理を行う。もちろん、特定のラベル数となる正解セットの文書が無ければ、そのラベル数の特徴語抽出サイクルをスキップして、ラベル数を1増やして次のサイクルの繰り返し処理に移る。
【００４７】
すなわちラベル数＝ n個の場合（3≦n≦J）、帰属度A_k,1, . ,A_k,j, . ,A_k,l, . ,A_k,m, , ,A_k,Jの内、n個A_k,jとA_k,lとA_k,mと…が帰属、他は帰属せずとなる。これらの文書集合をDOC_nとする。
【００４８】
ID_k ∈ DOC_n なる文書ID_k に対して、当該レコードをn個のレコードに展開する。帰属するカテゴリがC_j1, . . . , C_jnである時、この添え字集合をJC_k = { j1, j2, . . . , jn },単語W_iの単語別ラベル数（単語W_iがC_j1, . . . , C_jn の中で特徴語となっている数）をn_iと置く。
【００４９】
レコードの展開における単語の出現属性値の変換の重み付けパラメータをλとし、0≦λ≦0.5 とする。このλは、ラベル数に応じてサイクルごとに変えてもよい。
【００５０】
ラベル数ｎの場合におけるレコードの展開について以下に示す。
【００５１】
∀j ∈ JC_k なる j に対して、
レコードID_k ^(j) は、C_j の特性に合わせて以下のように定める。
【００５２】
カテゴリ帰属度： A’_ｋ _,j = A_k,j , ∀t≠j なるt に対しA’_k,t = 0 ,
単語出現属性： 1≦i≦Iなる単語W_i に対して、
（ａ）W_i ∈ KW(C_j) の時 f^(j) _k,i = (1-λ) f_k,i /Δ,
（ｂ）W_i ∈ KW(C_j) でない時 f^(j) _k,i = λf_k,i /Δ,
（但し、Δは正規化の係数で、Δ ＝ (1 - λ)n_i ＋λ(n - n_i)）
上記計算式（ａ）、（ｂ）は任意のn_i の場合にも適用できる。
【００５３】
なお、n_i = 0あるいはn_i = nの時 f’_k,i = f_k,i / ｎ
であるが、これは、（ａ）、（ｂ）にn_i = ０あるいはn_i = ｎを代入すれば得られる。
【００５４】
以下に、計算式（ａ）、（ｂ）の整合性について述べる。
【００５５】
（ａ）の場合、すなわち、単語W_i がカテゴリC_j の特徴語になっている場合の数はn_i 通りである。（定義より、添え字集合JC_k の要素の内n_i 個の要素を添え字とするカテゴリがW_i を特徴語としているからである。）
また（ｂ）の場合は、すなわち（ａ）でない場合であり、これは(n-n_i)通りである。
【００５６】
次に、（ａ）の場合のf^(j) _k,i の値をn_i倍し、（ｂ）の場合のf^(j) _k,i の値を(n−n_i)倍して合計した値はf_k,i となる。すなわち、レコードの展開の前後における単語出現属性値の合計値は不変となるように属性値を設定してある。また、ラベル数=nの場合の計算式（ａ）、（ｂ）は、ラベル数が２の場合の計算式とも整合性があるし、もちろん、ラベル数が１の場合の単語出現属性値とも整合する。
【００５７】
このようにして、マルチラベルの付いた文書の性質をｎ個のシングルラベルの文書として展開する。全てのID_k ∈ DOC_nなる文書ID_k に対して同様のシングルラベル化の操作を行う。図４において、ラベル３のときは、下の枠が２つでなく３つの文書IDがシングルラベルに展開され、同様に、ラベルｎのときは、下の枠が２つでなくｎ個の文書IDが各々シングルラベルに展開される。
【００５８】
これにより、DOC_1,DOC_2, _. _. _,DOC_nに対応する文書のデータは、見かけ上、全てシングルラベルとなるので、この文書集合に対して(3)と同様の特徴語抽出を行い、その結果として、特徴語格納部５２にカテゴリ毎の特徴語群とその出現属性のデータを格納する。
【００５９】
それぞれのカテゴリの特徴語の集合をあらためて、KW(C₁),KW(C₂), . . . ,KW(C_J) とする。すなわち、ｎ個のラベルの特徴語抽出で、(ｎ−１)のラベル数までに用いた文書集合DOC₁ _, DOC₂'〜DOC_(n-1) 'にDOC_n を展開したDOC'_n を加えた文書集合を新たな正解セットとして用いて、これから抽出した特徴語を新たにKW(C₁),KW(C₂), . . ,KW(C_J)とする。
【００６０】
(6) 最終的に全ての文書データが、見かけ上シングルラベルとなるので、全体の文書集合に対して特徴語抽出を行い、その結果として、特徴語格納部５２に最終的なカテゴリ毎の特徴語群とその出現属性のデータを格納し、終了する。
【００６１】
なお、各計算データは、ステップ毎に新たに計算し直すのではなく、ラベル数が低い場合のデータを利用して、逐次的な計算を行い、冗長な計算を回避する。
【００６２】
（付記１）
電子化された情報類としての文書が何れのカテゴリに分類されるかを特定する特徴語を複数の文書集合から抽出する特徴語抽出システムにおいて、
文書とカテゴリとカテゴリ毎に分類される特徴語との対応関係、および、特徴語の出現属性を設定した情報を格納する計算データ格納部と、
２つ以上のカテゴリに分類されるマルチラベルの文書を含む文書集合の中で、前記文書を同一カテゴリ数の文書集合にグループ分けし、グループ分けした該文書集合を取出し、該文書集合が、マルチラベル文書の文書集合であればシングルラベル文書の文書集合に分割し、分割したシングルラベル文書の文書集合からカテゴリ毎の特徴語抽出を行い、前記グループ分けした全ての文書集合に対し、それぞれ前記と同様に特徴語抽出を行い、得られたカテゴリ毎の特徴語を集める、テキスト解析手段と、
前記カテゴリ毎に集められた特徴語群の情報を格納する特徴語格納部と、
を備えることを特徴とする特徴語抽出システム。（１）
（付記２）
前記テキスト解析手段は、
分類されるカテゴリ数が少ない順に文書を並ばせ、前記カテゴリ数の少ない順に前記文書集合を逐次取出し、該文書集合が、単一のカテゴリのみからなるシングルラベル文書の第１文書集合であれば該第１文書集合からカテゴリ毎の特徴語抽出を行い、複数のカテゴリからなるマルチラベル文書の第２文書集合であればシングルラベル文書の文書集合に分割し、分割したシングルラベル文書の文書集合からカテゴリ毎の特徴語抽出を逐次行う、
付記１に記載の特徴語抽出システム。（２）
（付記３）
前記文書集合に含まれる特徴語と該特徴語が分類されるカテゴリとの関係が大きい程、該特徴語の該カテゴリでの関連度が大きくなるように重みづけをつける統計計算手段を備える、付記１または２に記載の特徴語抽出システム。（３）
（付記４）
電子化された情報類としての文書が何れのカテゴリに分類されるかを特定する特徴語を複数の文書集合から抽出する特徴語抽出方法において、
予め文書とカテゴリとカテゴリ毎に分類される特徴語との対応関係、および、特徴語の出現属性を設定した情報を格納し、
２つ以上のカテゴリに分類されるマルチラベルの文書を含む文書集合の中で、前記文書を同一カテゴリ数の文書集合にグループ分けし、
前記文書集合を取出し、該文書集合が、マルチラベル文書の文書集合であればシングルラベル文書の文書集合に分割し、分割したシングルラベル文書の文書集合から所定の処理でカテゴリ毎の特徴語抽出を行い、
前記グループ分けした全ての文書集合に対し、それぞれ前記と同様に特徴語抽出を行い、得られたカテゴリ毎の特徴語を集め、
前記カテゴリ毎に集められた特徴語群の情報を格納する、
各ステップを備えることを特徴とする特徴語抽出方法。
【００６３】
（付記５）
前記特徴語抽出ステップにおいて、
分類されるカテゴリ数が少ない順に文書を並ばせ、前記カテゴリ数の少ない順に前記文書集合を逐次取出し、該文書集合が、単一のカテゴリのみからなるシングルラベル文書の第１文書集合であれば該第１文書集合から所定の処理でカテゴリ毎の特徴語抽出を行い、複数のカテゴリからなるマルチラベル文書の第２文書集合であればシングルラベル文書の文書集合に分割し、分割したシングルラベル文書の文書集合から所定の処理でカテゴリ毎の特徴語抽出を逐次行う、
付記１に記載の特徴語抽出方法。
【００６４】
（付記６）
前記所定の処理において、
前記文書集合に含まれる特徴語と該特徴語が分類されるカテゴリとの関係が大きい程、該特徴語の該カテゴリでの関連度が大きくなるように重みづけをつける、付記１または２に記載の特徴語抽出方法。
【００６５】
【発明の効果】
以上説明したように、本発明によれば、特徴語抽出において計算精度を落とすことなくマルチラベルの正解セット（カテゴリ別に分類済みの文書の集合）を有効利用することが可能となり、その結果として、特徴語をより正確なカテゴリに分類できる。すなわち、複数の話題の分野（カテゴリ）とカテゴリに分類される特徴語との相関関係がより精度よく整理でき、これにより、マルチラベル自動分類（文書が属する複数個のカテゴリの解析）や、分野別辞書作成支援、などの文書処理技術の解析精度向上に寄与できる。
【図面の簡単な説明】
【図１】本発明の一実施形態に係る特徴語抽出システムのブロック構成図である。
【図２】計算データ格納部に格納される文書マトリクスの一例を示す図である。
【図３】本発明による特徴語抽出の処理手順のフローを示す図である。
【図４】マルチラベルの文書データの展開例を示す図である。
【符号の説明】
１…制御部（ＣＰＵ）
２…入力部
３…出力部
４…主記憶（メモリ）
５…補助記憶（ディスク）
６…通信部
１０…特徴語抽出システム
４１…テキスト解析手段
４２…統計計算手段
５１…情報源格納部
５２…特徴語格納部
５３…計算データ格納部

Claims

電子化された情報類としての文書が何れのカテゴリに分類されるかを特定する特徴語を複数の文書集合から抽出する特徴語抽出システムにおいて、
単一のカテゴリに分類される文書であるシングルラベルの文書、又は、２つ以上のカテゴリに分類される文書であるマルチラベルの文書の何れかに分類される文書と、該文書の属するカテゴリと、該文書に含まれる単語の出現頻度又は出現確率である出現属性から構成される文書データからなる文書集合を、マトリクス形式で表現した文書マトリクスを格納する計算データ格納部と、
前記出現属性の計算、及び、該出現属性の重み付けを含む統計計算を行う統計計算手段と、
カテゴリ毎に特徴語群とその出現属性を格納する特徴語格納部と、
前記計算データ格納部に格納された文書データの中で、分類されるカテゴリ数が少ない順に前記文書データを並ばせ、前記カテゴリ数の少ない順に前記グループ分けした全ての文書データを逐次取出し、該文書データが、シングルラベル文書からなる第１文書データであれば、該第１文書データに含まれる単語の出現属性に基づきカテゴリ毎の特徴語抽出を行い、マルチラベル文書からなる第２文書データであれば、該第２文書データの単語の出現属性を重み付け計算することにより該第２文書データをシングルラベル文書に展開した際の新たな出現属性を計算した上で、該第２文書データをシングルラベル文書の文書データに展開することにより、シングルラベル文書の文書データのみからなる文書集合を作成し、該文書集合からカテゴリ毎の特徴語抽出を逐次行い、抽出された特徴語とその出現属性を特徴語格納部に格納するテキスト解析手段と、
を備えることを特徴とする特徴語抽出システム。