JP2004030202A

JP2004030202A - 特徴語抽出システム

Info

Publication number: JP2004030202A
Application number: JP2002185173A
Authority: JP
Inventors: Tadashi Hoshiai; 星合　忠
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2002-06-25
Filing date: 2002-06-25
Publication date: 2004-01-29
Anticipated expiration: 2022-06-25
Also published as: JP4219122B2

Abstract

【課題】カテゴリ特定能力の高い単語（特徴語）を正確に選択可能な特徴語抽出システムを提供する。
【解決手段】文書とカテゴリとカテゴリ毎に分類される特徴語との対応関係及び特徴語の出現属性を設定した情報を格納する計算データ格納部５３、２つ以上のカテゴリに分類されるマルチラベルの文書を含む文書集合の中で、文書を同一カテゴリ数の文書集合にグループ分けし、グループ分けした文書集合を取出し、その文書集合が、マルチラベル文書の文書集合であればシングルラベル文書の文書集合に分割し、分割したシングルラベル文書の文書集合からカテゴリ毎の特徴語抽出を行い、グループ分けした全ての文書集合に対し、それぞれ同様に特徴語抽出を行い、得られたカテゴリ毎の特徴語を集める、テキスト解析手段４１、カテゴリ毎に集められた特徴語郡の情報を格納する特徴語格納部５２、を備える。
【選択図】　　　図１

Description

【０００１】
【発明の属する技術分野】
本発明は、文書、インターネットホームページ、電子メール、ニュース記事などの電子化された情報類を利用するための技術（特徴語抽出、情報分類、等）、統計解析および機械学習の分野に関し、特に特徴語抽出システムに関する。
【０００２】
【従来の技術】
文書からキーワードを抽出する手法としては、文書群全体を対象にして統計的に特徴のある単語を見つけ出す方法と、カテゴリ別に分類された文書群を対象にしてそれぞれのカテゴリに特有の単語を統計的に見つけ出す方法とがある。前者には、単純に中程度頻度の単語を選ぶ方法や、文書検索などにおいて文書特定能力の高い単語を選ぶ方法（ｔｆＩＤＦ：ｔｅｒｍ　ｆｒｅｑｕｅｎｃｙ　Ｉｎｖｅｒｓｅ　Ｄｏｃｕｍｅｎｔ　Ｆｒｅｑｕｅｎｃｙなどを用いる方法）があり、後者には、カテゴリ特定能力の高い単語を選ぶ方法（カテゴリ別相対頻度やＫｕｌｌｂａｃｋ−Ｌｅｉｂｌｅｒ情報量、相互情報量などを用いる方法）がある。本発明では、後者の手法に絞って議論の対象としている。本明細書では、文書とは前記電子化された情報類を意味する。
【０００３】
カテゴリ別に特徴語を抽出するためには、カテゴリ別に分類済みの文書の集合（正解セット）を用意して、それぞれのカテゴリにおける単語の出現属性（出現頻度、出現確率など）を調べることにより、カテゴリに特有の単語を、前述のような統計的な基準を基にして見つけ出す。ここで、特徴語とは、特定のカテゴリの文書の中で頻度よく出現し、かつ、他のカテゴリにおいて相対的に出現頻度が低い言葉を意味する。
【０００４】
従来の抽出法における正解セットは、通常、１つの文書に１つのカテゴリを分類先に割り当てる方法（シングルラベル）に基づき作成される。実際の文書の多くは複数の話題を含んでいるが、シングルラベルの正解セットにおいては、文書中の複数の話題の内、分類先として割り当てられなかったカテゴリの話題に使われる単語は、その出現の程度によっては本来関係付けられるべき分野の特徴語だけではなく、分類先として割り当てられたカテゴリの特徴語として抽出されてしまい、結果として、１つのカテゴリに異なる話題の分野（カテゴリ）に属する特徴語が混在し、適合率が低下するという問題があった。例えば、「公共事業」という単語（特徴語）が政治や経済のカテゴリに属する文書にそれぞれ出現し、その単語がどのカテゴリに属する特徴語か特定が困難であった。このシングルラベルによる手法は、このような事情を意識したものではなかった。
【０００５】
また、正解セットとして、１つの文書に複数のカテゴリを分類先として重複して割り当てる方法（マルチラベル）も考えられるが、このマルチラベルによる手法は、シングルラベルの場合と同じく、単純にそれぞれの分類カテゴリに所属する文書群からそのまま統計的基準に基づき単語を抽出するだけであり、やはり、この手法でも、異なる話題の分野（カテゴリ）に属する特徴語が混在する可能性がある。
【０００６】
【発明が解決しようとする課題】
従って、本発明は、カテゴリ特定能力の高い単語（特徴語）を選ぶカテゴリ別の特徴語抽出システムであって、分類カテゴリとカテゴリに分類される特徴語との対応関係を正確に行う特徴語抽出システムを提供することを目的とする。
【０００７】
【課題を解決するための手段】
上記目的を達成する本発明による特徴語抽出システムは、電子化された情報類としての文書が何れのカテゴリに分類されるかを特定する特徴語を複数の文書集合から抽出する特徴語抽出システムにおいて、文書とカテゴリとカテゴリ毎に分類される特徴語との対応関係、および、特徴語の出現属性を設定した情報を格納する計算データ格納部と、２つ以上のカテゴリに分類されるマルチラベルの文書を含む文書集合の中で、前記文書を同一カテゴリ数の文書集合にグループ分けし、グループ分けした該文書集合を取出し、該文書集合が、マルチラベル文書の文書集合であればシングルラベル文書の文書集合に分割し、分割したシングルラベル文書の文書集合からカテゴリ毎の特徴語抽出を行い、前記グループ分けした全ての文書集合に対し、それぞれ前記と同様に特徴語抽出を行い、得られたカテゴリ毎の特徴語を集める、テキスト解析手段と、前記カテゴリ毎に集められた特徴語群の情報を格納する特徴語格納部と、を備えることを特徴とする。
【０００８】
上記特徴語抽出システムにおいて、前記テキスト解析手段は、分類されるカテゴリ数が少ない順に文書を並ばせ、前記カテゴリ数の少ない順に前記文書集合を逐次取出し、該文書集合が、単一のカテゴリのみからなるシングルラベル文書の第１文書集合であれば該第１文書集合からカテゴリ毎の特徴語抽出を行い、複数のカテゴリからなるマルチラベル文書の第２文書集合であればシングルラベル文書の文書集合に分割し、分割したシングルラベル文書の文書集合からカテゴリ毎の特徴語抽出を逐次行う。
【０００９】
上記特徴語抽出システムにおいて、前記文書集合に含まれる特徴語と該特徴語が分類されるカテゴリとの関係が大きい程、該特徴語の該カテゴリでの関連度が大きくなるように重みづけをつける統計計算手段を備える。
【００１０】
本発明は、上記構成により、カテゴリ別の特徴語抽出において、マルチラベルの正解セット（カテゴリ別に分類済みの文書の集合）に対し、分類情報に関わる特徴語群を分類カテゴリ毎に推定、分割し、その展開結果のデータ構造をもとに逐次的に特徴語を抽出するので、マルチラベルの文書集合から正確に追随する特徴語抽出を行うことが可能となる。
【００１１】
【発明の実施の形態】
以下、添付図面を参照しつつ本発明の実施の形態を詳細に説明する。
【００１２】
（１）　図１は本発明の一実施形態に係る特徴語抽出システムのブロック構成図である。図１全体に示す本発明の特徴語抽出システム１０は、基本的に電子計算機により構成され、システム１０全体の流れを制御する制御部（ＣＰＵ）１、システム１０に対し利用者が選択や要求等の情報を入力するためのキーボードやマウス等の入力部２、システム１０が利用者に表示や印字等して情報を出力するＣＲＴやプリンタ等の出力部３、半導体メモリからなる小容量高速処理の主記憶４、ディスクからなる大容量低速処理の補助記憶５および通信回線を介して外部のコンピュータと情報交換するための通信部６を有する。
【００１３】
主記憶４には、ＣＰＵ１にテキスト解析手段４１、統計計算手段４２として機能させるためのプログラムが書込まれている。通常これらのプログラムはディスク５に格納されており要求に応じてメモリ４に転送され、ＣＰＵ１により実行される。
【００１４】
補助記憶５には、情報源格納部５１、特徴語格納部５２および計算データ格納部５３が設けられている。
【００１５】
情報源格納部５１は、文書、インターネットホームページ、電子メール、ニュース記事などの電子化された情報類、および情報類を一意に識別可能なＩＤ情報とともに格納する。
【００１６】
特徴語格納部５２は、カテゴリ毎に所属する特徴語群ＤＯＣを属性データとともに格納する。
【００１７】
計算データ格納部５３は、システム１０に登録する文書の各々に対する、分類カテゴリとカテゴリに分類される特徴語との対応関係を示すマトリクスを格納する。より具体的には、計算データ格納部５３は、カテゴリ別に分類済みの文書の集合である正解セットにおける各々の文書に付与された、カテゴリ群とその帰属度および出現語群とその出現属性を、マトリクス形式で格納する。
【００１８】
テキスト解析手段４１は、情報源の情報や文書のテキスト情報を解析して単語分割を行い、単語の出現属性を計算データ格納部５３に格納する。なお、単語分割には通常の形態素解析などを用いる。また、文書中に出現する全ての単語を文書マトリクスとして格納するのではなく、通常特徴語として有用と考えられる名詞類などを指定しておくこともできる。形態素解析について簡単に説明する。日本語の文書から特徴語を抽出するような場合、日本語の文書中の単語は英語のように単語と単語の間にブランクがないので、まず文書から単語を分割する手段を要するが、このような手段の一つが形態素解析であり、これによれば、辞書や文法情報に基づき文から単語が切り分けられる。
【００１９】
統計計算手段４２は、本発明の中核となる種々の統計計算を行う。
【００２０】
（２）　図２は計算データ格納部５３に格納される文書マトリクスの一例を示す図である。例えば、ＩＤ情報がＩＤ_ｋ　の文書に関するカテゴリＣ_ｊ　への帰属度はＡ_ｋ，ｊ　、単語Ｗ_ｉ　の出現属性はｆ_ｋ，ｉ　である。
【００２１】
本発明の対象は、所与の文書マトリクスを出発点とするので、既に計算データ格納部５３には、図２に示されるように、Ｋ個の文書ＩＤ_１，　．　，ＩＤ_ｋ，　．　，ＩＤ_Ｋ　の各々に対し、Ｊ　個の分類先カテゴリＣ_１，　．　，Ｃ_ｊ，　．　，Ｃ_Ｊに関する帰属度Ａ_ｋ，１，　．　，Ａ_ｋ，ｊ，　．　，Ａ_ｋ，Ｊと、Ｉ個の単語Ｗ_１，　．　，Ｗ_ｉ，　．　，Ｗ_Ｉに関する出現属性ｆ_ｋ，１，　．　，ｆ_ｋ，ｉ，　．　，ｆ_ｋ，Ｉと、がマトリクス形式で格納されていることを前提とする。
【００２２】
計算データ格納部５３におけるマルチラベル分類データ、すなわち文書マトリクスのデータの内、ラベル数（当該文書に付与された分類カテゴリの数）の少ないデータ順に、逐次的特徴語抽出を行う。
【００２３】
（３）　図３は本発明による特徴語抽出の処理手順のフローを示す図である。図中、矢で示すように、ラベル数が少ない順（１、２、…、ｎ）に特徴語抽出を行う。
【００２４】
最初は、ラベル数が１のシングルラベルのデータを対象の文書ＩＤ_１，　．　，ＩＤ_ｋ，　．，ＩＤ_Ｋとする。
【００２５】
これに相当するデータ（例えば、文書ＩＤ_ｋ）では、カテゴリＣ_１，　．　，Ｃ_ｊ，　．　，Ｃ_Ｊに関する帰属度Ａ_ｋ，１，　．　，Ａ_ｋ，ｊ，　．　，Ａ_ｋ，Ｊ　の内、１個のみが「帰属」を表す値（例えば、１）で、他のＪ−１個は「帰属せず」を表す値（例えば、０）になっている。これらの文書集合をＤＯＣ_１とすると、これらは通常のシングルラベルの正解セットになっているので、従来の特徴語抽出法を用いて特徴語を抽出すればよい。ここで、正解セットとは、所定のカテゴリに関する文書であるとして予め設定され、計算データ格納部５３に格納される文書ＩＤ_１　，　．　，ＩＤ_ｋ　，　．　，ＩＤ_Ｋ　の集合（例えばＤＯＣ_１）を言う。
【００２６】
また、文書集合ＤＯＣ_１は、カテゴリという観点から見ると、複数Ｊ個のカテゴリに対応した文書集合（ＤＯＣ_１−１，ＤＯＣ_１−２，…，ＤＯＣ_１−Ｊ）に分割され、それぞれの文書集合にはカテゴリへの帰属度に応じて対応する文書が含まれる。具体的には、例えば、物理というカテゴリＣ_ｊの文書集合ＤＯＣ_１−ｊには、物理に関する文書１−ｊ−１、１−ｊ−２、…、などが含まれ、文書集合ＤＯＣ_１−ｊは物理というカテゴリの正解セットとなる。これらの関係は、図２に示すような文書マトリクスの形式で計算データ格納部５３に格納される。なお、文書１−ｊ−１、１−ｊ−２、などは、実際には、文書ＩＤ_１　，…，ＩＤ_ｋ　のいずれかに対応する。
【００２７】
特徴語抽出のカテゴリ関連度の基準としては、Ｋｕｌｌｂａｃｋ−Ｌｅｉｂｌｅｒ情報量、相互情報量、ｔｆＩＤＦ，、相対出現頻度、単純出現頻度、相関係数などが考えられる。また、カテゴリ毎の特徴語の足切り条件としては、特徴語とカテゴリとの相関の有意性判定、上位定数個数、上位定率個数などの条件が考えられる。ここで、特徴語の足切りとは、例えば物理のカテゴリに分類される文書から抽出される特徴語を出現率の高い順に列挙したら、重力、エネルギ、半導体、モータ、レンズ、…、液晶、光ファイバ、…、等の順になった、と仮定する。このとき、足切りをカテゴリ関連度が高い順から１００番目（液晶）までに設定すると、液晶までが物理というカテゴリの特徴語として選択され、光ファイバ以降のカテゴリ関連度の低い単語は物理というカテゴリの特徴語として選択されない。
【００２８】
このような足切りの結果、特徴語格納部５２にカテゴリ毎の特徴語群とその出現属性のデータ（単語）が格納される。
【００２９】
カテゴリ毎の特徴語の集合をそれぞれＫＷ（Ｃ_１），　ＫＷ（Ｃ_２），　．　．　，ＫＷ（Ｃ_Ｊ）で示す。
【００３０】
以上でシングルラベルの文書集合に対する特徴語抽出が完了する。
【００３１】
（４）　以後、マルチラベルのデータが対象となる。
【００３２】
図４はマルチラベルの文書データの展開例を示す図である。
【００３３】
次に、２ラベルの文書集合に対する特徴語抽出を以下のように行う。
【００３４】
ここでは、文書マトリクスのデータの内、ラベル数が２のデータを対象とする。つまり、帰属度Ａ_ｋ，１，　．　，Ａ_ｋ，ｊ，　．　，Ａ_ｋ，ｍ，　，　，Ａ_ｋ，Ｊの内、２個Ａ_ｋ，ｊとＡ_ｋ，ｍとが「帰属」、他は「帰属せず」となる。これらの文書集合をＤＯＣ_２とする。
【００３５】
ＩＤ_ｋ　∈　ＤＯＣ_２　なる文書ＩＤ_ｋ　に対して、このレコード（文書）ＩＤ_ｋを後述する仮想的な２つのレコードＩＤ_ｋ ^（ｊ）　とＩＤ_ｋ ^（ｍ）　に展開する。ここで、∈は∈の左側のものが∈の右側の集合の要素であることを意味する記号であるので、ＩＤ_ｋ　∈　ＤＯＣ_２　は、文書ＩＤ_ｋ　が文書集合ＤＯＣ_２の要素であることを意味する。このように、全てのＩＤ_ｋ　∈　ＤＯＣ_２　な文書ＩＤ_ｋ　に対して、展開して分割された文書ＩＤ_ｋ ^（ｊ）　とＩＤ_ｋ ^（ｍ）　を集めた文書集合がＤＯＣ_２’である。
【００３６】
帰属するカテゴリが、Ｃ_ｊ　，Ｃ_ｍ　である時、単語Ｗ_ｉの単語別ラベル数（単語Ｗ_ｉ　がＣ_ｊ　，Ｃ_ｍ　の中で特徴語となっている数）をｎ_ｉと置く。例えば、「エネルギ」という単語が「物理」カテゴリと「化学」カテゴリの特徴語となっているならば、単語別ラベル数はｎ_ｉ＝２となる。
【００３７】
レコードの展開において、単語の出現属性値の変換を行う（計算法は後述する）。この変換は、単語が対象カテゴリの特徴語となっているか否かにより、重み付けを行う。λは重み付けのためのパラメータであり、０≦λ≦０．５　とする。
【００３８】
レコードＩＤ_ｋ ^（ｊ）は、Ｃ_ｊ　の特性に合わせて以下のように定める。
【００３９】
カテゴリ帰属度：　Ａ’_ｋ _，ｊ　＝　Ａ_ｋ，ｊ，　∀ｔ≠ｊ　なるｔ　に対し、Ａ’_ｋ，ｔ　＝　０，
ここで、∀は、全てを意味する記号である。したがって、「∀ｔ≠ｊ　なるｔ　」は、「ｊ　でない全てのｔ　」を意味する。
【００４０】
単語出現属性：　１≦ｉ≦Ｉなる単語Ｗ_ｉ　に対して、
（ａ）ｎ_ｉ　＝　１かつＷ_ｉ　∈　ＫＷ（Ｃ_ｊ）　の場合　　　ｆ’_ｋ，ｉ　＝　（１−λ）　ｆ_ｋ，ｉ，
（ｂ）ｎ_ｉ　＝　１かつＷ_ｉ　∈　ＫＷ（Ｃ_ｊ）　でない場合　ｆ’_ｋ，ｉ　＝　λｆ_ｋ，ｉ，
（ｃ）ｎ_ｉ　＝　０あるいはｎ_ｉ　＝　２の場合、ｆ’_ｋ，ｉ　＝　ｆ_ｋ，ｉ　／　２
ここで、（ａ）はＷ_ｉとＣ_ｊの関係が大のとき、（ｂ）はＷ_ｉとＣ_ｊの関係が小のとき、（ｃ）はＷ_ｉとＣ_ｊの関係が中のときに分けられる。例えば、カテゴリＣ_ｊ　に分類される特徴語Ｗ_ｉの出現頻度の重みづけのパラメータλがλ＝０．３であれば、（ａ）のｆ’_ｋ，ｉ　＝　０．７ｆ_ｋ，ｉ　、（ｂ）のｆ’_ｋ，ｉ　＝　０．３ｆ_ｋ，ｉとなり、７：３の重みづけとなる。この重みづけの数字は、予め指定した定数であってもよいし、１つ前のラベル数までに特徴語抽出された特徴語とカテゴリとの関係を利用して決定してもよい。これにより、より精度よくカテゴリに合った特徴語の抽出が可能になる。
【００４１】
ここで注目すべき点は、Ｗ_ｉ　∈　ＫＷ（Ｃ_ｊ）　の時のｆ’_ｋ，ｉ　＝　（１−λ）　ｆ_ｋ，ｉとＷ_ｉ　∈　ＫＷ（Ｃ_ｊ）　でない時のｆ’_ｋ，ｉ　＝　λｆ_ｋ，ｉとを加算（　（１−λ）　ｆ_ｋ，ｉ＋λｆ_ｋ，ｉ）すると、元のｆ_ｋ，ｉになることである。
【００４２】
レコードＩＤ_ｋ ^（ｍ）は、Ｃ_ｍ　の特性に合わせて以下のように定める。
【００４３】
カテゴリ帰属度：　Ａ”_ｋ _，ｍ　＝　Ａ_ｋ，ｍ，　∀ｔ≠ｍ　なるｔに対しＡ”_ｋ，ｔ　＝　０，
単語出現属性：　１≦ｉ≦Ｉなる単語Ｗ_ｉ　に対して、
（ａ）ｎ_ｉ　＝　１かつＷ_ｉ　∈　ＫＷ（Ｃ_ｍ）　の場合　　　ｆ”_ｋ，ｉ　＝　（１−λ）　ｆ_ｋ，ｉ，
（ｂ）ｎ_ｉ　＝　１かつＷ_ｉ　∈　ＫＷ（Ｃ_ｍ）　でない場合　ｆ”_ｋ，ｉ　＝　λｆ_ｋ，ｉ，
（ｃ）ｎ_ｉ　＝　０あるいはｎ_ｉ　＝　２の場合、ｆ”_ｋ，ｉ　＝　ｆ_ｋ，ｉ　／　２
このようにして、マルチラベル（上記の例では２つのラベル）の付いた文書の性質を２つの仮想的なシングルラベルの文書として展開する。全てのＩＤ_ｋ　∈　ＤＯＣ_２
なる文書ＩＤ_ｋに対して同様のシングルラベル化の操作を行う。
【００４４】
上述したシングルラベル化の操作により、ＤＯＣ_１とＤＯＣ_２に対応する文書のデータは、図４の下段に示すように、見かけ上、全てシングルラベルとなるので、この文書集合に対して（３）と同様の特徴語抽出を行い、その結果として、特徴語格納部５２にカテゴリ毎の特徴語群とその出現属性のデータを格納する。
【００４５】
カテゴリ毎の特徴語の集合をあらためて、ＫＷ（Ｃ_１），ＫＷ（Ｃ_２），　．　．　，ＫＷ（Ｃ_Ｊ）とする。すなわち、２つのラベルの特徴語抽出おいてはシングルラベルの特徴語抽出で用いた文書集合ＤＯＣ_１　に、ＤＯＣ_２　を展開したＤＯＣ’_２　を加えた文書集合を新たな正解セットとして用いて、これから抽出した特徴語を新たにＫＷ（Ｃ_１），ＫＷ（Ｃ_２），　．　．　，ＫＷ（Ｃ_Ｊ）とする。
【００４６】
（５）　以下、同様にして、文書のラベル数を３，　４，　．　．　．　，Ｊ個まで可能な限り順次増やして、上記と同様の処理を行う。もちろん、特定のラベル数となる正解セットの文書が無ければ、そのラベル数の特徴語抽出サイクルをスキップして、ラベル数を１増やして次のサイクルの繰り返し処理に移る。
【００４７】
すなわちラベル数　＝　ｎ個の場合（３≦ｎ≦Ｊ）、帰属度Ａ_ｋ，１，　．　，Ａ_ｋ，ｊ，　．　，Ａ_ｋ，ｌ，　．　，Ａ_ｋ，ｍ，　，　，Ａ_ｋ，Ｊの内、ｎ個Ａ_ｋ，ｊとＡ_ｋ，ｌとＡ_ｋ，ｍと…が帰属、他は帰属せずとなる。これらの文書集合をＤＯＣ_ｎとする。
【００４８】
ＩＤ_ｋ　∈　ＤＯＣ_ｎ　なる文書ＩＤ_ｋ　に対して、当該レコードをｎ個のレコードに展開する。帰属するカテゴリがＣ_ｊ１，　．　．　．　，　Ｃ_ｊｎである時、この添え字集合をＪＣ_ｋ　＝　｛　ｊ１，　ｊ２，　．　．　．　，　ｊｎ　｝，単語Ｗ_ｉの単語別ラベル数（単語Ｗ_ｉがＣ_ｊ１，　．　．　．　，　Ｃ_ｊｎ　の中で特徴語となっている数）をｎ_ｉと置く。
【００４９】
レコードの展開における単語の出現属性値の変換の重み付けパラメータをλとし、０≦λ≦０．５　とする。このλは、ラベル数に応じてサイクルごとに変えてもよい。
【００５０】
ラベル数ｎの場合におけるレコードの展開について以下に示す。
【００５１】
∀ｊ　∈　ＪＣ_ｋ　なる　ｊ　に対して、
レコードＩＤ_ｋ ^（ｊ）　は、Ｃ_ｊ　の特性に合わせて以下のように定める。
【００５２】
カテゴリ帰属度：　Ａ’_ｋ _，ｊ　＝　Ａ_ｋ，ｊ　，　∀ｔ≠ｊ　なるｔ　に対しＡ’_ｋ，ｔ　＝　０　，
単語出現属性：　１≦ｉ≦Ｉなる単語Ｗ_ｉ　に対して、
（ａ）Ｗ_ｉ　∈　ＫＷ（Ｃ_ｊ）　の時　　　ｆ^（ｊ）　_ｋ，ｉ　＝　（１−λ）　ｆ_ｋ，ｉ　／Δ，
（ｂ）Ｗ_ｉ　∈　ＫＷ（Ｃ_ｊ）　でない時　ｆ^（ｊ）　_ｋ，ｉ　＝　λｆ_ｋ，ｉ　／Δ，
（但し、Δは正規化の係数で、Δ　＝　（１　−　λ）ｎ_ｉ　＋λ（ｎ　−　ｎ_ｉ））
上記計算式（ａ）、（ｂ）は任意のｎ_ｉ　の場合にも適用できる。
【００５３】
なお、ｎ_ｉ　＝　０あるいはｎ_ｉ　＝　ｎの時　ｆ’_ｋ，ｉ　＝　ｆ_ｋ，ｉ　／　ｎ
であるが、これは、（ａ）、（ｂ）にｎ_ｉ　＝　０あるいはｎ_ｉ　＝　ｎを代入すれば得られる。
【００５４】
以下に、計算式（ａ）、（ｂ）の整合性について述べる。
【００５５】
（ａ）の場合、すなわち、単語Ｗ_ｉ　がカテゴリＣ_ｊ　の特徴語になっている場合の数はｎ_ｉ　通りである。（定義より、添え字集合ＪＣ_ｋ　の要素の内ｎ_ｉ　個の要素を添え字とするカテゴリがＷ_ｉ　を特徴語としているからである。）
また（ｂ）の場合は、すなわち（ａ）でない場合であり、これは（ｎ−ｎ_ｉ）通りである。
【００５６】
次に、（ａ）の場合のｆ^（ｊ） _ｋ，ｉ　の値をｎ_ｉ倍し、（ｂ）の場合のｆ^（ｊ） _ｋ，ｉ　の値を（ｎ−ｎ_ｉ）倍して合計した値はｆ_ｋ，ｉ　となる。すなわち、レコードの展開の前後における単語出現属性値の合計値は不変となるように属性値を設定してある。また、ラベル数＝ｎの場合の計算式（ａ）、（ｂ）は、ラベル数が２の場合の計算式とも整合性があるし、もちろん、ラベル数が１の場合の単語出現属性値とも整合する。
【００５７】
このようにして、マルチラベルの付いた文書の性質をｎ個のシングルラベルの文書として展開する。全てのＩＤ_ｋ　∈　ＤＯＣ_ｎなる文書ＩＤ_ｋ　に対して同様のシングルラベル化の操作を行う。図４において、ラベル３のときは、下の枠が２つでなく３つの文書ＩＤがシングルラベルに展開され、同様に、ラベルｎのときは、下の枠が２つでなくｎ個の文書ＩＤが各々シングルラベルに展開される。
【００５８】
これにより、ＤＯＣ_１，ＤＯＣ_２，　_．　_．　_，ＤＯＣ_ｎに対応する文書のデータは、見かけ上、全てシングルラベルとなるので、この文書集合に対して（３）と同様の特徴語抽出を行い、その結果として、特徴語格納部５２にカテゴリ毎の特徴語群とその出現属性のデータを格納する。
【００５９】
それぞれのカテゴリの特徴語の集合をあらためて、ＫＷ（Ｃ_１），ＫＷ（Ｃ_２），　．　．　．　，ＫＷ（Ｃ_Ｊ）　とする。すなわち、ｎ個のラベルの特徴語抽出で、（ｎ−１）のラベル数までに用いた文書集合ＤＯＣ_１　_，　ＤＯＣ_２’〜ＤＯＣ_{（ｎ−１）}　’にＤＯＣ_ｎ　を展開したＤＯＣ’_ｎ　を加えた文書集合を新たな正解セットとして用いて、これから抽出した特徴語を新たにＫＷ（Ｃ_１），ＫＷ（Ｃ_２），　．　．　，ＫＷ（Ｃ_Ｊ）とする。
【００６０】
（６）　最終的に全ての文書データが、見かけ上シングルラベルとなるので、全体の文書集合に対して特徴語抽出を行い、その結果として、特徴語格納部５２に最終的なカテゴリ毎の特徴語群とその出現属性のデータを格納し、終了する。
【００６１】
なお、各計算データは、ステップ毎に新たに計算し直すのではなく、ラベル数が低い場合のデータを利用して、逐次的な計算を行い、冗長な計算を回避する。
【００６２】
（付記１）
電子化された情報類としての文書が何れのカテゴリに分類されるかを特定する特徴語を複数の文書集合から抽出する特徴語抽出システムにおいて、
文書とカテゴリとカテゴリ毎に分類される特徴語との対応関係、および、特徴語の出現属性を設定した情報を格納する計算データ格納部と、
２つ以上のカテゴリに分類されるマルチラベルの文書を含む文書集合の中で、前記文書を同一カテゴリ数の文書集合にグループ分けし、グループ分けした該文書集合を取出し、該文書集合が、マルチラベル文書の文書集合であればシングルラベル文書の文書集合に分割し、分割したシングルラベル文書の文書集合からカテゴリ毎の特徴語抽出を行い、前記グループ分けした全ての文書集合に対し、それぞれ前記と同様に特徴語抽出を行い、得られたカテゴリ毎の特徴語を集める、テキスト解析手段と、
前記カテゴリ毎に集められた特徴語群の情報を格納する特徴語格納部と、
を備えることを特徴とする特徴語抽出システム。（１）
（付記２）
前記テキスト解析手段は、
分類されるカテゴリ数が少ない順に文書を並ばせ、前記カテゴリ数の少ない順に前記文書集合を逐次取出し、該文書集合が、単一のカテゴリのみからなるシングルラベル文書の第１文書集合であれば該第１文書集合からカテゴリ毎の特徴語抽出を行い、複数のカテゴリからなるマルチラベル文書の第２文書集合であればシングルラベル文書の文書集合に分割し、分割したシングルラベル文書の文書集合からカテゴリ毎の特徴語抽出を逐次行う、
付記１に記載の特徴語抽出システム。（２）
（付記３）
前記文書集合に含まれる特徴語と該特徴語が分類されるカテゴリとの関係が大きい程、該特徴語の該カテゴリでの関連度が大きくなるように重みづけをつける統計計算手段を備える、付記１または２に記載の特徴語抽出システム。（３）
（付記４）
電子化された情報類としての文書が何れのカテゴリに分類されるかを特定する特徴語を複数の文書集合から抽出する特徴語抽出方法において、
予め文書とカテゴリとカテゴリ毎に分類される特徴語との対応関係、および、特徴語の出現属性を設定した情報を格納し、
２つ以上のカテゴリに分類されるマルチラベルの文書を含む文書集合の中で、前記文書を同一カテゴリ数の文書集合にグループ分けし、
前記文書集合を取出し、該文書集合が、マルチラベル文書の文書集合であればシングルラベル文書の文書集合に分割し、分割したシングルラベル文書の文書集合から所定の処理でカテゴリ毎の特徴語抽出を行い、
前記グループ分けした全ての文書集合に対し、それぞれ前記と同様に特徴語抽出を行い、得られたカテゴリ毎の特徴語を集め、
前記カテゴリ毎に集められた特徴語群の情報を格納する、
各ステップを備えることを特徴とする特徴語抽出方法。
【００６３】
（付記５）
前記特徴語抽出ステップにおいて、
分類されるカテゴリ数が少ない順に文書を並ばせ、前記カテゴリ数の少ない順に前記文書集合を逐次取出し、該文書集合が、単一のカテゴリのみからなるシングルラベル文書の第１文書集合であれば該第１文書集合から所定の処理でカテゴリ毎の特徴語抽出を行い、複数のカテゴリからなるマルチラベル文書の第２文書集合であればシングルラベル文書の文書集合に分割し、分割したシングルラベル文書の文書集合から所定の処理でカテゴリ毎の特徴語抽出を逐次行う、
付記１に記載の特徴語抽出方法。
【００６４】
（付記６）
前記所定の処理において、
前記文書集合に含まれる特徴語と該特徴語が分類されるカテゴリとの関係が大きい程、該特徴語の該カテゴリでの関連度が大きくなるように重みづけをつける、付記１または２に記載の特徴語抽出方法。
【００６５】
【発明の効果】
以上説明したように、本発明によれば、特徴語抽出において計算精度を落とすことなくマルチラベルの正解セット（カテゴリ別に分類済みの文書の集合）を有効利用することが可能となり、その結果として、特徴語をより正確なカテゴリに分類できる。すなわち、複数の話題の分野（カテゴリ）とカテゴリに分類される特徴語との相関関係がより精度よく整理でき、これにより、マルチラベル自動分類（文書が属する複数個のカテゴリの解析）や、分野別辞書作成支援、などの文書処理技術の解析精度向上に寄与できる。
【図面の簡単な説明】
【図１】本発明の一実施形態に係る特徴語抽出システムのブロック構成図である。
【図２】計算データ格納部に格納される文書マトリクスの一例を示す図である。
【図３】本発明による特徴語抽出の処理手順のフローを示す図である。
【図４】マルチラベルの文書データの展開例を示す図である。
【符号の説明】
１…制御部（ＣＰＵ）
２…入力部
３…出力部
４…主記憶（メモリ）
５…補助記憶（ディスク）
６…通信部
１０…特徴語抽出システム
４１…テキスト解析手段
４２…統計計算手段
５１…情報源格納部
５２…特徴語格納部
５３…計算データ格納部

Claims

電子化された情報類としての文書が何れのカテゴリに分類されるかを特定する特徴語を複数の文書集合から抽出する特徴語抽出システムにおいて、
文書とカテゴリとカテゴリ毎に分類される特徴語との対応関係、および、特徴語の出現属性を設定した情報を格納する計算データ格納部と、
２つ以上のカテゴリに分類されるマルチラベルの文書を含む文書集合の中で、前記文書を同一カテゴリ数の文書集合にグループ分けし、グループ分けした該文書集合を取出し、該文書集合が、マルチラベル文書の文書集合であればシングルラベル文書の文書集合に分割し、分割したシングルラベル文書の文書集合からカテゴリ毎の特徴語抽出を行い、前記グループ分けした全ての文書集合に対し、それぞれ前記と同様に特徴語抽出を行い、得られたカテゴリ毎の特徴語を集める、テキスト解析手段と、
前記カテゴリ毎に集められた特徴語群の情報を格納する特徴語格納部と、
を備えることを特徴とする特徴語抽出システム。
前記テキスト解析手段は、
分類されるカテゴリ数が少ない順に文書を並ばせ、前記カテゴリ数の少ない順に前記文書集合を逐次取出し、該文書集合が、単一のカテゴリのみからなるシングルラベル文書の第１文書集合であれば該第１文書集合からカテゴリ毎の特徴語抽出を行い、複数のカテゴリからなるマルチラベル文書の第２文書集合であればシングルラベル文書の文書集合に分割し、分割したシングルラベル文書の文書集合からカテゴリ毎の特徴語抽出を逐次行う、
請求項１に記載の特徴語抽出システム。
前記文書集合に含まれる特徴語と該特徴語が分類されるカテゴリとの関係が大きい程、該特徴語の該カテゴリでの関連度が大きくなるように重みづけをつける統計計算手段を備える、請求項１または２に記載の特徴語抽出システム。