JP2004030202A - 特徴語抽出システム - Google Patents

特徴語抽出システム Download PDF

Info

Publication number
JP2004030202A
JP2004030202A JP2002185173A JP2002185173A JP2004030202A JP 2004030202 A JP2004030202 A JP 2004030202A JP 2002185173 A JP2002185173 A JP 2002185173A JP 2002185173 A JP2002185173 A JP 2002185173A JP 2004030202 A JP2004030202 A JP 2004030202A
Authority
JP
Japan
Prior art keywords
category
document
documents
word
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002185173A
Other languages
English (en)
Other versions
JP4219122B2 (ja
Inventor
Tadashi Hoshiai
星合 忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2002185173A priority Critical patent/JP4219122B2/ja
Publication of JP2004030202A publication Critical patent/JP2004030202A/ja
Application granted granted Critical
Publication of JP4219122B2 publication Critical patent/JP4219122B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

【課題】カテゴリ特定能力の高い単語(特徴語)を正確に選択可能な特徴語抽出システムを提供する。
【解決手段】文書とカテゴリとカテゴリ毎に分類される特徴語との対応関係及び特徴語の出現属性を設定した情報を格納する計算データ格納部53、2つ以上のカテゴリに分類されるマルチラベルの文書を含む文書集合の中で、文書を同一カテゴリ数の文書集合にグループ分けし、グループ分けした文書集合を取出し、その文書集合が、マルチラベル文書の文書集合であればシングルラベル文書の文書集合に分割し、分割したシングルラベル文書の文書集合からカテゴリ毎の特徴語抽出を行い、グループ分けした全ての文書集合に対し、それぞれ同様に特徴語抽出を行い、得られたカテゴリ毎の特徴語を集める、テキスト解析手段41、カテゴリ毎に集められた特徴語郡の情報を格納する特徴語格納部52、を備える。
【選択図】   図1

Description

【0001】
【発明の属する技術分野】
本発明は、文書、インターネットホームページ、電子メール、ニュース記事などの電子化された情報類を利用するための技術(特徴語抽出、情報分類、等)、統計解析および機械学習の分野に関し、特に特徴語抽出システムに関する。
【0002】
【従来の技術】
文書からキーワードを抽出する手法としては、文書群全体を対象にして統計的に特徴のある単語を見つけ出す方法と、カテゴリ別に分類された文書群を対象にしてそれぞれのカテゴリに特有の単語を統計的に見つけ出す方法とがある。前者には、単純に中程度頻度の単語を選ぶ方法や、文書検索などにおいて文書特定能力の高い単語を選ぶ方法(tfIDF:term frequency Inverse Document Frequencyなどを用いる方法)があり、後者には、カテゴリ特定能力の高い単語を選ぶ方法(カテゴリ別相対頻度やKullback−Leibler情報量、相互情報量などを用いる方法)がある。本発明では、後者の手法に絞って議論の対象としている。本明細書では、文書とは前記電子化された情報類を意味する。
【0003】
カテゴリ別に特徴語を抽出するためには、カテゴリ別に分類済みの文書の集合(正解セット)を用意して、それぞれのカテゴリにおける単語の出現属性(出現頻度、出現確率など)を調べることにより、カテゴリに特有の単語を、前述のような統計的な基準を基にして見つけ出す。ここで、特徴語とは、特定のカテゴリの文書の中で頻度よく出現し、かつ、他のカテゴリにおいて相対的に出現頻度が低い言葉を意味する。
【0004】
従来の抽出法における正解セットは、通常、1つの文書に1つのカテゴリを分類先に割り当てる方法(シングルラベル)に基づき作成される。実際の文書の多くは複数の話題を含んでいるが、シングルラベルの正解セットにおいては、文書中の複数の話題の内、分類先として割り当てられなかったカテゴリの話題に使われる単語は、その出現の程度によっては本来関係付けられるべき分野の特徴語だけではなく、分類先として割り当てられたカテゴリの特徴語として抽出されてしまい、結果として、1つのカテゴリに異なる話題の分野(カテゴリ)に属する特徴語が混在し、適合率が低下するという問題があった。例えば、「公共事業」という単語(特徴語)が政治や経済のカテゴリに属する文書にそれぞれ出現し、その単語がどのカテゴリに属する特徴語か特定が困難であった。このシングルラベルによる手法は、このような事情を意識したものではなかった。
【0005】
また、正解セットとして、1つの文書に複数のカテゴリを分類先として重複して割り当てる方法(マルチラベル)も考えられるが、このマルチラベルによる手法は、シングルラベルの場合と同じく、単純にそれぞれの分類カテゴリに所属する文書群からそのまま統計的基準に基づき単語を抽出するだけであり、やはり、この手法でも、異なる話題の分野(カテゴリ)に属する特徴語が混在する可能性がある。
【0006】
【発明が解決しようとする課題】
従って、本発明は、カテゴリ特定能力の高い単語(特徴語)を選ぶカテゴリ別の特徴語抽出システムであって、分類カテゴリとカテゴリに分類される特徴語との対応関係を正確に行う特徴語抽出システムを提供することを目的とする。
【0007】
【課題を解決するための手段】
上記目的を達成する本発明による特徴語抽出システムは、電子化された情報類としての文書が何れのカテゴリに分類されるかを特定する特徴語を複数の文書集合から抽出する特徴語抽出システムにおいて、文書とカテゴリとカテゴリ毎に分類される特徴語との対応関係、および、特徴語の出現属性を設定した情報を格納する計算データ格納部と、2つ以上のカテゴリに分類されるマルチラベルの文書を含む文書集合の中で、前記文書を同一カテゴリ数の文書集合にグループ分けし、グループ分けした該文書集合を取出し、該文書集合が、マルチラベル文書の文書集合であればシングルラベル文書の文書集合に分割し、分割したシングルラベル文書の文書集合からカテゴリ毎の特徴語抽出を行い、前記グループ分けした全ての文書集合に対し、それぞれ前記と同様に特徴語抽出を行い、得られたカテゴリ毎の特徴語を集める、テキスト解析手段と、前記カテゴリ毎に集められた特徴語群の情報を格納する特徴語格納部と、を備えることを特徴とする。
【0008】
上記特徴語抽出システムにおいて、前記テキスト解析手段は、分類されるカテゴリ数が少ない順に文書を並ばせ、前記カテゴリ数の少ない順に前記文書集合を逐次取出し、該文書集合が、単一のカテゴリのみからなるシングルラベル文書の第1文書集合であれば該第1文書集合からカテゴリ毎の特徴語抽出を行い、複数のカテゴリからなるマルチラベル文書の第2文書集合であればシングルラベル文書の文書集合に分割し、分割したシングルラベル文書の文書集合からカテゴリ毎の特徴語抽出を逐次行う。
【0009】
上記特徴語抽出システムにおいて、前記文書集合に含まれる特徴語と該特徴語が分類されるカテゴリとの関係が大きい程、該特徴語の該カテゴリでの関連度が大きくなるように重みづけをつける統計計算手段を備える。
【0010】
本発明は、上記構成により、カテゴリ別の特徴語抽出において、マルチラベルの正解セット(カテゴリ別に分類済みの文書の集合)に対し、分類情報に関わる特徴語群を分類カテゴリ毎に推定、分割し、その展開結果のデータ構造をもとに逐次的に特徴語を抽出するので、マルチラベルの文書集合から正確に追随する特徴語抽出を行うことが可能となる。
【0011】
【発明の実施の形態】
以下、添付図面を参照しつつ本発明の実施の形態を詳細に説明する。
【0012】
(1) 図1は本発明の一実施形態に係る特徴語抽出システムのブロック構成図である。図1全体に示す本発明の特徴語抽出システム10は、基本的に電子計算機により構成され、システム10全体の流れを制御する制御部(CPU)1、システム10に対し利用者が選択や要求等の情報を入力するためのキーボードやマウス等の入力部2、システム10が利用者に表示や印字等して情報を出力するCRTやプリンタ等の出力部3、半導体メモリからなる小容量高速処理の主記憶4、ディスクからなる大容量低速処理の補助記憶5および通信回線を介して外部のコンピュータと情報交換するための通信部6を有する。
【0013】
主記憶4には、CPU1にテキスト解析手段41、統計計算手段42として機能させるためのプログラムが書込まれている。通常これらのプログラムはディスク5に格納されており要求に応じてメモリ4に転送され、CPU1により実行される。
【0014】
補助記憶5には、情報源格納部51、特徴語格納部52および計算データ格納部53が設けられている。
【0015】
情報源格納部51は、文書、インターネットホームページ、電子メール、ニュース記事などの電子化された情報類、および情報類を一意に識別可能なID情報とともに格納する。
【0016】
特徴語格納部52は、カテゴリ毎に所属する特徴語群DOCを属性データとともに格納する。
【0017】
計算データ格納部53は、システム10に登録する文書の各々に対する、分類カテゴリとカテゴリに分類される特徴語との対応関係を示すマトリクスを格納する。より具体的には、計算データ格納部53は、カテゴリ別に分類済みの文書の集合である正解セットにおける各々の文書に付与された、カテゴリ群とその帰属度および出現語群とその出現属性を、マトリクス形式で格納する。
【0018】
テキスト解析手段41は、情報源の情報や文書のテキスト情報を解析して単語分割を行い、単語の出現属性を計算データ格納部53に格納する。なお、単語分割には通常の形態素解析などを用いる。また、文書中に出現する全ての単語を文書マトリクスとして格納するのではなく、通常特徴語として有用と考えられる名詞類などを指定しておくこともできる。形態素解析について簡単に説明する。日本語の文書から特徴語を抽出するような場合、日本語の文書中の単語は英語のように単語と単語の間にブランクがないので、まず文書から単語を分割する手段を要するが、このような手段の一つが形態素解析であり、これによれば、辞書や文法情報に基づき文から単語が切り分けられる。
【0019】
統計計算手段42は、本発明の中核となる種々の統計計算を行う。
【0020】
(2) 図2は計算データ格納部53に格納される文書マトリクスの一例を示す図である。例えば、ID情報がID の文書に関するカテゴリC への帰属度はAk,j 、単語W の出現属性はfk,i である。
【0021】
本発明の対象は、所与の文書マトリクスを出発点とするので、既に計算データ格納部53には、図2に示されるように、K個の文書ID, . ,ID, . ,ID の各々に対し、J 個の分類先カテゴリC, . ,C, . ,Cに関する帰属度Ak,1, . ,Ak,j, . ,Ak,Jと、I個の単語W, . ,W, . ,Wに関する出現属性fk,1, . ,fk,i, . ,fk,Iと、がマトリクス形式で格納されていることを前提とする。
【0022】
計算データ格納部53におけるマルチラベル分類データ、すなわち文書マトリクスのデータの内、ラベル数(当該文書に付与された分類カテゴリの数)の少ないデータ順に、逐次的特徴語抽出を行う。
【0023】
(3) 図3は本発明による特徴語抽出の処理手順のフローを示す図である。図中、矢で示すように、ラベル数が少ない順(1、2、…、n)に特徴語抽出を行う。
【0024】
最初は、ラベル数が1のシングルラベルのデータを対象の文書ID, . ,ID, .,IDとする。
【0025】
これに相当するデータ(例えば、文書ID)では、カテゴリC, . ,C, . ,Cに関する帰属度Ak,1, . ,Ak,j, . ,Ak,J の内、1個のみが「帰属」を表す値(例えば、1)で、他のJ−1個は「帰属せず」を表す値(例えば、0)になっている。これらの文書集合をDOCとすると、これらは通常のシングルラベルの正解セットになっているので、従来の特徴語抽出法を用いて特徴語を抽出すればよい。ここで、正解セットとは、所定のカテゴリに関する文書であるとして予め設定され、計算データ格納部53に格納される文書ID , . ,ID , . ,ID の集合(例えばDOC)を言う。
【0026】
また、文書集合DOCは、カテゴリという観点から見ると、複数J個のカテゴリに対応した文書集合(DOC1−1,DOC1−2,…,DOC1−J)に分割され、それぞれの文書集合にはカテゴリへの帰属度に応じて対応する文書が含まれる。具体的には、例えば、物理というカテゴリCの文書集合DOC1−jには、物理に関する文書1−j−1、1−j−2、…、などが含まれ、文書集合DOC1−jは物理というカテゴリの正解セットとなる。これらの関係は、図2に示すような文書マトリクスの形式で計算データ格納部53に格納される。なお、文書1−j−1、1−j−2、などは、実際には、文書ID ,…,ID のいずれかに対応する。
【0027】
特徴語抽出のカテゴリ関連度の基準としては、Kullback−Leibler情報量、相互情報量、tfIDF,、相対出現頻度、単純出現頻度、相関係数などが考えられる。また、カテゴリ毎の特徴語の足切り条件としては、特徴語とカテゴリとの相関の有意性判定、上位定数個数、上位定率個数などの条件が考えられる。ここで、特徴語の足切りとは、例えば物理のカテゴリに分類される文書から抽出される特徴語を出現率の高い順に列挙したら、重力、エネルギ、半導体、モータ、レンズ、…、液晶、光ファイバ、…、等の順になった、と仮定する。このとき、足切りをカテゴリ関連度が高い順から100番目(液晶)までに設定すると、液晶までが物理というカテゴリの特徴語として選択され、光ファイバ以降のカテゴリ関連度の低い単語は物理というカテゴリの特徴語として選択されない。
【0028】
このような足切りの結果、特徴語格納部52にカテゴリ毎の特徴語群とその出現属性のデータ(単語)が格納される。
【0029】
カテゴリ毎の特徴語の集合をそれぞれKW(C), KW(C), . . ,KW(C)で示す。
【0030】
以上でシングルラベルの文書集合に対する特徴語抽出が完了する。
【0031】
(4) 以後、マルチラベルのデータが対象となる。
【0032】
図4はマルチラベルの文書データの展開例を示す図である。
【0033】
次に、2ラベルの文書集合に対する特徴語抽出を以下のように行う。
【0034】
ここでは、文書マトリクスのデータの内、ラベル数が2のデータを対象とする。つまり、帰属度Ak,1, . ,Ak,j, . ,Ak,m, , ,Ak,Jの内、2個Ak,jとAk,mとが「帰属」、他は「帰属せず」となる。これらの文書集合をDOCとする。
【0035】
ID ∈ DOC なる文書ID に対して、このレコード(文書)IDを後述する仮想的な2つのレコードID (j) とID (m) に展開する。ここで、∈は∈の左側のものが∈の右側の集合の要素であることを意味する記号であるので、ID ∈ DOC は、文書ID が文書集合DOCの要素であることを意味する。このように、全てのID ∈ DOC な文書ID に対して、展開して分割された文書ID (j) とID (m) を集めた文書集合がDOC’である。
【0036】
帰属するカテゴリが、C ,C である時、単語Wの単語別ラベル数(単語W がC ,C の中で特徴語となっている数)をnと置く。例えば、「エネルギ」という単語が「物理」カテゴリと「化学」カテゴリの特徴語となっているならば、単語別ラベル数はn=2となる。
【0037】
レコードの展開において、単語の出現属性値の変換を行う(計算法は後述する)。この変換は、単語が対象カテゴリの特徴語となっているか否かにより、重み付けを行う。λは重み付けのためのパラメータであり、0≦λ≦0.5 とする。
【0038】
レコードID (j)は、C の特性に合わせて以下のように定める。
【0039】
カテゴリ帰属度: A’ ,j = Ak,j, ∀t≠j なるt に対し、A’k,t = 0,
ここで、∀は、全てを意味する記号である。したがって、「∀t≠j なるt 」は、「j でない全てのt 」を意味する。
【0040】
単語出現属性: 1≦i≦Iなる単語W に対して、
(a)n = 1かつW ∈ KW(C) の場合   f’k,i = (1−λ) fk,i
(b)n = 1かつW ∈ KW(C) でない場合 f’k,i = λfk,i
(c)n = 0あるいはn = 2の場合、f’k,i = fk,i / 2
ここで、(a)はWとCの関係が大のとき、(b)はWとCの関係が小のとき、(c)はWとCの関係が中のときに分けられる。例えば、カテゴリC に分類される特徴語Wの出現頻度の重みづけのパラメータλがλ=0.3であれば、(a)のf’k,i = 0.7fk,i 、(b)のf’k,i = 0.3fk,iとなり、7:3の重みづけとなる。この重みづけの数字は、予め指定した定数であってもよいし、1つ前のラベル数までに特徴語抽出された特徴語とカテゴリとの関係を利用して決定してもよい。これにより、より精度よくカテゴリに合った特徴語の抽出が可能になる。
【0041】
ここで注目すべき点は、W ∈ KW(C) の時のf’k,i = (1−λ) fk,iとW ∈ KW(C) でない時のf’k,i = λfk,iとを加算( (1−λ) fk,i+λfk,i)すると、元のfk,iになることである。
【0042】
レコードID (m)は、C の特性に合わせて以下のように定める。
【0043】
カテゴリ帰属度: A” ,m = Ak,m, ∀t≠m なるtに対しA”k,t = 0,
単語出現属性: 1≦i≦Iなる単語W に対して、
(a)n = 1かつW ∈ KW(C) の場合   f”k,i = (1−λ) fk,i
(b)n = 1かつW ∈ KW(C) でない場合 f”k,i = λfk,i
(c)n = 0あるいはn = 2の場合、f”k,i = fk,i / 2
このようにして、マルチラベル(上記の例では2つのラベル)の付いた文書の性質を2つの仮想的なシングルラベルの文書として展開する。全てのID ∈ DOC
なる文書IDに対して同様のシングルラベル化の操作を行う。
【0044】
上述したシングルラベル化の操作により、DOCとDOCに対応する文書のデータは、図4の下段に示すように、見かけ上、全てシングルラベルとなるので、この文書集合に対して(3)と同様の特徴語抽出を行い、その結果として、特徴語格納部52にカテゴリ毎の特徴語群とその出現属性のデータを格納する。
【0045】
カテゴリ毎の特徴語の集合をあらためて、KW(C),KW(C), . . ,KW(C)とする。すなわち、2つのラベルの特徴語抽出おいてはシングルラベルの特徴語抽出で用いた文書集合DOC に、DOC を展開したDOC’ を加えた文書集合を新たな正解セットとして用いて、これから抽出した特徴語を新たにKW(C),KW(C), . . ,KW(C)とする。
【0046】
(5) 以下、同様にして、文書のラベル数を3, 4, . . . ,J個まで可能な限り順次増やして、上記と同様の処理を行う。もちろん、特定のラベル数となる正解セットの文書が無ければ、そのラベル数の特徴語抽出サイクルをスキップして、ラベル数を1増やして次のサイクルの繰り返し処理に移る。
【0047】
すなわちラベル数 = n個の場合(3≦n≦J)、帰属度Ak,1, . ,Ak,j, . ,Ak,l, . ,Ak,m, , ,Ak,Jの内、n個Ak,jとAk,lとAk,mと…が帰属、他は帰属せずとなる。これらの文書集合をDOCとする。
【0048】
ID ∈ DOC なる文書ID に対して、当該レコードをn個のレコードに展開する。帰属するカテゴリがCj1, . . . , Cjnである時、この添え字集合をJC = { j1, j2, . . . , jn },単語Wの単語別ラベル数(単語WがCj1, . . . , Cjn の中で特徴語となっている数)をnと置く。
【0049】
レコードの展開における単語の出現属性値の変換の重み付けパラメータをλとし、0≦λ≦0.5 とする。このλは、ラベル数に応じてサイクルごとに変えてもよい。
【0050】
ラベル数nの場合におけるレコードの展開について以下に示す。
【0051】
∀j ∈ JC なる j に対して、
レコードID (j) は、C の特性に合わせて以下のように定める。
【0052】
カテゴリ帰属度: A’ ,j = Ak,j , ∀t≠j なるt に対しA’k,t = 0 ,
単語出現属性: 1≦i≦Iなる単語W に対して、
(a)W ∈ KW(C) の時   f(j) k,i = (1−λ) fk,i /Δ,
(b)W ∈ KW(C) でない時 f(j) k,i = λfk,i /Δ,
(但し、Δは正規化の係数で、Δ = (1 − λ)n +λ(n − n))
上記計算式(a)、(b)は任意のn の場合にも適用できる。
【0053】
なお、n = 0あるいはn = nの時 f’k,i = fk,i / n
であるが、これは、(a)、(b)にn = 0あるいはn = nを代入すれば得られる。
【0054】
以下に、計算式(a)、(b)の整合性について述べる。
【0055】
(a)の場合、すなわち、単語W がカテゴリC の特徴語になっている場合の数はn 通りである。(定義より、添え字集合JC の要素の内n 個の要素を添え字とするカテゴリがW を特徴語としているからである。)
また(b)の場合は、すなわち(a)でない場合であり、これは(n−n)通りである。
【0056】
次に、(a)の場合のf(j) k,i の値をn倍し、(b)の場合のf(j) k,i の値を(n−n)倍して合計した値はfk,i となる。すなわち、レコードの展開の前後における単語出現属性値の合計値は不変となるように属性値を設定してある。また、ラベル数=nの場合の計算式(a)、(b)は、ラベル数が2の場合の計算式とも整合性があるし、もちろん、ラベル数が1の場合の単語出現属性値とも整合する。
【0057】
このようにして、マルチラベルの付いた文書の性質をn個のシングルラベルの文書として展開する。全てのID ∈ DOCなる文書ID に対して同様のシングルラベル化の操作を行う。図4において、ラベル3のときは、下の枠が2つでなく3つの文書IDがシングルラベルに展開され、同様に、ラベルnのときは、下の枠が2つでなくn個の文書IDが各々シングルラベルに展開される。
【0058】
これにより、DOC1,DOC2,   DOCに対応する文書のデータは、見かけ上、全てシングルラベルとなるので、この文書集合に対して(3)と同様の特徴語抽出を行い、その結果として、特徴語格納部52にカテゴリ毎の特徴語群とその出現属性のデータを格納する。
【0059】
それぞれのカテゴリの特徴語の集合をあらためて、KW(C),KW(C), . . . ,KW(C) とする。すなわち、n個のラベルの特徴語抽出で、(n−1)のラベル数までに用いた文書集合DOC  DOC’〜DOC(n−1) ’にDOC を展開したDOC’ を加えた文書集合を新たな正解セットとして用いて、これから抽出した特徴語を新たにKW(C),KW(C), . . ,KW(C)とする。
【0060】
(6) 最終的に全ての文書データが、見かけ上シングルラベルとなるので、全体の文書集合に対して特徴語抽出を行い、その結果として、特徴語格納部52に最終的なカテゴリ毎の特徴語群とその出現属性のデータを格納し、終了する。
【0061】
なお、各計算データは、ステップ毎に新たに計算し直すのではなく、ラベル数が低い場合のデータを利用して、逐次的な計算を行い、冗長な計算を回避する。
【0062】
(付記1)
電子化された情報類としての文書が何れのカテゴリに分類されるかを特定する特徴語を複数の文書集合から抽出する特徴語抽出システムにおいて、
文書とカテゴリとカテゴリ毎に分類される特徴語との対応関係、および、特徴語の出現属性を設定した情報を格納する計算データ格納部と、
2つ以上のカテゴリに分類されるマルチラベルの文書を含む文書集合の中で、前記文書を同一カテゴリ数の文書集合にグループ分けし、グループ分けした該文書集合を取出し、該文書集合が、マルチラベル文書の文書集合であればシングルラベル文書の文書集合に分割し、分割したシングルラベル文書の文書集合からカテゴリ毎の特徴語抽出を行い、前記グループ分けした全ての文書集合に対し、それぞれ前記と同様に特徴語抽出を行い、得られたカテゴリ毎の特徴語を集める、テキスト解析手段と、
前記カテゴリ毎に集められた特徴語群の情報を格納する特徴語格納部と、
を備えることを特徴とする特徴語抽出システム。(1)
(付記2)
前記テキスト解析手段は、
分類されるカテゴリ数が少ない順に文書を並ばせ、前記カテゴリ数の少ない順に前記文書集合を逐次取出し、該文書集合が、単一のカテゴリのみからなるシングルラベル文書の第1文書集合であれば該第1文書集合からカテゴリ毎の特徴語抽出を行い、複数のカテゴリからなるマルチラベル文書の第2文書集合であればシングルラベル文書の文書集合に分割し、分割したシングルラベル文書の文書集合からカテゴリ毎の特徴語抽出を逐次行う、
付記1に記載の特徴語抽出システム。(2)
(付記3)
前記文書集合に含まれる特徴語と該特徴語が分類されるカテゴリとの関係が大きい程、該特徴語の該カテゴリでの関連度が大きくなるように重みづけをつける統計計算手段を備える、付記1または2に記載の特徴語抽出システム。(3)
(付記4)
電子化された情報類としての文書が何れのカテゴリに分類されるかを特定する特徴語を複数の文書集合から抽出する特徴語抽出方法において、
予め文書とカテゴリとカテゴリ毎に分類される特徴語との対応関係、および、特徴語の出現属性を設定した情報を格納し、
2つ以上のカテゴリに分類されるマルチラベルの文書を含む文書集合の中で、前記文書を同一カテゴリ数の文書集合にグループ分けし、
前記文書集合を取出し、該文書集合が、マルチラベル文書の文書集合であればシングルラベル文書の文書集合に分割し、分割したシングルラベル文書の文書集合から所定の処理でカテゴリ毎の特徴語抽出を行い、
前記グループ分けした全ての文書集合に対し、それぞれ前記と同様に特徴語抽出を行い、得られたカテゴリ毎の特徴語を集め、
前記カテゴリ毎に集められた特徴語群の情報を格納する、
各ステップを備えることを特徴とする特徴語抽出方法。
【0063】
(付記5)
前記特徴語抽出ステップにおいて、
分類されるカテゴリ数が少ない順に文書を並ばせ、前記カテゴリ数の少ない順に前記文書集合を逐次取出し、該文書集合が、単一のカテゴリのみからなるシングルラベル文書の第1文書集合であれば該第1文書集合から所定の処理でカテゴリ毎の特徴語抽出を行い、複数のカテゴリからなるマルチラベル文書の第2文書集合であればシングルラベル文書の文書集合に分割し、分割したシングルラベル文書の文書集合から所定の処理でカテゴリ毎の特徴語抽出を逐次行う、
付記1に記載の特徴語抽出方法。
【0064】
(付記6)
前記所定の処理において、
前記文書集合に含まれる特徴語と該特徴語が分類されるカテゴリとの関係が大きい程、該特徴語の該カテゴリでの関連度が大きくなるように重みづけをつける、付記1または2に記載の特徴語抽出方法。
【0065】
【発明の効果】
以上説明したように、本発明によれば、特徴語抽出において計算精度を落とすことなくマルチラベルの正解セット(カテゴリ別に分類済みの文書の集合)を有効利用することが可能となり、その結果として、特徴語をより正確なカテゴリに分類できる。すなわち、複数の話題の分野(カテゴリ)とカテゴリに分類される特徴語との相関関係がより精度よく整理でき、これにより、マルチラベル自動分類(文書が属する複数個のカテゴリの解析)や、分野別辞書作成支援、などの文書処理技術の解析精度向上に寄与できる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る特徴語抽出システムのブロック構成図である。
【図2】計算データ格納部に格納される文書マトリクスの一例を示す図である。
【図3】本発明による特徴語抽出の処理手順のフローを示す図である。
【図4】マルチラベルの文書データの展開例を示す図である。
【符号の説明】
1…制御部(CPU)
2…入力部
3…出力部
4…主記憶(メモリ)
5…補助記憶(ディスク)
6…通信部
10…特徴語抽出システム
41…テキスト解析手段
42…統計計算手段
51…情報源格納部
52…特徴語格納部
53…計算データ格納部

Claims (3)

  1. 電子化された情報類としての文書が何れのカテゴリに分類されるかを特定する特徴語を複数の文書集合から抽出する特徴語抽出システムにおいて、
    文書とカテゴリとカテゴリ毎に分類される特徴語との対応関係、および、特徴語の出現属性を設定した情報を格納する計算データ格納部と、
    2つ以上のカテゴリに分類されるマルチラベルの文書を含む文書集合の中で、前記文書を同一カテゴリ数の文書集合にグループ分けし、グループ分けした該文書集合を取出し、該文書集合が、マルチラベル文書の文書集合であればシングルラベル文書の文書集合に分割し、分割したシングルラベル文書の文書集合からカテゴリ毎の特徴語抽出を行い、前記グループ分けした全ての文書集合に対し、それぞれ前記と同様に特徴語抽出を行い、得られたカテゴリ毎の特徴語を集める、テキスト解析手段と、
    前記カテゴリ毎に集められた特徴語群の情報を格納する特徴語格納部と、
    を備えることを特徴とする特徴語抽出システム。
  2. 前記テキスト解析手段は、
    分類されるカテゴリ数が少ない順に文書を並ばせ、前記カテゴリ数の少ない順に前記文書集合を逐次取出し、該文書集合が、単一のカテゴリのみからなるシングルラベル文書の第1文書集合であれば該第1文書集合からカテゴリ毎の特徴語抽出を行い、複数のカテゴリからなるマルチラベル文書の第2文書集合であればシングルラベル文書の文書集合に分割し、分割したシングルラベル文書の文書集合からカテゴリ毎の特徴語抽出を逐次行う、
    請求項1に記載の特徴語抽出システム。
  3. 前記文書集合に含まれる特徴語と該特徴語が分類されるカテゴリとの関係が大きい程、該特徴語の該カテゴリでの関連度が大きくなるように重みづけをつける統計計算手段を備える、請求項1または2に記載の特徴語抽出システム。
JP2002185173A 2002-06-25 2002-06-25 特徴語抽出システム Expired - Fee Related JP4219122B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002185173A JP4219122B2 (ja) 2002-06-25 2002-06-25 特徴語抽出システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002185173A JP4219122B2 (ja) 2002-06-25 2002-06-25 特徴語抽出システム

Publications (2)

Publication Number Publication Date
JP2004030202A true JP2004030202A (ja) 2004-01-29
JP4219122B2 JP4219122B2 (ja) 2009-02-04

Family

ID=31180897

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002185173A Expired - Fee Related JP4219122B2 (ja) 2002-06-25 2002-06-25 特徴語抽出システム

Country Status (1)

Country Link
JP (1) JP4219122B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005275505A (ja) * 2004-03-23 2005-10-06 Sony Corp 情報処理装置および方法、プログラム
JP2007079948A (ja) * 2005-09-14 2007-03-29 Nec Corp 専門用語抽出装置、専門用語抽出方法および専門用語抽出プログラム
JP2010009307A (ja) * 2008-06-26 2010-01-14 Kyoto Univ 特徴語自動学習システム、コンテンツ連動型広告配信コンピュータシステム、検索連動型広告配信コンピュータシステム、およびテキスト分類コンピュータシステム、並びにこれらのコンピュータプログラムおよび方法
JP2011164791A (ja) * 2010-02-05 2011-08-25 Ntt Data Corp 特徴語抽出装置、特徴語抽出方法および特徴語抽出プログラム
JP2014215658A (ja) * 2013-04-23 2014-11-17 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報の取得を支援する装置及び方法
JP2017073024A (ja) * 2015-10-08 2017-04-13 Necパーソナルコンピュータ株式会社 情報処理装置、情報処理システムおよび情報処理方法
JP2017084249A (ja) * 2015-10-30 2017-05-18 株式会社Ubic データ分類システム,方法,プログラムおよびその記録媒体
CN107894971A (zh) * 2017-10-27 2018-04-10 北京大学 一种可扩展的基于神经网络的序列标注方法
KR20190017597A (ko) * 2017-08-11 2019-02-20 주식회사 인데이터랩 사용자 반응 데이터 분석 방법 및 장치

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4569143B2 (ja) * 2004-03-23 2010-10-27 ソニー株式会社 情報処理装置および方法、プログラム
JP2005275505A (ja) * 2004-03-23 2005-10-06 Sony Corp 情報処理装置および方法、プログラム
JP2007079948A (ja) * 2005-09-14 2007-03-29 Nec Corp 専門用語抽出装置、専門用語抽出方法および専門用語抽出プログラム
JP2010009307A (ja) * 2008-06-26 2010-01-14 Kyoto Univ 特徴語自動学習システム、コンテンツ連動型広告配信コンピュータシステム、検索連動型広告配信コンピュータシステム、およびテキスト分類コンピュータシステム、並びにこれらのコンピュータプログラムおよび方法
JP2011164791A (ja) * 2010-02-05 2011-08-25 Ntt Data Corp 特徴語抽出装置、特徴語抽出方法および特徴語抽出プログラム
US9626433B2 (en) 2013-04-23 2017-04-18 International Business Machines Corporation Supporting acquisition of information
JP2014215658A (ja) * 2013-04-23 2014-11-17 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報の取得を支援する装置及び方法
JP2017073024A (ja) * 2015-10-08 2017-04-13 Necパーソナルコンピュータ株式会社 情報処理装置、情報処理システムおよび情報処理方法
JP2017084249A (ja) * 2015-10-30 2017-05-18 株式会社Ubic データ分類システム,方法,プログラムおよびその記録媒体
KR20190017597A (ko) * 2017-08-11 2019-02-20 주식회사 인데이터랩 사용자 반응 데이터 분석 방법 및 장치
KR102023516B1 (ko) * 2017-08-11 2019-09-20 주식회사 인데이터랩 사용자 반응 데이터 분석 방법 및 장치
CN107894971A (zh) * 2017-10-27 2018-04-10 北京大学 一种可扩展的基于神经网络的序列标注方法
CN107894971B (zh) * 2017-10-27 2019-11-26 北京大学 一种可扩展的基于神经网络的序列标注方法

Also Published As

Publication number Publication date
JP4219122B2 (ja) 2009-02-04

Similar Documents

Publication Publication Date Title
CN110892399B (zh) 自动生成主题内容摘要的系统和方法
CA2777520C (en) System and method for phrase identification
JP4489994B2 (ja) 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体
US8156430B2 (en) System and method for clustering nodes of a tree structure
WO2019091026A1 (zh) 知识库文档快速检索方法、应用服务器及计算机可读存储介质
US7386438B1 (en) Identifying language attributes through probabilistic analysis
US8849787B2 (en) Two stage search
JP2005526317A (ja) ドキュメントコーパスからコンセプト階層構造を自動に捜索する方法及びシステム
GB2401972A (en) Identifying special word usage in a document
US20080288442A1 (en) Ontology Based Text Indexing
JP2005122295A (ja) 関係図作成プログラム、関係図作成方法、および関係図作成装置
CN107357777B (zh) 提取标签信息的方法和装置
KR102046692B1 (ko) 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법 및 시스템
US7107550B2 (en) Method and apparatus for segmenting hierarchical information for display purposes
Abdallah et al. URL-based web page classification: With n-gram language models
JP4219122B2 (ja) 特徴語抽出システム
JP6522446B2 (ja) ラベル付与装置、方法およびプログラム
JP2007140639A (ja) データ表示装置、データ表示方法およびデータ表示プログラム
Phan et al. Automated data extraction from the web with conditional models
CN112925817A (zh) 图书馆书籍检索方法及检索系统
Eiken et al. Ord i dag: Mining Norwegian daily newswire
JP5135766B2 (ja) 検索端末装置、検索システムおよびプログラム
Benna et al. Building a social network, based on collaborative tagging, to enhance social information retrieval
CN113656574B (zh) 用于搜索结果排序的方法、计算设备和存储介质
TWI813028B (zh) 文字資料之篩選關聯方法及系統

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070925

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071126

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080108

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080310

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20080319

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080513

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080714

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080812

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080910

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081014

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111121

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111121

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121121

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121121

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131121

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees