JPH10254883A - 文書自動分類方法 - Google Patents

文書自動分類方法

Info

Publication number
JPH10254883A
JPH10254883A JP9054359A JP5435997A JPH10254883A JP H10254883 A JPH10254883 A JP H10254883A JP 9054359 A JP9054359 A JP 9054359A JP 5435997 A JP5435997 A JP 5435997A JP H10254883 A JPH10254883 A JP H10254883A
Authority
JP
Japan
Prior art keywords
word
document
field
classification
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9054359A
Other languages
English (en)
Inventor
Yoichi Fujii
洋一 藤井
Katsushi Suzuki
克志 鈴木
Makoto Imamura
誠 今村
Yasuhiro Takayama
泰博 高山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP9054359A priority Critical patent/JPH10254883A/ja
Publication of JPH10254883A publication Critical patent/JPH10254883A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 細かい分類に対しても精度のよい分類を行う
ことができる文書自動分類方法を提供する。 【解決手段】 学習時には、単語分割/頻度抽出部は各
分類済み文書から出現単語の情報を収集する(S1)。
この情報に基づき関連度演算部が各単語と各分類との関
連度を求め、関連度テーブルを作成する(S2)。複数
分野語処理部は、この関連度テーブルから複数の分野に
対して関連の強い複数分野語を検出し(S3)、各複数
分野語を関連の強い各分野ごとに分割して別々の単語と
みなして、詳細化関連度テーブルなどの分類用情報を作
成する(S4)。文書を分類する際には、まず単語分割
/頻度抽出処理部3が、当該文書の出現単語の頻度等の
情報を収集する(S5)。分類先決定部10は、この情
報に基づき当該分類対象文書の出現単語の傾向を表す文
書ベクトルを作成し(S6)、このベクトルと詳細化関
連度テーブルとに基づき当該文書の分類先を決定する
(S7)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、文書を自動分類
する文書自動分類方法に関し、特に文書に出現する各単
語の頻度の情報に基づき文書の分類先を決定する文書自
動分類方法に関する。
【0002】
【従来の技術】文書自動分類の方式のなかの有力なもの
の一つに、分類先の分野が既知の文書から出現単語の頻
度統計をとって各分野に固有のキーワードや各分野の単
語出現傾向などを学習し、これらを分類基準として用い
て文書を分類するという方式がある。
【0003】このような方式の文書自動分類装置の一つ
に、例えば特開平6−348755号公報に示される装
置がある。この装置では、分類済みの文書群から各分野
に固有の単語(キーワード)を抽出し、分類対象文書の
中のこれらキーワードの頻度に基づき当該文書の分類先
を決定している。
【0004】図32は、この従来装置の構成図である。
以下、分野のキーワードを学習する学習処理と、分類対
象文書を分類する分類処理とに分けて、この従来装置の
構成及び機能について説明する。
【0005】まず、学習処理では、分類済み文書データ
101から全ての文書が取り出され、文書データ単語分
割部103で単語分割がされ、この分割結果の情報が分
類済み文書単語分割テーブル104に格納される。分類
用辞書作成部106は、分類済み文書単語分割テーブル
104に格納された単語分割テーブルの情報に基づき、
特定の分野のみに現れる単語を当該分類のキーワードと
して抽出し、これらキーワードの(見出し文字列、品
詞、分野名)の組を分類用辞書107に格納する。この
ようにして分類用辞書107が完成すると、学習処理は
終了する。図33は、この学習処理の結果得られた分類
用辞書107の内容例である。この例は、例えば単語
「自然語」は、分類名「言語処理」のキーワードであ
り、学習した分類済み文書群の「題名」に0回、「要
旨」に1回、「目的」に1回、その他合計して17回出
現したことを示している。
【0006】次に分類処理では、分類対象文書データ1
02から取り出された分類対象文書に対して、学習時と
同様に文書データ単語分割部103で単語分割が行わ
れ、この結果得られた単語分割データが分類対象文書単
語分割テーブル105に格納される。文書分類部110
は、分類対象文書単語分割テーブル105に格納された
分類対象文書の単語分割データと、分類用辞書107の
(見出し文字列、品詞、分野名)との間で、同じ単語を
含むものの一致回数を各「分野名」毎に集計し、一致回
数の最も多い「分野名」を当該分類対象文書の分類先の
最優先候補として文書分類結果111に格納する。
【0007】この文書分類結果111は、分類結果確認
部112に表示される。ユーザは、この分類結果が正し
いか否かを判断し、もしこの分類結果が間違ったものだ
と判断した場合には、誤分類の原因となった単語を判定
して入力する。すると、分類用辞書学習部113が、こ
の誤分類原因単語のデータ(見出し文字列、品詞、分野
名)を分類用辞書107から削除する。この装置では、
このような構成により、学習に用いた分類済み文書群の
偏りによるキーワード選択の不備を補正できるようにし
ている。
【0008】また、別の従来装置として、特開平7−1
14572号公報に示される装置がある。この装置で
は、文書中の単語の共起関係に基づき単語の特徴ベクト
ルを生成し、その単語特徴ベクトルから文書の特徴ベク
トルを作成し、文書の特徴ベクトル同士の間の類似度を
利用して文書を分類する。
【0009】図34は、この従来装置の構成図である。
以下、学習時の処理と分類時の処理とに分けて、この従
来装置の構成及び機能について説明する。
【0010】まず学習処理では、まず文書解析部122
が、文書記憶部121内の分類先が既に定まっている学
習用文書を取り出し、この文書を解析して出現単語を抽
出する。文書解析部122で全ての学習用文書から単語
の抽出が完了すると、単語ベクトル生成部123は、各
単語について、その単語と同一文書中に現れる単語
(「共起単語」と呼ぶ)を集計し、共起単語を基底とし
その頻度を成分値とする単語ベクトルを生成する。この
単語ベクトルは、単語についての共起単語の傾向を表す
ベクトルである。得られた単語ベクトルは、単語ベクト
ル記憶部124に記憶される。なお、ここで、文書解析
部122、単語ベクトル生成部123にて処理対象とな
る単語は、単語ベクトル生成用辞書129に登録されて
いる単語に限定される。
【0011】図35は、このようにして得られた単語ベ
クトルの例を示すものである。単語ベクトルの各成分の
上に記されている単語が、それら各成分の基底である。
図35では、例えば単語「アメリカ」という単語に対し
ては、単語「政府」、「先進」、「主要」、「国」、
「ココム」が同一文書中に現れた(共起した)ことがあ
り、共起回数は各1回ずつであったことを示している。
【0012】対象となる全単語に対する特徴ベクトルの
単語ベクトル記憶部124への記憶が完了すると、文書
ベクトル生成部125は、文書解析部122で一つの文
書から抽出された各単語について、対応する単語ベクト
ルを当該単語の出現頻度で重み付けして加算することに
より、当該文書の特徴を表す文書ベクトルを生成する。
例えば、単語「アメリカ」、「兵器」がそれぞれ1回ず
つ現れた文書の文書ベクトルは、図36に示すような形
となる。求められた文書ベクトルは、文書ベクトル記憶
部126に記憶される。
【0013】次に、文書ベクトル記憶部126に記憶さ
れた各学習用文書の文書ベクトルに基づき、各分野の特
徴を示す代表ベクトルを生成する。ある分野の代表ベク
トルは、同一分類に含まれる各学習用文書の文書ベクト
ルを加算することにより求められる。求められた代表ベ
クトルは、後述の分類処理において類似度を計算すると
きにベクトルの大きさが影響しないよう長さ1のベクト
ルに正規化される。以上で学習処理が終了する。
【0014】次に分類処理について説明する。まず、文
書解析部122は、指示された分類対象文書を文書記憶
部121から取り出し、文書解析を行って出現単語を抽
出する。次に、文書ベクトル生成部125は、各出現単
語に対応する単語ベクトルを出現頻度で重み付けして加
算し、当該分類対象文書の文書ベクトルを生成して文書
ベクトル記憶部126に記憶する。そして、分類部12
7が、この分類対象文書の文書ベクトルに最も類似した
代表ベクトルを例えばベクトルの内積演算によって求
め、この最類似代表ベクトルに対応する分野に当該分類
対象文書を分類する。この分類結果は、分類結果記憶部
128に記憶される。
【0015】また、さらに別の従来装置として、『意味
属性の学習結果にもとづく文書自動分類方式』(河合、
情報処理学会論文誌Vol.33,No.9,pp.1
114―1122)に示される装置がある。
【0016】以下、図37を参照して、この従来装置に
ついて説明する。
【0017】まず、学習段階では、名詞抽出処理部13
3は、学習用文書131を取り出し、単語辞書144の
情報を用いて、当該学習用文書から名詞を抽出する。次
に、意味属性抽出処理部136は、学習用文書名詞抽出
結果134に格納された各名詞の意味属性を、シソーラ
ス143から抽出する。シソーラス143に格納されて
いる名詞と意味属性の関係の例を図38に示す。図38
には、例えば「醤油」という名詞が[調味料]という意
味属性を有していることが示されている。各名詞の意味
属性の抽出結果は、学習用文書意味属性抽出結果137
に格納される。次に、分類用辞書作成部139は、学習
用文書名詞抽出結果134における各名詞の頻度を分野
毎に集計するとともに、学習用文書意味属性抽出結果1
37における各意味属性の頻度を分野毎に集計する。図
39は、各意味属性の各分野毎の頻度の集計結果のテー
ブルの一例であり、例えば[人工物]という意味属性を
持つ単語が「運輸通信」の分野に属する文書に12回出
現したことを示している。単語の集計結果についても同
様のテーブルが作成される。分類用辞書作成部139
は、これら各集計結果のテーブルに対し、統計学におけ
るカイ2乗検定の考え方を応用した計算式を適用するこ
とにより、各名詞と各分野と関連度合いを表したテーブ
ル、及び各意味属性と各分野との関連度合いを表したテ
ーブルを作成する。作成された各テーブルは、分類用辞
書140に格納される。以上で学習処理が終了する。
【0018】次に分類時の処理について説明する。ま
ず、名詞抽出処理部133は、分類用文書132から分
類対象に指定された文書を取り出し、単語辞書144の
情報を用いて、当該文書から名詞を抽出し、分類用文書
名詞抽出結果135に格納する。次に、意味属性抽出処
理部136は、抽出された各名詞の意味属性をシソーラ
ス143から抽出し、分類用文書意味属性抽出結果13
8に格納する。そして、文書分類部141は、まず分類
用文書名詞抽出結果135と、分類用辞書140の単語
と分野の関連度合いのテーブルとに基づき、単語の出現
頻度からみた当該文書の各分野への関連度合いを計算す
る。また、文書分類部141は、分類用文書意味属性抽
出結果138と、分類用辞書140の意味属性と分野と
の関連度合いのテーブルとに基づき、意味属性の頻度か
ら見た当該文書の各分野への関連度合いを計算する。そ
して、文書分類部141は、両計算結果を所定の比率で
加算することにより、各分野ごとに、当該分類対象文書
と当該分類の関連度合いを求める。そして、例えばこの
関連度合いの値の最も大きい分野が当該分類対象文書の
分類先に選ばれ、文書分類結果142に格納される。以
上で自動分類処理が終了する。
【0019】
【発明が解決しようとする課題】以上に説明した従来の
各文書自動分類装置は、いずれも、分類済み文書におい
て各分野に特徴的に出現する単語を学習し、この学習結
果を分類基準として文書を分類する点では一致する。例
えば、特開平7−114572号公報に示された技術で
は、ある分野に特徴的に現れる単語は、当該分野の代表
ベクトルにおいて大きな値の成分となるので、類似度の
値に大きな影響を与え、分類先の決定に大きな影響を与
える。また、河合の論文に示された技術でも、ある分野
に特徴的に現れる単語は、その分野との関連度合いの値
が大きくなるので、分類先を大きく左右する。
【0020】このような手法は、例えば<政治>、<経
済>などのようにある程度関連が強い単語が共通して出
現する分野同士の間では、分類を誤る可能性が高い。例
えば、「首相」という単語は、<政治>の分野の文書
(例えば新聞記事)によく出現する(すなわち特徴的な
単語である)が、<経済>の分野の文書にもある程度出
現する。ここで、<経済>分野の文書にたまたま「首
相」という単語が多く含まれていると、その文書は「首
相」という単語の影響で<政治>分野に誤分類されてし
まう可能性が高い。
【0021】このように、従来の文書自動分類技術で
は、複数の分野に対してそれぞれある程度強い関連を有
する単語が分類対象の文書内に数多く現れると、その文
書はその単語に対する関連が最も強い分野に分類されや
すく、このため誤分類が生じる可能性が高かった。
【0022】このような傾向は、例えば、<政治>、<
科学>、<スポーツ>などのように、出現する単語の傾
向の相違が大きい分野同士の間での大まかな分類では致
命的な問題にはならないかも知れない。しかしながら、
分類を細かくしようとすると、類似する分野が増えてく
るので、複数の分野が共通の単語にある程度以上の関連
を有するような場合がどうしても増えてくる。このた
め、従来の文書分類技術は、分類が細かくなると誤分類
の可能性が増し、分類精度が劣化するという問題があっ
た。
【0023】本発明は、このような問題点を解決するた
めになされたものであり、類似する分野間での分類の精
度を向上させることにより、細かい分類に対しても精度
のよい分類を行うことができる文書自動分類方法を提供
することを特徴とする。
【0024】
【課題を解決するための手段】この発明は、上記課題を
解決するためになされたものであり、分類済みの各文書
に出現する各単語の頻度集計結果に基づき各単語と各分
野との関連度を登録した関連度テーブルを作成し、この
関連度テーブルから、閾値より高い関連度を有する強関
連分野が複数存在する複数分野単語を求め、前記関連度
テーブルにおける複数分野語についての欄を、当該複数
分野語とこれに対応する強関連分野との組合せごとに複
数の欄に分割して詳細化関連度テーブルを作成する分類
学習ステップと、分類対象の文書に出現する単語の頻度
を集計し、この結果得られた頻度情報を前記複数分野語
の情報によって詳細化し、この詳細化された頻度情報と
前記詳細化関連度テーブルとに基づき当該文書の分類先
の分野を決定する分類実行ステップとを含むものであ
る。
【0025】また、単語の強関連分野の判定基準となる
閾値を、関連度テーブルにおける当該単語の各分野に対
する関連度の中の最大値に基づき定めるものである。
【0026】また、分類学習ステップでは、各複数分野
語について、当該複数分野語の各強関連分野ごとに、そ
の強関連分野に属する分類済み文書において当該複数分
野語と共起した単語の傾向を表す共起ベクトルを生成
し、分類実行ステップでは、各複数分野語ごとに、この
分類対象文書において当該複数分野語と共起した単語の
傾向を示す文書共起ベクトルを生成し、この文書共起ベ
クトルと前記各共起ベクトルとの類似性に基づき、分類
対象文書から得られた前記頻度情報を詳細化するもので
ある。
【0027】また、各単語の概念的な階層関係を記述し
たシソーラスを利用して、各共起単語の上位概念の情報
を反映した共起ベクトル及び文書共起ベクトルを生成す
るものである。
【0028】
【発明の実施の形態】
実施の形態1.以下、この発明の実施の形態を図面を参
照して説明する。
【0029】図1は、この発明に係る文書自動分類方法
を実施するためのシステムの構成図である。図1におい
て、分類済み文書記憶部1は、分類済み文書の文書デー
タと、それら各分類済み文書の分類先分野が登録された
分類先リストと、を記憶している。これら分類済み文書
や分類先リストは、分類基準の学習のために用いられ
る。また、分類対象文書記憶部2は、自動分類の対象と
なる分類対象文書の文書データを記憶している。
【0030】単語分割/頻度抽出部3は、分類済み文書
記憶部1又は分類対象文書記憶部2から供給される文書
に対し例えば形態素解析などを行うことにより、その文
書を単語に分割し、これら単語の頻度統計をとる。そし
て、単語分割/頻度抽出部3は、その文書内でのそれら
各単語の出現位置などの情報を含んだ単語分割情報、及
びその文書内での各単語の出現頻度を示す頻度情報を作
成する。分類済み文書についての単語分割情報及び頻度
情報(単語分割/頻度情報51)は、分類済み文書単語
分割/頻度情報記憶部4に記憶される。一方、分類対象
文書についての単語分割情報及び頻度情報(単語分割/
頻度情報58)は、分類対象文書単語分割/頻度情報記
憶部5に記憶される。
【0031】関連度演算部6は、分類の基準を学習する
際において、分類済み文書記憶部1に記憶された各分類
済み文書の文書分類先テーブル52の情報と、分類済み
文書単語分割/頻度情報記憶部4に記憶された頻度情報
とに基づき、各分野ごとに出現単語の頻度を集計し、こ
の頻度集計の結果に基づき各単語と各分野との関連度を
計算する。頻度集計結果及び各単語と各分野との関連度
は、それぞれ頻度集計テーブル53及び関連度テーブル
54として関連度情報記憶部7に記憶される。
【0032】複数分野語処理部8は、分類学習時には、
関連度情報記憶部7の関連度テーブル54に基づき、関
連度の高い分野(「強関連分野」と呼ぶ)が複数存在す
る単語(「複数分野語」と呼ぶ)を検出し、複数分野語
リスト55を作成する。また、複数分野語処理部8は、
この複数分野語リスト55の情報を用い、分類済み文書
単語分割/頻度情報記憶部4の頻度集計テーブル53を
詳細化し、この詳細化された頻度集計テーブルに基づき
詳細化関連度テーブル56を作成する。すなわち、ここ
では、各複数分野語を(単語,強関連分野)の組合せご
とに別々の単語と捉え直し、単なる単語と分野との関連
度だけでなく、複数分野語については(単語,強関連分
野)の組合せと各分野との関連度をも含んだ詳細化関連
度テーブル56を作成する。また、複数分野語処理部8
は、複数分野語リスト55と分類済み文書単語分割/頻
度情報記憶部4の単語分割情報とに基づき、各複数分野
語と例えば同一文書内や同一段落内に現れる単語(共起
単語)を求め、これら共起単語の出現傾向を表す共起ベ
クトル57を(複数分野語,強関連分野)の各組合せご
とについて作成する。
【0033】このようにして求められた複数分野語リス
ト55、詳細化関連度テーブル56及び各共起ベクトル
57は、分類用情報記憶部9に格納される。この分類用
情報記憶部9に格納された情報が、文書の分類先を決定
するための基準となる。
【0034】また、複数分野語処理部8は、文書分類時
には、分類対象文書に含まれる各複数分野語について、
例えば同一段落における共起単語を検出し、当該分類対
象文書における共起単語の傾向を表す文書共起ベクトル
59を作成する。
【0035】分類先決定部10は、分類対象文書の出現
単語の頻度情報及び文書共起ベクトル59と分類用情報
記憶部9に記憶された各共起ベクトル57とに基づき、
当該文書の分類上の特徴を表す文書ベクトル60を作成
する。そして、分類先決定部10は、この文書ベクトル
60と分類用情報記憶部9に記憶された詳細化関連度テ
ーブル56とに基づき、当該文書と各分野との関連度を
計算し、この関連度の値に基づき当該文書の分類先の分
野を決定する。この結果得られた文書分類結果61は、
文書分類結果記憶部11に格納される。
【0036】次に、図2を参照して、この実施の形態の
システムの処理手順の全体的な流れを説明する。図2に
示すように、このシステムの処理手順は、分類の基準と
なる情報を学習する分類学習時の処理と、与えられた分
類対象文書を分類する分類実行時の処理とに分かれる。
【0037】分類学習時においては、まずS1にて、単
語分割/頻度抽出部3により、分類済み文書記憶部1の
各分類済み文書について、出現単語の情報(すなわち単
語分割/頻度情報51)を収集する。S2では、これら
の情報を用いて、関連度演算部6により各単語と各分類
との関連度を保持する関連度テーブル54を作成する。
S3では、複数分野語処理部8が、この関連度テーブル
54から複数分野語を検出し、複数分野語リスト55を
作成する。そして、S4では、この複数分野語リスト5
5に基づき、複数分野語処理部8が、分類の基準となる
情報として、詳細化関連度テーブル56や共起ベクトル
57など、複数分野語を考慮した分類用情報を作成す
る。
【0038】そして、個々の未分類の文書の分類を実行
する際には、まずS5にて、単語分割/頻度抽出処理部
3が、分類対象文書の出現単語の情報(すなわち単語分
割/頻度情報58)を収集するとともに、複数分野語処
理部8が、単語分割/頻度情報58に基づき各複数分野
語について文書共起ベクトル59を作成する。次に、S
6では、分類先決定部10が、単語分割/頻度情報5
8、文書共起ベクトル59、及び分類用情報記憶部9内
の各共起ベクトル57を用いて、当該分類対象文書の分
類上の特徴を表す文書ベクトル60を作成する。そし
て、S7では、分類先決定部10が、文書ベクトル60
と詳細化関連度テーブル56とに基づき、当該分類対象
文書の分類先の分野を決定する。
【0039】以下、図2の各ステップの処理を更に詳細
に説明する。
【0040】まず図3は、単語分割/頻度抽出部3の処
理手順の具体例を示すフローチャートである。図2のS
1(分類済み文書からの出現単語情報の収集処理)で
は、単語分割/頻度抽出部3が、この図3の処理手順に
従って、各分類済み文書についての単語分割情報及び頻
度情報を収集する。以下、図3の処理手順を詳説する。
【0041】単語分割/頻度抽出部3は、分類済み文書
記憶部1から分類済み文書を読み込むと、まずS11に
おいて当該文書から1段落を切り出し、この段落の情報
を保持する。次に、S12にて、切り出した段落から1
文を切り出し、この文の情報を保持する。次に、S13
にて、この文に対して形態素解析を行うことにより、こ
の文から順次単語を切り出す。S14では、分割された
単語の文書中の位置と品詞の情報を求め、これら情報を
分類済み文書単語分割/頻度情報記憶部4内の当該分類
済み文書の単語分割情報に登録する。そして、S15で
は、分類済み文書単語分割/頻度情報記憶部4内の当該
分類済み文書の頻度情報において、S13にて切り出さ
れた単語の頻度を1だけ増やし、頻度情報を更新する。
なお、S14とS15は、いずれを先に行ってもよい。
【0042】S14及びS15の処理は、単語の切り出
しが文の末尾に達するまで繰り返される。文の末尾に達
すると、S12に戻って、段落から次の文を切り出す。
また、文の切り出しが段落の末尾に達すると、S11に
戻って、分類済み文書から次の段落を切り出す。このよ
うにして、分類済み文書の末尾に達するまでS11、S
12、S13、S14及びS15の処理が繰り返され
る。この結果、当該分類済み文書についての単語分割情
報及び頻度情報が完成する。この図3の処理は分類済み
文書記憶部1に格納された各分類済み文書ごとに繰り返
される。
【0043】この図3の処理を、具体例を用いて説明す
る。
【0044】例えば、単語分割/頻度抽出部3に、分類
済み文書として図9に示す文書が与えられたとする。こ
の場合、単語分割/頻度抽出部3は、まずS11にて最
初の段落70を切り出し、分類済み文書単語分割/頻度
情報記憶部4に作成した当該文書の単語分割情報に、段
落の先頭を示す情報を登録する。
【0045】図12は、図9の文書から作成された単語
分割情報の一例を示す図である。この例では、情報タイ
プとしてP,W,Sの3つのコードが設けられている。
コードPは段落の先頭を示すコードであり、あるPとそ
の次のPとに挟まれた部分が、一つの段落についての情
報となる。また、コードSは文の先頭を示すコードであ
り、あるSとその次のSとに挟まれた部分が、一つの文
についての情報である。そして、コードWは単語を示す
コードであり、情報タイプがWの欄には、当該単語の文
書冒頭からの位置(バイト単位で示される)と、当該単
語を表す文字列と、当該単語の品詞が登録される。図1
2は、例えば、図9の文書の最初の段落の最初の文にお
いて、文書冒頭から3バイト目の位置に、「内閣」とい
う名詞が出現していることを示している。
【0046】したがって、S11で段落が切り出される
と、単語分割情報には情報タイプにコードPが登録され
る。
【0047】次に、単語分割/頻度抽出部3は、S12
にて段落70から1文を切り出し、単語分割情報に文の
先頭を表すコードSを情報タイプとして登録する。図9
では、段落70は1文のみしか含まないので、この段落
70(=1文)について、S13以下の処理が行われ
る。すなわち、S13では、従来公知の手法である形態
素解析を使ってこの1文を解析し、文中に含まれる単語
に分割する。S14では、文頭から順番にまず単語「内
閣」を取り出す。そして、S14では、切り出した単語
「内閣」について、文書冒頭からの位置と品詞を求め
る。この結果、単語分割情報には、図12に示すよう
に、情報タイプ「W」、単語位置「3」、単語「内閣」
及び品詞「名詞」が登録される。
【0048】そして、S15では、単語分割/頻度抽出
部3は、分類済み文書単語分割/頻度情報記憶部4に作
成した当該文書の頻度情報に対し、S13で分割した単
語「内閣」を反映させる。すなわち、単語「内閣」は初
出なので、頻度情報に単語「内閣」の欄を作成し、その
頻度を1と設定する。なお、初出でない単語の場合は、
頻度情報における当該単語の欄の頻度に1を加える。
【0049】このようにして単語「内閣」についての処
理が終わると、段落70の文から次の単語「支持率」が
取り出され、S14及びS15でこの単語の情報が単語
分割情報及び頻度情報に反映される。
【0050】このようにして、S13で分割した文末ま
での各単語についてS14及びS15の処理が終了する
と、S12に戻って段落70から次の文書を切り出そう
とするが、この例では段落70は1文しか含まないの
で、S11に戻り、分類済み文書から次の段落を切り出
し、以上の処理を繰り返す。そして、このような処理
を、当該分類済み文書の末尾まで繰り返すことにより、
図11に示す頻度情報と、図12に示す単語分割情報が
得られる。
【0051】図11に示す頻度情報では、各単語の頻度
についての情報が保持されている。例えば、図11は、
図9の分類済み文書に、「首相」という名詞が3回出現
し、「会見」という「サ変名詞」(語尾に「する」を付
加することにより動詞として用いることができる名詞)
が1回出現したことを示している。なお、以下では、必
要に応じ、単語を「単語名:品詞」という形式で表現す
る。
【0052】このようにして、分類済み文書記憶部1に
格納された全ての分類済み文書に対して図3に示す処理
を行うことにより、各分類済み文書の単語分割情報及び
頻度情報が得られる。これらの情報は、分類済み文書単
語分割/頻度情報記憶部4に記憶される。
【0053】次に、図2のS2(関連度テーブル作成)
の処理について、図4を参照して説明する。前述したよ
うに、このS2の処理は、関連度演算部6によって実行
される。図4は、関連度演算部6が実行する処理の手順
を示したものである。
【0054】まず、関連度演算部6は、S21にて、分
類済み文書記憶部1の文書分類先テーブル52から分類
済み文書を1つ選択し、この文書の分類先を取得すると
共に、分類済み文書単語分割/頻度情報記憶部4からこ
の文書の頻度情報(例えば図11参照)を取り出す。例
えば、図10は文書分類先テーブル52のデータ内容の
一例を示している。図10に示すように、文書分類先テ
ーブル52には、分類済み文書記憶部1に記憶された各
分類済み文書ごとに、その文書の文書名(例えばファイ
ル名)と分類先の分野名とが登録されている。一方、分
類済み文書単語分割/頻度情報記憶部4には、各分類済
み文書の頻度情報及び単語分割情報が、その文書の文書
名に対応づけて格納されている。関連度演算部6は、こ
の文書分類先テーブル52のエントリ(すなわち分類済
み文書)を先頭から順次選択し、選択した文書の頻度情
報を文書名で検索する。
【0055】次に、S22では、関連度演算部6は、S
21で取り出した頻度情報に基づき、頻度集計テーブル
53における当該分類済み文書の分類先の各分野につい
て、当該頻度情報に登録された各単語の頻度値をカウン
トアップする。頻度集計テーブル53は、例えば、各分
野を横軸とし各単語を縦軸とするテーブルである。な
お、分類済み文書の分類先が複数分野にわたる場合に
は、このカウントアップ処理においては、頻度情報にお
ける各単語の頻度値をその分類先の分野の数で割った値
を頻度集計テーブル53の該当欄に加える。
【0056】以上のステップを具体例を用いて説明す
る。S21で例えば図9の分類済み文書が選択され、こ
の文書の文書名が『11/04M/04−−09』であ
ったとする。この場合、関連度演算部6は、図10の分
類先リストからこの文書に対応する分野<政治>(以
下、分野名は< >で括って表現する)を検出すると共
に、図11に示された頻度情報を分類済み文書単語分割
/頻度情報記憶部4から取り出す。次に、S22では、
関連度演算部6は、図11の頻度情報から、「会見:サ
変名詞」の頻度値が1、「首相:名詞」の頻度値が3、
などの各単語の頻度値を取得する。この例では、処理対
象の文書の分類先は唯一<政治>のみであるので、それ
ら各単語の頻度値は、そのまま頻度集計テーブル53の
分野<政治>の列における各単語の頻度に加えられる。
なお、処理対象が図10の文書『11/12M/09−
−08』である場合には、この文書の分類先分野は2つ
あるので、各単語の頻度を2で除したものが、頻度集計
テーブル53のそれら2分野における各単語の頻度にそ
れぞれ加えられる。
【0057】すべての分類済み文書についてS21及び
S22の処理が終了すると、頻度集計テーブル53が完
成する。完成した頻度集計テーブル53のデータ内容の
一例を図13に示す。図13は、例えば、分類済み文書
群の中の<政治>分野に分類される文書において「首
相:名詞」という単語が50回出現したことを示してい
る。この頻度集計テーブル53は、関連度情報記憶部7
に格納される。
【0058】頻度集計テーブル53が完成すると、次に
関連度演算部6は、S23にて、このテーブルにおける
各単語各分野についての頻度集計結果から、以下に示す
式(1)を用いて各単語各分野の理論頻度Mijを算出す
る。
【0059】
【数1】 ここで、Nは頻度集計テーブル53における分野の数、
Lは同テーブルにおける単語の数を示し、iは各分野に
付した続き番号、jは各単語に付した続き番号を示す。
また、Fijは分野iの文書における単語jの出現頻度を
示す。
【0060】式(1)においては、理論頻度Mijは、
(単語jの総頻度が全単語の総頻度に占める割合)×
(分野iにおける各出現単語の総数)の形で定義されて
いる。すなわち、理論頻度Mijは、単語jが特定の分野
に偏らず各分野に平均的に出現すると仮定した場合にお
いて、単語jが分野iに出現する期待される頻度を意味
する。この理論頻度については、前述の河合の論文に説
明されている。
【0061】このようにして分野iと単語jとの組合せ
ごとに理論頻度Mijが求められると、次に関連度演算部
6は、S24にて、この理論頻度の計算結果と、この元
となった頻度集計テーブル53とに基づき、分野iと単
語jとの関連度Yijを計算する。ここで、関連度Y
ijは、カイ2乗検定を応用した以下の計算式を用いて計
算する。
【0062】
【数2】 関連度Yijの計算結果は、関連度テーブル54の形で関
連度情報記憶部7に格納される。図14に、図13の頻
度集計テーブルから求められた関連度テーブル54のデ
ータ内容を例示する。
【0063】式(1)及び式(2)を用いて求められた
分野iと単語jとの関連度Yijは、関連が強い(分野,
単語)の組合せでは正の大きい値となり、逆に関連が弱
い(分野,単語)の組合せについては負の大きな値とな
る。また、幾ら分野iに対して単語jの出現頻度が大き
かったとしても、その単語jが全分野に平均して多く出
現する場合は、分野iと単語jとの関連度Yijは小さい
値(0に近い値)となる。すなわち、ある分野iに特異
的によく出現する単語jがあったとすると、両者の関連
度Yijは正の大きい値となる。また、単語jが分野iの
文書にほとんど出現しなかったような場合には、両者の
関連度Yijは負の大きい値となる。なお、この関連度の
考え方も前述の河合の論文に示されている。
【0064】関連度テーブル54が完成すると、次に複
数分野語処理部8は、S3にて、このテーブルに基づき
複数分野語を検出する。このS3の処理の詳細を図5を
参照して説明する。
【0065】まず、複数分野語処理部8は、S31で関
連度テーブル54に欄のある全単語について処理が完了
したかを検査する。完了していない場合には、S32で
関連度テーブル54から単語を1つ選択する。そして、
複数分野語処理部8は、S33で、関連度テーブル54
を参照し、この単語について関連の強い分野(すなわち
強関連分野)を検出し、強関連分野が複数個あった場合
にはS34に移る。S34では、複数分野語リスト55
にこの単語についての欄を作成し、この単語に対する複
数の強関連分野の分野名をこの欄に登録する。なお、S
33の判定において、強関連分野が1つしかなかった場
合には、この単語については何も行わず、S31に戻
る。そして、関連度テーブル54に登録された全単語に
ついて以上の処理を繰り返すことにより、強関連分野が
複数ある単語と、その単語に対応する強関連分野(複
数)とが登録された複数分野語リスト55が完成する。
【0066】この処理手順において、ある分野が強関連
分野であるか否かは、当該分野の関連度を閾値と比較す
ることにより判定する。閾値より大きい関連度を持つ分
野は強関連度分野と判定する。この判定のための閾値
は、選択した単語についての各分野の関連度のうちの最
大値に所定の係数(1以下の正数)を乗じた値を用いる
(したがって、どの単語も最低一つは強関連分野を有す
る)。
【0067】すなわち、複数分野語処理部8は、選択し
た単語jについて、関連度テーブル54におけるj番目
の行の各分野の関連度を取り出し、これら関連度に次式
(3)を適用することにより、当該単語jの強関連度分
類の数Tj を算出する。
【0068】
【数3】 ここで、演算子『#』は、後続の集合『{}』に含まれ
る要素(Yij)の数を返す。また、Yborderは、強関連
分類の判定のための閾値を求める際の所定の係数(固定
値)である。
【0069】この式(3)によれば、単語jの各分野に
対する関連度の最大値に対して所定の割合となる値を閾
値とし、関連度Yijがその閾値より大きい分野(すなわ
ち強関連分野)の数がTj として求められる。このTj
の値が2以上の場合、単語jは複数分野語と判定され、
複数分野語リスト55にその単語名と各強関連分野の分
野名が登録される。
【0070】具体例を用いて説明する。例えば、図14
の関連度テーブルが与えられ、係数Yborderの値を0.
3にした場合、単語「首相」については、最大の関連度
を持つ分野<政治>の関連度(66.7)にこの係数
0.3を乗じたものが、この単語「首相」についての強
関連分野判定の閾値となる。そして、この単語「首相」
に対する分野<経済>の関連度(20.8)はその閾値
より大きいので、単語「首相」は複数分野語と判定され
る。したがって、複数分野語リスト55には、図15に
示すように、単語「首相:名詞」と共に、これに対応す
る強関連分野として<政治>及び<経済>が登録され
る。このような処理を関連度テーブルにおける全単語に
ついて行うことにより、図15に示すような複数分野語
リストが完成する。図15のリストは、例えば単語「政
治:名詞」は分野<政治>及び<経済>に関連が強く、
単語「市場:名詞」に分野<経済>及び<国際>に関連
が強いことを示している。
【0071】このようにして作成された複数分野語リス
ト55は、分類用情報記憶部9に記憶され、未分類文書
の分類のために利用される。
【0072】なお、この実施の形態では、前述のように
強関連分類の判定のための閾値を固定値とはせず、各単
語の関連度の最大値に合わせて求めることとしたので、
各単語の関連度の分布に合わせ、相対的にみて関連度が
高い分野を強関連分野として抽出することができる。す
なわち、例えば学習に用いた分類済み文書群においてた
またま出現回数が少なかったような単語についても、そ
の単語の強関連分野を適切に求めることができる。
【0073】このようにして複数分野語リスト55が完
成すると、次に複数分野語処理部8は、S4にて、それ
ら複数分野語を考慮して、未分類の文書を分類する際の
分類基準となる分類用情報を作成する。ここでは、分類
用情報として、前述の関連度テーブル54を複数分野語
を考慮して詳細化した詳細化関連度テーブル56と、各
複数分野語についての共起単語の傾向を示す共起ベクト
ル57を作成する。以下、詳細化関連度テーブル56の
作成手順及び共起ベクトル57の作成手順を順に説明す
る。なお、詳細化関連度テーブル56の作成と共起ベク
トル57の作成はいずれを先に行ってもよい。
【0074】まず、図6を用いて詳細化関連度テーブル
56の作成手順を説明する。詳細化関連度テーブル56
は、例えば、図19に示すように、複数分野語を(単
語,強関連分野)の組合せごとに別々の単語と捉えて分
割(例えば「首相」を「首相(政治)」と「首相(経
済)」に分割)し、関連度を求め直した結果である。こ
のテーブルの作成手順は、大まかに分けて、複数分野語
を(単語,強関連分野)の組合せごとに別々の単語とみ
なして頻度集計テーブル53(例えば図13参照)を詳
細化するプロセスと、この結果得られた詳細化頻度集計
テーブルから詳細化関連テーブルを作成するプロセス
と、を含んでいる。図6では、S401〜S405が前
者のプロセスに対応し、S406〜S407が後者のプ
ロセスに対応する。
【0075】すなわち、まず複数分野語処理部8は、S
401にて、頻度集計テーブル53に登録された全単語
について処理が完了したか検査する。完了していない場
合には、S402にて頻度集計テーブル53から未処理
の単語を1 つ取り出す。そして、S403にて、選択し
た単語が複数分野語リスト55に登録された単語である
か否か(すなわち複数分野語か否か)チェックする。そ
の単語が、複数分野語リスト55に登録されていた場合
は、複数分野語処理部8は、S404にて、当該単語
(すなわち複数分野語)と、これに対応する複数の強関
連分類との各組合せごとに、詳細化頻度集計テーブルに
欄を作成し、頻度集計テーブル53における当該単語の
各分野での頻度値を、それら各組合せの欄に配分する。
【0076】すなわち、図18に示すように、複数分野
語(例えば「首相」)を各強関連分野(「首相」につい
ては<政治>、<経済>)ごとに別々の単語(単語「首
相(政治)」及び単語「首相(経済)」)と捉え、これ
ら新たな単語について詳細化頻度集計テーブルに欄を作
成する。そして、このようにして作成した欄「単語(分
野)」における各分野に対し、頻度集計テーブルの頻度
値を配分していく。配分する頻度値は次のように決定す
る。まず、当該「単語(分野)」の()内の「分野」に
一致する分野については、頻度集計テーブル53におけ
るその分野の頻度値をそのまま設定する。また、当該
「単語(分野)」の()内の「分野」には一致しない
が、当該「単語」の強関連分野の一つである分野につい
ては、その頻度を0とする。そして、当該「単語」の強
関連分野以外である分野については、頻度集計テーブル
53におけるその分野についての頻度を当該単語の強関
連分野の数で割り、その結果を設定する。この配分の仕
方を具体的に示すと次のようになる。
【0077】図13の頻度集計テーブルから図18の詳
細化頻度集計テーブルを作成する場合を例にとって説明
する。複数分野語処理部8は、図13のテーブルから
「首相」の各分野についての頻度値を取り出し、これら
を順番に図18のテーブルの「首相(政治)」及び「首
相(経済)」に配分していく。まず、図13における
「首相」の<政治>に対する頻度50は、<政治>は
「首相」の強関連分野なので、()内の分野の一致する
「首相(政治)」にそのすべてが配分され、()内の分
野の異なる「首相(経済)」には全く配分されない。し
たがって、図18の詳細化頻度集計テーブルの分野<政
治>においては、「首相(政治)」の頻度は50、「首
相(経済)」の頻度は0と設定される。逆に、同じく
「首相」の強関連分野である<経済>については、図1
3における頻度30がすべて「首相(経済)」に対して
配分され、「首相(政治)」の頻度は0に設定される。
また、図13における「首相」の<労働>に対する頻度
3は、<労働>は「首相」の強関連分野ではないので、
これを「首相」の強関連分野の数2で割った結果の1.
5が「首相(政治)」と「首相(経済)」とに等しく配
分される。したがって、図18のテーブルの分野<労働
>においては、「首相(政治)」、「首相(経済)」が
共に頻度1.5となる。
【0078】一方、S403で、選択した単語が複数分
野語リスト55にない単語と判定された場合は、複数分
野語処理部8は、S405にて、頻度集計テーブル53
における当該単語の各分野についての頻度を、そのまま
詳細化頻度集計テーブルに設定する。
【0079】例えば、図13の頻度集計テーブルにおけ
る単語「薄商い」は、複数分野語ではないので、頻度集
計テーブルにおける「薄商い」の各分野についての頻度
が、そのまま詳細化頻度集計テーブルにおける「薄商
い」の各分野についての頻度として設定される。
【0080】このような処理を頻度集計テーブル53の
全登録単語に対して行うことにより、図18に示すよう
に、複数分野語を強関連分類語ごとに分割することによ
り詳細化された詳細化頻度集計テーブルが完成する。
【0081】詳細化頻度集計テーブルが完成すると、次
に複数分野語処理部8は、このテーブルに対して前述の
式(1)を適用して理論頻度を算出する(S406)。
そして、S2の場合と同様に、この理論頻度の算出結果
を用いてカイ2乗検定の応用である前述の式(2)の演
算を行うことにより、詳細化頻度集計テーブルにおける
単語、分野の各組合せごとに、それら両者の関連度を算
出する。この結果、複数分野語を強関連分類語ごとに別
々の単語に分割した場合における、各単語と各分野との
関連度を示した詳細化関連度テーブルが完成する。
【0082】図19は、このようにして作成された詳細
化関連度テーブルの一例である。図19のテーブルは、
図18の詳細化頻度集計テーブルから作成されたもので
ある。図19の詳細化関連度テーブルを図14の関連度
テーブルと比較すると、例えば図14における「首相」
の<政治>に対する関連度と比較した場合、図19の
「首相(政治)」の<政治>に対する関連度はそれより
大きくなっており、「首相(経済)」の<政治>に対す
る関連度はそれより小さくなっているのが分かる。逆
に、図14における「首相」の<経済>に対する関連度
と比較した場合、図19の「首相(政治)」の<経済>
に対する関連度はそれより小さくなり、「首相(経
済)」の<経済>に対する関連度はそれより大きくなっ
ている。
【0083】このようにして作成された詳細化関連度テ
ーブル56は、分類用情報記憶部9に格納される。
【0084】次に共起ベクトル57の作成手順について
説明する。この実施の形態では、すでに説明したよう
に、複数分野語についてのみ共起ベクトルを作成する。
しかも、この共起ベクトルは、当該複数分野語の強関連
分野を考慮して、複数分野語と強関連分野との組合せご
とに作成する。以下、図7を参照して、共起ベクトルの
作成手順を説明する。
【0085】まず、複数分野語処理部8は、S411に
て、全分類済み文書に対して処理が完了したかを検査す
る。完了していない場合には、S412にて、分類済み
文書を一つ選択し、その文書の単語分割情報と頻度情報
を分類済み文書単語分割/頻度情報記憶部4から取り出
す。次に、複数分野語処理部8は、取り出した頻度情報
にあるすべての単語について処理が終わったかをS41
3で検査する。終わっていない場合は、S414にて、
頻度情報から単語を一つ選択する。そして、S415で
は、複数分野語処理部8は、選択した単語が複数分野語
かどうかを複数分野語リスト55を参照して判定する。
ここで、複数分野語でない場合は、その単語については
何もせず、S413に戻る。
【0086】S415において当該単語が複数分野語で
あった場合は、複数分野語処理部8は、S416におい
て、現在処理中の文書の分類先の分野を文書分類先テー
ブル52にて調べ、その分野が複数分野語リスト55に
おける当該単語の強関連分野に含まれているかどうかを
判定する。
【0087】この判定の結果、現在処理中の文書の分類
先が、当該単語の強関連分野に含まれていなければ、当
該単語については何も処理を行わずにS413に戻る。
一方、S416において、現在処理中の文書の分類先
が、当該単語の強関連分野に含まれている場合には、複
数分野語処理部8は、S417にて、当該文書の単語分
割情報を参照して、例えば同一段落などの所定の範囲内
において当該単語と共起する単語を当該文書全体にわた
って調べる。この時、これら各共起単語の頻度も同時に
カウントする。そして、複数分野語処理部8は、検出し
た共起単語とその頻度とを、S418にて共起頻度情報
に反映させる。このようにして1つの単語についての処
理が終わるとS413に戻って次の単語の処理に移る。
【0088】このような処理よれば、各複数分野語ごと
に、当該複数分野語の強関連分野に属する文書において
当該複数分野語と共起した単語及びその頻度の傾向が、
共起頻度情報として求められる。
【0089】図16は、図12の単語分割情報及び図1
5の複数分野語リストに従って作成された共起頻度情報
の内容を模式的に示した図である。図16では、「首
相」、「市場」などの各複数分野語に対して、それぞれ
対応する強関連分野が関連付けられており、さらにその
複数分野語と強関連分野との組合せに対して、それぞれ
共起単語及びその頻度を含んだデータのリストが関連付
けられている。図16は、例えば、「総裁」という単語
が、<政治>分野の文書では複数分類語「首相」に対し
て5回共起し、<経済>分野の文書では複数分類語「首
相」に対して3回共起したことを示している。
【0090】ここまでの処理の具体例を以下に示す。ま
ず、図9の文書がS412で選択されたとする。この場
合、複数分野語処理部8は、この文書に対応する頻度情
報及び単語分割情報として、図11及び図12に示した
情報を分類済み文書単語分割/頻度情報記憶部4から取
り出す。そして、頻度情報の全ての単語について処理が
終わるまでS413以下の処理を繰り返す。例えば、S
414で図11から「会見:サ変名詞」が選択されたと
きには、この単語は図15の複数分野語リストに存在し
ないため、S415の判定により何も行わずにS413
に戻る。順次処理が進んで、S413で「首相:名詞」
が選択されたときには、S415でこの単語は図15の
複数分野語リストに存在することを検知し、S416に
進む。S416では、図10の文書分類先テーブルか
ら、図9の文書の分類先が<政治>分野であることを検
知するとともに、複数分野語リストから当該複数分野語
「首相:名詞」の強関連分野が<政治>及び<経済>で
あることを検知し、これらのことから、当該文書の分類
先の分野が当該複数分野語の強関連分野の一つであるこ
とを検知する。したがって、S416の判定結果はYE
Sとなり、以下、当該文書の分類先分野と当該複数分野
語の強関連分野との一致点である<政治>分野につい
て、S417及びS418の処理が行われる。この具体
例では、S417にて、現在処理中の複数分野語と同じ
段落に出現したものを共起単語として抽出する。したが
って、図9の段落70からは、複数分野語「首相:名
詞」の共起単語として、「内閣:名詞」、「支持率:名
詞」、「理由:名詞」、「海部:名詞」、「続投論:名
詞」、「三塚:名詞」、「反発:サ変名詞」が抽出され
る。また、これら各共起単語の同段落70における頻度
(いずれも1である)も検出される。そして、S418
では、図16に示す共起頻度情報において、「首相:名
詞」の<政治>に関連付けられた各共起単語の頻度にそ
れぞれS417で検出された頻度を加える。このような
処理をすべての単語について繰り返すことにより、図1
6に示すような共起頻度情報が得られる。
【0091】なお、この例では、同一段落に出現したも
のを共起単語としたが、これに限らず、広く同一文書に
出現したものすべてを共起単語としてもよいし、逆に範
囲を狭め、同一の文に出現したもののみを共起単語とし
てもよい。この実施の形態では、単語分割情報(たとえ
ば図12)を作成しているので、このようないずれの場
合にも対応することができる。
【0092】このようにして共起頻度情報が完成する
と、複数分野語処理部8は、この共起頻度情報から、各
複数分野語・強関連分野の組合せごとについて、共起ベ
クトルを作成する。共起ベクトルは、共起頻度情報(例
えば図16)における共起単語の頻度値をその共起単語
に対応する各基底の成分値とするベクトルである。ただ
し、この実施の形態では、学習に用いた分類済み文書群
に現れたすべての単語を共起ベクトルの基底とし、共起
しなかった単語に対する成分値は0とすることで共起ベ
クトルの基底を統一している。例えば、図16の共起頻
度情報から求めた「首相(政治)」、「首相(経済)」
の共起ベクトルは、それぞれ図17の(a)に示すよう
なものとなる。
【0093】そして、複数分野語処理部8は、S419
で、各共起ベクトルを長さ1に正規化することにより、
共起ベクトルの長さの差を吸収する。すなわち、以下で
は、共起ベクトルの「方向」のみについて注目する。こ
の方向が、複数分野語と強関連分野との組合せである
「単語(分野)」に対する共起単語の出現傾向を表す。
例えば、図17の(a)に示した各共起ベクトルは、同
図の(b)のように正規化される。
【0094】このようにして作成された各複数分野語と
強関連分野との各組合せについての共起ベクトルは、分
類用情報記憶部9に格納される。
【0095】これで、分類用情報記憶部9には、分類対
象文書の分類処理の際の基準となる複数分野語リスト5
5、詳細化関連度テーブル56及び各共起ベクトル57
がすべて用意された。以下、これらの情報を用いた文書
の分類処理の各ステップ(図2のS5〜S7)の処理手
順を更に詳細に説明する。
【0096】まず、分類対象文書が与えられた場合、ま
ずS5にて、単語分割/頻度抽出処理部3が、図3に示
した処理手順により当該分類対象文書の出現単語を解析
し、当該分類対象文書の単語分割情報及び頻度情報を作
成する。この手順は、分類済み文書の場合と同様なので
説明は省略する。
【0097】例えば、分類対象文書として図20に示す
文書が与えられたとする。この文書は、本来<経済>に
分類されるべき文書である。単語分割/頻度抽出処理部
3は、この文書を解析し、図21に示す頻度情報及び図
22に示す単語分割情報を作成する。例えば、図21
は、図20の文書に、「東京証券取引所:名詞」が1
回、「首相:名詞」が3回出現していることを示してい
る。また、図22は、例えば、「首相:名詞」が文書冒
頭から223バイト目に出現したことを示している。
【0098】このようにして得られた分類対象文書の分
類対象文書の単語分割情報及び頻度情報(単語分割/頻
度情報58)は、分類対象文書単語分割/頻度情報記憶
部5に格納される。
【0099】分類対象文書の単語分割情報及び頻度情報
が得られると、次に複数分野語処理部8及び分類先決定
部10により、当該分類対象文書の特徴を表す文書ベク
トル60を作成し(S6)、この文書ベクトル60に基
づき分類先を決定する(S7)。この一連の処理の詳細
な手順を、図8を参照して説明する。なお、図8におけ
る各ステップは、S61〜S66が図2のS6に対応
し、S70が図2のS7に対応する。
【0100】分類先決定部10は、分類対象文書の頻度
情報(例えば図21)を取り出し、この頻度情報にある
単語を先頭から順に一つずつ取り出して処理していく。
このため、まずS61にて、その頻度情報にあるすべて
の単語に対して処理が終わったかを検査する。終わって
いない場合は、S62で、頻度情報における次の未処理
単語を選択する。そして、S63では、分類用情報記憶
部9に格納された共起ベクトルの情報から、選択した単
語が共起ベクトルを持つ単語かどうかを判定する。な
お、この判定は、当該単語が複数分野語リスト55に含
まれるかどうかに基づき行ってもよい。
【0101】S63の判定の結果、当該単語が共起ベク
トルを持たない単語であれば、分類先決定部10は、頻
度情報における当該単語の頻度を、そのまま文書ベクト
ルにおける当該単語に対応する成分に設定する。
【0102】ここで、文書ベクトルは、学習に用いた分
類済み文書群に現れる全単語を基底とするベクトルであ
り、基本的には、分類対象文書に出現した単語の頻度を
その単語に対応する基底の成分値とするベクトルである
(したがって、出現しなかった単語についての成分は0
となる)。このため、S66では、分類対象文書におけ
る単語の頻度値を文書ベクトルに設定する。例えば、図
21の頻度情報における「東京証券取引所:名詞」とい
う単語は、共起ベクトルを持たないので、その単語の頻
度1が、そのまま文書ベクトルにおける「東京証券取引
所:名詞」の成分に設定される。
【0103】ただし、文書ベクトルでは、複数分野語に
ついては各強関連分野との組合せごとに1単語(例え
ば、分野付きの単語「首相(政治)」など)とみなし、
各組合せをそれぞれ基底としている。すなわち、この文
書ベクトルは、基本的には分類対象文書における単語の
出現傾向を示すベクトルであるが、更に複数分野語がど
の分野(強関連分野)の単語として出現したかを示す情
報を含んだものとなっている。
【0104】このような文書ベクトルを作成のため、分
類対象文書内に出現した複数分野語については、その頻
度を各強関連分野との組合せごとに分配する必要があ
る。このための処理がS64及びS65の各ステップで
ある。
【0105】すなわち、S63の判定で共起ベクトルを
持つ単語(すなわち複数分野語)と判定された場合、S
64では、まず複数分野語処理部8にて、当該単語の文
書共起ベクトルを作成する。ここで、文書共起ベクトル
は、前述の共起ベクトルと同様、文書の所定範囲内(例
えば同一段落内)で当該単語と共起した単語の頻度を各
成分値としたベクトルである。共起ベクトルと文書共起
ベクトルとの相違は、前者は学習に用いた複数の分類済
み文書から作成されたものであるのに対し、後者は1つ
の分類対象文書のみから作成されたものである点であ
る。すなわち、文書共起ベクトルは、複数分野語が、分
類対象文書においてどのような単語と共起したかという
共起単語の傾向を表すベクトルである。
【0106】S63で共起ベクトルを持つと判定された
単語についての文書共起ベクトルの作成は、共起ベクト
ルの作成手順(図7参照)におけるS417及びS41
8とほぼ同様の処理にて行うことができる。すなわち、
単語分割情報(例えば図22)を参照して当該単語の共
起単語を検出し、それら共起単語の頻度をそれぞれ対応
する成分の値として設定すればよい。
【0107】例えば、図20の分類対象文書に出現する
単語「首相:名詞」は、図17などに示すように共起ベ
クトルを持つ複数分野語である。この図20の文書から
作成した「首相:名詞」の文書共起ベクトルを図23に
示す。図23の文書共起ベクトルは、共起の範囲を同一
段落内に限った場合の例である。図23と図17を比較
すれば分かるように、文書共起ベクトルは、共起ベクト
ルと同じ基底のベクトルである。なお、この文書共起ベ
クトルの長さを正規化する必要はない。
【0108】選択した単語についての文書共起ベクトル
が求められると、S64では、更に分類先決定部10
が、分類用情報記憶部9から当該単語についての各共起
ベクトルを取り出し、文書共起ベクトルとこれら各共起
ベクトルとの内積をそれぞれ計算する。得られた各内積
値は、当該単語(この単語は複数の分野に強い関連を持
つ複数分野語である)が、当該分類対象文書においては
どの分野の単語として出現している可能性が高いかを示
している。
【0109】すなわち、各共起ベクトルは、複数分野語
と強関連分野との組合せについて求められており、例え
ば「首相(政治)」についての共起ベクトルは、「首
相」という複数分野語が<政治>分野の文書に出現する
場合にはどのような単語と共起しているかという傾向を
表している。したがって、分類対象文書における当該単
語の共起単語の傾向を表す文書共起ベクトルと、各分野
の文書における当該単語の共起単語の傾向を表す各共起
ベクトルとを比較すれば、それらの類似度合いから分類
対象文書において当該単語はどの分野の単語として現れ
ているかを知ることができる。
【0110】共起ベクトルはすべて長さ1に正規化され
ているので、文書共起ベクトルと共起ベクトルの内積値
の大小は、純粋に両ベクトルの方向の類似性のみを示
し、内積値が大きいほど両ベクトルの方向は類似してい
るといえる。文書共起ベクトルや共起ベクトルの方向
は、共起単語の出現の傾向を表しているので、これら両
ベクトルの内積値を、共起単語の出現傾向の類似度合い
を示していると捉えることができる。したがって、この
実施の形態では、文書共起ベクトルと各共起ベクトルの
内積値を、当該単語がどの分野の単語であるかを示す指
標値として用いる。例えば、図23の「首相」の文書共
起ベクトルと、図17(b)の「首相(政治)」の共起
ベクトルとの内積値は、分類対象文書に出現した単語
「首相」が分野<政治>の単語である可能性の大きさを
示している。同様に、図17(b)の「首相(経済)」
の共起ベクトルとの内積値は、「首相」が<経済>の単
語である可能性の大きさを示している。
【0111】そこで、分類先決定部10は、S65に
て、求められた各内積値の大きさの比率に従って、頻度
情報(図21参照)における当該単語の頻度値を、当該
単語と強関連分野との各組合せに対して比例配分し、そ
の配分結果を文書ベクトルに設定する。
【0112】例えば、前述の単語「首相」についての例
を用いて説明すると、「首相」の文書共起ベクトル(図
23)と、「首相(政治)」「首相(経済)」について
の各共起ベクトル(図17)との内積値は、それぞれ
0.82及び4.08となるので、分類対象文書におけ
る「首相」の頻度3を、それら内積値の比率に応じて比
例配分すると、「首相(政治)」に配分される頻度値
は、
【数4】 となり、「首相(経済)」に配分される頻度値は、
【数5】 となる。したがって、S65では、文書ベクトルの「首
相(政治)」及び「首相(経済)」の成分値に、0.5
及び2.5をそれぞれ設定する。
【0113】以上説明したS61〜S66の処理を、分
類対象文書の頻度情報のすべての単語について繰り返す
ことにより、当該分類対象文書の文書ベクトルが求めら
れる。例えば、図24は、分類対象文書の頻度情報(図
21)の各単語の頻度を、各単語の共起ベクトル及び文
書共起ベクトルを使って分割した結果を示す例である。
この表における各単語の頻度を、所定の順番(図19等
に示す詳細化関連度テーブルでの単語の登録順序)に合
せて並べたものが、文書ベクトルとなる。このようにし
て作成された文書ベクトルは、分類対象文書の出現単語
の傾向を表している。
【0114】分類対象文書の文書ベクトルが完成する
と、分類先決定部10は、S70にて、この文書ベクト
ルと分類用情報記憶部9の詳細化関連度テーブルとを用
いて、当該分類対象文書の分類先を決定する。このた
め、分類先決定部10は、次の式を用いて当該分類対象
文書の各分野iへの関連度Si を計算する。
【0115】
【数6】 この式で、Dj は文書ベクトルにおける単語jに対応す
る成分値を示し、L´は複数分野語を各強関連分野ごと
に別々の単語(例えば「首相(政治)」、「首相(経
済)」)とみなしたとき単語の総数を示す。この演算
は、詳細化関連度テーブル(例えば図19)を各分野ご
とに分割し、各分野の列をそれぞれ当該分野の単語の出
現傾向を示すベクトルとみなし、このベクトルと文書ベ
クトルとの内積を求める演算と捉えることができる。
【0116】例えば、図20の文書の各分野に対する関
連度は、図19の詳細化関連度テーブルと図24の表に
対応する文書ベクトルとに基づき、図25に示すような
内積演算で求められる。図25に示すように、図20の
文書は、分野<経済>に対する関連度が最も大きくなっ
ている。
【0117】分類先決定部10は、例えば関連度Si
最大となる分野を、分類対象文書の分類先に決定する。
なお、分類先を一つに限らずに、例えば関連度Si が所
定順位内の分野を分類先としてもよい。また、関連度S
i が最大となる分野を分類先として抽出するのに加え、
その関連度の最大値に対して所定の割合以上の関連度を
持つ分野を副分類先として抽出するような応用も考えら
れる。得られた文書分類結果61は、文書分類結果記憶
部11に格納される。
【0118】図25の例では、図20の文書が分野<経
済>に正しく分類されていることが分かる。
【0119】これに対し、図26は、図20の文書の分
類先を、複数分野語を分割していない図14の関連度テ
ーブル及び図21の頻度情報から求めた場合の演算例を
示している。図26の例では、分野<政治>に対する関
連度が最大値となっており、これでは図20の文書が、
本来分類されるべき<経済>ではなく、<政治>に誤っ
て分類されてしまう。このように、複数分野語に注目し
ない従来の手法では、分類先を誤る可能性が高いことが
分かる。これに対し、この実施の形態の手法は、複数分
野語に注目して、複数分野語を各強関連分野ごとに別々
の単語に分割して取り扱うことにより、文書における単
語の出現傾向をより詳細に分析することができるので、
より好ましい分類結果を得ることができる。
【0120】以上説明したように、この実施の形態1に
よれば、分類済み文書を解析することにより複数分野語
を抽出し、この複数分野語に注目して、分類の際の基準
となる関連度テーブルや、分類対象文書の出現単語の頻
度情報を詳細化することにより、分類対象文書の各分野
への関連度をより詳細に分析することができるので、類
似する分野(共通の単語がある程度以上の頻度で出現す
る複数の分野)間での分類の精度を向上させることがで
きる。したがって、この実施の形態1は、分類を細かく
して類似する分野が多くなるような場合においても、分
類精度の劣化を抑えることができる。
【0121】また、この実施の形態1は、これら関連度
テーブルなどの詳細化を、複数分野語についての共起単
語の傾向を示すベクトル(共起ベクトル、文書共起ベク
トル)に基づき行うことにより、複数分野語が現れた周
囲の状況に基づき当該複数分野語がどの分野の単語とし
て現れたかを評価することができる。これにより、従来
技術において誤分類の原因となっていた複数分野語を、
各強関連分野ごとに別々の単語として切り分けて取り扱
うことが可能となるとともに、複数分野語の出現状況を
踏まえて適切にその切り分けを行うことができる。
【0122】実施の形態2.次に、この発明の実施の形
態2を説明する。この実施の形態2は、各単語の上位概
念語が登録されたシソーラスを利用して、共起ベクトル
や文書共起ベクトルを上位概念語を含めた形式に拡張す
ることにより、複数分野語の頻度の分割をより適切に行
おうとするものである。
【0123】この実施の形態2のシステムの構成を図2
7に示す。図27において、図1と同様の構成要素には
同一の符号を付してその説明を省略する。図27から分
かるように、この実施の形態2の各構成要素は、シソー
ラス利用型複数分野語処理部21とシソーラス22以外
は、図1の構成要素と同一である。シソーラス22に
は、各単語の意味概念の階層関係の情報を格納してい
る。例えばシソーラス22は、単語「テニス」の上位概
念として単語「球技」があり、単語「球技」の上位概念
として単語「スポーツ」があるなど、各単語の階層的な
上下関係の情報を記憶している。シソーラス利用型複数
分野語処理部21は、図1(実施の形態1)における複
数分野語処理部8に対応するものであり、基本的な処理
動作は共通している。ただし、シソーラス利用型複数分
野語処理部21は、共起ベクトルや文書共起ベクトルを
作成する際に、このシソーラス22を利用して各共起単
語の上位概念語を抽出し、この上位概念語をそれらベク
トルに反映させる点が、図1の複数分野語処理部8と異
なる。
【0124】この実施の形態2のシステムは、シソーラ
ス利用型複数分野語処理部21における共起ベクトル及
び文書共起ベクトルの作成手順のみが実施の形態1のシ
ステムと異なるだけで、その他の処理手順は、実施の形
態1の場合と全く同じでよい。したがって、以下では、
実施の形態1と異なる部分である、シソーラス利用型複
数分野語処理部21における共起ベクトルの作成手順の
みを詳細に説明する。
【0125】図28は、このシソーラスを利用した分類
学習時の共起ベクトルの作成手順を示すフローチャート
である。図8(実施の形態1での共起ベクトル作成処
理)におけるステップと同じ処理を示すステップについ
ては、図25においても図8と同じ符号を付してその説
明を省略する。
【0126】図28において、分類済み文書の頻度情報
から複数分野語を取り出し、この複数分野語の共起単語
を単語分割情報から抽出するまで(S417まで)の処
理は、実施の形態1と同様の処理である。このようにし
て、複数分野語の共起単語が取り出されると、シソーラ
ス利用型複数分野語処理部21は、各共起単語の上位概
念語をシソーラス22から取り出す。取り出した上位概
念語には、共起単語の頻度に対し階層差に応じた重みを
乗じた値を頻度値として割り当てる。そして、S502
では、共起頻度情報(例えば図16参照)に対し、各共
起単語の頻度値を反映させる。このとき、共起単語だけ
でなく、それらの上位概念語も共起頻度情報のリストに
加え、その頻度値を反映させる。
【0127】例えば、S417にて、共起単語として
「テニス」が抽出され、シソーラス22には図29に示
すような単語の階層関係が記憶されていたとする。この
場合、S501では、「テニス」の上位概念語として
「球技」及び「スポーツ」が抽出される。ここでは、上
位概念語には、例えば、共起単語から階層が1つ上に上
がるごとに所定の重みを乗じた頻度値を割り当てる。例
えば、共起単語「テニス」の頻度が1であり、前記所定
の重みを0.5とすると、S501では、「テニス」
「球技」「スポーツ」の各単語に対し、図29に示すよ
うにそれぞれ1,0.5,0.25の頻度値が割り当て
られる。そして、これら頻度値が、S502で共起頻度
情報における対応単語の頻度値に加算される。そして、
この共起頻度情報から共起ベクトルが作成され、長さ1
に正規化される。
【0128】また、この実施の形態2では、文書共起ベ
クトルにも、上記共起ベクトルの場合と同様に、共起単
語の上位概念語を反映させる。
【0129】すなわち、前記実施の形態1では、図30
の(a)に示すように共起ベクトルには共起単語「テニ
ス」そのものの頻度しか反映させていなかったが、この
実施の形態2では、共起ベクトルに対し共起単語の上位
概念語「球技」及び「スポーツ」の頻度も反映させる
(なお、図30では、共起ベクトルの正規化は行ってい
ない)。
【0130】分類済み文書の数は有限なので、分類学習
時において、ある複数分野語の共起単語として現れる単
語もある程度限られてくる。したがって、これから分類
しようとする分類対象文書に、そのような限られた単語
そのものが当該複数分野語の共起単語として現れるとは
限らない。例えば、分類対象文書に、当該複数分野語の
共起単語として、分類学習時の共起単語そのものは現れ
なかったが、それに類似した単語は現れたというような
場合も考えられる(実際に、類似した単語が現れる確率
は高いと考えられる)。このような場合、分類学習時に
実際に共起した単語のみしか共起ベクトルに考慮しない
とすれば、分類対象文書における複数分野語の頻度をあ
る強関連分野に配分する際に、たまたまその分類学習時
における当該強関連分野の共起単語そのものが現れなか
っただけのために、その強関連分野に対する配分比率が
下がってしまうというようなこともあり得る(類似の単
語は出現しているのだから、実際にはその複数分野語は
その強関連分野に対してもっと関連が深いはずであ
る)。このような誤りが生じるのは、分類対象文書にせ
っかく現れた類似単語の情報が捨てられてしまうためと
いえる。
【0131】これに対し、この実施の形態2では、共起
単語そのものだけでなく、その類似単語の一種である上
位概念語をも共起ベクトル、文書共起ベクトルに反映さ
せるので、分類対象文書内にある複数分野語に対する分
類学習時の共起単語そのものが現れない場合でも、その
上位概念語が共起単語として現れていれば、当該複数分
野語が関連の深い分野を大きく誤るようなことはない
(すなわち、複数分野語の頻度の配分比率をある程度修
正することができる)このようにして求められる共起ベ
クトルや文書共起ベクトルは、分類対象文書に現れた複
数分野語の頻度値を、当該複数分野語の強関連分野に配
分する際(図8のS64、S65)に用いられる。そし
て、この結果求められた文書ベクトルを用いて分類対象
文書の分類先が決定される。この実施の形態2では、共
起ベクトル及び文書共起ベクトルは、実施の形態1と比
べて詳細化されているが、このほかの詳細化関連度テー
ブルや文書ベクトルは実施の形態1のものと同じでよ
い。
【0132】このように、実施の形態2によれば、共起
ベクトルのスパースネス(基底の疎らさ)を吸収するこ
とが可能となり、実施の形態1で共起ベクトルでうまく
処理できなかった分類対象文書に対しても、より好まし
い分類結果を得ることができる。
【0133】以上、この発明の好適な実施の形態を説明
した。以上に説明した各実施の形態は、あくまで一例に
過ぎず、こほかにも様々なバリエーションが考えられ
る。
【0134】例えば、上記各実施の形態においては、文
書から単語を切り出すために形態素解析を用いたが、こ
の形態素解析の代わりに、平仮名、カタカナ、漢字、数
字などの文字タイプの情報を利用して疑似的に単語分割
を行うことも可能である。また、このほかにも言語処理
分野で知られている様々な単語分割手法を適用すること
ができる。
【0135】また、上記各実施の形態では単語と分野と
の関連度を、カイ2乗検定を応用した計算式により求め
たが、関連度の求め方はこれに限らない。例えばTF・ID
F(term frequency times inverse document frequency)
など、統計分野で知られている様々な手法を利用するこ
とができる。
【0136】また、上記各実施の形態では、共起ベクト
ルを作成する際に、共起単語の調査範囲を同一段落とす
るほか、文書全体に範囲を広げたり、逆にその単語を含
む文に範囲を限定したりすることが可能であると説明し
たが、このほかにも、注目する単語の前後所定文字数以
内の範囲といった限定の仕方も可能である。これは、単
語分割情報における単語位置の情報を用いて実現するこ
とができる。
【0137】また、分類対象文書と各分野との間の関連
度を求めるための方法は、上記実施の形態1に示したベ
クトルの内積を利用する方法に限らず、様々な距離計算
アルゴリズムを利用することが可能である。
【0138】また、上記実施の形態では、共起ベクトル
を長さ1に正規化したが、次のような方法により、より
共起ベクトルを特徴付けることもできる。すなわち、上
記実施の形態1の方法により求められた各共起ベクトル
において、複数の共起ベクトルが、ある共通の単語に対
して共に0でない成分値を有している場合は、その成分
値をそれら共起ベクトルの数で除した値に置き換えると
いう方法である。例えば、図31に示すように、実施の
形態1の方法で(a)に示すような共起ベクトルが得ら
れたとする。(a)の2つの共起ベクトルは、「総裁:
名詞」に対応する成分値が共に0でない値となっている
ので、これを(b)に示すようにそれぞれ2で割った値
に置き換えるのである。ある単語が複数の共起ベクトル
において0でない成分値を持つということは、その単語
はそれら複数の共起ベクトルに対応する分野同士の間で
の分類においては重要度が低いと考えることができるの
で、このような方法により共起ベクトルに特徴づけを行
うことができる。
【0139】
【発明の効果】以上説明したように、この発明によれ
ば、分類済み文書から複数分野語を学習し、この複数分
野語に注目して関連度テーブルや分類対象文書の単語の
頻度情報を詳細化するので、分類対象文書の各分野への
関連度をより詳細に分析することができ、類似する分野
間での分類の精度を向上させることができる。したがっ
て、この発明によれば、細かい分類を行う場合でも分類
精度の劣化を抑えることができる。
【0140】また、単語の強関連分野の判定基準となる
閾値を、関連度テーブルにおける当該単語の各分野に対
する関連度の中の最大値に基づき定めるので、各単語の
関連度の分布に合わせ、相対的にみて関連度が高い分野
を強関連分野として抽出することができる。
【0141】また、分類対象文書の出現単語の頻度情報
の詳細化を、複数分野語の共起単語の傾向を示す共起ベ
クトルを利用して行うことにより、複数分野語が現れた
周囲の状況に基づき当該複数分野語がどの分野の単語と
して現れたかを評価し、適切に詳細化を行うことができ
る。
【0142】また、各単語の概念的な階層関係を記述し
たシソーラスを用いて共起ベクトルや文書共起ベクトル
を拡張することにより、共起情報のスパースネスを解消
してより的確に単語が使われた状況を選択することがで
き、より的確な文書の自動分類を行うことができる。
【図面の簡単な説明】
【図1】 この発明の実施の形態1のシステムの構成図
である。
【図2】 この発明の実施の形態1のシステムにおける
全体的な処理手順を示すフローチャートである。
【図3】 単語分割/頻度抽出処理部の処理手順を示す
フローチャートである。
【図4】 関連度演算部の処理手順を示すフローチャー
トである。
【図5】 複数分野語処理部による複数分野語検出処理
の手順を示すフローチャートである。
【図6】 複数分野語処理部による詳細化関連度テーブ
ルの作成処理の手順を示すフローチャートである。
【図7】 複数分野語処理部による共起ベクトル作成処
理の手順を示すフローチャートである。
【図8】 分類対象文書の分類の手順を示すフローチャ
ートである。
【図9】 分類済み文書の一例を示す図である。
【図10】 文書分類先テーブルのデータ内容の一例を
示す図である。
【図11】 分類済み文書の頻度情報の一例を示す図で
ある。
【図12】 分類済み文書の単語分割情報の一例を示す
図である。
【図13】 頻度集計テーブルの一例を示す図である。
【図14】 関連度テーブルの一例を示す図である。
【図15】 複数分野語リストの一例を示す図である。
【図16】 共起ベクトルの作成のために構築される共
起頻度情報の一例を示す図である。
【図17】 共起ベクトルの一例を示す図である。
【図18】 詳細化頻度集計テーブルの一例を示す図で
ある。
【図19】 詳細化関連度テーブルの一例を示す図であ
る。
【図20】 分類対象文書の一例を示す図である。
【図21】 分類対象文書の頻度情報の一例を示す図で
ある。
【図22】 分類対象文書の単語分割情報の一例を示す
図である。
【図23】 文書共起ベクトルの一例を示す図である。
【図24】 分類対象文書の文書ベクトルに対応する各
単語の頻度を示す表の一例を示す図である。
【図25】 図20の分類対象文書の各分野に対する関
連度を、複数分野語を考慮した実施の形態1の手法によ
り求めた結果を示す図である。
【図26】 図20の分類対象文書の各分野に対する関
連度を、複数分野語を考慮しない手法で求めた結果を示
す図である。
【図27】 この発明の実施の形態2のシステムの構成
図である。
【図28】 この発明の実施の形態2におけるシソーラ
ス利用型複数分野語処理部の処理手順を示すフローチャ
ートである。
【図29】 実施の形態2におけるシソーラスの利用の
仕方を説明するための図である。
【図30】 シソーラスを用いた共起ベクトルの拡張処
理を説明するための図である。
【図31】 共起ベクトルの特徴付けの仕方の一例を示
す図である。
【図32】 従来の文書自動分類装置の構成図である。
【図33】 図32の従来装置における分類学習の結果
の一例を示す図である。
【図34】 別の従来の文書自動分類装置の構成図であ
る。
【図35】 図34の従来装置で生成される単語ベクト
ルの一例を示す図である。
【図36】 図34の従来装置で生成される文書ベクト
ルの一例を示す図である。
【図37】 更に別の従来の文書自動分類装置の構成図
である。
【図38】 図37の従来装置にて用いられる意味属性
の情報の一例を示す図である。
【図39】 図37の従来装置において分類学習時に作
成される各意味属性の頻度の集計結果を示す図である。
【符号の説明】
1 分類済み文書記憶部、2 分類対象文書記憶部、3
単語分割/頻度抽出部、4 分類済み文書単語分割/
頻度情報記憶部、5 分類対象文書単語分割/頻度情報
記憶部、6 関連度演算部、7 関連度情報記憶部、8
複数分野語処理部、9 分類用情報記憶部、10 分
類先決定部、11 文書分類結果記憶部、21 シソー
ラス利用型複数分野語処理部、22 シソーラス、5
1,58単語分割/頻度情報、52 文書分類先テーブ
ル、53 頻度集計テーブル、54 関連度テーブル、
55 複数分野語リスト、56 詳細化関連度テーブ
ル、57 共起ベクトル、59 文書共起ベクトル、6
0 文書ベクトル、61 文書分類結果。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 高山 泰博 東京都千代田区丸の内二丁目2番3号 三 菱電機株式会社内

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 分類済みの各文書に出現する各単語の頻
    度集計結果に基づき各単語と各分野との関連度を登録し
    た関連度テーブルを作成し、この関連度テーブルから、
    閾値より高い関連度を有する強関連分野が複数存在する
    複数分野単語を求め、前記関連度テーブルにおける複数
    分野語についての欄を、当該複数分野語とこれに対応す
    る強関連分野との組合せごとに複数の欄に分割して詳細
    化関連度テーブルを作成する分類学習ステップと、 分類対象の文書に出現する単語の頻度を集計し、この結
    果得られた頻度情報を前記複数分野語の情報によって詳
    細化し、この詳細化された頻度情報と前記詳細化関連度
    テーブルとに基づき当該文書の分類先の分野を決定する
    分類実行ステップと、を含むことを特徴とする文書自動
    分類方法。
  2. 【請求項2】 単語の前記強関連分野の判定基準となる
    前記閾値は、前記関連度テーブルにおける当該単語の各
    分野に対する関連度の中の最大値に基づき定められるこ
    とを特徴とする請求項1記載の文書自動分類方法。
  3. 【請求項3】 前記分類学習ステップでは、各複数分野
    語について、当該複数分野語の各強関連分野ごとに、そ
    の強関連分野に属する分類済み文書において当該複数分
    野語と共起した単語の傾向を表す共起ベクトルを生成
    し、 前記分類実行ステップでは、各複数分野語ごとに、この
    分類対象文書において当該複数分野語と共起した単語の
    傾向を示す文書共起ベクトルを生成し、この文書共起ベ
    クトルと前記各共起ベクトルとの類似性に基づき、分類
    対象文書から得られた前記頻度情報を詳細化することを
    特徴とする請求項1又は2記載の文書自動分類方法。
  4. 【請求項4】 各単語の概念的な階層関係を記述したシ
    ソーラスを利用して、前記各共起単語の上位概念の情報
    を反映した共起ベクトル及び文書共起ベクトルを生成す
    ることを特徴とする請求項3記載の文書自動分類方法。
JP9054359A 1997-03-10 1997-03-10 文書自動分類方法 Pending JPH10254883A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9054359A JPH10254883A (ja) 1997-03-10 1997-03-10 文書自動分類方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9054359A JPH10254883A (ja) 1997-03-10 1997-03-10 文書自動分類方法

Publications (1)

Publication Number Publication Date
JPH10254883A true JPH10254883A (ja) 1998-09-25

Family

ID=12968452

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9054359A Pending JPH10254883A (ja) 1997-03-10 1997-03-10 文書自動分類方法

Country Status (1)

Country Link
JP (1) JPH10254883A (ja)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000043909A1 (fr) * 1999-01-21 2000-07-27 Sony Corporation Procede et dispositif de traitement de documents et support d'enregistrement
JP2000298673A (ja) * 1999-04-14 2000-10-24 Oki Electric Ind Co Ltd 情報抽出装置
JP2003526140A (ja) * 1999-08-06 2003-09-02 レキシス ネクシス 法律トピック体系を使用して法律概念を分類するシステム及び方法
JP2005275505A (ja) * 2004-03-23 2005-10-06 Sony Corp 情報処理装置および方法、プログラム
JP2006113677A (ja) * 2004-10-12 2006-04-27 Patolis Corp 文献分類認識装置、その方法、文献分類装置、それらのプログラム、および、それらのプログラムを記録した記録媒体
JP2006323517A (ja) * 2005-05-17 2006-11-30 Mitsubishi Electric Corp テキスト分類装置およびプログラム
JP2009086903A (ja) * 2007-09-28 2009-04-23 Nomura Research Institute Ltd 検索サービス装置
JP2009301433A (ja) * 2008-06-16 2009-12-24 Nippon Telegr & Teleph Corp <Ntt> カテゴリ関連度算出装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体
WO2012020667A1 (ja) * 2010-08-11 2012-02-16 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム
WO2012020668A1 (ja) * 2010-08-11 2012-02-16 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム
JP2013190988A (ja) * 2012-03-13 2013-09-26 Toshiba Corp 文書分析装置および文書分析プログラム
JP2015088067A (ja) * 2013-10-31 2015-05-07 Kddi株式会社 マイニング分析装置、方法及びプログラム
CN110390094A (zh) * 2018-04-20 2019-10-29 伊姆西Ip控股有限责任公司 对文档进行分类的方法、电子设备和计算机程序产品
CN111274404A (zh) * 2020-02-12 2020-06-12 杭州量知数据科技有限公司 一种基于人机协同的小样本实体多领域分类方法
JP2021082306A (ja) * 2020-01-09 2021-05-27 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science Technology Co., Ltd. 目標内容の確定方法、装置、機器及びコンピュータ可読記憶媒体

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000043909A1 (fr) * 1999-01-21 2000-07-27 Sony Corporation Procede et dispositif de traitement de documents et support d'enregistrement
US7047486B1 (en) 1999-01-21 2006-05-16 Sony Corporation Method and device for processing documents and recording medium
US7930309B2 (en) 1999-01-21 2011-04-19 Sony Corporation Document processing method and document processing apparatus, and recording medium
JP2000298673A (ja) * 1999-04-14 2000-10-24 Oki Electric Ind Co Ltd 情報抽出装置
JP2003526140A (ja) * 1999-08-06 2003-09-02 レキシス ネクシス 法律トピック体系を使用して法律概念を分類するシステム及び方法
JP2005275505A (ja) * 2004-03-23 2005-10-06 Sony Corp 情報処理装置および方法、プログラム
JP2006113677A (ja) * 2004-10-12 2006-04-27 Patolis Corp 文献分類認識装置、その方法、文献分類装置、それらのプログラム、および、それらのプログラムを記録した記録媒体
JP2006323517A (ja) * 2005-05-17 2006-11-30 Mitsubishi Electric Corp テキスト分類装置およびプログラム
JP2009086903A (ja) * 2007-09-28 2009-04-23 Nomura Research Institute Ltd 検索サービス装置
JP2009301433A (ja) * 2008-06-16 2009-12-24 Nippon Telegr & Teleph Corp <Ntt> カテゴリ関連度算出装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体
WO2012020667A1 (ja) * 2010-08-11 2012-02-16 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム
WO2012020668A1 (ja) * 2010-08-11 2012-02-16 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム
JP2012038240A (ja) * 2010-08-11 2012-02-23 Sony Corp 情報処理装置、情報処理方法、及び、プログラム
CN103069414A (zh) * 2010-08-11 2013-04-24 索尼公司 信息处理设备、信息处理方法和程序
US9232205B2 (en) 2010-08-11 2016-01-05 Sony Corporation Information processing device, information processing method and program
US9280709B2 (en) 2010-08-11 2016-03-08 Sony Corporation Information processing device, information processing method and program
JP2013190988A (ja) * 2012-03-13 2013-09-26 Toshiba Corp 文書分析装置および文書分析プログラム
JP2015088067A (ja) * 2013-10-31 2015-05-07 Kddi株式会社 マイニング分析装置、方法及びプログラム
CN110390094A (zh) * 2018-04-20 2019-10-29 伊姆西Ip控股有限责任公司 对文档进行分类的方法、电子设备和计算机程序产品
CN110390094B (zh) * 2018-04-20 2023-05-23 伊姆西Ip控股有限责任公司 对文档进行分类的方法、电子设备和计算机程序产品
JP2021082306A (ja) * 2020-01-09 2021-05-27 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science Technology Co., Ltd. 目標内容の確定方法、装置、機器及びコンピュータ可読記憶媒体
CN111274404A (zh) * 2020-02-12 2020-06-12 杭州量知数据科技有限公司 一种基于人机协同的小样本实体多领域分类方法
CN111274404B (zh) * 2020-02-12 2023-07-14 杭州量知数据科技有限公司 一种基于人机协同的小样本实体多领域分类方法

Similar Documents

Publication Publication Date Title
US8341159B2 (en) Creating taxonomies and training data for document categorization
US8983977B2 (en) Question answering device, question answering method, and question answering program
US6826576B2 (en) Very-large-scale automatic categorizer for web content
US7971150B2 (en) Document categorisation system
CN110232112B (zh) 文章中关键词提取方法及装置
EP2477125A1 (en) Word pair acquisition device, word pair acquisition method, and program
JPH06131398A (ja) 複数の文書検索方法
JPH10254883A (ja) 文書自動分類方法
WO2002080036A1 (en) Method of finding answers to questions
JPH09101991A (ja) 情報フィルタリング装置
Ferreira et al. A comparative study of feature extraction algorithms in customer reviews
JP2011118689A (ja) 検索方法及びシステム
US20040122660A1 (en) Creating taxonomies and training data in multiple languages
JP3847273B2 (ja) 単語分類装置、単語分類方法及び単語分類プログラム
EP0822503A1 (en) Document retrieval system
KR20030039575A (ko) 문서 요약 방법 및 시스템
JP2000250919A (ja) 文書処理装置及びそのプログラム記憶媒体
JP2008204374A (ja) クラスタ生成装置およびクラスタ生成プログラム
Bollegala et al. Extracting key phrases to disambiguate personal name queries in web search
JPH06282587A (ja) 文書の自動分類方法及び装置並びに分類用の辞書作成方法及び装置
JP2002245067A (ja) 情報検索装置
Basili et al. A robust model for intelligent text classification
JP2002183194A (ja) 検索式生成装置およびその方法
JP2005326952A (ja) 概念辞書への単語登録方法、装置、およびプログラム
WO2002037328A2 (en) Integrating search, classification, scoring and ranking