JPH10254883A

JPH10254883A - 文書自動分類方法

Info

Publication number: JPH10254883A
Application number: JP9054359A
Authority: JP
Inventors: Yoichi Fujii; 洋一藤井; Katsushi Suzuki; 克志鈴木; Makoto Imamura; 誠今村; Yasuhiro Takayama; 泰博高山
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1997-03-10
Filing date: 1997-03-10
Publication date: 1998-09-25

Abstract

(57)【要約】【課題】細かい分類に対しても精度のよい分類を行う
ことができる文書自動分類方法を提供する。【解決手段】学習時には、単語分割／頻度抽出部は各
分類済み文書から出現単語の情報を収集する（Ｓ１）。
この情報に基づき関連度演算部が各単語と各分類との関
連度を求め、関連度テーブルを作成する（Ｓ２）。複数
分野語処理部は、この関連度テーブルから複数の分野に
対して関連の強い複数分野語を検出し（Ｓ３）、各複数
分野語を関連の強い各分野ごとに分割して別々の単語と
みなして、詳細化関連度テーブルなどの分類用情報を作
成する（Ｓ４）。文書を分類する際には、まず単語分割
／頻度抽出処理部３が、当該文書の出現単語の頻度等の
情報を収集する（Ｓ５）。分類先決定部１０は、この情
報に基づき当該分類対象文書の出現単語の傾向を表す文
書ベクトルを作成し（Ｓ６）、このベクトルと詳細化関
連度テーブルとに基づき当該文書の分類先を決定する
（Ｓ７）。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、文書を自動分類
する文書自動分類方法に関し、特に文書に出現する各単
語の頻度の情報に基づき文書の分類先を決定する文書自
動分類方法に関する。

【０００２】

【従来の技術】文書自動分類の方式のなかの有力なもの
の一つに、分類先の分野が既知の文書から出現単語の頻
度統計をとって各分野に固有のキーワードや各分野の単
語出現傾向などを学習し、これらを分類基準として用い
て文書を分類するという方式がある。

【０００３】このような方式の文書自動分類装置の一つ
に、例えば特開平６−３４８７５５号公報に示される装
置がある。この装置では、分類済みの文書群から各分野
に固有の単語（キーワード）を抽出し、分類対象文書の
中のこれらキーワードの頻度に基づき当該文書の分類先
を決定している。

【０００４】図３２は、この従来装置の構成図である。
以下、分野のキーワードを学習する学習処理と、分類対
象文書を分類する分類処理とに分けて、この従来装置の
構成及び機能について説明する。

【０００５】まず、学習処理では、分類済み文書データ
１０１から全ての文書が取り出され、文書データ単語分
割部１０３で単語分割がされ、この分割結果の情報が分
類済み文書単語分割テーブル１０４に格納される。分類
用辞書作成部１０６は、分類済み文書単語分割テーブル
１０４に格納された単語分割テーブルの情報に基づき、
特定の分野のみに現れる単語を当該分類のキーワードと
して抽出し、これらキーワードの（見出し文字列、品
詞、分野名）の組を分類用辞書１０７に格納する。この
ようにして分類用辞書１０７が完成すると、学習処理は
終了する。図３３は、この学習処理の結果得られた分類
用辞書１０７の内容例である。この例は、例えば単語
「自然語」は、分類名「言語処理」のキーワードであ
り、学習した分類済み文書群の「題名」に０回、「要
旨」に１回、「目的」に１回、その他合計して１７回出
現したことを示している。

【０００６】次に分類処理では、分類対象文書データ１
０２から取り出された分類対象文書に対して、学習時と
同様に文書データ単語分割部１０３で単語分割が行わ
れ、この結果得られた単語分割データが分類対象文書単
語分割テーブル１０５に格納される。文書分類部１１０
は、分類対象文書単語分割テーブル１０５に格納された
分類対象文書の単語分割データと、分類用辞書１０７の
（見出し文字列、品詞、分野名）との間で、同じ単語を
含むものの一致回数を各「分野名」毎に集計し、一致回
数の最も多い「分野名」を当該分類対象文書の分類先の
最優先候補として文書分類結果１１１に格納する。

【０００７】この文書分類結果１１１は、分類結果確認
部１１２に表示される。ユーザは、この分類結果が正し
いか否かを判断し、もしこの分類結果が間違ったものだ
と判断した場合には、誤分類の原因となった単語を判定
して入力する。すると、分類用辞書学習部１１３が、こ
の誤分類原因単語のデータ（見出し文字列、品詞、分野
名）を分類用辞書１０７から削除する。この装置では、
このような構成により、学習に用いた分類済み文書群の
偏りによるキーワード選択の不備を補正できるようにし
ている。

【０００８】また、別の従来装置として、特開平７−１
１４５７２号公報に示される装置がある。この装置で
は、文書中の単語の共起関係に基づき単語の特徴ベクト
ルを生成し、その単語特徴ベクトルから文書の特徴ベク
トルを作成し、文書の特徴ベクトル同士の間の類似度を
利用して文書を分類する。

【０００９】図３４は、この従来装置の構成図である。
以下、学習時の処理と分類時の処理とに分けて、この従
来装置の構成及び機能について説明する。

【００１０】まず学習処理では、まず文書解析部１２２
が、文書記憶部１２１内の分類先が既に定まっている学
習用文書を取り出し、この文書を解析して出現単語を抽
出する。文書解析部１２２で全ての学習用文書から単語
の抽出が完了すると、単語ベクトル生成部１２３は、各
単語について、その単語と同一文書中に現れる単語
（「共起単語」と呼ぶ）を集計し、共起単語を基底とし
その頻度を成分値とする単語ベクトルを生成する。この
単語ベクトルは、単語についての共起単語の傾向を表す
ベクトルである。得られた単語ベクトルは、単語ベクト
ル記憶部１２４に記憶される。なお、ここで、文書解析
部１２２、単語ベクトル生成部１２３にて処理対象とな
る単語は、単語ベクトル生成用辞書１２９に登録されて
いる単語に限定される。

【００１１】図３５は、このようにして得られた単語ベ
クトルの例を示すものである。単語ベクトルの各成分の
上に記されている単語が、それら各成分の基底である。
図３５では、例えば単語「アメリカ」という単語に対し
ては、単語「政府」、「先進」、「主要」、「国」、
「ココム」が同一文書中に現れた（共起した）ことがあ
り、共起回数は各１回ずつであったことを示している。

【００１２】対象となる全単語に対する特徴ベクトルの
単語ベクトル記憶部１２４への記憶が完了すると、文書
ベクトル生成部１２５は、文書解析部１２２で一つの文
書から抽出された各単語について、対応する単語ベクト
ルを当該単語の出現頻度で重み付けして加算することに
より、当該文書の特徴を表す文書ベクトルを生成する。
例えば、単語「アメリカ」、「兵器」がそれぞれ１回ず
つ現れた文書の文書ベクトルは、図３６に示すような形
となる。求められた文書ベクトルは、文書ベクトル記憶
部１２６に記憶される。

【００１３】次に、文書ベクトル記憶部１２６に記憶さ
れた各学習用文書の文書ベクトルに基づき、各分野の特
徴を示す代表ベクトルを生成する。ある分野の代表ベク
トルは、同一分類に含まれる各学習用文書の文書ベクト
ルを加算することにより求められる。求められた代表ベ
クトルは、後述の分類処理において類似度を計算すると
きにベクトルの大きさが影響しないよう長さ１のベクト
ルに正規化される。以上で学習処理が終了する。

【００１４】次に分類処理について説明する。まず、文
書解析部１２２は、指示された分類対象文書を文書記憶
部１２１から取り出し、文書解析を行って出現単語を抽
出する。次に、文書ベクトル生成部１２５は、各出現単
語に対応する単語ベクトルを出現頻度で重み付けして加
算し、当該分類対象文書の文書ベクトルを生成して文書
ベクトル記憶部１２６に記憶する。そして、分類部１２
７が、この分類対象文書の文書ベクトルに最も類似した
代表ベクトルを例えばベクトルの内積演算によって求
め、この最類似代表ベクトルに対応する分野に当該分類
対象文書を分類する。この分類結果は、分類結果記憶部
１２８に記憶される。

【００１５】また、さらに別の従来装置として、『意味
属性の学習結果にもとづく文書自動分類方式』（河合、
情報処理学会論文誌Ｖｏｌ．３３，Ｎｏ．９，ｐｐ．１
１１４―１１２２）に示される装置がある。

【００１６】以下、図３７を参照して、この従来装置に
ついて説明する。

【００１７】まず、学習段階では、名詞抽出処理部１３
３は、学習用文書１３１を取り出し、単語辞書１４４の
情報を用いて、当該学習用文書から名詞を抽出する。次
に、意味属性抽出処理部１３６は、学習用文書名詞抽出
結果１３４に格納された各名詞の意味属性を、シソーラ
ス１４３から抽出する。シソーラス１４３に格納されて
いる名詞と意味属性の関係の例を図３８に示す。図３８
には、例えば「醤油」という名詞が［調味料］という意
味属性を有していることが示されている。各名詞の意味
属性の抽出結果は、学習用文書意味属性抽出結果１３７
に格納される。次に、分類用辞書作成部１３９は、学習
用文書名詞抽出結果１３４における各名詞の頻度を分野
毎に集計するとともに、学習用文書意味属性抽出結果１
３７における各意味属性の頻度を分野毎に集計する。図
３９は、各意味属性の各分野毎の頻度の集計結果のテー
ブルの一例であり、例えば［人工物］という意味属性を
持つ単語が「運輸通信」の分野に属する文書に１２回出
現したことを示している。単語の集計結果についても同
様のテーブルが作成される。分類用辞書作成部１３９
は、これら各集計結果のテーブルに対し、統計学におけ
るカイ２乗検定の考え方を応用した計算式を適用するこ
とにより、各名詞と各分野と関連度合いを表したテーブ
ル、及び各意味属性と各分野との関連度合いを表したテ
ーブルを作成する。作成された各テーブルは、分類用辞
書１４０に格納される。以上で学習処理が終了する。

【００１８】次に分類時の処理について説明する。ま
ず、名詞抽出処理部１３３は、分類用文書１３２から分
類対象に指定された文書を取り出し、単語辞書１４４の
情報を用いて、当該文書から名詞を抽出し、分類用文書
名詞抽出結果１３５に格納する。次に、意味属性抽出処
理部１３６は、抽出された各名詞の意味属性をシソーラ
ス１４３から抽出し、分類用文書意味属性抽出結果１３
８に格納する。そして、文書分類部１４１は、まず分類
用文書名詞抽出結果１３５と、分類用辞書１４０の単語
と分野の関連度合いのテーブルとに基づき、単語の出現
頻度からみた当該文書の各分野への関連度合いを計算す
る。また、文書分類部１４１は、分類用文書意味属性抽
出結果１３８と、分類用辞書１４０の意味属性と分野と
の関連度合いのテーブルとに基づき、意味属性の頻度か
ら見た当該文書の各分野への関連度合いを計算する。そ
して、文書分類部１４１は、両計算結果を所定の比率で
加算することにより、各分野ごとに、当該分類対象文書
と当該分類の関連度合いを求める。そして、例えばこの
関連度合いの値の最も大きい分野が当該分類対象文書の
分類先に選ばれ、文書分類結果１４２に格納される。以
上で自動分類処理が終了する。

【００１９】

【発明が解決しようとする課題】以上に説明した従来の
各文書自動分類装置は、いずれも、分類済み文書におい
て各分野に特徴的に出現する単語を学習し、この学習結
果を分類基準として文書を分類する点では一致する。例
えば、特開平７−１１４５７２号公報に示された技術で
は、ある分野に特徴的に現れる単語は、当該分野の代表
ベクトルにおいて大きな値の成分となるので、類似度の
値に大きな影響を与え、分類先の決定に大きな影響を与
える。また、河合の論文に示された技術でも、ある分野
に特徴的に現れる単語は、その分野との関連度合いの値
が大きくなるので、分類先を大きく左右する。

【００２０】このような手法は、例えば＜政治＞、＜経
済＞などのようにある程度関連が強い単語が共通して出
現する分野同士の間では、分類を誤る可能性が高い。例
えば、「首相」という単語は、＜政治＞の分野の文書
（例えば新聞記事）によく出現する（すなわち特徴的な
単語である）が、＜経済＞の分野の文書にもある程度出
現する。ここで、＜経済＞分野の文書にたまたま「首
相」という単語が多く含まれていると、その文書は「首
相」という単語の影響で＜政治＞分野に誤分類されてし
まう可能性が高い。

【００２１】このように、従来の文書自動分類技術で
は、複数の分野に対してそれぞれある程度強い関連を有
する単語が分類対象の文書内に数多く現れると、その文
書はその単語に対する関連が最も強い分野に分類されや
すく、このため誤分類が生じる可能性が高かった。

【００２２】このような傾向は、例えば、＜政治＞、＜
科学＞、＜スポーツ＞などのように、出現する単語の傾
向の相違が大きい分野同士の間での大まかな分類では致
命的な問題にはならないかも知れない。しかしながら、
分類を細かくしようとすると、類似する分野が増えてく
るので、複数の分野が共通の単語にある程度以上の関連
を有するような場合がどうしても増えてくる。このた
め、従来の文書分類技術は、分類が細かくなると誤分類
の可能性が増し、分類精度が劣化するという問題があっ
た。

【００２３】本発明は、このような問題点を解決するた
めになされたものであり、類似する分野間での分類の精
度を向上させることにより、細かい分類に対しても精度
のよい分類を行うことができる文書自動分類方法を提供
することを特徴とする。

【００２４】

【課題を解決するための手段】この発明は、上記課題を
解決するためになされたものであり、分類済みの各文書
に出現する各単語の頻度集計結果に基づき各単語と各分
野との関連度を登録した関連度テーブルを作成し、この
関連度テーブルから、閾値より高い関連度を有する強関
連分野が複数存在する複数分野単語を求め、前記関連度
テーブルにおける複数分野語についての欄を、当該複数
分野語とこれに対応する強関連分野との組合せごとに複
数の欄に分割して詳細化関連度テーブルを作成する分類
学習ステップと、分類対象の文書に出現する単語の頻度
を集計し、この結果得られた頻度情報を前記複数分野語
の情報によって詳細化し、この詳細化された頻度情報と
前記詳細化関連度テーブルとに基づき当該文書の分類先
の分野を決定する分類実行ステップとを含むものであ
る。

【００２５】また、単語の強関連分野の判定基準となる
閾値を、関連度テーブルにおける当該単語の各分野に対
する関連度の中の最大値に基づき定めるものである。

【００２６】また、分類学習ステップでは、各複数分野
語について、当該複数分野語の各強関連分野ごとに、そ
の強関連分野に属する分類済み文書において当該複数分
野語と共起した単語の傾向を表す共起ベクトルを生成
し、分類実行ステップでは、各複数分野語ごとに、この
分類対象文書において当該複数分野語と共起した単語の
傾向を示す文書共起ベクトルを生成し、この文書共起ベ
クトルと前記各共起ベクトルとの類似性に基づき、分類
対象文書から得られた前記頻度情報を詳細化するもので
ある。

【００２７】また、各単語の概念的な階層関係を記述し
たシソーラスを利用して、各共起単語の上位概念の情報
を反映した共起ベクトル及び文書共起ベクトルを生成す
るものである。

【００２８】

【発明の実施の形態】

実施の形態１．以下、この発明の実施の形態を図面を参
照して説明する。

【００２９】図１は、この発明に係る文書自動分類方法
を実施するためのシステムの構成図である。図１におい
て、分類済み文書記憶部１は、分類済み文書の文書デー
タと、それら各分類済み文書の分類先分野が登録された
分類先リストと、を記憶している。これら分類済み文書
や分類先リストは、分類基準の学習のために用いられ
る。また、分類対象文書記憶部２は、自動分類の対象と
なる分類対象文書の文書データを記憶している。

【００３０】単語分割／頻度抽出部３は、分類済み文書
記憶部１又は分類対象文書記憶部２から供給される文書
に対し例えば形態素解析などを行うことにより、その文
書を単語に分割し、これら単語の頻度統計をとる。そし
て、単語分割／頻度抽出部３は、その文書内でのそれら
各単語の出現位置などの情報を含んだ単語分割情報、及
びその文書内での各単語の出現頻度を示す頻度情報を作
成する。分類済み文書についての単語分割情報及び頻度
情報（単語分割／頻度情報５１）は、分類済み文書単語
分割／頻度情報記憶部４に記憶される。一方、分類対象
文書についての単語分割情報及び頻度情報（単語分割／
頻度情報５８）は、分類対象文書単語分割／頻度情報記
憶部５に記憶される。

【００３１】関連度演算部６は、分類の基準を学習する
際において、分類済み文書記憶部１に記憶された各分類
済み文書の文書分類先テーブル５２の情報と、分類済み
文書単語分割／頻度情報記憶部４に記憶された頻度情報
とに基づき、各分野ごとに出現単語の頻度を集計し、こ
の頻度集計の結果に基づき各単語と各分野との関連度を
計算する。頻度集計結果及び各単語と各分野との関連度
は、それぞれ頻度集計テーブル５３及び関連度テーブル
５４として関連度情報記憶部７に記憶される。

【００３２】複数分野語処理部８は、分類学習時には、
関連度情報記憶部７の関連度テーブル５４に基づき、関
連度の高い分野（「強関連分野」と呼ぶ）が複数存在す
る単語（「複数分野語」と呼ぶ）を検出し、複数分野語
リスト５５を作成する。また、複数分野語処理部８は、
この複数分野語リスト５５の情報を用い、分類済み文書
単語分割／頻度情報記憶部４の頻度集計テーブル５３を
詳細化し、この詳細化された頻度集計テーブルに基づき
詳細化関連度テーブル５６を作成する。すなわち、ここ
では、各複数分野語を（単語，強関連分野）の組合せご
とに別々の単語と捉え直し、単なる単語と分野との関連
度だけでなく、複数分野語については（単語，強関連分
野）の組合せと各分野との関連度をも含んだ詳細化関連
度テーブル５６を作成する。また、複数分野語処理部８
は、複数分野語リスト５５と分類済み文書単語分割／頻
度情報記憶部４の単語分割情報とに基づき、各複数分野
語と例えば同一文書内や同一段落内に現れる単語（共起
単語）を求め、これら共起単語の出現傾向を表す共起ベ
クトル５７を（複数分野語，強関連分野）の各組合せご
とについて作成する。

【００３３】このようにして求められた複数分野語リス
ト５５、詳細化関連度テーブル５６及び各共起ベクトル
５７は、分類用情報記憶部９に格納される。この分類用
情報記憶部９に格納された情報が、文書の分類先を決定
するための基準となる。

【００３４】また、複数分野語処理部８は、文書分類時
には、分類対象文書に含まれる各複数分野語について、
例えば同一段落における共起単語を検出し、当該分類対
象文書における共起単語の傾向を表す文書共起ベクトル
５９を作成する。

【００３５】分類先決定部１０は、分類対象文書の出現
単語の頻度情報及び文書共起ベクトル５９と分類用情報
記憶部９に記憶された各共起ベクトル５７とに基づき、
当該文書の分類上の特徴を表す文書ベクトル６０を作成
する。そして、分類先決定部１０は、この文書ベクトル
６０と分類用情報記憶部９に記憶された詳細化関連度テ
ーブル５６とに基づき、当該文書と各分野との関連度を
計算し、この関連度の値に基づき当該文書の分類先の分
野を決定する。この結果得られた文書分類結果６１は、
文書分類結果記憶部１１に格納される。

【００３６】次に、図２を参照して、この実施の形態の
システムの処理手順の全体的な流れを説明する。図２に
示すように、このシステムの処理手順は、分類の基準と
なる情報を学習する分類学習時の処理と、与えられた分
類対象文書を分類する分類実行時の処理とに分かれる。

【００３７】分類学習時においては、まずＳ１にて、単
語分割／頻度抽出部３により、分類済み文書記憶部１の
各分類済み文書について、出現単語の情報（すなわち単
語分割／頻度情報５１）を収集する。Ｓ２では、これら
の情報を用いて、関連度演算部６により各単語と各分類
との関連度を保持する関連度テーブル５４を作成する。
Ｓ３では、複数分野語処理部８が、この関連度テーブル
５４から複数分野語を検出し、複数分野語リスト５５を
作成する。そして、Ｓ４では、この複数分野語リスト５
５に基づき、複数分野語処理部８が、分類の基準となる
情報として、詳細化関連度テーブル５６や共起ベクトル
５７など、複数分野語を考慮した分類用情報を作成す
る。

【００３８】そして、個々の未分類の文書の分類を実行
する際には、まずＳ５にて、単語分割／頻度抽出処理部
３が、分類対象文書の出現単語の情報（すなわち単語分
割／頻度情報５８）を収集するとともに、複数分野語処
理部８が、単語分割／頻度情報５８に基づき各複数分野
語について文書共起ベクトル５９を作成する。次に、Ｓ
６では、分類先決定部１０が、単語分割／頻度情報５
８、文書共起ベクトル５９、及び分類用情報記憶部９内
の各共起ベクトル５７を用いて、当該分類対象文書の分
類上の特徴を表す文書ベクトル６０を作成する。そし
て、Ｓ７では、分類先決定部１０が、文書ベクトル６０
と詳細化関連度テーブル５６とに基づき、当該分類対象
文書の分類先の分野を決定する。

【００３９】以下、図２の各ステップの処理を更に詳細
に説明する。

【００４０】まず図３は、単語分割／頻度抽出部３の処
理手順の具体例を示すフローチャートである。図２のＳ
１（分類済み文書からの出現単語情報の収集処理）で
は、単語分割／頻度抽出部３が、この図３の処理手順に
従って、各分類済み文書についての単語分割情報及び頻
度情報を収集する。以下、図３の処理手順を詳説する。

【００４１】単語分割／頻度抽出部３は、分類済み文書
記憶部１から分類済み文書を読み込むと、まずＳ１１に
おいて当該文書から１段落を切り出し、この段落の情報
を保持する。次に、Ｓ１２にて、切り出した段落から１
文を切り出し、この文の情報を保持する。次に、Ｓ１３
にて、この文に対して形態素解析を行うことにより、こ
の文から順次単語を切り出す。Ｓ１４では、分割された
単語の文書中の位置と品詞の情報を求め、これら情報を
分類済み文書単語分割／頻度情報記憶部４内の当該分類
済み文書の単語分割情報に登録する。そして、Ｓ１５で
は、分類済み文書単語分割／頻度情報記憶部４内の当該
分類済み文書の頻度情報において、Ｓ１３にて切り出さ
れた単語の頻度を１だけ増やし、頻度情報を更新する。
なお、Ｓ１４とＳ１５は、いずれを先に行ってもよい。

【００４２】Ｓ１４及びＳ１５の処理は、単語の切り出
しが文の末尾に達するまで繰り返される。文の末尾に達
すると、Ｓ１２に戻って、段落から次の文を切り出す。
また、文の切り出しが段落の末尾に達すると、Ｓ１１に
戻って、分類済み文書から次の段落を切り出す。このよ
うにして、分類済み文書の末尾に達するまでＳ１１、Ｓ
１２、Ｓ１３、Ｓ１４及びＳ１５の処理が繰り返され
る。この結果、当該分類済み文書についての単語分割情
報及び頻度情報が完成する。この図３の処理は分類済み
文書記憶部１に格納された各分類済み文書ごとに繰り返
される。

【００４３】この図３の処理を、具体例を用いて説明す
る。

【００４４】例えば、単語分割／頻度抽出部３に、分類
済み文書として図９に示す文書が与えられたとする。こ
の場合、単語分割／頻度抽出部３は、まずＳ１１にて最
初の段落７０を切り出し、分類済み文書単語分割／頻度
情報記憶部４に作成した当該文書の単語分割情報に、段
落の先頭を示す情報を登録する。

【００４５】図１２は、図９の文書から作成された単語
分割情報の一例を示す図である。この例では、情報タイ
プとしてＰ，Ｗ，Ｓの３つのコードが設けられている。
コードＰは段落の先頭を示すコードであり、あるＰとそ
の次のＰとに挟まれた部分が、一つの段落についての情
報となる。また、コードＳは文の先頭を示すコードであ
り、あるＳとその次のＳとに挟まれた部分が、一つの文
についての情報である。そして、コードＷは単語を示す
コードであり、情報タイプがＷの欄には、当該単語の文
書冒頭からの位置（バイト単位で示される）と、当該単
語を表す文字列と、当該単語の品詞が登録される。図１
２は、例えば、図９の文書の最初の段落の最初の文にお
いて、文書冒頭から３バイト目の位置に、「内閣」とい
う名詞が出現していることを示している。

【００４６】したがって、Ｓ１１で段落が切り出される
と、単語分割情報には情報タイプにコードＰが登録され
る。

【００４７】次に、単語分割／頻度抽出部３は、Ｓ１２
にて段落７０から１文を切り出し、単語分割情報に文の
先頭を表すコードＳを情報タイプとして登録する。図９
では、段落７０は１文のみしか含まないので、この段落
７０（＝１文）について、Ｓ１３以下の処理が行われ
る。すなわち、Ｓ１３では、従来公知の手法である形態
素解析を使ってこの１文を解析し、文中に含まれる単語
に分割する。Ｓ１４では、文頭から順番にまず単語「内
閣」を取り出す。そして、Ｓ１４では、切り出した単語
「内閣」について、文書冒頭からの位置と品詞を求め
る。この結果、単語分割情報には、図１２に示すよう
に、情報タイプ「Ｗ」、単語位置「３」、単語「内閣」
及び品詞「名詞」が登録される。

【００４８】そして、Ｓ１５では、単語分割／頻度抽出
部３は、分類済み文書単語分割／頻度情報記憶部４に作
成した当該文書の頻度情報に対し、Ｓ１３で分割した単
語「内閣」を反映させる。すなわち、単語「内閣」は初
出なので、頻度情報に単語「内閣」の欄を作成し、その
頻度を１と設定する。なお、初出でない単語の場合は、
頻度情報における当該単語の欄の頻度に１を加える。

【００４９】このようにして単語「内閣」についての処
理が終わると、段落７０の文から次の単語「支持率」が
取り出され、Ｓ１４及びＳ１５でこの単語の情報が単語
分割情報及び頻度情報に反映される。

【００５０】このようにして、Ｓ１３で分割した文末ま
での各単語についてＳ１４及びＳ１５の処理が終了する
と、Ｓ１２に戻って段落７０から次の文書を切り出そう
とするが、この例では段落７０は１文しか含まないの
で、Ｓ１１に戻り、分類済み文書から次の段落を切り出
し、以上の処理を繰り返す。そして、このような処理
を、当該分類済み文書の末尾まで繰り返すことにより、
図１１に示す頻度情報と、図１２に示す単語分割情報が
得られる。

【００５１】図１１に示す頻度情報では、各単語の頻度
についての情報が保持されている。例えば、図１１は、
図９の分類済み文書に、「首相」という名詞が３回出現
し、「会見」という「サ変名詞」（語尾に「する」を付
加することにより動詞として用いることができる名詞）
が１回出現したことを示している。なお、以下では、必
要に応じ、単語を「単語名：品詞」という形式で表現す
る。

【００５２】このようにして、分類済み文書記憶部１に
格納された全ての分類済み文書に対して図３に示す処理
を行うことにより、各分類済み文書の単語分割情報及び
頻度情報が得られる。これらの情報は、分類済み文書単
語分割／頻度情報記憶部４に記憶される。

【００５３】次に、図２のＳ２（関連度テーブル作成）
の処理について、図４を参照して説明する。前述したよ
うに、このＳ２の処理は、関連度演算部６によって実行
される。図４は、関連度演算部６が実行する処理の手順
を示したものである。

【００５４】まず、関連度演算部６は、Ｓ２１にて、分
類済み文書記憶部１の文書分類先テーブル５２から分類
済み文書を１つ選択し、この文書の分類先を取得すると
共に、分類済み文書単語分割／頻度情報記憶部４からこ
の文書の頻度情報（例えば図１１参照）を取り出す。例
えば、図１０は文書分類先テーブル５２のデータ内容の
一例を示している。図１０に示すように、文書分類先テ
ーブル５２には、分類済み文書記憶部１に記憶された各
分類済み文書ごとに、その文書の文書名（例えばファイ
ル名）と分類先の分野名とが登録されている。一方、分
類済み文書単語分割／頻度情報記憶部４には、各分類済
み文書の頻度情報及び単語分割情報が、その文書の文書
名に対応づけて格納されている。関連度演算部６は、こ
の文書分類先テーブル５２のエントリ（すなわち分類済
み文書）を先頭から順次選択し、選択した文書の頻度情
報を文書名で検索する。

【００５５】次に、Ｓ２２では、関連度演算部６は、Ｓ
２１で取り出した頻度情報に基づき、頻度集計テーブル
５３における当該分類済み文書の分類先の各分野につい
て、当該頻度情報に登録された各単語の頻度値をカウン
トアップする。頻度集計テーブル５３は、例えば、各分
野を横軸とし各単語を縦軸とするテーブルである。な
お、分類済み文書の分類先が複数分野にわたる場合に
は、このカウントアップ処理においては、頻度情報にお
ける各単語の頻度値をその分類先の分野の数で割った値
を頻度集計テーブル５３の該当欄に加える。

【００５６】以上のステップを具体例を用いて説明す
る。Ｓ２１で例えば図９の分類済み文書が選択され、こ
の文書の文書名が『１１／０４Ｍ／０４−−０９』であ
ったとする。この場合、関連度演算部６は、図１０の分
類先リストからこの文書に対応する分野＜政治＞（以
下、分野名は＜＞で括って表現する）を検出すると共
に、図１１に示された頻度情報を分類済み文書単語分割
／頻度情報記憶部４から取り出す。次に、Ｓ２２では、
関連度演算部６は、図１１の頻度情報から、「会見：サ
変名詞」の頻度値が１、「首相：名詞」の頻度値が３、
などの各単語の頻度値を取得する。この例では、処理対
象の文書の分類先は唯一＜政治＞のみであるので、それ
ら各単語の頻度値は、そのまま頻度集計テーブル５３の
分野＜政治＞の列における各単語の頻度に加えられる。
なお、処理対象が図１０の文書『１１／１２Ｍ／０９−
−０８』である場合には、この文書の分類先分野は２つ
あるので、各単語の頻度を２で除したものが、頻度集計
テーブル５３のそれら２分野における各単語の頻度にそ
れぞれ加えられる。

【００５７】すべての分類済み文書についてＳ２１及び
Ｓ２２の処理が終了すると、頻度集計テーブル５３が完
成する。完成した頻度集計テーブル５３のデータ内容の
一例を図１３に示す。図１３は、例えば、分類済み文書
群の中の＜政治＞分野に分類される文書において「首
相：名詞」という単語が５０回出現したことを示してい
る。この頻度集計テーブル５３は、関連度情報記憶部７
に格納される。

【００５８】頻度集計テーブル５３が完成すると、次に
関連度演算部６は、Ｓ２３にて、このテーブルにおける
各単語各分野についての頻度集計結果から、以下に示す
式（１）を用いて各単語各分野の理論頻度Ｍ_ijを算出す
る。

【００５９】

【数１】ここで、Ｎは頻度集計テーブル５３における分野の数、
Ｌは同テーブルにおける単語の数を示し、ｉは各分野に
付した続き番号、ｊは各単語に付した続き番号を示す。
また、Ｆ_ijは分野ｉの文書における単語ｊの出現頻度を
示す。

【００６０】式（１）においては、理論頻度Ｍ_ijは、
（単語ｊの総頻度が全単語の総頻度に占める割合）×
（分野ｉにおける各出現単語の総数）の形で定義されて
いる。すなわち、理論頻度Ｍ_ijは、単語ｊが特定の分野
に偏らず各分野に平均的に出現すると仮定した場合にお
いて、単語ｊが分野ｉに出現する期待される頻度を意味
する。この理論頻度については、前述の河合の論文に説
明されている。

【００６１】このようにして分野ｉと単語ｊとの組合せ
ごとに理論頻度Ｍ_ijが求められると、次に関連度演算部
６は、Ｓ２４にて、この理論頻度の計算結果と、この元
となった頻度集計テーブル５３とに基づき、分野ｉと単
語ｊとの関連度Ｙ_ijを計算する。ここで、関連度Ｙ
_ijは、カイ２乗検定を応用した以下の計算式を用いて計
算する。

【００６２】

【数２】関連度Ｙ_ijの計算結果は、関連度テーブル５４の形で関
連度情報記憶部７に格納される。図１４に、図１３の頻
度集計テーブルから求められた関連度テーブル５４のデ
ータ内容を例示する。

【００６３】式（１）及び式（２）を用いて求められた
分野ｉと単語ｊとの関連度Ｙ_ijは、関連が強い（分野，
単語）の組合せでは正の大きい値となり、逆に関連が弱
い（分野，単語）の組合せについては負の大きな値とな
る。また、幾ら分野ｉに対して単語ｊの出現頻度が大き
かったとしても、その単語ｊが全分野に平均して多く出
現する場合は、分野ｉと単語ｊとの関連度Ｙ_ijは小さい
値（０に近い値）となる。すなわち、ある分野ｉに特異
的によく出現する単語ｊがあったとすると、両者の関連
度Ｙ_ijは正の大きい値となる。また、単語ｊが分野ｉの
文書にほとんど出現しなかったような場合には、両者の
関連度Ｙ_ijは負の大きい値となる。なお、この関連度の
考え方も前述の河合の論文に示されている。

【００６４】関連度テーブル５４が完成すると、次に複
数分野語処理部８は、Ｓ３にて、このテーブルに基づき
複数分野語を検出する。このＳ３の処理の詳細を図５を
参照して説明する。

【００６５】まず、複数分野語処理部８は、Ｓ３１で関
連度テーブル５４に欄のある全単語について処理が完了
したかを検査する。完了していない場合には、Ｓ３２で
関連度テーブル５４から単語を１つ選択する。そして、
複数分野語処理部８は、Ｓ３３で、関連度テーブル５４
を参照し、この単語について関連の強い分野（すなわち
強関連分野）を検出し、強関連分野が複数個あった場合
にはＳ３４に移る。Ｓ３４では、複数分野語リスト５５
にこの単語についての欄を作成し、この単語に対する複
数の強関連分野の分野名をこの欄に登録する。なお、Ｓ
３３の判定において、強関連分野が１つしかなかった場
合には、この単語については何も行わず、Ｓ３１に戻
る。そして、関連度テーブル５４に登録された全単語に
ついて以上の処理を繰り返すことにより、強関連分野が
複数ある単語と、その単語に対応する強関連分野（複
数）とが登録された複数分野語リスト５５が完成する。

【００６６】この処理手順において、ある分野が強関連
分野であるか否かは、当該分野の関連度を閾値と比較す
ることにより判定する。閾値より大きい関連度を持つ分
野は強関連度分野と判定する。この判定のための閾値
は、選択した単語についての各分野の関連度のうちの最
大値に所定の係数（１以下の正数）を乗じた値を用いる
（したがって、どの単語も最低一つは強関連分野を有す
る）。

【００６７】すなわち、複数分野語処理部８は、選択し
た単語ｊについて、関連度テーブル５４におけるｊ番目
の行の各分野の関連度を取り出し、これら関連度に次式
（３）を適用することにより、当該単語ｊの強関連度分
類の数Ｔ_jを算出する。

【００６８】

【数３】ここで、演算子『＃』は、後続の集合『｛｝』に含まれ
る要素（Ｙ_ij）の数を返す。また、Ｙ_borderは、強関連
分類の判定のための閾値を求める際の所定の係数（固定
値）である。

【００６９】この式（３）によれば、単語ｊの各分野に
対する関連度の最大値に対して所定の割合となる値を閾
値とし、関連度Ｙ_ijがその閾値より大きい分野（すなわ
ち強関連分野）の数がＴ_jとして求められる。このＴ_j
の値が２以上の場合、単語ｊは複数分野語と判定され、
複数分野語リスト５５にその単語名と各強関連分野の分
野名が登録される。

【００７０】具体例を用いて説明する。例えば、図１４
の関連度テーブルが与えられ、係数Ｙ_borderの値を０．
３にした場合、単語「首相」については、最大の関連度
を持つ分野＜政治＞の関連度（６６．７）にこの係数
０．３を乗じたものが、この単語「首相」についての強
関連分野判定の閾値となる。そして、この単語「首相」
に対する分野＜経済＞の関連度（２０．８）はその閾値
より大きいので、単語「首相」は複数分野語と判定され
る。したがって、複数分野語リスト５５には、図１５に
示すように、単語「首相：名詞」と共に、これに対応す
る強関連分野として＜政治＞及び＜経済＞が登録され
る。このような処理を関連度テーブルにおける全単語に
ついて行うことにより、図１５に示すような複数分野語
リストが完成する。図１５のリストは、例えば単語「政
治：名詞」は分野＜政治＞及び＜経済＞に関連が強く、
単語「市場：名詞」に分野＜経済＞及び＜国際＞に関連
が強いことを示している。

【００７１】このようにして作成された複数分野語リス
ト５５は、分類用情報記憶部９に記憶され、未分類文書
の分類のために利用される。

【００７２】なお、この実施の形態では、前述のように
強関連分類の判定のための閾値を固定値とはせず、各単
語の関連度の最大値に合わせて求めることとしたので、
各単語の関連度の分布に合わせ、相対的にみて関連度が
高い分野を強関連分野として抽出することができる。す
なわち、例えば学習に用いた分類済み文書群においてた
またま出現回数が少なかったような単語についても、そ
の単語の強関連分野を適切に求めることができる。

【００７３】このようにして複数分野語リスト５５が完
成すると、次に複数分野語処理部８は、Ｓ４にて、それ
ら複数分野語を考慮して、未分類の文書を分類する際の
分類基準となる分類用情報を作成する。ここでは、分類
用情報として、前述の関連度テーブル５４を複数分野語
を考慮して詳細化した詳細化関連度テーブル５６と、各
複数分野語についての共起単語の傾向を示す共起ベクト
ル５７を作成する。以下、詳細化関連度テーブル５６の
作成手順及び共起ベクトル５７の作成手順を順に説明す
る。なお、詳細化関連度テーブル５６の作成と共起ベク
トル５７の作成はいずれを先に行ってもよい。

【００７４】まず、図６を用いて詳細化関連度テーブル
５６の作成手順を説明する。詳細化関連度テーブル５６
は、例えば、図１９に示すように、複数分野語を（単
語，強関連分野）の組合せごとに別々の単語と捉えて分
割（例えば「首相」を「首相（政治）」と「首相（経
済）」に分割）し、関連度を求め直した結果である。こ
のテーブルの作成手順は、大まかに分けて、複数分野語
を（単語，強関連分野）の組合せごとに別々の単語とみ
なして頻度集計テーブル５３（例えば図１３参照）を詳
細化するプロセスと、この結果得られた詳細化頻度集計
テーブルから詳細化関連テーブルを作成するプロセス
と、を含んでいる。図６では、Ｓ４０１〜Ｓ４０５が前
者のプロセスに対応し、Ｓ４０６〜Ｓ４０７が後者のプ
ロセスに対応する。

【００７５】すなわち、まず複数分野語処理部８は、Ｓ
４０１にて、頻度集計テーブル５３に登録された全単語
について処理が完了したか検査する。完了していない場
合には、Ｓ４０２にて頻度集計テーブル５３から未処理
の単語を1 つ取り出す。そして、Ｓ４０３にて、選択し
た単語が複数分野語リスト５５に登録された単語である
か否か（すなわち複数分野語か否か）チェックする。そ
の単語が、複数分野語リスト５５に登録されていた場合
は、複数分野語処理部８は、Ｓ４０４にて、当該単語
（すなわち複数分野語）と、これに対応する複数の強関
連分類との各組合せごとに、詳細化頻度集計テーブルに
欄を作成し、頻度集計テーブル５３における当該単語の
各分野での頻度値を、それら各組合せの欄に配分する。

【００７６】すなわち、図１８に示すように、複数分野
語（例えば「首相」）を各強関連分野（「首相」につい
ては＜政治＞、＜経済＞）ごとに別々の単語（単語「首
相（政治）」及び単語「首相（経済）」）と捉え、これ
ら新たな単語について詳細化頻度集計テーブルに欄を作
成する。そして、このようにして作成した欄「単語（分
野）」における各分野に対し、頻度集計テーブルの頻度
値を配分していく。配分する頻度値は次のように決定す
る。まず、当該「単語（分野）」の（）内の「分野」に
一致する分野については、頻度集計テーブル５３におけ
るその分野の頻度値をそのまま設定する。また、当該
「単語（分野）」の（）内の「分野」には一致しない
が、当該「単語」の強関連分野の一つである分野につい
ては、その頻度を０とする。そして、当該「単語」の強
関連分野以外である分野については、頻度集計テーブル
５３におけるその分野についての頻度を当該単語の強関
連分野の数で割り、その結果を設定する。この配分の仕
方を具体的に示すと次のようになる。

【００７７】図１３の頻度集計テーブルから図１８の詳
細化頻度集計テーブルを作成する場合を例にとって説明
する。複数分野語処理部８は、図１３のテーブルから
「首相」の各分野についての頻度値を取り出し、これら
を順番に図１８のテーブルの「首相（政治）」及び「首
相（経済）」に配分していく。まず、図１３における
「首相」の＜政治＞に対する頻度５０は、＜政治＞は
「首相」の強関連分野なので、（）内の分野の一致する
「首相（政治）」にそのすべてが配分され、（）内の分
野の異なる「首相（経済）」には全く配分されない。し
たがって、図１８の詳細化頻度集計テーブルの分野＜政
治＞においては、「首相（政治）」の頻度は５０、「首
相（経済）」の頻度は０と設定される。逆に、同じく
「首相」の強関連分野である＜経済＞については、図１
３における頻度３０がすべて「首相（経済）」に対して
配分され、「首相（政治）」の頻度は０に設定される。
また、図１３における「首相」の＜労働＞に対する頻度
３は、＜労働＞は「首相」の強関連分野ではないので、
これを「首相」の強関連分野の数２で割った結果の１．
５が「首相（政治）」と「首相（経済）」とに等しく配
分される。したがって、図１８のテーブルの分野＜労働
＞においては、「首相（政治）」、「首相（経済）」が
共に頻度１．５となる。

【００７８】一方、Ｓ４０３で、選択した単語が複数分
野語リスト５５にない単語と判定された場合は、複数分
野語処理部８は、Ｓ４０５にて、頻度集計テーブル５３
における当該単語の各分野についての頻度を、そのまま
詳細化頻度集計テーブルに設定する。

【００７９】例えば、図１３の頻度集計テーブルにおけ
る単語「薄商い」は、複数分野語ではないので、頻度集
計テーブルにおける「薄商い」の各分野についての頻度
が、そのまま詳細化頻度集計テーブルにおける「薄商
い」の各分野についての頻度として設定される。

【００８０】このような処理を頻度集計テーブル５３の
全登録単語に対して行うことにより、図１８に示すよう
に、複数分野語を強関連分類語ごとに分割することによ
り詳細化された詳細化頻度集計テーブルが完成する。

【００８１】詳細化頻度集計テーブルが完成すると、次
に複数分野語処理部８は、このテーブルに対して前述の
式（１）を適用して理論頻度を算出する（Ｓ４０６）。
そして、Ｓ２の場合と同様に、この理論頻度の算出結果
を用いてカイ２乗検定の応用である前述の式（２）の演
算を行うことにより、詳細化頻度集計テーブルにおける
単語、分野の各組合せごとに、それら両者の関連度を算
出する。この結果、複数分野語を強関連分類語ごとに別
々の単語に分割した場合における、各単語と各分野との
関連度を示した詳細化関連度テーブルが完成する。

【００８２】図１９は、このようにして作成された詳細
化関連度テーブルの一例である。図１９のテーブルは、
図１８の詳細化頻度集計テーブルから作成されたもので
ある。図１９の詳細化関連度テーブルを図１４の関連度
テーブルと比較すると、例えば図１４における「首相」
の＜政治＞に対する関連度と比較した場合、図１９の
「首相（政治）」の＜政治＞に対する関連度はそれより
大きくなっており、「首相（経済）」の＜政治＞に対す
る関連度はそれより小さくなっているのが分かる。逆
に、図１４における「首相」の＜経済＞に対する関連度
と比較した場合、図１９の「首相（政治）」の＜経済＞
に対する関連度はそれより小さくなり、「首相（経
済）」の＜経済＞に対する関連度はそれより大きくなっ
ている。

【００８３】このようにして作成された詳細化関連度テ
ーブル５６は、分類用情報記憶部９に格納される。

【００８４】次に共起ベクトル５７の作成手順について
説明する。この実施の形態では、すでに説明したよう
に、複数分野語についてのみ共起ベクトルを作成する。
しかも、この共起ベクトルは、当該複数分野語の強関連
分野を考慮して、複数分野語と強関連分野との組合せご
とに作成する。以下、図７を参照して、共起ベクトルの
作成手順を説明する。

【００８５】まず、複数分野語処理部８は、Ｓ４１１に
て、全分類済み文書に対して処理が完了したかを検査す
る。完了していない場合には、Ｓ４１２にて、分類済み
文書を一つ選択し、その文書の単語分割情報と頻度情報
を分類済み文書単語分割／頻度情報記憶部４から取り出
す。次に、複数分野語処理部８は、取り出した頻度情報
にあるすべての単語について処理が終わったかをＳ４１
３で検査する。終わっていない場合は、Ｓ４１４にて、
頻度情報から単語を一つ選択する。そして、Ｓ４１５で
は、複数分野語処理部８は、選択した単語が複数分野語
かどうかを複数分野語リスト５５を参照して判定する。
ここで、複数分野語でない場合は、その単語については
何もせず、Ｓ４１３に戻る。

【００８６】Ｓ４１５において当該単語が複数分野語で
あった場合は、複数分野語処理部８は、Ｓ４１６におい
て、現在処理中の文書の分類先の分野を文書分類先テー
ブル５２にて調べ、その分野が複数分野語リスト５５に
おける当該単語の強関連分野に含まれているかどうかを
判定する。

【００８７】この判定の結果、現在処理中の文書の分類
先が、当該単語の強関連分野に含まれていなければ、当
該単語については何も処理を行わずにＳ４１３に戻る。
一方、Ｓ４１６において、現在処理中の文書の分類先
が、当該単語の強関連分野に含まれている場合には、複
数分野語処理部８は、Ｓ４１７にて、当該文書の単語分
割情報を参照して、例えば同一段落などの所定の範囲内
において当該単語と共起する単語を当該文書全体にわた
って調べる。この時、これら各共起単語の頻度も同時に
カウントする。そして、複数分野語処理部８は、検出し
た共起単語とその頻度とを、Ｓ４１８にて共起頻度情報
に反映させる。このようにして１つの単語についての処
理が終わるとＳ４１３に戻って次の単語の処理に移る。

【００８８】このような処理よれば、各複数分野語ごと
に、当該複数分野語の強関連分野に属する文書において
当該複数分野語と共起した単語及びその頻度の傾向が、
共起頻度情報として求められる。

【００８９】図１６は、図１２の単語分割情報及び図１
５の複数分野語リストに従って作成された共起頻度情報
の内容を模式的に示した図である。図１６では、「首
相」、「市場」などの各複数分野語に対して、それぞれ
対応する強関連分野が関連付けられており、さらにその
複数分野語と強関連分野との組合せに対して、それぞれ
共起単語及びその頻度を含んだデータのリストが関連付
けられている。図１６は、例えば、「総裁」という単語
が、＜政治＞分野の文書では複数分類語「首相」に対し
て５回共起し、＜経済＞分野の文書では複数分類語「首
相」に対して３回共起したことを示している。

【００９０】ここまでの処理の具体例を以下に示す。ま
ず、図９の文書がＳ４１２で選択されたとする。この場
合、複数分野語処理部８は、この文書に対応する頻度情
報及び単語分割情報として、図１１及び図１２に示した
情報を分類済み文書単語分割／頻度情報記憶部４から取
り出す。そして、頻度情報の全ての単語について処理が
終わるまでＳ４１３以下の処理を繰り返す。例えば、Ｓ
４１４で図１１から「会見：サ変名詞」が選択されたと
きには、この単語は図１５の複数分野語リストに存在し
ないため、Ｓ４１５の判定により何も行わずにＳ４１３
に戻る。順次処理が進んで、Ｓ４１３で「首相：名詞」
が選択されたときには、Ｓ４１５でこの単語は図１５の
複数分野語リストに存在することを検知し、Ｓ４１６に
進む。Ｓ４１６では、図１０の文書分類先テーブルか
ら、図９の文書の分類先が＜政治＞分野であることを検
知するとともに、複数分野語リストから当該複数分野語
「首相：名詞」の強関連分野が＜政治＞及び＜経済＞で
あることを検知し、これらのことから、当該文書の分類
先の分野が当該複数分野語の強関連分野の一つであるこ
とを検知する。したがって、Ｓ４１６の判定結果はＹＥ
Ｓとなり、以下、当該文書の分類先分野と当該複数分野
語の強関連分野との一致点である＜政治＞分野につい
て、Ｓ４１７及びＳ４１８の処理が行われる。この具体
例では、Ｓ４１７にて、現在処理中の複数分野語と同じ
段落に出現したものを共起単語として抽出する。したが
って、図９の段落７０からは、複数分野語「首相：名
詞」の共起単語として、「内閣：名詞」、「支持率：名
詞」、「理由：名詞」、「海部：名詞」、「続投論：名
詞」、「三塚：名詞」、「反発：サ変名詞」が抽出され
る。また、これら各共起単語の同段落７０における頻度
（いずれも１である）も検出される。そして、Ｓ４１８
では、図１６に示す共起頻度情報において、「首相：名
詞」の＜政治＞に関連付けられた各共起単語の頻度にそ
れぞれＳ４１７で検出された頻度を加える。このような
処理をすべての単語について繰り返すことにより、図１
６に示すような共起頻度情報が得られる。

【００９１】なお、この例では、同一段落に出現したも
のを共起単語としたが、これに限らず、広く同一文書に
出現したものすべてを共起単語としてもよいし、逆に範
囲を狭め、同一の文に出現したもののみを共起単語とし
てもよい。この実施の形態では、単語分割情報（たとえ
ば図１２）を作成しているので、このようないずれの場
合にも対応することができる。

【００９２】このようにして共起頻度情報が完成する
と、複数分野語処理部８は、この共起頻度情報から、各
複数分野語・強関連分野の組合せごとについて、共起ベ
クトルを作成する。共起ベクトルは、共起頻度情報（例
えば図１６）における共起単語の頻度値をその共起単語
に対応する各基底の成分値とするベクトルである。ただ
し、この実施の形態では、学習に用いた分類済み文書群
に現れたすべての単語を共起ベクトルの基底とし、共起
しなかった単語に対する成分値は０とすることで共起ベ
クトルの基底を統一している。例えば、図１６の共起頻
度情報から求めた「首相（政治）」、「首相（経済）」
の共起ベクトルは、それぞれ図１７の（ａ）に示すよう
なものとなる。

【００９３】そして、複数分野語処理部８は、Ｓ４１９
で、各共起ベクトルを長さ１に正規化することにより、
共起ベクトルの長さの差を吸収する。すなわち、以下で
は、共起ベクトルの「方向」のみについて注目する。こ
の方向が、複数分野語と強関連分野との組合せである
「単語（分野）」に対する共起単語の出現傾向を表す。
例えば、図１７の（ａ）に示した各共起ベクトルは、同
図の（ｂ）のように正規化される。

【００９４】このようにして作成された各複数分野語と
強関連分野との各組合せについての共起ベクトルは、分
類用情報記憶部９に格納される。

【００９５】これで、分類用情報記憶部９には、分類対
象文書の分類処理の際の基準となる複数分野語リスト５
５、詳細化関連度テーブル５６及び各共起ベクトル５７
がすべて用意された。以下、これらの情報を用いた文書
の分類処理の各ステップ（図２のＳ５〜Ｓ７）の処理手
順を更に詳細に説明する。

【００９６】まず、分類対象文書が与えられた場合、ま
ずＳ５にて、単語分割／頻度抽出処理部３が、図３に示
した処理手順により当該分類対象文書の出現単語を解析
し、当該分類対象文書の単語分割情報及び頻度情報を作
成する。この手順は、分類済み文書の場合と同様なので
説明は省略する。

【００９７】例えば、分類対象文書として図２０に示す
文書が与えられたとする。この文書は、本来＜経済＞に
分類されるべき文書である。単語分割／頻度抽出処理部
３は、この文書を解析し、図２１に示す頻度情報及び図
２２に示す単語分割情報を作成する。例えば、図２１
は、図２０の文書に、「東京証券取引所：名詞」が１
回、「首相：名詞」が３回出現していることを示してい
る。また、図２２は、例えば、「首相：名詞」が文書冒
頭から２２３バイト目に出現したことを示している。

【００９８】このようにして得られた分類対象文書の分
類対象文書の単語分割情報及び頻度情報（単語分割／頻
度情報５８）は、分類対象文書単語分割／頻度情報記憶
部５に格納される。

【００９９】分類対象文書の単語分割情報及び頻度情報
が得られると、次に複数分野語処理部８及び分類先決定
部１０により、当該分類対象文書の特徴を表す文書ベク
トル６０を作成し（Ｓ６）、この文書ベクトル６０に基
づき分類先を決定する（Ｓ７）。この一連の処理の詳細
な手順を、図８を参照して説明する。なお、図８におけ
る各ステップは、Ｓ６１〜Ｓ６６が図２のＳ６に対応
し、Ｓ７０が図２のＳ７に対応する。

【０１００】分類先決定部１０は、分類対象文書の頻度
情報（例えば図２１）を取り出し、この頻度情報にある
単語を先頭から順に一つずつ取り出して処理していく。
このため、まずＳ６１にて、その頻度情報にあるすべて
の単語に対して処理が終わったかを検査する。終わって
いない場合は、Ｓ６２で、頻度情報における次の未処理
単語を選択する。そして、Ｓ６３では、分類用情報記憶
部９に格納された共起ベクトルの情報から、選択した単
語が共起ベクトルを持つ単語かどうかを判定する。な
お、この判定は、当該単語が複数分野語リスト５５に含
まれるかどうかに基づき行ってもよい。

【０１０１】Ｓ６３の判定の結果、当該単語が共起ベク
トルを持たない単語であれば、分類先決定部１０は、頻
度情報における当該単語の頻度を、そのまま文書ベクト
ルにおける当該単語に対応する成分に設定する。

【０１０２】ここで、文書ベクトルは、学習に用いた分
類済み文書群に現れる全単語を基底とするベクトルであ
り、基本的には、分類対象文書に出現した単語の頻度を
その単語に対応する基底の成分値とするベクトルである
（したがって、出現しなかった単語についての成分は０
となる）。このため、Ｓ６６では、分類対象文書におけ
る単語の頻度値を文書ベクトルに設定する。例えば、図
２１の頻度情報における「東京証券取引所：名詞」とい
う単語は、共起ベクトルを持たないので、その単語の頻
度１が、そのまま文書ベクトルにおける「東京証券取引
所：名詞」の成分に設定される。

【０１０３】ただし、文書ベクトルでは、複数分野語に
ついては各強関連分野との組合せごとに１単語（例え
ば、分野付きの単語「首相（政治）」など）とみなし、
各組合せをそれぞれ基底としている。すなわち、この文
書ベクトルは、基本的には分類対象文書における単語の
出現傾向を示すベクトルであるが、更に複数分野語がど
の分野（強関連分野）の単語として出現したかを示す情
報を含んだものとなっている。

【０１０４】このような文書ベクトルを作成のため、分
類対象文書内に出現した複数分野語については、その頻
度を各強関連分野との組合せごとに分配する必要があ
る。このための処理がＳ６４及びＳ６５の各ステップで
ある。

【０１０５】すなわち、Ｓ６３の判定で共起ベクトルを
持つ単語（すなわち複数分野語）と判定された場合、Ｓ
６４では、まず複数分野語処理部８にて、当該単語の文
書共起ベクトルを作成する。ここで、文書共起ベクトル
は、前述の共起ベクトルと同様、文書の所定範囲内（例
えば同一段落内）で当該単語と共起した単語の頻度を各
成分値としたベクトルである。共起ベクトルと文書共起
ベクトルとの相違は、前者は学習に用いた複数の分類済
み文書から作成されたものであるのに対し、後者は１つ
の分類対象文書のみから作成されたものである点であ
る。すなわち、文書共起ベクトルは、複数分野語が、分
類対象文書においてどのような単語と共起したかという
共起単語の傾向を表すベクトルである。

【０１０６】Ｓ６３で共起ベクトルを持つと判定された
単語についての文書共起ベクトルの作成は、共起ベクト
ルの作成手順（図７参照）におけるＳ４１７及びＳ４１
８とほぼ同様の処理にて行うことができる。すなわち、
単語分割情報（例えば図２２）を参照して当該単語の共
起単語を検出し、それら共起単語の頻度をそれぞれ対応
する成分の値として設定すればよい。

【０１０７】例えば、図２０の分類対象文書に出現する
単語「首相：名詞」は、図１７などに示すように共起ベ
クトルを持つ複数分野語である。この図２０の文書から
作成した「首相：名詞」の文書共起ベクトルを図２３に
示す。図２３の文書共起ベクトルは、共起の範囲を同一
段落内に限った場合の例である。図２３と図１７を比較
すれば分かるように、文書共起ベクトルは、共起ベクト
ルと同じ基底のベクトルである。なお、この文書共起ベ
クトルの長さを正規化する必要はない。

【０１０８】選択した単語についての文書共起ベクトル
が求められると、Ｓ６４では、更に分類先決定部１０
が、分類用情報記憶部９から当該単語についての各共起
ベクトルを取り出し、文書共起ベクトルとこれら各共起
ベクトルとの内積をそれぞれ計算する。得られた各内積
値は、当該単語（この単語は複数の分野に強い関連を持
つ複数分野語である）が、当該分類対象文書においては
どの分野の単語として出現している可能性が高いかを示
している。

【０１０９】すなわち、各共起ベクトルは、複数分野語
と強関連分野との組合せについて求められており、例え
ば「首相（政治）」についての共起ベクトルは、「首
相」という複数分野語が＜政治＞分野の文書に出現する
場合にはどのような単語と共起しているかという傾向を
表している。したがって、分類対象文書における当該単
語の共起単語の傾向を表す文書共起ベクトルと、各分野
の文書における当該単語の共起単語の傾向を表す各共起
ベクトルとを比較すれば、それらの類似度合いから分類
対象文書において当該単語はどの分野の単語として現れ
ているかを知ることができる。

【０１１０】共起ベクトルはすべて長さ１に正規化され
ているので、文書共起ベクトルと共起ベクトルの内積値
の大小は、純粋に両ベクトルの方向の類似性のみを示
し、内積値が大きいほど両ベクトルの方向は類似してい
るといえる。文書共起ベクトルや共起ベクトルの方向
は、共起単語の出現の傾向を表しているので、これら両
ベクトルの内積値を、共起単語の出現傾向の類似度合い
を示していると捉えることができる。したがって、この
実施の形態では、文書共起ベクトルと各共起ベクトルの
内積値を、当該単語がどの分野の単語であるかを示す指
標値として用いる。例えば、図２３の「首相」の文書共
起ベクトルと、図１７（ｂ）の「首相（政治）」の共起
ベクトルとの内積値は、分類対象文書に出現した単語
「首相」が分野＜政治＞の単語である可能性の大きさを
示している。同様に、図１７（ｂ）の「首相（経済）」
の共起ベクトルとの内積値は、「首相」が＜経済＞の単
語である可能性の大きさを示している。

【０１１１】そこで、分類先決定部１０は、Ｓ６５に
て、求められた各内積値の大きさの比率に従って、頻度
情報（図２１参照）における当該単語の頻度値を、当該
単語と強関連分野との各組合せに対して比例配分し、そ
の配分結果を文書ベクトルに設定する。

【０１１２】例えば、前述の単語「首相」についての例
を用いて説明すると、「首相」の文書共起ベクトル（図
２３）と、「首相（政治）」「首相（経済）」について
の各共起ベクトル（図１７）との内積値は、それぞれ
０．８２及び４．０８となるので、分類対象文書におけ
る「首相」の頻度３を、それら内積値の比率に応じて比
例配分すると、「首相（政治）」に配分される頻度値
は、

【数４】となり、「首相（経済）」に配分される頻度値は、

【数５】となる。したがって、Ｓ６５では、文書ベクトルの「首
相（政治）」及び「首相（経済）」の成分値に、０．５
及び２．５をそれぞれ設定する。

【０１１３】以上説明したＳ６１〜Ｓ６６の処理を、分
類対象文書の頻度情報のすべての単語について繰り返す
ことにより、当該分類対象文書の文書ベクトルが求めら
れる。例えば、図２４は、分類対象文書の頻度情報（図
２１）の各単語の頻度を、各単語の共起ベクトル及び文
書共起ベクトルを使って分割した結果を示す例である。
この表における各単語の頻度を、所定の順番（図１９等
に示す詳細化関連度テーブルでの単語の登録順序）に合
せて並べたものが、文書ベクトルとなる。このようにし
て作成された文書ベクトルは、分類対象文書の出現単語
の傾向を表している。

【０１１４】分類対象文書の文書ベクトルが完成する
と、分類先決定部１０は、Ｓ７０にて、この文書ベクト
ルと分類用情報記憶部９の詳細化関連度テーブルとを用
いて、当該分類対象文書の分類先を決定する。このた
め、分類先決定部１０は、次の式を用いて当該分類対象
文書の各分野ｉへの関連度Ｓ_iを計算する。

【０１１５】

【数６】この式で、Ｄ_jは文書ベクトルにおける単語ｊに対応す
る成分値を示し、Ｌ´は複数分野語を各強関連分野ごと
に別々の単語（例えば「首相（政治）」、「首相（経
済）」）とみなしたとき単語の総数を示す。この演算
は、詳細化関連度テーブル（例えば図１９）を各分野ご
とに分割し、各分野の列をそれぞれ当該分野の単語の出
現傾向を示すベクトルとみなし、このベクトルと文書ベ
クトルとの内積を求める演算と捉えることができる。

【０１１６】例えば、図２０の文書の各分野に対する関
連度は、図１９の詳細化関連度テーブルと図２４の表に
対応する文書ベクトルとに基づき、図２５に示すような
内積演算で求められる。図２５に示すように、図２０の
文書は、分野＜経済＞に対する関連度が最も大きくなっ
ている。

【０１１７】分類先決定部１０は、例えば関連度Ｓ_iが
最大となる分野を、分類対象文書の分類先に決定する。
なお、分類先を一つに限らずに、例えば関連度Ｓ_iが所
定順位内の分野を分類先としてもよい。また、関連度Ｓ
_iが最大となる分野を分類先として抽出するのに加え、
その関連度の最大値に対して所定の割合以上の関連度を
持つ分野を副分類先として抽出するような応用も考えら
れる。得られた文書分類結果６１は、文書分類結果記憶
部１１に格納される。

【０１１８】図２５の例では、図２０の文書が分野＜経
済＞に正しく分類されていることが分かる。

【０１１９】これに対し、図２６は、図２０の文書の分
類先を、複数分野語を分割していない図１４の関連度テ
ーブル及び図２１の頻度情報から求めた場合の演算例を
示している。図２６の例では、分野＜政治＞に対する関
連度が最大値となっており、これでは図２０の文書が、
本来分類されるべき＜経済＞ではなく、＜政治＞に誤っ
て分類されてしまう。このように、複数分野語に注目し
ない従来の手法では、分類先を誤る可能性が高いことが
分かる。これに対し、この実施の形態の手法は、複数分
野語に注目して、複数分野語を各強関連分野ごとに別々
の単語に分割して取り扱うことにより、文書における単
語の出現傾向をより詳細に分析することができるので、
より好ましい分類結果を得ることができる。

【０１２０】以上説明したように、この実施の形態１に
よれば、分類済み文書を解析することにより複数分野語
を抽出し、この複数分野語に注目して、分類の際の基準
となる関連度テーブルや、分類対象文書の出現単語の頻
度情報を詳細化することにより、分類対象文書の各分野
への関連度をより詳細に分析することができるので、類
似する分野（共通の単語がある程度以上の頻度で出現す
る複数の分野）間での分類の精度を向上させることがで
きる。したがって、この実施の形態１は、分類を細かく
して類似する分野が多くなるような場合においても、分
類精度の劣化を抑えることができる。

【０１２１】また、この実施の形態１は、これら関連度
テーブルなどの詳細化を、複数分野語についての共起単
語の傾向を示すベクトル（共起ベクトル、文書共起ベク
トル）に基づき行うことにより、複数分野語が現れた周
囲の状況に基づき当該複数分野語がどの分野の単語とし
て現れたかを評価することができる。これにより、従来
技術において誤分類の原因となっていた複数分野語を、
各強関連分野ごとに別々の単語として切り分けて取り扱
うことが可能となるとともに、複数分野語の出現状況を
踏まえて適切にその切り分けを行うことができる。

【０１２２】実施の形態２．次に、この発明の実施の形
態２を説明する。この実施の形態２は、各単語の上位概
念語が登録されたシソーラスを利用して、共起ベクトル
や文書共起ベクトルを上位概念語を含めた形式に拡張す
ることにより、複数分野語の頻度の分割をより適切に行
おうとするものである。

【０１２３】この実施の形態２のシステムの構成を図２
７に示す。図２７において、図１と同様の構成要素には
同一の符号を付してその説明を省略する。図２７から分
かるように、この実施の形態２の各構成要素は、シソー
ラス利用型複数分野語処理部２１とシソーラス２２以外
は、図１の構成要素と同一である。シソーラス２２に
は、各単語の意味概念の階層関係の情報を格納してい
る。例えばシソーラス２２は、単語「テニス」の上位概
念として単語「球技」があり、単語「球技」の上位概念
として単語「スポーツ」があるなど、各単語の階層的な
上下関係の情報を記憶している。シソーラス利用型複数
分野語処理部２１は、図１（実施の形態１）における複
数分野語処理部８に対応するものであり、基本的な処理
動作は共通している。ただし、シソーラス利用型複数分
野語処理部２１は、共起ベクトルや文書共起ベクトルを
作成する際に、このシソーラス２２を利用して各共起単
語の上位概念語を抽出し、この上位概念語をそれらベク
トルに反映させる点が、図１の複数分野語処理部８と異
なる。

【０１２４】この実施の形態２のシステムは、シソーラ
ス利用型複数分野語処理部２１における共起ベクトル及
び文書共起ベクトルの作成手順のみが実施の形態１のシ
ステムと異なるだけで、その他の処理手順は、実施の形
態１の場合と全く同じでよい。したがって、以下では、
実施の形態１と異なる部分である、シソーラス利用型複
数分野語処理部２１における共起ベクトルの作成手順の
みを詳細に説明する。

【０１２５】図２８は、このシソーラスを利用した分類
学習時の共起ベクトルの作成手順を示すフローチャート
である。図８（実施の形態１での共起ベクトル作成処
理）におけるステップと同じ処理を示すステップについ
ては、図２５においても図８と同じ符号を付してその説
明を省略する。

【０１２６】図２８において、分類済み文書の頻度情報
から複数分野語を取り出し、この複数分野語の共起単語
を単語分割情報から抽出するまで（Ｓ４１７まで）の処
理は、実施の形態１と同様の処理である。このようにし
て、複数分野語の共起単語が取り出されると、シソーラ
ス利用型複数分野語処理部２１は、各共起単語の上位概
念語をシソーラス２２から取り出す。取り出した上位概
念語には、共起単語の頻度に対し階層差に応じた重みを
乗じた値を頻度値として割り当てる。そして、Ｓ５０２
では、共起頻度情報（例えば図１６参照）に対し、各共
起単語の頻度値を反映させる。このとき、共起単語だけ
でなく、それらの上位概念語も共起頻度情報のリストに
加え、その頻度値を反映させる。

【０１２７】例えば、Ｓ４１７にて、共起単語として
「テニス」が抽出され、シソーラス２２には図２９に示
すような単語の階層関係が記憶されていたとする。この
場合、Ｓ５０１では、「テニス」の上位概念語として
「球技」及び「スポーツ」が抽出される。ここでは、上
位概念語には、例えば、共起単語から階層が１つ上に上
がるごとに所定の重みを乗じた頻度値を割り当てる。例
えば、共起単語「テニス」の頻度が１であり、前記所定
の重みを０．５とすると、Ｓ５０１では、「テニス」
「球技」「スポーツ」の各単語に対し、図２９に示すよ
うにそれぞれ１，０．５，０．２５の頻度値が割り当て
られる。そして、これら頻度値が、Ｓ５０２で共起頻度
情報における対応単語の頻度値に加算される。そして、
この共起頻度情報から共起ベクトルが作成され、長さ１
に正規化される。

【０１２８】また、この実施の形態２では、文書共起ベ
クトルにも、上記共起ベクトルの場合と同様に、共起単
語の上位概念語を反映させる。

【０１２９】すなわち、前記実施の形態１では、図３０
の（ａ）に示すように共起ベクトルには共起単語「テニ
ス」そのものの頻度しか反映させていなかったが、この
実施の形態２では、共起ベクトルに対し共起単語の上位
概念語「球技」及び「スポーツ」の頻度も反映させる
（なお、図３０では、共起ベクトルの正規化は行ってい
ない）。

【０１３０】分類済み文書の数は有限なので、分類学習
時において、ある複数分野語の共起単語として現れる単
語もある程度限られてくる。したがって、これから分類
しようとする分類対象文書に、そのような限られた単語
そのものが当該複数分野語の共起単語として現れるとは
限らない。例えば、分類対象文書に、当該複数分野語の
共起単語として、分類学習時の共起単語そのものは現れ
なかったが、それに類似した単語は現れたというような
場合も考えられる（実際に、類似した単語が現れる確率
は高いと考えられる）。このような場合、分類学習時に
実際に共起した単語のみしか共起ベクトルに考慮しない
とすれば、分類対象文書における複数分野語の頻度をあ
る強関連分野に配分する際に、たまたまその分類学習時
における当該強関連分野の共起単語そのものが現れなか
っただけのために、その強関連分野に対する配分比率が
下がってしまうというようなこともあり得る（類似の単
語は出現しているのだから、実際にはその複数分野語は
その強関連分野に対してもっと関連が深いはずであ
る）。このような誤りが生じるのは、分類対象文書にせ
っかく現れた類似単語の情報が捨てられてしまうためと
いえる。

【０１３１】これに対し、この実施の形態２では、共起
単語そのものだけでなく、その類似単語の一種である上
位概念語をも共起ベクトル、文書共起ベクトルに反映さ
せるので、分類対象文書内にある複数分野語に対する分
類学習時の共起単語そのものが現れない場合でも、その
上位概念語が共起単語として現れていれば、当該複数分
野語が関連の深い分野を大きく誤るようなことはない
（すなわち、複数分野語の頻度の配分比率をある程度修
正することができる）このようにして求められる共起ベ
クトルや文書共起ベクトルは、分類対象文書に現れた複
数分野語の頻度値を、当該複数分野語の強関連分野に配
分する際（図８のＳ６４、Ｓ６５）に用いられる。そし
て、この結果求められた文書ベクトルを用いて分類対象
文書の分類先が決定される。この実施の形態２では、共
起ベクトル及び文書共起ベクトルは、実施の形態１と比
べて詳細化されているが、このほかの詳細化関連度テー
ブルや文書ベクトルは実施の形態１のものと同じでよ
い。

【０１３２】このように、実施の形態２によれば、共起
ベクトルのスパースネス（基底の疎らさ）を吸収するこ
とが可能となり、実施の形態１で共起ベクトルでうまく
処理できなかった分類対象文書に対しても、より好まし
い分類結果を得ることができる。

【０１３３】以上、この発明の好適な実施の形態を説明
した。以上に説明した各実施の形態は、あくまで一例に
過ぎず、こほかにも様々なバリエーションが考えられ
る。

【０１３４】例えば、上記各実施の形態においては、文
書から単語を切り出すために形態素解析を用いたが、こ
の形態素解析の代わりに、平仮名、カタカナ、漢字、数
字などの文字タイプの情報を利用して疑似的に単語分割
を行うことも可能である。また、このほかにも言語処理
分野で知られている様々な単語分割手法を適用すること
ができる。

【０１３５】また、上記各実施の形態では単語と分野と
の関連度を、カイ２乗検定を応用した計算式により求め
たが、関連度の求め方はこれに限らない。例えばTF・ID
F(term frequency times inverse document frequency)
など、統計分野で知られている様々な手法を利用するこ
とができる。

【０１３６】また、上記各実施の形態では、共起ベクト
ルを作成する際に、共起単語の調査範囲を同一段落とす
るほか、文書全体に範囲を広げたり、逆にその単語を含
む文に範囲を限定したりすることが可能であると説明し
たが、このほかにも、注目する単語の前後所定文字数以
内の範囲といった限定の仕方も可能である。これは、単
語分割情報における単語位置の情報を用いて実現するこ
とができる。

【０１３７】また、分類対象文書と各分野との間の関連
度を求めるための方法は、上記実施の形態１に示したベ
クトルの内積を利用する方法に限らず、様々な距離計算
アルゴリズムを利用することが可能である。

【０１３８】また、上記実施の形態では、共起ベクトル
を長さ１に正規化したが、次のような方法により、より
共起ベクトルを特徴付けることもできる。すなわち、上
記実施の形態１の方法により求められた各共起ベクトル
において、複数の共起ベクトルが、ある共通の単語に対
して共に０でない成分値を有している場合は、その成分
値をそれら共起ベクトルの数で除した値に置き換えると
いう方法である。例えば、図３１に示すように、実施の
形態１の方法で（ａ）に示すような共起ベクトルが得ら
れたとする。（ａ）の２つの共起ベクトルは、「総裁：
名詞」に対応する成分値が共に０でない値となっている
ので、これを（ｂ）に示すようにそれぞれ２で割った値
に置き換えるのである。ある単語が複数の共起ベクトル
において０でない成分値を持つということは、その単語
はそれら複数の共起ベクトルに対応する分野同士の間で
の分類においては重要度が低いと考えることができるの
で、このような方法により共起ベクトルに特徴づけを行
うことができる。

【０１３９】

【発明の効果】以上説明したように、この発明によれ
ば、分類済み文書から複数分野語を学習し、この複数分
野語に注目して関連度テーブルや分類対象文書の単語の
頻度情報を詳細化するので、分類対象文書の各分野への
関連度をより詳細に分析することができ、類似する分野
間での分類の精度を向上させることができる。したがっ
て、この発明によれば、細かい分類を行う場合でも分類
精度の劣化を抑えることができる。

【０１４０】また、単語の強関連分野の判定基準となる
閾値を、関連度テーブルにおける当該単語の各分野に対
する関連度の中の最大値に基づき定めるので、各単語の
関連度の分布に合わせ、相対的にみて関連度が高い分野
を強関連分野として抽出することができる。

【０１４１】また、分類対象文書の出現単語の頻度情報
の詳細化を、複数分野語の共起単語の傾向を示す共起ベ
クトルを利用して行うことにより、複数分野語が現れた
周囲の状況に基づき当該複数分野語がどの分野の単語と
して現れたかを評価し、適切に詳細化を行うことができ
る。

【０１４２】また、各単語の概念的な階層関係を記述し
たシソーラスを用いて共起ベクトルや文書共起ベクトル
を拡張することにより、共起情報のスパースネスを解消
してより的確に単語が使われた状況を選択することがで
き、より的確な文書の自動分類を行うことができる。

【図面の簡単な説明】

【図１】この発明の実施の形態１のシステムの構成図
である。

【図２】この発明の実施の形態１のシステムにおける
全体的な処理手順を示すフローチャートである。

【図３】単語分割／頻度抽出処理部の処理手順を示す
フローチャートである。

【図４】関連度演算部の処理手順を示すフローチャー
トである。

【図５】複数分野語処理部による複数分野語検出処理
の手順を示すフローチャートである。

【図６】複数分野語処理部による詳細化関連度テーブ
ルの作成処理の手順を示すフローチャートである。

【図７】複数分野語処理部による共起ベクトル作成処
理の手順を示すフローチャートである。

【図８】分類対象文書の分類の手順を示すフローチャ
ートである。

【図９】分類済み文書の一例を示す図である。

【図１０】文書分類先テーブルのデータ内容の一例を
示す図である。

【図１１】分類済み文書の頻度情報の一例を示す図で
ある。

【図１２】分類済み文書の単語分割情報の一例を示す
図である。

【図１３】頻度集計テーブルの一例を示す図である。

【図１４】関連度テーブルの一例を示す図である。

【図１５】複数分野語リストの一例を示す図である。

【図１６】共起ベクトルの作成のために構築される共
起頻度情報の一例を示す図である。

【図１７】共起ベクトルの一例を示す図である。

【図１８】詳細化頻度集計テーブルの一例を示す図で
ある。

【図１９】詳細化関連度テーブルの一例を示す図であ
る。

【図２０】分類対象文書の一例を示す図である。

【図２１】分類対象文書の頻度情報の一例を示す図で
ある。

【図２２】分類対象文書の単語分割情報の一例を示す
図である。

【図２３】文書共起ベクトルの一例を示す図である。

【図２４】分類対象文書の文書ベクトルに対応する各
単語の頻度を示す表の一例を示す図である。

【図２５】図２０の分類対象文書の各分野に対する関
連度を、複数分野語を考慮した実施の形態１の手法によ
り求めた結果を示す図である。

【図２６】図２０の分類対象文書の各分野に対する関
連度を、複数分野語を考慮しない手法で求めた結果を示
す図である。

【図２７】この発明の実施の形態２のシステムの構成
図である。

【図２８】この発明の実施の形態２におけるシソーラ
ス利用型複数分野語処理部の処理手順を示すフローチャ
ートである。

【図２９】実施の形態２におけるシソーラスの利用の
仕方を説明するための図である。

【図３０】シソーラスを用いた共起ベクトルの拡張処
理を説明するための図である。

【図３１】共起ベクトルの特徴付けの仕方の一例を示
す図である。

【図３２】従来の文書自動分類装置の構成図である。

【図３３】図３２の従来装置における分類学習の結果
の一例を示す図である。

【図３４】別の従来の文書自動分類装置の構成図であ
る。

【図３５】図３４の従来装置で生成される単語ベクト
ルの一例を示す図である。

【図３６】図３４の従来装置で生成される文書ベクト
ルの一例を示す図である。

【図３７】更に別の従来の文書自動分類装置の構成図
である。

【図３８】図３７の従来装置にて用いられる意味属性
の情報の一例を示す図である。

【図３９】図３７の従来装置において分類学習時に作
成される各意味属性の頻度の集計結果を示す図である。

【符号の説明】

１分類済み文書記憶部、２分類対象文書記憶部、３
単語分割／頻度抽出部、４分類済み文書単語分割／
頻度情報記憶部、５分類対象文書単語分割／頻度情報
記憶部、６関連度演算部、７関連度情報記憶部、８
複数分野語処理部、９分類用情報記憶部、１０分
類先決定部、１１文書分類結果記憶部、２１シソー
ラス利用型複数分野語処理部、２２シソーラス、５
１，５８単語分割／頻度情報、５２文書分類先テーブ
ル、５３頻度集計テーブル、５４関連度テーブル、
５５複数分野語リスト、５６詳細化関連度テーブ
ル、５７共起ベクトル、５９文書共起ベクトル、６
０文書ベクトル、６１文書分類結果。

───────────────────────────────────────────────────── フロントページの続き (72)発明者高山泰博東京都千代田区丸の内二丁目２番３号三菱電機株式会社内

Claims

【特許請求の範囲】

【請求項１】分類済みの各文書に出現する各単語の頻
度集計結果に基づき各単語と各分野との関連度を登録し
た関連度テーブルを作成し、この関連度テーブルから、
閾値より高い関連度を有する強関連分野が複数存在する
複数分野単語を求め、前記関連度テーブルにおける複数
分野語についての欄を、当該複数分野語とこれに対応す
る強関連分野との組合せごとに複数の欄に分割して詳細
化関連度テーブルを作成する分類学習ステップと、分類対象の文書に出現する単語の頻度を集計し、この結
果得られた頻度情報を前記複数分野語の情報によって詳
細化し、この詳細化された頻度情報と前記詳細化関連度
テーブルとに基づき当該文書の分類先の分野を決定する
分類実行ステップと、を含むことを特徴とする文書自動
分類方法。
【請求項２】単語の前記強関連分野の判定基準となる
前記閾値は、前記関連度テーブルにおける当該単語の各
分野に対する関連度の中の最大値に基づき定められるこ
とを特徴とする請求項１記載の文書自動分類方法。
【請求項３】前記分類学習ステップでは、各複数分野
語について、当該複数分野語の各強関連分野ごとに、そ
の強関連分野に属する分類済み文書において当該複数分
野語と共起した単語の傾向を表す共起ベクトルを生成
し、前記分類実行ステップでは、各複数分野語ごとに、この
分類対象文書において当該複数分野語と共起した単語の
傾向を示す文書共起ベクトルを生成し、この文書共起ベ
クトルと前記各共起ベクトルとの類似性に基づき、分類
対象文書から得られた前記頻度情報を詳細化することを
特徴とする請求項１又は２記載の文書自動分類方法。
【請求項４】各単語の概念的な階層関係を記述したシ
ソーラスを利用して、前記各共起単語の上位概念の情報
を反映した共起ベクトル及び文書共起ベクトルを生成す
ることを特徴とする請求項３記載の文書自動分類方法。