JP2014135045A - 文書分類装置、文書分類方法、及びプログラム - Google Patents

文書分類装置、文書分類方法、及びプログラム Download PDF

Info

Publication number
JP2014135045A
JP2014135045A JP2013247330A JP2013247330A JP2014135045A JP 2014135045 A JP2014135045 A JP 2014135045A JP 2013247330 A JP2013247330 A JP 2013247330A JP 2013247330 A JP2013247330 A JP 2013247330A JP 2014135045 A JP2014135045 A JP 2014135045A
Authority
JP
Japan
Prior art keywords
document
field
documents
similarity
determination unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013247330A
Other languages
English (en)
Other versions
JP2014135045A5 (ja
JP5751318B2 (ja
Inventor
Yasudai Tanaka
靖大 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Marketing Japan Inc
Canon IT Solutions Inc
Canon MJ IT Group Holdings Inc
Original Assignee
Canon Marketing Japan Inc
Canon IT Solutions Inc
Canon MJ IT Group Holdings Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Marketing Japan Inc, Canon IT Solutions Inc, Canon MJ IT Group Holdings Inc filed Critical Canon Marketing Japan Inc
Priority to JP2013247330A priority Critical patent/JP5751318B2/ja
Publication of JP2014135045A publication Critical patent/JP2014135045A/ja
Publication of JP2014135045A5 publication Critical patent/JP2014135045A5/ja
Application granted granted Critical
Publication of JP5751318B2 publication Critical patent/JP5751318B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】文書を分類するにあたり、網羅的に文書を分類することで、より精緻な分類を行うことが可能な文書分類装置、文書分類方法、及びプログラムを提供する。
【解決手段】入力された未分類の文書と少なくとも1以上の階層的に分野分類された文書との類似度、及び前記分野分類された文書が属する分野の数を用いて求めた、当該階層における文書間の類似度の和に対して、未分類の文書と分野分類された文書との類似度、及び分野分類された文書が属する階層を構成する1つの階層の分野の数を用いて求めた1つの階層における分野の文書間の類似度の和を除算することで、入力文書の分野のベクトルを求める。
【選択図】図7

Description

本発明は、電子的に記憶された文書を、文書の内容に基づいて、当該文書の分野を特定すると共に、特定した分野に基づき文書をクラスタリングする技術に関する。
世の中において、作成される電子文書は増大する一方であり、電子文書の自動的な分類に対するニーズは高まっている。
近年、文書を、文書のテキストを構成する単語のベクトル(特徴ベクトル)と見做し、特徴ベクトルの近さにより文書相互の類似の度合い(類似度)を数値化することで文書分類を実現する手法が提案されている。
特許文献1には、未分類の文書から抽出した単語を基にした特徴ベクトルに対し、予め分野分類済みの文書から抽出した単語に基づく特徴ベクトルとの類似度を計算し、最も類似する分野分類済み文書が属する分野を、未分類の文書の属する分野と判定する手法が記載されている。
また、特許文献2には、文書から抽出した単語ベクトルに対し、自己組織化マップを用いて文書をクラスタリングする手法が記載されている。
特開平11−167581号公報 特開平8−263514号公報
上記特許文献1では、文書から抽出した単語ベクトルを用いて、文書の属する分野を特定することが可能であることが示されており、また、上記特許文献2では、文書から抽出した単語ベクトルを用いて、文書をクラスタリングすることが可能であることが示されている。
しかしながら、特許文献1および特許文献2では、構成する単語で文書の特徴として表現するため、学習および分類の対象となる文書が特定の分野に属していることが前提であることは自明であり、不特定の分野の内容を含む文書集合を分類することができないという問題を有する。
また、特許文献1では、分類結果として何れかの一つの分野に特定するため、文書の内容が複数の分野にまたがる場合や、階層的に上位の分野に属する場合に対応することができないという問題もある。更に、特許文献1では、分類したい対象に応じた学習データを個別に用意する必要がある。
そこで、本発明の目的は、文書を分類するにあたり、網羅的に文書を分類することで、より精緻な分類を行うことを支援するが可能な文書分類装置、文書分類方法、及びプログラムを提供する。
上記課題を解決するための第1の発明は、未分類の入力文書と少なくとも1以上の階層的に分野分類された文書との類似度、及び前記分野分類された文書が属する分野の数を用いて、当該階層における文書間の総類似度を求める第一の分野判定部と、前記類似度、及び前記分野分類された文書が属する前記階層を構成する1階層の分野の数を用いて、当該1階層における分野の文書間の総類似度を求める第二の分野判定部と、前記第一の分野判定部によって求まる階層における文書間の総類似度に対する第二の分野判定部によって求まる1階層における分野の文書間の総類似度から、前記入力文書の前記分野のベクトルを求める第三の分野判定部と、を備えたことを特徴とする。
上記課題を解決するための第2の発明は、文書分類装置における未分類の文書を分野分類する文書分類方法であって、前記文書分類装置の第一の分野判定部は、未分類の入力文書と少なくとも1以上の階層的に分野分類された文書との類似度、及び前記分野分類された文書が属する分野の数を用いて、当該階層における文書間の総類似度を求める第一の分野判定ステップ、前記文書分類装置の第二の分野判定部は、前記類似度、及び前記分野分類された文書が属する前記階層を構成する1階層の分野の数を用いて、当該1階層における分野の文書間の総類似度を求める第二の分野判定ステップ、前記文書分類装置の第三の分野判定部は、前記第一の分野判定ステップによって求まる階層における文書間の総類似度に対する第二の分野判定部によって求まる1階層における分野の文書間の総類似度から、前記入力文書の前記分野のベクトルを求める第三の分野判定ステップ、を含むことを特徴とする。
上記課題を解決するための第3の発明は、文書分類装置で読取実行可能なプログラムであって、前記文書分類装置を、未分類の入力文書と少なくとも1以上の階層的に分野分類された文書との類似度、及び前記分野分類された文書が属する分野の数を用いて、当該階層における文書間の総類似度を求める第一の分野判定部と、前記類似度、及び前記分野分類された文書が属する前記階層を構成する1階層の分野の数を用いて、当該1階層における分野の文書間の総類似度を求める第二の分野判定部と、前記第一の分野判定部によって求まる階層における文書間の総類似度に対する第二の分野判定部によって求まる1階層における分野の文書間の総類似度から、前記入力文書の前記分野のベクトルを求める第三の分野判定部と、して機能させることを特徴とする。
本発明によれば、網羅的、階層的な分野分類済み文書に基づき分類を行うので、特定の分野に限定されない、広く一般的な分野分類を実現することが可能となる。
本発明の実施形態に係る文書分類装置の機能構成の一例を示す構成図である。 本発明の実施形態に係る文書分類装置に適用可能な情報処理装置のハードウェア構成を示すブロック図である。 本発明の実施形態における文書分類装置の分野知識構築処理の一例を示すフローチャートである。 本発明の実施形態における文書分類装置で用いられる類似文検索の一例を示す図である。 本発明の実施形態における分野知識文書の一例を示す図である。 本発明の実施形態における分野情報テーブルの構成例を示す構成図である。 本発明の実施形態における文書分類装置の分野判定処理の一例を示すフローチャートである。 本発明の実施形態における未分類文書の一例を示す図である。 本発明の実施形態における文書分類装置の分野判定部により生成される処理対象文書に対する類似文検索の結果の一例を示す図である。 本発明の実施形態における文書分類装置の分野判定部により生成される処理対象文書に対する分野情報の一例を示す図である。 本発明の実施形態における文書分類装置の分野判定部による分野ベクトル算出処理の出力結果の一例を示す図である。 本発明の実施形態における文書分類装置の機能構成の一例を示す構成図である。 本発明の実施形態における処理対象となる未分類文書の一覧を示す図である。 本発明の実施形態における文書に対する分野判定部の出力結果の一例を示す図である。 本発明の実施形態における文書クラスタリング処理の一例を示すフローチャートである。 本発明の実施形態における文書相互の類似度の一覧を示す図である。 本発明の実施形態における文書に対するクラスタリング結果の一例を示す図である。 本発明の実施形態における文書クラスタリング処理の一例を示すフローチャートである。 本発明の実施形態における処理対象となる未分類文書の一覧を示す図である。 本発明の実施形態における文書クラスタリング部により分野ベクトルと単語ベクトルとから合成された文書の特徴ベクトルの一例を示す図である。 本発明の実施形態における類文書相互の類似度の一覧を示す図である。 本発明に実施形態における未分類文書が属する分野の位置等をグラフ図である。
以下、図面を参照して、本発明の実施形態を詳細に説明する。
図1は、本発明の文書分類装置の機能構成の一例を示す図である。
文書分類装置100は、分野判定部103及び分野知識構築部106を含んで構成され、分野判定部103は、予め外部から与えられた分野知識文書107に基づき、分野知識文書107の本文を抽出したり、分野を特定して、類似文検索インデックス102及び分野情報テーブル104へ記憶する。
分野判定部103は、外部から与えられた未分類文書101の内容を解析し、未分類文書101が属する分野を類似文検索インデックス102及び分野情報テーブル104用いて特定し、特定結果を分野ベクトル105として出力する。
尚、各機能の詳細な説明は、後述するフローチャートを用いて説明する。
以下、図2を用いて、図1に示した文書分類装置100に適用可能な情報処理装置のハードウェア構成について説明する。
図2は、図1に示した文書分類装置100に適用可能な情報処理装置のハードウェア構成を示すブロック図である。
図2において、201はCPUで、システムバス204に接続される各デバイスやコントローラを統括的に制御する。また、ROM202あるいは外部メモリ211には、CPU201の制御プログラムであるBIOS(Basic Input / Output System)やオペレーティングシステムプログラム(以下、OS)や、各サーバ或いは各PCの実行する機能を実現するために必要な後述する各種プログラム等が記憶されている。
203はRAMで、CPU201の主メモリ、ワークエリア等として機能する。CPU201は、処理の実行に際して必要なプログラム等をROM202あるいは外部メモリ211からRAM203にロードして、該ロードしたプログラムを実行することで各種動作を実現するものである。
また、205は入力コントローラで、キーボード(KB)209や不図示のマウス等のポインティングデバイス等からの入力を制御する。206はビデオコントローラで、CRTディスプレイ(CRT)210等の表示器への表示を制御する。なお、図2では、CRT210と記載しているが、表示器はCRTだけでなく、液晶ディスプレイ等の他の表示器であってもよい。
207はメモリコントローラで、ブートプログラム,各種のアプリケーション,フォントデータ,ユーザファイル,編集ファイル,各種データ等を記憶する外部記憶装置(ハードディスク(HD))や、フレキシブルディスク(FD)、或いはPCMCIAカードスロットにアダプタを介して接続されるコンパクトフラッシュ(登録商標)メモリ等の外部メモリ211へのアクセスを制御する。
208は通信I/Fコントローラで、ネットワーク(例えば、図1に示したLAN400)を介して外部機器と接続・通信するものであり、ネットワークでの通信制御処理を実行する。例えば、TCP/IPを用いた通信等が可能である。
なお、CPU201は、例えばRAM203内の表示情報用領域へアウトラインフォントの展開(ラスタライズ)処理を実行することにより、CRT210上での表示を可能としている。また、CPU201は、CRT210上の不図示のマウスカーソル等でのユーザ指示を可能とする。
本発明を実現するための後述する各種プログラムは、外部メモリ211に記録されており、必要に応じてRAM203にロードされることによりCPU201によって実行されるものである。さらに、上記プログラムの実行時に用いられる定義ファイル及び各種情報テーブル等も、外部メモリ211に格納されており、これらについての詳細な説明も後述する。
(分野知識構築)
次に、図3のフローチャートを参照して、本実施形態の文書分類装置における分野知識構築処理について説明する。
ステップS301において分野知識構築部106は、分野知識文書107の全ての分野知識文書に対してステップS304までの繰り返し処理を開始する。
ステップS302において分野知識構築部106は、分野知識文書の本文と文書IDを関連付けて類似文検索インデックス102に追加する。
ステップS303において分野知識構築部106は、分野知識文書の文書IDと分野情報を関連付けて分野情報テーブル104に追加する。
ステップS304において分野知識構築部106は、次の分野知識文書がある場合、ステップS301からの処理を実施する。次の分野知識文書がない場合、処理を終了する。
(具体例)
分野知識構築処理の具体例について説明する。
分野知識文書107は網羅的かつ階層的な分野に整理された文書の集合である。
例えばWikipedia(http://ja.wikipedia.org)のような文書集合を基に構築することが可能である。
図5に分野知識文書107の一例を示す。分野知識文書107は複数の分野知識文書からなり、分野知識文書107は、本文と分野が一意に特定できれば、どのような構成であっても構わない。
本実施形態において、分野知識文書107は、分野知識文書を一意に識別する文書ID列501、本文列502、分野列503から構成されるテーブルに格納されているとする。
ステップS301において分野知識構築部106は、図5の最初の分野知識文書(文書ID=101)に対して処理を開始する。
ステップS302において分野知識構築部106は、分野知識文書(文書ID=101)の本文列502と文書ID列501を関連付けて、類似文検索インデックス102に追加する。
図4に類似文検索の一例を示す。
まず、登録されている文書を単語に分解し、当該文書を一意に識別する出現文書IDと共に、分解して得られた単語をインデックスに追加する。
検索文(類似文検索では、この文書に類似する登録文書を取得する。)を単語に分解し、前記のインデックスから当該検索文の単語に該当する出現文書IDを取得する。
そして、取得した出現文書IDに関して、登録された文書と検索文との類似度を算出する。尚、類似度の算出方法としては、簡易な方法の一例として、検索文の一致単語数と被検索文書(登録された文書)の一致単語数とを加算してえられた値を、検索文の単語数と被検索文書(登録された文書)の単語数とを加算して得られた値で、除算したものを用いる。
すると、各出現文書ID毎に、類似度が求められ、最も類似度の高い出現文書IDから特定される登録された文書が、検索文に類似していると判定することが可能である。
本実施形態では、単語に基づく類似文書の判定について述べているが、連接文字(n-gram)などに基づいて判定してもよい、また文書の類似度の算出に際しては、単語や連接文字に対しtf・idfや出現頻度などに基づき重み付けを与えてもよいし、重みや品詞などに基づき対象から外してもよい。さらに類似度の算出方法についてはコサイン類似度など別の方法を用いてもよい。
ステップS303において分野知識構築部106は、分野知識文書(文書ID=101)の文書ID列501と分野列503を関連付けて分野情報テーブル104に追加する。
図6に分野情報テーブルの一例を示す。
ステップS304において分野知識構築部106は、次の分野知識文書(文書ID=102)があるので、ステップS301に処理を戻す。
以下、同様のステップを繰り返す。
(分野判定処理)
次に、図7のフローチャートを参照して、本実施形態の文書分類装置における分野判定処理について説明する。
ステップS701において分野判定部103は、外部から入力された未分類文書101の本文に類似する文書を類似文検索インデックス102を用いて検索し、類似度が高い順に規定の数まで類似文書の文書IDと類似度の組を取得する。
取得する類似文書を、類似度が規定の値より大きい文書だけに制限してもよいし、文書数および類似度両方の規定値により制限してもよい。
ステップS702において分野判定部103は、分野情報テーブル104からステップS701で取得した各々の文書IDに関連付けられた分野情報を取得する。
ステップS703において分野判定部103は、ステップS701およびステップS702において取得した類似度と分野情報の類似度の合計を式1を用いて算出する。一つの文書に複数の分野に対応する場合は、分野の数だけ文書があると見做して算出する。
一つの文書に複数の分野が対応する場合に、それぞれの分野に対して類似度を等分するように構成してもよいし、階層などにより重み付けを行って配分してもよい。
[式1]
Figure 2014135045
ステップS704において分野判定部103は、取得した全ての類似文書に対してステップS712までの繰り返し処理を開始する。
ステップS705において分野判定部103は、処理対象となっている類似文書に対応する分野情報全てに対してステップS711までの繰り返し処理を開始する。
ステップS706において分野判定部103は、処理対象となっている分野情報の階層を分解する。
ステップS707において分野判定部103は、ステップS706で分解した各階層の分野全てに対して、ステップS710までの繰り返し処理を開始する。
ステップS708において分野判定部103は、分野のスコアが既に算出済みか否かを判定する。スコアが算出済みであれば、ステップS710に処理を移す。スコアが算出されていなければ、ステップS709に処理を移す。
ステップS709において分野判定部103は、式2および式3により、処理対象となっている分野のスコアを算出する。各式は一例であり、階層の高さを加味した式など異なる式を用いてもよい。
[式2]
Figure 2014135045
[式3]
Figure 2014135045
ステップS710において分野判定部103は、次の分野がある場合、ステップS707からの処理を実施する。次の分野がない場合、ステップS711に処理を移す。
ステップS711において分野判定部103は、次の分野情報がある場合、ステップS705からの処理を実施する。次の分野情報がない場合、ステップS712に処理を移す。
ステップS712において分野判定部103は、次の類似文書がある場合、ステップS704からの処理を実施する。次の類似文書がない場合、処理を終了する。
(具体例)
分野判定処理の具体例について説明する。
図8に示す文書801が未分類に入力文書として与えられた場合について説明する。
ステップS701において分野判定部103は、未分類入力文書801に類似する文書を類似文検索インデックス102から検索し、図9に示す類似文検索結果を得る。
ステップS702において分野判定部103は、分野情報テーブル104からステップS701で取得した文書IDごとに関連付けられた分野情報を取得し、図10に示す分野情報を得る。
ステップS703において分野判定部103は、図9に示す類似度と分野情報から式1を用いて類似度の合計Sを算出する。
S=0.37×2+0.35×2+0.32×2+0.30×1+0.22×1+0.20×1+0.03×2=2.86
ステップS704において分野判定部103は、類似文書(文書ID=105)に対してステップS712までの繰り返し処理を開始する。
ステップS705において分野判定部103は、処理対象となっている類似文書(文書ID=105)に対応する分野情報1001に対してステップS711までの繰り返し処理を開始する。
ステップS706において分野判定部103は、処理対象となっている分野情報1001(「スポーツ/野球/プロ野球/野球選手」)の階層を分解して「スポーツ」、「野球」、「プロ野球」、「野球選手」の4つの分野を得る。
ステップS707において分野判定部103は、ステップS706で取得した分野「スポーツ」に対して、ステップS710までの繰り返し処理を開始する。
ステップS708において分野判定部103は、分野「スポーツ」のスコアが算出されていないので、ステップS709に処理を移す。
ステップS709において分野判定部103は、式2および式3により、処理対象となっている分野のスコアを算出する。
S(スポーツ)=0.37×2+0.35×2+0.32×2+0.30×1+0.22×1+0.20×1=2.80
score(スポーツ)=S(スポーツ)/S=2.8/2.86=0.98
ステップS710において分野判定部103は、次の分野「野球」があるので、ステップS707からの処理を実施する。
分野「野球」に対し、ステップS707からステップS709の処理を実施し、score(野球) = 0.63を得る。
同様に分野「プロ野球」「野球選手」に対し score(プロ野球)=0.63、score(野球選手)=0.31を得る。
ステップS710において分野判定部103は、次の分野がないので、ステップS711に処理を移す。
ステップS711において分野判定部103は、次の分野情報1002があるので、ステップS705からの処理を実施する。
ステップS705において分野判定部103は、分野情報1002に対してステップS711までの繰り返し処理を開始する。
ステップS706において分野判定部103は、処理対象となっている分野情報1002(「スポーツ/野球/プロ野球/セントラル・リーグ/阪神」)の階層を分解して「スポーツ」、「野球」、「プロ野球」、「セントラル・リーグ」、「阪神」を得る。
ステップS707において分野判定部103は、ステップS706で取得した分野「スポーツ」に対して、ステップS710までの繰り返し処理を開始する。
ステップS708において分野判定部103は、分野「スポーツ」のスコアが算出されているので、ステップS710に処理を移す。
以下、同様の処理を繰り返し、新たに分野「セントラル・リーグ」、「阪神」に対し score(セントラル・リーグ)=0.39、score(阪神)=0.21を得て、処理をステップS710に処理を移す。
ステップS710において分野判定部103は、次の分野がないので、ステップS711に処理を移す。
ステップS711において分野判定部103は、次の分野情報ないので、ステップS712に処理を移す。
ステップS712において分野判定部103は、次の類似文書がある場合、ステップS704に処理を移す。
以下、同様の処理を繰り返し、図11に示す結果を得る。
図11は、図8に示す文書が属する分野を表現する分野ベクトルと見做すことができる。図8の文書が主に分野「スポーツ」に関するものであり「野球」と「サッカー」両方に関する内容を含んでいると判断することが可能となる。
分野に対して関連する度合いを数値化することにより様々な応用が可能となる。一例として、任意に選択された分野(観点)に対し、文書集合を視覚的に分析する場合について説明する。
観点として2つの分野「野球」と分野「サッカー」が選択されたとする。観点は1または3以上で構成してもよい。
分野ベクトルの「野球」と「サッカー」のスコアに応じて、文書を平面上に配置する。分野「野球」と分野「サッカー」を2軸とする平面上に文書801を配置した場合を図22に示す。文書801は配置された位置により、分野「野球」との関連が強く、分野「サッカー」とも関連していることを示している。
同様に文書集合に含まれるすべての文書を同一平面上に配置すれば、文書集合全体の特性を視覚化することが可能となる。例えば、図22から、文書集合においては、分野「野球」に関する文書が多く、分野「サッカー」に関する文書は少ないことを視覚的に把握することが可能となる。
さらに選択する分野を変更すれば、様々な観点により文書集合を分析することが可能となる。
これにより、文書を一つの分野ではなく、関連する複数の分野に対し関連する度合いで数値化し、重み付きの分野のベクトル(分野ベクトル)として表現することで、文書を様々な観点で比較することが可能となる。
これにより各種クラスタリング手法を用いた場合(詳細後述)に、人間の直観に適う文書のグループ分けを実現することを目的とする。つまり文書の内容が複数の分野にまたがる場合や、階層的に上位の分野に属する場合も分類するのに好適である。
また、網羅的な分野分類済み文書に基づく分野知識を一度構築すれば、分類対象によらず利用することが可能であり、分類対象が変わっても分野知識を都度構築する必要がない。
(第2の実施形態)
図12は、第2の実施形態における文書分類装置の構成の一例を示す図である。
第2の実施形態における文書分類装置は、第1の実施形態における文書分類装置100に、複数の文書に対する分野ベクトルを保存する分類済み文書情報保存領域1201と、保存した複数の分野ベクトルに基づき文書集合をクラスタリングする文書クラスタリング部1202を追加し、クラスタリング結果1203を出力するように構成する。
分野知識構築部106の動作は第1の実施形態と同様である。
分野判定部103の動作は、出力した分野ベクトル105を分類済み文書情報保存領域1201に保存する以外は、第1の実施形態と同様である。
(クラスタリング処理)
次に、図15のフローチャートを参照して、本実施形態の文書分類装置における文書クラスタリング処理について説明する。本実施形態においては、ウォード法などの階層的クラスタリング手法のように文書相互の類似度に基づいた手法を用いる場合についての説明するが、K平均法や自己組織化マップなどの手法を用いてクラスタリングする構成にしてもよい。
ステップS1501において文書クラスタリング部1202は、分類済み文書情報保存領域1201に保存されている文書相互の類似度を分野ベクトルに基づいて算出する。
式4に分野ベクトルに基づく文書の類似度を算出する式の一例である。本実施の形態においてはコサイン類似度(各パラメータは、各文書の分野ベクトルを用いる。)を用いるが、別の類似度算出式を用いて構成してもよい。
[式4]
Figure 2014135045
ステップS1502において文書クラスタリング部1202は、算出した文書間の類似度に基づいて、ウォード法などの階層的クラスタリング手法を用いて文書をクラスタリングする。
(具体例)文書クラスタリング処理の具体例について説明する。
図13に示す4つの未分類文書が入力され、分野判定部103により分野ベクトルを算出し、分類済み文書情報保存領域1201に保存した結果、分類済み文書情報保存領域1201が図14に4つの分野ベクトルがあるとする。
ステップS1501において文書クラスタリング部1202は、図14に保存されている文書相互の分野ベクトルに基づく類似度を、式4を用いて算出した結果、図16の表を得る。
ステップS1502において文書クラスタリング部1202は、図16の表を用いて、文書の類似度に基づき、階層的クラスタリング手法により文書のクラスタリングを実施する。
クラスタリング処理の詳細は省略するが、ウォード法などの階層的クラスタリグ手法を用いると、図16の類似関係から図17のような順位付けられた階層を持つクラスタが得られる。
一般的に単語ベクトルに基づき文書間の類似度を求めると「阪神」「延長」が共通する文書1と文書4が最も類似すると判定され、同じ野球の話題である文書1と文書2は共通の単語が存在しないため最も類似しない文書と判定され、クラスタリングの結果も人間の直観に適わない。
しかし、本実施の形態によれば、共通する単語がない文書1と文書2を最も類似すると判断でき、人間の直観に適うクラスタリングの結果を得ることが可能となる。
図17に示すクラスタリングの結果において最上位の階層で分割すると、文書1〜文書4からなる文書集合は、スポーツの文書集合(文書1〜文書3)とスポーツ以外の文書集合(文書4)の2つのグループに分割することができる。
文書集合を3つのグループにしたい場合は、更に2番目の階層から分割することで、スポーツの文書集合を野球の文書集合(文書1、文書2)とサッカーの文書集合(文書3)に分けることができる。
具体例では文書集合の文書数が4であり、全ての文書の内容を見て判断することは容易であるが、対象となる文書数が数千、数万と大きい場合、全ての文書の内容を目視して判断することは困難となる。また、分類の基準となる例文を与えることにより分類を行う手法では、文書集合の内容に応じて例文を用意する必要があるが、妥当な分類基準となる例文を用意することは困難である。
本手法を用いれば、文書の内容に基づき、文書集合の特性に応じた任意の数のグループに、人手を介すことなく分割することが可能となる。また、階層的にグループ化されるので、グループの統合および分割も容易となる。グループに分割された文書に対しては、ラベルや属性を一括して付与するなど様々な応用が可能となる。
(第3の実施形態)
第3の実施形態における文書分類装置は、第2の実施形態における文書分類装置と同様の構成からなるが、文書の分野ベクトルと単語ベクトルを合成して文書の特徴ベクトルとする点が異なる。
図18のフローチャートを参照して、本実施形態の文書分類装置における文書クラスタリング処理について説明する。
ステップS1801において、文書クラスタリング部1202は、分野ベクトルに単語ベクトルを合成する。
単語ベクトルの算出手順は割愛するが、式5に単語ベクトルにおける単語に対する要素の値の算出方法の一例を示す。dは分野ベクトルと単語ベクトルの影響の度合いを調整するための重みである。単語に対するWの値はtf・idf値や頻度などから算出するように構成してもよい。
[式5]
Figure 2014135045
以後は、第2の実施形態と同様の処理を行う(ステップS1501、ステップS1502)。
本実施の形態においては、分野ベクトルと単語ベクトルを合成した特徴ベクトルに対して類似度を求めたが、分野ベクトルから算出した類似度と単語ベクトルから算出した類似度から文書の類似度を算出するように構成してもよい。式6に分野ベクトルの類似度と単語ベクトルの類似度から文書の類似度を算出する式の一例を示す。
[式6]
Figure 2014135045
(具体例)
d=1のときに、図19の文書集合に対し、算出した文書の特徴ベクトルの一例を図20に示す。
本実施形態においては助詞、助動詞や記号等を単語ベクトルの要素から除外している。単語の品詞以外にtf・idfや頻度などの値を利用して単語を限定するように構成してもよい。
図20の文書特徴ベクトルから類似度を算出した結果を図21に示す。
分野ベクトルのみを用いた場合、文書5に対し文書1および文書2ともに同じくらい類似していると判定される。しかし単語ベクトルを合成した場合、共通する単語(「鈴木一男」「延長」「巨人」)が多い文書1のほうをより類似していると判定することが可能となる。
網羅的、階層的な分野分類済み文書に基づき分類を行うので、特定の分野に限定されない、広く一般的な分野分類を実現することが可能となる。
(第4の実施形態)
第4の実施形態における文書分類装置は、第1の実施形態におけるステップS709にでは、分野判定部103が、式2および式3により、処理対象となっている分野のスコアを算出しているが、階層の高さを加味したスコアの算出方法を適用する態様を説明する。
基本的には、式3に対するカテゴリの階層の深さに対して重み付けを行うことで、当該態様を実現するが、その1例として、式3を改良した式7を用いて算出を行う。
[式7]
Figure 2014135045
ステップS709において分野判定部103は、式2および式7により、処理対象となっている分野のスコアを算出する。
rw(r)は、階層の深さに関連した重みであり、rの値が大きくなるにつれrw(r)の値が大きくなるように構成すれば、より深い階層の概念に対するスコアを大きくなるように調整することが可能となる。尚、第1の実施形態では、その1例として、rw(r)の値は、階層の深さに関係なく常に1として考えて良い。但し、各式は一例であり異なる式を用いてもよい。
また、本発明は、例えば、方法、プログラムもしくは記憶媒体等としての実施態様をとることが可能である。
この場合、記録媒体から読み出されたプログラム自体が本発明の新規な機能を実現することになり、そのプログラムを記憶した記録媒体は本発明を構成することになる。プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、DVD−ROM、磁気テープ、不揮発性のメモリカード、ROM、EEPROM、シリコンディスク等を用いることができる。
また、コンピュータが読み出したプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、コンピュータで稼働しているOS等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
また、本発明は、システムあるいは装置にプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。
さらに、本発明を達成するためのプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステム、あるいは装置が、本発明の効果を享受することが可能となる。なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。
100 文書分類装置
201 CPU
202 ROM
203 RAM
204 システムバス
205 入力コントローラ
206 ビデオコントローラ
207 メモリコントローラ
208 通信I/Fコントローラ
209 キーボード
210 ディスプレイ
211 外部メモリ

Claims (6)

  1. 未分類の入力文書と少なくとも1以上の階層的に分野分類された文書との類似度、及び前記分野分類された文書が属する分野の数を用いて、当該階層における文書間の総類似度を求める第一の分野判定部と、
    前記類似度、及び前記分野分類された文書が属する前記階層を構成する1階層の分野の数を用いて、当該1階層における分野の文書間の総類似度を求める第二の分野判定部と、
    前記第一の分野判定部によって求まる階層における文書間の総類似度に対する第二の分野判定部によって求まる1階層における分野の文書間の総類似度から、前記入力文書の前記分野のベクトルを求める第三の分野判定部と、
    を備えたことを特徴とする文書分類装置。
  2. 前記第三の分野判定部は、複数の前記入力文書に対して、前記入力文書毎の分野のベクトルから、前記入力文書間の類似度を算出することを特徴とする請求項1に記載の文書分類装置。
  3. 前記第三の分野判定部は、前記算出した類似度を用いて、前記入力文書を階層的にクラスタリングすることを特徴とする請求項2に記載の文書分類装置。
  4. 前記第三の分野判定部は、前記入力文書の分野のベクトルと前記入力文書の単語の単語ベクトルとを合成することで、前記入力文書間の類似度を算出することを特徴とする請求項2または3に記載の文書分類装置。
  5. 文書分類装置における未分類の文書を分野分類する文書分類方法であって、
    前記文書分類装置の第一の分野判定部は、未分類の入力文書と少なくとも1以上の階層的に分野分類された文書との類似度、及び前記分野分類された文書が属する分野の数を用いて、当該階層における文書間の総類似度を求める第一の分野判定ステップ、
    前記文書分類装置の第二の分野判定部は、前記類似度、及び前記分野分類された文書が属する前記階層を構成する1階層の分野の数を用いて、当該1階層における分野の文書間の総類似度を求める第二の分野判定ステップ、
    前記文書分類装置の第三の分野判定部は、前記第一の分野判定ステップによって求まる階層における文書間の総類似度に対する第二の分野判定部によって求まる1階層における分野の文書間の総類似度から、前記入力文書の前記分野のベクトルを求める第三の分野判定ステップ、
    を含むことを特徴とする文書分類方法。
  6. 文書分類装置で読取実行可能なプログラムであって、
    前記文書分類装置を、
    未分類の入力文書と少なくとも1以上の階層的に分野分類された文書との類似度、及び前記分野分類された文書が属する分野の数を用いて、当該階層における文書間の総類似度を求める第一の分野判定部と、
    前記類似度、及び前記分野分類された文書が属する前記階層を構成する1階層の分野の数を用いて、当該1階層における分野の文書間の総類似度を求める第二の分野判定部と、
    前記第一の分野判定部によって求まる階層における文書間の総類似度に対する第二の分野判定部によって求まる1階層における分野の文書間の総類似度から、前記入力文書の前記分野のベクトルを求める第三の分野判定部と、
    して機能させることを特徴とするプログラム。
JP2013247330A 2012-12-10 2013-11-29 文書分類装置、文書分類方法、及びプログラム Active JP5751318B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013247330A JP5751318B2 (ja) 2012-12-10 2013-11-29 文書分類装置、文書分類方法、及びプログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012269853 2012-12-10
JP2012269853 2012-12-10
JP2013247330A JP5751318B2 (ja) 2012-12-10 2013-11-29 文書分類装置、文書分類方法、及びプログラム

Publications (3)

Publication Number Publication Date
JP2014135045A true JP2014135045A (ja) 2014-07-24
JP2014135045A5 JP2014135045A5 (ja) 2014-10-16
JP5751318B2 JP5751318B2 (ja) 2015-07-22

Family

ID=51413228

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013247330A Active JP5751318B2 (ja) 2012-12-10 2013-11-29 文書分類装置、文書分類方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5751318B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018077843A (ja) * 2016-10-31 2018-05-17 株式会社東芝 思考・議論支援システムおよびその方法
CN110119445A (zh) * 2018-01-15 2019-08-13 北京京东尚科信息技术有限公司 生成特征向量和基于特征向量进行文本分类的方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250925A (ja) * 1999-02-26 2000-09-14 Matsushita Electric Ind Co Ltd 文書検索・分類方法および装置
JP2004126883A (ja) * 2002-10-01 2004-04-22 Canon Inc 文書検索処理装置、文書検索処理方法、プログラム、及び記憶媒体
JP2007199966A (ja) * 2006-01-25 2007-08-09 Fuji Xerox Co Ltd 文書分類装置、文書分類方法および文書分類プログラム
JP2011191834A (ja) * 2010-03-12 2011-09-29 Hitachi Ltd 文書分類方法、文書分類装置、およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250925A (ja) * 1999-02-26 2000-09-14 Matsushita Electric Ind Co Ltd 文書検索・分類方法および装置
JP2004126883A (ja) * 2002-10-01 2004-04-22 Canon Inc 文書検索処理装置、文書検索処理方法、プログラム、及び記憶媒体
JP2007199966A (ja) * 2006-01-25 2007-08-09 Fuji Xerox Co Ltd 文書分類装置、文書分類方法および文書分類プログラム
JP2011191834A (ja) * 2010-03-12 2011-09-29 Hitachi Ltd 文書分類方法、文書分類装置、およびプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018077843A (ja) * 2016-10-31 2018-05-17 株式会社東芝 思考・議論支援システムおよびその方法
CN110119445A (zh) * 2018-01-15 2019-08-13 北京京东尚科信息技术有限公司 生成特征向量和基于特征向量进行文本分类的方法和装置

Also Published As

Publication number Publication date
JP5751318B2 (ja) 2015-07-22

Similar Documents

Publication Publication Date Title
US7769771B2 (en) Searching a document using relevance feedback
CN108701161B (zh) 为搜索查询提供图像
US8244773B2 (en) Keyword output apparatus and method
US20070244881A1 (en) System, method and user interface for retrieving documents
CN106095738B (zh) 推荐表单片段
AU2013365452B2 (en) Document classification device and program
JP5472110B2 (ja) 関係性発見装置、関係性発見方法および関係性発見プログラム
JP2002230021A (ja) 情報検索装置及び情報検索方法並びに記憶媒体
JP2010009577A (ja) 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体
JPWO2014050002A1 (ja) クエリ類似度評価システム、評価方法、及びプログラム
CN114287000A (zh) 信息检索和/或可视化方法
JP5751318B2 (ja) 文書分類装置、文書分類方法、及びプログラム
JP5869948B2 (ja) パッセージ分割方法、装置、及びプログラム
JP5780633B2 (ja) 専門家検索装置、および専門家検索方法
JP2012113459A (ja) 用例翻訳システム、用例翻訳方法及び用例翻訳プログラム
JP5269399B2 (ja) 構造化文書検索装置、方法およびプログラム
JP6145562B2 (ja) 情報構造化システム及び情報構造化方法
JP2011191834A (ja) 文書分類方法、文書分類装置、およびプログラム
KR101078978B1 (ko) 문서 분류 시스템
Huang et al. Rough-set-based approach to manufacturing process document retrieval
JP2019125025A (ja) システム、文書データの管理方法、及びプログラム
Hersh Report on the TREC 2004 genomics track
JP2009146013A (ja) コンテンツ検索方法及び装置並びにプログラム
JP2007328699A (ja) 類似キャラクタデータ検索方法、サーバおよびプログラム
Li et al. RECOD@ Placing Task of MediaEval 2015.

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140902

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141022

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150330

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20150410

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150421

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150504

R150 Certificate of patent or registration of utility model

Ref document number: 5751318

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250