JP2005258910A

JP2005258910A - 階層キーワード抽出装置、方法、およびプログラム

Info

Publication number: JP2005258910A
Application number: JP2004070982A
Authority: JP
Inventors: Takashi Kumada; 毅史熊田; Satoshi Sekine; 聡関根
Original assignee: Azbil Corp
Current assignee: Azbil Corp
Priority date: 2004-03-12
Filing date: 2004-03-12
Publication date: 2005-09-22

Abstract

【課題】検索対象となる各文書の内容と合致した適切なキーワードを階層構造で抽出できるようにする。
【解決手段】演算処理部１５のベクトル生成手段１５Ａで、処理対象文書のうちの任意の文書からなる文書集合について各文書の特徴を示す文書ベクトルを生成し、クラスタリング手段１５Ｂで、文書ベクトルに基づき文書集合の各文書を複数のクラスタに分類する。次にキーワード抽出手段１５Ｃで、各クラスタから当該クラスタに属する文書の内容を代表するキーワードを抽出して当該クラスタの階層情報と関連付けて出力し、文書集合生成手段１５Ｄで、クラスタごとに新たな文書集合を生成する。そして処理管理手段１５Ｅで、上記各手段からなる一連の階層処理を繰り返し実行する。
【選択図】図１

Description

本発明は、キーワード抽出技術に関し、特に電子文字データを含む複数の文書から階層構造を持つキーワード群を抽出する技術に関する。

インターネットの普及に伴い、各種Ｗｅｂページでコンテンツとして提供される情報の量も膨大となり、所望の文書を効率よく検索する技術が必要とされている。現在、インターネットでは、検索エンジンを中心にした情報提供サイトとして、Yahooやgoogleなどのポータルサイトが広く利用されている。

この種のＷｅｂサービスでは、所望の文書を検索する方法として、キーワード検索方法を利用できる。これは、まず利用者が所望の文書に含まれていると思われるキーワードをいくつか考えて、ＰＣ端末のキーボードから文字入力し検索開始操作を行う。これにより、そのキーワードを含む文書の検索が開始され、その文書を提供するＷｅｂページのタイトルやＵＲＬが、検索結果として画面にリスト表示されるものとなっている。

この際、所望の文書で使用されている言葉が専門的な言葉であった場合、利用者がその専門的な言葉を思いつく可能性が小さいため、結果として所望の文書を見つけ出せない場合が多い。また、多くの文書から所望の文書を絞り込むためには、複数のキーワードを組み合わせて用いる必要があり、その組み合わせ方の違いにより結果として所望の文書を見つけ出せない場合もある。

したがって、予め用意したキーワードを用いて検索する方法が考えられる。
従来、上記ポータルサイトでは、予め用意したキーワードを用いて検索する方法の１つにカテゴリ検索が用いられている。これは、提供する情報を階層構造のカテゴリに基づき予め分類しておき、検索時には所望の情報に最も近いカテゴリを順に選んでいくことで、目的のページまで掘り下げていく検索方法である（例えば、非特許文献１等参照）。
これにより、キーワード検索とは違って、予め用意された階層構造に沿って任意のカテゴリを順に選ぶことにより所望の文書を探すことができ、キーワード検索のようにはっきりとした指標がない場合に有効である。

なお、出願人は、本明細書に記載した先行技術文献情報で特定される先行技術文献以外には、本発明に関連する先行技術文献を出願時までに発見するには至らなかった。
Yahoo!丸かじり，「カテゴリ検索」，http://howto.yahoo.co.jp/infodesk/director.html，ヤフー株式会社

しかしながら、このような従来技術によれば、予め設定されたカテゴリ自体が一般的な概念からなり、１つのカテゴリが包括する範囲が広いため、各カテゴリと文書の内容とが適切に合致しないことが多い。またカテゴリの細分化も数量的に制限されるため、専門的な言葉を用いたカテゴリまで用意できない。したがって、所望の文書まで効率よく辿り着けず、検索効率が悪いという問題点があった。
本発明はこのような課題を解決するためのものであり、検索対象となる各文書の内容と合致した適切なキーワードを階層構造で抽出できる階層キーワード抽出装置、方法、およびプログラムを提供することを目的としている。

このような目的を達成するために、本発明にかかる階層キーワード抽出装置は、電子文字データを含む複数の処理対象文書を記憶する記憶部と、この記憶部から処理対象文書を読み出して演算処理することにより、処理対象文書を分類する各キーワードが階層的に連結された階層キーワードを抽出する演算処理部とを備え、演算処理部に、処理対象文書のうちの任意の文書からなる文書集合について、各文書の特徴を示す文書ベクトルを生成するベクトル生成手段と、文書ベクトルに基づき文書集合の各文書を複数のクラスタに分類するクラスタリング手段と、各クラスタから当該クラスタに属する文書の内容を代表するキーワードを抽出して当該クラスタの階層情報と関連付けて出力するキーワード抽出手段と、クラスタごとに新たな文書集合を生成する文書集合生成手段と、ベクトル生成手段、クラスタリング手段、キーワード抽出手段、および文書集合生成手段からなる一連の階層処理を繰り返し実行する処理管理手段とを設けたものである。

この際、文書集合生成手段で、キーワード抽出手段で各クラスタから抽出したキーワードごとに、当該クラスタに属する文書と文書集合の各文書のうち当該キーワードを含む文書とから新たなクラスタを生成し、これら新たなクラスタごとに文書集合を生成するようにしてもよい。

あるいは、キーワード抽出手段の具体的構成として、当該クラスタに属する各文書から切り取った単語ごとに出現頻度係数を算出するとともに重みを算出し、最も大きな重みを持つ単語をキーワードとして選択し、単語の出現頻度係数は、文書集合に含まれる全文書の数を、全文書のうち単語を含む文書の数で除算し、その除算値を対数変換することにより算出し、重みは、当該クラスタに属する各文書のうち単語が含まれる文書の数を、単語の出現頻度係数で除算することにより算出するようにしてもよい。

また、本発明にかかる階層キーワード抽出方法は、電子文字データを含む複数の処理対象文書を記憶する記憶部と、この記憶部から処理対象文書を読み出して演算処理することにより、処理対象文書を分類する各キーワードが階層的に連結された階層キーワードを抽出する演算処理部とを備える階層キーワード抽出装置で用いられる階層キーワード抽出方法であって、演算処理部で、処理対象文書のうちの任意の文書からなる文書集合について、各文書の特徴を示す文書ベクトルを生成するベクトル生成ステップと、演算処理部で、文書ベクトルに基づき文書集合の各文書を複数のクラスタに分類するクラスタリングステップと、演算処理部で、各クラスタから当該クラスタに属する文書の内容を代表するキーワードを抽出して当該クラスタの階層情報と関連付けて出力するキーワード抽出ステップと、演算処理部で、クラスタごとに新たな文書集合を生成する文書集合生成ステップと、演算処理部で、ベクトル生成ステップ、クラスタリングステップ、キーワード抽出ステップ、および文書集合生成ステップからなる一連の階層処理を繰り返し実行する処理管理ステップとを備えるものである。

この際、文書集合生成ステップを、キーワード抽出ステップで各クラスタから抽出したキーワードごとに、当該クラスタに属する文書と文書集合の各文書のうち当該キーワードを含む文書とから新たなクラスタを生成し、これら新たなクラスタごとに文書集合を生成するステップから構成してもよい。

あるいは、キーワード抽出ステップの具体的ステップとして、当該クラスタに属する各文書から切り取った単語ごとに出現頻度係数を算出する出現頻度係数算出ステップと、単語ごとに重みを算出する重み算出ステップと、単語のうち最も大きな重みを持つ単語をキーワードとして選択するステップとを設け、出現頻度係数算出ステップを、文書集合に含まれる全文書の数を、全文書のうち単語を含む文書の数で除算し、その除算値を対数変換することにより出現頻度係数を算出するステップから構成し、重み算出ステップを、当該クラスタに属する各文書のうち単語が含まれる文書の数を、単語の出現頻度係数で除算することにより重みを算出するステップから構成してもよい。

また、本発明にかかるプログラムは、電子文字データを含む複数の処理対象文書を記憶する記憶部と、この記憶部から処理対象文書を読み出して演算処理することにより、処理対象文書を分類する各キーワードが階層的に連結された階層キーワードを抽出する演算処理部とを備える階層キーワード抽出装置のコンピュータに、処理対象文書のうちの任意の文書からなる文書集合について、各文書の特徴を示す文書ベクトルを生成するベクトル生成ステップと、文書ベクトルに基づき文書集合の各文書を複数のクラスタに分類するクラスタリングステップと、各クラスタから当該クラスタに属する文書の内容を代表するキーワードを抽出して当該クラスタの階層情報と関連付けて出力するキーワード抽出ステップと、クラスタごとに新たな文書集合を生成する文書集合生成ステップと、ベクトル生成ステップ、クラスタリングステップ、キーワード抽出ステップ、および文書集合生成ステップからなる一連の階層処理を繰り返し実行する処理管理ステップとを実行させるものである。

あるいは、キーワード抽出ステップの具体的ステップとして、当該クラスタに属する各文書から切り取った単語ごとに出現頻度係数を算出する出現頻度係数算出ステップと、単語ごとに重みを算出する重み算出ステップと、単語のうち最も大きな重みを持つ単語をキーワードとして選択するステップとを設け、出現頻度係数算出ステップを、文書集合に含まれる全文書の数を、全文書のうち単語を含む文書の数で除算し、その除算値を対数変換することにより出現頻度係数を算出するステップから構成し、重み算出ステップで、当該クラスタに属する各文書のうち単語が含まれる文書の数を、単語の出現頻度係数で除算することにより重みを算出するステップから構成してもよい。

本発明によれば、文書集合の各文書の文書ベクトルに基づき各文書をクラスタリングし、得られたクラスタからキーワードを抽出するとともに新たな文書集合を生成する階層処理を、各文書集合ごとに繰り返し実行するようにしたので、検索の対象となる処理対象文書から、各文書の内容と合致した適切なキーワードを階層構造で抽出できる。

これにより、一般的な概念で設定したカテゴリと比較して、各文書の内容に合致したキーワードで各文書を分類できるとともに、使用頻度が高い場合には検索対象文書で使用されている専門的な言葉がキーワードとして抽出されて、そのキーワードで各文書が分類される。
したがって、得られた階層キーワードをカテゴリとして用いてカテゴリ検索を行うことにより、所望の文書まで効率よく辿り着くことができ、検索効率がよくなる。

次に、本発明の実施の形態について図面を参照して説明する。
［第１の実施の形態］
まず、図１を参照して、本発明の一実施の形態にかかる階層キーワード抽出装置について説明する。図１は本発明の一実施の形態にかかる階層キーワード抽出装置の構成を示すブロック図である。
この階層キーワード抽出装置１は、全体としてパーソナルコンピュータなどの情報処理装置から構成されており、処理対象となる文書集合をクラスタリングし、得られた各クラスタからキーワードをそれぞれ抽出するという階層処理を、各クラスタから生成した新たな文書集合ごとに繰り返し実行することにより、各クラスタの階層構造に沿った階層キーワードを抽出するものである。

この階層キーワード抽出装置１には、操作入力部１１、画面表示部１２、入出力Ｉ／Ｆ部１３、記憶部１４、および演算処理部１５が設けられている。
操作入力部１１は、キーボードやマウスなどの操作入力装置からなり、オペレータの操作を検出して演算処理部１５へ出力する。
画面表示部１２は、ＬＣＤやＣＲＴなどの画面表示装置からなり、演算処理部１５からの指示に応じて各種情報を画面表示する。
入出力インターフェース部（以下、入出力Ｉ／Ｆ部という）１３は、記録媒体や通信回線を介して各種情報やプログラムをやり取りする回路部である。

記憶部１４は、ハードディスクやメモリなどの記憶装置からなり、演算処理部１５での処理に用いる例えば処理対象文書１４Ａなどの各種情報、および演算処理部１５に読み込まれて実行されるプログラム１４Ｂを記憶する。
処理対象文書１４Ａは、電子文字データで各種情報が記述された電子ファイルからなり、インターネット上で公開されているＷｅｂページのように画像データなど文字データ以外のデータを含んでいる場合には、その文字データ部分のみを利用すればよい。

演算処理部１５は、ＣＰＵ等のマイクロプロセッサとその周辺回路からなり、記憶部１４からプログラム１４Ｂを読み込んで実行することにより、上記ハードウェアとプログラムとを協働させて各種機能手段を実現する。
上記機能手段としては、ベクトル生成手段１５Ａ、クラスタリング手段１５Ｂ、キーワード抽出手段１５Ｃ、文書集合生成手段１５Ｄ、および処理管理手段１５Ｅが設けられている。

ベクトル生成手段１５Ａは、例えば文書など文字情報の処理単位ごとにその処理単位の特徴量であるベクトルを生成する機能手段である。
クラスタリング手段１５Ｂは、ベクトル生成手段１５Ａで得られた各ベクトルに基づき各処理単位をクラスタごとに分類する機能手段である。
キーワード抽出手段１５Ｃは、クラスタリンク手段１５Ｂで得られた各クラスタから当該クラスタを代表するキーワードをそれぞれ抽出する機能手段である。

文書集合生成手段１５Ｄは、クラスタリング手段１５Ｂで得られた各クラスタから新たな文書集合を生成する機能手段である。
処理管理手段１５Ｅは、文書集合生成手段１５Ｄで得られた新たな文書集合を処理対象として、ベクトル生成手段１５Ａ、クラスタリング手段１５Ｂ、およびキーワード抽出手段１５Ｃによる階層処理を繰り返し実行する機能手段である。

［階層キーワード抽出処理］
次に、図２を参照して、本実施の形態にかかる階層キーワード抽出装置で行われる階層キーワード抽出処理について説明する。図２は、本実施の形態にかかる階層キーワード抽出装置で行われる階層キーワード抽出処理を示すフローチャートである。
ここでは、複数の文章から構成され、情報処理上で１つのファイルとして扱われる文書を処理単位とする場合を例として説明する。

演算処理部１５は、操作入力部１１からの開始指示操作に応じて、図２の階層キーワード抽出処理を開始する。
［ベクトル生成］
まず、記憶部１４に予め格納されている各処理対象文書１４Ａを取り込んで、これを１つの文書集合として選択し（ステップ１００）、ベクトル生成手段１５Ａで、文書ごとに個々の文書の特徴量を表すデータとしてベクトルを生成する（ステップ１０１）。

このベクトルは、当該文書に現れる単語を１つの要素とし、それぞれの要素を重みで表現したデータである。
文書から単語を切り出す方法としては、例えば形態素解析や文字種類による切り出し、あるいは一定数の文字列を単語とするなどの公知の方法を用いればよい。また、単語に対する重み付けの１つ方法として、ＴＦ×ＩＤＦ法がある。

ベクトル生成手段１５Ａにおいて、ＴＦ×ＩＤＦ法を用いてベクトルを生成する場合、次のような処理となる。
文書集合をなすｍ個（ｎは２以上の整数）の文書をＤ₁，Ｄ₂，…，Ｄ_mとした場合、文書Ｄ_j（ｊは１〜ｍの整数）のベクトルＶ_jは式（１）で表される。ここで、ｄ_ijは文書Ｄ_jにおける単語Ｗ_iの重みを示す。また、ｎはすべての文書Ｄ₁，Ｄ₂，…，Ｄ_mから取得された単語の総数であり、ベクトルＶ_iにおける重み（要素）の位置は、各単語に付与された番号ｉ（１〜ｎの整数）により各ベクトルで共通に決定されている。

また、文書Ｄ_jにおける単語Ｗ_iの重みｄ_ijは式（２）で表される。ここで、ＴＦ_ijは文書Ｄ_jにおける単語Ｗ_iの出現頻度、ＤＦ_iは文書集合のすべての文書Ｄ₁，Ｄ₂，…，Ｄ_mにおける単語Ｗ_iの出現頻度である。

ベクトル生成手段１５Ａでは、このようにして得られた各ベクトルＶ_jを、例えば当該文書Ｄ_jと同様のファイル名を個々に用いたベクトルファイルとして、記憶部１４へ格納する。
なお、単語に対する重み付けの方法としては、ＴＦ×ＩＤＦ法に限定されるものではなく、他の公知の方法を用いてもよい（例えば、Kageura,K. and Umino,B., "Methods of automatic term recognition:A review", Terminology, 3(2), 1996, pp259-289 など参照)。

［クラスタ生成］
演算処理部１５は、このようにして、ベクトル生成手段１５Ａにより、各文書ごとにベクトルを生成した後、クラスタリング手段１５Ｂで、これらベクトル集合に基づき各文書を複数のクラスタに分類する（ステップ１０２）。
この際、各クラスタへの分類は、個々のクラスタに予め割り当てたそれぞれの特徴に基づき分類するのではなく、各ベクトル間の類似度に基づき類似性の高い文書を同一クラスタに分類する。

クラスタリング手段１５Ｂでは、各文書を任意の組み合わせでクラスタリングしてみて、これらクラスタごとに得られたクラスタ類似度の総和が最も大きくなる組み合わせを、クラスタリング結果として用いる。
２つのベクトルｖ，ｕ間の類似度ｓｉｍ（ｖ，ｕ）は、例えばベクトルｕ，ｖの内積や余弦を算出する方法など、公知の方法を用いればよい（例えば、森辰則, "検索結果表示向け文書要約における情報利得比に基づく語の重要度計算", 自然語処理, Volume9, Number4, 2002, pp3-32 など参照）。

クラスタ類似度は、上記ベクトル間類似度ｓｉｍ（ｖ，ｕ）を用いて算出できる。任意に決定したクラスタの総数をｈとした場合、任意のクラスタＣ_k（ｋは１〜ｈの整数）のクラスタ類似度Ｓ_kは、式（３）で表される。ここで、ベクトルｖ，ｕは、クラスタＣ_kに属する任意の文書のベクトルであり、クラスタＣ_kに属する文書の組み合わせのすべてについて得られた類似度の総和に基づきクラスタ類似度Ｓ_kが算出される。

クラスタリング手段１５Ｂでは、このようにして得られた各クラスタ類似度Ｓ_kの総和を、任意の組み合わせで各文書についてクラスタリングするごとに算出し、そのクラスタ類似度の総和が最も大きくなる組み合わせを、最適クラスタリング結果として用いる。
そして、その最適クラスタリング結果に基づいて、図３に示すような、各クラスタに対して識別情報として付与したクラスタＩＤからなるクラスタＩＤリストを生成するとともに、図４に示すような、各クラスタごとに当該クラスタに属する文書の番号を示す所属文書リストを生成する。

この際、クラスタＩＤは、階層処理の繰り返しごとに分類された各クラスタの番号が列挙された、クラスタの階層情報を含む構成となっている。
例えば、クラスタＩＤ「０＿１」は、最初の階層に位置する処理対象文書１４Ａ「０」を文書集合とする２番目の階層における「１」番目のクラスタを示している。また、クラスタＩＤ「０＿１＿１」は、処理対象文書１４Ａ「０」を文書集合とする２番目の階層における「１」番目のクラスタに属し、そのクラスタ「０＿１」を文書集合とする３番目の階層における「１」番目のクラスタを示している。
このような構成のクラスタＩＤを用いることにより、各クラスタに対応するキーワードから階層キーワードを容易に生成できる。

［キーワード抽出］
演算処理部１５は、このようにしてクラスタリング手段１５Ｂで、文書集合からクラスタを生成した後、キーワード抽出手段１５Ｃで、これらクラスタごとにキーワードを抽出する（ステップ１０３）。
この際、キーワード抽出は、ベクトル生成時と同様の方法で、当該クラスタに属する文書から単語を切り出して、これら単語ごとに重みを算出し、最も重みの大きいものを当該クラスタを代表するキーワードとして抽出する。

各単語の重みは、単語の出現頻度に基づき算出できる。例えば、文書集合Ａをクラスタリングして得られたクラスタＣに属する単語ｘの重みＷ_xは、式（４）で算出される。ここで、ＤＦ（ｘ，Ｃ）は、クラスタＣに属する文書のうち単語ｘを含む文書の数を示し、ＩＤＦ（ｘ，Ａ）は、文書集合Ａ内の全文書に含まれる単語ｘの正規化された出現頻度係数を示している。

なお、ＩＤＦ（ｘ，Ａ）は、式（５）で算出される。ここで、Ｇ_aは文書集合Ａ内の全文書の数、ｇ_aは文書集合Ａ内の文書のうち単語ｘを含む文書の数であり、これらＧ_aとｇ_aの比が対数変換されて正規化されている。

キーワード抽出手段１５Ｃでは、クラスタリング手段１５Ｂで生成されたクラスタＩＤリストを読み込んで、リストアップされている各クラスタごとに、所属文書リストを読み込む。そして、その所属文書リストでリストアップされた各文書から単語を切り出して重みを算出し、最も重みの大きいものを当該クラスタを代表するキーワードとして抽出し、図５に示すような、各クラスタのキーワードをそのクラスタの階層情報、ここではクラスタＩＤと関連付けて、キーワードリストとして出力する。
なお、重みを算出する方法については、上記の方法に限定されるものではなく、ベクトル生成時と同様の方法など、公知の方法を用いてもよい。

［文書集合生成］
演算処理部１５は、このようにしてキーワード抽出手段１５Ｃを用いて、各クラスタごとにキーワードを抽出した後、文書集合生成手段１５Ｄで、これらクラスタごとにその所属文書リストを読み込み、リストアップされている文書から新たな文書集合を生成する（ステップ１０４）。
この際、異なるクラスタから同じキーワードが抽出された場合、同じキーワードを抽出した各クラスタを１つのクラスタに合体し、新たな文書集合を生成すればよい。

そして、処理管理手段１５Ｅで、所定の終了条件が成立するまで（ステップ１０５：ＮＯ）、ベクトル生成手段１５Ａ、クラスタリング手段１５Ｂ、キーワード抽出手段１５Ｃ、および文書集合生成手段１５Ｄを用いて、未処理の文書集合から各クラスタごとにキーワードを抽出する一連の階層処理（ステップ１００〜１０４）を実行する。
一方、所定の終了条件、例えばキーワードの階層数が所定の数に達するという条件や、クラスタに属する文書数が一定数を下回るという条件が成立した場合は（ステップ１０５：ＹＥＳ）、一連の階層キーワード抽出処理を終了する。

図６は、本実施の形態にかかる階層キーワード抽出装置で行われる階層キーワード抽出処理の説明図である。
この例では、まず記憶部１４の処理対象対象文書１４Ａが文書集合Ａ₀として選択されて、階層処理２０が開始される。

階層処理２０では、文書集合Ａ₀の各文書Ｄ₀₁〜Ｄ_0mについて文書ベクトルＶ₀₁〜Ｖ_0mが生成され、これら文書ベクトルに基づき各文書Ｄ₀₁〜Ｄ_0mがクラスタリングされ、クラスタＣ₀₁〜Ｃ_0nが生成される。
そして、これらクラスタＣ₀₁〜Ｃ_0nのそれぞれからキーワードＫ₀₁〜Ｋ_0nが抽出され、キーワードリストとして出力される。また、各クラスタＣ₀₁〜Ｃ_0nごとに新たな文書集合Ａ₀₁〜Ａ_0nが生成される。

次に、新たな文書集合Ａ₀₁〜Ａ_0nごとに、それぞれ階層処理２０１〜２０ｎが繰り返し実行されて、キーワードが抽出されるとともに、新たな文書集合が生成される。
例えば、階層処理２０１では、新たな文書集合Ａ₀₁の各文書Ｄ₀₁₁〜Ｄ_01pについて文書ベクトルＶ₀₁₁〜Ｖ_01pが生成され、これに基づきクラスタＣ₀₁₁〜Ｃ_01qが生成される。そして、これらクラスタごとにキーワードＫ₀₁₁〜Ｋ_01qが抽出されるとともに、新たな文書集合Ａ₀₁₁〜Ａ_01qが生成される。

このようにして、階層ごとにキーワードが抽出されて、図７に示すような、階層情報を含むクラスタＩＤとキーワードとの対からなるキーワードリストが生成され、所望の階層キーワードが抽出される。
図８に、階層キーワードの例を示す。この階層キーワードは、図７のキーワードリストを元にして記述したものであり、各キーワードがツリー構造で連結されており、

このように、検索の対象となる処理対象文書を文書集合として選択し、これら文書の文書ベクトルに基づき各文書をクラスタリングし、得られたクラスタからキーワードを抽出するとともに新たな文書集合を生成する階層処理を、各文書集合ごとに繰り返し実行するようにしたので、検索の対象となる処理対象文書から、各文書の内容と合致した適切なキーワードを階層構造で抽出できる。

図９、図１０に、本実施の形態にかかる階層キーワード抽出装置で得られた階層キーワードを用いた検索画面表示例を示す。
まず、検索開始に応じて、キーワードリストから第１層に属するキーワードが読み出され、カテゴリ選択領域３０にそれぞれ操作ボタンとして一覧表示される。
ここで、オペレータが所望のキーワードの操作ボタンを押下した場合、図１０に示すように、そのキーワードに連結された次の階層、この場合は第２層に属するキーワードがキーワードリストから読み出され、サブカテゴリ選択領域３１にそれぞれ操作ボタンとして一覧表示される。

以下、サブカテゴリ選択領域３１において、所望のキーワードの操作ボタンを押下するごとに、当該キーワード連結された次の階層に属するキーワードがキーワードリストから読み出され、サブカテゴリ選択領域３１にそれぞれ操作ボタンとして一覧表示される。
そして、最下位層のキーワードに対応する操作ボタンが押下された場合は、そのキーワードに対応する文書集合に属する文書名（文書ファイル名）が操作ボタンとして一覧表示され、所望の文書の操作ボタンを押下することにより、所望の文書の内容が閲覧できる。
これにより、得られた階層キーワードをカテゴリとして用いてカテゴリ検索を行うことにより、所望の文書まで効率よく辿り着くことができる。

［第２の実施の形態］
次に、図１１を参照して、本発明の第２の実施の形態にかかる階層キーワード抽出装置について説明する。図１１は本発明の第２の実施の形態にかかる階層キーワード抽出装置の構成を示すブロック図であり、前述した図２と同じまたは同等部分には同一符号を付してある。

前述した第１の実施の形態では、階層処理で新たな文書集合を生成する場合、クラスタリングで得られた各クラスタに属する文書を、そのまま新たな文書集合とする例について説明した。本実施の形態では、クラスタリングで得られた各クラスタから抽出したキーワードに基づき、文書集合から関連する文書を抽出して新たな文書集合を生成する場合について説明する。

［階層キーワード抽出処理］
演算処理部１５は、操作入力部１１からの開始指示操作に応じて、図１１の階層キーワード抽出処理を開始する。
前述した図２と同様にステップ１００〜１０３を実行した後、文書集合生成手段１５Ｄにより、ステップ１０３で抽出したキーワードごとに、文書集合の各文書を分類してクラスタを再構築する（ステップ１１０）。

この際、上記の再クラスタリングについては、例えば当該キーワードを抽出した元のクラスタに属する各文書と、当該クラスタに属さない文書のうち当該キーワードを含む文書とから新たなクラスタを構成すればよい。
あるいは、文書集合の各文書のうち当該キーワードを含むすべての文書から構成しもよく、当該キーワードに関連する文書から新たなクラスタを再構築できる方法であればいずれの方法でもよい。

演算処理部１５は、このようにして、各キーワードに基づきクラスタを再構築した後、文書集合生成手段１５Ｄで、これらクラスタから新たな文書集合を生成する（ステップ１０４）。
なお、異なるクラスタから同じキーワードが抽出された場合、同じキーワードを抽出した各クラスタを１つのクラスタに合体し、新たな文書集合を生成すればよい。

そして、所定の終了条件が成立するまで（ステップ１０５：ＮＯ）、ベクトル生成手段１５Ａ、クラスタリング手段１５Ｂ、キーワード抽出手段１５Ｃ、および文書集合生成手段１５Ｄを用いて、未処理の文書集合から各クラスタごとにキーワードを抽出する一連の階層処理（ステップ１００〜１０４，１１０）を実行する。
一方、所定の終了条件、例えばキーワードの階層数が所定の数に達するという条件や、クラスタに属する文書数が一定数を下回るという条件が成立した場合は（ステップ１０５：ＹＥＳ）、一連の階層キーワード抽出処理を終了する。

図１２は、本実施の形態にかかる階層キーワード抽出装置で行われる階層キーワード抽出処理の説明図である。
ここでは、図６と比較して、各クラスタＣ₀₁〜Ｃ_0nから抽出されたキーワードＫ₀₁〜Ｋ_0nごとに新たなクラスタＣ₀₁’〜Ｃ_0n’が生成され、これら新たなクラスタＣ₀₁’〜Ｃ_0n’ごとに文書集合Ａ₀₁〜Ａ_0nが生成される。

このように、階層キーワード処理において、各文書をクラスタリングして抽出したキーワードに基づき、他のクラスタに属する文書を含む新たなクラスタを再構築し、これら新たなクラスタに基づき新たな文書集合を生成するようにしたので、その下位階層でのキーワード抽出に必要な文書をもれなく選択することができ、より正確な階層キーワードを抽出できる。

なお、以上の各実施の形態では、処理単位として用いた文書がコンピュータのＯＳで扱われる１つの文書ファイルデータに対応する場合を例として説明したが、処理単位についてこれに限定されるものではなく、検索の単位に合わせて処理単位を決定すればよい。例えば、上記文書を複数の文書すなわち文書ファイルデータ群から構成して階層キーワードを抽出すれば、文書ファイルデータ群を単位として検索することができる。また、上記文書を１つの文書ファイルデータに含まれる段落や文章から構成して階層キーワードを抽出すれば、これら段落や文章を単位として検索することができる。

本発明の一実施の形態にかかる階層キーワード抽出装置の構成を示すブロック図である。本発明の第１の実施の形態にかかる階層キーワード抽出処理を示すフローチャートである。クラスタＩＤリストの構成例である。所属文書リストの構成例である。キーワードリストの構成例である。図２の階層キーワード抽出処理を示す説明図である。キーワードリストの結果例である。階層キーワードの記述例である。階層キーワードを用いた検索画面（初期画面）表示例である。階層キーワードを用いた検索画面（途中画面）表示例である。本発明の第２の実施の形態にかかる階層キーワード抽出処理を示すフローチャートである。図１１の階層キーワード抽出処理を示す説明図である。

符号の説明

１…階層キーワード抽出装置、１１…操作入力部、１２…画面表示部、１３…入出力Ｉ／Ｆ部、１４…記憶部、１４Ａ…処理対象文書、１４Ｂ…プログラム、１５…演算処理部、１５Ａ…ベクトル生成手段、１５Ｂ…クラスタリング手段、１５Ｃ…キーワード抽出手段、１５Ｄ…文書集合生成手段、１５Ｅ…処理管理手段。

Claims

電子文字データを含む複数の処理対象文書を記憶する記憶部と、
この記憶部から前記処理対象文書を読み出して演算処理することにより、前記処理対象文書を分類する各キーワードが階層的に連結された階層キーワードを抽出する演算処理部とを備え、
前記演算処理部は、
前記処理対象文書のうちの任意の文書からなる文書集合について、各文書の特徴を示す文書ベクトルを生成するベクトル生成手段と、
前記文書ベクトルに基づき前記文書集合の各文書を複数のクラスタに分類するクラスタリング手段と、
前記各クラスタから当該クラスタに属する文書の内容を代表するキーワードを抽出して当該クラスタの階層情報と関連付けて出力するキーワード抽出手段と、
前記クラスタごとに新たな文書集合を生成する文書集合生成手段と、
前記ベクトル生成手段、前記クラスタリング手段、前記キーワード抽出手段、および文書集合生成手段からなる一連の階層処理を繰り返し実行する処理管理手段とを備えることを特徴とする階層キーワード抽出装置。
請求項１に記載の階層キーワード抽出装置において、
前記文書集合生成手段は、前記キーワード抽出手段で前記各クラスタから抽出したキーワードごとに、当該クラスタに属する文書と前記文書集合の各文書のうち当該キーワードを含む文書とから新たなクラスタを生成し、これら新たなクラスタごとに前記文書集合を生成することを特徴とする階層キーワード抽出装置。
請求項１に記載の階層キーワード抽出装置において、
前記キーワード抽出手段は、
当該クラスタに属する各文書から切り取った単語ごとに出現頻度係数を算出するとともに重みを算出し、最も大きな重みを持つ単語を前記キーワードとして選択し、
前記単語の出現頻度係数は、前記文書集合に含まれる全文書の数を、前記全文書のうち前記単語を含む文書の数で除算し、その除算値を対数変換することにより算出し、
前記重みは、当該クラスタに属する各文書のうち前記単語が含まれる文書の数を、前記単語の出現頻度係数で除算することにより算出することを特徴とする階層キーワード抽出装置。
電子文字データを含む複数の処理対象文書を記憶する記憶部と、この記憶部から前記処理対象文書を読み出して演算処理することにより、前記処理対象文書を分類する各キーワードが階層的に連結された階層キーワードを抽出する演算処理部とを備える階層キーワード抽出装置で用いられる階層キーワード抽出方法であって、
前記演算処理部で、前記処理対象文書のうちの任意の文書からなる文書集合について、各文書の特徴を示す文書ベクトルを生成するベクトル生成ステップと、
前記演算処理部で、前記文書ベクトルに基づき前記文書集合の各文書を複数のクラスタに分類するクラスタリングステップと、
前記演算処理部で、前記各クラスタから当該クラスタに属する文書の内容を代表するキーワードを抽出して当該クラスタの階層情報と関連付けて出力するキーワード抽出ステップと、
前記演算処理部で、前記クラスタごとに新たな文書集合を生成する文書集合生成ステップと、
前記演算処理部で、前記ベクトル生成ステップ、前記クラスタリングステップ、前記キーワード抽出ステップ、および文書集合生成ステップからなる一連の階層処理を繰り返し実行する処理管理ステップとを備えることを特徴とする階層キーワード抽出方法。
請求項４に記載の階層キーワード抽出方法において、
前記文書集合生成ステップは、前記キーワード抽出ステップで前記各クラスタから抽出したキーワードごとに、当該クラスタに属する文書と前記文書集合の各文書のうち当該キーワードを含む文書とから新たなクラスタを生成し、これら新たなクラスタごとに前記文書集合を生成するステップからなることを特徴とする階層キーワード抽出方法。
請求項４に記載の階層キーワード抽出方法において、
前記キーワード抽出ステップは、
当該クラスタに属する各文書から切り取った単語ごとに出現頻度係数を算出する出現頻度係数算出ステップと、
前記単語ごとに重みを算出する重み算出ステップと、
前記単語のうち最も大きな重みを持つ単語を前記キーワードとして選択するステップとを有し、
前記出現頻度係数算出ステップは、前記文書集合に含まれる全文書の数を、前記全文書のうち前記単語を含む文書の数で除算し、その除算値を対数変換することにより前記出現頻度係数を算出するステップからなり、
前記重み算出ステップは、当該クラスタに属する各文書のうち前記単語が含まれる文書の数を、前記単語の出現頻度係数で除算することにより前記重みを算出するステップからなることを特徴とする階層キーワード抽出方法。
電子文字データを含む複数の処理対象文書を記憶する記憶部と、この記憶部から前記処理対象文書を読み出して演算処理することにより、前記処理対象文書を分類する各キーワードが階層的に連結された階層キーワードを抽出する演算処理部とを備える階層キーワード抽出装置のコンピュータに、
前記処理対象文書のうちの任意の文書からなる文書集合について、各文書の特徴を示す文書ベクトルを生成するベクトル生成ステップと、
前記文書ベクトルに基づき前記文書集合の各文書を複数のクラスタに分類するクラスタリングステップと、
前記各クラスタから当該クラスタに属する文書の内容を代表するキーワードを抽出して当該クラスタの階層情報と関連付けて出力するキーワード抽出ステップと、
前記クラスタごとに新たな文書集合を生成する文書集合生成ステップと、
前記ベクトル生成ステップ、前記クラスタリングステップ、前記キーワード抽出ステップ、および文書集合生成ステップからなる一連の階層処理を繰り返し実行する処理管理ステップとを実行させるプログラム。
請求項７に記載のプログラムにおいて、
前記文書集合生成ステップは、前記キーワード抽出ステップで前記各クラスタから抽出したキーワードごとに、当該クラスタに属する文書と前記文書集合の各文書のうち当該キーワードを含む文書とから新たなクラスタを生成し、これら新たなクラスタごとに前記文書集合を生成するステップからなることを特徴とするプログラム。
請求項７に記載のプログラムにおいて、
前記キーワード抽出ステップは、
当該クラスタに属する各文書から切り取った単語ごとに出現頻度係数を算出する出現頻度係数算出ステップと、
前記単語ごとに重みを算出する重み算出ステップと、
前記単語のうち最も大きな重みを持つ単語を前記キーワードとして選択するステップとを有し、
前記出現頻度係数算出ステップは、前記文書集合に含まれる全文書の数を、前記全文書のうち前記単語を含む文書の数で除算し、その除算値を対数変換することにより前記出現頻度係数を算出するステップからなり、
前記重み算出ステップは、当該クラスタに属する各文書のうち前記単語が含まれる文書の数を、前記単語の出現頻度係数で除算することにより前記重みを算出するステップからなることを特徴とするプログラム。