JP2005258910A - 階層キーワード抽出装置、方法、およびプログラム - Google Patents

階層キーワード抽出装置、方法、およびプログラム Download PDF

Info

Publication number
JP2005258910A
JP2005258910A JP2004070982A JP2004070982A JP2005258910A JP 2005258910 A JP2005258910 A JP 2005258910A JP 2004070982 A JP2004070982 A JP 2004070982A JP 2004070982 A JP2004070982 A JP 2004070982A JP 2005258910 A JP2005258910 A JP 2005258910A
Authority
JP
Japan
Prior art keywords
document
cluster
keyword
documents
hierarchical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004070982A
Other languages
English (en)
Inventor
Takashi Kumada
毅史 熊田
Satoshi Sekine
聡 関根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Azbil Corp
Original Assignee
Azbil Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Azbil Corp filed Critical Azbil Corp
Priority to JP2004070982A priority Critical patent/JP2005258910A/ja
Publication of JP2005258910A publication Critical patent/JP2005258910A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】検索対象となる各文書の内容と合致した適切なキーワードを階層構造で抽出できるようにする。
【解決手段】演算処理部15のベクトル生成手段15Aで、処理対象文書のうちの任意の文書からなる文書集合について各文書の特徴を示す文書ベクトルを生成し、クラスタリング手段15Bで、文書ベクトルに基づき文書集合の各文書を複数のクラスタに分類する。次にキーワード抽出手段15Cで、各クラスタから当該クラスタに属する文書の内容を代表するキーワードを抽出して当該クラスタの階層情報と関連付けて出力し、文書集合生成手段15Dで、クラスタごとに新たな文書集合を生成する。そして処理管理手段15Eで、上記各手段からなる一連の階層処理を繰り返し実行する。
【選択図】 図1

Description

本発明は、キーワード抽出技術に関し、特に電子文字データを含む複数の文書から階層構造を持つキーワード群を抽出する技術に関する。
インターネットの普及に伴い、各種Webページでコンテンツとして提供される情報の量も膨大となり、所望の文書を効率よく検索する技術が必要とされている。現在、インターネットでは、検索エンジンを中心にした情報提供サイトとして、Yahooやgoogleなどのポータルサイトが広く利用されている。
この種のWebサービスでは、所望の文書を検索する方法として、キーワード検索方法を利用できる。これは、まず利用者が所望の文書に含まれていると思われるキーワードをいくつか考えて、PC端末のキーボードから文字入力し検索開始操作を行う。これにより、そのキーワードを含む文書の検索が開始され、その文書を提供するWebページのタイトルやURLが、検索結果として画面にリスト表示されるものとなっている。
この際、所望の文書で使用されている言葉が専門的な言葉であった場合、利用者がその専門的な言葉を思いつく可能性が小さいため、結果として所望の文書を見つけ出せない場合が多い。また、多くの文書から所望の文書を絞り込むためには、複数のキーワードを組み合わせて用いる必要があり、その組み合わせ方の違いにより結果として所望の文書を見つけ出せない場合もある。
したがって、予め用意したキーワードを用いて検索する方法が考えられる。
従来、上記ポータルサイトでは、予め用意したキーワードを用いて検索する方法の1つにカテゴリ検索が用いられている。これは、提供する情報を階層構造のカテゴリに基づき予め分類しておき、検索時には所望の情報に最も近いカテゴリを順に選んでいくことで、目的のページまで掘り下げていく検索方法である(例えば、非特許文献1等参照)。
これにより、キーワード検索とは違って、予め用意された階層構造に沿って任意のカテゴリを順に選ぶことにより所望の文書を探すことができ、キーワード検索のようにはっきりとした指標がない場合に有効である。
なお、出願人は、本明細書に記載した先行技術文献情報で特定される先行技術文献以外には、本発明に関連する先行技術文献を出願時までに発見するには至らなかった。
Yahoo!丸かじり,「カテゴリ検索」,http://howto.yahoo.co.jp/infodesk/director.html,ヤフー株式会社
しかしながら、このような従来技術によれば、予め設定されたカテゴリ自体が一般的な概念からなり、1つのカテゴリが包括する範囲が広いため、各カテゴリと文書の内容とが適切に合致しないことが多い。またカテゴリの細分化も数量的に制限されるため、専門的な言葉を用いたカテゴリまで用意できない。したがって、所望の文書まで効率よく辿り着けず、検索効率が悪いという問題点があった。
本発明はこのような課題を解決するためのものであり、検索対象となる各文書の内容と合致した適切なキーワードを階層構造で抽出できる階層キーワード抽出装置、方法、およびプログラムを提供することを目的としている。
このような目的を達成するために、本発明にかかる階層キーワード抽出装置は、電子文字データを含む複数の処理対象文書を記憶する記憶部と、この記憶部から処理対象文書を読み出して演算処理することにより、処理対象文書を分類する各キーワードが階層的に連結された階層キーワードを抽出する演算処理部とを備え、演算処理部に、処理対象文書のうちの任意の文書からなる文書集合について、各文書の特徴を示す文書ベクトルを生成するベクトル生成手段と、文書ベクトルに基づき文書集合の各文書を複数のクラスタに分類するクラスタリング手段と、各クラスタから当該クラスタに属する文書の内容を代表するキーワードを抽出して当該クラスタの階層情報と関連付けて出力するキーワード抽出手段と、クラスタごとに新たな文書集合を生成する文書集合生成手段と、ベクトル生成手段、クラスタリング手段、キーワード抽出手段、および文書集合生成手段からなる一連の階層処理を繰り返し実行する処理管理手段とを設けたものである。
この際、文書集合生成手段で、キーワード抽出手段で各クラスタから抽出したキーワードごとに、当該クラスタに属する文書と文書集合の各文書のうち当該キーワードを含む文書とから新たなクラスタを生成し、これら新たなクラスタごとに文書集合を生成するようにしてもよい。
あるいは、キーワード抽出手段の具体的構成として、当該クラスタに属する各文書から切り取った単語ごとに出現頻度係数を算出するとともに重みを算出し、最も大きな重みを持つ単語をキーワードとして選択し、単語の出現頻度係数は、文書集合に含まれる全文書の数を、全文書のうち単語を含む文書の数で除算し、その除算値を対数変換することにより算出し、重みは、当該クラスタに属する各文書のうち単語が含まれる文書の数を、単語の出現頻度係数で除算することにより算出するようにしてもよい。
また、本発明にかかる階層キーワード抽出方法は、電子文字データを含む複数の処理対象文書を記憶する記憶部と、この記憶部から処理対象文書を読み出して演算処理することにより、処理対象文書を分類する各キーワードが階層的に連結された階層キーワードを抽出する演算処理部とを備える階層キーワード抽出装置で用いられる階層キーワード抽出方法であって、演算処理部で、処理対象文書のうちの任意の文書からなる文書集合について、各文書の特徴を示す文書ベクトルを生成するベクトル生成ステップと、演算処理部で、文書ベクトルに基づき文書集合の各文書を複数のクラスタに分類するクラスタリングステップと、演算処理部で、各クラスタから当該クラスタに属する文書の内容を代表するキーワードを抽出して当該クラスタの階層情報と関連付けて出力するキーワード抽出ステップと、演算処理部で、クラスタごとに新たな文書集合を生成する文書集合生成ステップと、演算処理部で、ベクトル生成ステップ、クラスタリングステップ、キーワード抽出ステップ、および文書集合生成ステップからなる一連の階層処理を繰り返し実行する処理管理ステップとを備えるものである。
この際、文書集合生成ステップを、キーワード抽出ステップで各クラスタから抽出したキーワードごとに、当該クラスタに属する文書と文書集合の各文書のうち当該キーワードを含む文書とから新たなクラスタを生成し、これら新たなクラスタごとに文書集合を生成するステップから構成してもよい。
あるいは、キーワード抽出ステップの具体的ステップとして、当該クラスタに属する各文書から切り取った単語ごとに出現頻度係数を算出する出現頻度係数算出ステップと、単語ごとに重みを算出する重み算出ステップと、単語のうち最も大きな重みを持つ単語をキーワードとして選択するステップとを設け、出現頻度係数算出ステップを、文書集合に含まれる全文書の数を、全文書のうち単語を含む文書の数で除算し、その除算値を対数変換することにより出現頻度係数を算出するステップから構成し、重み算出ステップを、当該クラスタに属する各文書のうち単語が含まれる文書の数を、単語の出現頻度係数で除算することにより重みを算出するステップから構成してもよい。
また、本発明にかかるプログラムは、電子文字データを含む複数の処理対象文書を記憶する記憶部と、この記憶部から処理対象文書を読み出して演算処理することにより、処理対象文書を分類する各キーワードが階層的に連結された階層キーワードを抽出する演算処理部とを備える階層キーワード抽出装置のコンピュータに、処理対象文書のうちの任意の文書からなる文書集合について、各文書の特徴を示す文書ベクトルを生成するベクトル生成ステップと、文書ベクトルに基づき文書集合の各文書を複数のクラスタに分類するクラスタリングステップと、各クラスタから当該クラスタに属する文書の内容を代表するキーワードを抽出して当該クラスタの階層情報と関連付けて出力するキーワード抽出ステップと、クラスタごとに新たな文書集合を生成する文書集合生成ステップと、ベクトル生成ステップ、クラスタリングステップ、キーワード抽出ステップ、および文書集合生成ステップからなる一連の階層処理を繰り返し実行する処理管理ステップとを実行させるものである。
この際、文書集合生成ステップを、キーワード抽出ステップで各クラスタから抽出したキーワードごとに、当該クラスタに属する文書と文書集合の各文書のうち当該キーワードを含む文書とから新たなクラスタを生成し、これら新たなクラスタごとに文書集合を生成するステップから構成してもよい。
あるいは、キーワード抽出ステップの具体的ステップとして、当該クラスタに属する各文書から切り取った単語ごとに出現頻度係数を算出する出現頻度係数算出ステップと、単語ごとに重みを算出する重み算出ステップと、単語のうち最も大きな重みを持つ単語をキーワードとして選択するステップとを設け、出現頻度係数算出ステップを、文書集合に含まれる全文書の数を、全文書のうち単語を含む文書の数で除算し、その除算値を対数変換することにより出現頻度係数を算出するステップから構成し、重み算出ステップで、当該クラスタに属する各文書のうち単語が含まれる文書の数を、単語の出現頻度係数で除算することにより重みを算出するステップから構成してもよい。
本発明によれば、文書集合の各文書の文書ベクトルに基づき各文書をクラスタリングし、得られたクラスタからキーワードを抽出するとともに新たな文書集合を生成する階層処理を、各文書集合ごとに繰り返し実行するようにしたので、検索の対象となる処理対象文書から、各文書の内容と合致した適切なキーワードを階層構造で抽出できる。
これにより、一般的な概念で設定したカテゴリと比較して、各文書の内容に合致したキーワードで各文書を分類できるとともに、使用頻度が高い場合には検索対象文書で使用されている専門的な言葉がキーワードとして抽出されて、そのキーワードで各文書が分類される。
したがって、得られた階層キーワードをカテゴリとして用いてカテゴリ検索を行うことにより、所望の文書まで効率よく辿り着くことができ、検索効率がよくなる。
次に、本発明の実施の形態について図面を参照して説明する。
[第1の実施の形態]
まず、図1を参照して、本発明の一実施の形態にかかる階層キーワード抽出装置について説明する。図1は本発明の一実施の形態にかかる階層キーワード抽出装置の構成を示すブロック図である。
この階層キーワード抽出装置1は、全体としてパーソナルコンピュータなどの情報処理装置から構成されており、処理対象となる文書集合をクラスタリングし、得られた各クラスタからキーワードをそれぞれ抽出するという階層処理を、各クラスタから生成した新たな文書集合ごとに繰り返し実行することにより、各クラスタの階層構造に沿った階層キーワードを抽出するものである。
この階層キーワード抽出装置1には、操作入力部11、画面表示部12、入出力I/F部13、記憶部14、および演算処理部15が設けられている。
操作入力部11は、キーボードやマウスなどの操作入力装置からなり、オペレータの操作を検出して演算処理部15へ出力する。
画面表示部12は、LCDやCRTなどの画面表示装置からなり、演算処理部15からの指示に応じて各種情報を画面表示する。
入出力インターフェース部(以下、入出力I/F部という)13は、記録媒体や通信回線を介して各種情報やプログラムをやり取りする回路部である。
記憶部14は、ハードディスクやメモリなどの記憶装置からなり、演算処理部15での処理に用いる例えば処理対象文書14Aなどの各種情報、および演算処理部15に読み込まれて実行されるプログラム14Bを記憶する。
処理対象文書14Aは、電子文字データで各種情報が記述された電子ファイルからなり、インターネット上で公開されているWebページのように画像データなど文字データ以外のデータを含んでいる場合には、その文字データ部分のみを利用すればよい。
演算処理部15は、CPU等のマイクロプロセッサとその周辺回路からなり、記憶部14からプログラム14Bを読み込んで実行することにより、上記ハードウェアとプログラムとを協働させて各種機能手段を実現する。
上記機能手段としては、ベクトル生成手段15A、クラスタリング手段15B、キーワード抽出手段15C、文書集合生成手段15D、および処理管理手段15Eが設けられている。
ベクトル生成手段15Aは、例えば文書など文字情報の処理単位ごとにその処理単位の特徴量であるベクトルを生成する機能手段である。
クラスタリング手段15Bは、ベクトル生成手段15Aで得られた各ベクトルに基づき各処理単位をクラスタごとに分類する機能手段である。
キーワード抽出手段15Cは、クラスタリンク手段15Bで得られた各クラスタから当該クラスタを代表するキーワードをそれぞれ抽出する機能手段である。
文書集合生成手段15Dは、クラスタリング手段15Bで得られた各クラスタから新たな文書集合を生成する機能手段である。
処理管理手段15Eは、文書集合生成手段15Dで得られた新たな文書集合を処理対象として、ベクトル生成手段15A、クラスタリング手段15B、およびキーワード抽出手段15Cによる階層処理を繰り返し実行する機能手段である。
[階層キーワード抽出処理]
次に、図2を参照して、本実施の形態にかかる階層キーワード抽出装置で行われる階層キーワード抽出処理について説明する。図2は、本実施の形態にかかる階層キーワード抽出装置で行われる階層キーワード抽出処理を示すフローチャートである。
ここでは、複数の文章から構成され、情報処理上で1つのファイルとして扱われる文書を処理単位とする場合を例として説明する。
演算処理部15は、操作入力部11からの開始指示操作に応じて、図2の階層キーワード抽出処理を開始する。
[ベクトル生成]
まず、記憶部14に予め格納されている各処理対象文書14Aを取り込んで、これを1つの文書集合として選択し(ステップ100)、ベクトル生成手段15Aで、文書ごとに個々の文書の特徴量を表すデータとしてベクトルを生成する(ステップ101)。
このベクトルは、当該文書に現れる単語を1つの要素とし、それぞれの要素を重みで表現したデータである。
文書から単語を切り出す方法としては、例えば形態素解析や文字種類による切り出し、あるいは一定数の文字列を単語とするなどの公知の方法を用いればよい。また、単語に対する重み付けの1つ方法として、TF×IDF法がある。
ベクトル生成手段15Aにおいて、TF×IDF法を用いてベクトルを生成する場合、次のような処理となる。
文書集合をなすm個(nは2以上の整数)の文書をD1,D2,…,Dmとした場合、文書Dj(jは1〜mの整数)のベクトルVjは式(1)で表される。ここで、dijは文書Djにおける単語Wiの重みを示す。また、nはすべての文書D1,D2,…,Dmから取得された単語の総数であり、ベクトルViにおける重み(要素)の位置は、各単語に付与された番号i(1〜nの整数)により各ベクトルで共通に決定されている。
Figure 2005258910
また、文書Djにおける単語Wiの重みdijは式(2)で表される。ここで、TFijは文書Djにおける単語Wiの出現頻度、DFiは文書集合のすべての文書D1,D2,…,Dmにおける単語Wiの出現頻度である。
Figure 2005258910
ベクトル生成手段15Aでは、このようにして得られた各ベクトルVjを、例えば当該文書Djと同様のファイル名を個々に用いたベクトルファイルとして、記憶部14へ格納する。
なお、単語に対する重み付けの方法としては、TF×IDF法に限定されるものではなく、他の公知の方法を用いてもよい(例えば、Kageura,K. and Umino,B., "Methods of automatic term recognition:A review", Terminology, 3(2), 1996, pp259-289 など参照)。
[クラスタ生成]
演算処理部15は、このようにして、ベクトル生成手段15Aにより、各文書ごとにベクトルを生成した後、クラスタリング手段15Bで、これらベクトル集合に基づき各文書を複数のクラスタに分類する(ステップ102)。
この際、各クラスタへの分類は、個々のクラスタに予め割り当てたそれぞれの特徴に基づき分類するのではなく、各ベクトル間の類似度に基づき類似性の高い文書を同一クラスタに分類する。
クラスタリング手段15Bでは、各文書を任意の組み合わせでクラスタリングしてみて、これらクラスタごとに得られたクラスタ類似度の総和が最も大きくなる組み合わせを、クラスタリング結果として用いる。
2つのベクトルv,u間の類似度sim(v,u)は、例えばベクトルu,vの内積や余弦を算出する方法など、公知の方法を用いればよい(例えば、森辰則, "検索結果表示向け文書要約における情報利得比に基づく語の重要度計算", 自然語処理, Volume9, Number4, 2002, pp3-32 など参照)。
クラスタ類似度は、上記ベクトル間類似度sim(v,u)を用いて算出できる。任意に決定したクラスタの総数をhとした場合、任意のクラスタCk(kは1〜hの整数)のクラスタ類似度Skは、式(3)で表される。ここで、ベクトルv,uは、クラスタCkに属する任意の文書のベクトルであり、クラスタCkに属する文書の組み合わせのすべてについて得られた類似度の総和に基づきクラスタ類似度Skが算出される。
Figure 2005258910
クラスタリング手段15Bでは、このようにして得られた各クラスタ類似度Skの総和を、任意の組み合わせで各文書についてクラスタリングするごとに算出し、そのクラスタ類似度の総和が最も大きくなる組み合わせを、最適クラスタリング結果として用いる。
そして、その最適クラスタリング結果に基づいて、図3に示すような、各クラスタに対して識別情報として付与したクラスタIDからなるクラスタIDリストを生成するとともに、図4に示すような、各クラスタごとに当該クラスタに属する文書の番号を示す所属文書リストを生成する。
この際、クラスタIDは、階層処理の繰り返しごとに分類された各クラスタの番号が列挙された、クラスタの階層情報を含む構成となっている。
例えば、クラスタID「0_1」は、最初の階層に位置する処理対象文書14A「0」を文書集合とする2番目の階層における「1」番目のクラスタを示している。また、クラスタID「0_1_1」は、処理対象文書14A「0」を文書集合とする2番目の階層における「1」番目のクラスタに属し、そのクラスタ「0_1」を文書集合とする3番目の階層における「1」番目のクラスタを示している。
このような構成のクラスタIDを用いることにより、各クラスタに対応するキーワードから階層キーワードを容易に生成できる。
[キーワード抽出]
演算処理部15は、このようにしてクラスタリング手段15Bで、文書集合からクラスタを生成した後、キーワード抽出手段15Cで、これらクラスタごとにキーワードを抽出する(ステップ103)。
この際、キーワード抽出は、ベクトル生成時と同様の方法で、当該クラスタに属する文書から単語を切り出して、これら単語ごとに重みを算出し、最も重みの大きいものを当該クラスタを代表するキーワードとして抽出する。
各単語の重みは、単語の出現頻度に基づき算出できる。例えば、文書集合Aをクラスタリングして得られたクラスタCに属する単語xの重みWxは、式(4)で算出される。ここで、DF(x,C)は、クラスタCに属する文書のうち単語xを含む文書の数を示し、IDF(x,A)は、文書集合A内の全文書に含まれる単語xの正規化された出現頻度係数を示している。
Figure 2005258910
なお、IDF(x,A)は、式(5)で算出される。ここで、Gaは文書集合A内の全文書の数、gaは文書集合A内の文書のうち単語xを含む文書の数であり、これらGaとgaの比が対数変換されて正規化されている。
Figure 2005258910
キーワード抽出手段15Cでは、クラスタリング手段15Bで生成されたクラスタIDリストを読み込んで、リストアップされている各クラスタごとに、所属文書リストを読み込む。そして、その所属文書リストでリストアップされた各文書から単語を切り出して重みを算出し、最も重みの大きいものを当該クラスタを代表するキーワードとして抽出し、図5に示すような、各クラスタのキーワードをそのクラスタの階層情報、ここではクラスタIDと関連付けて、キーワードリストとして出力する。
なお、重みを算出する方法については、上記の方法に限定されるものではなく、ベクトル生成時と同様の方法など、公知の方法を用いてもよい。
[文書集合生成]
演算処理部15は、このようにしてキーワード抽出手段15Cを用いて、各クラスタごとにキーワードを抽出した後、文書集合生成手段15Dで、これらクラスタごとにその所属文書リストを読み込み、リストアップされている文書から新たな文書集合を生成する(ステップ104)。
この際、異なるクラスタから同じキーワードが抽出された場合、同じキーワードを抽出した各クラスタを1つのクラスタに合体し、新たな文書集合を生成すればよい。
そして、処理管理手段15Eで、所定の終了条件が成立するまで(ステップ105:NO)、ベクトル生成手段15A、クラスタリング手段15B、キーワード抽出手段15C、および文書集合生成手段15Dを用いて、未処理の文書集合から各クラスタごとにキーワードを抽出する一連の階層処理(ステップ100〜104)を実行する。
一方、所定の終了条件、例えばキーワードの階層数が所定の数に達するという条件や、クラスタに属する文書数が一定数を下回るという条件が成立した場合は(ステップ105:YES)、一連の階層キーワード抽出処理を終了する。
図6は、本実施の形態にかかる階層キーワード抽出装置で行われる階層キーワード抽出処理の説明図である。
この例では、まず記憶部14の処理対象対象文書14Aが文書集合A0として選択されて、階層処理20が開始される。
階層処理20では、文書集合A0の各文書D01〜D0mについて文書ベクトルV01〜V0mが生成され、これら文書ベクトルに基づき各文書D01〜D0mがクラスタリングされ、クラスタC01〜C0nが生成される。
そして、これらクラスタC01〜C0nのそれぞれからキーワードK01〜K0nが抽出され、キーワードリストとして出力される。また、各クラスタC01〜C0nごとに新たな文書集合A01〜A0nが生成される。
次に、新たな文書集合A01〜A0nごとに、それぞれ階層処理201〜20nが繰り返し実行されて、キーワードが抽出されるとともに、新たな文書集合が生成される。
例えば、階層処理201では、新たな文書集合A01の各文書D011〜D01pについて文書ベクトルV011〜V01pが生成され、これに基づきクラスタC011〜C01qが生成される。そして、これらクラスタごとにキーワードK011〜K01qが抽出されるとともに、新たな文書集合A011〜A01qが生成される。
このようにして、階層ごとにキーワードが抽出されて、図7に示すような、階層情報を含むクラスタIDとキーワードとの対からなるキーワードリストが生成され、所望の階層キーワードが抽出される。
図8に、階層キーワードの例を示す。この階層キーワードは、図7のキーワードリストを元にして記述したものであり、各キーワードがツリー構造で連結されており、
このように、検索の対象となる処理対象文書を文書集合として選択し、これら文書の文書ベクトルに基づき各文書をクラスタリングし、得られたクラスタからキーワードを抽出するとともに新たな文書集合を生成する階層処理を、各文書集合ごとに繰り返し実行するようにしたので、検索の対象となる処理対象文書から、各文書の内容と合致した適切なキーワードを階層構造で抽出できる。
これにより、一般的な概念で設定したカテゴリと比較して、各文書の内容に合致したキーワードで各文書を分類できるとともに、使用頻度が高い場合には検索対象文書で使用されている専門的な言葉がキーワードとして抽出されて、そのキーワードで各文書が分類される。
したがって、得られた階層キーワードをカテゴリとして用いてカテゴリ検索を行うことにより、所望の文書まで効率よく辿り着くことができ、検索効率がよくなる。
図9、図10に、本実施の形態にかかる階層キーワード抽出装置で得られた階層キーワードを用いた検索画面表示例を示す。
まず、検索開始に応じて、キーワードリストから第1層に属するキーワードが読み出され、カテゴリ選択領域30にそれぞれ操作ボタンとして一覧表示される。
ここで、オペレータが所望のキーワードの操作ボタンを押下した場合、図10に示すように、そのキーワードに連結された次の階層、この場合は第2層に属するキーワードがキーワードリストから読み出され、サブカテゴリ選択領域31にそれぞれ操作ボタンとして一覧表示される。
以下、サブカテゴリ選択領域31において、所望のキーワードの操作ボタンを押下するごとに、当該キーワード連結された次の階層に属するキーワードがキーワードリストから読み出され、サブカテゴリ選択領域31にそれぞれ操作ボタンとして一覧表示される。
そして、最下位層のキーワードに対応する操作ボタンが押下された場合は、そのキーワードに対応する文書集合に属する文書名(文書ファイル名)が操作ボタンとして一覧表示され、所望の文書の操作ボタンを押下することにより、所望の文書の内容が閲覧できる。
これにより、得られた階層キーワードをカテゴリとして用いてカテゴリ検索を行うことにより、所望の文書まで効率よく辿り着くことができる。
[第2の実施の形態]
次に、図11を参照して、本発明の第2の実施の形態にかかる階層キーワード抽出装置について説明する。図11は本発明の第2の実施の形態にかかる階層キーワード抽出装置の構成を示すブロック図であり、前述した図2と同じまたは同等部分には同一符号を付してある。
前述した第1の実施の形態では、階層処理で新たな文書集合を生成する場合、クラスタリングで得られた各クラスタに属する文書を、そのまま新たな文書集合とする例について説明した。本実施の形態では、クラスタリングで得られた各クラスタから抽出したキーワードに基づき、文書集合から関連する文書を抽出して新たな文書集合を生成する場合について説明する。
[階層キーワード抽出処理]
演算処理部15は、操作入力部11からの開始指示操作に応じて、図11の階層キーワード抽出処理を開始する。
前述した図2と同様にステップ100〜103を実行した後、文書集合生成手段15Dにより、ステップ103で抽出したキーワードごとに、文書集合の各文書を分類してクラスタを再構築する(ステップ110)。
この際、上記の再クラスタリングについては、例えば当該キーワードを抽出した元のクラスタに属する各文書と、当該クラスタに属さない文書のうち当該キーワードを含む文書とから新たなクラスタを構成すればよい。
あるいは、文書集合の各文書のうち当該キーワードを含むすべての文書から構成しもよく、当該キーワードに関連する文書から新たなクラスタを再構築できる方法であればいずれの方法でもよい。
演算処理部15は、このようにして、各キーワードに基づきクラスタを再構築した後、文書集合生成手段15Dで、これらクラスタから新たな文書集合を生成する(ステップ104)。
なお、異なるクラスタから同じキーワードが抽出された場合、同じキーワードを抽出した各クラスタを1つのクラスタに合体し、新たな文書集合を生成すればよい。
そして、所定の終了条件が成立するまで(ステップ105:NO)、ベクトル生成手段15A、クラスタリング手段15B、キーワード抽出手段15C、および文書集合生成手段15Dを用いて、未処理の文書集合から各クラスタごとにキーワードを抽出する一連の階層処理(ステップ100〜104,110)を実行する。
一方、所定の終了条件、例えばキーワードの階層数が所定の数に達するという条件や、クラスタに属する文書数が一定数を下回るという条件が成立した場合は(ステップ105:YES)、一連の階層キーワード抽出処理を終了する。
図12は、本実施の形態にかかる階層キーワード抽出装置で行われる階層キーワード抽出処理の説明図である。
ここでは、図6と比較して、各クラスタC01〜C0nから抽出されたキーワードK01〜K0nごとに新たなクラスタC01’〜C0n’が生成され、これら新たなクラスタC01’〜C0n’ごとに文書集合A01〜A0nが生成される。
このように、階層キーワード処理において、各文書をクラスタリングして抽出したキーワードに基づき、他のクラスタに属する文書を含む新たなクラスタを再構築し、これら新たなクラスタに基づき新たな文書集合を生成するようにしたので、その下位階層でのキーワード抽出に必要な文書をもれなく選択することができ、より正確な階層キーワードを抽出できる。
なお、以上の各実施の形態では、処理単位として用いた文書がコンピュータのOSで扱われる1つの文書ファイルデータに対応する場合を例として説明したが、処理単位についてこれに限定されるものではなく、検索の単位に合わせて処理単位を決定すればよい。例えば、上記文書を複数の文書すなわち文書ファイルデータ群から構成して階層キーワードを抽出すれば、文書ファイルデータ群を単位として検索することができる。また、上記文書を1つの文書ファイルデータに含まれる段落や文章から構成して階層キーワードを抽出すれば、これら段落や文章を単位として検索することができる。
本発明の一実施の形態にかかる階層キーワード抽出装置の構成を示すブロック図である。 本発明の第1の実施の形態にかかる階層キーワード抽出処理を示すフローチャートである。 クラスタIDリストの構成例である。 所属文書リストの構成例である。 キーワードリストの構成例である。 図2の階層キーワード抽出処理を示す説明図である。 キーワードリストの結果例である。 階層キーワードの記述例である。 階層キーワードを用いた検索画面(初期画面)表示例である。 階層キーワードを用いた検索画面(途中画面)表示例である。 本発明の第2の実施の形態にかかる階層キーワード抽出処理を示すフローチャートである。 図11の階層キーワード抽出処理を示す説明図である。
符号の説明
1…階層キーワード抽出装置、11…操作入力部、12…画面表示部、13…入出力I/F部、14…記憶部、14A…処理対象文書、14B…プログラム、15…演算処理部、15A…ベクトル生成手段、15B…クラスタリング手段、15C…キーワード抽出手段、15D…文書集合生成手段、15E…処理管理手段。

Claims (9)

  1. 電子文字データを含む複数の処理対象文書を記憶する記憶部と、
    この記憶部から前記処理対象文書を読み出して演算処理することにより、前記処理対象文書を分類する各キーワードが階層的に連結された階層キーワードを抽出する演算処理部とを備え、
    前記演算処理部は、
    前記処理対象文書のうちの任意の文書からなる文書集合について、各文書の特徴を示す文書ベクトルを生成するベクトル生成手段と、
    前記文書ベクトルに基づき前記文書集合の各文書を複数のクラスタに分類するクラスタリング手段と、
    前記各クラスタから当該クラスタに属する文書の内容を代表するキーワードを抽出して当該クラスタの階層情報と関連付けて出力するキーワード抽出手段と、
    前記クラスタごとに新たな文書集合を生成する文書集合生成手段と、
    前記ベクトル生成手段、前記クラスタリング手段、前記キーワード抽出手段、および文書集合生成手段からなる一連の階層処理を繰り返し実行する処理管理手段とを備えることを特徴とする階層キーワード抽出装置。
  2. 請求項1に記載の階層キーワード抽出装置において、
    前記文書集合生成手段は、前記キーワード抽出手段で前記各クラスタから抽出したキーワードごとに、当該クラスタに属する文書と前記文書集合の各文書のうち当該キーワードを含む文書とから新たなクラスタを生成し、これら新たなクラスタごとに前記文書集合を生成することを特徴とする階層キーワード抽出装置。
  3. 請求項1に記載の階層キーワード抽出装置において、
    前記キーワード抽出手段は、
    当該クラスタに属する各文書から切り取った単語ごとに出現頻度係数を算出するとともに重みを算出し、最も大きな重みを持つ単語を前記キーワードとして選択し、
    前記単語の出現頻度係数は、前記文書集合に含まれる全文書の数を、前記全文書のうち前記単語を含む文書の数で除算し、その除算値を対数変換することにより算出し、
    前記重みは、当該クラスタに属する各文書のうち前記単語が含まれる文書の数を、前記単語の出現頻度係数で除算することにより算出することを特徴とする階層キーワード抽出装置。
  4. 電子文字データを含む複数の処理対象文書を記憶する記憶部と、この記憶部から前記処理対象文書を読み出して演算処理することにより、前記処理対象文書を分類する各キーワードが階層的に連結された階層キーワードを抽出する演算処理部とを備える階層キーワード抽出装置で用いられる階層キーワード抽出方法であって、
    前記演算処理部で、前記処理対象文書のうちの任意の文書からなる文書集合について、各文書の特徴を示す文書ベクトルを生成するベクトル生成ステップと、
    前記演算処理部で、前記文書ベクトルに基づき前記文書集合の各文書を複数のクラスタに分類するクラスタリングステップと、
    前記演算処理部で、前記各クラスタから当該クラスタに属する文書の内容を代表するキーワードを抽出して当該クラスタの階層情報と関連付けて出力するキーワード抽出ステップと、
    前記演算処理部で、前記クラスタごとに新たな文書集合を生成する文書集合生成ステップと、
    前記演算処理部で、前記ベクトル生成ステップ、前記クラスタリングステップ、前記キーワード抽出ステップ、および文書集合生成ステップからなる一連の階層処理を繰り返し実行する処理管理ステップとを備えることを特徴とする階層キーワード抽出方法。
  5. 請求項4に記載の階層キーワード抽出方法において、
    前記文書集合生成ステップは、前記キーワード抽出ステップで前記各クラスタから抽出したキーワードごとに、当該クラスタに属する文書と前記文書集合の各文書のうち当該キーワードを含む文書とから新たなクラスタを生成し、これら新たなクラスタごとに前記文書集合を生成するステップからなることを特徴とする階層キーワード抽出方法。
  6. 請求項4に記載の階層キーワード抽出方法において、
    前記キーワード抽出ステップは、
    当該クラスタに属する各文書から切り取った単語ごとに出現頻度係数を算出する出現頻度係数算出ステップと、
    前記単語ごとに重みを算出する重み算出ステップと、
    前記単語のうち最も大きな重みを持つ単語を前記キーワードとして選択するステップとを有し、
    前記出現頻度係数算出ステップは、前記文書集合に含まれる全文書の数を、前記全文書のうち前記単語を含む文書の数で除算し、その除算値を対数変換することにより前記出現頻度係数を算出するステップからなり、
    前記重み算出ステップは、当該クラスタに属する各文書のうち前記単語が含まれる文書の数を、前記単語の出現頻度係数で除算することにより前記重みを算出するステップからなることを特徴とする階層キーワード抽出方法。
  7. 電子文字データを含む複数の処理対象文書を記憶する記憶部と、この記憶部から前記処理対象文書を読み出して演算処理することにより、前記処理対象文書を分類する各キーワードが階層的に連結された階層キーワードを抽出する演算処理部とを備える階層キーワード抽出装置のコンピュータに、
    前記処理対象文書のうちの任意の文書からなる文書集合について、各文書の特徴を示す文書ベクトルを生成するベクトル生成ステップと、
    前記文書ベクトルに基づき前記文書集合の各文書を複数のクラスタに分類するクラスタリングステップと、
    前記各クラスタから当該クラスタに属する文書の内容を代表するキーワードを抽出して当該クラスタの階層情報と関連付けて出力するキーワード抽出ステップと、
    前記クラスタごとに新たな文書集合を生成する文書集合生成ステップと、
    前記ベクトル生成ステップ、前記クラスタリングステップ、前記キーワード抽出ステップ、および文書集合生成ステップからなる一連の階層処理を繰り返し実行する処理管理ステップとを実行させるプログラム。
  8. 請求項7に記載のプログラムにおいて、
    前記文書集合生成ステップは、前記キーワード抽出ステップで前記各クラスタから抽出したキーワードごとに、当該クラスタに属する文書と前記文書集合の各文書のうち当該キーワードを含む文書とから新たなクラスタを生成し、これら新たなクラスタごとに前記文書集合を生成するステップからなることを特徴とするプログラム。
  9. 請求項7に記載のプログラムにおいて、
    前記キーワード抽出ステップは、
    当該クラスタに属する各文書から切り取った単語ごとに出現頻度係数を算出する出現頻度係数算出ステップと、
    前記単語ごとに重みを算出する重み算出ステップと、
    前記単語のうち最も大きな重みを持つ単語を前記キーワードとして選択するステップとを有し、
    前記出現頻度係数算出ステップは、前記文書集合に含まれる全文書の数を、前記全文書のうち前記単語を含む文書の数で除算し、その除算値を対数変換することにより前記出現頻度係数を算出するステップからなり、
    前記重み算出ステップは、当該クラスタに属する各文書のうち前記単語が含まれる文書の数を、前記単語の出現頻度係数で除算することにより前記重みを算出するステップからなることを特徴とするプログラム。
JP2004070982A 2004-03-12 2004-03-12 階層キーワード抽出装置、方法、およびプログラム Pending JP2005258910A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004070982A JP2005258910A (ja) 2004-03-12 2004-03-12 階層キーワード抽出装置、方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004070982A JP2005258910A (ja) 2004-03-12 2004-03-12 階層キーワード抽出装置、方法、およびプログラム

Publications (1)

Publication Number Publication Date
JP2005258910A true JP2005258910A (ja) 2005-09-22

Family

ID=35084546

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004070982A Pending JP2005258910A (ja) 2004-03-12 2004-03-12 階層キーワード抽出装置、方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP2005258910A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008077137A (ja) * 2006-09-19 2008-04-03 Yafoo Japan Corp ドキュメントデータを検索する方法、サーバ、およびプログラム
JP2010009099A (ja) * 2008-06-24 2010-01-14 Casio Hitachi Mobile Communications Co Ltd 端末装置及びプログラム
CN108133045A (zh) * 2018-01-12 2018-06-08 广州杰赛科技股份有限公司 关键词提取方法与系统、关键词提取模型生成方法与系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008077137A (ja) * 2006-09-19 2008-04-03 Yafoo Japan Corp ドキュメントデータを検索する方法、サーバ、およびプログラム
JP2010009099A (ja) * 2008-06-24 2010-01-14 Casio Hitachi Mobile Communications Co Ltd 端末装置及びプログラム
CN108133045A (zh) * 2018-01-12 2018-06-08 广州杰赛科技股份有限公司 关键词提取方法与系统、关键词提取模型生成方法与系统
CN108133045B (zh) * 2018-01-12 2020-07-24 广州杰赛科技股份有限公司 关键词提取方法与系统、关键词提取模型生成方法与系统

Similar Documents

Publication Publication Date Title
US7958128B2 (en) Query-independent entity importance in books
US7769771B2 (en) Searching a document using relevance feedback
JP5161658B2 (ja) キーワード入力支援装置、キーワード入力支援方法及びプログラム
US20040230570A1 (en) Search processing method and apparatus
JP4746439B2 (ja) 文書検索サーバおよび文書検索方法
US20080215548A1 (en) Information search method and system
JP2013541793A (ja) マルチモード検索クエリー入力手法
KR20070009338A (ko) 이미지 상호간의 유사도를 고려한 이미지 검색 방법 및장치
US20150205860A1 (en) Information retrieval device, information retrieval method, and information retrieval program
JP2011248596A (ja) 画像入り文書の検索システム及び検索方法
JP4426894B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JP2004348771A (ja) 技術文書検索装置
JP2007279978A (ja) 文書検索装置及び文書検索方法
JP2014102625A (ja) 情報検索システム、プログラム、および方法
JP2008077252A (ja) 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体
JP2004206391A (ja) 文書情報分析装置
JP2010250359A (ja) 擬似文書検索システム及び擬似文書検索方法
WO2014170965A1 (ja) 文書処理方法、文書処理装置および文書処理プログラム
JP2005258910A (ja) 階層キーワード抽出装置、方法、およびプログラム
JP5127553B2 (ja) 情報処理装置、情報処理方法、プログラム及び記録媒体
JP4813312B2 (ja) 電子文書検索方法、電子文書検索装置及びプログラム
WO2010103916A1 (ja) 文書の特徴語提示装置及び特徴語の優先度付与プログラム
JPH11272709A (ja) ファイル検索方式
JP4426893B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム