JP2017187828A

JP2017187828A - 情報処理装置及びプログラム

Info

Publication number: JP2017187828A
Application number: JP2016073971A
Authority: JP
Inventors: 友博三浦; Tomohiro Miura
Original assignee: Kyocera Document Solutions Inc
Current assignee: Kyocera Document Solutions Inc
Priority date: 2016-04-01
Filing date: 2016-04-01
Publication date: 2017-10-12
Anticipated expiration: 2036-04-01
Also published as: JP6555174B2

Abstract

【課題】クラスタリングの技術を利用して、初期値としての語句に対する関連語句を抽出する。【解決手段】情報処理装置は、１以上の語句をそれぞれ含む複数のクラスタから、初期値である１つの語句を含む第１のクラスタを抽出し、前記複数のクラスタから、前記第１のクラスタと異なる１以上の第２のクラスタを抽出するクラスタ抽出部と、前記１以上の第２のクラスタから、それぞれ、前記初期値と関連性の高い語句である関連語句を抽出する語句抽出部とを備える。【選択図】図３

Description

本開示は、初期値としての語句に対する関連語句を抽出することが可能な情報処理装置及びプログラムに関する。

一般的に、多数の語句等のデータをクラスタ（データの集合）に分類する技術（クラスタリング）が知られている。例えば、キーワードをその同義語等に変換してクラスタ分類を行う方法（例えば、特許文献１参照）や、概念検索を利用して検索対象文をクラスタに分類する方法が知られている（例えば、特許文献２参照）。

特開２００８−２９３２７１号公報特開２００５−０９２４４２号公報

本開示の目的は、クラスタリングの技術を利用して、初期値としての語句に対する関連語句を抽出することにある。

上記目的を達成するため、本開示の一形態に係る情報処理装置は、
１以上の語句をそれぞれ含む複数のクラスタから、初期値である１つの語句を含む第１のクラスタを抽出し、
前記複数のクラスタから、前記第１のクラスタと異なる１以上の第２のクラスタを抽出する
クラスタ抽出部と、
前記１以上の第２のクラスタから、それぞれ、前記初期値と関連性の高い語句である関連語句を抽出する語句抽出部と
を備える。

本形態によれば、クラスタ抽出部が第１のクラスタと異なる第２のクラスタを抽出し、語句抽出部が抽出された第２のクラスタから関連語句を抽出することにより、初期値である語句に対して異なる複数の分野から関連語句を抽出することができる。これにより、ユーザーは、初期値と関連性の高い語句でありながら、異なる分野から抽出された関連語句を学習することで、初期値について幅広く学習することができる。

前記クラスタ抽出部は、前記第１のクラスタと関連性の高い１以上のクラスタを、前記第２のクラスタとして抽出する。

本形態によれば、クラスタ抽出部が第１のクラスタと関連性の高いクラスタを抽出することにより、初期値である語句に対して当該語句の分野と関連性の高い分野の関連語句を抽出することができる。これにより、ユーザーは、初期値の分野と関連性の高い分野から抽出された関連語句を学習することで、初期値について幅広く、且つ、初期値の分野と関連性の高い内容を学習することができる。

あるいは、
前記クラスタ抽出部は、前記初期値と関連性の高い１以上のクラスタを、前記第１のクラスタと関連性の高い前記第２のクラスタとして抽出する。

本形態によれば、クラスタ抽出部が初期値と関連性の高いクラスタを抽出することにより、初期値である語句に対して当該語句と関連性の高い分野の関連語句を抽出することができる。これにより、ユーザーは、初期値と関連性の高い分野から抽出された関連語句を学習することで、初期値について幅広く、且つ、初期値と関連性の高い内容を学習することができる。

前記語句抽出部は、前記第１のクラスタと各前記第２のクラスタとの関連性に応じて、各前記第２のクラスタから抽出する関連語句の数を異ならせる。

本形態によれば、例えば、第１のクラスタと関連性の高い第２のクラスタから抽出する関連語句の数を増やすことで、初期値を含む第１のクラスタと関連性の比較的高い関連語句を多数抽出することができる。これにより、ユーザーは、初期値と関連性の比較的高い情報を多数知ることができ、初期値についてより深く学習することができる。あるいは、第１のクラスタと関連性の比較的低い第２のクラスタから抽出する関連語句の数を増やすことで、初期値を含む第１のクラスタと関連性の比較的低い関連語句を多数抽出することができる。これにより、ユーザーは、初期値から離れて広範な分野の語句を多数知ることができ、初期値についてより広く学習することができる。

前記情報処理装置は、前記抽出した各関連語句の情報資源の所在情報が前記各関連語句に紐付けられたリンク情報を生成するリンク生成部をさらに備える。

本形態によれば、リンク情報に各関連語句の情報資源の所在情報が紐づけられているため、ユーザーは、容易に各関連語句の情報資源にアクセスすることができる。

前記情報処理装置は、前記初期値と、前記リンク情報が紐付けられた各関連語句とを、表示部に出力する出力部をさらに備える。

本形態によれば、リンク情報が紐付けられた各関連語句が表示部に表示されるため、ユーザーは、容易に各関連語句の情報資源にアクセスすることができる。

前記情報処理装置は、
ユーザーにより前記初期値として選択された、前記表示部に表示された何れかの前記関連語句を検出し、
前記選択された初期値としての関連語句を、前記クラスタ抽出部に入力する
初期値入力部をさらに備える。

本形態によれば、初期値入力部は、ユーザーにより選択された関連語句を初期値としてクラスタ抽出部に入力する。これにより、ユーザーは、初期値から関連語句、この関連語句から別の関連語句へと、連鎖的に学習を深めることができる。

前記語句抽出部は、
複数の語句と、前記各語句が属するクラスタと、前記複数の語句同士の関連性を算出するための値とを互いに関連付けて登録したテーブルを参照し、
前記１以上の第２のクラスタにそれぞれ属する、前記初期値と関連性の高い語句である関連語句を、前記テーブルから抽出する。

前記情報処理装置は、前記テーブルを生成するクラスタ解析部をさらに備える。

上記目的を達成するため、本開示の一形態に係るプログラムは、
情報処理装置を、
１以上の語句をそれぞれ含む複数のクラスタから、初期値である１つの語句を含む第１のクラスタを抽出し、
前記複数のクラスタから、前記第１のクラスタと異なる１以上の第２のクラスタを抽出する
クラスタ抽出部と、
前記１以上の第２のクラスタから、それぞれ、前記初期値と関連性の高い語句である関連語句を抽出する語句抽出部
として機能させる。

本開示によれば、クラスタリングの技術を利用して、初期値としての語句に対する関連語句を抽出することができる。

情報処理装置のハードウェア構成を示すブロック図である。情報処理装置の機能的構成を示すブロック図である。情報処理装置の動作を示すフローチャートである。各クラスタ、初期値及び各関連語句を模式的に示す図である。

以下、図面を参照しながら、本開示の実施形態を説明する。

（１．情報処理装置のハードウェア構成）
図１は、情報処理装置のハードウェア構成を示すブロック図である。情報処理装置１０は、典型的には、ＰＣ（Personal Computer）であり、以下、「ＰＣ１０」と記載する。
ＰＣ１０は、制御部１１と、制御部１１とバス１６を介して接続された表示部１２、通信インターフェース１３、操作部１４及び記憶部１５とを有する。

制御部１１は、ＣＰＵ（Central Processing Unit）等を含む。制御部１１は、ＲＡＭ（Random Access Memory）にロードされたプログラムを実行する。

表示部１２は、ＬＣＤ（Liquid Crystal Display）や有機ＥＬ（Electroluminescence）ディスプレイ等を含む。表示部１２は、制御部１１から受け取った情報に基づいて演算処理を行い、生成した画像信号を画面に表示する。典型的には、表示部１２は外付けの表示装置である。

通信インターフェース１３は、ネットワークＮに接続するためのインターフェースである。

操作部１４は、キーボード、マウス及び各種スイッチ等を含む。操作部１４は、ユーザーからの操作を検出して制御部１１に出力する。

記憶部１５は、ＲＯＭ（Read Only Memory）と、ＲＡＭと、ＨＤＤ（Hard Disk Drive）等の大容量の記憶装置とを含む。ＲＯＭは、制御部１１が実行するプログラムやデータ等を固定的に格納する。ＲＡＭには、ＲＯＭに格納されたプログラムがロードされる。

（２．情報処理装置の機能的構成）
図２は、情報処理装置の機能的構成を示すブロック図である。

ＰＣ１０は、情報処理プログラムを実行することにより、クラスタ解析部１１１と、初期値入力部１１２と、クラスタ抽出部１１３と、語句抽出部１１４と、リンク生成部１１５と、出力部１１６として機能する。

クラスタ解析部１１１は、複数の語句と、各語句が属するクラスタと、複数の語句同士の関連性を算出するための値とを互いに関連付けて登録したテーブルを生成する。

初期値入力部１１２は、ユーザーによる操作部１４に対する特定の操作を、初期値である語句の入力要求として検出する。

クラスタ抽出部１１３は、１以上の語句をそれぞれ含む複数のクラスタから、初期値を含む第１のクラスタを抽出する。また、クラスタ抽出部１１３は、複数のクラスタから、第１のクラスタと異なる１以上の第２のクラスタを抽出する。

語句抽出部１１４は、１以上の第２のクラスタから、それぞれ、初期値と関連性の高い語句である関連語句を抽出する。

リンク生成部１１５は、抽出した各関連語句の情報資源の所在情報が紐付けられたリンク情報を生成する。

出力部１１６は、初期値と、リンク情報が紐付けられた各関連語句とを、表示部１２に出力する。

（３．情報処理装置の動作）
図３は、情報処理装置の動作を示すフローチャートである。図４は、各クラスタ、初期値及び各関連語句を模式的に示す図である。

クラスタ解析部１１１は、テーブル１５ａを生成する（ステップＳ１０１）。具体的には、クラスタ解析部１１１は、図２に示すように、複数の語句１５１と、位置情報１５２と、クラスタ１５３とを、互いに関連付けてテーブル１５ａに登録する。例えば、まず、クラスタ解析部１１１は、記憶部１５に記憶されたデータベース（図示せず）に蓄積された文書データを形態素解析により複数の語句に分割し、語句１５１としてテーブル１５ａに登録する。「文書データ」としては、例えば、書籍（例えば、教科書や各種資料等）の文章のテキストデータが挙げられる。

クラスタ解析部１１１は、テーブル１５ａに登録した語句１５１を複数のクラスタに分類する。具体的には、クラスタ解析部１１１は、語句１５１同士の関連性を算出するための値を決定する。「関連性を算出するための値」とは、例えば、各語句１５１の位置情報１５２である。「位置情報」は、例えば、公知のクラスタリング手法で用いられる多次元空間における座標や、書籍のページ番号又は行番号等である。

本例では、以下、位置情報１５２として「座標」を用いるものとする。クラスタ解析部１１１は、ユークリッド距離等の座標間の距離に基づいて語句１５１を分類する。クラスタ解析部１１１は、ユークリッド距離ｄ（ｆ，ｇ）を、以下の数１の式を用いて求める。式中、ｎは次元数、ｆ及びｇは座標のベクトルを表す。クラスタ解析部１１１は、求めた座標間の距離を用いて、座標間の距離が小さい複数の語句１５１を、関連性の高い語句の集合として、１つのクラスタにまとめる。

図４Ａの例では、クラスタ解析部１１１は、複数の語句を、関連性の高い語句の集合として、複数のクラスタＡ、Ｂ、Ｃ、Ｄ、Ｅ、Ｆ、Ｘに分類する。

初期値入力部１１２は、ユーザーによる操作部１４に対する特定の操作を、初期値である語句の入力要求として検出する（ステップＳ１０２）。初期値入力部１１２は、検出した初期値ｘを、クラスタ抽出部１１３に入力する。

クラスタ抽出部１１３は、初期値入力部１１２から取得した初期値ｘがテーブル１５ａに登録されているか否かを判断する（ステップＳ１０３）。初期値ｘがテーブル１５ａに登録されていない場合（ステップＳ１０３、Ｎｏ）、クラスタ抽出部１１３は、出力部１１６に、表示部１２にエラーメッセージを表示させるための信号を出力してもよい。初期値入力部１１２は、新たな初期値を検出（ステップＳ１０２）するまで待機する。

一方、初期値ｘがテーブル１５ａに登録されている場合（ステップＳ１０３、Ｙｅｓ）、クラスタ抽出部１１３は、複数のクラスタ１５３から、初期値ｘを含むクラスタである第１のクラスタ１５３ａを抽出する。具体的には、クラスタ抽出部１１３は、初期値ｘである語句１５１に関連付けてテーブル１５ａに登録されたクラスタ１５３を、第１のクラスタ１５３ａとして抽出する。

図４Ｂの例では、クラスタ抽出部１１３は、複数のクラスタＡ、Ｂ、Ｃ、Ｄ、Ｅ、Ｆ、Ｘから、初期値ｘ（図中の白点）が属するクラスタＸを、第１のクラスタ１５３ａとして抽出する。

クラスタ抽出部１１３は、複数のクラスタ１５３から、第１のクラスタ１５３ａ（クラスタＸ）と異なる１以上のクラスタである第２のクラスタ１５３ｂを抽出する（ステップＳ１０４）。例えば、クラスタ抽出部１１３は、第１のクラスタ１５３ａ（クラスタＸ）と関連性を有する１以上のクラスタを、予め設定された数の第２のクラスタ１５３ｂとして抽出する。具体的には、クラスタ抽出部１１３は、第１のクラスタ１５３ａの位置情報と他の各クラスタの位置情報とに基づいて、第２のクラスタ１５３ｂを抽出する。「クラスタの位置情報」とは、例えば、特定のクラスタに属するすべての語句の座標から求めたクラスタの重心である。より具体的には、クラスタ抽出部１１３は、特定のクラスタに属するすべての語句１５１のすべての座標（位置情報１５２）の和を、そのクラスタに属するすべての語句１５１の数で除算して得た値（座標）を、「クラスタの位置情報」として用いる。クラスタ抽出部１１３は、第１のクラスタ１５３ａとの重心間の距離が短い（すなわち、第１のクラスタ１５３ａとの関連性が高い）特定数のクラスタを、複数の第２のクラスタ１５３ｂとして抽出する。

図４Ｃの例では、クラスタ抽出部１１３は、第２のクラスタ１５３ｂとして、第１のクラスタＸとの重心の距離が短い特定数（本例では４個）のクラスタＡ、Ｂ、Ｃ及びＤを抽出する。図４Ｃ中、各クラスタ中の黒点は、クラスタの位置情報としての、クラスタの重心の座標を示す。

語句抽出部１１４は、第２のクラスタ１５３ｂから、それぞれ、初期値ｘと関連性の高い語句である特定数の関連語句を抽出する（ステップＳ１０５）。具体的には、語句抽出部１１４は、第２のクラスタ１５３ｂそれぞれに属する、初期値ｘと関連性の最も高い語句１５１である関連語句を、テーブル１５ａから抽出する。具体的には、語句抽出部１１４は、テーブル１５ａに登録された、初期値ｘの位置情報１５２（座標）と、各第２のクラスタ１５３ｂに含まれる各語句１５１の位置情報１５２（座標）との距離を算出する。語句抽出部１１４は、初期値ｘの位置情報１５２（座標）との距離が短い（関連性が高い）位置情報１５２に関連付けられた語句１５１を、関連語句として抽出する。

図４Ｄの例では、語句抽出部１１４は、第２のクラスタＡ、Ｂ、Ｃ及びＤから、それぞれ、初期値ｘとの距離が短い特定数（本例では１個）の関連語句ａ１、ｂ１、ｃ１及びｄ１を抽出する。図４Ｄ中、各クラスタ中の白点は、語句の座標を示す。

リンク生成部１１５は、抽出した各関連語句に対して、各関連語句の情報資源の所在情報が紐付けられたリンク情報を生成する（ステップＳ１０６）。「情報資源」とは、例えば、その関連語句が解説された文書データ等であり、インターネット等のネットワークＮに接続されたサーバー装置（図示せず）やＰＣ１０の記憶部１５に格納されている。「所在情報」とは、例えば、ネットワークＮに格納された情報資源にアクセスするためのＵＲＬ（Uniform Resource Locator）や、ＰＣ１０の記憶部１５に格納された情報資源にアクセスするためのアドレス情報である。

出力部１１６は、初期値ｘと、リンク情報が紐付けられた各関連語句とを、表示部１２に出力する（ステップＳ１０７）。典型的には、出力部１１６は、各関連語句にリンク（ハイパーリンク）を設定し、ユーザーが操作部１４を用いて選択可能な形式で表示部１２に出力する。

初期値入力部１１２は、ユーザーによる操作部１４に対する特定の操作を、表示部１２に表示された何れかの関連語句の選択要求として検出する（ステップＳ１０８、Ｙｅｓ）。初期値入力部１１２は、選択された関連語句を、初期値としてクラスタ抽出部１１３に入力する（ステップＳ１０９）。ＰＣ１０は、クラスタ抽出部１１３に入力された関連語句を初期値として、ステップＳ１０３以後の処理を繰り返す。

（４．まとめ）
初期値としての語句に対する関連語句を抽出する技術においては、ユーザーの学習効果を深めるため、初期値と関連性が高い関連語句を抽出することが一般的である。

これに対して、本実施形態によれば、クラスタ抽出部１１３が第１のクラスタ１５３ａと異なる第２のクラスタ１５３ｂを抽出し、語句抽出部１１４が第２のクラスタ１５３ｂから関連語句を抽出する。これにより、初期値に対して異なる複数の分野から関連語句を抽出することができる。これにより、ユーザーは、初期値と関連性の高い語句でありながら、異なる分野から抽出された関連語句を学習することで、初期値について幅広く学習することができる。

また、本実施形態によれば、クラスタ抽出部１１３は、第１のクラスタ１５３ａと関連性の高い１以上のクラスタを、第２のクラスタ１５３ｂとして抽出することにより、初期値である語句に対して当該語句の分野と関連性の高い分野の関連語句を抽出することができる。これにより、ユーザーは、初期値の分野と関連性の高い分野から抽出された関連語句を学習することで、初期値について幅広く、且つ、初期値の分野と関連性の高い内容を学習することができる。

（５．変形例）
（５−１．変形例１）
本実施形態では、クラスタ抽出部１１３は、テーブル１５ａに基づき第２のクラスタ１５３ｂを抽出した。これに替えて、記憶部１５が予めクラスタ同士の関連性を示すテーブル（図示せず）を記憶し、クラスタ抽出部１１３はこのテーブルから第２のクラスタ１５３ｂを抽出してもよい。

（５−２．変形例２）
本実施形態では、クラスタ抽出部１１３は、第１のクラスタ１５３ａと関連性を有する（具体的には、関連性の高い）１以上のクラスタを、第２のクラスタ１５３ｂとして抽出した。これに替えて、クラスタ抽出部１１３は、初期値と関連性を有する（具体的には、関連性の高い）１以上のクラスタを、第２のクラスタ１５３ｂとして抽出してもよい。具体的には、クラスタ抽出部１１３は、初期値の位置情報とクラスタの位置情報とに基づいて、第２のクラスタ１５３ｂを抽出する。さらに具体的には、クラスタ抽出部１１３は、初期値の位置情報（座標）と位置情報（重心の座標）との距離が小さいクラスタを、第２のクラスタ１５３ｂとして抽出する。

本形態によれば、クラスタ抽出部１１３が初期値と関連性の高いクラスタを抽出することにより、初期値である語句に対して当該語句と関連性の高い分野の関連語句を抽出することができる。これにより、ユーザーは、初期値と関連性の高い分野から抽出された関連語句を学習することで、初期値について幅広く、且つ、初期値と関連性の高い内容を学習することができる。

（５−３．変形例３）
また、本実施形態では、語句抽出部１１４は、１以上の第２のクラスタ１５３ｂから、それぞれ、初期値ｘと関連性の高い語句である関連語句を同数（１個）ずつ抽出した。これに替えて、語句抽出部１１４は、第１のクラスタ１５３ａと各第２のクラスタ１５３ｂとの関連性に応じて、各第２のクラスタ１５３ｂから抽出する関連語句の数を異ならせてもよい。

例えば、第１のクラスタ１５３ａと関連性の比較的高い第２のクラスタ１５３ｂから抽出する関連語句の数を増やすことで、初期値を含む第１のクラスタ１５３ａと関連性の比較的高い関連語句を多数抽出することができる。これにより、ユーザーは、初期値と関連性の比較的高い情報を多数知ることができ、初期値についてより深く学習することができる。

あるいは、第１のクラスタ１５３ａと関連性の比較的低い第２のクラスタ１５３ｂから抽出する関連語句の数を増やすことで、初期値を含む第１のクラスタ１５３ａと関連性の比較的低い関連語句を多数抽出することができる。これにより、ユーザーは、初期値と関連する語句でありながら、初期値から離れて広範な分野の語句を多数知ることができ、初期値についてより広く学習することができる。

（５−４．変形例４）
本実施形態では、語句抽出部１１４は、１以上の第２のクラスタ１５３ｂから、それぞれ、初期値ｘと関連性の高い語句である関連語句を抽出した。これに加えて、第１のクラスタ１５３ａからも初期値ｘと関連性の高い語句である関連語句を抽出してもよい。これにより、広範な関連語句に加えて、初期値ｘと特に関連性の高い関連語句をもユーザーに提供できる。なお、第１のクラスタ１５３ａからも関連語句を抽出する場合、第２のクラスタ１５３ｂから抽出する関連語句の数を、第１のクラスタ１５３ａから抽出する関連語句の数より増やすようにすれば、ユーザーは、広範な分野の語句を多数知ることができ、初期値についてより広く学習することができる。

（５−５．変形例５）
本実施形態では、クラスタ抽出部１１３は、図４Ｄに示すように、第１のクラスタ１５３ａと関連性の高い１以上のクラスタを、第２のクラスタ１５３ｂとして抽出した。また、変形例２では、クラスタ抽出部１１３は、図４Ｆに示すように、初期値ｘと関連性の高い１以上のクラスタを、第２のクラスタ１５３ｂとして抽出した。これに替えて、例えば、クラスタ抽出部１１３は、必ずしもすべての第２のクラスタ１５３ｂを、第１のクラスタ１５３ａ又は初期値ｘを基準として選択しなくても良い。

例えば、クラスタ抽出部１１３は、まず、第１のクラスタと関連性の最も高い第２のクラスタを抽出し、次に、抽出した第２のクラスタと関連性の最も高い別の第２のクラスタを抽出し、それを繰り返して言わば連鎖的に複数の第２のクラスタ１５３ｂを抽出してもよい。これにより、ユーザーは、初期値と関連する語句でありながら、初期値から離れて連鎖的な分野の語句を多数知ることができ、初期値についてより広く学習することができる。

（５−６．変形例６）
本実施形態では、１つの情報処理装置（ＰＣ１０）が全ての動作を実行した。これに替えて、２以上の情報処理装置が動作を分担してもよい。例えば、外部の情報処理装置（例えば、ネットワーク上のサーバー装置（図示せず）が制御部１１と記憶部１５とを有し、エンドユーザーが利用する情報処理装置（図示せず）が表示部１２と操作部１４とを有し、ネットワークを介して情報処理装置間でデータをやり取りしてもよい。

（５−７．変形例７）
あるいは、サーバー装置が制御部１１を有し、エンドユーザーが利用する情報処理装置が表示部１２、操作部１４及び記憶部１５を有し、ネットワークを介して情報処理装置間でデータをやり取りしてもよい。

（５−８．変形例８）
あるいは、サーバー装置が制御部１１を有し、エンドユーザーが利用する情報処理装置が表示部１２及び操作部１４を有し、ネットワーク上にあるさらに別の情報処理装置が記憶部１５のデータベースを有し、ネットワークを介して情報処理装置間でデータをやり取りしてもよい。

１０…ＰＣ
１１１…クラスタ解析部
１１２…初期値入力部
１１３…クラスタ抽出部
１１４…語句抽出部
１１５…リンク生成部
１１６…出力部

Claims

１以上の語句をそれぞれ含む複数のクラスタから、初期値である１つの語句を含む第１のクラスタを抽出し、
前記複数のクラスタから、前記第１のクラスタと異なる１以上の第２のクラスタを抽出する
クラスタ抽出部と、
前記１以上の第２のクラスタから、それぞれ、前記初期値と関連性の高い語句である関連語句を抽出する語句抽出部と
を具備する情報処理装置。
請求項１に記載の情報処理装置であって、
前記クラスタ抽出部は、前記第１のクラスタと関連性を有する１以上のクラスタを、前記第２のクラスタとして抽出する
情報処理装置。
請求項１又は２に記載の情報処理装置であって、
前記クラスタ抽出部は、前記初期値と関連性を有する１以上のクラスタを、前記第１のクラスタと関連性を有する前記第２のクラスタとして抽出する
情報処理装置。
請求項１乃至３の何れか一項に記載の情報処理装置であって、
前記語句抽出部は、前記第１のクラスタと各前記第２のクラスタとの関連性に応じて、各前記第２のクラスタから抽出する関連語句の数を異ならせる
情報処理装置。
請求項１乃至４の何れか一項に記載の情報処理装置であって、
前記抽出した各関連語句の情報資源の所在情報が前記各関連語句に紐付けられたリンク情報を生成するリンク生成部
をさらに具備する情報処理装置。
請求項５に記載の情報処理装置であって、
前記初期値と、前記リンク情報が紐付けられた各関連語句とを、表示部に出力する出力部
をさらに具備する情報処理装置。
請求項１乃至６の何れか一項に記載の情報処理装置であって、
ユーザーにより前記初期値として選択された、前記表示部に表示された何れかの前記関連語句を検出し、
前記選択された初期値としての関連語句を、前記クラスタ抽出部に入力する
初期値入力部
をさらに具備する情報処理装置。
請求項１乃至７の何れか一項に記載の情報処理装置であって、
前記語句抽出部は、
複数の語句と、前記各語句が属するクラスタと、前記複数の語句同士の関連性を算出するための値とを互いに関連付けて登録したテーブルを参照し、
前記１以上の第２のクラスタにそれぞれ属する、前記初期値と関連性の高い語句である関連語句を、前記テーブルから抽出する
情報処理装置。
請求項８に記載の情報処理装置であって、
前記テーブルを生成するクラスタ解析部
をさらに具備する情報処理装置。
情報処理装置を、
１以上の語句をそれぞれ含む複数のクラスタから、初期値である１つの語句を含む第１のクラスタを抽出し、
前記複数のクラスタから、前記第１のクラスタと異なる１以上の第２のクラスタを抽出する
クラスタ抽出部と、
前記１以上の第２のクラスタから、それぞれ、前記初期値と関連性の高い語句である関連語句を抽出する語句抽出部
として機能させるプログラム。