JP4587236B2

JP4587236B2 - 情報検索装置、情報検索方法、およびプログラム

Info

Publication number: JP4587236B2
Application number: JP2008216509A
Authority: JP
Inventors: 憲和松村
Original assignee: Biglobe Inc
Current assignee: Biglobe Inc
Priority date: 2008-08-26
Filing date: 2008-08-26
Publication date: 2010-11-24
Anticipated expiration: 2028-08-26
Also published as: US20100057725A1; JP2010055159A; US8793259B2

Description

本発明は、情報検索装置、情報検索方法、およびコンピュータに実行させるためのプログラムに関する。

ＷＥＢページやブログから情報を得るために検索を利用することは常識になりつつある（特許文献１参照）。その検索において、ユーザは、ＡＮＤ、ＯＲ、ＮＯＴ条件を利用して、検索式を作成する。そして、検索でヒットした原文を参照して、検索対象の情報が表示されていなければ、検索式を修正する。
特開２００４−２８７８２７号公報

検索において、ユーザが求める内容のページのみを検索してくることは難しい。特に、関係のない記事が検索結果に含まれることは多くある。例えば、「ノート」と検索をすれば、文房具のノートや、ノートパソコン、自動車の車種名（ノート）、映画・アニメの名前（○○ノート）など、検索対象とする「ノート」とは異なるジャンルからも多く検索されてしまう。

これら複数の話題を混在させないように検索するためには、ユーザが自分で、ＡＮＤ、ＯＲ、ＮＯＴ条件を利用した検索式を作成すればよいが、検索について専門知識に長けている人（以下では、エキスパートと称する）でないと検索式を作成するのは非常に困難である。

また、エキスパートであっても、様々な検索条件式で実際に検索をかけて、原文を閲覧する、関係のない記事が多ければ、検索式を作りなおすといったトライアンドエラーを繰り返さないと作成できない。

本発明は上述したような技術が有する問題点を解決するためになされたものであり、情報検索のための式を作成する際にユーザの負荷を軽減する情報検索装置、情報検索方法、および、コンピュータに実行させるためのプログラムを提供することを目的とする。

上記目的を達成するための本発明の情報検索装置は、
検索のためのキーワードが入力されると、該キーワードを含むテキストを格納部に記憶されているテキストから収集し、収集した第１のテキストの名詞を抽出し、前記キーワードと部分一致する名詞を第１の単語として決定し、前記第１のテキストのうち該第１の単語を含む第２のテキストを抽出し、該第２のテキストから名詞、動詞または形容詞の少なくとも１つである単語を抽出し、抽出した単語の使用回数をカウントし、該使用回数が上位所定のランク内である単語を前記第１の単語の関連語である第２の単語に決定し、前記第１の単語および前記第２の単語を出力する制御部を有する。

また、本発明の情報検索方法は、情報を記録するための格納部と接続された情報検索装置の制御部による情報検索方法であって、
前記制御部は、検索のためのキーワードが入力されると、該キーワードを含むテキストを格納部に記憶されているテキストから収集し、
前記制御部は、収集した第１のテキストの名詞を抽出し、前記キーワードと部分一致する名詞を第１の単語として決定し、
前記制御部は、前記第１のテキストのうち該第１の単語を含む第２のテキストを抽出し、
前記制御部は、前記第２のテキストから名詞、動詞または形容詞の少なくとも１つである単語を抽出し、
前記制御部は、前記第２のテキストから抽出した単語の使用回数をカウントし、
前記制御部は、前記第２のテキストから抽出した単語の前記使用回数が上位所定のランク内である単語を前記第１の単語の関連語である第２の単語に決定し、
前記制御部は、前記第１の単語および前記第２の単語を出力するものである。

さらに、本発明のプログラムは、コンピュータに実行させるためのプログラムであって、
検索のためのキーワードが入力されると、該キーワードを含むテキストを格納部に記憶されているテキストから収集し、
収集した第１のテキストの名詞を抽出し、前記キーワードと部分一致する名詞を第１の単語として決定し、
前記第１のテキストのうち該第１の単語を含む第２のテキストを抽出し、
前記第２のテキストから名詞、動詞または形容詞の少なくとも１つである単語を抽出し、
前記第２のテキストから抽出した単語の使用回数をカウントし、
前記第２のテキストから抽出した単語の前記使用回数が上位所定のランク内である単語を前記第１の単語の関連語である第２の単語に決定し、
前記第１の単語および前記第２の単語を出力する処理を前記コンピュータに実行させるものである。

本発明によれば、検索式作成のヒントとなる候補語が表示されるため、ユーザにとって検索式作成の際の工数を削減でき、ユーザの負荷が軽減する。

（第１の実施形態）
本実施形態の情報検索方法を実施するための構成を説明する。

図１は本実施形態の情報検索方法を説明するためのブロック図である。図１に示すように、ネットワーク１００を介して検索サーバ１０および情報処理装置２０が接続されている。検索サーバ１０は情報検索装置であり、情報処理装置２０はユーザが情報検索のために用いる端末である。ネットワーク１００には、検索対象となる情報が記憶部３１に格納され、かつ、ネットワーク上に公開可能にされたブログサーバ３０が接続されている。この記憶部３１は、本発明の格納部の一例である。

検索サーバ１０は、記憶部１１および制御部１２を有する。記憶部１１にはテキストから単語を抽出するためのアプリケーションソフトウェアである言語解析エンジンが予め登録されている。言語解析エンジンは、記述されている文章（テキスト）を解析して、品詞付きの単語に分解する。制御部１２は、プログラムにしたがって所定の処理を実行するＣＰＵ（Central Processing Unit）（不図示）と、プログラムを格納するためのメモリ（不図示）とを有する。

制御部１２は、ブログ抽出手段１１１、分解手段１１２、比較手段１１３および出力手段１１４を有する。ＣＰＵがプログラムを実行することにより、ブログ抽出手段１１１、分解手段１１２、比較手段１１３および出力手段１１４が検索サーバ１０に仮想的に構成される。各手段の動作の詳細については情報検索方法の手順で説明する。

情報処理装置２０は、ユーザが指示を入力するための入力手段２１と、検索途中の結果を表示するための表示手段２２と、ネットワークを介して検索サーバ１０からデータを受信する受信手段２３と、ネットワークを介して検索サーバ１０にデータを送信する送信手段２４と、各部を制御する制御手段２５と、外部と送受信する情報が格納される記憶手段２６とを有する。記憶手段２６には、検索のための画面を表示するためのアプリケーションソフトウェアであるブラウザが予め登録されている。

なお、ネットワーク１００に接続されるサーバおよび情報処理装置には装置毎に異なる識別子が予め付与されており、検索サーバ１０と情報処理装置２０との間でやり取りされるデータには、そのデータの送信先の装置および送信元を示す装置のそれぞれの識別子が添付されている。

次に、本実施形態の検索サーバ１０による情報検索方法を説明する。

図２は本実施形態の情報検索方法の一例を示すシーケンス図である。

ユーザが情報処理装置２０の入力手段２１を操作し、キーワードを入力すると、制御手段２５は、キーワードの情報を含む検索要求信号を送信手段２４を介して検索サーバ１０に送信する（ステップ１０１）。

検索サーバ１０がネットワーク１００を介して検索要求信号を情報処理装置２０から受信すると、ブログ抽出手段１１１は、検索要求信号からキーワードを読み出し、キーワードから検索式１を作成し（ステップ１０２）、ネットワーク１００上のブログサーバ３０に記憶されている検索対象のブログに対し、キーワードが含まれるブログを検索し（ステップ１０３）、キーワードを含むブログを抽出する（ステップ１０４）。以下では、キーワードを含むブログを「含有ブログ」と称する。

分解手段１１２は、ブログ抽出手段１１１にて抽出された含有ブログの題名や内容等の文章を品詞に分解し、分解された品詞の中から名詞を抽出し、抽出した名詞毎に使用されている回数を数える。これを全ての含有ブログに対して実行する。この処理は、記憶部１１に登録された言語解析エンジンを実行することで行われる。

比較手段１１３は、分解手段１１２で抽出された名詞と、キーワードとを比較し、キーワードと部分一致する名詞を単語Ａとして、使用回数とともにキーワードに関連付けして、記憶部１１に格納する（ステップ１０５）。単語Ａは、完全一致したものや一致しないものは含まれない。単語Ａは表記上キーワードに近い単語であることから、単語Ａを「表記ゆれ語」と称する。

また、比較手段１１３は、キーワードと比較した際に、部分的にも一致しない名詞を単語Ｂとして、キーワードに関連付けして記憶部１１に格納する（ステップ１０５）。単語Ｂは、キーワードに対して部分的にも一致していないが、キーワードに関連する単語であることから、「関連語」と称する。

次に、単語Ａに対する関連語である単語Ｃを抽出するために、検索サーバ１０は、以下の動作を実行する。単語Ｃは、「単語Ａの関連語」に相当する。

ブログ抽出手段１１１は、ある既定数より使用回数が多いもしくはある既定数より高い順位の単語Ａを記憶部１１から読出し、検索式１と単語Ａとから検索式２を作成し（ステップ１０６）、含有ブログ（もしくは検索対象のブログ）に対して、記憶部１１に格納された単語Ａで検索し、単語Ａを含むブログを抽出する（ステップ１０７）。分解手段１１２は、ブログ抽出手段１１１にて抽出された単語Ａを含む含有ブログの題名や内容等の文章を品詞に分解し、分解された品詞（他に動詞または形容詞が含まれても良いが説明を簡単にするため名詞として説明する）の中から名詞を抽出し、数量をカウントする。比較手段１１３は、抽出された名詞と、キーワードまたは単語Ａとを比較し、一致しない名詞を単語Ｃとして、単語Ａに関連付けして記憶部１１に格納する（ステップ１０８）。

出力手段１１４は、単語Ａと、単語Ａに関連づけされた、ある既定数より使用回数が多いもしくはある既定数より高い順位の単語Ｃとを記憶部１１から読出し、単語Ａを検索語に追加するかしないかを入力する追加要否欄を付加して、検索語確認画面データとして、情報処理装置２０に送信する（ステップ１０９）。

図３は本実施形態の検索語確認画面の一例を示す図である。図３に示すように、単語Ａと、単語Ａに関連する単語Ｃと、単語Ａを検索語に追加するか否かの追加要否の入力欄（以下では、追加要否欄と称する）とが横一列に並んで表示されている。追加要否欄は、検索語に追加する場合の「検索語に追加」と、検索語から除外する場合の「検索に不要」との２つの欄を含む。

図３に示す表の２行目には、左から順に単語Ａの「ＸＹＺ」、単語Ｃの「ｇｈｉ（）、ｊｋｌ（）、・・・」、そして、追加要否欄が表示されている。３行目には、左から順に単語Ａの「ＵＶＷ」、単語Ｃの「ｍｎｏ（）、ｐｑｒ（）、・・・」、そして、２行目と同様に、追加要否欄が表示されている。図３では省略しているが、単語Ｃの（）内には、その単語Ｃがブログで使用されている回数が表示される。追加要否欄には、チェック印や丸印などが記入される。

情報処理装置２０の受信手段２３が検索サーバ１０を介して検索語確認画面データを受信すると、制御手段２５が、検索語確認画面データに基づいた検索語確認画面を表示手段２２に表示させる（ステップ１１０）。

ユーザは、検索語確認画面を見て、列挙された単語Ａのうち、検索語に追加したい単語があれば、入力手段２１を操作して、その行の追加要否欄の「検索語に追加」をチェックする。反対に、検索語から除外したい単語があれば、入力手段２１を操作して、その行の追加要否欄の「検索に不要」をチェックする。検索に追加したい単語、検索から除外したい単語が複数あれば、複数チェックしてもよい。

上述のようにしてユーザが入力手段２１を操作して、指定した単語Ａの検索語への追加または検索語からの除外の指示を入力し、送信指示を入力すると、情報処理装置２０は、ユーザの指示内容に対応して、指定された単語Ａを検索語に追加する旨のフラグまたは追加しない旨のフラグを付加した検索語回答データを検索サーバ１０に送信手段２４を介して送信する。

検索サーバ１０のブログ抽出手段１１１は、情報処理装置２０から検索語回答データを受信すると、検索語回答データの情報に基づいて、検索語に追加する旨のフラグの単語ＡはＯＲに追加し、検索語に追加しない旨のフラグの単語ＡはＮＯＴに追加して、検索式（検索式３）を作成する（ステップ１１２）。そして、含有ブログ（もしくは検索対象のブログ）に対して、検索式３で検索し（ステップ１１３）、ブログを抽出する。検索式はキーワードに関連付けして記憶部１１に格納する。

分解手段１１２は、ブログ抽出手段１１１にて抽出されたブログの題名や内容等の文章を品詞に分解し、分解された品詞の中から名詞を抽出し、数量をカウントする。

比較手段１１３は、抽出された名詞と、キーワード、追加された単語Ａとを比較し、部分的にも一致しない名詞を単語Ｅ（検索後の関連語）として、キーワードに関連付けして記憶部１１に格納する（ステップ１１４）。出力手段１１４は、単語Ｅと使用回数とを含む関連語画面データを情報処理装置２０に送信する（ステップ１１５）。

情報処理装置２０の受信手段２３が検索サーバ１０から関連語画面データを受信すると、制御手段２５は、関連語画面データに基づいて、単語Ｅを使用回数の大きさに比例した大きさのフォントサイズで表示手段２２に関連語画面を表示させる（ステップ１１６）。

ユーザは、関連語画面を見て、検索対象に関連していない単語が含まれていると判断すると、検索し直すために入力手段２１を操作して、検索語確認画面に戻る旨の指示を入力する。制御手段２５は、検索語確認画面に戻る旨の指示が入力されると、検索語確認画面に戻ることを要求する信号である戻り要求信号を検索サーバ１０に送信する（ステップ１１７）。検索サーバ１０は、情報処理装置２０から受信した信号が戻り要求信号であると判定すると（ステップ１１８）、ステップ１０９に戻り、出力手段１１４が検索語確認画面データを情報処理装置２０に送信する。

一方、ユーザは、関連語画面を見て、検索対象に関連する単語だけ画面に表示されていると判断すると、検索式の実行を指示するために入力手段２１を操作して、検索実行の指示を入力する。制御手段２５は、検索実行の指示が入力されると、検索式の確定を要求する旨の信号である確定要求信号を検索サーバ１０に送信する（ステップ１１７）。検索サーバ１０は、情報処理装置２０から受信した信号が確定要求信号であると判定すると（ステップ１１８）、ステップ１１２で作成した検索式を実行して対象のブログを抽出し（ステップ１１９）、検索して抽出したブログの文章が含まれる検索後画面データを情報処理装置２０に送信する（ステップ１２０）。情報処理装置２０は、検索サーバ１０から検索後画面データを受信すると、検索後画面を表示する（ステップ１２１）。

ＮＥＣ製のサーバ「Express5800」の記事を検索する場合について説明する。なお、下記ステップは図２のフローチャートに示したものである。

図４は検索のためのキーワードの入力画面の一例を示す図である。ユーザが情報処理装置２０の入力手段２１を操作して検索要求する旨の指示を入力すると、図４に示す検索初期画面が表示手段２２に表示される。ここでは、情報処理装置２０の記憶手段２６に登録されているブラウザの初期画面にキーワード入力画面があるものとしているが、初期画面を検索サーバ１０から取得するようにしてもよい。

ユーザが入力手段２１を操作して、図４に示すキーワード入力欄に「express」、「エクスプレス」、「えくすぷれす」の３つの単語を入力する。その後、図４に示す「次へ」のボタンが選択されると、情報処理装置２０は３つのキーワードを含む検索要求信号を検索サーバ１０に送信する（ステップ１０１）。

検索サーバ１０は、情報処理装置２０から検索要求信号を受信すると、検索要求信号からキーワードを読み出し、対象ブログを抽出するための、次の検索式１を作成する（ステップ１０２）。
express or エクスプレス or えくすぷれす・・・式１
検索サーバ１０は、ネットワーク１００上で公開されているブログから、検索式１により含有ブログを抽出する。

図５は含有ブログの一例を示す図である。図５に示す含有ブログはＮＥＣがネットワーク上で公開しているニュース記事である。検索サーバ１０は、この含有ブログの題名や内容等の文章を品詞に分解する。題名と内容のそれぞれについて分解処理すると、題名：「新製品／情報」となり、内容：「・・・／×月／×日／、／NEC／は／Express5800／サーバ／の／新製品／を／発表しました／。／今回／の／特徴／は、／ＰＣ／と／・・・」となる。

続いて、検索サーバ１０は、分解された品詞の中から名詞を抽出する。抽出された名詞は、「新製品、情報、NEC、Express5800、サーバ、ＰＣ、・・・」となる。さらに、上述のようにして分解処理した名詞のそれぞれについて、図５に示した含有ブログ内で使用されている回数を数える。その結果は、各名詞の使用回数を（）に示すと、「新製品（２）、情報（１）、NEC（１）、Express5800（１）、サーバ（１）、ＰＣ（１）、・・・」であった。

検索サーバ１０は、検索式１で抽出した含有ブログの全てに対して、各名詞の使用回数を数える。結果は、「Express5800（１００）、NEC（１００）、つくばエクスプレス（９０）、サーバ（８５）、電車（８５）、秋葉原（６５）、エクスプレス予約（６０）、新幹線（６０）、PC（５０）、特急（４０）、電車（４０）、TSUKUBA（３０）、・・・」となった。なお、「つくばエクスプレス」および「新幹線」は登録商標である。

検索サーバ１０は、抽出した名詞とキーワードとを比較し、キーワードと部分一致する名詞を単語Ａとする。単語Ａは、「Express5800（１００）、つくばエクスプレス（９０）、エクスプレス予約（６０）、・・・」となる。ここでは、説明を簡単にするために、使用回数の多い上位３つを単語Ａとする。

一方、単語Ｂは、上述のようにして抽出した名詞から単語Ａを除いたものであるから、「NEC（１００）、サーバ（８５）、電車（８５）、秋葉原（６５）、新幹線（６０）、PC（５０）、特急（４０）、電車（４０）、TSUKUBA（３０）、・・・」となる。

ステップ１０６で、検索サーバ１０は、検索式１と単語Ａを掛け合わせた、次の３つの検索式２を作成する。
（express or エクスプレス or えくすぷれす）and Express5800・・・式２−１
（express or エクスプレス or えくすぷれす）and つくばエクスプレス・・・式２−２
（express or エクスプレス or えくすぷれす）and エクスプレス予約・・・式２−３
検索サーバ１０は、式２−１により抽出した全ての含有ブログに対して、単語Ａを求めたときと同様にして、名詞を抽出し、名詞毎の使用回数を求める。その結果、使用回数の多いものから順に並べると、「NEC（１００）、サーバ（８５）、PC（５０）、・・・」となった。これらが、“Express５８００”の関連語である単語Ｃとなる（ステップ１０８）。同様にして、式２−２により抽出した全ての含有ブログから、“つくばエクスプレス”の関連語である単語Ｃが「電車（８５）、秋葉原（６５）、TSUKUBA（３０）・・・」と求まる。式２−３により抽出した全ての含有ブログから、“エクスプレス予約”の関連語である単語Ｃが「新幹線（６０）、特急（４０）、電車（４０）、・・・」と求まる。

ステップ１０９で、検索サーバ１０は、単語Ａと、ある既定数より高い順位の単語Ｃと、単語Ａを検索語に追加するか否かを指定するための追加要否欄を付加した画面のデータである検索語確認画面データを情報処理装置２０に送信する。

図６は情報処理装置に表示される検索語確認画面の一例を示す図である。

図６に示す表の１列目には、単語Ａ“Express５８００”、“つくばエクスプレス”および“エクスプレス予約”が上から順に記述されている。２列目には、各単語Ａに対応する単語Ｃが記述されている。ここでは、単語Ｃとして、使用回数が上位３つの単語まで列挙されている。例えば、１行目の単語Ａ“Express５８００”の単語Ｃとして、NEC、サーバ、およびPCの３つが挙げられている。

さらに、各行の３列目および４列目に追加要否欄が設けられている。３列目は単語Ａを検索語に追加したい場合の追加「要」の欄であり、４列目は単語Ａを検索語から除外したい場合の追加「否」の欄である。ユーザは、単語Ａを検索語に追加したい場合には、追加「要」の欄に印を付け、その反対に単語Ａを検索語から除外したい場合には追加「否」の欄に印を付ける。ユーザは、単語Ｃを参照して単語Ａを検索語に追加すべきか否かを判断すればよい。

図６に示す例では、“Express５８００”は追加「要」の欄に丸印が付けられ、“つくばエクスプレス”および“エクスプレス予約”は追加「否」の欄に丸印が付けられている。

検索サーバ１０は、検索語確認画面に図６に示すような追加要否の情報が付加された検索語回答データを情報処理装置２０から受信すると、検索語に追加する単語Ａ“Express５８００”を検索式１のＯＲに追加し、さらに、検索語に追加しない単語Ａ“つくばエクスプレス”および“エクスプレス予約”をその検索式のＮＯＴに追加して、追加要否の情報を反映した次の検索式３を作成する（ステップ１１２）。
（express or エクスプレス or えくすぷれす or Express5800）not（つくばエクスプレス or エクスプレス予約）・・・式３
検索サーバ１０は、式３により抽出した全ての含有ブログに対して、単語Ａを求めたときと同様にして、名詞を抽出し、名詞毎の使用回数を求める。その結果、使用回数の多いものから順に並べると、「NEC（１００）、サーバ（８５）、PC（５０）、・・・」となった。これらが、検索後の関連語である単語Ｅとなる（ステップ１１４）。

ステップ１１５で、検索サーバ１０は、単語Ｅおよびその使用回数ならびに検索式３の情報を含む関連語画面データを情報処理装置２０に送信する。情報処理装置２０は、検索サーバ１０から関連語画面データを受け取ると、関連語画面データに基づいて、単語Ｅをその使用回数の値の大きさに比例した大きさのフォントサイズで関連語画面に表示する（ステップ１１６）。また、検索式３を関連語画面に表示する。

図７は関連語画面の一例を示す図である。

図７に示すように、画面の上側に検索式３が表示されている。画面の下側には、２つのボタンが表示されている。１つは「戻る」であり、もう１つは「確定」である。画面の中ほどには、関連語として単語Ｅが表示されている。表示されている「NEC」のフォントサイズが最も大きく、次に「サーバ」のフォントサイズが大きく、「PC」のフォントサイズは「サーバ」よりも小さい。これは、各単語の使用回数の大きさに対応しているためである。使用回数が大きい単語ほどフォントサイズが大きく、使用回数が小さい単語ほどフォントサイズが小さい。

このように関連性の高い単語ほどフォントサイズを大きくして表示することで、ユーザは、検索がより正しく行われているか否かを判定することができる。

ユーザが情報処理装置２０の入力手段２１を操作して、図７の関連語画面の「確定」を選択すると、情報処理装置２０は、確定信号を検索サーバ１０に送信する。検索サーバ１０は、確定信号を情報処理装置２０から受信すると、対象のブログの情報をネットワーク１００を介して取得し、ブログの情報を含むブログ画面データを情報処理装置２０に送信する。図８は検索結果のブログが表示された画面の一例を示す図である。図８に示すように、検索されたブログが順に表示されている。

一方、図７の画面に示す関連語の中に関連性のない単語が含まれており、ユーザが情報処理装置２０の入力手段２１を操作して「戻る」を選択すれば、ステップ１１２に戻り、ユーザは、除外したい単語をＮＯＴ条件に加えることが可能となる。

上述の検索方法では、ユーザは次のような簡単な操作を行えばよいことがわかる。
操作１：検索対象について思いつくキーワードを入力する。
操作２：表示される単語Ａ（表記ゆれ語）に対して、同時に表示された単語Ｃを参考に、関係/無関係を選択する。
操作３：表示される単語Ｅ（検索後の関連語）がユーザの検索したいものと関連しているかどうかを判断する。
操作４：関連していない語が含まれていたら、操作２に戻りやり直す。表示された語が全て関連していれば検索式の編集を終了し、編集が終了した検索式で検索を実行する。

また、検索サーバ１０による、単語Ａ、Ｂ、Ｃのそれぞれの抽出方法についてまとめると次のようになる。
（単語Ａの抽出方法）
（ｉ）入力された検索条件でテキストを抽出する。
（ｉｉ）テキストに対して言語解析エンジンで単語毎に抽出する。
（ｉｉｉ）単語のうち名詞の中で、最も出現数が多い単語（高頻度語）から順に列挙する。
（ｉＶ）各単語に対して、入力された検索条件にヒットするかマッチングにより調べる。完全一致であれば、消去し、部分一致であれば、単語Ａとして表示する。単語Ａは本発明の第１の単語に相当する。

例えば、expressは検索式と完全一致なので消去される。一方、Express５８００は部分一致なので、単語Ａとして表示される。

（単語Ｂの抽出方法）
単語Ａの（ｉ）から（ｉｉｉ）まで同様に実施した後、各単語に対して、入力された検索条件にヒットするかをマッチングにより調べる。一致しなければ、単語Ｂとして表示する。単語Ｂは本発明の第３の単語に相当する。

（単語Ｃの抽出方法）
（ｉ）［入力された検索条件and単語Ａ］でテキストブログを抽出する。
（ｉｉ）単語Ａの抽出方法における（ｉｉ）、（ｉｉｉ）と同様に行う。単語Ｃは本発明の第２の単語に相当する。

本実施形態によれば、検索式作成のヒントとなる候補語が表示されるため、ユーザにとって検索式作成の際の工数を削減でき、ユーザの負荷が軽減する。ユーザは検索に関して専門的な知識を持っていなくても、検索サーバとやり取りを繰り返すことによって、より高精度な検索を実行することが可能となる。

なお、作成された検索式を全て記憶部１１に保存しておき、他のユーザが同じような検索を行う際、検索サーバ１０が記憶部１１に保存した検索式をそのユーザに提示して推奨してもよい。過去に作成された検索式を用いることで、ユーザの負荷が軽減するだけでなく、検索サーバ１０の計算処理の負荷も軽減する。

（第２の実施形態）
本実施形態は、第１の実施形態に比べてユーザが入力する検索条件をより充実させることで、検索対象のブログをより効率よく収集することを可能にしたものである。

本実施形態における検索方法では、ユーザの操作は次のようになる。
操作１：検索対象について思いつくキーワードの入力（ＡＮＤ、ＯＲ条件）、禁止ワード（ＮＯＴ条件）の設定を行う。図９は本実施形態のキーワード入力画面の一例を示す図である。図９に示す画面では、図４に示した画面に、禁止ワードの入力欄が追加されている。
操作２：表示される単語Ａ（表記ゆれ語）、単語Ｂ（関連語）に対して関係/無関係を選択する。
操作３：データを更新し、単語Ａ、単語Ｂを再計算させ、再表示させる。
操作４：関係のない単語があまりにも多すぎるようであれば、操作１に戻り原因となる単語を条件式から削除する。修正できるレベルであれば、操作２に戻りやり直す。表示された語が全て関連していれば検索式の編集を終了し、編集が終了した検索式で検索を実行する。

上述の操作に伴う、検索サーバ１０の動作を説明する。

図２に示すシーケンス図のステップ１０５で単語Ｂを求めた後、検索サーバ１０は、次のようにして、ステップ１０８で単語Ｂに対する関連語である単語Ｄを抽出する。

ブログ抽出手段１１１は、検索式１と単語Ｂとから検索式４を作成し、含有ブログに対して、記憶部１１に格納された単語Ｂで検索し、単語Ｂを含むブログを抽出する。検索式４の一例として、実施例１の場合で考えると、検索式４は、
（express or エクスプレス or えくすぷれす）and ＮＥＣ・・・式４
となる。

分解手段１１２は、ブログ抽出手段１１１にて抽出された単語Ｂを含む含有ブログの題名や内容等の文章を品詞に分解し、分解された品詞（他に動詞または形容詞が含まれても良いが説明を簡単にするため名詞として説明する）の中から名詞を抽出し、数量をカウントする。比較手段１１３は、抽出された名詞と、キーワードまたは単語Ｂとを比較し、一致しない名詞を単語Ｄとして、単語Ｂに関連付けして記憶部１１に格納する。単語Ｄは、式４の場合では、単語Ｂである“ＮＥＣ”の関連語として「サーバ（８５）、PC（５０）・・・」となる。

上述のようにして検索サーバ１０が単語Ｄを抽出すると、出力手段１１４は、図６に示した表の他に、単語Ｂと、単語Ｂに関連づけされた、ある既定数より使用回数が多いもしくはある既定数より高い順位の単語Ｄとを記憶部１１から読出し、単語Ｂを検索語に追加するかしないかを入力する追加要否欄を付加した表の情報を検索語確認画面データに追加し、検索語確認データを情報処理装置２０に送信する（ステップ１０９）。

図１０は本実施形態の検索語確認画面の一例を示す図である。図１０に示す画面には、２つの表があり、上側の表には、図６と同様な表が表示されている。下側の表には、単語Ｂと、単語Ｄと、追加要否欄とが、単語Ｂに対応して設けられている。

ユーザは、図１０に示す検索語確認画面から、単語Ａと単語Ｃに関する情報の他に、単語Ｂとその関連語である単語Ｄの情報を入手することが可能となる。そして、単語Ｂについても検索語に追加するか否かの情報を検索サーバ１０に返信することが可能となる。

本実施形態では、検索のための条件の情報量をより多くすることで、情報処理装置２０と検索サーバ１０との間でのやり取りの回数を減らすことで、検索効率を向上させることができる。

なお、検索サーバ１０による、単語Ｄの抽出方法をまとめると次のようになる。
（単語Ｄの抽出方法）
（ｉ）［入力された検索条件and単語Ｂ］でテキストブログを抽出する。
（ｉｉ）第１の実施形態の単語Ａの抽出方法における（ｉｉ）、（ｉｉｉ）と同様に行う。単語Ｄは本発明の第４の単語に相当する。

（第３の実施形態）
本実施形態は、第１の実施形態で抽出される単語Ｃおよび第２の実施形態で抽出される単語Ｂ、単語Ｄの上位に汎用語が入らないようにするものである。汎用語とは、文章の中で汎用的に使われる言葉である。汎用語として、例えば、時間、ブログ、日記などの単語がある。

ここでは、一定期間に発表もしくは更新されたブログを対象にするバッチ処理型の場合で説明する。

図１１は本実施形態の汎用語抽出方法を説明するためのブロック図である。なお、第１または第２の実施形態と同様な構成については同一の符号を付し、その詳細な説明を省略する。

図１１に示すように、ネットワーク１００を介して汎用語抽出サーバ５０および情報処理装置２０が接続されている。ネットワーク１００には、汎用語を抽出するためのブログが格納されたブログサーバ３０が接続されている。

汎用語抽出サーバ５０は、記憶部５１および制御部５２を有する。記憶部５１には言語解析エンジンが予め登録されている。制御部５２は、プログラムにしたがって所定の処理を実行するＣＰＵ（不図示）と、プログラムを格納するためのメモリ（不図示）とを有する。制御部５２は、ブログ抽出手段１１１、分解手段１１２、スコア算出手段１１５、出力手段１１４、および汎用語削除手段１１６を有する。ＣＰＵがプログラムを実行することにより、ブログ抽出手段１１１、分解手段１１２、スコア算出手段１１５、出力手段１１４、および汎用語削除手段１１６が汎用語抽出サーバ５０に仮想的に構成される。各手段の動作の詳細については、汎用語抽出動作手順で説明する。

次に、本実施形態の汎用語抽出サーバ５０による汎用語抽出動作手順を説明する。図１２は汎用語抽出サーバの動作手順を示すフローチャートである。

ユーザが情報処理装置２０の入力手段２１を操作して、汎用語を抽出したい対象ブログの期間を入力すると、情報処理装置２０の制御手段２５は、入力された期間と汎用語の抽出を要求する旨の情報を含む汎用語抽出要求信号を汎用語抽出サーバ５０に送信する。汎用語抽出したい対象ブログの期間とは、例えば、現在から直近１〜２年ぐらいの長期間である。

汎用語抽出サーバ５０が情報処理装置２０から汎用語抽出要求信号を受信すると、ブログ抽出手段１１１は、汎用語抽出要求信号から指定された期間を読み出し、読み出した期間に投稿されたブログをブログサーバ３０から抽出し、抽出したブログの日付（ブログ記事投稿日）、記事タイトルおよび記事本文を読み出して記憶部５１に格納する（ステップ２０１）。

続いて、分解手段１１２は、取得した全ブログ記事（タイトル＋本文）に対して、言語解析エンジンを用いて単語ごとに抽出する。その際、タイトルは重要度が高いため、タイトルから抽出された単語の重みを大きくする（ステップ２０２）。例えば、単語の使用件数を３倍にする処理を行う。なお、言語解析エンジンが、記述されている文章を解析して、品詞付きの単語（例．ブログ／名詞など）に分解することは、第１および第２の実施形態と同様である。

次に、スコア算出手段１１５は、分解手段１１２の言語解析処理により分解された単語を日次ベースで集計する、単語の日次集計処理を行う（ステップ２０３）。そして、日次、ランキング、単語および件数の情報を１つの組にして出力して記憶部５１に格納する。以下に、出力例として、２００８年１月１日と、１月２日の場合を示す。
2008/1/1 １位ブログ５００件
2008/1/1 ２位時間４８０件
…
2008/1/2 １位祝日６００件
2008/1/2 ２位時間５８０件
…
上述の例では、２００８年１月１日の日次ベースでは、「ブログ」という単語が５００件使用され、１位にランクされていることを示している。また、２００８年１月２日の日次ベースでは、「祝日」という単語が６００件使用され、１位にランクされていることを示している。

続いて、スコア算出手段１１５は、汎用語を抽出するために、ランク付けした単語のスコアを算出する（ステップ２０４）。スコア算出方法として３つの方法のいずれかを用いるが、その方法については後述する。汎用語の条件として、次の２つがある。
条件１：ブログに出現する頻度が非常に高い単語であること。
条件２：毎日、定常的に利用される単語であること（毎日の出現する頻度に変動が少ない単語であること）。

その後、出力手段１１４は、ステップ２０４により算出されたスコアが降順になるように単語を並べ替えたリストである汎用語リストを作成し、汎用語リストを記憶部５１に登録する（ステップ２０５）。汎用語リストは、検索対象から除外する単語が記述されたものに相当する。また、出力手段１１４は、汎用語リストを登録した旨の情報を情報処理装置２０に通知する。

ここで、汎用語スコア算出方法について３つの方法を説明する。

第１の方法は、情報量、単語出現件数を利用するものである。単語wの汎用語スコア計算式は、
Score(w) = αF(w)×(1+log T(w))×ΣHt(w)・・・式５
と表される。

αはスコア調整定数である。F(w)は対象全期間での単語w出現総件数を示す。T(w)は単語wが利用された期間数を示す。ΣHt(ｗ)は各期間での情報量（ばらつき具合
）の総和である。tは、指定された期間内の日付である。

式５のHt(w)には、例えば、情報エントロピーなどを用いる。Ht(w)の一例を以下に示す。
Ht(w)＝−Ft(w)/F(w)×log(Ft(w)/F(w))・・・式６
式６のFt(w)は、日付tでの単語w出現件数を示す。

次に、第２の方法を説明する。第２の方法は、情報量、単語出現確率を利用するものである。単語wの汎用語スコア計算式は、
Score(w) = αP(w)×(1+log T(w))×ΣHt(w)・・・式７
と表される。

P(w)は日次単語w出現確率の全期間での総和(=ΣFt(w)/Ft、t=min,min+1,…)を示
す。Ftは、日付tでの全単語出現件数の総和を示す。T(w)およびαは第１の方法と同様である。

式７のHt(w)には、例えば、情報エントロピーなどを用いる。Ht(w)の一例を以下に示す。
Ht(w)＝−Pt(w)/P(w)×log(Pt(w)/P(w))・・・式８
式８のPt(w)は日付tでの単語w出現確率(=Ft(w)/Ft)を示す。

次に、第３の方法を説明する。第３の方法は、情報量、単語出現件数の順位を利用するものである。単語wの汎用語スコア計算式は、
Score(w) = αO(w)×(1+log T(w))×ΣHt(w)・・・式９
と表される。

O(w)は、単語w日次出現順位ポイントの全期間での総和を示す。高順位ほど高いポイントになるように点をつける。例えば、１位：5000点、２位：4999点、・・・などである。T(w)およびαは第１の方法と同様である。

式９のHt(w)には、例えば、情報エントロピーなどを用いる。Ht(w)の一例を以下に示す。
Ht(w)＝−Ot(w)/O(w)×log(Ot(w)/O(w))・・・式１０
式１０のOt(w)は、単語w日次出現順位ポイントを示す。高順位ほど高ポイントになるように点をつける。例えば、１位：5000点、２位：4999点、・・・などである。

第１の方法は、第２および第３の方法に比べて、計算量が少なくて済むという利点がある。第２の方法は、第３の方法と比べると、計算量が少なくて済むだけでなく、日々の総数（全ブログ件数）の変動に影響されないという利点がある。

第３の方法は、日々の総数（全ブログ件数）の変動に影響されないだけでなく、第１および第２の方法よりも、定常的に使用されている単語を精度よく抽出できる。つまり、一定期間のみ急増するような単語を抽出せず、常に一定量書き込みのある単語のみ精度よく抽出することができる。「一定期間のみに急増するような単語」とは、例えば、ワールドカップサッカーおよびオリンピックなどのスポーツイベントの名称、公開中の映画または視聴率の高いドラマに出演したタレントの名前がある。

次に、本実施形態の汎用語抽出サーバ５０が作成した汎用語リストを第１または第２の実施形態で説明した情報検索方法に適用する場合を説明する。なお、汎用語リストを第１の実施形態（単語Ｃ）および第２の実施形態（単語Ｂ、単語Ｄ）のいずれに使用しても説明が同様になるため、ここでは、第１の実施形態（単語Ｃ）に汎用語リストを使用する場合で説明する。

図１に示す検索サーバ１０は、第１の実施形態において、ステップ１０８で単語Ｃを抽出した後、検索語確認画面データと汎用語の分析依頼を要求する旨の情報を含む汎用語分析依頼情報を汎用語抽出サーバ５０に送信する。

汎用語抽出サーバ５０の汎用語削除手段１１６は、検索サーバ１０から汎用語分析依頼情報を受信すると、検索語確認画面データの単語と汎用語リストをマッチングさせる。マッチングの結果、以下の２つの方法のいずれかにより、汎用語に相当する単語の重みを下げる。
（１）検索語確認画面データのスコア（使用回数、件数）に汎用語スコアの逆数（1/汎用語スコア）を乗算し、検索語確認画面における汎用語の出力順位を下げる。汎用語スコアは汎用語順位が高いほど高いスコアである。
（２）マッチングにより汎用語と一致した単語を検索語確認画面から完全に非表示にする。

なお、ユーザによる指定により、単語リストと汎用語の分析依頼を要求する旨の情報とを含む汎用語分析依頼情報を情報処理装置２０から汎用語抽出サーバ５０に送信するようにしてもよい。また、ブログデータの出力の仕方を情報処理装置２０からユーザが指定するようにしてもよい。

上述の方法とは別の方法として、検索サーバ１０は、第１の実施形態において、ステップ１０８で単語Ｃを抽出した後、汎用語抽出サーバ５０の記憶部５１の汎用語リストにアクセスし、汎用語リストに挙げられている単語Ｃのスコア（使用回数、件数）を下げてもよい。

本実施形態は、単語Ｃに限らず、表記ゆれ語、関連語の候補リスト、急上昇ワード、または、高頻度語などを抽出／収集した単語のリストにも用いることができ、抽出された単語の上位から汎用語を取り除くことで、より関連性のある単語が上位に表示されるため、ユーザは検索対象の情報により早くたどり着くことができる。

また、ユーザが予め汎用語リストを作成しなくても、情報抽出／収集を行う際、汎用語リストを用いることで抽出／収集結果から不必要な単語が除外されるため、抽出／収集の分析結果に対する可読性が向上する。また、非表示（ＮＧ）ワードを自動的に生成するため、ユーザの作成負荷が軽減する。さらに、汎用語の網羅性が向上する。

なお、汎用語抽出処理をバッチ処理型の場合で説明したが、自動処理型であってもよい。以下に、自動処理型の動作を簡単に説明する。

毎日、例えば、午前０時に１回起動するといったように、タイマーで自動実行されるように設定されている。

ブログ抽出手段１１１は、新規追加分のブログデータを取得する。データには日付（ブログ記事投稿日）、記事タイトル、記事本文が含まれている。また、過去分の単語統計量を記憶部５１から読み出し、単語統計量を取得する。これにより、日次、単語、頻度（件数、順位、確率の少なくとも１つ）の情報を取得する。スコア算出手段１１５は、ステップ２０２の言語解析処理およびステップ２０３の単語の日次集計処理を行って、最新ブログの単語統計量を算出する。その後、スコア算出手段１１５は、ステップ２０４の汎用語スコア算出処理を行い、出力手段１１４が作成した汎用語リストを記憶部５１に登録する。

また、本実施形態では、汎用語抽出サーバ５０を検索サーバ１０とは別に設けたが、検索サーバ１０に汎用語抽出サーバ５０の機能を備えるようにしてもよい。

また、汎用語抽出のための集計対象の期間が本発明の第１の所定の期間に相当する。また、本実施形態では、説明を簡単にするために、本発明の「第２の所定の期間毎」として「日毎」の場合で説明したが、日毎に限らず、週毎、月毎など第１の所定期間より短い期間であればよい。以下の実施例においても、説明を簡単にするために、第２の所定期間毎を「日毎」の場合で説明する。

さらに、本実施形態では、説明を簡単にするために、汎用語の候補の単語を名詞の場合で説明したが、単語は名詞に限らず動詞や形容詞が含まれていてもよい。以下の実施例においても、汎用語の候補の単語は、名詞、動詞または形容詞などのいずれの品詞でもよい。

本実施例では、第３の実施形態で説明した第１から第３の方法のそれぞれの汎用語スコア算出方法の別例を示す。

図１３は日次集計の一例を示す表である。図１３は、２００８年１月１日と、１月２日の日毎の結果を示す。図１４は一定期間の総集計の一例を示す表である。図１４は、２００８年１月１日から２００Ｘ年Ｘ月Ｘ日までの期間における総集計の結果を示す。

図１３および図１４を用いて、情報量、単語出現件数を利用する第１の方法の場合を説明する。

（第１の方法）
総件数が上位（既定件数以上）でかつ日次集計の件数の変動が少ない（規定件数値内で変動）ものが選ばれる。

例えば、総件数が2000件以上のものを抽出する。図１４から、単語ａ，ｂ，ｃ，ｄ，・・・が抽出される。

その中で、日次の件数が相対的に±50件以内で推移しているものは単語ａ,ｃである（単語ｂの1/2の件数は430未満、単語ｄの1/2の件数は400未満だったとする。単語ａ，ｂ，ｃ，ｄ以外の総件数が2000件以上の他の単語も同様に規定値外で変動だったとする）。よって、単語ａと単語ｃが汎用語として選ばれる。

なお、規定件数値内での変動は、前日との件数の差、もしくは、その単語の期間内の最上位と最下位の差である。このことは第２、第３の方法についても同様である。

（第２の方法）
次に、情報量、単語出現確率を利用する第２の方法の場合を説明する。

日次確率の総和が上位（既定値以上）でかつ日次集計の確率の変動が少ない（規定値内で変動）ものが選ばれる。

例えば、日次確率の総和が規定値0.04％以上のものを抽出する。図１４から、単語ａ,ｂ,ｃ,ｄ，・・・が抽出される。

その中で、日次の確率が相対的に±0.003％以内で推移しているものは単語ａ,ｃである（単語ｂの1/2の確率は0.0061以下、単語ｄの1/2の確率は0.0055以下だったとする。単語ａ，ｂ，ｃ，ｄ以外の総和が規定値0.04％以上の他の単語も同様に規定値外で変動だったとする）。よって、単語ａと単語ｃが汎用語として選ばれる。

（第３の方法）
次に、情報量、単語出現順位を利用する第３の方法の場合を説明する。

順位ポイントの総和が上位（既定位以上）でかつ日次集計の順位ポイントの変動が少ない（規定値内で変動）ものが選ばれる。

例えば、順位ポイントの総和が上位10位（or 既定値25000）以上のものを抽出する。図１４から、単語ａ，ｂ，ｃ，ｄ，・・・が抽出される。

その中で、日次の順位ポイントが相対的に±8以内（８位以内）で推移しているものは単語ａ，ｃである（単語ｂの1/2の順位ポイントは4990以下（１１位以下）、単語ｄの1/2の順位ポイントは4988以下（１３位以下）だったとする。単語ａ，ｂ，ｃ，ｄ以外の総和が上位10位の他の単語も同様に規定値外で変動だったとする）。よって、単語ａと単語ｃが汎用語として選ばれる。

実施例２では、ネットワーク上でアクセス可能な全ブログに対して汎用語を抽出したが、本実施例は、ある１ユーザ、または特定の趣味をもつサークル・グループ単位のテキストで汎用語を抽出するものである。本実施例では、各個人、グループ単位でのプロフィール解析に利用できる。

なお、分析対象のテキストとして、全ブログの代わりに所定の範囲のブログを分析対象とする点を除いて、上述の実施形態および実施例のそれぞれと構成および動作は同様であるため、その詳細な説明を省略する。

上記実施形態および上記実施例では、ブログを対象にして説明したが、分析対象はブログに限定されず、サーバもしくは、情報処理装置内に記憶され、ネットワークに対し公開や非公開、会員に対して送信されるホームページや電子メールや文書ファイル等の情報も含まれ、アクセス可能なテキストであればよい。本発明の格納部は、情報処理装置２０の記憶手段２６であってもよい。また、ブログを分析対象とする場合についても、ブログサーバ３０は１台に限らず複数あってもよい。

本発明を、入力された商品やサービス等のキーワードのブログ等での評判を確認/分析したいシステムに応用することが可能である。

第１の実施形態の情報検索方法を説明するためのブロック図である。第１の実施形態の情報検索方法の一例を示すシーケンス図である。第１の実施形態の検索語確認画面の一例を示す図である。検索のためのキーワードの入力画面の一例を示す図である。含有ブログの一例を示す図である。実施例１における検索語確認画面の一例を示す図である。関連語画面の一例を示す図である。検索結果のブログが表示された画面の一例を示す図である。第２の実施形態のキーワード入力画面の一例を示す図である。第２の実施形態の検索語確認画面の一例を示す図である。第３の実施形態の汎用語抽出方法を説明するためのブロック図である。汎用語抽出サーバの動作手順を示すフローチャートである。日次集計の一例を示す表である。一定期間の総集計の一例を示す表である。

符号の説明

１０検索サーバ
１１記憶部
１２制御部

Claims

検索のためのキーワードが入力されると、該キーワードを含むテキストを格納部に記憶されているテキストから収集し、収集した第１のテキストの名詞を抽出し、前記キーワードと部分一致する名詞を第１の単語として決定し、前記第１のテキストのうち該第１の単語を含む第２のテキストを抽出し、該第２のテキストから名詞、動詞または形容詞の少なくとも１つである単語を抽出し、抽出した単語の使用回数をカウントし、該使用回数が上位所定のランク内である単語を前記第１の単語の関連語である第２の単語に決定し、前記第１の単語および前記第２の単語を出力する制御部を有する情報検索装置。
前記制御部は、
出力された前記第１の単語のうちいずれかについて除外する指示が入力されると、除外対象の第１の単語を含むテキストを前記第１のテキストから除外した後の第３のテキストについて前記第１の単語および前記第２の単語を抽出し直して出力する、請求項１記載の情報検索装置。
前記制御部は、
前記第１のテキストから抽出された名詞のうち前記第１の単語を除いた単語を第３の単語と決定し、前記第１のテキストのうち該第３の単語を含む第４のテキストを抽出し、該第４のテキストから名詞、動詞または形容詞の少なくとも１つである単語を抽出し、抽出した単語の使用回数をカウントし、該使用回数が上位所定のランク内である単語を前記第３の単語の関連語である第４の単語に決定し、前記第３の単語および前記第４の単語を出力する、請求項１記載の情報検索装置。
検索対象から除外する単語が記述された汎用語リストを保存する記憶部をさらに有し、
前記制御部は、
前記汎用語リストを参照し、抽出した単語について、該汎用語リストに含まれる単語と一致する単語のランクを下げる、または該単語を削除する請求項１から３のいずれか１項記載の情報検索装置。
前記制御部は、
汎用語の抽出要求の指示により、または、所定の時刻になったとき、前記格納部に記憶されているテキストを収集し、収集したテキストから単語を抽出し、第１の所定の期間の出現頻度が第１の既定値より高く、かつ、前記第１の所定の期間よりも短い第２の所定の期間毎の出現頻度が第２の既定値範囲内で変動している単語を汎用語として決定し、該汎用語のリストである前記汎用語リストを作成する、請求項４記載の情報検索装置。
情報を記録するための格納部と接続された情報検索装置の制御部による情報検索方法であって、
前記制御部は、検索のためのキーワードが入力されると、該キーワードを含むテキストを格納部に記憶されているテキストから収集し、
前記制御部は、収集した第１のテキストの名詞を抽出し、前記キーワードと部分一致する名詞を第１の単語として決定し、
前記制御部は、前記第１のテキストのうち該第１の単語を含む第２のテキストを抽出し、
前記制御部は、前記第２のテキストから名詞、動詞または形容詞の少なくとも１つである単語を抽出し、
前記制御部は、前記第２のテキストから抽出した単語の使用回数をカウントし、
前記制御部は、前記第２のテキストから抽出した単語の前記使用回数が上位所定のランク内である単語を前記第１の単語の関連語である第２の単語に決定し、
前記制御部は、前記第１の単語および前記第２の単語を出力する、情報検索方法。
前記制御部は、出力された前記第１の単語のうちいずれかについて除外する指示が入力されると、除外対象の第１の単語を含むテキストを前記第１のテキストから除外した後の第３のテキストについて前記第１の単語および前記第２の単語を抽出し直して出力する、請求項６記載の情報検索方法。
前記制御部は、前記第１のテキストから抽出された名詞のうち前記第１の単語を除いた単語を第３の単語と決定し、前記第１のテキストのうち該第３の単語を含む第４のテキストを抽出し、
前記制御部は、前記第４のテキストから名詞、動詞または形容詞の少なくとも１つである単語を抽出し、
前記制御部は、前記第４のテキストから抽出した単語の使用回数をカウントし、
前記制御部は、前記第４のテキストから抽出した単語の前記使用回数が上位所定のランク内である単語を前記第３の単語の関連語である第４の単語に決定し、
前記制御部は、前記第３の単語および前記第４の単語を出力する、請求項６記載の情報検索方法。
検索対象から除外する単語が記述された汎用語リストを保存する記憶部が前記情報検索装置に設けられ、
前記制御部は、前記汎用語リストを参照し、抽出した単語について、該汎用語リストに含まれる単語と一致する単語のランクを下げる、または該単語を削除する請求項６から８のいずれか１項記載の情報検索方法。
前記制御部は、汎用語の抽出要求の指示により、または、所定の時刻になったとき、前記格納部に記憶されているテキストを収集し、収集したテキストから単語を抽出し、
前記制御部は、第１の所定の期間の出現頻度が第１の既定値より高く、かつ、前記第１の所定の期間よりも短い第２の所定の期間毎の出現頻度が第２の既定値範囲内で変動している単語を汎用語として決定し、該汎用語のリストである前記汎用語リストを作成する、請求項９記載の情報検索方法。
コンピュータに実行させるためのプログラムであって、
検索のためのキーワードが入力されると、該キーワードを含むテキストを格納部に記憶されているテキストから収集し、
収集した第１のテキストの名詞を抽出し、前記キーワードと部分一致する名詞を第１の単語として決定し、
前記第１のテキストのうち該第１の単語を含む第２のテキストを抽出し、
前記第２のテキストから名詞、動詞または形容詞の少なくとも１つである単語を抽出し、
前記第２のテキストから抽出した単語の使用回数をカウントし、
前記第２のテキストから抽出した単語の前記使用回数が上位所定のランク内である単語を前記第１の単語の関連語である第２の単語に決定し、
前記第１の単語および前記第２の単語を出力する処理を前記コンピュータに実行させるためのプログラム。
出力された前記第１の単語のうちいずれかについて除外する指示が入力されると、除外対象の第１の単語を含むテキストを前記第１のテキストから除外した後の第３のテキストについて前記第１の単語および前記第２の単語を抽出し直して出力する処理を有する請求項１１記載のプログラム。
前記第１のテキストから抽出された名詞のうち前記第１の単語を除いた単語を第３の単語と決定し、前記第１のテキストのうち該第３の単語を含む第４のテキストを抽出し、
前記第４のテキストから名詞、動詞または形容詞の少なくとも１つである単語を抽出し、
前記第４のテキストから抽出した単語の使用回数をカウントし、
前記第４のテキストから抽出した単語の前記使用回数が上位所定のランク内である単語を前記第３の単語の関連語である第４の単語に決定し、
前記第３の単語および前記第４の単語を出力する処理を有する請求項１１記載のプログラム。
検索対象から除外する単語が記述された汎用語リストを保存し、
前記汎用語リストを参照し、抽出した単語について、該汎用語リストに含まれる単語と一致する単語のランクを下げる、または該単語を削除する処理を有する請求項１１から１３のいずれか１項記載のプログラム。
汎用語の抽出要求の指示により、または、所定の時刻になったとき、前記格納部に記憶されているテキストを収集し、収集したテキストから単語を抽出し、
第１の所定の期間の出現頻度が第１の既定値より高く、かつ、前記第１の所定の期間よりも短い第２の所定の期間毎の出現頻度が第２の既定値範囲内で変動している単語を汎用語として決定し、該汎用語のリストである前記汎用語リストを作成する、請求項１４記載のプログラム。