JP2007072646A

JP2007072646A - 検索装置、検索方法およびプログラム

Info

Publication number: JP2007072646A
Application number: JP2005257429A
Authority: JP
Inventors: Kazuo Nemoto; 和郎根本
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2005-09-06
Filing date: 2005-09-06
Publication date: 2007-03-22
Also published as: US20070061322A1

Abstract

【課題】利用者の興味の対象となっている分野における有用な情報を、これまでよりも小さい作業負担によって効率的に抽出する。
【解決手段】複数のテキストから語句を検索する検索装置を提供する。検索装置は、少なくとも何れか１つのテキストに含まれる予め定められた語句を、注目度を評価する対象となる評価対象語句として予め記録している。そして、複数のキーワードを入力する。検索装置は、各々のキーワードについて、当該キーワードを含むテキストにおいて評価対象語句が使用される頻度である使用頻度を判断する。そして、各々のキーワードについて判断された使用頻度の各々に基づいて、評価対象語句の注目度を評価する。
【選択図】図３

Description

本発明は、検索装置、検索方法およびプログラムに関する。特に、本発明は、複数のテキストから語句を検索する検索装置、検索方法およびプログラムに関する。

近年、IT(Information Technology)分野のように、変化の激しい分野が増えてきている。このような分野で変化に追従していくためには、インターネット等の情報源から新たな情報を効率的に抽出することが重要となる。これに対して、従来、検索エンジンや検索サイトと呼ばれる、テキストデータの検索技術が用いられている。一例として、検索エンジンのＧｏｏｇｌｅ（登録商標）は、利用者が入力した語句を含むテキストをインターネットから検索して利用者に表示する（非特許文献１を参照。）。この検索処理は極めて高速であり、かつ、検索されるテキストも膨大であるので、現時点において利用者の人気を博している。

また、近年、ウェブサイトは、ニュース等の情報をテキストデータにより公開するのみならず、RSS(Rich Site Summary)等の所定のフォーマットに準拠したデータにより公開するようにもなってきている。ここで、RSSは、XMLを利用したコンテンツ配信のための規格化されたフォーマットである。RSSによれば、XMLのタグや属性値等によって、ニュースのヘッドラインや要約部分を判別することができる。このため、専用の検索用ソフトウェアを用いれば、利用者の要望に対応した効率的な検索が実現できる。

また、近年、膨大なデータの中から有用な情報のみを自動的に抽出するデータ・マインニングが研究されている。データ・マインニングによれば、小売店の販売データや電話の通話履歴、クレジットカードの利用履歴など、企業に大量に蓄積されるデータを解析し、その中に潜む項目間の相関関係やパターンなどを探し出すことができる。

特許文献１については後述する。
「Google（登録商標）の基本検索」インターネット、ホームページＵＲＬ「http://www.google.co.jp/intl/ja/help/basics.html」平成１７年５月２５日検索特許第３６０６５６６号

しかしながら、検索エンジンによって検索されるテキストは膨大な場合が多い。このため、利用者は、真に欲する情報を得るためには、利用者の知識や経験に基づいて、検索された多くのテキストの中から有用な情報を見つけ出さなければならなかった。また、RSS等の規格化によって検索効率は向上するものの、検索される情報は依然として膨大である。更に、RSS等によって規格化される情報は、一般に、ニュース提供事業者によって作成された信頼性の高い情報である。しかしながら、特定分野の変化に追従するためには、一般利用者によって書込まれた掲示板やウェブログ中の情報が有用となる場合もある。

なお、利用者の作業負担を軽減するために、従来、検索エンジンは、検索されたテキストを優先度に基づいて並べ替えて表示する。この優先度は、例えば、各テキストが他のテキストから参照される被参照数によって定められる。この被参照数は、ウェブページ作成者全体の興味の程度を測る尺度となる。即ちこれにより、概ね多くの者が興味を持っているテキストを、優先して表示することができる。

しかしながら、利用者が抽出したい情報が、既に多くの者による興味の対象となっているとは限らない。むしろ、利用者は、未だ多くの者に知られていないものの、これから急速に知られるようになる情報を得たい場合がある。更に、検索エンジンは、テキストの内容や対象分野に関わらずインターネット全体を対象として検索する。このため、利用者の興味の対象となっていない分野から、利用者の欲していない情報が得られてしまう場合があった。

これらに対して、データ・マインニングは、有用な情報のみを自動的に抽出することを目標に研究されている。特に、データ・マインニングの１つであるテキスト・マインニングによれば、文脈解析技術によってテキストの意味を特定して、情報の抽出精度を高めることができる。しかしながら、テキスト・マインニングを実用的な技術水準で実現するには、文脈解析用の辞書データが必要となる。従来、このような辞書データは、開発者が必要な単語を手作業で登録することによって作成されている。このため、開発や保守に多くの費用や時間が必要であった。

なお、参考技術として上記の特許文献１が挙げられる。この技術においては、キーワードの重要度を、そのキーワードが出現する回数のカウント値に基づいて評価する。キーワードの重要度は、カウント値の時間経過に応じた変化に基づいて定められる。これによって、そのキーワードが最近になって急激に使われてきた事実を重要度の評価基準とすることができる。しかしながら、この技術によっては、様々な分野が交じり合った情報に基づいて、ある特定分野においてある特定キーワードが急速に使われてきていることを検出することはできなかった。

そこで本発明は、上記の課題を解決することのできる検索装置、検索方法およびプログラムを提供することを目的とする。この目的は特許請求の範囲における独立項に記載の特徴の組み合わせにより達成される。また従属項は本発明の更なる有利な具体例を規定する。

上記課題を解決するために、本発明の第１の形態においては、複数のテキストから語句を検索する検索装置であって、少なくとも何れか１つのテキストに含まれる予め定められた語句を、注目度を評価する対象となる評価対象語句として予め記録している記録部と、複数のキーワードを入力する入力部と、各々のキーワードについて、当該キーワードを含むテキストにおいて評価対象語句が使用される頻度である使用頻度を判断する頻度判断部と、各々のキーワードについて判断された使用頻度の各々に基づいて、評価対象語句の注目度を評価する評価部とを備える検索装置、当該検索装置による検索方法、および当該検索装置として情報処理装置を機能させるプログラムを提供する。

上記課題を解決するために、本発明の第２の形態においては、複数のテキストから語句を検索する検索装置であって、複数の語句を予め記録している辞書記録部と、複数のキーワードを利用者から入力する入力部と、複数のキーワードの各々について、当該キーワードを含むテキストに含まれる語句のうち、辞書記録部に記録されていない未登録語句を検出する検出部と、少なくとも２つのキーワードについて、何れのキーワードが含まれるテキストからも共通して検出された未登録語句を選択して出力する選択部とを備える検索装置、当該検索装置による検索方法、および当該検索装置として情報処理装置を機能させるプログラムを提供する。

上記課題を解決するために、本発明の第３の形態においては、複数のテキストから語句を検索する検索装置であって、テキストに出現する予め定められた語句を、注目度を評価する対象となる評価対象語句として予め記録している記録部と、キーワードを入力する入力部と、異なる複数回のタイミングにおいて、当該キーワードを含むテキストにおいて評価対象語句が使用される頻度である使用頻度を判断する頻度判断部と、第１のタイミングにおいて判断された使用頻度に対する、第１のタイミングよりも後の第２のタイミングにおいて判断された使用頻度の上昇率がより高い場合に、当該上昇率がより低い場合と比較して注目度をより高く評価する評価部とを備える検索装置、当該検索装置による検索方法、および当該検索装置として情報処理装置を機能させるプログラムを提供する。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションもまた、発明となりうる。

本発明によれば、利用者の興味の対象となっている分野における有用な情報を、これまでよりも小さい作業負担によって効率的に抽出することができる。

以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。

図１は、検索装置１０の機能構成を示す。検索装置１０は、利用者端末２０において動作するウェブ・ブラウザ等から入力した複数のキーワードに基づいて、ネットワーク１５上で公開された複数のテキストから語句を検索する。そして、検索装置１０は、検索された語句に、それらのキーワードに基づいて評価された注目度を対応付けて利用者端末２０に出力する。利用者端末２０は、受信したキーワードおよび注目度をウェブ・ブラウザ等において利用者に表示する。この注目度は、従来とは異なり、何れかのキーワードのみとの関連性の強さではなく、何れのキーワードからも強く関連付けられていることを示す指標値となる。また、この注目度は、前回検索したときとの検索結果の違いに更に基づいて算出される。これによって、利用者の興味の対象となっている分野における有用な情報を、これまでよりも小さい作業負担によって効率的に抽出することを目的とする。

検索装置１０は、入力部１００と、語句選択部１１０と、検索エンジン部１２０と、データベース１２５と、語句記録部１３０と、注目度評価部１４０とを有する。入力部１００は、複数のキーワードを利用者端末２０から入力する。キーワードは、利用者の興味の対象となっている分野に象徴的な語句であることが望ましい。ここで、キーワードとは、名詞のみならず動詞や形容詞などの他の品詞の語句であってもよい。また、語句とは、単一の単語のみならず、複数の単語から構成されるフレーズや句であってもよい。語句選択部１１０は、複数のキーワードに基づいて、辞書に登録されていない未登録語句の中から、注目度を評価する対象となる評価対象語句を選択し、語句記録部１３０に記録する。評価対象語句の選択には、検索エンジン部１２０が用いられてもよい。

検索エンジン部１２０は、通常のテキスト検索を行う。具体的には、検索エンジン部１２０は、形態素解析の言語処理機能を有し、テキストを品詞に分解して語句を検索することができる。一例として、検索エンジン部１２０は、キーワードの指定に応じ、そのキーワードを含むテキストをネットワーク１５中から検索してもよい。検索処理は、必ずしも、キーワードの指定後に行われる必要はない。即ち例えば、検索エンジン部１２０は、予め定められたキーワードの各々について、そのキーワードによる検索結果をデータベース１２５に予め記録してもよい。このとき、検索エンジン部１２０は、語句選択部１１０等から受けたキーワードの指定に応じ、そのキーワードによる検索結果をデータベース１２５から読み出して出力してもよい。

語句記録部１３０は、検索エンジン部１２０により選択された未登録語句を評価対象語句として記録する。選択された未登録語句が複数である場合には、語句記録部１３０は、それらの未登録語句を複数の評価対象語句として記録してもよい。また、語句記録部１３０は、注目度評価部１４０により評価された注目度を、評価対象語句に対応付けて更に記録してもよい。注目度評価部１４０は、入力されたキーワードにより特定される分野において、語句記録部１３０に記録された評価対象語句が注目される程度を示す注目度を評価する。評価対象語句の評価処理には、検索エンジン部１２０が用いられてもよい。注目度評価部１４０は、注目度を評価対象語句に対応付けて利用者端末２０に出力し、利用者端末２０において利用者に対して表示する。また、注目度評価部１４０は、評価結果に対して利用者の操作を受け付け、その操作内容を利用者端末２０から受信する。この操作に応じ、例えば、注目度評価部１４０は、評価対象語句を新たなキーワードとして追加してもよい。

図２は、語句選択部１１０の機能構成を示す。語句選択部１１０は、辞書記録部２００と、検出部２１０と、選択部２２０とを有する。辞書記録部２００は、複数の語句を予め記録している。これらの語句は、例えば、一般名称・慣用名称その他一般利用者に広く知られた周知語句である。検出部２１０は、複数のキーワードの各々について、そのキーワードを含むテキストに含まれる語句のうち、辞書記録部２００に記録されていない未登録語句を検出する。所定のキーワードを含むテキストは、検索エンジン部１２０によって検索されてもよい。即ち検出部２１０は、各々のキーワードについて、そのキーワードを含むテキストを検出部２１０によって検索させ、検索されたテキストの中から未登録語句を検出してもよい。

選択部２２０は、少なくとも２つのキーワードについて、何れのキーワードが含まれるテキストからも共通して検出された未登録語句を選択する。キーワードの数は、利用者の設定によって予め定められていてもよい。即ち例えば、選択部２２０は、予め設定された数のキーワードについて、何れのキーワードが含まれるテキストからも共通して検出された未登録語句を選択してもよい。設定される数は、例えば２であり、また、３以上の所定の数であってもよい。また、これらのキーワードの組は予め定まっているものでなくともよい。即ち、選択部２２０は、入力された複数のキーワードのうち何れか２つのキーワードについて、何れのキーワードが含まれるテキストからも共通して検出された未登録語句を選択してもよい。

図３は、注目度評価部１４０の機能構成を示す。注目度評価部１４０は、頻度判断部３００と、評価部３１０と、表示部３２０と、検索部３３０と、追加部３４０と、除外部３５０とを有する。頻度判断部３００は、複数のキーワードを入力部１００から入力し、評価対象語句を語句記録部１３０から取得する。そして、頻度判断部３００は、各々のキーワードについて、当該キーワードを含むテキストにおいて評価対象語句が使用される頻度である使用頻度を判断する。使用頻度とは、例えば、当該テキストにおいて評価対象語句が用いられる回数の総数であってもよい。これに代えて、使用頻度とは、当該回数の総数を、評価対象語句が使用されているテキストの量によって除した指標値であってもよいし、当該回数の総数を、ネットワーク１５内で検索対象となったテキストの量によって除した指標値であってもよい。

評価部３１０は、各々のキーワードについて判断された使用頻度の各々に基づいて、評価対象語句の注目度を評価する。評価結果は、表示部３２０に出力される。また、評価結果は、評価対象語句に対応付けて語句記録部１３０に記録されてもよい。表示部３２０は、評価対象語句を注目度に対応付けて利用者端末２０に出力し、利用者端末２０において利用者に対して表示する。具体的には、表示部３２０は、評価対象語句を、評価部３１０によって評価された注目度に対応付けて選択可能に表示してもよい。選択可能な表示とは、例えば、評価対象語句の隣にマウスでクリック可能なシンボルを表示することであってもよい。このシンボルは、クリックにより行われる処理の種類に応じて複数設けられてもよい。また、表示部３２０は、入力されたキーワードを、そのキーワードによる評価された評価対象語句に対応付けて更に表示してもよい。このキーワードも、選択可能に表示されてもよい。

検索部３３０は、評価対象語句が利用者によって選択されたことに応じ、評価対象語句を含むテキストを複数のテキストの中から検索して表示部３２０に出力する。検索結果は、表示部３２０により利用者に表示されてもよい。また、追加部３４０は、評価対象語句が利用者によって選択されたことに応じ、その評価対象語句を新たなキーワードとして追加するべく入力部１００に通知してもよい。また、除外部３５０は、利用者によってキーワードが選択されたことに応じ、そのキーワードを、評価部３１０によって他の評価対象語句の注目度を評価するためのキーワードから除外してもよい。

図４は、検索装置１０によって語句の注目度が評価される処理のフローチャートを示す。入力部１００は、複数のキーワードを利用者端末２０から入力する（Ｓ４００）。入力部１００は、利用者の興味の対象となる分野毎に、複数のキーワードを入力してもよい。即ちこの場合、入力部１００は、評価対象語句毎に複数のキーワードを入力する。このとき、ある評価対象語句を評価するためのキーワードは、他の評価対象語句を評価するためのキーワードと異なってもよいし、他の評価対象語句を評価するためのキーワードと少なくとも一部が共通であってもよい。一例として、ある特定分野のキーワードがＡ、ＢおよびＣのとき、他の特定分野のキーワードがＢ、ＣおよびＤであって、ＢおよびＣが共通であってもよい。

次に、語句選択部１１０は、未登録語句の中から評価対象語句を選択して語句記録部１３０に記録する（Ｓ４１０）。次に、注目度評価部１４０は、評価対象語句の注目度を順次評価する（Ｓ４２０）。注目度が評価された評価回数が所定の基準回数に達するまでは（Ｓ４３０：ＮＯ）、注目度評価部１４０は、Ｓ４２０の処理を繰り返す。この基準回数は、２以上の所定の数である。評価回数が基準回数に達したことを条件に（Ｓ４３０：ＹＥＳ）、注目度評価部１４０は、評価回数を０回にリセットする（Ｓ４４０）。この場合、評価対象語句が変更され得るので、各々の評価対象語句について既に評価された注目度の情報は破棄されてもよい。検索装置１０は、Ｓ４１０に処理を戻す。

以上、本図に示す処理によれば、検出部２１０は、異なる複数のタイミングにおいて未登録語句を検出し、選択部２２０は、未登録語句が検出される毎に、記録している評価対象語句を更新する。そして、頻度判断部３００は、検出部２１０が未登録語句を検出する頻度よりも高い頻度で、評価対象語句の使用頻度を判断する。ここで、未登録語句の検出には、比較的長い処理時間を要する場合が多い。これは、テキストを解析して単語に分解する処理や、処理結果を辞書と比較する処理に多くの時間を要するためである。一方で、注目度の評価には長い処理時間は不要である。即ち本図の処理によれば、使用される語句の種類はあまり変化せず、その頻度のみが変化する場合において、その変化に追従して注目度を効率的に評価できる。

図５は、Ｓ４１０における処理の概念図を示す。検出部２１０は、キーワードを含むか否かによって複数のテキストを分類する（Ｓ５００）。キーワードＡを含むテキストと、キーワードＢとを含むテキストを左側に図示する。何れのキーワードをも含まないテキストを右側に図示する。検出部２１０は、各々のテキストから未登録語句を検出する（Ｓ５１０）。即ち、検出部２１０は、キーワードを含むテキストから未登録語句を検出すると共に、更に、何れのキーワードも含まないテキストから未登録語句を検出してもよい。

選択部２２０は、少なくとも２つのキーワードについて（ここでは、キーワードＡおよびキーワードＢの双方について）、何れのキーワードが含まれるテキストからも共通して検出された未登録語句を選択する（Ｓ５２０）。即ち、キーワードＡを含むテキストから検出された未登録語句と、キーワードＢを含むテキストから検出された未登録語句の積集合が選択される。本図ではこの選択処理を、論理回路のＡＮＤゲートによって示す。

そして、好ましくは、選択部２２０は、選択された未登録語句から、何れのキーワードも含まないテキストにおいて検出された未登録語句を除外して選択する（Ｓ５２０）。即ち、キーワードＡを含むテキストから検出された未登録語句、および、キーワードＢを含むテキストから検出された未登録語句との積集合と、何れのキーワードをも含まないテキストにおいて検出された未登録語句の補集合との積集合が選択される。本図では、この選択処理を、論理回路のＮＯＴゲートおよびＡＮＤゲートの組み合わせとして示す。選択された未登録語句は、評価対象語句として語句記録部１３０に記録される。

図６は、Ｓ４１０における処理の具体例を示す（２図のうち１図目）。最も左に複数のテキストを図示する。テキストとは、例えば、テキストファイルであってもよいし、テキストファイル中の一行であってもよい。また、行とは、句点によって区切られる文であってもよいし、ＨＴＭＬ文書において改行を示すタグによって区切られる文であってもよい。本例では、「キーワードＡにＸＸした…」等の文字データがテキストとして検出されている。

検出部２１０は、各々のキーワードについて、そのキーワードを含むテキストに含まれる語句のうち未登録語句を検出する。即ち例えば、検出部２１０は、そのキーワードを含む行に含まれる語句のうち未登録語句を検出してもよいし、そのキーワードを含むテキストファイルに含まれる語句のうち未登録語句を検出してもよい。この結果、キーワードＡについて、ＸＸ、ＹＹおよびＺＺが未登録語句として検出される。また、キーワードＢについて、ＸＸおよびＹＹが未登録語句として検出される。一方で、何れのキーワードも含まないテキストからは、ＸＸおよびＷＷが未登録語句として検出される。

図７は、Ｓ４１０における処理の具体例を示す（２図のうち２図目）。選択部２２０は、少なくとも２つのキーワードについて、何れのキーワードが含まれるテキスト（例えば、行又はテキストファイル）からも共通して検出された未登録語句を選択する。未登録語句ＹＹは、キーワードＡおよびキーワードＢの何れについても共通して検出された未登録語句であるから、語句「ＹＹ」が評価対象語句として選択される。

一方で、語句「ＺＺ」は、キーワードＡを含むテキストのみから検出されたので、評価対象語句として採用されない。また、語句「ＸＸ」は、何れのキーワードについても共通して検出されたものの、何れのキーワードも含まないテキストからも検出されているので、評価対象語句として採用されない。語句「ＷＷ」は、何れのキーワードについても検出されていないので、評価対象語句として採用されない。

図８は、Ｓ４２０における処理の詳細を示す。頻度判断部３００および評価部３１０は、評価対象語句の注目度を評価する（Ｓ８００）。表示部３２０は、評価対象語句を注目度に対応付けて利用者端末２０において表示する（Ｓ８１０）。表示部３２０が、利用者の選択操作その他の入力を利用者端末２０から受けると（Ｓ８２０：ＹＥＳ）、検索部３３０、追加部３４０および除外部３５０は、その入力内容に応じた処理を行う（Ｓ８３０）。

図９は、Ｓ８００における処理の概念図を示す。いま、キーワードＡおよびキーワードＢが入力されているとする。また、評価対象語句１、評価対象語句２および評価対象語句３が選択されているとする。頻度判断部３００は、まず、キーワードＡを含むテキストにおいて、評価対象語句１〜３の各々の使用頻度を判断する（Ｓ９００−１）。次に、頻度判断部３００は、キーワードＢを含むテキストにおいて、評価対象語句１〜３の各々の使用頻度を判断する（Ｓ９００−２）。各々のキーワードを含むテキストは、通常の検索処理によって検索することができる。使用頻度は、テキスト中で使用される語句の使用回数に基づいて求められる。

そして、評価部３１０は、各々のキーワードについての使用頻度の各々に基づいて、注目度を評価する（Ｓ９１０）。例えば、評価部３１０は、複数のキーワードの各々について判断された使用頻度の積を注目度として評価してもよい。これによって、入力されたキーワードの何れかのみと関連付けられている語句ではなく、入力されたキーワードの何れからも関連付けられている語句を、注目度の高い語句として評価することができる。これに代えて、評価部３１０は、各々のキーワードについて判断された使用頻度の差がより小さい場合に、当該使用頻度の差がより大きい場合と比較して注目度をより高く評価してもよい。このような方法であれば、使用頻度の積と注目度が必ずしも一致しなくてもよい。

さらに、評価部３１０は、各々のキーワードと評価対象語句との間のテキスト中の単語間距離に基づいて注目度を評価してもよい。ここで、２つの語句の間の単語間距離とは、一方の単語が出現するテキスト中の位置と、他方の単語が出現するテキスト中の位置との間の論理的な距離を言う。例えば、一方の単語および他方の単語が同一の行（句点で区切られた１つの文）に出現する場合には、一方の単語および他方の単語が同一の文章の異なる行に出現する場合よりも、これらの単語の間の単語間距離は短い。また、一方の単語および他方の単語が同一の章（チャプター）や節（セクション）に出現する場合には、一方の単語および他方の単語が異なる章や節に出現する場合よりも、これらの単語の間の単語間距離は短い。

具体的な処理としては、まず、評価部３１０は、各々のキーワードと評価対象語句との間の単語間距離に基づく重みを当該キーワードについて判断された使用頻度に乗じることによって重み付き使用頻度を算出する。そして、評価部３１０は、各々のキーワードについて算出した重み付き使用頻度に基づいて注目度を評価してもよい。即ち、キーワードがテキストの見出し語やタイトルに一致する場合には、キーワードがテキストの通常文中に含まれる場合と比較して、そのテキストにおいて使用された評価対象語句の使用頻度には、高い重みを乗じてもよい。これにより、評価対象語句の注目度をより適切に評価することができる。

図１０は、Ｓ９１０における処理の具体例を示す。キーワードＡを含むテキストにおいて評価対象語句１が１回使用され、キーワードＢを含むテキストにおいて評価対象語句１が１回使用されている。このため、評価部３１０は、評価対象語句１の注目度を、１×１により１と評価する。一方、キーワードＡを含むテキストにおいて評価対象語句２が１０回使用され、キーワードＢを含むテキストにおいて評価対象語句２が１０回使用されている。このため、評価部３１０は、評価対象語句２の注目度を１０×１０により１００と評価する。

また、キーワードＡを含むテキストにおいて評価対象語句３が５０回使用され、キーワードＢを含むテキストにおいて評価対象語句３が１回使用されている。このため、評価部３１０は、評価対象語句３の注目度を５０×１により５０と評価する。

図１１は、注目度の算出方法の概念図を示す。何れのキーワードが含まれるテキストにおいても、評価対象語句が高い頻度で使用されていれば、その注目度は高い。一方で、何れかのキーワードが含まれるテキストにおいて高い頻度で使用されている語句でも、他のキーワードが含まれるテキストにおいてあまり使用されていなければ、その語句の注目度は低い。具体的には、本図の評価対象語句１は、合計７箇所に出現しており、評価対象語句２は、合計６箇所に出現しており、その差分は僅かに１箇所である。しかしながら、評価対象語句１の注目度は、キーワードＡが含まれるテキストにおける出現回数である３と、キーワードＢが含まれるテキストにおける出現回数である４とを乗じた１２となる。一方で、評価対象語句２の注目度は、キーワードＡが含まれるテキストにおける出現回数である５と、キーワードＢが含まれるテキストにおける出現回数である１とを乗じた５となる。このように、注目度を使用頻度の積とすることで、何れかのキーワードのみから関連付けられている語句ではなく、何れのキーワードからも関連付けられている語句の注目度を高く評価することができる。

なお、評価部３１０は、ある評価対象語句が、何れのキーワードをも含むテキストから検出された場合には、その評価対象語句の注目度を更に高く評価してもよい。そのようなテキストは、本図においては、キーワードＡおよびキーワードＢの集合範囲の積集合部分に相当する。この部分に相当するテキストは、何れのキーワードとも強く関連付けられており、利用者の関心が高いと考えられるからである。本図の例では、キーワードＡが含まれるテキストにおいてある評価対象語句（これを評価対象語句３とする）が出現する出現回数は４回である。一方、キーワードＢが含まれるテキストにおいて評価対象語句３が出現する出現回数は５回である。このため、まず、評価部３１０は、評価対象語句３の注目度として、４回および５回の積である２０を算出する。更に、評価部３１０は、評価対象語句３が、キーワードＡおよびキーワードＢの何れのキーワードを含むテキストからも検出されたので、評価対象語句３の注目度を更に高く評価する。例えば、評価部３１０は、出現回数の積である２０に、所定の正の数αを加算した値を、評価対象語句３の注目度として算出してもよい。

図１２は、Ｓ９１０における処理の他の例を示す。評価部３１０は、図１０に示した処理に代えて、本図の処理によって注目度を評価してもよい。本図の処理によれば、語句の使用頻度の上昇率に応じて注目度を高く評価できる。具体的には、図左端に、第１のタイミングにおいて評価された注目度を示す。この注目度は、第１のタイミングにおいて頻度判断部３００により判断された使用頻度に基づいて求められる。

図中央に、第２のタイミングにおいて評価された注目度を示す。この注目度は、第２のタイミングにおいて頻度判断部３００により判断された使用頻度に基づいて求められる。評価部３１０は、第１のタイミングについて求められた注目度に対する、第２のタイミングについて求められた注目度の上昇率を求める。図示のように、評価対象語句１、評価対象語句２および評価対象語句３の各々について、上昇率はそれぞれ２、１．６および１となる。

評価部３１０は、求めた上昇率を、第２のタイミングについて求められた注目度に乗じることによって、各々の評価対象語句の注目度を評価する。即ち、評価対象語句１の注目度は、２００に２を乗じることによって４００と評価される。また、評価対象語句２の注目度は、８０に１．６を乗じることによって１２８と評価される。また、評価対象語句３の注目度は、１に１を乗じることによって１と評価される。このように、評価部３１０は、評価対象語句の使用頻度の上昇率がより高い場合に、当該上昇率がより低い場合と比較して当該語句の注目度をより高く評価する。これによって、特定分野で最近頻繁に使われるようになった語句を更に高く評価することができる。

図１３は、表示部３２０が利用者端末２０に表示する画面の表示例を示す。表示部３２０は、評価対象語句の各々を、評価部３１０によって評価された注目度に対応付けて選択可能に表示する。選択可能な表示とは、例えば、評価対象語句の隣にマウスでクリック可能なシンボルを表示することであってもよい。詳しくは後述するが、評価対象語句の隣には、例えば、その評価対象語句をキーとしてテキストを検索するためのシンボルが表示されてもよい。

ここで、好ましくは、表示部３２０は、複数の評価対象語句を、その語句について評価部３１０によって評価された注目度の順に、利用者によって選択され易いように画面上部から並べて表示する。そしてこの場合、表示部３２０は、ある評価対象語句の注目度が更に評価されたことに応じ、その評価対象語句と、既に評価された他の評価対象語句とを、注目度の順に、利用者によって選択され易いように優先して表示してもよい。これによって、利用者は、注目度の高い語句を即座に認識することができる。

また、表示部３２０は、入力された各々のキーワードを、当該キーワードにより注目度が評価された評価対象語句に対応付けて表示する。即ち、図示の例は、キーワードＡによって、評価対象語句１、評価対象語句２および評価対象語句４が評価されたことを示す。ここで、あるキーワードが、使用頻度の高い多くの評価対象語句に対応している場合には、そのキーワードは、様々な分野で共通して用いられる一般的な語句である可能性が高い。このため、そのようなキーワードによっては、特定分野の語句の注目度を適切に評価できない場合がある。このため、好ましくは、表示部３２０は、入力された各々のキーワードを、当該キーワードにより評価された注目度が所定の基準以上である評価対象語句の数の順に、利用者によって選択され易いように優先して表示する。利用者によって選択されたキーワードは、除外部３５０によって、他の評価対象語句の注目度を評価するためのキーワードから除外される。これによって、利用者は、以降の処理における注目度評価の精度を高めることができる。

図１４は、表示領域６００および表示領域６１０における表示内容の詳細を示す。（ａ）に示すように、表示部３２０は、表示領域６００において、キーワードの隣にマウスでクリック可能なシンボルを表示する。本図において、このシンボルは、「除外」と書かれた文字列によるハイパーリンクである。除外部３５０は、「除外」シンボルがクリックされたことによってその隣のキーワードが利用者によって選択されたと判断する。そして、除外部３５０は、利用者によって選択されたキーワードを、評価部３１０によって他の評価対象語句の注目度を評価するためのキーワードから除外する。

（ｂ）に示すように、表示部３２０は、表示領域６１０において、評価対象語句の隣にマウスでクリック可能なシンボルを表示する。本図において、このシンボルは、「検索」、「追加」および「既知語登録」と書かれた文字列によるハイパーリングである。検索部３３０は、「検索」シンボルがクリックされたことによってその隣の評価対象語句が利用者によって選択されたと判断する。そしてその場合、検索部３３０は、その評価対象語句およびその評価対象語句を評価した複数のキーワードによってネットワーク１５を検索してもよい。即ちこれにより、評価対象語句および複数のキーワードの何れもが含まれているテキストが検索される。

また、追加部３４０は、「追加」シンボルがクリックされたことによってその隣の評価対象語句が利用者によって選択されたと判断する。その評価対象語句を第１の評価対象語句とする。そして、追加部３４０は、第１の評価対象語句が利用者によって選択されたことに応じ、次に評価対象となる第２の評価対象語句を評価するためのキーワードとして当該第１の評価対象語句を追加する。例えば、追加部３４０は、当該第１の評価対象語句をキーワードとして入力された語句として取り扱う旨を、入力部１００に対して通知してもよい。

また、評価部３１０は、「既知語登録」シンボルがクリックされたことによってその隣の評価対象語句が利用者によって選択されたと判断する。そして、評価部３１０は、評価対象語句が利用者によって選択されたことに応じ、その評価対象語句を既知語として登録する旨を語句記録部１３０に通知してもよい。

以上、図１３および図１４に示す表示例によれば、注目度の高い評価対象語句を利用者に分かり易く表示して、評価結果を効率的に活用させることができる。また、使用頻度の高い多くの評価対象語句を評価するキーワードについては、一般的な用語である可能性が高いものとして選択し易く表示する。これにより、評価方法の修正を利用者に促し、評価の毎に評価精度を高めさせることができる。

以上の実施例に示したように、本例に係る検索装置１０によれば、利用者の興味の対象となっている分野における有用な情報を、これまでよりも小さい作業負担によって効率的に抽出することができる。具体的には、複数のキーワードによって対象分野を特定させることで、利用者の興味の対象となっている分野から語句を精度良く検索できる。また、語句記録部１３０および注目度評価部１４０による処理頻度を相違させることによって、掲示板やウェブ・ログ等の頻繁な変更に追従して、効率的かつ効果的に新出語句を検出することができる。更に、検索結果の表示画面の工夫によって、評価方法の修正や評価後の処理を利用者に促すことができる。

実際に、インターネット内で不特定多数の者による書き込みを許可した掲示板を用いて実験を行った。その結果、実験時点に特定分野において急速に用いられるようになってきている専門用語が、高い注目度として評価されることが確かめられた。

図１５は、検索装置１０として機能する情報処理装置７００のハードウェア構成の一例を示す。情報処理装置７００は、例えば、対称型マルチプロセッサ（ＳＭＰ：ＳｙｍｍｅｔｒｉｃＭｕｌｔｉｐｒｏｃｅｓｓｏｒ）を搭載したシステムであってもよい。具体的には、情報処理装置７００は、複数のプロセッサ（プロセッサ７０２およびプロセッサ７０４）を有する。プロセッサ７０２およびプロセッサ７０４は、システム・バス２０６を介して相互に接続される。これに代えて、情報処理装置７００は、単一のプロセッサのみを有してもよい。

システム・バス２０６は、メモリ・コントローラ／キャッシュ２０８に更に接続される。メモリ・コントローラ／キャッシュ２０８は、ローカルメモリ２０９に対するインターフェイスを提供する。Ｉ／Ｏバス・ブリッジ２１０は、システム・バス２０６に接続される。そして、Ｉ／Ｏバス・ブリッジ２１０は、Ｉ／Ｏバス２１２に対するインターフェイスを提供する。メモリ・コントローラ／キャッシュ２０８、および、Ｉ／Ｏバス・ブリッジ２１０は、一体のＬＳＩに設けられてもよい。

ＰＣＩ（Ｐｅｒｉｆｈｅｒａｌｃｏｍｐｏｎｅｎｔｉｎｔｅｒｃｏｎｎｅｃｔ）バス・ブリッジ２１４は、Ｉ／Ｏバス２１２に接続される。Ｉ／Ｏバス２１２は、ＰＣＩバス２１６に対するインターフェイスを提供する。典型的なＰＣＩバスの実装においては、４つのＰＣＩ拡張スロットが提供され、その他にアドイン・コネクタが提供される。

利用者端末２０に対するコミュニケーションリンクは、モデム２１８およびネットワークアダプタ２２０を介して提供される。モデム２１８およびネットワークアダプタ２２０は、アドイン・ボードを介してＰＣＩバス２１６に接続される。ＰＣＩブリッジ２２２およびＰＣＩブリッジ２２４は、追加のＰＣＩバス２２６およびＰＣＩバス２２８に対するインターフェイスを提供する。これらのＰＣＩバスには、追加のモデムやネットワークアダプタが接続されてもよい。このように、情報処理装置７００は、他の複数の情報処理装置（例えば、利用者端末２０など）に接続することができる。また、グラフィックス・アダプタ２３０およびハード・ディスク２３２は、更に、Ｉ／Ｏバス２１２に接続される。

以上に示すハードウェア構成は一例であり、当業者はこの構成に多様な変形を加えることができる。例えば、情報処理装置７００は、他のペリフェラル・デバイス、例えば、光学ドライブなどを有してもよい。以上の構成は、本発明を実現するハードウェアに何らの限定を加えるものではない。本図に示す情報処理装置７００は、一例として、インターナショナル・ビジネス・マシーンズ・コーポレーションのＩＢＭＲＩＳＣ／Ｓｙｓｔｅｍ６０００であってもよい。このシステムは、ＡＩＸ（ＡｄｖａｎｃｅｄＩｎｔｅｒａｃｔｉｖｅＥｘｅｃｕｔｉｖｅ）オペレーティング・システムを動作させてもよい。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。

図１は、検索装置１０の機能構成を示す。図２は、語句選択部１１０の機能構成を示す。図３は、注目度評価部１４０の機能構成を示す。図４は、検索装置１０によって語句の注目度が評価される処理のフローチャートを示す。図５は、Ｓ４１０における処理の概念図を示す。図６は、Ｓ４１０における処理の具体例を示す（２図のうち１図目）。図７は、Ｓ４１０における処理の具体例を示す（２図のうち２図目）。図８は、Ｓ４２０における処理の詳細を示す。図９は、Ｓ８００における処理の概念図を示す。図１０は、Ｓ９１０における処理の具体例を示す。図１１は、注目度の算出方法の概念図を示す。図１２は、Ｓ９１０における処理の他の例を示す。図１３は、表示部３２０が利用者端末２０に表示する画面の表示例を示す。図１４は、表示領域６００および表示領域６１０における表示内容の詳細を示す。図１５は、検索装置１０として機能する情報処理装置７００のハードウェア構成の一例を示す。

符号の説明

１０検索装置
１５ネットワーク
２０利用者端末
１００入力部
１１０語句選択部
１２０検索エンジン部
１２５データベース
１３０語句記録部
１４０注目度評価部
２００辞書記録部
２１０検出部
２２０選択部
３００頻度判断部
３１０評価部
３２０表示部
３３０検索部
３４０追加部
３５０除外部
６００表示領域
６１０表示領域
７００情報処理装置

Claims

複数のテキストから語句を検索する検索装置であって、
少なくとも何れか１つのテキストに含まれる予め定められた語句を、注目度を評価する対象となる評価対象語句として予め記録している語句記録部と、
複数のキーワードを入力する入力部と、
各々の前記キーワードについて、当該キーワードを含むテキストにおいて前記評価対象語句が使用される頻度である使用頻度を判断する頻度判断部と、
各々の前記キーワードについて判断された使用頻度の各々に基づいて、前記評価対象語句の注目度を評価する評価部と
を備える検索装置。
前記評価部は、各々のキーワードについて判断された使用頻度の差がより小さい場合に、当該使用頻度の差がより大きい場合と比較して前記注目度をより高く評価する
請求項１に記載の検索装置。
前記評価部は、複数のキーワードの各々について判断された使用頻度の積を前記注目度として評価する
請求項２に記載の検索装置。
前記評価部は、各々のキーワードと前記評価対象語句との間の単語間距離に基づく重みを当該キーワードについて判断された使用頻度に乗じることによって重み付き使用頻度を算出し、各々のキーワードについて算出した当該重み付き使用頻度に基づいて前記注目度を評価する
請求項１に記載の検索装置。
前記評価対象語句を、前記評価部によって評価された注目度に対応付けて選択可能に表示する表示部と、
前記評価対象語句が利用者によって選択されたことに応じ、前記評価対象語句を含むテキストを前記複数のテキストの中から検索して出力する検索部と
を更に備える請求項１に記載の検索装置。
前記検索部は、前記評価対象語句が利用者によって選択されたことに応じ、前記評価対象語句及び前記複数のキーワードの何れもが含まれているテキストを検索して表示する
請求項５に記載の検索装置。
前記語句記録部は、複数の前記評価対象語句を記録し、
前記評価部は、第１の前記評価対象語句の注目度を評価し、
前記第１の評価対象語句を、前記評価部によって評価された注目度に対応付けて選択可能に表示する表示部と、
前記第１の評価対象語句が利用者によって選択されたことに応じ、第２の前記評価対象語句を評価するためのキーワードとして前記第１の評価対象語句を追加する追加部と
を更に備える請求項１に記載の検索装置。
前記表示部は、前記第１の評価対象語句と、既に評価された他の前記評価対象語句とを、注目度の順に、利用者によって選択され易いように優先して表示する
請求項７に記載の検索装置。
前記語句記録部は、複数の前記評価対象語句を記録し、
前記入力部は、評価対象語句毎に、他の評価対象語句を評価するためのキーワードと少なくとも一部が共通な複数のキーワードを入力し、
前記評価部は、入力されたキーワードに基づいて前記複数の評価対象語句を順次評価し、
入力された各々のキーワードを、当該キーワードにより評価された注目度が所定の基準以上である評価対象語句の数の順に、利用者によって選択され易いように優先して表示する表示部と、
利用者によって選択されたキーワードを、前記評価部によって他の評価対象語句の注目度を評価するためのキーワードから除外する除外部と
を更に備える請求項１に記載の検索装置。
前記頻度判断部は、少なくとも１つの前記キーワードについて、異なる複数回のタイミングにおいて、当該キーワードを含むテキストにおいて前記評価対象語句が使用される頻度である使用頻度を判断し、
前記評価部は、当該キーワードについて、第１の前記タイミングにおいて当該キーワードについて判断された前記使用頻度に対する、第１の前記タイミングよりも後の第２の前記タイミングにおいて当該キーワードについて判断された前記使用頻度の上昇率がより高い場合に、当該上昇率がより低い場合と比較して前記注目度をより高く評価する
請求項１に記載の検索装置。
複数の語句を予め記録している辞書記録部と、
前記複数のキーワードの各々について、当該キーワードを含むテキストに含まれる語句のうち、前記辞書記録部に記録されていない未登録語句を検出する検出部と、
少なくとも２つの前記キーワードについて、何れのキーワードが含まれるテキストからも共通して検出された前記未登録語句を選択する選択部と
を更に備え、
前記語句記録部は、前記選択部により選択された前記未登録語句を前記評価対象語句として記録する請求項１に記載の検索装置。
前記検出部は、異なる複数のタイミングにおいて未登録語句を検出し、
前記語句記録部は、未登録語句が検出される毎に、記録している前記評価対象語句を更新し、
前記頻度判断部は、前記検出部が未登録語句を検出する頻度よりも高い頻度で、前記評価対象語句の使用頻度を判断する
請求項１１に記載の検索装置。
複数のテキストから語句を検索する検索装置であって、
複数の語句を予め記録している辞書記録部と、
複数のキーワードを利用者から入力する入力部と、
前記複数のキーワードの各々について、当該キーワードを含むテキストに含まれる語句のうち、前記辞書記録部に記録されていない未登録語句を検出する検出部と、
少なくとも２つの前記キーワードについて、何れのキーワードが含まれるテキストからも共通して検出された前記未登録語句を選択して出力する選択部と
を備える検索装置。
前記検出部は、各々の前記キーワードについて、当該キーワードを含む行に含まれる語句のうち未登録語句を検出し、
前記選択部は、少なくとも２つの前記キーワードについて、何れのキーワードが含まれる行からも共通して検出された前記未登録語句を選択する
請求項１３に記載の検索装置。
前記検出部は、各々の前記キーワードについて、当該キーワードを含むテキストファイルに含まれる語句のうち未登録語句を検出する
前記選択部は、少なくとも２つの前記キーワードについて、何れのキーワードが含まれるテキストファイルからも共通して検出された前記未登録語句を選択する
請求項１３に記載の検索装置。
前記検出部は、何れの前記キーワードも含まないテキストから、前記未登録語句を更に検出し、
前記選択部は、少なくとも２つの前記キーワードについて検出された前記未登録語句から、何れの前記キーワードも含まないテキストにおいて検出された前記未登録語句を除外して選択する
請求項１３に記載の検索装置。
前記選択部は、前記複数のキーワードのうち何れか２つのキーワードについて、何れのキーワードが含まれるテキストからも共通して検出された前記未登録語句を選択する
請求項１３に記載の検索装置。
複数のテキストから語句を検索する検索方法であって、
少なくとも何れか１つのテキストに含まれる予め定められた語句を、注目度を評価する対象となる評価対象語句として取得する段階と、
複数のキーワードを入力する段階と、
各々の前記キーワードについて、当該キーワードを含むテキストにおいて前記評価対象語句が使用される頻度である使用頻度を判断する段階と、
各々の前記キーワードについて判断された使用頻度の各々に基づいて、前記評価対象語句の注目度を評価する段階と
を備える検索方法。
複数のテキストから語句を検索する検索方法であって、
複数のキーワードを利用者から入力する段階と、
前記複数のキーワードの各々について、当該キーワードを含むテキストに含まれる語句のうち、予め辞書に登録された語句とは異なる未登録語句を検出する段階と、
少なくとも２つの前記キーワードについて、何れのキーワードが含まれるテキストからも共通して検出された前記未登録語句を選択して出力する段階と
を備える検索方法。
複数のテキストから語句を検索する検索装置として、情報処理装置を機能させるプログラムであって、
前記情報処理装置を、
少なくとも何れか１つのテキストに含まれる予め定められた語句を、注目度を評価する対象となる評価対象語句として予め記録している語句記録部と、
複数のキーワードを入力する入力部と、
各々の前記キーワードについて、当該キーワードを含むテキストにおいて前記評価対象語句が使用される頻度である使用頻度を判断する頻度判断部と、
各々の前記キーワードについて判断された使用頻度の各々に基づいて、前記評価対象語句の注目度を評価する評価部と
して機能させるプログラム。
複数のテキストから語句を検索する検索装置として、情報処理装置を機能させるプログラムであって、
前記情報処理装置を、
複数の語句を予め記録している辞書記録部と、
複数のキーワードを利用者から入力する入力部と、
前記複数のキーワードの各々について、当該キーワードを含むテキストに含まれる語句のうち、前記辞書記録部に記録されていない未登録語句を検出する検出部と、
少なくとも２つの前記キーワードについて、何れのキーワードが含まれるテキストからも共通して検出された前記未登録語句を選択して出力する選択部と
して機能させるプログラム。