JPH0877178A

JPH0877178A - 情報検索システム及び方法

Info

Publication number: JPH0877178A
Application number: JP6208489A
Authority: JP
Inventors: Hiroshi Nomiyama; 浩野美山
Original assignee: IBM Japan Ltd
Current assignee: IBM Japan Ltd
Priority date: 1994-09-01
Filing date: 1994-09-01
Publication date: 1996-03-22
Anticipated expiration: 2013-03-18
Also published as: JP2729356B2; US5732260A

Abstract

(57)【要約】【目的】興味深い話題を見つけだすことができるよう
に、検索された文献に付与されている複数のキーワード
の話題性を評価する技法を提供する。【構成】特定のキーワードをもつ文献の件数が、ある
時点で増加し、時間軸に沿って次第に減少してゆく様子
に着目し、この現象を定量化することによって、キーワ
ードの話題性を評価すること。抽出された複数のキーワ
ードは、話題性の値に基づきソートされ、そのままリス
トされ、あるいは、時間軸に沿った話題性のレベル表示
を行うグラフとして表示される。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、新聞記事、特許公
報、あるいはイメージ情報などをコンピュータによって
検索可能に保持するデータベースの検索技法に関するも
のである。

【０００２】

【従来の技術】従来より、新聞記事、特許公報などをコ
ンピュータによって検索可能に保持するデータベースが
一般的に使用されている。このようなシステムにおいて
は、オペレータによる検索を容易ならしめるために、デ
ータベースの個々の要素（新聞のデータベースにあって
は個々の記事、特許データベースにあっては、個々の特
許公報）毎に、複数のキーワードが付与される。

【０００３】そうして、検索を行うためには、一般的に
は、フリー・キーワード方式と呼ばれる対話的な検索方
法が使用される。これによれば、ユーザーのキーワード
入力に従い順次検索結果を得ることができるので、熟練
したユーザーが、複数の検索式を用意して、所望の件数
が得られるまで順次絞り込みをかけていくには有利であ
る。そのような検索式は通常、複数の条件の論理演算
（ＡＮＤ、ＯＲ、ＮＯＴなど）を含むものである。しか
し、従来のこの種の方式は、どの条件が結果に対してど
れ程の影響を与えたかを、予測することを可能ならしめ
るものではない。いいかえれば、見つかった文献以外に
漏れはなかったことを確認するためには、検索で用いた
条件の各々について、それを付加した場合と、除去した
場合の結果の差をいちいち検証する必要があるが、実際
には、検索が少しでも複雑になると、論理式の組み合わ
せの場合の数が非常に多くなって、事実上このような方
法はとれなくなる。

【０００４】さらに、多くの検索システムは、「ユーザ
ーは、探している情報およびその周辺分野には詳しい」
という想定のもとに設計されているため、適切なキーワ
ードを思い付くことができない専門外のユーザーをし
て、検索された多数の文献の中から、適切な数件の文献
に絞り込むことを可能ならしめることが困難である。そ
こで要望されるのは、検索しようとする分野に関する知
識が十分でなくても、ユーザーが、検索しようとする文
献全体の傾向を知ることができるようにするシステムで
ある。さらに要望されるのは、適切なキーワードを思い
付くことができない専門外のユーザーに対して、検索に
有効な一群のキーワードを提示し、以って専門外のユー
ザーでも、興味のある情報に辿りつけるようにナビゲー
トするシステムである。そのためには、キーワードの与
える情報量、あるいは話題性といったものを評価するこ
とが必要となるが、これに関して以下に示す刊行物に記
載されているような技法が知られている。

【０００５】特開昭６３−４９９２８号公報は、キーワ
ード候補単語の使用頻度と、キーワード候補単語の尤度
とを計算し、各々のキーワード候補単語に対して、文章
内の使用頻度をもとに尤度を付与することを開示する。

【０００６】特開平１−１１２３３１号公報は、新聞記
事などからキーワードを自動的に抽出する技法に関し、
キーワードの、記事における統計的、構文的及び意味的
な重要度をも考慮に入れてキーワードを評価し抽出する
ことを開示する。

【０００７】特開平２−１５８８７１号公報は、文書デ
ータベースにおけるキーワードの出現頻度値を用いて各
キーワードの自己情報量を計算し、該自己情報量を用い
て文書毎の概念特徴量を計算し、文書間の概念特徴量の
差に応じて文書間の距離を求めることを開示する。

【０００８】特開平４−９８４６１号公報は、英文情報
から単語を抽出し、該抽出された単語とこの単語に対応
する記憶内容とに基づきキーワード候補を作成し、キー
ワード候補の出現回数に基づき、キーワード候補の重要
度を算出し、この重要度に基づき、キーワード候補から
キーワードを抽出することを開示する。

【０００９】これら従来の技法によれば、キーワードの
出現頻度、キーワードが現れる文書中の文脈などからキ
ーワードが評価される。これらの尺度は、キーワードの
重みを評価する上で一般的には有効である。すなわち、
シソーラスを作成する際には、重みがある閾値よりも小
さいと評価されたキーワードは棄却されることになる。

【００１０】しかし、例えば、半導体デバイスの技術文
献データベースで、「半導体」や、「ＳｉＯ₂」という
キーワードを使用すると、非常に多くの文献にヒットす
るであろう。

【００１１】ところが一方、「半導体」や、「Ｓｉ
Ｏ₂」などの「ありふれた」キーワードから、話題性に
富む、あるいは画期的な文献に辿りつくのは極めて困難
である。

【００１２】逆に、稀少なキーワードを使用すると、場
合によっては「珍しい」文献に逢着することがあり得
る。しかし、そのような珍しい文献が、注目に値する重
要な文献であるということは全く保証されない。

【００１３】

【発明が解決しようとする課題】この発明の目的は、検
索しようとする文献データベースに関連する分野につい
て十分な知識をもたないユーザーに対して、意義深い、
あるいは話題性に富む文献に辿りつくことを可能ならし
めるようなキーワードを提示するための技法を提供する
ことにある。

【００１４】この発明の他の目的は、検索された文献に
付与されている複数のキーワードの話題性を評価する技
法を提供することにある。

【００１５】この発明のさらに他の目的は、ユーザーに
対して、興味深い話題を見つけだすことができるよう
に、検索された文献に付与されている複数のキーワード
の話題性を評価する技法を提供することにある。

【００１６】

【課題を解決するための手段】上記目的を達成するため
に、本願発明者は、特定のキーワードをもつ文献の件数
が、ある時点で増加し、時間軸に沿って次第に減少して
ゆく様子に着目し、この現象を定量化することによっ
て、キーワードの話題性を評価することができることに
想到したのである。

【００１７】これは具体的には、次のように行う。すな
わち、本発明によれば、頻度がピークの時点から次第に
減少してゆくモデルが想定され、特定のキーワードをも
つ文献の頻度の時間軸に沿っての減少がこのモデルと比
較され、モデルとの距離がある閾値以内の範囲にある場
合にのみ、その特定のキーワードが「話題」である見な
される。モデルとして想定する関数は、ほぼ単調減少で
あることが必要であるけれども、それだけでは十分では
なく、勾配の絶対値が次第に減少するものでなくてはな
らない。この条件を満たす関数の簡単な例として、

【数１】y = 1/x がある。

【００１８】最初のステップは、当該のキーワードが話
題である範囲を決定することである。このために、当該
のキーワードが恒常的に生じている頻度を推定する必要
がある。これは、そのキーワードに関する、いわばバッ
クグランドの頻度を決定して、それを、得られた頻度か
ら引くことによって、真の時間的な効果を際立たせるた
めである。１つの例では、バックグランドの頻度は、あ
る期間に亘っての最も少ない頻度と２番目に少ない頻度
の平均であらわすことができる。

【００１９】こうして、恒常的出現頻度が決定される
と、上記ある期間で恒常的出現頻度に対して最大の頻度
をもつ時点を求め、それを話題の開始時間とする。

【００２０】次に、話題の終了時間は、話題の開始時間
から当該のキーワードをもつ文献の出現頻度が次第に減
少している範囲で、且つ恒常的出現頻度よりも大きい出
現頻度をもつ、話題の開始時間からの最長の時間を示す
時点である。尚、もし出現頻度が単調減少から増加に向
かったり、恒常的出現頻度よりも小さくなったりした場
合は、その直前の時点が話題の終了時点であると見な
す。

【００２１】こうして話題の開始時点と終了時点（話題
の継続期間と呼ぶ）が決定されると、その話題の継続期
間の当該キーワードの出現頻度の和と、上記ある期間全
体に対する該話題の継続期間の集中度（これは、例え
ば、話題の継続期間における当該キーワードの出現頻度
の和を、上記ある期間全体に亘る当該キーワードの出現
頻度の和で割ることによって計算される）の積によって
話題性が計算される。

【００２２】抽出されたキーワードの全てにつき、上記
話題性を計算し、その値に応じて降順にソートすること
によって、そのキーワードがヒットする件数ではなく、
「話題性」という別の尺度でキーワードを評価すること
が可能となり、ユーザーは、このようにソートされた上
位のキーワードを使用して、より興味深い文献の検索へ
と進むことができる。あるいは、このようにソートされ
たキーワード群を眺めるだけでも、対象としている文献
群がどのような主題を主たる話題としているかの概略
を、ユーザーは把握することができるだろう。

【００２３】尚、１つのキーワードがあらわれるとき、
それに相関してほぼ必ず別のキーワードがあらわれる、
ということがある（例えば、「殺人事件」と「警
察」）。このように、他のキーワードに深く関連づけら
れたキーワードは、それ独自で話題を示す訳ではなく、
寧ろ、関連するキーワードに付随して出現していると解
釈するのが相当である。そこで、例えば、Ｆ１というキ
ーワードと、Ｆ２というキーワードの両方をもつ文献の
頻度を、Ｆ１というキーワードをもつ文献の頻度で割る
ことによって、Ｆ１に対するＦ２の関連性と定義し、好
適には、この関連性が所定の閾値よりも大きいものは、
話題性でソートされた上位のキーワードであっても、話
題性のリストから排除するようにする。しかし、場合に
よっては、話題性のリストからは排除せず、関連のある
と決定されたキーワードを併記する方が望ましい場合も
あろう。

【００２４】

【実施例】以下図面を参照して、本発明の実施例を説明
する。

【００２５】Ａ．ハードウェア構成図１を参照すると、本発明を実施するためのシステム構
成の概観図が示されている。この構成は、特殊なもので
はなく、主記憶（ＲＡＭ）、中央処理装置（ＣＰＵ）、
周辺装置コントローラなどを備えるシステム装置１００
２と、システム装置に対して、コマンドや文字列などを
キー入力するためのキーボード１００４と、中央処理装
置を制御するためのオペレーティング・システム、デー
タベース・ファイル、検索エンジン、キーワード・イン
デックス・ファイルなどを格納したハードディスク１０
０６と、データベースの検索結果をカラーのビットマッ
プで表示し得るディスプレイ装置１００８と、ディスプ
レイ装置１００８の画面上の任意の位置をポイントして
その位置情報を中央処理装置に伝えるためのマウス１０
１０からなる通常の構成である。

【００２６】オペレーティング・システムとしては、Ｗ
ｉｎｄｏｗｓ（マイクロソフトの商標）、ＯＳ／２（Ｉ
ＢＭの商標）、ＡＩＸ（ＩＢＭの商標）上のＸ−ＷＩＮ
ＤＯＷシステム（ＭＩＴの商標）などの、標準でＧＵＩ
マルチウインドウ環境をサポートするものが望ましい
が、本発明は、ＭＳ−ＤＯＳ（マイクロソフトの登録商
標）のキャラクタ・ベース環境でも実現可能であり、特
定のオペレーティング・システム環境に限定されるもの
ではない。

【００２７】また、図１は、スタンド・アロン環境のシ
ステムを示しているが、一般的に、データベース・ファ
イルは大容量のディスク装置を要するものであるので、
クライアント／サーバ・システムとして本発明を実現
し、サーバ・マシンにデータベース・ファイルと検索エ
ンジンを配置し、クライアント・マシンは、サーバ・マ
シンに対して、イーサネット、トークン・リングなどで
ＬＡＮ接続し、クライアント・マシン側には、検索結果
を見るためのＧＵＩ制御部のみを配置するようにしても
よい。

【００２８】Ｂ．システム構成次に、図２のブロック図を参照して、本発明のシステム
構成について説明する。尚、図２で個別のブロックで示
されている要素は、図１のハードディスク１００６に、
個別のデータ・ファイルまたはプログラム・ファイルと
して格納されているものであることに留意されたい。

【００２９】データベース２００２は、この実施例で
は、新聞記事のデータベースである。データベース２０
０２には、新聞記事のコンテンツが、テキスト・ファイ
ル形式で、個別に検索可能に格納されている。より具体
的には、各新聞記事には、一意的な記事番号と、新聞掲
載日が付与されている。

【００３０】一般的に、新聞記事のコンテンツを直接検
索するのは長い処理時間を要するので、データベース２
００２に格納されている全ての新聞記事のコンテンツを
対象として予め、キーワード・インデックス２００４が
作成される。キーワード・インデックス２００４には、
個々のキーワードと、そのキーワードを含む記事の記事
番号が格納されている。

【００３１】キーワード検索エンジン２００６は、キー
ワードを入力としてキーワード・インデックス２００４
を検索し、入力されたキーワードを含む記事の記事番号
を返すものである。

【００３２】キーワード収集モジュール２００８は、例
えばキーワード検索の結果としてキーワード検索エンジ
ン２００６から返された記事番号の集合を入力として、
データベース２００２に格納されている記事のコンテン
ツにアクセスし、それらの記事に付与されたキーワード
を、それを含む記事が掲載された日付とともに返すもの
である。

【００３３】話題抽出モジュール２０１０は、キーワー
ドを入力とし、そのキーワードを含む記事の範囲で、デ
ータベースに直接アクセスして話題抽出（後で詳細に説
明する）を行うものである。話題抽出モジュール２０１
０は、好適には、話題性（やはり後で詳細に説明する）
に応じて、抽出されたキーワードをソートする機能をも
つ。

【００３４】話題表示モジュール２０１２は、話題抽出
モジュール２０１０によって話題として抽出されたキー
ワードのリストを、ディスプレイ装置１００８に表示す
るためのものである。話題表示モジュール２０１２は好
適には、抽出されたキーワードの頻度や日付に基づき、
ＧＵＩベースで棒グラフや折れ線グラフとして表示した
り、パイチャートを表示したりする機能ももつ。

【００３５】Ｃ．本発明の処理次に、図３のフローチャートを参照して、本発明の処理
について説明する。

【００３６】先ず、図３のステップ３００２では、ユー
ザーがキーボードから打ち込んだ検索式が、図２のキー
ワード検索エンジン２００４によって受け取られる。こ
の検索式は、単一のキーワードであってもよいし、複数
のキーワードにＡＮＤ、ＯＲ、ＮＯＴなどの演算子を関
連させたものであってもよい。

【００３７】キーワード検索エンジン２００４は、検索
式を受け取ると、ステップ３００４でディスク１００６
に格納されているキーワード・インデックス・ファイル
２００４にアクセスして、検索を実行する。この検索の
結果、キーワード検索エンジン２００４は、その検索式
に該当する記事の記事番号を得る。

【００３８】この検索結果の記事番号の集合は、話題抽
出モジュール２０１０に渡される。

【００３９】話題抽出モジュール２０１０は、この渡さ
れた検索結果の記事番号の集合を以ってキーワード収集
モジュール２００８を呼び出し、こうして、ステップ３
００６では、キーワード収集モジュール２００８が、デ
ータベース２００２における検索結果の記事番号に対応
するコンテンツに直接アクセスして、そのコンテンツか
らキーワードを抽出する。このとき、抽出されたキーワ
ードには、本発明独自の処理のため、そのキーワードが
抽出されたソースの記事の日付が関連づけられる。

【００４０】ステップ３００８では、話題抽出モジュー
ル２０１０は、キーワード収集モジュール２００８によ
って抽出されたキーワードのうちの１つのキーワードに
ついて、話題の開始時間Tstartを計算する。このために
先ず、話題抽出モジュール２０１０は、当該のキーワー
ドが恒常的に生じている頻度を推定するための処理を行
う。というのは、そのキーワードに関する、いわばバッ
クグランドの頻度（以下、恒常的出現頻度Fcと称する）
を決定して、それを、得られた頻度から引くことによっ
て、真の時間的な効果を際立たせるためである。１つの
実施例では、恒常的出現頻度Fcは、ある期間に亘っての
最も少ない頻度と２番目に少ない頻度の平均として計算
される。しかし、恒常的出現頻度は、ある期間に亘って
の最も少ない頻度として与えてもよく、本発明の趣旨か
ら逸脱しない範囲で様々な計算方法を考慮することがで
きる。

【００４１】こうして、恒常的出現頻度Fcが決定される
と、話題抽出モジュール２０１０は、上記ある期間で恒
常的出現頻度に対して最大の頻度をもつ時点を求め、そ
れを話題の開始時間とする。

【００４２】次に、ステップ３０１０では、話題抽出モ
ジュール２０１０は、次のようにして、そのキーワード
に関する話題の終了時間Tendを計算する。１つの実施例
では、話題の終了時間は、話題の開始時間から当該のキ
ーワードをもつ文献の出現頻度が次第に減少している範
囲で、且つ恒常的出現頻度よりも大きい出現頻度をも
つ、話題の開始時間からの最長の時間を示す時点であ
る。もし出現頻度が単調減少から増加に向かったり、恒
常的出現頻度よりも小さくなったりした場合は、その直
前の時点が話題の終了時点であると見なす。

【００４３】ステップ３０１２では、話題抽出モジュー
ル２０１０は、上記得られた話題の開始時間Tstart及び
Tendに基づき、モデルとの距離計算を行う。モデルにつ
いては、図４のグラフを参照して説明を行う。

【００４４】図４のグラフにおいて、横軸は時間tであ
り、この場合新聞記事の掲載日である。縦軸は、ある単
位時間内の当該キーワードを含む新聞記事の件数（以
下、頻度fと称する）である。新聞記事データベースの
場合、単位時間として日をとると、日毎の掲載件数が比
較的大きくばらつく。しかし、日々の件数のばらつきか
ら有用な情報が得られることもあるので、単位時間とし
て日をとることが有意義な場合もある。一方、頻度を見
る単位時間として、１ヶ月をとると、記事の件数の日々
のばらつきが均されて話題性抽出の精度が高まるが、細
かい頻度の変動が見落とされる可能性も出て来る。よっ
て、単位時間は、目的に応じて、日または月のどちらか
が選ばれる。勿論、場合によって、一週間または３日間
などの他の単位時間が適当なこともあろう。

【００４５】図４において、t₀は、新聞記事データベー
ス全体での記事の最も古い日付、t₁は、新聞記事データ
ベース全体での記事の最も新しい日付である。

【００４６】また、Freq(t)は、tの時点での当該キーワ
ードの頻度である。定義により、Freq(Tstart)は、当該
キーワードの最大頻度である。

【００４７】さて、本発明の１つの知見によれば、理想
的な話題の頻度は、単調減少し且つその負の勾配の絶対
値が時間の推移とともに次第に減少してゆく関数に従
う。このような関数によって推定される頻度をモデル推
定量と呼ぶことにする。この話題モデルの性質は、本願
発明者によって、実際の新聞記事について、多数の典型
的な話題の頻度の消長を観察することによって認識され
たものである。

【００４８】このような関数の１つの例は、y=1/xであ
り、別の例は、y=1/(log(x))である。

【００４９】ここでは、モデルとしてy=1/xを選んだ例
で説明する。モデルは、場合によっては、t=Tstartで、
値がFreq(Tstart)となるように正規化される。するとモ
デル推定量の式Fm(t)は、次のようになる。

【数２】 Fm(t) = (Freq(Tstart) - Fc )/(t - Tstart + 1) + Fc

【００５０】また、場合によっては、0< K < 1であるよ
うな定数Kを導入し、

【数３】Fm(t) = K(t) * (Freq(Tstart) - Fc )/(t - T
start + 1) + Fc

【００５１】としてもよい。これは、必ずしも、Fm(Tst
art) = F(Tstart)となるように正規化されないが、Tsta
rtとTendの期間に亘ってよりよいモデル推定量を与える
場合がある。因みに、K(t)は、tに関して次第に減少す
るような重み付け関数であって、話題期間の後半は、あ
まり重要でない頻度が生じがちであるという知見に基づ
き、話題期間の前半を、後半よりも比較的に重視するよ
うにするために掛けられる。

【００５２】図３のフローチャートに戻って、ステップ
３０１２では、次のような計算によって、当該のキーワ
ードとモデル推定量Fmとの距離が求められる。

【数４】

【００５３】距離は、こうして計算された値dの平方根
として与えられる。尚、上記式は、便宜上Ｃ言語の記法
に拠ったが、この技術分野の当業者なら容易に、ＦＯＲ
ＴＲＡＮ、ＰＡＳＣＡＬ、ＢＡＳＩＣなどの任意のプロ
グラミング言語に上記式を書き直すことができるはずで
ある。

【００５４】また、本発明は、上記距離の定義に限定さ
れるものではなく、本発明の趣旨から逸脱しない範囲で
任意の別の定義を使用することができる。例えば、上記
式で、

【数５】 d += ( Freq(t) - Fm(t)) * ( Freq(t) - Fm(t)); を、

【数６】d += abs( Freq(t) - Fm(t)); で置き換えてもよい。尚、absは、絶対値をとるための
関数である。この場合には、dの平方根ではなく、d自体
が距離となる。

【００５５】こうしてモデルとの距離が計算されると、
ステップ３０１４では、モデルとの距離が予定の閾値Ｄ
よりも小さいかどうかが判断される。

【００５６】もしそうなら、モデルとの距離の点につい
ては、当該キーワードは、話題性があるとみなされて、
次のステップ３０１６で、話題の関連性の計算が行われ
る。話題の関連性とは、当該のキーワードが別のキーワ
ードに付随して起こる度合の指標であって、次の式で計
算される。

【数７】話題の関連性(K1,K2) = Freq(K1 & K2)/Freq(K1)

【００５７】この式で、K1は当該のキーワード、K2は、
ステップ３００６で抽出されたキーワードのうちで、K1
に等しくない任意のものである。また、Freq(K1 & K2)
は、K1とK2の両方を含む記事の頻度である。この式の計
算の時間範囲は、図４のt₀とt₁の間でもよいし、Tstart
とTendの間でもよい。この式は、０と１の間の値をと
り、１に十分近い値をとるときは、K1が現れる非常に多
くの場合にK2があらわれる、ということだから、K1はK2
に強く関連づけられている、と解釈してよいことにな
る。例えば、「殺人」は「警察」に強く関連づけられた
キーワードである。

【００５８】そのように、他のキーワードに強く関連づ
けられたキーワードが話題性をもつとしてマークされた
としても、それは、他のキーワードとの関連でのみ記事
に現れている可能性が大きい。従って、本発明の好適な
実施例では、話題の関連性がある閾値Ｒより大きいキー
ワードは、ステップ３０１４でモデルとの距離がＤより
小さいことが決定されたとしても、ステップ３０１８で
の判断により、話題としてエントリしないようにする。
しかし、これは１つの実施例にすぎず、別の実施例で
は、他のキーワードとの関連性が大きいと決定されて
も、話題のリストからは排除せず、寧ろリストで、関連
性が大きいと決定された他のキーワードを併記するよう
にしてもよく、寧ろその方が望ましい場合もある。

【００５９】こうして、当該キーワードの他のキーワー
ドに対する関連性が大きくないと、ステップ３０１８で
判断されると、そのキーワードはようやく、ステップ３
０２０で話題として保持されることになる。

【００６０】尚、ステップ３００８からステップ３０２
０までは、ステップ３００６で、新聞記事からキーワー
ドとして抽出された全てのもの１つ１つについて、順次
実行されることに留意されたい。

【００６１】次に、ステップ３０２２では、保持された
全てのキーワードについて、話題性の計算が行われる。
本発明によれば、話題性とは、話題の期間、すなわち図
４におけるTstartからTendまでの期間の当該キーワード
の頻度の累計に、全期間（図４におけるt₀とt₁の間）の
当該キーワードの集中度を掛けた値である。

【００６２】集中度は、１つの実施例では、話題の期間
の当該キーワードの頻度を、全期間の間の当該キーワー
ドの頻度で割った値である。

【００６３】あるいは、集中度として、話題の期間の長
さを、全期間の長さで割った値を使用してもよい。

【００６４】ステップ３０２４では、ステップ３０２０
で話題としてリストされた全てのキーワードが、ステッ
プ３０２２で計算された話題性の値に基づき、降順にソ
ートされる。これによって、本発明によって、より話題
性がある、と見なされるキーワードから順に、ディスプ
レイ装置１００８（図１）の画面に表示することが可能
となり、それだけでも、ユーザーは、ステップ３００２
で与えた検索式によって絞られた記事の群についての主
要な話題を、一見して把握することができるであろう。

【００６５】ステップ３０２６では、話題性に関して降
順にソートされた上位幾つかのキーワードに関して、横
軸を時間とし、話題の期間を水平に延びるバーとし、そ
のバーがあらわれる高さを話題性の順位の値（順位が上
である程上方に表示）とするグラフがディスプレイ装置
１００８（図１）の画面に表示される。このようなグラ
フの具体例としては、図５を参照されたい。

【００６６】Ｄ．具体的な検索例次に、実際の新聞記事データベースをアクセスして検索
した例を示す。

【００６７】先ず、特定の期間をカバーする新聞記事デ
ータベースが、「事故」というキーワードで検索され
た。そして、得られた記事の集合からキーワードを抽出
し、記事中にあらわれた件数順に降順でソートすると、
次のリストが得られた（上位３０をリスト）。このリス
トは、順位、キーワード、頻度をそれぞれ表す。

【表１】 ============================ 1 死亡 362 2 衝突 242 3 原因 194 4 安全 189 5 会社 159 6 現場 137 7 対策 133 8 作業 124 9 過失 122 10 発生 122 11 衝突事故 121 12 爆発 118 13 県警 112 14 死者 110 15 防止 103 16 調査 102 17 責任 90 18 損害 89 19 システム 87 20 業務上過失致死 86 21 過失致死 82 22 全国 81 23 発表 81 24 乗客 80 25 地裁 80 26 賠償 77 27 ニュートラム 76 28 事故原因 74 29 会社員 72 30 暴走 72

【００６８】一方、同じキーワードの集合につき、計算
された話題性の値の順序で降順に降順でソートすると、
次のリストが得られた（上位３０をリスト）。このリス
トは、順位、キーワード、話題性の値をそれぞれ表す。

【表２】 ============================ 1 ニュートラム 76.00 2 暴走事故 61.00 3 暴走 51.68 4 交通システム 51.00 5 タンカー事故 44.33 6 スマトラ島 44.02 7 システム 37.34 8 衝突 33.47 9 衝突事故 28.77 10 現場 13.49 11 爆発 11.60 12 負傷 10.88 13 作業 9.88 14 車両 9.80 15 全国 9.00 16 施設 9.00 17 遺族 8.86 18 調査 8.82 19 発生 7.87 20 責任 7.51 21 過失 7.37 22 再開 7.01 23 遺体 6.42 24 業務上過失致死 6.15 25 地裁 6.05 26 過失致死 5.90 27 実施 5.89 28 技術 5.67 29 会社員 5.55 30 対策 5.48

【００６９】この例から見て取れるように、抽出された
キーワードのうちで最も頻度の大きい「死亡」は、話題
性に関して降順ソートしたリストからは、上位３０位か
らも漏れてしまい、単なる「死亡」というキーワード
は、少なくとも「事故」に関連した新聞記事においては
あまり話題性がない、ということが示唆される。

【００７０】一方、頻度に関して降順ソートしたリスト
では辛うじて２７位にあった「ニュートラム」というキ
ーワードは、話題性に関して降順ソートしたリストで
は、一躍トップに位置付けられた。実際、「ニュートラ
ム」というキーワードは、確かに一世を風靡したもので
あり、このことは、このような比較的頻度の低いキーワ
ードを、話題性の高いキーワードとしてリストし得る点
で、本発明の技法の信頼性を裏付けるものであるように
思われる。

【００７１】さらに言うなら、単に頻度をベースに、抽
出されたキーワードをソートすると、最初に与えた検索
条件と密接に関連したキーワードしかピックアップされ
ない、ということに留意されたい。例えば、上記の例だ
と、「事故」という検索条件に対して、頻度の順で上位
にリストされるのは、「死亡」、「衝突」、「原因」、
「安全」などで、何れも、一般の人が「事故」というキ
ーワードから容易に連想できるものばかりである。すな
わち、頻度をベースにすると、ユーザーに非自明、ある
いは有意義な情報が与えられない場合が多い。

【００７２】一方、話題性をベースにリストされたキー
ワードは、「ニュートラム」、「暴走事故」、「暴
走」、「交通システム」、「タンカー事故」、「スマト
ラ島」、「システム」であり、上記「死亡」、「衝
突」、「原因」、「安全」に比較すると、「事故」とい
うキーワードから、何等かの前提知識なしでは容易に連
想できるものではなくなっている。逆にいうなら、本発
明は、そのような前提知識のないユーザーに、有意義な
情報を自動的に抽出して提示し得るのである。

【００７３】尚、話題性の計算完了後、ユーザーの要求
に応答して、あるいは自動的に、頻度に関して降順ソー
トしたリストが、画面の（マルチウインドウ環境である
場合）特定のウインドウ中に表示される。ユーザーは、
このウインドウをスクロールすることによって、話題性
が大きいキーワードから順に眺めることができる。

【００７４】さらに、話題性の計算完了後、ユーザーの
要求に応答して、あるいは自動的に、図５に示すよう
に、話題性に関して降順にソートされた上位幾つかのキ
ーワードに関して、横軸を時間とし、話題の期間を水平
に延びるバーとし、そのバーがあらわれるレベルを話題
性の順位とするグラフがディスプレイ装置１００８（図
１）の画面に表示される。

【００７５】

【発明の効果】以上説明したように、この発明によれ
ば、キーワードの頻度では判断することができない「話
題性」という観点に基づきキーワードを選択して提示す
ることを可能ならしめる、という効果が得られる。

【００７６】尚、上記実施例では、新聞記事データベー
スに限定して説明したが、本発明は新聞記事データベー
スに限定されるものではなく、コンピュータ検索可能に
維持され、個々のデータ要素からキーワード抽出可能で
あり、且つ個々のデータ要素には時間（一般的には、日
付）が関連付けられているような任意のデータベースに
適用可能である。このようなものの例としては、新聞記
事データベース以外に、電子メール・ネットワークのフ
ォーラム（電子掲示板）、電子的な議事録、論文データ
ベース、特許公報のデータベースなどがある。

【図面の簡単な説明】

【図１】本発明を実現するためのハードウェア構成を
示す概略図である。

【図２】本発明を実現するための論理構成のブロック
図である。

【図３】本発明の処理のフローチャートを示す図であ
る。

【図４】本発明に基づき話題性を抽出するためのモデ
ル及び頻度の推移を示すグラフを示す図である。

【図５】抽出された話題を表示する画面の例を示す図
である。

Claims

【特許請求の範囲】

【請求項１】各々のデータ要素が、時間情報を付与さ
れ、且つキーワード付け可能な情報を含むような、複数
のデータ要素からなるデータベースから、コンピュータ
の処理によって話題性を抽出する情報検索方法であっ
て、(a) 上記時間情報の所定期間に亘って恒常的に、上
記データ要素に含まれる所与のキーワードを含む、単位
時間内の時間情報を付与されたデータ要素の推定件数と
して定義される、該所与のキーワードに関する恒常的出
現頻度を決定する段階と、(b) 上記時間情報の軸に沿っ
て、上記所与のキーワードを含む、単位時間毎の時間情
報を付与されたデータ要素の件数から上記恒常的出現頻
度を引いた値が最大になる時点を、上記所与のキーワー
ドの話題性の開始時点として決定する段階と、(c) 上記
時間情報の軸に沿って、話題性の開始時点よりも後の時
点で、上記所与のキーワードを含む、単位時間内の時間
情報を付与されたデータ要素の件数が、ほぼ上記恒常的
出現頻度のレベルまで低下する時点を、上記所与のキー
ワードの話題性の終了時点として決定する段階と、(d)
話題の開始時点から終了時点まで単調減少する話題の頻
度推移の関数として、予めモデルを与える段階と、(e)
上記予めモデルとして与えられた関数と、上記話題性の
開始時点から上記話題性の終了時点までの、単位時間毎
の時間情報を付与されたデータ要素の件数から上記恒常
的出現頻度を引いた値の推移のグラフとの距離を決定す
る段階と、(f) 上記所与のキーワードに関する上記距離
の値がある閾値よりも小さいことに応答して、上記所与
のキーワードを話題として選択する段階を有する、情報
検索方法。
【請求項２】上記単調減少する話題の頻度の関数は、そ
の負の勾配の絶対値が上記時間軸に沿って次第に減少し
ていく性質をもつ関数である、請求項１に記載の情報検
索方法。
【請求項３】上記関数は、y=1/xの形式の関数である、
請求項２に記載の情報検索方法。
【請求項４】上記所与のキーワードと、上記データベー
スのデータ要素に含まれる他のキーワードとの関連性を
数値で求め、該関連性が所定の閾値より大きいことに応
答して、上記所与のキーワードを話題として選択しない
ようにする段階をさらに有する、請求項１に記載の情報
検索方法。
【請求項５】上記関連性は、上記所与のキーワードと上
記他のキーワードを同時に含む上記データ要素の件数
を、上記所与のキーワードを含む件数で割った値であ
る、請求項４に記載の情報検索方法。
【請求項６】上記データベースが新聞記事のデータベー
スであり、上記データ要素が個別の記事であり、上記時
間情報が発行年月である、請求項１に記載の情報検索方
法。
【請求項７】各々のデータ要素が、時間情報を付与さ
れ、且つキーワード付け可能な情報を含むような、複数
のデータ要素からなるデータベースから、コンピュータ
の処理によって話題性を抽出する情報検索方法であっ
て、(a) 上記時間情報の所定期間に亘って恒常的に、上
記データ要素に含まれる所与のキーワードを含む、単位
時間内の時間情報を付与されたデータ要素の推定件数と
して定義される、該所与のキーワードに関する恒常的出
現頻度を決定する段階と、(b) 上記時間情報の軸に沿っ
て、上記所与のキーワードを含む、単位時間毎の時間情
報を付与されたデータ要素の件数から上記恒常的出現頻
度を引いた値が最大になる時点を、上記所与のキーワー
ドの話題性の開始時点として決定する段階と、(c) 上記
時間情報の軸に沿って、話題性の開始時点よりも後の時
点で、上記所与のキーワードを含む、単位時間内の時間
情報を付与されたデータ要素の件数が、ほぼ上記恒常的
出現頻度のレベルまで低下する時点を、上記所与のキー
ワードの話題性の終了時点として決定する段階と、(d)
話題の開始時点から終了時点まで単調減少する話題の頻
度推移の関数として、予めモデルを与える段階と、(e)
上記予めモデルとして与えられた関数と、上記話題性の
開始時点から上記話題性の終了時点までの、単位時間毎
の時間情報を付与されたデータ要素の件数から上記恒常
的出現頻度を引いた値の推移のグラフとの距離を決定す
る段階と、(f) 上記所与のキーワードに関する上記距離
の値がある閾値よりも小さいことに応答して、上記所与
のキーワードを話題として選択する段階と、(g)上記段
階(a)乃至段階(f)を、上記データベースのデータ要素に
含まれる複数のキーワードに個別に適用し、それらのう
ちで話題として選択されたものを、上記距離の値で降順
にソートする段階を有する、情報検索方法。
【請求項８】上記単調減少する話題の頻度の関数は、そ
の負の勾配の絶対値が上記時間軸に沿って次第に減少し
ていく性質をもつ関数である、請求項７に記載の情報検
索方法。
【請求項９】上記所与のキーワードと、上記データベー
スのデータ要素に含まれる他のキーワードとの関連性を
数値で求め、該関連性が所定の閾値より大きいことに応
答して、上記所与のキーワードを話題として選択しない
ようにする段階をさらに有する、請求項７に記載の情報
検索方法。
【請求項１０】上記関連性は、上記所与のキーワードと
上記他のキーワードを同時に含む上記データ要素の件数
を、上記所与のキーワードを含む件数で割った値であ
る、請求項９に記載の情報検索方法。
【請求項１１】上記データベースが新聞記事のデータベ
ースであり、上記データ要素が個別の記事であり、上記
時間情報が発行年月である、請求項７に記載の情報検索
方法。
【請求項１２】上記単位時間が月である、請求項１１に
記載の情報検索方法。
【請求項１３】各々のデータ要素が、時間情報を付与さ
れ、且つキーワード付け可能な情報を含むような、複数
のデータ要素からなるデータベースから、コンピュータ
の処理によって話題性を抽出する情報検索システムであ
って、(a) 上記時間情報の所定期間に亘って恒常的に、
上記データ要素に含まれる所与のキーワードを含む、単
位時間内の時間情報を付与されたデータ要素の推定件数
として定義される、該所与のキーワードに関する恒常的
出現頻度を決定する手段と、(b) 上記時間情報の軸に沿
って、上記所与のキーワードを含む、単位時間毎の時間
情報を付与されたデータ要素の件数から上記恒常的出現
頻度を引いた値が最大になる時点を、上記所与のキーワ
ードの話題性の開始時点として決定する手段と、(c) 上
記時間情報の軸に沿って、話題性の開始時点よりも後の
時点で、上記所与のキーワードを含む、単位時間内の時
間情報を付与されたデータ要素の件数が、ほぼ上記恒常
的出現頻度のレベルまで低下する時点を、上記所与のキ
ーワードの話題性の終了時点として決定する手段と、
(d) 上記予めモデルとして与えられた、話題の開始時点
から終了時点まで単調減少する話題の頻度推移の関数
と、上記話題性の開始時点から上記話題性の終了時点ま
での、単位時間毎の時間情報を付与されたデータ要素の
件数から上記恒常的出現頻度を引いた値の推移のグラフ
との距離を決定する手段と、(e) 上記所与のキーワード
に関する上記距離の値がある閾値よりも小さいことに応
答して、上記所与のキーワードを話題として選択する手
段とを具備する、情報検索システム。
【請求項１４】上記キーワードを話題として選択する手
段によって話題として選択された複数のキーワードを保
持する手段と、上記保持された複数のキーワードにつ
き、該キーワードを含み、上記話題の開始時間と終了時
間の間の時間情報を付与されたデータ要素の頻度と、該
キーワードの上記所定期間内の該キーワードの集中度と
の積として話題性を計算する手段と、該複数のキーワー
ドを該話題性の値でソートしてユーザーに提示する手段
をさらに有する、請求項１３に記載の情報検索システ
ム。
【請求項１５】上記集中度は、上記話題の開始時間と終
了時間の間の時間情報を付与されたデータ要素の頻度
を、上記所定期間内の時間情報を付与されたデータ要素
の頻度で割った値に比例する値である、請求項１４に記
載の情報検索システム。
【請求項１６】上記所与のキーワードを話題として選択
する手段は、上記所与のキーワードと、上記データベー
スのデータ要素に含まれる他のキーワードとの関連性を
数値で求め、該関連性が所定の閾値より大きいことに応
答して、所与のキーワードを話題として選択しないよう
にする手段をさらに有する、請求項１３に記載の情報検
索システム。
【請求項１７】上記関連性は、上記所与のキーワードと
上記他のキーワードを同時に含む上記データ要素の件数
を、上記所与のキーワードを含む件数で割った値であ
る、請求項１６に記載の情報検索システム。
【請求項１８】上記単調減少する話題の頻度の関数は、
その負の勾配の絶対値が上記時間軸に沿って次第に減少
していく性質をもつ関数である、請求項１３に記載の情
報検索システム。
【請求項１９】上記データベースが新聞記事のデータベ
ースであり、上記データ要素が個別の記事であり、上記
時間情報が発行年月である、請求項１３に記載の情報検
索システム。
【請求項２０】上記単位時間が月または日のどちらかで
ある、請求項１９に記載の情報検索システム。
【請求項２１】各々のデータ要素が、時間情報を付与さ
れ、且つキーワード付け可能な情報を含むような、複数
のデータ要素からなるデータベースから、コンピュータ
の処理によって話題性を抽出する情報検索システムであ
って、(a) ユーザーからの検索要求に応答して、該検索
要求の条件に合致するデータ要素を上記データベースに
おいて検索する検索手段と、(b) 上記時間情報の所定期
間に亘って恒常的に、上記検索手段によって検索された
データ要素に含まれる個別のキーワードについて、該キ
ーワードを含む、単位時間内の時間情報を付与されたデ
ータ要素の推定件数として定義される、該キーワードに
関する恒常的出現頻度を決定する手段と、(c) 上記時間
情報の軸に沿って、上記キーワードを含む、単位時間毎
の時間情報を付与されたデータ要素の件数から上記恒常
的出現頻度を引いた値が最大になる時点を、上記キーワ
ードの話題性の開始時点として決定する手段と、(d) 上
記時間情報の軸に沿って、話題性の開始時点よりも後の
時点で、上記キーワードを含む、単位時間内の時間情報
を付与されたデータ要素の件数が、ほぼ上記恒常的出現
頻度のレベルまで低下する時点を、上記キーワードの話
題性の終了時点として決定する手段と、(e) 上記予めモ
デルとして与えられた、話題の開始時点から終了時点ま
で単調減少する話題の頻度推移の関数と、上記話題性の
開始時点から上記話題性の終了時点までの、単位時間毎
の時間情報を付与されたデータ要素の件数から上記恒常
的出現頻度を引いた値の推移のグラフとの距離を決定す
る手段と、(f) 上記キーワードに関する上記距離の値が
ある閾値よりも小さいことに応答して、上記キーワード
を話題として選択する手段と、(g) 上記検索手段によっ
て検索されたデータ要素の集合の中で上記話題として選
択されたキーワードをリストしてユーザーに示す手段と
を具備する、情報検索システム。
【請求項２２】上記キーワードをリストしてユーザーに
示す手段は、上記保持された複数のキーワードにつき、
該キーワードを含み、上記話題の開始時間と終了時間の
間の時間情報を付与されたデータ要素の頻度と、該キー
ワードの上記所定期間内の該キーワードの集中度との積
として話題性を計算する手段と、該複数のキーワードを
該話題性の値でソートしてユーザーに提示する手段をさ
らに有する、請求項２１に記載の情報検索システム。
【請求項２３】上記集中度は、上記話題の開始時間と終
了時間の間の時間情報を付与されたデータ要素の頻度
を、上記所定期間内の時間情報を付与されたデータ要素
の頻度で割った値に比例する値である、請求項２２に記
載の情報検索システム。
【請求項２４】横軸を期間とし、縦軸を話題性の順位と
し、話題性の値が上位のキーワードを、該キーワードの
話題性の開始時間と話題性の終了時間の間延びる水平な
バーとして表示する手段を有する、請求項２２に記載の
情報検索システム。
【請求項２５】上記所与のキーワードを話題として選択
する手段は、上記所与のキーワードと、上記データベー
スのデータ要素に含まれる他のキーワードとの関連性を
数値で求め、該関連性が所定の閾値より大きいことに応
答して、上記所与のキーワードを話題として選択しない
ようにする手段をさらに有する、請求項２１に記載の情
報検索システム。
【請求項２６】上記関連性は、上記所与のキーワードと
上記他のキーワードを同時に含む上記データ要素の件数
を、上記所与のキーワードを含む件数で割った値であ
る、請求項２５に記載の情報検索システム。
【請求項２７】上記単調減少する話題の頻度の関数は、
その負の勾配の絶対値が上記時間軸に沿って次第に減少
していく性質をもつ関数である、請求項２１に記載の情
報検索システム。
【請求項２８】上記データベースが新聞記事のデータベ
ースであり、上記データ要素が個別の記事であり、上記
時間情報が発行年月である、請求項２１に記載の情報検
索システム。
【請求項２９】上記単位時間が月または日のどちらかで
ある、請求項２８に記載の情報検索システム。