JPH0877178A - 情報検索システム及び方法 - Google Patents

情報検索システム及び方法

Info

Publication number
JPH0877178A
JPH0877178A JP6208489A JP20848994A JPH0877178A JP H0877178 A JPH0877178 A JP H0877178A JP 6208489 A JP6208489 A JP 6208489A JP 20848994 A JP20848994 A JP 20848994A JP H0877178 A JPH0877178 A JP H0877178A
Authority
JP
Japan
Prior art keywords
keyword
time
information
topic
given
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6208489A
Other languages
English (en)
Other versions
JP2729356B2 (ja
Inventor
Hiroshi Nomiyama
浩 野美山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IBM Japan Ltd
Original Assignee
IBM Japan Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IBM Japan Ltd filed Critical IBM Japan Ltd
Priority to JP6208489A priority Critical patent/JP2729356B2/ja
Priority to US08/521,701 priority patent/US5732260A/en
Publication of JPH0877178A publication Critical patent/JPH0877178A/ja
Application granted granted Critical
Publication of JP2729356B2 publication Critical patent/JP2729356B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 興味深い話題を見つけだすことができるよう
に、検索された文献に付与されている複数のキーワード
の話題性を評価する技法を提供する。 【構成】 特定のキーワードをもつ文献の件数が、ある
時点で増加し、時間軸に沿って次第に減少してゆく様子
に着目し、この現象を定量化することによって、キーワ
ードの話題性を評価すること。抽出された複数のキーワ
ードは、話題性の値に基づきソートされ、そのままリス
トされ、あるいは、時間軸に沿った話題性のレベル表示
を行うグラフとして表示される。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、新聞記事、特許公
報、あるいはイメージ情報などをコンピュータによって
検索可能に保持するデータベースの検索技法に関するも
のである。
【0002】
【従来の技術】従来より、新聞記事、特許公報などをコ
ンピュータによって検索可能に保持するデータベースが
一般的に使用されている。このようなシステムにおいて
は、オペレータによる検索を容易ならしめるために、デ
ータベースの個々の要素(新聞のデータベースにあって
は個々の記事、特許データベースにあっては、個々の特
許公報)毎に、複数のキーワードが付与される。
【0003】そうして、検索を行うためには、一般的に
は、フリー・キーワード方式と呼ばれる対話的な検索方
法が使用される。これによれば、ユーザーのキーワード
入力に従い順次検索結果を得ることができるので、熟練
したユーザーが、複数の検索式を用意して、所望の件数
が得られるまで順次絞り込みをかけていくには有利であ
る。そのような検索式は通常、複数の条件の論理演算
(AND、OR、NOTなど)を含むものである。しか
し、従来のこの種の方式は、どの条件が結果に対してど
れ程の影響を与えたかを、予測することを可能ならしめ
るものではない。いいかえれば、見つかった文献以外に
漏れはなかったことを確認するためには、検索で用いた
条件の各々について、それを付加した場合と、除去した
場合の結果の差をいちいち検証する必要があるが、実際
には、検索が少しでも複雑になると、論理式の組み合わ
せの場合の数が非常に多くなって、事実上このような方
法はとれなくなる。
【0004】さらに、多くの検索システムは、「ユーザ
ーは、探している情報およびその周辺分野には詳しい」
という想定のもとに設計されているため、適切なキーワ
ードを思い付くことができない専門外のユーザーをし
て、検索された多数の文献の中から、適切な数件の文献
に絞り込むことを可能ならしめることが困難である。そ
こで要望されるのは、検索しようとする分野に関する知
識が十分でなくても、ユーザーが、検索しようとする文
献全体の傾向を知ることができるようにするシステムで
ある。さらに要望されるのは、適切なキーワードを思い
付くことができない専門外のユーザーに対して、検索に
有効な一群のキーワードを提示し、以って専門外のユー
ザーでも、興味のある情報に辿りつけるようにナビゲー
トするシステムである。そのためには、キーワードの与
える情報量、あるいは話題性といったものを評価するこ
とが必要となるが、これに関して以下に示す刊行物に記
載されているような技法が知られている。
【0005】特開昭63−49928号公報は、キーワ
ード候補単語の使用頻度と、キーワード候補単語の尤度
とを計算し、各々のキーワード候補単語に対して、文章
内の使用頻度をもとに尤度を付与することを開示する。
【0006】特開平1−112331号公報は、新聞記
事などからキーワードを自動的に抽出する技法に関し、
キーワードの、記事における統計的、構文的及び意味的
な重要度をも考慮に入れてキーワードを評価し抽出する
ことを開示する。
【0007】特開平2−158871号公報は、文書デ
ータベースにおけるキーワードの出現頻度値を用いて各
キーワードの自己情報量を計算し、該自己情報量を用い
て文書毎の概念特徴量を計算し、文書間の概念特徴量の
差に応じて文書間の距離を求めることを開示する。
【0008】特開平4−98461号公報は、英文情報
から単語を抽出し、該抽出された単語とこの単語に対応
する記憶内容とに基づきキーワード候補を作成し、キー
ワード候補の出現回数に基づき、キーワード候補の重要
度を算出し、この重要度に基づき、キーワード候補から
キーワードを抽出することを開示する。
【0009】これら従来の技法によれば、キーワードの
出現頻度、キーワードが現れる文書中の文脈などからキ
ーワードが評価される。これらの尺度は、キーワードの
重みを評価する上で一般的には有効である。すなわち、
シソーラスを作成する際には、重みがある閾値よりも小
さいと評価されたキーワードは棄却されることになる。
【0010】しかし、例えば、半導体デバイスの技術文
献データベースで、「半導体」や、「SiO2」という
キーワードを使用すると、非常に多くの文献にヒットす
るであろう。
【0011】ところが一方、「半導体」や、「Si
2」などの「ありふれた」キーワードから、話題性に
富む、あるいは画期的な文献に辿りつくのは極めて困難
である。
【0012】逆に、稀少なキーワードを使用すると、場
合によっては「珍しい」文献に逢着することがあり得
る。しかし、そのような珍しい文献が、注目に値する重
要な文献であるということは全く保証されない。
【0013】
【発明が解決しようとする課題】この発明の目的は、検
索しようとする文献データベースに関連する分野につい
て十分な知識をもたないユーザーに対して、意義深い、
あるいは話題性に富む文献に辿りつくことを可能ならし
めるようなキーワードを提示するための技法を提供する
ことにある。
【0014】この発明の他の目的は、検索された文献に
付与されている複数のキーワードの話題性を評価する技
法を提供することにある。
【0015】この発明のさらに他の目的は、ユーザーに
対して、興味深い話題を見つけだすことができるよう
に、検索された文献に付与されている複数のキーワード
の話題性を評価する技法を提供することにある。
【0016】
【課題を解決するための手段】上記目的を達成するため
に、本願発明者は、特定のキーワードをもつ文献の件数
が、ある時点で増加し、時間軸に沿って次第に減少して
ゆく様子に着目し、この現象を定量化することによっ
て、キーワードの話題性を評価することができることに
想到したのである。
【0017】これは具体的には、次のように行う。すな
わち、本発明によれば、頻度がピークの時点から次第に
減少してゆくモデルが想定され、特定のキーワードをも
つ文献の頻度の時間軸に沿っての減少がこのモデルと比
較され、モデルとの距離がある閾値以内の範囲にある場
合にのみ、その特定のキーワードが「話題」である見な
される。モデルとして想定する関数は、ほぼ単調減少で
あることが必要であるけれども、それだけでは十分では
なく、勾配の絶対値が次第に減少するものでなくてはな
らない。この条件を満たす関数の簡単な例として、
【数1】y = 1/x がある。
【0018】最初のステップは、当該のキーワードが話
題である範囲を決定することである。このために、当該
のキーワードが恒常的に生じている頻度を推定する必要
がある。これは、そのキーワードに関する、いわばバッ
クグランドの頻度を決定して、それを、得られた頻度か
ら引くことによって、真の時間的な効果を際立たせるた
めである。1つの例では、バックグランドの頻度は、あ
る期間に亘っての最も少ない頻度と2番目に少ない頻度
の平均であらわすことができる。
【0019】こうして、恒常的出現頻度が決定される
と、上記ある期間で恒常的出現頻度に対して最大の頻度
をもつ時点を求め、それを話題の開始時間とする。
【0020】次に、話題の終了時間は、話題の開始時間
から当該のキーワードをもつ文献の出現頻度が次第に減
少している範囲で、且つ恒常的出現頻度よりも大きい出
現頻度をもつ、話題の開始時間からの最長の時間を示す
時点である。尚、もし出現頻度が単調減少から増加に向
かったり、恒常的出現頻度よりも小さくなったりした場
合は、その直前の時点が話題の終了時点であると見な
す。
【0021】こうして話題の開始時点と終了時点(話題
の継続期間と呼ぶ)が決定されると、その話題の継続期
間の当該キーワードの出現頻度の和と、上記ある期間全
体に対する該話題の継続期間の集中度(これは、例え
ば、話題の継続期間における当該キーワードの出現頻度
の和を、上記ある期間全体に亘る当該キーワードの出現
頻度の和で割ることによって計算される)の積によって
話題性が計算される。
【0022】抽出されたキーワードの全てにつき、上記
話題性を計算し、その値に応じて降順にソートすること
によって、そのキーワードがヒットする件数ではなく、
「話題性」という別の尺度でキーワードを評価すること
が可能となり、ユーザーは、このようにソートされた上
位のキーワードを使用して、より興味深い文献の検索へ
と進むことができる。あるいは、このようにソートされ
たキーワード群を眺めるだけでも、対象としている文献
群がどのような主題を主たる話題としているかの概略
を、ユーザーは把握することができるだろう。
【0023】尚、1つのキーワードがあらわれるとき、
それに相関してほぼ必ず別のキーワードがあらわれる、
ということがある(例えば、「殺人事件」と「警
察」)。このように、他のキーワードに深く関連づけら
れたキーワードは、それ独自で話題を示す訳ではなく、
寧ろ、関連するキーワードに付随して出現していると解
釈するのが相当である。そこで、例えば、F1というキ
ーワードと、F2というキーワードの両方をもつ文献の
頻度を、F1というキーワードをもつ文献の頻度で割る
ことによって、F1に対するF2の関連性と定義し、好
適には、この関連性が所定の閾値よりも大きいものは、
話題性でソートされた上位のキーワードであっても、話
題性のリストから排除するようにする。しかし、場合に
よっては、話題性のリストからは排除せず、関連のある
と決定されたキーワードを併記する方が望ましい場合も
あろう。
【0024】
【実施例】以下図面を参照して、本発明の実施例を説明
する。
【0025】A.ハードウェア構成 図1を参照すると、本発明を実施するためのシステム構
成の概観図が示されている。この構成は、特殊なもので
はなく、主記憶(RAM)、中央処理装置(CPU)、
周辺装置コントローラなどを備えるシステム装置100
2と、システム装置に対して、コマンドや文字列などを
キー入力するためのキーボード1004と、中央処理装
置を制御するためのオペレーティング・システム、デー
タベース・ファイル、検索エンジン、キーワード・イン
デックス・ファイルなどを格納したハードディスク10
06と、データベースの検索結果をカラーのビットマッ
プで表示し得るディスプレイ装置1008と、ディスプ
レイ装置1008の画面上の任意の位置をポイントして
その位置情報を中央処理装置に伝えるためのマウス10
10からなる通常の構成である。
【0026】オペレーティング・システムとしては、W
indows(マイクロソフトの商標)、OS/2(I
BMの商標)、AIX(IBMの商標)上のX−WIN
DOWシステム(MITの商標)などの、標準でGUI
マルチウインドウ環境をサポートするものが望ましい
が、本発明は、MS−DOS(マイクロソフトの登録商
標)のキャラクタ・ベース環境でも実現可能であり、特
定のオペレーティング・システム環境に限定されるもの
ではない。
【0027】また、図1は、スタンド・アロン環境のシ
ステムを示しているが、一般的に、データベース・ファ
イルは大容量のディスク装置を要するものであるので、
クライアント/サーバ・システムとして本発明を実現
し、サーバ・マシンにデータベース・ファイルと検索エ
ンジンを配置し、クライアント・マシンは、サーバ・マ
シンに対して、イーサネット、トークン・リングなどで
LAN接続し、クライアント・マシン側には、検索結果
を見るためのGUI制御部のみを配置するようにしても
よい。
【0028】B.システム構成 次に、図2のブロック図を参照して、本発明のシステム
構成について説明する。尚、図2で個別のブロックで示
されている要素は、図1のハードディスク1006に、
個別のデータ・ファイルまたはプログラム・ファイルと
して格納されているものであることに留意されたい。
【0029】データベース2002は、この実施例で
は、新聞記事のデータベースである。データベース20
02には、新聞記事のコンテンツが、テキスト・ファイ
ル形式で、個別に検索可能に格納されている。より具体
的には、各新聞記事には、一意的な記事番号と、新聞掲
載日が付与されている。
【0030】一般的に、新聞記事のコンテンツを直接検
索するのは長い処理時間を要するので、データベース2
002に格納されている全ての新聞記事のコンテンツを
対象として予め、キーワード・インデックス2004が
作成される。キーワード・インデックス2004には、
個々のキーワードと、そのキーワードを含む記事の記事
番号が格納されている。
【0031】キーワード検索エンジン2006は、キー
ワードを入力としてキーワード・インデックス2004
を検索し、入力されたキーワードを含む記事の記事番号
を返すものである。
【0032】キーワード収集モジュール2008は、例
えばキーワード検索の結果としてキーワード検索エンジ
ン2006から返された記事番号の集合を入力として、
データベース2002に格納されている記事のコンテン
ツにアクセスし、それらの記事に付与されたキーワード
を、それを含む記事が掲載された日付とともに返すもの
である。
【0033】話題抽出モジュール2010は、キーワー
ドを入力とし、そのキーワードを含む記事の範囲で、デ
ータベースに直接アクセスして話題抽出(後で詳細に説
明する)を行うものである。話題抽出モジュール201
0は、好適には、話題性(やはり後で詳細に説明する)
に応じて、抽出されたキーワードをソートする機能をも
つ。
【0034】話題表示モジュール2012は、話題抽出
モジュール2010によって話題として抽出されたキー
ワードのリストを、ディスプレイ装置1008に表示す
るためのものである。話題表示モジュール2012は好
適には、抽出されたキーワードの頻度や日付に基づき、
GUIベースで棒グラフや折れ線グラフとして表示した
り、パイチャートを表示したりする機能ももつ。
【0035】C.本発明の処理 次に、図3のフローチャートを参照して、本発明の処理
について説明する。
【0036】先ず、図3のステップ3002では、ユー
ザーがキーボードから打ち込んだ検索式が、図2のキー
ワード検索エンジン2004によって受け取られる。こ
の検索式は、単一のキーワードであってもよいし、複数
のキーワードにAND、OR、NOTなどの演算子を関
連させたものであってもよい。
【0037】キーワード検索エンジン2004は、検索
式を受け取ると、ステップ3004でディスク1006
に格納されているキーワード・インデックス・ファイル
2004にアクセスして、検索を実行する。この検索の
結果、キーワード検索エンジン2004は、その検索式
に該当する記事の記事番号を得る。
【0038】この検索結果の記事番号の集合は、話題抽
出モジュール2010に渡される。
【0039】話題抽出モジュール2010は、この渡さ
れた検索結果の記事番号の集合を以ってキーワード収集
モジュール2008を呼び出し、こうして、ステップ3
006では、キーワード収集モジュール2008が、デ
ータベース2002における検索結果の記事番号に対応
するコンテンツに直接アクセスして、そのコンテンツか
らキーワードを抽出する。このとき、抽出されたキーワ
ードには、本発明独自の処理のため、そのキーワードが
抽出されたソースの記事の日付が関連づけられる。
【0040】ステップ3008では、話題抽出モジュー
ル2010は、キーワード収集モジュール2008によ
って抽出されたキーワードのうちの1つのキーワードに
ついて、話題の開始時間Tstartを計算する。このために
先ず、話題抽出モジュール2010は、当該のキーワー
ドが恒常的に生じている頻度を推定するための処理を行
う。というのは、そのキーワードに関する、いわばバッ
クグランドの頻度(以下、恒常的出現頻度Fcと称する)
を決定して、それを、得られた頻度から引くことによっ
て、真の時間的な効果を際立たせるためである。1つの
実施例では、恒常的出現頻度Fcは、ある期間に亘っての
最も少ない頻度と2番目に少ない頻度の平均として計算
される。しかし、恒常的出現頻度は、ある期間に亘って
の最も少ない頻度として与えてもよく、本発明の趣旨か
ら逸脱しない範囲で様々な計算方法を考慮することがで
きる。
【0041】こうして、恒常的出現頻度Fcが決定される
と、話題抽出モジュール2010は、上記ある期間で恒
常的出現頻度に対して最大の頻度をもつ時点を求め、そ
れを話題の開始時間とする。
【0042】次に、ステップ3010では、話題抽出モ
ジュール2010は、次のようにして、そのキーワード
に関する話題の終了時間Tendを計算する。1つの実施例
では、話題の終了時間は、話題の開始時間から当該のキ
ーワードをもつ文献の出現頻度が次第に減少している範
囲で、且つ恒常的出現頻度よりも大きい出現頻度をも
つ、話題の開始時間からの最長の時間を示す時点であ
る。もし出現頻度が単調減少から増加に向かったり、恒
常的出現頻度よりも小さくなったりした場合は、その直
前の時点が話題の終了時点であると見なす。
【0043】ステップ3012では、話題抽出モジュー
ル2010は、上記得られた話題の開始時間Tstart及び
Tendに基づき、モデルとの距離計算を行う。モデルにつ
いては、図4のグラフを参照して説明を行う。
【0044】図4のグラフにおいて、横軸は時間tであ
り、この場合新聞記事の掲載日である。縦軸は、ある単
位時間内の当該キーワードを含む新聞記事の件数(以
下、頻度fと称する)である。新聞記事データベースの
場合、単位時間として日をとると、日毎の掲載件数が比
較的大きくばらつく。しかし、日々の件数のばらつきか
ら有用な情報が得られることもあるので、単位時間とし
て日をとることが有意義な場合もある。一方、頻度を見
る単位時間として、1ヶ月をとると、記事の件数の日々
のばらつきが均されて話題性抽出の精度が高まるが、細
かい頻度の変動が見落とされる可能性も出て来る。よっ
て、単位時間は、目的に応じて、日または月のどちらか
が選ばれる。勿論、場合によって、一週間または3日間
などの他の単位時間が適当なこともあろう。
【0045】図4において、t0は、新聞記事データベー
ス全体での記事の最も古い日付、t1は、新聞記事データ
ベース全体での記事の最も新しい日付である。
【0046】また、Freq(t)は、tの時点での当該キーワ
ードの頻度である。定義により、Freq(Tstart)は、当該
キーワードの最大頻度である。
【0047】さて、本発明の1つの知見によれば、理想
的な話題の頻度は、単調減少し且つその負の勾配の絶対
値が時間の推移とともに次第に減少してゆく関数に従
う。このような関数によって推定される頻度をモデル推
定量と呼ぶことにする。この話題モデルの性質は、本願
発明者によって、実際の新聞記事について、多数の典型
的な話題の頻度の消長を観察することによって認識され
たものである。
【0048】このような関数の1つの例は、y=1/xであ
り、別の例は、y=1/(log(x))である。
【0049】ここでは、モデルとしてy=1/xを選んだ例
で説明する。モデルは、場合によっては、t=Tstartで、
値がFreq(Tstart)となるように正規化される。するとモ
デル推定量の式Fm(t)は、次のようになる。
【数2】 Fm(t) = (Freq(Tstart) - Fc )/(t - Tstart + 1) + Fc
【0050】また、場合によっては、0< K < 1であるよ
うな定数Kを導入し、
【数3】Fm(t) = K(t) * (Freq(Tstart) - Fc )/(t - T
start + 1) + Fc
【0051】としてもよい。これは、必ずしも、Fm(Tst
art) = F(Tstart)となるように正規化されないが、Tsta
rtとTendの期間に亘ってよりよいモデル推定量を与える
場合がある。因みに、K(t)は、tに関して次第に減少す
るような重み付け関数であって、話題期間の後半は、あ
まり重要でない頻度が生じがちであるという知見に基づ
き、話題期間の前半を、後半よりも比較的に重視するよ
うにするために掛けられる。
【0052】図3のフローチャートに戻って、ステップ
3012では、次のような計算によって、当該のキーワ
ードとモデル推定量Fmとの距離が求められる。
【数4】
【0053】距離は、こうして計算された値dの平方根
として与えられる。尚、上記式は、便宜上C言語の記法
に拠ったが、この技術分野の当業者なら容易に、FOR
TRAN、PASCAL、BASICなどの任意のプロ
グラミング言語に上記式を書き直すことができるはずで
ある。
【0054】また、本発明は、上記距離の定義に限定さ
れるものではなく、本発明の趣旨から逸脱しない範囲で
任意の別の定義を使用することができる。例えば、上記
式で、
【数5】 d += ( Freq(t) - Fm(t)) * ( Freq(t) - Fm(t)); を、
【数6】d += abs( Freq(t) - Fm(t)); で置き換えてもよい。尚、absは、絶対値をとるための
関数である。この場合には、dの平方根ではなく、d自体
が距離となる。
【0055】こうしてモデルとの距離が計算されると、
ステップ3014では、モデルとの距離が予定の閾値D
よりも小さいかどうかが判断される。
【0056】もしそうなら、モデルとの距離の点につい
ては、当該キーワードは、話題性があるとみなされて、
次のステップ3016で、話題の関連性の計算が行われ
る。話題の関連性とは、当該のキーワードが別のキーワ
ードに付随して起こる度合の指標であって、次の式で計
算される。
【数7】 話題の関連性(K1,K2) = Freq(K1 & K2)/Freq(K1)
【0057】この式で、K1は当該のキーワード、K2は、
ステップ3006で抽出されたキーワードのうちで、K1
に等しくない任意のものである。また、Freq(K1 & K2)
は、K1とK2の両方を含む記事の頻度である。この式の計
算の時間範囲は、図4のt0とt1の間でもよいし、Tstart
とTendの間でもよい。この式は、0と1の間の値をと
り、1に十分近い値をとるときは、K1が現れる非常に多
くの場合にK2があらわれる、ということだから、K1はK2
に強く関連づけられている、と解釈してよいことにな
る。例えば、「殺人」は「警察」に強く関連づけられた
キーワードである。
【0058】そのように、他のキーワードに強く関連づ
けられたキーワードが話題性をもつとしてマークされた
としても、それは、他のキーワードとの関連でのみ記事
に現れている可能性が大きい。従って、本発明の好適な
実施例では、話題の関連性がある閾値Rより大きいキー
ワードは、ステップ3014でモデルとの距離がDより
小さいことが決定されたとしても、ステップ3018で
の判断により、話題としてエントリしないようにする。
しかし、これは1つの実施例にすぎず、別の実施例で
は、他のキーワードとの関連性が大きいと決定されて
も、話題のリストからは排除せず、寧ろリストで、関連
性が大きいと決定された他のキーワードを併記するよう
にしてもよく、寧ろその方が望ましい場合もある。
【0059】こうして、当該キーワードの他のキーワー
ドに対する関連性が大きくないと、ステップ3018で
判断されると、そのキーワードはようやく、ステップ3
020で話題として保持されることになる。
【0060】尚、ステップ3008からステップ302
0までは、ステップ3006で、新聞記事からキーワー
ドとして抽出された全てのもの1つ1つについて、順次
実行されることに留意されたい。
【0061】次に、ステップ3022では、保持された
全てのキーワードについて、話題性の計算が行われる。
本発明によれば、話題性とは、話題の期間、すなわち図
4におけるTstartからTendまでの期間の当該キーワード
の頻度の累計に、全期間(図4におけるt0とt1の間)の
当該キーワードの集中度を掛けた値である。
【0062】集中度は、1つの実施例では、話題の期間
の当該キーワードの頻度を、全期間の間の当該キーワー
ドの頻度で割った値である。
【0063】あるいは、集中度として、話題の期間の長
さを、全期間の長さで割った値を使用してもよい。
【0064】ステップ3024では、ステップ3020
で話題としてリストされた全てのキーワードが、ステッ
プ3022で計算された話題性の値に基づき、降順にソ
ートされる。これによって、本発明によって、より話題
性がある、と見なされるキーワードから順に、ディスプ
レイ装置1008(図1)の画面に表示することが可能
となり、それだけでも、ユーザーは、ステップ3002
で与えた検索式によって絞られた記事の群についての主
要な話題を、一見して把握することができるであろう。
【0065】ステップ3026では、話題性に関して降
順にソートされた上位幾つかのキーワードに関して、横
軸を時間とし、話題の期間を水平に延びるバーとし、そ
のバーがあらわれる高さを話題性の順位の値(順位が上
である程上方に表示)とするグラフがディスプレイ装置
1008(図1)の画面に表示される。このようなグラ
フの具体例としては、図5を参照されたい。
【0066】D.具体的な検索例 次に、実際の新聞記事データベースをアクセスして検索
した例を示す。
【0067】先ず、特定の期間をカバーする新聞記事デ
ータベースが、「事故」というキーワードで検索され
た。そして、得られた記事の集合からキーワードを抽出
し、記事中にあらわれた件数順に降順でソートすると、
次のリストが得られた(上位30をリスト)。このリス
トは、順位、キーワード、頻度をそれぞれ表す。
【表1】 ============================ 1 死亡 362 2 衝突 242 3 原因 194 4 安全 189 5 会社 159 6 現場 137 7 対策 133 8 作業 124 9 過失 122 10 発生 122 11 衝突事故 121 12 爆発 118 13 県警 112 14 死者 110 15 防止 103 16 調査 102 17 責任 90 18 損害 89 19 システム 87 20 業務上過失致死 86 21 過失致死 82 22 全国 81 23 発表 81 24 乗客 80 25 地裁 80 26 賠償 77 27 ニュートラム 76 28 事故原因 74 29 会社員 72 30 暴走 72
【0068】一方、同じキーワードの集合につき、計算
された話題性の値の順序で降順に降順でソートすると、
次のリストが得られた(上位30をリスト)。このリス
トは、順位、キーワード、話題性の値をそれぞれ表す。
【表2】 ============================ 1 ニュートラム 76.00 2 暴走事故 61.00 3 暴走 51.68 4 交通システム 51.00 5 タンカー事故 44.33 6 スマトラ島 44.02 7 システム 37.34 8 衝突 33.47 9 衝突事故 28.77 10 現場 13.49 11 爆発 11.60 12 負傷 10.88 13 作業 9.88 14 車両 9.80 15 全国 9.00 16 施設 9.00 17 遺族 8.86 18 調査 8.82 19 発生 7.87 20 責任 7.51 21 過失 7.37 22 再開 7.01 23 遺体 6.42 24 業務上過失致死 6.15 25 地裁 6.05 26 過失致死 5.90 27 実施 5.89 28 技術 5.67 29 会社員 5.55 30 対策 5.48
【0069】この例から見て取れるように、抽出された
キーワードのうちで最も頻度の大きい「死亡」は、話題
性に関して降順ソートしたリストからは、上位30位か
らも漏れてしまい、単なる「死亡」というキーワード
は、少なくとも「事故」に関連した新聞記事においては
あまり話題性がない、ということが示唆される。
【0070】一方、頻度に関して降順ソートしたリスト
では辛うじて27位にあった「ニュートラム」というキ
ーワードは、話題性に関して降順ソートしたリストで
は、一躍トップに位置付けられた。実際、「ニュートラ
ム」というキーワードは、確かに一世を風靡したもので
あり、このことは、このような比較的頻度の低いキーワ
ードを、話題性の高いキーワードとしてリストし得る点
で、本発明の技法の信頼性を裏付けるものであるように
思われる。
【0071】さらに言うなら、単に頻度をベースに、抽
出されたキーワードをソートすると、最初に与えた検索
条件と密接に関連したキーワードしかピックアップされ
ない、ということに留意されたい。例えば、上記の例だ
と、「事故」という検索条件に対して、頻度の順で上位
にリストされるのは、「死亡」、「衝突」、「原因」、
「安全」などで、何れも、一般の人が「事故」というキ
ーワードから容易に連想できるものばかりである。すな
わち、頻度をベースにすると、ユーザーに非自明、ある
いは有意義な情報が与えられない場合が多い。
【0072】一方、話題性をベースにリストされたキー
ワードは、「ニュートラム」、「暴走事故」、「暴
走」、「交通システム」、「タンカー事故」、「スマト
ラ島」、「システム」であり、上記「死亡」、「衝
突」、「原因」、「安全」に比較すると、「事故」とい
うキーワードから、何等かの前提知識なしでは容易に連
想できるものではなくなっている。逆にいうなら、本発
明は、そのような前提知識のないユーザーに、有意義な
情報を自動的に抽出して提示し得るのである。
【0073】尚、話題性の計算完了後、ユーザーの要求
に応答して、あるいは自動的に、頻度に関して降順ソー
トしたリストが、画面の(マルチウインドウ環境である
場合)特定のウインドウ中に表示される。ユーザーは、
このウインドウをスクロールすることによって、話題性
が大きいキーワードから順に眺めることができる。
【0074】さらに、話題性の計算完了後、ユーザーの
要求に応答して、あるいは自動的に、図5に示すよう
に、話題性に関して降順にソートされた上位幾つかのキ
ーワードに関して、横軸を時間とし、話題の期間を水平
に延びるバーとし、そのバーがあらわれるレベルを話題
性の順位とするグラフがディスプレイ装置1008(図
1)の画面に表示される。
【0075】
【発明の効果】以上説明したように、この発明によれ
ば、キーワードの頻度では判断することができない「話
題性」という観点に基づきキーワードを選択して提示す
ることを可能ならしめる、という効果が得られる。
【0076】尚、上記実施例では、新聞記事データベー
スに限定して説明したが、本発明は新聞記事データベー
スに限定されるものではなく、コンピュータ検索可能に
維持され、個々のデータ要素からキーワード抽出可能で
あり、且つ個々のデータ要素には時間(一般的には、日
付)が関連付けられているような任意のデータベースに
適用可能である。このようなものの例としては、新聞記
事データベース以外に、電子メール・ネットワークのフ
ォーラム(電子掲示板)、電子的な議事録、論文データ
ベース、特許公報のデータベースなどがある。
【図面の簡単な説明】
【図1】 本発明を実現するためのハードウェア構成を
示す概略図である。
【図2】 本発明を実現するための論理構成のブロック
図である。
【図3】 本発明の処理のフローチャートを示す図であ
る。
【図4】 本発明に基づき話題性を抽出するためのモデ
ル及び頻度の推移を示すグラフを示す図である。
【図5】 抽出された話題を表示する画面の例を示す図
である。

Claims (29)

    【特許請求の範囲】
  1. 【請求項1】各々のデータ要素が、時間情報を付与さ
    れ、且つキーワード付け可能な情報を含むような、複数
    のデータ要素からなるデータベースから、コンピュータ
    の処理によって話題性を抽出する情報検索方法であっ
    て、(a) 上記時間情報の所定期間に亘って恒常的に、上
    記データ要素に含まれる所与のキーワードを含む、単位
    時間内の時間情報を付与されたデータ要素の推定件数と
    して定義される、該所与のキーワードに関する恒常的出
    現頻度を決定する段階と、(b) 上記時間情報の軸に沿っ
    て、上記所与のキーワードを含む、単位時間毎の時間情
    報を付与されたデータ要素の件数から上記恒常的出現頻
    度を引いた値が最大になる時点を、上記所与のキーワー
    ドの話題性の開始時点として決定する段階と、(c) 上記
    時間情報の軸に沿って、話題性の開始時点よりも後の時
    点で、上記所与のキーワードを含む、単位時間内の時間
    情報を付与されたデータ要素の件数が、ほぼ上記恒常的
    出現頻度のレベルまで低下する時点を、上記所与のキー
    ワードの話題性の終了時点として決定する段階と、(d)
    話題の開始時点から終了時点まで単調減少する話題の頻
    度推移の関数として、予めモデルを与える段階と、(e)
    上記予めモデルとして与えられた関数と、上記話題性の
    開始時点から上記話題性の終了時点までの、単位時間毎
    の時間情報を付与されたデータ要素の件数から上記恒常
    的出現頻度を引いた値の推移のグラフとの距離を決定す
    る段階と、(f) 上記所与のキーワードに関する上記距離
    の値がある閾値よりも小さいことに応答して、上記所与
    のキーワードを話題として選択する段階を有する、情報
    検索方法。
  2. 【請求項2】上記単調減少する話題の頻度の関数は、そ
    の負の勾配の絶対値が上記時間軸に沿って次第に減少し
    ていく性質をもつ関数である、請求項1に記載の情報検
    索方法。
  3. 【請求項3】上記関数は、y=1/xの形式の関数である、
    請求項2に記載の情報検索方法。
  4. 【請求項4】上記所与のキーワードと、上記データベー
    スのデータ要素に含まれる他のキーワードとの関連性を
    数値で求め、該関連性が所定の閾値より大きいことに応
    答して、上記所与のキーワードを話題として選択しない
    ようにする段階をさらに有する、請求項1に記載の情報
    検索方法。
  5. 【請求項5】上記関連性は、上記所与のキーワードと上
    記他のキーワードを同時に含む上記データ要素の件数
    を、上記所与のキーワードを含む件数で割った値であ
    る、請求項4に記載の情報検索方法。
  6. 【請求項6】上記データベースが新聞記事のデータベー
    スであり、上記データ要素が個別の記事であり、上記時
    間情報が発行年月である、請求項1に記載の情報検索方
    法。
  7. 【請求項7】各々のデータ要素が、時間情報を付与さ
    れ、且つキーワード付け可能な情報を含むような、複数
    のデータ要素からなるデータベースから、コンピュータ
    の処理によって話題性を抽出する情報検索方法であっ
    て、(a) 上記時間情報の所定期間に亘って恒常的に、上
    記データ要素に含まれる所与のキーワードを含む、単位
    時間内の時間情報を付与されたデータ要素の推定件数と
    して定義される、該所与のキーワードに関する恒常的出
    現頻度を決定する段階と、(b) 上記時間情報の軸に沿っ
    て、上記所与のキーワードを含む、単位時間毎の時間情
    報を付与されたデータ要素の件数から上記恒常的出現頻
    度を引いた値が最大になる時点を、上記所与のキーワー
    ドの話題性の開始時点として決定する段階と、(c) 上記
    時間情報の軸に沿って、話題性の開始時点よりも後の時
    点で、上記所与のキーワードを含む、単位時間内の時間
    情報を付与されたデータ要素の件数が、ほぼ上記恒常的
    出現頻度のレベルまで低下する時点を、上記所与のキー
    ワードの話題性の終了時点として決定する段階と、(d)
    話題の開始時点から終了時点まで単調減少する話題の頻
    度推移の関数として、予めモデルを与える段階と、(e)
    上記予めモデルとして与えられた関数と、上記話題性の
    開始時点から上記話題性の終了時点までの、単位時間毎
    の時間情報を付与されたデータ要素の件数から上記恒常
    的出現頻度を引いた値の推移のグラフとの距離を決定す
    る段階と、(f) 上記所与のキーワードに関する上記距離
    の値がある閾値よりも小さいことに応答して、上記所与
    のキーワードを話題として選択する段階と、(g)上記段
    階(a)乃至段階(f)を、上記データベースのデータ要素に
    含まれる複数のキーワードに個別に適用し、それらのう
    ちで話題として選択されたものを、上記距離の値で降順
    にソートする段階を有する、情報検索方法。
  8. 【請求項8】上記単調減少する話題の頻度の関数は、そ
    の負の勾配の絶対値が上記時間軸に沿って次第に減少し
    ていく性質をもつ関数である、請求項7に記載の情報検
    索方法。
  9. 【請求項9】上記所与のキーワードと、上記データベー
    スのデータ要素に含まれる他のキーワードとの関連性を
    数値で求め、該関連性が所定の閾値より大きいことに応
    答して、上記所与のキーワードを話題として選択しない
    ようにする段階をさらに有する、請求項7に記載の情報
    検索方法。
  10. 【請求項10】上記関連性は、上記所与のキーワードと
    上記他のキーワードを同時に含む上記データ要素の件数
    を、上記所与のキーワードを含む件数で割った値であ
    る、請求項9に記載の情報検索方法。
  11. 【請求項11】上記データベースが新聞記事のデータベ
    ースであり、上記データ要素が個別の記事であり、上記
    時間情報が発行年月である、請求項7に記載の情報検索
    方法。
  12. 【請求項12】上記単位時間が月である、請求項11に
    記載の情報検索方法。
  13. 【請求項13】各々のデータ要素が、時間情報を付与さ
    れ、且つキーワード付け可能な情報を含むような、複数
    のデータ要素からなるデータベースから、コンピュータ
    の処理によって話題性を抽出する情報検索システムであ
    って、(a) 上記時間情報の所定期間に亘って恒常的に、
    上記データ要素に含まれる所与のキーワードを含む、単
    位時間内の時間情報を付与されたデータ要素の推定件数
    として定義される、該所与のキーワードに関する恒常的
    出現頻度を決定する手段と、(b) 上記時間情報の軸に沿
    って、上記所与のキーワードを含む、単位時間毎の時間
    情報を付与されたデータ要素の件数から上記恒常的出現
    頻度を引いた値が最大になる時点を、上記所与のキーワ
    ードの話題性の開始時点として決定する手段と、(c) 上
    記時間情報の軸に沿って、話題性の開始時点よりも後の
    時点で、上記所与のキーワードを含む、単位時間内の時
    間情報を付与されたデータ要素の件数が、ほぼ上記恒常
    的出現頻度のレベルまで低下する時点を、上記所与のキ
    ーワードの話題性の終了時点として決定する手段と、
    (d) 上記予めモデルとして与えられた、話題の開始時点
    から終了時点まで単調減少する話題の頻度推移の関数
    と、上記話題性の開始時点から上記話題性の終了時点ま
    での、単位時間毎の時間情報を付与されたデータ要素の
    件数から上記恒常的出現頻度を引いた値の推移のグラフ
    との距離を決定する手段と、(e) 上記所与のキーワード
    に関する上記距離の値がある閾値よりも小さいことに応
    答して、上記所与のキーワードを話題として選択する手
    段とを具備する、情報検索システム。
  14. 【請求項14】上記キーワードを話題として選択する手
    段によって話題として選択された複数のキーワードを保
    持する手段と、上記保持された複数のキーワードにつ
    き、該キーワードを含み、上記話題の開始時間と終了時
    間の間の時間情報を付与されたデータ要素の頻度と、該
    キーワードの上記所定期間内の該キーワードの集中度と
    の積として話題性を計算する手段と、該複数のキーワー
    ドを該話題性の値でソートしてユーザーに提示する手段
    をさらに有する、請求項13に記載の情報検索システ
    ム。
  15. 【請求項15】上記集中度は、上記話題の開始時間と終
    了時間の間の時間情報を付与されたデータ要素の頻度
    を、上記所定期間内の時間情報を付与されたデータ要素
    の頻度で割った値に比例する値である、請求項14に記
    載の情報検索システム。
  16. 【請求項16】上記所与のキーワードを話題として選択
    する手段は、上記所与のキーワードと、上記データベー
    スのデータ要素に含まれる他のキーワードとの関連性を
    数値で求め、該関連性が所定の閾値より大きいことに応
    答して、所与のキーワードを話題として選択しないよう
    にする手段をさらに有する、請求項13に記載の情報検
    索システム。
  17. 【請求項17】上記関連性は、上記所与のキーワードと
    上記他のキーワードを同時に含む上記データ要素の件数
    を、上記所与のキーワードを含む件数で割った値であ
    る、請求項16に記載の情報検索システム。
  18. 【請求項18】上記単調減少する話題の頻度の関数は、
    その負の勾配の絶対値が上記時間軸に沿って次第に減少
    していく性質をもつ関数である、請求項13に記載の情
    報検索システム。
  19. 【請求項19】上記データベースが新聞記事のデータベ
    ースであり、上記データ要素が個別の記事であり、上記
    時間情報が発行年月である、請求項13に記載の情報検
    索システム。
  20. 【請求項20】上記単位時間が月または日のどちらかで
    ある、請求項19に記載の情報検索システム。
  21. 【請求項21】各々のデータ要素が、時間情報を付与さ
    れ、且つキーワード付け可能な情報を含むような、複数
    のデータ要素からなるデータベースから、コンピュータ
    の処理によって話題性を抽出する情報検索システムであ
    って、(a) ユーザーからの検索要求に応答して、該検索
    要求の条件に合致するデータ要素を上記データベースに
    おいて検索する検索手段と、(b) 上記時間情報の所定期
    間に亘って恒常的に、上記検索手段によって検索された
    データ要素に含まれる個別のキーワードについて、該キ
    ーワードを含む、単位時間内の時間情報を付与されたデ
    ータ要素の推定件数として定義される、該キーワードに
    関する恒常的出現頻度を決定する手段と、(c) 上記時間
    情報の軸に沿って、上記キーワードを含む、単位時間毎
    の時間情報を付与されたデータ要素の件数から上記恒常
    的出現頻度を引いた値が最大になる時点を、上記キーワ
    ードの話題性の開始時点として決定する手段と、(d) 上
    記時間情報の軸に沿って、話題性の開始時点よりも後の
    時点で、上記キーワードを含む、単位時間内の時間情報
    を付与されたデータ要素の件数が、ほぼ上記恒常的出現
    頻度のレベルまで低下する時点を、上記キーワードの話
    題性の終了時点として決定する手段と、(e) 上記予めモ
    デルとして与えられた、話題の開始時点から終了時点ま
    で単調減少する話題の頻度推移の関数と、上記話題性の
    開始時点から上記話題性の終了時点までの、単位時間毎
    の時間情報を付与されたデータ要素の件数から上記恒常
    的出現頻度を引いた値の推移のグラフとの距離を決定す
    る手段と、(f) 上記キーワードに関する上記距離の値が
    ある閾値よりも小さいことに応答して、上記キーワード
    を話題として選択する手段と、(g) 上記検索手段によっ
    て検索されたデータ要素の集合の中で上記話題として選
    択されたキーワードをリストしてユーザーに示す手段と
    を具備する、情報検索システム。
  22. 【請求項22】上記キーワードをリストしてユーザーに
    示す手段は、上記保持された複数のキーワードにつき、
    該キーワードを含み、上記話題の開始時間と終了時間の
    間の時間情報を付与されたデータ要素の頻度と、該キー
    ワードの上記所定期間内の該キーワードの集中度との積
    として話題性を計算する手段と、該複数のキーワードを
    該話題性の値でソートしてユーザーに提示する手段をさ
    らに有する、請求項21に記載の情報検索システム。
  23. 【請求項23】上記集中度は、上記話題の開始時間と終
    了時間の間の時間情報を付与されたデータ要素の頻度
    を、上記所定期間内の時間情報を付与されたデータ要素
    の頻度で割った値に比例する値である、請求項22に記
    載の情報検索システム。
  24. 【請求項24】横軸を期間とし、縦軸を話題性の順位と
    し、話題性の値が上位のキーワードを、該キーワードの
    話題性の開始時間と話題性の終了時間の間延びる水平な
    バーとして表示する手段を有する、請求項22に記載の
    情報検索システム。
  25. 【請求項25】上記所与のキーワードを話題として選択
    する手段は、上記所与のキーワードと、上記データベー
    スのデータ要素に含まれる他のキーワードとの関連性を
    数値で求め、該関連性が所定の閾値より大きいことに応
    答して、上記所与のキーワードを話題として選択しない
    ようにする手段をさらに有する、請求項21に記載の情
    報検索システム。
  26. 【請求項26】上記関連性は、上記所与のキーワードと
    上記他のキーワードを同時に含む上記データ要素の件数
    を、上記所与のキーワードを含む件数で割った値であ
    る、請求項25に記載の情報検索システム。
  27. 【請求項27】上記単調減少する話題の頻度の関数は、
    その負の勾配の絶対値が上記時間軸に沿って次第に減少
    していく性質をもつ関数である、請求項21に記載の情
    報検索システム。
  28. 【請求項28】上記データベースが新聞記事のデータベ
    ースであり、上記データ要素が個別の記事であり、上記
    時間情報が発行年月である、請求項21に記載の情報検
    索システム。
  29. 【請求項29】上記単位時間が月または日のどちらかで
    ある、請求項28に記載の情報検索システム。
JP6208489A 1994-09-01 1994-09-01 情報検索システム及び方法 Expired - Fee Related JP2729356B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP6208489A JP2729356B2 (ja) 1994-09-01 1994-09-01 情報検索システム及び方法
US08/521,701 US5732260A (en) 1994-09-01 1995-08-31 Information retrieval system and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6208489A JP2729356B2 (ja) 1994-09-01 1994-09-01 情報検索システム及び方法

Publications (2)

Publication Number Publication Date
JPH0877178A true JPH0877178A (ja) 1996-03-22
JP2729356B2 JP2729356B2 (ja) 1998-03-18

Family

ID=16557016

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6208489A Expired - Fee Related JP2729356B2 (ja) 1994-09-01 1994-09-01 情報検索システム及び方法

Country Status (2)

Country Link
US (1) US5732260A (ja)
JP (1) JP2729356B2 (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11143796A (ja) * 1997-11-10 1999-05-28 Nippon Telegr & Teleph Corp <Ntt> メーリングリストサービスシステム
JP2000315207A (ja) * 1999-04-30 2000-11-14 Just Syst Corp 文書データを評価するプログラムを記憶した記憶媒体
JP2000322416A (ja) * 1999-05-06 2000-11-24 Ntt Data Corp 文書検索装置
JP2004326476A (ja) * 2003-04-25 2004-11-18 Hitachi Ltd データとテキストを統合させた文書分析システム
WO2004104859A1 (ja) * 2003-05-22 2004-12-02 Fujitsu Limited テーマ分析装置
JP2007079899A (ja) * 2005-09-14 2007-03-29 National Institute Of Information & Communication Technology データ表示装置、データ表示方法およびデータ表示プログラム
JP2007323434A (ja) * 2006-06-01 2007-12-13 Nippon Telegr & Teleph Corp <Ntt> 話題度算出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
WO2008062910A1 (fr) * 2006-11-22 2008-05-29 Haruo Hayashi Dispositif et procédé d'analyse de documents
WO2010128574A1 (ja) * 2009-05-07 2010-11-11 日本電気株式会社 判定装置、判定方法、及びコンピュータ読み取り可能な記録媒体
JP2011048821A (ja) * 2009-08-07 2011-03-10 Buzzmetrics Ltd 相対頻度に基づくフレーズマイニングのためのシステム、方法、及び装置
WO2013146736A1 (ja) * 2012-03-30 2013-10-03 日本電気株式会社 同義関係判定装置、同義関係判定方法、及びそのプログラム
JP2015064650A (ja) * 2013-09-24 2015-04-09 ビッグローブ株式会社 情報処理装置、記事情報生成方法およびプログラム
JP2015146134A (ja) * 2014-02-03 2015-08-13 Necパーソナルコンピュータ株式会社 情報処理装置及び方法
KR102256406B1 (ko) * 2020-04-20 2021-05-26 조진오 뉴스 정보 제공 방법 및 시스템

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6112201A (en) * 1995-08-29 2000-08-29 Oracle Corporation Virtual bookshelf
US6457004B1 (en) 1997-07-03 2002-09-24 Hitachi, Ltd. Document retrieval assisting method, system and service using closely displayed areas for titles and topics
US5982369A (en) * 1997-04-21 1999-11-09 Sony Corporation Method for displaying on a screen of a computer system images representing search results
US6865715B2 (en) * 1997-09-08 2005-03-08 Fujitsu Limited Statistical method for extracting, and displaying keywords in forum/message board documents
US6253169B1 (en) * 1998-05-28 2001-06-26 International Business Machines Corporation Method for improvement accuracy of decision tree based text categorization
JP3665480B2 (ja) * 1998-06-24 2005-06-29 富士通株式会社 文書整理装置および方法
US6385611B1 (en) * 1999-05-07 2002-05-07 Carlos Cardona System and method for database retrieval, indexing and statistical analysis
JP3855551B2 (ja) * 1999-08-25 2006-12-13 株式会社日立製作所 検索方法及び検索システム
JP3463010B2 (ja) * 1999-09-17 2003-11-05 Necエレクトロニクス株式会社 情報処理装置および情報処理方法
US6990238B1 (en) 1999-09-30 2006-01-24 Battelle Memorial Institute Data processing, analysis, and visualization system for use with disparate data types
US6898530B1 (en) 1999-09-30 2005-05-24 Battelle Memorial Institute Method and apparatus for extracting attributes from sequence strings and biopolymer material
US7106329B1 (en) 1999-09-30 2006-09-12 Battelle Memorial Institute Methods and apparatus for displaying disparate types of information using an interactive surface map
US7137067B2 (en) * 2000-03-17 2006-11-14 Fujitsu Limited Device and method for presenting news information
US6944344B2 (en) * 2000-06-06 2005-09-13 Matsushita Electric Industrial Co., Ltd. Document search and retrieval apparatus, recording medium and program
US6940509B1 (en) 2000-09-29 2005-09-06 Battelle Memorial Institute Systems and methods for improving concept landscape visualizations as a data analysis tool
US6718336B1 (en) 2000-09-29 2004-04-06 Battelle Memorial Institute Data import system for data analysis system
JP2002342355A (ja) 2001-05-16 2002-11-29 Ricoh Co Ltd 新聞発行日確認方法
US6928407B2 (en) * 2002-03-29 2005-08-09 International Business Machines Corporation System and method for the automatic discovery of salient segments in speech transcripts
US7136850B2 (en) * 2002-12-20 2006-11-14 International Business Machines Corporation Self tuning database retrieval optimization using regression functions
DE10345526A1 (de) * 2003-09-30 2005-05-25 Océ Document Technologies GmbH Verfahren und System zum Erfassen von Daten aus maschinell lesbaren Dokumenten
US20050251519A1 (en) * 2004-05-07 2005-11-10 International Business Machines Corporation Efficient language-dependent sorting of embedded numerics
US20060112089A1 (en) * 2004-11-22 2006-05-25 International Business Machines Corporation Methods and apparatus for assessing web page decay
JP2007072646A (ja) * 2005-09-06 2007-03-22 Internatl Business Mach Corp <Ibm> 検索装置、検索方法およびプログラム
US7873532B2 (en) * 2006-07-19 2011-01-18 Chacha Search, Inc. Method, system, and computer readable medium useful in managing a computer-based system for servicing user initiated tasks
US8327270B2 (en) * 2006-07-24 2012-12-04 Chacha Search, Inc. Method, system, and computer readable storage for podcasting and video training in an information search system
US20080133443A1 (en) * 2006-11-30 2008-06-05 Bohannon Philip L Methods and Apparatus for User-Guided Inference of Regular Expressions for Information Extraction
US8290921B2 (en) * 2007-06-28 2012-10-16 Microsoft Corporation Identification of similar queries based on overall and partial similarity of time series
US8255820B2 (en) 2009-06-09 2012-08-28 Skiff, Llc Electronic paper display device event tracking
US20100315326A1 (en) * 2009-06-10 2010-12-16 Le Chevalier Vincent Electronic paper display whitespace utilization
US20110088100A1 (en) * 2009-10-14 2011-04-14 Serge Rutman Disabling electronic display devices
US8918399B2 (en) * 2010-03-03 2014-12-23 Ca, Inc. Emerging topic discovery
US8954425B2 (en) * 2010-06-08 2015-02-10 Microsoft Corporation Snippet extraction and ranking
US8458115B2 (en) 2010-06-08 2013-06-04 Microsoft Corporation Mining topic-related aspects from user generated content
US20120209606A1 (en) * 2011-02-14 2012-08-16 Nice Systems Ltd. Method and apparatus for information extraction from interactions
US20120209605A1 (en) * 2011-02-14 2012-08-16 Nice Systems Ltd. Method and apparatus for data exploration of interactions
US9509757B2 (en) 2011-06-30 2016-11-29 Google Inc. Parallel sorting key generation
US8682644B1 (en) * 2011-06-30 2014-03-25 Google Inc. Multi-language sorting index
US8869208B2 (en) * 2011-10-30 2014-10-21 Google Inc. Computing similarity between media programs
JP5583163B2 (ja) * 2012-03-29 2014-09-03 日本電信電話株式会社 時間条件提示方法及び装置及びプログラム
JP2014013479A (ja) * 2012-07-04 2014-01-23 Sony Corp 情報処理装置、情報処理方法、プログラム、及び情報処理システム
JP6099046B2 (ja) 2013-06-11 2017-03-22 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 文を検索する装置および方法
US10241992B1 (en) 2018-04-27 2019-03-26 Open Text Sa Ulc Table item information extraction with continuous machine learning through local and global models

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3168565A (en) * 1959-11-20 1965-02-02 Richardson Merrell Inc Trifluoromethyl derivatives of amino triarylethanols, -ethanes, and -ethylenes
US4358824A (en) * 1979-12-28 1982-11-09 International Business Machines Corporation Office correspondence storage and retrieval system
JPH03129472A (ja) * 1989-07-31 1991-06-03 Ricoh Co Ltd 文書検索装置における処理方法
JPH04223567A (ja) * 1990-12-26 1992-08-13 Mitsubishi Electric Corp 情報検索装置
GB9220404D0 (en) * 1992-08-20 1992-11-11 Nat Security Agency Method of identifying,retrieving and sorting documents
US5598557A (en) * 1992-09-22 1997-01-28 Caere Corporation Apparatus and method for retrieving and grouping images representing text files based on the relevance of key words extracted from a selected file to the text files
US5523945A (en) * 1993-09-17 1996-06-04 Nec Corporation Related information presentation method in document processing system
US5576954A (en) * 1993-11-05 1996-11-19 University Of Central Florida Process for determination of text relevancy
US5499360A (en) * 1994-02-28 1996-03-12 Panasonic Technolgies, Inc. Method for proximity searching with range testing and range adjustment
US5649221A (en) * 1995-09-14 1997-07-15 Crawford; H. Vance Reverse electronic dictionary using synonyms to expand search capabilities
US5640553A (en) * 1995-09-15 1997-06-17 Infonautics Corporation Relevance normalization for documents retrieved from an information retrieval system in response to a query

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11143796A (ja) * 1997-11-10 1999-05-28 Nippon Telegr & Teleph Corp <Ntt> メーリングリストサービスシステム
JP2000315207A (ja) * 1999-04-30 2000-11-14 Just Syst Corp 文書データを評価するプログラムを記憶した記憶媒体
JP2000322416A (ja) * 1999-05-06 2000-11-24 Ntt Data Corp 文書検索装置
JP2004326476A (ja) * 2003-04-25 2004-11-18 Hitachi Ltd データとテキストを統合させた文書分析システム
WO2004104859A1 (ja) * 2003-05-22 2004-12-02 Fujitsu Limited テーマ分析装置
JPWO2004104859A1 (ja) * 2003-05-22 2006-07-20 富士通株式会社 テーマ分析装置、テーマ分析方法およびその方法をコンピュータに実行させるテーマ分析プログラム
JP4647442B2 (ja) * 2005-09-14 2011-03-09 独立行政法人情報通信研究機構 データ表示装置、データ表示方法およびデータ表示プログラム
JP2007079899A (ja) * 2005-09-14 2007-03-29 National Institute Of Information & Communication Technology データ表示装置、データ表示方法およびデータ表示プログラム
JP2007323434A (ja) * 2006-06-01 2007-12-13 Nippon Telegr & Teleph Corp <Ntt> 話題度算出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
WO2008062910A1 (fr) * 2006-11-22 2008-05-29 Haruo Hayashi Dispositif et procédé d'analyse de documents
JPWO2008062910A1 (ja) * 2006-11-22 2010-03-04 春男 林 文書解析装置および方法
WO2010128574A1 (ja) * 2009-05-07 2010-11-11 日本電気株式会社 判定装置、判定方法、及びコンピュータ読み取り可能な記録媒体
JP5440814B2 (ja) * 2009-05-07 2014-03-12 日本電気株式会社 判定装置、判定方法、及びプログラム
JP2011048821A (ja) * 2009-08-07 2011-03-10 Buzzmetrics Ltd 相対頻度に基づくフレーズマイニングのためのシステム、方法、及び装置
WO2013146736A1 (ja) * 2012-03-30 2013-10-03 日本電気株式会社 同義関係判定装置、同義関係判定方法、及びそのプログラム
JPWO2013146736A1 (ja) * 2012-03-30 2015-12-14 日本電気株式会社 同義関係判定装置、同義関係判定方法、及びそのプログラム
US9489370B2 (en) 2012-03-30 2016-11-08 Nec Corporation Synonym relation determination device, synonym relation determination method, and program thereof
JP2015064650A (ja) * 2013-09-24 2015-04-09 ビッグローブ株式会社 情報処理装置、記事情報生成方法およびプログラム
JP2015146134A (ja) * 2014-02-03 2015-08-13 Necパーソナルコンピュータ株式会社 情報処理装置及び方法
KR102256406B1 (ko) * 2020-04-20 2021-05-26 조진오 뉴스 정보 제공 방법 및 시스템

Also Published As

Publication number Publication date
JP2729356B2 (ja) 1998-03-18
US5732260A (en) 1998-03-24

Similar Documents

Publication Publication Date Title
JP2729356B2 (ja) 情報検索システム及び方法
JP3282937B2 (ja) 情報検索方法及びシステム
US10997678B2 (en) Systems and methods for image searching of patent-related documents
US6564210B1 (en) System and method for searching databases employing user profiles
US9348871B2 (en) Method and system for assessing relevant properties of work contexts for use by information services
JP3562572B2 (ja) データベースのドキュメントにおける新規な事項・新規クラスの検出及び追跡
JP4962967B2 (ja) Webページ検索サーバ及びクエリ推薦方法
US20080140348A1 (en) Systems and methods for predictive models using geographic text search
US8803882B2 (en) Identifying on a graphical depiction candidate points and top-moving queries
EP1435581A2 (en) Retrieval of structured documents
JP4917061B2 (ja) 特徴的キーワード検出装置、特徴的キーワード検出方法、プログラムおよび記録媒体
JP5556711B2 (ja) カテゴリ分類処理装置、カテゴリ分類処理方法、カテゴリ分類処理プログラム記録媒体、カテゴリ分類処理システム
US7030889B2 (en) Data display system, data display method, computer and computer program product
US6505198B2 (en) Sort system for text retrieval
US20040158558A1 (en) Information processor and program for implementing information processor
Gowri et al. Efficacious IR system for investigation in digital textual data
EP2608064A1 (en) Information provision device, information provision method, programme, and information recording medium
JP2003271609A (ja) 情報監視装置及び情報監視方法
US9064014B2 (en) Information provisioning device, information provisioning method, program, and information recording medium
JP3350594B2 (ja) 検索装置
US6473755B2 (en) Overlapping subdocuments in a vector space search process
JP2002215647A (ja) テキストマイニング装置及びそれに用いるテキストマイニング方法並びにそれらに用いるプログラム
JP4525224B2 (ja) ドキュメント管理プログラム、ドキュメント管理方法、及びドキュメント管理装置
US20150046437A1 (en) Search Method
JP2002215660A (ja) 検索システム及びこれに用いられるソフトウェア

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees