JP2729356B2 - 情報検索システム及び方法 - Google Patents
情報検索システム及び方法Info
- Publication number
- JP2729356B2 JP2729356B2 JP6208489A JP20848994A JP2729356B2 JP 2729356 B2 JP2729356 B2 JP 2729356B2 JP 6208489 A JP6208489 A JP 6208489A JP 20848994 A JP20848994 A JP 20848994A JP 2729356 B2 JP2729356 B2 JP 2729356B2
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- time
- given
- information
- topicality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3322—Query formulation using system suggestions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99936—Pattern matching access
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【0001】
【産業上の利用分野】この発明は、新聞記事、特許公
報、あるいはイメージ情報などをコンピュータによって
検索可能に保持するデータベースの検索技法に関するも
のである。
報、あるいはイメージ情報などをコンピュータによって
検索可能に保持するデータベースの検索技法に関するも
のである。
【0002】
【従来の技術】従来より、新聞記事、特許公報などをコ
ンピュータによって検索可能に保持するデータベースが
一般的に使用されている。このようなシステムにおいて
は、オペレータによる検索を容易ならしめるために、デ
ータベースの個々の要素(新聞のデータベースにあって
は個々の記事、特許データベースにあっては、個々の特
許公報)毎に、複数のキーワードが付与される。
ンピュータによって検索可能に保持するデータベースが
一般的に使用されている。このようなシステムにおいて
は、オペレータによる検索を容易ならしめるために、デ
ータベースの個々の要素(新聞のデータベースにあって
は個々の記事、特許データベースにあっては、個々の特
許公報)毎に、複数のキーワードが付与される。
【0003】そうして、検索を行うためには、一般的に
は、フリー・キーワード方式と呼ばれる対話的な検索方
法が使用される。これによれば、ユーザーのキーワード
入力に従い順次検索結果を得ることができるので、熟練
したユーザーが、複数の検索式を用意して、所望の件数
が得られるまで順次絞り込みをかけていくには有利であ
る。そのような検索式は通常、複数の条件の論理演算
(AND、OR、NOTなど)を含むものである。しか
し、従来のこの種の方式は、どの条件が結果に対してど
れ程の影響を与えたかを、予測することを可能ならしめ
るものではない。いいかえれば、見つかった文献以外に
漏れはなかったことを確認するためには、検索で用いた
条件の各々について、それを付加した場合と、除去した
場合の結果の差をいちいち検証する必要があるが、実際
には、検索が少しでも複雑になると、論理式の組み合わ
せの場合の数が非常に多くなって、事実上このような方
法はとれなくなる。
は、フリー・キーワード方式と呼ばれる対話的な検索方
法が使用される。これによれば、ユーザーのキーワード
入力に従い順次検索結果を得ることができるので、熟練
したユーザーが、複数の検索式を用意して、所望の件数
が得られるまで順次絞り込みをかけていくには有利であ
る。そのような検索式は通常、複数の条件の論理演算
(AND、OR、NOTなど)を含むものである。しか
し、従来のこの種の方式は、どの条件が結果に対してど
れ程の影響を与えたかを、予測することを可能ならしめ
るものではない。いいかえれば、見つかった文献以外に
漏れはなかったことを確認するためには、検索で用いた
条件の各々について、それを付加した場合と、除去した
場合の結果の差をいちいち検証する必要があるが、実際
には、検索が少しでも複雑になると、論理式の組み合わ
せの場合の数が非常に多くなって、事実上このような方
法はとれなくなる。
【0004】さらに、多くの検索システムは、「ユーザ
ーは、探している情報およびその周辺分野には詳しい」
という想定のもとに設計されているため、適切なキーワ
ードを思い付くことができない専門外のユーザーをし
て、検索された多数の文献の中から、適切な数件の文献
に絞り込むことを可能ならしめることが困難である。そ
こで要望されるのは、検索しようとする分野に関する知
識が十分でなくても、ユーザーが、検索しようとする文
献全体の傾向を知ることができるようにするシステムで
ある。さらに要望されるのは、適切なキーワードを思い
付くことができない専門外のユーザーに対して、検索に
有効な一群のキーワードを提示し、以って専門外のユー
ザーでも、興味のある情報に辿りつけるようにナビゲー
トするシステムである。そのためには、キーワードの与
える情報量、あるいは話題性といったものを評価するこ
とが必要となるが、これに関して以下に示す刊行物に記
載されているような技法が知られている。
ーは、探している情報およびその周辺分野には詳しい」
という想定のもとに設計されているため、適切なキーワ
ードを思い付くことができない専門外のユーザーをし
て、検索された多数の文献の中から、適切な数件の文献
に絞り込むことを可能ならしめることが困難である。そ
こで要望されるのは、検索しようとする分野に関する知
識が十分でなくても、ユーザーが、検索しようとする文
献全体の傾向を知ることができるようにするシステムで
ある。さらに要望されるのは、適切なキーワードを思い
付くことができない専門外のユーザーに対して、検索に
有効な一群のキーワードを提示し、以って専門外のユー
ザーでも、興味のある情報に辿りつけるようにナビゲー
トするシステムである。そのためには、キーワードの与
える情報量、あるいは話題性といったものを評価するこ
とが必要となるが、これに関して以下に示す刊行物に記
載されているような技法が知られている。
【0005】特開昭63−49928号公報は、キーワ
ード候補単語の使用頻度と、キーワード候補単語の尤度
とを計算し、各々のキーワード候補単語に対して、文章
内の使用頻度をもとに尤度を付与することを開示する。
ード候補単語の使用頻度と、キーワード候補単語の尤度
とを計算し、各々のキーワード候補単語に対して、文章
内の使用頻度をもとに尤度を付与することを開示する。
【0006】特開平1−112331号公報は、新聞記
事などからキーワードを自動的に抽出する技法に関し、
キーワードの、記事における統計的、構文的及び意味的
な重要度をも考慮に入れてキーワードを評価し抽出する
ことを開示する。
事などからキーワードを自動的に抽出する技法に関し、
キーワードの、記事における統計的、構文的及び意味的
な重要度をも考慮に入れてキーワードを評価し抽出する
ことを開示する。
【0007】特開平2−158871号公報は、文書デ
ータベースにおけるキーワードの出現頻度値を用いて各
キーワードの自己情報量を計算し、該自己情報量を用い
て文書毎の概念特徴量を計算し、文書間の概念特徴量の
差に応じて文書間の距離を求めることを開示する。
ータベースにおけるキーワードの出現頻度値を用いて各
キーワードの自己情報量を計算し、該自己情報量を用い
て文書毎の概念特徴量を計算し、文書間の概念特徴量の
差に応じて文書間の距離を求めることを開示する。
【0008】特開平4−98461号公報は、英文情報
から単語を抽出し、該抽出された単語とこの単語に対応
する記憶内容とに基づきキーワード候補を作成し、キー
ワード候補の出現回数に基づき、キーワード候補の重要
度を算出し、この重要度に基づき、キーワード候補から
キーワードを抽出することを開示する。
から単語を抽出し、該抽出された単語とこの単語に対応
する記憶内容とに基づきキーワード候補を作成し、キー
ワード候補の出現回数に基づき、キーワード候補の重要
度を算出し、この重要度に基づき、キーワード候補から
キーワードを抽出することを開示する。
【0009】これら従来の技法によれば、キーワードの
出現頻度、キーワードが現れる文書中の文脈などからキ
ーワードが評価される。これらの尺度は、キーワードの
重みを評価する上で一般的には有効である。すなわち、
シソーラスを作成する際には、重みがある閾値よりも小
さいと評価されたキーワードは棄却されることになる。
出現頻度、キーワードが現れる文書中の文脈などからキ
ーワードが評価される。これらの尺度は、キーワードの
重みを評価する上で一般的には有効である。すなわち、
シソーラスを作成する際には、重みがある閾値よりも小
さいと評価されたキーワードは棄却されることになる。
【0010】しかし、例えば、半導体デバイスの技術文
献データベースで、「半導体」や、「SiO2」という
キーワードを使用すると、非常に多くの文献にヒットす
るであろう。
献データベースで、「半導体」や、「SiO2」という
キーワードを使用すると、非常に多くの文献にヒットす
るであろう。
【0011】ところが一方、「半導体」や、「Si
O2」などの「ありふれた」キーワードから、話題性に
富む、あるいは画期的な文献に辿りつくのは極めて困難
である。
O2」などの「ありふれた」キーワードから、話題性に
富む、あるいは画期的な文献に辿りつくのは極めて困難
である。
【0012】逆に、稀少なキーワードを使用すると、場
合によっては「珍しい」文献に逢着することがあり得
る。しかし、そのような珍しい文献が、注目に値する重
要な文献であるということは全く保証されない。
合によっては「珍しい」文献に逢着することがあり得
る。しかし、そのような珍しい文献が、注目に値する重
要な文献であるということは全く保証されない。
【0013】
【発明が解決しようとする課題】この発明の目的は、検
索しようとする文献データベースに関連する分野につい
て十分な知識をもたないユーザーに対して、意義深い、
あるいは話題性に富む文献に辿りつくことを可能ならし
めるようなキーワードを提示するための技法を提供する
ことにある。
索しようとする文献データベースに関連する分野につい
て十分な知識をもたないユーザーに対して、意義深い、
あるいは話題性に富む文献に辿りつくことを可能ならし
めるようなキーワードを提示するための技法を提供する
ことにある。
【0014】この発明の他の目的は、検索された文献に
付与されている複数のキーワードの話題性を評価する技
法を提供することにある。
付与されている複数のキーワードの話題性を評価する技
法を提供することにある。
【0015】この発明のさらに他の目的は、ユーザーに
対して、興味深い話題を見つけだすことができるよう
に、検索された文献に付与されている複数のキーワード
の話題性を評価する技法を提供することにある。
対して、興味深い話題を見つけだすことができるよう
に、検索された文献に付与されている複数のキーワード
の話題性を評価する技法を提供することにある。
【0016】
【課題を解決するための手段】上記目的を達成するため
に、本願発明者は、特定のキーワードをもつ文献の件数
が、ある時点で増加し、時間軸に沿って次第に減少して
ゆく様子に着目し、この現象を定量化することによっ
て、キーワードの話題性を評価することができることに
想到したのである。
に、本願発明者は、特定のキーワードをもつ文献の件数
が、ある時点で増加し、時間軸に沿って次第に減少して
ゆく様子に着目し、この現象を定量化することによっ
て、キーワードの話題性を評価することができることに
想到したのである。
【0017】これは具体的には、次のように行う。すな
わち、本発明によれば、頻度がピークの時点から次第に
減少してゆくモデルが想定され、特定のキーワードをも
つ文献の頻度の時間軸に沿っての減少がこのモデルと比
較され、モデルとの距離がある閾値以内の範囲にある場
合にのみ、その特定のキーワードが「話題」である見な
される。モデルとして想定する関数は、ほぼ単調減少で
あることが必要であるけれども、それだけでは十分では
なく、勾配の絶対値が次第に減少するものでなくてはな
らない。この条件を満たす関数の簡単な例として、
わち、本発明によれば、頻度がピークの時点から次第に
減少してゆくモデルが想定され、特定のキーワードをも
つ文献の頻度の時間軸に沿っての減少がこのモデルと比
較され、モデルとの距離がある閾値以内の範囲にある場
合にのみ、その特定のキーワードが「話題」である見な
される。モデルとして想定する関数は、ほぼ単調減少で
あることが必要であるけれども、それだけでは十分では
なく、勾配の絶対値が次第に減少するものでなくてはな
らない。この条件を満たす関数の簡単な例として、
【数1】y = 1/x がある。
【0018】最初のステップは、当該のキーワードが話
題である範囲を決定することである。このために、当該
のキーワードが恒常的に生じている頻度を推定する必要
がある。これは、そのキーワードに関する、いわばバッ
クグランドの頻度を決定して、それを、得られた頻度か
ら引くことによって、真の時間的な効果を際立たせるた
めである。1つの例では、バックグランドの頻度は、あ
る期間に亘っての最も少ない頻度と2番目に少ない頻度
の平均であらわすことができる。
題である範囲を決定することである。このために、当該
のキーワードが恒常的に生じている頻度を推定する必要
がある。これは、そのキーワードに関する、いわばバッ
クグランドの頻度を決定して、それを、得られた頻度か
ら引くことによって、真の時間的な効果を際立たせるた
めである。1つの例では、バックグランドの頻度は、あ
る期間に亘っての最も少ない頻度と2番目に少ない頻度
の平均であらわすことができる。
【0019】こうして、恒常的出現頻度が決定される
と、上記ある期間で恒常的出現頻度に対して最大の頻度
をもつ時点を求め、それを話題の開始時間とする。
と、上記ある期間で恒常的出現頻度に対して最大の頻度
をもつ時点を求め、それを話題の開始時間とする。
【0020】次に、話題の終了時間は、話題の開始時間
から当該のキーワードをもつ文献の出現頻度が次第に減
少している範囲で、且つ恒常的出現頻度よりも大きい出
現頻度をもつ、話題の開始時間からの最長の時間を示す
時点である。尚、もし出現頻度が単調減少から増加に向
かったり、恒常的出現頻度よりも小さくなったりした場
合は、その直前の時点が話題の終了時点であると見な
す。
から当該のキーワードをもつ文献の出現頻度が次第に減
少している範囲で、且つ恒常的出現頻度よりも大きい出
現頻度をもつ、話題の開始時間からの最長の時間を示す
時点である。尚、もし出現頻度が単調減少から増加に向
かったり、恒常的出現頻度よりも小さくなったりした場
合は、その直前の時点が話題の終了時点であると見な
す。
【0021】こうして話題の開始時点と終了時点(話題
の継続期間と呼ぶ)が決定されると、その話題の継続期
間の当該キーワードの出現頻度の和と、上記ある期間全
体に対する該話題の継続期間の集中度(これは、例え
ば、話題の継続期間における当該キーワードの出現頻度
の和を、上記ある期間全体に亘る当該キーワードの出現
頻度の和で割ることによって計算される)の積によって
話題性が計算される。
の継続期間と呼ぶ)が決定されると、その話題の継続期
間の当該キーワードの出現頻度の和と、上記ある期間全
体に対する該話題の継続期間の集中度(これは、例え
ば、話題の継続期間における当該キーワードの出現頻度
の和を、上記ある期間全体に亘る当該キーワードの出現
頻度の和で割ることによって計算される)の積によって
話題性が計算される。
【0022】抽出されたキーワードの全てにつき、上記
話題性を計算し、その値に応じて降順にソートすること
によって、そのキーワードがヒットする件数ではなく、
「話題性」という別の尺度でキーワードを評価すること
が可能となり、ユーザーは、このようにソートされた上
位のキーワードを使用して、より興味深い文献の検索へ
と進むことができる。あるいは、このようにソートされ
たキーワード群を眺めるだけでも、対象としている文献
群がどのような主題を主たる話題としているかの概略
を、ユーザーは把握することができるだろう。
話題性を計算し、その値に応じて降順にソートすること
によって、そのキーワードがヒットする件数ではなく、
「話題性」という別の尺度でキーワードを評価すること
が可能となり、ユーザーは、このようにソートされた上
位のキーワードを使用して、より興味深い文献の検索へ
と進むことができる。あるいは、このようにソートされ
たキーワード群を眺めるだけでも、対象としている文献
群がどのような主題を主たる話題としているかの概略
を、ユーザーは把握することができるだろう。
【0023】尚、1つのキーワードがあらわれるとき、
それに相関してほぼ必ず別のキーワードがあらわれる、
ということがある(例えば、「殺人事件」と「警
察」)。このように、他のキーワードに深く関連づけら
れたキーワードは、それ独自で話題を示す訳ではなく、
寧ろ、関連するキーワードに付随して出現していると解
釈するのが相当である。そこで、例えば、F1というキ
ーワードと、F2というキーワードの両方をもつ文献の
頻度を、F1というキーワードをもつ文献の頻度で割る
ことによって、F1に対するF2の関連性と定義し、好
適には、この関連性が所定の閾値よりも大きいものは、
話題性でソートされた上位のキーワードであっても、話
題性のリストから排除するようにする。しかし、場合に
よっては、話題性のリストからは排除せず、関連のある
と決定されたキーワードを併記する方が望ましい場合も
あろう。
それに相関してほぼ必ず別のキーワードがあらわれる、
ということがある(例えば、「殺人事件」と「警
察」)。このように、他のキーワードに深く関連づけら
れたキーワードは、それ独自で話題を示す訳ではなく、
寧ろ、関連するキーワードに付随して出現していると解
釈するのが相当である。そこで、例えば、F1というキ
ーワードと、F2というキーワードの両方をもつ文献の
頻度を、F1というキーワードをもつ文献の頻度で割る
ことによって、F1に対するF2の関連性と定義し、好
適には、この関連性が所定の閾値よりも大きいものは、
話題性でソートされた上位のキーワードであっても、話
題性のリストから排除するようにする。しかし、場合に
よっては、話題性のリストからは排除せず、関連のある
と決定されたキーワードを併記する方が望ましい場合も
あろう。
【0024】
【実施例】以下図面を参照して、本発明の実施例を説明
する。
する。
【0025】A.ハードウェア構成 図1を参照すると、本発明を実施するためのシステム構
成の概観図が示されている。この構成は、特殊なもので
はなく、主記憶(RAM)、中央処理装置(CPU)、
周辺装置コントローラなどを備えるシステム装置100
2と、システム装置に対して、コマンドや文字列などを
キー入力するためのキーボード1004と、中央処理装
置を制御するためのオペレーティング・システム、デー
タベース・ファイル、検索エンジン、キーワード・イン
デックス・ファイルなどを格納したハードディスク10
06と、データベースの検索結果をカラーのビットマッ
プで表示し得るディスプレイ装置1008と、ディスプ
レイ装置1008の画面上の任意の位置をポイントして
その位置情報を中央処理装置に伝えるためのマウス10
10からなる通常の構成である。
成の概観図が示されている。この構成は、特殊なもので
はなく、主記憶(RAM)、中央処理装置(CPU)、
周辺装置コントローラなどを備えるシステム装置100
2と、システム装置に対して、コマンドや文字列などを
キー入力するためのキーボード1004と、中央処理装
置を制御するためのオペレーティング・システム、デー
タベース・ファイル、検索エンジン、キーワード・イン
デックス・ファイルなどを格納したハードディスク10
06と、データベースの検索結果をカラーのビットマッ
プで表示し得るディスプレイ装置1008と、ディスプ
レイ装置1008の画面上の任意の位置をポイントして
その位置情報を中央処理装置に伝えるためのマウス10
10からなる通常の構成である。
【0026】オペレーティング・システムとしては、W
indows(マイクロソフトの商標)、OS/2(I
BMの商標)、AIX(IBMの商標)上のX−WIN
DOWシステム(MITの商標)などの、標準でGUI
マルチウインドウ環境をサポートするものが望ましい
が、本発明は、MS−DOS(マイクロソフトの登録商
標)のキャラクタ・ベース環境でも実現可能であり、特
定のオペレーティング・システム環境に限定されるもの
ではない。
indows(マイクロソフトの商標)、OS/2(I
BMの商標)、AIX(IBMの商標)上のX−WIN
DOWシステム(MITの商標)などの、標準でGUI
マルチウインドウ環境をサポートするものが望ましい
が、本発明は、MS−DOS(マイクロソフトの登録商
標)のキャラクタ・ベース環境でも実現可能であり、特
定のオペレーティング・システム環境に限定されるもの
ではない。
【0027】また、図1は、スタンド・アロン環境のシ
ステムを示しているが、一般的に、データベース・ファ
イルは大容量のディスク装置を要するものであるので、
クライアント/サーバ・システムとして本発明を実現
し、サーバ・マシンにデータベース・ファイルと検索エ
ンジンを配置し、クライアント・マシンは、サーバ・マ
シンに対して、イーサネット、トークン・リングなどで
LAN接続し、クライアント・マシン側には、検索結果
を見るためのGUI制御部のみを配置するようにしても
よい。
ステムを示しているが、一般的に、データベース・ファ
イルは大容量のディスク装置を要するものであるので、
クライアント/サーバ・システムとして本発明を実現
し、サーバ・マシンにデータベース・ファイルと検索エ
ンジンを配置し、クライアント・マシンは、サーバ・マ
シンに対して、イーサネット、トークン・リングなどで
LAN接続し、クライアント・マシン側には、検索結果
を見るためのGUI制御部のみを配置するようにしても
よい。
【0028】B.システム構成 次に、図2のブロック図を参照して、本発明のシステム
構成について説明する。尚、図2で個別のブロックで示
されている要素は、図1のハードディスク1006に、
個別のデータ・ファイルまたはプログラム・ファイルと
して格納されているものであることに留意されたい。
構成について説明する。尚、図2で個別のブロックで示
されている要素は、図1のハードディスク1006に、
個別のデータ・ファイルまたはプログラム・ファイルと
して格納されているものであることに留意されたい。
【0029】データベース2002は、この実施例で
は、新聞記事のデータベースである。データベース20
02には、新聞記事のコンテンツが、テキスト・ファイ
ル形式で、個別に検索可能に格納されている。より具体
的には、各新聞記事には、一意的な記事番号と、新聞掲
載日が付与されている。
は、新聞記事のデータベースである。データベース20
02には、新聞記事のコンテンツが、テキスト・ファイ
ル形式で、個別に検索可能に格納されている。より具体
的には、各新聞記事には、一意的な記事番号と、新聞掲
載日が付与されている。
【0030】一般的に、新聞記事のコンテンツを直接検
索するのは長い処理時間を要するので、データベース2
002に格納されている全ての新聞記事のコンテンツを
対象として予め、キーワード・インデックス2004が
作成される。キーワード・インデックス2004には、
個々のキーワードと、そのキーワードを含む記事の記事
番号が格納されている。
索するのは長い処理時間を要するので、データベース2
002に格納されている全ての新聞記事のコンテンツを
対象として予め、キーワード・インデックス2004が
作成される。キーワード・インデックス2004には、
個々のキーワードと、そのキーワードを含む記事の記事
番号が格納されている。
【0031】キーワード検索エンジン2006は、キー
ワードを入力としてキーワード・インデックス2004
を検索し、入力されたキーワードを含む記事の記事番号
を返すものである。
ワードを入力としてキーワード・インデックス2004
を検索し、入力されたキーワードを含む記事の記事番号
を返すものである。
【0032】キーワード収集モジュール2008は、例
えばキーワード検索の結果としてキーワード検索エンジ
ン2006から返された記事番号の集合を入力として、
データベース2002に格納されている記事のコンテン
ツにアクセスし、それらの記事に付与されたキーワード
を、それを含む記事が掲載された日付とともに返すもの
である。
えばキーワード検索の結果としてキーワード検索エンジ
ン2006から返された記事番号の集合を入力として、
データベース2002に格納されている記事のコンテン
ツにアクセスし、それらの記事に付与されたキーワード
を、それを含む記事が掲載された日付とともに返すもの
である。
【0033】話題抽出モジュール2010は、キーワー
ドを入力とし、そのキーワードを含む記事の範囲で、デ
ータベースに直接アクセスして話題抽出(後で詳細に説
明する)を行うものである。話題抽出モジュール201
0は、好適には、話題性(やはり後で詳細に説明する)
に応じて、抽出されたキーワードをソートする機能をも
つ。
ドを入力とし、そのキーワードを含む記事の範囲で、デ
ータベースに直接アクセスして話題抽出(後で詳細に説
明する)を行うものである。話題抽出モジュール201
0は、好適には、話題性(やはり後で詳細に説明する)
に応じて、抽出されたキーワードをソートする機能をも
つ。
【0034】話題表示モジュール2012は、話題抽出
モジュール2010によって話題として抽出されたキー
ワードのリストを、ディスプレイ装置1008に表示す
るためのものである。話題表示モジュール2012は好
適には、抽出されたキーワードの頻度や日付に基づき、
GUIベースで棒グラフや折れ線グラフとして表示した
り、パイチャートを表示したりする機能ももつ。
モジュール2010によって話題として抽出されたキー
ワードのリストを、ディスプレイ装置1008に表示す
るためのものである。話題表示モジュール2012は好
適には、抽出されたキーワードの頻度や日付に基づき、
GUIベースで棒グラフや折れ線グラフとして表示した
り、パイチャートを表示したりする機能ももつ。
【0035】C.本発明の処理 次に、図3のフローチャートを参照して、本発明の処理
について説明する。
について説明する。
【0036】先ず、図3のステップ3002では、ユー
ザーがキーボードから打ち込んだ検索式が、図2のキー
ワード検索エンジン2004によって受け取られる。こ
の検索式は、単一のキーワードであってもよいし、複数
のキーワードにAND、OR、NOTなどの演算子を関
連させたものであってもよい。
ザーがキーボードから打ち込んだ検索式が、図2のキー
ワード検索エンジン2004によって受け取られる。こ
の検索式は、単一のキーワードであってもよいし、複数
のキーワードにAND、OR、NOTなどの演算子を関
連させたものであってもよい。
【0037】キーワード検索エンジン2004は、検索
式を受け取ると、ステップ3004でディスク1006
に格納されているキーワード・インデックス・ファイル
2004にアクセスして、検索を実行する。この検索の
結果、キーワード検索エンジン2004は、その検索式
に該当する記事の記事番号を得る。
式を受け取ると、ステップ3004でディスク1006
に格納されているキーワード・インデックス・ファイル
2004にアクセスして、検索を実行する。この検索の
結果、キーワード検索エンジン2004は、その検索式
に該当する記事の記事番号を得る。
【0038】この検索結果の記事番号の集合は、話題抽
出モジュール2010に渡される。
出モジュール2010に渡される。
【0039】話題抽出モジュール2010は、この渡さ
れた検索結果の記事番号の集合を以ってキーワード収集
モジュール2008を呼び出し、こうして、ステップ3
006では、キーワード収集モジュール2008が、デ
ータベース2002における検索結果の記事番号に対応
するコンテンツに直接アクセスして、そのコンテンツか
らキーワードを抽出する。このとき、抽出されたキーワ
ードには、本発明独自の処理のため、そのキーワードが
抽出されたソースの記事の日付が関連づけられる。
れた検索結果の記事番号の集合を以ってキーワード収集
モジュール2008を呼び出し、こうして、ステップ3
006では、キーワード収集モジュール2008が、デ
ータベース2002における検索結果の記事番号に対応
するコンテンツに直接アクセスして、そのコンテンツか
らキーワードを抽出する。このとき、抽出されたキーワ
ードには、本発明独自の処理のため、そのキーワードが
抽出されたソースの記事の日付が関連づけられる。
【0040】ステップ3008では、話題抽出モジュー
ル2010は、キーワード収集モジュール2008によ
って抽出されたキーワードのうちの1つのキーワードに
ついて、話題の開始時間Tstartを計算する。このために
先ず、話題抽出モジュール2010は、当該のキーワー
ドが恒常的に生じている頻度を推定するための処理を行
う。というのは、そのキーワードに関する、いわばバッ
クグランドの頻度(以下、恒常的出現頻度Fcと称する)
を決定して、それを、得られた頻度から引くことによっ
て、真の時間的な効果を際立たせるためである。1つの
実施例では、恒常的出現頻度Fcは、ある期間に亘っての
最も少ない頻度と2番目に少ない頻度の平均として計算
される。しかし、恒常的出現頻度は、ある期間に亘って
の最も少ない頻度として与えてもよく、本発明の趣旨か
ら逸脱しない範囲で様々な計算方法を考慮することがで
きる。
ル2010は、キーワード収集モジュール2008によ
って抽出されたキーワードのうちの1つのキーワードに
ついて、話題の開始時間Tstartを計算する。このために
先ず、話題抽出モジュール2010は、当該のキーワー
ドが恒常的に生じている頻度を推定するための処理を行
う。というのは、そのキーワードに関する、いわばバッ
クグランドの頻度(以下、恒常的出現頻度Fcと称する)
を決定して、それを、得られた頻度から引くことによっ
て、真の時間的な効果を際立たせるためである。1つの
実施例では、恒常的出現頻度Fcは、ある期間に亘っての
最も少ない頻度と2番目に少ない頻度の平均として計算
される。しかし、恒常的出現頻度は、ある期間に亘って
の最も少ない頻度として与えてもよく、本発明の趣旨か
ら逸脱しない範囲で様々な計算方法を考慮することがで
きる。
【0041】こうして、恒常的出現頻度Fcが決定される
と、話題抽出モジュール2010は、上記ある期間で恒
常的出現頻度に対して最大の頻度をもつ時点を求め、そ
れを話題の開始時間とする。
と、話題抽出モジュール2010は、上記ある期間で恒
常的出現頻度に対して最大の頻度をもつ時点を求め、そ
れを話題の開始時間とする。
【0042】次に、ステップ3010では、話題抽出モ
ジュール2010は、次のようにして、そのキーワード
に関する話題の終了時間Tendを計算する。1つの実施例
では、話題の終了時間は、話題の開始時間から当該のキ
ーワードをもつ文献の出現頻度が次第に減少している範
囲で、且つ恒常的出現頻度よりも大きい出現頻度をも
つ、話題の開始時間からの最長の時間を示す時点であ
る。もし出現頻度が単調減少から増加に向かったり、恒
常的出現頻度よりも小さくなったりした場合は、その直
前の時点が話題の終了時点であると見なす。
ジュール2010は、次のようにして、そのキーワード
に関する話題の終了時間Tendを計算する。1つの実施例
では、話題の終了時間は、話題の開始時間から当該のキ
ーワードをもつ文献の出現頻度が次第に減少している範
囲で、且つ恒常的出現頻度よりも大きい出現頻度をも
つ、話題の開始時間からの最長の時間を示す時点であ
る。もし出現頻度が単調減少から増加に向かったり、恒
常的出現頻度よりも小さくなったりした場合は、その直
前の時点が話題の終了時点であると見なす。
【0043】ステップ3012では、話題抽出モジュー
ル2010は、上記得られた話題の開始時間Tstart及び
Tendに基づき、モデルとの距離計算を行う。モデルにつ
いては、図4のグラフを参照して説明を行う。
ル2010は、上記得られた話題の開始時間Tstart及び
Tendに基づき、モデルとの距離計算を行う。モデルにつ
いては、図4のグラフを参照して説明を行う。
【0044】図4のグラフにおいて、横軸は時間tであ
り、この場合新聞記事の掲載日である。縦軸は、ある単
位時間内の当該キーワードを含む新聞記事の件数(以
下、頻度fと称する)である。新聞記事データベースの
場合、単位時間として日をとると、日毎の掲載件数が比
較的大きくばらつく。しかし、日々の件数のばらつきか
ら有用な情報が得られることもあるので、単位時間とし
て日をとることが有意義な場合もある。一方、頻度を見
る単位時間として、1ヶ月をとると、記事の件数の日々
のばらつきが均されて話題性抽出の精度が高まるが、細
かい頻度の変動が見落とされる可能性も出て来る。よっ
て、単位時間は、目的に応じて、日または月のどちらか
が選ばれる。勿論、場合によって、一週間または3日間
などの他の単位時間が適当なこともあろう。
り、この場合新聞記事の掲載日である。縦軸は、ある単
位時間内の当該キーワードを含む新聞記事の件数(以
下、頻度fと称する)である。新聞記事データベースの
場合、単位時間として日をとると、日毎の掲載件数が比
較的大きくばらつく。しかし、日々の件数のばらつきか
ら有用な情報が得られることもあるので、単位時間とし
て日をとることが有意義な場合もある。一方、頻度を見
る単位時間として、1ヶ月をとると、記事の件数の日々
のばらつきが均されて話題性抽出の精度が高まるが、細
かい頻度の変動が見落とされる可能性も出て来る。よっ
て、単位時間は、目的に応じて、日または月のどちらか
が選ばれる。勿論、場合によって、一週間または3日間
などの他の単位時間が適当なこともあろう。
【0045】図4において、t0は、新聞記事データベー
ス全体での記事の最も古い日付、t1は、新聞記事データ
ベース全体での記事の最も新しい日付である。
ス全体での記事の最も古い日付、t1は、新聞記事データ
ベース全体での記事の最も新しい日付である。
【0046】また、Freq(t)は、tの時点での当該キーワ
ードの頻度である。定義により、Freq(Tstart)は、当該
キーワードの最大頻度である。
ードの頻度である。定義により、Freq(Tstart)は、当該
キーワードの最大頻度である。
【0047】さて、本発明の1つの知見によれば、理想
的な話題の頻度は、単調減少し且つその負の勾配の絶対
値が時間の推移とともに次第に減少してゆく関数に従
う。このような関数によって推定される頻度をモデル推
定量と呼ぶことにする。この話題モデルの性質は、本願
発明者によって、実際の新聞記事について、多数の典型
的な話題の頻度の消長を観察することによって認識され
たものである。
的な話題の頻度は、単調減少し且つその負の勾配の絶対
値が時間の推移とともに次第に減少してゆく関数に従
う。このような関数によって推定される頻度をモデル推
定量と呼ぶことにする。この話題モデルの性質は、本願
発明者によって、実際の新聞記事について、多数の典型
的な話題の頻度の消長を観察することによって認識され
たものである。
【0048】このような関数の1つの例は、y=1/xであ
り、別の例は、y=1/(log(x))である。
り、別の例は、y=1/(log(x))である。
【0049】ここでは、モデルとしてy=1/xを選んだ例
で説明する。モデルは、場合によっては、t=Tstartで、
値がFreq(Tstart)となるように正規化される。するとモ
デル推定量の式Fm(t)は、次のようになる。
で説明する。モデルは、場合によっては、t=Tstartで、
値がFreq(Tstart)となるように正規化される。するとモ
デル推定量の式Fm(t)は、次のようになる。
【数2】 Fm(t) = (Freq(Tstart) - Fc )/(t - Tstart + 1) + Fc
【0050】また、場合によっては、0< K < 1であるよ
うな定数Kを導入し、
うな定数Kを導入し、
【数3】Fm(t) = K(t) * (Freq(Tstart) - Fc )/(t - T
start + 1) + Fc
start + 1) + Fc
【0051】としてもよい。これは、必ずしも、Fm(Tst
art) = F(Tstart)となるように正規化されないが、Tsta
rtとTendの期間に亘ってよりよいモデル推定量を与える
場合がある。因みに、K(t)は、tに関して次第に減少す
るような重み付け関数であって、話題期間の後半は、あ
まり重要でない頻度が生じがちであるという知見に基づ
き、話題期間の前半を、後半よりも比較的に重視するよ
うにするために掛けられる。
art) = F(Tstart)となるように正規化されないが、Tsta
rtとTendの期間に亘ってよりよいモデル推定量を与える
場合がある。因みに、K(t)は、tに関して次第に減少す
るような重み付け関数であって、話題期間の後半は、あ
まり重要でない頻度が生じがちであるという知見に基づ
き、話題期間の前半を、後半よりも比較的に重視するよ
うにするために掛けられる。
【0052】図3のフローチャートに戻って、ステップ
3012では、次のような計算によって、当該のキーワ
ードとモデル推定量Fmとの距離が求められる。
3012では、次のような計算によって、当該のキーワ
ードとモデル推定量Fmとの距離が求められる。
【数4】
【0053】距離は、こうして計算された値dの平方根
として与えられる。尚、上記式は、便宜上C言語の記法
に拠ったが、この技術分野の当業者なら容易に、FOR
TRAN、PASCAL、BASICなどの任意のプロ
グラミング言語に上記式を書き直すことができるはずで
ある。
として与えられる。尚、上記式は、便宜上C言語の記法
に拠ったが、この技術分野の当業者なら容易に、FOR
TRAN、PASCAL、BASICなどの任意のプロ
グラミング言語に上記式を書き直すことができるはずで
ある。
【0054】また、本発明は、上記距離の定義に限定さ
れるものではなく、本発明の趣旨から逸脱しない範囲で
任意の別の定義を使用することができる。例えば、上記
式で、
れるものではなく、本発明の趣旨から逸脱しない範囲で
任意の別の定義を使用することができる。例えば、上記
式で、
【数5】 d += ( Freq(t) - Fm(t)) * ( Freq(t) - Fm(t)); を、
【数6】d += abs( Freq(t) - Fm(t)); で置き換えてもよい。尚、absは、絶対値をとるための
関数である。この場合には、dの平方根ではなく、d自体
が距離となる。
関数である。この場合には、dの平方根ではなく、d自体
が距離となる。
【0055】こうしてモデルとの距離が計算されると、
ステップ3014では、モデルとの距離が予定の閾値D
よりも小さいかどうかが判断される。
ステップ3014では、モデルとの距離が予定の閾値D
よりも小さいかどうかが判断される。
【0056】もしそうなら、モデルとの距離の点につい
ては、当該キーワードは、話題性があるとみなされて、
次のステップ3016で、話題の関連性の計算が行われ
る。話題の関連性とは、当該のキーワードが別のキーワ
ードに付随して起こる度合の指標であって、次の式で計
算される。
ては、当該キーワードは、話題性があるとみなされて、
次のステップ3016で、話題の関連性の計算が行われ
る。話題の関連性とは、当該のキーワードが別のキーワ
ードに付随して起こる度合の指標であって、次の式で計
算される。
【数7】 話題の関連性(K1,K2) = Freq(K1 & K2)/Freq(K1)
【0057】この式で、K1は当該のキーワード、K2は、
ステップ3006で抽出されたキーワードのうちで、K1
に等しくない任意のものである。また、Freq(K1 & K2)
は、K1とK2の両方を含む記事の頻度である。この式の計
算の時間範囲は、図4のt0とt1の間でもよいし、Tstart
とTendの間でもよい。この式は、0と1の間の値をと
り、1に十分近い値をとるときは、K1が現れる非常に多
くの場合にK2があらわれる、ということだから、K1はK2
に強く関連づけられている、と解釈してよいことにな
る。例えば、「殺人」は「警察」に強く関連づけられた
キーワードである。
ステップ3006で抽出されたキーワードのうちで、K1
に等しくない任意のものである。また、Freq(K1 & K2)
は、K1とK2の両方を含む記事の頻度である。この式の計
算の時間範囲は、図4のt0とt1の間でもよいし、Tstart
とTendの間でもよい。この式は、0と1の間の値をと
り、1に十分近い値をとるときは、K1が現れる非常に多
くの場合にK2があらわれる、ということだから、K1はK2
に強く関連づけられている、と解釈してよいことにな
る。例えば、「殺人」は「警察」に強く関連づけられた
キーワードである。
【0058】そのように、他のキーワードに強く関連づ
けられたキーワードが話題性をもつとしてマークされた
としても、それは、他のキーワードとの関連でのみ記事
に現れている可能性が大きい。従って、本発明の好適な
実施例では、話題の関連性がある閾値Rより大きいキー
ワードは、ステップ3014でモデルとの距離がDより
小さいことが決定されたとしても、ステップ3018で
の判断により、話題としてエントリしないようにする。
しかし、これは1つの実施例にすぎず、別の実施例で
は、他のキーワードとの関連性が大きいと決定されて
も、話題のリストからは排除せず、寧ろリストで、関連
性が大きいと決定された他のキーワードを併記するよう
にしてもよく、寧ろその方が望ましい場合もある。
けられたキーワードが話題性をもつとしてマークされた
としても、それは、他のキーワードとの関連でのみ記事
に現れている可能性が大きい。従って、本発明の好適な
実施例では、話題の関連性がある閾値Rより大きいキー
ワードは、ステップ3014でモデルとの距離がDより
小さいことが決定されたとしても、ステップ3018で
の判断により、話題としてエントリしないようにする。
しかし、これは1つの実施例にすぎず、別の実施例で
は、他のキーワードとの関連性が大きいと決定されて
も、話題のリストからは排除せず、寧ろリストで、関連
性が大きいと決定された他のキーワードを併記するよう
にしてもよく、寧ろその方が望ましい場合もある。
【0059】こうして、当該キーワードの他のキーワー
ドに対する関連性が大きくないと、ステップ3018で
判断されると、そのキーワードはようやく、ステップ3
020で話題として保持されることになる。
ドに対する関連性が大きくないと、ステップ3018で
判断されると、そのキーワードはようやく、ステップ3
020で話題として保持されることになる。
【0060】尚、ステップ3008からステップ302
0までは、ステップ3006で、新聞記事からキーワー
ドとして抽出された全てのもの1つ1つについて、順次
実行されることに留意されたい。
0までは、ステップ3006で、新聞記事からキーワー
ドとして抽出された全てのもの1つ1つについて、順次
実行されることに留意されたい。
【0061】次に、ステップ3022では、保持された
全てのキーワードについて、話題性の計算が行われる。
本発明によれば、話題性とは、話題の期間、すなわち図
4におけるTstartからTendまでの期間の当該キーワード
の頻度の累計に、全期間(図4におけるt0とt1の間)の
当該キーワードの集中度を掛けた値である。
全てのキーワードについて、話題性の計算が行われる。
本発明によれば、話題性とは、話題の期間、すなわち図
4におけるTstartからTendまでの期間の当該キーワード
の頻度の累計に、全期間(図4におけるt0とt1の間)の
当該キーワードの集中度を掛けた値である。
【0062】集中度は、1つの実施例では、話題の期間
の当該キーワードの頻度を、全期間の間の当該キーワー
ドの頻度で割った値である。
の当該キーワードの頻度を、全期間の間の当該キーワー
ドの頻度で割った値である。
【0063】あるいは、集中度として、話題の期間の長
さを、全期間の長さで割った値を使用してもよい。
さを、全期間の長さで割った値を使用してもよい。
【0064】ステップ3024では、ステップ3020
で話題としてリストされた全てのキーワードが、ステッ
プ3022で計算された話題性の値に基づき、降順にソ
ートされる。これによって、本発明によって、より話題
性がある、と見なされるキーワードから順に、ディスプ
レイ装置1008(図1)の画面に表示することが可能
となり、それだけでも、ユーザーは、ステップ3002
で与えた検索式によって絞られた記事の群についての主
要な話題を、一見して把握することができるであろう。
で話題としてリストされた全てのキーワードが、ステッ
プ3022で計算された話題性の値に基づき、降順にソ
ートされる。これによって、本発明によって、より話題
性がある、と見なされるキーワードから順に、ディスプ
レイ装置1008(図1)の画面に表示することが可能
となり、それだけでも、ユーザーは、ステップ3002
で与えた検索式によって絞られた記事の群についての主
要な話題を、一見して把握することができるであろう。
【0065】ステップ3026では、話題性に関して降
順にソートされた上位幾つかのキーワードに関して、横
軸を時間とし、話題の期間を水平に延びるバーとし、そ
のバーがあらわれる高さを話題性の順位の値(順位が上
である程上方に表示)とするグラフがディスプレイ装置
1008(図1)の画面に表示される。このようなグラ
フの具体例としては、図5を参照されたい。
順にソートされた上位幾つかのキーワードに関して、横
軸を時間とし、話題の期間を水平に延びるバーとし、そ
のバーがあらわれる高さを話題性の順位の値(順位が上
である程上方に表示)とするグラフがディスプレイ装置
1008(図1)の画面に表示される。このようなグラ
フの具体例としては、図5を参照されたい。
【0066】D.具体的な検索例 次に、実際の新聞記事データベースをアクセスして検索
した例を示す。
した例を示す。
【0067】先ず、特定の期間をカバーする新聞記事デ
ータベースが、「事故」というキーワードで検索され
た。そして、得られた記事の集合からキーワードを抽出
し、記事中にあらわれた件数順に降順でソートすると、
次のリストが得られた(上位30をリスト)。このリス
トは、順位、キーワード、頻度をそれぞれ表す。
ータベースが、「事故」というキーワードで検索され
た。そして、得られた記事の集合からキーワードを抽出
し、記事中にあらわれた件数順に降順でソートすると、
次のリストが得られた(上位30をリスト)。このリス
トは、順位、キーワード、頻度をそれぞれ表す。
【表1】 ============================ 1 死亡 362 2 衝突 242 3 原因 194 4 安全 189 5 会社 159 6 現場 137 7 対策 133 8 作業 124 9 過失 122 10 発生 122 11 衝突事故 121 12 爆発 118 13 県警 112 14 死者 110 15 防止 103 16 調査 102 17 責任 90 18 損害 89 19 システム 87 20 業務上過失致死 86 21 過失致死 82 22 全国 81 23 発表 81 24 乗客 80 25 地裁 80 26 賠償 77 27 ニュートラム 76 28 事故原因 74 29 会社員 72 30 暴走 72
【0068】一方、同じキーワードの集合につき、計算
された話題性の値の順序で降順に降順でソートすると、
次のリストが得られた(上位30をリスト)。このリス
トは、順位、キーワード、話題性の値をそれぞれ表す。
された話題性の値の順序で降順に降順でソートすると、
次のリストが得られた(上位30をリスト)。このリス
トは、順位、キーワード、話題性の値をそれぞれ表す。
【表2】 ============================ 1 ニュートラム 76.00 2 暴走事故 61.00 3 暴走 51.68 4 交通システム 51.00 5 タンカー事故 44.33 6 スマトラ島 44.02 7 システム 37.34 8 衝突 33.47 9 衝突事故 28.77 10 現場 13.49 11 爆発 11.60 12 負傷 10.88 13 作業 9.88 14 車両 9.80 15 全国 9.00 16 施設 9.00 17 遺族 8.86 18 調査 8.82 19 発生 7.87 20 責任 7.51 21 過失 7.37 22 再開 7.01 23 遺体 6.42 24 業務上過失致死 6.15 25 地裁 6.05 26 過失致死 5.90 27 実施 5.89 28 技術 5.67 29 会社員 5.55 30 対策 5.48
【0069】この例から見て取れるように、抽出された
キーワードのうちで最も頻度の大きい「死亡」は、話題
性に関して降順ソートしたリストからは、上位30位か
らも漏れてしまい、単なる「死亡」というキーワード
は、少なくとも「事故」に関連した新聞記事においては
あまり話題性がない、ということが示唆される。
キーワードのうちで最も頻度の大きい「死亡」は、話題
性に関して降順ソートしたリストからは、上位30位か
らも漏れてしまい、単なる「死亡」というキーワード
は、少なくとも「事故」に関連した新聞記事においては
あまり話題性がない、ということが示唆される。
【0070】一方、頻度に関して降順ソートしたリスト
では辛うじて27位にあった「ニュートラム」というキ
ーワードは、話題性に関して降順ソートしたリストで
は、一躍トップに位置付けられた。実際、「ニュートラ
ム」というキーワードは、確かに一世を風靡したもので
あり、このことは、このような比較的頻度の低いキーワ
ードを、話題性の高いキーワードとしてリストし得る点
で、本発明の技法の信頼性を裏付けるものであるように
思われる。
では辛うじて27位にあった「ニュートラム」というキ
ーワードは、話題性に関して降順ソートしたリストで
は、一躍トップに位置付けられた。実際、「ニュートラ
ム」というキーワードは、確かに一世を風靡したもので
あり、このことは、このような比較的頻度の低いキーワ
ードを、話題性の高いキーワードとしてリストし得る点
で、本発明の技法の信頼性を裏付けるものであるように
思われる。
【0071】さらに言うなら、単に頻度をベースに、抽
出されたキーワードをソートすると、最初に与えた検索
条件と密接に関連したキーワードしかピックアップされ
ない、ということに留意されたい。例えば、上記の例だ
と、「事故」という検索条件に対して、頻度の順で上位
にリストされるのは、「死亡」、「衝突」、「原因」、
「安全」などで、何れも、一般の人が「事故」というキ
ーワードから容易に連想できるものばかりである。すな
わち、頻度をベースにすると、ユーザーに非自明、ある
いは有意義な情報が与えられない場合が多い。
出されたキーワードをソートすると、最初に与えた検索
条件と密接に関連したキーワードしかピックアップされ
ない、ということに留意されたい。例えば、上記の例だ
と、「事故」という検索条件に対して、頻度の順で上位
にリストされるのは、「死亡」、「衝突」、「原因」、
「安全」などで、何れも、一般の人が「事故」というキ
ーワードから容易に連想できるものばかりである。すな
わち、頻度をベースにすると、ユーザーに非自明、ある
いは有意義な情報が与えられない場合が多い。
【0072】一方、話題性をベースにリストされたキー
ワードは、「ニュートラム」、「暴走事故」、「暴
走」、「交通システム」、「タンカー事故」、「スマト
ラ島」、「システム」であり、上記「死亡」、「衝
突」、「原因」、「安全」に比較すると、「事故」とい
うキーワードから、何等かの前提知識なしでは容易に連
想できるものではなくなっている。逆にいうなら、本発
明は、そのような前提知識のないユーザーに、有意義な
情報を自動的に抽出して提示し得るのである。
ワードは、「ニュートラム」、「暴走事故」、「暴
走」、「交通システム」、「タンカー事故」、「スマト
ラ島」、「システム」であり、上記「死亡」、「衝
突」、「原因」、「安全」に比較すると、「事故」とい
うキーワードから、何等かの前提知識なしでは容易に連
想できるものではなくなっている。逆にいうなら、本発
明は、そのような前提知識のないユーザーに、有意義な
情報を自動的に抽出して提示し得るのである。
【0073】尚、話題性の計算完了後、ユーザーの要求
に応答して、あるいは自動的に、頻度に関して降順ソー
トしたリストが、画面の(マルチウインドウ環境である
場合)特定のウインドウ中に表示される。ユーザーは、
このウインドウをスクロールすることによって、話題性
が大きいキーワードから順に眺めることができる。
に応答して、あるいは自動的に、頻度に関して降順ソー
トしたリストが、画面の(マルチウインドウ環境である
場合)特定のウインドウ中に表示される。ユーザーは、
このウインドウをスクロールすることによって、話題性
が大きいキーワードから順に眺めることができる。
【0074】さらに、話題性の計算完了後、ユーザーの
要求に応答して、あるいは自動的に、図5に示すよう
に、話題性に関して降順にソートされた上位幾つかのキ
ーワードに関して、横軸を時間とし、話題の期間を水平
に延びるバーとし、そのバーがあらわれるレベルを話題
性の順位とするグラフがディスプレイ装置1008(図
1)の画面に表示される。
要求に応答して、あるいは自動的に、図5に示すよう
に、話題性に関して降順にソートされた上位幾つかのキ
ーワードに関して、横軸を時間とし、話題の期間を水平
に延びるバーとし、そのバーがあらわれるレベルを話題
性の順位とするグラフがディスプレイ装置1008(図
1)の画面に表示される。
【0075】
【発明の効果】以上説明したように、この発明によれ
ば、キーワードの頻度では判断することができない「話
題性」という観点に基づきキーワードを選択して提示す
ることを可能ならしめる、という効果が得られる。
ば、キーワードの頻度では判断することができない「話
題性」という観点に基づきキーワードを選択して提示す
ることを可能ならしめる、という効果が得られる。
【0076】尚、上記実施例では、新聞記事データベー
スに限定して説明したが、本発明は新聞記事データベー
スに限定されるものではなく、コンピュータ検索可能に
維持され、個々のデータ要素からキーワード抽出可能で
あり、且つ個々のデータ要素には時間(一般的には、日
付)が関連付けられているような任意のデータベースに
適用可能である。このようなものの例としては、新聞記
事データベース以外に、電子メール・ネットワークのフ
ォーラム(電子掲示板)、電子的な議事録、論文データ
ベース、特許公報のデータベースなどがある。
スに限定して説明したが、本発明は新聞記事データベー
スに限定されるものではなく、コンピュータ検索可能に
維持され、個々のデータ要素からキーワード抽出可能で
あり、且つ個々のデータ要素には時間(一般的には、日
付)が関連付けられているような任意のデータベースに
適用可能である。このようなものの例としては、新聞記
事データベース以外に、電子メール・ネットワークのフ
ォーラム(電子掲示板)、電子的な議事録、論文データ
ベース、特許公報のデータベースなどがある。
【図1】 本発明を実現するためのハードウェア構成を
示す概略図である。
示す概略図である。
【図2】 本発明を実現するための論理構成のブロック
図である。
図である。
【図3】 本発明の処理のフローチャートを示す図であ
る。
る。
【図4】 本発明に基づき話題性を抽出するためのモデ
ル及び頻度の推移を示すグラフを示す図である。
ル及び頻度の推移を示すグラフを示す図である。
【図5】 抽出された話題を表示する画面の例を示す図
である。
である。
Claims (29)
- 【請求項1】各々のデータ要素が、時間情報を付与さ
れ、且つキーワード付け可能な情報を含むような、複数
のデータ要素からなるデータベースから、コンピュータ
の処理によって話題性を抽出する情報検索方法であっ
て、 (a) 上記時間情報の所定期間に亘って恒常的に、上記デ
ータ要素に含まれる所与のキーワードを含む、単位時間
内の時間情報を付与されたデータ要素の推定件数として
定義される、該所与のキーワードに関する恒常的出現頻
度を決定する段階と、 (b) 上記時間情報の軸に沿って、上記所与のキーワード
を含む、単位時間毎の時間情報を付与されたデータ要素
の件数から上記恒常的出現頻度を引いた値が最大になる
時点を、上記所与のキーワードの話題性の開始時点とし
て決定する段階と、 (c) 上記時間情報の軸に沿って、話題性の開始時点より
も後の時点で、上記所与のキーワードを含む、単位時間
内の時間情報を付与されたデータ要素の件数が、ほぼ上
記恒常的出現頻度のレベルまで低下する時点を、上記所
与のキーワードの話題性の終了時点として決定する段階
と、 (d) 話題の開始時点から終了時点まで単調減少する話題
の頻度推移の関数として、予めモデルを与える段階と、 (e) 上記予めモデルとして与えられた関数と、上記話題
性の開始時点から上記話題性の終了時点までの、単位時
間毎の時間情報を付与されたデータ要素の件数から上記
恒常的出現頻度を引いた値の推移のグラフとの距離を決
定する段階と、 (f) 上記所与のキーワードに関する上記距離の値がある
閾値よりも小さいことに応答して、上記所与のキーワー
ドを話題として選択する段階を有する、情報検索方法。 - 【請求項2】上記単調減少する話題の頻度の関数は、そ
の負の勾配の絶対値が上記時間軸に沿って次第に減少し
ていく性質をもつ関数である、請求項1に記載の情報検
索方法。 - 【請求項3】上記関数は、y=1/xの形式の関数である、
請求項2に記載の情報検索方法。 - 【請求項4】上記所与のキーワードと、上記データベー
スのデータ要素に含まれる他のキーワードとの関連性を
数値で求め、該関連性が所定の閾値より大きいことに応
答して、上記所与のキーワードを話題として選択しない
ようにする段階をさらに有する、請求項1に記載の情報
検索方法。 - 【請求項5】上記関連性は、上記所与のキーワードと上
記他のキーワードを同時に含む上記データ要素の件数
を、上記所与のキーワードを含む件数で割った値であ
る、請求項4に記載の情報検索方法。 - 【請求項6】上記データベースが新聞記事のデータベー
スであり、上記データ要素が個別の記事であり、上記時
間情報が発行年月日である、請求項1に記載の情報検索
方法。 - 【請求項7】各々のデータ要素が、時間情報を付与さ
れ、且つキーワード付け可能な情報を含むような、複数
のデータ要素からなるデータベースから、コンピュータ
の処理によって話題性を抽出する情報検索方法であっ
て、 (a) 上記時間情報の所定期間に亘って恒常的に、上記デ
ータ要素に含まれる所与のキーワードを含む、単位時間
内の時間情報を付与されたデータ要素の推定件数として
定義される、該所与のキーワードに関する恒常的出現頻
度を決定する段階と、 (b) 上記時間情報の軸に沿って、上記所与のキーワード
を含む、単位時間毎の時間情報を付与されたデータ要素
の件数から上記恒常的出現頻度を引いた値が最大になる
時点を、上記所与のキーワードの話題性の開始時点とし
て決定する段階と、 (c) 上記時間情報の軸に沿って、話題性の開始時点より
も後の時点で、上記所与のキーワードを含む、単位時間
内の時間情報を付与されたデータ要素の件数が、ほぼ上
記恒常的出現頻度のレベルまで低下する時点を、上記所
与のキーワードの話題性の終了時点として決定する段階
と、 (d) 話題の開始時点から終了時点まで単調減少する話題
の頻度推移の関数として、予めモデルを与える段階と、 (e) 上記予めモデルとして与えられた関数と、上記話題
性の開始時点から上記話題性の終了時点までの、単位時
間毎の時間情報を付与されたデータ要素の件数から上記
恒常的出現頻度を引いた値の推移のグラフとの距離を決
定する段階と、 (f) 上記所与のキーワードに関する上記距離の値がある
閾値よりも小さいことに応答して、上記所与のキーワー
ドを話題として選択する段階と、 (g)上記段階(a)乃至段階(f)を、上記データベースのデ
ータ要素に含まれる複数のキーワードに個別に適用し、
それらのうちで話題として選択されたものを、上記距離
の値で降順にソートする段階を有する、 情報検索方法。 - 【請求項8】上記単調減少する話題の頻度の関数は、そ
の負の勾配の絶対値が上記時間軸に沿って次第に減少し
ていく性質をもつ関数である、請求項7に記載の情報検
索方法。 - 【請求項9】上記所与のキーワードと、上記データベー
スのデータ要素に含まれる他のキーワードとの関連性を
数値で求め、該関連性が所定の閾値より大きいことに応
答して、上記所与のキーワードを話題として選択しない
ようにする段階をさらに有する、請求項7に記載の情報
検索方法。 - 【請求項10】上記関連性は、上記所与のキーワードと
上記他のキーワードを同時に含む上記データ要素の件数
を、上記所与のキーワードを含む件数で割った値であ
る、請求項9に記載の情報検索方法。 - 【請求項11】上記データベースが新聞記事のデータベ
ースであり、上記データ要素が個別の記事であり、上記
時間情報が発行年月日である、請求項7に記載の情報検
索方法。 - 【請求項12】上記単位時間が月または日のどちらかで
ある、請求項11に記載の情報検索方法。 - 【請求項13】各々のデータ要素が、時間情報を付与さ
れ、且つキーワード付け可能な情報を含むような、複数
のデータ要素からなるデータベースから、コンピュータ
の処理によって話題性を抽出する情報検索システムであ
って、 (a) 上記時間情報の所定期間に亘って恒常的に、上記デ
ータ要素に含まれる所与のキーワードを含む、単位時間
内の時間情報を付与されたデータ要素の推定件数として
定義される、該所与のキーワードに関する恒常的出現頻
度を決定する手段と、 (b) 上記時間情報の軸に沿って、上記所与のキーワード
を含む、単位時間毎の時間情報を付与されたデータ要素
の件数から上記恒常的出現頻度を引いた値が最大になる
時点を、上記所与のキーワードの話題性の開始時点とし
て決定する手段と、 (c) 上記時間情報の軸に沿って、話題性の開始時点より
も後の時点で、上記所与のキーワードを含む、単位時間
内の時間情報を付与されたデータ要素の件数が、ほぼ上
記恒常的出現頻度のレベルまで低下する時点を、上記所
与のキーワードの話題性の終了時点として決定する手段
と、 (d) 上記予めモデルとして与えられた、話題の開始時点
から終了時点まで単調減少する話題の頻度推移の関数
と、上記話題性の開始時点から上記話題性の終了時点ま
での、単位時間毎の時間情報を付与されたデータ要素の
件数から上記恒常的出現頻度を引いた値の推移のグラフ
との距離を決定する手段と、 (e) 上記所与のキーワードに関する上記距離の値がある
閾値よりも小さいことに応答して、上記所与のキーワー
ドを話題として選択する手段とを具備する、 情報検索システム。 - 【請求項14】上記キーワードを話題として選択する手
段によって話題として選択された複数のキーワードを保
持する手段と、 上記保持された複数のキーワードにつき、該キーワード
を含み、上記話題の開始時間と終了時間の間の時間情報
を付与されたデータ要素の頻度と、該キーワードの上記
所定期間内の該キーワードの集中度との積として話題性
を計算する手段と、 該複数のキーワードを該話題性の値でソートしてユーザ
ーに提示する手段をさらに有する、請求項13に記載の
情報検索システム。 - 【請求項15】上記集中度は、上記話題の開始時間と終
了時間の間の時間情報を付与されたデータ要素の頻度
を、上記所定期間内の時間情報を付与されたデータ要素
の頻度で割った値に比例する値である、請求項14に記
載の情報検索システム。 - 【請求項16】上記所与のキーワードを話題として選択
する手段は、上記所与のキーワードと、上記データベー
スのデータ要素に含まれる他のキーワードとの関連性を
数値で求め、該関連性が所定の閾値より大きいことに応
答して、所与のキーワードを話題として選択しないよう
にする手段をさらに有する、請求項13に記載の情報検
索システム。 - 【請求項17】上記関連性は、上記所与のキーワードと
上記他のキーワードを同時に含む上記データ要素の件数
を、上記所与のキーワードを含む件数で割った値であ
る、請求項16に記載の情報検索システム。 - 【請求項18】上記単調減少する話題の頻度の関数は、
その負の勾配の絶対値が上記時間軸に沿って次第に減少
していく性質をもつ関数である、請求項13に記載の情
報検索システム。 - 【請求項19】上記データベースが新聞記事のデータベ
ースであり、上記データ要素が個別の記事であり、上記
時間情報が発行年月日である、請求項13に記載の情報
検索システム。 - 【請求項20】上記単位時間が月または日のどちらかで
ある、請求項19に記載の情報検索システム。 - 【請求項21】各々のデータ要素が、時間情報を付与さ
れ、且つキーワード付け可能な情報を含むような、複数
のデータ要素からなるデータベースから、コンピュータ
の処理によって話題性を抽出する情報検索システムであ
って、 (a) ユーザーからの検索要求に応答して、該検索要求の
条件に合致するデータ要素を上記データベースにおいて
検索する検索手段と、 (b) 上記時間情報の所定期間に亘って恒常的に、上記検
索手段によって検索されたデータ要素に含まれる個別の
キーワードについて、該キーワードを含む、単位時間内
の時間情報を付与されたデータ要素の推定件数として定
義される、該キーワードに関する恒常的出現頻度を決定
する手段と、 (c) 上記時間情報の軸に沿って、上記キーワードを含
む、単位時間毎の時間情報を付与されたデータ要素の件
数から上記恒常的出現頻度を引いた値が最大になる時点
を、上記キーワードの話題性の開始時点として決定する
手段と、 (d) 上記時間情報の軸に沿って、話題性の開始時点より
も後の時点で、上記キーワードを含む、単位時間内の時
間情報を付与されたデータ要素の件数が、ほぼ上記恒常
的出現頻度のレベルまで低下する時点を、上記キーワー
ドの話題性の終了時点として決定する手段と、 (e) 上記予めモデルとして与えられた、話題の開始時点
から終了時点まで単調減少する話題の頻度推移の関数
と、上記話題性の開始時点から上記話題性の終了時点ま
での、単位時間毎の時間情報を付与されたデータ要素の
件数から上記恒常的出現頻度を引いた値の推移のグラフ
との距離を決定する手段と、 (f) 上記キーワードに関する上記距離の値がある閾値よ
りも小さいことに応答して、上記キーワードを話題とし
て選択する手段と、 (g) 上記検索手段によって検索されたデータ要素の集合
の中で上記話題として選択されたキーワードをリストし
てユーザーに示す手段とを具備する、 情報検索システム。 - 【請求項22】上記キーワードをリストしてユーザーに
示す手段は、上記保持された複数のキーワードにつき、
該キーワードを含み、上記話題の開始時間と終了時間の
間の時間情報を付与されたデータ要素の頻度と、該キー
ワードの上記所定期間内の該キーワードの集中度との積
として話題性を計算する手段と、 該複数のキーワードを該話題性の値でソートしてユーザ
ーに提示する手段をさらに有する、請求項21に記載の
情報検索システム。 - 【請求項23】上記集中度は、上記話題の開始時間と終
了時間の間の時間情報を付与されたデータ要素の頻度
を、上記所定期間内の時間情報を付与されたデータ要素
の頻度で割った値に比例する値である、請求項22に記
載の情報検索システム。 - 【請求項24】横軸を期間とし、縦軸を話題性の順位と
し、話題性の値が上位のキーワードを、該キーワードの
話題性の開始時間と話題性の終了時間の間延びる水平な
バーとして表示する手段を有する、請求項22に記載の
情報検索システム。 - 【請求項25】上記所与のキーワードを話題として選択
する手段は、上記所与のキーワードと、上記データベー
スのデータ要素に含まれる他のキーワードとの関連性を
数値で求め、該関連性が所定の閾値より大きいことに応
答して、上記所与のキーワードを話題として選択しない
ようにする手段をさらに有する、請求項21に記載の情
報検索システム。 - 【請求項26】上記関連性は、上記所与のキーワードと
上記他のキーワードを同時に含む上記データ要素の件数
を、上記所与のキーワードを含む件数で割った値であ
る、請求項25に記載の情報検索システム。 - 【請求項27】上記単調減少する話題の頻度の関数は、
その負の勾配の絶対値が上記時間軸に沿って次第に減少
していく性質をもつ関数である、請求項21に記載の情
報検索システム。 - 【請求項28】上記データベースが新聞記事のデータベ
ースであり、上記データ要素が個別の記事であり、上記
時間情報が発行年月日である、請求項21に記載の情報
検索システム。 - 【請求項29】上記単位時間が月または日のどちらかで
ある、請求項28に記載の情報検索システム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6208489A JP2729356B2 (ja) | 1994-09-01 | 1994-09-01 | 情報検索システム及び方法 |
US08/521,701 US5732260A (en) | 1994-09-01 | 1995-08-31 | Information retrieval system and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6208489A JP2729356B2 (ja) | 1994-09-01 | 1994-09-01 | 情報検索システム及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0877178A JPH0877178A (ja) | 1996-03-22 |
JP2729356B2 true JP2729356B2 (ja) | 1998-03-18 |
Family
ID=16557016
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP6208489A Expired - Fee Related JP2729356B2 (ja) | 1994-09-01 | 1994-09-01 | 情報検索システム及び方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US5732260A (ja) |
JP (1) | JP2729356B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7031982B2 (en) | 2001-05-16 | 2006-04-18 | Ricoh Company, Ltd. | Publication confirming method, publication information acquisition apparatus, publication information providing apparatus and database |
Families Citing this family (55)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6112201A (en) * | 1995-08-29 | 2000-08-29 | Oracle Corporation | Virtual bookshelf |
US6457004B1 (en) | 1997-07-03 | 2002-09-24 | Hitachi, Ltd. | Document retrieval assisting method, system and service using closely displayed areas for titles and topics |
US5982369A (en) * | 1997-04-21 | 1999-11-09 | Sony Corporation | Method for displaying on a screen of a computer system images representing search results |
US6865715B2 (en) * | 1997-09-08 | 2005-03-08 | Fujitsu Limited | Statistical method for extracting, and displaying keywords in forum/message board documents |
JP3572904B2 (ja) * | 1997-11-10 | 2004-10-06 | 日本電信電話株式会社 | メーリングリストサービスシステム |
US6253169B1 (en) * | 1998-05-28 | 2001-06-26 | International Business Machines Corporation | Method for improvement accuracy of decision tree based text categorization |
JP3665480B2 (ja) * | 1998-06-24 | 2005-06-29 | 富士通株式会社 | 文書整理装置および方法 |
JP2000315207A (ja) * | 1999-04-30 | 2000-11-14 | Just Syst Corp | 文書データを評価するプログラムを記憶した記憶媒体 |
JP3558267B2 (ja) * | 1999-05-06 | 2004-08-25 | 株式会社エヌ・ティ・ティ・データ | 文書検索装置 |
WO2000068757A2 (en) * | 1999-05-07 | 2000-11-16 | Carlos Cardona | System and method for database retrieval, indexing and statistical analysis |
JP3855551B2 (ja) * | 1999-08-25 | 2006-12-13 | 株式会社日立製作所 | 検索方法及び検索システム |
JP3463010B2 (ja) * | 1999-09-17 | 2003-11-05 | Necエレクトロニクス株式会社 | 情報処理装置および情報処理方法 |
US6990238B1 (en) | 1999-09-30 | 2006-01-24 | Battelle Memorial Institute | Data processing, analysis, and visualization system for use with disparate data types |
US6898530B1 (en) | 1999-09-30 | 2005-05-24 | Battelle Memorial Institute | Method and apparatus for extracting attributes from sequence strings and biopolymer material |
US7106329B1 (en) | 1999-09-30 | 2006-09-12 | Battelle Memorial Institute | Methods and apparatus for displaying disparate types of information using an interactive surface map |
US7137067B2 (en) * | 2000-03-17 | 2006-11-14 | Fujitsu Limited | Device and method for presenting news information |
US6944344B2 (en) * | 2000-06-06 | 2005-09-13 | Matsushita Electric Industrial Co., Ltd. | Document search and retrieval apparatus, recording medium and program |
US6718336B1 (en) | 2000-09-29 | 2004-04-06 | Battelle Memorial Institute | Data import system for data analysis system |
US6940509B1 (en) | 2000-09-29 | 2005-09-06 | Battelle Memorial Institute | Systems and methods for improving concept landscape visualizations as a data analysis tool |
US6928407B2 (en) * | 2002-03-29 | 2005-08-09 | International Business Machines Corporation | System and method for the automatic discovery of salient segments in speech transcripts |
US7136850B2 (en) * | 2002-12-20 | 2006-11-14 | International Business Machines Corporation | Self tuning database retrieval optimization using regression functions |
JP2004326476A (ja) * | 2003-04-25 | 2004-11-18 | Hitachi Ltd | データとテキストを統合させた文書分析システム |
JPWO2004104859A1 (ja) * | 2003-05-22 | 2006-07-20 | 富士通株式会社 | テーマ分析装置、テーマ分析方法およびその方法をコンピュータに実行させるテーマ分析プログラム |
DE10345526A1 (de) * | 2003-09-30 | 2005-05-25 | Océ Document Technologies GmbH | Verfahren und System zum Erfassen von Daten aus maschinell lesbaren Dokumenten |
US20050251519A1 (en) * | 2004-05-07 | 2005-11-10 | International Business Machines Corporation | Efficient language-dependent sorting of embedded numerics |
US20060112089A1 (en) * | 2004-11-22 | 2006-05-25 | International Business Machines Corporation | Methods and apparatus for assessing web page decay |
JP2007072646A (ja) * | 2005-09-06 | 2007-03-22 | Internatl Business Mach Corp <Ibm> | 検索装置、検索方法およびプログラム |
JP4647442B2 (ja) * | 2005-09-14 | 2011-03-09 | 独立行政法人情報通信研究機構 | データ表示装置、データ表示方法およびデータ表示プログラム |
JP4800846B2 (ja) * | 2006-06-01 | 2011-10-26 | 日本電信電話株式会社 | 話題度算出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 |
WO2008011537A2 (en) * | 2006-07-19 | 2008-01-24 | Chacha Search, Inc. | Method, system, and computer readable medium useful in managing a computer-based system for servicing user initiated tasks |
EP2049970A4 (en) * | 2006-07-24 | 2014-12-31 | Chacha Search Inc | METHOD, SYSTEM AND COMPUTER-READABLE MEMORY FOR BALADODIFFUSION AND VIDEO FORMATION IN AN INFORMATION SEARCH SYSTEM |
WO2008062910A1 (fr) * | 2006-11-22 | 2008-05-29 | Haruo Hayashi | Dispositif et procédé d'analyse de documents |
US20080133443A1 (en) * | 2006-11-30 | 2008-06-05 | Bohannon Philip L | Methods and Apparatus for User-Guided Inference of Regular Expressions for Information Extraction |
US8290921B2 (en) * | 2007-06-28 | 2012-10-16 | Microsoft Corporation | Identification of similar queries based on overall and partial similarity of time series |
JP5440814B2 (ja) * | 2009-05-07 | 2014-03-12 | 日本電気株式会社 | 判定装置、判定方法、及びプログラム |
US8255820B2 (en) | 2009-06-09 | 2012-08-28 | Skiff, Llc | Electronic paper display device event tracking |
US20100315326A1 (en) * | 2009-06-10 | 2010-12-16 | Le Chevalier Vincent | Electronic paper display whitespace utilization |
US20110035211A1 (en) * | 2009-08-07 | 2011-02-10 | Tal Eden | Systems, methods and apparatus for relative frequency based phrase mining |
US20110088100A1 (en) * | 2009-10-14 | 2011-04-14 | Serge Rutman | Disabling electronic display devices |
US8918399B2 (en) * | 2010-03-03 | 2014-12-23 | Ca, Inc. | Emerging topic discovery |
US8954425B2 (en) * | 2010-06-08 | 2015-02-10 | Microsoft Corporation | Snippet extraction and ranking |
US8458115B2 (en) | 2010-06-08 | 2013-06-04 | Microsoft Corporation | Mining topic-related aspects from user generated content |
US20120209606A1 (en) * | 2011-02-14 | 2012-08-16 | Nice Systems Ltd. | Method and apparatus for information extraction from interactions |
US20120209605A1 (en) * | 2011-02-14 | 2012-08-16 | Nice Systems Ltd. | Method and apparatus for data exploration of interactions |
US9509757B2 (en) | 2011-06-30 | 2016-11-29 | Google Inc. | Parallel sorting key generation |
US8682644B1 (en) * | 2011-06-30 | 2014-03-25 | Google Inc. | Multi-language sorting index |
US8869208B2 (en) * | 2011-10-30 | 2014-10-21 | Google Inc. | Computing similarity between media programs |
JP5583163B2 (ja) * | 2012-03-29 | 2014-09-03 | 日本電信電話株式会社 | 時間条件提示方法及び装置及びプログラム |
WO2013146736A1 (ja) * | 2012-03-30 | 2013-10-03 | 日本電気株式会社 | 同義関係判定装置、同義関係判定方法、及びそのプログラム |
JP2014013479A (ja) * | 2012-07-04 | 2014-01-23 | Sony Corp | 情報処理装置、情報処理方法、プログラム、及び情報処理システム |
JP6099046B2 (ja) | 2013-06-11 | 2017-03-22 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 文を検索する装置および方法 |
JP5841108B2 (ja) * | 2013-09-24 | 2016-01-13 | ビッグローブ株式会社 | 情報処理装置、記事情報生成方法およびプログラム |
JP6008886B2 (ja) * | 2014-02-03 | 2016-10-19 | Necパーソナルコンピュータ株式会社 | 情報処理装置及び方法 |
US10241992B1 (en) | 2018-04-27 | 2019-03-26 | Open Text Sa Ulc | Table item information extraction with continuous machine learning through local and global models |
KR102256406B1 (ko) * | 2020-04-20 | 2021-05-26 | 조진오 | 뉴스 정보 제공 방법 및 시스템 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3168565A (en) * | 1959-11-20 | 1965-02-02 | Richardson Merrell Inc | Trifluoromethyl derivatives of amino triarylethanols, -ethanes, and -ethylenes |
US4358824A (en) * | 1979-12-28 | 1982-11-09 | International Business Machines Corporation | Office correspondence storage and retrieval system |
JPH03129472A (ja) * | 1989-07-31 | 1991-06-03 | Ricoh Co Ltd | 文書検索装置における処理方法 |
JPH04223567A (ja) * | 1990-12-26 | 1992-08-13 | Mitsubishi Electric Corp | 情報検索装置 |
GB9220404D0 (en) * | 1992-08-20 | 1992-11-11 | Nat Security Agency | Method of identifying,retrieving and sorting documents |
US5598557A (en) * | 1992-09-22 | 1997-01-28 | Caere Corporation | Apparatus and method for retrieving and grouping images representing text files based on the relevance of key words extracted from a selected file to the text files |
US5523945A (en) * | 1993-09-17 | 1996-06-04 | Nec Corporation | Related information presentation method in document processing system |
US5576954A (en) * | 1993-11-05 | 1996-11-19 | University Of Central Florida | Process for determination of text relevancy |
US5499360A (en) * | 1994-02-28 | 1996-03-12 | Panasonic Technolgies, Inc. | Method for proximity searching with range testing and range adjustment |
US5649221A (en) * | 1995-09-14 | 1997-07-15 | Crawford; H. Vance | Reverse electronic dictionary using synonyms to expand search capabilities |
US5640553A (en) * | 1995-09-15 | 1997-06-17 | Infonautics Corporation | Relevance normalization for documents retrieved from an information retrieval system in response to a query |
-
1994
- 1994-09-01 JP JP6208489A patent/JP2729356B2/ja not_active Expired - Fee Related
-
1995
- 1995-08-31 US US08/521,701 patent/US5732260A/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7031982B2 (en) | 2001-05-16 | 2006-04-18 | Ricoh Company, Ltd. | Publication confirming method, publication information acquisition apparatus, publication information providing apparatus and database |
Also Published As
Publication number | Publication date |
---|---|
US5732260A (en) | 1998-03-24 |
JPH0877178A (ja) | 1996-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2729356B2 (ja) | 情報検索システム及び方法 | |
JP3562572B2 (ja) | データベースのドキュメントにおける新規な事項・新規クラスの検出及び追跡 | |
EP0722145B1 (en) | Information retrieval system and method of operation | |
US8555182B2 (en) | Interface for managing search term importance relationships | |
US8065145B2 (en) | Keyword outputting apparatus and method | |
US6912536B1 (en) | Apparatus and method for presenting document data | |
JP4962967B2 (ja) | Webページ検索サーバ及びクエリ推薦方法 | |
US7111000B2 (en) | Retrieval of structured documents | |
JP4647666B2 (ja) | 削除予想を使用して多用語サーチ問合せにおける用語の相対値をランク付けするシステム及び方法 | |
JP4917061B2 (ja) | 特徴的キーワード検出装置、特徴的キーワード検出方法、プログラムおよび記録媒体 | |
US20080288492A1 (en) | Assisted management of bookmarked web pages | |
US7451120B1 (en) | Detecting novel document content | |
US20090303238A1 (en) | Identifying on a graphical depiction candidate points and top-moving queries | |
JP5556711B2 (ja) | カテゴリ分類処理装置、カテゴリ分類処理方法、カテゴリ分類処理プログラム記録媒体、カテゴリ分類処理システム | |
CN109857853B (zh) | 基于电子书的搜索方法、电子设备及计算机存储介质 | |
US20040158558A1 (en) | Information processor and program for implementing information processor | |
US20130204864A1 (en) | Information provision device, information provision method, program, and information recording medium | |
US20020059346A1 (en) | Sort system for text retrieval | |
US20020057272A1 (en) | Data display system, data display method, computer and computer program product | |
US20050114317A1 (en) | Ordering of web search results | |
JP2003271609A (ja) | 情報監視装置及び情報監視方法 | |
JP5964149B2 (ja) | 共起語を特定する装置およびプログラム | |
JP3652086B2 (ja) | 速読支援装置 | |
KR100494113B1 (ko) | 웹 브라우저를 이용한 정보 검색 시스템 | |
JP4525224B2 (ja) | ドキュメント管理プログラム、ドキュメント管理方法、及びドキュメント管理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |