JP2000020538A - 情報検索方法、情報検索装置および情報検索プログラム記憶媒体 - Google Patents

情報検索方法、情報検索装置および情報検索プログラム記憶媒体

Info

Publication number
JP2000020538A
JP2000020538A JP10187062A JP18706298A JP2000020538A JP 2000020538 A JP2000020538 A JP 2000020538A JP 10187062 A JP10187062 A JP 10187062A JP 18706298 A JP18706298 A JP 18706298A JP 2000020538 A JP2000020538 A JP 2000020538A
Authority
JP
Japan
Prior art keywords
group
topic
topic word
document
coordinate system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10187062A
Other languages
English (en)
Inventor
Katsushi Suzuki
克志 鈴木
Yoichi Fujii
洋一 藤井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP10187062A priority Critical patent/JP2000020538A/ja
Publication of JP2000020538A publication Critical patent/JP2000020538A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 本発明は、データベースに含まれる内容をグ
ラフィカルに表示することによって、その内容をユーザ
が容易に概観することができるようにすることを目的と
する。 【解決手段】 データベースに含まれる文献を形態素解
析し、トピックワードを抽出し、複数の文献に共通に含
まれるトピックワードの集まりを、一つの話題を構成す
るトピックワードグループとして認識し、共通のトピッ
クワードを有する二つのトピックワードグループを一つ
のグループ組合わせとして抽出し、前記グループ組合わ
せに含まれるトピックワードグループを、第1の軸およ
び第2の軸により定まる二次元座標系に表示する。前記
二次元座標系の前記第1の軸は、前記出所データに含ま
れる一つの出所データ項目を表わし、前記二次元座標系
の前記第2の軸は、前記トピックワードを表わす。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、複数の文献と各
文献の出所データとを含むデータベースから、文献に含
まれる情報を検索する情報検索方法、情報検索装置およ
び情報検索プログラム記憶媒体に関し、詳しくは、ユー
ザが文献に含まれる話題をグラフィカルな表示により容
易に認識することができるようにした情報検索方法、情
報検索装置および情報検索プログラムに関する。
【0002】
【従来の技術】従来、例えば、新聞記事、日本を含む各
国の官庁が発行する特許関係の公報類、各種書籍類、技
術論文を含む各種論文、仕様書等の技術文献などの各種
文献情報(以下、総称して文献と呼ぶ)をコンピュータ
によって検索可能に電子的に保持するデータベースが一
般的に使用されている。このようなシステムでは、デー
タベース中に存在する任意の単語や特定のキーワード
(以下、キーワードと総称する)で検索式を設定し検索
を行なうことが一般的に行われている。しかしながら、
ユーザすなわち情報検索者が予めデータベースにどのよ
うな情報が格納されているかについての予備知識がない
と、検索結果として期待すべき文献を抽出するためにど
のようなキーワードを用いて検索式を設定すればよいか
がわからない、といった問題点がある。このため、デー
タベースにどのような内容が含まれているかを、ユーザ
が概観することができるようにする技術が待望されてい
る。
【0003】データベース中の内容を概観するための技
法として、データベース中のすべての文献に含まれるキ
ーワードを一覧表示することが考えられるが、これは文
献の量が膨大になると、不要な情報提供ばかりが増大し
て現実的ではない。また、文献ごとにキーワード頻度を
計数し、頻度の高いキーワードのみを表示することも考
えられるが、どのような話題を扱う文献が多いか、とい
った話題の傾向のような情報をユーザは概観することが
できず、やはり検索式の設定に際して参考になるような
情報を入手することはできない。
【0004】上記技術同様に検索式を作成するのに役立
つ情報を提供するために参考となる従来技術としては、
例えば、キーワードで検索した結果を日付順序等の時系
列でソートし表示出力することを開示する特開平5−2
33708号公報(以下、先行技術1と呼ぶ)、見出し
を時系列にグループごとに出力表示することを開示する
特開平6−96136号公報(以下、先行技術2と呼
ぶ)、特定の分野や期間で話題となったキーワードを検
索することを開示する特開平7−325832号公報
(以下、先行技術3と呼ぶ)、複数のキーワードの話題
性をソート表示することを開示する特開平8−7717
8号公報(以下、先行技術4と呼ぶ)がある。
【0005】これら従来の先行技術はいずれにおいて
も、文献に含まれる話題の変化や動きをユーザに提供す
るところまで至っていないため、データベースの内容を
十分に概観することができるようにしたと言えるレベル
に未だ到達していない。
【0006】具体的には、以下のとおりである。まず、
先行技術1においては、検索単位が一つのキーワードで
あるので、検索結果を時系列にソートしてもデータベー
ス全体に含まれる話題を概観することができないという
問題がある。
【0007】先行技術2においては、見出しをグループ
ごとに時系列にソートして出力表示できるため、データ
ベース全体の内容をグループごとに概観できるが、グル
ープとしては予めコンセプトファイルと称する固定分類
の記述用ファイルで企業名や「著作権」等の事前に決め
られた分類を用いるので、データベースに含まれる話題
の種類に応じた表示が不可能であり、データベース内容
をよく知らないユーザが概観できるようにすることを目
的とした用途には使えないという問題がある。そもそ
も、データベースをどう分類したら概観できるかが事前
に明確であれば、ユーザはその分類体系を熟知して検索
すればよい。
【0008】先行技術3においては、検索単位が先行技
術1と同様にキーワードになるので、やはりデータベー
ス全体に含まれる話題を概観することができないという
問題がある。
【0009】先行技術4においては、あるキーワードの
検索結果に対して関連するキーワードを抽出することは
できるが、文献全体に対して、キーワード間の関連をわ
かりやすく表示することはできず、先行技術3と同様
に、データベース全体に含まれる話題を概観することが
できないという問題がある。
【0010】一般的に従来の文献検索においては、一つ
の文献には複数の検索用のインデックスが付与される。
言い換えれば、複数のキーワードによって、検索するた
めに必要な文献の概要を規定しているという前提があ
る。しかしながら、先行技術1から4においては、いづ
れも複数のキーワードの集まりを処理単位としておら
ず、その結果、データベース全体を概観するのではなく
て、ある検索結果に対して整理あるいは表示しているに
すぎないと言える。
【0011】一方、「新聞記事における事件特定のため
の単語群の抽出、情報処理学会自然言語処理研究会11
3−17(1996)」の刊行物(以下、先行技術5と
呼ぶ)には、複数のキーワードの集まりを処理単位と
し、その集まりをもって話題の概念を定義する技法が開
示されている。この先行技術5には、新聞記事に対して
話題を構成する単語(ワード)群を抽出するために、ま
ず記事を形態素解析し、そして出現する単語の頻度統計
を算出し、次いで特定期間中に頻繁に出現する単語をト
ピックワードとして抽出し、複数の文献に共通に含まれ
るトピックワードの集まりを、一つの話題を構成するト
ピックワードグループとして認識する方法が開示されて
いる。この方法によれば、一つ一つが複数のキーワード
の集まりから構成されるような複数の話題が抽出できる
ので、データベース全体の内容をある程度概観できるよ
うになる。
【0012】
【発明が解決しようとする課題】しかしながら、このよ
うな先行技術5に記載された方法においては、抽出され
た複数のグループに、構成単語(トピックワード)の多く
が重複し少数が異なるような幾つかの話題が含まれてし
まうといった問題がある(上記先行技術5の115頁参
照)。そのため、グループをすべて表示したときに、同
じような話題に対応する複数のグループが相互の関連の
明示なしに漫然と表示されることになる。従って、話題
の変遷に対応して最新の情報を期待して検索を行なうの
で話題間の時間的変化を知るとか、広く荒い検索を行な
いたいので相互に関連する複数の話題をまとめて対象と
して検索キーワードを設定するといったきめの細かい検
索操作を支援するためのデータベース概観情報を提供す
ることは困難であるといった問題点がある。
【0013】この発明は上記のような問題点を解決すべ
くなされたものであり、データベース中に含まれた話題
間の関連性をグラフィカルに表示することによって、検
索対象のデータベースに対して充分な知識を持たないユ
ーザがデータベース中に含まれる話題だけだなく話題の
変化の様子をも知ることができようにして、データベー
スの概観を容易に認識することができるようにした情報
検索方法、情報検索装置および情報検索プログラム記憶
媒体を提供することを目的とする。
【0014】
【課題を解決するための手段】この発明は、上記課題を
解決するため、複数の文献と各文献の出所データとを含
むデータベースから、前記文献に含まれる情報を検索す
る情報検索方法において、前記出所データに基づいて、
前記データベースの中から文献を特定する文献特定工程
と、該文献特定工程で特定された文献に含まれるワード
の中から所定値以上の頻度で出現したワードをトピック
ワードとして抽出するトピックワード抽出工程と、一つ
あるいは複数の文献に共通に含まれるトピックワードの
集まりを、一つの話題を構成するトピックワードグルー
プとして認識するトピックワードグループ認識工程と、
前記トピックワードグループのうち、共通のトピックワ
ードを有する二つのトピックワードグループを一つのグ
ループ組合わせとして抽出するグループ組合わせ抽出工
程と、前記グループ組合わせに含まれるトピックワード
グループを、第1の軸および第2の軸により定まる二次
元座標系に表示する二次元表示工程と、を含み、前記二
次元座標系の前記第1の軸は、前記出所データに含まれ
る一つの出所データ項目を表わし、前記二次元座標系の
前記第2の軸は、前記トピックワードを表わすことを特
徴とするものである。
【0015】また、前記二次元表示工程は、前記二次元
座標系の各座標の表示色または濃淡を、各座標のトピッ
クワードの出現頻度に応じて相違させて表示させる工程
を有するようにしてもよい。
【0016】また、前記出所データ項目は各文献の発行
日時であってもよい。
【0017】また、前記出所データ項目は各文献の頒布
場所であってもよい。
【0018】また、前記二次元表示工程で二次元座標系
に表示された前記グループ組合わせの表示パターンに基
づいて、前記グループ組合わせに含まれるトピックワー
ドグループ間の関連性を、予め決められた関連パターン
に分類する関連パターン分類工程を含むようにしてもよ
い。
【0019】また、前記出所データ項目は各文献の発行
日時であり、前記各トピックワードグループは一つの話
題を構成し、前記予め決められた関連パターンは、時間
経過により話題の内容が変化した状態を表わす第1のパ
ターンと、時間経過を挟んで話題が繰り返された状態を
表わす第2のパターンと、関連するが主題が異なる話題
がほぼ同時期に現れた状態を示す第3のパターンと、を
含み、前記二次元表示工程は、前記グループ組合わせが
前記第1から第3のパターンのうちの何れに分類された
かを表わす情報を表示する工程を有するようにしてもよ
い。
【0020】また、前記データベースは新聞記事データ
ベースであり、各文献は各記事に相当するにしてもよ
い。
【0021】また、前記グループ組合わせ抽出工程は、
前記トピックワードグループ認識工程で認識されたトピ
ックワードグループから、全てのグループ組合わせを抽
出する工程を有し、前記二次元表示工程は、グループ組
合わせ抽出工程で抽出された全てのグループ組合わせ
を、前記二次元座標系に表示する工程を有するようにし
てもよい。
【0022】また、前記二次元表示工程は、前記グルー
プ組合わせを、各トピックワードグループを表わすノー
ドと、トピックワードグループ間の関連性を表わすリン
クと、を有するネットワーク構造として表示するととも
に、各トピックワードグループを構成するトピックワー
ドを前記各ノードに付随するラベルとして表示する工程
を有するようにしてもよい。
【0023】この発明は、上記課題を解決するため、複
数の文献と各文献の出所データとを含むデータベースか
ら、前記文献に含まれる情報を検索する情報検索装置に
おいて、前記出所データに基づいて、前記データベース
の中から文献を特定する文献特定手段と、該文献特定手
段により特定された文献に含まれるワードの中から所定
値以上の頻度で出現したワードをトピックワードとして
抽出するトピックワード抽出手段と、一つあるいは複数
の文献に共通に含まれるトピックワードの集まりを、一
つの話題を構成するトピックワードグループとして認識
するトピックワードグループ認識手段と、前記トピック
ワードグループのうち、共通のトピックワードを有する
二つのトピックワードグループを一つのグループ組合わ
せとして抽出するグループ組合わせ抽出手段と、前記グ
ループ組合わせに含まれるトピックワードグループを第
1の軸および第2の軸により定まる二次元座標系に表示
する表示データを生成する表示データ生成手段と、を含
み、前記二次元座標系の前記第1の軸は、前記出所デー
タに含まれる一つの出所データ項目を表わし、前記二次
元座標系の前記第2の軸は、前記トピックワードを表わ
すことを特徴とするものである。
【0024】また、前記表示データは、前記二次元座標
系の各座標の表示色または濃淡を、各座標のトピックワ
ードの出現頻度に応じて相違させるデータを含むように
してもよい。
【0025】また、前記二次元座標系に表示される前記
グループ組合わせの表示パターンに基づいて、前記グル
ープ組合わせに含まれるトピックワードグループ間の関
連性を、予め決められた関連パターンに分類する関連パ
ターン分類手段を含むようにしてもよい。
【0026】また、前記出所データ項目は各文献の発行
日時であり、前記各トピックワードグループは一つの話
題を構成し、前記予め決められた関連パターンは、時間
経過により話題の内容が変化した状態を表わす第1のパ
ターンと、時間経過を挟んで話題が繰り返された状態を
表わす第2のパターンと、互いに関連するが主題が異な
る話題がほぼ同時期に現れた状態を示す第3のパターン
と、を含み、前記表示データは、前記グループ組合わせ
が前記第1から第3のパターンのうちの何れに分類され
たかを表わす情報を表示するデータを含むようにしても
よい。また、前記グループ組合わせ抽出手段は、前記ト
ピックワードグループ認識手段により認識されたトピッ
クワードグループから、全てのグループ組合わせを抽出
し、前記表示データは、グループ組合わせ抽出手段で抽
出された全てのグループ組合わせを、前記二次元座標系
に表示するデータを含むようにしてもよい。
【0027】前記表示データは、前記グループ組合わせ
を、各トピックワードグループを表わすノードと、トピ
ックワードグループ間の関連性を表わすリンクと、を有
するネットワーク構造として前記二次元座標系に表示す
るとともに、各トピックワードグループを構成するトピ
ックワードを前記各ノードに付随するラベルとして二次
元座標系に表示するデータを含むようにしてもよい。
【0028】この発明は、上記課題を解決するため、複
数の文献と各文献の出所データとを含むデータベースか
ら前記文献に含まれる情報を検索する情報検索方法を、
コンピュータを使って実行するための情報検索プログラ
ムを記憶した情報検索プログラム記憶媒体において、前
記情報検索方法は、前記出所データに基づいて、前記デ
ータベースの中から文献を特定する文献特定工程と、該
文献特定工程で特定された文献に含まれるワードの中か
ら所定値以上の頻度で出現したワードをトピックワード
として抽出するトピックワード抽出工程と、一つあるい
は複数の文献に共通に含まれるトピックワードの集まり
を、一つの話題を構成するトピックワードグループとし
て認識するトピックワードグループ認識工程と、前記ト
ピックワードグループのうち、共通のトピックワードを
有する二つのトピックワードグループを一つのグループ
組合わせとして抽出するグループ組合わせ抽出工程と、
表示装置を用いて、前記グループ組合わせに含まれるト
ピックワードグループを、第1の軸および第2の軸によ
り定まる二次元座標系に表示する二次元表示工程と、を
含み、前記二次元座標系の前記第1の軸は、前記出所デ
ータに含まれる一つの出所データ項目を表わし、前記二
次元座標系の前記第2の軸は、前記トピックワードを表
わすことを特徴とするものである。
【0029】また、前記二次元表示工程は、前記二次元
座標系の各座標の表示色または濃淡を、各座標のトピッ
クワードの出現頻度に応じて相違させて表示させる工程
を有するようにしてもよい。
【0030】また、前記二次元表示工程で二次元座標系
に表示された前記グループ組合わせの表示パターンに基
づいて、前記グループ組合わせに含まれるトピックワー
ドグループ間の関連性を、予め決められた関連パターン
に分類する関連パターン分類工程を含むようにしてもよ
い。
【0031】また、前記出所データ項目は各文献の発行
日時であり、前記各トピックワードグループは一つの話
題を構成し、前記予め決められた関連パターンは、時間
経過により話題の内容が変化した状態を表わす第1のパ
ターンと、時間経過を挟んで話題が繰り返された状態を
表わす第2のパターンと、関連するが主題が異なる話題
がほぼ同時期に現れた状態を示す第3のパターンと、を
含み、前記二次元表示工程は、前記グループ組合わせが
前記第1から第3のパターンのうちの何れに分類された
かを表わす情報を表示する工程を有するようにしてもよ
い。また、前記グループ組合わせ抽出工程は、前記トピ
ックワードグループ認識工程で認識されたトピックワー
ドグループから、全てのグループ組合わせを抽出する工
程を有し、前記二次元表示工程は、グループ組合わせ抽
出工程で抽出された全てのグループ組合わせを、前記二
次元座標系に表示する工程を有するようにしてもよい。
【0032】また、前記二次元表示工程は、前記グルー
プ組合わせを、各トピックワードグループを表わすノー
ドと、トピックワードグループ間の関連性を表わすリン
クと、を有するネットワーク構造として表示するととも
に、各トピックワードグループを構成するトピックワー
ドを前記各ノードに付随するラベルとして表示する工程
を有するようにしてもよい。
【0033】
【発明の実施の形態】以下、この発明の実施形態を図1
から図6を参照して説明する。図1は、この発明の情報
検索方法を実行するためのハードウェア構成の一例を示
しており、1はコンピュータ本体、2はキーボード、3
はマウス、4はディスプレイ、5は文献データベースで
ある。
【0034】コンピュータ本体1は、各種プログラムを
実行するCPU、プログラムやデータをロードするため
の領域あるいは作業領域を提供するRAMおよび起動用
の基礎的なプログラム等を記憶したROM、各種アプリ
ケーションプログラムや演算結果データ等を記憶するた
めのハードディスク、各種アプリケーションプログラム
等を記憶したフロッピディスク、CD−ROM等のリム
ーバブルディスクとのアクセスを可能にする各種ドライ
ブ装置をなどから構成されるものであり、一般的にはパ
ーソナルコンピュータやワークステーションを指す。
【0035】キーボード2およびマウス3は、ユーザの
指示コンピュータ本体1に入力するための入力デバイス
である。
【0036】ディスプレイ4は、コンピュータ本体1に
より作成された表示データを、ユーザに視覚情報として
提供するための出力デバイスである。文献データベース
5は、コンピュータ本体1にケーブル等により直接接続
されてアクセス可能なハードディスク等の記憶媒体に蓄
積され、あるいは、LAN(Local Area Network)、W
AN(Wide Area Network)、インターネット等の各種
ネットワークを通してコンピュータ1からアクセス可能
な記憶媒体に蓄積されたものである。
【0037】文献データベース5は、複数の文献および
各文献の出所データとを含むデータベースからなり、本
実施形態では新聞記事データベースであり、各文献は各
新聞記事に相当する。また各新聞記事の出所データは、
少なくとも新聞記事の発行日時を含むものとする。
【0038】図2は、図1に示したハードウエア構成上
でこの発明の情報検索プログラムを実行したときに生じ
る機能要素を示すブロック図である。情報検索プログラ
ムは、コンピュータ本体1の内臓ハードディスク、F
D、CD−ROM等の記憶媒体等に記憶されており、実
行時にコンピュータ本体1からアクセス可能なものであ
ればこれらの記憶媒体に限定されるものはない。
【0039】図2に示すように、機能要素としては、文
書特定手段11、トピックワード抽出手段12、トピッ
クワードグループ認識手段13、グループ組合わせ抽出
手段14、表示データ生成手段15および関連パターン
分類手段16がある。6はグループ関連マップパターン
データであり、このグループ関連マップパターンデータ
6は、図1に示すコンピュータ本体1からアクセス可能
なものであればどの記憶媒体に記憶されていてもよく、
本実施形態では例えばコンピュータ本体1内のハードデ
ィスクやFDあるいはCD−ROM等の記憶媒体に蓄積
されているものとする。
【0040】文献特定手段11は、発行日時に基づい
て、文献データベース5から新聞記事を特定するもので
ある。具体的には、キーボード2やマウス3を使って、
ユーザが検索対象期間の始めの日と終わりの日を指定す
ることによって、文献特定手段11は上記検索対象期間
に発行された新聞記事を文献データベース5から取出
し、トピックワード抽出手段12に送る。
【0041】トピックワード抽出手段12は、文献特定
手段11により特定された新聞記事に含まれるワードの
中から所定値以上の頻度で出現したワードをトピックワ
ードとして抽出するものである。
【0042】トピックワードグループ認識手段13は、
複数の新聞記事に共通に含まれるトピックワードの集ま
りを、一つの話題を構成するトピックワードグループと
して認識するものである。このような認識方法を採用す
るのは下記の理由による。ほとんどの場合、新聞記事に
は複数の話題が含まれるため、一つの新聞記事内のトピ
ックワードの中には別々の話題を示すものが混在するこ
とになる。したがって、同じ記事中に存在する二つのト
ピックワードは、同じ話題を示す手掛かりとして使える
可能性が高い。この性質を利用して、トピックワードグ
ループ認識手段13は、記事集合とそれから抽出したト
ピックワードを入力とし、トピックワードの中で共通の
記事を持つようなトピックワードの集まりを求め、ある
話題を示すトピックワードグループを認識するようにし
ている。もちろん、一つの新聞記事に記述された話題が
一つである場合が多ければ、一つの新聞記事に共通に含
まれるトピックワードの集まりを、一つの話題を構成す
るトピックワードグループとして認識するようにしても
よい。
【0043】グループ組合わせ抽出手段14は、トピッ
クワードグループのうち、共通のトピックワードを有す
る二つのトピックワードグループを一つのグループ組合
わせとして抽出するものである。また、本実施形態で
は、グループ組合わせ抽出手段14は、上記抽出動作を
繰り返すことにより、トピックワードグループ認識手段
13により認識されたトピックワードグループから全て
のグループ組合わせを抽出する。勿論、各グループ組合
わせに含まれるトピックワードグループは、他のグルー
プ組合わせと重複していてもよい。
【0044】表示データ生成手段15は、抽出された各
グループ組合わせに含まれるトピックワードグループを
第1の軸および第2の軸により定まる二次元座標系に表
示する表示データを生成するものである。ここに、二次
元座標系の第1の軸は、出所データに含まれる一つの出
所データ項目、すなわち本実施形態では、新聞記事の発
行日時を表わし、前記二次元座標系の前記第2の軸は、
トピックワードを表わす。
【0045】この表示データは、図4に示す後述の単語
頻度マップのデータ形式で生成される。また表示データ
は、二次元座標系の各座標の表示色または濃淡を、各座
標のトピックワードの出現頻度に応じて相違させるデー
タを含む。さらに、表示データは、前記グループ組合わ
せを、各トピックワードグループを表わすノードと、ト
ピックワードグループ間の関連性を表わすリンクと、を
有するネットワーク構造として二次元座標系に表示する
とともに、各トピックワードグループを構成するトピッ
クワードを前記各ノードに付随するラベルとして二次元
座標系に表示するデータを含む。言い換えれば、表示デ
ータ生成手段15により生成される上述の表示データは
ディスプレイ4により、実際にユーザにグラフィカルに
認識できるように表示、すなわち、後述のようにコンピ
ュータのGUI機能を用いて木構造やグラフ構造として
画面上に表示されることになる。
【0046】関連パターン分類手段16は、二次元座標
系に表示されるグループ組合わせの表示パターンに基づ
いて、グループ組合わせに含まれるトピックワードグル
ープ間の関連性を、グループ関連マップパターンデータ
6に含まれる予め決められた関連パターンに分類するも
のである。
【0047】次に、図3に示すフローチャートを参照し
てこの発明に係る情報検索プログラムを実行した際の処
理手順を詳細に説明する。まず、情報検索プログラムの
実行により、検索対象期間の開始日時T1と終了日時T
2の入力を促す画面がディスプレイ4により表示され
る。図3に示すステップS1およびS2で、ユーザがキ
ーボード2やマウス3の操作により開始時刻T1と終了
時刻T2がそれぞれ入力されると、ステップS3で、T
1からT2までの間に発行された新聞記事を文献データ
ベース5から特定する。
【0048】次に、ステップS4では、特定された新聞
記事に対して形態素解析を行ない新聞記事内に含まれる
キーワードを求める。形態素解析とは、分かち書きされ
ていない日本語文字列を受け取るとキーワードを認識し
キーワードの列に分解し出力する。一般には形態素解析
によって認識される対象は単語であり自立語と付属語に
分けられるが、本実施形態では自立語のうちの名詞と動
詞を抽出しキーワードとして認識するものとする。この
形態素解析手法については、ワードプロセッサの仮名漢
字変換等で周知の技術であるのでその解析方法について
のここでの説明は省略する。
【0049】ステップS5では、形態素解析により求め
られたキーワードの頻度統計を算出して検索対象期間の
うちの特定期間中に所定レベル以上の頻度で新聞記事中
に頻出するキーワードをトピックワードとして抽出す
る。この抽出方法は例えば前記先行技術5に開示されて
おり、その内容は以下に示される。
【0050】まず、各キーワードについて各日付毎に出
現頻度を求め、その上で、以下の処理における精度を上
げるために、出現頻度が十分でないキーワードを足切り
する。具体的には、前もって正の定数K、Lを定め、全
期間のうちのいずれのK日間でも、出現頻度の合計がL
を超えないキーワードを棄却して、残った単語をトピッ
クワードとして抽出する。
【0051】さらに、抽出されたトピックワードの話題
(記事内容)特定能力を表わす特徴値を下記の方法で算
出してもよい。Ti(0<i<n)は、ある年月日を示
すとし、ある単語wの時点Tiにおける出現頻度をf
(Ti)とする。このとき、ある時点Tjを中心にした
前後k日間で、 (その期間における出現頻度の合計)/(全期間の出現
頻度の合計) の差分を示すようにFD(Tj, k)を定義する。すなわ
ち、
【数1】 である。このとき、max|FD(Tj, k)|を与える
j、kを0<j≦n、a≦k≦bの条件のもとで求め、
そのmax|FD(Tj, k)|を単語wの特徴値とする。
ここで、a、bは予め与えられた正の定数である。
【0052】特徴値は、0から1.0のいずれかの値を
とる。ある話題でのみ出現する単語というのは、話題の
特定能力が高く、これを考慮すれば、特徴値が1.0で
ある単語はk日間に集中して現れた単語であるから、そ
れだけ話題の特定能力が高いと思われる単語である。こ
の特徴値によって、トピックワードを話題特定能力の観
点からランク付けすることができる。なお、特徴値が等
しいものについては、全文献中の出現頻度の総数が大き
いものを優先する。このようにして算出した特徴値をト
ピックワードの抽出の一つの判断基準としてもよい。す
なわち、出現頻度に加えて、特徴値が所定レベル以上で
あるものをトピックワードとして抽出するようにしても
よい。
【0053】次いでステップS6で、複数の新聞記事に
共通に含まれるトピックワードの集まりを、一つの話題
を構成するトピックワードグループとして認識する。本
実施形態では、新聞記事の性格上、複数の新聞記事に共
通に含まれるトピックワードを判断したが、一つの文献
に一つの話題というものであれば、一つの文献に含まれ
るトピックワードをトピックワードグループとして認識
するようにしてもよい。このトピックワードグループの
認識方法についても、例えば、前記先行技術5に開示さ
れており、以下のように説明されている。
【0054】トピックワードは話題を特定するのに役立
ちそうな単語であるから、互いに関連のありそうなトピ
ックワードをグループ化することで、何か話題を示すこ
とができると判断される。関連があるかどうかは、それ
ぞれのトピックワードについて出現する記事集合を求め
て、共通の記事があるかどうかで判断できると考えられ
る。ただし、トピックワードグループを構成する全トピ
ックワードに共通な記事がある必要はない。話題が複数
の記事から構成されると考えると、そのトピックワード
グループに属する全トピックワードに共通な記事という
のは、必ずしも必要でないからである。具体的には、こ
のようなトピックワードグループは以下のような考え方
で求めることができる。
【0055】まず、トピックワードとして抽出された各
単語について、その単語が一度でも出現する新聞記事の
集合を求める。次に、共通の新聞記事をもつ単語の組み
を次のようにして求める。今、単語wが出現する記事集
合をA(w)で表わすとするときに、「二つの単語x、y
について、A(x)とA(y)の積集合に含まれる記事の個
数がm以上である(ただし、mは予め与えられらた1以
上の正の定数)」という条件C1を満たすとき、この二
つの単語x、yを組にする。さらに、グループに属する
どのような二つの単語の組合わせも、条件C1を満たし
た組みであるような最大のグループ、すなわちトピック
ワードグループを生成する。言い換えれば、生成された
グループに含まれる任意の二組の単語x、yについて、
A(x)、A(y)は共通する新聞記事をm個以上もち、さ
らにグループに含まれない他のトピックワードでグルー
プに含まれる任意の単語に対し条件C1を満たすような
単語は存在しないということである。
【0056】ステップS7では、上述のようにして認識
されたトピックワードグループの中から、共通のトピッ
クワードを持つ二つのトピックワードグループG1およ
びG2を一組求めて、一つのグループ組合わせとする。
トピックワードグループG1およびG2は、同じトピッ
クワードを共通して含むような話題であるので、完全に
同じ内容であることはないが少なくとも何らかの関連を
有する二つの話題であると考えられる。
【0057】ステップS8では、トピックワードグルー
プG1およびG2のそれぞれを単語頻度マップのデータ
形式でコンピュータ本体1内の画像メモリ等に描画す
る。単語頻度マップは図4に示すような二次元配列であ
り、第1の軸として横軸は時間を表わす時間軸であり、
第2の軸としての縦軸はトピックワードを表わすトピッ
クワード軸である。トピックワード軸はトピックワード
グループG1およびG2に含まれるトピックワードを順
序化して座標軸に対応させたものである。このとき、各
トピックワードグループが複数パートに分離しないよう
に、トピックワードを順序化してトピックワード軸に配
置する。
【0058】図4における座標(t,i)は、二次元配
列に格納された時刻tにおけるトピックワードiの文献
出現頻度値に対応する。この頻度値の大小は、表示色の
相違あるいは濃淡の相違で表わす。図4では表現の便宜
上、ハッチングの密度の相違ナ表わしている。例えば、
領域R1は、時刻t近傍の期間の文献においてトピック
ワードi周辺のトピックワードが多数出現し、時間経過
とともにトピックワード出現頻度が減少していることを
示す。
【0059】ステップS9では、単語頻度マップ形式で
描画されたパターンとグループ関連マップパターンとを
比較照合し、トピックワードグループG1とG2の関連
性を抽出する。グループ関連マップパターンは、図2に
示したグループ関連マップパターンデータ6に含まれる
ものであり、このマップパターンとして本実施形態では
図5(a)、(b)、(c)に示される3種類の関連性
を表現したパターンが用意されている。グループ関連マ
ップパターンには、時間経過により話題の内容が変化し
た状態を表わす第1のパターンと、時間経過を挟んで話
題が繰り返された状態を表わす第2のパターンと、互い
に関連するが主題が異なる話題がほぼ同時期に現れた状
態を示す第3のパターンの3つが含まれている。言い換
えれば、第1のパターンに類似したトピックワードグル
ープの組合わせは「関連1:時間経過による内容変化」
を表わし(図5(a)には「時間経過」のみを表示)、
第2のパターンの類似したトピックワードグループの組
合わせは「関連2:しばらくの時間経過を経て繰り返さ
れる続報」を表わし(図5(b)には「続報」のみを表
示)、第3のパターンに類似したトピックワードグルー
プの組合わせは「関連3:同時期の主題が若干異なるが
内容が似ている関連話題」を表わす(図5(c)には
「関連話題」のみを表示)。特に、関連2の「続報」タ
イプは、新聞記事によく見られ、ある話題がしばらく続
いた後、ほとぼりがさめたころに総括的な記事が出現す
るケースに相当する。
【0060】上記説明から解るように、トピックワード
グループG1とG2との関連性の抽出とは、トピックワ
ードグループの表示パターンが第1から第3のパターン
の何れに最も類似しているかを判断して、この最も類似
したパターンに分類する。なお、最も類似していると判
断された場合でも、類似のレベルが所定値以下である場
合には、関連パターン分類手段16は、そのグループ組
合わせを構成する二つのトピックワードグループの間に
は関連がないものと判断する。
【0061】上記のパターン間の類似性の判断には、例
えば、下記の類似性評価関数を用いることができる。類
似評価関数は、2つの行列の対応する同一座標の値を比
較し、近い値を持つ座標が多ければ多いほど関数値が増
加するような性質を持つ評価関数を用いる。すなわち、
2つの図形が行列として与えられたとき、視覚的に似て
いるかどうかを類似評価関数により判定することができ
る。類似評価関数の具体的構成例を示す。
【0062】今、2つの図形が行列M1[i,j]、M2[i,j]に
より表現されているものとする。M1、M2の添え字の上限
は、ともにm、mすなわち、i=0,1,2,...,m、j=0,1,
2,...,nであるとする。このとき、類似評価関数の1例
F(x,y)は、以下の式により構成できる。
【数2】 ここでFreqMaxは、M1とM2の値(単語の頻度値)の中で
の最大値であるとする。FreqMaxはこの定義から0より
も大きい正の整数値を取る。|M1[i, j]−M2[i,j]| は2
つの行列の対応する同一座標の差の絶対値であり、これ
をFreqMaxで割ることによって、
【数3】 は、最低0から最高1までの値を取るようになる。この
値の行列全体での総和を求めて、行列全体の要素数(m*
n)で割った値と、1との差を求めたのがF(m,n)であるか
ら、F(m,n)は0から1の間の値を取る。F(m,n)は2つの行
列の対応する同一座標の値が近い要素を多く持てばもつ
ほど、1に近づき、さもなければ0に近づくことにな
る。
【0063】ステップS10では、ステップS7からス
テップS9までで処理対象とした二つのグループ以外に
もまだ処理対象としていないグループの組み合わせがあ
るかどうかを調べ、あればステップS7からステップS
9までを同様に繰り返す。該当するグループ組合わせの
全てが処理されれば繰り返し処理を終了し、ステップS
11に制御を渡す。
【0064】ステップS11では、グループの間の関連
を認識した結果を、ネットワーク構造として表示する。
具体的には、トピックワードグループの組合わせを、各
トピックワードグループを表わすノードと、トピックワ
ードグループ間の関連性(関連1から関連3)を表わす
リンクと、を有するネットワーク構造として表示すると
ともに、各トピックワードグループを構成するトピック
ワードを前記各ノードに付随するラベルとして表示す
る。
【0065】図6は、上記ネットワーク構造の表示例を
示している。この図6では、長野オリンピックの開催前
の話題を示すトピックワードグループとしてノードN1
が表示されている。ラベルB1には、ノードN1で表わ
されるトピックワードグループの各トピックワードが記
述されており、このラベルB1からオリンピック開催前
に雪不足が話題となっていたことが理解される。さらに
関連として続報が記述されたリンクL1と、リンクL1
の一方の結点であるノードN2が持つラベルB2は、開
催前に雪が降り、積雪があった時点から開催までに雪不
足が話題とならず、開催後、ジャンプ競技で取った金メ
ダルが話題として現われたことを示す。ノードN1で表
わされるトピックワードグループは、ノードN3で表わ
されるトピックワードグループとも一つのグループ組合
わせを形成し、ノードN1とN3とを連結するリンクL
2には、両トピックワードグループが関連話題であるこ
とが記述されている。また、ノードN3で表わされるト
ピックワードグループは、ノードN4で表わされるトピ
ックワードグループと一つのグループ組合わせを形成
し、ノードN3とノードN4を連結するリンクL3に
は、両トピックワードグループが時間経過に伴う内容変
化であることが記述されている。
【0066】なお、3つ以上のグループに対して一つの
ディスプレイ画面に図6に示すような表示をしようとし
たときに、包含関係のある3つ以上のトピックワード集
合の各要素をトピックワード軸に1次元で順序付けする
ことができないことがある。例えば、グループ1がトピ
ックワードA、B、Cからなり、グループ2がB、C、
Dからなり、グループ3がA、C、Dからなる場合であ
る。このとき、A、B、CおよびDの4つのトピックワ
ードをどのようにトピックワード軸に配置しても、ノー
ド表示を分割せざるをえないことがある。このときは、
ディスプレイ4の画面上で2つのウインドウに分けて表
示すればよい。すなわち、トピックワードグループ1と
トピックワードグループ2に着目して一つのウインドウ
表示を行ない、トピックワードグループ2とトピックワ
ードグループ3に着目して別のウインドウ表示を行な
う。2つのウインドウは、同一画面にマルチウィンドウ
表示してもよいし、切り換え指示によってウインドウを
切り替えながら順次表示するようにしてもよい。
【0067】上述のように本実施形態によれば、トピッ
クワードグループのうち、共通のトピックワードを有す
る二つのトピックワードグループを一つのグループ組合
わせとして抽出し、前記グループ組合わせに含まれるト
ピックワードグループを、出所データの一項目を表わす
第1の軸およびトピックワードを表わす第2の軸により
定まる二次元座標系に表示、すなわち単語頻度マップパ
ターンの形式で表示するので、文献データベースに含ま
れる話題間の関連を視覚的に容易に推測することが可能
となり、検索対象のデータベースに対して充分な知識を
持たないユーザがデータベース中に含まれる話題や、話
題の変化の様子を容易に知ることができ、結果的に検索
式の設定の際の参考にできるという効果が得られる。
【0068】また、二次元座標系の各座標の表示色また
は濃淡を、各座標のトピックワードの出現頻度に応じて
相違させて表示するので、トピックワードグループの話
題の中心がどこにあるのかを視覚的に容易に知ることが
できる。
【0069】さらに、二次元座標系の第2の軸によって
表わされる出所データ項目は各文献(各新聞記事)の発
行日時であるので、新聞記事データベースのようなタイ
ムリーにその内容が作成され評価されるようも文献デー
タベースの概観をディスプレイの画面上に的確に視覚的
に表現することができる。
【0070】また、二次元座標系に表示されたトピック
ワードグループのグループ組合わせの表示パターンに基
づいて、前記グループ組合わせに含まれるトピックワー
ドグループ間の関連性を予め決められた関連パターンに
分類しているので、その分類結果をユーザに通知するこ
とにより、ユーザは関連を推測する等の思考をすること
なく、トピックワードグループ間の関連性を直接知るこ
とができ、結果的に話題の変遷を容易に判断することが
できる。
【0071】さらに、上述の予め決められた関連パター
ンは、時間経過により話題の内容が変化した状態を表わ
す第1のパターンと、時間経過を挟んで話題が繰り返さ
れた状態を表わす第2のパターンと、関連するが主題が
異なる話題がほぼ同時期に現れた状態を示す第3のパタ
ーンと、を含み、前記グループ組合わせが第1から第3
のパターンのうちの何れに分類されたかを表わす情報が
表示されるようにしているので、ユーザにとって有用な
話題の変遷パターンに簡潔に分類することができる。
【0072】また、本実施形態ではこの発明を新聞記事
データベースの検索に適用しているいので、この発明の
有用性を一層高めることができる。詳しくは、一般的な
新聞記事データベースはあらゆるジャンルのものを含
み、また各記事の内容も複雑に絡み合っているため、予
備知識のないユーザが新聞記事の内容や変遷を概観でき
るようにすることは従来技術においてきわめて困難であ
った。これに対してこの発明では、ユーザは簡単なコン
ピュータの操作だけで新聞記事データベースの内容や変
遷を概観できるようにしているので、この発明の有用性
は他のデータベース検索に適用した場合よりも一層高ま
る。
【0073】さらに、特定された新聞記事の中で認識さ
れたトピックワードグループから、全てのグループ組合
わせを抽出するとともに、この全てのグループ組合わせ
を、二次元座標系に表示するようにしているので、ユー
ザに対して、情報検索の候補となるデータの概観や変遷
を漏れなく提供することができる。
【0074】また、トピックワードグループのグループ
組合わせを、各トピックワードグループを表わすノード
と、トピックワードグループ間の関連性を表わすリンク
と、を有するネットワーク構造として表示するととも
に、各トピックワードグループを構成するトピックワー
ドを前記各ノードに付随するラベルとして表示している
ので、ユーザは文献データベースの内容をより一層容易
に概観することができる。
【0075】さらに、上記実施形態では、文献データベ
ースの各文献の出所データ項目として発行日時を選択し
ていたが、各文献の頒布場所を出所データ項目としても
よい。この場合、二次元座標系の第1の軸が頒布場所を
表わすことになり、ユーザは文献に含まれる話題の地域
的な差異や傾向等を容易に概観することができる。
【0076】また、上記実施形態では、文献データベー
スが新聞記事データベースである場合を例として説明し
たが、勿論これに限定されるものではなく、文献データ
ベースは、特許庁発行の公報類、技術論文、仕様書等の
技術文献、ネットワーク上で提供されているフォーラム
の蓄積情報、電子的な議事録、電子化された雑誌や書籍
情報であってもよい。
【0077】
【発明の効果】この発明によれば、ユーザは文献データ
ベースに含まれる内容をグラフィカルな表示により容易
に概観することができ、結果的に、例えば検索式の設定
の際の有益な情報をユーザに提供にできる。
【図面の簡単な説明】
【図1】この発明の一実施形態のハードウェア構成を示
すブロック図である。
【図2】この発明の一実施形態の各機能要素を示すブロ
ック図である。
【図3】この発明の一実施形態の処理手順を示すフロー
チャートである。
【図4】この発明の一実施形態における各トピックワー
ドグループを表現するためのデータ構造である単語頻度
マップを示す図である。
【図5】この発明の一実施形態におけるトピックワード
グループ間の関連性を分類するのに参照される典型的関
連パターンの例を示す図である。
【図6】この発明の一実施形態におけるトピックワード
グループをネットワーク構造で表示した場合の画面表示
例を示す図である。
【符号の説明】
1 コンピュータ本体 2 キーボード 3 マウス 4 ディスプレイ 5 文献データベース 6 グループ関連マップパターンデータ 11 文献特定手段 12 トピックワード抽出手段 13 トピックワードグループ認識手段 14 グループ組合わせ抽出手段 15 表示データ生成手段 16 関連パターン分類手段 N1、N2、N3、N4 ノード B1、B2 ラベル L1、L2、L3 リンク
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5B075 KK07 KK13 KK33 MM11 ND03 ND20 ND36 NR05 NR12 PQ02 PQ20 PQ23 PQ29 PQ40 PR04 UU05

Claims (21)

    【特許請求の範囲】
  1. 【請求項1】複数の文献と各文献の出所データとを含む
    データベースから、前記文献に含まれる情報を検索する
    情報検索方法において、 前記出所データに基づいて、前記データベースの中から
    文献を特定する文献特定工程と、 該文献特定工程で特定された文献に含まれるワードの中
    から所定値以上の頻度で出現したワードをトピックワー
    ドとして抽出するトピックワード抽出工程と、 一つあるいは複数の文献に共通に含まれるトピックワー
    ドの集まりを、一つの話題を構成するトピックワードグ
    ループとして認識するトピックワードグループ認識工程
    と、 前記トピックワードグループのうち、共通のトピックワ
    ードを有する二つのトピックワードグループを一つのグ
    ループ組合わせとして抽出するグループ組合わせ抽出工
    程と、 前記グループ組合わせに含まれるトピックワードグルー
    プを、第1の軸および第2の軸により定まる二次元座標
    系に表示する二次元表示工程と、を含み、 前記二次元座標系の前記第1の軸は、前記出所データに
    含まれる一つの出所データ項目を表わし、前記二次元座
    標系の前記第2の軸は、前記トピックワードを表わすこ
    とを特徴とする情報検索方法。
  2. 【請求項2】前記二次元表示工程は、前記二次元座標系
    の各座標の表示色または濃淡を、各座標のトピックワー
    ドの出現頻度に応じて相違させて表示させる工程を有す
    ることを特徴とする請求項1記載の情報検索方法。
  3. 【請求項3】前記出所データ項目は各文献の発行日時で
    あることを特徴とする請求項1記載の情報検索方法。
  4. 【請求項4】前記出所データ項目は各文献の頒布場所で
    あることを特徴とする請求項1記載の情報検索方法。
  5. 【請求項5】前記二次元表示工程で二次元座標系に表示
    された前記グループ組合わせの表示パターンに基づい
    て、前記グループ組合わせに含まれるトピックワードグ
    ループ間の関連性を、予め決められた関連パターンに分
    類する関連パターン分類工程を含むことを特徴とする請
    求項1記載の情報検索方法。
  6. 【請求項6】前記出所データ項目は各文献の発行日時で
    あり、 前記各トピックワードグループは一つの話題を構成し、 前記予め決められた関連パターンは、時間経過により話
    題の内容が変化した状態を表わす第1のパターンと、時
    間経過を挟んで話題が繰り返された状態を表わす第2の
    パターンと、関連するが主題が異なる話題がほぼ同時期
    に現れた状態を示す第3のパターンと、を含み、 前記二次元表示工程は、前記グループ組合わせが前記第
    1から第3のパターンのうちの何れに分類されたかを表
    わす情報を表示する工程を有することを特徴とする請求
    項5記載の情報検索方法。
  7. 【請求項7】前記データベースは新聞記事データベース
    であり、各文献は各記事に相当することを特徴とする請
    求項1記載の情報検索方法。
  8. 【請求項8】前記グループ組合わせ抽出工程は、前記ト
    ピックワードグループ認識工程で認識されたトピックワ
    ードグループから、全てのグループ組合わせを抽出する
    工程を有し、 前記二次元表示工程は、グループ組合わせ抽出工程で抽
    出された全てのグループ組合わせを、前記二次元座標系
    に表示する工程を有することを特徴とする請求項1記載
    の情報検索方法。
  9. 【請求項9】前記二次元表示工程は、前記グループ組合
    わせを、各トピックワードグループを表わすノードと、
    トピックワードグループ間の関連性を表わすリンクと、
    を有するネットワーク構造として表示するとともに、各
    トピックワードグループを構成するトピックワードを前
    記各ノードに付随するラベルとして表示する工程を有す
    ることを特徴とする請求項1または8記載の情報検索方
    法。
  10. 【請求項10】複数の文献と各文献の出所データとを含
    むデータベースから、前記文献に含まれる情報を検索す
    る情報検索装置において、 前記出所データに基づいて、前記データベースの中から
    文献を特定する文献特定手段と、 該文献特定手段により特定された文献に含まれるワード
    の中から所定値以上の頻度で出現したワードをトピック
    ワードとして抽出するトピックワード抽出手段と、 一つあるいは複数の文献に共通に含まれるトピックワー
    ドの集まりを、一つの話題を構成するトピックワードグ
    ループとして認識するトピックワードグループ認識手段
    と、 前記トピックワードグループのうち、共通のトピックワ
    ードを有する二つのトピックワードグループを一つのグ
    ループ組合わせとして抽出するグループ組合わせ抽出手
    段と、 前記グループ組合わせに含まれるトピックワードグルー
    プを第1の軸および第2の軸により定まる二次元座標系
    に表示する表示データを生成する表示データ生成手段
    と、を含み、 前記二次元座標系の前記第1の軸は、前記出所データに
    含まれる一つの出所データ項目を表わし、前記二次元座
    標系の前記第2の軸は、前記トピックワードを表わすこ
    とを特徴とする情報検索装置。
  11. 【請求項11】前記表示データは、前記二次元座標系の
    各座標の表示色または濃淡を、各座標のトピックワード
    の出現頻度に応じて相違させるデータを含むことを特徴
    とする請求項10記載の情報検索装置。
  12. 【請求項12】前記二次元座標系に表示される前記グル
    ープ組合わせの表示パターンに基づいて、前記グループ
    組合わせに含まれるトピックワードグループ間の関連性
    を、予め決められた関連パターンに分類する関連パター
    ン分類手段を含むことを特徴とする請求項10記載の情
    報検索装置。
  13. 【請求項13】前記出所データ項目は各文献の発行日時
    であり、 前記各トピックワードグループは一つの話題を構成し、 前記予め決められた関連パターンは、時間経過により話
    題の内容が変化した状態を表わす第1のパターンと、時
    間経過を挟んで話題が繰り返された状態を表わす第2の
    パターンと、互いに関連するが主題が異なる話題がほぼ
    同時期に現れた状態を示す第3のパターンと、を含み、 前記表示データは、前記グループ組合わせが前記第1か
    ら第3のパターンのうちの何れに分類されたかを表わす
    情報を表示するデータを含むことを特徴とする請求項1
    2記載の情報検索装置。
  14. 【請求項14】前記グループ組合わせ抽出手段は、前記
    トピックワードグループ認識手段により認識されたトピ
    ックワードグループから、全てのグループ組合わせを抽
    出し、 前記表示データは、グループ組合わせ抽出手段で抽出さ
    れた全てのグループ組合わせを、前記二次元座標系に表
    示するデータを含むことを特徴とする請求項10記載の
    情報検索装置。
  15. 【請求項15】前記表示データは、前記グループ組合わ
    せを、各トピックワードグループを表わすノードと、ト
    ピックワードグループ間の関連性を表わすリンクと、を
    有するネットワーク構造として前記二次元座標系に表示
    するとともに、各トピックワードグループを構成するト
    ピックワードを前記各ノードに付随するラベルとして二
    次元座標系に表示するデータを含むことを特徴とする請
    求項10または14記載の情報検索装置。
  16. 【請求項16】複数の文献と各文献の出所データとを含
    むデータベースから前記文献に含まれる情報を検索する
    情報検索方法を、コンピュータを使って実行するための
    情報検索プログラムを記憶した情報検索プログラム記憶
    媒体において、 前記情報検索方法は、 前記出所データに基づいて、前記データベースの中から
    文献を特定する文献特定工程と、 該文献特定工程で特定された文献に含まれるワードの中
    から所定値以上の頻度で出現したワードをトピックワー
    ドとして抽出するトピックワード抽出工程と、 一つあるいは複数の文献に共通に含まれるトピックワー
    ドの集まりを、一つの話題を構成するトピックワードグ
    ループとして認識するトピックワードグループ認識工程
    と、 前記トピックワードグループのうち、共通のトピックワ
    ードを有する二つのトピックワードグループを一つのグ
    ループ組合わせとして抽出するグループ組合わせ抽出工
    程と、 表示装置を用いて、前記グループ組合わせに含まれるト
    ピックワードグループを、第1の軸および第2の軸によ
    り定まる二次元座標系に表示する二次元表示工程と、を
    含み、 前記二次元座標系の前記第1の軸は、前記出所データに
    含まれる一つの出所データ項目を表わし、前記二次元座
    標系の前記第2の軸は、前記トピックワードを表わすこ
    とを特徴とする情報検索プログラム記憶記憶媒体。
  17. 【請求項17】前記二次元表示工程は、前記二次元座標
    系の各座標の表示色または濃淡を、各座標のトピックワ
    ードの出現頻度に応じて相違させて表示させる工程を有
    することを特徴とする請求項16記載の情報検索プログ
    ラム記憶媒体。
  18. 【請求項18】前記二次元表示工程で二次元座標系に表
    示された前記グループ組合わせの表示パターンに基づい
    て、前記グループ組合わせに含まれるトピックワードグ
    ループ間の関連性を、予め決められた関連パターンに分
    類する関連パターン分類工程を含むことを特徴とする請
    求項16記載の情報検索プログラム記憶媒体。
  19. 【請求項19】前記出所データ項目は各文献の発行日時
    であり、 前記各トピックワードグループは一つの話題を構成し、 前記予め決められた関連パターンは、時間経過により話
    題の内容が変化した状態を表わす第1のパターンと、時
    間経過を挟んで話題が繰り返された状態を表わす第2の
    パターンと、関連するが主題が異なる話題がほぼ同時期
    に現れた状態を示す第3のパターンと、を含み、 前記二次元表示工程は、前記グループ組合わせが前記第
    1から第3のパターンのうちの何れに分類されたかを表
    わす情報を表示する工程を有することを特徴とする請求
    項18記載の情報検索プログラム記憶媒体。
  20. 【請求項20】前記グループ組合わせ抽出工程は、前記
    トピックワードグループ認識工程で認識されたトピック
    ワードグループから、全てのグループ組合わせを抽出す
    る工程を有し、 前記二次元表示工程は、グループ組合わせ抽出工程で抽
    出された全てのグループ組合わせを、前記二次元座標系
    に表示する工程を有することを特徴とする請求項16記
    載の情報検索プログラム記憶媒体。
  21. 【請求項21】前記二次元表示工程は、前記グループ組
    合わせを、各トピックワードグループを表わすノード
    と、トピックワードグループ間の関連性を表わすリンク
    と、を有するネットワーク構造として表示するととも
    に、各トピックワードグループを構成するトピックワー
    ドを前記各ノードに付随するラベルとして表示する工程
    を有することを特徴とする請求項16または20記載の
    情報検索プログラム記憶媒体。
JP10187062A 1998-07-02 1998-07-02 情報検索方法、情報検索装置および情報検索プログラム記憶媒体 Pending JP2000020538A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10187062A JP2000020538A (ja) 1998-07-02 1998-07-02 情報検索方法、情報検索装置および情報検索プログラム記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10187062A JP2000020538A (ja) 1998-07-02 1998-07-02 情報検索方法、情報検索装置および情報検索プログラム記憶媒体

Publications (1)

Publication Number Publication Date
JP2000020538A true JP2000020538A (ja) 2000-01-21

Family

ID=16199495

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10187062A Pending JP2000020538A (ja) 1998-07-02 1998-07-02 情報検索方法、情報検索装置および情報検索プログラム記憶媒体

Country Status (1)

Country Link
JP (1) JP2000020538A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001312513A (ja) * 2000-02-21 2001-11-09 Sony Corp 情報処理装置および方法、並びにプログラム格納媒体
US7031982B2 (en) 2001-05-16 2006-04-18 Ricoh Company, Ltd. Publication confirming method, publication information acquisition apparatus, publication information providing apparatus and database
JP2007109183A (ja) * 2005-10-17 2007-04-26 Nomura Research Institute Ltd 文献情報分析装置及び文献情報分析方法
JP2010182340A (ja) * 2010-05-28 2010-08-19 Fujitsu Ltd コンテンツナビゲーションプログラム
US7788327B2 (en) 2002-11-28 2010-08-31 Panasonic Corporation Device, program and method for assisting in preparing email
JP2010257360A (ja) * 2009-04-28 2010-11-11 Data Keekibeeka Kk 警報処理方法、警報処理装置およびそのプログラム
KR101346927B1 (ko) * 2011-02-25 2014-01-03 라쿠텐 인코포레이티드 검색 장치, 검색 방법, 및 검색 프로그램을 기억하는 컴퓨터 판독 가능한 기록 매체
KR20180111646A (ko) * 2017-03-31 2018-10-11 중앙대학교 산학협력단 사건 흐름 정보를 제공하기 위한 연대순 정보 기반 큐레이션 장치 및 그것의 제어방법
WO2020111074A1 (ja) * 2018-11-26 2020-06-04 株式会社エー・アンド・ビー・コンピュータ メール分類装置、メール分類方法、およびコンピュータプログラム

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001312513A (ja) * 2000-02-21 2001-11-09 Sony Corp 情報処理装置および方法、並びにプログラム格納媒体
JP4605415B2 (ja) * 2000-02-21 2011-01-05 ソニー株式会社 情報処理装置および方法、並びに記録媒体
US7031982B2 (en) 2001-05-16 2006-04-18 Ricoh Company, Ltd. Publication confirming method, publication information acquisition apparatus, publication information providing apparatus and database
US7788327B2 (en) 2002-11-28 2010-08-31 Panasonic Corporation Device, program and method for assisting in preparing email
JP2007109183A (ja) * 2005-10-17 2007-04-26 Nomura Research Institute Ltd 文献情報分析装置及び文献情報分析方法
JP2010257360A (ja) * 2009-04-28 2010-11-11 Data Keekibeeka Kk 警報処理方法、警報処理装置およびそのプログラム
JP2010182340A (ja) * 2010-05-28 2010-08-19 Fujitsu Ltd コンテンツナビゲーションプログラム
KR101346927B1 (ko) * 2011-02-25 2014-01-03 라쿠텐 인코포레이티드 검색 장치, 검색 방법, 및 검색 프로그램을 기억하는 컴퓨터 판독 가능한 기록 매체
KR20180111646A (ko) * 2017-03-31 2018-10-11 중앙대학교 산학협력단 사건 흐름 정보를 제공하기 위한 연대순 정보 기반 큐레이션 장치 및 그것의 제어방법
KR102025813B1 (ko) * 2017-03-31 2019-11-04 중앙대학교 산학협력단 사건 흐름 정보를 제공하기 위한 연대순 정보 기반 큐레이션 장치 및 그것의 제어방법
WO2020111074A1 (ja) * 2018-11-26 2020-06-04 株式会社エー・アンド・ビー・コンピュータ メール分類装置、メール分類方法、およびコンピュータプログラム
JP6715487B1 (ja) * 2018-11-26 2020-07-01 株式会社エー・アンド・ビー・コンピュータ メール分類装置、メール分類方法、およびコンピュータプログラム

Similar Documents

Publication Publication Date Title
US7440947B2 (en) System and method for identifying query-relevant keywords in documents with latent semantic analysis
JP4116329B2 (ja) 文書情報表示システム、文書情報表示方法及び文書検索方法
CN101582080B (zh) 一种基于图像和文本相关性挖掘的Web图像聚类方法
Yi et al. Web page cleaning for web mining through feature weighting
US7567954B2 (en) Sentence classification device and method
JPH10320411A (ja) 文書分類装置、方法及び文書分類プログラムを記録した記録媒体
JP2005202974A (ja) 情報資源をサーチしかつ情報資源から情報を検索するコンピュータ化されたシステム及び方法
JP2003167914A (ja) マルチメディア情報検索方法、プログラム、記録媒体及びシステム
JP2001515623A (ja) コンピュータによるテキストサマリ自動生成方法
KR100396826B1 (ko) 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법
JP3584848B2 (ja) 文書処理装置、項目検索装置及び項目検索方法
US20050114317A1 (en) Ordering of web search results
JP2000020538A (ja) 情報検索方法、情報検索装置および情報検索プログラム記憶媒体
JP4931114B2 (ja) データ表示装置、データ表示方法及びデータ表示プログラム
KR100341396B1 (ko) 계층 단어를 이용한 3차원 클러스터링 생성 시스템 및 그방법
JP3385297B2 (ja) 文書の自動分類方法、および情報空間の可視化方法、ならびに情報検索システム
KR20200053334A (ko) 융합 연구 촉진을 위한 연구원 맵 구축 방법 및 시스템
JP2009075881A (ja) テキスト解析プログラム、テキスト解析方法、およびテキスト解析装置
JP2007140639A (ja) データ表示装置、データ表示方法およびデータ表示プログラム
KR100703193B1 (ko) 비음수 행렬 인수분해를 이용한 문서요약 장치 및 방법
JP2012104051A (ja) 文書インデックス作成装置
JP2005128872A (ja) 文書検索システム及び文書検索プログラム
KR101667918B1 (ko) 질의 반응형 스마트 검색 서비스 제공 방법 및 이를 구현하기 위한 검색 서비스 장치
CN114579733A (zh) 一种主题脉落的生成方法和系统
JP4525224B2 (ja) ドキュメント管理プログラム、ドキュメント管理方法、及びドキュメント管理装置