JP3614618B2 - 文献検索支援方法及び装置およびこれを用いた文献検索サービス - Google Patents

文献検索支援方法及び装置およびこれを用いた文献検索サービス Download PDF

Info

Publication number
JP3614618B2
JP3614618B2 JP17850097A JP17850097A JP3614618B2 JP 3614618 B2 JP3614618 B2 JP 3614618B2 JP 17850097 A JP17850097 A JP 17850097A JP 17850097 A JP17850097 A JP 17850097A JP 3614618 B2 JP3614618 B2 JP 3614618B2
Authority
JP
Japan
Prior art keywords
frequency
word
document
feature
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP17850097A
Other languages
English (en)
Other versions
JPH1074210A (ja
Inventor
芳樹 丹羽
博文 櫻井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP17850097A priority Critical patent/JP3614618B2/ja
Publication of JPH1074210A publication Critical patent/JPH1074210A/ja
Application granted granted Critical
Publication of JP3614618B2 publication Critical patent/JP3614618B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、文献検索における対話的なガイダンス機能を実現するためのユーザインタフェイスを持つ文献検索支援方法及び装置およびこれを用いた文献検索サービスに関する。
【0002】
【従来の技術】
文献検索においては、ユーザーが所望する文献集合に早く容易に到達できるように、文献検索装置とユーザーとのさまざまなインタフェイスが考案、開発されている。その中の主なものとしてはフィードバックとガイダンスがある。フィードバックとは検索結果のいくつかのアイテムに対してユーザーが「当たり/はずれ」の判定を下すと、その判定を反映した検索結果を得ることができるしくみである。またガイダンスとは検索作業の各段階でその検索作業と関連のあると思われる情報、したがって利用者が検索条件を工夫したり改良したりするのに参考となると思われる情報を提供する機能である。
【0003】
ガイダンス機能については、従来一般に、入力された検索条件に対してその関連情報を提示する方法が行われている。例えば、シソーラスなど単語間の関連性を示すデータベースを保持しておき、検索条件として入力された語と関連のある語をデータベースから取り出して提示する方法である。シソーラスの場合には主に単語間の上位−下位関係を示す木構造のデータであるが、共起統計を用いて関連語データを自動生成しそれを用いる方法もある(例えば、B. R. Schatz et al, Interactive term suggestion for users of digital libraries: Using subject thesauri and co−occurrence lists for information retrieval. Proc. ACM DL96.p.126−133)。また、単語間の共起統計データに基づき検索語とその関連語をネットワーク状に表示する方法も提案されている(例えば、R.H. Fowler, D. W. Dearholt, Information Retrieval Using Pathfinder Networks. In Pathfinder Associative Networks, Ablex, article 12, Edited by R. W. Schvaneveldt(1990))。
【0004】
しかしながら、検索条件に対してその関連情報を提示する方法では、検索語が複数になった場合や否定が使われた場合の対処が難しく、またキーワードを用いない書類の検索(連想検索など)にも対処が難しいという問題がある。これを克服する方法として、検索結果から関連情報を自動抽出してユーザに提供する手法がある。例えば、スキャター・ギャザー法(D.Cutting他(1992). Scatter/Gather : A Cluster−based Approach to Browsing Large Document Collections. Proc. ACM SIGIR’92,p.318−329)では検索された文書群を自動分類(クラスタリング)して各クラスごとの特徴語を表示するものである。しかし、クラスタリングは文書数が増えると計算量が2乗あるいは3乗のオーダーで大きくなるのでリアルタイムでの反応が難しくなり、また一般に検索作業が進んで行くとクラス間の違いが微妙になり、クラスの特徴語からそのクラスの性格を把握しにくくなるという問題があった。
【0005】
【発明が解決しようとする課題】
本発明は、前述の問題を解消して、検索された文書群に含まれる話題群をリアルタイムで一覧できるよう文書群に特徴的に現れる語群の特徴語をグラフ形式またはリスト形式で画面表示すること、さらには、文書群に特徴的に現れる語群を低頻度語から高頻度語までバランス良く抽出することのできる文献検索支援方法及び装置、さらには、この文献検索を希望するユーザが遠隔地からも行えるようにすることを目的とする。
【0006】
【課題を解決するための手段】
このため、検索された文書群に含まれる話題群をリアルタイムで一覧できるよう、文書群に特徴的に出現する語群をノードとし、さらに特徴語間に強い共起関係がある場合、すなわち同一文書中に出現しやすい度合が高い場合、その単語対にリンクを張ることによりグラフを構成し、そのグラフを画面表示するとともに、特徴語のグラフ表示の際に、一般的な語と特殊性の高い語を一目で見分けることができるように縦軸方向が特徴語の文書頻度を表すようにする。リストの例で言えば、特徴語を頻度クラスで分類し、文書頻度の高いものを上段に配列して一覧できるようにして特殊性の高い語を一目で見分けることができるようにする。検索された文書群から特徴語を選ぶ際に、低頻度の語から高頻度の語までバランス良く特徴語を抽出するためには、特徴語を出現頻度によってクラス分けを行ない、それぞれのクラスから頻度比、すなわち当該文書群における文書頻度と検索対象全体における文書頻度の比が大きいものから順に抽出する。
【0007】
【発明の実施の形態】
実施例1
以下、本発明の第1の実施例を図1−20に従って説明する。本実施例は、独立に使用されるコンピュータによる検索装置の構成例である。本実施例では、検索結果をグラフ表示とする場合を主体に説明する。
図1に本実施例の文献検索装置の全体構成を示す。1は入力手段、2は表示手段、3はCPU、4は計算プログラム保持手段、5は計算プログラムを動作させるためのワークエリア、6はデータベース保持手段であり、これらの手段あるいは装置は、これらの間で相互に信号のやり取りをするためのバス100で連携される。
入力手段1はキーボード11、マウス12、ペン入力手段13などから構成され、表示手段2には検索インタフェイス21および検索をガイドするための特徴語表示手段22が表示される。計算プログラム保持手段4には本実施例の文献検索装置を動作させるために必要となる検索インタフェイス作動ルーチン41、形態素解析ルーチン42、検索ルーチン43および特徴語表示手段作動ルーチン44が格納される。特徴語表示手段作動ルーチン44は検索された文書群から特徴語を抽出して特徴語表示手段22に表示するため、特徴語抽出ルーチン441、共起関係解析ルーチン442、グラフ配置ルーチン443、およびグラフ表示ルーチン444をサブルーチンとして用いる。ワークエリア5についての詳細は図2を参照して後述する。データベース保持手段6は検索対象となる文書データベース61、検索に用いるインデックスデータベース62、単語頻度に関するデータベース63および除外語データベース64から構成される。これらのデータベースは、一般には、事前に準備されているものの中から、使用者が自分の検索目的に合うものを検索対象データとして選択して使用する。たとえば、新聞記事についての検索をしたいときは、新聞社が発行しているデータベースを購入して使用することになる。もっとも、除外語データベース64は装置の供給者が付属データとして提供するものである場合があろう。
【0008】
図2はワークエリア5の構成についての詳細である。ワークエリア5は計算プログラム保持手段4にある諸ルーチンが動作するために必要となるパラメータや一時的なデータを保持するためのエリアであり、検索ワークエリア51、特徴語抽出ワークエリア52、共起関係解析ワークエリア53、グラフ配置ワークエリア54から構成される。各エリアには、更に細分されたデータエリアが備えられるが、これらの詳細についてはそれぞれの関連するルーチンが動作する時に説明する。
ユーザが文献検索をしようとするとき、まず、キーボード11から文献検索システム起動のコマンドを入力する。これに応じて、検索インタフェイス作動ルーチン41が起動され、対話的に検索作業を進めるための検索インタフェイス21が表示手段2に表示される。
図3は検索インタフェイス21の初期画面の一例である。検索インタフェイス21は検索要求入力部211、キーワード表示・操作部212、ヒット件数表示部213、タイトル表示部214、文書表示部215、検索実行ボタン216および特徴語表示ボタン217などから構成される。
【0009】
本実施例では、文献検索用のキーワードとして必須キーワード、加点キーワード、減点キーワードの3種類を用いる。検索は必須キーワードに関するアンドを取って行なわれ、必須キーワードの指定の無い場合には加点キーワードのオアで行われる。必須キーワードで検索された文書が加点キーワードを含む場合には1点加点し、減点キーワードを含む場合は1点減点する。同じキーワードが同一文書に何回現れても1点の加点または減点とする。これら3種類のキーワードに対応してキーワード表示・操作部212は3つの部分から構成される。構成は3つとも同様であるのでここでは一番左の必須キーワードを主体に説明する。キーワード表示・操作部212における必須キーワードの部分は、キーワード表示部2121、移動ボタン21211、クリアボタン21212から構成される。移動ボタン21211は他の種類のキーワードを必須キーワードに移す場合に使い、クリアボタン21212はキーワードを必須キーワードから除去する場合に用いる。すなわち、加点キーワードあるいは減点キーワードに表示されているキーワードを選択して必須キーワードの移動ボタン21211を押せば、選択されたキーワードが必須キーワードに移される。また、必須キーワードに表示されているキーワードを選択してクリアボタン21212を押せば、選択されたキーワードが必須キーワードから除去される。同じように、必須キーワードに表示されているキーワードを選択して、たとえば、加点キーワードの移動ボタン21221を押せば、選択されたキーワードが加点キーワードに移される。また、必須キーワードに表示されているキーワードを選択して、減点キーワードの移動ボタン21231を押せば、選択されたキーワードが減点キーワードに移される。
【0010】
また、これらの移動ボタンは後述するように、表示されている特徴語をキーワードにコピーするためのコピーボタンとしても使用される。すなわち、移動かコピーかは対象となる語がどこの領域にあるかにより使い分けられる。
検索要求を入力する場合には、検索要求入力部211の検索要求入力窓2111をマウス12でクリックするなどして入力待ち状態にしてからキーボード11を用いて必須キーワード、加点キーワードおよび減点キーワード等の検索要求を入力する。続いて入力完了ボタン2112を押すと、入力窓2111に入力された文字列が形態素解析ルーチン42へ渡されて単語列に分割され、さらに除外語データベース64を参照して、そこに登録されている単語を除去した結果がキーワード格納エリア511のデフォールトのキーワード格納エリア5111または5112(図2)へ格納される。ここではデフォールトのキーワードのタイプは必須キーワードとした。また、それぞれの内容はキーワード表示部2121または2122にリストの形で表示される。この場合、後述する例からも分かるように、形態素解析ルーチン42が持つ辞書に応じて単語の分割状態が決まる。
【0011】
ここで、検索実行ボタン216を押すと検索ルーチン43が起動され、検索用インデックスデータベース62(すなわちある単語がどの文書に含まれているかを示すデータ)を参照して、必須キーワードをアンドで含む文書を検索し、結果として得られ文書識別番号の列が検索結果格納エリア512へ格納される。なお検索ルーチン43は必須キーワードで検索された文書について加点キーワードが含まれている場合には加点キーワードの一つについて1点加点し、減点キーワードが含まれている場合には減点キーワードの一つについて1点減点するという作業を行ない、この得点も文書識別番号と合わせて検索結果格納エリア512へ格納する。必須キーワードの指定がない場合には、検索ルーチン43は加点キーワードに関する検索を加点キーワードのオアで行ない、以下同様の仕方で得点を計算する。必須キーワードも加点キーワードもない場合には、検索実行ボタン216が押されても検索は行なわない。
【0012】
必須キーワードは、検索に際してはアンドで処理されるから、より厳密に検索結果を絞りこみたいときには不可欠であるが、どちらかといえば、検索結果に漏れがない検索をしたいときには、加点キーワードのみとしてこのオアで検索を行い、この検索結果に入って欲しくない事項を含む可能性がある事項を想定できるときは減点キーワードを設定するのがよい。
さらに、検索ルーチン43は検索結果格納エリア512に格納された検索結果から得点分布を計算し、その結果を検索結果得点分布格納エリア513に格納する。得点分布とは加点または減点の得点が何点の文書が何件あったかを示すデータである。
【0013】
以下「電子出版」を必須キーワードとする検索要求を入力した場合を例に採り説明する。
「電子出版」なる文字列を必須キーワードとして検索要求入力窓2111に入力した後、入力完了ボタン2112を押す。形態素解析ルーチン42により「電子出版」は「電子/出版」と分割されて必須キーワード格納エリア5111に格納され、さらに必須キーワード表示部2121の1行目と2行目に分割して表示される。
図4は、この段階で検索実行ボタン216を押した場合の検索ワークエリア51の状態を示したものである。今の例では必須キーワードが「電子」と「出版」なので、それらが必須キーワード格納エリア5111に格納されている。それ以外の加点キーワードあるいは減点キーワードは、検索要求入力窓2111に検索者によって付与されなかったので、加点キーワード格納エリア5112と減点キーワード格納エリア5113は空欄のままである。また検索された文書番号とその得点が検索結果文書番号格納エリア512に格納されている。この場合には加点キーワードと減点キーワードがないので得点は全て0である。また得点別に件数をカウントして得られるデータが検索結果得点分布格納エリア513に格納されている。この場合得点は0のみでそれが77件あったことを示している。
【0014】
図5は、この検索結果を表示した検索インタフェイス21の状態を示したものである。必須キーワード表示部2121に必須キーワード「電子」と「出版」が表示され、ヒット件数表示部213に検索結果得点分布格納エリア513の内容が表示され、タイトル表示部214には検索された文書識別番号とそのタイトルが1件1行で適当数表示されている。表示されていない文書識別番号とそのタイトルを知りたいときは、いわゆるスクロールバーによって表示に現れる部分をずらせばよい。表示されたタイトルから本文を読んで見たいものがあれば、該当するタイトルの所をマウスなどで指示すれば本文の内容の一部が文書表示部215に表示される。表示されていない部分の文書の内容を知りたいときは、同じように、スクロールバーによって表示に現れる部分をずらせばよい。
【0015】
これで「電子出版」に関する文書が77件検索されたことになるが、次の段階として、さらに検索を特定の対象に絞り込みたい場合、あるいはそうでなくてもこの77件の文書にはどのような話題が含まれているかを概観したい場合がある。このような場合には検索インタフェイス21(図3)上の特徴語表示ボタン217を押すと特徴語表示手段作動ルーチン44が起動され、特徴語表示手段22が表示画面2に表示される。
【0016】
図6は特徴語表示手段22の一例の詳細を示したものである。特徴語表示手段22は操作部221、キーワード表示・操作部222、ヒット件数表示部223、特徴語表示部224、パラメーター設定部225から構成される。キーワード表示・操作部222およびヒット件数表示部223は検索インタフェイス21のキーワード表示・操作部212およびヒット件数表示部213とそれぞれ連動しており、特徴語表示手段22上の操作によりこれらの表示内容が変化した場合には自動的に検索インタフェイス21の方のそれぞれの表示も変化する。しかし逆方向、すなわち検索インタフェイス21上の操作によりキーワードやヒット件数が変化した場合には自動的には特徴語表示手段22上には反映されない。これを取り込むには、操作部221のリセットボタン2214を押すと検索インタフェイス21側の内容がこちらの特徴語表示手段22側へコピーされる。なお検索インタフェイス21上の特徴語表示ボタン217を押すことで表示画面2に表示される特徴語表示手段22の初期画面では検索インタフェイス21上のキーワードとヒット件数が自動的にコピーされる。今の例の場合、必須キーワード表示部2221には「電子」と「出版」が表示され、ヒット件数表示部223には「得点0:77件」が表示されている。
【0017】
ここで、操作部221の特徴語表示ボタン2212を押すと特徴語抽出ルーチン45が起動され、検索結果格納エリア512に格納されたデータから最高得点の文書識別番号を読み込み、それらの文書識別番号に相当する文書の内容を解析して、それらに特徴的に含まれる単語(特徴語)と、それら特徴語間の関連性を解析してグラフにした結果を特徴語表示部224に表示する。その過程は以下の説明で詳述する。
図7は「電子出版」の例で、グラフ格納エリア543(図2)に格納されたデータを示したものである。グラフはノードとリンクからなりそれぞれノード格納エリア5431と、リンク格納エリア5432とに格納されている。格納されるノードデータは各ノードに表示される特徴語(文字列)とそれを特徴語表示部224のどこに表示すべきかを示す座標を中心座標で、さらに文字を表示する領域の横と縦の文字数と表示領域のサイズで構成されている(ただし表示領域のサイズについては、使いやすいようにそれらの1/2の値、すなわち中心から端までのサイズにしてある。)。一方、格納されるリンクデータはグラフ上に表示すべき線分の始点座標と終点座標で構成されている。図では、リンク格納エリア5432に格納されている始点座標と終点座標の他に、参考までに、それぞれに対応する文字列のデータを付記したが、実際の装置では、このデータは不要である。図8は、操作部221の特徴語表示ボタン2212が押されて、特徴語のグラフが表示された状態の特徴語表示手段22を示した図である。グラフ表示ルーチン444が、グラフ格納エリア543のデータに従って、特徴語表示部224に特徴語とこれを結ぶリンクよりなるグラフを表現する。例えば図7のデータから「コンパクト」は座標(149,131)を中心として、横方向文字数3、行数2で且横方向で両側に27、縦方向で上下に18の矩形の領域を表示域として表示される。この実施例では、座標は特徴語表示部224の左上を始点として横方向は右向に、縦方向は下向に取る。また、リンクデータは始点と終点の座標で定義される。リンクデータの1番目は、特徴語「出版」と「電子」との中心座標を結ぶことを意味し、2番目のデータは座標(203,131)から(308,40)への線分を意味する。これらの語の表示に際しては、それぞれのノードの表示領域には文字表示用に背景に白色不透明の矩形を表示して、ノードの表示領域では、線分を隠すのがグラフとしては見やすいが、一方、リンクを示すグラフの線とノードの表示領域が重なると、グラフの線が現れないことになり誤解を招くことになりかねない。例えば、図7のデータでは、「デスクトップパブリッシング」と「出版物」を結ぶグラフの線は「ニフティサーブ」の表示領域を通過することになるから、「ニフティサーブ」に白色不透明の矩形をつけると、この部分でグラフの線が線としては表われないことになる。その結果、「ニフティサーブ」と「出版物」とがグラフの線で結ばれ、さらに「ニフティサーブ」と「デスクトップパブリッシング」とがグラフの線で結ばれたように見えることになる。図8では、この対策として、背景に白色不透明の矩形を表示する代わりに、グラフの線の始点及び終点の近傍でのみグラフの線が表示されないようにしてそのノードの表示領域の中に入り込むのを避けるとともに、他の表示領域については通過していることがわかる表示とした。白色不透明の矩形をつけてもグラフの線が隠れないように配置することは大変難しく、特に多数の特徴語をグラフ表示しようとすると見やすいサイズでの表示が不可能となりかねない。
【0018】
パラメータ設定部225の特徴語表示設定手段2251は特徴語表示部224に表示する単語数を調節するためのものであり、設定用つまみ22511を左右に動かして所望の数値に設定する。表示部22512にはその設定値が表示され、特徴語抽出パラメータ格納エリア521の抽出語数格納エリア5213にその値が格納される。なおこの値は特徴語抽出ルーチン441によって利用される。以下では特徴語表示手段22の特徴語表示ボタン2212が押されてから、図7に示したようなグラフデータが作成されるまでの過程を説明する。特徴語表示ボタン2212が押されると、計算プログラム保持手段4に格納されている特徴語抽出ルーチン441以下共起関係解析ルーチン442、グラフ配置ルーチン443が順に起動される。
特徴語抽出ルーチン441は検索ワークエリア51の検索結果得点分布格納エリア513から最高得点とその件数を読み込む。図4に示した「電子」と「出版」の例では最高得点(S)は0点でありその件数(K)は77件である。また特徴語抽出パラメータ格納エリア521から走査文書数上限値(M)5211を読み込む。(ここではM=300とする。)これは検索された文書件数Kが大きい時にすべての文書を解析していると時間がかかるので、一定限度Mを越える場合にはM個のサンプル抽出を行なうためのパラメータである。
【0019】
特徴語抽出ルーチン441は、次に、検索結果格納エリア512を参照し、得点が最高得点Sと一致するすべての文書識別番号についてそれらの内容を検索対象文書データベース61から読み込み、形態素解析ルーチン42を用いて単語分割し、出現するすべての種類の単語についてそれが出現する文書の数(以下これを文書頻度と呼ぶ)をカウントする。この例では最高得点の件数Kが77件で、走査文書数上限値M=300以下であったのですべての文書を読み込む。
なお、該当文書の形態素解析は、データベース保持手段にゆとりがある場合には、あらかじめ全文書を形態素解析した結果を保持しておき、それを読み込むようにすることも可能である。そうすれば、検索の都度形態素解析をする必要がなくなるので解析時間を大幅に短縮できて有効である。
こうして得られる単語とその文書頻度のデータは特徴語抽出ワークエリア52の中の頻度データ格納エリア523に格納される。なお上記で該当文書を形態素解析した結果は後にも使うので、単語分割済み文書格納エリア522に格納しておく。
【0020】
図9は「電子出版」の例で頻度データ格納エリア523に格納されたデータの一部を示す。各単語ごとのデータは単語名、文書頻度、全体文書頻度、頻度比、頻度クラスの5項目で構成されている。文書頻度は上記作業で検索された文書(この場合77件)の内の何件のにその単語が出現したかを表す頻度である。また全体文書頻度はキーワードによる検索結果に関係なく、検索対象文書全体で何件の文書に使われているかという頻度である。その情報は単語頻度データベース63に格納されており、そこから該当する単語の頻度情報を取り出して来たものである。ここで、単語頻度データベース63は予め検索対象全文書を走査して、出現する全ての単語についてその文書頻度をカウントして作成しておくものとする。頻度比は文書頻度を全体文書頻度で割算した値である。例えば一番最初の「ROM」では文書頻度が21で全体文書頻度が1183なので頻度比は21÷1183≒0.017である。
【0021】
次に、頻度クラスについて説明する。一般にある文書群に特徴的な語は頻度比の大きさにより判断でき、頻度比が大きいほど特徴度が高いと言える。しかし文書頻度が大きく異なる2つの単語を頻度比で比較するのは危険である。低頻度語の場合には全体頻度が低いのでたまたま頻度比が大きくなる確率が高い。たとえば、図9では、「デスクトップパブリッシング」の頻度比は0.75となっており、頻度比が大きく特徴度が高いと言えるかと言えば、そうではない。これは文書頻度が3にすぎないのに、全体文書頻度も4でしかないためである。そこで文書頻度が大きく異なる単語同士は比較しないよう、予め文書頻度を適当な幅で区分してクラス分けを行ない各クラスで頻度比が大きいものを特徴語として取る。これによって低頻度語から高頻度語までバランス良く特徴語を抽出することが可能となる。
以下頻度クラスの決め方の一例の説明である。特徴語ルーチン441は頻度クラス分割数(C)5212を読み込む、これはいくつの頻度クラスに分割するかを示すパラメータであり、使用者が設定する。ここではC=5とする(一般にCは1以上の整数である)。i番目の頻度クラスをC[i]として、C[i]に属するための文書頻度がf[i]以上f[i+1]未満であるとする。ただし最大のクラスについては「f[i+1]未満」のかわりに「f[i+1]以下」とする。この頻度閾値f[i]の値の決め方であるが、ここではその一例としてK’を該当文書数として、f[i]=K’の(i/(C+1))乗、とする。(検索された文書数Kが走査文書数上限値Mを越えない場合にはK’=Kであり、K>Mの場合にはK’=Mである。)今の例ではK’=77でC=5であるから、f[1]=77の(1/6)乗=2.06,以下、f[2]=4.25,f[3]=8.77,f[4]=18.10,f[5]=37.33となる。従って、クラス1:文書頻度3以上4以下、クラス2:文書頻度5以上8以下、クラス3:文書頻度9以上18以下、クラス4:文書頻度19以上37以下、クラス5:文書頻度38以上77以下、である。
【0022】
この分類条件に従って、各語の文書頻度からそれらの語の頻度クラスを決める。「ROM」の場合には文書頻度が21なのでクラス4、また「インタラクティブ」は文書頻度が5なのでクラス2となる。なお文書頻度がクラス1よりも小さい場合(この場合文書頻度2以下)については特徴語抽出の対象から除外する。上記の頻度クラスの付与は次の式で直接計算することもできる。ただしその値がCと一致する場合には1を引き算する。
(頻度クラス)={log(文書頻度)÷logK’×(C+1)}を越えない最大の整数値−1
続いて特徴語抽出ルーチンは抽出語数(p)5213を読み込み、各頻度クラスから頻度比が上位のものを合計でこの個数になるように抽出する。それを実現する方法の一例としては、抽出語数pを頻度クラス分割数Cで割算して得られる商をn、余りをrとして、頻度クラスが1以上r以下のクラスからはn+1個取り、頻度クラスがrより大きいクラスからはn個取るという方法がある。
【0023】
以下抽出個数pが10であるとして図9の例で説明する。分割数Cは5なのでp÷Cの商nは2,余りrは0である。従ってクラス1〜5から均等に2個づつ取ることになる。頻度データ格納エリア523のデータから各頻度クラスのものについて頻度比が大きいものから順に2個ずつ取る。図9のデータより、クラス5の単語を頻度比が大きい順にならべると「出版」(0.027),「電子」(0.015),「メディア」(0.006),「情報」(0.001)となる。従って上位2つの「出版」と「電子」が特徴語として取られる。以下同様にしてクラス4からは「ROM」と「コンパクト」、クラス3からは「メール」と「出版物」、クラス2からは「インタラクティブ」と「ニフティサーブ」、クラス1からは「デスクトップパブリッシング」と「パブリッシング」が特徴語として抽出される。それらは特徴語リスト格納エリア524に格納される。
【0024】
図10は特徴語リスト格納エリア524に格納されたデータの例である。上記プロセスにより抽出された特徴語とそれらの文書頻度が格納されている。図では、参考に頻度クラスも示したが、これはなくても良い。
以上で特徴語抽出ルーチン441を抜け、続いて共起関係解析ルーチン442が特徴語間の共起データ関係を解析し、結果を共起データ格納エリア531に格納する。
【0025】
共起データ格納エリア531は特徴語リスト格納エリア524に格納された特徴語の集合を縦横に持つ2次元の配列である。各要素は対応する単語対が共通して現れる文書の数を表す。共起関係解析ルーチン442は検索された文書群を単語分割したものを単語分割済み文書格納エリア522から読み込み、各文書ごとに共出現するすべての特徴語ペアについて、共起データ格納エリア531の対応する要素をインクリメントしていく。
【0026】
次に共起関係解析ルーチン442は各特徴語対に対して共起強度を計算する。共起強度は上記作業でカウントされた共起頻度を単語ペアの後者(表では列に当たる単語)の文書頻度で割った値である。単語の文書頻度は特徴語リスト格納エリア524に格納されている値(図10)を用いる。
図11は、この段階における共起データ格納エリア531に格納されたデータを示す。各桝目は二つの数値から構成され、上段が対応する単語対の共起頻度、下段が単語対の共起強度(共起頻度÷列側の単語の文書頻度)である。例えば6行3列の上段数値6は、6行目の特徴語「出版物」と3列目の特徴語「ROM」が6件の文書に共出現したことを意味する。この場合単語対の列側の単語「ROM」の文書頻度は21なので、下段の共起強度の数値は6÷21≒0.29となる。共起データ格納エリア531では特徴語は文書頻度の高い順に並べている。後の作業で用いるのは表の対角線の下半分だけなので、残りの部分は省略した。
【0027】
続いて、共起関係解析ルーチン442はこの共起データから共起度の高い単語ペア(特徴語グラフでリンクを張るべきペア)を抽出する。本実施例では特徴語間の関連性を示すリンクを、各単語から見てそれより文書頻度が高い単語の中で共起強度の値が最も大きくなる単語に張ることにした。共起関係解析ルーチン442はこの基準に従ってリンクを張るべき単語対を集め共起リンク格納エリア532に格納する。
なお、共起強度が2番あるは3番のものでも、1番のものと比べてそれほど小さくない場合(例えば1番の0.9倍以上)には、リンクを張るというやり方も有力である。
図12はこの段階における共起リンク格納エリア532の内容を示す図である。これらのリンクが抽出された過程を図11の例に基づいて説明をする。図12の2番目の「出版」について見ると、文書頻度が「出版」以上のものは「電子」しかないので「出版」から「電子」にリンクが張られる。次に3番目の「ROM」についてみると、それより頻度が高いのは「出版」と「電子」の2つであり、それらとの共起強度は共に0.27である。この場合には共起データ格納エリア531における番号の小さい「出版」の方にリンクを張る。次に4番の「コンパクト」についてみると、3番の「ROM」との共起強度が0.81で最も大きい。従って「コンパクト」からは「ROM」へリンクを張る。以下同様の操作を続け、図12のようなリンクデータが得られる。
【0028】
以上で共起関係解析ルーチン442を抜け、続いて、グラフ配置ルーチン443が起動される。特徴語リスト格納エリア524のデータ(図10)と共起リンク格納エリア532のデータ(図12)にもとづいて特徴語群をノードとするグラフを実際に2次元平面に配置するという作業を行なう。
図13はグラフ配置ルーチン443の詳細である。グラフ配置ルーチン443はy座標計算ルーチン4431、x座標計算ルーチン4432、表示座標への変換ルーチン4433、重なり回避ルーチン4434、リンク配置ルーチン4435から構成され、この順に起動する。
y座標計算ルーチン4431およびx座標計算ルーチン4432は表示領域が[−1,1]×[−1,1]の正方形領域であると仮定して各ノードを配置すべき座標を計算する。この座標を正規化された座標と呼ぶ。計算された座標データは正規化座標格納エリア541に格納される。
【0029】
初めにy座標計算ルーチン4431が起動され、計算式:
y=(6/π)×arctan(0.2×log(f/fm))
に従って各特徴語の文書頻度fからそれを表示すべき位置の正規化されたy座標を計算する。すなわち、文書頻度の大きいもの程y軸上では上段に配置されるようにする。ここでfmは特徴語を文書頻度順に並べた時にちょうど真中に来るものの頻度である(ただし偶数個の場合には(個数÷2+1)番目とする)。実施例では、「電子」「出版」の文書頻度77が最上段となり、「出版物」の文書頻度9が中央位置に当たる。πは円周率、対数logは自然対数、arctanは正接関数の逆関数であり、角度はラジアンを単位とする。例えば「コンパクト」の頻度は21なのでその正規化されたy座標は(6/π)×arctan(0.2×log(21÷9))≒0.32となる。その他の特徴語の正規化されたy座標も同様に計算する。
次にx座標計算ルーチン4432が起動され各特徴語表示位置の正規化されたx座標を計算する。
図14はx座標計算ルーチン4432の詳細を示した図である。初めにステップ44321により親ノード(リンク先)のないノードが集められる。この場合には「電子」のみがそれに当たる。したがってそのx座標の値がステップ44321中の式xi=−1+2i/(r+1)にi=1を代入して−1+(2×1)/(1+1)=0と計算される。
【0030】
続いてループ44322に入り、ステップ44323ではx座標の定まったノード(この場合「電子」のみ)へリンクが張られているノードを一つ取る。共起リンクのデータ(図12)からここでは「出版」がその条件を満たしていることが分かる。
続いてステップ44324に入りステップ44323で選ばれたノードの親ノードの集合を求め、さらにそれらのx座標の平均値を計算する。「出版」の親ノードの集合は{「電子」}であり、そのx座標の平均は0である。
次にステップ44325では親ノードの集合が{「電子」}と一致するノードを集める。ここではそれは「出版のみである。
【0031】
続いて分岐ステップ44326へ入るが親ノードのx座標の平均値が0なのでステップ44327が選択され、「出版」のx座標が計算される。ステップ44327の計算式にs=1、xp=0、i=1を代入して、「出版」のx座標が0と計算される。
以上で「電子」と「出版」の正規化されたx座標が定まった。しかしまだ全てのノードのx座標が定まってはいないのでループ44322を繰り返す。ステップ44323ではまだx座標が定まっていないノードの内、リンクが「電子」と「出版」以外には張られていないノードの一つが選択される。この場合「ROM」がその条件を満たす。
ステップ44324では「ROM」のリンク先の集合を求め{「出版」}を得る。また親ノード{「出版」}のx座標の平均値xpが0と計算される。
【0032】
ステップ44325ではリンク先の集合が{「出版」}と一致するようなノードを集める。「ROM」以外では「メール」がそれに当たる。
【0033】
親ノードのx座標の平均値xpが0なので分岐44326では上段が選択され、ステップ44327により「ROM」と「メール」のx座標がそれぞれ[−1,1]を3等分して、−0.33,0.33というように計算される。以下同様にして、すでにx座標が決まったノードのみにリンクが張られるようなノードについて、リンク先が共通のものを集め、親のx座標の平均を中心として区間[−1,1]内に収まるよう均等に配置するようにx座標を決めていく。
【0034】
図15は「電子出版」の例でこの段階における正規化座標格納エリア541に格納された座標データを示した図である。
つづいて、グラフ配置ルーチン443は表示座標への変換ルーチン4433を起動し、上記の[−1,1]×[−1,1]領域に正規化された座標を特徴語表示部224における実際の位置を表す座標への変換を行ない、ノード格納エリア5431の中心座標欄(図16)に格納する。変換は次のような1次式で行なう。X=R×(1+x)+O,Y=R×(ym−y)+O。ここで小文字のxとyが正規化された座標、大文字のXとYが特徴語表示部224における座標である。ymはyの最大値を表す。図15の例ではym=0.774である。なお係数R、R、O、Oはグラフ配置パラメータ格納エリア542(図2)の該当するエリアに格納された値を用いる。本例ではR=200,R=200,O=60,O=40とした。
上記の一次変換により例えば「コンパクト」の場合、正規化された座標が(−0.555,0.320)なので,X=200×(1−0.555)+60=149,Y=200×(0.774−0.320)+40≒131というように計算される。
このようにして、全てのノードの特徴語表示部224上での実座標が計算され、ノード格納エリア5431に格納される(図16)。この時次のステップへの準備として単語の順序は、x座標が小さい順に並べる。また文字表示領域の大きさとして横方向の文字数hと行数v、また文字表示領域の横サイズHと縦サイズVを計算して、ノード格納エリア5431に格納する。
【0035】
文字表示領域サイズは次の計算式に従って計算する。文字は横書きとし横サイズの限度をW文字とする。Wの値は文字表示部の横方向文字数上限値5426に格納されている値を使う。ここではW=3とする。表示すべき文字数をMとした場合、横方向の文字数h、と行数vはM≦Wの場合、hはM、vは1である。またM>Wの場合には、hはWであり、vは(M÷W)以上の最小の整数である。例えば「電子」については文字数が2でこれは横幅限度のW=3より小さいので、行数vは1で横幅hは2となる。また「インタラクティブ」の場合には文字数が8で横幅限度W=3を越えるので行数vは(8/3)以上の最小の整数、すなわち3となり、横幅hはW=3である。また文字表示領域の横サイズの2分の1の値Hと縦サイズの2分の1の値Vはそれぞれの文字数hとvから次の式により計算される。ここで2分の1の値を取ったのは後の処理で主にこの2分の1の値を用いるからである。H=h×F/2+m、V=v×F/2+m。ここでFは文字フォントの大きさ、mはx方向のマージンの大きさ、mはy方向のマージンの大きさである。mとmは2つのノードが接近し過ぎないように、最低限保つべき間隔を表す。F、m、mはそれぞれ文字サイズ5425、文字表示部の横方向マージン5427、同縦方向マージン5428(図2)に格納されている値を用いる。本例ではF=16、m=3、m=2とする。例えば「コンパクト」の場合h=3でv=2なのでH=3×16/2+3=27、V=2×16/2+2=18と計算される。図16のノード格納エリア5431における文字表示サイズとしての文字数と表示領域サイズはこのようにして計算したものである。
【0036】
このようにして特徴語表示部における座標が求まったが、この段階ではノードの重なりが生じるおそれがある。例えば図16の例では「電子」と「出版」の座標は同じなので重なってしまう。そのため重なり回避ルーチン4434が起動され、重なりが生じないように座標をずらす操作を行なう。
【0037】
図17は重なり回避ルーチン4434の詳細である。
全ノードをx座標が小さい順にソートしたものをN[1],...,N[r]とする。N[i]の座標を(X[i],Y[i])、文字表示領域サイズの値を(H[i],V[i])とする。i=2,...,rについて次の操作を行なう。j=1,...,i−1の内|Y[j]−Y[i]|<V[i]+V[j]となるようなjについてX[j]+H[j]の最大値を取りξとする。なおそのようなjが無い場合にはこのiについては座標をずらす操作は必要ない。δ=ξ−(X[i]−H[i])とする。δ≦0の場合にはこのiについては座標をずらす操作は必要ない。δ>0の場合には、重なりが生じてしまうので、N[i],...,N[r]のx座標をすべて右にδずらす。すなわち、X[k]=X[k]+δ(k=i,...,r)とする。
【0038】
以上により、全ノードが重ならずに表示できるような座標が与えられる。
たとえばi=2の「インタラクティブ」の場合についてみると、図16のデータより、|Y[2]−Y[1]|=|240−131|=109で、V[2]+V[1]=26+18=44であるから|Y[2]−Y[1]|<V[2]+V[1]が成り立たない。従って「インタラクティブ」については横へずらす操作は行なわない。
次にi=3、すなわち「ROM」について見る。j=1については、|Y[3]−Y[1]|=|131−131|=0に対してV[3]+V[1]=10+18=28となり、|Y[3]−Y[1]|<V[1]+V[3]となる。すなわちj=1の「コンパクト」と重なりが生じてしまう。またj=2の「インタラクティブ」との関係を見ると、|Y[3]−Y[2]|=|131−240|=109、V[3]+V[2]=10+26=36で|Y[2]−Y[3]|<V[2]+V[3]とならないので「インタラクティブ」とは重なる恐れがない。従ってj=1についてのみx座標を考慮すれば良い。ξ=X[1]+H[1]=149+27=176となり、ずらし幅δはδ=ξ−(X[i]−H[i])=176ー(193ー27)=10である。従ってj=3、...10についてX[j]をすべて+10する。(X[3],Y[3])=(203,131)となり、図7における「ROM」の座標を得る。以下このステップの繰り返しにより図7のノード格納エリア5441と同じデータが得られる。この文字表示領域の重なり回避の操作でも、前述した文字表示領域とグラフの線の重なりはチェックできないし、実際問題として、限られた表示面積では、これを厳密に避けようとすると、適当な大きさの中で、表示のできないことも起こりうるので、実施例では、これについてのチェックはしないこととした。
【0039】
最後にグラフ配置ルーチン443はリンク配置ルーチン4435を起動する。リンク配置ルーチン4435は共起関係解析ワークエリア53の中の共起リンク格納エリア532に格納された共起リンクを張るべき単語ペアに関する情報と、ノードデータ格納エリア5431に格納されている各ノードの座標データから特徴語表示部224に表示すべき線分のデータ、すなわち始点の座標と終点の座標を作成してリンクデータ格納エリア5422に格納する。例えば図12の共起リンク格納エリア532には「ROM」から「出版」へのリンクがある。図7のノードデータ格納エリア5431に格納されたデータより、「ROM」の座標が(203,131)であり「出版」の座標が(308,40)であることが分かるので、(203,131)を始点として(308,40)を終点とする線分のデータがリンクデータ格納エリア5432に格納される。以上により表示すべきグラフのデータ(図7)が作成された。
以下では特徴語表示手段22の特徴語表示部224に表示された特徴語のグラフ表示を参考にして検索作業を進展させる利用形態の例を示す。
【0040】
図8は「電子出版」に関する特徴語表示の例であるが、ここでユーザが仮に表示された語のひとつである「デスクトップパブリッシング」に興味があるとしよう。この場合には、画面上でその単語の所をマウス12などで指示してから加点キーワードの移動ボタン22222を指示すると「デスクトップパブリッシング」が加点キーワード格納エリア5112に格納され、検索インタフェイス21の加点キーワード表示部2122と特徴語表示手段22の加点キーワード表示部2222に表示される。そこで検索インタフェイス21の検索実行ボタン216もしくは特徴語表示手段22の検索実行ボタン2211を押すと加点キーワードに「デスクトップパブリッシング」を加えた形で検索が実行され検索の絞り込みをすることができる。
また図8の特徴語表示部224に表示された特徴語の中に興味ある単語を発見できなかった場合には特徴語表示数設定手段2251を用いて表示語数を増やすことができる。図18は特徴語表示語数を20に増やした場合の例である。この場合には図9のデータの例では、このデータから特徴語抽出ルーチン441により、20個の単語が選択されて、図8のケースで説明したと同様に表示される。ここで仮にユーザは「電子出版」における「情報検索」に興味があったとすれば表示されたグラフに「検索」および「情報検索)」という語が表示されているのでそれを利用できる。特徴語表示部の「検索」と「情報検索」をマウスなどでクリックしてから加点キーワードへの移動ボタン22222を押せばこれらの単語が加点用のキーワードとして付け加えられる。これで検索実行ボタン2211を押せば検索の絞り込みができる。また検索を絞り込んだ後で特徴語のグラフを見たい場合には特徴語表示ボタン2212を押せば良い。それから検索と特徴語のグラフを連続して行なう場合には検索実行+特徴語表示ボタン2213を押せば以上のステップが連続して行なわれる。
【0041】
次に「情報検索」には興味がない場合、あるいは「情報検索」に関する文書には既に目を通してしまい、それ以外の話題に注目したい場合には、減点キーワードを利用する。すでに「検索」と「情報検索」が加点キーワードに加えられている場合には、加点キーワード表示部2222に表示されているこれらの単語をマウスなどで指示してから減点キーワードへの移動ボタン22232を押せばこれらの単語が加点キーワードから減点キーワードへ移動する。なお特徴語表示部224に表示されている単語を直接減点キーワードとして利用したい場合には、加点キーワードの時と同様に、該当する単語をマウスなどでクリックした後減点キーワードへの移動ボタン22232を押せば良い。すなわち、本実施例では、検索キーワード間では移動ボタンにより移動の操作が行われ、表示された特徴語とキーワード間では移動ボタンにより複写の操作が行われる。
【0042】
「検索」と「情報検索」を減点キーワードへ移動してから検索を実行すると今度はこれらの単語を含む文書の得点が下がり、相対的にこれらを含まない文書の得点が上がるので「電子出版」に関する文書の内、「情報検索」には関係のない文書に注目することが出来る。
図19は特徴語表示様式選択手段2171を備え、特徴語をグラフの形で表示したり、リストの形で表示したりすることを選択できる機能を備えた検索インタフェイス21の一例である。リストでの表示はグラフで表示した場合と比べて、多数の特徴語を表示する為、特徴語相互の関連性を表示できないので関連性に着目した結果の評価ができないという欠点がある反面、スクロールバーを用いることにより、検索結果に出現する多数の特徴語を一覧できるので、ユーザにとって興味と合致する関連語を発見できる可能性が高くなる長所がある。
【0043】
したがって、図19に示される特徴語表示様式選択手段2171を利用して、まず、検索結果をグラフ表示して特徴語の全体像を相互の関連性も含めて概観して、結果を評価し、これにユーザの興味と合致する関連語が十分に表われない場合には、リスト表示を用いて更に細かく探すという二段階の結果評価ができる。さらに、リストを利用した表示から興味のもたれる語が得られたとき、これをキーワードとして利用して、再度検索からやり直すこともできる。
図19の特徴語表示様式選択手段2171で「グラフ」を選択すれば、図8あるいは図18で説明したように、特徴語のグラフ表示がなされる。図19に示すように、「リスト」を選択すれば、図20に一例を示すように、特徴語表示部224には、特徴語がリストの形で表示される。特徴語表示様式選択手段2171で「リスト」を選択した場合でも、検索された文書群から特徴語を抽出する方法は前述したグラフ表示の場合と同じである。ただし、リスト表示の場合、図9に示したように頻度を5クラスとするよりは、高、中、低の3クラス程度とする方が見やすいと考えられるので、図20の表示例では、頻度クラスの分割数は3とした。
図20において、「リスト」の選択に対応して、特徴語表示部224には、高頻度特徴語表示部2241、中頻度特徴語表示部2242および低頻度特徴語表示部2243がそれぞれスクロールバー付きの表示枠が設定され、頻度データ格納エリア523の特徴語の頻度クラスデータに対応した特徴語が各表示枠内に表示される。各表示枠内での表示順は、たとえば、頻度比の大きさ順にならべるのが良い。これにより、ユーザは、より一般性の高い特徴語から固有名など特殊性の高い特徴語までを一覧でき、幅広い選択肢から興味に合致した単語を検索できる。
【0044】
実施例2
以下、本発明の第2の実施例を図21に従って説明する。第1の実施例が独立に使用されるコンピュータによる検索装置の構成例であったのに対し、本実施例では、複数のユーザによる検索要求に応えることのできる検索方法を実現するものである。
図21に本実施例の文献検索方法を実現する他の実施例の全体構成を示す。本実施例は、一つのサーバに複数のクライアントが信号伝送回線を介してアクセスし、クライアント毎に検索サービスを受けることのできるものである。サーバは、サーバ自体をクライアントとしても利用することはないのが一般的である。しかし、本実施例では、クライアントからの問題指摘に応じてサーバもクライアントとしても利用する必要がありうることを考慮して、サーバは、実施例1で説明したのと実質的に同じ構成に通信手段7をプラスした検索装置とした。クライアントは実施例1で説明した構成のうち入力手段1、表示手段2、CPU3、計算プログラム保持手段4、計算プログラムを動作させるためのワークエリア5およびバス100のそれぞれに対応するダッシュを付して示した手段、およびサーバとの連係を取るための通信手段7および出力手段8としてのプリンタ81よりなる。サーバのバス100にはインタフェイスIF1が、およびクライアントのバス100にはインタフェイスIF2、 IF3がそれぞれ設けられて、サーバ−クライアント間を結ぶ回線NET1,NET2で結ばれる。なお、クライアント2についてはバス100およびインタフェイスIF2のみを図示して他は省略した。
【0045】
クライアント1が文献検索をしようとするとき、まず、入力手段1のキーボード11から文献検索システム起動のコマンドを入力する。これに応じて、クライアンと側の通信手段7とサーバ側の通信手段7が通信経路NET1を介して連絡を取り、サーバ側の計算プログラム保持手段4の検索インタフェイス作動ルーチン41がクライアント1側に送信され、クライアント1側で起動される。この結果、表示手段2に対話的に検索作業を進めるための検索インタフェイス21が表示される。検索インタフェイス21が表示された後は、クライアント1はこの画面を利用して実施例1で説明したと同様の手順で検索キーとなる語を入力してゆけば良い。なお、クライアント側では検索インタフェイス作動ルーチン41のコピーを計算プログラム保持手段4に保持しておいて、これを起動するものとしても良い。
また、WWWプラウザなどのハイパーテキスト閲覧インタフェイスを利用して本検索支援サービスが受けられるようにするのも便利である。その場合には、サーバ側には、検索インタフェイス作動ルーチン41をクライアント側に送信するためのハイパーテキスト(HT)を用意する。なお、クライアント側では汎用のハイパーテキスト閲覧インタフェイスが利用できる環境にあることを前提とする。
【0046】
表示手段2に表示されているハイパーテキスト閲覧インタフェイスのアドレス入力部から、本検索支援サービスが指定するアドレス(すなわちサーバのネットワーク上でのアドレスと検索インタフェイス作動ルーチン41を送付するためのハイパーテキストHTの存在するファイル名など)を指定すると、双方の通信手段を介して指定されたハイパーテキストHTが検索インタフェイス作動ルーチン41を伴ってクライアント側に送られ、送付された検索インタフェイス作動ルーチン41はクライアント側計算機で起動され、検索インタフェイス21が表示手段2に表示され利用可能となる。
なお、上記では、直接ハイパーテキストHTのアドレスを指定したが、ハイパーテキスト閲覧インタフェイスの閲覧部に表示されているハイパーテキストに、本ハイパーテキストHTのアドレスがアンカーとして埋め込まれている場合には、そのアンカーの部分をマウスなどでクリックしても同様の動作をさせることができる。
【0047】
クライアント1が入力した検索要求は通信手段7、7と通信経路NET1を介してサーバ側に伝送され、サーバ側で必要な検索と特徴語抽出とグラフ配置計算が実行されて、その結果が再び通信手段7、7の連絡によりクライアント1側に返信され、クライアント1の検索インタフェイス作動ルーチン41に手渡され、同ルーチンはそのデータに基づいて特徴語グラフを特徴語表示手段22に表示する。クライアント1はこの検索結果に応じて実施例1で説明したと同様に、さらに必要な検索操作があればこれに応じたデータを入力すれば良い。このデータは再度サーバ側に伝送され、サーバ側で必要な検索が実行されて、その結果が特徴語表示手段22に表示される。クライアント1は、必要ならプリンター81によってプリントされた出力を利用することができる。
このようにして、クライアント1は、実質的な検索プログラムを持つことなく、サーバ側で実行された結果のみを利用できる。したがって、クライアント1では、ワークエリア5は初期の入力データおよびサーバから伝送されてきた検索結果と特徴語とそのグラフ配置に関するデータ等を保持する能力があれば足りるから、簡易な装置で充実した検索サービスを受けることができる。
【0048】
【発明の効果】
以上、二つのタイプについて説明したように、本発明によれば、ユーザは、より一般性の高い特徴語から固有名など特殊性の高い特徴語までを一覧でき、幅広い選択肢から興味に合致した単語を検索できる。
【図面の簡単な説明】
【図1】本発明の実施例としての独立に使用されるコンピュータによる検索装置の構成例を示すブロック図。
【図2】ワークエリアのデータの割り当て配置の一例を示す図。
【図3】ユーザとコンピュータとの間の検索インタフェイス表示画面の例を示す図。
【図4】検索実行時に検索ワークエリアに格納されるデータの例を示す図。
【図5】図3に示した検索インタフェイス表示画面が検索実行後に検索結果を表示した例を示す図。
【図6】ユーザが検索キーとしての特徴語を付与するための特徴語表示手段起動時の表示画面の例を示す図。
【図7】ユーザから特徴語表示要求があった時に特徴語グラフ格納エリアに格納されるデータの例を示す図。
【図8】検索された文書群における特徴語のグラフ表示の一例を示す図。
【図9】検索された文書群における単語頻度データの一例を示す図。
【図10】検索された文書群における特徴語リストの一例を示す図。
【図11】検索された文書群における特徴語間の共起関係を表すデータの一例を示す図。
【図12】検索された文書群において特に強い共起関係を有する特徴語対のリストの一例を示す図。
【図13】特徴語のグラフ配置を計算する計算ルーチンの構成の一例を示すパッド図(PAD図、Problem Analysis Diagram)。
【図14】グラフ配置におけるx座標計算方法の一例を示すパッド図。
【図15】検索結果のグラフ表示の際、表示データを正規化された領域に仮想的に配置する際の座標データの一例を示す図。
【図16】検索結果のグラフ表示の際、表示データの重なり回避を行なう前のグラフの座標の一例を示す図。
【図17】グラフの表示ノードが重なるのを避けるためのルーチンの詳細の一例を示すパッド図。
【図18】特徴語表示数を20にした場合の特徴語のグラフ表示の一例を示す図。
【図19】特徴語表示様式選択手段を備えた検索インタフェイス表示画面の例を示す図。
【図20】特徴語のリスト表示の表示画面の例を示す図。
【図21】検索装置の主体がサーバ側に備えられこれに複数のクライアントがアクセスして検索を行う場合の構成例を示すブロック図。
【符合の説明】
1、1:入力手段、11、11:キーボード、12、12:マウス、13、13:ペン入力手段、2、2:表示手段、21、21:検索インタフェイス、7、7:通信手段、8:出力手段、81:プリンタ81、IF1、IF2、 IF3:インタフェイス、NET1,NET2:回線、211:検索要求入力部、212:キーワード表示・操作部、2121:必須キーワード表示部、21211:必須キーワードへの追加ボタン、21212:必須キーワードの消去ボタン、2122:加点キーワード表示部、2123:減点キーワード表示部、213:検索ヒット件数表示部、214:タイトル表示部、215:文書表示部、216:検索実行ボタン、216:特徴語表示ボタン、2171:特徴語表示様式選択手段、22:特徴語表示手段、221:特徴語表示手段操作部、222:特徴語表示手段のキーワード表示・操作部、223:特徴語表示手段の検索ヒット件数表示部、224:特徴語表示部、2241:高頻度特徴語表示部、2242:中頻度特徴語表示部、2243:高頻度特徴語表示部、225:特徴語表示手段のパラメータ設定部、2251:特徴語表示語数設定手段、3:計算プログラム実行手段(CPU)、4:計算プログラム保持手段、41:検索インタフェイス作動ルーチン、42:形態素解析ルーチン、43:検索ルーチン、44:特徴語表示手段作動ルーチン、441:特徴語抽出ルーチン、442:共起関係解析ルーチン、443:グラフ配置ルーチン、4431:y座標計算ルーチン、4432:x座標計算ルーチン、4433:表示座標への変換ルーチン、4434:重なり回避ルーチン、4435:リンク配置ルーチン、444:グラフ表示ルーチン、5:ワークエリア、51:検索ワークエリア、511:キーワード格納エリア、5111:必須キーワード格納エリア、5112:加点キーワード格納エリア、5113:減点キーワード格納エリア、512:検索結果格納エリア、513:検索結果得点分布格納エリア、52:特徴語抽出ワークエリア、521:特徴語抽出パラメータ格納エリア、5211:走査文書数上限値格納エリア、5212:頻度クラス分割数格納エリア、5213:抽出語数格納エリア、522:単語分割済み文書格納エリア、523:頻度データベース格納エリア、524:特徴語リスト格納エリア、53:共起関係解析ワークエリア、531:共起データ格納エリア、532:共起リンク格納エリア、54:グラフ配置ワークエリア、541:正規化座標格納エリア、542:グラフ配置パラメータ格納エリア、543:グラフ格納エリア、5431:ノード格納エリア、5432:リンク格納エリア、6:データベース保持手段、61:検索対象文書データベース、62:検索用インデックスデータベース、63:単語頻度データベース、64:除外語データベース。

Claims (7)

  1. 設定されたキーワードに応じて検索対象文書群から前記キーワードを持つ文書を検索結果文書として検出すること、
    る単語が前記検索結果文書群中のいくつの文書に現れるかを意味する単語の文書頻度を検出すること、
    記単語が検索対象文書群全体においていくつの文書に出現するかを意味する単語の全体文書頻度を検出すること、
    記単語の文書頻度と単語の全体文書頻度との比を意味する頻度比を導出すること、
    記文書頻度を所定の関係で頻度クラスに区分分けして各単語の文書頻度に応じて各単語を頻度クラスに対応させること、
    頻度クラスから適当数の単語を単語の頻度比の大きさ順に特徴語として抽出すること、
    出された特徴語をグラフ形式またはリスト形式で表示すること、
    よりなることを特徴とする文献検索支援方法。
  2. 検索元から伝送されたキーワードに応じて検索対象文書群から前記キーワードを持つ文書を検索結果文書として検出すること、
    ある単語が前記検索結果文書群中のいくつの文書に現れるかを意味する単語の文書頻度を検出すること、
    前記単語が検索対象文書群全体においていくつの文書に出現するかを意味する単語の全体文書頻度を検出すること、
    前記単語の文書頻度と単語の全体文書頻度との比を意味する頻度比を導出すること、
    前記頻度比を所定の関係で頻度クラスに区分分けして各単語の頻度比に応じて各単語を頻度クラスに対応させること、
    各頻度クラスから適当数の単語を単語の頻度比の大きさ順に特徴語として抽出すること、
    抽出された特徴語を特徴語間の関連を示すグラフ形式で表示可能なデータとして構成することまたは抽出された特徴語を頻度クラス別のリスト形式で表示可能なデータとして構成すること、
    前記特徴語をグラフ形式またはリスト形式で表示可能なデータとして検索元に送信すること、
    よりなる文献検索サービス方法。
  3. 検索結果に出現する各語の特徴度を計算するための頻度データを記録したコンピュータ読み取り可能な記録媒体であって、各語に関するデータが、(a)文字列、(b)検索された文書の内の何件にその語が出現したかを表す文書頻度、(c)検索結果に関係なく、検索対象文書全体で何件の文書に使われているかを表すデータベース全体での文書頻度、(d)前記検索結果における文書頻度とデータベース全体での全体文書頻度から計算される検索結果におけるその語の特徴度、(e)前記検索結果における文書頻度の大小によってクラス分けした場合の頻度クラスとからなり、前記頻度クラスのそれぞれから前記特徴度の上位にある語を検索対象文書群における特徴語とすることを特徴とする検索結果に出現する語の頻度データを記録したコンピュータ読み取り可能な記録媒体。
  4. 検索結果に出現する特徴語間の関連度を計算するために、特徴語が共出現する共起データを記録したコンピュータ読み取り可能な記録媒体であって、各特徴語対に関するデータが、(a)検索結果文書群における両特徴語が共出現する共起頻度と(b)該共起頻度と両特徴語各々の検索結果に出現する頻度データから計算される両特徴語の関連度とからなり、前記関連度の高い特徴語対に関連性が強いことを示すリンクを張れるようにすることを特徴とする検索結果における特徴語間の共起データを記録したコンピュータ読み取り可能な記録媒体。
  5. 検索結果に出現する特徴語対のグラフを画面表示するためのデータを記録したコンピュータ読み取り可能な記録媒体であって、前記特徴語対のグラフを画面表示するためのデータは(a)グラフのノード部分に特徴語を表示するためのデー タ、(b)特徴語間の関連性を示すリンクを表示するためのデータとからなるとともに、前記各ノードのデータは、中心座標、表示する文字列、および、文字列を表示する領域の縦横の文字数とサイズからなり、前記各リンクのデータは始点座標と終点座標とからなり、特徴語グラフをリンクと文字列とによる二次元表示を可能としたことを特徴とする特徴語グラフを画面表示するためのデータを記録したコンピュータ読み取り可能な記録媒体。
  6. 検索結果に出現する各語の特徴度を計算し、特徴語を導出し、特徴語対の共出現頻度にもとづいて関連性の高いと判定される特徴語対にリンクを張って得られる特徴語のグラフを画面表示するデータを記録したコンピュータ読み取り可能な記録媒体であって、
    前記検索結果に出現する各語に関するデータが、(a)文字列、(b)検索された文書の内の何件にその語が出現したかを表す文書頻度、(c)検索結果に関係なく、検索対象文書全体で何件の文書に使われているかを表すデータベース全体での文書頻度、(d)前記検索結果における文書頻度とデータベース全体での全体文書頻度から計算される検索結果におけるその語の特徴度、(e)前記検索結果における文書頻度の大小によってクラス分けした場合の頻度クラスとからなり、前記頻度クラスのそれぞれから前記特徴度の上位にある語を検索対象文書群における特徴語とし、
    前記特徴語間の関連度を計算するために、
    各特徴語対に関するデータが、(f)検索結果文書群における両特徴語が共出現する共起頻度と(g)該共起頻度と両特徴語各々の検索結果に出現する頻度データから計算される両特徴語の関連度とからなり、前記関連度の高い特徴語対にリンクを張れるようにし、
    前記リンクの張られた特徴語グラフを画面表示するために、
    前記特徴語グラフを画面表示するためのデータは(h)グラフのノード部分に特徴語を表示するためのデータ、(i)特徴語間の関連性を示すリンクを表示するためのデータとからなるとともに、前記各ノードのデータは、中心座標、表示する文字列、および、文字列を表示する領域の縦横の文字数とサイズからなり、前 記各リンクのデータは始点座標と終点座標とからなり、
    前記各特徴語グラフをリンクと文字列とによる二次元表示を可能としたことを特徴とする特徴語グラフを画面表示するためのデータを記録したコンピュータ読み取り可能な記録媒体。
  7. 設定されたキーワードに応じて検索対象文書群から前記キーワードを持つ文書を検索結果文書として検出する手段、
    ある単語が前記検索結果文書群中のいくつの文書に現れるかを意味する単語の文書頻度を検出する手段、
    前記単語が検索対象文書群全体においていくつの文書に出現するかを意味する単語の全体文書頻度を検出する手段、
    前記単語の文書頻度と単語の全体文書頻度との比を意味する頻度比を導出する手段、前記頻度比を所定の関係で頻度クラスに区分分けして各単語の頻度比に応じて各単語を頻度クラスに対応させる手段、
    各頻度クラスから適当数の単語を単語の頻度比の大きさ順に特徴語として抽出する手段、抽出された特徴語をグラフ形式またはリスト形式で表示する手段、とよりなることを特徴とする文献検索装置。
JP17850097A 1996-07-05 1997-07-03 文献検索支援方法及び装置およびこれを用いた文献検索サービス Expired - Lifetime JP3614618B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP17850097A JP3614618B2 (ja) 1996-07-05 1997-07-03 文献検索支援方法及び装置およびこれを用いた文献検索サービス

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP17617496 1996-07-05
JP8-176174 1996-07-05
JP17850097A JP3614618B2 (ja) 1996-07-05 1997-07-03 文献検索支援方法及び装置およびこれを用いた文献検索サービス

Publications (2)

Publication Number Publication Date
JPH1074210A JPH1074210A (ja) 1998-03-17
JP3614618B2 true JP3614618B2 (ja) 2005-01-26

Family

ID=26497200

Family Applications (1)

Application Number Title Priority Date Filing Date
JP17850097A Expired - Lifetime JP3614618B2 (ja) 1996-07-05 1997-07-03 文献検索支援方法及び装置およびこれを用いた文献検索サービス

Country Status (1)

Country Link
JP (1) JP3614618B2 (ja)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3431836B2 (ja) * 1998-06-18 2003-07-28 株式会社トレンディ ドキュメントデータベースの検索支援方法とそのプログラムを記憶した記憶媒体
JP3915267B2 (ja) 1998-09-07 2007-05-16 富士ゼロックス株式会社 文書検索装置および文書検索方法
JP3760057B2 (ja) 1998-11-19 2006-03-29 株式会社日立製作所 複数文書データベースを対象とした文書検索方法および文書検索サービス
JP3855551B2 (ja) 1999-08-25 2006-12-13 株式会社日立製作所 検索方法及び検索システム
JP2001337969A (ja) * 2000-05-29 2001-12-07 Nippon Telegr & Teleph Corp <Ntt> 知識獲得方法、文書情報構造化方法および装置と前記方法を実施するプログラムを記録した記録媒体
EP1225517B1 (en) * 2001-01-17 2006-05-17 International Business Machines Corporation System and methods for computer based searching for relevant texts
JP4617015B2 (ja) * 2001-03-26 2011-01-19 株式会社MetaMoJi 文書表示装置、文書表示方法ならびに、プログラム
JP2006031577A (ja) * 2004-07-21 2006-02-02 Hideki Mima 情報の検索俯瞰方法および装置
JP4538284B2 (ja) * 2004-09-09 2010-09-08 株式会社リコー 情報検索システム、情報検索端末、並びに、プログラムおよび記録媒体
JPWO2006043499A1 (ja) * 2004-10-18 2008-08-07 パイオニア株式会社 情報処理装置、分類基準情報データベース、情報生成装置、情報処理方法、情報生成方法、情報処理プログラム、情報処理プログラムの記録した記録媒体
US7814105B2 (en) * 2004-10-27 2010-10-12 Harris Corporation Method for domain identification of documents in a document database
JP4525433B2 (ja) * 2005-04-08 2010-08-18 日本電信電話株式会社 文書集約装置及びプログラム
JP2009217406A (ja) * 2008-03-07 2009-09-24 Nec Corp 文書検索装置及び方法、並びに、プログラム
JP2010113412A (ja) * 2008-11-04 2010-05-20 Omron Corp 文書情報加工方法、文書情報加工装置、文書情報加工プログラムおよび記録媒体
JP5594145B2 (ja) * 2008-11-26 2014-09-24 日本電気株式会社 検索装置、検索方法、及びプログラム
US20100299132A1 (en) * 2009-05-22 2010-11-25 Microsoft Corporation Mining phrase pairs from an unstructured resource
JP5552448B2 (ja) 2011-01-28 2014-07-16 株式会社日立製作所 検索式生成装置、検索システム、検索式生成方法
JP2013003796A (ja) * 2011-06-15 2013-01-07 Navitime Japan Co Ltd 施設情報提供装置、施設情報提供システム、サーバ装置、端末装置、施設情報提供方法、およびプログラム
JP5361090B2 (ja) * 2011-08-26 2013-12-04 日本電信電話株式会社 話題語獲得装置、方法、及びプログラム
JP2013178808A (ja) * 2013-05-13 2013-09-09 Fujitsu Ltd 情報検索装置、情報検索方法およびそのプログラム
JP6287192B2 (ja) * 2013-12-26 2018-03-07 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、プログラム
JP6131983B2 (ja) * 2015-05-07 2017-05-24 富士通株式会社 情報検索装置、情報検索方法およびそのプログラム
KR20180075227A (ko) * 2016-12-26 2018-07-04 삼성전자주식회사 전자 장치 및 전자 장치의 검색 서비스 제공 방법
JP7013756B2 (ja) * 2017-09-19 2022-02-01 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
JP6521118B2 (ja) * 2018-02-08 2019-05-29 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、プログラム
JP7203554B2 (ja) * 2018-10-04 2023-01-13 Tis株式会社 情報処理装置
JP7172571B2 (ja) * 2018-12-21 2022-11-16 富士フイルムビジネスイノベーション株式会社 検索装置及び検索プログラム
JP7275816B2 (ja) * 2019-04-26 2023-05-18 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06332935A (ja) * 1993-05-18 1994-12-02 Hitachi Ltd 単語の数値列表現辞書、その作成方法およびそれを使用した装置

Also Published As

Publication number Publication date
JPH1074210A (ja) 1998-03-17

Similar Documents

Publication Publication Date Title
JP3614618B2 (ja) 文献検索支援方法及び装置およびこれを用いた文献検索サービス
US5987460A (en) Document retrieval-assisting method and system for the same and document retrieval service using the same with document frequency and term frequency
US11372878B2 (en) Interface including graphic representation of relationships between search results
JP4335335B2 (ja) ドキュメント画像のソート方法
JP3942290B2 (ja) ドキュメント画像のクライアント・ワークステーションへの送信方法
US9514216B2 (en) Automatic classification of segmented portions of web pages
US6826576B2 (en) Very-large-scale automatic categorizer for web content
US5625767A (en) Method and system for two-dimensional visualization of an information taxonomy and of text documents based on topical content of the documents
US5999664A (en) System for searching a corpus of document images by user specified document layout components
US5802515A (en) Randomized query generation and document relevance ranking for robust information retrieval from a database
JP5316158B2 (ja) 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体
JP3577819B2 (ja) 情報探索装置及び情報探索方法
US20020091678A1 (en) Multi-query data visualization processes, data visualization apparatus, computer-readable media and computer data signals embodied in a transmission medium
US20090248707A1 (en) Site-specific information-type detection methods and systems
US20040230570A1 (en) Search processing method and apparatus
KR20070058685A (ko) 문서 구조에 기초한 검색 결과의 표시
JP2007317034A (ja) 画像処理装置、画像処理方法、プログラムおよび記録媒体
JPH07129602A (ja) 文書検索装置および方法
CN110765902A (zh) 一种古旧报纸的数字化保护和传承的装置
Baeza-Yates Searching the web: Challenges and partial solutions
JPH1027125A (ja) 文書分類装置
WO2004097678A1 (ja) 文書の自動分類プログラム、その方法、及び装置
JPH10301952A (ja) 文書検索装置、及び意味アイコン付加表示方法
JPH07175815A (ja) 情報検索装置
JPH11224267A (ja) ドキュメント画像の要約方法

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041019

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041027

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071112

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081112

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081112

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091112

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101112

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101112

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111112

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111112

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121112

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121112

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131112

Year of fee payment: 9

EXPY Cancellation because of completion of term