JPH1074210A - Method and device for supporting document retrieval and document retrieving service using the method and device - Google Patents

Method and device for supporting document retrieval and document retrieving service using the method and device

Info

Publication number
JPH1074210A
JPH1074210A JP9178500A JP17850097A JPH1074210A JP H1074210 A JPH1074210 A JP H1074210A JP 9178500 A JP9178500 A JP 9178500A JP 17850097 A JP17850097 A JP 17850097A JP H1074210 A JPH1074210 A JP H1074210A
Authority
JP
Japan
Prior art keywords
word
document
frequency
search
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9178500A
Other languages
Japanese (ja)
Other versions
JP3614618B2 (en
Inventor
Yoshiki Niwa
芳樹 丹羽
Hirobumi Sakurai
博文 櫻井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP17850097A priority Critical patent/JP3614618B2/en
Publication of JPH1074210A publication Critical patent/JPH1074210A/en
Application granted granted Critical
Publication of JP3614618B2 publication Critical patent/JP3614618B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a retrieving method for enabling a user to have a look at the whole image of a retrieved document group and to attain retrieval as service. SOLUTION: A feature word displaying means 22 is displayed on a display means 2, a word group characteristically appearing in a document group retrieved by a user's request is extracted, mutual relation among feature words is checked, a graph setting the feature words as nodes is prepared, and the whole image of retrieved results is displayed on the means 22. When a user selects his (or her) interested word or uninterested word while observing the displayed feature word graph, succeeding retrieval strategy can be effectively prepared.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、文献検索における
対話的なガイダンス機能を実現するためのユーザインタ
フェイスを持つ文献検索支援方法及び装置およびこれを
用いた文献検索サービスに関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a document search support method and apparatus having a user interface for realizing an interactive guidance function in document search, and a document search service using the same.

【0002】[0002]

【従来の技術】文献検索においては、ユーザーが所望す
る文献集合に早く容易に到達できるように、文献検索装
置とユーザーとのさまざまなインタフェイスが考案、開
発されている。その中の主なものとしてはフィードバッ
クとガイダンスがある。フィードバックとは検索結果の
いくつかのアイテムに対してユーザーが「当たり/はず
れ」の判定を下すと、その判定を反映した検索結果を得
ることができるしくみである。またガイダンスとは検索
作業の各段階でその検索作業と関連のあると思われる情
報、したがって利用者が検索条件を工夫したり改良した
りするのに参考となると思われる情報を提供する機能で
ある。
2. Description of the Related Art In document retrieval, various interfaces between a document retrieval apparatus and a user have been devised and developed so that a user can quickly and easily reach a desired document set. The main ones are feedback and guidance. Feedback is a mechanism by which, when a user makes a "hit / miss" determination for some items in a search result, a search result reflecting the determination is obtained. Guidance is a function that provides information that appears to be relevant to the search operation at each stage of the search operation, and thus is useful for users to devise or improve search conditions. .

【0003】ガイダンス機能については、従来一般に、
入力された検索条件に対してその関連情報を提示する方
法が行われている。例えば、シソーラスなど単語間の関
連性を示すデータベースを保持しておき、検索条件とし
て入力された語と関連のある語をデータベースから取り
出して提示する方法である。シソーラスの場合には主に
単語間の上位−下位関係を示す木構造のデータである
が、共起統計を用いて関連語データを自動生成しそれを
用いる方法もある(例えば、B. R. Schatz et al, Inte
ractive term suggestion for users of digital libra
ries: Using subject thesauri and co-occurrence lis
ts for information retrieval. Proc. ACM DL96.p.126
-133)。また、単語間の共起統計データに基づき検索語
とその関連語をネットワーク状に表示する方法も提案さ
れている(例えば、R.H. Fowler, D. W. Dearholt, Inf
ormation Retrieval Using Pathfinder Networks. In P
athfinder Associative Networks, Ablex, article 12,
Edited by R. W. Schvaneveldt(1990))。
[0003] Conventionally, a guidance function is generally used.
A method of presenting related information with respect to input search conditions has been performed. For example, there is a method in which a database indicating the relevance between words such as a thesaurus is held, and words related to the word input as a search condition are extracted from the database and presented. In the case of a thesaurus, the data is mainly tree-structured data indicating the superordinate-subordinate relationship between words. However, there is also a method of automatically generating related word data using co-occurrence statistics and using the data (for example, BR Schatz et al. , Inte
ractive term suggestion for users of digital libra
ries: Using subject thesauri and co-occurrence lis
ts for information retrieval. Proc. ACM DL96.p.126
-133). Also, a method of displaying a search word and its related words in a network based on co-occurrence statistical data between words has been proposed (for example, RH Fowler, DW Dearholt, Inf).
ormation Retrieval Using Pathfinder Networks. In P
athfinder Associative Networks, Ablex, article 12,
Edited by RW Schvaneveldt (1990)).

【0004】しかしながら、検索条件に対してその関連
情報を提示する方法では、検索語が複数になった場合や
否定が使われた場合の対処が難しく、またキーワードを
用いない書類の検索(連想検索など)にも対処が難しい
という問題がある。これを克服する方法として、検索結
果から関連情報を自動抽出してユーザに提供する手法が
ある。例えば、スキャター・ギャザー法(D.Cutting他
(1992). Scatter/Gather : A Cluster-based Approach
to Browsing Large Document Collections. Proc. ACM
SIGIR'92,p.318-329)では検索された文書群を自動分類
(クラスタリング)して各クラスごとの特徴語を表示す
るものである。しかし、クラスタリングは文書数が増え
ると計算量が2乗あるいは3乗のオーダーで大きくなる
のでリアルタイムでの反応が難しくなり、また一般に検
索作業が進んで行くとクラス間の違いが微妙になり、ク
ラスの特徴語からそのクラスの性格を把握しにくくなる
という問題があった。
However, in the method of presenting related information with respect to a search condition, it is difficult to cope with a case where a plurality of search words are used or a case where negation is used, and a search for a document that does not use a keyword (associative search). Etc.) are also difficult to deal with. As a method of overcoming this, there is a method of automatically extracting relevant information from a search result and providing it to a user. For example, the scatter-gather method (D. Cutting, etc.)
(1992). Scatter / Gather: A Cluster-based Approach
to Browsing Large Document Collections. Proc. ACM
In SIGIR '92, p.318-329), the retrieved documents are automatically classified (clustered) and characteristic words for each class are displayed. However, in clustering, when the number of documents increases, the computational complexity increases in the order of the square or cube, making it difficult to react in real time. In general, as the search operation progresses, the difference between classes becomes more subtle, There is a problem that it is difficult to grasp the character of the class from the characteristic words of the class.

【0005】[0005]

【発明が解決しようとする課題】本発明は、前述の問題
を解消して、検索された文書群に含まれる話題群をリア
ルタイムで一覧できるよう文書群に特徴的に現れる語群
の特徴語をグラフ形式またはリスト形式で画面表示する
こと、さらには、文書群に特徴的に現れる語群を低頻度
語から高頻度語までバランス良く抽出することのできる
文献検索支援方法及び装置、さらには、この文献検索を
希望するユーザが遠隔地からも行えるようにすることを
目的とする。
SUMMARY OF THE INVENTION The present invention solves the above-mentioned problem and removes the characteristic words of the words that appear characteristically in the documents so that the topics included in the retrieved documents can be listed in real time. A screen display in a graph format or a list format, and a document search support method and apparatus capable of extracting a word group characteristically appearing in a document group from low-frequency words to high-frequency words in a well-balanced manner. An object of the present invention is to enable a user who wants to search a document to be able to perform the search from a remote place.

【0006】[0006]

【課題を解決するための手段】このため、検索された文
書群に含まれる話題群をリアルタイムで一覧できるよ
う、文書群に特徴的に出現する語群をノードとし、さら
に特徴語間に強い共起関係がある場合、すなわち同一文
書中に出現しやすい度合が高い場合、その単語対にリン
クを張ることによりグラフを構成し、そのグラフを画面
表示するとともに、特徴語のグラフ表示の際に、一般的
な語と特殊性の高い語を一目で見分けることができるよ
うに縦軸方向が特徴語の文書頻度を表すようにする。リ
ストの例で言えば、特徴語を頻度クラスで分類し、文書
頻度の高いものを上段に配列して一覧できるようにして
特殊性の高い語を一目で見分けることができるようにす
る。検索された文書群から特徴語を選ぶ際に、低頻度の
語から高頻度の語までバランス良く特徴語を抽出するた
めには、特徴語を出現頻度によってクラス分けを行な
い、それぞれのクラスから頻度比、すなわち当該文書群
における文書頻度と検索対象全体における文書頻度の比
が大きいものから順に抽出する。
For this reason, a word group characteristically appearing in a document group is used as a node so that topics included in the searched document group can be listed in real time, and strong words between characteristic words are used. If there is an origin relationship, that is, if the degree of occurrence in the same document is high, a graph is constructed by linking the word pair, and the graph is displayed on the screen. The vertical axis represents the document frequency of the characteristic word so that general words and highly specific words can be distinguished at a glance. In the case of a list, for example, characteristic words are classified by frequency class, and words having a high document frequency are arranged in the upper row so that the words having a high degree of specialty can be identified at a glance. When selecting characteristic words from a group of retrieved documents, in order to extract characteristic words from low-frequency words to high-frequency words in a well-balanced manner, the characteristic words are classified according to the frequency of appearance, and the frequency is calculated from each class. Ratios are extracted in descending order of the ratio of the document frequency in the document group to the document frequency in the entire search target.

【0007】[0007]

【発明の実施の形態】BEST MODE FOR CARRYING OUT THE INVENTION

実施例1 以下、本発明の第1の実施例を図1−20に従って説明
する。本実施例は、独立に使用されるコンピュータによ
る検索装置の構成例である。本実施例では、検索結果を
グラフ表示とする場合を主体に説明する。図1に本実施
例の文献検索装置の全体構成を示す。1は入力手段、2
は表示手段、3はCPU、4は計算プログラム保持手
段、5は計算プログラムを動作させるためのワークエリ
ア、6はデータベース保持手段であり、これらの手段あ
るいは装置は、これらの間で相互に信号のやり取りをす
るためのバス100で連携される。入力手段1はキーボ
ード11、マウス12、ペン入力手段13などから構成
され、表示手段2には検索インタフェイス21および検
索をガイドするための特徴語表示手段22が表示され
る。計算プログラム保持手段4には本実施例の文献検索
装置を動作させるために必要となる検索インタフェイス
作動ルーチン41、形態素解析ルーチン42、検索ルー
チン43および特徴語表示手段作動ルーチン44が格納
される。特徴語表示手段作動ルーチン44は検索された
文書群から特徴語を抽出して特徴語表示手段22に表示
するため、特徴語抽出ルーチン441、共起関係解析ル
ーチン442、グラフ配置ルーチン443、およびグラ
フ表示ルーチン444をサブルーチンとして用いる。ワ
ークエリア5についての詳細は図2を参照して後述す
る。データベース保持手段6は検索対象となる文書デー
タベース61、検索に用いるインデックスデータベース
62、単語頻度に関するデータベース63および除外語
データベース64から構成される。これらのデータベー
スは、一般には、事前に準備されているものの中から、
使用者が自分の検索目的に合うものを検索対象データと
して選択して使用する。たとえば、新聞記事についての
検索をしたいときは、新聞社が発行しているデータベー
スを購入して使用することになる。もっとも、除外語デ
ータベース64は装置の供給者が付属データとして提供
するものである場合があろう。
Embodiment 1 Hereinafter, a first embodiment of the present invention will be described with reference to FIGS. The present embodiment is an example of a configuration of a search device using an independently used computer. In the present embodiment, a case where a search result is displayed as a graph will be mainly described. FIG. 1 shows the overall configuration of a document search apparatus according to the present embodiment. 1 is an input means, 2
Is a display means, 3 is a CPU, 4 is a calculation program holding means, 5 is a work area for operating the calculation program, and 6 is a database holding means. These means or devices are used for mutually transmitting signals. They are linked by a bus 100 for exchange. The input means 1 includes a keyboard 11, a mouse 12, a pen input means 13, and the like. The display means 2 displays a search interface 21 and a characteristic word display means 22 for guiding a search. The calculation program holding unit 4 stores a search interface operation routine 41, a morphological analysis routine 42, a search routine 43, and a characteristic word display unit operation routine 44 necessary for operating the document search apparatus of this embodiment. The characteristic word display means operation routine 44 extracts characteristic words from the retrieved document group and displays them on the characteristic word display means 22. Therefore, the characteristic word extraction routine 441, the co-occurrence relation analysis routine 442, the graph arrangement routine 443, and the graph The display routine 444 is used as a subroutine. Details of the work area 5 will be described later with reference to FIG. The database holding means 6 includes a document database 61 to be searched, an index database 62 used for search, a database 63 for word frequency, and an exclusion word database 64. These databases are generally prepared in advance,
The user selects and uses data suitable for his / her search purpose as search target data. For example, when searching for newspaper articles, a database issued by a newspaper company is purchased and used. However, the exclusion word database 64 may be provided as ancillary data by the device supplier.

【0008】図2はワークエリア5の構成についての詳
細である。ワークエリア5は計算プログラム保持手段4
にある諸ルーチンが動作するために必要となるパラメー
タや一時的なデータを保持するためのエリアであり、検
索ワークエリア51、特徴語抽出ワークエリア52、共
起関係解析ワークエリア53、グラフ配置ワークエリア
54から構成される。各エリアには、更に細分されたデ
ータエリアが備えられるが、これらの詳細についてはそ
れぞれの関連するルーチンが動作する時に説明する。ユ
ーザが文献検索をしようとするとき、まず、キーボード
11から文献検索システム起動のコマンドを入力する。
これに応じて、検索インタフェイス作動ルーチン41が
起動され、対話的に検索作業を進めるための検索インタ
フェイス21が表示手段2に表示される。図3は検索イ
ンタフェイス21の初期画面の一例である。検索インタ
フェイス21は検索要求入力部211、キーワード表示
・操作部212、ヒット件数表示部213、タイトル表
示部214、文書表示部215、検索実行ボタン216
および特徴語表示ボタン217などから構成される。
FIG. 2 shows the configuration of the work area 5 in detail. The work area 5 is a calculation program holding means 4
Are areas for holding parameters and temporary data required for the operation of various routines in the above. A search work area 51, a characteristic word extraction work area 52, a co-occurrence relation analysis work area 53, a graph layout work It is composed of an area 54. Each area has a further subdivided data area, the details of which will be described when the respective associated routines operate. When a user attempts to search a document, first, a command for starting the document search system is input from the keyboard 11.
In response, the search interface operation routine 41 is activated, and the search interface 21 for interactively performing the search operation is displayed on the display unit 2. FIG. 3 is an example of an initial screen of the search interface 21. The search interface 21 includes a search request input unit 211, a keyword display / operation unit 212, a hit count display unit 213, a title display unit 214, a document display unit 215, and a search execution button 216.
And a feature word display button 217.

【0009】本実施例では、文献検索用のキーワードと
して必須キーワード、加点キーワード、減点キーワード
の3種類を用いる。検索は必須キーワードに関するアン
ドを取って行なわれ、必須キーワードの指定の無い場合
には加点キーワードのオアで行われる。必須キーワード
で検索された文書が加点キーワードを含む場合には1点
加点し、減点キーワードを含む場合は1点減点する。同
じキーワードが同一文書に何回現れても1点の加点また
は減点とする。これら3種類のキーワードに対応してキ
ーワード表示・操作部212は3つの部分から構成され
る。構成は3つとも同様であるのでここでは一番左の必
須キーワードを主体に説明する。キーワード表示・操作
部212における必須キーワードの部分は、キーワード
表示部2121、移動ボタン21211、クリアボタン
21212から構成される。移動ボタン21211は他
の種類のキーワードを必須キーワードに移す場合に使
い、クリアボタン21212はキーワードを必須キーワ
ードから除去する場合に用いる。すなわち、加点キーワ
ードあるいは減点キーワードに表示されているキーワー
ドを選択して必須キーワードの移動ボタン21211を
押せば、選択されたキーワードが必須キーワードに移さ
れる。また、必須キーワードに表示されているキーワー
ドを選択してクリアボタン21212を押せば、選択さ
れたキーワードが必須キーワードから除去される。同じ
ように、必須キーワードに表示されているキーワードを
選択して、たとえば、加点キーワードの移動ボタン21
221を押せば、選択されたキーワードが加点キーワー
ドに移される。また、必須キーワードに表示されている
キーワードを選択して、減点キーワードの移動ボタン2
1231を押せば、選択されたキーワードが減点キーワ
ードに移される。
In this embodiment, three types of keywords for document search are used: essential keywords, additional keywords, and deducted keywords. The search is performed by taking an AND of the essential keywords, and if no essential keyword is specified, the search is performed by OR of the additional keywords. One point is added when the document searched for the essential keyword includes the point keyword, and one point is deducted when the document searched for the essential keyword includes the point keyword. Regardless of how many times the same keyword appears in the same document, one point is added or subtracted. The keyword display / operation unit 212 is composed of three parts corresponding to these three types of keywords. Since the configuration is the same for all three, the following description will be focused on the leftmost essential keyword. The essential keyword portion in the keyword display / operation unit 212 includes a keyword display unit 2121, a move button 21211, and a clear button 21212. The move button 21211 is used to transfer another type of keyword to the required keyword, and the clear button 21212 is used to remove the keyword from the required keyword. That is, when a keyword displayed as an additional keyword or a deducted keyword is selected and the move button 21211 for essential keyword is pressed, the selected keyword is moved to the essential keyword. When a keyword displayed as an essential keyword is selected and the clear button 21212 is pressed, the selected keyword is removed from the essential keywords. Similarly, a keyword displayed as a required keyword is selected, and for example, a move button 21
If the user presses 221, the selected keyword is moved to the additional keyword. In addition, select a keyword displayed as a required keyword, and click a deduction keyword move button 2
If the user presses 1231, the selected keyword is moved to the deduction keyword.

【0010】また、これらの移動ボタンは後述するよう
に、表示されている特徴語をキーワードにコピーするた
めのコピーボタンとしても使用される。すなわち、移動
かコピーかは対象となる語がどこの領域にあるかにより
使い分けられる。検索要求を入力する場合には、検索要
求入力部211の検索要求入力窓2111をマウス12
でクリックするなどして入力待ち状態にしてからキーボ
ード11を用いて必須キーワード、加点キーワードおよ
び減点キーワード等の検索要求を入力する。続いて入力
完了ボタン2112を押すと、入力窓2111に入力さ
れた文字列が形態素解析ルーチン42へ渡されて単語列
に分割され、さらに除外語データベース64を参照し
て、そこに登録されている単語を除去した結果がキーワ
ード格納エリア511のデフォールトのキーワード格納
エリア5111または5112(図2)へ格納される。
ここではデフォールトのキーワードのタイプは必須キー
ワードとした。また、それぞれの内容はキーワード表示
部2121または2122にリストの形で表示される。
この場合、後述する例からも分かるように、形態素解析
ルーチン42が持つ辞書に応じて単語の分割状態が決ま
る。
[0010] These move buttons are also used as copy buttons for copying the displayed characteristic word to the keyword, as described later. That is, whether to move or copy is used depending on where the target word is located. When inputting a search request, the search request input window 211
Then, a search request such as an essential keyword, an additional keyword, and a deducted keyword is input by using the keyboard 11 to wait for an input by clicking or the like. Subsequently, when the input completion button 2112 is pressed, the character string input to the input window 2111 is passed to the morphological analysis routine 42, divided into word strings, and registered with reference to the excluded word database 64. The result of removing the word is stored in the default keyword storage area 5111 or 5112 (FIG. 2) of the keyword storage area 511.
Here, the default keyword type is a required keyword. Each content is displayed in the form of a list on the keyword display unit 2121 or 2122.
In this case, as will be understood from an example described later, the word division state is determined according to the dictionary of the morphological analysis routine 42.

【0011】ここで、検索実行ボタン216を押すと検
索ルーチン43が起動され、検索用インデックスデータ
ベース62(すなわちある単語がどの文書に含まれてい
るかを示すデータ)を参照して、必須キーワードをアン
ドで含む文書を検索し、結果として得られ文書識別番号
の列が検索結果格納エリア512へ格納される。なお検
索ルーチン43は必須キーワードで検索された文書につ
いて加点キーワードが含まれている場合には加点キーワ
ードの一つについて1点加点し、減点キーワードが含ま
れている場合には減点キーワードの一つについて1点減
点するという作業を行ない、この得点も文書識別番号と
合わせて検索結果格納エリア512へ格納する。必須キ
ーワードの指定がない場合には、検索ルーチン43は加
点キーワードに関する検索を加点キーワードのオアで行
ない、以下同様の仕方で得点を計算する。必須キーワー
ドも加点キーワードもない場合には、検索実行ボタン2
16が押されても検索は行なわない。
Here, when a search execution button 216 is pressed, a search routine 43 is started, and a required keyword is ANDed with reference to a search index database 62 (that is, data indicating which document contains a certain word). Are searched, and a row of the obtained document identification numbers is stored in the search result storage area 512. Note that the search routine 43 adds one point to one of the additional keywords when the additional keyword is included in the document searched by the indispensable keyword, and adds one to the additional keyword when the additional keyword is included. The work of deducting one point is performed, and this score is stored in the search result storage area 512 together with the document identification number. If the essential keyword is not specified, the search routine 43 performs a search for the additional keyword by OR of the additional keyword, and calculates a score in the same manner. If there are no required keywords and no additional keywords, search execution button 2
No search is performed even if 16 is pressed.

【0012】必須キーワードは、検索に際してはアンド
で処理されるから、より厳密に検索結果を絞りこみたい
ときには不可欠であるが、どちらかといえば、検索結果
に漏れがない検索をしたいときには、加点キーワードの
みとしてこのオアで検索を行い、この検索結果に入って
欲しくない事項を含む可能性がある事項を想定できると
きは減点キーワードを設定するのがよい。さらに、検索
ルーチン43は検索結果格納エリア512に格納された
検索結果から得点分布を計算し、その結果を検索結果得
点分布格納エリア513に格納する。得点分布とは加点
または減点の得点が何点の文書が何件あったかを示すデ
ータである。
The essential keyword is processed by AND in the search, so it is indispensable to narrow down the search result more strictly. However, if it is desired to search without any omission in the search result, the additional keyword is added. It is preferable to set a deduction keyword when a search is performed in this OR as only an item, and when it is possible to assume a matter that may include a matter that the user does not want to enter into the search result. Further, the search routine 43 calculates a score distribution from the search results stored in the search result storage area 512, and stores the result in the search result score distribution storage area 513. The score distribution is data indicating how many documents have a score of addition or deduction.

【0013】以下「電子出版」を必須キーワードとする
検索要求を入力した場合を例に採り説明する。「電子出
版」なる文字列を必須キーワードとして検索要求入力窓
2111に入力した後、入力完了ボタン2112を押
す。形態素解析ルーチン42により「電子出版」は「電
子/出版」と分割されて必須キーワード格納エリア51
11に格納され、さらに必須キーワード表示部2121
の1行目と2行目に分割して表示される。図4は、この
段階で検索実行ボタン216を押した場合の検索ワーク
エリア51の状態を示したものである。今の例では必須
キーワードが「電子」と「出版」なので、それらが必須
キーワード格納エリア5111に格納されている。それ
以外の加点キーワードあるいは減点キーワードは、検索
要求入力窓2111に検索者によって付与されなかった
ので、加点キーワード格納エリア5112と減点キーワ
ード格納エリア5113は空欄のままである。また検索
された文書番号とその得点が検索結果文書番号格納エリ
ア512に格納されている。この場合には加点キーワー
ドと減点キーワードがないので得点は全て0である。ま
た得点別に件数をカウントして得られるデータが検索結
果得点分布格納エリア513に格納されている。この場
合得点は0のみでそれが77件あったことを示してい
る。
An example in which a search request having "electronic publishing" as a required keyword is input will be described below. After inputting the character string “electronic publishing” as a required keyword in the search request input window 2111, the input completion button 2112 is pressed. “Electronic publishing” is divided into “electronic / publishing” by the morphological analysis routine 42 and the essential keyword storage area 51
11 and a required keyword display unit 2121
Are displayed on the first line and the second line. FIG. 4 shows the state of the search work area 51 when the search execution button 216 is pressed at this stage. In this example, since the essential keywords are “electronic” and “publishing”, they are stored in the essential keyword storage area 5111. Since no other additional keywords or additional keywords are added to the search request input window 2111 by the searcher, the additional keyword storage area 5112 and the additional keyword storage area 5113 are left blank. The searched document number and its score are stored in the search result document number storage area 512. In this case, the points are all 0 because there are no additional keywords and no deduction keywords. Data obtained by counting the number of cases for each score is stored in the search result score distribution storage area 513. In this case, the score was only 0, indicating that there were 77 cases.

【0014】図5は、この検索結果を表示した検索イン
タフェイス21の状態を示したものである。必須キーワ
ード表示部2121に必須キーワード「電子」と「出
版」が表示され、ヒット件数表示部213に検索結果得
点分布格納エリア513の内容が表示され、タイトル表
示部214には検索された文書識別番号とそのタイトル
が1件1行で適当数表示されている。表示されていない
文書識別番号とそのタイトルを知りたいときは、いわゆ
るスクロールバーによって表示に現れる部分をずらせば
よい。表示されたタイトルから本文を読んで見たいもの
があれば、該当するタイトルの所をマウスなどで指示す
れば本文の内容の一部が文書表示部215に表示され
る。表示されていない部分の文書の内容を知りたいとき
は、同じように、スクロールバーによって表示に現れる
部分をずらせばよい。
FIG. 5 shows the state of the search interface 21 displaying the search result. The required keywords “electronic” and “published” are displayed in the required keyword display unit 2121, the contents of the search result score distribution storage area 513 are displayed in the hit number display unit 213, and the searched document identification number is displayed in the title display unit 214. And an appropriate number of titles are displayed on each line. If the user wants to know the document identification number and its title that are not displayed, the part appearing on the display may be shifted by a so-called scroll bar. If there is something that the user wants to read and see from the displayed title, pointing to the title with a mouse or the like causes a part of the content of the text to be displayed on the document display unit 215. If the user wants to know the contents of the document not displayed, the user can shift the part appearing on the display using the scroll bar in the same manner.

【0015】これで「電子出版」に関する文書が77件
検索されたことになるが、次の段階として、さらに検索
を特定の対象に絞り込みたい場合、あるいはそうでなく
てもこの77件の文書にはどのような話題が含まれてい
るかを概観したい場合がある。このような場合には検索
インタフェイス21(図3)上の特徴語表示ボタン21
7を押すと特徴語表示手段作動ルーチン44が起動さ
れ、特徴語表示手段22が表示画面2に表示される。
Thus, 77 documents related to “electronic publishing” have been searched. As the next stage, if it is desired to further narrow down the search to a specific target, or if this is not the case, the 77 documents are searched. You may want to get an overview of what topics are included. In such a case, the feature word display button 21 on the search interface 21 (FIG. 3)
When 7 is pressed, the characteristic word display means operation routine 44 is started, and the characteristic word display means 22 is displayed on the display screen 2.

【0016】図6は特徴語表示手段22の一例の詳細を
示したものである。特徴語表示手段22は操作部22
1、キーワード表示・操作部222、ヒット件数表示部
223、特徴語表示部224、パラメーター設定部22
5から構成される。キーワード表示・操作部222およ
びヒット件数表示部223は検索インタフェイス21の
キーワード表示・操作部212およびヒット件数表示部
213とそれぞれ連動しており、特徴語表示手段22上
の操作によりこれらの表示内容が変化した場合には自動
的に検索インタフェイス21の方のそれぞれの表示も変
化する。しかし逆方向、すなわち検索インタフェイス2
1上の操作によりキーワードやヒット件数が変化した場
合には自動的には特徴語表示手段22上には反映されな
い。これを取り込むには、操作部221のリセットボタ
ン2214を押すと検索インタフェイス21側の内容が
こちらの特徴語表示手段22側へコピーされる。なお検
索インタフェイス21上の特徴語表示ボタン217を押
すことで表示画面2に表示される特徴語表示手段22の
初期画面では検索インタフェイス21上のキーワードと
ヒット件数が自動的にコピーされる。今の例の場合、必
須キーワード表示部2221には「電子」と「出版」が
表示され、ヒット件数表示部223には「得点0:77
件」が表示されている。
FIG. 6 shows details of an example of the characteristic word display means 22. The characteristic word display means 22 is an operation unit 22
1. Keyword display / operation unit 222, number of hits display unit 223, characteristic word display unit 224, parameter setting unit 22
5 is comprised. The keyword display / operation unit 222 and the number of hits display unit 223 are linked with the keyword display / operation unit 212 and the number of hits display unit 213 of the search interface 21, respectively. Is changed, the respective displays of the search interface 21 are also automatically changed. But in the opposite direction, search interface 2
If the keyword or the number of hits is changed by the above operation, it is not automatically reflected on the characteristic word display means 22. In order to capture the contents, when the reset button 2214 of the operation unit 221 is pressed, the contents of the search interface 21 are copied to the characteristic word display unit 22. By pressing the characteristic word display button 217 on the search interface 21, the keyword on the search interface 21 and the number of hits are automatically copied on the initial screen of the characteristic word display means 22 displayed on the display screen 2. In the case of this example, “Electronic” and “Publishing” are displayed in the essential keyword display section 2221, and “Score 0:77” is displayed in the hit number display section 223.
Cases "are displayed.

【0017】ここで、操作部221の特徴語表示ボタン
2212を押すと特徴語抽出ルーチン45が起動され、
検索結果格納エリア512に格納されたデータから最高
得点の文書識別番号を読み込み、それらの文書識別番号
に相当する文書の内容を解析して、それらに特徴的に含
まれる単語(特徴語)と、それら特徴語間の関連性を解
析してグラフにした結果を特徴語表示部224に表示す
る。その過程は以下の説明で詳述する。図7は「電子出
版」の例で、グラフ格納エリア543(図2)に格納さ
れたデータを示したものである。グラフはノードとリン
クからなりそれぞれノード格納エリア5431と、リン
ク格納エリア5432とに格納されている。格納される
ノードデータは各ノードに表示される特徴語(文字列)
とそれを特徴語表示部224のどこに表示すべきかを示
す座標を中心座標で、さらに文字を表示する領域の横と
縦の文字数と表示領域のサイズで構成されている(ただ
し表示領域のサイズについては、使いやすいようにそれ
らの1/2の値、すなわち中心から端までのサイズにし
てある。)。一方、格納されるリンクデータはグラフ上
に表示すべき線分の始点座標と終点座標で構成されてい
る。図では、リンク格納エリア5432に格納されてい
る始点座標と終点座標の他に、参考までに、それぞれに
対応する文字列のデータを付記したが、実際の装置で
は、このデータは不要である。図8は、操作部221の
特徴語表示ボタン2212が押されて、特徴語のグラフ
が表示された状態の特徴語表示手段22を示した図であ
る。グラフ表示ルーチン444が、グラフ格納エリア5
43のデータに従って、特徴語表示部224に特徴語と
これを結ぶリンクよりなるグラフを表現する。例えば図
7のデータから「コンパクト」は座標(149,13
1)を中心として、横方向文字数3、行数2で且横方向
で両側に27、縦方向で上下に18の矩形の領域を表示
域として表示される。この実施例では、座標は特徴語表
示部224の左上を始点として横方向は右向に、縦方向
は下向に取る。また、リンクデータは始点と終点の座標
で定義される。リンクデータの1番目は、特徴語「出
版」と「電子」との中心座標を結ぶことを意味し、2番
目のデータは座標(203,131)から(308,4
0)への線分を意味する。これらの語の表示に際して
は、それぞれのノードの表示領域には文字表示用に背景
に白色不透明の矩形を表示して、ノードの表示領域で
は、線分を隠すのがグラフとしては見やすいが、一方、
リンクを示すグラフの線とノードの表示領域が重なる
と、グラフの線が現れないことになり誤解を招くことに
なりかねない。例えば、図7のデータでは、「デスクト
ップパブリッシング」と「出版物」を結ぶグラフの線は
「ニフティサーブ」の表示領域を通過することになるか
ら、「ニフティサーブ」に白色不透明の矩形をつける
と、この部分でグラフの線が線としては表われないこと
になる。その結果、「ニフティサーブ」と「出版物」と
がグラフの線で結ばれ、さらに「ニフティサーブ」と
「デスクトップパブリッシング」とがグラフの線で結ば
れたように見えることになる。図8では、この対策とし
て、背景に白色不透明の矩形を表示する代わりに、グラ
フの線の始点及び終点の近傍でのみグラフの線が表示さ
れないようにしてそのノードの表示領域の中に入り込む
のを避けるとともに、他の表示領域については通過して
いることがわかる表示とした。白色不透明の矩形をつけ
てもグラフの線が隠れないように配置することは大変難
しく、特に多数の特徴語をグラフ表示しようとすると見
やすいサイズでの表示が不可能となりかねない。
Here, when the characteristic word display button 2212 of the operation unit 221 is pressed, a characteristic word extraction routine 45 is started,
The document identification numbers with the highest scores are read from the data stored in the search result storage area 512, the contents of the documents corresponding to the document identification numbers are analyzed, and words (characteristic words) characteristically included in the documents are analyzed. The result of analyzing the relevance between these characteristic words and forming a graph is displayed on the characteristic word display unit 224. The process will be described in detail below. FIG. 7 shows an example of “electronic publishing”, which shows data stored in the graph storage area 543 (FIG. 2). The graph includes nodes and links, and is stored in a node storage area 5431 and a link storage area 5432, respectively. The stored node data is the characteristic word (character string) displayed at each node
And the coordinates indicating where to display it in the characteristic word display unit 224 are the center coordinates, and the number of horizontal and vertical characters of the character display area and the size of the display area. Are half their value, ie, the size from the center to the edge, for ease of use.) On the other hand, the stored link data is composed of start point coordinates and end point coordinates of a line segment to be displayed on the graph. In the figure, in addition to the start point coordinates and the end point coordinates stored in the link storage area 5432, corresponding character string data are added for reference, but in an actual device, this data is unnecessary. FIG. 8 is a diagram illustrating the characteristic word display unit 22 in a state where the characteristic word display button 2212 of the operation unit 221 is pressed and a graph of characteristic words is displayed. The graph display routine 444 determines that the graph storage area 5
According to the data 43, a graph composed of characteristic words and links connecting the characteristic words is expressed in the characteristic word display unit 224. For example, from the data of FIG.
The display area is a rectangular area having 3 characters in the horizontal direction, 2 lines in the horizontal direction, 27 pixels on both sides in the horizontal direction, and 18 pixels vertically in the vertical direction. In this embodiment, starting from the upper left of the characteristic word display unit 224, the coordinates are set to the right in the horizontal direction and to the down in the vertical direction. The link data is defined by the coordinates of the start point and the end point. The first of the link data means connecting the center coordinates of the feature words “publishing” and “electronic”, and the second data is from coordinates (203, 131) to (308, 4).
0) means a line segment. When displaying these words, a white opaque rectangle is displayed on the background of each node for character display in the display area of the node, and in the display area of the node, hiding the line segment is easy to see as a graph, ,
If the line of the graph indicating the link and the display area of the node overlap, the line of the graph does not appear, which may be misleading. For example, in the data of FIG. 7, the line of the graph connecting “Desktop Publishing” and “Publication” passes through the display area of “Nifty Serve”. At this point, the line of the graph does not appear as a line. As a result, "Nifty Serve" and "Publication" are connected by graph lines, and "Nifty Serve" and "Desktop Publishing" appear to be connected by graph lines. In FIG. 8, as a countermeasure, instead of displaying a white opaque rectangle on the background, the graph line is not displayed only near the starting point and the ending point of the graph line and enters the display area of the node. And the other display areas are displayed so as to indicate that they are passing. Even if a white opaque rectangle is attached, it is very difficult to arrange the graph so that the lines of the graph are not hidden. Particularly, if many characteristic words are to be displayed in a graph, it may be impossible to display the characteristic words in an easily viewable size.

【0018】パラメータ設定部225の特徴語表示設定
手段2251は特徴語表示部224に表示する単語数を
調節するためのものであり、設定用つまみ22511を
左右に動かして所望の数値に設定する。表示部2251
2にはその設定値が表示され、特徴語抽出パラメータ格
納エリア521の抽出語数格納エリア5213にその値
が格納される。なおこの値は特徴語抽出ルーチン441
によって利用される。以下では特徴語表示手段22の特
徴語表示ボタン2212が押されてから、図7に示した
ようなグラフデータが作成されるまでの過程を説明す
る。特徴語表示ボタン2212が押されると、計算プロ
グラム保持手段4に格納されている特徴語抽出ルーチン
441以下共起関係解析ルーチン442、グラフ配置ル
ーチン443が順に起動される。特徴語抽出ルーチン4
41は検索ワークエリア51の検索結果得点分布格納エ
リア513から最高得点とその件数を読み込む。図4に
示した「電子」と「出版」の例では最高得点(S)は0
点でありその件数(K)は77件である。また特徴語抽
出パラメータ格納エリア521から走査文書数上限値
(M)5211を読み込む。(ここではM=300とす
る。)これは検索された文書件数Kが大きい時にすべて
の文書を解析していると時間がかかるので、一定限度M
を越える場合にはM個のサンプル抽出を行なうためのパ
ラメータである。
The characteristic word display setting means 2251 of the parameter setting section 225 is for adjusting the number of words displayed on the characteristic word display section 224. The setting knob 22511 is moved right and left to set a desired numerical value. Display unit 2251
2, the set value is displayed, and the value is stored in the extracted word number storage area 5213 of the characteristic word extraction parameter storage area 521. This value is used as the characteristic word extraction routine 441.
Utilized by. Hereinafter, a process from when the characteristic word display button 2212 of the characteristic word display unit 22 is pressed to when the graph data as shown in FIG. 7 is created will be described. When the characteristic word display button 2212 is pressed, a characteristic word extraction routine 441 and a co-occurrence relation analysis routine 442 and a graph arrangement routine 443 stored in the calculation program holding unit 4 are sequentially activated. Feature word extraction routine 4
41 reads the highest score and the number thereof from the search result score distribution storage area 513 of the search work area 51. In the example of “electronic” and “publishing” shown in FIG. 4, the highest score (S) is 0.
It is a point and the number (K) is 77 cases. Further, the upper limit (M) 5211 of the number of scanned documents is read from the feature word extraction parameter storage area 521. (Here, it is assumed that M = 300.) Since it takes time to analyze all documents when the number K of retrieved documents is large, a certain limit M
In the case where the value exceeds, the parameter is for extracting M samples.

【0019】特徴語抽出ルーチン441は、次に、検索
結果格納エリア512を参照し、得点が最高得点Sと一
致するすべての文書識別番号についてそれらの内容を検
索対象文書データベース61から読み込み、形態素解析
ルーチン42を用いて単語分割し、出現するすべての種
類の単語についてそれが出現する文書の数(以下これを
文書頻度と呼ぶ)をカウントする。この例では最高得点
の件数Kが77件で、走査文書数上限値M=300以下
であったのですべての文書を読み込む。なお、該当文書
の形態素解析は、データベース保持手段にゆとりがある
場合には、あらかじめ全文書を形態素解析した結果を保
持しておき、それを読み込むようにすることも可能であ
る。そうすれば、検索の都度形態素解析をする必要がな
くなるので解析時間を大幅に短縮できて有効である。こ
うして得られる単語とその文書頻度のデータは特徴語抽
出ワークエリア52の中の頻度データ格納エリア523
に格納される。なお上記で該当文書を形態素解析した結
果は後にも使うので、単語分割済み文書格納エリア52
2に格納しておく。
Next, the characteristic word extraction routine 441 refers to the search result storage area 512, reads the contents of all the document identification numbers whose scores match the highest score S from the search target document database 61, and performs morphological analysis. Words are divided by using the routine 42, and the number of documents in which the words appear in all types of words (hereinafter referred to as document frequency) is counted. In this example, since the number K of the highest scores is 77 and the upper limit value of the number of scanned documents M = 300 or less, all the documents are read. In the morphological analysis of the document, if there is enough space in the database holding means, it is possible to hold the result of morphological analysis of all documents in advance and read it. This eliminates the need to perform morphological analysis each time a search is performed, so that the analysis time can be significantly reduced, which is effective. The word and the document frequency data thus obtained are stored in the frequency data storage area 523 in the feature word extraction work area 52.
Is stored in Since the result of the morphological analysis of the relevant document is used later, the word-divided document storage area 52 is used.
2 is stored.

【0020】図9は「電子出版」の例で頻度データ格納
エリア523に格納されたデータの一部を示す。各単語
ごとのデータは単語名、文書頻度、全体文書頻度、頻度
比、頻度クラスの5項目で構成されている。文書頻度は
上記作業で検索された文書(この場合77件)の内の何
件のにその単語が出現したかを表す頻度である。また全
体文書頻度はキーワードによる検索結果に関係なく、検
索対象文書全体で何件の文書に使われているかという頻
度である。その情報は単語頻度データベース63に格納
されており、そこから該当する単語の頻度情報を取り出
して来たものである。ここで、単語頻度データベース6
3は予め検索対象全文書を走査して、出現する全ての単
語についてその文書頻度をカウントして作成しておくも
のとする。頻度比は文書頻度を全体文書頻度で割算した
値である。例えば一番最初の「ROM」では文書頻度が
21で全体文書頻度が1183なので頻度比は21÷1
183≒0.017である。
FIG. 9 shows a part of data stored in the frequency data storage area 523 in the example of “electronic publishing”. The data for each word is composed of five items: word name, document frequency, overall document frequency, frequency ratio, and frequency class. The document frequency is a frequency representing the number of occurrences of the word in the documents (77 in this case) searched in the above operation. The total document frequency is a frequency indicating how many documents are used in the entire search target document regardless of the search result by the keyword. The information is stored in the word frequency database 63, and frequency information of the corresponding word is extracted therefrom. Here, the word frequency database 6
Reference numeral 3 presupposes that all documents to be searched are scanned in advance, and document frequencies of all appearing words are counted and created. The frequency ratio is a value obtained by dividing the document frequency by the entire document frequency. For example, in the first “ROM”, the document frequency is 21 and the entire document frequency is 1183, so the frequency ratio is 21 ÷ 1.
183 ≒ 0.017.

【0021】次に、頻度クラスについて説明する。一般
にある文書群に特徴的な語は頻度比の大きさにより判断
でき、頻度比が大きいほど特徴度が高いと言える。しか
し文書頻度が大きく異なる2つの単語を頻度比で比較す
るのは危険である。低頻度語の場合には全体頻度が低い
のでたまたま頻度比が大きくなる確率が高い。たとえ
ば、図9では、「デスクトップパブリッシング」の頻度
比は0.75となっており、頻度比が大きく特徴度が高
いと言えるかと言えば、そうではない。これは文書頻度
が3にすぎないのに、全体文書頻度も4でしかないため
である。そこで文書頻度が大きく異なる単語同士は比較
しないよう、予め文書頻度を適当な幅で区分してクラス
分けを行ない各クラスで頻度比が大きいものを特徴語と
して取る。これによって低頻度語から高頻度語までバラ
ンス良く特徴語を抽出することが可能となる。以下頻度
クラスの決め方の一例の説明である。特徴語ルーチン4
41は頻度クラス分割数(C)5212を読み込む、こ
れはいくつの頻度クラスに分割するかを示すパラメータ
であり、使用者が設定する。ここではC=5とする(一
般にCは1以上の整数である)。i番目の頻度クラスを
C[i]として、C[i]に属するための文書頻度がf
[i]以上f[i+1]未満であるとする。ただし最大
のクラスについては「f[i+1]未満」のかわりに
「f[i+1]以下」とする。この頻度閾値f[i]の
値の決め方であるが、ここではその一例としてK’を該
当文書数として、f[i]=K’の(i/(C+1))
乗、とする。(検索された文書数Kが走査文書数上限値
Mを越えない場合にはK’=Kであり、K>Mの場合に
はK’=Mである。)今の例ではK’=77でC=5で
あるから、f[1]=77の(1/6)乗=2.06,
以下、f[2]=4.25,f[3]=8.77,f
[4]=18.10,f[5]=37.33となる。従
って、クラス1:文書頻度3以上4以下、クラス2:文
書頻度5以上8以下、クラス3:文書頻度9以上18以
下、クラス4:文書頻度19以上37以下、クラス5:
文書頻度38以上77以下、である。
Next, the frequency class will be described. In general, words characteristic of a certain document group can be determined from the magnitude of the frequency ratio, and the higher the frequency ratio, the higher the characteristic level. However, it is dangerous to compare two words having greatly different document frequencies in a frequency ratio. In the case of low-frequency words, since the overall frequency is low, there is a high probability that the frequency ratio happens to increase. For example, in FIG. 9, the frequency ratio of “desktop publishing” is 0.75, and it cannot be said that the frequency ratio is large and the feature level is high. This is because the document frequency is only 3 and the overall document frequency is only 4. Therefore, in order not to compare words having greatly different document frequencies, the document frequencies are divided into appropriate classes in advance and classified into classes, and words having a large frequency ratio in each class are taken as characteristic words. This makes it possible to extract characteristic words from low-frequency words to high-frequency words in a well-balanced manner. The following is an example of how to determine the frequency class. Feature word routine 4
Reference numeral 41 denotes a frequency class division number (C) 5212, which is a parameter indicating the number of frequency classes to be divided and set by the user. Here, C = 5 (generally, C is an integer of 1 or more). Assuming that the i-th frequency class is C [i], the document frequency for belonging to C [i] is f
It is assumed that it is not less than [i] and less than f [i + 1]. However, for the largest class, "f [i + 1] or less" is used instead of "less than f [i + 1]". The method of determining the value of the frequency threshold f [i] is, for example, here, assuming that K ′ is the number of relevant documents, f [i] = K ′ (i / (C + 1))
To the power. (K '= K when the number K of retrieved documents does not exceed the upper limit M of the number of scanned documents, and K' = M when K> M.) In this example, K '= 77. Since C = 5, f [1] = 77 to the (1/6) th power = 2.06,
Hereinafter, f [2] = 4.25, f [3] = 8.77, f
[4] = 18.10 and f [5] = 37.33. Therefore, Class 1: Document frequency 3 or more and 4 or less, Class 2: Document frequency 5 or more and 8 or less, Class 3: Document frequency 9 or more and 18 or less, Class 4: Document frequency 19 or more and 37 or less, Class 5:
The document frequency is 38 or more and 77 or less.

【0022】この分類条件に従って、各語の文書頻度か
らそれらの語の頻度クラスを決める。「ROM」の場合
には文書頻度が21なのでクラス4、また「インタラク
ティブ」は文書頻度が5なのでクラス2となる。なお文
書頻度がクラス1よりも小さい場合(この場合文書頻度
2以下)については特徴語抽出の対象から除外する。上
記の頻度クラスの付与は次の式で直接計算することもで
きる。ただしその値がCと一致する場合には1を引き算
する。 (頻度クラス)={log(文書頻度)÷logK’×
(C+1)}を越えない最大の整数値−1 続いて特徴語抽出ルーチンは抽出語数(p)5213を
読み込み、各頻度クラスから頻度比が上位のものを合計
でこの個数になるように抽出する。それを実現する方法
の一例としては、抽出語数pを頻度クラス分割数Cで割
算して得られる商をn、余りをrとして、頻度クラスが
1以上r以下のクラスからはn+1個取り、頻度クラス
がrより大きいクラスからはn個取るという方法があ
る。
According to the classification condition, the frequency class of each word is determined from the document frequency of each word. In the case of “ROM”, the document frequency is 21 and the class is 4, and in the case of “interactive”, the document frequency is 5 and the class is 2. If the document frequency is lower than class 1 (in this case, the document frequency is 2 or less), it is excluded from the feature word extraction. The above assignment of the frequency class can also be directly calculated by the following equation. However, if the value matches C, 1 is subtracted. (Frequency class) = {log (document frequency) ÷ logK '×
(C + 1) Maximum integer value not exceeding -1 Subsequently, the feature word extraction routine reads the number of extracted words (p) 5213, and extracts from the respective frequency classes the ones with the highest frequency ratios so as to add up to this number. . As an example of a method for realizing this, the quotient obtained by dividing the number p of extracted words by the number C of frequency class divisions is n, and the remainder is r. From classes whose frequency classes are 1 or more and r or less, n + 1 are taken. There is a method of taking n classes from classes whose frequency class is larger than r.

【0023】以下抽出個数pが10であるとして図9の
例で説明する。分割数Cは5なのでp÷Cの商nは2,
余りrは0である。従ってクラス1〜5から均等に2個
づつ取ることになる。頻度データ格納エリア523のデ
ータから各頻度クラスのものについて頻度比が大きいも
のから順に2個ずつ取る。図9のデータより、クラス5
の単語を頻度比が大きい順にならべると「出版」(0.
027),「電子」(0.015),「メディア」
(0.006),「情報」(0.001)となる。従っ
て上位2つの「出版」と「電子」が特徴語として取られ
る。以下同様にしてクラス4からは「ROM」と「コン
パクト」、クラス3からは「メール」と「出版物」、ク
ラス2からは「インタラクティブ」と「ニフティサー
ブ」、クラス1からは「デスクトップパブリッシング」
と「パブリッシング」が特徴語として抽出される。それ
らは特徴語リスト格納エリア524に格納される。
The following description will be made with reference to the example of FIG. 9 on the assumption that the number of extractions p is 10. Since the number of divisions C is 5, the quotient n of p ÷ C is 2,
The remainder r is 0. Therefore, two pieces are equally taken from the classes 1 to 5. From the data in the frequency data storage area 523, two data of each frequency class are taken in ascending order of frequency ratio. From the data in FIG. 9, class 5
The words “published” (0.
027), "Electronics" (0.015), "Media"
(0.006) and “information” (0.001). Therefore, the top two “publishing” and “electronic” are taken as characteristic words. Similarly, from class 4, "ROM" and "compact" from class 4, "mail" and "publication" from class 3, "interactive" and "nifty serve" from class 2, and "desktop publishing" from class 1
And "publishing" are extracted as characteristic words. They are stored in the feature word list storage area 524.

【0024】図10は特徴語リスト格納エリア524に
格納されたデータの例である。上記プロセスにより抽出
された特徴語とそれらの文書頻度が格納されている。図
では、参考に頻度クラスも示したが、これはなくても良
い。以上で特徴語抽出ルーチン441を抜け、続いて共
起関係解析ルーチン442が特徴語間の共起データ関係
を解析し、結果を共起データ格納エリア531に格納す
る。
FIG. 10 shows an example of data stored in the feature word list storage area 524. The characteristic words extracted by the above process and their document frequencies are stored. In the figure, the frequency class is shown for reference, but this need not be provided. As described above, the process exits the feature word extraction routine 441. Subsequently, the co-occurrence relationship analysis routine 442 analyzes the co-occurrence data relationship between the feature words, and stores the result in the co-occurrence data storage area 531.

【0025】共起データ格納エリア531は特徴語リス
ト格納エリア524に格納された特徴語の集合を縦横に
持つ2次元の配列である。各要素は対応する単語対が共
通して現れる文書の数を表す。共起関係解析ルーチン4
42は検索された文書群を単語分割したものを単語分割
済み文書格納エリア522から読み込み、各文書ごとに
共出現するすべての特徴語ペアについて、共起データ格
納エリア531の対応する要素をインクリメントしてい
く。
The co-occurrence data storage area 531 is a two-dimensional array having a set of characteristic words stored in the characteristic word list storage area 524 vertically and horizontally. Each element represents the number of documents in which the corresponding word pair appears in common. Co-occurrence relation analysis routine 4
Reference numeral 42 reads a word-segmented document group from the word-segmented document storage area 522, and increments the corresponding element in the co-occurrence data storage area 531 for all characteristic word pairs that co-occur for each document. To go.

【0026】次に共起関係解析ルーチン442は各特徴
語対に対して共起強度を計算する。共起強度は上記作業
でカウントされた共起頻度を単語ペアの後者(表では列
に当たる単語)の文書頻度で割った値である。単語の文
書頻度は特徴語リスト格納エリア524に格納されてい
る値(図10)を用いる。図11は、この段階における
共起データ格納エリア531に格納されたデータを示
す。各桝目は二つの数値から構成され、上段が対応する
単語対の共起頻度、下段が単語対の共起強度(共起頻度
÷列側の単語の文書頻度)である。例えば6行3列の上
段数値6は、6行目の特徴語「出版物」と3列目の特徴
語「ROM」が6件の文書に共出現したことを意味す
る。この場合単語対の列側の単語「ROM」の文書頻度
は21なので、下段の共起強度の数値は6÷21≒0.
29となる。共起データ格納エリア531では特徴語は
文書頻度の高い順に並べている。後の作業で用いるのは
表の対角線の下半分だけなので、残りの部分は省略し
た。
Next, the co-occurrence relation analysis routine 442 calculates the co-occurrence strength for each characteristic word pair. The co-occurrence strength is a value obtained by dividing the co-occurrence frequency counted in the above operation by the document frequency of the latter word in the table (the word corresponding to the column in the table). The value (FIG. 10) stored in the feature word list storage area 524 is used as the document frequency of the word. FIG. 11 shows the data stored in the co-occurrence data storage area 531 at this stage. Each cell is composed of two numerical values, and the upper row shows the co-occurrence frequency of the corresponding word pair, and the lower row shows the co-occurrence strength of the word pair (co-occurrence frequency / document frequency of the word on the column side). For example, the upper numerical value 6 in the sixth row and the third column indicates that the characteristic word “published” in the sixth row and the characteristic word “ROM” in the third column co-appeared in six documents. In this case, since the document frequency of the word “ROM” on the column side of the word pair is 21, the numerical value of the co-occurrence strength in the lower row is 6 ÷ 21 ≒ 0.
29. In the co-occurrence data storage area 531, the characteristic words are arranged in descending order of the document frequency. Only the lower half of the diagonal line in the table will be used in later work, so the rest is omitted.

【0027】続いて、共起関係解析ルーチン442はこ
の共起データから共起度の高い単語ペア(特徴語グラフ
でリンクを張るべきペア)を抽出する。本実施例では特
徴語間の関連性を示すリンクを、各単語から見てそれよ
り文書頻度が高い単語の中で共起強度の値が最も大きく
なる単語に張ることにした。共起関係解析ルーチン44
2はこの基準に従ってリンクを張るべき単語対を集め共
起リンク格納エリア532に格納する。なお、共起強度
が2番あるは3番のものでも、1番のものと比べてそれ
ほど小さくない場合(例えば1番の0.9倍以上)に
は、リンクを張るというやり方も有力である。図12は
この段階における共起リンク格納エリア532の内容を
示す図である。これらのリンクが抽出された過程を図1
1の例に基づいて説明をする。図12の2番目の「出
版」について見ると、文書頻度が「出版」以上のものは
「電子」しかないので「出版」から「電子」にリンクが
張られる。次に3番目の「ROM」についてみると、そ
れより頻度が高いのは「出版」と「電子」の2つであ
り、それらとの共起強度は共に0.27である。この場
合には共起データ格納エリア531における番号の小さ
い「出版」の方にリンクを張る。次に4番の「コンパク
ト」についてみると、3番の「ROM」との共起強度が
0.81で最も大きい。従って「コンパクト」からは
「ROM」へリンクを張る。以下同様の操作を続け、図
12のようなリンクデータが得られる。
Subsequently, the co-occurrence relation analysis routine 442 extracts word pairs having a high co-occurrence degree (pairs to be linked in the characteristic word graph) from the co-occurrence data. In this embodiment, a link indicating the relevance between characteristic words is set to a word having the largest value of co-occurrence strength among words having a higher document frequency than each word. Co-occurrence relation analysis routine 44
2 collects word pairs to be linked according to this criterion and stores them in the co-occurrence link storage area 532. Even if the co-occurrence strength is 2 or 3, it is also effective to link if the co-occurrence strength is not so small (for example, 0.9 times or more of 1). . FIG. 12 is a diagram showing the contents of the co-occurrence link storage area 532 at this stage. Figure 1 shows the process of extracting these links.
A description will be given based on the example of FIG. Looking at the second “publishing” in FIG. 12, since there is only “electronic” for a document whose document frequency is “publishing” or more, a link is provided from “publishing” to “electronic”. Looking at the third “ROM”, the two most frequent are “publishing” and “electronic”, and their co-occurrence strength is 0.27. In this case, a link is provided to "publishing" with a smaller number in the co-occurrence data storage area 531. Next, regarding the fourth “compact”, the co-occurrence strength with the third “ROM” is the largest at 0.81. Therefore, a link is provided from "compact" to "ROM". Thereafter, the same operation is continued to obtain link data as shown in FIG.

【0028】以上で共起関係解析ルーチン442を抜
け、続いて、グラフ配置ルーチン443が起動される。
特徴語リスト格納エリア524のデータ(図10)と共
起リンク格納エリア532のデータ(図12)にもとづ
いて特徴語群をノードとするグラフを実際に2次元平面
に配置するという作業を行なう。図13はグラフ配置ル
ーチン443の詳細である。グラフ配置ルーチン443
はy座標計算ルーチン4431、x座標計算ルーチン4
432、表示座標への変換ルーチン4433、重なり回
避ルーチン4434、リンク配置ルーチン4435から
構成され、この順に起動する。y座標計算ルーチン44
31およびx座標計算ルーチン4432は表示領域が
[−1,1]×[−1,1]の正方形領域であると仮定
して各ノードを配置すべき座標を計算する。この座標を
正規化された座標と呼ぶ。計算された座標データは正規
化座標格納エリア541に格納される。
As described above, the co-occurrence relation analysis routine 442 is exited, and subsequently, the graph arrangement routine 443 is started.
Based on the data of the characteristic word list storage area 524 (FIG. 10) and the data of the co-occurrence link storage area 532 (FIG. 12), a work of actually arranging a graph having a group of characteristic words as nodes on a two-dimensional plane is performed. FIG. 13 shows details of the graph arrangement routine 443. Graph placement routine 443
Are the y coordinate calculation routine 4431 and the x coordinate calculation routine 4
432, a conversion routine to display coordinates 4433, an overlap avoidance routine 4434, and a link arrangement routine 4435, which are activated in this order. y coordinate calculation routine 44
31 and the x coordinate calculation routine 4432 calculate the coordinates at which each node is to be arranged, assuming that the display area is a square area of [-1, 1] × [-1, 1, 1]. These coordinates are called normalized coordinates. The calculated coordinate data is stored in the normalized coordinate storage area 541.

【0029】初めにy座標計算ルーチン4431が起動
され、計算式: y=(6/π)×arctan(0.2×log(f/
fm)) に従って各特徴語の文書頻度fからそれを表示すべき位
置の正規化されたy座標を計算する。すなわち、文書頻
度の大きいもの程y軸上では上段に配置されるようにす
る。ここでfmは特徴語を文書頻度順に並べた時にちょ
うど真中に来るものの頻度である(ただし偶数個の場合
には(個数÷2+1)番目とする)。実施例では、「電
子」「出版」の文書頻度77が最上段となり、「出版
物」の文書頻度9が中央位置に当たる。πは円周率、対
数logは自然対数、arctanは正接関数の逆関数
であり、角度はラジアンを単位とする。例えば「コンパ
クト」の頻度は21なのでその正規化されたy座標は
(6/π)×arctan(0.2×log(21÷
9))≒0.32となる。その他の特徴語の正規化され
たy座標も同様に計算する。次にx座標計算ルーチン4
432が起動され各特徴語表示位置の正規化されたx座
標を計算する。図14はx座標計算ルーチン4432の
詳細を示した図である。初めにステップ44321によ
り親ノード(リンク先)のないノードが集められる。こ
の場合には「電子」のみがそれに当たる。したがってそ
のx座標の値がステップ44321中の式xi=−1+
2i/(r+1)にi=1を代入して−1+(2×1)
/(1+1)=0と計算される。
First, the y coordinate calculation routine 4431 is started, and the calculation formula is: y = (6 / π) × arctan (0.2 × log (f /
fm)), the normalized y-coordinate of the position where it should be displayed is calculated from the document frequency f of each characteristic word. That is, the higher the document frequency, the higher the position on the y-axis. Here, fm is the frequency of the characteristic word that comes exactly in the center when the characteristic words are arranged in document frequency order (however, in the case of an even number, the number is (number ÷ 2 + 1) th). In the embodiment, the document frequency 77 of “electronic” and “publishing” is at the top, and the document frequency 9 of “publication” is at the center position. π is the pi, log is the natural logarithm, arctan is the inverse of the tangent function, and the angle is in radians. For example, since the frequency of “compact” is 21, its normalized y coordinate is (6 / π) × arctan (0.2 × log (21 ÷
9)) ≒ 0.32. The normalized y coordinates of the other feature words are calculated in the same manner. Next, x coordinate calculation routine 4
432 is activated to calculate the normalized x coordinate of each characteristic word display position. FIG. 14 is a diagram showing details of the x coordinate calculation routine 4432. First, in step 44321, nodes without a parent node (link destination) are collected. In this case, only "electrons" correspond to it. Therefore, the value of the x coordinate is calculated by the expression xi = −1 + in step 44321.
Substituting i = 1 for 2i / (r + 1), -1+ (2 × 1)
/ (1 + 1) = 0 is calculated.

【0030】続いてループ44322に入り、ステップ
44323ではx座標の定まったノード(この場合「電
子」のみ)へリンクが張られているノードを一つ取る。
共起リンクのデータ(図12)からここでは「出版」が
その条件を満たしていることが分かる。続いてステップ
44324に入りステップ44323で選ばれたノード
の親ノードの集合を求め、さらにそれらのx座標の平均
値を計算する。「出版」の親ノードの集合は{「電
子」}であり、そのx座標の平均は0である。次にステ
ップ44325では親ノードの集合が{「電子」}と一
致するノードを集める。ここではそれは「出版のみであ
る。
Subsequently, a loop 44322 is entered, and in a step 44323, one node linked to a node having a fixed x coordinate (in this case, only “electron”) is taken.
From the co-occurrence link data (FIG. 12), it can be seen that "publishing" satisfies the condition here. Subsequently, the process proceeds to step 44324, in which a set of parent nodes of the node selected in step 44323 is obtained, and further, the average value of their x coordinates is calculated. The set of parent nodes of “publishing” is {“electronic”}, and the average of the x coordinate is 0. Next, in step 44325, nodes whose parent node set matches {“electronic”} are collected. Here it is "publishing only.

【0031】続いて分岐ステップ44326へ入るが親
ノードのx座標の平均値が0なのでステップ44327
が選択され、「出版」のx座標が計算される。ステップ
44327の計算式にs=1、xp=0、i=1を代入
して、「出版」のx座標が0と計算される。以上で「電
子」と「出版」の正規化されたx座標が定まった。しか
しまだ全てのノードのx座標が定まってはいないのでル
ープ44322を繰り返す。ステップ44323ではま
だx座標が定まっていないノードの内、リンクが「電
子」と「出版」以外には張られていないノードの一つが
選択される。この場合「ROM」がその条件を満たす。
ステップ44324では「ROM」のリンク先の集合を
求め{「出版」}を得る。また親ノード{「出版」}の
x座標の平均値xpが0と計算される。
Then, the process proceeds to a branch step 44326, but since the average value of the x-coordinate of the parent node is 0, a step 44327 is performed.
Is selected and the x-coordinate of “publishing” is calculated. By substituting s = 1, xp = 0, and i = 1 into the calculation formula of step 44327, the x coordinate of “publishing” is calculated as 0. Thus, the normalized x-coordinates of “electronic” and “publishing” have been determined. However, since the x-coordinates of all the nodes have not been determined yet, the loop 44322 is repeated. In step 44323, among the nodes for which the x coordinate has not been determined yet, one of the nodes to which a link is not set other than “electronic” and “publishing” is selected. In this case, “ROM” satisfies the condition.
In step 44324, a set of link destinations of "ROM" is obtained to obtain "" publish "". Also, the average value xp of the x-coordinate of the parent node {“publish”} is calculated to be 0.

【0032】ステップ44325ではリンク先の集合が
{「出版」}と一致するようなノードを集める。「RO
M」以外では「メール」がそれに当たる。
In step 44325, nodes whose link destination set matches {“publish”} are collected. "RO
Other than "M", "email" corresponds to it.

【0033】親ノードのx座標の平均値xpが0なので
分岐44326では上段が選択され、ステップ4432
7により「ROM」と「メール」のx座標がそれぞれ
[−1,1]を3等分して、−0.33,0.33とい
うように計算される。以下同様にして、すでにx座標が
決まったノードのみにリンクが張られるようなノードに
ついて、リンク先が共通のものを集め、親のx座標の平
均を中心として区間[−1,1]内に収まるよう均等に
配置するようにx座標を決めていく。
Since the average value xp of the x-coordinate of the parent node is 0, the upper stage is selected at branch 44326, and step 4432 is selected.
7, x coordinates of "ROM" and "mail" are calculated as [-0.33, 0.33 by dividing [-1,1,] into three equal parts, respectively. In a similar manner, nodes having a common link destination are collected for nodes whose links are established only to nodes for which the x-coordinate has already been determined, and within the section [−1, 1] centered on the average of the parent x-coordinate. The x coordinate is determined so as to be evenly arranged so as to fit.

【0034】図15は「電子出版」の例でこの段階にお
ける正規化座標格納エリア541に格納された座標デー
タを示した図である。つづいて、グラフ配置ルーチン4
43は表示座標への変換ルーチン4433を起動し、上
記の[−1,1]×[−1,1]領域に正規化された座
標を特徴語表示部224における実際の位置を表す座標
への変換を行ない、ノード格納エリア5431の中心座
標欄(図16)に格納する。変換は次のような1次式で
行なう。X=Rx×(1+x)+Ox,Y=Ry×(ym
−y)+Oy。ここで小文字のxとyが正規化された座
標、大文字のXとYが特徴語表示部224における座標
である。ymはyの最大値を表す。図15の例ではym
=0.774である。なお係数Rx、Ry、Ox、Oyはグ
ラフ配置パラメータ格納エリア542(図2)の該当す
るエリアに格納された値を用いる。本例ではRx=20
0,Ry=200,Ox=60,Oy=40とした。上記
の一次変換により例えば「コンパクト」の場合、正規化
された座標が(−0.555,0.320)なので,X
=200×(1−0.555)+60=149,Y=2
00×(0.774−0.320)+40≒131とい
うように計算される。このようにして、全てのノードの
特徴語表示部224上での実座標が計算され、ノード格
納エリア5431に格納される(図16)。この時次の
ステップへの準備として単語の順序は、x座標が小さい
順に並べる。また文字表示領域の大きさとして横方向の
文字数hと行数v、また文字表示領域の横サイズHと縦
サイズVを計算して、ノード格納エリア5431に格納
する。
FIG. 15 is a diagram showing the coordinate data stored in the normalized coordinate storage area 541 at this stage in the example of “electronic publishing”. Then, graph arrangement routine 4
43 activates a conversion routine 4433 to display coordinates, and converts the coordinates normalized to the above [-1, 1] × [-1, 1] area to coordinates representing the actual position in the feature word display unit 224. The conversion is performed, and the result is stored in the center coordinate column (FIG. 16) of the node storage area 5431. The conversion is performed by the following linear expression. X = R x × (1 + x) + O x, Y = R y × (ym
-Y) + O y. Here, lowercase x and y are normalized coordinates, and uppercase X and Y are coordinates in the characteristic word display unit 224. ym represents the maximum value of y. In the example of FIG. 15, ym
= 0.774. The coefficients R x , R y , O x , and O y use the values stored in the corresponding areas of the graph arrangement parameter storage area 542 (FIG. 2). In this example, R x = 20
0, R y = 200, O x = 60, and O y = 40. For example, in the case of “compact” by the above-mentioned linear transformation, since the normalized coordinates are (−0.555, 0.320), X
= 200 × (1-0.555) + 60 = 149, Y = 2
It is calculated as 00 × (0.774−0.320) + 40 ≒ 131. In this way, the actual coordinates of all nodes on the characteristic word display unit 224 are calculated and stored in the node storage area 5431 (FIG. 16). At this time, as preparation for the next step, words are arranged in ascending order of x-coordinate. In addition, the number of horizontal characters h and the number of lines v as the size of the character display area, the horizontal size H and the vertical size V of the character display area are calculated and stored in the node storage area 5431.

【0035】文字表示領域サイズは次の計算式に従って
計算する。文字は横書きとし横サイズの限度をW文字と
する。Wの値は文字表示部の横方向文字数上限値542
6に格納されている値を使う。ここではW=3とする。
表示すべき文字数をMとした場合、横方向の文字数h、
と行数vはM≦Wの場合、hはM、vは1である。また
M>Wの場合には、hはWであり、vは(M÷W)以上
の最小の整数である。例えば「電子」については文字数
が2でこれは横幅限度のW=3より小さいので、行数v
は1で横幅hは2となる。また「インタラクティブ」の
場合には文字数が8で横幅限度W=3を越えるので行数
vは(8/3)以上の最小の整数、すなわち3となり、
横幅hはW=3である。また文字表示領域の横サイズの
2分の1の値Hと縦サイズの2分の1の値Vはそれぞれ
の文字数hとvから次の式により計算される。ここで2
分の1の値を取ったのは後の処理で主にこの2分の1の
値を用いるからである。H=h×F/2+mx、V=v
×F/2+my。ここでFは文字フォントの大きさ、mx
はx方向のマージンの大きさ、myはy方向のマージン
の大きさである。mxとmyは2つのノードが接近し過ぎ
ないように、最低限保つべき間隔を表す。F、mx、my
はそれぞれ文字サイズ5425、文字表示部の横方向マ
ージン5427、同縦方向マージン5428(図2)に
格納されている値を用いる。本例ではF=16、mx
3、my=2とする。例えば「コンパクト」の場合h=
3でv=2なのでH=3×16/2+3=27、V=2
×16/2+2=18と計算される。図16のノード格
納エリア5431における文字表示サイズとしての文字
数と表示領域サイズはこのようにして計算したものであ
る。
The character display area size is calculated according to the following formula. Characters are written horizontally, and the size limit is W characters. The value of W is the upper limit 542 of the number of characters in the horizontal direction of the character display section.
Use the value stored in 6. Here, it is assumed that W = 3.
Assuming that the number of characters to be displayed is M, the number of characters h in the horizontal direction,
And the number of rows v is M ≦ W, h is M and v is 1. When M> W, h is W and v is a minimum integer equal to or larger than (M ÷ W). For example, for “Electronic”, the number of characters is two, which is smaller than the width limit W = 3, so that the number of lines v
Is 1 and the width h is 2. In the case of "interactive", since the number of characters is 8 and exceeds the width limit W = 3, the number of lines v is the minimum integer equal to or more than (8/3), that is, 3, and
The width h is W = 3. Further, a value H of a half of the horizontal size and a value V of a half of the vertical size of the character display area are calculated from the respective numbers of characters h and v by the following formula. Where 2
The reason for taking the half value is that the half value is mainly used in the subsequent processing. H = h × F / 2 + mx , V = v
× F / 2 + m y. Where F is the character font size, m x
The magnitude of the x-direction of the margin, m y is the magnitude of the y direction of the margin. m x a m y are such that the two nodes are not too close, it represents the distance should be kept minimal. F, m x, m y
Use the values stored in the character size 5425, the horizontal margin 5427, and the vertical margin 5428 (FIG. 2) of the character display unit, respectively. In this example, F = 16, mx =
3, suppose that m y = 2. For example, in the case of "compact", h =
3 and v = 2, H = 3 × 16/2 + 3 = 27, V = 2
X16 / 2 + 2 = 18 is calculated. The number of characters and the display area size as the character display size in the node storage area 5431 in FIG. 16 are calculated in this way.

【0036】このようにして特徴語表示部における座標
が求まったが、この段階ではノードの重なりが生じるお
それがある。例えば図16の例では「電子」と「出版」
の座標は同じなので重なってしまう。そのため重なり回
避ルーチン4434が起動され、重なりが生じないよう
に座標をずらす操作を行なう。
Although the coordinates in the characteristic word display section have been obtained in this manner, there is a possibility that nodes may overlap at this stage. For example, in the example of FIG. 16, "electronic" and "publishing"
Have the same coordinates, so they overlap. For this reason, the overlap avoiding routine 4434 is started, and an operation is performed to shift the coordinates so that the overlap does not occur.

【0037】図17は重なり回避ルーチン4434の詳
細である。全ノードをx座標が小さい順にソートしたも
のをN[1],...,N[r]とする。N[i]の座
標を(X[i],Y[i])、文字表示領域サイズの値
を(H[i],V[i])とする。i=2,...,r
について次の操作を行なう。j=1,...,i−1の
内|Y[j]−Y[i]|<V[i]+V[j]となる
ようなjについてX[j]+H[j]の最大値を取りξ
とする。なおそのようなjが無い場合にはこのiについ
ては座標をずらす操作は必要ない。δ=ξ−(X[i]
−H[i])とする。δ≦0の場合にはこのiについて
は座標をずらす操作は必要ない。δ>0の場合には、重
なりが生じてしまうので、N[i],...,N[r]
のx座標をすべて右にδずらす。すなわち、X[k]=
X[k]+δ(k=i,...,r)とする。
FIG. 17 shows the details of the overlap avoiding routine 4434. All nodes are sorted in ascending order of x-coordinate, and N [1],. . . , N [r]. Let the coordinates of N [i] be (X [i], Y [i]) and the value of the character display area size be (H [i], V [i]). i = 2,. . . , R
Perform the following operation for j = 1,. . . , I−1, take the maximum value of X [j] + H [j] for j such that | Y [j] −Y [i] | <V [i] + V [j].
And If there is no such j, there is no need to perform the operation of shifting the coordinates for this i. δ = ξ− (X [i]
−H [i]). When δ ≦ 0, there is no need to perform the operation of shifting the coordinates for this i. If δ> 0, an overlap occurs, so that N [i],. . . , N [r]
Are shifted δ to the right. That is, X [k] =
Let X [k] + δ (k = i,..., R).

【0038】以上により、全ノードが重ならずに表示で
きるような座標が与えられる。たとえばi=2の「イン
タラクティブ」の場合についてみると、図16のデータ
より、|Y[2]−Y[1]|=|240−131|=
109で、V[2]+V[1]=26+18=44であ
るから|Y[2]−Y[1]|<V[2]+V[1]が
成り立たない。従って「インタラクティブ」については
横へずらす操作は行なわない。次にi=3、すなわち
「ROM」について見る。j=1については、|Y
[3]−Y[1]|=|131−131|=0に対して
V[3]+V[1]=10+18=28となり、|Y
[3]−Y[1]|<V[1]+V[3]となる。すな
わちj=1の「コンパクト」と重なりが生じてしまう。
またj=2の「インタラクティブ」との関係を見ると、
|Y[3]−Y[2]|=|131−240|=10
9、V[3]+V[2]=10+26=36で|Y
[2]−Y[3]|<V[2]+V[3]とならないの
で「インタラクティブ」とは重なる恐れがない。従って
j=1についてのみx座標を考慮すれば良い。ξ=X
[1]+H[1]=149+27=176となり、ずら
し幅δはδ=ξ−(X[i]−H[i])=176ー
(193ー27)=10である。従ってj=3、...
10についてX[j]をすべて+10する。(X
[3],Y[3])=(203,131)となり、図7
における「ROM」の座標を得る。以下このステップの
繰り返しにより図7のノード格納エリア5441と同じ
データが得られる。この文字表示領域の重なり回避の操
作でも、前述した文字表示領域とグラフの線の重なりは
チェックできないし、実際問題として、限られた表示面
積では、これを厳密に避けようとすると、適当な大きさ
の中で、表示のできないことも起こりうるので、実施例
では、これについてのチェックはしないこととした。
As described above, coordinates are provided so that all nodes can be displayed without overlapping. For example, in the case of “interactive” with i = 2, | Y [2] −Y [1] | = | 240−131 | =
At 109, since V [2] + V [1] = 26 + 18 = 44, | Y [2] −Y [1] | <V [2] + V [1] does not hold. Therefore, for "interactive", the operation of shifting to the side is not performed. Next, i = 3, that is, “ROM” will be described. For j = 1, | Y
[3] -Y [1] | = | 131-131 | = 0, V [3] + V [1] = 10 + 18 = 28, and | Y
[3] −Y [1] | <V [1] + V [3]. That is, the overlap with the “compact” of j = 1 occurs.
Looking at the relationship with “interactive” with j = 2,
| Y [3] -Y [2] | = | 131-240 | = 10
9, V [3] + V [2] = 10 + 26 = 36 and | Y
Since [2] −Y [3] | <V [2] + V [3], there is no possibility of overlapping with “interactive”. Therefore, the x coordinate only needs to be considered for j = 1. ξ = X
[1] + H [1] = 149 + 27 = 176, and the shift width δ is δ = ξ− (X [i] −H [i]) = 176− (193−27) = 10. Therefore, j = 3,. . .
For X, all X [j] are incremented by +10. (X
[3], Y [3]) = (203, 131), and FIG.
To obtain the coordinates of the "ROM" in. Thereafter, by repeating this step, the same data as in the node storage area 5441 of FIG. 7 is obtained. Even in the operation of avoiding the overlap of the character display area, the overlap between the character display area and the line of the graph described above cannot be checked, and as a practical matter, when the display area is limited and the strict avoidance is required, an appropriate size is required. In the meantime, there is a possibility that the display cannot be performed. Therefore, in the embodiment, this is not checked.

【0039】最後にグラフ配置ルーチン443はリンク
配置ルーチン4435を起動する。リンク配置ルーチン
4435は共起関係解析ワークエリア53の中の共起リ
ンク格納エリア532に格納された共起リンクを張るべ
き単語ペアに関する情報と、ノードデータ格納エリア5
431に格納されている各ノードの座標データから特徴
語表示部224に表示すべき線分のデータ、すなわち始
点の座標と終点の座標を作成してリンクデータ格納エリ
ア5422に格納する。例えば図12の共起リンク格納
エリア532には「ROM」から「出版」へのリンクが
ある。図7のノードデータ格納エリア5431に格納さ
れたデータより、「ROM」の座標が(203,13
1)であり「出版」の座標が(308,40)であるこ
とが分かるので、(203,131)を始点として(3
08,40)を終点とする線分のデータがリンクデータ
格納エリア5432に格納される。以上により表示すべ
きグラフのデータ(図7)が作成された。以下では特徴
語表示手段22の特徴語表示部224に表示された特徴
語のグラフ表示を参考にして検索作業を進展させる利用
形態の例を示す。
Finally, the graph arrangement routine 443 activates the link arrangement routine 4435. The link arrangement routine 4435 stores information on a word pair to which a co-occurrence link is to be established stored in the co-occurrence link storage area 532 in the co-occurrence relation analysis work area 53 and the node data storage area 5.
From the coordinate data of each node stored in 431, data of a line segment to be displayed on the characteristic word display unit 224, that is, the coordinates of the start point and the coordinates of the end point are created and stored in the link data storage area 5422. For example, the co-occurrence link storage area 532 in FIG. 12 has a link from “ROM” to “publishing”. From the data stored in the node data storage area 5431 of FIG. 7, the coordinates of “ROM” are (203, 13).
Since it can be seen that the coordinates of “publishing” are (308, 40), (3) with (203, 131) as the starting point,
08, 40) is stored in the link data storage area 5432. Thus, the data of the graph to be displayed (FIG. 7) is created. Hereinafter, an example of a usage form in which a search operation is advanced with reference to a graph display of the characteristic word displayed on the characteristic word display unit 224 of the characteristic word display unit 22 will be described.

【0040】図8は「電子出版」に関する特徴語表示の
例であるが、ここでユーザが仮に表示された語のひとつ
である「デスクトップパブリッシング」に興味があると
しよう。この場合には、画面上でその単語の所をマウス
12などで指示してから加点キーワードの移動ボタン2
2222を指示すると「デスクトップパブリッシング」
が加点キーワード格納エリア5112に格納され、検索
インタフェイス21の加点キーワード表示部2122と
特徴語表示手段22の加点キーワード表示部2222に
表示される。そこで検索インタフェイス21の検索実行
ボタン216もしくは特徴語表示手段22の検索実行ボ
タン2211を押すと加点キーワードに「デスクトップ
パブリッシング」を加えた形で検索が実行され検索の絞
り込みをすることができる。また図8の特徴語表示部2
24に表示された特徴語の中に興味ある単語を発見でき
なかった場合には特徴語表示数設定手段2251を用い
て表示語数を増やすことができる。図18は特徴語表示
語数を20に増やした場合の例である。この場合には図
9のデータの例では、このデータから特徴語抽出ルーチ
ン441により、20個の単語が選択されて、図8のケ
ースで説明したと同様に表示される。ここで仮にユーザ
は「電子出版」における「情報検索」に興味があったと
すれば表示されたグラフに「検索」および「情報検
索)」という語が表示されているのでそれを利用でき
る。特徴語表示部の「検索」と「情報検索」をマウスな
どでクリックしてから加点キーワードへの移動ボタン2
2222を押せばこれらの単語が加点用のキーワードと
して付け加えられる。これで検索実行ボタン2211を
押せば検索の絞り込みができる。また検索を絞り込んだ
後で特徴語のグラフを見たい場合には特徴語表示ボタン
2212を押せば良い。それから検索と特徴語のグラフ
を連続して行なう場合には検索実行+特徴語表示ボタン
2213を押せば以上のステップが連続して行なわれ
る。
FIG. 8 shows an example of the display of characteristic words relating to “electronic publishing”. Here, it is assumed that the user is interested in “desktop publishing”, which is one of the provisionally displayed words. In this case, the position of the word is indicated on the screen with the mouse 12 or the like, and then the point button 2
If you specify 2222, "Desktop Publishing"
Are stored in the additional keyword storage area 5112, and are displayed on the additional keyword display unit 2122 of the search interface 21 and the additional keyword display unit 2222 of the characteristic word display unit 22. Then, when the search execution button 216 of the search interface 21 or the search execution button 2211 of the characteristic word display unit 22 is pressed, the search is executed in a form in which “desktop publishing” is added to the additional keyword, and the search can be narrowed down. Also, the characteristic word display unit 2 of FIG.
If an interesting word cannot be found in the characteristic words displayed in 24, the number of display words can be increased by using the characteristic word display number setting means 2251. FIG. 18 shows an example in which the number of characteristic word display words is increased to 20. In this case, in the example of the data in FIG. 9, 20 words are selected from this data by the characteristic word extraction routine 441, and displayed in the same manner as described in the case of FIG. Here, if the user is interested in “information search” in “electronic publishing”, the words “search” and “information search)” are displayed in the displayed graph, and can be used. Click on "Search" and "Information Search" in the feature word display area with a mouse or the like and then move to the additional keyword 2
Pressing 2222 adds these words as additional keywords. By pressing the search execution button 2211, the search can be narrowed down. If the user wants to view a graph of characteristic words after narrowing down the search, the user can press the characteristic word display button 2212. Then, when the search and the graph of the characteristic word are continuously performed, if the search execution + characteristic word display button 2213 is pressed, the above steps are continuously performed.

【0041】次に「情報検索」には興味がない場合、あ
るいは「情報検索」に関する文書には既に目を通してし
まい、それ以外の話題に注目したい場合には、減点キー
ワードを利用する。すでに「検索」と「情報検索」が加
点キーワードに加えられている場合には、加点キーワー
ド表示部2222に表示されているこれらの単語をマウ
スなどで指示してから減点キーワードへの移動ボタン2
2232を押せばこれらの単語が加点キーワードから減
点キーワードへ移動する。なお特徴語表示部224に表
示されている単語を直接減点キーワードとして利用した
い場合には、加点キーワードの時と同様に、該当する単
語をマウスなどでクリックした後減点キーワードへの移
動ボタン22232を押せば良い。すなわち、本実施例
では、検索キーワード間では移動ボタンにより移動の操
作が行われ、表示された特徴語とキーワード間では移動
ボタンにより複写の操作が行われる。
Next, if the user is not interested in "information search", or has already read the document related to "information search" and wants to pay attention to other topics, the deduction keyword is used. If “search” and “information search” have already been added to the point-added keyword, these words displayed on the point-added keyword display section 2222 are indicated by a mouse or the like, and then the move to the point-reduced keyword button 2
If the user presses 2232, these words move from the point-added keyword to the deducted keyword. If the user wants to directly use the word displayed in the characteristic word display section 224 as a deduction keyword, click the corresponding word with a mouse or the like and press the move button 22232 to the deduction keyword, as in the case of the point-added keyword. Good. That is, in the present embodiment, a move operation is performed by the move button between the search keywords, and a copy operation is performed by the move button between the displayed characteristic word and the keyword.

【0042】「検索」と「情報検索」を減点キーワード
へ移動してから検索を実行すると今度はこれらの単語を
含む文書の得点が下がり、相対的にこれらを含まない文
書の得点が上がるので「電子出版」に関する文書の内、
「情報検索」には関係のない文書に注目することが出来
る。図19は特徴語表示様式選択手段2171を備え、
特徴語をグラフの形で表示したり、リストの形で表示し
たりすることを選択できる機能を備えた検索インタフェ
イス21の一例である。リストでの表示はグラフで表示
した場合と比べて、多数の特徴語を表示する為、特徴語
相互の関連性を表示できないので関連性に着目した結果
の評価ができないという欠点がある反面、スクロールバ
ーを用いることにより、検索結果に出現する多数の特徴
語を一覧できるので、ユーザにとって興味と合致する関
連語を発見できる可能性が高くなる長所がある。
When the search is executed after moving "search" and "information search" to the deducted keyword, the score of a document including these words is reduced, and the score of a document not including these words is relatively increased. Electronic publishing "
It is possible to focus on documents that are not related to “information search”. FIG. 19 includes a characteristic word display style selecting means 2171,
This is an example of a search interface 21 having a function of selecting display of a characteristic word in a graph form or a list form. Compared to the graph display, the list display displays many feature words, so the relevance of the feature words cannot be displayed, so the result of focusing on the relevance cannot be evaluated. By using the bar, many characteristic words appearing in the search result can be listed, so that there is an advantage that the possibility that the user can find a related word that matches the interest is high.

【0043】したがって、図19に示される特徴語表示
様式選択手段2171を利用して、まず、検索結果をグ
ラフ表示して特徴語の全体像を相互の関連性も含めて概
観して、結果を評価し、これにユーザの興味と合致する
関連語が十分に表われない場合には、リスト表示を用い
て更に細かく探すという二段階の結果評価ができる。さ
らに、リストを利用した表示から興味のもたれる語が得
られたとき、これをキーワードとして利用して、再度検
索からやり直すこともできる。図19の特徴語表示様式
選択手段2171で「グラフ」を選択すれば、図8ある
いは図18で説明したように、特徴語のグラフ表示がな
される。図19に示すように、「リスト」を選択すれ
ば、図20に一例を示すように、特徴語表示部224に
は、特徴語がリストの形で表示される。特徴語表示様式
選択手段2171で「リスト」を選択した場合でも、検
索された文書群から特徴語を抽出する方法は前述したグ
ラフ表示の場合と同じである。ただし、リスト表示の場
合、図9に示したように頻度を5クラスとするよりは、
高、中、低の3クラス程度とする方が見やすいと考えら
れるので、図20の表示例では、頻度クラスの分割数は
3とした。図20において、「リスト」の選択に対応し
て、特徴語表示部224には、高頻度特徴語表示部22
41、中頻度特徴語表示部2242および低頻度特徴語
表示部2243がそれぞれスクロールバー付きの表示枠
が設定され、頻度データ格納エリア523の特徴語の頻
度クラスデータに対応した特徴語が各表示枠内に表示さ
れる。各表示枠内での表示順は、たとえば、頻度比の大
きさ順にならべるのが良い。これにより、ユーザは、よ
り一般性の高い特徴語から固有名など特殊性の高い特徴
語までを一覧でき、幅広い選択肢から興味に合致した単
語を検索できる。
Therefore, using the characteristic word display style selecting means 2171 shown in FIG. 19, first, the retrieval result is displayed in a graph, and the whole image of the characteristic word is overviewed including the mutual relevance. If the related words that match the user's interest are not sufficiently expressed, a two-stage result evaluation can be performed in which a more detailed search is performed using a list display. Further, when a word of interest is obtained from the display using the list, the word can be used as a keyword and the search can be started again. If "graph" is selected by the characteristic word display style selecting means 2171 in FIG. 19, a graph of characteristic words is displayed as described in FIG. 8 or FIG. As shown in FIG. 19, if "list" is selected, the characteristic words are displayed in the form of a list on the characteristic word display section 224, as shown in an example in FIG. Even when "list" is selected by the characteristic word display style selecting means 2171, the method of extracting characteristic words from the retrieved document group is the same as in the case of the graph display described above. However, in the case of a list display, as shown in FIG.
It is considered that it is easier to see three classes of high, medium and low. Therefore, in the display example of FIG. 20, the number of divisions of the frequency class is three. In FIG. 20, in response to the selection of “list”, the characteristic word display section 224 displays the high frequency characteristic word display section 22.
41, a display frame with a scroll bar is set in each of the medium-frequency characteristic word display section 2242 and the low-frequency characteristic word display section 2243, and a characteristic word corresponding to the frequency class data of the characteristic word in the frequency data storage area 523 is displayed in each display frame. Will be displayed within The display order in each display frame is preferably arranged, for example, in the order of the magnitude of the frequency ratio. As a result, the user can list from characteristic words having higher generality to characteristic words having higher specificity such as proper names, and can search for a word that matches the interest from a wide range of options.

【0044】実施例2 以下、本発明の第2の実施例を図21に従って説明す
る。第1の実施例が独立に使用されるコンピュータによ
る検索装置の構成例であったのに対し、本実施例では、
複数のユーザによる検索要求に応えることのできる検索
方法を実現するものである。図21に本実施例の文献検
索方法を実現する他の実施例の全体構成を示す。本実施
例は、一つのサーバに複数のクライアントが信号伝送回
線を介してアクセスし、クライアント毎に検索サービス
を受けることのできるものである。サーバは、サーバ自
体をクライアントとしても利用することはないのが一般
的である。しかし、本実施例では、クライアントからの
問題指摘に応じてサーバもクライアントとしても利用す
る必要がありうることを考慮して、サーバは、実施例1
で説明したのと実質的に同じ構成に通信手段7をプラス
した検索装置とした。クライアントは実施例1で説明し
た構成のうち入力手段1、表示手段2、CPU3、計算
プログラム保持手段4、計算プログラムを動作させるた
めのワークエリア5およびバス100のそれぞれに対応
するダッシュを付して示した手段、およびサーバとの連
係を取るための通信手段7および出力手段8としてのプ
リンタ81よりなる。サーバのバス100にはインタフ
ェイスIF1が、およびクライアントのバス100には
インタフェイスIF2、 IF3がそれぞれ設けられ
て、サーバ−クライアント間を結ぶ回線NET1,NE
T2で結ばれる。なお、クライアント2についてはバス
100およびインタフェイスIF2のみを図示して他は
省略した。
Embodiment 2 Hereinafter, a second embodiment of the present invention will be described with reference to FIG. Whereas the first embodiment is an example of a configuration of a search device by a computer used independently, in this embodiment,
The present invention realizes a search method that can respond to search requests from a plurality of users. FIG. 21 shows the overall configuration of another embodiment for realizing the document search method of this embodiment. In this embodiment, a plurality of clients can access one server via a signal transmission line, and can receive a search service for each client. Generally, a server does not use the server itself as a client. However, in the present embodiment, in consideration of the fact that it is necessary to use both the server and the client in response to a problem pointed out by the client, the server is used in the first embodiment.
A search device is provided in which the communication means 7 is added to the configuration substantially the same as that described above. The client attaches dashes corresponding to each of the input unit 1, the display unit 2, the CPU 3, the calculation program holding unit 4, the work area 5 for operating the calculation program, and the bus 100 in the configuration described in the first embodiment. It comprises the means shown, the communication means 7 for linking with the server, and the printer 81 as the output means 8. An interface IF1 is provided on the bus 100 of the server, and interfaces IF2 and IF3 are provided on the bus 100 of the client. Lines NET1 and NE connecting the server and the client are provided.
It is tied at T2. As for the client 2, only the bus 100 and the interface IF2 are shown, and the others are omitted.

【0045】クライアント1が文献検索をしようとする
とき、まず、入力手段1のキーボード11から文献検索
システム起動のコマンドを入力する。これに応じて、ク
ライアンと側の通信手段7とサーバ側の通信手段7が通
信経路NET1を介して連絡を取り、サーバ側の計算プ
ログラム保持手段4の検索インタフェイス作動ルーチン
41がクライアント1側に送信され、クライアント1側
で起動される。この結果、表示手段2に対話的に検索作
業を進めるための検索インタフェイス21が表示され
る。検索インタフェイス21が表示された後は、クライ
アント1はこの画面を利用して実施例1で説明したと同
様の手順で検索キーとなる語を入力してゆけば良い。な
お、クライアント側では検索インタフェイス作動ルーチ
ン41のコピーを計算プログラム保持手段4に保持して
おいて、これを起動するものとしても良い。また、WW
Wプラウザなどのハイパーテキスト閲覧インタフェイス
を利用して本検索支援サービスが受けられるようにする
のも便利である。その場合には、サーバ側には、検索イ
ンタフェイス作動ルーチン41をクライアント側に送信
するためのハイパーテキスト(HT)を用意する。な
お、クライアント側では汎用のハイパーテキスト閲覧イ
ンタフェイスが利用できる環境にあることを前提とす
る。
When the client 1 attempts to search for a document, first, a command for starting the document search system is input from the keyboard 11 of the input unit 1. In response, the communication means 7 on the client side and the communication means 7 on the server side communicate with each other via the communication path NET1, and the search interface operation routine 41 of the calculation program holding means 4 on the server side communicates with the client 1 side. It is transmitted and activated on the client 1 side. As a result, a search interface 21 for interactively performing a search operation is displayed on the display unit 2. After the search interface 21 is displayed, the client 1 may use this screen to input a word serving as a search key in the same procedure as described in the first embodiment. Note that the client may hold a copy of the search interface operation routine 41 in the calculation program holding means 4 and start it. Also, WW
It is also convenient to be able to receive this search support service using a hypertext browsing interface such as a W browser. In this case, the server prepares hypertext (HT) for transmitting the search interface operation routine 41 to the client. It is assumed that the client has an environment in which a general-purpose hypertext browsing interface can be used.

【0046】表示手段2に表示されているハイパーテキ
スト閲覧インタフェイスのアドレス入力部から、本検索
支援サービスが指定するアドレス(すなわちサーバのネ
ットワーク上でのアドレスと検索インタフェイス作動ル
ーチン41を送付するためのハイパーテキストHTの存
在するファイル名など)を指定すると、双方の通信手段
を介して指定されたハイパーテキストHTが検索インタ
フェイス作動ルーチン41を伴ってクライアント側に送
られ、送付された検索インタフェイス作動ルーチン41
はクライアント側計算機で起動され、検索インタフェイ
ス21が表示手段2に表示され利用可能となる。なお、
上記では、直接ハイパーテキストHTのアドレスを指定
したが、ハイパーテキスト閲覧インタフェイスの閲覧部
に表示されているハイパーテキストに、本ハイパーテキ
ストHTのアドレスがアンカーとして埋め込まれている
場合には、そのアンカーの部分をマウスなどでクリック
しても同様の動作をさせることができる。
From the address input section of the hypertext browsing interface displayed on the display means 2, the address designated by the search support service (ie, the address of the server on the network and the search interface operation routine 41 are sent. Is specified, the specified hypertext HT is sent to the client via the communication means together with the search interface operation routine 41, and the sent search interface is sent. Operation routine 41
Is started on the client computer, and the search interface 21 is displayed on the display means 2 and becomes usable. In addition,
In the above description, the address of the hypertext HT is directly specified. However, if the address of the present hypertext HT is embedded as an anchor in the hypertext displayed on the browsing unit of the hypertext browsing interface, the anchor is used. The same operation can be performed by clicking the portion with a mouse or the like.

【0047】クライアント1が入力した検索要求は通信
手段7、7と通信経路NET1を介してサーバ側に伝送
され、サーバ側で必要な検索と特徴語抽出とグラフ配置
計算が実行されて、その結果が再び通信手段7、7の連
絡によりクライアント1側に返信され、クライアント1
の検索インタフェイス作動ルーチン41に手渡され、同
ルーチンはそのデータに基づいて特徴語グラフを特徴語
表示手段22に表示する。クライアント1はこの検索結
果に応じて実施例1で説明したと同様に、さらに必要な
検索操作があればこれに応じたデータを入力すれば良
い。このデータは再度サーバ側に伝送され、サーバ側で
必要な検索が実行されて、その結果が特徴語表示手段2
2に表示される。クライアント1は、必要ならプリンタ
ー81によってプリントされた出力を利用することがで
きる。このようにして、クライアント1は、実質的な検
索プログラムを持つことなく、サーバ側で実行された結
果のみを利用できる。したがって、クライアント1で
は、ワークエリア5は初期の入力データおよびサーバか
ら伝送されてきた検索結果と特徴語とそのグラフ配置に
関するデータ等を保持する能力があれば足りるから、簡
易な装置で充実した検索サービスを受けることができ
る。
The search request input by the client 1 is transmitted to the server side via the communication means 7 and 7 and the communication path NET1, and the server executes necessary search, characteristic word extraction, and graph layout calculation. Is returned to the client 1 by the communication means 7, 7 again, and the client 1
Is passed to a search interface operation routine 41, which displays a characteristic word graph on the characteristic word display means 22 based on the data. As described in the first embodiment, the client 1 may input data corresponding to a further necessary search operation according to the search result, as described in the first embodiment. This data is transmitted to the server again, and a necessary search is executed on the server.
2 is displayed. The client 1 can use the output printed by the printer 81 if necessary. In this way, the client 1 can use only the result executed on the server side without having a substantial search program. Therefore, in the client 1, the work area 5 only needs to have the ability to hold the initial input data, the search result transmitted from the server, the characteristic word, and the data relating to the graph layout, and the like. Service is available.

【0048】[0048]

【発明の効果】以上、二つのタイプについて説明したよ
うに、本発明によれば、ユーザは、より一般性の高い特
徴語から固有名など特殊性の高い特徴語までを一覧で
き、幅広い選択肢から興味に合致した単語を検索でき
る。
As described above, according to the present invention, the user can list from the more general characteristic words to the highly specific characteristic words such as the proper names, and can select from a wide range of options. You can search for words that match your interests.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の実施例としての独立に使用されるコン
ピュータによる検索装置の構成例を示すブロック図。
FIG. 1 is a block diagram showing an example of a configuration of a search device by a computer used independently as an embodiment of the present invention.

【図2】ワークエリアのデータの割り当て配置の一例を
示す図。
FIG. 2 is a diagram showing an example of data allocation arrangement in a work area.

【図3】ユーザとコンピュータとの間の検索インタフェ
イス表示画面の例を示す図。
FIG. 3 is a view showing an example of a search interface display screen between a user and a computer.

【図4】検索実行時に検索ワークエリアに格納されるデ
ータの例を示す図。
FIG. 4 is a diagram showing an example of data stored in a search work area when a search is performed.

【図5】図3に示した検索インタフェイス表示画面が検
索実行後に検索結果を表示した例を示す図。
FIG. 5 is a diagram showing an example in which the search interface display screen shown in FIG. 3 displays a search result after executing a search.

【図6】ユーザが検索キーとしての特徴語を付与するた
めの特徴語表示手段起動時の表示画面の例を示す図。
FIG. 6 is a diagram showing an example of a display screen at the time of starting a characteristic word display unit for giving a characteristic word as a search key by a user.

【図7】ユーザから特徴語表示要求があった時に特徴語
グラフ格納エリアに格納されるデータの例を示す図。
FIG. 7 is a diagram illustrating an example of data stored in a characteristic word graph storage area when a characteristic word display request is made by a user.

【図8】検索された文書群における特徴語のグラフ表示
の一例を示す図。
FIG. 8 is a diagram showing an example of a graph display of characteristic words in a retrieved document group.

【図9】検索された文書群における単語頻度データの一
例を示す図。
FIG. 9 is a diagram showing an example of word frequency data in a retrieved document group.

【図10】検索された文書群における特徴語リストの一
例を示す図。
FIG. 10 is a diagram showing an example of a feature word list in a retrieved document group.

【図11】検索された文書群における特徴語間の共起関
係を表すデータの一例を示す図。
FIG. 11 is a diagram showing an example of data representing a co-occurrence relationship between characteristic words in a retrieved document group.

【図12】検索された文書群において特に強い共起関係
を有する特徴語対のリストの一例を示す図。
FIG. 12 is a diagram showing an example of a list of characteristic word pairs having a particularly strong co-occurrence relationship in a retrieved document group.

【図13】特徴語のグラフ配置を計算する計算ルーチン
の構成の一例を示すパッド図(PAD図、Problem Anal
ysis Diagram)。
FIG. 13 is a pad diagram (PAD diagram, Problem Analyst) showing an example of the configuration of a calculation routine for calculating the graph arrangement of characteristic words;
ysis Diagram).

【図14】グラフ配置におけるx座標計算方法の一例を
示すパッド図。
FIG. 14 is a pad diagram showing an example of an x coordinate calculation method in a graph layout.

【図15】検索結果のグラフ表示の際、表示データを正
規化された領域に仮想的に配置する際の座標データの一
例を示す図。
FIG. 15 is a diagram showing an example of coordinate data when display data is virtually arranged in a normalized region when a graph of a search result is displayed.

【図16】検索結果のグラフ表示の際、表示データの重
なり回避を行なう前のグラフの座標の一例を示す図。
FIG. 16 is a view showing an example of coordinates of a graph before avoiding overlapping of display data when displaying a graph of a search result.

【図17】グラフの表示ノードが重なるのを避けるため
のルーチンの詳細の一例を示すパッド図。
FIG. 17 is a pad diagram showing an example of details of a routine for avoiding overlapping display nodes of a graph.

【図18】特徴語表示数を20にした場合の特徴語のグ
ラフ表示の一例を示す図。
FIG. 18 is a diagram showing an example of a characteristic word graph display when the number of characteristic words to be displayed is 20;

【図19】特徴語表示様式選択手段を備えた検索インタ
フェイス表示画面の例を示す図。
FIG. 19 is a diagram showing an example of a search interface display screen provided with a feature word display style selection unit.

【図20】特徴語のリスト表示の表示画面の例を示す
図。
FIG. 20 is a diagram showing an example of a display screen for displaying a list of characteristic words.

【図21】検索装置の主体がサーバ側に備えられこれに
複数のクライアントがアクセスして検索を行う場合の構
成例を示すブロック図。
FIG. 21 is a block diagram showing a configuration example in a case where a subject of a search apparatus is provided on a server side and a plurality of clients access the server to perform a search.

【符合の説明】[Description of sign]

1、1:入力手段、11、11:キーボード、12、1
2:マウス、13、13:ペン入力手段、2、2:表示
手段、21、21:検索インタフェイス、7、7:通信
手段、8:出力手段、81:プリンタ81、IF1、I
F2、 IF3:インタフェイス、NET1,NET
2:回線、211:検索要求入力部、212:キーワー
ド表示・操作部、2121:必須キーワード表示部、2
1211:必須キーワードへの追加ボタン、2121
2:必須キーワードの消去ボタン、2122:加点キー
ワード表示部、2123:減点キーワード表示部、21
3:検索ヒット件数表示部、214:タイトル表示部、
215:文書表示部、216:検索実行ボタン、21
6:特徴語表示ボタン、2171:特徴語表示様式選択
手段、22:特徴語表示手段、221:特徴語表示手段
操作部、222:特徴語表示手段のキーワード表示・操
作部、223:特徴語表示手段の検索ヒット件数表示
部、224:特徴語表示部、2241:高頻度特徴語表
示部、2242:中頻度特徴語表示部、2243:高頻
度特徴語表示部、225:特徴語表示手段のパラメータ
設定部、2251:特徴語表示語数設定手段、3:計算
プログラム実行手段(CPU)、4:計算プログラム保
持手段、41:検索インタフェイス作動ルーチン、4
2:形態素解析ルーチン、43:検索ルーチン、44:
特徴語表示手段作動ルーチン、441:特徴語抽出ルー
チン、442:共起関係解析ルーチン、443:グラフ
配置ルーチン、4431:y座標計算ルーチン、443
2:x座標計算ルーチン、4433:表示座標への変換
ルーチン、4434:重なり回避ルーチン、4435:
リンク配置ルーチン、444:グラフ表示ルーチン、
5:ワークエリア、51:検索ワークエリア、511:
キーワード格納エリア、5111:必須キーワード格納
エリア、5112:加点キーワード格納エリア、511
3:減点キーワード格納エリア、512:検索結果格納
エリア、513:検索結果得点分布格納エリア、52:
特徴語抽出ワークエリア、521:特徴語抽出パラメー
タ格納エリア、5211:走査文書数上限値格納エリ
ア、5212:頻度クラス分割数格納エリア、521
3:抽出語数格納エリア、522:単語分割済み文書格
納エリア、523:頻度データベース格納エリア、52
4:特徴語リスト格納エリア、53:共起関係解析ワー
クエリア、531:共起データ格納エリア、532:共
起リンク格納エリア、54:グラフ配置ワークエリア、
541:正規化座標格納エリア、542:グラフ配置パ
ラメータ格納エリア、543:グラフ格納エリア、54
31:ノード格納エリア、5432:リンク格納エリ
ア、6:データベース保持手段、61:検索対象文書デ
ータベース、62:検索用インデックスデータベース、
63:単語頻度データベース、64:除外語データベー
ス。
1, 1: input means, 11, 11: keyboard, 12, 1
2: mouse, 13, 13: pen input means, 2, 2: display means, 21, 21: search interface, 7, 7: communication means, 8: output means, 81: printer 81, IF1, I
F2, IF3: Interface, NET1, NET
2: line, 211: search request input unit, 212: keyword display / operation unit, 2121: essential keyword display unit, 2
1211: Add button to required keyword, 2121
2: Erasing button for essential keywords, 2122: Additional keyword display area, 2123: Deduction keyword display area, 21
3: Search hit count display area, 214: Title display area,
215: document display section, 216: search execution button, 21
6: characteristic word display button, 2171: characteristic word display style selection means, 22: characteristic word display means, 221: characteristic word display means operation section, 222: keyword display / operation section of characteristic word display means, 223: characteristic word display Mean number of search hits display section, 224: characteristic word display section, 2241: high frequency characteristic word display section, 2242: medium frequency characteristic word display section, 2243: high frequency characteristic word display section, 225: parameter of characteristic word display means Setting unit, 2251: characteristic word display word number setting means, 3: calculation program execution means (CPU), 4: calculation program holding means, 41: search interface operation routine, 4
2: Morphological analysis routine, 43: Search routine, 44:
Characteristic word display means operation routine, 441: characteristic word extraction routine, 442: co-occurrence relation analysis routine, 443: graph arrangement routine, 4431: y coordinate calculation routine, 443
2: x coordinate calculation routine, 4433: conversion routine to display coordinates, 4434: overlap avoidance routine, 4435:
Link arrangement routine, 444: graph display routine,
5: Work area, 51: Search work area, 511:
Keyword storage area, 5111: Essential keyword storage area, 5112: Additional keyword storage area, 511
3: Deducted keyword storage area, 512: Search result storage area, 513: Search result score distribution storage area, 52:
Feature word extraction work area, 521: Feature word extraction parameter storage area, 5211: Scanned document number upper limit storage area, 5212: Frequency class division number storage area, 521
3: Extracted word number storage area, 522: Word divided document storage area, 523: Frequency database storage area, 52
4: characteristic word list storage area, 53: co-occurrence relation analysis work area, 531: co-occurrence data storage area, 532: co-occurrence link storage area, 54: graph layout work area,
541: normalized coordinate storage area, 542: graph arrangement parameter storage area, 543: graph storage area, 54
31: node storage area, 5432: link storage area, 6: database holding means, 61: search target document database, 62: search index database,
63: word frequency database, 64: exclusion word database.

Claims (17)

【特許請求の範囲】[Claims] 【請求項1】設定されたキーワードに応じて検索対象文
書群から前記キーワードを持つ文書を検索結果文書とし
て検出すること、ある単語が前記検索結果文書群中のい
くつの文書に現れるかを意味する単語の文書頻度を検出
すること、前記単語が検索対象文書群全体においていく
つの文書に出現するかを意味する単語の全体文書頻度を
検出すること、前記単語の文書頻度と単語の全体文書頻
度との比を意味する頻度比を導出すること、前記文書頻
度を所定の関係で頻度クラスに区分分けして各単語の文
書頻度に応じて各単語を頻度クラスに対応させること、
各頻度クラスから適当数の単語を単語の頻度比の大きさ
順に特徴語として抽出すること、抽出された特徴語をグ
ラフ形式またはリスト形式で表示することとよりなるこ
とを特徴とする文献検索支援方法。
Detecting a document having the keyword as a search result document from a search target document group according to a set keyword, and indicating how many documents in the search result document group appear in a certain word; Detecting the document frequency of a word, detecting the total document frequency of the word meaning how many documents the word appears in the entire search target document group, and determining the document frequency of the word and the total document frequency of the word. Deriving a frequency ratio meaning the ratio of, the document frequency is divided into frequency classes in a predetermined relationship, and each word corresponds to the frequency class according to the document frequency of each word,
Literature search support characterized by extracting an appropriate number of words from each frequency class in the order of the frequency ratio of words as feature words, and displaying the extracted feature words in a graph format or a list format Method.
【請求項2】前記抽出された特徴語を頻度クラス別のリ
スト形式または特徴語間の関連を示すグラフ形式のいず
れかで表示する請求項1記載の文献検索支援方法。
2. The document search support method according to claim 1, wherein the extracted characteristic words are displayed in either a list format for each frequency class or a graph format showing the relationship between the characteristic words.
【請求項3】設定されたキーワードに応じて検索対象文
書群から前記キーワードを持つ文書を検索結果文書とし
て検出する手段、ある単語が前記検索結果文書群中のい
くつの文書に現れるかを意味する単語の文書頻度を検出
する手段、前記単語が検索対象文書群全体においていく
つの文書に出現するかを意味する単語の全体文書頻度を
検出する手段、前記単語の文書頻度と単語の全体文書頻
度との比を意味する頻度比を導出する手段、前記頻度比
を所定の関係で頻度クラスに区分分けして各単語の頻度
比に応じて各単語を頻度クラスに対応させる手段、各頻
度クラスから適当数の単語を単語の頻度比の大きさ順に
特徴語として抽出する手段、抽出された特徴語をグラフ
形式またはリスト形式で表示する手段とよりなることを
特徴とする文献検索装置。
3. A means for detecting a document having the keyword as a search result document from a search target document group according to a set keyword, and means how many documents in the search result document group appear in a certain word. Means for detecting the document frequency of the word, means for detecting the number of documents in which the word appears in the entire search target document group, and the document frequency of the word and the entire document frequency of the word. Means for deriving a frequency ratio meaning a ratio of the words, means for classifying the frequency ratio into frequency classes according to a predetermined relationship, and means for associating each word with the frequency class according to the frequency ratio of each word; A document extractor comprising: means for extracting a number of words as characteristic words in order of magnitude of the frequency ratio of words; and means for displaying the extracted characteristic words in a graph format or a list format. Apparatus.
【請求項4】前記抽出された特徴語を頻度クラス別のリ
スト形式または特徴語間の関連を示すグラフ形式のいず
れかで表示するする手段および特徴語表示形式を選択指
定する手段を有する請求項3記載の文献検索装置。
4. A means for displaying the extracted characteristic words in either a list form for each frequency class or a graph form showing the relationship between characteristic words, and means for selecting and specifying a characteristic word display form. 3. The document search device according to 3.
【請求項5】前記特徴語間の関連が特徴語間の共起関係
を基礎として決定され、前記グラフ形式が特徴語をノー
ドとし関連性の高い特徴語の単語対にリンクを張って構
成されたグラフである請求項3または4記載の文献検索
装置。
5. The relation between the characteristic words is determined on the basis of the co-occurrence relation between the characteristic words, and the graph form is formed by linking word pairs of characteristic words with characteristic words as nodes. The document search device according to claim 3 or 4, wherein the document search device is a graph.
【請求項6】設定されるキーワードが必須キーワード、
加点キーワードおよび減点キーワードの3種類のキーワ
ードとされ、必須キーワードによる検索は各必須キーワ
ードによるアンド条件で検索を行ない、検索された前記
検索結果文書群の各文書について、加点キーワードを含
む場合には加点キーワード数に応じて高い得点を与え、
減点キーワードを含む場合には減点キーワード数に応じ
て減点し、より高い得点を得た文書群から特徴語抽出を
行なう請求項3または4記載の文献検索装置。
6. The set keyword is a required keyword,
There are three types of keywords, an additional keyword and a deducted keyword. The search by the essential keywords is performed by an AND condition based on each essential keyword. For each document in the retrieved search result document group, the additional score is added when the additional keyword is included. Score high according to the number of keywords,
5. The document search apparatus according to claim 3, wherein when a deduction keyword is included, a deduction is performed according to the number of deduction keywords, and a characteristic word is extracted from a document group that has obtained a higher score.
【請求項7】必須キーワードの設定のない場合に加点キ
ーワードによる検索が行われ、各加点キーワードによる
検索はオア条件で行われる請求項6記載の文献検索装
置。
7. The document search apparatus according to claim 6, wherein a search is performed by additional keywords when no essential keyword is set, and the search by each additional keyword is performed under an OR condition.
【請求項8】設定される必須キーワード、加点キーワー
ドおよび減点キーワードの3種類のキーワード間でキー
ワードの種類を変更可能とされるとともに、表示された
特徴語を必須キーワード、加点キーワードおよび減点キ
ーワードのいずれかに複写可能とした請求項6または7
記載の文献検索装置。
8. The type of keyword can be changed among three types of set keywords, a required keyword, an additional keyword, and a deducted keyword, and the displayed characteristic word can be changed to any one of the required keyword, the additional keyword, and the deducted keyword. 8. The method according to claim 6, wherein the crab can be copied.
Document search device described.
【請求項9】特徴語のグラフ表示において縦軸方向が検
索された文書群における特徴語の文書頻度を表す請求項
4ないし8のいずれかに記載の文献検索装置。
9. The document retrieval apparatus according to claim 4, wherein, in the characteristic word graph display, the vertical axis represents the document frequency of the characteristic word in the retrieved document group.
【請求項10】検索元から伝送されたキーワードに応じ
て検索対象文書群から前記キーワードを持つ文書を検索
結果文書として検出すること、ある単語が前記検索結果
文書群中のいくつの文書に現れるかを意味する単語の文
書頻度を検出すること、前記単語が検索対象文書群全体
においていくつの文書に出現するかを意味する単語の全
体文書頻度を検出すること、前記単語の文書頻度と単語
の全体文書頻度との比を意味する頻度比を導出するこ
と、前記頻度比を所定の関係で頻度クラスに区分分けし
て各単語の頻度比に応じて各単語を頻度クラスに対応さ
せること、各頻度クラスから適当数の単語を単語の頻度
比の大きさ順に特徴語として抽出すること、抽出された
特徴語を特徴語間の関連を示すグラフ形式で表示可能な
データとして構成することまたは抽出された特徴語を頻
度クラス別のリスト形式で表示可能なデータとして構成
すること、前記特徴語をグラフ形式またはリスト形式で
表示可能なデータとして検索元に送信することよりなる
文献検索サービス方法。
10. A method for detecting a document having a keyword as a search result document from a search target document group according to a keyword transmitted from a search source, and determining how many documents in the search result document group include a word. Detecting the document frequency of a word meaning the word, detecting the total document frequency of the word meaning how many documents the word appears in the entire search target document group, detecting the document frequency of the word and the entire word Deriving a frequency ratio meaning a ratio to a document frequency, classifying the frequency ratio into frequency classes according to a predetermined relationship, and associating each word with the frequency class according to the frequency ratio of each word, Extract an appropriate number of words from the class as feature words in order of magnitude of the word frequency ratio, and configure the extracted feature words as data that can be displayed in a graph format indicating the relationship between the feature words A document search service comprising: configuring the extracted feature words as data that can be displayed in a list format for each frequency class; and transmitting the feature words to a search source as data that can be displayed in a graph format or a list format. Method.
【請求項11】前記検索元は、少なくとも、抽出すべき
キーワードを持つ文書を特定するためのキーワードを伝
送するための手段および前記送信された特徴語および特
徴語間の関連を示すグラフ形式またはリスト形式で表示
可能なデータを受信して表示するための手段を備えて検
索サービスを受ける請求項10記載の文献検索サービス
方法。
11. The search source includes at least means for transmitting a keyword for specifying a document having a keyword to be extracted, and a graph form or list showing the transmitted characteristic words and the relation between the characteristic words. 11. The document search service method according to claim 10, further comprising means for receiving and displaying data that can be displayed in a format and receiving a search service.
【請求項12】前記検索元は、前記送信された特徴語お
よび特徴語間の関連を示すグラフ形式またはリスト形式
で表示可能なデータを表示ソフトとともに伝送されて検
索サービスを受ける請求項10記載の文献検索サービス
方法。
12. The search source according to claim 10, wherein the search source receives the search service by transmitting, together with display software, data that can be displayed in the form of a graph or a list showing the transmitted characteristic words and the relation between the characteristic words. Literature search service method.
【請求項13】前記検索元は、検索さ−ビスを受けるた
めのユーザインタフェイス駆動ソフトを検索作業の開始
時あるいは前もって検索サービス提供者から伝送を受け
これを駆動して検索サービスを受ける請求項10記載の
文献検索サービス方法。
13. The search source receives a search service by transmitting user interface driving software for receiving a search service at the start of a search operation or in advance from a search service provider and driving the user interface drive software to receive the search service. 10. A document search service method according to 10.
【請求項14】検索結果に出現する各語の特徴度を計算
するための頻度データを記録したコンピュータ読み取り
可能な記録媒体であって、各語に関するデータが、
(a)文字列、(b)検索された文書の内の何件にその
語が出現したかを表す文書頻度、(c)検索結果に関係
なく、検索対象文書全体で何件の文書に使われているか
を表すデータベース全体での文書頻度、(d)前記検索
結果における文書頻度とデータベース全体での全体文書
頻度から計算される検索結果におけるその語の特徴度、
(e)前記検索結果における文書頻度の大小によってク
ラス分けした場合の頻度クラスとからなり、前記頻度ク
ラスのそれぞれから前記特徴度の上位にある語を検索対
象文書群における特徴語とすることを特徴とする検索結
果に出現する語の頻度データを記録したコンピュータ読
み取り可能な記録媒体。
14. A computer-readable recording medium on which frequency data for calculating a characteristic degree of each word appearing in a search result is recorded, wherein data on each word is:
(A) a character string, (b) a document frequency indicating how many times the word appears in the searched documents, and (c) a number of documents used in the entire search target document regardless of the search result. (D) the document frequency of the word in the search result calculated from the document frequency in the search result and the entire document frequency in the whole database,
(E) A frequency class obtained by classifying according to the magnitude of the document frequency in the search result, and a word having a higher degree of characteristic from each of the frequency classes is set as a characteristic word in the search target document group. A computer-readable recording medium that records frequency data of words appearing in search results.
【請求項15】検索結果に出現する特徴語間の関連度を
計算するために、特徴語が共出現する共起データを記録
したコンピュータ読み取り可能な記録媒体であって、各
特徴語対に関するデータが、(a)検索結果文書群にお
ける両特徴語が共出現する共起頻度と(b)該共起頻度
と両特徴語各々の検索結果に出現する頻度データから計
算される両特徴語の関連度とからなり、前記関連度の高
い特徴語対に関連性が強いことを示すリンクを張れるよ
うにすることを特徴とする検索結果における特徴語間の
共起データを記録したコンピュータ読み取り可能な記録
媒体。
15. A computer-readable recording medium for recording co-occurrence data in which characteristic words co-occur in order to calculate the degree of relevance between characteristic words appearing in a search result, wherein data relating to each characteristic word pair is recorded. Is related to (a) the co-occurrence frequency at which both characteristic words in the search result document group co-occur, and (b) the relation between the co-occurrence frequency and the characteristic words calculated from the frequency data appearing in the search results of both characteristic words. And computer-readable recording which records co-occurrence data between characteristic words in a search result, wherein a link indicating that the characteristic word pair having a high degree of relevance is strong is provided. Medium.
【請求項16】検索結果に出現する特徴語対のグラフを
画面表示するためのデータを記録したコンピュータ読み
取り可能な記録媒体であって、前記特徴語対のグラフを
画面表示するためのデータは(a)グラフのノード部分
に特徴語を表示するためのデータ、(b)特徴語間の関
連性を示すリンクを表示するためのデータとからなると
ともに、前記各ノードのデータは、中心座標、表示する
文字列、および、文字列を表示する領域の縦横の文字数
とサイズからなり、前記各リンクのデータは始点座標と
終点座標とからなり、特徴語グラフをリンクと文字列と
による二次元表示を可能としたことを特徴とする特徴語
グラフを画面表示するためのデータを記録したコンピュ
ータ読み取り可能な記録媒体。
16. A computer-readable recording medium for recording data for displaying a graph of a characteristic word pair appearing in a search result on a screen, wherein the data for displaying the graph of the characteristic word pair on a screen is: a) data for displaying a characteristic word at a node portion of a graph; and (b) data for displaying a link indicating the relevance between characteristic words. Character string, and the number and size of characters in the vertical and horizontal characters of the area to display the character string, the data of each link is composed of start point coordinates and end point coordinates, the two-dimensional display of the characteristic word graph by link and character string A computer-readable recording medium that records data for displaying a characteristic word graph on a screen, wherein the characteristic word graph is enabled.
【請求項17】検索結果に出現する各語の特徴度を計算
し、特徴語を導出し、特徴語対の共出現頻度にもとづい
て関連性の高いと判定される特徴語対にリンクを張って
得られる特徴語のグラフを画面表示するデータを記録し
たコンピュータ読み取り可能な記録媒体であって、前記
検索結果に出現する各語に関するデータが、(a)文字
列、(b)検索された文書の内の何件にその語が出現し
たかを表す文書頻度、(c)検索結果に関係なく、検索
対象文書全体で何件の文書に使われているかを表すデー
タベース全体での文書頻度、(d)前記検索結果におけ
る文書頻度とデータベース全体での全体文書頻度から計
算される検索結果におけるその語の特徴度、(e)前記
検索結果における文書頻度の大小によってクラス分けし
た場合の頻度クラスとからなり、前記頻度クラスのそれ
ぞれから前記特徴度の上位にある語を検索対象文書群に
おける特徴語とし、 前記特徴語間の関連度を計算するために、各特徴語対に
関するデータが、(f)検索結果文書群における両特徴
語が共出現する共起頻度と(g)該共起頻度と両特徴語
各々の検索結果に出現する頻度データから計算される両
特徴語の関連度とからなり、前記関連度の高い特徴語対
にリンクを張れるようにし、 前記リンクの張られた特徴語グラフを画面表示するため
に、前記特徴語グラフを画面表示するためのデータは
(h)グラフのノード部分に特徴語を表示するためのデ
ータ、(i)特徴語間の関連性を示すリンクを表示する
ためのデータとからなるとともに、前記各ノードのデー
タは、中心座標、表示する文字列、および、文字列を表
示する領域の縦横の文字数とサイズからなり、前記各リ
ンクのデータは始点座標と終点座標とからなり、前記各
特徴語グラフをリンクと文字列とによる二次元表示を可
能としたことを特徴とする特徴語グラフを画面表示する
ためのデータを記録したコンピュータ読み取り可能な記
録媒体。
17. A feature word of each word appearing in a search result is calculated, a feature word is derived, and a link is established to a feature word pair determined to be highly relevant based on the co-occurrence frequency of the feature word pair. A computer-readable recording medium which records data for displaying a graph of characteristic words obtained on a screen, wherein data relating to each word appearing in the search result is (a) a character string, and (b) a searched document. , The document frequency indicating the number of occurrences of the word, and (c) the document frequency throughout the database indicating the number of documents used in the entire search target document regardless of the search result. d) the characteristic degree of the word in the search result calculated from the document frequency in the search result and the entire document frequency in the entire database; and (e) the frequency class in the case of classifying according to the magnitude of the document frequency in the search result. In each of the frequency classes, a word having a higher degree of the characteristic degree is set as a characteristic word in the search target document group. In order to calculate the degree of relevance between the characteristic words, data relating to each characteristic word pair is represented by ( f) From the co-occurrence frequency at which both characteristic words co-occur in the search result document group and (g) the co-occurrence frequency and the relevance of both characteristic words calculated from the frequency data appearing in the search results for each of the characteristic words In order to link the characteristic word pair having a high degree of relevance, and to display the characteristic word graph with the link displayed on the screen, the data for displaying the characteristic word graph on the screen is (h) graph data. Data for displaying a characteristic word in a node portion, and (i) data for displaying a link indicating the relevance between the characteristic words, and the data of each node includes center coordinates, a character string to be displayed, and, The character string display area is composed of the number of characters in the vertical and horizontal directions and the size, and the data of each link is composed of start point coordinates and end point coordinates, and each of the characteristic word graphs can be displayed two-dimensionally by links and character strings. A computer-readable recording medium that records data for displaying a characteristic word graph on a screen.
JP17850097A 1996-07-05 1997-07-03 Document search support method and apparatus, and document search service using the same Expired - Lifetime JP3614618B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP17850097A JP3614618B2 (en) 1996-07-05 1997-07-03 Document search support method and apparatus, and document search service using the same

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP17617496 1996-07-05
JP8-176174 1996-07-05
JP17850097A JP3614618B2 (en) 1996-07-05 1997-07-03 Document search support method and apparatus, and document search service using the same

Publications (2)

Publication Number Publication Date
JPH1074210A true JPH1074210A (en) 1998-03-17
JP3614618B2 JP3614618B2 (en) 2005-01-26

Family

ID=26497200

Family Applications (1)

Application Number Title Priority Date Filing Date
JP17850097A Expired - Lifetime JP3614618B2 (en) 1996-07-05 1997-07-03 Document search support method and apparatus, and document search service using the same

Country Status (1)

Country Link
JP (1) JP3614618B2 (en)

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000010986A (en) * 1998-06-18 2000-01-14 Trendy:Kk Retrieval support method for document data base and storage medium where program thereof is stored
JP2001067362A (en) * 1999-08-25 2001-03-16 Hitachi Ltd Word importance calculation method, document retrieving interface and word dictionary preparing method
JP2001337969A (en) * 2000-05-29 2001-12-07 Nippon Telegr & Teleph Corp <Ntt> Knowledge acquiring method, document information structuring method and apparatus, and recording medium recording program for implementing the method
JP2002259429A (en) * 2001-01-17 2002-09-13 Internatl Business Mach Corp <Ibm> Computer-based matching text search system and method
JP2002288221A (en) * 2001-03-26 2002-10-04 Just Syst Corp Document indicating equipment, method for document indicating, and its program
US6574622B1 (en) 1998-09-07 2003-06-03 Fuji Xerox Co. Ltd. Apparatus and method for document retrieval
US6584460B1 (en) 1998-11-19 2003-06-24 Hitachi, Ltd. Method of searching documents and a service for searching documents
JP2006031577A (en) * 2004-07-21 2006-02-02 Hideki Mima Information retrieval overlooking method and device
JP2006079366A (en) * 2004-09-09 2006-03-23 Ricoh Co Ltd Information retrieval system, information retrieval terminal, information retrieval method, program and recording medium
WO2006043499A1 (en) * 2004-10-18 2006-04-27 Pioneer Corporation Information processing device, classification reference information database, information generation device, information processing method, information generation method, information processing program, and recording medium having information processing program recorded therein
JP2006293616A (en) * 2005-04-08 2006-10-26 Nippon Telegr & Teleph Corp <Ntt> Document aggregating method, and device and program
JP2009217406A (en) * 2008-03-07 2009-09-24 Nec Corp Document retrieval device, method, and program
JP2009536401A (en) * 2006-05-05 2009-10-08 ハリス コーポレイション Method for document region identification in a document database
JP2010113412A (en) * 2008-11-04 2010-05-20 Omron Corp Method, device, and program for processing document information, and recording medium
WO2010061537A1 (en) * 2008-11-26 2010-06-03 日本電気株式会社 Search device, search method, and recording medium on which programs are stored
JP2012527701A (en) * 2009-05-22 2012-11-08 マイクロソフト コーポレーション Mining phrase pairs from unstructured resources
JP2013003796A (en) * 2011-06-15 2013-01-07 Navitime Japan Co Ltd Facility information provision device, facility information provision system, server apparatus, terminal device, facility information provision method, and program
JP2013045415A (en) * 2011-08-26 2013-03-04 Nippon Telegr & Teleph Corp <Ntt> Topic word acquisition device, method, and program
JP2013178808A (en) * 2013-05-13 2013-09-09 Fujitsu Ltd Information retrieval device, information retrieval method, and program thereof
US8566351B2 (en) 2011-01-28 2013-10-22 Hitachi, Ltd. System and program for generating boolean search formulas
JP2015125594A (en) * 2013-12-26 2015-07-06 キヤノンマーケティングジャパン株式会社 Information processing device, information processing method and program
JP2015164066A (en) * 2015-05-07 2015-09-10 富士通株式会社 Information search device, method and program thereof
WO2018124464A1 (en) * 2016-12-26 2018-07-05 삼성전자 주식회사 Electronic device and search service providing method of electronic device
JP2018113046A (en) * 2018-02-08 2018-07-19 キヤノンマーケティングジャパン株式会社 Information processing device, information processing method, and program
JP2019053678A (en) * 2017-09-19 2019-04-04 富士ゼロックス株式会社 Information processing device and program
JP2020060811A (en) * 2018-10-04 2020-04-16 Tis株式会社 Information processing apparatus, information processing method, and program
JP2020102023A (en) * 2018-12-21 2020-07-02 富士ゼロックス株式会社 Retrieval device and retrieval program
JP2020181523A (en) * 2019-04-26 2020-11-05 富士ゼロックス株式会社 Information processing apparatus and program

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06332935A (en) * 1993-05-18 1994-12-02 Hitachi Ltd Numerical sequence expressing dictionary for word, preparing method for the same and device using the same

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06332935A (en) * 1993-05-18 1994-12-02 Hitachi Ltd Numerical sequence expressing dictionary for word, preparing method for the same and device using the same

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000010986A (en) * 1998-06-18 2000-01-14 Trendy:Kk Retrieval support method for document data base and storage medium where program thereof is stored
US6574622B1 (en) 1998-09-07 2003-06-03 Fuji Xerox Co. Ltd. Apparatus and method for document retrieval
US7693910B2 (en) 1998-11-19 2010-04-06 Hitachi, Ltd. Method of searching documents and a service for searching documents
US6584460B1 (en) 1998-11-19 2003-06-24 Hitachi, Ltd. Method of searching documents and a service for searching documents
US6850937B1 (en) 1999-08-25 2005-02-01 Hitachi, Ltd. Word importance calculation method, document retrieving interface, word dictionary making method
JP2001067362A (en) * 1999-08-25 2001-03-16 Hitachi Ltd Word importance calculation method, document retrieving interface and word dictionary preparing method
JP2001337969A (en) * 2000-05-29 2001-12-07 Nippon Telegr & Teleph Corp <Ntt> Knowledge acquiring method, document information structuring method and apparatus, and recording medium recording program for implementing the method
JP2002259429A (en) * 2001-01-17 2002-09-13 Internatl Business Mach Corp <Ibm> Computer-based matching text search system and method
JP4617015B2 (en) * 2001-03-26 2011-01-19 株式会社MetaMoJi Document display device, document display method, and program
JP2002288221A (en) * 2001-03-26 2002-10-04 Just Syst Corp Document indicating equipment, method for document indicating, and its program
JP2006031577A (en) * 2004-07-21 2006-02-02 Hideki Mima Information retrieval overlooking method and device
JP2006079366A (en) * 2004-09-09 2006-03-23 Ricoh Co Ltd Information retrieval system, information retrieval terminal, information retrieval method, program and recording medium
JP4538284B2 (en) * 2004-09-09 2010-09-08 株式会社リコー Information search system, information search terminal, program, and recording medium
WO2006043499A1 (en) * 2004-10-18 2006-04-27 Pioneer Corporation Information processing device, classification reference information database, information generation device, information processing method, information generation method, information processing program, and recording medium having information processing program recorded therein
JPWO2006043499A1 (en) * 2004-10-18 2008-08-07 パイオニア株式会社 Information processing apparatus, classification reference information database, information generation apparatus, information processing method, information generation method, information processing program, and recording medium recorded with information processing program
JP4525433B2 (en) * 2005-04-08 2010-08-18 日本電信電話株式会社 Document aggregation device and program
JP2006293616A (en) * 2005-04-08 2006-10-26 Nippon Telegr & Teleph Corp <Ntt> Document aggregating method, and device and program
JP2009536401A (en) * 2006-05-05 2009-10-08 ハリス コーポレイション Method for document region identification in a document database
JP2009217406A (en) * 2008-03-07 2009-09-24 Nec Corp Document retrieval device, method, and program
JP2010113412A (en) * 2008-11-04 2010-05-20 Omron Corp Method, device, and program for processing document information, and recording medium
JP5594145B2 (en) * 2008-11-26 2014-09-24 日本電気株式会社 SEARCH DEVICE, SEARCH METHOD, AND PROGRAM
WO2010061537A1 (en) * 2008-11-26 2010-06-03 日本電気株式会社 Search device, search method, and recording medium on which programs are stored
US8892574B2 (en) 2008-11-26 2014-11-18 Nec Corporation Search apparatus, search method, and non-transitory computer readable medium storing program that input a query representing a subset of a document set stored to a document database and output a keyword that often appears in the subset
JP2012527701A (en) * 2009-05-22 2012-11-08 マイクロソフト コーポレーション Mining phrase pairs from unstructured resources
US8566351B2 (en) 2011-01-28 2013-10-22 Hitachi, Ltd. System and program for generating boolean search formulas
JP2013003796A (en) * 2011-06-15 2013-01-07 Navitime Japan Co Ltd Facility information provision device, facility information provision system, server apparatus, terminal device, facility information provision method, and program
JP2013045415A (en) * 2011-08-26 2013-03-04 Nippon Telegr & Teleph Corp <Ntt> Topic word acquisition device, method, and program
JP2013178808A (en) * 2013-05-13 2013-09-09 Fujitsu Ltd Information retrieval device, information retrieval method, and program thereof
JP2015125594A (en) * 2013-12-26 2015-07-06 キヤノンマーケティングジャパン株式会社 Information processing device, information processing method and program
JP2015164066A (en) * 2015-05-07 2015-09-10 富士通株式会社 Information search device, method and program thereof
WO2018124464A1 (en) * 2016-12-26 2018-07-05 삼성전자 주식회사 Electronic device and search service providing method of electronic device
JP2019053678A (en) * 2017-09-19 2019-04-04 富士ゼロックス株式会社 Information processing device and program
JP2018113046A (en) * 2018-02-08 2018-07-19 キヤノンマーケティングジャパン株式会社 Information processing device, information processing method, and program
JP2020060811A (en) * 2018-10-04 2020-04-16 Tis株式会社 Information processing apparatus, information processing method, and program
JP2020102023A (en) * 2018-12-21 2020-07-02 富士ゼロックス株式会社 Retrieval device and retrieval program
JP2020181523A (en) * 2019-04-26 2020-11-05 富士ゼロックス株式会社 Information processing apparatus and program

Also Published As

Publication number Publication date
JP3614618B2 (en) 2005-01-26

Similar Documents

Publication Publication Date Title
JP3614618B2 (en) Document search support method and apparatus, and document search service using the same
US5987460A (en) Document retrieval-assisting method and system for the same and document retrieval service using the same with document frequency and term frequency
US11068494B2 (en) Interface including graphic representation of relationships between search results
JP4116329B2 (en) Document information display system, document information display method, and document search method
JP4583003B2 (en) Search processing method and program
JP4335335B2 (en) How to sort document images
JP3942290B2 (en) How to send a document image to a client workstation
US6826724B1 (en) Document processor, document classification device, document processing method, document classification method, and computer-readable recording medium for recording programs for executing the methods on a computer
US8555182B2 (en) Interface for managing search term importance relationships
US7861149B2 (en) Key phrase navigation map for document navigation
JP3577819B2 (en) Information search apparatus and information search method
US20020099685A1 (en) Document retrieval system; method of document retrieval; and search server
US20030225755A1 (en) Document search method and system, and document search result display system
US20020091678A1 (en) Multi-query data visualization processes, data visualization apparatus, computer-readable media and computer data signals embodied in a transmission medium
JP2007286864A (en) Image processor, image processing method, program, and recording medium
KR20070058685A (en) Presentation of search results based on document structure
WO2005004007A1 (en) Method for referencing image data
JP3625054B2 (en) Technical document retrieval device
JP2007317034A (en) Image processing apparatus, image processing method, program, and recording medium
JP4832952B2 (en) Database analysis system, database analysis method and program
EP1154355B1 (en) Document processing method, system and computer readable storage medium
JP5349699B1 (en) Document analysis apparatus and program
JP2004362451A (en) Method and system for displaying retrieving keyword information, and retrieving keyword information display program
US6961724B1 (en) Method and apparatus for image retrieval
JP3746233B2 (en) Knowledge analysis system and knowledge analysis method

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041019

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041027

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071112

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081112

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081112

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091112

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101112

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101112

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111112

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111112

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121112

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121112

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131112

Year of fee payment: 9

EXPY Cancellation because of completion of term