JP2000227917A - Thesaurus browsing system and method therefor and recording medium recording its processing program - Google Patents

Thesaurus browsing system and method therefor and recording medium recording its processing program

Info

Publication number
JP2000227917A
JP2000227917A JP2810199A JP2810199A JP2000227917A JP 2000227917 A JP2000227917 A JP 2000227917A JP 2810199 A JP2810199 A JP 2810199A JP 2810199 A JP2810199 A JP 2810199A JP 2000227917 A JP2000227917 A JP 2000227917A
Authority
JP
Japan
Prior art keywords
term
thesaurus
terms
cluster
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2810199A
Other languages
Japanese (ja)
Other versions
JP4404323B2 (en
Inventor
Toshiko Aizono
敏子 相薗
Hiroyuki Kaji
博行 梶
Yasutsugu Morimoto
康嗣 森本
Noriyuki Yamazaki
山崎  紀之
Keiko Iida
恵子 飯田
Yasuhiko Uchida
安彦 内田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
Agency of Industrial Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agency of Industrial Science and Technology filed Critical Agency of Industrial Science and Technology
Priority to JP02810199A priority Critical patent/JP4404323B2/en
Publication of JP2000227917A publication Critical patent/JP2000227917A/en
Application granted granted Critical
Publication of JP4404323B2 publication Critical patent/JP4404323B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

PROBLEM TO BE SOLVED: To improve the use efficiency of a related thesaurus by permitting a user to select any set, extracting a term related with a general term belonging to the respective representative terms of the selected set from the thesaurus and generating and displaying several sets from the extracted terms. SOLUTION: The set of terms in document data stored in a document data storage part 2a is stored in a cooccurrence term table 3a. The term extracted from a document and the frequency are stored in the document term table 3b for every document. A related thesaurus is generated from document data in a related thesaurus generation part 1a. The term vectors of the respective documents are extracted from a term vector extraction part 1b and the view of the related thesaurus is generated. A term cluster list is selected from it and the related term of the term belonging to the list is extracted. Several sets are generated from the extracted terms and they are displayed.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、シソーラスに格納
された各タームの表示技術に係わり、特に、ネットワー
ク型のシソーラスに格納されたタームの検索の効率化を
図るのに好適なシソーラスブラウジングシステムと方法
およびその処理プログラムを記録した記録媒体に関する
ものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a technique for displaying terms stored in a thesaurus, and more particularly, to a thesaurus browsing system suitable for improving the efficiency of searching terms stored in a network type thesaurus. The present invention relates to a method and a recording medium on which a processing program is recorded.

【0002】[0002]

【従来の技術】以下、まず、このシソーラスの概要につ
いてJIS規格を引用して簡単に述べ、次に、本発明が
対象とするターム(関連ターム)を格納したシソーラス
の特徴について説明し、その後、当該シソーラスをブラ
ウジングするための従来の技術を示す。
2. Description of the Related Art First, the outline of this thesaurus will be briefly described with reference to JIS standards, and then the features of a thesaurus storing terms (related terms) targeted by the present invention will be described. 1 shows a conventional technique for browsing the thesaurus.

【0003】JIS X 0901「シソーラスの構成及
びその作成方法」によれば、シソーラスとは「統制され
た索引言語の語彙であって、あらかじめ概念間の先験的
な関係を明示するように組織化したもの」である。ここ
で「索引言語の語彙」、すなわち「索引語」とは、「あ
る概念を名詞又は名詞相当の句の形で適切に表現したも
の」(JIS X 0901)であり、一般には「ター
ム」と呼ばれることが多い。よって、以下「ターム」と
呼ぶ。
According to JIS X 0901 "Thesaurus construction and method of creation", a thesaurus is a "vocabulary of a controlled index language, and organized in such a way that a priori relationship between concepts is explicitly specified in advance. What did you do? " Here, the “vocabulary of the index language”, that is, the “index word” is “an appropriate expression of a concept in the form of a noun or a phrase equivalent to a noun” (JIS X0901), and is generally called “term”. Often called. Therefore, it is referred to as “term” below.

【0004】シソーラスに記述されるターム間の関係に
は、「同義関係」、「階層関係」及び「関連関係」があ
る(JIS X 0901)。「同義関係」とは、同じ概
念を指すターム間の関係である。例えば、「カメラ」と
「写真機」などである。「階層関係」とは、上位概念と
下位概念間の関係であり、類種関係(クラスとそのメン
バの関係、例:「霊長類」と「サル」)、全体部分関係
(部分の名称とそれが属する全体の名称、例:「消化
器」と「腸」)、及び例示関係(カテゴリとその事例の
関係、例:「高速鉄道」と「新幹線」)の3種類があ
る。このような階層関係にあるタームを格納したシソー
ラスを以下「階層シソーラス」と呼ぶ。
There are "synonymous relationship", "hierarchical relationship", and "association relationship" as the relationship between terms described in the thesaurus (JIS X 0901). The “synonymous relationship” is a relationship between terms indicating the same concept. For example, "camera" and "camera". A “hierarchical relationship” is a relationship between a superordinate concept and a subordinate concept, such as typological relationships (relationships between classes and their members, eg, “primates” and “monkeys”), and whole partial relationships (part names and their names). There are three types of names, such as "digestive organs" and "gut", and example relationships (relationship between categories and their cases, such as "high-speed rail" and "Shinkansen"). A thesaurus storing the terms having such a hierarchical relationship is hereinafter referred to as a “hierarchical thesaurus”.

【0005】これに対して「関連関係」は、「同義関係
及び階層関係以外の関連を持つ語の関係」(JIS X
0901)であり、意味が部分的に重複している場合
(例:「乗用車」と「自家用車」)や、一方のタームが
他方のタームを強く含意する場合(例:「出版」と「図
書」)がある。このような関連関係にあるターム、すな
わち関連タームを格納したシソーラス(以下、「関連シ
ソーラス」)の特徴として、ネットワーク型であるとい
う点が挙げられる。例を用いて説明する。
[0005] On the other hand, "relationship" means "relationship between words having relations other than synonymous relation and hierarchical relation" (JIS X
0901), meanings partially overlap (eg, “passenger car” and “private car”), or when one term strongly implies the other (eg, “publishing” and “books”). )). As a feature of a term having such a related relationship, that is, a thesaurus storing the related terms (hereinafter, referred to as a “related thesaurus”), it is pointed out that it is of a network type. This will be described using an example.

【0006】図2は、関連シソーラスの一例を示す説明
図である。図2中、ノードはターム、ノード間のリンク
は関連関係を示す。本図2に示すように関連シソーラス
では、「公定歩合」と「利率」に関連関係があり、さら
に「利率」と「ローン」が関連関係で結ばれ、更に「ロ
ーン」と「貸し渋り」に関連関係がある。このように関
連シソーラスでは、タームが互いに関連を持ってネット
ワークを形成している。
FIG. 2 is an explanatory diagram showing an example of a related thesaurus. In FIG. 2, nodes represent terms, and links between the nodes represent relationships. As shown in Fig. 2, in the related thesaurus, "official rate" and "interest rate" are related, and "interest rate" and "loan" are connected in a related relation. There is a related relationship. As described above, in the relation thesaurus, terms are associated with each other to form a network.

【0007】このような関連シソーラスをブラウジング
する従来の技術として、次の2つがある。まず、特開平
5−233717号公報に記載の「情報検索装置」は、
ユーザがタームを入力すると、ユーザが指定した範囲内
の関連度を持つ関連タームを検索して表示する。関連度
の範囲は、関連度の強さによってN段階ある(例:「大
中小の3段階」)。これにより、ユーザは関連度の低い
関連タームも効率よく参照することが出来る。
There are the following two conventional techniques for browsing such a related thesaurus. First, an "information retrieval device" described in Japanese Patent Application Laid-Open No. 5-233717
When the user inputs a term, a related term having a relevance within a range designated by the user is searched for and displayed. There are N levels of relevance depending on the level of relevance (eg, “large, medium, and small”). As a result, the user can efficiently refer to related terms having low relevance.

【0008】また、特開平9−44525号公報に記載
の「データ検索装置」は、ユーザがタームを入力する
と、入力されたタームとの関連度の強さに従って関連タ
ームの表示位置を決定する。より具体的には、関連シソ
ーラスを図2に示すようなネットワーク構造で2次元的
に表示する方法に関し、ユーザが入力したタームとの関
連度が強いタームほど入力タームの近くに表示する。こ
れにより、ユーザは入力したタームとの関連度の強さを
ビジュアルに把握できる。
[0008] In the "data search device" described in Japanese Patent Application Laid-Open No. 9-44525, when a user inputs a term, the display position of the related term is determined according to the strength of the degree of association with the input term. More specifically, the present invention relates to a method of displaying a related thesaurus two-dimensionally with a network structure as shown in FIG. 2, in which terms having a higher degree of relevance to terms input by the user are displayed closer to the input terms. As a result, the user can visually grasp the degree of the degree of association with the input term.

【0009】これらの従来技術は、ユーザが関連シソー
ラスの一部分のみに興味を持つとき有用である。しか
し、その一方で、(1)関連シソーラスの概観をユーザ
に提供することができない、(2)関連シソーラスの一
部分に興味を持っている場合でも、所望のタームに辿り
着くまでに手間がかかる、という問題点がある。以下、
それぞれについて説明する。
[0009] These prior arts are useful when the user is interested in only a portion of the associated thesaurus. However, on the other hand, (1) it is not possible to provide the user with an overview of the related thesaurus, and (2) even if he is interested in a part of the related thesaurus, it takes time to reach a desired term. There is a problem. Less than,
Each will be described.

【0010】(1)関連シソーラスの概観をユーザに提
供することができない:上述した従来の技術は、ユーザ
が入力したキータームの関連タームのみを表示する。そ
の一方で、関連シソーラスの全体の概観を掴みたいとい
うユーザの要求がある。例えば、関連シソーラスを参照
したいものの、特に何について参照したいかは実際に関
連シソーラスを調べなけれはっきりと分からないときが
ある。
(1) The user cannot be provided with an overview of the related thesaurus: The above-described conventional technique displays only the related terms of the key terms input by the user. On the other hand, there is a user request to get an overview of the related thesaurus. For example, there are times when a user wants to refer to a related thesaurus, but does not know exactly what he / she wants to refer to without actually examining the related thesaurus.

【0011】このような場合ユーザは、まずどのような
タームが格納されているか関連シソーラスの概観を掴ん
でから興味のある方向へネットワークの部分構造を辿っ
ていきたいと思うであろう。例えば、階層シソーラスで
は、ユーザはその最上位のタームのリストを参照すれば
概観を掴むことができる。これに対して、上記従来技術
では、予め関連シソーラスのネットワークのどの部分を
参照するかユーザが決めておく必要がある。そのため、
関連シソーラスの概観を掴んでからシソーラスをブラウ
ジングしたいというユーザの要求に応えることができな
い。
In such a case, the user may first want to get an overview of the related thesaurus as to what terms are stored and then follow the partial structure of the network in the direction of interest. For example, in a hierarchical thesaurus, a user can get an overview by referring to a list of top-level terms. On the other hand, in the related art, the user needs to determine in advance which part of the network of the related thesaurus is to be referred to. for that reason,
It is not possible to respond to a user's request to browse the thesaurus after gaining an overview of the related thesaurus.

【0012】(2)所望のタームに辿り着くまでに手間
がかかる:上述のように従来の技術では、ユーザによる
キータームの入力が必要である。その一方で、適切なキ
ーの入力は、簡単ではないことが知られている。特に検
索対象の関連シソーラスに熟知していないユーザにとっ
て、入力するタームとは適当に思い付いたタームである
ことが多い。例えば「経済」について知りたいとき、
「経済」をキータームとして入力してしまう、などであ
る。
(2) It takes time to reach a desired term: As described above, the conventional technique requires input of a key term by a user. On the other hand, it is known that inputting an appropriate key is not easy. In particular, for a user who is not familiar with the related thesaurus to be searched, the term to be input is often a term that the user has come up with appropriately. For example, if you want to know about the economy,
"Economy" is entered as a key term, and so on.

【0013】このように思い付いたタームをキーとして
入力したとき、ユーザの興味に一致する関連タームが直
接得られる可能性は低い。そのため表示された関連ター
ムの中からキーとなるタームを選択して、さらに関連タ
ームを検索し辿っていくことが必要であろう。上述のよ
うに関連シソーラスはネットワーク型のシソーラスなの
で、関連タームを次々と辿っていくうちにユーザが“迷
子”、すなわちどのようにシソーラスを辿ったか分から
なくなることもある。このように、思い付いたタームを
適当に入れてシソーラスを調べるのは効率が悪い。
[0013] When such a term is input as a key, it is unlikely that a related term matching the user's interest is directly obtained. Therefore, it will be necessary to select a key term from the displayed related terms, and further search and trace the related terms. As described above, since the related thesaurus is a network type thesaurus, the user may become "lost", that is, may not understand how the user has traced the thesaurus while following the related terms one after another. As described above, it is inefficient to check the thesaurus by appropriately adding a term that comes to mind.

【0014】[0014]

【発明が解決しようとする課題】解決しようとする問題
点は、従来の技術では、関連シソーラスの全体構造(概
観)をユーザに提供することができない点と、ユーザが
関連シソーラスの一部分に興味を持っている場合でも所
望のタームに辿り着くまでに手間がかかってしまう点で
ある。
The problems to be solved are that the conventional technology cannot provide the user with the entire structure (outlook) of the related thesaurus and that the user is interested in a part of the related thesaurus. The point is that it takes time to reach the desired term even if you have it.

【0015】本発明の目的は、これら従来技術の課題を
解決し、関連シソーラスの利用効率を向上させることを
可能とするシソーラスブラウジングシステムと方法およ
びその処理プログラムを記録した記録媒体を提供するこ
とである。
An object of the present invention is to provide a thesaurus browsing system and method capable of solving the problems of the prior art and improving the use efficiency of a related thesaurus, and a recording medium on which a processing program is recorded. is there.

【0016】[0016]

【課題を解決するための手段】上記目的を達成するた
め、本発明のシソーラスブラウジングシステムと方法
は、従来技術のようにネットワーク型の関連シソーラス
の一部分のみを表示するものではなく、関連シソーラス
に格納されたタームの内、この関連シソーラスの全体構
造(概観)を示すようなターム(代表ターム)の集合を
幾つか生成して表示する。そして、ユーザがいずれかの
集合を選択した場合、選択された集合の各代表タームに
属する一般的なタームに関連するタームをシソーラスか
ら抽出し、さらに、抽出した各タームから同様に、幾つ
かの集合を生成して表示する。
SUMMARY OF THE INVENTION To achieve the above object, the thesaurus browsing system and method of the present invention do not display only a part of a network type related thesaurus as in the prior art, but store the related thesaurus in the related thesaurus. A set of terms (representative terms) showing the overall structure (outline) of the related thesaurus is generated and displayed from the terms thus obtained. Then, when the user selects any of the sets, terms related to general terms belonging to each representative term of the selected set are extracted from the thesaurus, and some terms are similarly extracted from each of the extracted terms. Generate and display a set.

【0017】これにより、関連シソーラス中、一般的な
タームで構成された全体構造から、より限定的なターム
も含む部分構造へとユーザをナビゲートすることができ
る。例えば、ナビゲーションの初期状態としてシソーラ
スの概観を示すタームの集合を表示した画面から、ユー
ザは興味を持った部分(タームの集合)を選びズーミン
グを指示することにより、興味を持った部分について、
より限定的なタームを含む詳細構造を参照することがで
きる。
Thus, the user can be navigated from the general structure composed of general terms to the partial structure including more limited terms in the related thesaurus. For example, from the screen displaying a set of terms indicating an overview of the thesaurus as an initial state of navigation, the user selects a part of interest (a set of terms) and instructs zooming, so that the part of interest is displayed.
Reference can be made to detailed structures including more restrictive terms.

【0018】[0018]

【発明の実施の形態】以下、本発明の実施の形態を、図
面により詳細に説明する。図1は、本発明のシソーラス
ブラウジングシステムの本発明に係る構成の第1の実施
形態例を示すブロック図であり、図2は、図1における
シソーラスブラウジングシステムの処理対象の関連シソ
ーラスの内容を示す説明図であり、図3は、図1におけ
るシソーラスブラウジングシステムの本発明に係わる処
理の概要を示す説明図であり、図4は、図1におけるシ
ソーラスブラウジングシステムのハードウェア構成例を
示するブロック図である。
Embodiments of the present invention will be described below in detail with reference to the drawings. FIG. 1 is a block diagram showing a first embodiment of the configuration of the thesaurus browsing system of the present invention according to the present invention. FIG. 2 shows the contents of a related thesaurus to be processed by the thesaurus browsing system in FIG. FIG. 3 is an explanatory diagram showing an outline of processing according to the present invention of the thesaurus browsing system in FIG. 1, and FIG. 4 is a block diagram showing an example of a hardware configuration of the thesaurus browsing system in FIG. It is.

【0019】まず、図2および図3を用いて、本例のシ
ソーラスブラウジングシステムの概要を説明する。本例
のシソーラスブラウジングシステムは、特に経済分野に
属する文書のデータベースから自動的に図2に示す関連
シソーラスを生成し、その概観を、図3における一般的
なタームとしてまとめられた複数のタームの集合(ター
ムクラスタ)単位で表示してユーザに提供する。
First, the outline of the thesaurus browsing system of this embodiment will be described with reference to FIGS. The thesaurus browsing system of this example automatically generates a related thesaurus shown in FIG. 2 from a database of documents belonging to the economic field in particular, and gives an overview of a plurality of terms collected as general terms in FIG. (Term cluster) and displayed to the user.

【0020】この図3により、経済分野における関連シ
ソーラスのブラウジングを説明する。図3中、最上位
は、一般的なタームの集合から構成されるシソーラスの
概観である。図3に示すようにシソーラスの概観は、
「税制」、「所得」、「国税庁」等を含むタームの集
合、「日銀」、「外貨」、「円」、「為替」を含むター
ムの集合等から構成される。
Referring to FIG. 3, browsing of the related thesaurus in the economic field will be described. In FIG. 3, the top level is an overview of a thesaurus composed of a general set of terms. As shown in FIG.
It is composed of a set of terms including “tax system”, “income”, “National Tax Agency”, etc., and a set of terms including “BOJ”, “foreign currency”, “yen”, and “exchange”.

【0021】これらのうち、ユーザが「日銀」、「外
貨」、「円」、「為替」を含むタームの集合を選択する
と、選択したタームの集合に含まれるタームの関連ター
ムで、より限定的なタームを含む集合が表示される。そ
の一例として図3の中段には「円」、「円売り」、「円
買い」、「東京外為市場」を含むタームの集合、「外
貨」、「ドル」、「IMF」、「ユーロ」を含むターム
の集合等が表示されている。
When the user selects a set of terms including “BOJ”, “foreign currency”, “yen”, and “exchange”, the terms related to the terms included in the selected set of terms are more limited. The set containing the appropriate terms is displayed. As an example, in the middle part of FIG. 3, a set of terms including “yen”, “yen sell”, “yen buy”, and “Tokyo forex market”, “foreign currency”, “dollar”, “IMF”, and “euro” are shown. A set of terms and the like are displayed.

【0022】これらのうちからユーザが更に興味を持っ
たタームの集合を選択すれば、より限定的なタームから
成るタームの集合を参照することができる。すなわち、
図3中下段の「円買い」、「円高」、「貿易黒字」、
「不均衡」を含むタームの集合等がその一例である。
If the user selects a set of terms that the user is more interested in, a set of terms composed of more limited terms can be referred to. That is,
In the lower middle of Fig. 3, "Yen buying", "Yen appreciation", "Trade surplus",
An example is a set of terms including "imbalance".

【0023】このように一般的なタームから構成される
タームの集合を参照することにより、ユーザは関連シソ
ーラスの概観を掴むことが可能となる。更に、ユーザが
選択した一般的なタームの集合からより限定的なターム
を含む部分集合を表示するインタラクティブな処理(以
下「ズーミング」と呼ぶ。)により、効率良くシソーラ
スをブラウジングすることができる。
By referring to a set of terms composed of general terms in this way, the user can gain an overview of the related thesaurus. Furthermore, the thesaurus can be efficiently browsed by interactive processing (hereinafter, referred to as "zooming") for displaying a subset including more limited terms from a general term set selected by the user.

【0024】このようなシソーラスのブラウジングを実
現するため、本例では、シソーラス概観生成機能とター
ムクラスタのズーミング機能を設ける。シソーラス概観
生成機能は、関連シソーラスの概観を生成するものであ
り、次の2つの処理機能からなる。すなわち、(a)シ
ソーラスに格納されている関連関係が対応している分野
から一般的なタームを抽出する代表ターム抽出処理機能
と、(b)この代表ターム抽出処理機能で抽出したター
ムのうち関連度の高いものをまとめてクラスタを生成す
るタームクラスタ生成処理機能である。
In order to realize such browsing of the thesaurus, in this embodiment, a thesaurus overview generating function and a term cluster zooming function are provided. The thesaurus overview generation function is for generating an overview of a related thesaurus, and includes the following two processing functions. That is, (a) a representative term extraction processing function for extracting a general term from the field corresponding to the relation stored in the thesaurus, and (b) a relation among the terms extracted by the representative term extraction processing function. This is a term cluster generation processing function for generating clusters by combining high-degree ones.

【0025】以下、シソーラスが対応する分野における
一般的なタームで、シソーラス概観の要素となるターム
を「代表ターム」、タームの集合からクラスタを生成す
る処理を「タームクラスタリング」、タームを構成要素
とするクラスタを「タームクラスタ」と呼ぶ。
In the following, general terms in the field to which the thesaurus corresponds, terms that are elements of the thesaurus overview are “representative terms”, processing for generating a cluster from a set of terms is “term clustering”, and terms are constituent elements. The cluster that performs the operation is called a “term cluster”.

【0026】タームクラスタのズーミング処理機能は、
一般的なタームの集合からより限定的なタームを含む集
合を生成して表示するものであり、次の2つの処理機能
からなる。すなわち、(a)ユーザがタームクラスタを
選択すると当該タームクラスタに属するタームの関連タ
ームを取得する関連ターム取得処理機能と、(b)この
関連ターム取得処理機能で取得した関連タームをクラス
タリングするタームクラスタ生成処理機能である。
The zoom processing function of the term cluster is as follows.
A set including more limited terms is generated and displayed from a set of general terms, and includes the following two processing functions. That is, (a) when a user selects a term cluster, a related term acquisition processing function for acquiring a related term of a term belonging to the term cluster, and (b) a term cluster for clustering related terms acquired by the related term acquisition processing function. This is a generation processing function.

【0027】このようなシソーラスのブラウジングを実
現するため各機能を実装するためのハードウェア構成を
図4を用いて説明する。本図4に示すように、本例のシ
ソーラスブラウジングシステムは、CPU(Central Pr
ocessing Unit)1、ハードディスク2、メモリ3、デ
ィスプレイ4a、ディスプレイ制御部4b、キーボード
5a、キーボード制御部5b、マウス6a、マウス制御
部6b、及びバス7から構成される。
A hardware configuration for implementing each function for realizing such a thesaurus browsing will be described with reference to FIG. As shown in FIG. 4, the thesaurus browsing system according to the present embodiment includes a CPU (Central Pr
Ocessing Unit) 1, a hard disk 2, a memory 3, a display 4a, a display control unit 4b, a keyboard 5a, a keyboard control unit 5b, a mouse 6a, a mouse control unit 6b, and a bus 7.

【0028】CPU1は、プログラムに基づき、データ
の入出力、読み込み、格納及び各種処理を実行して、本
発明に係わるシソーラスブラウジング処理を行なう。ハ
ードディスク2は、データを保存する装置、メモリ3
は、プログラム及びデータをロードして記憶する装置で
ある。ディスプレイ4aは、ユーザにデータを表示する
装置であり、ディスプレイ制御部4bによって制御され
る。キーボード5a及びマウス6aはユーザからの入力
を受け付ける装置であり、それぞれキーボード制御部5
b及びマウス制御部6bによって制御される。バス7
は、各構成要素間にデータを受け渡す。
The CPU 1 executes data the input / output, reading, storing, and various processes based on a program to perform a thesaurus browsing process according to the present invention. The hard disk 2 is a device for storing data, a memory 3
Is a device that loads and stores programs and data. The display 4a is a device that displays data to a user, and is controlled by the display control unit 4b. The keyboard 5a and the mouse 6a are devices for receiving input from a user,
b and the mouse controller 6b. Bus 7
Passes data between components.

【0029】このようなハードウェア構成において、図
示していない光ディスク等の記録媒体から本発明のシソ
ーラスブラウジング方法に係わる処理プログラムをハー
ドディスク2に格納し、メモリ3にロードして起動する
ことにより、図1に示すシソーラスブラウジングシステ
ムが構成される。
In such a hardware configuration, a processing program relating to the thesaurus browsing method of the present invention is stored in a hard disk 2 from a recording medium such as an optical disk (not shown), loaded into a memory 3, and started up. The thesaurus browsing system shown in FIG.

【0030】図1におけるシソーラスブラウジングシス
テムは、次の3つのモジュールに分類される。すなわ
ち、各種処理を実行する処理部(図中、矩形で示す)、
データを格納するデータ格納部(図中、ドラム形で示
す)、及びデータ(図中、平行四辺形で示す)である。
以下、それぞれについて説明する。
The thesaurus browsing system in FIG. 1 is classified into the following three modules. That is, a processing unit that executes various types of processing (shown by rectangles in the figure),
A data storage unit (shown as a drum in the figure) for storing data, and data (shown as a parallelogram in the figure).
Hereinafter, each will be described.

【0031】まず処理部として、関連シソーラス生成部
1a、タームベクトル抽出部1b、代表ターム取得部1
c、関連ターム取得部1d、及びタームクラスタ生成部
1eの5つがある。関連シソーラス生成部1aは、文書
データ格納部2aに格納された文書データから関連シソ
ーラスを生成する。
First, as a processing unit, a related thesaurus generation unit 1a, a term vector extraction unit 1b, a representative term acquisition unit 1
c, a related term acquisition unit 1d, and a term cluster generation unit 1e. The related thesaurus generation unit 1a generates a related thesaurus from the document data stored in the document data storage unit 2a.

【0032】タームベクトル抽出部1bは、文書データ
格納部2aに格納された文書データからタームベクトル
を抽出する。代表ターム取得部1cは、タームベクトル
格納部2cに格納されたタームベクトルから代表ターム
を取得する。関連ターム取得部1dは、ユーザが選択し
たタームクラスタに属するタームの関連タームを取得す
る。タームクラスタ生成部1eは、代表タームリスト3
c又は関連タームリスト3dに格納されたタームをクラ
スタリングする。尚、これらの各部の詳細な処理手順に
ついてはフローチャートを用いて後述する。
The term vector extraction section 1b extracts a term vector from the document data stored in the document data storage section 2a. The representative term acquisition unit 1c acquires a representative term from the term vectors stored in the term vector storage unit 2c. The related term acquisition unit 1d acquires a related term of a term belonging to the term cluster selected by the user. The term cluster generation unit 1e generates the representative term list 3
Cluster the terms stored in c or the related term list 3d. The detailed processing procedure of each of these units will be described later using a flowchart.

【0033】次にデータ格納部として、文書データ格納
部2a、関連シソーラス格納部2b、タームベクトル格
納部2c、及びシソーラス概観格納部2dの4つがあ
る。文書データ格納2aは、ある分野に属する文書のデ
ータを格納する。例えば、経済面に掲載された新聞記
事、或いはある分類番号を付与された特許の明細書など
である。
Next, there are four data storage units: a document data storage unit 2a, a related thesaurus storage unit 2b, a term vector storage unit 2c, and a thesaurus overview storage unit 2d. The document data storage 2a stores data of documents belonging to a certain field. For example, it is a newspaper article published in economic terms, or a specification of a patent given a certain classification number.

【0034】関連シソーラス格納部2bは、文書データ
格納部2aに格納された文書データから生成した関連シ
ソーラスを格納する。タームベクトル格納部2cは、文
書データ格納部2aに格納された文書データから抽出し
たタームベクトルを格納する。シソーラス概観格納部2
dは、関連シソーラス格納部2bに格納された関連シソ
ーラスの概観を格納する。
The related thesaurus storage unit 2b stores a related thesaurus generated from the document data stored in the document data storage unit 2a. The term vector storage unit 2c stores a term vector extracted from the document data stored in the document data storage unit 2a. Thesaurus overview storage 2
d stores an overview of the related thesaurus stored in the related thesaurus storage unit 2b.

【0035】ここで各データ格納部の詳細な構成につい
て図5〜図8を用いて説明する。図5は、図1における
文書データ格納部の構成例を示す説明図である。本図5
に示すように文書データ格納部2aは、文書データ2a
01から構成される。文書データ2a01には、文書の
テキストデータを格納する。図5中第1行目には、経済
に関する新聞記事の一例として「21日の東京外為市場
の円相場は…」が格納されている。
Here, a detailed configuration of each data storage unit will be described with reference to FIGS. FIG. 5 is an explanatory diagram showing a configuration example of the document data storage unit in FIG. Figure 5
The document data storage unit 2a stores the document data 2a
01. The document data 2a01 stores text data of the document. The first line in FIG. 5 stores “What is the yen exchange rate of the Tokyo foreign exchange market on the 21st ...” as an example of a newspaper article on the economy.

【0036】図6は、図1における関連シソーラス格納
部の構成例を示す説明図である。本図6に示すように関
連シソーラス格納部2bは、タームX2b01、ターム
Y2b02、及び関連度2b03から構成される。ター
ムX2b01及びタームY2b02には、関連関係にあ
るタームを、関連度2b03にはその関連度を格納す
る。図6中、第1行目には「円」と「東京外為市場」が
関連タームであり、その関連度は「11.5」であるこ
とが格納されている。尚、本例における関連度はターム
の集合の相互情報量の値である。これについては後述す
る。
FIG. 6 is an explanatory diagram showing a configuration example of the related thesaurus storage unit in FIG. As shown in FIG. 6, the relation thesaurus storage unit 2b includes a term X2b01, a term Y2b02, and a degree of relation 2b03. The terms X2b01 and Y2b02 store terms having a relational relationship, and the degree of relation 2b03 stores the degree of relation. In FIG. 6, the first line stores that "yen" and "Tokyo Forex Market" are related terms, and that the degree of relevance is "11.5". Note that the degree of association in this example is a value of the mutual information amount of a set of terms. This will be described later.

【0037】図7は、図1におけるタームベクトル格納
部の構成例を示す説明図である。本図7に示すようにタ
ームベクトル格納部2cは、文書ID2c01、及び重
要タームリスト2c02から構成される。文書ID2c
01には、文書データ格納部2aに格納された文書のI
Dを格納し、重要タームリスト2c02には当該文書に
出現するタームのうち重要なもののリストを格納する。
図7中、第1行目には文書ID1の文書の重要タームが
「円高」、「東京外為市場」、「ドル安」等であること
が格納されている。
FIG. 7 is an explanatory diagram showing a configuration example of the term vector storage unit in FIG. As shown in FIG. 7, the term vector storage unit 2c includes a document ID 2c01 and an important term list 2c02. Document ID 2c
01 contains the I of the document stored in the document data storage unit 2a.
D is stored, and a list of important terms appearing in the document is stored in the important term list 2c02.
In FIG. 7, the first line stores that the important terms of the document with document ID 1 are “yen appreciation”, “Tokyo foreign exchange market”, “dollar depreciation” and the like.

【0038】図8は、図1におけるシソーラス概観格納
部の構成例を示す説明図である。本図8に示すようにシ
ソーラス概観格納部2dは、タームリスト2d01から
構成される。タームリスト2d01には、タームクラス
タに属するタームのリストを格納する。図8中、第1行
目には、「景気」、「売り上げ」、「消費者」等から構
成されるタームクラスタが格納されている。尚、図8に
示すシソーラス概観は、一例として10個のタームクラ
スタからなるものとする。
FIG. 8 is an explanatory diagram showing an example of the configuration of the thesaurus overview storage unit in FIG. As shown in FIG. 8, the thesaurus overview storage unit 2d includes a term list 2d01. The term list 2d01 stores a list of terms belonging to the term cluster. In FIG. 8, the first line stores a term cluster including “economics”, “sales”, “consumer”, and the like. Note that the thesaurus overview shown in FIG. 8 is composed of ten term clusters as an example.

【0039】以上、図5〜図8を用いて図1に示すモジ
ュール構成のうちデータ格納部につ次に、データについ
て説明する。図1に示すようにデータとして、共起ター
ムテーブル3a、文書タームテーブル3b、代表ターム
リスト3c、関連タームリスト3d、相関行列3e、出
力タームクラスタリスト3f、及び入力タームクラスタ
リスト3gがある。
The data storage unit of the module configuration shown in FIG. 1 will be described next with reference to FIGS. As shown in FIG. 1, the data includes a co-occurrence term table 3a, a document term table 3b, a representative term list 3c, a related term list 3d, a correlation matrix 3e, an output term cluster list 3f, and an input term cluster list 3g.

【0040】共起タームテーブル3aは、文書データ格
納部2aに格納された文書データ中、ある一定の範囲内
で同時に出現するタームの組(タームの集合)を格納す
る。文書タームテーブル3bは、文書データ格納部2a
に格納された文書から抽出したタームとその頻度を文書
ごとに格納する。代表タームリスト3cは、タームベク
トル格納部2bから抽出した代表タームを格納する。関
連タームリスト3dは、入力タームクラスタ3gに格納
されたタームの関連タームを格納する。
The co-occurrence term table 3a stores a set of terms (a set of terms) that appear simultaneously within a certain range in the document data stored in the document data storage unit 2a. The document term table 3b is stored in the document data storage 2a.
The terms extracted from the documents stored in the document and their frequencies are stored for each document. The representative term list 3c stores the representative terms extracted from the term vector storage unit 2b. The related term list 3d stores the related terms of the terms stored in the input term cluster 3g.

【0041】相関行列3eは、代表タームリスト3c又
は関連タームリスト3dに格納されたターム間の関連度
を格納する。出力タームクラスタリスト3fは、代表タ
ームリスト3c又は関連タームリスト3dに格納された
タームをクラスタリングした結果を格納する。入力ター
ムクラスタリスト3gは、ユーザが選択したタームクラ
スタを格納する。
The correlation matrix 3e stores the degree of association between the terms stored in the representative term list 3c or the related term list 3d. The output term cluster list 3f stores the result of clustering the terms stored in the representative term list 3c or the related term list 3d. The input term cluster list 3g stores the term cluster selected by the user.

【0042】ここで、各データの詳細について図9〜図
15を用いて説明する。図9は、図1における共起ター
ムテーブルの構成例を示す説明図である。本図9に示す
ように、共起タームテーブル3aは、タームX3a0
1、タームY3a02、及び共起頻度3a03から構成
される。タームX3a01及びタームY3a02には、
文書データ格納部2aに格納された文書データ中、ある
一定の範囲内で同時に出現するタームの組(集合)を格
納する。共起頻度3a03には、当該タームの組(集
合)が同時に出現した頻度を格納する。
Here, details of each data will be described with reference to FIGS. FIG. 9 is an explanatory diagram showing a configuration example of the co-occurrence term table in FIG. As shown in FIG. 9, the co-occurrence term table 3a stores the term X3a0
1, term Y3a02, and co-occurrence frequency 3a03. Term X3a01 and term Y3a02 include:
In the document data stored in the document data storage unit 2a, a set of terms appearing simultaneously within a certain range is stored. The co-occurrence frequency 3a03 stores the frequency at which the term set (set) appears at the same time.

【0043】尚、「共起」とはあるタームが他のターム
と一定の範囲内で同時に出現することであり、「共起頻
度」とは同時に出現した回数を指す。更にあるタームと
共起するタームを「共起ターム」と呼ぶ。ここでは一定
の範囲の一例として“同じ文”を用いる。一例として図
9中第1行目には、「円相場」と「東京外為市場」が2
59回、同じ文に出現したことが格納されている。
Note that "co-occurrence" means that a term appears simultaneously with another term within a certain range, and "co-occurrence frequency" indicates the number of times that a term appears simultaneously. Further, a term that co-occurs with a certain term is called a “co-occurrence term”. Here, "same sentence" is used as an example of a certain range. As an example, in the first line of FIG. 9, “Yen market price” and “Tokyo forex market” are 2
It stores that it has appeared 59 times in the same sentence.

【0044】図10は、図1における文書タームテーブ
ルの構成例を示す説明図である。本図10に示すよう
に、文書タームテーブル3bは、文書ID3b01、タ
ーム3b02、及び出現頻度3b03から構成される。
文書ID3b01は、文書データ格納部2aに格納され
た文書のIDを格納する。ターム3b02には、当該I
Dの文書に出現したタームを、出現頻度3b03にはタ
ームの当該文書内での出現頻度を格納する。図10中、
第1行目には文書ID「1」の文書中、「東京外為市
場」が2回出現したことが格納してある。
FIG. 10 is an explanatory diagram showing a configuration example of the document term table in FIG. As shown in FIG. 10, the document term table 3b includes a document ID 3b01, a term 3b02, and an appearance frequency 3b03.
The document ID 3b01 stores the ID of the document stored in the document data storage unit 2a. Term 3b02 contains the I
The term that appears in the document D and the appearance frequency 3b03 store the frequency of occurrence of the term in the document. In FIG.
The first line stores that “Tokyo Forex Market” appears twice in the document with the document ID “1”.

【0045】図11は、図1における代表タームリスト
の構成例を示す説明図である。図11(a)はタームベ
クトルから重要タームを取得しているときの状態を示
し、図11(b)は重要タームの取得後ソートされた状
態のリストを示す。図11(a)に示すように代表ター
ムリスト3cは、代表ターム3c01及び文書数3c0
2から構成される。
FIG. 11 is an explanatory diagram showing a configuration example of the representative term list in FIG. FIG. 11A shows a state in which important terms are acquired from the term vector, and FIG. 11B shows a list of states sorted after the acquisition of important terms. As shown in FIG. 11A, the representative term list 3c includes a representative term 3c01 and the number of documents 3c0.
2

【0046】代表ターム3c01には、タームベクトル
格納部2bから抽出した代表タームを格納する。文書数
3c02には、当該タームが重要タームとなった文書数
を格納する。図11(a)中、第1行目には「為替」が
451文書で重要タームであったことが格納されてる。
図11(a)のリストを文書数の降順にソートした状態
が図11(b)であり、図11(b)中、第1行目には
「株」が498文書で重要タームであったことが格納さ
れている。
The representative term 3c01 stores the representative term extracted from the term vector storage 2b. The number of documents 3c02 stores the number of documents in which the term has become an important term. In FIG. 11A, the first line stores that "exchange" was an important term in 451 documents.
FIG. 11 (b) shows a state in which the list of FIG. 11 (a) is sorted in descending order of the number of documents. In FIG. 11 (b), on the first line, "stock" is 498 documents and an important term. That is stored.

【0047】図12は、図1における関連タームリスト
の構成例を示す説明図である。図12(a)はユーザが
選択したタームクラスタに属するタームの関連タームを
取得しているときの状態を示し、図12(b)は関連タ
ームの取得後ソートされた状態のリストを示す。図12
(a)に示すように関連タームリスト3dは、関連ター
ム3d01及び順位3d02から構成される。
FIG. 12 is an explanatory diagram showing a configuration example of the related term list in FIG. FIG. 12A shows a state when the related terms of the terms belonging to the term cluster selected by the user are acquired, and FIG. 12B shows a list of states sorted after the acquisition of the related terms. FIG.
As shown in (a), the related term list 3d includes a related term 3d01 and a rank 3d02.

【0048】関連ターム3d01には、ユーザが選択し
たタームクラスタに属するタームの関連タームを格納す
る。順位3d02には、当該タームの関連タームのうち
関連度が何番目に大きかったかを表す順位を格納する。
図12(a)中第15番目には「東京外為市場」が順位
1として格納されている。このことは、「東京外為市
場」があるタームの関連タームのうち最も関連度が大き
かったことを表す。
The related term 3d01 stores the related term of the term belonging to the term cluster selected by the user. In the order 3d02, an order indicating the order of the degree of association among the terms related to the term is stored.
In FIG. 12A, “Tokyo Forex Market” is stored as the first place in the fifteenth place. This indicates that the term “Tokyo Forex Market” has the highest relevance among the terms related to a term.

【0049】図12(a)のリストを順位の昇順でソー
トした状態が図12(b)である。この図12(b)
中、第1行目から第10行目には入力されたタームクラ
スタに属する各タームと関連度が最も大きかったター
ム、すなわち順位1のタームが格納されている。
FIG. 12B shows a state in which the list shown in FIG. 12A is sorted in ascending order. FIG. 12B
In the first to tenth lines, the terms having the highest degree of relevance to the terms belonging to the input term cluster, that is, the terms of the first rank are stored.

【0050】図13は、図1における相関行列の構成例
を示す説明図である。本図13に示すように相関行列3
eは、n×nの行列である。ここでnは代表タームリス
ト3c又は関連タームリスト3dに格納されたタームの
数である。図13に示す相関行列3e中、i行目j列目
の要素は、代表タームリスト3c又は関連タームリスト
3d中、i番目のタームとj番目のタームの関連度であ
る。
FIG. 13 is an explanatory diagram showing a configuration example of the correlation matrix in FIG. As shown in FIG. 13, the correlation matrix 3
e is an n × n matrix. Here, n is the number of terms stored in the representative term list 3c or the related term list 3d. The element in the i-th row and the j-th column in the correlation matrix 3e shown in FIG. 13 is the degree of association between the i-th term and the j-th term in the representative term list 3c or the related term list 3d.

【0051】図13中、第1行目の第2列には関連度
「7.3」が格納されている。尚、相関行列3eでは、
行列の対角要素には同じ値が格納されている。すなわ
ち、図13中、第2行目第1列には、第1行目第2列と
同じ値「7.3」が格納されている。
In FIG. 13, the degree of association “7.3” is stored in the second column of the first row. In the correlation matrix 3e,
The same value is stored in the diagonal elements of the matrix. That is, in FIG. 13, the same value “7.3” as in the first row and the second column is stored in the second row and the first column.

【0052】図14は、図1における出力タームクラス
タリストの構成例を示す説明図である。図14(a)は
出力タームクラスタリスト3fの初期状態を示し、図1
4(b)はタームクラスタ生成後の状態を示す。図14
(a)に示すように出力タームクラスタリスト3fは、
最大関連度のクラスタID3f01、最大関連度3f0
2、及びタームリスト3f03から構成される。
FIG. 14 is an explanatory diagram showing a configuration example of the output term cluster list in FIG. FIG. 14A shows an initial state of the output term cluster list 3f, and FIG.
FIG. 4B shows the state after the generation of the term cluster. FIG.
As shown in (a), the output term cluster list 3f is
Cluster ID 3f01 with maximum relevance, maximum relevance 3f0
2 and a term list 3f03.

【0053】出力タームクラスタリスト3fの各行は、
1つのタームクラスタを表し、各行のインデックスがす
なわちクラスタIDとなる。最大関連度のクラスタID
3f01には、当該タームクラスタと最大の関連度をと
るタームクラスタのIDを格納し、最大関連度3f02
にはその最大関連度を格納する。タームクラスタ間の関
連度については後述する。タームリスト3f03には、
当該タームクラスタに属するタームのリストを格納す
る。
Each line of the output term cluster list 3f is
It represents one term cluster, and the index of each row is the cluster ID. Cluster ID of maximum relevance
In 3f01, the ID of the term cluster having the highest degree of association with the term cluster is stored.
Stores the maximum relevance. The degree of association between term clusters will be described later. In the term list 3f03,
A list of terms belonging to the term cluster is stored.

【0054】図14(a)に示すように、出力タームク
ラスタリスト3fには、初期状態として1つのタームを
タームリスト3f03に格納したタームクラスタが格納
されている。これら1つのタームから成るタームクラス
タを定められた数になるまでマージした状態が図14
(b)である。この図14(b)中の第1行目には「I
MF」、「ドル」、「外貨」、「ユーロ」などから構成
されるタームクラスタが格納されている。
As shown in FIG. 14A, the output term cluster list 3f stores a term cluster in which one term is stored in the term list 3f03 as an initial state. FIG. 14 shows a state in which the term clusters composed of these one terms are merged until a predetermined number is reached.
(B). The first line in FIG. 14B shows "I
A term cluster including “MF”, “dollar”, “foreign currency”, “euro”, and the like is stored.

【0055】図15は、図1における入力タームクラス
タリストの構成例を示す説明図である。図15に示すよ
うに入力タームクラスタリスト3gは、タームリスト3
g01から構成される。出力タームクラスタリスト3f
と同様入力タームクラスタリスト3gの各行は、1つの
タームクラスタを表す。図15中の第1行目には
「円」、「為替」、「日銀」、「外貨」などから構成さ
れるタームクラスタが格納されている。
FIG. 15 is an explanatory diagram showing a configuration example of the input term cluster list in FIG. As shown in FIG. 15, the input term cluster list 3g is the term list 3
g01. Output term cluster list 3f
Each line of the input term cluster list 3g represents one term cluster. The first line in FIG. 15 stores a term cluster including “yen”, “exchange”, “BOJ”, “foreign currency”, and the like.

【0056】以上、本例のシソーラスブラウジングシス
テムのモジュール構成及びその構成要素の詳細について
説明した。次に、本例のシソーラスブラウジングシステ
ムの詳細な処理手順について図16〜図26に示すフロ
ーチャートを用いて説明する。
The module configuration of the thesaurus browsing system of the present embodiment and the details of its components have been described above. Next, a detailed processing procedure of the thesaurus browsing system of this example will be described with reference to flowcharts shown in FIGS.

【0057】まず、シソーラスブラウジングシステムの
全体の処理手順について図16を用いて説明する。図1
6は、本発明のシソーラスブラウジング方法の処理手順
例を示すフローチャートである。
First, the overall processing procedure of the thesaurus browsing system will be described with reference to FIG. FIG.
FIG. 6 is a flowchart showing an example of a processing procedure of the thesaurus browsing method of the present invention.

【0058】本図16に示すように、本例のシソーラス
ブラウジング方法は、大きく次の2つの処理から構成さ
れる。すなわち、図16(a)に示すシソーラスブラウ
ジング用データ生成処理と、図16(b)に示すシソー
ラスブラウジング処理である。前者はシソーラスブラウ
ジングのためのデータを生成する処理であり、バッチ的
に実行する。これに対して後者は、ユーザとインタラク
ティブに応答する処理であり、リアルタイムに実行す
る。以下、図16(a)及び図16(b)についてそれ
ぞれ説明し、次に各ステップについて詳細なフローチャ
ートを用いて説明する。
As shown in FIG. 16, the thesaurus browsing method of the present embodiment is mainly composed of the following two processes. That is, a thesaurus browsing data generation process shown in FIG. 16A and a thesaurus browsing process shown in FIG. 16B. The former is a process for generating data for thesaurus browsing, and is executed in batches. On the other hand, the latter is a process for interactively responding to the user, and is executed in real time. Hereinafter, each of FIGS. 16A and 16B will be described, and then each step will be described using a detailed flowchart.

【0059】まず、図16(a)に示すシソーラスブラ
ウジング用データ生成処理について説明する。図16
(a)に示すようにシソーラスブラウジング用データ生
成処理では、まず文書データから関連シソーラスを生成
し(ステップ101)、各文書のタームベクトルを抽出
して(ステップ102)、関連シソーラスの概観を生成
する(ステップ103)。
First, the thesaurus browsing data generation processing shown in FIG. FIG.
As shown in (a), in the thesaurus browsing data generation process, first, a related thesaurus is generated from document data (step 101), and term vectors of each document are extracted (step 102) to generate an overview of the related thesaurus. (Step 103).

【0060】次に、図16(b)に示すシソーラスブラ
ウジング処理について説明する。図16(b)に示すよ
うにシソーラスブラウジング処理では、まずシソーラス
概観格納部2dに格納されたシソーラス概観をユーザに
表示し(ステップ111)、次にユーザが表示されたタ
ームクラスタリストを選択してズーミングを指示すれば
(ステップ112)、ユーザが選択したタームクラスタ
に属するタームの関連タームを取得する(ステップ11
3)。
Next, the thesaurus browsing process shown in FIG. 16B will be described. As shown in FIG. 16B, in the thesaurus browsing process, the user first displays the thesaurus overview stored in the thesaurus overview storage unit 2d (step 111), and then selects the displayed term cluster list by the user. If zooming is instructed (step 112), terms related to the terms belonging to the term cluster selected by the user are acquired (step 11).
3).

【0061】そして、それらをクラスタリングし(ステ
ップ114)、生成したタームクラスタをユーザに表示
する(ステップ115)。ユーザからのシソーラスブラ
ウジング終了の指示があれば(ステップ116)、処理
を終了し、なければステップ112の処理に戻る。
Then, they are clustered (step 114), and the generated term cluster is displayed to the user (step 115). If there is an instruction to end the thesaurus browsing from the user (step 116), the process is ended, and if not, the process returns to step 112.

【0062】以下、図16(a)におけるステップ10
1の関連シソーラス生成処理、ステップ102のターム
ベクトル抽出処理、ステップ103のシソーラス概観生
成処理、及び図16(b)におけるステップ113の関
連ターム取得処理について詳細に説明する。尚、ステッ
プ114のタームクラスタ生成処理は、図16(a)に
示すシソーラス概観生成処理に含まれるタームクラスタ
生成処理と同じなので、説明を省略する。
Hereinafter, step 10 in FIG.
The first related thesaurus generation processing, the term vector extraction processing in step 102, thesaurus overview generation processing in step 103, and the related term acquisition processing in step 113 in FIG. 16B will be described in detail. Note that the term cluster generation processing in step 114 is the same as the term cluster generation processing included in the thesaurus overview generation processing shown in FIG.

【0063】まず、関連シソーラス生成処理の詳細な手
順の説明を行なう。文書データから共起タームを抽出し
て関連シソーラスを生成する処理は、特開平5−282
367号公報(「関連キーワード自動生成装置」)、あ
るいは特開平8−161343号公報(「関連語辞書作
成装置」)等で公知であるが、ここではその一例とし
て、文書データから共起タームを抽出し、相互情報量に
基づいて関連度を求める処理について説明する。
First, a detailed procedure of the related thesaurus generation processing will be described. A process for extracting co-occurrence terms from document data and generating a related thesaurus is disclosed in Japanese Patent Laid-Open No. 5-282.
No. 367 (“Related keyword automatic generation device”) or Japanese Patent Application Laid-Open No. 8-161343 (“Related word dictionary creation device”). Here, as an example, a co-occurrence term from document data is described. The process of extracting and calculating the degree of association based on the mutual information amount will be described.

【0064】尚、相互情報量とは、「直接得られる事象
X(ここではターム)から推定される他の事象Yの情報
量」と定義されるが、ここではタームの組(タームの集
合)の共起しやすさを正規化した値として考える。相互
情報量を求める式を数1に示す。
The mutual information amount is defined as "the information amount of another event Y estimated from the directly obtained event X (here, term)". Here, a set of terms (a set of terms) is used. Is considered as a normalized value. The equation for obtaining the mutual information is shown in Equation 1.

【数1】 (Equation 1)

【0065】図17は、図16(a)のシソーラスブラ
ウジング用データ生成処理における関連シソーラス生成
処理の詳細な処理手順例を示すフローチャートである。
本図17に示すように関連シソーラス生成処理は、まず
文書データ格納部2aに格納された文書の数を示す変数
iに1をセットして初期化し(ステップ1a01)、i
番目の文書データを単語に分割しながら同じ文に出現し
たタームの組をすべて抽出し、共起タームテーブル3a
に格納する(ステップ1a02)。
FIG. 17 is a flowchart showing a detailed processing procedure example of the related thesaurus generation processing in the thesaurus browsing data generation processing of FIG. 16 (a).
As shown in FIG. 17, in the related thesaurus generation processing, first, a variable i indicating the number of documents stored in the document data storage unit 2a is set to 1 and initialized (step 1a01), and i
While dividing the second document data into words, all the term sets appearing in the same sentence are extracted, and the co-occurrence term table 3a is extracted.
(Step 1a02).

【0066】このとき、共起タームテーブル3aに同じ
タームの組があれば共起頻度を1増やし、同じタームの
組がなければ共起頻度を1として格納する。次にiを1
増やして(ステップ1a03)、iが文書数より小さけ
れば(ステップ1a04)ステップ1a02に戻る。
At this time, if there is the same set of terms in the co-occurrence term table 3a, the co-occurrence frequency is increased by 1. If there is no such set of terms, the co-occurrence frequency is stored as 1. Then i is 1
The number is increased (step 1a03). If i is smaller than the number of documents (step 1a04), the process returns to step 1a02.

【0067】iが文書数を超えれば、共起タームテーブ
ル3aのインデックスを示す変数jを1に初期化して
(ステップ1a05)、共起タームテーブル3aのj番
目のタームの組の関連度を数1の式を用いて計算し、あ
る閾値以上の関連度を持つタームの組を関連シソーラス
格納部2bに格納する(ステップ1a06)。次にjを
1増やして(ステップ1a07)、jが共起タームテー
ブル3aに格納されたタームの組数よりも小さければ
(ステップ1a08)、ステップ1a06に戻り、jが
共起数を超えれば処理を終了する。
If i exceeds the number of documents, a variable j indicating the index of the co-occurrence term table 3a is initialized to 1 (step 1a05), and the degree of association of the j-th term set in the co-occurrence term table 3a is calculated. 1 and stores a set of terms having a degree of relevance equal to or greater than a certain threshold value in the relation thesaurus storage unit 2b (step 1a06). Next, j is incremented by 1 (step 1a07). If j is smaller than the number of term sets stored in the co-occurrence term table 3a (step 1a08), the process returns to step 1a06, and if j exceeds the co-occurrence number, processing is performed. To end.

【0068】次に、タームベクトル抽出処理の詳細な手
順を説明する。図18は、図16(a)のシソーラスブ
ラウジング用データ生成処理におけるタームベクトル抽
出処理の詳細な処理手順例を示すフローチャートであ
る。本図18に示すようにタームベクトル抽出処理は、
まず文書データ格納部2aに格納された文書の数を示す
変数iに1をセットして初期化し(ステップ1b0
1)、i番目の文書を単語に分割して各単語とその出現
回数を文書タームテーブル3bに格納する(ステップ1
b02)。
Next, a detailed procedure of the term vector extraction processing will be described. FIG. 18 is a flowchart illustrating a detailed processing procedure example of the term vector extraction processing in the thesaurus browsing data generation processing of FIG. As shown in FIG. 18, the term vector extraction processing
First, a variable i indicating the number of documents stored in the document data storage unit 2a is set to 1 and initialized (step 1b0).
1) The i-th document is divided into words, and each word and the number of appearances are stored in the document term table 3b (step 1).
b02).

【0069】そしてiを1増やして(ステップ1b0
3)、iが文書数より小さければ(ステップ1b04)
ステップ1b02に戻る。iが文書数を超えれば、文書
タームテーブル3bに格納されたタームそれぞれについ
て文書データベース全体での出現文書数をカウントし
(ステップ1b05)、iを1にリセットして(ステッ
プ1b06)、i番目の文書に出現したタームの重みを
式2に基づき計算し、ある閾値以上の重みを持つターム
をi番目の文書の重要タームとしてタームベクトルを生
成し、タームベクトル格納部2cに格納する(ステップ
1b07)。
Then, i is increased by 1 (step 1b0
3) If i is smaller than the number of documents (step 1b04)
It returns to step 1b02. If i exceeds the number of documents, the number of appearing documents in the entire document database is counted for each of the terms stored in the document term table 3b (step 1b05), i is reset to 1 (step 1b06), and the i-th The term weights appearing in the document are calculated based on Equation 2, a term having a weight equal to or greater than a certain threshold is generated as an important term of the i-th document, and a term vector is stored in the term vector storage unit 2c (step 1b07). .

【0070】さらにiを1増やして(ステップ1b0
8)、iが文書データ格納部2aに格納された文書の数
よりも小さければ(ステップ1b09)、ステップ1b
07に戻る。iが文書数を超えれば処理を終了する。
Further, i is increased by 1 (step 1b0
8) If i is smaller than the number of documents stored in the document data storage unit 2a (step 1b09), step 1b
Return to 07. If i exceeds the number of documents, the process ends.

【0071】次にシソーラス概観生成処理の詳細な手順
を説明する。図19は、図16(a)のシソーラスブラ
ウジング用データ生成処理におけるシソーラス概観生成
処理の詳細な処理手順例を示すフローチャートである。
本図19に示すように、シソーラス概観生成処理は、ま
ずシソーラス概観の要素となる代表タームを抽出し(ス
テップ1031)、抽出した代表タームをクラスタリン
グしてタームクラスタを生成し(ステップ1032)、
生成したタームクラスタをシソーラス概観格納部2dに
格納する(ステップ1033)。
Next, the detailed procedure of the thesaurus overview generation processing will be described. FIG. 19 is a flowchart illustrating a detailed processing procedure example of the thesaurus overview generation processing in the thesaurus browsing data generation processing of FIG.
As shown in FIG. 19, in the thesaurus overview generation process, first, a representative term which is an element of the thesaurus overview is extracted (step 1031), and the extracted representative terms are clustered to generate a term cluster (step 1032).
The generated term cluster is stored in the thesaurus overview storage unit 2d (step 1033).

【0072】以下、ステップ1031の代表ターム抽出
処理及びステップ1032のタームクラスタ生成処理に
ついて詳細に説明する。シソーラス概観生成処理におけ
る代表ターム抽出処理の手順を、まずその概要について
述べ、次にフローチャートを用いて詳細に説明する。
Hereinafter, the representative term extraction processing in step 1031 and the term cluster generation processing in step 1032 will be described in detail. The procedure of the representative term extraction processing in the thesaurus overview generation processing will first be outlined, and then will be described in detail using a flowchart.

【0073】ある分野における一般的なタームを抽出す
る手がかりとして、当該分野におけるタームの出現頻度
や出現文書数などのデータがある。これらをそのまま用
いて、当該分野中、出現頻度の大きいターム、または出
現文書数の大きいタームを一般的なタームとして抽出す
る方法が考えられるが、意味のないタームが抽出される
可能性がある。例えば、「経済」は経済分野において出
現頻度は高いと予想されるが意味があるとは考えにく
い。
As clues for extracting general terms in a certain field, there are data such as the frequency of occurrence of terms in the relevant field and the number of documents appearing. Using these as they are, a method of extracting a term having a high appearance frequency or a term having a large number of appearing documents as a general term in the field can be considered, but a meaningless term may be extracted. For example, “economy” is expected to appear frequently in the economic field, but is unlikely to be meaningful.

【0074】これに対して本例の代表ターム抽出処理で
は、タームの重要度を利用することにより意味のある一
般的なタームを抽出する。以下、具体的に説明する。本
例の代表ターム抽出処理においては、予め当該分野に属
する文書データベースから抽出した「タームベクトル」
を利用する。この「タームベクトル」とは、文書を特徴
付けるタームのリストであり、「Salton, G., et al. :
A Vector Space Model for Automatic Indexing, Comm
unications of the ACM, Vol.18, No.11(1975).」に記
載のtf・idf法(Term Frequency inverse Documen
t Frequency)を利用することにより抽出可能である。
On the other hand, in the representative term extraction processing of this embodiment, a meaningful general term is extracted by utilizing the importance of the term. Hereinafter, a specific description will be given. In the representative term extraction processing of this example, the “term vector” extracted in advance from a document database belonging to the relevant field
Use This "term vector" is a list of terms that characterize the document, and is described in "Salton, G., et al .:
A Vector Space Model for Automatic Indexing, Comm
unications of the ACM, Vol. 18, No. 11 (1975). "
t Frequency) can be extracted.

【0075】このtf・idf法は、文書のインデキシ
ング方法として最もよく知られているものの一つであ
り、ある文書におけるタームの出現頻度(tf)と、当
該タームが出現した文書数の逆数(idf)をかけた値
を当該文書におけるタームの重要度とし、当該文書にお
いて重要度の高いターム(以下、重要ターム)を抽出し
てタームベクトルとする技術である。
The tf · idf method is one of the most well-known document indexing methods, and includes the frequency of occurrence (tf) of a term in a certain document and the reciprocal (idf) of the number of documents in which the term appears. ) Is used as the importance of a term in the document, and a term having a high importance (hereinafter, important term) in the document is extracted and used as a term vector.

【0076】文書の重要度を計算する式を数2に示す。The equation for calculating the importance of a document is shown in equation (2).

【数2】 尚、数2の式中分母はtf・idfの値をタームが出現
した文書のサイズで正規化するための値である。
(Equation 2) The denominator in the equation (2) is a value for normalizing the value of tf · idf by the size of the document in which the term appears.

【0077】代表ターム抽出処理では、タームベクトル
を構成するタームを抽出して、それぞれ重要タームとな
った文書の数をカウントし、多くの文書で重要タームと
なったタームを一般的なタームとして抽出する。次に、
代表ターム抽出処理の詳細な処理手順例について図20
を用いて説明する。
In the representative term extraction processing, terms constituting a term vector are extracted, the number of documents each having an important term is counted, and terms that have become important terms in many documents are extracted as general terms. I do. next,
FIG. 20 shows a detailed processing procedure example of the representative term extraction processing.
This will be described with reference to FIG.

【0078】図20は、代表ターム抽出処理の詳細な処
理手順例を示すフローチャートである。図20に示すよ
うに代表ターム抽出処理では、まず文書データ格納部2
aに格納された文書の数を示す変数iに1をセットして
初期化し(ステップ1c01)、i番目の文書のターム
ベクトルを構成する重要タームをタームベクトル格納部
2cから取得して、重要タームが既に代表タームリスト
3cにあれば文書数3c02を1増やし、なければ文書
数3c02を1として代表タームリスト3cに格納する
(ステップ1c02)。
FIG. 20 is a flowchart showing an example of the detailed processing procedure of the representative term extraction processing. As shown in FIG. 20, in the representative term extraction processing, first, the document data storage unit 2
A variable i indicating the number of documents stored in a is set to 1 and initialized (step 1c01), important terms constituting the term vector of the i-th document are obtained from the term vector storage unit 2c, and important terms are acquired. If is already in the representative term list 3c, the number of documents 3c02 is incremented by one, and if not, the number of documents 3c02 is set to 1 and stored in the representative term list 3c (step 1c02).

【0079】そしてiを1増やして(ステップ1c0
3)、iが文書数より小さければ(ステップ1c04)
ステップ1c02に戻る。iが文書数を超えれば、代表
タームリスト3cを文書数の降順にソートし(ステップ
1c05)、代表タームリスト3cの上位から指定され
た数だけ残して、後の重要タームを削除して処理を終了
する(ステップ1c06)。
Then, i is increased by 1 (step 1c0).
3) If i is smaller than the number of documents (step 1c04)
It returns to step 1c02. If i exceeds the number of documents, the representative term list 3c is sorted in descending order of the number of documents (step 1c05), leaving only the number specified from the top of the representative term list 3c, deleting important terms later, and processing. The process ends (step 1c06).

【0080】次に、シソーラス概観生成処理におけるタ
ームクラスタ生成処理の説明として、まずそのタームク
ラスタ生成処理の概要について述べ、次にフローチャー
トを用いて詳細に説明する。タームの集合からクラスタ
を生成するためにタームクラスタ生成処理では、まず、
クラスタリング対象のタームを{t1,t2,・・・,
tm}とし、初期状態としてn個のクラスタc1={t
1}、C2={t2}、・・・、{tm}を生成する。
Next, as an explanation of the term cluster generation processing in the thesaurus overview generation processing, first, an outline of the term cluster generation processing will be described, and then a detailed description will be given using a flowchart. In order to generate a cluster from a set of terms, in the term cluster generation process, first,
The terms to be clustered are {t1, t2, ...,
tm}, and n clusters c1 = {t
1}, C2 = {t2},..., {Tm}.

【0081】そしてクラスタ総数が指定された数と等し
くなるまで関連度が最大であるタームクラスタの対を選
択し、一つのタームクラスタにマージする処理を繰り返
す。ここで二つのクラスタCとDの関連度rel(C,
D)は、例えば、Cに属するタームtとDに属するター
ムSの関連度R(t,s)のうち、最大値をタームクラ
スタの関連度rel(C,D)とするなどの技術があ
る。
Then, a pair of the term clusters having the highest degree of association is selected until the total number of clusters becomes equal to the designated number, and the process of merging into a single term cluster is repeated. Here, the degree of association rel (C,
D) includes, for example, a technique of setting the maximum value among the relevance R (t, s) of the term t belonging to C and the term S belonging to D to the relevance rel (C, D) of the term cluster. .

【0082】次に、タームクラスタ生成処理の詳細な処
理手順について図21を用いて説明する。図21は、図
16(a)のシソーラスブラウジング用データ生成処理
におけるタームクラスタ生成処理の詳細な処理手順例を
示すフローチャートである。
Next, a detailed processing procedure of the term cluster generation processing will be described with reference to FIG. FIG. 21 is a flowchart illustrating an example of a detailed processing procedure of the term cluster generation processing in the thesaurus browsing data generation processing of FIG.

【0083】本図21に示すようにタームクラスタ生成
処理では、まずターム間の関連度を格納した相関行列を
生成する(ステップ1e01)。次に1つのタームから
なるタームクラスタを生成して出力タームクラスタリス
ト3fを初期化し(ステップ1e02)、タームクラス
タ数を示す変数Nにクラスタリングするターム数をセッ
トして初期化する(ステップ1e03)。
As shown in FIG. 21, in the term cluster generation processing, first, a correlation matrix storing the degree of association between terms is generated (step 1e01). Next, a term cluster consisting of one term is generated, the output term cluster list 3f is initialized (step 1e02), and the number of terms to be clustered is set to a variable N indicating the number of term clusters to initialize (step 1e03).

【0084】N個のタームクラスタのうち関連度の高い
タームクラスタの組C1及びC2を取得して(ステップ
1e04)、マージし(ステップ1e05)、Nを1減
らす(ステップ1e06)。Nが指定されたタームクラ
スタ数と同じでないなら(ステップ1e07)ステップ
1e04に戻る。同じであれば処理を終了する。
A set of term clusters C1 and C2 having a high degree of association among the N term clusters are obtained (step 1e04), merged (step 1e05), and N is reduced by 1 (step 1e06). If N is not the same as the designated term cluster number (step 1e07), the process returns to step 1e04. If they are the same, the process ends.

【0085】ここで、ステップ1e01の相関行列生成
処理と、ステップ1e02のタームクラスタ初期化処
理、1e04のタームクラスタ選択処理、及びステップ
1e05のタームクラスタマージ処理について、それぞ
れフローチャートを用いて詳細に説明する。まず、ター
ムクラスタ生成処理における相関行列作成処理の詳細な
説明を行なう。
Here, the correlation matrix generation processing in step 1e01, the term cluster initialization processing in step 1e02, the term cluster selection processing in 1e04, and the term cluster merge processing in step 1e05 will be described in detail with reference to flowcharts. . First, the correlation matrix creation processing in the term cluster generation processing will be described in detail.

【0086】図22は、図21のタームクラスタ生成処
理における相関行列生成処理の詳細な処理手順例を示す
フローチャートである。尚、以下の相関行列生成処理の
フローチャートの説明において、タームリストとは、入
力が代表タームリスト3cのとき代表タームリスト、入
力が関連タームリスト3dのときは関連タームリストを
指す。
FIG. 22 is a flowchart showing a detailed processing procedure example of the correlation matrix generation processing in the term cluster generation processing of FIG. In the following description of the flowchart of the correlation matrix generation process, the term list indicates a representative term list when the input is the representative term list 3c, and a related term list when the input is the related term list 3d.

【0087】本図22に示すように相関行列生成処理で
は、まず、相関行列の行番号を示す変数iに1をセット
して初期化し(ステップ1e011)、相関行列のi行
i列目の要素に0をセットする(ステップ1e01
2)。次に相関行列の列(又は行)番号を示すjにi+
1をセットし(ステップ1e013)、タームリストの
i番目のタームとj番目のタームの関連度を関連シソー
ラスから取得して(ステップ1e014)、相関行列i
行j列目、及びj行i列目にその値をセットする(ステ
ップ1e015)。
As shown in FIG. 22, in the correlation matrix generation processing, first, a variable i indicating the row number of the correlation matrix is set to 1 and initialized (step 1e011), and the element of the ith row and the ith column of the correlation matrix is set. Is set to 0 (step 1e01)
2). Next, j indicating the column (or row) number of the correlation matrix is i +
1 is set (step 1e013), the degree of association between the i-th term and the j-th term in the term list is obtained from the association thesaurus (step 1e014), and the correlation matrix i
The value is set to the j-th row and the i-th row of the j-th row (step 1e015).

【0088】jを1増やして(ステップ1e016)、
jがタームリストに格納されたターム数を超えれば(ス
テップ1e017)、ステップ1e018に進み、超え
なければステップ1e014に戻る。ステップ1e01
8ではiを1増やして、iがタームリストに格納された
ターム数を超えれば(ステップ1e019)処理を終了
し、超えなければステップ1e012に戻る。
J is incremented by 1 (step 1e016),
If j exceeds the number of terms stored in the term list (step 1e017), the process proceeds to step 1e018, and if not, the process returns to step 1e014. Step 1e01
In step 8, i is incremented by 1. If i exceeds the number of terms stored in the term list (step 1e019), the process ends. If i does not exceed the number, the process returns to step 1e012.

【0089】次に、タームクラスタ生成処理におけるタ
ームクラスタ初期化処理の詳細な説明を行なう。図23
は、図21のタームクラスタ生成処理におけるタームク
ラスタ初期化処理の詳細な処理手順例を示すフローチャ
ートである。本図23に示すようにタームクラスタ初期
化処理ではまず、相関行列の行番号を示す変数iに1を
セットして初期化し(ステップ1e021)、タームリ
ストi番目のタームを出力タームクラスタリスト3fの
i番目のタームリスト3f03にセットする(ステップ
1e022)。
Next, the term cluster initialization processing in the term cluster generation processing will be described in detail. FIG.
22 is a flowchart illustrating a detailed processing procedure example of a term cluster initialization process in the term cluster generation process of FIG. 21. As shown in FIG. 23, in the term cluster initialization processing, first, a variable i indicating the row number of the correlation matrix is set to 1 and initialized (step 1e021), and the ith term in the term list is output from the output term cluster list 3f. It is set in the i-th term list 3f03 (step 1e022).

【0090】相関行列i行目に格納された関連度のうち
最大値を出力タームクラスタリスト3fのi番目の最大
値3f02にセットし(ステップ1e023)、当該最
大値をとる列の番号を出力タームクラスタリスト3fの
i番目のクラスタID3f01にセットする(ステップ
1e024)。iを1増やして(ステップ1e02
5)、iがタームリストに格納されたターム数を超えれ
ば(ステップ1e026)処理を終了し、超えなければ
ステップ1e022に戻る。
The maximum value of the relevance stored in the i-th row of the correlation matrix is set to the i-th maximum value 3f02 of the output term cluster list 3f (step 1e023), and the number of the column having the maximum value is output. It is set to the i-th cluster ID 3f01 of the cluster list 3f (step 1e024). i is increased by 1 (step 1e02
5) If i exceeds the number of terms stored in the term list (step 1e026), the process ends; otherwise, the process returns to step 1e022.

【0091】この処理の具体的な結果が、図14に示す
例である。尚、この図14に示す例は、図12(b)に
示す関連タームリスト3dに基づくものである。すなわ
ち、関連タームリスト3dにおける第1番目の行のター
ム「IMF」を出力タームクラスタリスト3fの1行目
のタームリスト3f03にセットし、相関行列3eの1
行目における最大の関連度である「14.4」を最大関
連度3f02に、また、その最大関連度の列番号「3」
をクラスタID3f03にセットする。同様にして、出
力タームクラスタリスト3fの2行目には「ドル」、
「7.3」、「1」が、3行目には「ユーロ」、「1
4.4」、「1」がセットされる。
FIG. 14 shows an example of a specific result of this processing. The example shown in FIG. 14 is based on the related term list 3d shown in FIG. That is, the term “IMF” in the first row in the related term list 3d is set in the term list 3f03 in the first row of the output term cluster list 3f, and the term “IMF” in the correlation matrix 3e is set to 1
The maximum relevance “14.4” in the row is set to the maximum relevance 3f02, and the column number “3” of the maximum relevance is set.
Is set to the cluster ID 3f03. Similarly, the second line of the output term cluster list 3f includes “dollar”,
“7.3” and “1” are replaced by “Euro” and “1” on the third line.
4.4 "and" 1 "are set.

【0092】次に、タームクラスタ生成処理におけるタ
ームクラスタ選択処理の詳細な説明を行なう。図24
は、図21のタームクラスタ生成処理におけるタームク
ラスタ選択処理の詳細な処理手順例を示すフローチャー
トである。
Next, the term cluster selection processing in the term cluster generation processing will be described in detail. FIG.
22 is a flowchart illustrating a detailed processing procedure example of a term cluster selection process in the term cluster generation process of FIG. 21.

【0093】図24に示すようにタームクラスタ選択処
理ではまず、出力タームクラスタリスト3fのインデッ
クスを示す変数iに1を、更に最も関連度の高い組とし
て選択するタームクラスタのインデックスを示す変数C
1とC2にそれぞれ0を、その関連度を格納する変数M
axに0をセットして初期化する(ステップ1e04
1)。そして出力タームクラスタリスト3fのi番目に
格納された最大値とMaxの値を比較する(ステップ1
e042)。
As shown in FIG. 24, in the term cluster selection processing, first, 1 is added to the variable i indicating the index of the output term cluster list 3f, and the variable C indicating the index of the term cluster to be selected as the most relevant set.
A variable M that stores 0 in each of 1 and C2 and the degree of association
ax is set to 0 to initialize (step 1e04)
1). Then, the maximum value stored in the i-th of the output term cluster list 3f is compared with the value of Max (step 1).
e042).

【0094】Maxの方が大きければステップ1e04
4に進み、Maxの方が小さければ、出力タームクラス
タリスト3fのi番目の最大値をMaxにセットし、ま
たC1にiを、C2に出力タームクラスタリスト3fの
i番目のクラスタIDをセットする(ステップ1e04
3)。
If Max is larger, step 1e04
Then, if Max is smaller, the i-th maximum value of the output term cluster list 3f is set to Max, i is set to C1, and the i-th cluster ID of the output term cluster list 3f is set to C2. (Step 1e04
3).

【0095】ステップ1e044ではiを1増やして、
iが出力タームクラスタリスト3fに格納されたターム
クラスタ数を超えれば(ステップ1e045)、処理を
終了する。超えなければ、ステップ1e042に戻る。
In step 1e044, i is increased by 1, and
If i exceeds the number of term clusters stored in the output term cluster list 3f (step 1e045), the process ends. If not, the process returns to step 1e042.

【0096】次にタームクラスタ生成処理におけるター
ムクラスタマージ処理の詳細な説明を行なう。図25
は、図21のタームクラスタ生成処理におけるタームク
ラスタマージ処理の詳細な処理手順例を示すフローチャ
ートである。尚、以下のフローチャートの説明において
C1及びC2はマージするタームクラスタのインデック
スである。
Next, the term cluster merge processing in the term cluster generation processing will be described in detail. FIG.
22 is a flowchart illustrating a detailed processing procedure example of a term cluster merge process in the term cluster generation process of FIG. 21. In the following description of the flowchart, C1 and C2 are the index of the term cluster to be merged.

【0097】図25に示すようにタームクラスタマージ
処理ではまず、相関行列3eの列番号を示す変数iに1
をセットして初期化する(ステップ1e051)。次に
相関行列C1行i列の関連度と相関行列C2行i列の関
連度を比較し(ステップ1e052)、相関行列C2行
i列の関連度の方が小さければステップ1e054に進
み、大きければ、その値を相関行列C1行i列の要素に
セットする(ステップ1e053)。
As shown in FIG. 25, in the term cluster merge processing, first, a variable i indicating the column number of the correlation matrix 3e is set to 1
Is set and initialized (step 1e051). Next, the degree of association of the correlation matrix C1 row i column is compared with the degree of association of the correlation matrix C2 row i column (step 1e052). If the degree of association of the correlation matrix C2 row i column is smaller, the process proceeds to step 1e054; , Is set to the element of the correlation matrix C1 row i column (step 1e053).

【0098】例えば、図13の相関行列3eの4列目に
おける1行目(C1)と3行目(C2)では、それぞれ
の関連度は「4.1」と「8.6」であり、相関行列3
eの4列目における1行目(C1)において、「4.
1」を削除して「8.6」にセットし、3行目(C2)
の「8.6」を「0」にセットする。
For example, in the first row (C1) and the third row (C2) in the fourth column of the correlation matrix 3e in FIG. 13, the relevance is “4.1” and “8.6”, respectively. Correlation matrix 3
e, in the first row (C1) in the fourth column, "4.
"1" is deleted and set to "8.6", and the third line (C2)
Is set to “0”.

【0099】ステップ1e054では、相関行列C2行
i列目の要素に0をセットし、iを1増やして(ステッ
プ1e055)、iがタームリストのターム数を超えれ
ば(ステップ1e056)、ステップ1e057に進
み、超えなければ、ステップ1e052に戻る。
In step 1e054, 0 is set to the element in the 2nd row and the ith column of the correlation matrix C, and i is incremented by 1 (step 1e055). If i exceeds the number of terms in the term list (step 1e056), the process proceeds to step 1e057. If not, return to step 1e052.

【0100】ステップ1e057では、出力タームクラ
スタリスト3fのC1番目のタームリストに、出力ター
ムクラスタリストC2番目のタームリストに格納された
タームを追加し、さらに相関行列3eのC1行目に格納
された関連度のうちの最大値となる列の番号を、出力タ
ームクラスタリスト3fのC1番目の「最大関連度のク
ラスタID3f01」に、また、その値を「最大関連度
3f02」に格納する。そして出力タームクラスタリス
ト3fのC2番目の「タームリスト3f03」の情報を
削除し、「最大値をとるタームクラスタID3f01」
と「最大関連度3f02」に「0」をセットして(ステ
ップ1e058)処理を終了する。
In step 1e057, the terms stored in the output term cluster list C2 and the term stored in the second term list of the output term cluster list 3f are added to the C1 term list, and further stored in the C1 line of the correlation matrix 3e. The number of the column having the maximum value of the relevance is stored in the C1st “cluster ID 3f01 of the maximum relevance” in the output term cluster list 3f, and the value is stored in the “maximum relevance 3f02”. Then, the information of the C2th “term list 3f03” of the output term cluster list 3f is deleted, and the “term cluster ID 3f01 having the maximum value” is deleted.
Is set to "0" for "maximum relevance 3f02" (step 1e058), and the process ends.

【0101】例えば、図14の出力タームクラスタリス
ト3fにおいて、1番目(1行目)のタームリスト3f
03(「IMF」)に2行目のタームリストの「ドル」
を追加し、最大関連度のクラスタID3f01に「3」
を、また最大関連度3f02に「14.4」を格納し、
2行目のタームリストの「ドル」を削除し、最大関連度
のクラスタID3f01および最大関連度3f02に
「0」を格納する。この操作を繰り返し、また、ターム
リストが削除されて最大関連度のクラスタID3f01
および最大関連度3f02に「0」が格納された行を削
除することにより、図14(b)に示す内容となる。
尚、各行におけるターム数は「10」等、所定の数とす
る。
For example, in the output term cluster list 3f of FIG. 14, the first (first line) term list 3f
03 (“IMF”) “$” in the term list on the second line
Is added, and “3” is added to the cluster ID 3f01 of the maximum relevance.
, And “14.4” in the maximum relevance 3f02,
“Dollar” in the term list on the second line is deleted, and “0” is stored in the cluster ID 3f01 and the maximum relevance 3f02 of the maximum relevance. This operation is repeated, and the term list is deleted and the cluster ID 3f01 having the highest relevance is set.
By deleting the row in which “0” is stored in the maximum relevance 3f02, the content shown in FIG. 14B is obtained.
Note that the number of terms in each row is a predetermined number such as "10".

【0102】次に、シソーラスブラウジング処理におけ
る関連ターム取得処理に関して、まずその概要について
述べ、次にフローチャートを用いて詳細を説明する。ユ
ーザが入力タームクラスタリスト3gから選択したター
ムクラスタに属するターム(以下、「種ターム」と呼
ぶ)の関連タームは、関連シソーラスを検索することに
よって取得できる。
Next, an outline of the related term acquisition processing in the thesaurus browsing processing will be described first, and then details will be described with reference to a flowchart. The related terms of the terms belonging to the term cluster selected by the user from the input term cluster list 3g (hereinafter, referred to as “seed terms”) can be obtained by searching the related thesaurus.

【0103】取得された関連タームの総数が小さければ
(例えば300個以内)、それらすべてをクラスタリン
グの対象すれば良い。一方で、その数が多いときは、一
例として各種タームから均等に関連ターム取得する。す
なわち、すべての種タームから関連タームを関連度の強
い順にXタームずつ取得する。これにより、クラスタリ
ングするタームの数が予め定めた数の範囲内となるの
で、タームクラスタの生成のための計算量を抑えること
が可能となる。
If the total number of acquired related terms is small (for example, within 300), all of them may be subjected to clustering. On the other hand, when the number is large, related terms are equally acquired from various terms as an example. That is, the related terms are acquired from all the seed terms in the order of the degree of relevance, X terms at a time. As a result, the number of terms to be clustered falls within a range of a predetermined number, so that it is possible to suppress the amount of calculation for generating the term cluster.

【0104】関連ターム取得処理の詳細な処理手順につ
いて図26を用いて説明する。図26は、図16(b)
のソーラスブラウジング処理における関連ターム取得処
理の詳細な処理手順例を示すフローチャートである。本
図26に示すように関連ターム取得処理では、まず、入
力タームクラスタリスト3gのタームリスト3g01に
格納されたタームを関連タームリスト3dに格納する。
ここで、各タームを格納した行の順位3d02は1とす
る(ステップ1d01)。例えば、15行目の「東京外
為市場」、20行目の「ドル」などである。
The detailed processing procedure of the related term acquisition processing will be described with reference to FIG. FIG. 26 shows the state shown in FIG.
It is a flowchart which shows the detailed example of a processing procedure of the related term acquisition process in the solar browsing process of FIG. As shown in FIG. 26, in the related term acquisition processing, first, the terms stored in the term list 3g01 of the input term cluster list 3g are stored in the related term list 3d.
Here, the rank 3d02 of the row storing each term is set to 1 (step 1d01). For example, "Tokyo Forex Market" on line 15 and "Dollar" on line 20 are shown.

【0105】そして、入力タームクラスタリスト3gの
タームリスト3g01に格納されたタームの総数を表す
変数iに1をセットして初期化し(ステップ1d0
2)、入力タームクラスタリスト3gのタームリスト3
g01に格納されたタームのうち、i番目のタームの関
連タームを関連シソーラス格納部2bを検索して取得
し、それらを関連度の降順にソートして順位付けして関
連タームリスト3dの末尾に格納する(ステップ1d0
3)。その結果、例えば、図12(a)の関連タームリ
スト3dにおける15〜18行目のようになる。
The variable i representing the total number of terms stored in the term list 3g01 of the input term cluster list 3g is set to 1 for initialization (step 1d0).
2), term list 3 of input term cluster list 3g
Among the terms stored in g01, the related terms of the i-th term are obtained by searching the related thesaurus storage unit 2b, and they are sorted and ranked in descending order of the degree of relevance, and placed at the end of the related term list 3d. Store (step 1d0
3). As a result, for example, lines 15 to 18 in the related term list 3d in FIG.

【0106】さらにiを1増やして(ステップ1d0
4)。iがタームリスト3g01に格納されたタームの
総数を超えれば(ステップ1d05)、ステップ1d0
6に進み、超えなければステップ1d03に戻る。ステ
ップ1d06では関連タームリスト3dを順位の昇順で
ソートする。この結果、図12(b)における関連ター
ムリスト3dのようになるが、この時点では、重複した
関連タームが存在している可能性があるので、さらに、
以下の処理を行なう。
Further, i is increased by 1 (step 1d0
4). If i exceeds the total number of terms stored in the term list 3g01 (step 1d05), step 1d0
Go to step 6, if not exceeded, return to step 1d03. In step 1d06, the related term list 3d is sorted in ascending order of rank. As a result, the related term list 3d shown in FIG. 12B is obtained.
The following processing is performed.

【0107】すなわち、関連タームリスト3dのインデ
ックスを示す変数iに1を、関連タームのうちクラスタ
リング対象として選択したタームの数を表す変数jに0
をセットして初期化する(ステップ1d07)。そし
て、関連タームリスト3dのi番目のタームがリストの
1〜i−1番目に無ければ(ステップ1d08)、jを
1増やして(ステップ1d09)ステップ1d11に進
む。関連タームリスト3dにあれば、関連タームリスト
3dのi番目の順位を0にセットする(ステップ1d1
0)。ステップ1d11ではiを1増やして(ステップ
1d11)、iが関連タームリスト3dに格納された関
連ターム数を超えれば(ステップ1d12)、ステップ
1d15へ進む。
That is, 1 is set to a variable i indicating the index of the related term list 3d, and 0 is set to a variable j indicating the number of terms selected as a clustering target among the related terms.
Is set and initialized (step 1d07). If the i-th term in the related term list 3d is not the first to i-1st terms (step 1d08), j is incremented by 1 (step 1d09), and the process proceeds to step 1d11. If it is in the related term list 3d, the i-th order of the related term list 3d is set to 0 (step 1d1).
0). In step 1d11, i is incremented by 1 (step 1d11). If i exceeds the number of related terms stored in the related term list 3d (step 1d12), the process proceeds to step 1d15.

【0108】それ以外は、関連タームリスト3dのi−
1番目の順位とi番目の順位が同じであれば(ステップ
1d13)、ステップ1d08に戻る。同じでなければ
ステップ1d14に進み、jがクラスタリングするター
ムの数と同じになれば、i番目以降の関連ターム及び順
位が0の関連タームを削除して(ステップ1d15)、
処理を終了する。しかし、jがクラスタリングするター
ムの数と同じでないなら、ステップ1d08に戻る。こ
のようにして、図12(b)の関連タームリスト3dは
重複の無いものとなる。
[0108] Otherwise, i- in the related term list 3d
If the first order and the i-th order are the same (step 1d13), the process returns to step 1d08. If they are not the same, the process proceeds to step 1d14, and if j becomes equal to the number of terms to be clustered, the i-th and related terms and the related terms whose rank is 0 are deleted (step 1d15),
The process ends. However, if j is not the same as the number of terms to be clustered, the process returns to step 1d08. In this way, the related term list 3d in FIG. 12B has no duplication.

【0109】以上、本例のシソーラスブラウジング方法
の処理手順について説明した。以下、このようなシソー
ラスブラウジングに係わる具体的な画面に関して説明す
る。図27は、図1におけるシソーラスブラウジングシ
ステムで表示される画面の構成例を示す説明図である。
本画面は、図6に示す経済分野の関連シソーラスをブラ
ウジングしている例であり、図27(a)はシソーラス
概観の表示状態、図27(b)はタームクラスタのズー
ミング状態である。
The processing procedure of the thesaurus browsing method of this example has been described above. Hereinafter, a specific screen related to such thesaurus browsing will be described. FIG. 27 is an explanatory diagram illustrating a configuration example of a screen displayed by the thesaurus browsing system in FIG. 1.
This screen is an example in which the related thesaurus in the economic field shown in FIG. 6 is being browsed. FIG. 27A shows a display state of the thesaurus overview, and FIG. 27B shows a zooming state of the term cluster.

【0110】図27(a)に示すように経済分野のシソ
ーラス概観として、「景気」、「売り上げ」、「消費
者」などからなるタームクラスタや、「税制」、「所
得」、「国税庁」等からなるタームクラスタなどが表示
されている。ここでユーザが第3番目のタームクラスタ
に興味を持ち、当該タームクラスタを選択し、<ズーム
>ボタンをクリックしてズーミングを指示すると、画面
は図27(b)に示す状態となる。
As shown in FIG. 27A, an overview of the thesaurus in the economic field includes term clusters composed of “economics”, “sales”, “consumers”, etc., “tax system”, “income”, “National Tax Agency”, etc. Are displayed. Here, when the user is interested in the third term cluster, selects the term cluster, and clicks the <zoom> button to instruct zooming, the screen changes to the state shown in FIG. 27B.

【0111】図27(b)は、図27(a)中の第3の
タームクラスタを選択してズーミングした状態であり、
「IMF」、「ドル」、「外貨」等からなるタームクラ
スタや、「円」、「東京外為市場」、「円買い」等から
なるタームクラスタ等が表示されている。このようにユ
ーザはある特定のタームを入力せずとも、関連シソーラ
スを効率よくブラウジングすることができる。
FIG. 27B shows a state in which the third term cluster in FIG. 27A is selected and zoomed.
A term cluster composed of “IMF”, “dollar”, “foreign currency”, etc., a term cluster composed of “yen”, “Tokyo forex market”, “yen purchase”, etc. are displayed. In this manner, the user can browse the related thesaurus efficiently without inputting a specific term.

【0112】次に、このような実施形態の第1〜3の変
形例を説明する。まず、第1の変形例として、代表ター
ム抽出処理の変形例を説明する。第1の変形例にかかる
シソーラスブラウジングシステムのハードウェア構成は
図4に示した実施形態と同じである。またモジュール構
成は、図1におけるモジュール構成からタームベクトル
抽出部1b及びタームベクトル格納部2bを除いた形態
と同じである。
Next, first to third modified examples of such an embodiment will be described. First, a modified example of the representative term extraction processing will be described as a first modified example. The hardware configuration of the thesaurus browsing system according to the first modification is the same as that of the embodiment shown in FIG. The module configuration is the same as the module configuration in FIG. 1 except that the term vector extraction unit 1b and the term vector storage unit 2b are omitted.

【0113】第1の変形例において代表ターム抽出部1
cの変形例は、文書の構成要素を手がかりにして代表タ
ームを抽出する。具体的には、文書を特徴付けるターム
が出現しやすい構成要素からタームを抽出して、その出
現文書数が多いタームを代表タームとして代表タームリ
スト3cに格納する。例えば、文書データ格納部2aに
格納されているデータが新聞記事であれば、第1文すな
わち見出しに出現したタームを抽出し、また、特許明細
書であれば、要約書又は従来の技術と課題からタームを
抽出して重要タームとする。
In the first modification, the representative term extraction unit 1
In a modified example of c, a representative term is extracted by using constituent elements of a document as clues. Specifically, terms are extracted from constituent elements in which terms that characterize documents tend to appear, and terms having a large number of appearing documents are stored as representative terms in the representative term list 3c. For example, if the data stored in the document data storage unit 2a is a newspaper article, the term appearing in the first sentence, that is, the headline, is extracted. Terms are extracted from the terms to be important terms.

【0114】この第1の変形例における代表ターム抽出
部1cの変形例によれば、一般的なタームを含む文書の
構成要素が明らかな新聞記事のような場合に、効率よく
シソーラス概観を生成することができる。
According to the modified example of the representative term extracting unit 1c in the first modified example, in the case of a newspaper article in which the components of a document including general terms are clear, a thesaurus overview is efficiently generated. be able to.

【0115】次に、第2の変形例として、ユーザによる
タームクラスタの編集処理を含むシソーラスブラウジン
グシステムについて説明する。第2の変形例にかかるシ
ソーラスブラウジングシステムのハードウェア構成及び
モジュール構成は図4及び図1に示すものと同じであ
る。第2の変形例において、関連ターム取得部1dに入
力される入力タームクラスタ3gは、表示されたターム
クラスタのうち、ユーザが選択してタームを追加・削除
したものである。
Next, as a second modified example, a thesaurus browsing system including a process of editing a term cluster by a user will be described. The hardware configuration and module configuration of the thesaurus browsing system according to the second modified example are the same as those shown in FIGS. In the second modified example, the input term cluster 3g input to the related term acquisition unit 1d is one in which the user selects and adds / deletes a term from the displayed term clusters.

【0116】例えば、図27に示す画面例において、
「ズーム」ボタンの隣に「編集」ボタンを設け、ユーザ
が第3番目のタームクラスタ(「円、為替、日銀、外
貨」、・・・)と、「編集」ボタンを選択すると、第3
番目のタームクラスタの各ターム(「円」、「為替」、
「日銀」、「外貨」、・・・」)の一覧表と、「追加」
ボタン、「削除」ボタンが設けられた「編集画面」を別
ウィンドウに表示する。
For example, in the screen example shown in FIG.
An "edit" button is provided next to the "zoom" button, and when the user selects the third term cluster ("yen, foreign exchange, BOJ, foreign currency", ...) and the "edit" button, the third term cluster is displayed.
Terms in the second term cluster ("Yen", "Exchange",
"BOJ", "foreign currency", ...)) and "Add"
An "edit screen" provided with a button and a "delete" button is displayed in another window.

【0117】ユーザは、この「編集画面」上で「追加」
ボタンと「削除」ボタンを操作して、一覧表の各ターム
の内、必要なものだけ、例えば、「円」、「為替」、
「日銀」のみを残した新たなタームクラスタを作成す
る。そして、ユーザが「終了」ボタン等を選択すると、
新たなタームクラスタに対するズーミングを行なう。
The user clicks “Add” on this “edit screen”.
Operate the button and the "Delete" button to select only the necessary terms from the list, such as "Yen", "Exchange",
Create a new term cluster leaving only the "BOJ". Then, when the user selects the “end” button or the like,
Perform zooming on the new term cluster.

【0118】このように、第2の変形例によれば、入力
タームクラスタ3gに対するユーザの編集処理が可能と
なり、ユーザはより自分の興味に合わせてシソーラスを
ズーミングすることができ、使い勝手の良いシソーラス
のブラウジングを達成することができる。
As described above, according to the second modification, the user can edit the input term cluster 3g, the user can zoom the thesaurus in accordance with his / her interest, and the user-friendly thesaurus can be used. Browsing can be achieved.

【0119】さらに、第3の変形例として、ユーザが選
択したタームクラスタのズーミング結果を表示する際、
種ターム(選択した元のタームクラスタに属するター
ム)は他の関連タームとは区別可能な状態で表示するシ
ソーラスブラウジング技術について説明する。
Further, as a third modification, when displaying the zooming result of the term cluster selected by the user,
A thesaurus browsing technique for displaying seed terms (terms belonging to the selected original term cluster) in a state that is distinguishable from other related terms is described.

【0120】第3の変形例にかかるシソーラスブラウジ
ングシステムのハードウェア構成及び処理手順の概要
は、図1〜図27で説明したものと同様である。本第3
の変形例において、生成された出力タームクラスタ3f
は、種タームと他のタームを区別可能なよう、色、もし
くはフォント等を変えて表示する。ここで種タームと
は、タームクラスタリングの入力となったタームクラス
タに属するタームであり、シソーラス概観から現在表示
中のタームクラスタに至るまでにユーザが選択したター
ムクラスタのいずれかに属する。
The outline of the hardware configuration and processing procedure of the thesaurus browsing system according to the third modification is the same as that described with reference to FIGS. Book 3
Of the output term cluster 3f
Is displayed in a different color or font so that the seed term can be distinguished from other terms. Here, the seed term is a term belonging to the term cluster that has been input for term clustering, and belongs to any of the term clusters selected by the user from the thesaurus overview to the currently displayed term cluster.

【0121】このようにするとにより、ブラウジングの
履歴を階層的に表示可能な階層シソーラスとは異なり、
“迷子”になりやすいネットワーク型のシソーラスにお
いても、ユーザは現在の状態を参照するだけでこれまで
にどのようなタームを辿ったかを容易に知ることができ
る。
In this way, unlike a hierarchical thesaurus in which browsing histories can be displayed hierarchically,
Even in a network-type thesaurus that is easily lost, the user can easily know what terms have been traced so far only by referring to the current state.

【0122】以上、ある分野に属する文書データから自
動的に生成した関連シソーラスをブラウジングするシソ
ーラスブラウジングシステムと方法について説明した。
次に本発明の第2の実施形態例として、ユーザによるキ
ータームの入力がある場合のシソーラスブラウジング技
術について説明する。
The thesaurus browsing system and method for browsing a related thesaurus automatically generated from document data belonging to a certain field have been described.
Next, as a second embodiment of the present invention, a thesaurus browsing technique when a user inputs a key term will be described.

【0123】まず、図28を用いて本第2の実施形態に
かかるシソーラスブラウジングシステムのモジュール構
成を示し、次に図29を用いてシソーラスブラウジング
方法の処理手順について述べ、最後に図30を用いて本
第2の実施形態におけるシソーラスブラウジングの画面
の一例を示す。尚、本第2の実施形態にかかるシソーラ
スブラウジングシステムのハードウェア構成は図4に示
す第1の実施形態と同じで良い。
First, the module configuration of the thesaurus browsing system according to the second embodiment will be described with reference to FIG. 28. Next, the processing procedure of the thesaurus browsing method will be described with reference to FIG. 29, and finally, with reference to FIG. 13 shows an example of a thesaurus browsing screen according to the second embodiment. The hardware configuration of the thesaurus browsing system according to the second embodiment may be the same as that of the first embodiment shown in FIG.

【0124】図28は、本発明のシソーラスブラウジン
グシステムの本発明に係る構成の第2の実施形態例を示
すブロック図である。図28に示すように、本シソーラ
スブラウジングシステムは、処理部として関連ターム取
得部1d及びタームクラスタ生成部1e、データ格納部
として関連シソーラス格納部2b、データとしてターム
3h、関連タームリスト3d、相関行列3e、及び出力
タームクラスタリスト3fから構成される。
FIG. 28 is a block diagram showing a second embodiment of the thesaurus browsing system according to the present invention. As shown in FIG. 28, the present thesaurus browsing system includes a related term acquisition unit 1d and a term cluster generation unit 1e as processing units, a related thesaurus storage unit 2b as a data storage unit, a term 3h as data, a related term list 3d, and a correlation matrix. 3e and an output term cluster list 3f.

【0125】これらのうち、ターム3hはユーザが入力
したタームである。それ以外の構成要素の概要は図1に
示す例と同じである。このような構成のシソーラスブラ
ウジングシステムの処理動作を図29と図30を用いて
説明する。
Among these, the term 3h is a term input by the user. The outline of the other components is the same as the example shown in FIG. The processing operation of the thesaurus browsing system having such a configuration will be described with reference to FIGS.

【0126】図29は、図28におけるシソーラスブラ
ウジングシステムの本発明に係わる処理手順例を示すフ
ローチャートである。図29に示すように、まず関連シ
ソーラスを検索して、ユーザが入力したターム3hの関
連タームを取得し関連タームリストに格納し(ステップ
201)、関連タームリストに格納されたタームをクラ
スタリングして(ステップ202)、タームクラスタを
ユーザに表示する(ステップ203)。
FIG. 29 is a flowchart showing an example of a processing procedure according to the present invention of the thesaurus browsing system in FIG. As shown in FIG. 29, first, the related thesaurus is searched, the related term of the term 3h input by the user is acquired and stored in the related term list (step 201), and the terms stored in the related term list are clustered. (Step 202), the term cluster is displayed to the user (Step 203).

【0127】これらの処理のうち、ステップ201の関
連ターム取得処理は、1つのタームからなるタームクラ
スタがユーザから選択されたとすれば、第1の実施形態
例における関連ターム取得処理と同様であるので、説明
を省略する。同様に、ステップ202におけるタームク
ラスタ生成処理は、第1の実施形態例におけるタームク
ラスタ生成処理と同じであるので、説明を省略する。
Of these processes, the related term acquisition process in step 201 is the same as the related term acquisition process in the first embodiment if the user selects a term cluster consisting of one term. The description is omitted. Similarly, the term cluster generation processing in step 202 is the same as the term cluster generation processing in the first embodiment, and a description thereof will be omitted.

【0128】図30は、図28におけるシソーラスブラ
ウジングシステムで表示される画面の構成例を示す説明
図である。図30で示す画面は、図6に示す経済分野の
関連シソーラスにキーターム「円高」を入力してブラウ
ジングしている例である。本図30に示すように「円
高」の関連タームには「ドル安」、「東京外為市場」等
があるが、それらは関連の強いものがまとまって表示さ
れている。
FIG. 30 is an explanatory diagram showing a configuration example of a screen displayed by the thesaurus browsing system in FIG. The screen shown in FIG. 30 is an example in which the key term “yen appreciation” is input to the related thesaurus in the economic field shown in FIG. 6 for browsing. As shown in FIG. 30, the terms related to “yen appreciation” include “dollar depreciation”, “Tokyo foreign exchange market”, and the like.

【0129】例えば、第1のタームクラスタとして「ド
ル安」、「貿易不均衡」、「黒字減らし」等、第2のタ
ームクラスタとして「東京外為市場」、「円買い」、
「差益」があることがわかる。このように関連タームが
いくつかのタームクラスタに分割されて表示されるの
で、ユーザは効率よく関連タームを参照することができ
る。以上、第2の実施形態例として、ユーザによるター
ムの入力がある場合の関連シソーラスのブラウジングに
ついて説明した。
For example, as the first term cluster, “dollar depreciation”, “trade imbalance”, “reduction of surplus”, etc., as the second term cluster, “Tokyo foreign exchange market”, “yen buying”,
You can see that there is a “margin”. As described above, the related terms are divided into several term clusters and displayed, so that the user can efficiently refer to the related terms. As described above, the browsing of the related thesaurus when the user inputs a term has been described as the second embodiment.

【0130】以上、図1〜図30を用いて説明したよう
に、本実施例のシソーラスブラウジングシステムと方法
では、一般的なタームから構成されるシソーラスの概観
(全体構造)を表示し、このシソーラスの概観からより
限定的なタームを含む部分構造へユーザをナビゲートす
る。これにより、ユーザは、関連シソーラスの概観を容
易に把握でき、更に興味を持ったタームクラスタのズー
ミングにより、効率的に関連シソーラスをブラウジング
することができる。
As described above with reference to FIGS. 1 to 30, the thesaurus browsing system and method according to the present embodiment displays an overview (overall structure) of a thesaurus composed of general terms. Navigate the user from the overview to a substructure that contains more specific terms. Thus, the user can easily grasp the outline of the related thesaurus, and can browse the related thesaurus efficiently by zooming the term cluster in which the user is interested.

【0131】すなわち、関連シソーラスの検索要求が漠
然としている、或いは検索対象の関連シソーラスについ
て熟知していない等の理由で適切な検索タームを入力で
きないユーザでも、表示されたシソーラスの概観を参照
すれば全体の構造を把握でき、更に興味を持ったターム
クラスタを選択してズーミングを指示すれば、シソーラ
スをブラウジングすることができる。これにより、全体
の構造を把握しにくく、かつブラウジング中に迷子にな
りやすいネットワーク型の関連シソーラスを効率的に参
照することができる。
That is, even if a user cannot input an appropriate search term because the related thesaurus search request is vague or the user is not familiar with the related thesaurus to be searched, the user can refer to the displayed overview of the thesaurus. By grasping the overall structure and selecting a more interesting term cluster and instructing zooming, the thesaurus can be browsed. As a result, it is difficult to grasp the entire structure, and it is possible to efficiently refer to a network-type related thesaurus that is easily lost during browsing.

【0132】また、関連シソーラスを文書データベース
から生成した場合、従来の文書データベース検索では不
可能であったデータベースそのもののブラウジングが可
能となる。すなわち、従来、文書データベースを参照す
る技術として、格納されている文書を検索して本文を参
照する、格納されているタイトル等の書誌情報の一覧を
参照する等があるが、これらの技術はいずれも格納され
ている文書それぞれに対応するデータを参照するもので
あり、文書データベースに格納された個々のデータより
も全体の特徴を把握したいユーザ(例えば、ある年度の
特許データベースの傾向を知りたいユーザ)にとって有
用な技術とは言えなかった。
When the related thesaurus is generated from the document database, it is possible to browse the database itself, which cannot be performed by the conventional document database search. That is, conventionally, as a technique for referring to a document database, there are a technique of searching for a stored document to refer to a text, and a technique of referring to a list of stored bibliographic information such as titles. The user refers to data corresponding to each of the stored documents, and the user wants to grasp the overall characteristics rather than the individual data stored in the document database (for example, the user wants to know the tendency of the patent database in a certain year). It was not a useful technique for).

【0133】これに対して、本例のように、文書データ
ベースから自動的に生成した関連シソーラスは当該デー
タベースに特徴的な関連関係を抽出可能であることか
ら、関連シソーラスをブラウジングすれば当該データベ
ースの特徴を把握することが可能となる。例えば、ある
年度の特許データベースから生成した関連シソーラスは
「音声認識」と「カーナビゲーション」の関連度が強い
などを把握できる。また、従来技術は関連シソーラスの
部分構造のみを表示するものであったが、本例では、関
連シソーラス全体をブラウジングすることができる。
On the other hand, as in the present example, a related thesaurus automatically generated from a document database can extract a characteristic related relationship in the database, so that browsing the related thesaurus enables the related thesaurus to be extracted. Features can be grasped. For example, in a related thesaurus generated from a patent database for a certain year, it is possible to grasp that the degree of relevance between “voice recognition” and “car navigation” is strong. Further, in the related art, only the partial structure of the related thesaurus is displayed, but in this example, the entire related thesaurus can be browsed.

【0134】尚、本発明は、図1〜図30を用いて説明
した実施例に限定されるものではなく、その要旨を逸脱
しない範囲において種々変更可能である。例えば、本例
では、経済分野の文書データの関連シソーラスについて
説明したが、技術文書のデータベースや特許データベー
スなどの関連シソーラスについても同様に適用すること
ができる。
The present invention is not limited to the embodiment described with reference to FIGS. 1 to 30 and can be variously modified without departing from the gist thereof. For example, in this example, a related thesaurus of document data in the economic field has been described, but the present invention can be similarly applied to a related thesaurus such as a technical document database or a patent database.

【0135】[0135]

【発明の効果】本発明によれば、関連シソーラス中の一
般的なタームで構成されたシソーラスの概観をユーザに
提供し、更にユーザが興味を持った部分構造をより詳細
に表示することができ、従来の文書データベース検索と
は異なる「文書データベースのブラウジング」という新
しい情報処理技術をユーザに提供することが可能とな
り、ユーザは表示されたシソーラスの概観から当該文書
データベースの全体的な特徴をつかみ、更に興味を持っ
た部分をズーミングすることにより当該文書データベー
スの詳細な特徴について知ることができ、関連シソーラ
スの利用効率を向上させることが可能である。
According to the present invention, it is possible to provide a user with an overview of a thesaurus composed of general terms in a related thesaurus, and to display a partial structure of interest to the user in more detail. It is possible to provide the user with a new information processing technology called “browsing of a document database” different from the conventional document database search, and the user can grasp the overall characteristics of the document database from the displayed thesaurus, Further, by zooming in the part of interest, it is possible to know the detailed characteristics of the document database, and it is possible to improve the use efficiency of the related thesaurus.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明のシソーラスブラウジングシステムの本
発明に係る構成の第1の実施形態例を示すブロック図で
ある。
FIG. 1 is a block diagram showing a first embodiment of a configuration according to the present invention of a thesaurus browsing system of the present invention.

【図2】関連シソーラスの一例を示す説明図である。FIG. 2 is an explanatory diagram illustrating an example of a related thesaurus.

【図3】図1におけるシソーラスブラウジングシステム
の本発明に係わる処理の概要を示す説明図である。
FIG. 3 is an explanatory diagram showing an outline of a process according to the present invention of the thesaurus browsing system in FIG. 1;

【図4】図1におけるシソーラスブラウジングシステム
のハードウェア構成例を示するブロック図である。
FIG. 4 is a block diagram illustrating a hardware configuration example of the thesaurus browsing system in FIG. 1;

【図5】図1における文書データ格納部の構成例を示す
説明図である。
FIG. 5 is an explanatory diagram showing a configuration example of a document data storage unit in FIG. 1;

【図6】図1における関連シソーラス格納部の構成例を
示す説明図である。
FIG. 6 is an explanatory diagram showing a configuration example of a related thesaurus storage unit in FIG. 1;

【図7】図1におけるタームベクトル格納部の構成例を
示す説明図である。
FIG. 7 is an explanatory diagram showing a configuration example of a term vector storage unit in FIG. 1;

【図8】図1におけるシソーラス概観格納部の構成例を
示す説明図である。
8 is an explanatory diagram illustrating a configuration example of a thesaurus overview storage unit in FIG. 1. FIG.

【図9】図1における共起タームテーブルの構成例を示
す説明図である。
FIG. 9 is an explanatory diagram showing a configuration example of a co-occurrence term table in FIG. 1;

【図10】図1における文書タームテーブルの構成例を
示す説明図である。
FIG. 10 is an explanatory diagram showing a configuration example of a document term table in FIG. 1;

【図11】図1における代表タームリストの構成例を示
す説明図である。
FIG. 11 is an explanatory diagram showing a configuration example of a representative term list in FIG. 1;

【図12】図1における関連タームリストの構成例を示
す説明図である。
FIG. 12 is an explanatory diagram showing a configuration example of a related term list in FIG. 1;

【図13】図1における相関行列の構成例を示す説明図
である。
FIG. 13 is an explanatory diagram showing a configuration example of a correlation matrix in FIG. 1;

【図14】図1における出力タームクラスタリストの構
成例を示す説明図である。
FIG. 14 is an explanatory diagram showing a configuration example of an output term cluster list in FIG. 1;

【図15】図1における入力タームクラスタリストの構
成例を示す説明図である。
FIG. 15 is an explanatory diagram showing a configuration example of an input term cluster list in FIG. 1;

【図16】本発明のシソーラスブラウジング方法の処理
手順例を示すフローチャートである。
FIG. 16 is a flowchart illustrating a processing procedure example of the thesaurus browsing method of the present invention.

【図17】図16(a)のシソーラスブラウジング用デ
ータ生成処理における関連シソーラス生成処理の詳細な
処理手順例を示すフローチャートである。
FIG. 17 is a flowchart illustrating a detailed processing procedure example of a related thesaurus generation process in the thesaurus browsing data generation process of FIG.

【図18】図16(a)のシソーラスブラウジング用デ
ータ生成処理におけるタームベクトル抽出処理の詳細な
処理手順例を示すフローチャートである。
FIG. 18 is a flowchart illustrating a detailed processing procedure example of a term vector extraction process in the thesaurus browsing data generation process of FIG. 16A.

【図19】図16(a)のシソーラスブラウジング用デ
ータ生成処理におけるシソーラス概観生成処理の詳細な
処理手順例を示すフローチャートである。
FIG. 19 is a flowchart illustrating a detailed example of a thesaurus overview generation process in the thesaurus browsing data generation process of FIG. 16A.

【図20】代表ターム抽出処理の詳細な処理手順例を示
すフローチャートである。
FIG. 20 is a flowchart illustrating a detailed processing example of a representative term extraction process.

【図21】図16(a)のシソーラスブラウジング用デ
ータ生成処理におけるタームクラスタ生成処理の詳細な
処理手順例を示すフローチャートである。
FIG. 21 is a flowchart illustrating a detailed processing procedure example of a term cluster generation process in the thesaurus browsing data generation process of FIG. 16A.

【図22】図21のタームクラスタ生成処理における相
関行列生成処理の詳細な処理手順例を示すフローチャー
トである。
FIG. 22 is a flowchart illustrating a detailed processing example of a correlation matrix generation process in the term cluster generation process of FIG. 21;

【図23】図21のタームクラスタ生成処理におけるタ
ームクラスタ初期化処理の詳細な処理手順例を示すフロ
ーチャートである。
23 is a flowchart illustrating a detailed processing procedure example of a term cluster initialization process in the term cluster generation process of FIG. 21;

【図24】図21のタームクラスタ生成処理におけるタ
ームクラスタ選択処理の詳細な処理手順例を示すフロー
チャートである。
FIG. 24 is a flowchart illustrating a detailed processing procedure example of a term cluster selection process in the term cluster generation process of FIG. 21;

【図25】図21のタームクラスタ生成処理におけるタ
ームクラスタマージ処理の詳細な処理手順例を示すフロ
ーチャートである。
FIG. 25 is a flowchart illustrating a detailed processing procedure example of a term cluster merge process in the term cluster generation process of FIG. 21;

【図26】図16(b)のソーラスブラウジング処理に
おける関連ターム取得処理の詳細な処理手順例を示すフ
ローチャートである。
FIG. 26 is a flowchart showing a detailed processing procedure example of a related term acquisition process in the solar browsing process of FIG. 16 (b).

【図27】図1におけるシソーラスブラウジングシステ
ムで表示される画面の構成例を示す説明図である。
FIG. 27 is an explanatory diagram showing a configuration example of a screen displayed by the thesaurus browsing system in FIG. 1;

【図28】本発明のシソーラスブラウジングシステムの
本発明に係る構成の第2の実施形態例を示すブロック図
である。
FIG. 28 is a block diagram showing a second embodiment of the configuration of the thesaurus browsing system of the present invention according to the present invention.

【図29】図28におけるシソーラスブラウジングシス
テムの本発明に係わる処理手順例を示すフローチャート
である。
FIG. 29 is a flowchart illustrating an example of a processing procedure according to the present invention of the thesaurus browsing system in FIG. 28;

【図30】図28におけるシソーラスブラウジングシス
テムで表示される画面の構成例を示す説明図である。
FIG. 30 is an explanatory diagram showing a configuration example of a screen displayed by the thesaurus browsing system in FIG. 28;

【符号の説明】[Explanation of symbols]

1:CPU、2:ハードディスク、3:メモリ、4a:
ディスプレイ、4b:ディスプレイ制御部、5a:キー
ボード、5b:キーボード制御部、6a:マウス、6
b:マウス制御部、7:バス、1a:関連シソーラス生
成部、1b:タームベクトル抽出部、1c:代表ターム
取得部、1d:関連ターム取得部、1e:タームクラス
タ生成部、2a:文書データ格納部、2b:関連シソー
ラス格納部、2c:タームベクトル格納部、2d:シソ
ーラス概観格納部、3a:共起タームテーブル、3b:
文書タームテーブル、3c:代表タームリスト、3d:
関連タームリスト、3e:相関行列、3f:出力ターム
クラスタリスト、3g:入力タームクラスタリスト、3
h:ターム、2a01:文書データ、2b01:ターム
X、2b02:タームY、2b03:関連度、2c0
1:文書ID、2c02:重要タームリスト、2d0
1:タームリスト、3a01:タームX、3a02:タ
ームY、3a03:共起頻度、3b01:文書ID、3
b02:ターム、3b03:出現頻度、3c01:代表
ターム、3c02:文書数、3d01:関連ターム、3
d02:順位、3f01:最大関連度のクラスタID、
3f02:最大関連度、3f03:タームリスト、3g
01:タームリスト。
1: CPU, 2: Hard disk, 3: Memory, 4a:
Display, 4b: display controller, 5a: keyboard, 5b: keyboard controller, 6a: mouse, 6
b: mouse control unit, 7: bus, 1a: related thesaurus generation unit, 1b: term vector extraction unit, 1c: representative term acquisition unit, 1d: related term acquisition unit, 1e: term cluster generation unit, 2a: document data storage Section, 2b: related thesaurus storage section, 2c: term vector storage section, 2d: thesaurus overview storage section, 3a: co-occurrence term table, 3b:
Document term table, 3c: representative term list, 3d:
Related term list, 3e: correlation matrix, 3f: output term cluster list, 3g: input term cluster list, 3
h: term, 2a01: document data, 2b01: term X, 2b02: term Y, 2b03: degree of association, 2c0
1: Document ID, 2c02: Important term list, 2d0
1: term list, 3a01: term X, 3a02: term Y, 3a03: co-occurrence frequency, 3b01: document ID, 3
b02: Term, 3b03: Frequency of appearance, 3c01: Representative term, 3c02: Number of documents, 3d01: Related term, 3
d02: ranking, 3f01: cluster ID of maximum relevance,
3f02: maximum relevance, 3f03: term list, 3g
01: Term list.

フロントページの続き (72)発明者 森本 康嗣 東京都国分寺市東恋ケ窪一丁目280番地 株式会社日立製作所中央研究所内 (72)発明者 山崎 紀之 神奈川県横浜市戸塚区戸塚町5030番地 株 式会社日立製作所ソフトウェア事業部内 (72)発明者 飯田 恵子 神奈川県横浜市戸塚区戸塚町5030番地 株 式会社日立製作所ソフトウェア事業部内 (72)発明者 内田 安彦 神奈川県横浜市戸塚区戸塚町5030番地 株 式会社日立製作所ソフトウェア事業部内 Fターム(参考) 5B075 ND02 ND35 NR02 NR12 PP13 PQ02 PQ42 PQ46 QP03 5E501 AC33 AC34 BA05 CA02 CB09 EA10 EB05 EB20 FA03 FA06Continued on the front page (72) Inventor Yasushi Morimoto 1-280 Higashi Koigakubo, Kokubunji-shi, Tokyo Inside the Hitachi, Ltd. Central Research Laboratory (72) Inventor Noriyuki Yamazaki 5030 Totsuka-cho, Totsuka-ku, Yokohama-shi, Kanagawa Prefecture Software of Hitachi, Ltd. Within the Business Unit (72) Inventor Keiko Iida 5030 Totsuka-cho, Totsuka-ku, Yokohama-shi, Kanagawa Prefecture Within the Software Division, Hitachi, Ltd. (72) Inventor Yasuhiko Uchida 5030 Totsuka-cho, Totsuka-ku, Yokohama-shi, Kanagawa Software, Ltd. F-term in business division (reference) 5B075 ND02 ND35 NR02 NR12 PP13 PQ02 PQ42 PQ46 QP03 5E501 AC33 AC34 BA05 CA02 CB09 EA10 EB05 EB20 FA03 FA06

Claims (15)

【特許請求の範囲】[Claims] 【請求項1】 関連関係にある複数のタームを格納した
シソーラスの検索・表示を行なうシソーラスブラウジン
グシステムであって、上記シソーラスの概観を表す複数
の一般的タームを抽出してクラスタリングした概観ター
ムクラスタを表示するシソーラス概観生成手段と、ユー
ザが選択した上記概観タームクラスタに属する各一般的
タームに関連関係のあるタームを抽出してクラスタリン
グした限定タームクラスタを表示するシソーラスズーミ
ング手段とを有することを特徴とするシソーラスブラウ
ジングシステム。
1. A thesaurus browsing system for searching and displaying a thesaurus storing a plurality of terms having a relational relationship, wherein an overview term cluster obtained by extracting and clustering a plurality of general terms representing an overview of the thesaurus is provided. A thesaurus overview generating means for displaying, and a thesaurus zooming means for displaying a limited term cluster obtained by clustering by extracting terms related to each of the general terms belonging to the overview term cluster selected by the user. Thesaurus browsing system.
【請求項2】 請求項1に記載のシソーラスブラウジン
グシステムにおいて、ユーザが選択した上記限定ターム
クラスタに属する各限定タームに関連関係のあるターム
を抽出してクラスタリングし、新たに得られる限定ター
ムクラスタを表示する第2のシソーラスズーミング手段
を有することを特徴とするシソーラスブラウジングシス
テム。
2. The thesaurus browsing system according to claim 1, wherein terms related to each of the limited terms belonging to the limited term cluster selected by the user are extracted and clustered, and a newly obtained limited term cluster is obtained. A thesaurus browsing system comprising a second thesaurus zooming means for displaying.
【請求項3】 請求項1、もしくは、請求項2のいずれ
かに記載のシソーラスブラウジングシステムにおいて、
上記シソーラス概観生成手段は、関連関係にあるターム
から上記一般的タームとなる代表タームを抽出する代表
ターム取得手段と、該代表ターム取得手段で抽出した代
表タームから関連度の高いものをまとめて上記概観ター
ムクラスタを生成するタームクラスタ生成手段とを有す
ることを特徴とするシソーラスブラウジングシステム。
3. The thesaurus browsing system according to claim 1 or 2,
The thesaurus overview generating means is a representative term obtaining means for extracting the representative terms that are the general terms from the terms having a relational relationship, and collectively collects those having a high degree of association from the representative terms extracted by the representative term obtaining means. A term cluster generating means for generating an overview term cluster.
【請求項4】 請求項1から請求項3のいずれかに記載
のシソーラスブラウジングシステムにおいて、上記シソ
ーラスズーミング手段は、上記ユーザが選択した概観タ
ームクラスタに属する一般的タームと関連関係にあるタ
ームを上記シソーラスから抽出する関連ターム取得手段
と、該関連ターム取得手段で抽出したターム間の関連度
を上記シソーラスから取得し、関連度の高いタームをま
とめて上記限定タームクラスタを生成するタームクラス
タ生成手段ととを有することを特徴とするシソーラスブ
ラウジングシステム。
4. The thesaurus browsing system according to claim 1, wherein said thesaurus zooming means extracts a term related to a general term belonging to an overview term cluster selected by said user. Related term acquisition means for extracting terms from the thesaurus, term cluster generation means for acquiring the degree of relevance between terms extracted by the related term acquisition means from the thesaurus, and summing terms having a high degree of relevance to generate the limited term cluster; And a thesaurus browsing system comprising:
【請求項5】 関連関係にある複数のタームを格納した
シソーラスの検索・表示を行なうシソーラスブラウジン
グシステムであって、ユーザが入力したタームに関連関
係のあるタームを上記シソーラスから抽出する関連ター
ム取得手段と、該関連ターム取得手段で抽出したターム
間の関連度を上記シソーラスから取得し、関連度の高い
タームをまとめてタームクラスタを生成するタームクラ
スタ生成手段とを有し、上記タームクラスタ生成手段で
生成したタームクラスタを表示することを特徴とするシ
ソーラスブラウジングシステム。
5. A thesaurus browsing system for searching and displaying a thesaurus storing a plurality of terms having a related relationship, wherein related terms acquiring means for extracting terms related to a term input by a user from the thesaurus. And a term cluster generating means for obtaining a degree of relevance between terms extracted by the related term obtaining means from the thesaurus and generating a term cluster by summing up terms having a high degree of relevance, wherein the term cluster generating means A thesaurus browsing system characterized by displaying the generated term cluster.
【請求項6】 請求項5に記載のシソーラスブラウジン
グシステムにおいて、ユーザが選択したタームクラスタ
に属する各タームに関連関係のあるタームを抽出してク
ラスタリングした限定タームクラスタを表示するシソー
ラスズーミング手段を有することを特徴とするシソーラ
スブラウジングシステム。
6. The thesaurus browsing system according to claim 5, further comprising: a thesaurus zooming means for extracting terms related to each of the terms belonging to the term cluster selected by the user and displaying a limited-term cluster obtained by clustering. Thesaurus browsing system characterized by the following.
【請求項7】 関連関係にある複数のタームを格納した
シソーラスの検索・表示を行なう装置のシソーラスブラ
ウジング方法であって、上記シソーラスの概観を表す複
数の一般的タームを抽出してクラスタリングした概観タ
ームクラスタを表示するシソーラス概観生成処理ステッ
プと、ユーザが選択した上記概観タームクラスタに属す
る各一般的タームに関連関係のあるタームを抽出してク
ラスタリングした限定タームクラスタを表示するシソー
ラスズーミング処理ステップとを有することを特徴とす
るシソーラスブラウジング方法。
7. A thesaurus browsing method for a device for searching and displaying a thesaurus storing a plurality of terms having a related relationship, wherein a plurality of general terms representing an overview of the thesaurus are extracted and clustered. A thesaurus overview generation processing step of displaying a cluster; and a thesaurus zooming processing step of extracting terms related to each general term belonging to the overview term cluster selected by the user and displaying a limited-term cluster obtained by clustering. A thesaurus browsing method characterized by the above-mentioned.
【請求項8】 請求項7に記載のシソーラスブラウジン
グ方法において、ユーザが選択した上記限定タームクラ
スタに属する各限定タームに関連関係のあるタームを抽
出してクラスタリングし、新たに得られる限定タームク
ラスタを表示する第2のシソーラスズーミング処理ステ
ップを有することを特徴とするシソーラスブラウジング
方法。
8. The thesaurus browsing method according to claim 7, wherein terms related to each of the limited terms belonging to the limited term cluster selected by the user are extracted and clustered, and a newly obtained limited term cluster is obtained. A thesaurus browsing method comprising a second thesaurus zooming processing step for displaying.
【請求項9】 請求項7、もしくは、請求項8のいずれ
かに記載のシソーラスブラウジング方法において、上記
シソーラス概観生成処理ステップは、関連関係にあるタ
ームから上記一般的タームとなる代表タームを抽出する
代表ターム取得処理ステップと、該代表ターム取得処理
ステップで抽出した代表タームから関連度の高いものを
まとめて上記概観タームクラスタを生成するタームクラ
スタ生成処理ステップとを有することを特徴とするシソ
ーラスブラウジング方法。
9. The thesaurus browsing method according to claim 7, wherein the thesaurus overview generating step extracts a representative term that is the general term from terms having a related relationship. A thesaurus browsing method, comprising: a representative term acquisition processing step; and a term cluster generation processing step of generating the overview term cluster by combining those having high relevance from the representative terms extracted in the representative term acquisition processing step. .
【請求項10】 請求項7から請求項9のいずれかに記
載のシソーラスブラウジング方法において、上記シソー
ラスズーミング処理ステップは、上記ユーザが選択した
概観タームクラスタに属する一般的タームと関連関係に
あるタームを上記シソーラスから抽出する関連ターム取
得処理ステップと、該関連ターム取得処理ステップで抽
出したターム間の関連度を上記シソーラスから取得し、
関連度の高いタームをまとめて上記限定タームクラスタ
を生成するタームクラスタ生成処理ステップととを有す
ることを特徴とするシソーラスブラウジング方法。
10. The thesaurus browsing method according to any one of claims 7 to 9, wherein the thesaurus zooming processing step includes the step of recognizing a term that is related to a general term belonging to an overview term cluster selected by the user. Related term acquisition processing step extracted from the thesaurus, and the degree of association between the terms extracted in the related term acquisition processing step is acquired from the thesaurus,
And a term cluster generation processing step of generating the limited term cluster by combining terms having a high degree of relevance.
【請求項11】 請求項7から請求項10のいずれかに
記載のシソーラスブラウジン方法において、上記概観タ
ームクラスタに属するタームの追加・削除を、ユーザか
らの編集指示に基づき行なうタームクラスタ編集処理ス
テップを有し、ユーザが編集して選択した上記概観ター
ムクラスタに対して上記シソーラスズーミング処理ステ
ップでの処理を行なうことを特徴とするシソーラスブラ
ウジング方法。
11. The term browsing method according to any one of claims 7 to 10, wherein a term cluster editing processing step of adding / deleting a term belonging to the overview term cluster based on an editing instruction from a user. And performing a process in the thesaurus zooming process step on the overview term cluster selected and edited by the user.
【請求項12】 請求項7から請求項11のいずれかに
記載のシソーラスブラウジン方法において、上記シソー
ラスズーミング処理ステップで表示した限定タームクラ
スタに属するタームの内、ユーザが選択した上記概観タ
ームクラスタに属していたタームを識別表示するターム
クラスタ表示処理ステップを有することを特徴とするシ
ソーラスブラウジング方法。
12. The thesaurus browsing method according to claim 7, wherein the general term cluster selected by the user is selected from the terms belonging to the limited term cluster displayed in the thesaurus zooming processing step. A thesaurus browsing method, comprising a term cluster display processing step of identifying and displaying the terms to which the user belongs.
【請求項13】 関連関係にある複数のタームを格納し
たシソーラスの検索・表示を行なう装置のシソーラスブ
ラウジング方法であって、ユーザが入力したタームに関
連関係のあるタームを上記シソーラスから抽出する関連
ターム取得処理ステップと、該関連ターム取得手段で抽
出したターム間の関連度を上記シソーラスから取得し、
関連度の高いタームをまとめてタームクラスタを生成す
るタームクラスタ生成処理ステップとを有し、上記ター
ムクラスタ生成手段で生成したタームクラスタを表示す
ることを特徴とするシソーラスブラウジン方法。
13. A thesaurus browsing method for a device for searching and displaying a thesaurus storing a plurality of terms having a related relationship, wherein the term related to the term input by a user is extracted from the thesaurus. Acquisition processing step, acquiring the degree of relevance between terms extracted by the related term acquisition means from the thesaurus,
A term cluster generating step of generating a term cluster by grouping terms having a high degree of relevance, and displaying the term cluster generated by the term cluster generating means.
【請求項14】 請求項13に記載のシソーラスブラウ
ジング方法において、ユーザが選択したタームクラスタ
に属する各タームに関連関係のあるタームを抽出してク
ラスタリングした限定タームクラスタを表示するシソー
ラスズーミング処理ステップを有することを特徴とする
シソーラスブラウジング方法。
14. The thesaurus browsing method according to claim 13, further comprising a thesaurus zooming processing step of extracting terms related to each of the terms belonging to the term cluster selected by the user and displaying a limited-term cluster obtained by clustering. A thesaurus browsing method characterized by the above-mentioned.
【請求項15】 コンピュータが読み取り可能なプログ
ラムおよびデータを記録する記録媒体であって、請求項
7から請求項14のいずれかに記載の各ステップの処理
をコンピュータに実行させるためのプログラムを記録し
たことを特徴とする記録媒体。
15. A recording medium for recording a computer-readable program and data, wherein the program records a program for causing a computer to execute the processing of each step according to any one of claims 7 to 14. A recording medium characterized by the above-mentioned.
JP02810199A 1999-02-05 1999-02-05 Thesaurus browsing system and method Expired - Lifetime JP4404323B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP02810199A JP4404323B2 (en) 1999-02-05 1999-02-05 Thesaurus browsing system and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP02810199A JP4404323B2 (en) 1999-02-05 1999-02-05 Thesaurus browsing system and method

Publications (2)

Publication Number Publication Date
JP2000227917A true JP2000227917A (en) 2000-08-15
JP4404323B2 JP4404323B2 (en) 2010-01-27

Family

ID=12239421

Family Applications (1)

Application Number Title Priority Date Filing Date
JP02810199A Expired - Lifetime JP4404323B2 (en) 1999-02-05 1999-02-05 Thesaurus browsing system and method

Country Status (1)

Country Link
JP (1) JP4404323B2 (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004021763A (en) * 2002-06-19 2004-01-22 Hitachi Ltd Text mining program, method, and device
JP2004178123A (en) * 2002-11-26 2004-06-24 Hitachi Ltd Information processor and program for executing information processor
JP2005275714A (en) * 2004-03-24 2005-10-06 Ntt Data Corp Information retrieval apparatus
JP2006039811A (en) * 2004-07-26 2006-02-09 Fuji Xerox Co Ltd Document management program, document management method and document management device
JP2009288999A (en) * 2008-05-29 2009-12-10 Fujitsu Ltd Making out work support processing method, device, and program
WO2018020842A1 (en) * 2016-07-25 2018-02-01 株式会社Screenホールディングス Text mining method, text mining program, and text mining apparatus
CN110309290A (en) * 2018-03-20 2019-10-08 株式会社斯库林集团 Text mining method, text mining program and text mining device
CN110309260A (en) * 2018-03-20 2019-10-08 株式会社斯库林集团 Text mining method, text mining storage medium and text mining device

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004021763A (en) * 2002-06-19 2004-01-22 Hitachi Ltd Text mining program, method, and device
JP2004178123A (en) * 2002-11-26 2004-06-24 Hitachi Ltd Information processor and program for executing information processor
JP2005275714A (en) * 2004-03-24 2005-10-06 Ntt Data Corp Information retrieval apparatus
JP2006039811A (en) * 2004-07-26 2006-02-09 Fuji Xerox Co Ltd Document management program, document management method and document management device
JP4525224B2 (en) * 2004-07-26 2010-08-18 富士ゼロックス株式会社 Document management program, document management method, and document management apparatus
JP2009288999A (en) * 2008-05-29 2009-12-10 Fujitsu Ltd Making out work support processing method, device, and program
WO2018020842A1 (en) * 2016-07-25 2018-02-01 株式会社Screenホールディングス Text mining method, text mining program, and text mining apparatus
JP2018018118A (en) * 2016-07-25 2018-02-01 株式会社Screenホールディングス Text mining method, text mining program, and text mining device
CN109478191A (en) * 2016-07-25 2019-03-15 株式会社斯库林集团 Text mining method, text mining program and text mining device
TWI686716B (en) * 2016-07-25 2020-03-01 斯庫林集團股份有限公司 Text exploration method, computer-readable recording medium and text exploration device recorded with text exploration program
CN109478191B (en) * 2016-07-25 2022-04-08 株式会社斯库林集团 Text mining method, recording medium, and text mining device
CN110309290A (en) * 2018-03-20 2019-10-08 株式会社斯库林集团 Text mining method, text mining program and text mining device
CN110309260A (en) * 2018-03-20 2019-10-08 株式会社斯库林集团 Text mining method, text mining storage medium and text mining device
CN110309290B (en) * 2018-03-20 2023-06-06 株式会社斯库林集团 Text mining method, text mining program, and text mining device

Also Published As

Publication number Publication date
JP4404323B2 (en) 2010-01-27

Similar Documents

Publication Publication Date Title
KR102075833B1 (en) Curation method and system for recommending of art contents
US7783644B1 (en) Query-independent entity importance in books
US6654742B1 (en) Method and system for document collection final search result by arithmetical operations between search results sorted by multiple ranking metrics
US9183281B2 (en) Context-based document unit recommendation for sensemaking tasks
JP4116329B2 (en) Document information display system, document information display method, and document search method
US9195942B2 (en) Method and system for mining information based on relationships
CN106446148A (en) Cluster-based text duplicate checking method
US7464074B2 (en) Method and system for using query information to enhance catergorization and navigation within the whole knowledge base
US9971828B2 (en) Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries
Kogilavani et al. Clustering and feature specific sentence extraction based summarization of multiple documents
KR101007613B1 (en) Data registration/search support device using a keyword
US20050138079A1 (en) Processing, browsing and classifying an electronic document
Odeh et al. Arabic text categorization algorithm using vector evaluation method
JP2000227917A (en) Thesaurus browsing system and method therefor and recording medium recording its processing program
JP2008243024A (en) Information acquisition device, program therefor and method
JP3921837B2 (en) Information discrimination support device, recording medium storing information discrimination support program, and information discrimination support method
JP3829506B2 (en) Document classification method, document classification apparatus, and recording medium on which document classification processing program is recorded
JP4359075B2 (en) Concept extraction system, concept extraction method, concept extraction program, and storage medium
Tohalino et al. Extractive multi-document summarization using dynamical measurements of complex networks
KR101078978B1 (en) System for grouping documents
JP4134975B2 (en) Topic document presentation method, apparatus, and program
Simoff et al. MDM/KDD2002: multimedia data mining between promises and problems
JP4497337B2 (en) Concept search device and recording medium recording computer program
JP3772401B2 (en) Document classification device
JP3880534B2 (en) Document classification method and document classification program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060130

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20081210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20081210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090317

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090515

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090807

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090929

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091030

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091030

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

EXPY Cancellation because of completion of term