JPH08314980A - Constructing method, displaying method and displaying device for document data base - Google Patents

Constructing method, displaying method and displaying device for document data base

Info

Publication number
JPH08314980A
JPH08314980A JP8087013A JP8701396A JPH08314980A JP H08314980 A JPH08314980 A JP H08314980A JP 8087013 A JP8087013 A JP 8087013A JP 8701396 A JP8701396 A JP 8701396A JP H08314980 A JPH08314980 A JP H08314980A
Authority
JP
Japan
Prior art keywords
occurrence
sentence
network
document
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8087013A
Other languages
Japanese (ja)
Other versions
JP2806867B2 (en
Inventor
Shuichi Arai
秀一 荒井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TORENDEI KK
Original Assignee
TORENDEI KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TORENDEI KK filed Critical TORENDEI KK
Priority to JP8087013A priority Critical patent/JP2806867B2/en
Publication of JPH08314980A publication Critical patent/JPH08314980A/en
Application granted granted Critical
Publication of JP2806867B2 publication Critical patent/JP2806867B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE: To realize a subject extraction and expression which is capable of properly grasping document contents without constructing a word dictionary and knowledge concerning grammar and without limiting the field of the contents of the document. CONSTITUTION: An independent word group in a cooccurrence relation capable of suggesting the subject is extracted from a given document to calculate the number of the cooccurrence times of each independent word and the cooccurrence word to it to express the strength of cooccurrence in a network by cooccurrence probability obtained by this. As a result of this, the means of a document is extracted without constructing a grammar dictionary of a large scale and by making up for grammatical dictionary necessary for preparing a summary by referring to this network output by a person, subject extraction and summary generation from this network output are additionally enabled. Thus, a sentence can be grasped more minutely than information of only a key word.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、新聞記事、技術文
書、文芸著作文書等より特定な単語を抽出し、その単語
同士をネットワーク形式で関係付けるドキュメントデー
タベースに関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a document database for extracting specific words from newspaper articles, technical documents, literary writings, etc., and relating the words to each other in a network format.

【0002】[0002]

【従来の技術】近年、新聞記事、技術文書、あるいは文
芸著作文書等は電子化されているものが増えているが、
これらの電子化文書群の中には著者によるキーワードや
要約が作成されていないものも多く、電子計算機上で主
題の抽出を行い要約の自動作成を行う試みが種々なされ
ている。
2. Description of the Related Art Recently, an increasing number of newspaper articles, technical documents, and literary writing documents have been digitized.
Many of these computerized documents do not have keywords and abstracts created by the author, and various attempts have been made to automatically create abstracts by extracting the subject on an electronic computer.

【0003】特定の文書から主題を示す単語または文を
抽出する方法としては、第1にキーワードの出現頻度を
利用する方法、第2に言語的な解析を行う方法が挙げら
れる。
As a method of extracting a word or a sentence indicating a subject from a specific document, there are firstly a method of utilizing the appearance frequency of a keyword and secondly, a method of linguistic analysis.

【0004】前者は、「一般に、文書中で強調したい事
柄はくり返し述べられるものであり、頻繁に出現する単
語が文書の主題を示す可能性が高い」という理論に基づ
いていてる。しかし、自立語のなかには、「そして」、
「その」、「この」、「早く」、「(そんな)こと」、
「か(よわい)」、「(つやっ)ぽい」等のように、言
語機能として出現する単語(接続詞、連体詞、副詞、形
式名詞、接頭辞、接尾辞、指示代名詞の一部等)があ
る。このため、単に出現頻度だけで重要単語を決定する
ことはできない。このような言語機能単語を除外した上
で単独で意味をもち、文書の特徴を表わす単語を抽出し
なければならない。そのためにまず、大量の語葉をもつ
重要語リストを予め準備しておいてから文書中の単一語
の出現頻度を計算してキーワードを決定する。このキー
ワードの決定に際しては後述の言語的解析の結果を利用
してもよい。そしてこのキーワード群のうち出現頻度の
高い単語をもとに要約を生成する。
The former is based on the theory that "in general, what is desired to be emphasized in a document is repeatedly stated, and frequently occurring words are likely to indicate the subject of the document." However, in the independent words, "and",
"That", "this", "early", "(such a thing)",
There are words that appear as linguistic functions (connectives, adnominals, adverbs, formal nouns, prefixes, suffixes, part of demonstrative pronouns, etc.) such as "ka (yowai)" and "(tsuyaya) poi". . Therefore, it is not possible to determine the important word only by the appearance frequency. It is necessary to exclude such language function words and extract a word that has a meaning independently and represents a feature of a document. For that purpose, first, an important word list having a large number of leaves is prepared in advance, and then the appearance frequency of a single word in a document is calculated to determine a keyword. In determining this keyword, the result of linguistic analysis described below may be used. Then, a summary is generated based on the words that appear frequently in this keyword group.

【0005】ところが、この方法では同義語などによっ
て単語が言い換えられている文書には対応できないた
め、単純にキーワードの出現頻度だけでは適確に手段を
抽出することは困難である。
However, since this method cannot deal with a document in which words are paraphrased by synonyms, it is difficult to accurately extract the means simply by using the frequency of appearance of the keywords.

【0006】さらに、同義語に対応するためには大規模
なシソーラス(類義語辞書)を用意しておかなくてはな
らず、システムの負荷が大きくなるという問題もある。
一方、後者の言語解析は、接続詞や文の構造に注目して
これらに関する固有のパラメータを設定することで重要
語を決定し、文と文の関係や文書の論理構造を解析する
方法である。
Further, in order to deal with the synonyms, it is necessary to prepare a large-scale thesaurus (synonym dictionary), which causes a problem that the system load increases.
On the other hand, the latter linguistic analysis is a method of deciding important words by paying attention to the structure of connectives and sentences and setting unique parameters for these, and analyzing the relation between sentences and the logical structure of documents.

【0007】この手法によれば、「は」、「が」を付属
語として伴っている名詞句や、文末が「だ」、「であ
る」などで終わる文の最後尾にある単語を重要語とす
る。たとえば、「明日の天気は晴れでしょう」という文
の場合、「は」を伴う名詞句「天気」が重要語となる。
According to this method, a noun phrase accompanied by "ha" or "ga" as an adjunct word or a word at the end of a sentence ending with "da" or "is" is an important word. And For example, in the case of a sentence "weather will be fine tomorrow", the noun phrase "weather" accompanied by "ha" is an important word.

【0008】この方法では、対象とする文書内容を分野
的に限定(たとえば技術文書のみに限定)すれば効果的
ではあるが、文芸著作文書のように、「ある日」、「や
がて」などの接続詞や主人公の行動の記述から物語の展
開を判断する場合には異なる固有パラメータが必要とな
ってしまう。
This method is effective if the content of the target document is limited in the field (for example, limited to only technical documents), but like a literary writing document, it is possible to use "one day", "long time", etc. Different specific parameters are needed when judging the development of a story from the conjunction and the description of the main character's action.

【0009】[0009]

【発明が解決しようとする課題】本発明は、上記の問題
点に鑑みてなされたものであり、(1)単語辞書や文法
に関する知識を構築することなく、(2)文書内容の分
野を限定せずに、(3)人間が文書の前処理等の介入を
することなく、文書内容の適確な把握が可能な主題抽出
および表現生成を自動的に行うことを課題とする。
SUMMARY OF THE INVENTION The present invention has been made in view of the above problems, and (1) does not build knowledge about a word dictionary or grammar, and (2) limits the field of document contents. Without (3) human beings, it is an object to automatically perform subject extraction and expression generation that enable accurate grasp of document contents without human intervention such as document preprocessing.

【0010】[0010]

【課題を解決するための手段】本発明は、まず与えられ
た文書から自立語を抽出する自立語抽出ステップを実行
する。このステップでは文の中から自立語を抽出する作
業を行う。本発明でいう「自立語」とは単独で意味をな
す単語を指し、たとえば「料理の先生になりたい」とい
う文の場合、「料理」、「先生」および「なる」が自立
語である。
The present invention first executes an independent word extracting step for extracting an independent word from a given document. In this step, an independent word is extracted from the sentence. The "independent word" in the present invention refers to a word that has a meaning by itself. For example, in the case of a sentence "I want to be a teacher of cooking", "cooking", "teacher" and "naru" are independent words.

【0011】次に、前記で抽出された各自立語に対する
共起単語とその共起回数を記録する共起テーブルを作成
する共起テーブル作成ステップが実行される。本発明で
いう「共起」とは同一文中に同時に存在する二つの自立
語間の関係をいう。すなわち同一文中に同時に複数の自
立語が存在する場合にはそれらの自立語は互いに共起し
ている、または、共起関係にあるという。また、互いに
共起関係にある2つの自立語が存在する場合に、一方の
自立語を他方の自立語に対する共起単語という。
Next, a co-occurrence table creating step for creating a co-occurrence table for recording the co-occurrence words and the co-occurrence frequency of each of the extracted independent words is executed. The term "co-occurrence" as used in the present invention refers to a relationship between two independent words that exist in the same sentence at the same time. That is, when multiple independent words are present in the same sentence at the same time, those independent words are said to be co-occurring with each other or have a co-occurrence relationship. Further, when there are two independent words that have a co-occurrence relationship with each other, one independent word is called a co-occurrence word for the other independent word.

【0012】ここで、共起テーブルの具体例を図1およ
び図2に示す。図1は、文1「料理の先生になりた
い」、文2「料理学校の先生です」という2つの文に基
づいて共起テーブルを作成する例を示している。同図に
おいて、文1の自立語として「料理」、「先生」および
「なる」が抽出され、文2の自立語として「料理」、
「学校」および「先生」が抽出される。これらの自立語
と共起関係にある同図右側の共起単語が抽出され共起回
数が算出される。たとえば、「料理」という自立語は文
1と文2の双方に存在しており、この「料理」という自
立語に対して「先生」という共起単語は文1に1回、文
2に1回出現しており合計2回共起されている。したが
って自立語「料理」に対する共起単語「先生」の共起回
数は2となる。
Specific examples of the co-occurrence table are shown in FIGS. 1 and 2. FIG. 1 shows an example in which a co-occurrence table is created based on two sentences, sentence 1 “I want to be a cook's teacher” and sentence 2 “I am a cooking school teacher”. In the figure, “cooking”, “teacher”, and “nar” are extracted as independent words of sentence 1, and “cooking” as independent words of sentence 2,
"School" and "teacher" are extracted. The co-occurrence words on the right side of the figure having a co-occurrence relationship with these independent words are extracted and the co-occurrence frequency is calculated. For example, the independent word “cooking” exists in both sentence 1 and sentence 2, and the co-occurrence word “teacher” is once in sentence 1 and in sentence 2 for this independent word “cooking”. It has appeared twice and has been co-occurred twice in total. Therefore, the co-occurrence number of the co-occurrence word “teacher” for the independent word “cooking” is 2.

【0013】図2は、「料理の先生になるために、料理
学校に通っている」という文に基づいて共起テーブルを
作成する例を示している。次に、前記共起テーブルに基
づいて共起関係の強さを表わす共起確率を算出する共起
確率算出ステップが実行される。ここで共起確率とは、
ある自立語wが出現したとき、Wに対する共起単語
がwと共起する確率P(c/w)であり、下
記の(1)式により算出可能である。
FIG. 2 shows an example of creating a co-occurrence table based on the sentence "I go to a cooking school to become a cooking teacher." Next, a co-occurrence probability calculating step for calculating a co-occurrence probability representing the strength of the co-occurrence relationship is executed based on the co-occurrence table. Here, the co-occurrence probability is
When there is an independent word w i appeared, is the probability the co-occurrence word c j with respect to W i is to co-occur with w i P (c j / w i), can be calculated by the following equation (1).

【0014】 P(c/w)=M(c/wi)/Nwi ・・・・・ (1) ただし、 w:自立語(1≦i≦N、N:一文書中の総語量
数) c:自立語wに対する共起単語(1≦J≦N
b(wi)、Nb(wiwiに対する共起単語数)
M(c/w):自立語wとそれに対する共起単語
との共起回数 Nwi:自立語wの出現数 前記(1)式により算出される共起確率は、自立語w
の生起という条件つき確率であり、wからそれに対す
る共起単語cへの意味的な繋がりを示すから、この情
報を「自立語w→共起単語c」のような片方向リン
クにより表現することができる。
[0014] P (c j / w i) = M (c j / wi) / N wi ····· (1) However, w i: independent words (1 ≦ i ≦ N B, N B: one document Total number of words in the content) c j : co-occurrence word for independent word w i (1 ≦ J ≦ N
b (wi), N b ( wi: the number of co-occurrence word for the wi)
M (c j / w i ): the number of co-occurrences of the independent word w i and the co-occurrence word c j corresponding thereto N wi : the number of appearances of the independent word w i The co-occurrence probability calculated by the above equation (1) is Independent word w i
Is a conditional probability of occurrence of w i and shows a semantic connection from w i to the co-occurrence word c j therefor, so this information is a one-way link such as “independent word w i → co-occurrence word c j ”. Can be expressed by

【0015】続いて、本発明は、共起回数の期待値を算
出する共起回数期待値算出ステップを実行する。共起回
数の期待値E(c/w)は下記の(2)式により算
出することができる。
Next, the present invention executes a co-occurrence count expected value calculation step for calculating an expected value of the co-occurrence count. The expected value E (c j / w i ) of the number of times of co-occurrence can be calculated by the following equation (2).

【0016】 E(c/w)=N・{1−(1−Pcj−(1−Pwi +(1−Pcj)m・(1−Pwi} ・・・・ (2) ただし、 N:一文書中の総文数 N:総自立語数 m:一文中の平均自立語数 Pcj=Ncj/Ncj:共起単語cの出現
確率 Pwi=Nwi/Nwi:自立語wの出現確
率 m−N/N 次に、期待値E(c/w)と実際の共起回数M(c
/wi)を比較して、一定の条件を満たす自立語とそ
れに対する共起単語との組み合わせを抽出する主題示唆
自立語群選定ステップが実行される。一定の条件として
は、下記の(3)式を例示することができる。
E (c j / w i ) = N s · {1- (1-P cj ) m − (1-P wi ) m + (1-P cj ) m · (1-P wi ) m } (2) However, N s : total number of sentences in one document N i : total number of independent words m: average number of independent words in one sentence P cj = N cj / N I P cj : of co-occurrence word c j the occurrence probability P wi = N wi / N I P wi: independent words w i occurrence probability m-N I / N s then, the expected value E (c j / w i) and the actual co-occurrence number of times M (c
j / w i) is compared, and a subject suggestive independent word group selection step of extracting a combination of an independent word satisfying a certain condition and a co-occurrence word corresponding thereto is executed. As a certain condition, the following equation (3) can be exemplified.

【0017】 M(c/w)>E(c/w) ・・・・・ (3) そして、上記の(3)式を満たせば期待値E(c/w
)よりも実際の共起回数M(c/w)が大きいこ
とになり、自立語wと共起単語cとの意味的な繋が
りがあるといえる。しかし、文書中の総自立語数N
対して語量数Nが極端に少ない場合、たとえば子供向
けの物語などのように少ない語量での繰り返しが多い場
合には、意味的な繋がりが非常に弱くても上記の(3)
式の条件を満たす自立語と共起単語の組み合わせが多数
出現することになる。
M (c j / w i )> E (c j / w i ) (3) Then, if the above equation (3) is satisfied, the expected value E (c j / w i )
The actual co-occurrence number M (c j / w i ) is larger than i ), and it can be said that there is a semantic connection between the independent word w i and the co-occurrence word c j . However, the case is extremely small word equivalent number N B with respect to the total independence number of words N I in the document, for example, when repeated often with a small word amount, such as the story of a child-friendly, semantic connection is (3) above even if very weak
Many combinations of independent words and co-occurrence words that satisfy the condition of the expression will appear.

【0018】そこで、一単語の平均出現数を考慮し、こ
こでは次の(4)式を満たす場合のみを共起関係が強い
と判断してもよい。 M(c/w)>E(c/w)+α・N/N ・・・・・(4) αはたとえば、実験的に求めることができる。
Therefore, considering the average number of appearances of one word, it may be determined that the co-occurrence relation is strong only when the following expression (4) is satisfied. M (c j / w i )> E (c j / w i ) + α · N I / N B (4) α can be experimentally obtained, for example.

【0019】図3は総自立語数5984語、語量数11
98語の共起データを用いてα=1.5に設定した共起
回数M(c/w)とその期待値E(c/w)と
の関係を示したグラフ図である。図4は同様の条件でα
=2.5とした場合、図5は同様の条件でα=0.5と
した場合である。図3〜図5におけるプロットの点は共
起した自立語の組み合わせを示し、各図の実線よりも上
にある点は前記(4)式を満たすことになる。すなわち
αを大きくすればより強い共起関係を有する情報のみを
抽出することができ、小さくすれば共起関係のより弱い
情報まで抽出可能である。このαの設定は初期値として
例えば1.5とし、ユーザーにより任意に変更可能とし
てもよい。
FIG. 3 shows the total number of independent words is 5984 words and the word quantity is 11 words.
FIG. 9 is a graph showing the relationship between the number of co-occurrences M (c j / w i ) set to α = 1.5 using 98-word co-occurrence data and its expected value E (c j / w i ). . Fig. 4 shows α
= 2.5, FIG. 5 shows a case where α = 0.5 under the same conditions. The points in the plots in FIGS. 3 to 5 indicate combinations of co-occurring independent words, and the points above the solid line in each figure satisfy the above equation (4). That is, if α is increased, only information having a stronger co-occurrence relationship can be extracted, and if it is reduced, information having a weaker co-occurrence relationship can be extracted. The setting of this α may be set to 1.5 as an initial value, and may be arbitrarily changed by the user.

【0020】次に、本発明は、共起ネットワーク生成ス
テップを実行し、自立語からそれに対する共起単語への
リンクの設定および共起ネットワークの生成を行う。す
なわち、強い共起関係にある自立語群が持つ意味的な繋
がりを自立語wからそれに対する共起単語cへのリ
ンクによって表現し、前述の共起確率P(c/w
をリンクの表示形態に反映して共起関係の強さを示すこ
とにより、文書の主題を可視的に表す共起ネットワーク
を生成して表示する。この共起ネットワークは、例え
ば、主題示唆自立語群選定ステップで選定された自立語
群の各自立語を表す文字列と、これらの共起関係にある
自立語それぞれを表す文字列の間を視覚的に結ぶ共起線
とをCRT等の画面上で形成することができる。
Next, the present invention executes a co-occurrence network generation step to set a link from an independent word to a co-occurrence word for it and generate a co-occurrence network. That is, the semantic connection of the independent word groups having a strong co-occurrence relation is expressed by a link from the independent word w i to the co-occurrence word c j corresponding thereto, and the above-mentioned co-occurrence probability P (c j / w i ).
Is reflected in the display form of the link to indicate the strength of the co-occurrence relationship, and a co-occurrence network visually representing the subject of the document is generated and displayed. This co-occurrence network visually detects, for example, a character string representing each independent word in the independent word group selected in the subject suggestive independent word group selection step and a character string representing each independent word in these co-occurrence relationships. The co-occurrence line that connects the two can be formed on a screen such as a CRT.

【0021】共起線は、例えば、ある自立語とそれに対
する共起単語の共起確率の大きさによってその線種、
色、濃淡、向き、長さ、又は太さが決定される線もしく
は矢印を例示できる。さらに、共起確率の大きさを、三
次元表現によって視覚的に区別できるようにしてもよ
い。
The co-occurrence line is, for example, the line type depending on the magnitude of the co-occurrence probability of a certain independent word and the co-occurrence word corresponding thereto
A line or arrow whose color, shade, direction, length, or thickness is determined can be exemplified. Further, the magnitude of the co-occurrence probability may be visually distinguishable by a three-dimensional expression.

【0022】ここで、生成された共起ネットワークの実
例を図6に示す。このような共起ネットワークは、CR
T画面またはプリンタ等の出力装置によって表示して可
視化することができ、文書の主題の把握が可視的に容易
となっている。
An example of the generated co-occurrence network is shown in FIG. Such co-occurrence network is CR
It can be displayed and visualized on a T screen or an output device such as a printer, so that the subject of the document can be easily grasped visually.

【0023】ここでは、リンクの表示形態として矢印及
び線を用い、この矢印及び線の太さを共起確率P(c
/w)の強弱によって以下に示すような3段階に分け
ている。
Here, an arrow and a line are used as the display form of the link, and the thickness of the arrow and the line is used as the co-occurrence probability P (c j
/ W i ) is divided into the following three levels depending on the strength.

【0024】[0024]

【表1】 このような表は、テーブル形式(たとえばレベルテーブ
ル)として電子計算機の記憶装置上に保持していてもよ
い。
[Table 1] Such a table may be held in the storage device of the electronic computer in the form of a table (for example, a level table).

【0025】図6における丸付き数字は上記表1のレベ
ルに対応している。同図では自立語「ママ」から、それ
に対する共起単語である「私」へのリンクが最も強いこ
とがわかる。
The circled numbers in FIG. 6 correspond to the levels in Table 1 above. In the figure, it can be seen that the independent word “Mama” has the strongest link to the co-occurrence word “I”.

【0026】このように本発明では、大規模な文法辞書
を構築することなく文書の主題を抽出することができ
る。さらにネットワーク形式で主題を示唆し得る自立語
の意味的な繋がりを可視的に表現できるため、マニュア
ルによる検索、電子計算機による自動検索も極めて効率
的に行うことができる。
As described above, according to the present invention, the subject of a document can be extracted without constructing a large-scale grammar dictionary. Furthermore, because the semantic connection of independent words that can suggest the subject in a network form can be visually expressed, it is possible to perform a manual search and an automatic search by a computer very efficiently.

【0027】加えて、要約作成に必要な文法知識をこの
ネットワーク出力を参照して人間が補ってやることによ
りこのネットワーク出力からさらに主題抽出、要約生成
が可能であり、キーワードのみの情報に較べより詳細な
文章把握が可能となる。
In addition, a person can refer to the network output to supplement the grammatical knowledge necessary for creating the abstract, and the subject can be further extracted and the abstract can be generated from the network output. It is possible to understand detailed sentences.

【0028】さらに本発明では、主題示唆単語の抽出に
際して定数((4)式のα)を可変にしたことから、ユ
ーザの要求に合わせて抽出(表示)するリンクを自由に
増減することができる。そのため、少ない語量で構成さ
れている昔話等の物語から、多数の語葉が存在する技術
文書に至るまで文書の内容を問わずにデータベースの作
成、共起ネットワークの生成が可能である。
Further, in the present invention, since the constant (α in the equation (4)) is made variable in extracting the subject suggestion word, the number of links to be extracted (displayed) can be freely increased or decreased according to the user's request. . Therefore, it is possible to create a database and create a co-occurrence network regardless of the content of a document, from a story such as an old tale composed of a small amount of words to a technical document having many words.

【0029】また、本発明は、ユーザが共起ネットワー
クを参照することにより必要な原文章を判別し、その原
文章を取得するするための操作を容易に行えるようにす
るため、CRT等の表示装置を利用した以下のような方
法を提供する。
Further, according to the present invention, a user can refer to the co-occurrence network to identify a necessary original sentence and easily perform an operation for acquiring the original sentence. The following method using the apparatus is provided.

【0030】すなわち、本発明は、共起ネットワーク生
成ステップにおいて生成された1つあるいは2つ以上の
共起ネットワークを検索し、任意のキーワードを自立語
として含む1つあるいは2つ以上の共起ネットワークを
抽出して画面表示する文書検索ステップと、この文書検
索ステップで画面表示された1つあるいは2つ以上の共
起ネットワークのうちの任意の共起ネットワークに対応
する文書の原文章を読み出して画面表示する原文参照ス
テップとを実行する。
That is, the present invention searches for one or more co-occurrence networks generated in the co-occurrence network generation step, and includes one or more co-occurrence networks containing arbitrary keywords as independent words. A document search step of extracting and displaying on the screen, and reading the original text of a document corresponding to an arbitrary co-occurrence network among the one or more co-occurrence networks displayed on the screen in the document search step and displaying the screen. Perform the text reference step to be displayed.

【0031】文書検索ステップでは、表示装置の画面上
に、キーワードを特定する検索式を入力するための検索
式入力部と、検索実行命令を入力するための検索実行命
令入力部とを表示するようにしてもよい。このとき、ユ
ーザは、キーボード等の入力装置を利用して検索式を入
力して、検索実行命令入力部に検索実行命令を入力す
る。検索式と検索実行命令とが入力されると、文書検索
ステップでは、共起ネットワーク生成ステップで生成さ
れた1つあるいは2つ以上の共起ネットワークを検索
し、前記検索式によって特定されるキーワードを含む共
起ネットワークが抽出される。抽出された共起ネットワ
ークは、CRT等によって画面表示される。
In the document search step, a search formula input unit for inputting a search formula for specifying a keyword and a search execution command input unit for inputting a search execution command are displayed on the screen of the display device. You may At this time, the user uses the input device such as a keyboard to input the search formula and inputs the search execution command to the search execution command input unit. When the search expression and the search execution instruction are input, the document search step searches one or more co-occurrence networks generated in the co-occurrence network generation step, and searches for the keyword specified by the search expression. The containing co-occurrence network is extracted. The extracted co-occurrence network is displayed on the screen by a CRT or the like.

【0032】共起ネットワークを画面表示する際には、
例えば、キーワードと一致する自立語を強調又は他と区
別して表示するようにしてもよい。強調または区別する
方法としては、キーワードとを一致する自立語を他の自
立語とは異なる色、書体、あるいは大きさ等で表示する
方法を例示できる。
When the co-occurrence network is displayed on the screen,
For example, the independent word that matches the keyword may be emphasized or displayed separately from others. As a method of emphasizing or distinguishing, a method of displaying an independent word that matches a keyword with a color, typeface, size, or the like different from other independent words can be exemplified.

【0033】また、原文参照ステップにおいて原文章を
画面表示する場合には、原文章の全部を画面表示する方
法と、原文章の一部を画面表示する方法とがある。原文
章の一部を画面表示する場合には、文書検索ステップに
て入力されたキーワードを含む文又は文字列、あるいは
キーワードを含む文又は文字列とその前後の文又は文字
列を表示するようにしてもよい。このとき、キーワード
のみ、あるいはーワードを含む文を強調して表示するよ
うにしてもよい。強調する方法としては、例えば、キー
ワードのみあるいはキーワードを含む文を網掛け表示す
る方法、反転表示する方法、文字の色、書体、大きさを
他の文字とは異なるようにする方法等を例示できる。
When the original sentence is displayed on the screen in the original sentence reference step, there are a method of displaying the entire original sentence on the screen and a method of displaying a part of the original sentence on the screen. When displaying a part of the original sentence on the screen, display the sentence or character string containing the keyword input in the document search step, or the sentence or character string containing the keyword and the sentence or character string before and after it. May be. At this time, a sentence including only the keyword or the word may be emphasized and displayed. Examples of the method of emphasizing include a method of displaying only a keyword or a sentence including the keyword in a shaded manner, a method of displaying in reverse, a method of making a character color, a typeface, and a size different from other characters. .

【0034】尚、文書検索ステップにて入力されたキー
ワード(第1のキーワード)とは別に、原文参照ステッ
プにて新たなキーワード(第2のキーワード)が入力さ
れた場合には、第2のキーワードを含む文を画面表示す
るようにする。第2のキーワードの指定方法としては、
第2のキーワードの表示座標を位置指定手段によって指
定する方法を例示できる。
When a new keyword (second keyword) is input in the original text reference step in addition to the keyword (first keyword) input in the document search step, the second keyword is input. Display the sentence that contains. As a method of specifying the second keyword,
A method of designating the display coordinates of the second keyword by the position designating means can be exemplified.

【0035】また、原文章の参照を要求する場合には、
その原文章に対応する共起ネットワークの表示座標を位
置指定手段によって指定する方法を例示できる。さら
に、キーワードを含む文が原文章中に複数存在する可能
性があるので、複数ある文のうちの一文を画面表示する
とともに、前記キーワード(検索式)と、キーワードを
含む文が原文章中に幾つあるかを示す数値と、キーワー
ドを含む文のうち現在表示されている文が何番目の文で
あるかを示す数値と、キーワードを含む文のうち現在表
示されている文の前の文の表示命令を入力する前文表示
命令入力部と、キーワードを含む文のうち現在表示され
ている文の次の文の表示命令を入力する次文表示命令入
力部とを画面表示するようにしてもよい。
When requesting the reference of the original text,
A method of designating the display coordinates of the co-occurrence network corresponding to the original sentence by the location designating means can be exemplified. Furthermore, since there is a possibility that there are multiple sentences containing keywords in the original sentence, one sentence of the multiple sentences is displayed on the screen, and the keyword (search formula) and the sentence containing the keyword are included in the original sentence. The number that indicates how many there are, the number that indicates which sentence is the currently displayed sentence in the sentence that includes the keyword, and the number that is before the currently displayed sentence that includes the keyword. A pre-sentence display command input unit for inputting a display command and a next sentence display command input unit for inputting a display command of a sentence next to the currently displayed sentence among the sentences including the keyword may be displayed on the screen. .

【0036】このとき、ユーザは、キーワードを含む文
が原文章中に幾つあるかを示す数値と、キーワードを含
む文のうち現在表示されている文が何番目の文であるか
を示す数値とを参照することによって、現在表示されて
いる文の前あるいは後にも、キーワードを含む文が存在
することを認識することができる。そして、ユーザが前
文表示命令入力部に前文表示命令を入力すれば、キーワ
ードを含む文のうち現在表示されている文の前の文が画
面表示されるとともに、キーワードを含む文のうち現在
表示されている文が何番目の文であるかを示す数値が1
つデクリメントされる。また、ユーザが次文表示命令入
力部に次文表示命令を入力すれば、キーワードを含む文
のうち現在表示されている文の次の文が画面表示される
とともに、キーワードを含む文のうち現在表示されてい
る文が何番目の文であるかを示す数値が1つインクリメ
ントされる。
At this time, the user uses a numerical value indicating how many sentences including the keyword are in the original sentence, and a numerical value indicating the number of the sentence currently displayed among the sentences including the keyword. By referring to, it is possible to recognize that the sentence including the keyword exists before or after the currently displayed sentence. Then, when the user inputs a preamble display command to the preamble display command input unit, the sentence before the currently displayed sentence among the sentences including the keyword is displayed on the screen and the sentence including the keyword is currently displayed. The number that indicates which sentence the current sentence is is 1
Is decremented. If the user inputs a next sentence display command to the next sentence display command input unit, a sentence next to the currently displayed sentence among the sentences including the keyword is displayed on the screen and the current sentence among the sentences including the keyword is displayed. The numerical value indicating the order of the displayed sentence is incremented by one.

【0037】さらに、共起ネットワーク生成ステップに
おいて、生成された共起ネットワークを画面表示する場
合には、期待値に加算される所定の定数を変更する指示
を入力するための定数変更指示入力部を画面表示するよ
うにしてもよい。このとき、定数変更指示入力部に定数
変更指示が入力されると、主題示唆自立語選定ステップ
が再起動されて共起回数と期待値に変更後の定数を加算
した数値とを比較して文書の主題を示唆する自立語を選
定し直す。そして、選定し直された自立語に基づいて共
起ネットワークが作り直されて画面表示される。
Further, in the co-occurrence network generation step, when the generated co-occurrence network is displayed on the screen, a constant change instruction input unit for inputting an instruction to change a predetermined constant added to the expected value is provided. It may be displayed on the screen. At this time, when a constant change instruction is input to the constant change instruction input section, the subject suggestive independent word selection step is restarted, and the number of co-occurrence and the expected value plus the changed constant are compared and the document is compared. Reselect an independent word that suggests the subject of. Then, the co-occurrence network is recreated based on the reselected independent word and displayed on the screen.

【0038】次に、本発明のドキュメントデータベース
表示装置について述べる。ドキュメントデータベース表
示装置は、共起テーブル、共起確率算出手段、共起回数
期待値算出手段、主題示唆自立語群選定手段、共起ネッ
トワーク生成手段、キーワード入力手段、文書検索手
段、共起ネットワーク指定手段、及び原文参照手段を備
える。
Next, the document database display device of the present invention will be described. The document database display device includes a co-occurrence table, a co-occurrence probability calculation unit, a co-occurrence count expected value calculation unit, a subject suggestion independent word group selection unit, a co-occurrence network generation unit, a keyword input unit, a document search unit, a co-occurrence network designation. Means and text reference means.

【0039】共起テーブルは、与えられた文書から抽出
された自立語毎に、各自立語に対する共起単語とその共
起回数とを記録する。共起確率算出手段は、共起テーブ
ルに基づいて共起関係の強さを表わす共起確率を算出す
る。
The co-occurrence table records the co-occurrence word for each independent word and the number of times of co-occurrence for each independent word extracted from a given document. The co-occurrence probability calculating means calculates a co-occurrence probability representing the strength of the co-occurrence relationship based on the co-occurrence table.

【0040】共起回数期待値算出手段は、共起テーブル
に基づいて共起回数の期待値を算出する。主題示唆自立
語群選定手段は、期待値と共起回数とを比較して文書の
主題を示唆する自立語(被共起単語としての自立語と、
共起単語としての自立語)を選定する。
The co-occurrence count expected value calculation means calculates an expected value of the co-occurrence count based on the co-occurrence table. The subject suggesting independent word group selecting means compares the expected value and the number of times of co-occurrence and suggests the subject of the document (an independent word as a co-occurring word,
Select an independent word as a co-occurrence word).

【0041】共起ネットワーク生成手段は、主題示唆自
立語群選定手段によって選定された自立語を表す文字列
と、それらの文字列のうち共起関係にある文字列間を前
記共起確率の大きさに応じた表示形態の共起線によって
結んで共起ネットワークを生成する。
The co-occurrence network generating means sets the magnitude of the co-occurrence probability between a character string representing an independent word selected by the subject suggestive independent word group selecting means and a character string having a co-occurrence relationship among these character strings. A co-occurrence network is created by connecting the co-occurrence lines in a display form corresponding to the size.

【0042】キーワード入力手段は、例えば、キーボー
ドであり、ユーザがキーワードを特定する検索式を入力
する装置である。文書検索手段は、共起ネットワーク生
成手段によって生成された1つあるいは2つ以上の共起
ネットワークを検索し、検索式によって特定されるキー
ワードを含む共起ネットワークを抽出して画面表示す
る。
The keyword input means is, for example, a keyboard, and is a device for a user to input a search expression for specifying a keyword. The document search means searches one or more co-occurrence networks generated by the co-occurrence network generation means, extracts the co-occurrence network including the keyword specified by the search expression, and displays the screen.

【0043】共起ネットワーク指定手段は、文書検索手
段によって画面表示された1つあるいは2つ以上の共起
ネットワークのうちの任意の共起ネットワークを指定す
る。原文参照手段は、共起ネットワーク指定手段によっ
て指定された共起ネットワークに対応する文書の原文章
を読み出し、その原文章の一部あるいは全部を画面表示
する。
The co-occurrence network designating means designates an arbitrary co-occurrence network among one or more co-occurrence networks displayed on the screen by the document searching means. The original text reference means reads out the original text of the document corresponding to the co-occurrence network designated by the co-occurrence network designating means, and displays a part or all of the original text on the screen.

【0044】共起ネットワークの共起線は、共起単語と
被共起単語との共起確率の大きさによってその線種、向
き、色、濃淡、長さ、又は太さが決定される線もしくは
矢印であり、これらの線種、向き、色、濃淡、長さ、又
は太さはユーザによって任意に変更されるようにしても
よい。
The co-occurrence line of the co-occurrence network is a line whose line type, direction, color, shading, length, or thickness is determined by the magnitude of the co-occurrence probability of the co-occurrence word and the co-occurrence word. Alternatively, the line may be an arrow, and the line type, direction, color, shade, length, or thickness may be arbitrarily changed by the user.

【0045】[0045]

【発明の実施の形態】以下、本発明の実施の形態につい
て図面に基づいて説明する。図7は、本発明の処理の概
念図を示したものである。また図11は本発明の処理の
手順をフローで示したものである。
BEST MODE FOR CARRYING OUT THE INVENTION Embodiments of the present invention will be described below with reference to the drawings. FIG. 7 shows a conceptual diagram of the processing of the present invention. FIG. 11 is a flow chart showing the procedure of the process of the present invention.

【0046】本実施の形態の処理は大きく分けて、共起
データベース作成処理(100)と、主題示唆自立語ネ
ットワーク表示処理(200)とからなる。そして、こ
れらの処理を実現するために、16ビット処理好ましく
は32ビット処理以上のCPU、メインメモリ、ハード
ディスク装置等の大容量外部記憶装置、及びCRTまた
はプリンタ等の外部表示・出力装置を備えた電子計算機
システムを用いる。上記の共起データベース作成処理
(100)と主題示唆自立語ネットワーク表示処理(2
00)とは、大容量外部記憶装置より実行プログラムが
CPUに読み込まれて実行される。また、原文章の入力
は予めエディタあるいはワードプロセッサ等のアプリケ
ーションソフトによって入力され、例えばテキストファ
イル形式で大容量外部記憶装置に格納されているものと
する。
The process of this embodiment is roughly divided into a co-occurrence database creation process (100) and a subject suggestive independent word network display process (200). In order to realize these processes, a 16-bit process, preferably 32-bit or more CPU, a main memory, a large-capacity external storage device such as a hard disk device, and an external display / output device such as a CRT or a printer are provided. Use an electronic computer system. The co-occurrence database creation process (100) and the subject suggestion independent word network display process (2)
00) means that the execution program is read from the large-capacity external storage device into the CPU and executed. Further, it is assumed that the input of the original text is input in advance by application software such as an editor or a word processor and is stored in a large-capacity external storage device in a text file format, for example.

【0047】上記の共起データベース作成処理(10
0)と主題示唆自立語ネットワーク表示処理(200)
とは、単一の電子計算機で実現されるようにしてもよ
く、あるいは共起データベース作成処理(100)を実
現する共起データベース作成装置と、主題示唆自立語ネ
ットワーク表示処理(200)を実現する主題示唆自立
語ネットワーク表示装置とに分け、これらの装置を通信
回線で接続して、電子化された文書データや共起データ
ベース等を通信によって送受信できるようにした形態と
してもよい。さらに、共起データベース作成装置と主題
示唆自立語ネットワーク表示装置とのデータの受け渡し
は通信に限られるものでないことは当然であり、例えば
FDやCD−ROM等の記録媒体に記録して受け渡しを
行う方法等を例示することができる。
The co-occurrence database creation process (10)
0) and subject suggestion independent word network display processing (200)
May be realized by a single electronic computer, or a co-occurrence database creating device for realizing the co-occurrence database creating process (100) and a subject suggestive independent word network display process (200). It may be configured such that it is divided into a subject suggestion independent language network display device and these devices are connected by a communication line so that digitized document data, co-occurrence database and the like can be transmitted and received by communication. Further, it goes without saying that the data exchange between the co-occurrence database creation device and the subject suggestion independent word network display device is not limited to communication, and is recorded in a recording medium such as an FD or a CD-ROM for delivery. A method etc. can be illustrated.

【0048】以下、共起データベース作成処理(10
0)、及び主題示唆自立語ネットワーク表示処理(20
0)について述べる。 〈共起データベース作成処理(100)〉共起データベ
ース作成処理(100)は、電子化された文書データか
ら、共起テーブル(TBLn)と、共起確率テーブル
(TBMn)と、期待値テーブル(TBNn)とから構
成される共起データベース(KDB)を作成し、この共
起データベース(KDB)を大容量外部記憶装置(ある
いはメインメモリ)に記録する処理である。この共起デ
ータベース作成処理(100)は、図7に示すように自
立語抽出処理(110)、共起テーブル作成処理(12
0)、共起確率算出処理(130)、及び共起回数期待
値算出処理(140)に分けることができる。
The co-occurrence database creation process (10
0), and subject-independent independent word network display processing (20
0) will be described. <Co-occurrence Database Creation Process (100)> The co-occurrence database creation process (100) uses the co-occurrence table (TBLn), the co-occurrence probability table (TBMn), and the expected value table (TBNn) from the digitized document data. ) And a co-occurrence database (KDB) is created, and the co-occurrence database (KDB) is recorded in a large-capacity external storage device (or main memory). This co-occurrence database creation process (100) includes an independent word extraction process (110) and a co-occurrence table creation process (12) as shown in FIG.
0), the co-occurrence probability calculation process (130), and the co-occurrence count expected value calculation process (140).

【0049】自立語抽出処理は、電子化された文書デー
タから、自立語を抽出し、その文書中の総自立語数と語
量数を算出する。共起テーブル作成処理(120)は、
自立語抽出処理によって抽出された自立語毎に、各自立
語に対する共起単語とその共起回数とを登録する共起テ
ーブル(TBLn)を作成する。
The independent word extraction process extracts independent words from the digitized document data, and calculates the total number of independent words and the number of words in the document. The co-occurrence table creation process (120)
For each independent word extracted by the independent word extraction process, a co-occurrence table (TBLn) that registers the co-occurrence word and the number of times of co-occurrence for each independent word is created.

【0050】共起確率算出処理(130)は、共起テー
ブル(TBLn)に記録された全自立語に対し、各自立
語がそれに対する共起単語と共起する共起確率を算出す
る。尚、1つの自立語に対して複数の共起単語が存在す
る場合には、各共起単語毎に共起確率を算出する。さら
に、共起確率算出処理(130)では、各自立語毎に、
それに対する共起単語と、その共起単語と共起する共起
確率と、を登録する共起確率テーブル(TBMn)を作
成する。
The co-occurrence probability calculation process (130) calculates the co-occurrence probability that each independent word co-occurs with the co-occurrence word for it, for all independent words recorded in the co-occurrence table (TBLn). When there are a plurality of co-occurrence words for one independent word, the co-occurrence probability is calculated for each co-occurrence word. Furthermore, in the co-occurrence probability calculation process (130), for each independent word,
A co-occurrence probability table (TBMn) for registering a co-occurrence word corresponding thereto and a co-occurrence probability co-occurring with the co-occurrence word is created.

【0051】共起回数期待値算出処理(140)は、共
起テーブル(TBLn)に記録された全自立語に対し、
各自立語のそれに対する共起単語と共起する共起回数の
期待値を算出する。尚、1つの自立語に対して複数の共
起単語が存在する場合には、各共起単語毎に共起回数の
期待値を算出する。そして、各自立語毎に、それに対す
る共起単語とその共起単語と共起する共起回数の期待値
とを登録する期待値テーブル(TBNn)を作成する。
The co-occurrence count expected value calculation process (140) is performed for all independent words recorded in the co-occurrence table (TBLn).
The expected value of the number of times of co-occurrence with each co-occurrence word for each independent word is calculated. When there are a plurality of co-occurrence words for one independent word, the expected value of the number of co-occurrence times is calculated for each co-occurrence word. Then, for each independent word, an expected value table (TBNn) is created in which the co-occurrence word for it and the expected value of the number of times of co-occurrence with that co-occurrence word are registered.

【0052】(主題示唆自立語ネットワーク表示処理
(200))主題示唆自立語ネットワーク表示処理(2
00)は、共起データベースに基づいて共起ネットワー
クを作成し、作成された共起ネットワークをCRTやプ
リンタ等の出力装置に出力するとともに、共起ネットワ
ークの原文章を検索して出力装置に出力する処理であ
る。本実施の形態では、出力装置としてCRTを用い
る。
(Subject Suggestion Independent Word Network Display Process (200)) Subject Suggestion Independent Word Network Display Process (2)
00) creates a co-occurrence network based on the co-occurrence database, outputs the created co-occurrence network to an output device such as a CRT or a printer, and retrieves the original text of the co-occurrence network and outputs it to the output device. It is a process to do. In this embodiment, a CRT is used as an output device.

【0053】主題示唆自立語ネットワーク表示処理(2
00)は、図7に示すように、主題示唆自立語群選定処
理(210)、共起ネットワーク生成処理(220)、
文書検索処理(230)、及び原文参照処理(240)
に分けることができる。
Subject suggestion independent word network display processing (2
00), as shown in FIG. 7, subject suggestion independent word group selection processing (210), co-occurrence network generation processing (220),
Document search processing (230) and original text reference processing (240)
Can be divided into

【0054】主題示唆自立語群選定処理(210)は、
大容量外部記憶装置のなかから、ユーザが指定する文書
データに対応した共起データベース(KDB)、すなわ
ち、共起テーブルと共起確率テーブルと期待値テーブル
とを読み出す。そして、全ての自立語について、自立語
とそれに対する共起単語との関係(すなわち、共起回数
期待値と実際の共起回数との関係)が前述の(4)式を
満たす自立語とそれに対する共起単語との組み合わせを
判別し、これらの組み合わせを登録するテーブルを作成
する。通常、(4)式の定数αには、初期値(1.5)
が設定されている。
The subject suggestion independent word group selection process (210)
The co-occurrence database (KDB) corresponding to the document data designated by the user, that is, the co-occurrence table, the co-occurrence probability table, and the expected value table are read from the large-capacity external storage device. Then, for all independent words, the independent words and the relations between the independent words and the co-occurrence words corresponding thereto (that is, the relation between the expected co-occurrence count value and the actual co-occurrence count) satisfy the above equation (4). A combination with a co-occurrence word for is determined, and a table for registering these combinations is created. Normally, the constant α in the equation (4) has an initial value (1.5)
Is set.

【0055】共起ネットワーク生成処理(220)は、
主題示唆自立語群選定処理(210)によって作成され
たテーブルを参照し、各文書に対応ずる共起ネットワー
クを作成する。作成された共起ネットワークはCRTに
画面表示される。この共起ネットワークは、前述の図6
に示すように、自立語を示す文字列と、共起関係にある
自立語を示す文字列間を結ぶ共起線とから構成されてい
る。共起線は、共起関係の強さによってその線種、色、
濃淡、長さ、あるいは太さが異なっている。リンクの線
種、色、濃淡、長さ、あるいは太さを決定する場合、共
起確率テーブルの共起確率を参照し、共起確率の大きさ
に応じてリンクの線種、色、長さ、あるいは太さを決定
する。尚、共起関係の強さを差別化する方法としては、
共起関係にある2つの自立語とこれらの自立語間を結ぶ
共起線を三次元表現によって表示し、共起確率の大きさ
によって三次元表現の表現形式を変更する方法も例示で
きる。さらに、共起線を、共起関係の強さに応じた濃淡
で表す場合、ユーザの選択によって共起関係がある程度
以上強いものだけが実質的にユーザに可視になるように
することもできるし、共起関係がより弱いものまで実質
的にユーザに可視となるようにすることもできる。
The co-occurrence network generation process (220)
A co-occurrence network corresponding to each document is created by referring to the table created by the subject suggestion independent word group selection process (210). The created co-occurrence network is displayed on the CRT screen. This co-occurrence network is shown in FIG.
As shown in, the character string indicating an independent word and the co-occurrence line connecting the character strings indicating the independent words having a co-occurrence relationship are formed. The co-occurrence line has its line type, color, and
The shade, length, or thickness is different. When determining the line type, color, shading, length, or thickness of the link, refer to the co-occurrence probability in the co-occurrence probability table and, depending on the size of the co-occurrence probability, the link line type, color, and length. , Or determine the thickness. In addition, as a method to differentiate the strength of co-occurrence relationship,
It is also possible to exemplify a method in which two independent words having a co-occurrence relationship and a co-occurrence line connecting these independent words are displayed by a three-dimensional expression, and the expression form of the three-dimensional expression is changed according to the magnitude of the co-occurrence probability. Further, when the co-occurrence line is represented by a shade depending on the strength of the co-occurrence relationship, it is possible to make only those having a co-occurrence relationship stronger than a certain degree become substantially visible to the user by the user's selection. , The co-occurrence relationship can be made substantially visible to the user.

【0056】共起ネットワーク生成処理(220)で
は、ユーザによって複数の文書が指定された場合には、
各文書毎に共起ネットワークを生成する。そして、それ
らの共起ネットワークを画面上に表示する際には、一画
面上に並べて表示する全文書表示と、一画面上に重ねて
表示する1文書ずつ表示とを、ユーザが選択できるよう
になっている。また、(4)式の定数αの値を変更して
主題示唆自立語群を選定し直し、共起ネットワークの表
現レベル(共起レベル)を変更することも可能である。
In the co-occurrence network generation processing (220), when a plurality of documents are designated by the user,
A co-occurrence network is generated for each document. When displaying these co-occurrence networks on the screen, the user can select to display all documents displayed side by side on one screen or display one document at a time on one screen. Has become. It is also possible to change the expression level (co-occurrence level) of the co-occurrence network by changing the value of the constant α in the expression (4) and reselecting the subject suggestive independent word group.

【0057】文書検索処理(230)は、ユーザが例え
ばキーボード等からキーワードを入力したときに、共起
ネットワーク生成処理(220)で生成された1つある
いは2つ以上の共起ネットワークを検索して、ユーザが
入力したキーワードを含む共起ネットワークを抽出す
る。ここで、キーワードを含む共起ネットワークが複数
存在する場合には、それらの共起ネットワークは、ユー
ザの選択によって全文書表示あるいは1文書ずつ表示さ
れる。
The document search process (230) searches one or more co-occurrence networks generated by the co-occurrence network generation process (220) when the user inputs a keyword from a keyboard or the like. , The co-occurrence network including the keyword input by the user is extracted. Here, when there are a plurality of co-occurrence networks including a keyword, those co-occurrence networks are displayed as all documents or one document at a time, as selected by the user.

【0058】原文参照処理(240)は、大容量記憶装
置の文書データの中から、ユーザが指定する文書の原文
章を読み出し、画面表示する。原文章を指定する手順と
しては、文書検索処理(230)によって画面表示され
た1つあるいは2つ以上の共起ネットワークのうち、ユ
ーザが希望する文書の共起ネットワークの表示座標を位
置指定手段によって指定すればよい。位置指定手段は、
例えば、マウス等のポインティングデバイスである。
尚、ユーザが、原文章の指定を行う前に、共起ネットワ
ーク上の一又は二以上の任意の自立語の表示位置をポイ
ンティングデバイスによって指定すれば、その自立語が
本発明の第2のキーワードとして認識される。そして、
原文章を表示する際には、原文章の中から、第2のキー
ワードを含む文とその前後の文とがピックアップされて
表示される。このとき、第2のキーワード、あるいは第
2のキーワードを含む文は、網掛け表示や反転表示等の
方法によって強調または区別される。さらに、キーワー
ドを含む文が原文章中に複数存在する場合には、ユーザ
の指定により、キーワードを含む文のうち現在表示され
ている文の前の部分又は文へスクロールまたはジャンプ
したり、次の部分又は文へスクロールまたはジャンプし
たりすることができるようになっている。
In the original text reference process (240), the original text of the document designated by the user is read out from the document data of the mass storage device and displayed on the screen. As a procedure for designating the original sentence, the display coordinates of the co-occurrence network of the document desired by the user among the one or more co-occurrence networks displayed on the screen by the document retrieval processing (230) are designated by the position designating means. You can specify it. The position specification means
For example, it is a pointing device such as a mouse.
If the user specifies the display position of one or more arbitrary independent words on the co-occurrence network with a pointing device before the original sentence is specified, the independent word is the second keyword of the present invention. Is recognized as And
When displaying the original sentence, the sentence including the second keyword and the sentences before and after the sentence are picked up and displayed from the original sentence. At this time, the second keyword or the sentence including the second keyword is emphasized or distinguished by a method such as hatching display or reverse display. Furthermore, if there are multiple sentences containing the keyword in the original sentence, the user can specify to scroll or jump to the previous portion or sentence of the sentence currently containing the keyword, or You can scroll or jump to parts or sentences.

【0059】以下、本実施の形態の作用について述べ
る。先ず、アンデルセン童話の「人魚姫」を例に上げて
共起データベース作成処理(100)の流れについて述
べる。
The operation of this embodiment will be described below. First, the flow of the co-occurrence database creation process (100) will be described taking the "Mermaid Princess" of the Andersen fairy tale as an example.

【0060】「人魚姫」の文書は、エディタまたはワー
ドプロセッサによってテキスト入力され、文書データと
して大容量外部記憶装置に格納される。この「人魚姫」
の総文数は687であり、これらの文を入力文1,2,
3・・・687とする。
The text of "Mermaid Princess" is text-input by an editor or a word processor and is stored in the large-capacity external storage device as document data. This "Mermaid Princess"
The total number of sentences is 687, and these sentences are input sentences 1, 2,
3 ... 687.

【0061】共起データベース作成処理(100)で
は、自立語抽出処理が実行されて、文1〜文Ns(ここ
ではNs=687)を順次読み出し、各文に対して自立
語wの抽出が行われる。この自立語抽出処理は、具体
的にはCPUが大容量外部記憶装置上に設定された自立
語・付属語辞書(DIC)を参照しながら行われる。こ
の自立語・付属語辞書(DIC)には、自立語の語幹及
び活用や、自立語に付随する可能性のある付属語の接続
情報等が格納されている。さらに、自立語・付属語辞書
(DIC)には、本発明の自立語の対象から除外される
自立語、例えば、接続詞、連体詞、副詞、形式名詞、及
び接頭尾辞等の品詞からなる自立語のように文書の主題
となる可能性が低い自立語も格納されている。
In the co-occurrence database creation process (100), the independent word extraction process is executed to sequentially read sentences 1 to Ns (here, Ns = 687), and the independent word w i is extracted for each sentence. Done. This independent word extraction processing is specifically performed while the CPU refers to the independent word / adjunct word dictionary (DIC) set on the large-capacity external storage device. This independent word / adjunct word dictionary (DIC) stores the stem and utilization of independent words, connection information of auxiliary words that may accompany the independent words, and the like. Further, in the independent word / adjunct word dictionary (DIC), an independent word excluded from the subject of the independent word of the present invention, for example, an independent word composed of a conjunction, a conjunction, an adverb, a formal noun, and a part of speech such as a prefix. Independent words that are unlikely to be the subject of the document are also stored.

【0062】このようにして、自立語の抽出処理が行わ
れた結果、文書「人魚姫」からは、「人魚」、「姫」、
「王子」、「キス」、「する」および「若い」等の単語
が自立語wとして抽出された。
In this way, as a result of the independent word extraction processing, the document "mermaid", "mermaid", "princess",
Words such as “prince”, “kiss”, “do” and “young” were extracted as independent words w i .

【0063】続いて、共起テーブル作成処理(120)
が実行され、自立語抽出処理(110)によって抽出さ
れた自立語wの各々について、その共起単語cとそ
の共起回数M(c/w)が算出される。そして、各
自立語w毎に、共起単語cとその共起回数M(c
/w)とを登録する共起テーブル(TBL1)が生成
される。ここで、共起テーブル(TBL1)の具体例を
図8に示す。
Next, the co-occurrence table creation process (120)
Is executed, the co-occurrence word c j and the co-occurrence number M (c j / w i ) are calculated for each of the independent words w i extracted by the independent word extraction process (110). Then, for each independent word w i , the co-occurrence word c j and its co-occurrence count M (c j
/ W i) and co-occurrence table for registering (TBL1) is generated. Here, a specific example of the co-occurrence table (TBL1) is shown in FIG.

【0064】同図に示すように、たとえば自立語「人
魚」とそれに対する共起単語「姫」が文書中で共起した
回数は47回であり、一方、自立語「姫」とそれに対す
る共起単語「人魚」が文書中で共起した回数は50回で
ある。このようにして作成された共起テーブル(TBL
1)は、大容量外部記憶装置に格納される。
As shown in the figure, for example, the independent word "mermaid" and its co-occurrence word "hime" co-occur in the document 47 times, while the independent word "hime" and its co-occurrence word co-occur. The occurrence word "mermaid" co-occurs in the document 50 times. The co-occurrence table (TBL created in this way
1) is stored in a large capacity external storage device.

【0065】次に、共起確率算出処理(130)が実行
され、共起テーブル(TBL1)に登録された共起回数
M(c/w)に基づいて共起確率P(c/w
が算出される。共起確率P(c/w)の算出は前述
の(1)式に基づいて計算される。例えば、自立語「人
魚」の文書中での出現数Nwiは74回である。したが
って、自立語「人魚」がそれに対する共起単語「姫」と
共起する共起確率P(c/w)は、下記のようにな
る。
Next, the co-occurrence probability calculation process (130) is executed, and the co-occurrence probability P (c j / w) is based on the co-occurrence number M (c j / w i ) registered in the co-occurrence table (TBL1). w i )
Is calculated. The co-occurrence probability P (c j / w i ) is calculated based on the above-mentioned equation (1). For example, the number of occurrences N wi of the independent word “mermaid” in the document is 74 times. Therefore, the co-occurrence probability P (c j / w i ) that the independent word “mermaid” co-occurs with the co-occurrence word “princess” is as follows.

【0066】P(c/w)=M(c/w)/N
wi=47/74=0.635135 算出された共起確率P(c/w)は、自立語w
びそれに対する共起単語cとともに、共起確率テーブ
ル(TBMn)に登録される。
P (c j / w i ) = M (c j / w i ) / N
wi = 47/74 = 0.635135 The calculated co-occurrence probability P (c j / w i ) is registered in the co-occurrence probability table (TBMn) together with the independent word w i and the corresponding co-occurrence word c j. .

【0067】図9では、共起確率P(c/w)が共
起テーブル(TBL1)と同一形式の共起確率テーブル
(TBMn)に登録されているが、算出された共起確率
P(c/w)を、共起テーブル(TBL1)と一定
の関係付けを持たせて大容量外部記憶装置等に格納して
おいてもよい。また、単一のテーブルに、後述の共起回
数期待値E(c/w)とともに格納するようにして
もよい。さらに、単一のテーブルに共起回数M(c
)と共起確率P(c/w)と後述の共起回数期
待値E(c/w)とを関係付けて格納してもよい。
In FIG. 9, the co-occurrence probability P (c j / w i ) is registered in the co-occurrence probability table (TBMn) of the same format as the co-occurrence table (TBL1). (C j / w i ) may be stored in a large-capacity external storage device or the like with a certain relation with the co-occurrence table (TBL1). Further, it may be stored in a single table together with an expected value E (c j / w i ) of the number of times of co-occurrence described later. Furthermore, the co-occurrence count M (c j /
w i ), the co-occurrence probability P (c j / w i ) and the co-occurrence count expected value E (c j / w i ) described later may be stored in association with each other.

【0068】次に、共起回数期待値算出処理(140)
が実行され、前述の(2)式に基づいて共起回数期待値
E(c/w)が算出される。この結果、自立語「人
魚」がそれに対する共起単語「姫」と共起する共起回数
期待値E(c/w)は16.575816となる。
以上のようにして算出された共起回数期待値E(c
)は、自立語w及びそれに対する共起単語c
ともに期待値テーブル(TBNn)に登録され、この期
待値テーブル(TBNn)は大容量外部装置の共起デー
タベースKDBに格納される。
Next, the co-occurrence count expected value calculation process (140)
Is executed, and the expected value E (c j / w i ) of the number of times of co-occurrence is calculated based on the above equation (2). As a result, the co-occurrence count expected value E (c j / w i ) at which the independent word “mermaid” co-occurs with the co-occurrence word “princess” becomes 16.575816.
Expected value E (c j / co-occurrence number) calculated as described above
w i ) is registered in the expected value table (TBNn) together with the independent word w j and the co-occurrence word c j corresponding thereto, and this expected value table (TBNn) is stored in the co-occurrence database KDB of the large capacity external device.

【0069】以上の処理を通じて共起データベース(K
DB)の作成処理が完了する。図7では共起テーブル
(TBL1、2、・・・n)と、共起確率P(c/w
)を登録する共起確率テーブル(TBM1、2、・・
・n)と、共起回数期待値E(c/w)を登録する
期待値テーブル(TBN1、2、・・・n)とが共起デ
ータベース(KDB)を構成している。
Through the above processing, the co-occurrence database (K
DB) creation processing is completed. In FIG. 7, the co-occurrence table (TBL1, 2, ... N) and the co-occurrence probability P (c j / w)
i )) co-occurrence probability table (TBM1, 2, ...
N) and the expected value table (TBN1, 2, ..., N) that registers the expected number of co-occurrence values E (c j / w i ) form a co-occurrence database (KDB).

【0070】続いて、主題示唆自立語ネットワーク表示
処理(200)の流れについて述べる。主題示唆自立語
ネットワーク表示処理(200)では、先ず主題示唆自
立語群選定処理(210)が実行される。この主題示唆
自立語群選定処理(210)では、大容量外部記憶装置
の共起データベース群の中から、ユーザが指定する文書
(たとえばここでは童話「人魚姫」)に対応する共起デ
ータベースが読み出される。そして、図11に示すよう
に、全自立語wと全共起単語cのそれぞれについて
前述の(4)式が吟味される。なおここでは定数αにつ
いて初期値として1.5が設定されている。
Next, the flow of the subject suggestive independent word network display processing (200) will be described. In the subject suggestion independent word network display process (200), first, a subject suggestion independent word group selection process (210) is executed. In the subject suggestion independent word group selection processing (210), the co-occurrence database corresponding to the document designated by the user (for example, the fairy tale "Mermaid Princess" in this case) is read from the co-occurrence database group of the large-capacity external storage device. Be done. Then, as shown in FIG. 11, the above equation (4) is examined for each of all independent words w i and all co-occurrence words c j . In addition, here, 1.5 is set as an initial value for the constant α.

【0071】そして、前述の(4)式を満たした自立語
とそれに対する共起単語cとの組み合わせを登録
するテーブルを作成する。次に、共起ネットワーク生成
処理(220)が実行される。この共起ネットワーク生
成処理(220)では、主題示唆自立語群選定処理(2
10)にて作成されたテーブルから自立語wとそれに
対する共起単語cとの組み合わせを読み出し、自立語
からそれに対する共起単語cへ向かうリンクを大
容量外部記憶装置に格納されている表示モジュールに引
き渡す。表示モジュールは、自立語wを表す文字列、
それに対する共起単語cを表す文字列、及び自立語w
とそれに対する共起単語cとの間を結ぶ共起線から
なる共起ネットワークを画面上に形成する。このとき、
前述の表1に示したレベルテーブル(大容量外部記憶装
置上に格納)に基づいて共起線の太さを決定する。尚、
共起関係の強さは、自立語wとそれに対する共起単語
とを結ぶ線の太さではなく、線種、色、濃淡、長
さ、あるいは三次元表示によって区別するようにしても
よい。
Then, a table for registering the combination of the independent word w i satisfying the above-mentioned expression (4) and the co-occurrence word c j for it is created. Next, the co-occurrence network generation process (220) is executed. In this co-occurrence network generation process (220), the subject suggestion independent word group selection process (2
The combination of the independent word w i and the corresponding co-occurrence word c j is read from the table created in 10), and the link from the independent word w i to the corresponding co-occurrence word c j is stored in the large-capacity external storage device. Is passed to the display module that has been created. The display module is a character string representing the independent word w i ,
A character string representing the co-occurrence word c j , and an independent word w
A co-occurrence network consisting of co-occurrence lines connecting i and the co-occurrence word c j corresponding thereto is formed on the screen. At this time,
The thickness of the co-occurrence line is determined based on the level table (stored in the large-capacity external storage device) shown in Table 1 above. still,
The strength of the co-occurrence relation is determined not by the thickness of the line connecting the independent word w i and the corresponding co-occurrence word c j , but by the line type, color, shade, length, or three-dimensional display. Good.

【0072】また、CRTあるいはプリンタ等から出力
された共起ネットワークを参照したユーザが共起レベル
を変更することもできる。この場合、前述の式(4)の
定数αの値が変更されることになるため、主題示唆自立
語群選定処理(210)及び共起ネットワーク生成処理
(220)が再度実行される。主題示唆自立語群選定処
理(210)では、定数αの値を変更した式(4)を満
たず自立語wとそれに対する共起単語cとの組み合
わせが選定され、これらの組み合わせを登録したテーブ
ルが再作成される。そして、共起ネットワーク生成処理
(220)では、再作成されたテーブルに基づいて新た
な共起ネットワークが作成され、CRTに出力される。
A user who refers to the co-occurrence network output from a CRT or a printer can change the co-occurrence level. In this case, the value of the constant α in the above equation (4) is changed, so the subject suggestive independent word group selection process (210) and the co-occurrence network generation process (220) are executed again. In the subject suggestion independent word group selection process (210), combinations of the independent word w i and the co-occurrence word c j corresponding thereto that do not satisfy the expression (4) in which the value of the constant α is changed are selected, and these combinations are registered. The created table is recreated. Then, in the co-occurrence network generation process (220), a new co-occurrence network is created based on the recreated table and is output to the CRT.

【0073】これらの主題示唆自立語群選定処理(21
0)と共起ネットワーク生成処理(220)とは、ユー
ザが複数の文書を選択した場合には、選択された全ての
文書について実行される。これにより作成された複数の
共起ネットワークは、1画面上に同時に表示されるよう
にしてもよく、あるいは1画面上に1つの共起ネットワ
ークのみを表示して画面切替や頁切替等によって各々の
共起ネットワークが表示されるようにしてもよい。
These subject suggestion independent word group selection processing (21
0) and the co-occurrence network generation process (220) are executed for all the selected documents when the user selects a plurality of documents. A plurality of co-occurrence networks created by this may be displayed on one screen at the same time, or only one co-occurrence network may be displayed on one screen and each screen may be switched by screen switching or page switching. The co-occurrence network may be displayed.

【0074】文書検索処理(230)は、ユーザがキー
ボード等の入力装置から任意のキーワード(自立語)を
入力すると、入力されたキーワードと各文書の共起ネッ
トワークに含まれている自立語とが比較され、入力され
たキーワードと一致する自立語を含む共起ネットワーク
が抽出される。抽出された共起ネットワークは、CRT
に画面表示される。このとき、共起ネットワーク上で
は、ユーザが入力したキーワードと一致する自立語が強
調または他の自立語と区別されるように表示される。例
えば、キーワードと一致する自立語の表示色、大きさ、
書体等を他の自立語と異なるようにしたり、その自立語
を網掛け表示、反転表示、もしくは四角く囲んだりす
る。
In the document search process (230), when the user inputs an arbitrary keyword (independent word) from an input device such as a keyboard, the input keyword and the independent word included in the co-occurrence network of each document are displayed. The co-occurrence networks including the independent words that are compared and match the input keyword are extracted. The extracted co-occurrence network is a CRT
Is displayed on the screen. At this time, on the co-occurrence network, the independent word that matches the keyword input by the user is displayed so as to be emphasized or distinguished from other independent words. For example, the display color and size of an independent word that matches a keyword,
The typeface is made different from other independent words, and the independent words are shaded, highlighted, or surrounded by a square.

【0075】尚、キーワードは複数入力することができ
るようになっているため、複数のキーワードが入力され
た場合には全てのキーワードを含む共起ネットワークが
判別されることになる。
Since a plurality of keywords can be input, when a plurality of keywords are input, the co-occurrence network including all the keywords is determined.

【0076】以上のような処理によって、ユーザはCR
Tやプリンタ等に出力された共起ネットワークを参照す
れば、各文書の主題を可視的に把握することができる。
そして、ユーザは、原文章を参照したい文書を選択す
る。文書の選択は、画面上で、ユーザが希望する文書の
共起ネットワークの表示座標を位置指定手段としてのマ
ウスによってダブルクリックする。これにより、原文参
照処理(240)が実行され、マウスによって指定され
た表示座標の共起ネットワークを判別し、この共起ネッ
トワークに対応する文書の原文章を大容量外部記憶装置
から読み出す。そして、読み出された原文章の中から、
ユーザが入力したキーワードを含む文とその前後の文と
がピックアップされてCRTに画面表示される。
By the above processing, the user can
By referring to the co-occurrence network output to T or a printer, the subject of each document can be visually recognized.
Then, the user selects a document for which the original sentence is desired to be referenced. To select a document, the user double-clicks on the screen the display coordinates of the co-occurrence network of the document desired by the user with a mouse as a position designation means. Thereby, the original sentence reference process (240) is executed, the co-occurrence network of the display coordinates designated by the mouse is discriminated, and the original sentence of the document corresponding to this co-occurrence network is read from the large capacity external storage device. And from the read original text,
The sentence including the keyword input by the user and the sentences before and after the sentence are picked up and displayed on the CRT.

【0077】次に、主題示唆自立語ネットワーク表示処
理(200)を、CRT及び大容量外部記憶装置として
のハードディスク装置を備えた電子計算機で実現した場
合の操作手順について図13〜図31に沿って説明す
る。
Next, the operation procedure when the subject suggestive independent word network display processing (200) is realized by an electronic computer equipped with a CRT and a hard disk device as a large-capacity external storage device will be described with reference to FIGS. 13 to 31. explain.

【0078】図13は、主題示唆自立語ネットワーク表
示処理(200)を起動したときにCRTに表示される
初期画面である。この初期画面には、メニューバー「フ
ァイル」、「表示」、及び「ヘルプ」が設けられてい
る。ユーザは、これらのメニューバーの中から「ファイ
ル」を選択する。メニューバー「ファイル」が選択され
ると、図14に示すように、「ファイル」のプルダウン
メニューが表示される。このプルダウンメニューには、
「新規作成」と「開く」と「アプリケーションの終了」
とが設定されている。「新規作成」は、新たに文書を読
み込むとき、すなわち新たな文書の共起ネットワークを
作成ずるときに選択するものである。「開く」は既に読
み込み済みの文書あるいはその文書の共起ネットワーク
を表示するときに選択する。また、「アプリケーション
の終了」は主題示唆自立語ネットワーク表示処理(20
0)を終了する場合に選択する。
FIG. 13 is an initial screen displayed on the CRT when the subject suggestive independent word network display processing (200) is started. This initial screen is provided with a menu bar "File", "Display", and "Help". The user selects "File" from these menu bars. When the menu bar “file” is selected, a pull-down menu of “file” is displayed as shown in FIG. In this pull-down menu,
"New", "Open" and "Exit"
And are set. "New creation" is selected when a new document is read, that is, when a co-occurrence network of a new document is created. "Open" is selected when displaying the already read document or the co-occurrence network of the document. "End of application" is the subject suggestion independent word network display process (20
Select to end 0).

【0079】ユーザが上記プルダウンメニューの中から
「新規作成」を選択すると、図15に示すような「新規
作成」のダイアログボックスが表示される。このダイア
ログボックスには、ハードディスク装置内で文書ファイ
ルが格納されている場所「bunsyo」(既定値)
と、その文書ファイルに格納されている文書の数「4」
とが表示される。さらに、ダイアログボックスには、
「全文書表示」ボタン、「1文書ずつ表示」ボタン、
「キャンセル」ボタンが設定されている。「全文書表
示」ボタンは、複数の共起ネットワークを1画面上に並
べて表示する場合に選択するボタンであり、「1文書ず
つ表示」ボタンは複数の共起ネットワークを1画面上に
重ねて表示する表示する場合に選択するボタンである。
「キャンセル」ボタンは新規作成処理を終了する場合に
選択するボタンである。
When the user selects "New" from the pull-down menu, the "New" dialog box as shown in FIG. 15 is displayed. In this dialog box, the location where the document file is stored in the hard disk device "bunsyo" (default)
And the number of documents stored in the document file "4"
And are displayed. In addition, the dialog box
"Display all documents" button, "Display one document at a time" button,
"Cancel" button is set. The "Display all documents" button is a button to select when displaying multiple co-occurrence networks side by side on one screen, and the "Display one document at a time" button displays multiple co-occurrence networks on one screen in an overlapping manner. This is the button to select when displaying.
The "Cancel" button is a button to be selected when ending the new creation process.

【0080】「全文書表示」ボタンの表示座標がポイン
ティングデバイスによって指定されると、主題示唆自立
語ネットワーク表示処理(200)の主題示唆自立語群
選定処理(210)と共起ネットワーク生成処理(22
0)とが実行されて、文書ファイル内の各文書について
共起ネットワークが作成される。そして、作成された共
起ネットワークは、図16に示すように1画面上に並べ
られて表示される。この画面上では、メニューバー「フ
ァイル」、「表示」、「ヘルプ」に加えて、「編集」と
「ウィンドウ」とが追加される。
When the display coordinates of the "display all documents" button is designated by the pointing device, the subject suggestion independent word group selection process (210) and the co-occurrence network generation process (22) of the subject suggestion independent word network display process (200).
0) and are executed to create a co-occurrence network for each document in the document file. Then, the created co-occurrence networks are displayed side by side on one screen as shown in FIG. On this screen, "Edit" and "Window" are added in addition to the menu files "File", "Display" and "Help".

【0081】ここで、ユーザがメニューバー「編集」を
選択すると、図17に示すようにプルダウンメニュー
「検索」が表示される。続いて、ユーザがプルダウンメ
ニュー「検索」を選択すると、図18に示すように「検
索」のダイアログボックスが表示される。このダイアロ
グボックスは、検索文字列(自立語)を入力する領域
(図面上では3語まで入力可能)と、「検索実行」ボタ
ンと、「キャンセル」ボタンとが設けられている。検索
文字列は、キーボード等の入力装置から入力される(図
19参照)。検索文字列の入力が終了すると、ユーザは
「検索実行」ボタンを選択する。
Here, when the user selects "Edit" from the menu bar, a pull-down menu "Search" is displayed as shown in FIG. Subsequently, when the user selects the "search" pull-down menu, the "search" dialog box is displayed as shown in FIG. This dialog box is provided with an area for inputting a search character string (independent word) (up to 3 words can be input in the drawing), a "search execution" button, and a "cancel" button. The search character string is input from an input device such as a keyboard (see FIG. 19). When the input of the search character string is completed, the user selects the "search execution" button.

【0082】「検索実行」ボタンが選択されると、主題
示唆自立語ネットワーク表示処理(200)では、文書
検索処理(230)が実行されて入力された全ての検索
文字列を含む共起ネットワークが抽出される。そして、
抽出された共起ネットワーク上において検索文字列と一
致する自立語wは、他の自立語とは異なる色、大き
さ、書体等、異なる形式で表示される(図19では、四
角い囲みを表示)。これにより、ユーザは、各文書の主
題を可視的に把握することができ、原文章を参照したい
文書の選択を容易に行うことができる。
When the "search execution" button is selected, in the subject suggestion independent word network display processing (200), the document search processing (230) is executed and a co-occurrence network including all the input search character strings is displayed. To be extracted. And
On the extracted co-occurrence network, the independent word w i that matches the search character string is displayed in a different format, such as a color, size, typeface, etc., different from other independent words (in FIG. 19, a boxed box is displayed. ). As a result, the user can visually understand the subject of each document, and can easily select the document for which the original sentence is desired to be referred to.

【0083】ユーザが原文章を参照する場合には、その
原文章に対応する共起ネットワークの表示座標、あるい
は共起ネットワークの表示ウィンドウの表示座標をマウ
スでダブルクリックする。この操作によって、画面上に
は、図20に示すような原文章のダイアログボックスが
表示される。このダイアログボックス内には、選択され
た共起ネットワークに対応する文書の原文章の一部が表
示される。この原文章の一部は、原文章中で検索文字列
を含む文のうち、最も早く登場する文とその前後の文と
を表示しており、検索文字列を含む文は網掛け表示され
る。
When the user refers to the original sentence, the user double-clicks the display coordinate of the co-occurrence network or the display coordinate of the display window of the co-occurrence network corresponding to the original sentence. By this operation, a dialog box of the original sentence as shown in FIG. 20 is displayed on the screen. In this dialog box, a part of the original sentence of the document corresponding to the selected co-occurrence network is displayed. A part of this original sentence displays the sentence that appears earliest and the sentences before and after it among the sentences that include the search character string in the original sentence, and the sentence that includes the search character string is shaded. .

【0084】さらに、ダイアログボックスには、文書検
索処理時に入力したキーワードとしての検索文字列と、
これらの検索文字列を含む文が原文章中に幾つ含まれて
いるかを示す数値及び現在表示されている文が検索文字
列を含む文のうち何番目の文であるかを示す数値(図2
0中、件数)と、「前」ボタンと、「次」ボタンと、
「OK」ボタンとが表示されている。
Further, in the dialog box, a search character string as a keyword input at the time of document search processing,
A numerical value indicating how many sentences including these search character strings are included in the original sentence and a numerical value indicating which sentence among the sentences including the search character string the currently displayed sentence (see FIG. 2).
0, number of cases), "Previous" button, "Next" button,
An "OK" button is displayed.

【0085】「前」ボタンは、検索文字列を含む文のう
ち、現在表示されている文の前の文を参照する場合に選
択されるボタンである。この「前」ボタンの表示座標が
ポインティングデバイスによって指定されると、表示画
面は、検索文字列を含む文のうち、現在表示されている
文の前の文へスクロールまたはジャンプする。
The "previous" button is a button selected when referring to the sentence before the currently displayed sentence among the sentences including the search character string. When the display coordinates of the "previous" button are designated by the pointing device, the display screen scrolls or jumps to the sentence before the currently displayed sentence among the sentences including the search character string.

【0086】「次」ボタンは、検索文字列を含む文のう
ち、現在表示されている文の次の文を参照する場合に選
択されるボタンである。この「次」ボタンの表示座標が
ポインティングによって指定されると、表示画面は、検
索文字列を含む文のうち、現在表示されている文の次の
文へスクロールまたはジャンプする。
The "next" button is a button selected when referring to the sentence next to the currently displayed sentence among the sentences including the search character string. When the display coordinates of the "next" button are designated by pointing, the display screen scrolls or jumps to the sentence next to the currently displayed sentence among the sentences including the search character string.

【0087】尚、「前」ボタンもしくは「次」ボタンに
よって表示画面がスクロールされた場合も、検索文字列
を含む文は網掛け表示される。「OK」ボタンは、ダイ
アログボックスを閉じる場合に選択するボタンである。
Even when the display screen is scrolled by the "previous" button or the "next" button, the sentence including the search character string is displayed in a shaded manner. The “OK” button is a button selected when closing the dialog box.

【0088】このような手順を各文書について行えば、
全ての文書の原文章を参照することができる。これによ
り、ユーザは必要な文書と不必要な文書とを判別するこ
とができる。
If such a procedure is performed for each document,
You can refer to the original text of all documents. As a result, the user can distinguish the necessary document from the unnecessary document.

【0089】図21は、文書4を保存あるいは廃棄した
後の画面を示している。本実施の形態では、文書4が保
存あるいは廃棄されると、その文書4に対応する共起ネ
ットワークの表示ウィンドウが画面上から削除される。
FIG. 21 shows a screen after the document 4 is saved or discarded. In this embodiment, when the document 4 is saved or discarded, the display window of the co-occurrence network corresponding to the document 4 is deleted from the screen.

【0090】前述の図15に示す画面において、ユーザ
が「1文書ずつ表示」ボタンを選択すると、図22に示
すように、各共起ネットワークの表示ウィンドウが重な
り、あたかも1画面上に1つの共起ネットワークのみが
表示されているようになる。この画面上では、メニュー
バー「ファイル」、「表示」、「ヘルプ」に加えて、
「編集」と「ウィンドウ」とが追加される。
When the user selects the "Display 1 document at a time" button on the screen shown in FIG. 15 described above, the display windows of the co-occurrence networks overlap as shown in FIG. Only the originating network is displayed. On this screen, in addition to the menu bar "File", "View", "Help",
"Edit" and "window" are added.

【0091】ここで、文書検索処理(230)を実行す
るには、前述の「全文書表示」の場合と同様に、メニュ
ーバー「編集」を選択してプルダウンメニューを読み出
し、このプルダウンメニューのなかから「検索」を選択
する。「検索」が選択されると、図23に示すように
「検索」のダイアログボックスが表示される。このダイ
アログボックスの構成は、「全文書表示」の場合と同様
である。
Here, in order to execute the document search process (230), as in the case of "display all documents" described above, the menu bar "Edit" is selected and the pull-down menu is read out. Select "Search" from. When "Search" is selected, a "Search" dialog box is displayed as shown in FIG. The configuration of this dialog box is the same as in the case of "display all documents".

【0092】キーボードによってキーワードとしての検
索文字列が入力された後に、「検索実行」ボタンの表示
座標がポインティングデバイスによって指定されると、
入力された全ての検索文字列を含む共起ネットワークが
抽出され、その共起ネットワークの表示ウィンドウが最
前面へ移動させられる。この時点で検索処理は、一旦中
断される(図24参照)。
When the display coordinates of the "search execution" button are specified by the pointing device after the search character string as the keyword is input by the keyboard,
The co-occurrence network including all the input search strings is extracted, and the display window of the co-occurrence network is moved to the foreground. At this point, the search process is temporarily interrupted (see FIG. 24).

【0093】最前面に移動させられた共起ネットワーク
では、検索文字列と一致する自立語が共起ネットワーク
中の他の自立語とは異なる色や書体等、異なる形式で表
示される(図24中、四角い囲みを表示)。
In the co-occurrence network moved to the foreground, the independent word that matches the search character string is displayed in a different format, such as a different color and typeface, from the other independent words in the co-occurrence network (FIG. 24). Display the square box inside).

【0094】再度、「検索実行」ボタンの表示座標がポ
インティングデバイスによって指定されると、検索処理
が再開される。そして、該当する共起ネットワークが見
つかると、その共起ネットワークの表示ウィンドウが先
に表示されていた共起ネットワークの表示ウィンドウに
代わって、最前面に移動させられる(図25、26参
照)。
When the display coordinates of the "search execution" button are designated again by the pointing device, the search process is restarted. When the corresponding co-occurrence network is found, the display window of the co-occurrence network is moved to the foreground instead of the display window of the co-occurrence network previously displayed (see FIGS. 25 and 26).

【0095】また、最前面の共起ネットワークに対応す
る文書の原文章を参照する場合には、文書検索処理で入
力されたキーワード(第1のキーワード)とは別のキー
ワード(第2のキーワード)を入力して原文章を参照す
る手順と、第2のキーワードを入力せずに原文章を参照
する手順とがある。
Further, when referring to the original sentence of the document corresponding to the foreground co-occurrence network, a keyword (second keyword) different from the keyword (first keyword) input in the document search processing is used. And a procedure for referring to the original sentence and a procedure for referring to the original sentence without inputting the second keyword.

【0096】先ず、第2のキーワードを選択せずに原文
章を参照する手順は、例えば図27に示す共起ネットワ
ークに対応する原文章を参照する場合に、共起ネットワ
ークの表示座標をマウスによってダブルクリックする。
これにより、画面上には原文章のダイアログボックスが
表示される。表示される原文章は、第1のキーワードを
含む文とその文の前後の文である。
First, the procedure for referring to the original sentence without selecting the second keyword is, for example, when referring to the original sentence corresponding to the co-occurrence network shown in FIG. Double click
As a result, the original text dialog box is displayed on the screen. The displayed original sentence is a sentence including the first keyword and sentences before and after the sentence.

【0097】第2のキーワードを選択してから原文章を
参照する手順は、例えば前述の図27に示す共起ネット
ワーク上で希望の自立語の表示座標をマウスによってク
リックする。このとき、図示していないが、選択された
自立語は、他の自立語とは異なる形式で表示される。次
に、共起ネットワークの表示座標(共起ネットワークの
表示ウィンドウの表示座標)がマウスによってダブルク
リックされると、図28に示すように、原文章のダイア
ログボックスが表示される。このダイアログボックス内
には、原文章のうち、第2のキーワードを含む文とその
前後の文とが表示される。このうち第2のキーワードを
含む文は網掛け表示される。
The procedure for selecting the second keyword and referring to the original sentence is, for example, by clicking the display coordinates of the desired independent word on the co-occurrence network shown in FIG. 27 with the mouse. At this time, although not shown, the selected independent word is displayed in a format different from other independent words. Next, when the display coordinates of the co-occurrence network (display coordinates of the display window of the co-occurrence network) are double-clicked with the mouse, a dialog box of the original sentence is displayed as shown in FIG. In this dialog box, among the original sentences, the sentence containing the second keyword and the sentences before and after it are displayed. Of these, the sentence including the second keyword is shaded.

【0098】さらに、ダイアログボックスには、第2の
キーワードとして選択された自立語の文字列と、第2の
キーワードを含む文が原文書中に幾つ含まれているかを
示す数値及び現在表示されている文が原文章中の検索文
字列を含む文のうち何番目の文であるかを示す数値と、
「前」ボタンと、「次」ボタンと、「OK」ボタンとが
表示されている。「前」ボタン、「次」ボタン、及び
「OK」ボタンの各機能は「全文書表示」の場合と同様
である。
Further, in the dialog box, the character string of the independent word selected as the second keyword, the numerical value indicating how many sentences including the second keyword are included in the original document, and the current display are displayed. A numerical value indicating the number of the sentence in which the existing sentence includes the search character string in the original sentence,
A "previous" button, a "next" button, and an "OK" button are displayed. The respective functions of the "previous" button, the "next" button, and the "OK" button are the same as in the case of "display all documents".

【0099】最前面に位置する共起ネットワークに対応
する文書が廃棄されると、その共起ネットワークの表示
ウィンドウが消去されて、次に位置する共起ネットワー
クの表示ウィンドウが最前面に移動させられる。
When the document corresponding to the co-occurrence network located in the foreground is discarded, the display window of the co-occurrence network is erased and the display window of the next co-occurrence network is moved to the foreground. .

【0100】次に、共起ネットワークの表現レベル(共
起レベル)を変更する手順について述べる。「全文書表
示」と「1文書ずつ表示」の何れの場合にも、共起ネッ
トワークの表示ウィンドウには、「+」ボタンと「−」
ボタンが設けられており、何れか一方のボタンの表示座
標がポインティングデバイスによって指定されると、表
現レベルが変更される。例えば、図29のように共起ネ
ットワークを重ねて表示した場合において、表現レベル
を上げる(共起レベルを下げる)には、ユーザは、
「+」ボタンの表示座標をポインティングデバイスによ
って指定する。「+」ボタンの表示座標が指定される
と、主題示唆自立語ネットワーク表示処理(200)の
主題示唆自立語群選定処理(210)と共起ネットワー
ク生成処理(220)が再度実行される。主題示唆自立
語群選定処理(210)では、(4)式の定数αの値を
小さくし、定数αの値が小さくなった(4)式を満たす
自立語wとそれに対する共起単語cの組み合わせを
選定する。そして、共起ネットワーク生成処理(22
0)では、新たに選定された自立語wとそれに対する
共起単語cとの組み合わせてに基づいて共起ネットワ
ークを作り直す。作り直された共起ネットワークは、C
RTに表示される(図30参照)。
Next, a procedure for changing the expression level (co-occurrence level) of the co-occurrence network will be described. In both cases of "display all documents" and "display one document at a time", "+" button and "-" are displayed in the display window of the co-occurrence network.
Buttons are provided, and when the display coordinates of one of the buttons is designated by the pointing device, the expression level is changed. For example, in the case where the co-occurrence networks are overlapped and displayed as shown in FIG. 29, the user must increase the expression level (decrease the co-occurrence level) by
The display coordinates of the "+" button are specified by the pointing device. When the display coordinates of the "+" button are designated, the subject suggestion independent word group selection process (210) and the co-occurrence network generation process (220) of the subject suggestion independent word network display process (200) are executed again. In the subject suggestive independent word group selection process (210), the value of the constant α in the expression (4) is reduced, and the independent word w i and the co-occurrence word c corresponding thereto satisfying the expression (4) in which the value of the constant α is decreased. Select the combination of j . Then, the co-occurrence network generation process (22
In 0), the co-occurrence network is recreated based on the combination of the newly selected independent word w i and the corresponding co-occurrence word c j . The recreated co-occurrence network is C
It is displayed on the RT (see FIG. 30).

【0101】一方、表現レベルを下げる(共起レベルを
上げる)には、ユーザは、「−」ボタンの表示座標をポ
インティングデバイスによって指定する。「−」ボタン
の表示座標が指定されると、主題示唆自立語ネットワー
ク表示処理(200)の主題示唆自立語群選定処理(2
10)と共起ネットワーク生成処理(220)が再度実
行される。主題示唆自立語群選定処理(210)では、
(4)式の定数αの値を大きくし、定数αの値が大きく
なった(4)式を満たす自立語wとそれに対する共起
単語cの組み合わせを選定する。そして、共起ネット
ワーク生成処理(220)では、新たに選定された自立
語wとそれに対する共起単語cとの組み合わせに基
づいて共起ネットワークを作り直す。作り直された共起
ネットワークは、CRTに表示される(図31参照)。
On the other hand, in order to lower the expression level (raise the co-occurrence level), the user specifies the display coordinates of the "-" button with the pointing device. When the display coordinates of the "-" button are designated, the subject suggestion independent word group selection process (2) of the subject suggestion independent word network display process (200).
10) and the co-occurrence network generation process (220) are executed again. In the subject suggestion independent word group selection process (210),
The value of the constant α in the equation (4) is increased, and a combination of the independent word w i and the co-occurrence word c j corresponding thereto that satisfy the equation (4) in which the value of the constant α is increased is selected. Then, in the co-occurrence network generation processing (220), the co-occurrence network is re-created based on the combination of the newly selected independent word w i and the co-occurrence word c j corresponding thereto. The recreated co-occurrence network is displayed on the CRT (see FIG. 31).

【0102】以上、本実施の形態によれば、ユーザは、
原文章を読まなくとも各文書の主題を可視的に把握する
ことができる。また、各文書の主題を把握するために行
う操作も簡略である。
As described above, according to this embodiment, the user is
You can visually understand the subject of each document without reading the original text. Also, the operation performed to understand the subject of each document is simple.

【0103】尚、共起ネットワークの表現方法として
は、図32に示すように、自立語間の共起関係の強弱
を、自立語間を結ぶ直線の線種によって差別化するよう
にしてもよい。同図では、共起線は、太い実線、細い実
線、及び点線の三種類に区別されている。線種の決定方
法としては、予め3つの定数A、B、C(A>B>C)
を決めておき、前述の(4)式を満たし且つ差分(左辺
一右辺)が定数Aより大きい共起関係にある自立語間を
太い実線で結び、前述の(4)式を満たし且つ差分が定
数B以上であるとともに定数A以下の共起関係にある自
立語間を細い実線で結び、前述の(4)式を満たし且つ
差分が定数C未満の共起関係にある自立語間を点線で結
ぶ方法を例示できる。各自立語を結ぶ共起線の線種は、
「+」ボタン及び「−」ボタンによって表現レベル(共
起レベル)が変更されると、この変更に応じて変更され
ることになる。
As a method of expressing the co-occurrence network, as shown in FIG. 32, the strength of the co-occurrence relation between the independent words may be differentiated by the line type of the straight line connecting the independent words. . In the figure, the co-occurrence lines are classified into three types: thick solid lines, thin solid lines, and dotted lines. As a method of determining the line type, three constants A, B, and C (A>B> C) are preset.
Is established, and the independent words having the co-occurrence relationship in which the difference (left-side and right-side) is larger than the constant A are satisfied by a thick solid line, and the above-mentioned (4) is satisfied and the difference is The independent words having a co-occurrence relation that is equal to or greater than the constant B and is equal to or less than the constant A are connected by a thin solid line. A method of tying can be exemplified. The linetype of the co-occurrence line connecting each independent word is
When the expression level (co-occurrence level) is changed by the "+" button and the "-" button, it is changed in accordance with this change.

【0104】さらに、共起ネットワークの表現方法とし
て、図33から図36に示すように、自立語間の共起関
係の強弱を、自立語及び共起線のグラデーション(濃
淡)によって差別化する方法を例示できる。この場合、
共起ネットワーク生成処理では、予め表現レベルが高い
(共起レベルが弱い)共起ネットワーク(図33参照)
を生成しておく。生成する際には、共起関係にある自立
語間の共起レベルもその大きさに応じて数段階に分類し
ておく。例えば、共起レベルを三段階に分類する場合に
は、予め3つの定数A、B、C(A>B>C)を決めて
おき、(条件1)前述の(4)式を満たし且つ差分(左
辺−右辺)が定数Aより大きい共起関係にある自立語
間、(条件2)前述の(4)式を満たし且つ差分が定数
B以上であるとともに定数A以下の共起関係にある自立
語間、(条件3)前述の(4)式を満たし且つ差分が定
数C未満の共起関係にある自立語間の3つに分類する。
そして、共起ネットワークを画面表示する際には、例え
ば、図34に示すように、上記の(条件1)を満たす自
立語と共起線のみを表示する。図34の画面では、グラ
デーションの濃い部分(図中「髪」と「毛」、「透き」
と「通った」)のみがユーザの可視レベルに達している
ものとする。
Further, as a co-occurrence network expression method, as shown in FIGS. 33 to 36, the strength of the co-occurrence relationship between independent words is differentiated by the gradation (shading) of independent words and co-occurring lines. Can be illustrated. in this case,
In the co-occurrence network generation process, a co-occurrence network with a high expression level (weak co-occurrence level) is generated beforehand (see FIG. 33).
Is generated. At the time of generation, the co-occurrence levels between independent words that have a co-occurrence relationship are also classified into several levels according to their size. For example, when classifying co-occurrence levels into three levels, three constants A, B, and C (A>B> C) are determined in advance, and (condition 1) the above-mentioned expression (4) is satisfied and the difference is Between independent words having a co-occurrence relationship in which (left side-right side) is larger than a constant A, (condition 2) self-supporting relationship in which the above expression (4) is satisfied and the difference is a constant B or more and a constant A or less. Words are classified into (condition 3) three independent word terms that satisfy the above-mentioned expression (4) and have a difference of less than a constant C in a co-occurrence relationship.
Then, when the co-occurrence network is displayed on the screen, for example, as shown in FIG. 34, only the independent word and the co-occurrence line satisfying the above (condition 1) are displayed. In the screen of Fig. 34, the part with a dark gradation ("hair" and "hair", "transparent" in the figure)
And "passed") have reached the user's visible level.

【0105】ユーザが、画面上の「+」ボタン、あるい
は「−」ボタンを選択すると、グラデーションが変更さ
れる。例えば、画面上の「+」ボタンが選択されると、
図3語に示すように、上記の(条件2)を満たす自立語
と共起線との色が徐々に濃くなっていき、最終的には図
36に示すように(条件1)を満たす自立語及び共起線
と同じ濃さになる。このとき、ユーザには、(条件1)
を満たす自立語及び共起線に加え、(条件2)を満たす
自立語及び共起線が見えることになる。
When the user selects the "+" button or "-" button on the screen, the gradation is changed. For example, if the "+" button on the screen is selected,
As shown in FIG. 3, the color of the independent word that satisfies the above (condition 2) and the co-occurrence line gradually darken, and finally, as shown in FIG. 36, the independence that satisfies (condition 1) It is as thick as words and co-occurrence lines. At this time, the user has (condition 1)
In addition to the independent words and co-occurrence lines that satisfy (Condition 2), independent words and co-occurrence lines that satisfy (Condition 2) are visible.

【0106】また、上記の(条件1)を満たす自立語及
び共起線と、(条件2)を満たす自立語及び共起線が画
面表示されているときに、画面上の「−」ボタンが選択
されると、(条件2)を満たす自立語及び共起線の色が
徐々にうすくなっていき、最終的には人間の視力では捉
えられないレベルまでうすくなる。このとき、ユーザに
は、(条件1)を満たす自立語及び共起線のみが見える
ことになる。
When the independent word and co-occurrence line satisfying the above (condition 1) and the independent word and co-occurrence line satisfying the above (condition 2) are displayed on the screen, the "-" button on the screen is pressed. When selected, the colors of the independent words and the co-occurrence lines that satisfy (Condition 2) gradually become lighter, and finally become thinner to a level that cannot be recognized by human eyesight. At this time, the user can see only the independent word and the co-occurrence line that satisfy (Condition 1).

【0107】共起線の線種、グラデーションの他にも、
共起線や自立語の色、あるいは三次元表現等によって差
別化する方法でも構わない。 〈他の実施の形態〉本発明を共起データベース作成装置
と主題示唆自立語ネットワーク表示装置とで実現する場
合には、共起データベース作成装置をサーバ側に配置
し、主題示唆自立語ネットワーク表示装置をクライアン
ト側に配置し、これらの装置間を通信回線で接続する方
法が考えられる。この方法を採用する場合には、共起デ
ータベース作成装置にて主題示唆自立語群選定処理と共
起ネットワーク生成処理とを行い、予め共起ネットワー
クを生成しておくことが好ましい。そして、主題示唆自
立語ネットワーク表示装置から共起データベース作成装
置に対して、任意のキーワードを含む共起ネットワーク
の送信要求が送信される。共起データベース作成装置
は、予め作成しておいた共起ネットワーク群を検索して
任意のキーワードを含む共起ネットワークを抽出して、
主題示唆自立語ネットワーク表示装置へ送信する。
In addition to the line types of co-occurrence lines and gradation,
A method of differentiating by the color of co-occurrence line, independent word, or three-dimensional expression may be used. <Other Embodiments> When the present invention is implemented by a co-occurrence database creation device and a subject suggestion independent word network display device, the co-occurrence database creation device is arranged on the server side and the subject suggestion independent word network display device is provided. It is conceivable to arrange the client on the client side and connect these devices with a communication line. When this method is adopted, it is preferable that the co-occurrence database generation device performs the subject suggestive independent word group selection process and the co-occurrence network generation process to generate the co-occurrence network in advance. Then, the subject suggestive independent word network display device transmits a co-occurrence network transmission request including an arbitrary keyword to the co-occurrence database creation device. The co-occurrence database creation device searches a co-occurrence network group created in advance to extract a co-occurrence network including an arbitrary keyword,
Sending to the suggestion of independent subject network display device.

【0108】主題示唆自立語ネットワーク表示装置は、
共起データベース作成装置からの共起データベースを受
信すると、その共起データベースをCRT等の表示装置
によって画面表示する。
The subject suggestion independent language network display device is
When the co-occurrence database is received from the co-occurrence database creating device, the co-occurrence database is displayed on the screen by a display device such as a CRT.

【0109】画面上の共起ネットワークを参照したユー
ザが原文章の参照要求(共起ネットワークの表示座標を
位置指定手段によって指定)を入力すると、主題示唆自
立語ネットワーク表示装置は、ユーザが指定した共起ネ
ットワークの識別情報を共起データベース作成装置へ送
信する。
When the user referring to the co-occurrence network on the screen inputs a reference request for the original sentence (the display coordinates of the co-occurrence network is designated by the position designating means), the subject suggestive independent word network display device is designated by the user. The identification information of the co-occurrence network is transmitted to the co-occurrence database creation device.

【0110】共起データベース作成装置は、主題示唆自
立語ネットワーク表示装置からの識別情報を受信する
と、識別情報によって特定される共起ネットワークに対
応する文書の原文章を読み出し、主題示唆自立語ネット
ワーク表示装置へ送信する。
Upon receiving the identification information from the subject suggestive independent word network display device, the co-occurrence database creating device reads out the original sentence of the document corresponding to the co-occurrence network identified by the identifying information and displays the subject suggestive independent word network. Send to the device.

【0111】原文章を受信した主題示唆自立語ネットワ
ーク表示装置では、前述の実施の形態と同様の手順によ
って原文章の画面表示を行う。尚、この方法を採用する
場合には、共起ネットワークを参照したユーザが表現レ
ベルの変更を希望したときに、共起データベース作成装
置にて共起ネットワークを作り直し、作り直した共起ネ
ットワークを再度主題示唆自立語ネットワーク表示装置
へ送信しなおしてもよいが、共起データベース作成装置
で予め表現レベルの高い共起ネットワークを作成しでお
くとともに、共起ネットワークの各自立語間の共起線に
レベル識別子を設定しておくようにしてもよい。ここで
いうレベル識別子は、各自立語間の共起関係の強さを識
別する情報である。
In the subject suggestive independent word network display device that has received the original sentence, the original sentence is displayed on the screen by the same procedure as in the above-described embodiment. When this method is adopted, when a user who refers to the co-occurrence network desires to change the expression level, the co-occurrence database is recreated by the co-occurrence database creation device, and the re-created co-occurrence network is re-subjected to the subject. Although it may be sent again to the suggestion independent word network display device, a co-occurrence network with a high expression level should be created in advance with the co-occurrence database creation device, and the level of the co-occurrence line between each independent word in the co-occurrence network should be You may make it set an identifier. The level identifier mentioned here is information for identifying the strength of the co-occurrence relationship between the independent words.

【0112】例えば、共起関係の強さを三段階のレベル
に分類する場合には、予め3つの定数A、B、C(A>
B>C)を決めておき、(条件1)前述の(3)式(も
しくは(4)式)を満たし且つ差分(左辺−右辺)が定
数Aより大きい共起関係にある自立語間、(条件2)前
述の(3)式(もしくは(4)式)を満たし且つ差分が
定数B以上であるとともに定数A以下の共起関係にある
自立語間、(条件3)前述の(3)式(もしくは(4)
式)を満たし且つ差分が定数C未満の共起関係にある自
立語間の3つに分類する。
For example, when classifying the strength of the co-occurrence relationship into three levels, three constants A, B, C (A>
B> C), (condition 1) the above-mentioned (3) (or (4)) is satisfied, and the difference (left side-right side) is a co-occurrence relation larger than the constant A, between independent words, ( Condition 2) Between independent words satisfying the above-mentioned expression (3) (or expression (4)) and having a difference of not less than a constant B and having a constant A or less, (condition 3) the above-mentioned expression (3) (Or (4)
(3) and the difference is less than the constant C and is classified into three independent words having a co-occurrence relationship.

【0113】そして、上記条件1を満たす自立語間には
レベル識別子“1”を、上記条件2を満たす自立語間に
はレベル識別子“2”を、上記条件3を満たす自立語間
にはレベル識別子“3”を付加する。
A level identifier "1" is given between independent words that satisfy the above condition 1, a level identifier "2" is given between independent words that satisfy the above condition 2, and a level identifier is given between independent words that satisfy the above condition 3. The identifier “3” is added.

【0114】共起ネットワーク作成装置は、レベル識別
子が付加された共起ネットワークを大容量記憶装置に記
憶しておく。そして、主題示唆自立語ネットワーク表示
装置から共起ネットワーク作成装置に対して、任意のキ
ーワードを含む共起ネットワークの送信要求が送信され
ると、共起ネットワーク作成装置は、大容量記憶装置に
記憶された共起ネットワークを検索し、任意のキーワー
ドを含む共起ネットワークとそのレベル識別子とを抽出
する。そして、共起ネットワーク作成装置は、共起ネッ
トワークとともにレベル識別子を主題示唆自立語ネット
ワーク表示装置へ送信する。
The co-occurrence network creation device stores the co-occurrence network to which the level identifier is added in the mass storage device. Then, when a co-occurrence network transmission request including an arbitrary keyword is transmitted from the subject suggestive independent word network display device to the co-occurrence network creation device, the co-occurrence network creation device is stored in the mass storage device. Then, the co-occurrence network including the arbitrary keyword and its level identifier are extracted. Then, the co-occurrence network creation device transmits the level identifier together with the co-occurrence network to the subject suggestion independent word network display device.

【0115】主題示唆自立語ネットワーク表示装置は、
先ず、レベル識別子“1”が付加された自立語間と、レ
ベル識別子“2”が付加された自立語間とを画面表示す
る。そして、ユーザが表現レベルを上げる(共起レベル
を下げる)ことを指定した場合には、主題示唆自立語ネ
ットワーク表示装置は、レベル識別子“1”が付加され
た自立語間と、レベル識別子“2”が付加された自立語
間と、レベル識別子“3”が付加された自立語間とを画
面表示する。
The theme suggestive independent word network display device is
First, the space between independent words to which the level identifier “1” is added and the space between independent words to which the level identifier “2” is added are displayed on the screen. Then, when the user specifies to increase the expression level (decrease the co-occurrence level), the subject suggestive independent word network display device displays between the independent words to which the level identifier “1” is added and the level identifier “2”. The space between the independent words to which "" is added and the space between the independent words to which the level identifier "3" is added are displayed on the screen.

【0116】一方、ユーザが表現レベルを下げる(共起
レベルを上げる)ことを指定した場合には、主題示唆自
立語ネットワーク表示装置は、レベル識別子“1”が付
加された自立語間のみを画面表示する。
On the other hand, when the user designates to lower the expression level (increase the co-occurrence level), the subject suggestive independent word network display device screens only the independent words to which the level identifier "1" is added. indicate.

【0117】[0117]

【発明の効果】本発明によれば、共起関係を利用して単
語間の意味的な繋がりを示すことにより、オペレータに
とって可視的な文書主題の把握が可能となる。
According to the present invention, the co-occurrence relationship is used to show the semantic connection between words, so that the operator can visually understand the document subject.

【0118】また、リンクを増減できる定数を設けたこ
とにより、文書の種類を問わずに汎用的なデータベース
の作成、共起ネットワークの抽出が可能である。
By providing a constant for increasing or decreasing the number of links, it is possible to create a general-purpose database and extract a co-occurrence network regardless of the type of document.

【図面の簡単な説明】[Brief description of drawings]

【図1】 共起テーブルの具体例を示す説明図FIG. 1 is an explanatory diagram showing a specific example of a co-occurrence table.

【図2】 共起テーブルの具体例を示す説明図FIG. 2 is an explanatory diagram showing a specific example of a co-occurrence table.

【図3】 共起回数M(c/w)とその期待値E
(c/w)との関係をα=1.5において示したグ
ラフ図
[FIG. 3] Co-occurrence count M (c j / w i ) and its expected value E
Graph diagram showing the relationship with (c j / w i ) at α = 1.5

【図4】 共起回数M(c/w)とその期待値E
(c/w)との関係をα=2.5において示したグ
ラフ図
FIG. 4 is the co-occurrence count M (c j / w i ) and its expected value E
Graph diagram showing the relationship with (c j / w i ) at α = 2.5

【図5】 共起回数M(c/w)とその期待値E
(c/w)との関係をα=0.5において示したグ
ラフ図
FIG. 5: Co-occurrence count M (c j / w i ) and its expected value E
Graph showing the relationship with (c j / w i ) at α = 0.5

【図6】 共起ネットワークの表現形態の一例を示す説
明図
FIG. 6 is an explanatory diagram showing an example of an expression form of a co-occurrence network.

【図7】 本発明の処理の概念を示すブロック図FIG. 7 is a block diagram showing the concept of processing of the present invention.

【図8】 実施の形態における共起テーブルを示す説明
FIG. 8 is an explanatory diagram showing a co-occurrence table according to the embodiment.

【図9】 実施の形態における共起確率の算出結果を示
す説明図
FIG. 9 is an explanatory diagram showing a calculation result of a co-occurrence probability according to the embodiment.

【図10】 実施の形態における共起回数期待値の算出
結果を示す説明図
FIG. 10 is an explanatory diagram showing a calculation result of an expected value of the number of times of co-occurrence according to the embodiment.

【図11】 実施の形態の共起データベース作成処理
と、主題示唆自立語ネットワーク表示処理を示すフロー
FIG. 11 is a flowchart showing a co-occurrence database creation process and a subject suggestive independent word network display process according to the embodiment.

【図12】 実施の形態の共起ネットワークの表示例を
示す説明図
FIG. 12 is an explanatory diagram showing a display example of the co-occurrence network according to the embodiment.

【図13】 主題示唆自立語ネットワーク表示処理を実
行したときの初期画面
FIG. 13 is an initial screen when the subject suggestive independent word network display process is executed.

【図14】 主題示唆自立語ネットワーク表示処理を実
行したときの操作画面(1)
FIG. 14 is an operation screen (1) when the subject suggestion independent word network display process is executed.

【図15】 主題示唆自立語ネットワーク表示処理を実
行したときの操作画面(2)
FIG. 15 is an operation screen (2) when the subject suggestive independent word network display process is executed.

【図16】 共起ネットワークの表示画面FIG. 16: Display screen of co-occurrence network

【図17】 文書検索処理の操作画面(1)FIG. 17: Operation screen for document search processing (1)

【図18】 文書検索処理の操作画面(2)FIG. 18: Operation screen for document search processing (2)

【図19】 文書検索処理の操作画面(3)FIG. 19: Operation screen for document search processing (3)

【図20】 原文章の表示画面[Figure 20] Original text display screen

【図21】 原文章を格納あるいは廃棄したのちの共起
ネットワーク表示画面
FIG. 21: Co-occurrence network display screen after storing or discarding the original text

【図22】 共起ネットワークの表示画面FIG. 22: Display screen of co-occurrence network

【図23】 文書検索処理の操作画面(4)FIG. 23: Operation screen for document search processing (4)

【図24】 文書検索処理の操作画面(5)FIG. 24: Operation screen for document search processing (5)

【図25】 文書検索処理の操作画面(6)FIG. 25: Operation screen for document search processing (6)

【図26】 文書検索処理の操作画面(7)FIG. 26: Operation screen for document search processing (7)

【図27】 原文章参照処理の操作画面FIG. 27: Operation screen for original text reference processing

【図28】 原文章の表示画面Fig. 28 Display screen of original text

【図29】 共起ネットワークの表現レベルを変更する
場合の操作画面
[Fig. 29] Operation screen for changing the expression level of the co-occurrence network

【図30】 共起ネットワークの表現レベルを変更した
後の表示画面(1)
FIG. 30: Display screen after changing the co-occurrence network expression level (1)

【図31】 共起ネットワークの表現レベルを変更した
後の表示画面(2)
FIG. 31: Display screen after changing the expression level of the co-occurrence network (2)

【図32】 共起ネットワークの他の表示形式を示す図
(1)
FIG. 32 is a diagram (1) showing another display format of the co-occurrence network.

【図33】 共起ネットワークの他の表示形式を示す図
(2)
FIG. 33 is a diagram (2) showing another display format of the co-occurrence network.

【図34】 共起ネットワークの他の表示形式を示す図
(3)
FIG. 34 is a diagram (3) showing another display format of the co-occurrence network.

【図35】 共起ネットワークの他の表示形式を示す図
(4)
FIG. 35 is a diagram (4) showing another display format of the co-occurrence network.

【図36】 共起ネットワークの他の表示形式を示す図
(5)
FIG. 36 is a diagram (5) showing another display format of the co-occurrence network.

【符号の説明】[Explanation of symbols]

DIC・・自立語・付属語辞書 TBL1〜n・・共起テーブル TBM1〜n・・共起確率テーブル TBN1〜n・・期待値テーブル KDB・・共起データベース 100・・共起データベース作成処理 110・・自立語抽出処理 120・・共起テーブル作成 130・・共起確率算出処理 140・・共起回数期待値算出処理 200・・主題示唆自立語ネットワーク表示処理 210・・主題示唆自立語群選定処理 220・・共起ネットワーク生成処理 230・・文書検索処理 240・・原文参照処理 DIC-independent word-adjunct dictionary TBL1-n-Co-occurrence table TBM1-n-Co-occurrence probability table TBN1-n-Expected value table KDB-Co-occurrence database 100-Co-occurrence database creation process 110-・ Independent word extraction process 120 ・ ・ Co-occurrence table creation 130 ・ ・ Co-occurrence probability calculation process 140 ・ ・ Co-occurrence frequency expected value calculation process 200 ・ ・ Thematic suggestion independent word network display process 210 ・ ・ Thematic suggestion independent word group selection process 220 ... Co-occurrence network generation processing 230 ... Document search processing 240 ... Original text reference processing

─────────────────────────────────────────────────────
─────────────────────────────────────────────────── ───

【手続補正書】[Procedure amendment]

【提出日】平成8年3月13日[Submission date] March 13, 1996

【手続補正1】[Procedure Amendment 1]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0004[Correction target item name] 0004

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【0004】前者は、「一般に、文書中で強調したい事
柄はくり返し述べられるものであり、頻繁に出現する単
語が文書の主題を示す可能性が高い」という理論に基づ
いている。しかし、自立語のなかには、「そして」、
「その」、「この」、「早く」、「(そんな)こと」、
「か(よわい)」、「(つやっ)ぽい」等のように、言
語機能として出現する単語(接続詞、連体詞、副詞、形
式名詞、接頭辞、接尾辞、指示代名詞の一部等)があ
る。このため、単に出現頻度だけで重要単語を決定する
ことはできない。このような言語機能単語を除外した上
で単独で意味をもち、文書の特徴を表わす単語を抽出し
なければならない。そのためにまず、大量の語彙をもつ
重要語リストを予め準備しておいてから文書中の単一語
の出現頻度を計算してキーワードを決定する。このキー
ワードの決定に際しては後述の言語的解析の結果を利用
してもよい。そしてこのキーワード群のうち出現頻度の
高い単語をもとに要約を生成する。
[0004] The former, "in general, what you want to emphasize in the document are those mentioned repeatedly, frequently there is a high possibility that indicate the subject matter of the document words that appear" is based on the theory that. However, in the independent words, "and",
"That", "this", "early", "(such a thing)",
There are words that appear as linguistic functions (connectives, adnominals, adverbs, formal nouns, prefixes, suffixes, part of demonstrative pronouns, etc.) such as "ka (yowai)" and "(tsuyaya) poi". . Therefore, it is not possible to determine the important word only by the appearance frequency. It is necessary to exclude such language function words and extract a word that has a meaning independently and represents a feature of a document. For that purpose, first, an important word list having a large vocabulary is prepared in advance, and then the appearance frequency of a single word in a document is calculated to determine a keyword. In determining this keyword, the result of linguistic analysis described below may be used. Then, a summary is generated based on the words that appear frequently in this keyword group.

【手続補正2】[Procedure Amendment 2]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0013[Correction target item name] 0013

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【0013】図2は、「料理の先生になるために、料理
学校に通っている」という文に基づいて共起テーブルを
作成する例を示している。次に、前記共起テーブルに基
づいて共起関係の強さを表わす共起確率を算出する共起
確率算出ステップが実行される。ここで共起確率とは、
ある自立語wiが出現したとき、iに対する共起単語
cjがwiと共起する確率P(cj/wi)であり、下記
の(1)式により算出可能である。
FIG. 2 shows an example of creating a co-occurrence table based on the sentence "I go to a cooking school to become a cooking teacher." Next, a co-occurrence probability calculating step for calculating a co-occurrence probability representing the strength of the co-occurrence relationship is executed based on the co-occurrence table. Here, the co-occurrence probability is
It is the probability P (cj / wi) that the co-occurrence word cj for w i co-occurs with wi when a certain independent word wi appears, and can be calculated by the following equation (1).

【手続補正3】[Procedure 3]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0032[Name of item to be corrected] 0032

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【0032】共起ネットワークを画面表示する際には、
例えば、キーワードと一致する自立語を強調又は他と区
別して表示するようにしてもよい。強調または区別する
方法としては、キーワードと一致する自立語を他の自立
語とは異なる色、書体、あるいは大きさ等で表示する方
法を例示できる。
When the co-occurrence network is displayed on the screen,
For example, the independent word that matches the keyword may be emphasized or displayed separately from others. The method emphasize or discriminate can illustrate how to display a different color, font, or size, etc. The keywords and match independent words and other independent word.

【手続補正4】[Procedure amendment 4]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0033[Correction target item name] 0033

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【0033】また、原文参照ステップにおいて原文章を
画面表示する場合には、原文章の全部を画面表示する方
法と、原文章の一部を画面表示する方法とがある。原文
章の一部を画面表示する場合には、文書検索ステップに
て入力されたキーワードを含む文又は文字列、あるいは
キーワードを含む文又は文字列とその前後の文又は文字
列を表示するようにしてもよい。このとき、キーワード
のみ、あるいはーワードを含む文を強調して表示する
ようにしてもよい。強調する方法としては、例えば、キ
ーワードのみあるいはキーワードを含む文を網掛け表示
する方法、反転表示する方法、文字の色、書体、大きさ
を他の文字とは異なるようにする方法等を例示できる。
When the original sentence is displayed on the screen in the original sentence reference step, there are a method of displaying the entire original sentence on the screen and a method of displaying a part of the original sentence on the screen. When displaying a part of the original sentence on the screen, display the sentence or character string containing the keyword input in the document search step, or the sentence or character string containing the keyword and the sentence or character string before and after it. May be. At this time, it may be displayed by highlighting the sentence containing only keywords, or keyword. Examples of the method of emphasizing include a method of displaying only a keyword or a sentence including the keyword in a shaded manner, a method of displaying in reverse, a method of making a character color, a typeface, and a size different from other characters. .

【手続補正5】[Procedure Amendment 5]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0035[Correction target item name] 0035

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【0035】また、原文章の参照を要求する場合には、
その原文章に対応する共起ネットワークの表示座標を位
置指定手段によって指定する方法を例示できる。さら
に、キーワードを含む文が原文章中に複数存在する可能
性があるので、複数ある文のうちの一文を画面表示する
とともに、前記キーワード(検索式)と、キーワードを
含む文が原文章中に幾つあるかを示す数値と、キーワー
ドを含む文のうち現在表示されている文が何番目の文で
あるかを示す数値と、キーワードを含む文のうち現在表
示されている文より前の文の表示命令を入力する前文表
示命令入力部と、キーワードを含む文のうち現在表示さ
れている文より後の文の表示命令を入力する次文表示命
令入力部とを画面表示するようにしてもよい。
When requesting the reference of the original text,
A method of designating the display coordinates of the co-occurrence network corresponding to the original sentence by the location designating means can be exemplified. Furthermore, since there is a possibility that there are multiple sentences containing keywords in the original sentence, one sentence of the multiple sentences is displayed on the screen, and the keyword (search formula) and the sentence containing the keyword are included in the original sentence. and a number indicating how many, and the numerical value indicating whether the statements that are currently displayed out of the sentence, including the keyword is what the second sentence, the sentence before the sentence that is currently displayed in one of the statements, including the keyword A pre-sentence display command input unit for inputting a display command and a next sentence display command input unit for inputting a display command of a sentence after the currently displayed sentence including the keyword may be displayed on the screen. .

【手続補正6】[Procedure correction 6]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0036[Correction target item name] 0036

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【0036】このとき、ユーザは、キーワードを含む文
が原文章中に幾つあるかを示す数値と、キーワードを含
む文のうち現在表示されている文が何番目の文であるか
を示す数値とを参照することによって、現在表示されて
いる文の前あるいは後にも、キーワードを含む文が存在
することを認識することができる。そして、ユーザが前
文表示命令入力部に前文表示命令を入力すれば、キーワ
ードを含む文のうち現在表示されている文の前の文が画
面表示されるとともに、キーワードを含む文のうち現在
表示されている文が何番目の文であるかを示す数値が1
つデクリメントされる。また、ユーザが次文表示命令入
力部に次文表示命令を入力すれば、キーワードを含む文
のうち現在表示されている文の次の文が画面表示される
とともに、キーワードを含む文のうち現在表示されてい
る文が何番目の文であるかを示す数値が1つインクリメ
ントされる。
At this time, the user uses a numerical value indicating how many sentences including the keyword are in the original sentence, and a numerical value indicating the number of the sentence currently displayed among the sentences including the keyword. By referring to, it is possible to recognize that the sentence including the keyword exists before or after the currently displayed sentence. Then, when the user inputs a preamble display command to the preamble display command input unit, the sentence before the currently displayed sentence among the sentences including the keyword is displayed on the screen and the sentence including the keyword is currently displayed. The number that indicates which sentence the current sentence is is 1
Is decremented. Further, if the user inputs the next sentence display command to the next sentence display command input unit, with the following statement statement currently displayed among the sentences containing the keywords is displayed on the screen, of the sentence containing the keywords The numerical value indicating the order of the currently displayed sentence is incremented by one.

【手続補正7】[Procedure Amendment 7]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0040[Correction target item name] 0040

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【0040】共起回数期待値算出手段は、共起テーブル
に基づいて共起回数の期待値を算出する。主題示唆自立
語群選定手段は、期待値と共起回数とを比較して文書の
主題を示唆する自立語を選定する。
The co-occurrence count expected value calculation means calculates an expected value of the co-occurrence count based on the co-occurrence table. The subject suggesting independent word group selecting means compares the expected value with the number of times of co-occurrence to select an independent word group suggesting the subject of the document.

【手続補正8】[Procedure Amendment 8]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0041[Correction target item name] 0041

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【0041】共起ネットワーク生成手段は、主題示唆自
立語群選定手段によって選定された自立語群の各自立語
を表す文字列と、それらの文字列のうち共起関係にある
文字列間を前記共起確率の大きさに応じた表示形態の共
起線によって結んで共起ネットワークを生成する。
The co-occurrence network generating means includes a character string representing each independent word of the independent word group selected by the subject suggestive independent word group selecting means, and a character having a co-occurrence relationship among the character strings. A co-occurrence network is generated by connecting the columns with a co-occurrence line having a display form according to the magnitude of the co-occurrence probability.

【手続補正9】[Procedure Amendment 9]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0042[Correction target item name] 0042

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【0042】キーワード入力手段は、例えば、キーボー
ドであり、ユーザがキーワードを特定する検索式を入力
する装置である。文書検索手段は、共起ネットワーク生
成手段によって生成された1つあるいは2つ以上の共起
ネットワークを検索し、検索式によって特定されるキー
ワードを含む1つあるいは2つ以上の共起ネットワーク
を抽出して画面表示する。
The keyword input means is, for example, a keyboard, and is a device for a user to input a search expression for specifying a keyword. The document search means searches the one or more co-occurrence networks generated by the co-occurrence network generation means and extracts one or more co-occurrence networks including the keyword specified by the search expression. To display on the screen.

【手続補正10】[Procedure Amendment 10]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0044[Correction target item name] 0044

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【0044】共起ネットワークの共起線は、共起関係に
ある自立語間の共起確率の大きさによってその線種、向
き、色、濃淡、長さ、又は太さが決定される線もしくは
矢印であり、これらの線種、向き、色、濃淡、長さ、又
は太さはユーザによって任意に変更されるようにしても
よい。
The co-occurrence line of the co- occurrence network is
A line or arrow whose line type, orientation, color, shade, length, or thickness is determined by the magnitude of the co-occurrence probability between certain independent words . These line types, orientation, color, shade, and length The thickness or the thickness may be arbitrarily changed by the user.

【手続補正11】[Procedure Amendment 11]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0049[Correction target item name] 0049

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【0049】自立語抽出処理(110)は、電子化され
た文書データから、自立語を抽出し、その文書中の総自
立語数と語彙数を算出する。共起テーブル作成処理(1
20)は、自立語抽出処理(110)によって抽出され
た自立語毎に、各自立語に対する共起単語とその共起回
数とを登録する共起テーブル(TBLn)を作成する。
The independent word extraction process (110) extracts independent words from the digitized document data and calculates the total number of independent words and the number of vocabularies in the document. Co-occurrence table creation process (1
20) creates a co-occurrence table (TBLn) that registers the co-occurrence word and the number of times of co-occurrence for each independent word, for each independent word extracted by the independent word extraction process (110) .

【手続補正12】[Procedure Amendment 12]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0052[Correction target item name] 0052

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【0052】(主題示唆自立語ネットワーク表示処理
(200))主題示唆自立語ネットワーク表示処理(2
00)は、共起データベース(KDB)に基づいて共起
ネットワークを作成し、作成された共起ネットワークを
CRTやプリンタ等の出力装置に出力するとともに、共
起ネットワークの原文章を検索して出力装置に出力する
処理である。本実施の形態では、出力装置としてCRT
を用いる。
(Subject Suggestion Independent Word Network Display Process (200)) Subject Suggestion Independent Word Network Display Process (2)
00) creates a co-occurrence network based on a co-occurrence database (KDB) , outputs the created co-occurrence network to an output device such as a CRT or a printer, and retrieves and outputs the original text of the co-occurrence network. This is the process of outputting to the device. In this embodiment, a CRT is used as the output device.
To use.

【手続補正13】[Procedure Amendment 13]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0054[Correction target item name] 0054

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【0054】主題示唆自立語群選定処理(210)は、
大容量外部記憶装置のなかから、ユーザが指定する文書
データに対応した共起データベース(KDB)、すなわ
ち、共起テーブル(TBLn)と共起確率テーブル(T
BMn)と期待値テーブル(TBNn)とを読み出す。そ
して、全ての自立語について、自立語とそれに対する共
起単語との関係(すなわち、共起回数期待値と実際の共
起回数との関係)が前述の(4)式を満たす自立語とそ
れに対する共起単語との組み合わせを判別し、これらの
組み合わせを登録するテーブルを作成する。通常、
(4)式の定数αには、初期値(1.5)が設定されて
いる。
The subject suggestion independent word group selection process (210)
The co-occurrence database (KDB) corresponding to the document data designated by the user, that is, the co-occurrence table (TBLn) and the co-occurrence probability table (T
BMn) and the expected value table (TBNn) are read. Then, for all independent words, the independent words and the relations between the independent words and the co-occurrence words corresponding thereto (that is, the relation between the expected co-occurrence count value and the actual co-occurrence count) satisfy the above equation (4). A combination with a co-occurrence word for is determined, and a table for registering these combinations is created. Normal,
An initial value (1.5) is set to the constant α in the equation (4).

【手続補正14】[Procedure Amendment 14]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0061[Correction target item name] 0061

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【0061】共起データベース作成処理(100)で
は、自立語抽出処理(110)が実行されて、文1〜文
Ns(ここではNs=687)を順次読み出し、各文に
対して自立語wiの抽出が行われる。この自立語抽出処
(110)は、具体的にはCPUが大容量外部記憶装
置上に設定された自立語・付属語辞書(DIC)を参照
しながら行われる。この自立語・付属語辞書(DIC)
には、自立語の語幹及び活用や、自立語に付随する可能
性のある付属語の接続情報等が格納されている。さら
に、自立語・付属語辞書(DIC)には、本発明の自立
語の対象から除外される自立語、例えば、接続詞、連体
詞、副詞、形式名詞、及び接頭尾辞等の品詞からなる自
立語のように文書の主題となる可能性が低い自立語も格
納されている。
In the co-occurrence database creation process (100), the independent word extraction process (110) is executed to sequentially read sentences 1 to sentence Ns (here, Ns = 687), and the independent word wi is added to each sentence. Extraction is done. This independent word extraction processing (110) is specifically performed by the CPU referring to the independent word / adjunct word dictionary (DIC) set in the large-capacity external storage device. This independent word / adjunct word dictionary (DIC)
Stores the stem and utilization of an independent word, connection information of an accessory word that may accompany the independent word, and the like. Further, in the independent word / adjunct word dictionary (DIC), an independent word excluded from the subject of the independent word of the present invention, for example, an independent word composed of a conjunction, a conjunction, an adverb, a formal noun, and a part of speech such as a prefix. Independent words that are unlikely to be the subject of the document are also stored.

【手続補正15】[Procedure Amendment 15]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0079[Correction target item name] 0079

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【0079】ユーザが上記プルダウンメニューの中から
「新規作成」を選択すると、図15に示すような「新規
作成」のダイアログボックスが表示される。このダイア
ログボックスには、ハードディスク装置内で文書ファイ
ルが格納されている場所「bunsyo」(既定値)と、その
文書ファイルに格納されている文書の数「4」とが表示
される。さらに、ダイアログボックスには、「全文書表
示」ボタン、「1文書ずつ表示」ボタン、「キャンセ
ル」ボタンが設定されている。「全文書表示」ボタン
は、複数の共起ネットワークを1画面上に並べて表示す
る場合に選択するボタンであり、「1文書ずつ表示」ボ
タンは複数の共起ネットワークを1画面上に重ねて表示
る場合に選択するボタンである。「キャンセル」ボタ
ンは新規作成処理を終了する場合に選択するボタンであ
る。
When the user selects "New" from the pull-down menu, the "New" dialog box as shown in FIG. 15 is displayed. In this dialog box, the location "bunsyo" (default value) where the document file is stored in the hard disk device and the number "4" of documents stored in the document file are displayed. Furthermore, a "display all documents" button, a "display one document at a time" button, and a "cancel" button are set in the dialog box. The "Display all documents" button is a button to select when displaying multiple co-occurrence networks side by side on one screen, and the "Display one document at a time" button displays multiple co-occurrence networks on one screen in an overlapping manner. a button to be selected if you <br/>. The "Cancel" button is a button to be selected when ending the new creation process.

【手続補正16】[Procedure Amendment 16]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0081[Correction target item name] 0081

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【0081】ここで、ユーザがメニューバー「編集」を
選択すると、図17に示すようにプルダウンメニュー
「検索」が表示される。続いて、ユーザがプルダウンメ
ニュー「検索」を選択すると、図18に示すように「検
索」のダイアログボックスが表示される。このダイアロ
グボックスは、検索文字列(自立語)を入力する領域
(図面上では3語まで入力可能)と、「検索実行」ボタ
ンと、「キャンセル」ボタンとが設けられている。検索
文字列は、キーボード等の入力装置から入力される(図
19参照)。検索文字列の入力が終了すると、ユーザは
「検索実行」ボタンを選択する。
Here, when the user selects "Edit" from the menu bar, a pull-down menu "Search" is displayed as shown in FIG. Subsequently, when the user selects the "search" pull-down menu, the "search" dialog box is displayed as shown in FIG. This dialog box is provided with an area for inputting a search character string (independent word) (up to 3 words can be input in the drawing), a "search execution" button, and a "cancel" button. The search character string is input from an input device such as a keyboard (see FIG. 19). When the input of the search character string is completed, the user selects the "search execution" button.

【手続補正17】[Procedure Amendment 17]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0095[Correction target item name] 0095

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【0095】また、最前面の共起ネットワークに対応す
る文書の原文章を参照する場合には、文書検索処理(2
30)で入力されたキーワード(第1のキーワード)と
は別のキーワード(第2のキーワード)を入力して原文
章を参照する手順と、第2のキーワードを入力せずに原
文章を参照する手順とがある。
When referring to the original sentence of the document corresponding to the foremost co-occurrence network, the document search process (2
30) The procedure of referring to the original sentence by inputting a keyword (second keyword) different from the keyword input in (1), and referring to the original sentence without inputting the second keyword. There are procedures.

Claims (16)

【特許請求の範囲】[Claims] 【請求項1】 与えられた文書から自立語を抽出する自
立語抽出ステップと、 前記で抽出された各自立語に対
する共起単語とその共起回数を記録する共起テーブルを
作成する共起テーブル作成ステップと、 前記共起テーブルに基づいて共起関係の強さを表わす共
起確率を算出する共起確率算出ステップと、 前記共起テーブルに基づいて共起回数の期待値を算出す
る共起回数期待値算出ステップと、 前記期待値と前記共起回数とを比較して文書の主題を示
唆し得る共起関係にある自立語群を選定する主題示唆自
立語群選定ステップと、 前記で選定された主題を示唆する共起関係にある自立語
間にリンクを設定するとともに、リンクの表現形式を前
記共起確率に基づいて決定した共起ネットワークとして
表示する共起ネットワーク生成ステップとを含むドキュ
メントデータベースの構築方法。
1. A co-occurrence table for creating a co-occurrence table for recording a co-occurrence word and a co-occurrence number of the co-occurrence word for each of the extracted independent words, the independent word extraction step of extracting an independent word from a given document. A co-occurrence probability calculating step of calculating a co-occurrence probability representing the strength of a co-occurrence relationship based on the co-occurrence table; and a co-occurrence calculating an expected value of the number of co-occurrence times based on the co-occurrence table. An expected number of times calculation step, a step of selecting an independent word group having a co-occurrence relationship that can suggest the subject of the document by comparing the expected value with the number of times of co-occurrence A co-occurrence network generation step of setting a link between independent words having a co-occurrence relationship that suggests the specified subject and displaying the expression form of the link as a co-occurrence network determined based on the co-occurrence probability. How to build a document database that contains the.
【請求項2】 前記主題示唆自立語群選定ステップは、
前記共起回数と前記期待値に所定の定数を加算した数値
とを比較して、文書の主題を示唆し得る共起関係にある
自立語群を選定することを特徴とする請求項1記載のド
キュメントデータベースの構築方法。
2. The subject suggestion independent word group selecting step,
2. The independent word group having a co-occurrence relationship that can suggest the subject of the document is selected by comparing the number of times of co-occurrence with a value obtained by adding a predetermined constant to the expected value. How to build a document database.
【請求項3】 前記共起ネットワーク生成ステップは、 前記主題示唆自立語群選定ステップで選定された共起関
係にある自立語群の各自立語を表す文字列と、共起関係
にある自立語それぞれを表す文字列を視覚的に結ぶ共起
線とから形成される共起ネットワークを画面表示するス
テップを含む請求項1記載のドキュメントデータベース
の構築方法。
3. The co-occurrence network generating step includes a character string representing each independent word of the independent word group having a co-occurrence relationship selected in the subject suggestive independent word group selecting step, and an independent word having a co-occurrence relationship. The method for constructing a document database according to claim 1, further comprising a step of displaying on screen a co-occurrence network formed from a co-occurrence line visually connecting character strings representing each.
【請求項4】 前記共起線は、共起関係にある自立語間
の共起確率の大きさによってその線種、色、濃淡、向
き、長さ、又は太さが決定される線もしくは矢印である
請求項3記載のドキュメントデータベースの構築方法。
4. The line or arrow whose line type, color, shade, direction, length, or thickness is determined by the size of the co-occurrence probability between independent words having a co-occurrence relationship. The method of constructing a document database according to claim 3, wherein
【請求項5】 前記共起ネットワーク生成ステップで生
成された1つあるいは2つ以上の共起ネットワークを検
索して、任意のキーワードを含む1つあるいは2つ以上
の共起ネットワークを抽出し、その共起ネットワークを
画面表示する文書検索ステップと、 前記文書検索ステップで画面表示された1つあるいは2
つ以上の共起ネットワークのうちの任意の共起ネットワ
ークに対応する原文章を抽出し、その原文章の全てある
いは一部を画面表示する原文参照ステップとを含む請求
項1記載のドキュメントデータベースの構築方法。
5. The one or more co-occurrence networks generated in the co-occurrence network generation step are searched to extract one or more co-occurrence networks including arbitrary keywords, A document search step of displaying the co-occurrence network on the screen, and one or two displayed on the screen in the document search step.
The document database construction according to claim 1, further comprising: an original sentence reference step of extracting an original sentence corresponding to an arbitrary co-occurrence network from one or more co-occurrence networks and displaying all or a part of the original sentence on a screen. Method.
【請求項6】 前記共起ネットワーク生成ステップで生
成された1つあるいは2つ以上の共起ネットワークを検
索して、1つ又は2つ以上の第1のキーワードを含む1
つあるいは2つ以上の共起ネットワークを抽出し、その
共起ネットワークを画面表示する文書検索ステップと、 前記文書検索ステップで画面表示された1つあるいは2
つ以上の共起ネットワークのうちの任意の共起ネットワ
ークに対応する原文章を抽出し、その原文章のうち1つ
又は2つ以上の第2のキーワードを含む文又は文字列、
あるいは第2のキーワードを含む文又は文字列とその前
後の文又は文字列を画面表示する原文参照ステップとを
含む請求項1記載のドキュメントデータベースの構築方
法。
6. The one or more co-occurrence networks generated in the co-occurrence network generation step are searched to search for one or more first keywords containing one or more first keywords.
A document retrieval step of extracting one or two or more co-occurrence networks and displaying the co-occurrence networks on the screen, and one or two displayed on the screen in the document retrieval step.
A sentence or a character string including one or two or more second keywords extracted from an original sentence corresponding to an arbitrary co-occurrence network of one or more co-occurrence networks,
2. The method for constructing a document database according to claim 1, further comprising a sentence or character string including the second keyword and an original sentence reference step of displaying the sentence or character string before and after the sentence on the screen.
【請求項7】 前記原文参照ステップは、前記1つ又は
2つ以上の第2のキーワードを含む文又は文字列とその
前後の文又は文字列を画面表示するときに、前記第2の
キーワードあるいは第2のキーワードを含む文を区別し
て表示する請求項6記載のドキュメントデータベースの
構築方法。
7. The original text reference step, when displaying a sentence or a character string including the one or more second keywords and sentences or character strings before and after the sentence or character string on the screen, The method for constructing a document database according to claim 6, wherein sentences including the second keyword are displayed separately.
【請求項8】 前記文書検索ステップは、 キーワードを特定する検索式を入力するための検索式入
力部と検索実行命令を入力するための検索実行命令入力
部とを表示するステップと、 前記検索式入力部に検索式が入力され、前記検索実行命
令入力部に検索実行命令が入力されたときに、前記共起
ネットワーク生成ステップにおいて生成された1つある
いは2つ以上の共起ネットワークを検索し、前記検索式
によって特定されるキーワードを含む1つあるいは2つ
以上の共起ネットワークを抽出するステップと、 前記で抽出された1つあるいは2つ以上の共起ネットワ
ークを画面表示するとともに、前記共起ネットワークに
含まれる自立語のうち前記検索式によって特定されるキ
ーワードを区別して表示するステップと、を含む請求項
5記載のドキュメントデータベースの構築方法。
8. The document search step includes a step of displaying a search expression input section for inputting a search expression for specifying a keyword and a search execution instruction input section for inputting a search execution instruction, and the search expression When a search expression is input to the input unit and a search execution command is input to the search execution command input unit, one or more co-occurrence networks generated in the co-occurrence network generation step are searched. A step of extracting one or more co-occurrence networks including a keyword specified by the search expression, displaying the one or more co-occurrence networks extracted above on a screen, and the co-occurrence 6. A step of separately displaying keywords specified by the search expression among independent words included in a network. How to build a document database.
【請求項9】 前記原文参照ステップでは、前記キーワ
ードを含む文を画面表示するときに、 前記キーワードと、前記キーワードを含む文が原文章中
に幾つ含まれているかを示す数値と、前記キーワードを
含む文のうち現在表示されている文が何番目の文である
かを示す数値と、前記キーワードを含む文のうち現在表
示されている文より前の文の表示命令を入力するための
前文表示命令入力部と、前記キーワードを含む文のうち
現在表示されている文より後の文の表示命令を入力する
ための次文表示命令入力部とを表示し、 前記前文表示命令入力部に前文表示命令が入力される
と、前記キーワードを含む文のうち現在表示されている
文の前の文を画面表示し、 前記次文表示命令入力部に次文表示命令が入力される
と、前記キーワードを含む文のうち現在表示されている
文の次の文を画面表示する請求項5記載のドキュメント
データベースの構築方法。
9. In the step of referring to an original sentence, when a sentence including the keyword is displayed on a screen, the keyword, a numerical value indicating how many sentences including the keyword are included in the original sentence, and the keyword are displayed. A numerical value indicating the number of the sentence currently displayed among the included sentences, and a pre-sentence display for inputting a display command for a sentence before the currently displayed sentence among the sentences including the keyword A command input unit and a next sentence display command input unit for inputting a display command of a sentence after the currently displayed sentence among the sentences including the keyword are displayed, and the previous sentence display command input unit is displayed. When a command is input, a sentence before the currently displayed sentence among the sentences including the keyword is displayed on the screen, and when the next sentence display command is input to the next sentence display command input unit, the keyword is changed. Sentence containing 6. The method for constructing a document database according to claim 5, wherein a sentence next to the currently displayed sentence is displayed on the screen.
【請求項10】 前記共起ネットワーク生成ステップ
は、 生成された共起ネットワークとともに、前記期待値に加
算される所定の定数を変更する指示を入力する定数変更
指示入力部を画面表示するステップと、 前記定数変更指示入力部に定数の変更指示が入力された
ときに、前記主題示唆自立語選定ステップを再起動し、
前記共起回数と前記期待値に変更後の定数を加算した数
値とを比較して文書の主題を示唆し得る共起関係にある
自立語群を選定し直すステップと、 前記で選定し直された自立語に基づいて共起ネットワー
クを作り直すステップと、 前記で作り直された共起ネットワークを画面表示するス
テップとを含む請求項2記載のドキュメントデータベー
スの構築方法。
10. The co-occurrence network generation step, together with the generated co-occurrence network, a step of displaying on a screen a constant change instruction input unit for inputting an instruction to change a predetermined constant added to the expected value, When a constant change instruction is input to the constant change instruction input unit, the subject suggestive independent word selection step is restarted,
Comparing the number of times of co-occurrence with a value obtained by adding a constant after the change to the expected value, and reselecting a group of independent words having a co-occurrence relationship that may suggest the subject of the document; The method for constructing a document database according to claim 2, further comprising: a step of recreating a co-occurrence network based on the independent word, and a step of displaying the re-created co-occurrence network on a screen.
【請求項11】 文書の主題を示唆し得る共起関係にあ
る自立語群の各自立語を表す文字列と、共起関係にある
自立語それぞれの文字列を視覚的に結ぶ共起線とから構
成される共起ネットワークを画面表示し、 任意の文字列の表示座標が位置指定手段によって指定さ
れ、前記共起ネットワークの表示座標が位置指定手段に
よって指定されると、前記共起ネットワークに対応する
文書の原文章を抽出し、その原文章のうち前記位置指定
手段によって指定された文字列を含む文又は文字列、あ
るいは前記文字列を含む文又は文字列とその前後の文又
は文字列を画面表示するドキュメントデータベースの表
示方法。
11. A character string representing each independent word of an independent word group having a co-occurrence relationship that can suggest the subject of a document, and a co-occurrence line visually connecting the character strings of each independent word having a co-occurrence relationship. When a display coordinate of an arbitrary character string is designated by the position designating means and a display coordinate of the co-occurrence network is designated by the position designating means, the co-occurrence network corresponding to the co-occurring network is displayed. The original sentence of the document to be extracted is extracted, and the sentence or the character string including the character string designated by the position designating means in the original sentence, or the sentence or the character string including the character string and the sentence or the character string before and after the sentence or the character string. How to display the document database displayed on the screen.
【請求項12】 前記共起線は、共起関係にある自立語
間の共起確率の大きさによってその線種、向き、色、長
さ、又は太さが決定される線もしくは矢印である請求項
11記載のドキュメントデータベースの表示方法。
12. The co-occurrence line is a line or arrow whose line type, direction, color, length, or thickness is determined by the magnitude of the co-occurrence probability between independent words having a co-occurrence relationship. The document database display method according to claim 11.
【請求項13】 与えられた文書から抽出された自立語
毎に、各自立語に対する共起単語とその共起回数とを記
録する共起テーブルと、 前記共起テーブルに基づいて共起関係の強さを表わす共
起確率を算出する共起確率算出手段と、 前記共起テーブルに基づいて共起回数の期待値を算出す
る共起回数期待値算出手段と、 前記期待値と前記共起回数とを比較して文書の主題を示
唆し得る共起関係にある自立語群を選定する主題示唆自
立語群選定手段と、 前記主題示唆自立語群選定手段によって選定された自立
語群の各自立語を表す文字列と、それらの文字列のうち
共起関係にあるそれぞれの自立語を表す文字列間を共起
確率の大きさに応じた形態で結ぶ共起線とからなる共起
ネットワークを生成する共起ネットワーク生成手段と、 キーワードを入力するためのキーワード入力手段と、 前記共起ネットワーク生成手段によって生成された1つ
あるいは2つ以上の共起ネットワークを検索し、前記入
力手段に入力されたキーワードを含む1つあるいは2つ
以上の共起ネットワークを抽出して画面表示する文書検
索手段と、 前記文書検索手段によって画面表示された1つあるいは
2つ以上の共起ネットワークのうちの任意の共起ネット
ワークを指定する共起ネットワーク指定手段と、 前記
共起ネットワーク指定手段によって指定された共起ネッ
トワークに対応する文書の原文章を読み出し、その原文
章の一部あるいは全部を画面表示する原文参照手段とを
備えるドキュメントデータベース表示装置。
13. A co-occurrence table recording, for each independent word extracted from a given document, a co-occurrence word for each independent word and the number of times of co-occurrence, and a co-occurrence relation based on the co-occurrence table. A co-occurrence probability calculating means for calculating a co-occurrence probability representing strength; a co-occurrence number expected value calculating means for calculating an expected value of the co-occurrence number based on the co-occurrence table; the expected value and the co-occurrence number. And a self-supporting word group selecting means for selecting a self-supporting word group having a co-occurrence relationship that can suggest the subject of the document, and each self-supporting word group selected by the subject-suggesting independent word group selecting means. A co-occurrence network consisting of a character string representing a word and a co-occurrence line that connects between the character strings representing each independent word in the co-occurrence relationship among the character strings in a form according to the magnitude of the co-occurrence probability is defined. Co-occurrence network generation means to generate and keywords Keyword inputting means for inputting, one or more co-occurrence networks generated by the co-occurrence network generating means, and one or more or more including the keyword inputted to the inputting means. Document retrieval means for extracting a co-occurrence network and displaying it on the screen, and co-occurrence network designating means for designating an arbitrary co-occurrence network among one or more co-occurrence networks displayed on the screen by the document retrieval means. And a document database display device for reading an original sentence of a document corresponding to the co-occurrence network designated by the co-occurrence network designating unit and displaying a part or all of the original sentence on a screen.
【請求項14】 文書の主題を示唆し得る自立語群の各
自立語を表す文字列と、共起関係にあるそれぞれの自立
語を表す文字列間を結ぶ共起線とから構成される共起ネ
ットワークを画面表示し、 任意の文字列の表示座標が位置指定手段によって指定さ
れたのちに、前記共起ネットワークの表示座標が位置指
定手段によって指定されると、前記共起ネットワークに
対応する文書の原文章を読み出し、その原文章のうち前
記指定された文字列を含む文又は文字列、あるいは前記
文字列を含む文又は文字列とその前後の文又は文字列を
画面表示するとともに前記文字列を含む文あるいは前記
文字列のみを区別して表示するドキュメントデータベー
ス表示装置。
14. A co-occurrence line composed of a character string representing each independent word of an independent word group that can suggest the subject of a document and a co-occurrence line connecting the character strings representing each independent word having a co-occurrence relationship. When the display coordinates of the co-occurrence network are specified by the position specifying means after the display coordinates of an arbitrary character string are specified by the position specifying means, the document corresponding to the co-occurrence network is displayed. Of the original text, and the sentence or character string containing the specified character string in the original text, or the sentence or character string including the character string and the sentence or character string before and after the character string and the character string A document database display device that distinguishes and displays only a sentence including the above or the character string.
【請求項15】 前記共起線は、共起関係にある自立語
間の共起確率の大きさによってその線種、向き、色、濃
淡、長さ、又は太さが決定される線もしくは矢印である
請求項14記載のドキュメントデータベースの表示装
置。
15. The co-occurrence line is a line or arrow whose line type, direction, color, shade, length, or thickness is determined by the magnitude of the co-occurrence probability between independent words having a co-occurrence relationship. 15. The document database display device according to claim 14.
【請求項16】 前記共起線の線種、色、濃淡、長さ、
又は太さは、ユーザによって任意に変更される請求項1
4記載のドキュメントデータベースの表示装置。
16. The line type, color, shade, length of the co-occurrence line,
Alternatively, the thickness is arbitrarily changed by the user.
4. A display device for the document database described in 4.
JP8087013A 1995-03-13 1996-03-04 Document database construction method, display method, and display device Expired - Fee Related JP2806867B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8087013A JP2806867B2 (en) 1995-03-13 1996-03-04 Document database construction method, display method, and display device

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP5308595 1995-03-13
JP7-53085 1995-03-13
JP8087013A JP2806867B2 (en) 1995-03-13 1996-03-04 Document database construction method, display method, and display device

Publications (2)

Publication Number Publication Date
JPH08314980A true JPH08314980A (en) 1996-11-29
JP2806867B2 JP2806867B2 (en) 1998-09-30

Family

ID=26393797

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8087013A Expired - Fee Related JP2806867B2 (en) 1995-03-13 1996-03-04 Document database construction method, display method, and display device

Country Status (1)

Country Link
JP (1) JP2806867B2 (en)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000010986A (en) * 1998-06-18 2000-01-14 Trendy:Kk Retrieval support method for document data base and storage medium where program thereof is stored
JP2001195427A (en) * 2000-01-15 2001-07-19 Takuboku Kagi Kofun Yugenkoshi Method for automatic extraction of key characteristics of digital document
JP2001290833A (en) * 2000-04-04 2001-10-19 Nec Corp Document processor
JP2003330966A (en) * 2002-05-13 2003-11-21 Nippon Telegr & Teleph Corp <Ntt> Document analysis method, device, program, and recording medium storing document analysis program
JP2004110386A (en) * 2002-09-18 2004-04-08 Nri & Ncc Co Ltd Associative retrieval system
JP2005352849A (en) * 2004-06-11 2005-12-22 Fuji Xerox Co Ltd Program and method for screen display control, and portable information device
WO2008139568A1 (en) * 2007-05-08 2008-11-20 Fujitsu Limited Keyword output program and device
CN107193803A (en) * 2017-05-26 2017-09-22 北京东方科诺科技发展有限公司 A kind of particular task text key word extracting method based on semanteme
KR20190110428A (en) * 2018-03-20 2019-09-30 가부시키가이샤 스크린 홀딩스 Text mining method, text mining program and text mining apparatus
JP2020067830A (en) * 2018-10-24 2020-04-30 Solize株式会社 Text display method and text display device

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000010986A (en) * 1998-06-18 2000-01-14 Trendy:Kk Retrieval support method for document data base and storage medium where program thereof is stored
JP2001195427A (en) * 2000-01-15 2001-07-19 Takuboku Kagi Kofun Yugenkoshi Method for automatic extraction of key characteristics of digital document
JP2001290833A (en) * 2000-04-04 2001-10-19 Nec Corp Document processor
JP2003330966A (en) * 2002-05-13 2003-11-21 Nippon Telegr & Teleph Corp <Ntt> Document analysis method, device, program, and recording medium storing document analysis program
JP2004110386A (en) * 2002-09-18 2004-04-08 Nri & Ncc Co Ltd Associative retrieval system
JP4599898B2 (en) * 2004-06-11 2010-12-15 富士ゼロックス株式会社 Program, method and portable information device for screen display control
JP2005352849A (en) * 2004-06-11 2005-12-22 Fuji Xerox Co Ltd Program and method for screen display control, and portable information device
WO2008139568A1 (en) * 2007-05-08 2008-11-20 Fujitsu Limited Keyword output program and device
US8244773B2 (en) 2007-05-08 2012-08-14 Fujitsu Limited Keyword output apparatus and method
CN107193803A (en) * 2017-05-26 2017-09-22 北京东方科诺科技发展有限公司 A kind of particular task text key word extracting method based on semanteme
CN107193803B (en) * 2017-05-26 2020-07-10 北京东方科诺科技发展有限公司 Semantic-based specific task text keyword extraction method
KR20190110428A (en) * 2018-03-20 2019-09-30 가부시키가이샤 스크린 홀딩스 Text mining method, text mining program and text mining apparatus
JP2020067830A (en) * 2018-10-24 2020-04-30 Solize株式会社 Text display method and text display device

Also Published As

Publication number Publication date
JP2806867B2 (en) 1998-09-30

Similar Documents

Publication Publication Date Title
US5257186A (en) Digital computing apparatus for preparing document text
CN107209759B (en) Annotation support device and recording medium
CA1235817A (en) Method and apparatus for natural language processing
KR100650427B1 (en) Integrated development tool for building a natural language understanding application
US20060200336A1 (en) Creating a lexicon using automatic template matching
JPS6231467A (en) Sentence preparation device
JPH04127370A (en) Information collecting system
US20060200338A1 (en) Method and system for creating a lexicon
US6286014B1 (en) Method and apparatus for acquiring a file to be linked
JP2002215617A (en) Method for attaching part of speech tag
US20060200337A1 (en) System and method for template authoring and a template data structure
JPH08314980A (en) Constructing method, displaying method and displaying device for document data base
JP2957875B2 (en) Document information search device and document search result display method
JPH1097541A (en) Document blowsing support system and document processing system
JP2004070376A (en) Document display device and method therefor
JP4257407B2 (en) Dictionary evaluation support device, dictionary evaluation support program
JP3408830B2 (en) Japanese sentence parser
JPH0561902A (en) Mechanical translation system
JPH1153355A (en) Sentence preparing system
JP2675912B2 (en) Character processor
JPH10149364A (en) Word selection device and storage medium
JP2002183134A (en) Translating device
JP2856775B2 (en) Document creation device
JP2003173338A (en) Dictionary construction support device, dictionary construction support method, and dictionary construction support program
JPH0981581A (en) Data base generation method

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070724

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080724

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080724

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090724

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100724

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110724

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120724

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130724

Year of fee payment: 15

LAPS Cancellation because of no payment of annual fees