JPH1196177A - Method for generating term dictionary, and storage medium recording term dictionary generation program - Google Patents

Method for generating term dictionary, and storage medium recording term dictionary generation program

Info

Publication number
JPH1196177A
JPH1196177A JP9257364A JP25736497A JPH1196177A JP H1196177 A JPH1196177 A JP H1196177A JP 9257364 A JP9257364 A JP 9257364A JP 25736497 A JP25736497 A JP 25736497A JP H1196177 A JPH1196177 A JP H1196177A
Authority
JP
Japan
Prior art keywords
word
words
graph
term dictionary
statistic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9257364A
Other languages
Japanese (ja)
Inventor
Takashi Yugawa
高志 湯川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP9257364A priority Critical patent/JPH1196177A/en
Publication of JPH1196177A publication Critical patent/JPH1196177A/en
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a term dictionary generating method capable of generating a term dictionary including information necessary for the processing of many documents over a wide object area by generating an ontology capable of recog nizing various relation of words and a recording medium recording a term dictionary generation program. SOLUTION: Respective words in a document are stored together with their positional information and a primary statistic value related to the inclusion of the same word is calculated (step S13). Relative words are selected based on the primary statistic value (step S15) and a graph linked with nodes of respective relative words is generated from the nodes of words expressing the object areas of the relative words (step S17). Then, a cooccurrence statistic value for the combination of two nodes of the graph is calculated (step S19) and similarity between two combined words is calculated (step S21). Then, an ontology is generated by converting the graph based on the cooccurrence statistic value and the similarity and annexing a relative label to the converted graph (step S23) to generate a term dictionary.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、文書に用いられて
いる単語の意味および使われ方を記憶した用語辞書を生
成する用語辞書生成方法および用語辞書生成プログラム
を記録した記録媒体に関し、特に平文テキスト形式で電
子的に格納された文書をコンピュータが理解することに
よって処理を行う自然言語処理技術、情報検索技術およ
び情報整理統合技術に有効な用語辞書生成方法および用
語辞書生成プログラムを記録した記録媒体に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a term dictionary generating method for generating a term dictionary storing the meaning and usage of words used in a document and a recording medium storing a term dictionary generating program, and more particularly to a plaintext. A term dictionary generation method and a storage medium storing a term dictionary generation program effective for a natural language processing technology, an information search technology, and an information organizing and integrating technology for processing a document electronically stored in a text format by a computer by understanding the computer About.

【0002】[0002]

【従来の技術】文書で用いられる単語の意味や使われ方
を記述した辞書はオントロジと呼ばれ、平文で記述され
た文書をコンピュータで理解したり、理解に基づいて検
索、分類または統合などの処理をする場合に必須とな
る。オントロジは、用語の意味や使われ方を、語と語の
間の関係を通じて表している。このオントロジをコンピ
ュータの記憶として格納したものを用語辞書と呼ぶこと
にする。用語辞書の表現形式としては、フレーム、一階
述語、グラフ等が用いられるが、これらは本質的には同
じである。
2. Description of the Related Art A dictionary that describes the meaning and usage of words used in a document is called an ontology, and a computer can understand a document described in plain text, or can search, classify, or integrate based on the understanding. Required when processing. An ontology expresses the meaning and usage of a term through the relationship between words. What stores this ontology as storage in a computer is called a term dictionary. As the expression format of the term dictionary, frames, first-order predicates, graphs, and the like are used, but these are essentially the same.

【0003】文書をコンピュータに理解させ、理解に基
づいて検索、分類または統合などの処理をさせる目的
は、該コンピュータの利用者(以下、ユーザと呼ぶ)が
インターネットや社内情報システム等に蓄積された大量
の文書から、ユーザが必要としたり、あるいは興味を持
つ情報を整理・統合された形態で得るためである。本発
明が対象とするのは、蓄積された膨大な文書からユーザ
が興味を持つ対象領域に関連する文書が抽出され限定さ
れた後のコンピュータにおける処理である。ユーザは人
間であり様々な対象に興味を持つため、取り得る対象領
域は広い範囲にわたるが、ユーザがひとたび対象領域を
限定すると、文書集合には該対象領域に関する事柄を記
述した文書だけが含まれることになる。このことから、
該コンピュータによる文書の理解、検索、分類、統合の
ための用語辞書は、対象領域が限定された後には、対象
領域に関連のある語を含めばよいことになる。もちろ
ん、対象領域そのものは広い範囲を取り得るため、どの
ような対象領域に対しても、該対象領域に関連する語を
含む用語辞書は該文書集合が与えられた後には存在して
いなければならない。
The purpose of making a computer understand a document and performing a process such as search, classification, or integration based on the understanding is that a user of the computer (hereinafter, referred to as a user) is stored in the Internet or an in-house information system. This is because the information that the user needs or is interested in is obtained from a large amount of documents in an organized and integrated form. An object of the present invention is a process in a computer after a document related to a target area of interest to a user is extracted from a huge number of stored documents and limited. Since the user is human and interested in various objects, the possible target areas are wide, but once the user has limited the target area, the document set includes only documents that describe matters related to the target area. Will be. From this,
The term dictionary for understanding, searching, classifying, and integrating documents by the computer may include words related to the target area after the target area is limited. Of course, since the target area itself can have a wide range, for any target area, a term dictionary containing words related to the target area must exist after the document set is given. .

【0004】従来は、オントロジは人間が自己の言語に
関する知識や、辞書や百科事典の記述などに基づいて手
作業で構築し、該オントロジをコンピュータに入力する
ことで用語辞書を生成していた。また、近年、語の文書
上の出現頻度に基づいた類似度を計算し、相互に類似度
が高い語の間に連想関係を認定することによって用語辞
書を自動生成する方法が提案されている(参考文献:岩
爪道昭、白神謙吾、武田英明、西田豊明、「インターネ
ットからの情報収集・分類・統合化のためのオントロジ
ー獲得」、1996年度人工知能学会全国大会、18−
03)。本来、オントロジにおける語の間の関係は連想
関係だけではないため、該用語辞書生成方法で生成され
る用語辞書は、粗い構造のオントロジ(弱構造化オント
ロジ)を格納したものとなる。
Conventionally, ontologies have been manually constructed by humans based on their own knowledge of the language, descriptions of dictionaries and encyclopedias, and a term dictionary has been generated by inputting the ontology to a computer. In recent years, there has been proposed a method of automatically generating a term dictionary by calculating a similarity based on the frequency of appearance of a word in a document and identifying an associative relationship between words having a high similarity to each other ( References: Michiaki Iwazume, Kengo Shirakami, Hideaki Takeda, Toyoaki Nishida, "Acquisition of Ontology for Information Collection, Classification, and Integration from the Internet", 1996 Annual Conference of the Japanese Society for Artificial Intelligence, 18-
03). Originally, the relationship between words in the ontology is not only an associative relationship, and the term dictionary generated by the term dictionary generation method stores an ontology of a coarse structure (a weakly structured ontology).

【0005】[0005]

【発明が解決しようとする課題】人間の手作業によるオ
ントロジの構築は、人間の判断速度の制約があるため、
小規模な語の集合に対してさえ非常に時間がかかること
になる。このことから、対象領域が限定されて文書集合
が与えられた時点で、対象領域に関連する文書に含まれ
る用語の用語辞書を動的に生成することは、文書の規模
が非常に小さくない限り不可能である。したがって必然
的に、あらゆる文書に含まれると想定される語の集合に
対する用語辞書を予め生成しておくことが必要となる。
しかしながら、様々な対象領域のあらゆる文書に含まれ
ると想定される語の数は非常に多く、また対象領域によ
って意味や使われ方の異なる単語も多く存在する。この
ため、生成に莫大な時間が必要とされる上、整合性が保
持できない。このように、人間の手作業によるオントロ
ジ構築では、インターネットや社内情報処理システム等
に蓄積されているような広い対象領域にわたる大規模な
文書テキストを処理するための用語辞書の生成は不可能
である。
Since the construction of an ontology by a human being has a limitation on human judgment speed,
Even a small set of words can be very time consuming. Therefore, when the target area is limited and a document set is given, dynamically generating a term dictionary of terms included in the document related to the target area is not possible unless the size of the document is very small. Impossible. Therefore, it is necessary to generate a term dictionary for a set of words assumed to be included in every document in advance.
However, the number of words assumed to be included in every document in various target regions is extremely large, and there are many words having different meanings and usage depending on the target regions. Therefore, an enormous amount of time is required for generation, and consistency cannot be maintained. As described above, in the ontology construction by a human manual operation, it is impossible to generate a term dictionary for processing a large-scale document text over a wide target area stored in the Internet or an in-house information processing system. .

【0006】一方、上記の岩爪らの方法では、連想関連
のみの認定による粗い構造のオントロジのため、該方法
により生成された用語辞書は、文書の処理に必要とされ
る情報を十分には含んでいない。
On the other hand, in the above-mentioned method of Iwazume et al., Since the ontology of a coarse structure based on only the association association is recognized, the term dictionary generated by the method sufficiently contains information required for processing a document. Not.

【0007】本発明は、上記に鑑みてなされたもので、
その目的とするところは、単語の種々の関係を認定でき
るオントロジを動的に生成して、広い対象領域にわたる
大量の文書に対しても文書の処理に必要とされる情報を
十分に含む用語辞書を生成し得る用語辞書生成方法およ
び用語辞書生成プログラムを記録した記録媒体を提供す
ることにある。
[0007] The present invention has been made in view of the above,
The goal is to dynamically generate an ontology that can recognize various relationships between words, and a term dictionary that contains enough information necessary for processing documents even for a large number of documents over a wide area of interest. It is an object of the present invention to provide a term dictionary generating method capable of generating a term dictionary and a recording medium storing a term dictionary generating program.

【0008】[0008]

【課題を解決するための手段】上記目的を達成するた
め、請求項1記載の本発明は、文書に用いられている単
語の意味および使われ方を記憶した用語辞書を生成する
用語辞書生成方法であって、文書を読み込んで単語の列
に分解し、該単語列の中の個々の単語を該単語の文書中
の位置情報とともに格納し、前記単語列に含まれる単語
について、該単語列に同一単語が含まれることに関する
統計量を一次統計量として計算し、この計算された各単
語の一次統計量に基づいて、対象領域に関連の深い単語
を関連単語として選択し、この選択した関連単語の各々
をノードとし、対象領域を代表的に表す単語のノードか
ら前記関連単語の各々のノードに対してそれぞれ有向リ
ンクを張ったグラフを生成し、この生成されたグラフの
ノードのあらゆる2つのノードの組合せについて、各組
合せの2つの単語の前記位置情報に基づいて該2つの単
語の同時出現についての統計量である共起統計量を計算
し、前記各組合せの2つのノードに対応する2つの単語
の類似度を計算し、前記共起統計量および類似度に基づ
いて前記グラフを変換し、リンクに関係ラベルを付与す
ることを要旨とする。
To achieve the above object, according to the present invention, there is provided a term dictionary generating method for generating a term dictionary which stores the meanings and usage of words used in a document. Reading a document and decomposing it into a sequence of words, storing the individual words in the word sequence together with the position information of the word in the document, and converting the words included in the word sequence into the word sequence. A statistic related to containing the same word is calculated as a primary statistic, a word that is deeply related to the target area is selected as a related word based on the calculated primary statistic of each word, and the selected related word is selected. Is a node, and a graph is created in which a directed link is provided to each node of the related word from a node of the word representatively representing the target area, and every two nodes of the node of the generated graph are generated. , A co-occurrence statistic, which is a statistic about the simultaneous appearance of the two words, is calculated based on the position information of the two words of each combination, and the two corresponding nodes correspond to the two nodes of each combination. The gist is to calculate the similarity between two words, convert the graph based on the co-occurrence statistics and the similarity, and assign a relation label to the link.

【0009】請求項1記載の本発明にあっては、文書を
単語の列に分解し、該単語列の中の各単語をその位置情
報とともに格納し、単語列に同一単語が含まれることに
関する一次統計量を計算し、この各単語の一次統計量に
基づいて、対象領域に関連の深い単語を関連単語として
選択し、この関連単語の各々をノードとし、対象領域を
表す単語のノードから関連単語の各々のノードに対して
それぞれ有向リンクを張ったグラフを生成し、このグラ
フのノードのあらゆる2つのノードの各組合せの2つの
単語の位置情報に基づいて該2つの単語の共起統計量を
計算し、各組合せの2つのノードに対応する2つの単語
の類似度を計算し、共起統計量および類似度に基づいて
前記グラフを変換し、リンクに関係ラベルを付与して、
用語辞書を生成しているため、文書の処理に必要とされ
る十分な情報を含んだ用語辞書を生成することができ
る。
According to the first aspect of the present invention, a document is decomposed into word strings, each word in the word string is stored together with its position information, and the same word is included in the word string. A primary statistic is calculated, and based on the primary statistic of each word, a word closely related to the target region is selected as a related word, and each of the related words is set as a node. Generate a graph in which a directed link is provided for each node of the word, and use the co-occurrence statistics of the two words based on the position information of the two words of each combination of every two nodes of the graph. Calculating the quantity, calculating the similarity of the two words corresponding to the two nodes of each combination, transforming the graph based on the co-occurrence statistics and the similarity, assigning relation labels to the links,
Since the term dictionary is generated, a term dictionary including sufficient information required for processing the document can be generated.

【0010】また、請求項2記載の本発明は、文書に用
いられている単語の意味および使われ方を記憶した用語
辞書を生成する用語辞書生成プログラムを記録した記録
媒体であって、文書を読み込んで単語の列に分解し、該
単語列の中の個々の単語を該単語の文書中の位置情報と
ともに格納し、前記単語列に含まれる単語について、該
単語列に同一単語が含まれることに関する統計量を一次
統計量として計算し、この計算された各単語の一次統計
量に基づいて、対象領域に関連の深い単語を関連単語と
して選択し、この選択した関連単語の各々をノードと
し、対象領域を代表的に表す単語のノードから前記関連
単語の各々のノードに対してそれぞれ有向リンクを張っ
たグラフを生成し、この生成されたグラフのノードのあ
らゆる2つのノードの組合せについて、各組合せの2つ
の単語の前記位置情報に基づいて該2つの単語の同時出
現についての統計量である共起統計量を計算し、前記各
組合せの2つのノードに対応する2つの単語の類似度を
計算し、前記共起統計量および類似度に基づいて前記グ
ラフを変換し、リンクに関係ラベルを付与することを要
旨とする。
[0010] According to a second aspect of the present invention, there is provided a recording medium storing a term dictionary generating program for generating a term dictionary storing the meaning and usage of words used in a document. Read and decompose into word strings, store individual words in the word strings together with position information of the words in the document, and, for words included in the word strings, include the same words in the word strings Calculate statistics related to the target region as related words based on the calculated primary statistics of each word, and select each of the selected related words as a node. A graph is created in which a directed link is provided to each node of the related word from a node of the word representatively representing the target area, and every two nodes of the node of the generated graph are generated. For each combination, a co-occurrence statistic, which is a statistic of simultaneous appearance of the two words, is calculated based on the position information of the two words of each combination, and two words corresponding to two nodes of each combination are calculated. The gist of the present invention is to calculate the degree of similarity, convert the graph based on the co-occurrence statistics and the degree of similarity, and assign a relation label to the link.

【0011】請求項2記載の本発明にあっては、文書を
単語の列に分解し、該単語列の中の各単語をその位置情
報とともに格納し、単語列に同一単語が含まれることに
関する一次統計量を計算し、この各単語の一次統計量に
基づいて、対象領域に関連の深い単語を関連単語として
選択し、この関連単語の各々をノードとし、対象領域を
表す単語のノードから関連単語の各々のノードに対して
それぞれ有向リンクを張ったグラフを生成し、このグラ
フのノードのあらゆる2つのノードの各組合せの2つの
単語の位置情報に基づいて該2つの単語の共起統計量を
計算し、各組合せの2つのノードに対応する2つの単語
の類似度を計算し、共起統計量および類似度に基づいて
前記グラフを変換し、リンクに関係ラベルを付与して、
用語辞書を生成する用語辞書生成プログラムを記録媒体
として記録しているため、該記録媒体を用いて、その流
通性を高めることができる。
According to the second aspect of the present invention, the document is decomposed into word strings, each word in the word string is stored together with its position information, and the same word is included in the word string. A primary statistic is calculated, and based on the primary statistic of each word, a word closely related to the target region is selected as a related word, and each of the related words is set as a node. Generate a graph in which a directed link is provided for each node of the word, and use the co-occurrence statistics of the two words based on the position information of the two words of each combination of every two nodes of the graph. Calculating the quantity, calculating the similarity of the two words corresponding to the two nodes of each combination, transforming the graph based on the co-occurrence statistics and the similarity, assigning relation labels to the links,
Since the term dictionary generation program for generating the term dictionary is recorded as a recording medium, the distribution of the term dictionary can be improved by using the recording medium.

【0012】[0012]

【発明の実施の形態】以下、図面を用いて本発明の実施
の形態について説明する。
Embodiments of the present invention will be described below with reference to the drawings.

【0013】図1は、本発明の一実施形態に係る用語辞
書生成方法の処理の流れおよび該処理を実施するのに必
要な構成要素の一部を示した図である。なお、図1にお
いて、実線は処理の流れを示し、点線はデータの流れを
示している。
FIG. 1 is a diagram showing a processing flow of a term dictionary generation method according to an embodiment of the present invention and a part of components necessary for performing the processing. In FIG. 1, the solid line indicates the flow of processing, and the dotted line indicates the flow of data.

【0014】図1を参照して、本実施形態の用語辞書生
成方法について概略的に説明する。図1に示す用語辞書
生成方法では、文書集合記憶部1に記憶されている文書
を形態素解析処理によって単語の列に分解し(ステップ
S11)、この分解された単語の列に含まれる個々の単
語をその文書内の位置情報とともに形態素記憶部3に記
憶する。
With reference to FIG. 1, a method of generating a term dictionary according to the present embodiment will be schematically described. In the term dictionary generation method shown in FIG. 1, a document stored in the document set storage unit 1 is decomposed into a sequence of words by morphological analysis processing (step S11), and individual words included in the decomposed word sequence are separated. Is stored in the morphological storage unit 3 together with the position information in the document.

【0015】次に、形態素記憶部3に記憶された単語の
列において各単語の出現に関する統計量である一次統計
量を一次統計量計算処理で計算する(ステップS1
3)。それから、この一次統計量に基づいてユーザが興
味を持っている対象領域に関連の深い単語の集合を前記
単語列から関連単語選択処理で選択する(ステップS1
5)。この単語の集合は次のステップS17の初期グラ
フ生成処理において対象領域を代表的に表す単語をルー
ト・ノードとし、単語の集合の個々の単語をノードとし
て、ルート・ノードから個々のノードに向かって有向リ
ンクを張った初期グラフを生成し、グラフ作業記憶部5
に記憶される。
Next, a primary statistic, which is a statistic relating to the appearance of each word in the word sequence stored in the morphological storage unit 3, is calculated by a primary statistic calculation process (step S1).
3). Then, based on this primary statistic, a set of words closely related to the target area of interest to the user is selected from the word string by a related word selection process (step S1).
5). In the initial graph generation process of the next step S17, this word set is a word representative of the target area as a root node, and each word of the word set is used as a node, from the root node to each node. An initial graph with directed links is generated, and a graph work storage unit 5
Is stored.

【0016】それから、このグラフ作業記憶部5に記憶
された初期グラフに含まれる単語から2個のあらゆる単
語の組合せについて、該2個の単語のペアが同一の文書
や段落や文に同時に出現して含まれるかどうかに基づい
た統計量である共起統計量を計算するとともに(ステッ
プS19)、該単語のペアが意味的に類似しているかど
うかについての類似度を計算する(ステップS21)。
なお、この共起統計量計算処理と類似度計算処理は相互
のデータ依存関係がないため、どちらを先に処理しても
よく、また並行して処理してもよい。
Then, for every combination of two words from the words included in the initial graph stored in the graph work storage unit 5, the two word pairs appear simultaneously in the same document, paragraph or sentence. A co-occurrence statistic, which is a statistic based on whether the word pair is included, is calculated (step S19), and a similarity regarding whether the word pair is semantically similar is calculated (step S21).
Since the co-occurrence statistic calculation processing and the similarity calculation processing do not have a mutual data dependency, either processing may be performed first or processing may be performed in parallel.

【0017】共起統計量と類似度が計算されると、これ
らの値を利用する変換ルールとラベル付けルールに基づ
いてグラフ作業記憶部5に記憶されたグラフを変換し、
リンクに関係ラベルを付与し、これによりグラフ作業記
憶部5にオントロジを表すグラフが記憶される(ステッ
プS23)。このオントロジを表すグラフは、グラフ中
のノードが単語に対応し、リンクが単語と単語の関係に
対応しているので、用語辞書となっているものである。
When the co-occurrence statistics and the similarity are calculated, the graph stored in the graph work storage unit 5 is converted based on the conversion rule and the labeling rule using these values.
A relation label is assigned to the link, whereby a graph representing the ontology is stored in the graph work storage unit 5 (step S23). The graph representing this ontology is a term dictionary because nodes in the graph correspond to words and links correspond to the relationship between words.

【0018】なお、オントロジを表すグラフをどのよう
に出力するかは、本発明で規定するものではないが、グ
ラフそのままの形式でグラフィック出力装置に出力する
ことも可能であり、また一般にはグラフ作業記憶部5に
記憶された状態そのまま、または単純な形式変換によっ
て文書理解プログラムなどの他のプログラムに渡されて
利用されることになる。
The manner in which the graph representing the ontology is output is not specified in the present invention, but it is also possible to output the graph as it is to a graphic output device, and in general, it is also possible to output the graph work. The state stored in the storage unit 5 is used as it is or passed to another program such as a document understanding program by simple format conversion and used.

【0019】次に、図2以降の図面も参照して、図1に
示す用語辞書生成方法について更に詳細に説明する。な
お、この説明では、パーソナルコンピュータのSCSI
カードに関する文書を対象として説明する。
Next, the term dictionary generation method shown in FIG. 1 will be described in further detail with reference to FIGS. In this description, the SCSI of the personal computer is used.
The following describes a document related to a card.

【0020】最初に、パーソナルコンピュータのSCS
Iカードに関する記事が大量に与えられ、文書集合記憶
部1に記憶されているものとする。なお、本実施形態で
は、ユーザが興味を持っている分野、すなわちパーソナ
ルコンピュータのSCSIカードに関連する文書を収集
する方法については特に規定しないが、これは、例えば
電子会議室、ネットニュース、ワールドワイドウェブ等
から収集することが考えられる。
First, the SCS of the personal computer
It is assumed that a large number of articles related to the I card are given and stored in the document set storage unit 1. In the present embodiment, a field in which the user is interested, that is, a method of collecting documents related to the SCSI card of the personal computer is not particularly defined. It is conceivable to collect it from the web and the like.

【0021】処理が開始すると、まず形態素解析処理が
行われる(ステップS11)。これは、文書集合記憶部
1に記憶されている文書を単語の列に分解する。分解さ
れた単語列は、その所在情報とともに形態素記憶部3に
記憶される。形態素記憶部3は、図2に示すようなテー
ブル構造を有する。
When the process starts, first, a morphological analysis process is performed (step S11). This decomposes the documents stored in the document set storage unit 1 into word strings. The decomposed word string is stored in the morphological storage unit 3 together with its location information. The morpheme storage unit 3 has a table structure as shown in FIG.

【0022】図2に示す形態素記憶部3のテーブル構造
において、単語の欄には文書を分解した個々の単語が入
り、文書IDは該単語が出現する文書を特定するための
符号、段落IDは該単語が出現する段落を指定するため
の符号、文IDは該単語が出現する文を特定するための
符号である。個々の符号の付与については本発明で規定
されるものではないが、文書ID、段落ID、文IDの
組によって文書、段落、文それぞれが一意に決定できる
ものでなければならない。すなわち、最も単純な付与法
は、文書集合記憶部1に含まれるすべての文書を通じ
て、個々の文書に一意の文書IDを付与し、個々の段落
に一意の段落IDを付与し、個々の文に一意の文IDを
付与することである。文書が大量ならば、文の数は膨大
であるから、文IDを整数として符号化するならば大き
な値を持つことになる。文IDの最大値を少なくする付
与法としては、文書集合記憶部1に含まれるすべての文
書を通じて個々の文書に一意の文書IDを付与し、個々
の段落に文書内で一意となるように段落IDを付与し、
個々の文の段落内で一意となるような文IDを付与する
方法が考えられる。本実施形態における図2では後者の
方法で文書ID、段落ID、文IDを付与している。
In the table structure of the morphological storage unit 3 shown in FIG. 2, individual words obtained by decomposing a document are entered in a word column, a document ID is a code for specifying a document in which the word appears, and a paragraph ID is a paragraph ID. The code for designating the paragraph in which the word appears, and the sentence ID are codes for specifying the sentence in which the word appears. Assignment of individual codes is not specified in the present invention, but each of the document, paragraph, and sentence must be uniquely determined by a set of the document ID, the paragraph ID, and the sentence ID. That is, the simplest assignment method is to assign a unique document ID to each document, assign a unique paragraph ID to each paragraph, and assign a unique paragraph ID to each sentence through all the documents included in the document set storage unit 1. This is to assign a unique sentence ID. If the number of documents is large, the number of sentences is enormous, so if the sentence ID is encoded as an integer, it will have a large value. As a method of assigning the maximum value of the sentence ID to the document, a unique document ID is assigned to each document through all the documents included in the document set storage unit 1 and each paragraph is set to be unique within the document. Give ID,
A method of assigning a unique sentence ID within a paragraph of each sentence is considered. In FIG. 2 in this embodiment, the document ID, paragraph ID, and sentence ID are assigned by the latter method.

【0023】なお、本実施形態では、個々の単語と該単
語の所在情報をテーブルで表現して形態素記憶部3に格
納しているが、本発明では該記憶をテーブル形式の表現
として限定するものではない。単語と該単語の所在に関
する情報を関連づけて記憶できるならばどのような表現
形式でもよく、他にリストや一階述語などが考えられ
る。また、所在情報に関しても、本実施形態では個々の
単語について、該単語が出現する文書、段落、そして文
を以って所在情報としているが、本発明での所在情報は
これらに限られるものではない。他に文字位置などが考
えられる。
In this embodiment, each word and the location information of the word are expressed in a table and stored in the morphological storage unit 3. However, in the present invention, the storage is limited to a table format. is not. Any expression form may be used as long as a word and information on the location of the word can be stored in association with each other, and a list, a first-order predicate, or the like may be used. Further, regarding the location information, in the present embodiment, for each word, the location information is made up of a document, a paragraph, and a sentence in which the word appears, but the location information in the present invention is not limited to these. Absent. In addition, a character position can be considered.

【0024】形態素解析処理の次に一次統計量処理を行
う(ステップS13)。一次統計量計算処理では、形態
素記憶部3に記憶された単語と該単語の所在情報に基づ
き、単語の出現に関する一次統計量を計算する。本実施
形態において一次統計量計算は、図3に示すようなテー
ブルの生成と該テーブルに基づく計算によって行われ
る。図3のテーブルは、形態素記憶部3に記憶された単
語に関して、同一単語が出現する回数を計数したもので
ある。計数の方法については本発明で規定するものでは
ないが、最初に図3のようなテーブルを生成して出現回
数をすべて0にセットし、単語が出現するごとに該当す
る単語に対応して出現する回数を1だけインクリメント
する方法が考えられる。該テーブルに基づいて、個々の
単語に対し、該単語の出現回数を出現回数の合計値、す
なわち文書集合記憶部1に記憶されているすべての文書
に含まれる単語の全数で割算し、これを該単語の一次統
計量とする。
Next to the morphological analysis processing, a primary statistical processing is performed (step S13). In the primary statistic calculation process, the primary statistic regarding the appearance of the word is calculated based on the word stored in the morphological storage unit 3 and the location information of the word. In the present embodiment, the primary statistic calculation is performed by generation of a table as shown in FIG. 3 and calculation based on the table. The table in FIG. 3 is obtained by counting the number of times that the same word appears in the words stored in the morphological storage unit 3. Although the counting method is not specified in the present invention, first, a table as shown in FIG. 3 is generated, and the number of appearances is set to all 0. A method of incrementing the number of times by 1 by one can be considered. Based on the table, for each word, the number of occurrences of the word is divided by the total value of the number of occurrences, that is, the total number of words included in all documents stored in the document set storage unit 1. Is the primary statistic of the word.

【0025】なお、一次統計量は、文書集合記憶部1に
含まれるすべての文書内での個々の単語の出現の重要度
を示す統計量であれば、どのようなものでもよく、本実
施形態で説明する統計量に限定されるものではない。ま
た、一次統計量の計算法に関しても、本実施形態では出
現回数に関するテーブルを生成した後に合計によって除
すことで計算したが、これは本発明で本質的に規定され
るものではなく、一次統計量が得られるのであればどの
ような方法でもよい。他の方法として、最初に文書集合
記憶部1に記憶されているすべての文書に含まれる単語
の全数を計数しておき、単語が現れるたびに該単語に対
する統計量に、1を単語全数で除した値を加算していく
方法などが考えられる。
The primary statistic may be any statistic indicating the importance of the appearance of each word in all the documents included in the document set storage unit 1. However, the present invention is not limited to the statistic described in. Also, in the present embodiment, a calculation method of the primary statistics is calculated by generating a table relating to the number of appearances and then dividing the sum by a sum. However, this is not essentially defined in the present invention. Any method can be used as long as the amount can be obtained. As another method, first, the total number of words included in all the documents stored in the document set storage unit 1 is counted, and every time a word appears, the statistic for the word is divided by 1 by the total number of words. A method of adding the calculated values is conceivable.

【0026】一次統計量計算処理が終了すると、該一次
統計量計算処理で得られた一次統計量を用いて関連単語
選択処理を行い(ステップS15)、ユーザが興味を持
っている分野に関連の深い単語、すなわちこの場合パー
ソナルコンピュータのSCSIカードに関連の深い単語
を1個以上選択する。該関連の深い単語の選択は一次統
計量を用いて行われる。最も簡単なのは、一次統計量と
してあるしきい値よりも大きい値を持つ単語を選択する
ことであるが、本発明では選択の方法としてこれに限定
するものではない。他に、一次統計量の大きい順に一定
個数を選択する方法や、一次統計量の度数分布からしき
い値を動的に決定して該閾値以上の一次統計量を持つ単
語を選択する方法などが考えられる。更に、ここで得ら
れた個々の単語に関する一次統計量の他に、すでに広く
一般に開示されている日常語や専門用語に関する統計量
を利用し、該一次統計量を補正して単語選択に利用する
方法なども考えられる。
When the primary statistic calculation process is completed, a related word selection process is performed using the primary statistic obtained by the primary statistic calculation process (step S15), and a related word selection process is performed for the field in which the user is interested. One or more deep words, in this case words deeply related to the SCSI card of the personal computer, are selected. The selection of the closely related word is performed using primary statistics. The simplest is to select a word having a value larger than a certain threshold as a primary statistic, but the present invention is not limited to this. In addition, a method of selecting a certain number in descending order of the primary statistic, a method of dynamically determining a threshold from the frequency distribution of the primary statistic, and selecting a word having a primary statistic that is equal to or larger than the threshold, etc. Conceivable. Furthermore, in addition to the primary statistics on individual words obtained here, statistics on everyday words and technical terms already widely disclosed are used, and the primary statistics are corrected and used for word selection. Methods are also conceivable.

【0027】次に、関連単語選択処理によって得られた
単語の集合から初期グラフ生成処理によって初期オント
ロジグラフを生成してグラフ作業記憶部5に格納する
(ステップS17)。初期グラフは図4に示すように、
ユーザが興味を持っている領域を代表する単語、この場
合には「SCSI」をルート・ノードし、個々の関連単
語に対応するに対して、ルート・ノードから「関連」ラ
ベルのついたリンクを張ったものなどが考えられる。た
だし、初期グラフの生成法は本発明においてここで説明
した方法に限定されるものではなく、単語の品詞情報を
利用して、単なる「関連」よりもより具体的なラベルを
つける方法や、すでに広く一般に開示されている日常語
や専門用語の言語体系を利用して、より複雑な構造を持
った初期グラフを生成する方法なども考えられる。
Next, an initial ontology graph is generated from the set of words obtained by the related word selection processing by the initial graph generation processing and stored in the graph work storage unit 5 (step S17). The initial graph is shown in FIG.
The root node is a word representing the region of interest to the user, in this case "SCSI", and for each related word, a link labeled "Related" is added from the root node. Stretched ones are conceivable. However, the method of generating the initial graph is not limited to the method described here in the present invention, and a method of using the part of speech information of a word to give a more specific label than mere “relation”, A method of generating an initial graph having a more complicated structure using the language system of everyday words and technical terms widely disclosed to the public may be considered.

【0028】グラフ作業記憶部5に初期グラフが格納さ
れると、次のステップS19の共起統計量計算処理にお
いて関連単語として選択され初期グラフのノードとなっ
ている単語の集合に対し、該単語集合から取り出したあ
らゆる2つの単語の組に関して同時出現についての統計
量、すなわち共起統計量を計算する。共起統計量は、最
も簡単には2つの単語が出現する文書の延べ数に対する
該2つの単語が同時に出現する文書の延べ数の割合で定
義できるが、本発明における共起統計量はここで説明し
たものに限定されるわけではない。他に、2つの単語が
出現する段落の延べ数に対する該2つの単語が同時に出
現する段落の延べ数の割合、また、2つの単語が出現す
る文の延べ数に対する該2つの単語が同時に出現する文
の延べ数の割合なども考えられるし、これらの割合の線
形結合なども考えられる。
When the initial graph is stored in the graph work storage unit 5, a set of words that are selected as related words and are nodes of the initial graph in the co-occurrence statistic calculation processing in the next step S 19 are added to the word. Calculate statistics on co-occurrence, ie, co-occurrence statistics, for every two word sets taken from the set. The co-occurrence statistic can be most simply defined as the ratio of the total number of documents in which two words appear simultaneously to the total number of documents in which two words appear, but the co-occurrence statistic in the present invention is described here. It is not limited to things. In addition, the ratio of the total number of paragraphs where the two words appear simultaneously to the total number of paragraphs where the two words appear, and the total number of sentences where the two words appear simultaneously with respect to the total number of sentences where the two words appear And a linear combination of these ratios.

【0029】また、共起統計量計算処理と並行して類似
度計算定義を行う(ステップS21)。類似度計算処理
は、関連単語として選択され初期グラフのノードとなっ
ている単語の集合に対し、該単語集合から取り出したあ
らゆる2つの単語の組に関して、該2つの単語の類似度
を計算する。類似度は、最も簡単には、広く一般に開示
されている類語辞書を利用し、該2つの単語が類語辞書
上で類語として記述されていれば類似度1を与え、そう
でなければ類似度0とするという定義が考えられる。も
ちろん、本発明における類似度は、ここで説明した定義
に限定されるものではなく、語と語の類似関係を数値化
したものならばどのような定義でもよい。他に、広く一
般に開示されている単語分類木を利用し、該2つの単語
の分類木上での距離の逆数を類似度とすることなどが考
えられる。
Further, a similarity calculation definition is performed in parallel with the co-occurrence statistics calculation processing (step S21). The similarity calculation process calculates the similarity between two words extracted from the word set for a set of words selected as related words and serving as nodes of the initial graph. The similarity is most simply obtained by using a widely-disclosed synonym dictionary. If the two words are described as synonyms in the thesaurus, a similarity of 1 is given; It is possible to define Of course, the similarity in the present invention is not limited to the definition described here, but may be any definition as long as the similarity between words is digitized. Alternatively, it is conceivable to use a word classification tree that is widely and generally disclosed, and use the reciprocal of the distance between the two words on the classification tree as the similarity.

【0030】なお、本実施形態においては、共起統計量
計算処理と類似度計算処理は並行して処理すると説明し
たが、これは、本発明において、該2つの処理が初期グ
ラフ生成処理とグラフ変換および関係ラベル付与処理と
の間で行われなければならないことだけを規定するもの
である。すなわち、本発明において、該2つの処理は、
必ずしも同時並行に行う必要はない。共起統計量計算処
理を行って類似度計算処理を行ってもよいし、逆に類似
度計算処理を行ってから共起統計量計算処理を行っても
よい。
In the present embodiment, the co-occurrence statistic calculation process and the similarity calculation process have been described as being performed in parallel. However, this is because in the present invention, the two processes are the initial graph generation process and the graph generation process. It only defines what must be done between the conversion and the relation labeling process. That is, in the present invention, the two processes are:
It is not always necessary to perform it in parallel. The similarity calculation process may be performed by performing the co-occurrence statistic calculation process, or the co-occurrence statistic calculation process may be performed after performing the similarity calculation process.

【0031】共起統計量計算処理と類似度計算処理が完
了すると、次にグラフ変換処理および関係ラベル付与処
理を行う(ステップS23)。この処理は、グラフ作業
記憶部5に記憶されたグラフに対し、共起統計量計算処
理(ステップS19)により計算された共起統計量およ
び類似度計算処理(ステップS21)により計算された
類似度を利用して、グラフ変換とラベルの付与を行う処
理である。
When the co-occurrence statistic calculation processing and the similarity calculation processing are completed, next, a graph conversion processing and a relation label assignment processing are performed (step S23). This processing is based on the co-occurrence statistic calculated by the co-occurrence statistic calculation processing (step S19) and the similarity calculated by the similarity degree calculation processing (step S21) for the graph stored in the graph work storage unit 5. This is a process for performing graph conversion and label assignment using the above.

【0032】図5および図6にグラフ変換および関係ラ
ベル付与の例を示す。まず、図6において、初期グラフ
において単語「SCSI」から単語「カード」へは「関
連」リンクが張られ、単語「SCSI」から単語「A
社」へも「関連」リンクが張られている。ここで、共起
統計量計算処理の結果から単語「カード」に対する単語
「A社」の共起統計量が大きいことがわかると、単語
「A社」は単語「カード」に包含されると判断できるた
め、単語「SCSI」から単語「A社」へのリンクを取
り外し、単語「カード」から単語「A社」へのリンクを
張るというグラフ変換を行う。また、単語「カード」と
単語「A社」との関係は「A社」の品詞が固有名詞であ
ることからインスタンスと判断し、ラベル「インスタン
ス」を付与する。
FIGS. 5 and 6 show examples of graph conversion and relation labeling. First, in FIG. 6, in the initial graph, a “related” link is provided from the word “SCSI” to the word “card”, and the word “A” is converted from the word “SCSI”.
There is also a "related" link to "company." Here, when it is found from the result of the co-occurrence statistic calculation process that the co-occurrence statistic of the word “A” for the word “card” is large, it is determined that the word “A” is included in the word “card”. Since it is possible, the graph conversion is performed by removing the link from the word "SCSI" to the word "Company A" and linking the word "Card" to the word "Company A". The relationship between the word “card” and the word “company A” is determined to be an instance because the part of speech of “company A” is a proper noun, and a label “instance” is assigned.

【0033】図6では、初期グラフにおいて単語「SC
SI」から単語「高い」は「関連」リンクが張られ、単
語「SCSI」から単語「安い」へも「関連」リンクが
張られている。類似度計算処理の結果から単語「高い」
と単語「安い」の類似度が相互に高いことが得られる
と、単語「高い」と単語「安い」はより結び付きが強く
何らかの上位概念に包含されることがわかるので、単語
「SCSI」と、単語「高い」および単語「安い」の間
に新たなノードを割り込ませる形でグラフを変換する。
新たに割り込ませたノードには、広く一般に開示されて
いる単語分類木などを参照して、単語「高い」と単語
「安い」を包含する単語「値段」をラベルとして付与す
る。単語「値段」から単語「高い」および単語「安い」
へのリンクには、包含関係を示す「包含」を付与し、ま
た広く一般に開示されている単語知識を利用して単語
「値段」は物の性質を表すことを得て、単語「SCS
I」から単語「値段」へのリンクにはラベルとして「性
質」を付与する。
In FIG. 6, in the initial graph, the word "SC"
An "related" link is provided for the word "high" from "SI", and a "related" link is provided for the word "cheap" from the word "SCSI". Word "high" from the result of similarity calculation
And the word "cheap" have a high similarity to each other, it can be understood that the word "high" and the word "cheap" are more strongly connected and included in some superordinate concept. Transform the graph in such a way that a new node is interrupted between the words "high" and "low".
A word “price” including the word “high” and the word “cheap” is assigned as a label to the newly interrupted node with reference to a widely-disclosed word classification tree or the like. Word "high" and word "cheap" from word "price"
The link to is given an “inclusion” indicating an inclusion relationship, and the word “price” is obtained by using widely known word knowledge to obtain the word “SCS”.
A link from “I” to the word “price” is given “property” as a label.

【0034】以上のようなグラフ変換および関係ラベル
付与のルールをグラフ作業記憶部5に記憶されたグラフ
に繰り返し適用し、適用できるルールがなくなった場合
に、グラフ変換および関係ラベル付与処理を終了する。
なお、ここでは本実施形態におけるグラフ変換および関
係ラベル付与のルールの例を示したが、本発明において
グラフ変換および関係ラベル付与のルールはこれらに限
定されるものではない。他に、言語に関する一般的知識
および広く一般に開示されている単語に関する知識を利
用したルールが多く考えられる。
The above-described rules of graph conversion and relation label assignment are repeatedly applied to the graph stored in the graph work storage unit 5. When there are no more applicable rules, the graph conversion and relation label assignment processing ends. .
Although the example of the graph conversion and the relation label assignment rule in the present embodiment is shown here, the rule of the graph conversion and the relation label assignment in the present invention is not limited to these. There are many other rules that utilize general knowledge about languages and knowledge about widely disclosed words.

【0035】グラフ変換および関係ラベル付与処理を終
了すると、グラフ作業記憶部5に用語辞書、すなわちオ
ントロジをグラフとして格納したものが得られているこ
とになる。本実施形態において生成された用語辞書を図
7に示す。なお、生成された用語辞書をどのように出力
するかは、本発明で規定するものではない。グラフその
ままの形式でグラフィック出力装置に出力することも可
能であるが、一般には、グラフ作業記憶部5に記憶され
た状態そのまま、あるいは単純な形式変換によって、文
書理解プログラムなどの他のプログラムに渡され利用さ
れることになる。
When the graph conversion and the relation labeling process are completed, a term dictionary, that is, an ontology stored as a graph in the graph work storage unit 5 is obtained. FIG. 7 shows the term dictionary generated in the present embodiment. How to output the generated term dictionary is not specified in the present invention. Although it is possible to output the graph as it is to the graphic output device, it is generally passed to another program such as a document understanding program as it is stored in the graph work storage unit 5 or by simple format conversion. Will be used.

【0036】[0036]

【発明の効果】以上説明したように、本発明によれば、
文書を構成する各単語をその位置情報とともに格納し、
同一単語が含まれることに関する一次統計量を計算し、
該一次統計量に基づいて関連単語を選択し、この関連単
語の対象領域を表す単語のノードから各関連単語のノー
ドに有向リンクを張ったグラフを生成し、このグラフの
各2つのノードの組合せについて共起統計量を計算し、
各組合せの2つの単語の類似度を計算し、共起統計量お
よび類似度に基づいて前記グラフを変換し、リンクに関
係ラベルを付与し、オントロジとして生成し、用語辞書
を生成しているので、広い対象領域にわたる大量の文書
に対してもコンピュータによる文書の理解、検索、分
類、同合等の処理に必要とされる十分な情報を含んだ用
語辞書を生成することができる。
As described above, according to the present invention,
Each word constituting the document is stored together with its location information,
Calculate the primary statistic for containing the same word,
A related word is selected based on the primary statistic, and a graph is created in which a directed link is provided from a word node representing the target area of the related word to each related word node. Calculate co-occurrence statistics for the combinations,
Since the similarity between two words of each combination is calculated, the graph is converted based on the co-occurrence statistics and the similarity, relation labels are assigned to links, generated as an ontology, and a term dictionary is generated. It is possible to generate a term dictionary including sufficient information required for processing such as computer understanding, search, classification, and merging of a large number of documents over a wide target area.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の一実施形態に係る用語辞書生成方法の
処理の流れおよび該処理を実施するのに必要な構成要素
の一部を示した図である。
FIG. 1 is a diagram showing a flow of processing of a term dictionary generation method according to an embodiment of the present invention and a part of components necessary for performing the processing.

【図2】図1の実施形態に使用されている形態素記憶部
のテーブル構造を示す図である。
FIG. 2 is a diagram illustrating a table structure of a morphological storage unit used in the embodiment of FIG. 1;

【図3】図1の実施形態の一次統計量計算処理で一次統
計量の計算に使用される各単語の出現回数を示すテーブ
ルである。
FIG. 3 is a table showing the number of appearances of each word used for calculating a primary statistic in the primary statistic calculation process of the embodiment in FIG. 1;

【図4】図1の実施形態において初期グラフ生成処理で
生成された初期グラフを示す図である。
FIG. 4 is a diagram illustrating an initial graph generated in an initial graph generation process in the embodiment of FIG. 1;

【図5】図1の実施形態においてグラフ変換および関係
ラベル付与処理の例を示す説明図である。
FIG. 5 is an explanatory diagram illustrating an example of a graph conversion and a relation label assignment process in the embodiment of FIG. 1;

【図6】図1の実施形態においてグラフ変換および関係
ラベル付与処理の他の例を示す説明図である。
FIG. 6 is an explanatory diagram showing another example of the graph conversion and relation label assignment processing in the embodiment of FIG. 1;

【図7】図1の実施形態において生成された用語辞書を
示す図である。
FIG. 7 is a diagram showing a term dictionary generated in the embodiment of FIG. 1;

【符号の説明】[Explanation of symbols]

1 文書集合記憶部 3 形態素記憶部 5 グラフ作業記憶部 1 Document set storage unit 3 Morphological storage unit 5 Graph work storage unit

フロントページの続き (51)Int.Cl.6 識別記号 FI G06F 15/403 320D 330C 350C Continued on the front page (51) Int.Cl. 6 Identification code FI G06F 15/403 320D 330C 350C

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】 文書に用いられている単語の意味および
使われ方を記憶した用語辞書を生成する用語辞書生成方
法であって、 文書を読み込んで単語の列に分解し、該単語列の中の個
々の単語を該単語の文書中の位置情報とともに格納し、 前記単語列に含まれる単語について、該単語列に同一単
語が含まれることに関する統計量を一次統計量として計
算し、 この計算された各単語の一次統計量に基づいて、対象領
域に関連の深い単語を関連単語として選択し、 この選択した関連単語の各々をノードとし、対象領域を
代表的に表す単語のノードから前記関連単語の各々のノ
ードに対してそれぞれ有向リンクを張ったグラフを生成
し、 この生成されたグラフのノードのあらゆる2つのノード
の組合せについて、各組合せの2つの単語の前記位置情
報に基づいて該2つの単語の同時出現についての統計量
である共起統計量を計算し、 前記各組合せの2つのノードに対応する2つの単語の類
似度を計算し、 前記共起統計量および類似度に基づいて前記グラフを変
換し、リンクに関係ラベルを付与することを特徴とする
用語辞書生成方法。
1. A term dictionary generating method for generating a term dictionary that stores the meaning and usage of words used in a document, the method comprising reading a document, decomposing the word into a string of words, Is stored together with the position information of the word in the document, and for the words included in the word string, a statistic regarding that the same word is included in the word string is calculated as a primary statistic. Based on the primary statistic of each word, a word closely related to the target area is selected as a related word, and each of the selected related words is set as a node. Generates a graph in which a directed link is provided to each of the nodes. For every two-node combination of the nodes of the generated graph, the positional information of two words of each combination is obtained. Calculating a co-occurrence statistic, which is a statistic about the simultaneous appearance of the two words, calculating a similarity between two words corresponding to the two nodes of each combination, A term dictionary generation method, comprising: converting the graph based on similarity; and assigning a relation label to a link.
【請求項2】 文書に用いられている単語の意味および
使われ方を記憶した用語辞書を生成する用語辞書生成プ
ログラムを記録した記録媒体であって、 文書を読み込んで単語の列に分解し、該単語列の中の個
々の単語を該単語の文書中の位置情報とともに格納し、 前記単語列に含まれる単語について、該単語列に同一単
語が含まれることに関する統計量を一次統計量として計
算し、 この計算された各単語の一次統計量に基づいて、対象領
域に関連の深い単語を関連単語として選択し、 この選択した関連単語の各々をノードとし、対象領域を
代表的に表す単語のノードから前記関連単語の各々のノ
ードに対してそれぞれ有向リンクを張ったグラフを生成
し、 この生成されたグラフのノードのあらゆる2つのノード
の組合せについて、各組合せの2つの単語の前記位置情
報に基づいて該2つの単語の同時出現についての統計量
である共起統計量を計算し、 前記各組合せの2つのノードに対応する2つの単語の類
似度を計算し、 前記共起統計量および類似度に基づいて前記グラフを変
換し、リンクに関係ラベルを付与することを特徴とする
用語辞書生成プログラムを記録した記録媒体。
2. A storage medium storing a term dictionary generating program for generating a term dictionary storing the meaning and usage of words used in a document, wherein the document is read and decomposed into word strings. The individual words in the word string are stored together with the position information of the word in the document, and a statistic relating to the words included in the word string being included in the word string is calculated as a primary statistic. Then, based on the calculated primary statistic of each word, a word closely related to the target area is selected as a related word, and each of the selected related words is set as a node, and a word representative of the target area is selected. Generate a graph in which a directed link is provided from a node to each node of the related word, and for each combination of any two nodes of the nodes of the generated graph, each combination Calculating a co-occurrence statistic, which is a statistic about simultaneous appearance of the two words, based on the position information of the two words, and calculating a similarity between the two words corresponding to the two nodes of each combination; A recording medium storing a term dictionary generation program, wherein the graph is converted based on the co-occurrence statistics and the similarity, and a relation label is added to a link.
JP9257364A 1997-09-22 1997-09-22 Method for generating term dictionary, and storage medium recording term dictionary generation program Pending JPH1196177A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9257364A JPH1196177A (en) 1997-09-22 1997-09-22 Method for generating term dictionary, and storage medium recording term dictionary generation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9257364A JPH1196177A (en) 1997-09-22 1997-09-22 Method for generating term dictionary, and storage medium recording term dictionary generation program

Publications (1)

Publication Number Publication Date
JPH1196177A true JPH1196177A (en) 1999-04-09

Family

ID=17305365

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9257364A Pending JPH1196177A (en) 1997-09-22 1997-09-22 Method for generating term dictionary, and storage medium recording term dictionary generation program

Country Status (1)

Country Link
JP (1) JPH1196177A (en)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001075981A (en) * 1999-09-02 2001-03-23 Ntt Data Corp Retrieval system, retrieval condition receiving method and recording medium
JP2001243223A (en) * 2000-02-29 2001-09-07 Nec Corp Automatic creating device of semantic network and computer readable recording
JP2002056010A (en) * 2000-06-09 2002-02-20 Trw Inc System and method for searching and classifying vocabulary
JP2002229999A (en) * 2000-12-01 2002-08-16 Sony Computer Entertainment Inc Method and device for database construction, database construction processing program for making computer execute, computer-readable recording medium with database construction processing program recorded thereon
JP2007199885A (en) * 2006-01-25 2007-08-09 Nec Corp Information analysis knowledge management device, data structure, information analyzing device, dictionary generation method and program
US7296012B2 (en) 2002-09-05 2007-11-13 Fujitsu Limited Method of and apparatus for multimedia processing, and computer product
WO2011004529A1 (en) * 2009-07-06 2011-01-13 日本電気株式会社 Classification hierarchy re-creation system, classification hierarchy re-creation method, and classification hierarchy re-creation program
JP2012203472A (en) * 2011-03-23 2012-10-22 Toshiba Corp Document processor and program
JP2014509006A (en) * 2011-02-16 2014-04-10 エンパイア テクノロジー ディベロップメント エルエルシー Executing queries using semantically restricted relationships
WO2016125949A1 (en) * 2015-02-02 2016-08-11 숭실대학교 산학협력단 Automatic document summarizing method and server
JP2016162054A (en) * 2015-02-27 2016-09-05 日本放送協会 Ontology generation device, meta data output device, content acquisition device, ontology generation method, and ontology generation program
CN109885831A (en) * 2019-01-30 2019-06-14 广州杰赛科技股份有限公司 Key Term abstracting method, device, equipment and computer readable storage medium

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001075981A (en) * 1999-09-02 2001-03-23 Ntt Data Corp Retrieval system, retrieval condition receiving method and recording medium
JP2001243223A (en) * 2000-02-29 2001-09-07 Nec Corp Automatic creating device of semantic network and computer readable recording
JP2002056010A (en) * 2000-06-09 2002-02-20 Trw Inc System and method for searching and classifying vocabulary
JP2002229999A (en) * 2000-12-01 2002-08-16 Sony Computer Entertainment Inc Method and device for database construction, database construction processing program for making computer execute, computer-readable recording medium with database construction processing program recorded thereon
US6961464B2 (en) 2000-12-01 2005-11-01 Sony Computer Entertainment Inc. Method for creating a database such as a dictionary used for a word conversion system
US7296012B2 (en) 2002-09-05 2007-11-13 Fujitsu Limited Method of and apparatus for multimedia processing, and computer product
JP2007199885A (en) * 2006-01-25 2007-08-09 Nec Corp Information analysis knowledge management device, data structure, information analyzing device, dictionary generation method and program
US8732173B2 (en) 2009-07-06 2014-05-20 Nec Corporation Classification hierarchy regeneration system, classification hierarchy regeneration method, and classification hierarchy regeneration program
WO2011004529A1 (en) * 2009-07-06 2011-01-13 日本電気株式会社 Classification hierarchy re-creation system, classification hierarchy re-creation method, and classification hierarchy re-creation program
JP5621773B2 (en) * 2009-07-06 2014-11-12 日本電気株式会社 Classification hierarchy re-creation system, classification hierarchy re-creation method, and classification hierarchy re-creation program
US9245049B2 (en) 2011-02-16 2016-01-26 Empire Technology Development Llc Performing queries using semantically restricted relations
JP2014509006A (en) * 2011-02-16 2014-04-10 エンパイア テクノロジー ディベロップメント エルエルシー Executing queries using semantically restricted relationships
JP2012203472A (en) * 2011-03-23 2012-10-22 Toshiba Corp Document processor and program
WO2016125949A1 (en) * 2015-02-02 2016-08-11 숭실대학교 산학협력단 Automatic document summarizing method and server
JP2016162054A (en) * 2015-02-27 2016-09-05 日本放送協会 Ontology generation device, meta data output device, content acquisition device, ontology generation method, and ontology generation program
CN109885831A (en) * 2019-01-30 2019-06-14 广州杰赛科技股份有限公司 Key Term abstracting method, device, equipment and computer readable storage medium

Similar Documents

Publication Publication Date Title
CN107038229B (en) Use case extraction method based on natural semantic analysis
CN100405362C (en) New Chinese characters spoken language analytic method and device
US20220004545A1 (en) Method of searching patent documents
US20210350125A1 (en) System for searching natural language documents
Mahmood et al. Query based information retrieval and knowledge extraction using Hadith datasets
US20210397790A1 (en) Method of training a natural language search system, search system and corresponding use
JP2007047974A (en) Information extraction device and information extraction method
JPH1196177A (en) Method for generating term dictionary, and storage medium recording term dictionary generation program
Zehtab-Salmasi et al. FRAKE: fusional real-time automatic keyword extraction
JP4005343B2 (en) Information retrieval system
Al_Janabi et al. Pragmatic text mining method to find the topics of citation network
JP2000194721A (en) Device and method for classifying document group
JP2006190146A (en) System, method and program for acquiring paraphrasing expression
Fu et al. Domain ontology learning for question answering system in network education
MalarSelvi et al. Analysis of Different Approaches for Automatic Text Summarization
Jebbor et al. Overview of knowledge extraction techniques in five question-answering systems
Shao et al. An efficient expansion word extraction algorithm for educational video
Koster et al. Normalization and matching in the DORO system
JP2005025555A (en) Thesaurus construction system, thesaurus construction method, program for executing the method, and storage medium with the program stored thereon
JP4543819B2 (en) Information search system, information search method, and information search program
JP2002108894A (en) Device and method for sorting document and recording medium for executing the method
IO et al. Performance evaluation of an improved model for keyphrase extraction in documents
Vetulani et al. NLP Tools for Lexical Structure Studies of the Literary Output of a Writer. Case Study: Literary Works of Tadeusz Boy-Żeleński and Julia Hartwig
JP2003263428A (en) Method and device for interpreting meaning by collation with sentence pattern, computer program for carrying out the method, and storage medium recording computer program for carrying out the method
Aghdam et al. Persian Semantic Role Labeling Using Transfer Learning and BERT-Based Models

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040406