JP3893600B1 - Base database generation method, base list generation method and apparatus, and computer program - Google Patents
Base database generation method, base list generation method and apparatus, and computer program Download PDFInfo
- Publication number
- JP3893600B1 JP3893600B1 JP2006079401A JP2006079401A JP3893600B1 JP 3893600 B1 JP3893600 B1 JP 3893600B1 JP 2006079401 A JP2006079401 A JP 2006079401A JP 2006079401 A JP2006079401 A JP 2006079401A JP 3893600 B1 JP3893600 B1 JP 3893600B1
- Authority
- JP
- Japan
- Prior art keywords
- word
- base
- data
- storage means
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【課題】コンピューターを用いて文章の意味構造解析処理を実現するための意味位相概念データを生成する方法を得る。
【解決手段】単語とこの単語の意味を説明する一つ以上の語釈文とを関連付けて記憶する記憶手段を備えたコンピューターによって単語の基底データベースを生成する方法であって、記憶手段から単語を読み出すステップ、読み出した単語に関連付けて記憶されている語釈文を記憶手段から読み出すステップ、読み出した語釈文を形態素解析処理により単語分割するステップ、分割された単語が基底に該当するか否かを判断するステップ、判断ステップで基底に該当した単語を読み出した単語に対する基底として関連付けるステップ、分割した単語が基底に該当しない場合に当該単語が基底に該当するまで上記のステップを再帰的に行うステップとを有する基底データベース生成方法による。
【選択図】図6A method for generating semantic phase conceptual data for realizing semantic structure analysis processing of a sentence using a computer is obtained.
A method for generating a base database of words by a computer having storage means for storing a word and one or more word sentences explaining the meaning of the word in association with each other, and reading the word from the storage means A step, a step of reading out a word sentence stored in association with the read word from the storage means, a step of dividing the read word sentence by a morphological analysis process, and determining whether the divided word corresponds to a base A step of associating a word corresponding to the base in the determination step as a base for the read word, and a step of recursively performing the above steps until the word corresponds to the base when the divided word does not correspond to the base. According to the base database generation method.
[Selection] Figure 6
Description
本発明は、コンピューターによる文章の意味構造解析処理に用いる意味位相概念データと、意味位相概念データの生成に用いる基底リストを生成する方法及びその装置、コンピュータプログラムを提供することを目的とする。 SUMMARY OF THE INVENTION An object of the present invention is to provide a method and apparatus for generating semantic phase concept data used for semantic structure analysis processing of a sentence by a computer, and a base list used for generating semantic phase concept data, and a computer program.
近年、コンピューター技術の発達に伴い、文章解析のコンピューター処理に関する研究が盛んに行われている。コンピューターによる高精度な文章解析処理は、類似の文章を検索することができるシステム等への応用が期待されている。文章構造の解析を単語レベルのマッチング処理によるのではなく、文章そのものの意味概念の解析をコンピューターによって実現できれば、従来の検索システムによる検索結果のように、検索キーワードが単に含まれているだけでヒットしてしまうことを排除することができ、検索文章の意味に近いものだけを最適に検出することができるようになる。このようにコンピューターを用いた意味概念解析処理を検索システムに応用すると、従来の単語キーワード検索では得られなかったような検索結果を得ることが出来る。また、コンピューターを用いた意味概念検索処理を用いて、多量な文章で構成される文書(例えば論文)を所定の文字数で自動的に要約する処理を、文字数を指定するだけで、当該論文の意味合いの類似性を保ったまま行なうことができるシステムなどへの応用も期待できる。上記のように文章の解析処理をコンピューターによって行うシステムを実現することができれば産業発展に多大なる貢献を期待することができる。このため、高精度な解析技術とそれを実現するコンピュータプログラムが必要となる。 In recent years, with the development of computer technology, research on computer processing for sentence analysis has been actively conducted. High-precision sentence analysis processing by a computer is expected to be applied to a system that can search for similar sentences. If the analysis of the sentence structure is not based on word level matching processing but the analysis of the semantic concept of the sentence itself can be realized by a computer, it will be a hit only by including the search keyword as in the search result by the conventional search system. This makes it possible to eliminate only the fact that the search text is close to the meaning. By applying the semantic concept analysis process using a computer to a search system in this way, it is possible to obtain a search result that cannot be obtained by a conventional word keyword search. In addition, the process of automatically summarizing a document composed of a large number of sentences (for example, a paper) with a predetermined number of characters using a semantic concept search process using a computer can be performed by simply specifying the number of characters. Application to a system that can be performed while maintaining the similarity is also expected. If a system that performs sentence analysis processing by a computer as described above can be realized, a great contribution to industrial development can be expected. For this reason, a highly accurate analysis technique and a computer program for realizing it are necessary.
コンピューターを用いた文章解析技術に関しては従来から種々の発明があり、これら文章解析技術の中で周知技術に単語シソーラス辞書がある。単語シソーラス辞書とは、単語の同義語・類義語を定義するものであって、この単語シソーラス辞書に含まれるデータ(単語群)によって、高精度な解析結果を得ることができる。従って高精度な単語シソーラス辞書を生成することが必要になる。この単語シソーラス辞書の生成方法の一例を示す。膨大な量の文書データ(例えば数十万件もの新聞記事)に含まれる文章を解析して、この文章に含まれる単語同士の関連(同時発生度合いなど)を解析して生成するものが知られている(例えば特許文献1参照)。特許文献1に記載の発明は、単語シソーラス辞書データ生成方法において、統計的手法を用いることを特徴としている。新聞記事などの文書データに含まれる単語それぞれに対して、文書データ中に出現する頻度を計測し、各単語間で同一文書内に出現する確率(共起確率)を計算し、この確率を用いて単語間の意味的距離をベクトル演算によって算定する。この各単語間の距離に基づく構造を数値化したデータを単語シソーラス辞書とするものである。このようにして生成した単語シソーラス辞書を用いると、解析対象の文書中に含まれる単語により、統計的に近い文書を特定することが可能になる。従ってある文書に含まれる単語とその単語によって構成される文書に類似する構造を持つ別の文書をコンピューターによって判定することが可能となる。
There have been various inventions related to sentence analysis technology using a computer. Among these sentence analysis techniques, a well-known technique is a word thesaurus dictionary. The word thesaurus dictionary defines synonyms and synonyms of words, and highly accurate analysis results can be obtained from data (word groups) included in the word thesaurus dictionary. Therefore, it is necessary to generate a highly accurate word thesaurus dictionary. An example of a method for generating this word thesaurus dictionary will be shown. It is known to analyze a sentence contained in a huge amount of document data (for example, hundreds of thousands of newspaper articles) and analyze a relation (such as the degree of coincidence) between words contained in this sentence. (For example, refer to Patent Document 1). The invention described in
上記発明を用いて生成したデータ(単語シソーラス辞書)には、当然ながら偏差(誤差)が内在することになる。即ち、生成に使用する文書データ内に出現する単語の出現頻度にはその文書の属性によって影響を受けるため、偏差が生じるからである。このような文書の属性は新聞記事であれば、その記事の内容自体に関わるものであるので排除することは困難である。従って上記発明を用いる場合、偏差を是正するために生成するデータの正規化を行う必要がある。しかし正規化を行っても偏差を全く無くすことは不可能であり、単語の出現頻度を求める為に使用する文書データ(例えば新聞記事)の内容や関連がそのまま統計処理を行う情報の質に反映されてしまう。また、各単語の意味自体を全く考慮していない方法であるため、統計上偶発的に関連性を持った意味的に全く異なる単語同士を「関連の有る単語」として認識し、それによって単語シソーラス辞書を生成してしまうことになる。 The data (word thesaurus dictionary) generated using the above invention naturally has a deviation (error). That is, since the appearance frequency of words appearing in the document data used for generation is affected by the attribute of the document, a deviation occurs. If such a document attribute is a newspaper article, it is difficult to exclude it because it relates to the content of the article itself. Therefore, when the above invention is used, it is necessary to normalize the data to be generated in order to correct the deviation. However, it is impossible to eliminate the deviation at all even if normalization is performed, and the contents and relations of the document data (for example, newspaper articles) used to obtain the appearance frequency of the word are reflected in the quality of the information to be statistically processed as it is. Will be. In addition, since the meaning of each word itself is not considered at all, statistically accidentally related semantically different words are recognized as “related words” and thereby a word thesaurus. A dictionary will be generated.
このように上記統計的手法を用いて生成した単語シソーラス辞書を用いて、文章解析処理を行う場合、辞書データ(上記例における単語シソーラス)の生成に用いた文書データの属性・嗜好によって、文章解析の結果の精度が落ちることになる。上記手法を用いて行う文章解析処理で解析精度を向上させることは困難である。 When sentence analysis processing is performed using the word thesaurus dictionary generated using the statistical method as described above, sentence analysis is performed according to the attribute / preference of the document data used to generate dictionary data (word thesaurus in the above example). The accuracy of the result will be reduced. It is difficult to improve the analysis accuracy by the sentence analysis process performed using the above method.
そこで本発明は、統計的手法を用いた文章解析手段の欠点を解消し、解析精度に優れた文章解析処理を実現することができる意味位相概念データである基底データベースの生成方法及び、基底データベースに用いる基底リストの生成方法とその装置、プログラムを提供することを目的とする。 Therefore, the present invention eliminates the shortcomings of sentence analysis means using statistical methods, and generates a base database that is semantic phase concept data capable of realizing sentence analysis processing with excellent analysis accuracy, and a base database. It is an object of the present invention to provide a method of generating a base list to be used, an apparatus thereof, and a program.
本発明は、単語とこの単語の意味を説明する一つ以上の語釈文とを関連付けて記憶する記憶手段を備えたコンピューターにより、この単語の基底データベースを生成する方法であって、上記コンピューターが備える記憶手段から単語を読み出すステップと、読み出した単語に関連付けて記憶されている語釈文を上記記憶手段から読み出すステップと、読み出した語釈文を形態素解析処理により単語分割するステップと、上記分割された単語が基底に該当するか否かを判断するステップと、上記判断ステップで基底に該当すると判断された単語を上記読み出した単語に対する基底として関連付けるステップと、分割した単語が基底に該当しない場合には当該単語が基底に該当するまで上記のステップを再帰的に行うステップとを有することを主な特徴とする。 The present invention is a method for generating a base database of a word by a computer including a storage unit that stores a word and one or more word sentences that explain the meaning of the word in association with each other. A step of reading a word from the storage means, a step of reading a word sentence stored in association with the read word from the storage means, a step of dividing the read word sentence by a morphological analysis process, and the divided word Determining whether or not the word corresponds to the base, associating the word determined to be the base in the determination step as a base for the read word, and if the divided word does not correspond to the base, Recursively performing the above steps until the word falls into the base. And features.
また、単語とこの単語の意味を説明する一以上の語釈文を関連付けて記憶する第一記憶手段、単語とその単語の出現頻度を関連付けて記憶する第二記憶手段、基底リストを記憶する第三記憶手段とを備えたコンピューターにより、単語の基底データベース生成に用いる基底リストを生成する方法であって、上記コンピューターが、上記第一記憶手段より、単語を読み出すステップと、上記第一記憶手段から読み出した単語に関連付けて記憶されている語釈文を上記読み出す語釈文読み出しステップと、上記読み出した語釈文を単語に分割する単語分割ステップと、上記分割した単語を第二記憶手段に登録するステップと、上記分割した単語に対応する語釈文を第一記憶手段から読み出すステップと、上記読み出した語釈文に対して単語分割処理、単語登録処理、語釈文データ読出し処理を再帰的に行うステップと、上記第二記憶手段に記憶した単語の中から登録回数が多いものを基底として抽出し、第三記憶手段の基底リストに登録するステップとを有することを特徴とする。 In addition, a first storage means for storing the word and one or more word explanations explaining the meaning of the word in association with each other, a second storage means for storing the word and the appearance frequency of the word in association with each other, and a third storage for storing the base list A method of generating a base list for use in generating a base database of words by a computer having storage means, wherein the computer reads a word from the first storage means, and reads from the first storage means Reading a reading of the sentence stored in association with the word, a word reading step for dividing the read word sentence into words, a step of registering the divided word in a second storage means, A step of reading out the sentence corresponding to the divided word from the first storage means, and a word dividing process on the read out sentence. , Recursively performing word registration processing and word interpretation data reading processing, and extracting from the words stored in the second storage means as a base, and registering them in the base list of the third storage means And a step of performing.
本発明によれば、各単語を構成する意味概念を定量的に扱うことができるように、各単語の意味を構成する「基底」を明らかにすることができる。これによって基底を用いた文章解析処理にコンピューターを用いることが可能となり、これまでの文章解析処理では得ることができなかった意味概念解析処理を行うことが出来る。 According to the present invention, it is possible to clarify the “base” constituting the meaning of each word so that the semantic concept constituting each word can be handled quantitatively. This makes it possible to use a computer for sentence analysis processing using the base, and to perform semantic concept analysis processing that could not be obtained by conventional sentence analysis processing.
以下、図面を参照しながら、本発明にかかる基底データベース生成方法の実施形態について説明する。図1は本発明に係る基底データベース生成装置の構成を示す機能ブロック図である。基底データベース生成装置1は本発明にかかる基底データベース生成方法を実行する基底データベース生成プログラム2を搭載したコンピューターによって構成される。図1に示す各機能ブロックは、本発明に係る基底データベース生成プログラムと当該コンピューターのハードウェアが協働して処理を実行することにより実施される。
Hereinafter, embodiments of a base database generation method according to the present invention will be described with reference to the drawings. FIG. 1 is a functional block diagram showing a configuration of a base database generation apparatus according to the present invention. The base
図1において基底データベース生成装置1は辞書データ記憶部10、基底データベース記憶部30、辞書データ読み出し部11、形態素解析部12、表記ゆれ補正部13、探査情報蓄積部14、基底判断部15、基底登録部16、終了条件判断部17、基底リスト18を有してなる。
In FIG. 1, the base
辞書データ記憶部10は、「見出し語」となる単語データ(見出し語データ)と「語釈文」となる文章データ(語釈文データ)とを関連付けて記憶する辞書データを記憶する。語釈文は見出し語である単語の意味解釈を説明する一以上の文章で構成される。即ち、語釈文データは見出し語データの意味解釈を説明する文章データ群によって構成される。辞書データ記憶部10は、本発明に係るプログラムを実行するコンピューターが備える外部記憶装置(ハードディスク装置等)上に構築され、予め辞書データを記憶しておく。辞書データは見出し語データを読み出し可能であり、また見出し語データを指定することでその見出し語データに関連付けられて記憶されている語釈文データを読み出し可能なものであって、上記のようにコンピューターが備えるハードウェア手段に記憶できるものであれば、その記憶方法や形式、データ構造は限定されない。
The dictionary
辞書データ記憶部10に記憶される辞書データの例を図2に示す。図2において辞書データ100は、見出し語データ101と、この見出し語データ101の読み方(発音)を示す読みデータ111と、この見出し語データ101の意味を説明する文章である語釈文データ102、読み出し済フラグ112を有してなる。図2において、各見出し語データ101には、読み出し済フラグ112が関連付いて記憶されている。この読み出し済フラグは本発明にかかる基底生成プログラムが当該見出し語データ101を読み出した後にフラグデータ(例えば「*」)を挿入し、当該プログラムが既にこの見出し語データ101に対する処理を行ったことを示す為に用いる。語釈文データ102は、見出し語データ101をインデックスとして辞書データ記憶部10に記憶されているので、1の見出し語データ101を指定することでそれに関連付けて記憶されている全ての語釈文データ102を読み出すことができるように構成されている。
An example of dictionary data stored in the dictionary
なお、辞書データ記憶部10を実装する記憶手段は上記例示のハードディスク装置の他に、CD−ROMなどの外部記憶装置であっても構わない。本発明に係るコンピュータプログラムの指示によって辞書データ100に対して上記所定の読み出し処理が行える装置であれば媒体は問わず本発明は同様の効果を得ることができる。
The storage means for mounting the dictionary
基底データベース記憶部30は、本発明に係るプログラムによって生成される基底データベースを格納する記憶装置である。基底データベース記憶部30に格納される基底データベースは、上記見出し語データ101に相当する単語データをインデックスとし、上記基底リスト18に含まれる単語データ18aをフィールドとするテーブル構造を有してなる。
The base database storage unit 30 is a storage device that stores a base database generated by the program according to the present invention. The base database stored in the base database storage unit 30 has a table structure in which word data corresponding to the
図3に上記記憶部30に格納される基底データベースの例を示す。図3において基底データベース400は、単語401をインデックスとして、基底402をフィールドとするテーブル構造を有する。単語401の単語の意味構成に関係する基底402に値「1」を記憶し、関係しない基底402に「0」を記憶する。基底データベース400は、単語と基底との関連付けが登録できる構造を有することができれば如何なる構造であってもよく、図3に示す例に限られない。
FIG. 3 shows an example of the base database stored in the storage unit 30. In FIG. 3, the
辞書データ読み出し部11は、上記辞書データ100に対して所定の問い合わせ処理を行う。所定の問い合わせ処理とは、見出し語データ101の読み出し処理、見出し語データ101に関連付いて記憶されている語釈文データ102を読み出す処理、読み出した見出し語データ101の読出し済フラグ112に値を挿入する処理、探査情報蓄積部14の探査済データに当該見出し語データ101を追加する処理である。また、語釈文データ102を読み出した際に探査階層情報に1を加算する処理も行う。
The dictionary
形態素解析部12は辞書データ100から読み出した語釈文データ102に対して形態素解析処理を行い、単語データに分割する処理を行う。
The morpheme analysis unit 12 performs a morpheme analysis process on the
ここで形態素解析処理について説明する。形態素解析処理は、文書を形態素と呼ばれる語の最小単位に分割し、分割した形態素の品詞を決定する処理のことである。上記形態素解析部12は語釈文データ102に対して分ち書き処理、読み付与処理、品詞付与処理を行った後、活用型と活用形があるものに関しては、活用型、活用形、基本形の情報を付与する処理を行う。この形態素解析部12によって語釈文データ102から後段の処理に用いる事ができる単語データを生成することが可能となる。形態素解析処理は既に周知となっているソフトウェアを用いても本発明は実施可能である。形態素解析部12に用いることが可能なものとして、所定の言語体系に含まれる全ての語をデータとして含む辞書データを用意し、解析対象の文書に含まれる語がその辞書データ内の語に合致するか否かの判断をし、合致した場合はその文書に含まれていた語を分割処理するソフトウェアや、大規模コーパスを基にした統計確率手法による算術的に形態素に分割し品詞を決定することで単語分割をするソフトウェアなどがある。
Here, the morphological analysis process will be described. The morpheme analysis process is a process of dividing a document into minimum units of words called morphemes and determining the part of speech of the divided morphemes. The morpheme analysis unit 12 performs segmentation processing, reading assignment processing, and part-of-speech addition processing on the
表記ゆれ補正部13は形態素解析部12によって語釈文データ102から分割して生成された単語データに対して表記ゆれの補正処理を行う。表記ゆれとは、発音や意味が同じであっても、表記が異なることを意味する。例えば「インターフェース」には「インタフェース」や「インターフェイス」という表記も存在しうる。この表記ゆれを補正するために表記ゆれ補正部13では語釈文データ102から分割された単語データの表記を見出し語データ101に合わせる処理を行う。例えば見出し語データ101が「インターフェース」という表記であれば、上記分割された単語データが「インタフェース」であった場合に、それを「インターフェース」に変換する処理を行うことをいう。
The notation fluctuation correction unit 13 performs a notation fluctuation correction process on the word data generated by dividing the
探査情報蓄積部14は、分割された単語データと上記探査階層情報を関連付けて生成される未探査リストを記憶する。未探査リストの具体例は図4に示すとおりである。図4において未探査リスト700は、未探査データ701とそれに関連する探査階層情報702によるテーブル構造を有してなる。探査階層情報は、基底判断処理を行った見出し語データ101を用いて語釈文データ102の読み出し処理を行う際に、再帰的に語釈文データ102を読み出す回数をカウントするために用いる情報である。
The search
また、探査情報蓄積部14には図示しない探査済データも蓄積する。探査済データは基底判断部15において基底判断処理を行った見出し語データ101と未探査データ701が随時蓄積されるファイルである。この探査済データは同じデータに対する基底判断処理を重複して行うことを回避する為に用いるものである。従って、未探査リスト、探査済データ共に、後に説明する本発明に係るプログラムによって所定の処理に対応することが可能で有れば、その記憶形式等は上記に限ることはない。
The search
基底判断部15は、辞書データ読み出し部11が読み出した見出し語データ101が基底に該当するか否かの判断を、基底リスト18を用いた問い合わせ処理によって行う。この処理の結果によって基底リスト18に含まれると判断された見出し語データ101を基底登録部16に渡す。また、基底判断部15は上記の問い合わせ処理を行った見出し語データ101を探査情報蓄積部14に蓄積されている探査済データに追加する処理を行う。
基底判断部15は、未探査リスト700内に記憶されている未探査データ701を読み出して、この未探査データ701を未探査リスト700から削除した後に、この未探査データ701が探査情報蓄積部14に記憶されている探査済データに含まれているか否かを確認する処理を行う。この確認処理の結果、上記未探査データ701が探査済データに含まれていなければ、この未探査データ701を探査済データに追加して上記問い合わせ処理を行う。問い合わせ処理の結果、当該未探査データ701が基底リスト18に含まれていると判断されれば当該未探査データ701を基底登録部16に渡す。上記確認処理において未探査データ701が探査済データに含まれていれば、新たに未探査リスト700から未探査データ701を読み出す処理を行う。
The base determination unit 15 determines whether or not the
The base determination unit 15 reads the
上記基底リスト18は、コンピューターが具備するメモリ上に予め記憶しておくファイルであって基底に該当する単語データがリスト形式で格納されている。基底とは、単語の意味概念を構成する素たる概念を表す単語であって、予め人間によって決定するものとする。基底リスト18は基底である単語データを1以上含んで構成され、上記基底判断部15がある単語データを用いて問い合わせ処理を行った際に、その結果(有る/無い)を判定可能な形式であれば、その記憶方法及び情報の構造はこれ限ることなく他の構造等であっても本発明の効果は同様に得ることができる。基底リスト18の例を図5に示す。図5において基底リスト18は基底である単語の単語データ18aを1以上記憶するファイル構造を有してなる。
The
基底登録部16は、上記の基底判断部15により基底であると判断された見出し語データ101または未探査データ701を基底データベース400に格納する処理を行う。基底データベースの構造は既に説明した通りである。基底登録部16は見出し語データ101または未探査データ701を基底データベースのインデックス(単語401)に追加し、当該インデックスに関連する基底401の中で上記基底判断処理において処理をした基底と同じ基底401に該当するフィールドに1を追加し、該当しない基底402のフィールドに0を追加する処理を行う。
The
終了条件判断部17は、上記未探査リスト700に未探査データ701が存在するか否かの問い合わせ処理を行う。この処理の結果、未探査データ701が抽出されなければ(つまり未探査データ701が一つも存在しなければ)、探査済データをクリアして上記探査階層情報の値をゼロにする。また、終了条件判断部17は、辞書データ100の読み出し済フラグ112が空白な見出し語データ101があるか否かを問い合わせる処理を行う。この処理の結果、読み出しフラグ112が空白な見出し語データ101が無ければ本発明に係るプログラムの動作を終了させる。
The end condition determination unit 17 performs an inquiry process as to whether or not the
上記機能を具備する基底データベース生成装置1によって実施する基底データベース生成方法について説明する。図6は基底データベース生成方法を実行する本発明に係るコンピュータプログラムの処理の流れを示すフローチャートである。
A base database generation method performed by the base
先ず、ステップ201は見出し語読み出し処理である。ステップ201において辞書データ読み出し部11は辞書データ記憶部10に記憶している辞書データ100の記憶領域先頭位置の見出し語データ101を読み出して、読み出し済フラグ112に「*」を追加する。見出し語データ101の読み出しは辞書データ100に記憶されている順番で行う。
First,
ステップ202は基底判断処理である。ステップ202において、基底判断部15は上記にて読み出された見出し語データ101が、基底リスト18に含まれる単語データに合致するか否かを問い合わせる処理を行う。この問い合わせ処理の結果、基底リスト18から上記見出し語データ101が抽出されれば、基底に該当するので、この見出し語データ101を基底登録部16に渡す。上記問い合わせ処理の結果、見出し語データ101が抽出されなければ、基底に該当しないので、この見出し語データ101を辞書データ読み出し部11に渡す。上記問い合わせ処理をした当該見出し語データ101を基底判断部15は探査済データに追加する。
Step 202 is a basic judgment process. In
ステップ204は基底登録処理である。ステップ204において基底登録部16は基底判断部15から渡された見出し語データ101を基底データベース記憶部30に記憶されている基底データベース400のインデックス(単語401)に追加し、上記基底判断処理に用いられた基底リスト18内の単語データと同一の単語データである基底402に「1」を追加し、それ以外の基底402に「0」を追加する処理を行う。
Step 204 is a base registration process. In
ステップ213は全見出し語終了判断処理である。ステップ213において終了条件判断部17は、見出し語データ101に関連付いて記憶されている読み出し済フラグ112に空欄があるか否かの問い合わせ処理を行う。この処理の結果、空欄があればその見出し語データ101は基底判断処理が行われていないことになるので、本プログラムの処理をステップ201に再帰させる。また上記処理の結果、読み出し済フラグ112に空欄が無ければ、本プログラムを終了させる。
Step 213 is an all headword end determination process. In step 213, the end condition determination unit 17 performs an inquiry process as to whether or not there is a blank in the
次に、上記ステップ202において見出し語データ101が基底に該当しなかった場合の処理について説明する。
Next, processing when the
ステップ203は語釈文読み出し処理である。ステップ203において辞書データ読み出し部101は、先に読み出した見出し語データ11に関連付いて記憶されている語釈文データ102を読み出す処理を行う。
Step 203 is a sentence reading process. In step 203, the dictionary
ステップ205は形態素解析処理である。ステップ205において形態素解析部12はステップ203において読み出した語釈文データ102に対して形態素解析処理を行う。この形態素解析処理によって当該語釈文データ102は単語データに分割される。
Step 205 is a morphological analysis process. In step 205, the morpheme analysis unit 12 performs morpheme analysis processing on the
ステップ206は表記ゆれ補正処理である。ステップ206において表記ゆれ補正部14は形態素解析部13によって生成された単語データの表記を、見出し語データ101の表記に合わせる補正処理を行う。
Step 206 is a notation fluctuation correction process. In step 206, the notation
上記ステップ205、206によって得る結果の例を図7に示す。図7は図1に示した語釈文データ106に対して上記処理を行った結果例である。図7に示すように解析結果データ600は語釈文106から分割した単語データ(形態素)毎に、基本形、読み、品詞分類、品詞細分類、活用型の有無とその型名、活用形の有無とその形名を関連づけて構成される。この解析結果データ600に含まれる形態素の中で、語の意味概念に直接関与しない形態素である非自立語(例えば助詞や助動詞)、形式名詞(例えば「こと」)、補助用言(例えば「いる」「ある」「ない」)を除去した形態素の基本形、すなわち「電子計算機」、「異なる」、「機器」、「装置」、「あいだ」、「接続」、「する」、「交信」、「制御」、「可能だ」、「装置」、「ソフトウェア」に対して、ステップ206において表記ゆれ補正処理を行い、その結果「電子計算機」、「異なる」、「機器」、「装置」、「間」、「接続」、「する」、「交信」、「制御」、「可能だ」、「装置」、「ソフトウェア」という単語データを探査情報蓄積部14の未探査リスト700に未探査データ701として記憶する。
An example of the result obtained by the above steps 205 and 206 is shown in FIG. FIG. 7 shows an example of a result obtained by performing the above processing on the word interpretation data 106 shown in FIG. As shown in FIG. 7, the analysis result data 600 includes basic form, reading, part-of-speech classification, part-of-speech subclassification, presence / absence of utilization type, type name, presence / absence of utilization form for each word data (morpheme) divided from the interpretation sentence 106 It is constructed by associating its model name. Among the morphemes included in the analysis result data 600, non-independent words (for example, particles and auxiliary verbs) that are morphemes that are not directly related to the semantic concept of words, formal nouns (for example, “ko”), auxiliary words (for example, “is” ”“ Yes ”“ No ”), ie“ electronic computer ”,“ different ”,“ equipment ”,“ device ”,“ between ”,“ connect ”,“ do ”,“ communication ”,“ In step 206, the correction of notation is performed on “control”, “possible”, “device”, and “software”. As a result, “electronic computer”, “different”, “equipment”, “device”, “interval” are performed. ”,“ Connect ”,“ Yes ”,“ Communication ”,“ Control ”,“ Available ”,“ Apparatus ”,“ Software ”as
上記の処理で語釈文データ102から分割された単語データに対して基底判断処理を行った結果、この単語データがさらに基底ではないと判断された場合に、この単語データを用いて再度語釈文データ102を読み出す処理を行うことになる。このように基底に該当する単語データに行き着くまで語釈文読み出し処理から基底判断処理までを繰り返す必要がある。このためステップ203は再帰的に処理されることになる。この時、最初に読み出した語釈文データ102から分割された単語データの探査階層情報を「1」として、再帰的に語釈文データ102を読み出すごとに、1を加算することで再帰回数を計測可能にする情報が探査階層情報である。
As a result of performing the base determination process on the word data divided from the
ステップ207は探査済判断処理である。ステップ207において基底判断部15は未探査リスト700に記憶されている未探査データ701と、その未探査データ701に関連付いて記憶されている探査階層情報702を読み出して、当該未探査データ701を未探査リスト700から削除した後に、探査情報蓄積部14に記憶されている図示しない探査済データに上記の未探査データ701が既に含まれているか否かの確認処理を行う。この処理の結果、探査済データ内に合致する単語データが存在しなければ上記未探査データ701はまだ基底判断処理を行っていないことになるので、上記未探査データ701を探査済データに追加してステップ208へ移行する。
Step 207 is a search completed determination process. In
ステップ208は基底判断処理である。ステップ208において基底判断部15は、先の処理で読み出した未探査データ701に対する基底判断処理を行う。基底判断処理の詳細は既に説明したステップ202と同様であり、続くステップ209は既に説明したステップ204の基底登録処理と同じ処理を行う。
Step 208 is a base determination process. In
ステップ210は探査終了判断処理である。ステップ210において、終了条件判断部17は先の処理において基底判断部15が探査情報記憶部14から読み出した探査階層情報702(図4参照)が、所定の数値以下であるかどうかの判断を行う。ここで所定の数値は「5」とする。このように探査階層情報を用いて再帰的に語釈文読み出し処理を行う回数を制限する目的は本発明の実施を効率的に行う為であって上記所定の数値はこれに限るものではなく、本発明の必須要件ではない。
Step 210 is a search end determination process. In step 210, the end condition determination unit 17 determines whether or not the exploration hierarchy information 702 (see FIG. 4) read from the exploration
ステップ211は見出し語確認処理である。ステップ211において終了条件判断部17は、上記処理に用いた未探査データ701が見出し語データ101として辞書データ100に含まれているか否かを問い合わせる処理を行う。
Step 211 is a headword confirmation process. In
ステップ212は終了判断処理である。ステップ212において終了条件判断部17は、探査情報蓄積部14に記憶する未探査リスト700に1以上の未探査データ701が存在するか否かの問い合わせ処理を行う。この処理の結果、未探査データ701が一つも存在しなければ、探査済データをクリアして上記探査階層情報の値をゼロにする。
Step 212 is an end determination process. In
ステップ213は既に説明したとおり全見出し語終了判断処理である。 Step 213 is all headword end determination processing as already described.
上記ステップ207からステップ212に至る処理について具体例を提示して説明する。上記ステップ207において基底判断部15は、探査情報蓄積部14に記憶する未探査リスト700の先頭位置に記憶されている未探査データ701(図4において「電子計算機」)と、この未探査データ701に関連付いて記憶されている探査階層情報(図4において「1」)とを読み出す。次に基底判断部15は読み出した未探査データ701が探査済データに含まれているか否かの問い合わせ処理を行う。
A specific example of the processing from
次のステップ208において基底判断部15は、上記未探査データ701である「電子計算機」なる単語の基底判断処理を行う。「電子計算機」は基底リスト18に含まれていないので、基底では無いと判断される(208のN)。次のステップ210において終了条件判断部17は上記探査階層情報の値が終了条件である「5以上」であるか判断する。上記のように探査階層情報は「1」なので終了条件は満たさない(210のN)。次のステップ211おいて終了条件判断部17は上記「電子計算機」が見出し語データ101に存在するか否かの問い合わせ処理を行う。辞書データ100には「電子計算機」が見出し語107として含まれているので(211のY))単語データ「電子計算機」を辞書データ読み出し部11に渡して処理はステップ203に再帰する。
In the
次に再度、ステップ203の処理を行う。ステップ203において辞書データ読み出し
部11は、見出し語データ101が「電子計算機」である語釈文データ102を読み出して、探査階層情報に1を加える。図1において読み出される語釈文データ102は語釈文108である(図2参照)。次にステップ205において形態素解析処理を行い、単語に分割された「コンピュータ」と「の」、「こと」、「。」から非自立語「の」、「。」と形式名詞「こと」を除いた「コンピュータ」に対してステップ206において表記ゆれ補正処理を行い、処理結果である「コンピューター」を探査階層情報(値「2」)と共に探査情報蓄積部14の未探査リスト700に追加記憶する。「コンピューター」を追加した状態の未探査リスト700の例を図4に示す。
Next, the process of step 203 is performed again. In step 203, the dictionary
次にステップ207において未探査リストの未探査データ701の先頭位置に記憶されている単語データ「異なる」が探査済データに含まれているか否かの問い合わせ処理を行う。上記単語データ「異なる」の基底判断処理は探査済データに含まれていないので処理はステップ208に移行する。ステップ208において基底判定部15は単語データ「異なる」が基底リスト18に含まれているか否かの判断を行う。基底リスト18に「異なる」は含まれていないので、当該単語データは基底では無いと判断される(N)。
Next, in
次にステップ210において、探査終了判断処理を行う。終了条件判断部17は「異なる」の探査階層情報が終了条件を満たすか否かの判定を行う。探査階層情報は「1」であり終了条件は満たさない。従って処理をステップ211に移行する。 Next, in step 210, search end determination processing is performed. The end condition determination unit 17 determines whether “different” search hierarchy information satisfies the end condition. The exploration hierarchy information is “1” and the termination condition is not satisfied. Therefore, the process proceeds to step 211.
次にステップ211において、辞書データ読み出し部11は「異なる」が辞書データ100の見出し語101として存在するか否か照合し、見出し語データ101に「異なる」は存在しないので処理をステップ212に移行する(N)。
Next, in
次にステップ212において、終了条件判断部17は探査情報記憶部14に記憶されている未探査リスト700に単語データが存在するか否かの判断を行う。未探査リストには単語データが存在するので処理をステップ207に移行する(212のN)。このように未探査リストに含まれる未探査データ701が無くなるまで(未探査リストの内容が空になるまで)上記処理を再帰的に継続する。ステップ207において未探査リスト中に含まれる未探査データ701が無ければ、探査済データをクリアして処理をステップ213に移行する。
Next, at
このようにして辞書データ100に含まれる全ての見出し語データ101に対する基底判断処理と、見出し語データ101に関連付いて記憶している語釈文データ102を分割した全ての単語データに対する基底判断処理を行った結果、図3に示した基底データベースが生成される。図3に示すとおり基底データベースには単語402に該当した基底402(行う、機器、色、味・・・Xn)のそれぞれに値「1」が追加されている。つまり各単語401(行う、インターフェース、単語1、単語2・・・単語m)がいかなる基底402と関連する語であるかを、数値で表現することが可能となる。すなわち、各単語の意味概念を形成する基底との関連を数値で表わすことができるので、この基底データベースを用いることで単語の持つ意味概念を数学的手法により容易に処理可能となる。
In this way, basic determination processing for all
以上説明した実施の形態によれば、辞書データから単語の意味概念データを自動構築できる効果がある。 According to the embodiment described above, there is an effect that word semantic concept data can be automatically constructed from dictionary data.
なお、この発明は上記一実施形態に限定されるものではなく、発明の要旨を変更しない範囲で終了判断条件は種々変形可能である。 The present invention is not limited to the above-described embodiment, and the end determination condition can be variously modified without changing the gist of the invention.
本発明にかかる別の実施形態について図面を用いて説明する。図8は本発明に係る基底データベース生成装置の構成を示す機能ブロック図である。基底データベース生成装置1aは本発明にかかる基底データベース生成方法を実行する基底データベース生成プログラム2aを搭載したコンピューターによって実施される。図8に示す各機能ブロックは、本発明に係る基底データベース生成プログラムと当該コンピューターのハードウェアとが協働して処理を実行することにより実施されるものである。既に説明した図1における基底データベース生成装置と異なる部分は、探査情報蓄積部14a、基底判断部15a、基底化不能データベース記憶部40である。その他の辞書データ記憶部10,辞書データ読出し部11,形態素解析部12、表記ゆれ補正部13、終了条件判断部17、基底リスト18、基底登録部16、基底データベース記憶部30は実施例1に用いた基底データベース生成装置1と同様の機能ブロックである。
Another embodiment according to the present invention will be described with reference to the drawings. FIG. 8 is a functional block diagram showing the configuration of the base database generation apparatus according to the present invention. The base database generation device 1a is implemented by a computer equipped with a base database generation program 2a for executing the base database generation method according to the present invention. Each functional block shown in FIG. 8 is implemented when the base database generation program according to the present invention and the hardware of the computer cooperate to execute processing. The parts different from the base database generation apparatus in FIG. 1 described above are a search information storage unit 14a, a base determination unit 15a, and a non-basisable database storage unit 40. The other dictionary
基底化不能データベース記憶部40は、図2に示す辞書データ100に登録されている見出し語データ101や、語釈文データ102を分割して得られる未探査データ701(図4参照)の中で、本発明に係る基底データベース生成方法ではただ1つの基底へも到達できない単語データを登録する基底化不能データベースを記憶する。基底化不能データベースは、見出し語データ101、未探査データ701による問い合わせ処理を可能なものであれば、その作成方法・記録方法・データ構造は問わない。
The non-basisable database storage unit 40 includes
探査情報蓄積部14aは、語釈文データ102から分割された単語データと、この単語データの生成元になった語釈文データ102に関連付いている見出し語データ101である読出し元の単語データ(以下「元単語データ」という)と、探査階層情報とを関連付けて生成される未探査リストを記憶する。この探査情報蓄積部14aに記憶される未探査リストの具体例を図13に示す。図13において未探査リスト700aは、未探査データ701と探査階層情報702と元単語データ703とを関連付けて記憶可能なテーブル構造を有してなる。図13(a)、(b)、(c)に示すように未探査リスト700aは元単語データ703毎に生成され、記憶される。この未探査リスト700aは、後に説明する本発明に係るプログラムによって所定の処理に対応することが可能で有れば、その記憶形式等は上記説明した形式に限ることはない。
The search information storage unit 14a reads word data (hereinafter referred to as word data 101) associated with the word data divided from the
また、探査情報蓄積部14aには図示しない探査済データも蓄積する。探査済データは基底判断部15aにおいて基底判断処理を行った見出し語データ101と未探査データ701が随時蓄積されるファイルである。この探査済データは同じデータに対する基底判断処理を重複して行うことを回避する為に用いるものである。従って、未探査リスト、探査済データ共に、後に説明する本発明に係るプログラムによって所定の処理に対応することが可能で有れば、その記憶形式等は上記に限ることはない。
In addition, searched data (not shown) is also stored in the search information storage unit 14a. The searched data is a file in which the
基底判断部15aは、辞書データ読み出し部11が読み出した見出し語データ101が基底に該当するか否かの判断を、基底リスト18を用いた問い合わせ処理によって行う。
この処理の結果によって基底リスト18に含まれると判断された見出し語データ101を基底登録部16に渡す。また、基底判断部15は、未探査リスト700a内に記憶されている未探査データ701を読み出して、この未探査データ701を未探査リスト700aから削除した後に、この未探査データ701が探査情報蓄積部14aに記憶されている探査済データに含まれているか否かを確認する処理を行う。この確認処理の結果、上記未探査データ701が探査済データに含まれていなければ、この未探査データ701を探査済データに追加して上記問い合わせ処理を行う。この問い合わせ処理の結果、当該未探査データ701が基底リスト18に含まれていると判断されれば当該未探査データ701を基底登録部16に渡す。当該未探査データ701を未探査リスト700aから削除する。また、基底化不能データベース記憶部40にアクセスして、基底化不能データベースに所定の単語データが記憶されているか否かを問い合わせる処理も行う。上記確認処理において未探査データ701が探査済データに含まれていれば、新たに未探査リスト700aから未探査データ701を読み出す処理を行う。
The base determination unit 15 a determines whether the
The
上記基底データベース生成装置1aを用いて行う基底データベース生成方法の処理の流れについて図9は基底データベース生成プログラムの処理の流れを示すフローチャートである。 FIG. 9 is a flowchart showing the processing flow of the base database generation program with respect to the processing flow of the base database generation method performed using the base database generation device 1a.
ステップ501は実施例1におけるステップ201と同様の見出し語読み出し処理である。ステップ501において辞書データ読み出し部11は辞書データ記憶部10に記憶している辞書データ100の記憶領域先頭位置の見出し語データ101を読み出して、読み出し済フラグ112に「*」を挿入する。見出し語データ101の読み出しは辞書データ100に記憶されている順番で行う。
Step 501 is a headword reading process similar to step 201 in the first embodiment. In step 501, the dictionary
ステップ502は基底データベース確認処理である。ステップ502において基底判断部15aは上記ステップ501において読み出した見出し語データ101が基底データベース400のインデックスに記憶されている否かを問い合わせる処理を行う。この処理の結果、上記見出し語データ101がインデックスに存在しなければ処理はステップ503に移行し、存在すればステップ521に移行する。
Step 502 is a base database confirmation process. In step 502, the base determination unit 15 a performs a process for inquiring whether or not the
ステップ503は基底判断処理である。実施例1におけるステップ202と同様の処理を行う。ステップ503において、基底判断部15aは上記見出し語データ101が、基底リスト18に含まれる単語データに合致するか否かを問い合わせる処理を行う。この問い合わせ処理の結果、基底リスト18から上記見出し語データ101が抽出されれば、この見出し語データ101は基底に該当するので、この見出し語データ101を基底登録部16に渡す。
Step 503 is a base determination process. Processing similar to that in
図2の辞書データ100を例に用いて上記ステップの具体的な説明を行う。見出し語データ101の先頭位置に記憶されている見出し語103「行う」を読み出して(ステップ501)、この見出し語103が基底データベースに記憶されているか確認する。本プログラムの処理を開始した段階では基底データベース400にインデックスとして登録されている単語はないので、見出し語103(行う)はインデックスに存在しないと判断され(ステップ502のN)、続くステップ503においては図5に示した基底リスト18には見出し語101「行う」は含まれているので、基底であると判断され処理はステップ504に移行することになる。
The above steps will be specifically described using the
ステップ504は基底登録処理であって、実施例1のステップ204と同様の処理を行う。続くステップ521は全見出し語終了判断処理であって、実施例1のステップ213と同様の処理を行う。
Step 504 is a base registration process, and the same process as in
ステップ521において終了条件判断部17は、見出し語データ101に関連付いて記憶されている読み出し済フラグ112に空欄があるか否かの問い合わせ処理を行う。本実施例においては、この処理の結果は空欄ありとなるので、基底判断処理が行われていない見出し語データ101が存在し全見出し語データに対する基底判断処理は未終了であるので処理はステップ501に移行する。
In step 521, the end condition determination unit 17 performs an inquiry process as to whether or not there is a blank in the
次にステップ501において見出し語103の次に記憶されている見出し語データ101「インターフェース」(見出し語105)を読み出し、ステップ502において基底データベース400に見出し語105が存在するか否かの判断を行う。基底データベース400に見出し語105は存在しないので、処理はステップ503に移行する。ステップ503において見出し語105に対する基底判断処理を行う。見出し語105は基底リスト18には含まれていないので基底ではないと判断され処理をステップ505に移行する(503のN)。
Next, in step 501, the
ステップ505は基底化不能判断処理である。ステップ505において、基底判断部15aは基底化不能データベース記憶部40に記憶している図示しない基底化不能データベースに対して、上記見出し語データ101(見出し語105)を用いた問い合わせ処理を行う。基底化データベースには「インターフェース」なる単語は存在しないため本処理結果、ステップ506に移行する。 Step 505 is a non-basisable determination process. In step 505, the basis determination unit 15 a performs an inquiry process using the entry word data 101 (entry word 105) with respect to the unbasisable database (not shown) stored in the non-basisability database storage unit 40. Since there is no word “interface” in the base database, the process proceeds to step 506 as a result of this processing.
ステップ506は語釈文読み出し処理である。このステップ506と、これに続くステップ507、ステップ508はそれぞれ既に説明したステップ203、ステップ205、ステップ206と同様の処理を行う。ステップ508によって生成された未探査データ701は、探査情報蓄積部14aに未探査リスト700aとして記憶される。未探査リスト700aは図13(a)に示す通り、未探査データ701、探査階層情報702とこの未探査データ701の元単語データ703を関連付けて記憶する。
Step 506 is a sentence reading process. In step 506 and subsequent steps 507 and 508, processing similar to that in steps 203, 205, and 206 described above is performed. The
ステップ509は探査済判断処理である。ステップ509において基底判断部15aは未探査リスト700aに記憶されている未探査データ701と、その未探査データ701に関連付いて記憶されている探査階層情報702を読み出して、当該未探査データ701を未探査リスト700から削除した後に、探査情報蓄積部14aに記憶されている図示しない探査済データに上記の未探査データ701が既に含まれているか否かの確認処理を行う。この処理の結果、探査済データ内に合致する単語データが存在しなければ上記未探査データ701はまだ基底判断処理を行っていないことになるので、この未探査データ701を探査済データに追加して処理をステップ510に移行する。
Step 509 is a search completed determination process. In step 509, the base determination unit 15a reads the
ステップ510は基底登録確認処理である。ステップ510において基底判断部15aは上記未探査リスト700に記憶される未探査データ701(電子計算機)が基底データベース400のインデックスである単語データ401に既に記憶されていて存在するか否か問い合わせ処理を行う。「電子計算機」は基底データベース400に存在しないことが判明するので、処理をステップ512に移行する。
Step 510 is a base registration confirmation process. In step 510, the base determination unit 15 a performs an inquiry process as to whether or not the unsearched data 701 (electronic computer) stored in the
ステップ512は基底判断処理であって、既に説明した実施例1のステップ208と同じ処理を行うので説明は省略する。上記の「電子計算機」は基底リスト18に含まれていないので処理はステップ514に移行する。
Step 512 is a base determination process, and the same process as that of
ステップ514は基底化不能判断処理であって、既に説明したステップ505と同じ処理を行う。ステップ514において、上記の「電子計算機」は基底化不能データベースに存在しないためステップ515に移行する。 Step 514 is a non-basisability determination process, and the same process as step 505 described above is performed. In step 514, since the “electronic computer” does not exist in the non-basisable database, the process proceeds to step 515.
ステップ515は探査終了判断処理であって、実施例1のステップ210と同じ処理を行う。ステップ515において上記「電子計算機」に関連付く探査階層情報は「1」であるため終了条件を満たさない。従って処理をステップ516に移行する。 Step 515 is search end determination processing, which is the same processing as step 210 in the first embodiment. In step 515, the exploration hierarchy information associated with the “electronic computer” is “1”, so the termination condition is not satisfied. Therefore, the process proceeds to step 516.
ステップ516は見出し語確認処理であって、実施例1のステップ211と同じ処理を行う。ステップ516において上記「電子計算機」は見出し語データ101に存在するため処理を506に移行する(N)。ステップ506では、上記「電子計算機」に該当する語釈文データ102を読み出して探査階層情報に1を加算する。
Step 516 is a headword confirmation process, which is the same as
上記ステップ506で読み出した語釈文データ102(語釈文108)を用いてステップ507、ステップ508を行い、図13(b)に示す未探査リスト700aを探査情報蓄積部14aに生成する。 Steps 507 and 508 are performed using the word interpretation data 102 (word interpretation 108) read in step 506, and the unsearched list 700a shown in FIG. 13B is generated in the search information storage unit 14a.
ステップ509において語釈文108から生成され未探査リスト(図13(b))に記憶されている未探査データ701(コンピューター)と、この未探査データ701に関連付いて記憶されている探査階層情報(値が「2」)を読み出して探査済判断処理を行う。処理の結果、単語データ「コンピューター」は探査済データには含まれていないので、上記未探査データ701(コンピューター)を探査済データに追加処理を行い、ステップ510に移行する。ステップ510の基底登録確認処理において上記「コンピューター」は基底データベース400に存在しないと判断されて処理はステップ512に移行する。
In step 509, the unexplored data 701 (computer) generated from the
ステップ512の基底判断処理において、上記「コンピューター」は基底リスト18に含まれていないので、この単語データを探査済データに追加して処理をステップ514に移行する。
In the basic determination process in step 512, since the “computer” is not included in the
ステップ514において、上記「コンピューター」は基底化不能データベースに存在しないので処理をステップ515に移行する(N)。ステップ515において探査済データは値が「2」であるので終了条件は満たさず処理をステップ516に移行する。ステップ516において、上記「コンピューター」は見出し語データ101に存在することが確認されるので処理をステップ506に移行する(N)。ステップ506において見出し語109「コンピューター」に対応する語釈文データ102(語釈文110)を辞書データ100から読み出して、ステップ507、ステップ508の処理によって単語データ「電子計算機」を探査階層情報(値は「3」)と共に未探査リストに記憶し処理をステップ510に移行する。ステップ509において上記「電子計算機」は探査済データに存在すると判断されるので処理はステップ517に移行する。
In step 514, since the “computer” does not exist in the non-basisable database, the process proceeds to step 515 (N). In step 515, since the value of the searched data is “2”, the end condition is not satisfied, and the process proceeds to step 516. In step 516, since it is confirmed that the “computer” exists in the
ステップ517は同レベル判断処理である。ステップ517において、基底判断部15aは探査情報蓄積部14aに記憶されている未探査リスト700aの中に、現在の処理対象である単語データ(「電子計算機」)の元単語データ(「コンピューター」)と、同一の元単語データを有する単語データが他に記憶されているか否かの判断を行う。この段階の未探査リストに「コンピューター」を呼び出し元単語とする単語データは存在しないので処理はステップ518に移行する。
Step 517 is the same level determination process. In
ステップ518において基底判断部15aは上記元単語データである「コンピューター」が基底データベース400のインデックスである単語401に既に記憶されているか否かの問い合わせ処理を行う。この処理の結果、元単語データ「コンピューター」は基底データベース400のインデックスには存在しないので処理はステップ519に移行する。ステップ519は基底化不能データベース登録処理である。ステップ519において基底判断部15aは基底化不能データベース40に上記読み出し元単語データ「コンピューター」を追加記憶し、処理をステップ520に移行する。
In step 518, the base determination unit 15 a performs an inquiry process as to whether or not “computer” that is the original word data is already stored in the
ステップ520は終了判断処理である。ステップ520において終了条件判断部17は探査情報蓄積部14aに記憶する未探査リスト700aに何らかの単語データが記憶されているか否かの問い合わせ処理を行う。本実施例では未探査リストに単語データは記憶されているので、処理はステップ517に移行する。 Step 520 is an end determination process. In step 520, the end condition determination unit 17 performs an inquiry process as to whether or not any word data is stored in the unsearched list 700a stored in the search information storage unit 14a. In this embodiment, since word data is stored in the unexplored list, the process proceeds to step 517.
ステップ517において、上記基底化不能データベース登録処理(ステップ519)で基底化不能データベース40に登録した単語と同じ元単語データを有する単語データが未探査リストに存在するか問い合わせ処理を行う。本実施例において未探査リストに単語データ「電子計算機」(図13(c))を呼び出し元単語データとして持つ別の単語データは存在しないので処理はステップ518に移行する。
In
ステップ518において、上記単語データ「電子計算機」が基底データベース400に記憶されているか否かの照合処理を行う。単語データ「電子計算機」は基底データベース400に記憶されていないため、処理はステップ519に移行する。ステップ519において、基底判断部15aは、基底化不能データベースに上記単語データ「電子計算機」を記憶する。次にステップ520において終了判断処理を行う。
In step 518, collation processing is performed to determine whether or not the word data “electronic computer” is stored in the
ステップ520において未探査リストには単語データが存在するかことが判断されるので処理はステップ517に移行する。ステップ517において上記基底化不能データベース登録処理で登録した単語と同じ呼び出し元単語を呼び出し元単語として持つ単語データが未探査リストに存在するか否か判断処理を行う。処理の結果、未探査リストには上記読み出し元単語データと同じ読み出し元単語を有する単語データが存在することが判断され、処理をステップ509に移行する。
In step 520, since it is determined whether word data exists in the unexplored list, the process proceeds to step 517. In
ステップ509において、未探査リストの記憶先頭位置にある単語データと探査階層情報を読み出して、探査済判断処理を行う。処理の結果、読み出した単語データ「異なる」は未探査であると判断される。次にステップ510において基底登録確認処理を上記単語データ「異なる」に対して行う。基底データベース400の単語401には「異なる」は存在しないので処理はステップ512に移行する。ステップ512の基底判断処理を上記「異なる」に対して行い、当該単語データ「異なる」を探査済データに追加記憶する。上記判断処理の結果「異なる」は基底リスト18に存在しないと判断されるので、処理はステップ514に移行する。
In step 509, the word data and the search hierarchy information at the storage start position of the unsearched list are read out, and a search completed determination process is performed. As a result of the processing, it is determined that the read word data “different” has not been searched. Next, in step 510, the base registration confirmation process is performed on the word data “different”. Since there is no “different” in the
ステップ514において、上記単語データ「異なる」に対して基底化不能判断処理を行う。処理の結果、基底化不能データベースには「異なる」は記憶されていないことが判断されるので処理はステップ515に移行する。 In step 514, a non-basisable determination process is performed on the word data “different”. As a result of the processing, it is determined that “different” is not stored in the non-basisable database, and the processing moves to step 515.
上記単語データ「異なる」の探査階層情報は1であるのでステップ515の探査終了判断処理によってステップ516に移行する。ステップ516では単語データ「異なる」が辞書データ100の見出し語データ101に記憶されているか否かの照合処理を行う結果、「異なる」は見出し語データ101には存在しないことが判断されるので処理はステップ517に移行する。
Since the search hierarchy information of the word data “different” is 1, the process proceeds to step 516 by the search end determination process in step 515. In step 516, as a result of checking whether or not the word data “different” is stored in the
ステップ517において単語データ「異なる」の読み出し元単語「インターフェース」を読み出し元単語とする、別の単語データが未探査リストに存在するか否かの照合処理を行う。この処理の結果、未探査リストには該当する単語データが存在することが判断され、処理はステップ509に再帰する。次にステップ509において、基底判断部15aは未探査リストの記憶先頭位置に記憶されている単語データ「機器」を読み出して探査済データに存在するか否かの探査済確認処理を行う。処理の結果、「機器」は探査済データに存在しないことが判断されるのでこの「機器」を探査済データに追加して、処理はステップ510に移行する。
In
次にステップ510において基底判断部15aは、上記単語データ「機器」に対して基底判断処理を行う。処理の結果「機器」は基底リストに含まれていることが判断されるので、処理をステップ513に移行する。ステップ513において基底判断部15aは基底データベース400の単語401として「機器」を追加し、「機器」に該当する基底402に「1」を追加し、「機器」に該当しない基底402には「0」を追加する。
Next, in step 510, the base determination unit 15 a performs base determination processing on the word data “device”. Since it is determined that “device” is included in the base list as a result of the processing, the processing proceeds to step 513. In step 513, the base determination unit 15a adds “device” as the
次にステップ511において、基底判断部15aは、上記処理で基底であると判断された単語データ「機器」の読み出し元単語データ「インターフェース」が基底データベースの単語401に記憶されているか否かの照合処理を行い、処理の結果、基底データベースの単語401即ちインデックスデータに記憶されていなければ、この読み出し元単語データ「インターフェース」を基底データベース400のインデックスとして追加記憶し、追加記憶した単語401「インターフェース」に基底402の中で、上記基底であると判断された単語データ「機器」に該当する箇所に「1」を追加し、それ以外の箇所には「0」を追加して処理はステップ517に移行する。
Next, in step 511, the base determination unit 15 a checks whether or not the read source word data “interface” of the word data “device” determined to be the base in the above processing is stored in the
ステップ517において既に説明したとおり、上記単語データ「機器」の読み出し元単語である「インターフェース」を読み出し元単語データとする単語データが未探査リストに存在するか否かの判断処理を行う。このように未探査リスト内の単語データに対して基底判断処理を終了するまで、本処理は再帰的に実行される。
As already described in
次に本発明に係る基底リストの生成方法について説明する。図10は基底リスト生成方法に用いる基底リスト生成装置の構成を示す機能ブロック図である。基底リスト生成装置は本発明に係る基底リスト生成方法を実行するコンピュータプログラムを搭載したコンピューターによって実施される。図10に示す各機能ブロックは、本発明に係る基底リスト生成プログラムと当該コンピューターのハードウェアとが協働して処理を実行することにより実現するものである。 Next, a base list generation method according to the present invention will be described. FIG. 10 is a functional block diagram showing the configuration of the base list generation device used in the base list generation method. The base list generation apparatus is implemented by a computer equipped with a computer program for executing the base list generation method according to the present invention. Each functional block shown in FIG. 10 is realized by the cooperation between the base list generation program according to the present invention and the hardware of the computer executing the processing.
図10において基底リスト生成装置は、基底リスト生成プログラム3aと辞書データ記憶部10、基底リスト記憶20a,単語頻度データベース50を有してなる。辞書データ記憶部10は実施例1及び実施例2において用いた辞書データ記憶部と同様であり、上記辞書データ100(図2参照)が記憶されている。単語頻度データベースは基底リスト生成プログラムの処理によって生成された情報を蓄積するデータベースである。基底リストデータベース20aは本発明の実施によって生成される基底リストを記憶するデータベースである。
In FIG. 10, the base list generation apparatus includes a base list generation program 3a, a dictionary
図12に単語頻度データベース50に記憶する単語データベースの構造例を示す。図12において、単語頻度データベース800は辞書データ100より読み出した情報に含まれる単語801と、単語801が辞書データ100内に含まれる頻度802を記録するフィールドを有するテーブル構造によって構成される。しかし、後に説明する各単語の出現頻度数を記録できる構造であればこれに限ることなく本発明の実施は可能である。
FIG. 12 shows an example of the structure of a word database stored in the word frequency database 50. 12, the
次に基底リスト生成プログラムの実施形態について説明する。図11は基底リスト生成プログラムの処理の流れを示すプローチャートである。図11において、最初に実行されるステップ601は見出し語読み出し処理である。この処理において辞書データ読み出し部31は、辞書データ記憶部10に記憶されている辞書データ100の見出し語データ101を読み出す。ステップ601は語釈文読出し処理である。この処理において上記にて読み出された見出し語データ101に関連付いて記憶されている語釈文データ102を読み出し、読み出した語釈文データ102を形態素解析部32に渡して、探査階層情報に1を加算し処理をステップ602に移行する。ここで探査階層情報の初期値はゼロである。
Next, an embodiment of the base list generation program will be described. FIG. 11 is a flowchart showing the flow of processing of the base list generation program. In FIG. 11,
ステップ603は形態素解析処理である。ステップ603において形態素解析部32は、上記語釈文データ102に対して形態素解析処理を行う。ここで行う形態素解析処理は実施例1及び実施例2に用いた形態素解析処理を同じものである。ステップ604は表記ゆれ補正処理である。ステップ604において形態素解析部32は語釈文データ102から生成された単語データに対して表記ゆれの補正を行う。この表記ゆれ補正処理は、実施例1及び実施例2に用いた表記ゆれ補正処理を同じ処理である。ステップ604の処理によって生成される単語データは、探査情報蓄積部33に記憶される未探査リストに単語データを未探査データとして、この未探査データに関連付いて記憶される探査階層情報と共に記憶される。未探査リストの構造や未探査データ、探査階層情報については既に説明した実施例1及び実施例2に用いたものと同等のものである。
Step 603 is a morphological analysis process. In
ステップ605は探査済判断処理である。ステップ605において単語頻度登録部34は未探査リストから未探査データと探査階層情報を読み出し、読み出した未探査データが探査済データに含まれているか否かの問い合わせ処理を行い、当該未探査データを未探査リストから削除する。この処理の結果、当該未探査データが探査済データに含まれていれば、処理をステップ609に移行する。上記照合処理の結果、読み出した未探査データが探査済データに含まれていなければ、処理をステップ606に移行する。
Step 605 is a search completed determination process. In
ステップ606は単語頻度登録処理である。ステップ606において単語頻度登録部34は上記未探査データである単語データが単語頻度データベース50に既に記録されているか否かを判断するための照合処理を行う。照合処理の結果、未記録であれば当該単語データを単語頻度データベース50の単語800即ちインデックスに追加し、その頻度802に数値「1」を記録する。上記照合処理の結果、単語頻度データベース50に上記未探査データが既に記録されていれば、この未探査データに該当する単語801に関連付いている頻度802に1を加算して記録する。上記頻度802への記録処理が終了後、処理をステップ607に移行する。
Step 606 is a word frequency registration process. In step 606, the word
ステップ607は終了判断処理である。ステップ607において終了条件判断部35は上記未探査データと一緒に未探査リストから読み出した探査階層情報が終了条件である「4」以上であるか否かを判断する。この判断処理の結果、探査階層情報が4未満であれば、処理はステップ608に移行する。上記判断処理の結果、探査階層情報が4以上であれば処理はステップ609に移行する。
Step 607 is an end determination process. In step 607, the end
ステップ608は見出し語確認処理である。ステップ608において辞書データ読み出し部31は、探査情報蓄積部33に記憶する未探査リストから未探査データを読み出し、見出し語データ101に該当するデータが存在するか否かの問い合わせ処理を行う。問い合わせ処理の結果、当該未探査データが見出し語データ101に存在すれば、当該未探査データを未探査リストから削除し、探査階層情報に1を加算して、上記見出し語データ101に関連付いて記憶されている語釈文データ102を読み出して形態素解析部32に渡す。
Step 608 is a headword confirmation process. In step 608, the dictionary
上記問い合わせ処理の結果、上記未探査データが見出し語データ101に存在しなければ、この未探査データを未探査リストから削除して、処理をステップ609に移行する。
If the unsearched data does not exist in the
ステップ609は終了判断処理である。ステップ609において、終了条件判断部35は未探査リストに未探査データが存在するか否かの問い合わせ処理を行う。この処理の結果、未探査データが存在していれば処理をステップ606に移行し、未探査データが存在していなければ探査済データをクリアして探査階層情報の値をゼロにして、処理を610に移行する。
Step 609 is an end determination process. In
ステップ610は、全終了判断処理である。ステップ610において終了条件判断部35は、見出し語データ101に関連付いて記憶されている読み出し済フラグ112に空欄があるか否かの問い合わせ処理を行う。この処理の結果、空欄があればその見出し語データ101は処理が行われていないことになるので本プログラムの処理をステップ601に再帰させる。また、上記処理の結果、読み出し済フラグ112に空欄が無ければ本プログラムを終了させる。
Step 610 is an all end determination process. In
ステップ611は、基底リスト抽出処理である。ステップ611において、基底リスト登録部36は、単語頻度データベースに記憶された頻度によってソート処理を行い、ソート処理によって上位500位に位置する単語801に係る単語データを抽出して、抽出した単語データを基底リストデータベースに登録する。なお、単語頻度データベースから単語データを抽出する条件は上記のように一定の閾値を設けて、抽出する方法の他、統計的手法によって抽出するものであってもよい。
Step 611 is a base list extraction process. In step 611, the base list registration unit 36 performs a sort process according to the frequency stored in the word frequency database, extracts word data related to the
以上より、辞書データ100を用いて基底を生成することが可能となる。
As described above, a base can be generated using the
上述したように、この発明によれば、自然言語を解釈するにあたり、単語の意味概念に基づいた精度の高い単語シソーラスを構築するための基礎となる単語の意味概念抽出法を提供できる効果がある。 As described above, according to the present invention, it is possible to provide a word semantic concept extraction method that is the basis for constructing a highly accurate word thesaurus based on a word semantic concept when interpreting a natural language. .
1 基底データベース生成装置
100 辞書データ
101 見出し語データ
102 語釈文データ
200 基底リスト
400 基底データベース
401 単語
402 基底
600 解析結果データ
700 単語頻度データベース
DESCRIPTION OF
401
Claims (9)
上記コンピュータが、
上記第一記憶手段から上記単語を読み出すステップと、
上記ステップで読み出した単語に関連付けて記憶されている上記語釈文を上記第一記憶手段から読み出す語釈文読み出しステップと、
上記語釈文を単語に分割する単語分割ステップと、
上記第一記憶手段から読み出した単語または上記語釈文から分割した単語が基底に該当するか否かを判断する基底判断ステップと、
上記基底判断ステップにおいて上記単語が基底に該当すると判断された場合、この単語を基底と関連付けて第二記憶手段に記憶する基底関連付けステップと、
上記基底判断ステップにおいて上記単語が基底に該当しないと判断された場合、この単語を用いて上記語釈文読出しステップ、上記単語分割ステップ及び上記基底判断ステップを再帰的に行う再帰ステップとを有することを特徴とする基底データベース生成方法。 A computer comprising a first storage means for storing a word in association with one or more words explaining the meaning of the word, and a second storage means for storing the word in association with a base, a word base database A method of generating,
The computer
Reading the word from the first storage means;
A word reading step for reading the word sentence stored in association with the word read in the step from the first storage means;
A word dividing step for dividing the above sentence into words;
A base determination step for determining whether a word read from the first storage means or a word divided from the interpretation sentence corresponds to a base;
If it is determined in the basis determination step that the word corresponds to a basis, a base association step of associating the word with the base and storing it in the second storage means;
When it is determined that the word does not correspond to a base in the base determination step, the word reading step, the word division step, and the recursion step for performing the base determination step recursively using the word are included. Characteristic base database generation method.
上記基底判断ステップにおいて同じ単語が判断対象として出現した場合には、この単語が既に関連付けられた基底を第二記憶手段から読み出すステップと、
上記読み出した基底に対して上記語釈文の読出しに用いた単語を関連付けて第二記憶手段に記憶するステップとを有することを特徴とする請求項1記載の基底データベース作成方法。 The recursion step includes a determination step for determining whether or not a basic determination process has been performed on all words divided from the interpretation sentence;
When the same word appears as a determination target in the basis determination step, a step of reading a basis already associated with the word from the second storage means;
2. The base database creation method according to claim 1, further comprising the step of associating the word used for reading the interpretation sentence with the read base and storing it in a second storage means.
上記コンピュータが、
上記第一記憶手段より、単語を読み出すステップと、
上記第一記憶手段から読み出した単語に関連付けて記憶されている語釈文を読み出す語釈文読み出しステップと、
上記読み出した語釈文を単語に分割する単語分割ステップと、
上記分割した単語を第二記憶手段に登録するステップと、
上記分割した単語に対応する語釈文を第一記憶手段から読み出すステップと、
上記読み出した語釈文に対して単語分割処理、単語登録処理、語釈文データ読出し処理を再帰的に行うステップと、
上記第二記憶手段に記憶した単語の頻度情報を用いて特定の単語のみを抽出し第三記憶手段に記憶するステップとを有することを特徴とする基底データベース作成方法に用いる基底リスト作成方法。 First storage means for storing a word and one or more word sentences explaining the meaning of the word in association with each other, second storage means for storing the word and the appearance frequency of the word in association with each other, and third storage means for storing a base list A base list for use in the base database of this word by a computer equipped with:
The computer
Reading a word from the first storage means;
A word reading step for reading a word sentence stored in association with the word read from the first storage means;
A word dividing step for dividing the read word sentence into words;
Registering the divided words in the second storage means;
Reading a sentence corresponding to the divided word from the first storage means;
Recursively performing word division processing, word registration processing, and word interpretation data reading processing on the read word sentence;
And a step of extracting only specific words using the word frequency information stored in the second storage means and storing them in the third storage means.
上記第一記憶手段から上記単語を読み出す手段と、
上記第一記憶手段から上記読み出した単語に関連付けて記憶されている語釈文を読み出す語釈文読出し手段と、
読み出した語釈文を単語に分割する単語分割手段と、
上記第一記憶手段から読み出した単語または上記語釈文から分割した単語が基底に該当するか否かを判断する基底判断手段と、
上記基底判断手段において上記単語が基底に該当すると判断された場合、この単語を基底と関連付けて第二記憶手段に記憶する基底関連付け手段と、
上記基底判断手段において上記単語が基底に該当しないと判断された場合、この単語を用いて上記語釈文読出し手段、上記単語分割手段及び上記基底判断手段の動作を再帰的に行う再帰手段とを有することを特徴とする基底データベース生成装置。 First storage means for storing a word and one or more word sentences explaining the meaning of the word in association with each other; second storage means for storing the word and the base in association with each other;
Means for reading out the word from the first storage means;
A word reading means for reading a word sentence stored in association with the read word from the first storage means;
A word dividing means for dividing the read word sentence into words;
Base judgment means for judging whether a word read from the first storage means or a word divided from the interpretation sentence corresponds to a base;
A base associating means for associating the word with a base and storing it in the second storage means when the base judging means determines that the word corresponds to a base;
A recursion unit that recursively operates the word sentence reading unit, the word dividing unit, and the base determination unit using the word when the base determination unit determines that the word does not correspond to a base. A base database generation device characterized by that.
上記判断手段において既に処理された単語であると判断された場合に、この単語と関連付けられている基底を第二記憶手段から読み出す読出し手段と、
上記読み出した基底に対して上記語釈文の読出しに用いた単語を関連付けて第二記憶手段に記憶する手段とを有することを特徴とする請求項4記載の基底データベース生成装置。 A judging means for judging whether or not processing by the base judging means has been performed on all words divided from the interpretation sentence;
A reading means for reading a base associated with the word from the second storage means when it is determined that the word has already been processed by the determination means;
5. The base database generation apparatus according to claim 4, further comprising means for associating a word used for reading the interpretation sentence with the read base and storing it in a second storage means.
、
単語とその単語の出現頻度を関連付けて記憶する第二記憶手段と、
上記第一記憶手段から単語を読み出す手段と、
上記第一記憶手段から読み出した単語に関連付けて記憶されている語釈文を読み出す手段と、
上記読み出した語釈文を単語に分割する手段と、
上記単語を第二記憶手段に登録する手段と、
上記単語が既に第二記憶手段に登録されている場合には、既に登録されている同じ単語の頻度情報に1を加算する手段と、
上記第二記憶手段に記憶した単語の頻度情報を用いて特定の単語のみを抽出し記憶する第三記憶手段とを有することを特徴とする基底リスト生成装置。 First storage means for associating and storing a word and one or more interpretations explaining the meaning of the word;
Second storage means for storing the word and the appearance frequency of the word in association with each other;
Means for reading a word from the first storage means;
Means for reading an interpretation sentence stored in association with the word read from the first storage means;
Means for dividing the read-out sentence into words;
Means for registering the word in the second storage means;
If the word is already registered in the second storage means, means for adding 1 to the frequency information of the same word already registered;
And a third storage means for extracting and storing only specific words using the word frequency information stored in the second storage means.
上記第一記憶手段より上記単語を読み出す手段、
上記第一記憶手段から上記読み出した単語に関連付けて記憶されている語釈文を読み出す手段、
読み出した語釈文を単語に分割する単語分割手段、
上記第一記憶手段から読み出した単語または上記語釈文から分割した単語が基底に該当するか否かを判断する基底判断手段、
上記基底判断手段において、基底に該当すると判断された単語を上記読み出した単語に対応する基底として関連付けて第二記憶手段に記憶する基底関連付け手段、
上記基底判断手段において、上記分割した単語が基底に該当しないと判断した場合に当該単語に対応する語釈文を第一記憶手段から読み出して、読み出した語釈文に対する単語分割手段及び単語に対する基底判断手段の動作を語釈文から分割した単語が基底となるまで再帰的に行う再帰手段として動作させることを特徴とするコンピュータプログラム。 A computer comprising first storage means for storing a word and one or more word explanations explaining the meaning of the word in association with each other, and second storage means for storing the word in association with a base;
Means for reading out the word from the first storage means;
Means for reading out the memorized sentence stored in association with the read word from the first storage means;
A word dividing means for dividing the read word sentence into words;
Base judgment means for judging whether a word read from the first storage means or a word divided from the interpretation sentence corresponds to a base;
A base associating means for associating a word determined to be a base in the base determining means as a base corresponding to the read word and storing it in a second storage means;
When the basis judgment means determines that the divided word does not correspond to the basis, the word sentence corresponding to the word is read from the first storage means, and the word division means for the read word sentence and the basis judgment means for the word A computer program that operates as a recursive unit that recursively performs the above operation until a word divided from an interpretation sentence becomes a base.
上記分割手段によって分割された単語に対して基底判断手段による処理を行ったか否かを判断する判断手段、
上記判断手段によって既に処理された単語であると判断された場合に、この単語と関連付けられている基底を第二記憶手段から読み出す読出し手段、
上記読み出した基底に対して上記分割された単語の元である語釈文の読出しに用いた単語と関連付けて第二記憶手段に記憶する手段として動作させることを特徴とする請求項7記載のコンピュータプログラム。 Computer
Determining means for determining whether or not the processing by the base determining means has been performed on the words divided by the dividing means;
A reading means for reading a base associated with the word from the second storage means when it is determined that the word has already been processed by the determining means;
8. The computer program according to claim 7, wherein the computer program is operated as means for storing in the second storage means in association with the word used for reading the word sentence that is the source of the divided word with respect to the read base. .
単語とこの単語の意味を説明する一以上の語釈文を関連付けて記憶する第一記憶手段、
単語とその単語の出現頻度を関連付けて記憶する第二記憶手段、
上記出現頻度によって並べ替える手段、
上記並べ替えた単語を抽出して記憶する第三記憶手段、
上記第一記憶手段より単語を読み出す手段、
上記読み出した単語に関連付けて記憶されている語釈文を読み出す手段、
上記読み出した語釈文を単語に分割する手段、
上記分割した単語を第二記憶手段に登録する手段、
上記分割した単語に対応する語釈文を第一記憶手段から読み出す手段、
上記分割する処理、登録する処理、語釈文を読出す処理を再帰的に行う手段、として動作させることを特徴とするコンピュータプログラム。
Computer
A first storage means for associating and storing a word and one or more words explaining the meaning of the word;
Second storage means for storing the word and the appearance frequency of the word in association with each other;
Means for sorting according to the appearance frequency,
Third storage means for extracting and storing the rearranged words;
Means for reading a word from the first storage means;
Means for reading a sentence that is stored in association with the read word;
Means for dividing the read word sentence into words;
Means for registering the divided words in the second storage means;
Means for reading the sentence corresponding to the divided word from the first storage means;
A computer program that operates as a means for recursively performing the dividing process, the registering process, and the reading process of an interpretation sentence.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006079401A JP3893600B1 (en) | 2006-03-22 | 2006-03-22 | Base database generation method, base list generation method and apparatus, and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006079401A JP3893600B1 (en) | 2006-03-22 | 2006-03-22 | Base database generation method, base list generation method and apparatus, and computer program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP3893600B1 true JP3893600B1 (en) | 2007-03-14 |
JP2007257191A JP2007257191A (en) | 2007-10-04 |
Family
ID=37929955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006079401A Expired - Fee Related JP3893600B1 (en) | 2006-03-22 | 2006-03-22 | Base database generation method, base list generation method and apparatus, and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3893600B1 (en) |
-
2006
- 2006-03-22 JP JP2006079401A patent/JP3893600B1/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2007257191A (en) | 2007-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6098034A (en) | Method for standardizing phrasing in a document | |
US5794177A (en) | Method and apparatus for morphological analysis and generation of natural language text | |
WO1997004405A9 (en) | Method and apparatus for automated search and retrieval processing | |
JP2002215619A (en) | Translation sentence extracting method from translated document | |
CN109471889B (en) | Report accelerating method, system, computer equipment and storage medium | |
CA2250694A1 (en) | A system, software and method for locating information in a collection of text-based information sources | |
CN109101551B (en) | Question-answer knowledge base construction method and device | |
CN109522396B (en) | Knowledge processing method and system for national defense science and technology field | |
JP3372532B2 (en) | Computer-readable recording medium for emotion information extraction method and emotion information extraction program | |
JP2020113129A (en) | Document evaluation device, document evaluation method, and program | |
Teixeira et al. | A bootstrapping approach for training a ner with conditional random fields | |
CN115017268B (en) | Heuristic log extraction method and system based on tree structure | |
JP2001318792A (en) | Intrinsic expression extraction rule generation system and method, recording medium recorded with processing program therefor, and intrinsic expression extraction device | |
Barari et al. | CloniZER spell checker adaptive language independent spell checker | |
JP5447368B2 (en) | NEW CASE GENERATION DEVICE, NEW CASE GENERATION METHOD, AND NEW CASE GENERATION PROGRAM | |
JP2000040085A (en) | Method and device for post-processing for japanese morpheme analytic processing | |
JP3893600B1 (en) | Base database generation method, base list generation method and apparatus, and computer program | |
Hollingsworth et al. | Retrieving hierarchical text structure from typeset scientific articles–a prerequisite for e-science text mining | |
JPH08202737A (en) | Device and method for automatically extracting keyword | |
JPH0877196A (en) | Extracting device for document information | |
KR100420474B1 (en) | Apparatus and method of long sentence translation using partial sentence frame | |
JP4059501B2 (en) | Natural language dictionary update device | |
JP5057916B2 (en) | Named entity extraction apparatus, method, program, and recording medium | |
KR20040018008A (en) | Apparatus for tagging part of speech and method therefor | |
KR20080028655A (en) | Method and apparatus for part-of-speech tagging |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20061201 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091222 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |