JP2001344256A - Word class automatic determination device, example sentence retrieval device, medium, and information aggregate - Google Patents

Word class automatic determination device, example sentence retrieval device, medium, and information aggregate

Info

Publication number
JP2001344256A
JP2001344256A JP2000165126A JP2000165126A JP2001344256A JP 2001344256 A JP2001344256 A JP 2001344256A JP 2000165126 A JP2000165126 A JP 2000165126A JP 2000165126 A JP2000165126 A JP 2000165126A JP 2001344256 A JP2001344256 A JP 2001344256A
Authority
JP
Japan
Prior art keywords
word
class
words
same
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000165126A
Other languages
Japanese (ja)
Inventor
Yumi Wakita
由実 脇田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2000165126A priority Critical patent/JP2001344256A/en
Publication of JP2001344256A publication Critical patent/JP2001344256A/en
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To solve such a problem that it is impossible to always select only a meaning code proper for a condition of sentence input and improper word classes are frequently generated to degrade the example retrieval performance in the case that a synonym dictionary like a thesaurus dictionary having equivocality is used to generate word classes and such a problem that development requires much labor and time in the case where a word class proper for the condition of sentence input is manually set, and also such a problem that it is impossible to give a proper class to a word which doesn't exist in an example sentence in the case of automatic construction from an example sentence corpus, in a conventional example retrieval means. SOLUTION: Meaning codes in a synonym dictionary 4 and inter-word relations analyzed from an example sentence corpus 1 are used together to automatically construct word classes, and thus word classes properly corresponding to conditions of sentence input are automatically constructed while utilizing merits of the synonym dictionary which can give classes to words which don't exist in example sentences.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、文構造解析、意図
解析などの自然言語処理、音声認識や音声合成などの音
声言語処理に利用する単語クラスタリングを行う単語ク
ラス自動決定装置、用例文検索装置、媒体及び情報集合
体に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an automatic word classifier for performing word clustering used for natural language processing such as sentence structure analysis and intention analysis, and speech language processing such as speech recognition and speech synthesis, and an example sentence retrieval apparatus. , Media, and information aggregates.

【0002】[0002]

【従来の技術】以下、従来の技術を応用した類似用例文
検索装置を例にして説明する。類似用例検索装置は、入
力された文と類似した例文を検索する装置であり、最近
では、翻訳や通訳技術、ドキュメント編集、要約技術、
など、音声言語、自然言語処理技術の1つの要素とし
て、広く活用されている。
2. Description of the Related Art A similar example sentence retrieval apparatus to which the prior art is applied will be described below as an example. A similar example search device is a device that searches for an example sentence similar to an input sentence. Recently, translation and interpreting technology, document editing, summarization technology,
It is widely used as one element of speech language and natural language processing technology.

【0003】たとえば、通訳ソフトにおいては、話言葉
に頻繁に見られるような、文法規則から外れたフランク
な表現は、書き言葉翻訳で扱われるような文法規則に従
った言語解析では解析が困難であるため、実際に入力さ
れる文と類似した用例文を学習しておき、類似用例を検
索することで言語解析を行う手法を使用している場合が
多い。
[0003] For example, in interpreting software, it is difficult to analyze a flank expression that deviates from the grammatical rules, such as is often found in spoken words, by linguistic analysis in accordance with grammatical rules handled in written language translation. Therefore, in many cases, a technique of learning an example sentence similar to an actually input sentence and performing language analysis by searching for a similar example is used.

【0004】このような類似用例文検索では、学習用例
文に存在しない単語が入力されても、予め類似した単語
をクラス化しておくことで、同じクラスに含まれている
他の単語が用例文に含まれていればその単語と同じよう
に扱い、高性能に用例を検索できるしくみを導入してい
る。
In such a similar example sentence search, even if a word that does not exist in the learning example sentence is input, similar words are classified into classes in advance so that other words included in the same class can be used as example sentences. If it is included in, it treats it in the same way as the word, and introduces a system that can search for examples with high performance.

【0005】従来の技術では、たとえ文入力が非常に限
られた状況で行われる場合であり、その状況に合わせた
単語クラスの構築が必要であったとしても、単語クラス
の構築には非常な開発コストがかかるという問題があ
る。このような開発コストを低減するために、単語のク
ラスには、予め構築者の常識に伴う単語の概念を知識と
し、長年かけて構築された一般的なシソーラス辞書(シ
ソーラス辞書の例として、国立国語研究所が発行の「分
類語彙表形式による語彙分類表」などがある。)を用い
ることが多い。(たとえば、古瀬、隅田、飯田:情報処
理学会論文誌Vol35,no3,1994-3)。
In the prior art, even when sentence input is performed in a very limited situation, even if it is necessary to construct a word class according to the situation, it is very difficult to construct a word class. There is a problem that development costs are required. In order to reduce such development costs, the word class includes a general thesaurus dictionary built over many years based on knowledge of the word concept accompanying the common sense of the builder in advance. There is often used a "vocabulary classification table in the form of a classified vocabulary table" issued by the National Language Institute, etc.). (For example, Furuse, Sumida, Iida: Transactions of Information Processing Society of Japan Vol 35, no3, 1994-3).

【0006】従来における単語クラスを用いた用例検索
装置14を図4に示す。検索を行う前に、予め用例文コ
ーパス13から用例文DBを構築するため、用例文の文
節ごとの依存構造解析を行い、その結果を各文ごとに保
持する。
FIG. 4 shows a conventional example retrieval apparatus 14 using word classes. Before performing the search, in order to construct an example sentence DB from the example sentence corpus 13 in advance, a dependency structure analysis of each example sentence is performed, and the result is stored for each sentence.

【0007】用例文検索の際には、形態素解析10で入
力文の形態素解析を行い、内容語抽出11で内容語を抽
出する。そして用例文選択12で入力文に含まれている
内容語と用例文コーパス13に含まれる内容語を比較
し、入力文と類似した内容語が含まれている用例文を類
似した用例文と決定する。この際、入力文に含まれる内
容語が用例文コーパス13にない場合は、シソーラス辞
書4を用いて、用例文中及び入力文中の内容語をシソー
ラスに従う意味コードに変換し、同じ意味コードを持つ
単語を単語クラスとし、同じ単語クラスに含まれれば同
じ単語であるとみなして用例検索を行う。
At the time of example sentence retrieval, a morphological analysis of an input sentence is performed by a morphological analysis 10, and a content word is extracted by a content word extraction 11. Then, in the example sentence selection 12, the content word included in the input sentence is compared with the content word included in the example sentence corpus 13, and an example sentence including a content word similar to the input sentence is determined as a similar example sentence. I do. At this time, if the content words included in the input sentence are not in the example sentence corpus 13, the content words in the example sentence and the input sentence are converted into the meaning codes according to the thesaurus using the thesaurus dictionary 4, and the words having the same meaning code are converted. Is a word class, and if it is included in the same word class, it is regarded as the same word and an example search is performed.

【0008】上記の用例検索装置14により、従来の書
き言葉での文法規則では扱えなかった話し言葉文の入力
文に対し、構造解析が可能となり、類似した用例文の検
索も可能となる。また、用例文にはない単語が入力され
ても、シソーラス辞書を用いることで、単語クラスを構
築する開発コストをかけずに類似した用例検索が可能と
なる。
[0010] The example search device 14 enables structural analysis of an input sentence of a spoken language sentence that cannot be handled by the conventional grammatical rules for written words, and also enables similar example sentences to be searched. Further, even if a word that is not in the example sentence is input, a similar example search can be performed without using a development cost for constructing a word class by using a thesaurus dictionary.

【0009】[0009]

【発明が解決しようとする課題】しかしながら従来の用
例検索装置では、シソーラス辞書による意味コードを用
いて単語クラスを作成しているため、シソーラス辞書上
で発生している多義性の問題を含んでいる。つまり、シ
ソーラス辞書は様々な状況全てに対応するため、多くの
単語には複数の意味コードが付けられている。そのた
め、常に入力文に適切な意味コードのみを選択できず、
度々不適切な単語クラスを形成することが用例検索性能
を低下させる、という問題を有している。
However, in the conventional example search apparatus, since a word class is created using a semantic code in a thesaurus dictionary, there is a problem of polysemy occurring in the thesaurus dictionary. . That is, since the thesaurus corresponds to all various situations, many words have a plurality of meaning codes. Therefore, it is not always possible to select only the appropriate semantic code for the input sentence,
There is a problem that forming an inappropriate word class frequently lowers the example search performance.

【0010】また、シソーラス辞書のみならず一般に、
単語が意味的な類似度をもとに分類されている類語辞書
を用いて単語クラスを作成する場合にも同様のことが言
える。
[0010] In addition to thesaurus dictionaries,
The same can be said when a word class is created using a thesaurus that words are classified based on semantic similarity.

【0011】本発明は、上記課題を考慮し、シソーラス
などの類語辞書の意味コードと用例文コーパスから解析
された単語間の関係とを併用して単語クラスを自動構築
することで、用例文に存在しない単語をクラス化できる
シソーラスなどの類語辞書の長所を活かしながら、文が
入力される状況に適切に対応した単語クラスを自動構築
できる単語クラス自動決定装置、用例文検索装置、媒体
及び情報集合体を提供することを目的とするものであ
る。
In view of the above problems, the present invention automatically constructs a word class using both the meaning codes of a thesaurus such as a thesaurus and the relationship between words analyzed from an example sentence corpus. A word class automatic determination device, an example sentence search device, a medium, and an information set that can automatically construct a word class appropriately corresponding to a situation in which a sentence is input while utilizing the advantages of a thesaurus such as a thesaurus that can classify nonexistent words. It is intended to provide the body.

【0012】[0012]

【課題を解決するための手段】上述した課題を解決する
ために、第1の本発明(請求項1に対応)は、学習用例
コーパスから抽出された単語間の依存関係と、単語が意
味的な類似度をもとに分類されている類語辞書とを用い
て、類似した単語を同じクラスとみなす単語クラスタリ
ングを行う単語クラス自動決定手段を備えたことを特徴
とする単語クラス自動決定装置である。
In order to solve the above-mentioned problems, a first aspect of the present invention (corresponding to claim 1) is that a word-dependent relationship between words extracted from a learning example corpus, An automatic word class determining apparatus comprising: a word class automatic determining unit that performs word clustering that regards similar words as being of the same class using a thesaurus that is classified based on a similarity. .

【0013】また、第2の本発明(請求項2に対応)
は、前記依存関係を前記学習用例コーパスにおける単語
間の依存構造解析を行うことによって抽出する依存構造
解析手段を備え、前記単語クラス自動決定手段は、前記
類語辞書における同じ意味コードを持つ単語を同じクラ
スとして初期クラスを作成する初期クラス作成手段と、
前記抽出された依存関係に基づいて、前記作成された初
期クラスのうち同じ初期クラスに属している他のどの単
語とも違う単語に依存している単語を前記同じ初期クラ
スから外して、別の単語クラスとみなすクラスタリング
手段とを有することを特徴とする第1の本発明に記載の
単語クラス自動決定装置である。
Further, a second aspect of the present invention (corresponding to claim 2)
Comprises dependency structure analysis means for extracting the dependency relationship by performing dependency structure analysis between words in the learning example corpus, wherein the word class automatic determination means matches words having the same semantic code in the thesaurus to the same. An initial class creating means for creating an initial class as a class,
Based on the extracted dependencies, words that depend on words that are different from any other words belonging to the same initial class among the created initial classes are excluded from the same initial class, and another word is removed. An automatic word class determining apparatus according to the first aspect of the present invention, further comprising a clustering unit that regards the class as a class.

【0014】また、第3の本発明(請求項3に対応)
は、前記依存関係を前記学習用例コーパスにおける単語
間の依存構造解析を行うことによって抽出する依存構造
解析手段を備え、前記単語クラス自動決定手段は、前記
抽出された単語を1単語1クラスとして初期クラスを作
成する初期クラス作成手段と、前記抽出された依存関係
に基づいて、同じ単語に依存する前記作成された各初期
クラスに属する複数の単語が前記類語辞書においても同
じ意味コードであるという条件を満たす場合にのみ、そ
の意味コードを持つ前記類語辞書に属する単語を同じク
ラスとし、前記条件を満たさない単語は同じクラスとし
ないクラスタリング手段とを有することを特徴とする第
1の本発明に記載の単語クラス自動決定装置である。
A third aspect of the present invention (corresponding to claim 3)
Comprises dependency structure analysis means for extracting the dependency relationship by performing dependency structure analysis between words in the learning example corpus, wherein the word class automatic determination means sets the extracted words as one word and one class. An initial class creating means for creating a class, and a condition that a plurality of words belonging to each of the created initial classes depending on the same word have the same semantic code in the thesaurus, based on the extracted dependency. Only when the condition is satisfied, words belonging to the thesaurus that have the semantic code are set to the same class, and a word that does not satisfy the condition is provided with a clustering unit that does not belong to the same class. Is a word class automatic determination device.

【0015】また、第4の本発明(請求項4に対応)
は、前記クラスタリング手段は、前記同じクラスに含ま
れている単語のうち前記同じクラスに属している他のど
の単語とも違う単語に依存している単語を前記同じクラ
スから外すことを特徴とする第3の本発明に記載の単語
クラス自動決定装置である。
A fourth aspect of the present invention (corresponding to claim 4)
Wherein the clustering means removes, from the same class, words that are dependent on a word different from any other words belonging to the same class among words included in the same class. 3 is an automatic word class determining apparatus according to the present invention.

【0016】また、第5の本発明(請求項5に対応)
は、入力される文に対して形態素解析を行い、前記入力
された文に含まれる内容語を抽出する形態素解析手段
と、前記抽出された内容語と同じまたは類似した内容語
が含まれる用例文を用例文コーパスから選択する用例文
検索手段とを備え、前記同じまたは類似した内容語と
は、前記抽出された内容語と同じ内容語であるか、また
は前記抽出した内容語と同じ内容語が前記用例文コーパ
スに含まれない場合、前記抽出された内容語が属するク
ラスと同じクラスに属する内容語であり、前記クラスに
は、第1〜4の本発明のいずれかに記載の単語クラス自
動決定装置によって決定されたクラスが用いられている
ことを特徴とする用例文検索装置である。
A fifth aspect of the present invention (corresponding to claim 5)
A morphological analysis unit for performing morphological analysis on an input sentence and extracting a content word included in the input sentence, and an example sentence including a content word the same as or similar to the extracted content word. From the example sentence corpus, and the same or similar content word is the same content word as the extracted content word, or the same content word as the extracted content word. If not included in the example sentence corpus, it is a content word belonging to the same class as the class to which the extracted content word belongs, and the class includes the word class automatic class according to any of the first to fourth aspects of the present invention. An example sentence search device is characterized in that the class determined by the determination device is used.

【0017】また、第6の本発明(請求項6に対応)
は、第1〜4の本発明のいずれかに記載の単語クラス自
動決定装置の全部または一部の手段の全部または一部の
機能をコンピュータにより実行させるためのプログラム
及び/またはデータを担持した媒体であって、コンピュ
ータにより処理可能なことを特徴とする媒体である。
The sixth invention (corresponding to claim 6)
Is a medium carrying a program and / or data for causing a computer to execute all or some of the functions of all or some of the means for automatically determining a word class according to any of the first to fourth aspects of the present invention. And a medium that can be processed by a computer.

【0018】また、第7の本発明(請求項7に対応)
は、第1〜4の本発明のいずれかに記載の単語クラス自
動決定装置の全部または一部の手段の全部または一部の
機能をコンピュータにより実行させるためのプログラム
及び/またはデータであることを特徴とする情報集合体
である。
The seventh invention (corresponding to claim 7)
Is a program and / or data for causing a computer to execute all or a part of the functions of all or part of the automatic word class determining device according to any one of the first to fourth aspects of the present invention. An information aggregate that is a feature.

【0019】[0019]

【発明の実施の形態】以下に、本発明の実施の形態を図
面を参照して説明する。
Embodiments of the present invention will be described below with reference to the drawings.

【0020】(第1の実施の形態)まず、第1の実施の
形態について説明する。
(First Embodiment) First, a first embodiment will be described.

【0021】図1は本発明の第1の実施の形態における
単語クラス自動決定装置7のブロック図であり、図2は
単語クラス自動決定装置7の流れ図である。また、図6
に単語クラスを決定する際の具体例を示す。
FIG. 1 is a block diagram of the automatic word class determining device 7 according to the first embodiment of the present invention, and FIG. 2 is a flowchart of the automatic word class determining device 7. FIG.
Shows a specific example when the word class is determined.

【0022】図6に示すように、学習用例文として、
「ワインを選んで下さい」、「ワイン飲みたいんです
が」、「ソーダ飲みたいですね」、「ジュースお願いし
ます」、「アイスコーヒーお願い」、「アルコールは入
っていますか」がある。
As shown in FIG. 6, as an example sentence for learning,
There are "Please choose wine", "I want to drink wine", "I want to drink soda", "Please give me juice", "Please give me iced coffee", and "Is alcohol included?"

【0023】まず単語クラスを決定する前に、依存構造
解析部2で用例文コーパス1に格納されている学習用例
の各文の依存構造を解析しておく。たとえば、依存構造
解析には格フレームを用いた意味構造解析などを用い
る。解析された依存構造から、依存、非依存の関係にあ
る内容語対を内容語依存対テーブル5に記録しておく。
First, before determining a word class, the dependency structure analysis unit 2 analyzes the dependency structure of each sentence of the learning example stored in the example sentence corpus 1. For example, the dependency structure analysis uses a semantic structure analysis using a case frame. From the analyzed dependency structure, a content word pair having a dependency / non-dependency relationship is recorded in the content word dependency pair table 5.

【0024】図6の例では、(a)に示す用例文コーパ
ス1を依存構造解析した結果、(b)に示す内容語依存
対テーブル5が得られる。
In the example of FIG. 6, as a result of the dependency structure analysis of the example sentence corpus 1 shown in (a), a content word dependency pair table 5 shown in (b) is obtained.

【0025】ここで、図2の流れ図で依存語とは、単語
クラスを決定するためにクラスタリングされる単語であ
り、被依存語とは、上記依存語が依存する単語である。
具体的には、「ワイン飲みたいんですが」という学習用
例文で、「ワイン」がクラス分けされる場合、「ワイ
ン」が依存語であり、「ワイン」が依存する被依存語は
「飲み」である。また、「アルコールは入っています
か」という学習用例例文で、「アルコール」がクラス分
けされる場合、「アルコール」が依存語であり、「アル
コール」が依存する被依存語は「入って」である。
Here, in the flowchart of FIG. 2, a dependent word is a word that is clustered to determine a word class, and a dependent word is a word on which the dependent word depends.
Specifically, in the learning sentence “I want to drink wine,” if “Wine” is classified, “Wine” is a dependent word, and the dependent word on which “Wine” depends is “Drinking. ". Also, in the example sentence for learning "Does alcohol exist?", If "alcohol" is classified, "alcohol" is a dependent word, and the dependent word on which "alcohol" depends is "enter". is there.

【0026】次に、単語クラス決定部3で、あらゆる内
容語をシソーラスの意味コードに従ってクラス化されて
いる状態を初期クラスとする(S1)。すなわち、図6
の例では、(c)におけるシソーラスにおけるクラス3
0に示すワイン、ソーダ、ジュース、アイスコーヒー、
アルコール、ミルクが初期クラスを構成する。
Next, a state in which the word class determination unit 3 classifies all content words according to the meaning codes of the thesaurus is set as an initial class (S1). That is, FIG.
In the example, class 3 in the thesaurus in (c)
0, wine, soda, juice, iced coffee,
Alcohol and milk make up the initial class.

【0027】次に、先に解析された依存関係にある内容
語依存対テーブル5から、同じクラスに属している全て
のどの単語とも同じ単語に依存していない単語を単語ク
ラスから外し、単語単独で1クラスとする。全ての内容
語対に対して、上記条件でクラスから外す単語を探索し
た結果を単語クラスと決定する(S2、S3、S4、S
5、S6)。そして、決定した単語クラスを単語クラス
テーブル6に格納する。
Next, words that do not depend on the same word as any of the words belonging to the same class are removed from the word class from the content word dependency pair table 5 having the dependency analyzed earlier, and the word alone is removed. To be one class. With respect to all the content word pairs, the result of searching for a word to be excluded from the class under the above conditions is determined as a word class (S2, S3, S4, S
5, S6). Then, the determined word class is stored in the word class table 6.

【0028】図6の例では、「入って」に依存する単語
は「アルコール」だけであり、初期クラスに属する他の
どの単語も「入って」に依存しない。従って、初期クラ
スから「アルコール」を除去し、「アルコール」単独で
1クラスとする。従って、単語クラステーブル6には、
図6の(c)に示すように、クラスA31とクラスB3
2が格納される。
In the example of FIG. 6, the only word that depends on "enter" is "alcohol", and no other words belonging to the initial class depend on "enter". Therefore, “alcohol” is removed from the initial class, and “alcohol” alone is classified into one class. Therefore, the word class table 6 contains
As shown in FIG. 6C, the class A31 and the class B3
2 is stored.

【0029】なお、上記では全ての内容語をシソーラス
の意味コードに従ってクラス化したものを初期状態とし
たが、内容語対の依存している側の単語に対してのみシ
ソーラスの意味コードを適応し、依存されている単語は
単語単独で1クラスとする状況を初期状態としてもよ
い。
In the above description, all content words are classified into classes according to the thesaurus semantic codes. However, the thesaurus semantic codes are applied only to the dependent words of the content word pairs. Alternatively, the initial state may be a situation in which the dependent word is a single class of the word alone.

【0030】このように、初期状態として、シソーラス
の意味コードが同じ単語を同じ単語クラスとし、用例文
から、文の入力状況に依存して特殊な意味で使用される
単語を初期クラスから外して単語単独で1クラスとして
扱うことにより、用例文に存在しない単語に対してクラ
ス化することを可能にしながら、学習用例コーパスに依
存して特殊な意味を持つ単語を区別して扱うことが可能
となるため、たとえ、用例文コーパスが少量であって
も、文が入力されてる状況に適切な単語クラスを決定で
きる。
As described above, in the initial state, words having the same meaning code in the thesaurus are in the same word class, and words used in a special meaning depending on the input state of the sentence are excluded from the example sentence from the initial class. By treating words alone as one class, it is possible to classify words that do not exist in the example sentence, while distinguishing words that have special meaning depending on the learning example corpus Therefore, even if the example sentence corpus is small, a word class appropriate for a situation where a sentence is input can be determined.

【0031】(第2の実施の形態)次に、第2の実施の
形態について説明する。
(Second Embodiment) Next, a second embodiment will be described.

【0032】図1は、本実施の形態の単語クラス自動決
定装置のブロック図であり、第1の実施の形態と同一で
ある。図3は、単語クラス自動決定装置7の流れ図であ
る。また、図7に単語クラスを決定する具体例を示す。
FIG. 1 is a block diagram of an automatic word class determining apparatus of the present embodiment, which is the same as that of the first embodiment. FIG. 3 is a flowchart of the automatic word class determination device 7. FIG. 7 shows a specific example of determining a word class.

【0033】本実施の形態でも、第1の実施の形態と同
様に、予め、用例文の依存構造解析を行い、依存関係に
ある内容語対を抽出しておく。図7では、(a)に示す
用例文コーパス1を依存構造解析した結果、(b)に示
す内容語依存対テーブル5が得られる。
Also in this embodiment, as in the first embodiment, the dependency structure analysis of the example sentence is performed in advance to extract the dependent content word pairs. In FIG. 7, as a result of the dependency structure analysis of the example sentence corpus 1 shown in (a), a content word dependency pair table 5 shown in (b) is obtained.

【0034】単語クラス決定部3で単語クラスを決定す
る際にはまず、全ての単語に対して、単語単独1クラス
を初期状態とする(S7)。図7の例では、(c)の初
期状態35に示すように単語単独で1クラスとする。
When the word class is determined by the word class determination unit 3, first, a single word alone class is set to an initial state for all words (S7). In the example of FIG. 7, as shown in the initial state 35 of FIG.

【0035】次に先に解析された内容語対を調べた結
果、同じ単語に依存している単語が、シソーラスにおい
ても同じ意味コードである場合(S8、S9)、これら
の単語が属しているシソーラス上の意味コードに属する
全ての単語を同じ単語クラスであるとする(S11)。
図7の例では、「ジュース」と「ソーダ」がともに「お
願い」に依存している。また、「ジュース」と「ソー
ダ」がシソーラスにおいても同じ意味コードを持ってい
るとする。そうすると、「ジュース」と「ソーダ」が属
しているシソーラス上の意味コードに属する単語を
(d)のシソーラスにおけるクラス30に示すように同
じ単語クラスとする。
Next, as a result of examining the previously analyzed content word pairs, if words dependent on the same word have the same meaning code in the thesaurus (S8, S9), these words belong to the same word. It is assumed that all the words belonging to the meaning codes on the thesaurus belong to the same word class (S11).
In the example of FIG. 7, “juice” and “soda” both depend on “request”. It is also assumed that “juice” and “soda” have the same meaning code in the thesaurus. Then, the words belonging to the meaning codes on the thesaurus to which "juice" and "soda" belong are set to the same word class as shown in the class 30 of the thesaurus in (d).

【0036】上記の条件にあてはまらない単語は全て1
単語1クラスとする(S8、S9、S10)。
All words that do not satisfy the above conditions are 1
One word class (S8, S9, S10).

【0037】このように、初期状態を単語単独クラスと
し、依存関係が明らかなシソーラス上意味コードのみを
単語クラスとしてまとめていくことにより、用例文に存
在しない単語に対してクラス化することを可能にしなが
ら、学習用例コーパスに依存して特殊な意味を持つ単語
を区別して扱うことが可能となるため、たとえ、用例文
コーパスが少量であっても、文が入力されてる状況に適
切な単語クラスを決定できる。
As described above, by classifying words that do not exist in the example sentence by setting the initial state as a word-only class and collecting only semantic codes on a thesaurus whose dependency relation is clear as a word class. However, since words with special meanings can be distinguished and handled depending on the learning example corpus, even if the example sentence corpus is small, a word class appropriate for the situation where a sentence is input Can be determined.

【0038】さらに、このようにして単語クラスを決定
した後、単語クラスとみなされた単語について、以下の
2つの条件を調べ、単語クラスから分離させる単語を選
出する。(条件1)自分が依存している単語と同じ単語に
依存している単語が同じクラスにない場合は、これに相
当する単語を単語クラスから外し、1単語1クラスとす
る。(条件2)自分が依存している単語と同じ単語に依存
している単語が同じクラスに存在しながら、同じクラス
に属するどの単語とも異なった単語にも依存している単
語は、この単語クラスに含まれつつ、別に1単語1クラス
としても扱う。これらの2つの条件にて、シソーラスの
意味コードに従う単語クラスから、上記条件に当てはま
る単語を別クラスとして決定する。
Further, after the word class is determined in this way, the following two conditions are checked for a word regarded as a word class, and a word to be separated from the word class is selected. (Condition 1) If a word that depends on the same word as the one on which it depends does not belong to the same class, the corresponding word is excluded from the word class, and is set as one word per class. (Condition 2) A word that depends on the same word as the word on which it depends depends on a word that is different from any word belonging to the same class while the word that depends on the same class exists in this class. , But it is also treated as one class per word. Under these two conditions, a word that satisfies the above condition is determined as another class from a word class that follows the meaning code of the thesaurus.

【0039】決定したクラスは第1の実施の形態と同様
に単語クラステーブル6に格納する。
The determined class is stored in the word class table 6 as in the first embodiment.

【0040】図7の例では、「ワイン」は、「ソーダ」
と同じ非依存語である「飲み」に依存しながら、シソー
ラスにおけるクラス30に示す他のどの単語も依存して
いない「選ん」に依存している。従って、「ワイン」は
上記条件2を満たすことになるので、シソーラスにおけ
る単語クラス30に含まれつつ、別に1単語1クラスと
しても扱う。
In the example of FIG. 7, “wine” is replaced by “soda”
It relies on "choice", which does not depend on any other words shown in class 30 in the thesaurus, while relying on the same independent word "drink". Therefore, "wine" satisfies the above condition 2, and is included in the word class 30 in the thesaurus and is also treated as one word and one class.

【0041】また、「アルコール」は、「入って」に依
存しているが、シソーラスにおけるクラス30に含まれ
る他のどの単語も「入って」に依存していない。従っ
て、「アルコール」は条件1を満たすことになるので、
シソーラスにおける単語クラス30から除去し、別に1
単語1クラスとして扱う。
Also, "alcohol" depends on "enter", but none of the other words in class 30 in the thesaurus depend on "enter". Therefore, since "alcohol" satisfies condition 1,
Removed from word class 30 in the thesaurus, another 1
Treat as word 1 class.

【0042】このようにして(e)のクラスA31、ク
ラスB32、クラスC33のように3つのクラスが得ら
れる。
In this way, three classes are obtained, such as class A31, class B32, and class C33 in (e).

【0043】このようにすれば、初期状態を単語単独ク
ラスとし、依存関係が明らかなシソーラス上意味コード
のみを単語クラスとしてまとめていくことにより、単語
クラスを設定し、さらに、文の入力状況に依存して特殊
な意味で使用される単語を初期クラスから外して単語単
独1クラスとして扱うことにより、用例文に存在しない
単語に対してクラス化することを可能にしながら、学習
用例コーパスに依存して特殊な意味を持つ単語を確実に
区別して扱うことが可能となるため、たとえ、用例文コ
ーパスが少量であっても、文が入力されてる状況に適切
な単語クラスを決定できる。
In this way, the word state is set by setting the initial state as a word-only class and grouping only semantic codes on the thesaurus whose dependency relationship is clear as a word class. Dependent on the learning example corpus while allowing words that do not exist in the example sentence to be classified into words that do not exist in the example sentence Thus, even if the example sentence corpus is small, it is possible to determine a word class appropriate for a situation where a sentence is input, since words having a special meaning can be reliably distinguished and handled.

【0044】なお、上記実施の形態で決定された単語ク
ラスは、文構造解析、意図解析などの自然言語処理、音
声認識や音声合成などの音声言語処理などに利用するこ
とが出来る。
The word class determined in the above embodiment can be used for natural language processing such as sentence structure analysis and intention analysis, and speech language processing such as speech recognition and speech synthesis.

【0045】一例として、図5に上記実施の形態で決定
された単語クラスをクラス辞書23として用いた用例文
検索装置24を示す。
As an example, FIG. 5 shows an example sentence search device 24 using the word class determined in the above embodiment as the class dictionary 23.

【0046】用例文検索装置24は、まず形態素解析部
20で入力された文に対して形態素解析を行う。次に内
容語抽出手段21で、形態素解析の結果を利用して内容
語を抽出する。さらに、用例文選択部22で抽出された
内容語と同じまたは類似した内容語が含まれる用例文を
用例文コーパス1から選択する。ここで、同じまたは類
似した内容語とは、前記抽出された内容語と同じ内容語
であるか、または抽出した内容語と同じ内容語が用例文
コーパス1に含まれない場合、抽出された内容語が属す
るクラスと同じクラスに属する用例文コーパス1の内容
語である。
The example sentence retrieval device 24 first performs a morphological analysis on the sentence input by the morphological analyzer 20. Next, a content word is extracted by the content word extracting means 21 using the result of the morphological analysis. Further, an example sentence including the same or similar content word as the content word extracted by the example sentence selection unit 22 is selected from the example sentence corpus 1. Here, the same or similar content word is the same content word as the extracted content word, or if the same content word as the extracted content word is not included in the example sentence corpus 1, the extracted content word This is a content word of the example sentence corpus 1 belonging to the same class as the class to which the word belongs.

【0047】このように、上記実施の形態で決定した単
語クラスを用いることにより、高性能な用例文検索装置
24を提供することが出来る。
As described above, by using the word class determined in the above embodiment, a high-performance example sentence search device 24 can be provided.

【0048】なお、本実施の形態の単語クラス決定部3
は本発明の単語クラス自動決定手段の例であり、本実施
の形態の用例文コーパス1は本発明の学習用例コーパス
の例であり、本実施の形態のシソーラス辞書4は本発明
のシソーラスの例であり、本実施の形態の単語クラス決
定部3は本発明の初期クラス決定手段の例であり、本実
施の形態の単語クラス決定部3は本発明のクラスタリン
グ手段の例を兼ねており、本実施の形態の依存構造解析
部2は本発明の依存構造解析手段の例である。また、本
実施の形態の形態素解析部20、内容語抽出部21は本
発明の形態素解析手段の例であり、本実施の形態の用例
文選択部22は本発明の用例文検索手段の例であり、本
実施の形態のクラス辞書23は本発明のクラスの例であ
り、本実施の形態のシソーラス辞書4は本発明の類語辞
書の例である。
It should be noted that the word class determining section 3 of the present embodiment
Is an example of a word class automatic determination means of the present invention, an example sentence corpus 1 of the present embodiment is an example of a learning example corpus of the present invention, and a thesaurus dictionary 4 of the present embodiment is an example of a thesaurus of the present invention. The word class determining unit 3 of the present embodiment is an example of the initial class determining unit of the present invention, and the word class determining unit 3 of the present embodiment also serves as an example of the clustering unit of the present invention. The dependency structure analysis unit 2 according to the embodiment is an example of a dependency structure analysis unit according to the present invention. Also, the morphological analysis unit 20 and the content word extraction unit 21 of the present embodiment are examples of the morphological analysis unit of the present invention, and the example sentence selection unit 22 of the present embodiment is an example of the example sentence search unit of the present invention. Yes, the class dictionary 23 of the present embodiment is an example of a class of the present invention, and the thesaurus dictionary 4 of the present embodiment is an example of a synonym dictionary of the present invention.

【0049】以上詳述したように、本実施の形態の単語
クラス自動決定装置は、シソーラスの意味コードと用例
文コーパスから解析された単語間の関係とを併用して単
語クラスを自動構築することで、用例文に存在しない単
語をクラス化できるシソーラスの長所を活かしながら、
文が入力される状況に適切に対応した単語クラスを自動
構築できる。
As described in detail above, the automatic word class determining apparatus according to the present embodiment automatically constructs a word class using both the meaning code of the thesaurus and the relationship between words analyzed from the example sentence corpus. With the advantage of a thesaurus that can classify words that do not exist in example sentences,
It is possible to automatically construct a word class appropriately corresponding to a situation where a sentence is input.

【0050】また、本実施の形態単語クラス自動決定装
置は、シソーラスにおいて同じ意味コードを持つものを
初期クラスとし、学習用例コーパスにおける単語間の依
存構造解析を行った結果、同じ初期クラスに属している
他のどの単語とも違う単語に依存している単語を初期ク
ラスから外して、別の単語クラスとみなすことにより、
用例文に存在しない単語をクラス化できるシソーラスの
長所を活かしながら、文が入力される状況に依存して特
殊な単語の使い方を反映した適切な単語クラスを自動構
築できる。
Also, the automatic word class determining apparatus according to the present embodiment sets the one having the same meaning code in the thesaurus as an initial class, analyzes the dependency structure between words in the learning example corpus, and finds that it belongs to the same initial class. By removing words that depend on words that are different from any other words in the initial class and treating them as another word class,
By utilizing the advantages of a thesaurus that can classify words that do not exist in example sentences, it is possible to automatically construct an appropriate word class that reflects the usage of special words depending on the situation in which the sentence is input.

【0051】また、本実施の形態の単語クラス自動決定
装置は、1単語1クラスを初期状態として、学習用例コ
ーパスにおける単語間の依存構造解析を行った結果、同
じ単語に依存する複数の単語がシソーラスにおいても同
じ意味コードである場合にのみ、この意味コード持つ単
語を同クラスとし、先の条件に当てはまらない単語はク
ラス化しないことにより、文が入力される状況に依存し
た単語の使い方を反映しながら、コーパスに存在しない
単語についても適切な単語クラスを与えることが出来
る。
Also, the automatic word class determining apparatus of the present embodiment performs a dependency structure analysis between words in the learning example corpus with one word and one class as an initial state, and as a result, a plurality of words dependent on the same word are found. Only when the thesaurus has the same meaning code in the thesaurus, words with this meaning code are in the same class, and words that do not meet the above conditions are not classified, reflecting the usage of words depending on the situation where the sentence is input However, an appropriate word class can be assigned to a word that does not exist in the corpus.

【0052】また、本実施の形態の単語クラス自動決定
装置は、上記のようにして決定されたクラスに含まれて
いる単語でも、同じクラスに含まれる他の単語と1つと
して同じ依存関係を持たない単語であれば、クラスから
外すことにより、文が入力される状況に依存した単語の
使い方を反映しながら、コーパスに存在しない単語につ
いても適切な単語クラスを与えることが出来る。
Further, the word class automatic determining apparatus of the present embodiment has the same dependency relationship as one of the words included in the class determined as described above with other words included in the same class. If the word does not have it, by removing it from the class, an appropriate word class can be given to a word that does not exist in the corpus while reflecting the usage of the word depending on the situation in which the sentence is input.

【0053】なお、本発明の類語辞書は、本実施の形態
におけるシソーラス辞書4のように単語が木構造に分類
されているものに限らない。例えば、図8に示すように
単語がグループ40〜43にグループ分けされており、
各グループに属する単語には、そのグループに意味を表
す意味コードが付加されているものであっても構わな
い。要するに本発明の類語辞書は、単語が意味的な類似
度をもとに分類されているものでありさえすればよい。
The thesaurus of the present invention is not limited to the thesaurus dictionary 4 in the present embodiment, in which words are classified into a tree structure. For example, words are grouped into groups 40 to 43 as shown in FIG.
Words belonging to each group may have a meaning code added to the group to indicate the meaning. In short, the synonym dictionary of the present invention only needs to classify words based on semantic similarity.

【0054】さらに、本発明の単語クラス自動決定装置
の全部または一部の手段の全部または一部の機能をコン
ピュータにより実行させるためのプログラム及び/また
はデータを担持した媒体であって、コンピュータにより
処理可能なことを特徴とする媒体も本発明に属する。
Further, a medium carrying a program and / or data for causing a computer to execute all or a part of the functions of all or a part of the automatic word class determining apparatus of the present invention, wherein the medium is processed by the computer A medium characterized by the possibility also belongs to the present invention.

【0055】さらに、本発明の単語クラス自動決定装置
の全部または一部の手段の全部または一部の機能をコン
ピュータにより実行させるためのプログラム及び/また
はデータであることを特徴とする情報集合体も本発明に
属する。
Further, there is also provided an information aggregate which is a program and / or data for causing a computer to execute all or a part of the functions of all or a part of the automatic word class determining apparatus of the present invention. It belongs to the present invention.

【0056】さらに、本発明のデータとは、データ構
造、データフォーマット、データの種類などを含む。ま
た、本発明の媒体とは、ROM等の記録媒体、インター
ネット等の伝送媒体、光・電波・音波等の伝送媒体を含
む。また、本発明の担持した媒体とは、例えば、プログ
ラム及び/またはデータを記録した記録媒体、やプログ
ラム及び/またはデータを伝送する伝送媒体等を含む。
また、本発明のコンピュータにより処理可能とは、例え
ば、ROMなどの記録媒体の場合であれば、コンピュー
タにより読みとり可能であることであり、伝送媒体の場
合であれば、伝送対象となるプログラム及び/またはデ
ータが伝送の結果として、コンピュータにより取り扱え
ることであることを含む。また、本発明の情報集合体と
は、例えば、プログラム及び/またはデータ等のソフト
ウエアを含むものである。
Further, the data of the present invention includes a data structure, a data format, a data type, and the like. The medium of the present invention includes a recording medium such as a ROM, a transmission medium such as the Internet, and a transmission medium such as light, radio waves, and sound waves. The medium carried by the present invention includes, for example, a recording medium on which a program and / or data is recorded, a transmission medium for transmitting the program and / or data, and the like.
In addition, the term “processable by the computer” of the present invention means that it can be read by a computer if it is a recording medium such as a ROM, and if it is a transmission medium, it can be a program and / or a program to be transmitted. Or that the data can be handled by a computer as a result of the transmission. The information aggregate of the present invention includes, for example, software such as a program and / or data.

【0057】さらに、上記実施の形態の単語クラス自動
決定装置の全部または一部の手段の全部または一部の機
能をコンピュータにより実行させるためのプログラム及
び/またはデータを記録したプログラム記録媒体は、コ
ンピュータにより読み取り可能であり、読み取られた前
記プログラム及び/またはデータが前記コンピュータと
協動して前記機能を実行するプログラム記録媒体であっ
ても良い。
Further, a program recording medium for recording a program and / or data for causing a computer to execute all or a part of the functions of all or a part of the automatic word class determining apparatus of the above-described embodiment is a computer. And the read program and / or data may be a program recording medium that executes the function in cooperation with the computer.

【0058】[0058]

【発明の効果】以上説明したところから明らかなよう
に、本発明は、用例文に存在しない単語をクラス化でき
る類語辞書の長所を活かしながら、文が入力される状況
に適切に対応した単語クラスを自動構築できる単語クラ
ス自動決定装置、用例文検索装置、媒体及び情報集合体
を提供することが出来る。
As is apparent from the above description, the present invention makes use of the advantages of a thesaurus that can classify words that do not exist in example sentences, and provides a word class that appropriately responds to situations where sentences are input. Can automatically provide a word class automatic determination device, an example sentence search device, a medium, and an information aggregate.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1及び第2の実施の形態における単
語クラス自動決定装置の構成を示すブロック図
FIG. 1 is a block diagram illustrating a configuration of an automatic word class determination device according to first and second embodiments of the present invention.

【図2】本発明の第1の実施の形態における単語クラス
自動決定装置の動作を示す流れ図
FIG. 2 is a flowchart showing the operation of the automatic word class determination device according to the first embodiment of the present invention.

【図3】本発明の第2の実施の形態における単語クラス
自動決定装置の動作を示す流れ図
FIG. 3 is a flowchart showing the operation of the automatic word class determining apparatus according to the second embodiment of the present invention.

【図4】従来の用例検索装置の構成を示すブロック図FIG. 4 is a block diagram showing a configuration of a conventional example search device.

【図5】 本発明の第1の実施の形態または第2の実施
の形態の単語クラス自動決定装置で決定された単語クラ
スを用いた用例文検索装置の例を示すブロック図
FIG. 5 is a block diagram showing an example of an example sentence search device using a word class determined by the word class automatic determination device according to the first embodiment or the second embodiment of the present invention;

【図6】本発明の第1の実施の形態におけるクラス決定
の例を示す図
FIG. 6 is a diagram showing an example of class determination according to the first embodiment of the present invention.

【図7】本発明の第2の実施の形態におけるクラス決定
の例を示す図
FIG. 7 is a diagram showing an example of class determination according to the second embodiment of the present invention.

【図8】本発明の第1および第2の実施の形態における
類語辞書の例を示す図
FIG. 8 is a diagram showing an example of a synonym dictionary according to the first and second embodiments of the present invention.

【符号の説明】[Explanation of symbols]

1:用例文コーパス 2:依存構造解析部 3:単語クラス決定部 4:シソーラス辞書 5:内容語依存対テーブル 6:単語クラステーブル 1: Example sentence corpus 2: Dependency structure analysis unit 3: Word class determination unit 4: Thesaurus dictionary 5: Content word dependence pair table 6: Word class table

Claims (7)

【特許請求の範囲】[Claims] 【請求項1】 学習用例コーパスから抽出された単語間
の依存関係と、単語が意味的な類似度をもとに分類され
ている類語辞書とを用いて、類似した単語を同じクラス
とみなす単語クラスタリングを行う単語クラス自動決定
手段を備えたことを特徴とする単語クラス自動決定装
置。
1. A word that regards similar words as the same class using a dependency relationship between words extracted from the learning example corpus and a thesaurus that the words are classified based on the semantic similarity. An automatic word class determining apparatus comprising an automatic word class determining means for performing clustering.
【請求項2】 前記依存関係を前記学習用例コーパスに
おける単語間の依存構造解析を行うことによって抽出す
る依存構造解析手段を備え、 前記単語クラス自動決定手段は、前記類語辞書における
同じ意味コードを持つ単語を同じクラスとして初期クラ
スを作成する初期クラス作成手段と、 前記抽出された依存関係に基づいて、前記作成された初
期クラスのうち同じ初期クラスに属している他のどの単
語とも違う単語に依存している単語を前記同じ初期クラ
スから外して、別の単語クラスとみなすクラスタリング
手段とを有することを特徴とする請求項1記載の単語ク
ラス自動決定装置。
2. A method according to claim 1, further comprising a dependency structure analysis unit for extracting the dependency relationship by performing a dependency structure analysis between words in the learning example corpus, wherein the word class automatic determination unit has the same meaning code in the thesaurus. Initial class creating means for creating an initial class with the word as the same class; and, based on the extracted dependencies, depending on a word different from any other word belonging to the same initial class among the created initial classes. 2. The automatic word class determining apparatus according to claim 1, further comprising: a clustering unit that removes the word in question from the same initial class and regards the word as another word class.
【請求項3】 前記依存関係を前記学習用例コーパスに
おける単語間の依存構造解析を行うことによって抽出す
る依存構造解析手段を備え、 前記単語クラス自動決定手段は、前記抽出された単語を
1単語1クラスとして初期クラスを作成する初期クラス
作成手段と、 前記抽出された依存関係に基づいて、同じ単語に依存す
る前記作成された各初期クラスに属する複数の単語が前
記類語辞書においても同じ意味コードであるという条件
を満たす場合にのみ、その意味コードを持つ前記類語辞
書に属する単語を同じクラスとし、前記条件を満たさな
い単語は同じクラスとしないクラスタリング手段とを有
することを特徴とする請求項1記載の単語クラス自動決
定装置。
3. Dependency structure analysis means for extracting the dependency relationship by performing dependency structure analysis between words in the learning example corpus, wherein the word class automatic determination means converts the extracted words into one word Initial class creating means for creating an initial class as a class, based on the extracted dependencies, a plurality of words belonging to each of the created initial classes depending on the same word have the same meaning code in the thesaurus. 2. The method according to claim 1, further comprising: a clustering unit that sets words belonging to the thesaurus to have the same meaning code in the same class only when the condition is satisfied, and does not set the words that do not satisfy the condition to the same class. Word class automatic determination device.
【請求項4】 前記クラスタリング手段は、前記同じク
ラスに含まれている単語のうち前記同じクラスに属して
いる他のどの単語とも違う単語に依存している単語を前
記同じクラスから外すことを特徴とする請求項3記載の
単語クラス自動決定装置。
4. The method according to claim 1, wherein the clustering unit removes, from the same class, words that are dependent on words different from any other words belonging to the same class among words included in the same class. 4. The automatic word class determination device according to claim 3, wherein
【請求項5】 入力される文に対して形態素解析を行
い、前記入力された文に含まれる内容語を抽出する形態
素解析手段と、 前記抽出された内容語と同じまたは類似した内容語が含
まれる用例文を用例文コーパスから選択する用例文検索
手段とを備え、 前記同じまたは類似した内容語とは、前記抽出された内
容語と同じ内容語であるか、または前記抽出した内容語
と同じ内容語が前記用例文コーパスに含まれない場合、
前記抽出された内容語が属するクラスと同じクラスに属
する内容語であり、 前記クラスには、請求項1〜4のいずれかに記載の単語
クラス自動決定装置によって決定されたクラスが用いら
れていることを特徴とする用例文検索装置。
5. A morphological analysis unit for performing morphological analysis on an input sentence and extracting a content word included in the input sentence, wherein a morphological analysis unit includes a content word that is the same as or similar to the extracted content word. An example sentence search means for selecting an example sentence to be used from an example sentence corpus, wherein the same or similar content word is the same content word as the extracted content word, or the same as the extracted content word. If the content word is not included in the example sentence corpus,
It is a content word belonging to the same class as the class to which the extracted content word belongs, and a class determined by the word class automatic determination device according to any one of claims 1 to 4 is used as the class. An example sentence retrieval device, characterized in that:
【請求項6】 請求項1〜4のいずれかに記載の単語ク
ラス自動決定装置の全部または一部の手段の全部または
一部の機能をコンピュータにより実行させるためのプロ
グラム及び/またはデータを担持した媒体であって、コ
ンピュータにより処理可能なことを特徴とする媒体。
6. A program and / or data for causing a computer to execute all or a part of the functions of all or a part of the automatic word class determining apparatus according to claim 1. A medium that can be processed by a computer.
【請求項7】 請求項1〜4のいずれかに記載の単語ク
ラス自動決定装置の全部または一部の手段の全部または
一部の機能をコンピュータにより実行させるためのプロ
グラム及び/またはデータであることを特徴とする情報
集合体。
7. A program and / or data for causing a computer to execute all or a part of functions of all or a part of the automatic word class determining device according to claim 1. An information aggregate characterized by
JP2000165126A 2000-06-01 2000-06-01 Word class automatic determination device, example sentence retrieval device, medium, and information aggregate Pending JP2001344256A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000165126A JP2001344256A (en) 2000-06-01 2000-06-01 Word class automatic determination device, example sentence retrieval device, medium, and information aggregate

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000165126A JP2001344256A (en) 2000-06-01 2000-06-01 Word class automatic determination device, example sentence retrieval device, medium, and information aggregate

Publications (1)

Publication Number Publication Date
JP2001344256A true JP2001344256A (en) 2001-12-14

Family

ID=18668647

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000165126A Pending JP2001344256A (en) 2000-06-01 2000-06-01 Word class automatic determination device, example sentence retrieval device, medium, and information aggregate

Country Status (1)

Country Link
JP (1) JP2001344256A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006085179A (en) * 2003-01-15 2006-03-30 Matsushita Electric Ind Co Ltd Broadcast reception method, broadcast receiving system, recording medium, and program
KR20110066467A (en) * 2009-12-11 2011-06-17 한국전자통신연구원 Method and apparatus for automatic post-editing based on factored language model
CN101645083B (en) * 2009-01-16 2012-07-04 中国科学院声学研究所 Acquisition system and method of text field based on concept symbols
JP2015111350A (en) * 2013-12-06 2015-06-18 富士ゼロックス株式会社 Semantic information classification program and information processing device

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006085179A (en) * 2003-01-15 2006-03-30 Matsushita Electric Ind Co Ltd Broadcast reception method, broadcast receiving system, recording medium, and program
CN101645083B (en) * 2009-01-16 2012-07-04 中国科学院声学研究所 Acquisition system and method of text field based on concept symbols
KR20110066467A (en) * 2009-12-11 2011-06-17 한국전자통신연구원 Method and apparatus for automatic post-editing based on factored language model
KR101626386B1 (en) 2009-12-11 2016-06-02 한국전자통신연구원 Method and apparatus for automatic post-editing based on factored language model
JP2015111350A (en) * 2013-12-06 2015-06-18 富士ゼロックス株式会社 Semantic information classification program and information processing device

Similar Documents

Publication Publication Date Title
US5937422A (en) Automatically generating a topic description for text and searching and sorting text by topic using the same
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US20030101182A1 (en) Method and system for smart search engine and other applications
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
US20100161314A1 (en) Region-Matching Transducers for Text-Characterization
WO2005124599A2 (en) Content search in complex language, such as japanese
JPWO2008023470A1 (en) SENTENCE UNIT SEARCH METHOD, SENTENCE UNIT SEARCH DEVICE, COMPUTER PROGRAM, RECORDING MEDIUM, AND DOCUMENT STORAGE DEVICE
JP2011118689A (en) Retrieval method and system
CA2493084A1 (en) System for extracting information from a natural language text
KR20020053968A (en) Color and shape search method and apparatus of image data based on natural language with fuzzy concept
CN114266256A (en) Method and system for extracting new words in field
Zhang et al. A trainable method for extracting Chinese entity names and their relations
KR20030039575A (en) Method and system for summarizing document
JP4005343B2 (en) Information retrieval system
JP2001344256A (en) Word class automatic determination device, example sentence retrieval device, medium, and information aggregate
JP2894301B2 (en) Document search method and apparatus using context information
KR100376931B1 (en) A Method of Database System Implementation for Korean-English Translation Using Information Retrieval Techniques
KR20050064574A (en) System for target word selection using sense vectors and korean local context information for english-korean machine translation and thereof
JP2005202924A (en) Translation determination system, method, and program
JPH0228769A (en) Automatic key word generating device
KR20020054254A (en) Analysis Method for Korean Morphology using AVL+Trie Structure
KR20000063488A (en) The semantic knowledge database automatic construction device on the on-line document, and the method, the record medium for that.
JPS63228326A (en) Automatic key word extracting system
JP3707506B2 (en) Document search apparatus and document search method
JP3314720B2 (en) String search device