JPH0628392A - Part of speech selection system - Google Patents

Part of speech selection system

Info

Publication number
JPH0628392A
JPH0628392A JP3043661A JP4366191A JPH0628392A JP H0628392 A JPH0628392 A JP H0628392A JP 3043661 A JP3043661 A JP 3043661A JP 4366191 A JP4366191 A JP 4366191A JP H0628392 A JPH0628392 A JP H0628392A
Authority
JP
Japan
Prior art keywords
speech
probability
context
word
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3043661A
Other languages
Japanese (ja)
Other versions
JP3059504B2 (en
Inventor
Yukiko Yamaguchi
由紀子 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP3043661A priority Critical patent/JP3059504B2/en
Publication of JPH0628392A publication Critical patent/JPH0628392A/en
Application granted granted Critical
Publication of JP3059504B2 publication Critical patent/JP3059504B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

PURPOSE:To provide the part of speech selection system capable of reducing a memory capacity on the part of speech selection system automatically selecting the kind of a part of speech of each word in a sentence (text). CONSTITUTION:The system consists of a vocabulary possibility retrieval section 1 receiving an input text and retrieving the vocabulary possibility for each word, vocabulary possibility dictionary 2 being the retrieval object of the section 1, context possibility detection section 10 detecting the possibility of the context arranged with plural parts of speech based on the vocabulary possibility retrieved from the section 1, context possibility calculation section 20 using a neural network inputting the input pattern given from the section 10 and calculating the context possibility according to the kind of a part of speech of the next word, and an evaluation value calculation section 6 receiving the output from the context possibility detection section 10 and calculating the evaluation value according to a prescribed procedure based on the possibility of the context arranged with plural parts of speech and the vocabulary possibility of words of head or end arranged with a part of speech.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は自然言語処理技術に関
し、更に詳しくは文章(テキスト)中の各単語の品詞の
種類を自動的に選択するようにした品詞選択システムに
関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a natural language processing technique, and more particularly to a part-of-speech selection system for automatically selecting the type of part-of-speech of each word in a text.

【0002】近年、音声合成の研究が進み、読み上げシ
ステム,応答システム等のさまざまな分野で利用され始
めている。合成音声の自然性を向上せさるためには、出
力する文章の言語情報を抽出し、それに応じたアクセン
トやイントネーションを生成するパターンを生成する必
要がある。そのような言語情報の基礎をなすのが品詞で
ある。品詞とは、名詞,動詞,副詞等の単語の種類をい
う。音声合成システムは、携帯性(ポータビリティ)が
要求されていることから、文章の中の単語の品詞を簡便
に抽出できるシステムが強く望まれている。
[0002] In recent years, research on voice synthesis has advanced, and it has begun to be used in various fields such as reading systems and response systems. In order to improve the naturalness of synthesized speech, it is necessary to extract the linguistic information of the output sentence and generate a pattern for generating accents and intonations corresponding to it. The part of speech that forms the basis of such language information. Part-of-speech refers to a type of word such as a noun, a verb, or an adverb. Since the voice synthesis system is required to be portable, a system that can easily extract the part of speech of a word in a sentence is strongly desired.

【0003】[0003]

【従来の技術】最近、文章の中の単語の品詞を統計的な
情報を利用して決定する方式が用いられてきている。こ
れは、例えば“A Stochastic Parts
Program and Noun Phrase
Paser for Unrestricted Te
xt”(ACL proceedings 2nd A
pplied Natural Language P
rocessing)に示されているように、与えられ
た単語がある品詞をとる確率である語彙確率と品詞並び
の出現頻度を示す文脈確率を用いて文章中の各単語の品
詞を決定するものである。
2. Description of the Related Art Recently, a method of determining the part of speech of a word in a sentence by using statistical information has been used. This is, for example, “A Stochastic Parts”
Program and Noun Phase
Paser for Unrestricted Te
xt ”(ACL processes 2nd A
pplied Natural Language P
processing, the vocabulary probability, which is the probability that a given word takes a part of speech, and the context probability that indicates the frequency of appearance of the part-of-speech sequence are used to determine the part of speech of each word in the sentence. .

【0004】図19は従来装置の構成例を示すブロック
図である。図において、1は入力テキストを受けて、単
語毎の語彙確率を検索する語彙確率検索部、2は語彙と
該語彙の確率が格納され、前記語彙検索部1の検索の対
象となる語彙確率辞書、3は語彙確率検索部1の出力を
基に、各単語の品詞並びを作成する品詞並び作成部であ
る。
FIG. 19 is a block diagram showing a configuration example of a conventional device. In the figure, 1 is a vocabulary probability search unit that receives an input text and searches for a vocabulary probability for each word, and 2 is a vocabulary probability dictionary that is a target of search by the vocabulary search unit 1, in which the vocabulary and the probability of the vocabulary are stored. Reference numeral 3 is a part-of-speech sequence creation unit that creates a part-of-speech sequence of each word based on the output of the vocabulary probability search unit 1.

【0005】4は前記語彙確率検索部1から検索された
語彙確率を基に、複数個の品詞並びの文脈確率を検出す
る文脈確率検出部、5は品詞並びの文脈確率を格納して
いる文脈確率テーブル、6は前記文脈確率検出部4の出
力を受けて、複数個の品詞並びの文脈確率と該品詞並び
の先頭たは末尾の単語の語彙確率から評価値を算出する
評価値算出部である。このように構成された装置の動作
を説明すれば、以下のとおりである。
Reference numeral 4 denotes a context probability detecting unit for detecting context probabilities of a plurality of parts of speech based on the vocabulary probabilities searched by the vocabulary probability searching unit 1, and 5 a context for storing context probabilities of the parts of speech array. A probability table, 6 is an evaluation value calculation unit that receives the output of the context probability detection unit 4 and calculates an evaluation value from the context probabilities of a plurality of part-of-speech sequences and the vocabulary probabilities of the first and last words of the part-of-speech sequence. is there. The operation of the apparatus configured as described above will be described below.

【0006】先ず、語彙確率検索部1は入力テキスト
(文章)を入力し、各単語毎の語彙確率を語彙確率辞書
2から読み込む。例えば、入力テキストが I love her very much. という文章であったものとする。ここでは、単語の品詞
並びのカデゴリとして3単語品詞並びを考える。語彙確
率検索部1は、この文章を構成している各単語の語彙確
率を語彙確率辞書2から抽出する。
First, the vocabulary probability search unit 1 inputs an input text (sentence) and reads the vocabulary probability for each word from the vocabulary probability dictionary 2. For example, if the input text is I love her very much. It was assumed that the sentence was. Here, a three-word part-of-speech sequence is considered as a category of a part-of-speech sequence of words. The vocabulary probability search unit 1 extracts the vocabulary probability of each word forming this sentence from the vocabulary probability dictionary 2.

【0007】語彙確率辞書2は、例えば図20に示すよ
うな構成となっている。図に示す内容は、入力された文
章の単語のみを抽出したものであり、実際にはアルファ
ベット順に全ての単語が品詞の種類毎の出現確率として
格納されている。
The vocabulary probability dictionary 2 has a structure as shown in FIG. 20, for example. The content shown in the figure is obtained by extracting only the words in the input sentence, and actually, all the words are stored in alphabetical order as the appearance probabilities for each type of part of speech.

【0008】ここでは、文章の後から処理していく場合
を考える。
Here, consider the case where processing is performed after a sentence.

【0009】品詞並び作成部3は、先ず、文章のピリオ
ド“.##”に対する(Z##)という品詞並びを作成
し、文脈確率検出部4に与える。ここで、#は文末また
は文頭を示す記号である。該文脈確率検出部4は、文脈
確率テーブル5から(Z##)なる品詞並びの文脈確率
を抽出してくる。文脈確率テーブル5には3個の品詞の
組み合わせになるあらゆるパターンについての出現確率
が文脈確率として格納されている。
The part-of-speech sequence creating unit 3 first creates a part-of-speech sequence of (Z ##) for the period ". ##" of the sentence, and supplies it to the context probability detecting unit 4. Here, # is a symbol indicating the end or beginning of a sentence. The context probability detecting unit 4 extracts the context probability of the part-of-speech arrangement of (Z ##) from the context probability table 5. The context probability table 5 stores, as context probabilities, appearance probabilities for all patterns that form a combination of three parts of speech.

【0010】図21は文脈確率テーブルの構成例を示す
図である。図ではその一部のみを示している。また、こ
こでは品詞並びとして英語の場合、最も分類しやすい3
単語品詞並びを用いている。それぞれの品詞並びの組み
合わせがとり得る確率は、大量の文章を参考にして、そ
のとり得る確率を統計的に求めたものである。
FIG. 21 is a diagram showing a configuration example of the context probability table. In the figure, only a part thereof is shown. In addition, in the case of English as a part-of-speech sequence, it is the easiest to classify 3
The word part-of-speech sequence is used. The probability that each combination of part-of-speech sequences can take is obtained by statistically obtaining the possible probability with reference to a large amount of sentences.

【0011】評価値算出部6は、(Z##)なる品詞並
びの文脈確率と(.Z)の語彙確率とを乗算して評価値
とする。例えば、(Z##)の文脈確率が0.983,
(.Z)の語彙確率が1.00であれば、その評価値は
0.983となる。
The evaluation value calculation unit 6 multiplies the context probability of the part-of-speech sequence of (Z ##) by the vocabulary probability of (.Z) to obtain an evaluation value. For example, the context probability of (Z ##) is 0.983,
If the vocabulary probability of (.Z) is 1.00, the evaluation value will be 0.983.

【0012】次に、品詞並び作成部3は、単語並び“m
uch.#”に対する考えられる組合わせの品詞並び
(ADJ Z #),(NOUN Z #),(ADV
Z#)を作成する。文脈確率検出部4は、これら品詞
並び(ADJ Z #),(NOUN Z #),(A
DV Z #)に対する文脈確率を文脈確率テーブル5
から抽出する。ここで、ADJは形容詞,NOUNは名
詞,ADVは副詞である。図24に品詞の分類を示す。
英語の場合、図に示すように、品詞の種類には20通り
あり、ここではそれぞの品詞について、図のような品詞
記号を用いるものとする。
Next, the part-of-speech sequence creating section 3 uses the word sequence "m".
uch. # "(ADJ Z #), (NOUN Z #), (ADV
Z #). The context probability detecting unit 4 uses these parts-of-speech sequences (ADJ Z #), (NOUN Z #), (A
DV Z #) context probability table 5
Extract from. Here, ADJ is an adjective, NOUN is a noun, and ADV is an adverb. FIG. 24 shows classification of parts of speech.
In the case of English, as shown in the figure, there are 20 kinds of parts of speech, and here, for each part of speech, the part of speech symbol as shown in the figure is used.

【0013】評価値算出部6は、それぞれの品詞並びの
場合において、“much”がADJをとる場合,NO
UNをとる場合及びADVをとる場合の文脈確率と語彙
確率とそれまでの対応する累積評価値を乗算して評価値
を算出する。
The evaluation value calculation unit 6 returns NO when "much" is ADJ in each part of speech sequence.
The evaluation value is calculated by multiplying the context probability, the vocabulary probability, and the corresponding cumulative evaluation value up to that time when UN is taken and when ADV is taken.

【0014】次に、品詞並び作成部3は単語並び“ve
ry much.”に対する品詞並び(ADV ADJ
Z),(ADV NOUNZ Z),(ADV AD
VZ),(ADJ ADJ Z),(ADJ NOUN
Z Z),(ADJ ADV Z)を作成する。
Next, the part-of-speech sequence creating section 3 uses the word sequence "ve".
ry much. Part of speech for "(ADV ADJ
Z), (ADV NOUNZ Z), (ADV AD
VZ), (ADJ ADJ Z), (ADJ NOUN
ZZ), (ADJ ADV Z) are created.

【0015】文脈確率検出部4は、これら品詞並び(A
DV ADJ Z),(ADV NOUNZ Z),
(ADV ADV Z),(ADJ ADJ Z),
(ADJNOUNZ Z),(ADJ ADV Z)に
対する文脈確率を文脈確率テーブル5から抽出する。評
価値算出部6は、それぞれの品詞並びの場合において、
“very”がADVをとる場合及びADJをとる場合
のそれぞれについて、文脈確率,語彙確率,累積評価値
を乗算してそれぞれの品詞並びの評価値を算出する。
The context probability detecting section 4 uses the sequence of parts of speech (A
DV ADJ Z), (ADV NOUNZ Z),
(ADV ADV Z), (ADJ ADJ Z),
The context probabilities for (ADJNOUNZ Z) and (ADJ ADV Z) are extracted from the context probability table 5. The evaluation value calculation unit 6 calculates
The evaluation value of each part-of-speech sequence is calculated by multiplying the context probability, the vocabulary probability, and the cumulative evaluation value for each of the cases where "very" takes ADV and ADJ.

【0016】以下、同様の操作を“##I”まで繰り返
すと、5個の品詞並び I love her very much. がとりうる全ての品詞並びに対する評価値が求まる。そ
して、それら評価値の最も高いものを品詞列として選択
する。この場合に、選択される品詞列は、 # # PPRON V PRON ADV ADV Z # # となる。
When the same operation is repeated until "## I", five parts-of-speech sequences I love her very much. The evaluation values for all possible part-of-speech sequences can be obtained. Then, the one with the highest evaluation value is selected as the part-of-speech sequence. In this case, the selected part-of-speech sequence is ## PPRON V PRON ADV ADV Z ##.

【0017】[0017]

【発明が解決しようとする課題】前述した従来装置の場
合、品詞並びの文脈確率をテーブル(文脈確率テーブル
5)で保存しているため、品詞分類のカテゴリ数や品詞
並びの数が大きくなるにつれて、大量のメモリが必要に
なるという問題があった。
In the case of the above-described conventional apparatus, since the context probabilities of the part-of-speech arrangement are stored in the table (context probability table 5), as the number of categories of part-of-speech classification and the number of part-of-speech arrangements increase. There was a problem that a large amount of memory was required.

【0018】本発明はこのような課題に鑑みてなされた
ものであって、メモリ容量を小さくすることができる品
詞選択システムを提供することを目的としている。
The present invention has been made in view of the above problems, and an object thereof is to provide a part-of-speech selection system capable of reducing the memory capacity.

【0019】[0019]

【課題を解決するための手段】図1は本発明の原理ブロ
ック図である。図19と同一のものは、同一の符号を付
して示す。図において、1は入力テキストを受けて、単
語毎の語彙確率を検索する語彙確率検索部、2は語彙と
該語彙の確率が格納され、前記語彙検索部1の検索の対
象となる語彙確率辞書である。
FIG. 1 is a block diagram showing the principle of the present invention. The same parts as those in FIG. 19 are designated by the same reference numerals. In the figure, 1 is a vocabulary probability search unit that receives an input text and searches for a vocabulary probability for each word, and 2 is a vocabulary probability dictionary that is a target of search by the vocabulary search unit 1, in which the vocabulary and the probability of the vocabulary are stored. Is.

【0020】10は前記語彙確率検索部1から検索され
た語彙確率を基に、複数個の品詞並びの文脈確率を検出
する文脈確率検出部、20は該文脈確率検出部10から
与えられる入力パターンを入力して次の単語の品詞の種
類に応じた文脈確率を算出する、ニューラルネットワー
クを用いた文脈確率算出部、6は前記文脈確率検出部1
0の出力を受けて、複数個の品詞並びの文脈確率と該品
詞並びの先頭または末尾の単語の語彙確率から所定の手
順に従って評価値を算出する評価値算出部である。
Reference numeral 10 is a context probability detecting unit for detecting context probabilities of a plurality of parts of speech based on the vocabulary probability retrieved by the vocabulary probability retrieving unit 1, and 20 is an input pattern given from the context probability detecting unit 10. To calculate the context probability according to the type of part of speech of the next word, 6 is a context probability calculating unit using a neural network, 6 is the context probability detecting unit 1
The evaluation value calculation unit receives an output of 0 and calculates an evaluation value according to a predetermined procedure from the context probabilities of a plurality of part-of-speech sequences and the vocabulary probability of the first or last word of the part-of-speech sequence.

【0021】[0021]

【作用】予め、文脈確率算出部20に品詞並びの確率を
学習させておく。例えば、3単語品詞並びの場合には、
ニューラルネットワークに後ろから2つの品詞の入力パ
ターンを入力させ、その時の次の単語(先頭単語)の品
詞の種類に応じた確率を予め教師パターンとして与えて
やり、教師パターンとニューラルネットワークの出力と
が等しくなるように学習させておく。
In advance, the context probability calculation unit 20 is made to learn the probability of the part-of-speech arrangement. For example, in the case of a 3-word part-of-speech sequence,
The neural network is made to input two part-of-speech input patterns from the back, and the probability according to the kind of part-of-speech of the next word (first word) at that time is given in advance as a teacher pattern, and the teacher pattern and the output of the neural network are Make them learn to be equal.

【0022】しかる後、文脈確率算出部20は、文脈確
率検出部10から与えられる品詞並びのパターンを入力
して、次の単語の品詞の種類に応じた文脈確率を算出す
る。例えば、3単語品詞並びの場合には、2個の品詞並
びを入力パターンとして入力し、次の単語の品詞並びを
とる確率(文脈確率)が品詞の種類毎に算出される。こ
の算出された文脈確率を基に、評価値算出部6は3単語
品詞並びのパターン毎の評価値を算出する。
Thereafter, the context probability calculating unit 20 inputs the pattern of the part-of-speech arrangement given from the context-probability detecting unit 10, and calculates the context probability according to the type of the part-of-speech of the next word. For example, in the case of a three-word part-of-speech sequence, two part-of-speech sequences are input as an input pattern, and the probability of taking the part-of-speech sequence of the next word (context probability) is calculated for each type of part-of-speech. Based on the calculated context probabilities, the evaluation value calculation unit 6 calculates the evaluation value for each pattern of the 3-word part-of-speech arrangement.

【0023】このように、本発明によれば文脈確率算出
部20を構成するニューラルネットワークに品詞並びの
確率を学習させることにより、例えば3品詞並びの場合
には、後ろから2つの品詞に相当するパターンを入力パ
ターンとして入力してやれば、次の3つ目の品詞(先頭
単語の品詞)がとる確率(文脈確率)を品詞の種類ごと
に出力するので、文脈確率の情報を文脈確率テーブルと
してもっている必要がなくなり、メモリ容量を小さくす
ることができる品詞選択システムを提供することができ
る。
As described above, according to the present invention, the neural network forming the context probability calculating unit 20 is made to learn the probability of the part-of-speech arrangement, so that, for example, in the case of three-part-of-speech arrangement, it corresponds to two parts of speech from the rear. If a pattern is input as an input pattern, the probability (context probability) of the next third part of speech (part of speech of the first word) is output for each type of part of speech, so the context probability information is also stored as a context probability table. It is possible to provide a part-of-speech selection system that eliminates the need and can reduce the memory capacity.

【0024】[0024]

【実施例】以下、図面を参照して本発明の動作を詳細に
説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS The operation of the present invention will be described in detail below with reference to the drawings.

【0025】図2は文脈確率算出部20の構成例を示す
図である。21はニューラルネットワークで、入力層L
1,中間層L2及び出力層L3から構成されている。入
力層L1は品詞カテゴリ数の組合わせが(品詞並びの数
−1)個設けられている。例えば品詞並びが前述した3
個である場合、入力層L1は品詞カテゴリ数の組合わせ
が2個で構成される。出力装置L3は1個のカテゴリ数
の組合わせをもっている。これら品詞カテゴリ数の組合
わせの単位としては、例えば英語の品詞の数である20
個(20ユニット)が用いられる。
FIG. 2 is a diagram showing a configuration example of the context probability calculation unit 20. 21 is a neural network, which is an input layer L
1, an intermediate layer L2 and an output layer L3. The input layer L1 is provided with (combination of part-of-speech numbers-1) combinations of the number of part-of-speech categories. For example, the part-of-speech sequence described above is 3
In the case of the number of pieces, the input layer L1 is composed of two combinations of the number of parts of speech categories. The output device L3 has a combination of one category number. The unit of combination of the number of parts of speech categories is, for example, the number of parts of speech in English, which is 20.
Individual pieces (20 units) are used.

【0026】22は出力層L3の出力値と教師パターン
とを比較する比較部である。該比較部22は、出力層L
3の出力(確率)が教師パターンと等しくなるように入
力層L1と中間層L2間のシナプスの重みの変更及び中
間層L2と出力層L3間の重みの変更を行う。最終的
に、出力層L3の出力値と教師パターンが一致した時点
で学習が終了したことになる。この時、入力層L1と中
間層L2間のシナプスの重み及び中間層L2と出力層L
3間の重みはある一定値に固定される。
Reference numeral 22 is a comparison unit for comparing the output value of the output layer L3 with the teacher pattern. The comparing unit 22 outputs the output layer L
The synaptic weight between the input layer L1 and the intermediate layer L2 is changed and the weight between the intermediate layer L2 and the output layer L3 is changed so that the output (probability) of 3 becomes equal to the teacher pattern. Finally, learning ends when the output value of the output layer L3 and the teacher pattern match. At this time, the weight of the synapse between the input layer L1 and the intermediate layer L2 and the intermediate layer L2 and the output layer L
The weight between 3 is fixed to a certain fixed value.

【0027】図3は本発明の一実施例を示す構成ブロッ
ク図である。図1と同一のものは、同一の符号を伏して
示す。図において、文脈確率検出部10は、語彙確率検
索部1からの単語を入力して所定の数(例えば3個)だ
けの品詞並びを作成する品詞並び作成部11,品詞並び
作成部11の出力を受けて入力パターンを作成する入力
パターン作成部12,該入力パターン作成部12の出力
を文脈確率算出部20に入力してニューラルネットワー
クから得られたそれぞれの品詞毎の文脈確率を受けて出
力値を選択する出力値選択部13から構成されている。
FIG. 3 is a block diagram showing the configuration of an embodiment of the present invention. The same parts as those in FIG. 1 are shown with the same reference numerals omitted. In the figure, the context probability detecting unit 10 inputs the words from the vocabulary probability searching unit 1 and creates a predetermined number (for example, three) of a part-of-speech sequence creating unit 11 and an output of the part-of-speech sequence creating unit 11. Input pattern creating unit 12 which receives the input pattern and outputs the output of the input pattern creating unit 12 to the context probability calculating unit 20 to receive the context probabilities for each part of speech obtained from the neural network and output values. The output value selection unit 13 for selecting

【0028】評価値算出部6は、出力値選択部13から
与えられた文脈確率と語彙確率とから評価値を算出する
評価値算出手段31と、該評価値算出手段31からの複
数の出力のうちから評価値が最大のものを選択する最大
値選択部32から構成されている。そして、最大値選択
部32の出力が求める品詞列となる。このように構成さ
れた装置の動作を説明すれば、以下のとおりである。
The evaluation value calculation unit 6 includes an evaluation value calculation unit 31 for calculating an evaluation value from the context probability and the vocabulary probability given by the output value selection unit 13, and a plurality of outputs from the evaluation value calculation unit 31. It is composed of a maximum value selection unit 32 that selects the one with the maximum evaluation value from among them. Then, the output of the maximum value selection unit 32 becomes the desired part-of-speech sequence. The operation of the apparatus configured as described above will be described below.

【0029】この実施例におけるニューラルネットワー
ク21は、予め大量のデータから抽出した品詞並びの頻
度から、入力テキストについて末尾の単語から先頭の単
語に向かって逆向きに品詞を選択して学習させる方法
と、先頭の単語から末期の単語に向かって前向きに品詞
を選択して学習せさる方法のいずれも用いることができ
る。 (末尾の単語から品詞を選択する場合)図4は末尾の単
語から品詞を選択する場合の学習パターンの作成例を示
す図である。ここでは3単語品詞並びを用いるものとす
る。例えば、 ADV ADV ADV のように副詞が3個並ぶ場合を考える。このような品詞
並びの頻度は大量のデータを検索した時、307個であ
り、その文脈確率は0.07である。この0.07は、
頻度307を3単語品詞並びの後ろ2品詞が同じものの
頻度の総和で割った値として求められる。このようにし
て、次の品詞並び NOT ADV ADV のようなNOTと2個の副詞の並びの頻度は78であ
り、その文脈確率は0.02である。以下同様にして、
後ろの2個が全てADVで先頭の1個がカテゴリ数20
のあらゆる品詞をとる確率が文脈確率として図4に示さ
れている。この文脈確率をニューラルネットワーク21
に学習させる方法について説明する。
The neural network 21 in this embodiment selects a part-of-speech in the reverse direction from the last word to the first word in the input text based on the frequency of the part-of-speech arrangement extracted from a large amount of data in advance and learns it. Any of the methods of learning by selecting a part of speech positively from the first word toward the last word can be used. (When selecting a part of speech from the last word) FIG. 4 is a diagram showing an example of creating a learning pattern when selecting a part of speech from the last word. Here, a three-word part-of-speech sequence is used. For example, consider a case where three adverbs are lined up like ADV ADV ADV. The frequency of such a part-of-speech arrangement is 307 when a large amount of data is searched, and its context probability is 0.07. This 0.07 is
It is calculated as a value obtained by dividing the frequency 307 by the sum of the frequencies of the two last two parts of speech in the three-word part-of-speech sequence. Thus, the frequency of the arrangement of NOT and two adverbs such as the next part-of-speech sequence NOT ADV ADV is 78 and its context probability is 0.02. And so on
The last two are all ADV and the first one is 20 categories
The probability of taking any part of speech of is shown as the context probability in FIG. This context probability is used as the neural network 21
I will explain how to learn.

【0030】ここでは、図2のニューラルネットワーク
21が入力は2組であり、その品詞種別はいずれもAD
Vであるものとする。このADVを示すのは、20ユニ
ットのうちの最初のユニットに“1”を立てた状態で示
す。ここで、品詞カテゴリ数として20ユニットを用い
たのは、英語の場合、品詞の種類が図24に示すように
20種類であることに対応させたものである。
Here, the neural network 21 of FIG. 2 has two sets of inputs, and the types of parts of speech are both AD.
Let V be. This ADV is shown in a state where "1" is set in the first unit of the 20 units. Here, the use of 20 units as the number of parts-of-speech categories corresponds to that in the case of English, there are 20 kinds of parts-of-speech as shown in FIG.

【0031】図5(a)はこの時の入力パターン例を示
す図である。今、入力パターン作成部12は図5に示す
ようなパターンをニューラルネットワーク21に入力さ
せる。また、例えば、3単語品詞並びとして後ろの2個
がNOUN ADVである場合には、その入力パターン
は図5(b)に示すようなものとなる。NOUNの場
合、その番号は図24より“4”である。図24は0か
ら番号が始まっているので、“4”であることは第5番
目を示す。そこで、NOUNの場合には前から5番目に
“1”が立っている。
FIG. 5A is a diagram showing an input pattern example at this time. Now, the input pattern creating unit 12 causes the neural network 21 to input a pattern as shown in FIG. Further, for example, when the last two words in the three-word part-of-speech sequence are NOUN ADVs, the input pattern is as shown in FIG. 5 (b). In the case of NOUN, the number is "4" from FIG. In FIG. 24, since the number starts from 0, the fact that it is "4" indicates the fifth. Therefore, in the case of NOUN, "1" stands fifth from the front.

【0032】図6はこの時の学習の説明図である。入力
層L1は20ユニットずつ2組で合計40ユニットの入
力を受ける。各組の最初のユニットに“1”が立ってい
るのは副詞であることを示している。出力は20ユニッ
トである。一方、このニューラルネットワーク21の比
較部22に与える教師パターンは、図7に示すようなも
のである。この教師パターンは図4に示す文脈確率をそ
のまま利用したものである。
FIG. 6 is an explanatory diagram of learning at this time. The input layer L1 receives a total of 40 units in two sets of 20 units each. A "1" in the first unit of each set is an adverb. The output is 20 units. On the other hand, the teacher pattern given to the comparison unit 22 of the neural network 21 is as shown in FIG. This teacher pattern uses the context probability shown in FIG. 4 as it is.

【0033】つまり、ADV ADV ADV となる品詞並びの確率は0.07であるので、この値を
教師信号として出力層L3の20ユニットの最初のユニ
ットに与える。次のユニットには NOT ADV ADV となる品詞並びの確率である0.02を与える。以下、
図7の値を教師パターンとして比較部22に与えてい
く。最後のユニットには # ADV ADV となる品詞並びの確率である0.08を与える。図6の
構成において、出力層L3の各ユニットの出力が0.0
7,0.02,…,0.08をとるようになるまで何回
も同一の入力パターンを与えてニューラルネットワーク
21の学習を行なわせる。
That is, since the probability of the part-of-speech sequence that becomes ADV ADV ADV is 0.07, this value is given to the first unit of 20 units of the output layer L3 as a teacher signal. The next unit is given a probability of part-of-speech sequence of 0.02, which is NOT ADV ADV. Less than,
The values in FIG. 7 are given to the comparison unit 22 as a teacher pattern. The last unit is given a part-of-speech sequence probability of 0.08, which is # ADV ADV. In the configuration of FIG. 6, the output of each unit of the output layer L3 is 0.0
The same input pattern is given many times until the value of 7, 0.02, ..., 0.08 is obtained and the neural network 21 is trained.

【0034】以上、後の2個がADV,ADVの場合の
先頭の単語がとる品詞の種類に応じた文脈確率を求める
場合を例にとったが、品詞並びはこれに限るものではな
く、図5(b)に示したものの他、極めて多くのパター
ン(例えば20カテゴリの場合3品詞並びは8000、
学習パターンは400)が存在する。それぞれのパター
ンの組み合わせに対しても、図6のニューラルネットワ
ーク21に学習を行なわせる。
In the above, the case of obtaining the context probability according to the type of part of speech taken by the first word when the latter two are ADV, ADV has been taken as an example, but the part of speech sequence is not limited to this. In addition to the pattern shown in FIG.
There are 400 learning patterns. The neural network 21 of FIG. 6 is also made to perform learning for each combination of patterns.

【0035】このようにして、全ての3単語品詞並びに
ついての学習が終了した状態で、図3に示す装置に入力
テキストを入力してやると、文脈確率算出部20は入力
パターンに応じた3個の品詞並びの文脈確率を出力す
る。この文脈確率算出部の出力から目的の品詞並びの確
率の出力値を出力値選択部13が選択して、評価値算出
手段31に与える。
In this way, when the input text is input to the device shown in FIG. 3 in the state where the learning for all the three-word part-of-speech sequences is completed, the context probability calculation unit 20 selects three input words according to the input pattern. The context probability of the part-of-speech sequence is output. The output value selecting unit 13 selects an output value of the probability of the target part-of-speech arrangement from the output of the context probability calculating unit, and gives it to the evaluation value calculating unit 31.

【0036】評価値算出手段31は前記文脈確率と先頭
単語の語彙確率と、それまでの対応する品詞列の累積評
価値を乗算して評価値を算出する。評価値算出手段31
は3品詞並びがとり得る全ての場合についての評価値を
算出するので、最大値選択部32はこれら評価値の中で
一番大きい値の品詞並びを選択し、求めるべき品詞列と
して出力する。 (先頭の単語から品詞を選択する場合)先頭の単語から
品詞を選択する場合も、前述した末尾の単語から品詞を
選択する場合と同様に考えることができる。
The evaluation value calculation means 31 calculates the evaluation value by multiplying the context probability, the vocabulary probability of the leading word and the cumulative evaluation value of the corresponding part-of-speech string up to that point. Evaluation value calculation means 31
Since the evaluation values are calculated for all possible three-part-of-speech sequences, the maximum value selection unit 32 selects the largest part-of-speech sequence among these evaluation values and outputs it as the part-of-speech sequence to be obtained. (When selecting a part of speech from the first word) When selecting a part of speech from the first word, it can be considered in the same manner as when selecting a part of speech from the last word.

【0037】図8は末尾の単語から品詞を選択する場合
の学習パターンの作成例を示す図である。ここでは3単
語品詞並びを用いるものとする。例えば、 ADV ADV ADV のように副詞が3個並ぶ場合を考える。このような品詞
並びの頻度は大量のデータを検索した時、307個であ
り、その文脈確率は0.07である。この0.07は、
頻度307を3単語品詞並びの前2品詞がADV,AD
Vである3品詞並びの頻度の総和で割った値として求め
られる。このようにして、次の品詞並び ADV ADV NOT のようなNOTと2個の副詞の並びの頻度は6であり、
その文脈確率は0.00である。以下同様にして、前の
2個が全てADVで末尾の1個がカテゴリ数20のあら
ゆる品詞をとる確率が文脈確率として図8に示されてい
る。この文脈確率をニューラルネットワーク21に学習
させる方法について説明する。
FIG. 8 is a diagram showing an example of creating a learning pattern when selecting a part of speech from the last word. Here, a three-word part-of-speech sequence is used. For example, consider a case where three adverbs are lined up like ADV ADV ADV. The frequency of such a part-of-speech arrangement is 307 when a large amount of data is searched, and its context probability is 0.07. This 0.07 is
The frequency of 307 is ADV, AD before the last two parts of speech in the three-word part-of-speech sequence
It is obtained as a value divided by the sum of the frequencies of the three part-of-speech sequences, which is V. In this way, the frequency of the arrangement of NOT and two adverbs such as the following part-of-speech sequence ADV ADV NOT is 6,
Its context probability is 0.00. Similarly, the probability that all of the preceding two are ADVs and the last one is any part-of-speech with a category number of 20 is shown as a context probability in FIG. A method for causing the neural network 21 to learn this context probability will be described.

【0038】ここでは、入力は2組であり、その品詞種
別はいずれもADVであるものとする。このADVを示
すのは、20ユニットのうちの最初のユニットに“1”
を立てた状態で示す。
Here, it is assumed that there are two sets of inputs and that the type of speech is ADV. This ADV is indicated by "1" in the first unit of the 20 units.
Is shown in an upright position.

【0039】図9はこの時の入力パターン例を示す図で
ある。今、入力パターン作成部12は図9に示すような
パターンをニューラルネットワーク21に入力させる。
この時のニューラルネットワークの構成は図6と同じで
ある。
FIG. 9 is a diagram showing an input pattern example at this time. Now, the input pattern creating unit 12 causes the neural network 21 to input a pattern as shown in FIG.
The configuration of the neural network at this time is the same as in FIG.

【0040】入力層L1は20ユニットずつ2組で合計
40ユニットの入力を受ける。各組の最初のユニットに
“1”が立っているのは副詞であることを示している。
出力は20ユニットである。一方、このニューラルネッ
トワーク21の比較部22に与える教師パターンは、図
10に示すようなものである。この教師パターンは図8
に示す文脈確率をそのまま利用したものである。
The input layer L1 receives a total of 40 units in two sets of 20 units each. A "1" in the first unit of each set is an adverb.
The output is 20 units. On the other hand, the teacher pattern given to the comparison unit 22 of the neural network 21 is as shown in FIG. This teacher pattern is shown in Figure 8.
The context probability shown in is used as it is.

【0041】つまり、ADV ADV ADV となる品詞並びの確率は0.07であるので、この値を
教師信号として出力層L3の20ユニットの最初のユニ
ットに与える。次のユニットには ADV ADV NOT となる品詞並びの確率である0.00を与える。以下、
図10の値を教師パターンとして比較部22に与えてい
く。最後のユニットには ADV ADV # となる品詞並びの確率である0.00を与える。図6の
構成において、出力層L3の各ユニットの出力が0.0
7,0.00,…,0.00をとるようになるまで何回
も同一の入力パターンを与えてニューラルネットワーク
21の学習を行なわせる。
That is, since the probability of the part-of-speech sequence that becomes ADV ADV ADV is 0.07, this value is given to the first unit of 20 units of the output layer L3 as a teacher signal. The next unit is given a probability of 0.00 of the part-of-speech sequence that becomes ADV ADV NOT. Less than,
The values of FIG. 10 are given to the comparison unit 22 as a teacher pattern. The last unit is given a probability of 0.00 of the part-of-speech sequence that becomes ADV ADV #. In the configuration of FIG. 6, the output of each unit of the output layer L3 is 0.0
The neural network 21 is trained by giving the same input pattern many times until it takes 7, 0.00, ..., 0.00.

【0042】以上、前から2個がADV,ADVの場合
の末尾の単語がとる品詞の種類に応じた文脈確率を求め
る場合を例にとったが、品詞並びはこれに限るものでは
なく、極めて多くのパターンが存在する。それぞれのパ
ターンの組み合わせに対しても、図6のニューラルネッ
トワーク21に学習を行なわせる。
In the above, the case where the context probability is obtained according to the type of part of speech taken by the last word when the last two words are ADV, ADV has been taken as an example, but the part of speech sequence is not limited to this, and is extremely limited. There are many patterns. The neural network 21 of FIG. 6 is also made to perform learning for each combination of patterns.

【0043】このようにして、全ての3単語品詞並びに
ついての学習が終了した状態で、図3に示す装置に入力
テキストを入力してやると、文脈確率算出部20は入力
パターンに応じた3個の品詞並びの文脈確率を出力す
る。この文脈確率算出部の出力から目的の品詞並びの確
率の出力値を出力値選択部13が選択して、評価値算出
手段31に与える。
In this way, when the input text is input to the device shown in FIG. 3 in the state where the learning for all the three-word part-of-speech sequences is completed, the context probability calculation unit 20 selects three input words according to the input pattern. The context probability of the part-of-speech sequence is output. The output value selecting unit 13 selects an output value of the probability of the target part-of-speech arrangement from the output of the context probability calculating unit, and gives it to the evaluation value calculating unit 31.

【0044】評価値算出手段31は前記文脈確率と末尾
単語の語彙確率と、それまでの対応する品詞列の累積評
価値を乗算して評価値を算出する。評価値算出手段31
は3品詞並びがとり得る全ての場合についての評価値を
算出するので、最大値選択部32はこれら評価値の中で
一番大きい値の品詞並びを選択し、求めるべき品詞列と
して出力する。
The evaluation value calculation means 31 calculates the evaluation value by multiplying the context probability and the vocabulary probability of the last word by the cumulative evaluation value of the corresponding part-of-speech string up to that point. Evaluation value calculation means 31
Since the evaluation values are calculated for all possible three-part-of-speech sequences, the maximum value selection unit 32 selects the largest part-of-speech sequence among these evaluation values and outputs it as the part-of-speech sequence to be obtained.

【0045】次に、具体例を用いて本発明装置の動作を
説明する。ここでは、図24に示した20カテゴリに分
類した品詞を使用し、3品詞並びの文脈確率を利用し
て、入力テキストの各単語の品詞を末尾から先頭に向か
って選択していく場合を考える。ここでは、 I appealed to the children to make less noise. という文章について品詞選択の処理を行う。語彙確率検
索部1は、入力テキスト中の各単語について語彙確率辞
書2を検索し、それぞれの単語について品詞カテゴリと
その確率を抽出する。図11はこのようにして抽出され
た品詞カテゴリとその確率を示す図である。前記文章に
対応して、それぞの単語の品詞カテゴリとその語彙確率
とが示されている。
Next, the operation of the device of the present invention will be described using a specific example. Here, a case is considered in which the part-of-speech of each word of the input text is selected from the end to the beginning by using the part-of-speech classified into 20 categories shown in FIG. . Here, the part of speech is selected for the sentence I appealed to the children to make less noise. The vocabulary probability search unit 1 searches the vocabulary probability dictionary 2 for each word in the input text, and extracts the part-of-speech category and its probability for each word. FIG. 11 is a diagram showing the part-of-speech categories thus extracted and their probabilities. Corresponding to the sentence, the part-of-speech category of each word and its vocabulary probability are shown.

【0046】品詞並び作成部11は、この検索結果につ
いて3単語の品詞並びを作成する。図12はこのように
して作成された3単語品詞並びを示す図である。文章の
後の方から実現される可能性のある全ての品詞並びが作
成されている。
The part-of-speech sequence creating section 11 creates a part-of-speech sequence of three words for this search result. FIG. 12 is a diagram showing a three-word part-of-speech sequence created in this way. All part-of-speech sequences that may be realized later in the sentence have been created.

【0047】入力パターン作成部12は、これらの品詞
並びの後2品詞から図5に示したような入力パターンを
作成し、ニューラルネットワークを用いた文脈確率算出
部20に与える。文脈確率算出部20は、後2品詞から
先頭の単語のとる確率を文脈確率として品詞カテゴリ毎
に出力する。
The input pattern creating unit 12 creates an input pattern as shown in FIG. 5 from the two parts of speech after these parts of speech alignment and gives it to the context probability calculating unit 20 using a neural network. The context probability calculating unit 20 outputs the probability of the first word from the latter two parts of speech as the context probability for each part of speech category.

【0048】出力値選択部13は、与えられた入力パタ
ーンに対する文脈確率算出部20の出力について、品詞
並びの先頭の品詞に対する値を選択し、当該品詞並びの
文脈確率とする。
The output value selection unit 13 selects a value for the first part of speech of the part-of-speech sequence for the output of the context-probability calculation unit 20 for the given input pattern, and sets it as the context probability of the part-of-speech sequence.

【0049】評価値算出手段31は、出力値選択部13
から得られた文脈確率Pbと、語彙確率検索部1で検索
した品詞並びの先頭の品詞に対する語彙確率Pvを、入
力テキストの末尾の単語から作成した品詞並びに対する
累積評価値e´にかけた値eを新しい評価値とする。新
しい評価値eは次式で表される。
The evaluation value calculation means 31 includes an output value selection unit 13
A value e obtained by multiplying the context probability Pb obtained from the vocabulary probability Pb and the vocabulary probability Pv for the first part-of-speech of the part-of-speech sequence searched by the vocabulary probability search unit 1 by the cumulative evaluation value e ′ for the part-of-speech sequence created from the last word of the input text. Is a new evaluation value. The new evaluation value e is expressed by the following equation.

【0050】 e=Pb×Pv×e´ (1) 図13,図14はこのようにして得られた評価値算出結
果を示す図である。図13と図14は連続しており、図
13の後に図14がくるようになっている。図におい
て、Aの部分は文脈確率算出部20で前述したシーケン
スにより得られた文脈確率、Bは先頭単語の品詞の種類
に応じた語彙確率、Cはそれまでの過程で得られた累積
評価値e、Dは当該累積評価値に対応した品詞並びをそ
れぞれ示している。
E = Pb × Pv × e ′ (1) FIGS. 13 and 14 are views showing the evaluation value calculation results obtained in this way. 13 and 14 are continuous, and FIG. 14 comes after FIG. In the figure, A is the context probability obtained by the above-mentioned sequence in the context probability calculating unit 20, B is the vocabulary probability according to the type of part of speech of the first word, and C is the cumulative evaluation value obtained in the process up to that point. Reference characters e and D respectively represent a part-of-speech arrangement corresponding to the cumulative evaluation value.

【0051】入力テキストの末尾の単語から順次、当該
単語がとる品詞カテゴリの全てについて、それまでに作
成した品詞並びの全てについて当該品詞並びの後2品詞
と合わせて3品詞並びを作成し、文脈確率Pbを検索す
る。この文脈確率Pbと、当該単語の品詞カテゴリにお
ける語彙確率Pvと、それまでに作成した品詞並びの評
価値e´の積を新しい品詞並びの評価値eとしている。
図に示すように、入力テキストの先頭の単語まで、全て
の品詞並びの評価値が算出できた後、最大値選択部32
はこれらの品詞並びの中から最大の評価値を持つものを
選択し、入力テキストの各単語の品詞を決定する。
From the word at the end of the input text, three part-of-speech sequences are created for all of the part-of-speech categories created by the word, and for all of the part-of-speech sequences created up to that time, after the part-of-speech sequence, the three part-of-speech sequence is created. Search probability Pb. The product of this context probability Pb, the vocabulary probability Pv of the word in the part-of-speech category, and the evaluation value e ′ of the part-of-speech sequence created up to that point is set as the evaluation value e of the new part-of-speech sequence.
As shown in the figure, after the evaluation values of all the parts-of-speech sequences up to the first word of the input text can be calculated, the maximum value selection unit 32
Selects the one with the largest evaluation value from these part-of-speech sequences and determines the part-of-speech of each word in the input text.

【0052】図15はこのようにして得られた品詞選択
結果を示す図である。図14の最終段の品詞並びと一致
している。
FIG. 15 is a diagram showing the part-of-speech selection result thus obtained. This matches the part-of-speech arrangement at the final stage of FIG.

【0053】図16は本発明の他の実施例を示す構成ブ
ロック図である。図3と同一のものは、同一の符号を付
して示す。図において、1は入力テキストを受けて、単
語毎の語彙確率を検索する語彙確率検索部、2は語彙と
該語彙の確率が格納され、前記語彙検索部1の検索の対
象となる語彙確率辞書、10はは語彙確率検索部1の出
力を受けて入力パターンを作成する文脈確率検出部とし
ての入力パターン作成部である。
FIG. 16 is a block diagram showing the configuration of another embodiment of the present invention. The same parts as those in FIG. 3 are designated by the same reference numerals. In the figure, 1 is a vocabulary probability search unit that receives an input text and searches for a vocabulary probability for each word, and 2 is a vocabulary probability dictionary that is a target of search by the vocabulary search unit 1, in which the vocabulary and the probability of the vocabulary are stored. Reference numeral 10 is an input pattern creation unit as a context probability detection unit that receives the output of the vocabulary probability search unit 1 and creates an input pattern.

【0054】20は入力パターン作成部10から与えら
れる入力パターンを入力して次の単語の品詞の種類に応
じた文脈確率を算出する、ニューラルネットワークを用
いた文脈確率算出部、31は文脈確率算出部20の出力
を受けて、与えられた文脈確率と語彙確率とから評価値
を算出する評価値算出手段、32は該評価値算出手段3
1からの複数の出力のうちから評価値が最大のものを選
択する最大値選択部32である。これら、評価値算出手
段31と最大値選択部32とで評価値算出部6を構成し
ている。このように構成された装置の動作を説明すれ
ば、以下のとおりである。
Numeral 20 is a context probability calculator using a neural network for inputting the input pattern given from the input pattern generator 10 to calculate the context probability according to the type of part of speech of the next word. Reference numeral 31 is the context probability calculator. An evaluation value calculation means for receiving an output of the unit 20 and calculating an evaluation value from the given context probability and vocabulary probability, and 32 is the evaluation value calculation means 3
The maximum value selection unit 32 selects the one having the maximum evaluation value from the plurality of outputs from 1. The evaluation value calculation unit 31 and the maximum value selection unit 32 constitute the evaluation value calculation unit 6. The operation of the apparatus configured as described above will be described below.

【0055】この実施例では、後2品詞並びの入力パタ
ーンを図5に示すように“1”か“0”かで入力するの
ではなく、後2品詞並びを構成する単語の各品詞カテゴ
リをとる確率を示す評価値を入力するようにしたもので
ある。
In this embodiment, instead of inputting the input pattern of the latter two part-of-speech sequences as "1" or "0" as shown in FIG. The evaluation value indicating the probability of taking is input.

【0056】図3の実施例と同様に、語彙確率検索部1
は入力テキスト中の各単語について語彙確率辞書2を検
索して、それぞれの単語についての品詞カテゴリとその
確率を図11に示すように抽出する。ここでは、品詞を
選択する際の評価値を単語毎に品詞カテゴリの語彙確率
で表現し、ニューラルネットワークを用いた文脈確率算
出部20に対して隣接する後2単語又は前2単語の品詞
カテゴリの確率を入力する。
As in the embodiment of FIG. 3, the vocabulary probability search unit 1
Searches the lexical probability dictionary 2 for each word in the input text, and extracts the part-of-speech category and its probability for each word as shown in FIG. Here, the evaluation value at the time of selecting a part of speech is expressed for each word by the vocabulary probability of the part of speech category, and the next two words or the previous two words of the part of speech category adjacent to the context probability calculating unit 20 using the neural network are displayed. Enter the probability.

【0057】図17,図18は評価値算出の例を示す図
である。図17,図18は一連の動作を示したものであ
り、図17の後に図18が続くようになっている。入力
テキストの末尾の単語から品詞を選択する場合には、入
力パターン作成部10は、3単語品詞並びのうちの後2
単語の評価値Eをニューラルネットワーク21に入力
し、得られた出力が文脈確率Pbとなる。
17 and 18 are views showing examples of evaluation value calculation. 17 and 18 show a series of operations, and FIG. 18 is followed by FIG. When selecting a part-of-speech from the last word of the input text, the input pattern creating unit 10 selects the last two words of the three-word part-of-speech sequence.
The evaluation value E of the word is input to the neural network 21, and the obtained output becomes the context probability Pb.

【0058】この文脈確率Pbのそれぞれの品詞カテゴ
リの確率に、語彙確率検索部1で得られた該単語の各品
詞カテゴリの確率をかけたものを当該単語の評価値Eと
する。
The probability of each part-of-speech category of the context probability Pb is multiplied by the probability of each part-of-speech category of the word obtained by the vocabulary probability retrieving unit 1 to obtain an evaluation value E of the word.

【0059】最大値選択部32は、入力テキストの各単
語について、評価値Eにおいて最大の値となっている品
詞カテゴリを当該単語の品詞として選択する。例えば、
図17の場合において、Wn=6の場合には単語として
“make”を評価している。この時の評価値Eは、前
から10番目のユニットが0.34と最大値をとってい
る。前から10番目の品詞は、図22より動詞(V)で
ある。このようにして、品詞を選択した結果も、図15
と同じになる。
The maximum value selection unit 32 selects, for each word of the input text, the part-of-speech category having the largest evaluation value E as the part-of-speech of the word. For example,
In the case of FIG. 17, when Wn = 6, “make” is evaluated as a word. The evaluation value E at this time is the maximum value of 0.34 for the tenth unit from the front. The tenth part of speech from the front is a verb (V) from FIG. The result of selecting the part of speech in this way is also shown in FIG.
Will be the same as

【0060】この実施例によれば、ニューラルネットワ
ーク21に品詞カテゴリをとる確率を示す評価値を入力
することにより、文脈確率の検索の回数を減少させるこ
とが可能となり、高速に品詞選択を行うことができる。
According to this embodiment, by inputting the evaluation value indicating the probability of taking the part-of-speech category to the neural network 21, it is possible to reduce the number of times of searching the context probability, and to perform the part-of-speech selection at high speed. You can

【0061】上述の実施例では英語に本発明を適用した
場合について説明したが、本発明はこれに限るものでは
ない。日本語その他の文章についても本発明を適用する
ことができる。
In the above embodiment, the case where the present invention is applied to English has been described, but the present invention is not limited to this. The present invention can be applied to Japanese and other sentences.

【0062】[0062]

【発明の効果】以上、詳細に説明したように、本発明に
よれば文脈確率を求めるのにニューラルネットワークを
用いるようにすることにより、文脈確率テーブルを持つ
必要がなくなり、メモリ容量を小さくすることができる
品詞選択システムを提供することができる。
As described above in detail, according to the present invention, by using the neural network to obtain the context probability, it is not necessary to have the context probability table, and the memory capacity can be reduced. It is possible to provide a part-of-speech selection system capable of performing.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の原理ブロック図である。FIG. 1 is a principle block diagram of the present invention.

【図2】文脈確率算出部の構成例を示す図である。FIG. 2 is a diagram showing a configuration example of a context probability calculation unit.

【図3】本発明の一実施例を示す構成ブロック図であ
る。
FIG. 3 is a configuration block diagram showing an embodiment of the present invention.

【図4】末尾の単語から品詞を選択する場合の学習パタ
ーンの作成例を示す図である。
FIG. 4 is a diagram showing an example of creating a learning pattern when selecting a part of speech from the last word.

【図5】入力パターン例を示す図である。FIG. 5 is a diagram showing an example of an input pattern.

【図6】学習の説明図である。FIG. 6 is an explanatory diagram of learning.

【図7】教師パターン例を示す図である。FIG. 7 is a diagram showing an example of a teacher pattern.

【図8】先頭の単語から品詞を選択する場合の学習パタ
ーンの作成例を示す図である。
FIG. 8 is a diagram showing an example of creating a learning pattern when selecting a part of speech from the first word.

【図9】入力パターン例を示す図である。FIG. 9 is a diagram showing an example of an input pattern.

【図10】教師パターン例を示す図である。FIG. 10 is a diagram showing an example of a teacher pattern.

【図11】抽出された品詞カテゴリとその確率を示す図
である。
FIG. 11 is a diagram showing extracted part-of-speech categories and their probabilities.

【図12】作成された3単語の品詞並びを示す図であ
る。
FIG. 12 is a diagram showing a created part-of-speech sequence of three words.

【図13】本発明により得られた評価値算出結果を示す
図である。
FIG. 13 is a diagram showing an evaluation value calculation result obtained by the present invention.

【図14】本発明により得られた評価値算出結果を示す
図である。
FIG. 14 is a diagram showing an evaluation value calculation result obtained by the present invention.

【図15】本発明による品詞選択結果を示す図である。FIG. 15 is a diagram showing a part of speech selection result according to the present invention.

【図16】本発明の他の実施例を示す構成ブロック図で
ある。
FIG. 16 is a configuration block diagram showing another embodiment of the present invention.

【図17】評価値算出の例を示す図である。FIG. 17 is a diagram showing an example of evaluation value calculation.

【図18】評価値算出の例を示す図である。FIG. 18 is a diagram showing an example of evaluation value calculation.

【図19】従来装置の構成例を示すブロック図である。FIG. 19 is a block diagram showing a configuration example of a conventional device.

【図20】語彙確率辞書の内部構成例を示す図である。FIG. 20 is a diagram showing an internal configuration example of a vocabulary probability dictionary.

【図21】文脈確率テーブルの構成例を示す図である。FIG. 21 is a diagram showing a configuration example of a context probability table.

【図22】品詞の分類を示す図である。FIG. 22 is a diagram showing classification of parts of speech.

【符号の説明】[Explanation of symbols]

1 語彙確率検索部 2 語彙確率辞書 6 評価値算出部 10 文脈確率検出部 20 文脈確率算出部 1 vocabulary probability search unit 2 vocabulary probability dictionary 6 evaluation value calculation unit 10 context probability detection unit 20 context probability calculation unit

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】 入力テキストを受けて、単語毎の語彙確
率を検索する語彙確率検索部(1)と、 語彙と該語彙の確率が格納され、前記語彙検索部(1)
の検索の対象となる語彙確率辞書(2)と、 前記語彙確率検索部(1)から検索された語彙確率を基
に、複数個の品詞並びの文脈確率を検出する文脈確率検
出部(10)と、 該文脈確率検出部(10)から与えられる入力パターン
を入力して次の単語の品詞の種類に応じた文脈確率を算
出する、ニューラルネットワークを用いた文脈確率算出
部(20)と、 前記文脈確率検出部(10)の出力を受けて、複数個の
品詞並びの文脈確率と該品詞並びの先頭または末尾の単
語の語彙確率から所定の手順に従って評価値を算出する
評価値算出部(6)から構成された品詞選択システム。
1. A vocabulary probability search unit (1) for receiving an input text and searching for a vocabulary probability for each word, a vocabulary and a probability of the vocabulary are stored, and the vocabulary search unit (1) is stored.
A vocabulary probability dictionary (2) to be searched for and a context probability detecting unit (10) for detecting context probabilities of a plurality of parts of speech based on the vocabulary probability searched by the vocabulary probability searching unit (1). And a context probability calculating unit (20) using a neural network for inputting an input pattern given from the context probability detecting unit (10) to calculate a context probability according to the type of part of speech of the next word, An evaluation value calculation unit (6) that receives an output from the context probability detection unit (10) and calculates an evaluation value according to a predetermined procedure from context probabilities of a plurality of part-of-speech sequences and vocabulary probabilities of words at the beginning or end of the part-of-speech sequence. ) Part-of-speech selection system.
【請求項2】 前記文脈確率算出部(20)がn単語品
詞並びの文脈確率を算出する場合において、 該品詞並びの先頭から(n−1)番目までの単語の品詞
パターンを入力として(n−1)単語の品詞並びに対す
るn番目の単語の各品詞カテゴリがとる確率を出力する
ように構成したことを特徴とする請求項1記載の品詞選
択システム。
2. When the context probability calculating unit (20) calculates the context probability of an n-word part-of-speech sequence, the part-of-speech pattern of the (n−1) th word from the beginning of the part-of-speech sequence is input as (n -1) The part-of-speech selection system according to claim 1, wherein the part-of-speech selection system is configured to output a probability that each part-of-speech category of an n-th word with respect to a part-of-speech arrangement of words.
【請求項3】 前記文脈確率算出部(20)がn単語品
詞並びの文脈確率を算出する場合において、 該品詞並びの第2番目から末尾nまでの単語の品詞パタ
ーンを入力として(n−1)単語の品詞並びに対する先
頭の単語の各品詞カテゴリがとる確率を出力するように
構成したことを特徴とする請求項1記載の品詞選択シス
テム。
3. When the context probability calculating unit (20) calculates the context probability of an n-word part-of-speech sequence, the part-of-speech pattern of the second to the end n of the part-of-speech sequence is input (n-1). 3. The part-of-speech selection system according to claim 1, wherein the part-of-speech selection system is configured to output a probability that each part-of-speech category of a leading word with respect to a word part-of-speech sequence is output.
【請求項4】 前記文脈確率算出部(20)がn単語品
詞並びの文脈確率を算出する場合において、 (n−1)個の品詞並びパターンにそれぞれの品詞をと
る確率を示す評価値を入力して第n番目又は先頭の単語
の各品詞カテゴリがとる確率を出力するように構成した
ことを特徴とする請求項2又は3記載の品詞選択システ
ム。
4. When the context probability calculating unit (20) calculates the context probability of an n-word part-of-speech arrangement, an evaluation value indicating the probability of taking each part-of-speech is input to (n-1) part-of-speech arrangement patterns. 4. The part-of-speech selection system according to claim 2, wherein the part-of-speech selection system outputs the probability of each part-of-speech category of the n-th or the first word.
JP3043661A 1991-03-08 1991-03-08 Part of speech selection system Expired - Fee Related JP3059504B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3043661A JP3059504B2 (en) 1991-03-08 1991-03-08 Part of speech selection system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3043661A JP3059504B2 (en) 1991-03-08 1991-03-08 Part of speech selection system

Publications (2)

Publication Number Publication Date
JPH0628392A true JPH0628392A (en) 1994-02-04
JP3059504B2 JP3059504B2 (en) 2000-07-04

Family

ID=12670039

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3043661A Expired - Fee Related JP3059504B2 (en) 1991-03-08 1991-03-08 Part of speech selection system

Country Status (1)

Country Link
JP (1) JP3059504B2 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5537317A (en) * 1994-06-01 1996-07-16 Mitsubishi Electric Research Laboratories Inc. System for correcting grammer based parts on speech probability
USRE35910E (en) * 1989-05-11 1998-09-29 Matsushita Electric Industrial Co., Ltd. Moving image signal encoding apparatus and decoding apparatus
US8212916B2 (en) 2009-10-22 2012-07-03 Canon Kabushiki Kaisha Image display device, image pickup apparatus, and image display method that allow focus assistant display
US8614752B2 (en) 1999-09-14 2013-12-24 Nikon Corporation Electronic still camera with peaking function
JP2017167938A (en) * 2016-03-17 2017-09-21 株式会社東芝 Learning device, learning method, and program
CN107665704A (en) * 2016-07-29 2018-02-06 科大讯飞股份有限公司 Phonetic order detection model construction method, detection method and system, man-machine interaction method and equipment

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USRE35910E (en) * 1989-05-11 1998-09-29 Matsushita Electric Industrial Co., Ltd. Moving image signal encoding apparatus and decoding apparatus
US5537317A (en) * 1994-06-01 1996-07-16 Mitsubishi Electric Research Laboratories Inc. System for correcting grammer based parts on speech probability
US8614752B2 (en) 1999-09-14 2013-12-24 Nikon Corporation Electronic still camera with peaking function
US8212916B2 (en) 2009-10-22 2012-07-03 Canon Kabushiki Kaisha Image display device, image pickup apparatus, and image display method that allow focus assistant display
JP2017167938A (en) * 2016-03-17 2017-09-21 株式会社東芝 Learning device, learning method, and program
US10410624B2 (en) 2016-03-17 2019-09-10 Kabushiki Kaisha Toshiba Training apparatus, training method, and computer program product
CN107665704A (en) * 2016-07-29 2018-02-06 科大讯飞股份有限公司 Phonetic order detection model construction method, detection method and system, man-machine interaction method and equipment
CN107665704B (en) * 2016-07-29 2020-09-11 科大讯飞股份有限公司 Voice instruction detection model construction method, detection method and system, and man-machine interaction method and equipment

Also Published As

Publication number Publication date
JP3059504B2 (en) 2000-07-04

Similar Documents

Publication Publication Date Title
US5479563A (en) Boundary extracting system from a sentence
US7310601B2 (en) Speech recognition apparatus and speech recognition method
EP2486470B1 (en) System and method for inputting text into electronic devices
US8543565B2 (en) System and method using a discriminative learning approach for question answering
US7949531B2 (en) Conversation controller
Dredze et al. NLP on spoken documents without ASR
Watts Unsupervised learning for text-to-speech synthesis
CN101572083B (en) Method and device for making up words by using prosodic words
CN111145718A (en) Chinese mandarin character-voice conversion method based on self-attention mechanism
CN1971708A (en) Prosodic control rule generation method and apparatus, and speech synthesis method and apparatus
JP3059504B2 (en) Part of speech selection system
Carlson et al. Linguistic processing in the KTH multi-lingual text-to-speech system
KR20040001594A (en) Apparatus and method for updating a lexicon
Stehwien et al. Effects of word embeddings on neural network-based pitch accent detection
JP5004863B2 (en) Voice search apparatus and voice search method
JP3794597B2 (en) Topic extraction method and topic extraction program recording medium
JPH0454564A (en) Weight learning type text base retrieving device
Majeed et al. Comparative study on extractive summarization using sentence ranking algorithm and text ranking algorithm
JPH0981184A (en) Interlocution support device
Amin et al. Abstractive headline generation from Bangla news articles using Seq2Seq RNNs with global attention
JP4511274B2 (en) Voice data retrieval device
JPH10269210A (en) Character input device
KR100431190B1 (en) A system and method for tagging topic adoptive pos(part-of-speech)
JPH08339376A (en) Foreign language retrieving device and information retrieving system
Chotirat et al. Question Classification from Thai Sentences by Considering Word Context to Question Generation

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20000411

LAPS Cancellation because of no payment of annual fees