JP2527719B2 - Language processing method of language processing device - Google Patents

Language processing method of language processing device

Info

Publication number
JP2527719B2
JP2527719B2 JP61163788A JP16378886A JP2527719B2 JP 2527719 B2 JP2527719 B2 JP 2527719B2 JP 61163788 A JP61163788 A JP 61163788A JP 16378886 A JP16378886 A JP 16378886A JP 2527719 B2 JP2527719 B2 JP 2527719B2
Authority
JP
Japan
Prior art keywords
clause
column
bunsetsu
optimal
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP61163788A
Other languages
Japanese (ja)
Other versions
JPS6320561A (en
Inventor
和彦 尾関
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP61163788A priority Critical patent/JP2527719B2/en
Priority to US07/072,158 priority patent/US4805100A/en
Priority to KR1019870007491A priority patent/KR910004009B1/en
Publication of JPS6320561A publication Critical patent/JPS6320561A/en
Application granted granted Critical
Publication of JP2527719B2 publication Critical patent/JP2527719B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、日本語音声認識装置や、日本語ワードプロ
セッサの出力の後処理をするための言語処理方法に関す
るものであり、相続くいくつかの時点において複数の文
節候補が与えられたとき、それらの候補の信頼度および
文節間の係り受けの整合性を考慮に入れ、日本語の句あ
るいは文として最適な文節列が構成されるように各時点
の文節候補から一つずつ文節を選択すると共にその構文
を決定し、かつそれにより得られる文節列の日本語の句
あるいは文としての適格性の程度を算出する言語処理方
法に関するものである。
TECHNICAL FIELD The present invention relates to a Japanese speech recognition apparatus and a language processing method for post-processing the output of a Japanese word processor. When multiple bunsetsu candidates are given at the time, each bunsetsu string is constructed so that the optimal bunsetsu string is constructed as a Japanese phrase or sentence, taking into account the reliability of those candidates and the consistency of the dependency between bunsetsu. The present invention relates to a language processing method for selecting a phrase one by one from the phrase candidates at the time, determining its syntax, and calculating the degree of eligibility of a phrase sequence obtained thereby as a Japanese phrase or sentence.

[従来の技術] 文節を単位とした日本語処理装置においては、各時点
において複数の文節候補が出力されるものがある。例え
ば、文節を単位とした日本語音声認識装置にはそのよう
なものが多く、また、仮名漢字変換方式の日本語ワード
プロセッサにおいても、同音意義の漢字が存在するの
で、一つの文節入力に対して複数の候補が出力されると
考えられる。そこで、このような文節候補から、文節間
の接続関係を考慮して最も適格性の高い文節列が得られ
るように、各時点の候補から文節を選択することが考え
られる。
[Prior Art] In some Japanese processing devices that use bunsetsu units, a plurality of bunsetsu candidates are output at each time point. For example, there are many such Japanese speech recognition devices that use bunsetsu units, and even in Japanese word processors that use the kana-kanji conversion method, there are kanji with the same meaning, so one bunsetsu input It is considered that multiple candidates are output. Therefore, it is conceivable to select a bunsetsu from candidates at each time point so that the bunsetsu sequence with the highest qualification can be obtained from such a bunsetsu candidate in consideration of the connection relation between the bunsetsus.

この手法を説明するにあたって、先ず文節を単位とし
た日本語の構造について説明する。
In explaining this method, first, the structure of Japanese in terms of bunsetsu will be described.

日本語の文、あるいはまとまった句は、文節という単
位の間の広義の修飾関係によって成り立っていると考え
ることができる。例えば、 [S1]「私は 八時の 電車で 会社に 行きます」 という日本語の文において、「私は」、「八時の」、
「電車で」、「会社に」、「行きます」は、それぞれ、
文節であり、「私は」、「電車で」、「会社に」は、す
べて「行きます」を修飾し、「八時の」は「電車で」を
修飾することにより一つのまとまった文を構成してい
る。
A Japanese sentence, or a set of phrases, can be thought of as being formed by a broadly modified relation between units called bunsetsu. For example, in the Japanese sentence [S1] "I go to the office by train at 8 o'clock", "I am", "8 o'clock",
"By train", "to the office", "go",
"I am", "by train", "to the company" are all modified to "go", and "8 o'clock" is modified into a sentence by modifying "by train". I am configuring.

文節xが文節yを修飾するとき、「xはyに係り、y
はxを受ける」という。また、このような修飾関係を係
り受けという。
When clause x modifies clause y, "x is related to y, y
Receives x ". In addition, such a modification relationship is called dependency.

文節列が日本語のまとまった句、あるいは文を構成す
るためには、それらの文節間に、次のような条件を満た
す係り受けが存在することが必要であると考えられてい
る。
In order for a bunsetsu sequence to form a set of phrases or sentences in Japanese, it is considered that there is a dependency between those bunsetsu that satisfies the following conditions.

[C1]最後の文節以外の文節は、それより後ろにある文
節のいずれか一つに係る。
[C1] A clause other than the last clause relates to any one of the clauses after it.

[C2]二つの文節間の係り受けは、他の二つの文節間の
係り受けと交差しない。
[C2] Dependency between two bunsetsu does not intersect with dependency between two other bunsetsu.

[C3]二つの文節間に係り受けが存在し得るためには、
それらの文節の種類や意味が互いに一定の関係を持たな
ければならない。例えば、上の[S1]において、「私
は」は「行きます」に係ることができるが、「八時に」
に係ることができない。
[C3] To have a dependency between two clauses,
The types and meanings of these clauses must have a certain relationship with each other. For example, in [S1] above, "I" can relate to "go", but "8 o'clock"
Cannot be related to

従来行われている日本語文の構文解析は、与えられた
文節列に対して、このような条件を満たす全ての係り受
け関係を探索することに他ならない(例えば、吉田将
「二文節間の係り受けを基礎とした日本語文の構文分
析」、信学論'72/4、Vol.55−D,No.4,pp.238−243)。
The conventional parsing of Japanese sentences is nothing but searching for all dependency relations that satisfy such conditions for a given phrase sequence (eg, Masayoshi Yoshida, Syntactic analysis of Japanese sentences based on reception ", IEICE Theory '72 / 4, Vol.55-D, No.4, pp.238-243).

与えられた文節列が、正しい日本語の場合には、この
ような手法で構文解析を行うことができるが、話し言葉
や、音声認識装置の出力にありがちな、誤りを含む文節
列に対しては、構文解析が行き詰まってしまうことがあ
る。
If the given phrase sequence is correct Japanese, parsing can be performed by such a method, but it is possible for the phrase sequence that contains an error that is often found in the spoken language or the output of the speech recognition device. , Parsing can get bogged down.

そこで、上の条件[C3]を、より柔軟な条件 [C3′]二つの文節x,yの組に対して、それらの文節の
種類や意味によってxがyに係ることの整合性を表わす
数値が与えられている。
Therefore, the above condition [C3] is a more flexible condition [C3 '] A numerical value that represents the consistency of the set of two clauses x and y in that x is related to y depending on the type and meaning of those clauses. Is given.

で置き換え、全体として最も適格性の高い係り受け関係
を探索する方法がある。次にこれについて説明する。
There is a method of searching for the most highly qualified dependency relation as a whole. This will be described next.

条件[C1],[C2]は、つぎのように定義される、
「構文」によって表わすことができる。
Conditions [C1] and [C2] are defined as follows:
It can be represented by "syntax".

[D1](1)xが文節のとき、(x)は「構文」であ
る。
[D1] (1) When x is a clause, (x) is "syntax".

(2)X1,X2,…,Xmが「構文」、xが文節のとき、
(X1X2…Xmx) は「構文」である。
(2) When X 1 , X 2 , ..., X m is “syntax” and x is a clause,
(X 1 X 2 ... X m x) is the "syntax".

[D2]文節列x1x2…xnに適切に括弧を付け、構文になる
ようにしたものを、x1x2…xn上の構文という。文節列x1
x2…xn上の構文の全体を K(x1x2…xn) と表わすことにする。
[D2] The phrase sequence x 1 x 2 ... x n with proper parenthesis to make it a syntax is called the syntax on x 1 x 2 ... x n . 1 phrase sequence
The overall syntax on x 2 ... x n to be expressed as K (x 1 x 2 ... x n).

構文(X1X2…Xmy),X1=(…x1),X2=(…x2),
…,Xm=(…xm)において、x1,x2,…,xmはyに係る
ことを表わすと約束しておくと、上の意味での構文にお
いては、条件[C1]と[C2]が満たされ、逆に、条件
[C1]と[C2]を満たす文節列における係り受け関係
は、必ず上の意味での構文で表すことができる。
Syntax (X 1 X 2 ... X m y), X 1 = (... x 1), X 2 = (... x 2),
If we promise that x 1 , x 2 , ..., x m in y, x m = (... x m ) are related to y, in the above sense, the condition [C1] becomes [C2] is satisfied, and conversely, the dependency relation in the clause sequence that satisfies the conditions [C1] and [C2] can always be expressed by the syntax in the above meaning.

条件[C3′]に関しては、文節xが文節yに係ること
の整合性が非負の値をとる関数 PEN(x,y) で表わされるものとする。PEN(x,y)の値は、例えば0
から100の範囲とし、0に近いほど整合性が高いことを
表わすものと約束しておく。関数PENをどのように定め
るかは、非常に重要な問題であるが、これは従来から既
に考えられていることであり、本発明の主眼点ではない
ので、ここではその説明を省く。
Regarding the condition [C3 ′], it is assumed that the consistency of the fact that the clause x is related to the clause y is represented by a function PEN (x, y) taking a nonnegative value. The value of PEN (x, y) is 0, for example.
The range is from 1 to 100, and promises that the closer to 0, the higher the consistency. How to determine the function PEN is a very important issue, but this is already considered in the past and is not the main point of the present invention, so its explanation is omitted here.

以上の準備のもとで、構文Xの適格性P(X)を、次
のように再帰的に定める。
Under the above preparation, the eligibility P (X) of the syntax X is recursively determined as follows.

[D3](1)X=(x),(xは文節)のとき、 P(X)=0、 (2)X=(Y1Y2…Ymx),Y1=(…y1),Y2=(…
y2),…, Ym=(…ym)のとき、 P(X)=P(Y1)+P(Y2)+…+P(Ym)+PEN(y
1,x)+PEN(y2,x)+…+PEN(ym,x1) このように定義されたP(X)の値は、Xの中のあら
ゆる係り受けに対するPENの値を加算したものになって
いることは明らかであろう。P(X)をもとにして更に
次の定義をする。
[D3] (1) When X = (x), (x is a clause), P (X) = 0, (2) X = (Y 1 Y 2 ... Y m x), Y 1 = (... y 1 ), Y 2 = (...
When y 2 ), ..., Y m = (... y m ), P (X) = P (Y 1 ) + P (Y 2 ) + ... + P (Y m ) + PEN (y
1, x) + PEN (y 2, x) + ... + PEN (y m, x 1) the value of the thus-defined P (X) is obtained by adding the value of PEN for any dependency in the X It will be clear that The following definition is made based on P (X).

[D4]与えられた文節列x1x2…xnの部分列に対して、 OPTP(xixi+1…xj)は文節列xi…xjの、文あるいはま
とまった句としての適格性の程度を表わす数値である。
また、OPTK(xixi+1…xj)は文節列xixi+1…xjの上の最
も適格性が高い構文である。
[D4] For a given subsequence of x 1 x 2 ... x n , OPTP (x i x i + 1 ... x j ) is a numerical value indicating the degree of eligibility of the clause sequence x i ... x j as a sentence or a group of phrases.
Also, OPTK (x i x i + 1 ... x j ) is the most highly qualified syntax on the clause sequence x i x i + 1 ... x j .

さて、ここで、次の状況を考える: [J1]1からnまでの各時点において、文節の集合B1
B2,…,Bnが与えられているとする。また、各文節集合
Bkに対して、非負の実数値を取る関数Skが次のように定
められている: Sk:Bk→[0,∞) Sk(x)は文節集合Bk内の文節xの信頼度を表わす数
値で、例えば0から100までの値をとるとし、0に近い
ほど信頼度が高いとしておく。音声認識を例にとれば、
Sk(x)は、認識装置がxという認識結果をどの程度の
確からしさで認識したかを示す数値であり、たいていの
音声認識装置はそのような数値を認識結果と共に出力す
るようになっている。
Now consider the following situation: [J1] At each time point from 1 to n, the set of clauses B 1 ,
Suppose B 2 , ..., B n are given. Also, each clause set
For B k , a non-negative real-valued function S k is defined as follows: S k : B k → [0, ∞) S k (x) is a clause x in the clause set B k . Is assumed to be a value from 0 to 100, and the closer to 0, the higher the reliability. Taking voice recognition as an example,
S k (x) is a numerical value indicating how likely the recognition device has recognized the recognition result x, and most speech recognition devices have come to output such a numerical value together with the recognition result. There is.

また、仮名漢字変換方式の日本語ワードプロセッサを
例にとると、同音意義語の存在のため、同じ読みを持つ
複数の文節候補が出力されるが、それぞれの候補に、漢
字や熟語の使用頻度に従って信頼度を示す数値を付随さ
せることができる。
Taking a Japanese word processor that uses the Kana-Kanji conversion method as an example, multiple bunsetsu candidates that have the same reading are output because of the presence of homophones, but each candidate follows the frequency of use of Kanji or idioms. A numerical value indicating the reliability can be attached.

このような状況のもとで、本発明が取り扱う言語処理
の問題は次のように述べることができる。
Under such circumstances, the problem of language processing handled by the present invention can be stated as follows.

[問題] と、この最小値を与える文節列x1x2…xnおよびOPTK(x1
x2…xn)を求めよ。
[problem] And the clause sequence x 1 x 2 … x n and OPTK (x 1
Find x 2 ... x n ).

従来、この問題を解くためには、全幅探索、すなわ
ち、あらゆる可能な文節列x1x2…xnとK(x1x2…xn)の
すべての元Xについて、定義式にもとずき を計算し、最小値と、その最小値を与える構文を求める
という方法が採られていた(例えば、松永昭一、好田正
紀「係り受けの整合性に基づく文節認識の後処理」、日
本音響学会昭和61年度春季研究発表会講演論文集1−1
−23)。
Conventionally, the solution to this problem is to use a full-width search, that is, for every element X of every possible clause sequence x 1 x 2 … x n and K (x 1 x 2 … x n ), Suzuki Was calculated, and the minimum value and the syntax giving the minimum value were calculated (for example, Shoichi Matsunaga, Masanori Yoshida "Post-processing of phrase recognition based on dependency consistency", The Acoustical Society of Japan). Proceedings of Spring Research Presentation 1986 1-1
-23).

[発明が解決しようとする問題点] ここで、係り受けの適格性を示す関数PENの計算を除
くと上記の問題を解くための基本演算は、実数の加算と
比較演算である。長さがnの文節列上の構文の数、すな
わちK(x1x2…xn)の元の数をL[n]と書くと、 L[n]=L[n−1]・L[1]+L[n−2]・L
[2]+…+L[1]・L[n−1]が成り立つ。この
L[n]を用いると、従来法である全幅探索における計
算量は次のようになる。但し、各文節集合の中の文節数
は全てMとした。
[Problems to be Solved by the Invention] Here, except for the calculation of the function PEN that indicates the suitability of dependency, the basic operations for solving the above problems are addition of real numbers and comparison operation. Letting L [n] be the number of syntaxes on a clause sequence having a length of n, that is, the original number of K (x 1 x 2 ... x n ), L [n] = L [n−1] · L [1] + L [n-2] L
[2] + ... + L [1] · L [n-1] holds. When this L [n] is used, the amount of calculation in the conventional full-width search is as follows. However, the number of clauses in each clause set was all M.

加算:(L[n]・(n−1)+(n−1))Mn 比較:L[n]・Mn−1 これらの式をM=5,10,n=5,10,15,20,25,30について計
算した結果を第1表に示す。
Adding: (L [n] · ( n-1) + (n-1)) M n comparison: L [n] · M n -1 these equations M = 5,10, n = 5,10,15 Table 1 shows the results calculated for 20,20,25,30.

第1表からわかるように、可能な文節列の数とK(x1
x2…xn)の元の数L[n]は、文節列の長さnに対して
指数関数的に増加するので、従来法によると非常に多く
の計算量を必要とし、実際的な問題に適用するのは極め
て困難であった。
As can be seen from Table 1, the number of possible phrase sequences and K (x 1
Since the original number L [n] of (x 2 ... x n ) increases exponentially with the length n of the bunsetsu sequence, the conventional method requires a very large amount of calculation and It was extremely difficult to apply to the problem.

そこで、本発明の目的は、このような従来技術の欠点
を改善し、従来法と比較して大幅に少ない計算量で、す
なわち文節列長に関して3乗、各文節集合の元の数に関
して2乗のオーダーの計算量で、所期の言語処理を行う
言語処理方法を提供することにある。
Therefore, an object of the present invention is to improve the above-mentioned drawbacks of the conventional technique and to significantly reduce the calculation amount as compared with the conventional method, that is, the cube of the bunsetsu string length and the square of the original number of each bunsetsu set. It is to provide a language processing method for performing desired language processing with a calculation amount of

[問題点を解決するための手段] このような目的を達成するために、本発明は、文節集
合の列および当該文節集合列の中の各文節の信頼度を表
わす数値が与えられたとき、二文節間の係り受けの整合
性の程度の総和と各文節の信頼度を表わす数値の和を最
小化あるいは最大化することにより、各文節集合から1
つずつ文節を選ぶという条件のもとでの最適な文節列
と、その上の最適構文と、その適格性の程度とを定める
言語処理装置の言語処理方法において、前記文節集合列
の長さに等しい行、および列の数を持つ、2次元の上三
角行列形の第1および第2の表をメモリ上に用意し、前
記第1表および前記第2表の各桝目を、その列番号に等
しい番号の文節集合の元の数だけの項に分割して、前記
第1表および前記第2表を予め3次元化しておき、前記
第1表の各i行,i列,p項にi番目の文節集合のp番目の
文節の信頼度を表わす数値を保持回路に設定し、k=i,
…,j−1に対して、前記メモリ上のi行,k列の各項と、
k+1行,j列,q項とに計算済みの値を格納し、その格納
がなされたならば、前記メモリ上の当該計算済みの前記
第1表のi行,k列,p項の値と、k+1行,j列,q項の値
と、k番目の文節集合のp番目の文節が、j番目の文節
集合のq番目の文節に係ることの整合性の程度とを演算
器において加算し、その加算結果のkおよびpに関する
最小値または最大値ならびに当該最小値または最大値を
与えるk及びpの値を検出器で検出し、当該検出した最
小値または最大値を前記メモリ上のi行,j列,q項に格納
し、前記最小値または最大値を与える最適区分点である
ところのkおよび最適文節番号であるところのpの値の
組を前記メモリ上の第2表のi行,j列,q項に格納し、前
記メモリ上の第1表および前記第2表を順次計算済みの
値で埋めて行き、前記メモリ上の第1表および前記第2
表が全て計算済みの値で埋めつくされたとき、当該第1
表の右上隅の各項の中の最小値または最大値を求めるこ
とにより最終的な適格性の程度および最後の文節集合中
の最適文節番号を得ると共に、最適構文を構成するため
に必要な最適区分点および最適文節番号の全体を前記メ
モリ上の第2表に得ることを特徴とする。
[Means for Solving Problems] In order to achieve such an object, the present invention, when a sequence of bunsetsu sets and a numerical value indicating the reliability of each bunsetsu in the bunsetsu set sequence are given, 1 is obtained from each bunsetsu set by minimizing or maximizing the sum of the degree of dependency matching between two bunsetsu and the sum of numerical values indicating the reliability of each bunsetsu.
In the language processing method of the language processing apparatus, which determines the optimum phrase sequence under the condition that each phrase is selected, the optimum syntax above it, and the degree of its eligibility, the length of the phrase set sequence is Two-dimensional upper triangular matrix first and second tables having the same number of rows and columns are prepared on the memory, and each grid of the first table and the second table is assigned to its column number. The first table and the second table are three-dimensionalized in advance by dividing them into the same number of terms as the original number of the clause sets of equal numbers, and i rows, i columns, and p terms have i A numerical value representing the reliability of the p-th phrase in the n-th phrase set is set in the holding circuit, and k = i,
, J−1, each item in the i-th row and the k-th column on the memory,
The calculated value is stored in k + 1 row, j column, q term, and if the storage is done, the calculated value of i row, k column, p term of the first table in the memory is stored. , K + 1 row, j column, the value of the q term, and the degree of consistency that the p-th clause of the k-th clause set relates to the q-th clause of the j-th clause set are added in an operator. , The minimum value or the maximum value of k and p of the addition result and the value of k and p that gives the minimum value or the maximum value are detected by the detector, and the detected minimum value or the maximum value is stored in the i row on the memory. , column j, q, and store the set of values of k, which is the optimum segment point that gives the minimum or maximum value, and p, which is the optimum clause number, in row i of Table 2 on the memory. , j column, q term, and the first table and the second table in the memory are sequentially filled with the calculated values, and the memo is stored. Table 1 above and the second
When the table is completely filled with calculated values, the first
The final degree of eligibility and the optimum clause number in the last clause set are obtained by finding the minimum or maximum value in each term in the upper right corner of the table, and the optimum required for constructing the optimum syntax. It is characterized in that all the partition points and the optimum phrase numbers are obtained in the second table on the memory.

(a)基本的な再帰方程式 本発明の構成について説明するに当たり、先ず、基本
的な役割を果たす再帰方程式について述べる。
(A) Basic recursive equation Before describing the configuration of the present invention, a recursive equation that plays a basic role will be described first.

X,Yが構文で、Y=(Z1Z2…Zmy),(但し、Z1
…,Zmは構文で、yは文節)とするとき、XをYの先頭
に挿入してできる構文 (XZ1Z2…Zmy) をXYと書くと、次の[E1]が成り立つことは容易に
確かめられる。
X, in Y syntax, Y = (Z 1 Z 2 ... Z m y), ( where, Z 1,
…, Z m is a syntax, and y is a clause), the syntax [XZ 1 Z 2 … Z m y) created by inserting X at the beginning of Y is written as XY, and the following [E1] is established. It's easy to see.

[E1]文節列x1x2…xnにおいて (1)K(Xi)=(Xi)、(1in) (2)1i<jnに対して また、 [E2]X=(…x),Y=(…y)に対して、 P(XY)=P(X)+P(Y)+PEN(x,y) が成り立つ。実際、Y=(Z1Z2…Zmy),Z1=(…
z1),z2=(…z2),…,zm=(…zm)とすれば、 P(XY)=P((XZ1Z2…Zmy))=P(X)+P
(Z1)+P(Z2)+…+P(Zm)+PEN(x,y)+PEN(z
1,y)+PEN(z2,y)+…+PEN(zm,y)=P(X)+P
(Y)+PEN(x,y) [E1]と[E2]を用いると、次の重要な関係[E3]が得
られる。
[E1] In the clause sequence x 1 x 2 ... x n , for (1) K (X i ) = (X i ), (1 in) (2) 1 i <jn Further, for [E2] X = (... x), Y = (... y), P (XY) = P (X) + P (Y) + PEN (x, y). In fact, Y = (Z 1 Z 2 ... Z m y), Z 1 = (...
z 1), z 2 = ( ... z 2), ..., z m = (... if z m), P (XY) = P ((XZ 1 Z 2 ... Z m y)) = P (X) + P
(Z 1 ) + P (Z 2 ) + ... + P (Z m ) + PEN (x, y) + PEN (z
1 , y) + PEN (z 2 , y) + ... + PEN (z m , y) = P (X) + P
Using (Y) + PEN (x, y) [E1] and [E2], the following important relation [E3] is obtained.

[E3](1)OPTP(xi)=0 (2)i<jに対して 実際、 さて、各xjεBjに対して、 とおく。そうすると、[E3]により したがって、 Bk={xk,1xk,2,…,xk,n(k)} と書くことにすると、OPTPSに対する次の再帰方程式が
得られる。
[E3] (1) OPTP (x i ) = 0 (2) For i <j In fact Now, for each x j εB j , far. Then, by [E3] Therefore, by writing B k = {x k, 1 x k, 2 , ..., x k, n (k) }, the following recurrence equation for OPTPS is obtained.

[E4](1)1pN(i)に対して OPTPS(i,i;xi,p)=Si(xi,p) (2)i<j,1qN(j)に対して 上式において最小値を与えるkおよびpを、i,j,qに
対するそれぞれ、最適区分点、および最適文節番号と呼
ぶ。また、OPTPS(i,j,xj,q)を与えるような最適文節
列の上の最適構文を OPTKS(i,j;xj,q) と書くと、[E4]から次のことが成り立つ。
[E4] (1) For 1pN (i) OPTPS (i, i; xi, p) = S i (x i, p ) (2) For i <j, 1qN (j) The k and p that give the minimum value in the above equation are called the optimal segment point and the optimal clause number for i, j, and q, respectively. If we write OPTKS (i, j; x j, q ) the optimal syntax above the optimal clause sequence that gives OPTPS (i, j, x j, q ), the following holds from [E4]: .

[E5](1)OPTKS(xi,p)=(xi,p) (2)最適区分点および最適文節番号が常に一意的に定
まるときi,j,qに対する最適区分点および最適文節番号
を、それぞれ、kおよびpと書くと OPTKS(i,j;xj,q)=OPTKS(i,k;xk,p)OPTKS(k+
1,j;xj,q) (3)最適区分点や最適文節番号が複数存在するとき
は、OPTKSは集合となり、最適区分点と最適文節列の組
を (k1,p1),(k2,p2),…,(kL,pL) とすると、 (b)OPTPS、最適区分点、最適文節番号の計算法 [E4]の(2)は、i<jのとき、OPTPS(i,k;
xk,p)とOPTPS(k+1,j;xj,q),(ikj−1,1
pN(k))が既に計算されていれば、1変数関数の
最小化問題を2回解くことによりOPTPS(i,j;xj,q)を
計算できることを示している。そこで、[E4]の(1)
と(2)を用いると、OPTPS(i,j;xj,q)をj−1が0
の部分から始め、順次より大きい部分へと計算し、それ
と同時に最適区分点k、および最適文節番号pを決定し
て行くことができる。
[E5] (1) OPTKS (x i, p ) = (x i, p ) (2) When the optimal segment points and optimal clause numbers are always uniquely determined Optimal segment points and optimal clause numbers for i, j, q Are written as k and p respectively, OPTKS (i, j; x j, q ) = OPTKS (i, k; x k, p ) OPTKS (k +
(1, j; x j, q ) (3) When there are multiple optimal segment points or optimal clause numbers, OPTKS becomes a set, and sets of optimal segment points and optimal clause sequences are (k1, p1), (k2, p2), ..., (kL, pL) (B) OPTPS, optimal segmentation point, optimal clause number calculation method (2) of [E4] is OPTPS (i, k;
x k, p ) and OPTPS (k + 1, j; x j, q ), (ikj−1,1)
It has been shown that if pN (k)) has already been calculated, OPTPS (i, j; x j, q ) can be calculated by solving the minimization problem of a one-variable function twice. So (1) of [E4]
And (2), OPTPS (i, j; x j, q ) j-1 is 0
It is possible to start from the part of (1) to sequentially increase to a larger part, and at the same time, determine the optimum segmentation point k and the optimum clause number p.

(c)最適構文、およびその適格性の計算法 簡単のため、最適区分点、および最適文節番号が常に
一意的に定まる場合について説明する。先ず、 あるから、 により、最適な文節列上の最適な構文に対する適格性の
程度が計算される。また、 とすれば、最適文節列とその上の最適構文は OPTKS(i,n;xn,qo) で与えられる。これを更に具体的に計算するには次のよ
うにすればよい。
(C) Optimal Syntax and Calculation Method of Its Eligibility For the sake of simplicity, a case will be described in which the optimal segment point and the optimal clause number are always uniquely determined. First, because there is, Calculates the degree of eligibility for the optimal syntax on the optimal clause sequence. Also, Then, the optimal clause sequence and the optimal syntax above it are given by OPTKS (i, n; x n, qo ). This can be calculated more concretely as follows.

1,n,q0に対する最適区分点および最適文節番号を、そ
れぞれ、s1およびt1とすれば、[E5]の(2)によっ
て、 OPTKS(i,n;xn,q0)=OPTKS(1,s1;xs1,t1)OPTKS(s
1+1,n;Xn,q0) が成り立つ。もし、s1≠1ならば、さらにOPTKS(1,s1;
xs1,t1)は、1,s1,t1に対する最適区分点s2と最適文節
番号t2を用いて、 OPTKS(1,s1;xs1,t1)=OPTKS(1,s2;xs2,t2)OPTKS
(s2+1,s1;Xs1,t1) と分解できる。OPTKS(s1+1,n;Xn,q0)についてもs1+
1≠nならば同様にして、s1+1,n,q0に対する最適区分
点s3、最適文節番号t3を用いて OPTKS(s1+1,n;Xn,q0)=OPTKS(s1+1,s3;Xs3,t3
OPTKS(s3+1,n;Xn,q0) と分解できる。したがって、 OPTKS(1,n;xn,q0)=(OPTKS(1,s2;xs2,t2)OPTKS
(s2+1,s1;Xs1,t1))(OPTKS(s1+1,s3;Xs3,t3
OPTKS(s3+1,n;Xn,q0)) この操作を、現れるOPTKS(i,j;xj,q)の全てにおいて
j−i=0になるまで行い、0になったところで[E5]
の(1)を用いて、ただ一つの文節からなる構文に置き
換え、分解の逆をたどって挿入操作を行えば、最適な文
節列と、その文節列の上の最適な構文が同時に得られ
る。
If the optimal segment points and optimal clause numbers for 1, n, q0 are s1 and t1, respectively, then OPTKS (i, n; x n, q0 ) = OPTKS (1, s1 ; x s1, t1 ) OPTKS (s
1 + 1, n; X n, q0 ) holds. If s1 ≠ 1, then OPTKS (1, s1;
x s1, t1 ) is OPTKS (1, s1; x s1, t1 ) = OPTKS (1, s2; x s2, t2 ) OPTKS, using the optimal segmentation point s2 and optimal clause number t2 for 1, s1, t1
It can be decomposed into (s2 + 1, s1; X s1, t1 ). For OPTKS (s1 + 1, n; X n, q0 ) also s1 +
If 1 ≠ n, OPTKS (s1 + 1, n; X n, q0 ) = OPTKS (s1 + 1, s3; X s3, t3 ) using the optimal segment point s3 and optimal clause number t3 for s1 + 1, n, q0
It can be decomposed as OPTKS (s3 + 1, n; X n, q0 ). Therefore, OPTKS (1, n; x n, q0 ) = (OPTKS (1, s2; x s2, t2 ) OPTKS
(S2 + 1, s1; X s1, t1 )) (OPTKS (s1 + 1, s3; X s3, t3 )
OPTKS (s3 + 1, n; X n, q0 )) Repeat this operation until ji = 0 in all of the appearing OPTKS (i, j; x j, q ), and when it becomes 0, [E5]
By using (1) of (1) to replace the syntax with only one clause and perform the insertion operation by tracing the reverse of the decomposition, the optimum clause sequence and the optimum syntax on the clause sequence can be obtained at the same time.

最適区分点、最適文節列が複数存在するときは、[E
5]の(3)を用いて同様の操作を行えばよい。
If there are multiple optimal segment points and optimal phrase sequences, click [E
The same operation may be performed using (3) of [5].

[作用] 本発明では、文節の集合の列、およびそれら集合内で
の各文節の信頼度を示す数値が与えられたとき、二文節
間の係り受けの整合性と、各文節の信頼性にもとずい
て、各文節集合から順に一つずつ文節を選んで構成され
る文節列の中から最適な文節例を選び、さらにその文節
列に対する最適な構文を決定し、かつその構文の適格性
の程度を計算するにあたって、与えられた文節集合の部
分列に対して日本語の句として最も適格性の高い文節列
とそれに対する構文、およびその構文に対する適格性の
程度が計算されたならば、それを記憶しておき、その計
算結果を、より長さの長い部分列に対して同様の計算を
行う際に利用することにより、全幅探索におけるような
部分的に同じ計算が繰り返し行なわれることを組織的に
避けるようにするので、与えられた文節集合列上の、日
本語の句、あるいは文として最も適格性の高い構文と、
その構文に対する適格性を、従来法に比べて各段に少な
い計算量で計算することができる。
[Operation] In the present invention, when a sequence of bunsetsu sets and a numerical value indicating the reliability of each bunsetsu in the set are given, the consistency of dependency between two bunsetsus and the reliability of each bunsetsu are determined. Originally, we select the most suitable bunsetsu example from the bunsetsu sequence that is composed by selecting one bunsetsu from each bunsetsu set in order, determine the optimum syntax for that bunsetsu string, and determine the eligibility of that syntax. In calculating the degree of, if the bunsetsu sequence that has the highest eligibility as a Japanese phrase for a given substring of a bunsetsu set and its construction, and the degree of eligibility for that construction, are calculated, By storing it and using the result of the calculation when performing a similar calculation for a longer length subsequence, it is possible to partially repeat the same calculation as in the full width search. Systematically avoid Therefore, on the given sequence of phrase sets, the Japanese phrase or the sentence with the highest qualification as a sentence,
The eligibility for the syntax can be calculated with a much smaller amount of calculation than the conventional method.

[実施例] 以下に図面を参照して本発明を詳細に説明する。EXAMPLES The present invention will be described in detail below with reference to the drawings.

本発明を実施する装置の一実施例を第1図に示す。 An embodiment of the apparatus for carrying out the present invention is shown in FIG.

第1図において、SCは各文節の信頼度を表わす数値を
入力端子i1から書き込んで保持するRAM(本発明の保持
回路)、BUFは文節入力端子i2から入力された文節集合
列を保持するRAMなどによるバッファメモリである。PEN
はバッファメモリBUFから読み出した文節列のうちの2
文節間の係り受けの整合性の程度を計算する装置であ
る。
In FIG. 1, SC is a RAM (a holding circuit of the present invention) for storing and storing a numerical value indicating the reliability of each clause from an input terminal i1, and BUF is a RAM for retaining a clause set sequence input from a clause input terminal i2. It is a buffer memory. PEN
Is 2 of the phrase strings read from the buffer memory BUF
This is a device that calculates the degree of dependency matching between clauses.

T1およびT2は第2図(A)および(B)に示すフロー
チャートのテーブルTABLE1およびTABLE2を実現するため
のRAM(本発明のメモリに対応)である。
T1 and T2 are RAMs (corresponding to the memory of the present invention) for realizing the tables TABLE1 and TABLE2 of the flowchart shown in FIGS. 2 (A) and (B).

ADD1はTABLE1(i,k,p)とPEN(k,p,j,q)とを加算す
る加算器(本発明の演算器の一部を構成)である。
ADD1 is an adder (a part of the arithmetic unit of the present invention) that adds TABLE1 (i, k, p) and PEN (k, p, j, q).

MIN1は加算器ADD1の出力の、上記pを変化させた時の
最小値と、その最小値を与えるpを検出するための最小
値検出器(本発明の検出器の一部を構成)である。
MIN1 is a minimum value detector (which constitutes a part of the detector of the present invention) for detecting the minimum value of the output of the adder ADD1 when the above-mentioned p is changed, and p which gives the minimum value. .

ADD2は最小値検出器MIN1の出力とTABLE1(k+1,j,
q)とを加算する加算器(加算器ADD1と共に本発明の演
算器を構成)である。
ADD2 is the output of minimum value detector MIN1 and TABLE1 (k + 1, j,
q) and (adder ADD1 constitute an arithmetic unit of the present invention).

MIN2は加算器ADD2の出力の、上記kを変化させた時の
最小値と、その最小値を与えるkを検出するための最小
値検出器(最小値検出器MIN1と共に本発明の検出器を構
成)である。
MIN2 is the minimum value of the output of the adder ADD2 when k is changed, and the minimum value detector for detecting k that gives the minimum value (which constitutes the detector of the present invention together with the minimum value detector MIN1. ).

CONTはこれら各部の動作順序を制御するための制御装
置であって、たとえば中央処理装置CPUで構成する。こ
の中央処理装置CPUは、各部の制御手順を予め記憶して
おくためのROMの形態のメモリMEMを有する。
CONT is a control device for controlling the operation sequence of each of these parts, and is composed of, for example, a central processing unit CPU. This central processing unit CPU has a memory MEM in the form of a ROM for storing the control procedure of each unit in advance.

O1およびO2はRAM T1およびT2に書き込まれた結果をそ
れぞれ出力する出力端子である。
O1 and O2 are output terminals for outputting the results written in the RAMs T1 and T2, respectively.

第2図(A)および(B)は、第1図示の実施例にお
けるメモリMEMにあらかじめ格納しておく制御手順の一
例としての、最適文節列の上の最適構文の適格性の程
度、および最適文節列とその上の最適構文を定めるため
の最適区分点、および最適文節番号を順次求めるための
手順を示すフローチャートである。以下、これについて
説明する。
2 (A) and 2 (B) show the degree of qualification of the optimum syntax on the optimum phrase sequence and the optimum degree as an example of the control procedure stored in advance in the memory MEM in the embodiment shown in FIG. It is a flowchart which shows the procedure for sequentially obtaining | requiring the optimal segmental point for defining a phrase sequence, the optimal syntax on it, and the optimal phrase number. Hereinafter, this will be described.

第2図(A)および(B)のフローチャートに付随し
て、第3図(A)および(B)に示すように、文節列の
長さに等しい行および列の数とその列番号に等しい番号
の文節集合の元の数だけの項とをもつ2つの3次元の上
三角行列形のテーブルTABLE1(i,j,q)およびTABLE2
(i,j,q)(1ijn,1qm)が必要である。
ここで、nは文節集合列の長さ、mは各文節集合の元の
数の最大値である。各テーブルの添字は左から順に、
行、列、項の番号を示す。
As shown in FIGS. 3A and 3B accompanying the flowcharts of FIGS. 2A and 2B, the number of rows and columns equal to the length of the clause column and the column number thereof are equal. Two three-dimensional upper triangular matrix tables TABLE1 (i, j, q) and TABLE2, which have as many terms as there are elements in the clause set of numbers
(I, j, q) (1ijn, 1qm) is required.
Here, n is the length of the phrase set sequence, and m is the maximum value of the original number of each phrase set. The subscripts for each table are from left to right,
Indicates the row, column, and item number.

TABLE1(i,j,q)はOPTPS(i,j;xj,q)の値を記憶し、
またTABLE2(i,j,q)は、i,j,qに対する最適区分点と最
適文節番号の組を記憶するためのものである。
TABLE1 (i, j, q) stores the value of OPTPS (i, j; x j, q ),
TABLE2 (i, j, q) is for storing a set of optimum segment points and optimum clause numbers for i, j, q.

また、第k番目の文節集合内の第p番目の文節の信頼
度は2次元のテーブルSC(k,p)に入力され保持されて
いるものとする。
It is also assumed that the reliability of the p-th clause in the k-th clause set is input and held in the two-dimensional table SC (k, p).

第i番目の文節集合内の文節の数は1次元のテーブル
N(i),(1in)に入力され、保持されている
ものとする。
It is assumed that the number of clauses in the i-th clause set is input and held in the one-dimensional tables N (i) and (1in).

また、PEN(Xk,p,Xj,q)を計算する関数をPEN(k,p,
j,q)とする。
In addition, the function to calculate PEN (X k, p , X j, q ) is PEN (k, p,
j, q).

第2図(A)のフローチャートにおいて、まず、ステ
ップS1〜S7において、TABLE1(i,i,p)にSC(i,p)の値
がセットされる(1in,1kN(i))。これ
は、[E4](1)により、 OPTPS(i,i;xi,p)=Si(Xi,p) であることに対応している。
In the flowchart of FIG. 2A, first, in steps S1 to S7, the value of SC (i, p) is set in TABLE1 (i, i, p) (1in, 1kN (i)). This corresponds to OPTPS (i, i; x i, p ) = S i (X i, p ), according to [E4] (1).

次に、ステップS8〜S18において、各テーブルの列番
号jを2から始めてnまで1ずつ増加させ、各列に対し
て次の処理を実行する。
Next, in steps S8 to S18, the column number j of each table starts from 2 and is incremented by 1 up to n, and the following process is executed for each column.

ステップS9〜S16において、各テーブルの行番号iを
j−1から始めて1まで、1ずつ減少させながら、次の
処理[F1]と[F2]を実行する。
In steps S9 to S16, the following processes [F1] and [F2] are executed while decreasing the row number i of each table from j-1 to 1 by one.

ステップS11の実行する処理[F1]は[E4]の(2)
に対応しており、また、ステップS12の実行する処理[F
2]は最適区分点と最適文節列を求め、TABLE2に記憶す
る操作である。
The process [F1] executed in step S11 is (2) of [E4].
In addition, the processing performed by step S12 [F
[2] is an operation for obtaining the optimum segment point and the optimum phrase sequence and storing them in TABLE2.

[F1]q=1,…,N(j)に対し を求めて、その結果をTABLE1(i,j,q)に記憶する。For [F1] q = 1, ..., N (j) And store the result in TABLE1 (i, j, q).

[F2][F1]において最小値を与えるkとpの組(k,
p)をTABLE2(i,j,q)に記憶する。
The pair of k and p (k, p that gives the minimum value in [F2] [F1]
Store p) in TABLE2 (i, j, q).

ステップS11では[F1]によりk=i,…,j−1に対し
て、TABLE1のi行,k列,p項と、k+1行、j列,q項の値
と、k番目の文節集合のp番目の文節が,j番目の文節集
合のq番目の文節に係ることの整合性の程度とを加算
し、その加算結果のkおよびpに関する最小値(または
最大値)をテーブルTABLE1のi行,j列,q項に格納する。
At step S11, for k = i, ..., j−1 by [F1], the i row, k column, p term of TABLE1 and the value of k + 1 row, j column, q term, and the kth clause set The p-th clause adds the degree of consistency of being related to the q-th clause of the j-th clause set, and the minimum value (or maximum value) of k and p of the addition result is added to row i of table TABLE1. , column j, q term.

次のステップS12では、かかる最小値(または最大
値)を与えるkおよびpの値の組(k,p)をテーブルTAB
LE2のi行,j列,q項に格納する。
In the next step S12, the set of values k and p (k, p) that gives such a minimum value (or maximum value) is stored in the table TAB.
Store in the i-th row, j-th column, and q-term of LE2.

ステップS9,S10とS13〜S18によりステップS11とS12と
を繰り返して、テーブルTABLE1およびTABLE2の各行,
列,項に、上述の計算を施し、その結果を順次に埋めて
いく。
By repeating steps S11 and S12 by steps S9, S10 and S13 to S18, each row of tables TABLE1 and TABLE2,
The above calculation is applied to columns and terms, and the results are sequentially filled.

ステップS18において、j>nとなり、テーブルTABLE
1およびTABLE2のすべての行,列,項が計算結果で埋め
られたときに、テーブルTABLE1の右上隅の各項に関して
最小値を求めることにより最終的な適格性の程度と最後
の文節集合中の最適文節番号が得られる。そして、最適
構文を構成するために必要な最適区分点および最適文節
番号の全体がテーブルTABLE2に得られる。
In step S18, j> n and table TABLE
When all rows, columns, and terms of 1 and TABLE2 are filled with the calculation results, the final eligibility degree and the last clause set in the last clause set are obtained by finding the minimum value for each term in the upper right corner of table TABLE1. The optimum clause number is obtained. Then, the entire optimum partition points and optimum clause numbers required for constructing the optimum syntax are obtained in the table TABLE2.

第4図の斜線部はTABLE1(i,j,・)を計算するときに
参照されるTABLE1の領域を示している。
The shaded area in FIG. 4 indicates the area of TABLE1 that is referenced when calculating TABLE1 (i, j ,.).

第5図はTABLE1が計算された値で埋められて行く順序
を示したものであり、最後にTABLE1(1,n,q)(1q
N(n))が計算される。TABLE2についても、計算の
順序は同様である。
Figure 5 shows the order in which TABLE1 is filled with the calculated values. Finally, TABLE1 (1, n, q) (1q
N (n)) is calculated. For TABLE2, the calculation order is the same.

計算が終了したとき、TABLE1の右上隅の各項、すなわ
ちTABLE1(1,n,q)には最終的な適格性の程度OPTPS(1,
n;xn,q)が記憶されている。また、TABLE2には最適区分
点と最適文節番号の情報が記憶されているので、上述の
(c)項で述べた方法により、この情報から最適文節列
と最適構文を構成することができる。
When the calculation is completed, the final degree of eligibility for each term in the upper right corner of TABLE1, namely, TABLE1 (1, n, q) is OPTPS (1,
n; x n, q ) is stored. Further, since the information of the optimum segment point and the optimum clause number is stored in TABLE2, the optimum clause sequence and the optimum syntax can be constructed from this information by the method described in the above item (c).

本発明を実際に使用するときには、第2図(A)およ
び(B)のフローチャートの他にTABLE2の情報から最適
な文節列とその上の最適な構文を構成する機構が必要で
あるが、本発明の主眼点はTABLE1およびTABLE2の内容を
計算するところにあるので、これらの情報から最適な文
節列およびその上の最適な構文を構成する機構について
は、上記の説明にとどめる。
When actually using the present invention, in addition to the flow charts of FIGS. 2 (A) and (B), a mechanism for constructing an optimum clause sequence and an optimum syntax on it from the information of TABLE2 is required. Since the main point of the invention is to calculate the contents of TABLE1 and TABLE2, the mechanism for constructing the optimal clause sequence and the optimal syntax thereabove will be limited to the above description.

但し、TABLE1およびTABLE2の内容が算出されていれ
ば、与えられた文節の集合から最適な文節列およびその
上の最適な構文を構成するために必要な計算の内で、最
も計算量の多い部分はもはや終了していることに注意し
ておく。
However, if the contents of TABLE1 and TABLE2 have been calculated, the most computationally expensive part of the calculation required to construct the optimal phrase sequence and the optimal syntax above it from the given set of phrases. Note that is no longer available.

[F1]において最小値を与えるkおよびpが複数個存
在することがあるが、そのときには、TABLE2(i,j,q)
に複数個の数値の組を記憶できるようにしておき、[F
2]においてそれらの組を全てTABLE2(i,j,q)に記憶す
るようにすればよい。このように第2図(A)および
(B)のフローチャートを変更しても計算量には殆ど変
わりがない。
There may be multiple k and p that give the minimum value in [F1]. In that case, TABLE2 (i, j, q)
It is possible to store multiple sets of numerical values in
In 2], all of those pairs may be stored in TABLE2 (i, j, q). Thus, even if the flowcharts of FIGS. 2A and 2B are changed, the calculation amount is almost unchanged.

以上述べたように、本発明の特徴は、与えられた文節
の集合列B1B2…Bnから順に一つずつ文節を選んでできる
文節列の中で、最後の文節を一つ固定した時の最適な文
節列とその上の最適な構文およびそれに対する適格性の
程度を求めるに当って、文節の集合の部分列BiBi+1…Bj
に対する上記と同様の最後の文節を固定した時の最適な
文節列とその上の最適な構文、およびその適格性の程度
を、長さの短い部分列に対応するものから順次求め、そ
の結果を記憶しておき、しかも部分列BiBi+1…Bjに対す
る上記の計算を実行するに当っては、k=i,…,j−1に
対して既に求められ記憶されている、集合の部分列BiB
i+1…Bkおよび部分列Bk+1Bk+2…Bjに対する上記の諸数
値、および文節xk,pεBkが文節xj,qεBjに係ることの整
合性を表わす関数値のみを用いるところにある。
As described above, the feature of the present invention is that the last bunsetsu is fixed in the bunsetsu string that can be selected one by one from the given set of bunsetsu B 1 B 2 ... B n . In order to find the optimal phrase sequence at time, the optimal syntax above it, and the degree of eligibility for it, the subsequence B i B i + 1 ... B j of the set of phrases
Similar to the above, the optimal phrase sequence when the last phrase is fixed, the optimal syntax above it, and the degree of eligibility are sequentially obtained from those corresponding to the short subsequences, and the result is obtained. In performing the above calculation for the subsequence B i B i + 1 ... B j , the set that has already been obtained and stored for k = i, ..., j-1 is stored. Subsequence of B i B
i + 1 … B k and the subsequences B k + 1 B k + 2 … B j , and the consistency of the fact that the clause x k, p εB k relates to the clause x j, q εB j This is where only function values are used.

なお、上述した実施例では、最小値を求める処理の場
合について示したが、本発明はこの場合にのみ限られる
ものではなく、最大値を求める処理を行うようにしても
よい。但し、最小値の処理を行う場合には一貫して最小
値を求め、逆に最大値を求める場合には常に最大値を求
める処理を行うようにする。
In the above-described embodiment, the case of the process of obtaining the minimum value is shown, but the present invention is not limited to this case, and the process of obtaining the maximum value may be performed. However, when the minimum value is processed, the minimum value is consistently calculated, and conversely, when the maximum value is calculated, the maximum value is always calculated.

[発明の効果] 係り受けの適格性を示す関数PENについては、一度計
算したものを記憶しておくことにすると、従来法と本発
明で計算量は同じになる。従って、この部分を除外する
と、基本演算は、実数の加算と比較演算であるので、以
下では、従来法と本発明を、これらの演算の回数で比較
する。
[Effects of the Invention] Regarding the function PEN indicating the suitability of dependency, once the calculation is stored, the calculation amount becomes the same between the conventional method and the present invention. Therefore, if this part is excluded, the basic operations are addition and comparison operations of real numbers. Therefore, the conventional method and the present invention will be compared below by the number of times of these operations.

長さがnの文節列上の構文数、すなわちK(x1x2
xn)の元の数をL[n]と書くと、 L[n]=L[n−1]・L[1]+L[n−2]・
L[2]+…+L[1]・L[n−1] が成り立つ。このL[n]を用いると、計算量は次のよ
うになることが確かめられる。但し、各文節集合の中の
文節数は全てMとした。
The number of syntaxes on a phrase sequence of length n, that is, K (x 1 x 2 ...
If the original number of x n ) is written as L [n], then L [n] = L [n-1] .L [1] + L [n-2].
L [2] + ... + L [1] .L [n-1] holds. Using this L [n], it can be confirmed that the calculation amount is as follows. However, the number of clauses in each clause set was all M.

本発明 加算:M・(M+1)・n・(n−1)・(n+1)/6 比較:M2n・(n−1)・(n+1)/6−Mn・(n−
1)/2 これらの式をM=5,10,n=5,10,15,20,25,30について
計算した結果を第2表に示す。
The present invention addition: M · (M + 1) · n · (n−1) · (n + 1) / 6 Comparison: M 2 n · (n−1) · (n + 1) / 6−Mn · (n−
1) / 2 Table 2 shows the results of calculating these equations for M = 5,10, n = 5,10,15,20,25,30.

従来法については、上述したように、 加算:(L[n]・(n−1)+(n−1))Mn 比較:L[n]・Mn−1 となり、これらの式をM=5,10,n=5,10,15,20,25,30に
ついて計算した結果が第1表である。
Regarding the conventional method, as described above, addition: (L [n]. (N-1) + (n-1)) Mn comparison: L [n] .Mn- 1 becomes = 5,10, n = 5,10,15,20,25,30 is the result calculated in Table 1.

第1表と第2表を比較するとわかるように、Mおよび
nが大きいほど、本発明の効果は大きく、M=10で、n
=10のときには加算回数は約1010分の1に改善され、比
較演算回数は約109分の1に、またn=20のときには加
算回数は約1025分の1、比較演算回数は約1024分の1に
改善される。
As can be seen by comparing Tables 1 and 2, the larger M and n, the greater the effect of the present invention.
Number of additions when = 10 is improved to about 10 one-tenth, 1, compare the number of operations of the number of additions of about 10 25 minutes when the comparison operation count to 1 to about 10 9 minutes, also n = 20 is approximately It is improved by a factor of 10 24 minutes.

以上から明らかなように、本発明によれば、文節の集
合の列、およびそれら集合内での各文節の信頼度を示す
数値が与えられたとき、二文節間の係り受けの整合性
と、各文節の信頼性にもとずいて、各文節集合から順に
一つずつ文節を選んで構成される文節列の中から最適な
文節列を選び、さらにその文節列に対する最適な構文を
決定し、かつその構文の適格性の程度を計算するにあた
って、与えられた文節集合の部分列に対して日本語の句
として最も適格性の高い文節列とそれに対する構文、お
よびその構文に対する適格性の程度が計算されたなら
ば、それを記憶しておき、その計算結果を、より長さの
長い部分列に対して同様の計算を行う際に利用すること
により、全幅探索におけるような部分的に同じ計算が繰
り返し行なわれることを組織的に避けるようにするの
で、本発明を適用することにより、与えられた文節集合
列上の、日本語の句、あるいは文として最も適格性の高
い構文と、その構文に対する適格性を、従来法に比べて
各段に少ない計算量で計算することができる。
As is clear from the above, according to the present invention, when a sequence of bunsetsu sets and a numerical value indicating the reliability of each bunsetsu in the set are given, the consistency of dependency between two bunsetsus, Based on the reliability of each bunsetsu, select an optimal bunsetsu string from the bunsetsu string that is constructed by selecting one bunsetsu from each bunsetsu set in order, and then determine the optimum syntax for that bunsetsu string. Moreover, in calculating the degree of eligibility of the syntax, the bunsetsu sequence most highly qualified as a Japanese phrase for a given subsequence of a bunsetsu set, the syntax for it, and the degree of eligibility for that syntax Once it has been calculated, it is stored and the result of that calculation is used to perform a similar calculation on a subsequence with a longer length, so that the same partial calculation as in full-width search is performed. Is repeated Therefore, by applying the present invention, the syntax that is most qualified as a Japanese phrase or sentence on a given bunsetsu set sequence and the suitability for that syntax are It can be calculated with a much smaller amount of calculation than the method.

【図面の簡単な説明】[Brief description of drawings]

第1図は本発明を実施する装置の一実施例を示すブロッ
ク図、 第2図(A)および(B)はその制御手順の一例を示す
フローチャート、 第3図(A)および(B)は第2図のフローチャートを
実行する際に必要となるテーブルの一例を示す構造図、 第4図はTABLE1の最初の2つの添字がi,jである部分を
計算するときに参照されるTABLE1の領域を示す説明図、 第5図は第2図(A)および(B)のフローチャートを
実行する際に、TABLE1が計算済みの値で埋められて行く
順序を示す説明図である。 SC…各文節の信頼度を表わす数値保持用RAM、BUF…文節
集合列用バッファメモリ、PEN…整合性程度の計算装
置、T1…TABLE1用RAM、T2…TABLE2用RAM、ADD1…加算
器、MIN1…最小値検出器、ADD2…加算器、MIN2…最小値
検出器、CONT…各部の動作順序を制御する制御装置、ME
M…制御手順記憶用ROM、CPU…中央処理装置、i1…文節
信頼度入力端子、i2…文節列入力端子、O1…T1に得られ
た結果の出力端子、O2…T2に得られた結果の出力端子。
FIG. 1 is a block diagram showing an embodiment of an apparatus for carrying out the present invention, FIGS. 2 (A) and 2 (B) are flow charts showing an example of the control procedure, and FIGS. 3 (A) and 3 (B) are Fig. 4 is a structural diagram showing an example of a table required when executing the flowchart of Fig. 2. Fig. 4 is the area of TABLE1 that is referenced when calculating the first two subscripts i, j of TABLE1. FIG. 5 is an explanatory diagram showing the order in which TABLE1 is filled with the calculated values when the flowcharts of FIGS. 2A and 2B are executed. SC: Numerical value holding RAM showing the reliability of each clause, BUF ... Clause set sequence buffer memory, PEN ... Consistency calculation device, T1 ... TABLE1 RAM, T2 ... TABLE2 RAM, ADD1 ... Adder, MIN1 … Minimum value detector, ADD2… Adder, MIN2… Minimum value detector, CONT… Control device for controlling the operation sequence of each part, ME
M ... ROM for storing control procedure, CPU ... Central processing unit, i1 ... Phrase reliability input terminal, i2 ... Phrase string input terminal, O1 ... Output terminal of result obtained at T1, O2 ... Of result obtained at T2 Output terminal.

───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭57−14971(JP,A) 特開 昭60−22275(JP,A) 特開 昭60−157659(JP,A) 特開 昭58−208847(JP,A) A.V.エイホ著,野崎・野下訳「サ イエンスライブラリ情報電算機=35アル ゴリズムの設計と解析▲I▼」(昭和52 年10月5日発行),株式会社サイエンス 社,P.59−61 情報処理学会論文誌,Vol.27,N o.7(July1986)P.679−687 ─────────────────────────────────────────────────── ─── Continuation of front page (56) Reference JP-A-57-14971 (JP, A) JP-A-60-22275 (JP, A) JP-A-60-157659 (JP, A) JP-A-58- 208847 (JP, A) A. V. Eiho, Translated by Nozaki and Noshita, "Science Library Information Computer = 35 Algorithm Design and Analysis ▲ I ▼" (Published October 5, 1977), Science Co., P. 59-61 IPSJ Journal, Vol. 27, No. 7 (Jully 1986) P.I. 679-687

Claims (1)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】文節集合の列および当該文節集合列の中の
各文節の信頼度を表わす数値が与えられたとき、二文節
間の係り受けの整合性の程度の総和と各文節の信頼度を
表わす数値の和を最小化あるいは最大化することによ
り、各文節集合から1つずつ文節を選ぶという条件のも
とでの最適な文節列と、その上の最適構文と、その適格
性の程度とを定める言語処理装置の言語処理方法におい
て、 前記文節集合列の長さに等しい行、および列の数を持
つ、2次元の上三角行列形の第1および第2の表をメモ
リ上に用意し、 前記第1表および前記第2表の各桝目を、その列番号に
等しい番号の文節集合の元の数だけの項に分割して、前
記第1表および前記第2表を予め3次元化しておき、 前記第1表の各i行,i列,p項にi番目の文節集合のp番
目の文節の信頼度を表わす数値を保持回路に設定し、 k=i,…,j−1に対して、前記メモリ上のi行,k列の各
項と、k+1行,j列,q項とに計算済みの値を格納し、 その格納がなされたならば、前記メモリ上の当該計算済
みの前記第1表のi行,k列,p項の値と、k+1行,j列,q
項の値と、k番目の文節集合のp番目の文節が、j番目
の文節集合のq番目の文節に係ることの整合性の程度と
を演算器において加算し、 その加算結果のkおよびpに関する最小値または最大値
ならびに当該最小値または最大値を与えるk及びpの値
を検出器で検出し、 当該検出した最小値または最大値を前記メモリ上のi
行,j列,q項に格納し、 前記最小値または最大値を与える最適区分点であるとこ
ろのkおよび最適文節番号であるところのpの値の組を
前記メモリ上の第2表のi行,j列,q項に格納し、 前記メモリ上の第1表および前記第2表を順次計算済み
の値で埋めて行き、 前記メモリ上の第1表および前記第2表が全て計算済み
の値で埋めつくされたとき、当該第1表の右上隅の各項
の中の最小値または最大値を求めることにより最終的な
適格性の程度および最後の文節集合中の最適文節番号を
得ると共に、最適構文を構成するために必要な最適区分
点および最適文節番号の全体を前記メモリ上の第2表に
得る ことを特徴とする言語処理装置の言語処理方法。
1. When a column of a bunsetsu set and a numerical value indicating the reliability of each bunsetsu in the bunsetsu set sequence are given, the sum of degree of dependency matching between two bunsetsus and the reliability of each bunsetsu The optimal clause sequence under the condition that one clause is selected from each clause set by minimizing or maximizing the sum of the numbers that represent, the optimal syntax on it, and the degree of its eligibility. In the language processing method of the language processing apparatus, the two-dimensional upper triangular matrix-shaped first and second tables having the number of rows and columns equal to the length of the clause set column are prepared in the memory. Then, each grid of the first table and the second table is divided into as many terms as the original number of the clause set having a number equal to the column number, and the first table and the second table are preliminarily three-dimensionally divided. In the first table, the i-th clause, the i-th column, and the p-th term in the p-th clause of the i-th clause set A numerical value representing the reliability of the clause is set in the holding circuit, and for k = i, ..., j−1, each item in the i-th row and k-th column in the memory and k + 1-th row, j-th column, q-th term. The calculated value is stored in, and if the storage is done, the calculated value of the i-row, k-column, p-term of the first table in the memory and k + 1-row, j-column, q
The value of the term and the degree of consistency that the p-th clause of the k-th clause set relates to the q-th clause of the j-th clause set are added in the computing unit, and k and p of the addition result are added. The minimum value or the maximum value of the above and the values of k and p that give the minimum value or the maximum value are detected by the detector, and the detected minimum value or the maximum value is detected in i on the memory.
Stored in rows, j columns, and q terms, a set of values of k, which is the optimum segment point that gives the minimum value or maximum value, and p, which is the optimum clause number, is stored in the i of Table 2 on the memory. Stored in row, j column, q term, fill the first table and the second table in the memory with sequentially calculated values, and the first table and the second table in the memory are all calculated When it is filled with the value of, the final degree of eligibility and the optimum clause number in the last clause set are obtained by finding the minimum or maximum value among the terms in the upper right corner of Table 1. At the same time, the entire optimal partition points and optimal clause numbers required for constructing the optimal syntax are obtained in the second table on the memory, and the language processing method of the language processing device.
JP61163788A 1986-07-14 1986-07-14 Language processing method of language processing device Expired - Lifetime JP2527719B2 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP61163788A JP2527719B2 (en) 1986-07-14 1986-07-14 Language processing method of language processing device
US07/072,158 US4805100A (en) 1986-07-14 1987-07-10 Language processing method and apparatus
KR1019870007491A KR910004009B1 (en) 1986-07-14 1987-07-13 Language processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61163788A JP2527719B2 (en) 1986-07-14 1986-07-14 Language processing method of language processing device

Publications (2)

Publication Number Publication Date
JPS6320561A JPS6320561A (en) 1988-01-28
JP2527719B2 true JP2527719B2 (en) 1996-08-28

Family

ID=15780718

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61163788A Expired - Lifetime JP2527719B2 (en) 1986-07-14 1986-07-14 Language processing method of language processing device

Country Status (1)

Country Link
JP (1) JP2527719B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2650399B2 (en) * 1989-02-13 1997-09-03 トヨタ自動車株式会社 Hydraulic control device for vehicle power transmission

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5714971A (en) * 1980-07-02 1982-01-26 Nec Corp Kana japanese syllabary kanji chinese character conversion device
JPS6022275A (en) * 1983-07-19 1985-02-04 Fujitsu Ltd Deciding device using dynamic planning method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A.V.エイホ著,野崎・野下訳「サイエンスライブラリ情報電算機=35アルゴリズムの設計と解析▲I▼」(昭和52年10月5日発行),株式会社サイエンス社,P.59−61
情報処理学会論文誌,Vol.27,No.7(July1986)P.679−687

Also Published As

Publication number Publication date
JPS6320561A (en) 1988-01-28

Similar Documents

Publication Publication Date Title
Apostolico et al. Efficient parallel algorithms for string editing and related problems
Eichhorst et al. Growth functions of stochastic Lindenmayer systems
CN105706092B (en) The method and system of four values simulation
JPH0689302A (en) Dictionary memory
CN110807335A (en) Translation method, device, equipment and storage medium based on machine learning
Sokolovska et al. Efficient learning of sparse conditional random fields for supervised sequence labeling
KR910004009B1 (en) Language processing method
Culik II et al. Systolic trellis automata: stability, decidability and complexity
US7328147B2 (en) Automatic resolution of segmentation ambiguities in grammar authoring
Gu et al. Markov modeling of mandarin Chinese for decoding the phonetic sequence into Chinese characters
Baig et al. Natural language to sql queries: A review
JP2527719B2 (en) Language processing method of language processing device
Pripoae et al. Lie symmetries of the nonlinear Fokker-Planck equation based on weighted Tsallis entropy
CN113780006B (en) Training method of medical semantic matching model, medical knowledge matching method and device
JPH0727529B2 (en) Parser
JP2954215B2 (en) Language processing system
CN112800778B (en) Intent recognition method, system and storage medium based on word string length
JPH077399B2 (en) Language processing
Frison et al. Systolic architectures for connected speech recognition
JPS62139076A (en) Language analysis system
JP3019286B2 (en) Document search device
JP7204431B2 (en) word vector list generator
Ibarra Systolic arrays: characterizations and complexity
Wang et al. Combining Transformers and Tree-based Decoders for Solving Math Word Problems
CN115409033A (en) Statement rewriting method, system and computer storage medium based on graph database