JPH04367062A - Structure extracting method by neural network - Google Patents

Structure extracting method by neural network

Info

Publication number
JPH04367062A
JPH04367062A JP3143014A JP14301491A JPH04367062A JP H04367062 A JPH04367062 A JP H04367062A JP 3143014 A JP3143014 A JP 3143014A JP 14301491 A JP14301491 A JP 14301491A JP H04367062 A JPH04367062 A JP H04367062A
Authority
JP
Japan
Prior art keywords
neural network
units
extraction method
layer
structure extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3143014A
Other languages
Japanese (ja)
Inventor
Hideyuki Maki
秀行 牧
Ikuo Matsuba
松葉 育雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP3143014A priority Critical patent/JPH04367062A/en
Publication of JPH04367062A publication Critical patent/JPH04367062A/en
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

PURPOSE:To make useful for the characteristic understanding by presuming the grammar of a language from an example sentence with a neural network, using it for sentence structure analysis, etc., in the language processing and extracting the feature of a signal from a sample with the neural network even in the signal processing. CONSTITUTION:When a set 101 of an example sentence is inputted, conversion is performed with a pattern for learning and an identity mapping learning neural network part 103 learns the identity mapping of a pattern for learning. Thus, the structure of the pattern for learning is reflected to the linking weight between the units of the neural network, and by analyzing the linking weight between the units by a neural network analyzing part 104, the auxiliary and independent relation between the constituents of the pattern is found.

Description

【発明の詳細な説明】[Detailed description of the invention]

【0001】0001

【産業上の利用分野】言語処理などで、対象となる言語
の文法が事前に得られていない場合に、ニューラルネッ
トワークを用いて例文から言語の文法を獲得し、利用す
ることができる。また、信号処理においても、信号の特
徴が容易に発見できない場合に、ニューラルネットワー
クを用いて標本から特徴を獲得でき、信号の特性理解に
役立てることができる。
[Industrial Application Field] When the grammar of the target language is not obtained in advance, such as in language processing, neural networks can be used to obtain and use the grammar of the language from example sentences. Furthermore, in signal processing, when the characteristics of a signal cannot be easily discovered, neural networks can be used to acquire the characteristics from a sample, which can be useful for understanding the characteristics of the signal.

【0002】0002

【従来の技術】言語処理へのニューラルネットワークの
応用例の1つに構文解析器がある。なかでも文脈自由文
法に関するものが多く、例えば、エイアイピー・カンフ
ァレンス・プロシーディングズ151,p.140−p
.145,“コンテクストフリー・パージング・ウィズ
・コネクショニスト・ネットワーク”(AIP Con
ferenceProceedings 151,p.
140−p.145,“Context−Free P
arsing withConnectionist 
Network”)などがある。 それらは、あらかじめ明示的に与えられた文法をもとに
ネットワークを構成するという方法をとっており、ニュ
ーラルネットワークの並列処理によって構文解析を高速
に行うことを目的としている。したがって、ニューラル
ネットワークの学習能力を活かしたものではない。モー
ガン・カウフマン・パブリシャー,アドバンスィズ・イ
ン・ニューラル・インフォメーション・プロセッシング
・システムズ1,p.537−p.544,“ア・マッ
シブリ・パラレル・セルフチューニング・コンテクスト
フリー・パーザー”(Morgan Kaufmann
 Publisher,Advances in Ne
uralInformation Processin
gSystems1,p.537−p.544,“A 
Massively ParallelSelf−Tu
ning Context−Free Parser”
) には学習能力を持った構文解析器が述べられている
が、これも文法はあらかじめ与えられており、その適用
の仕方を学習するものである。その他、特開平1−25
5966 号も言語処理にニューラルネットワークを用
いた例だが、これも文法規則の適用順序を学習するもの
であり、文法があらかじめ与えられることを前提として
いる。
2. Description of the Related Art A syntactic analyzer is one of the applications of neural networks to language processing. Among them, there are many related to context-free grammar, such as AIP Conference Proceedings 151, p. 140-p
.. 145, “Context-Free Purging with Connectionist Networks” (AIP Con
ferenceProceedings 151, p.
140-p. 145, “Context-Free P
asing with Connectionist
These methods use a method of constructing a network based on a grammar that is explicitly given in advance, and their purpose is to perform syntax analysis at high speed through parallel processing of neural networks. Therefore, it does not take advantage of the learning ability of neural networks.Morgan Kaufman Publishers, Advances in Neural Information Processing Systems 1, p.537-p.544, “A Massively Parallel・Self-tuning context-free parser” (Morgan Kaufmann)
Publisher, Advances in Ne
uralInformation Processin
gSystems1, p. 537-p. 544, “A
Massively ParallelSelf-Tu
ning Context-Free Parser”
) describes a syntactic analyzer with learning ability, but this too is given a grammar in advance and learns how to apply it. Others, JP-A-1-25
No. 5966 is also an example of using a neural network for language processing, but it also learns the order in which grammar rules are applied, and assumes that the grammar is given in advance.

【0003】0003

【発明が解決しようとする課題】構文解析への従来のニ
ューラルネットワークの応用例では、言語の文法が明示
的に与えられていなければならなかった。したがって、
文法が事前に得られていない言語に対しては、何らかの
手段で文法を作成して与えてやらなければならない。本
発明の目的は、文法が明示的に与えられていない未知の
言語に対して、ニューラルネットワークを用いて例文の
構造を抽出し、言語の文法を推定する構造抽出方法を提
供することにある。
[Problems to be Solved by the Invention] In conventional applications of neural networks to parsing, the grammar of the language must be explicitly given. therefore,
For languages for which a grammar is not available in advance, a grammar must be created and provided by some means. An object of the present invention is to provide a structure extraction method for extracting the structure of example sentences using a neural network and estimating the grammar of an unknown language for which no grammar has been explicitly given.

【0004】さらに、記号処理のみでなく信号処理にお
ける特徴抽出にも適用できることを目指す。
Furthermore, we aim to be able to apply this method not only to symbol processing but also to feature extraction in signal processing.

【0005】[0005]

【課題を解決するための手段】構造抽出手段は図1に示
すように、入力パターン生成部102,恒等写像学習ニ
ューラルネットワーク部103,ニューラルネットワー
ク解析部104からなる。入力パターン生成部102は
与えられた例文集合101から、ニューラルネットワー
クに与える入力パターン集合を生成する。恒等写像学習
ニューラルネットワーク部103では砂時計型多層ニュ
ーラルネットワーク(以下、砂時計型ネットワーク)を
用いて入力パターンの恒等写像(入力値をそのまま出力
値とする写像)を学習する。ニューラルネットワークは
、簡単な計算を行うユニットを多数結合して構成され、
ユニット間の結合はそれぞれ結合重みと呼ばれる重みを
持っている。多層ニューラルネットワークは、図2に示
すように、構成要素であるユニット206が入力層20
2,中間層203,出力層204という層構造をなし、
各層を構成するユニットが、隣接した層内のユニットと
の間にのみ結合を持つニューラルネットワークである。 信号はネットワークの中を入力層から出力層の方向へ伝
達される。砂時計型ネットワークとは図5に示すように
、入力層503と出力層505のユニット数が同じで、
中間層504のユニット数がそれより少ない多層ニュー
ラルネットワークである。砂時計型ネットワークに入力
パターンの恒等写像を学習させることによって、例文の
構造が砂時計型ネットワークのユニット間の結合重みに
反映される。ニューラルネットワーク解析部104は学
習の終わった砂時計型ネットワークのユニット間の結合
重みを解析し、そこから例文を構成する要素間の関係を
抽出する手段である。
[Means for Solving the Problems] As shown in FIG. 1, the structure extraction means includes an input pattern generation section 102, an identity mapping learning neural network section 103, and a neural network analysis section 104. The input pattern generation unit 102 generates an input pattern set to be given to the neural network from the given example sentence set 101. The identity mapping learning neural network unit 103 uses an hourglass multilayer neural network (hereinafter referred to as an hourglass network) to learn an identity mapping of an input pattern (a mapping in which the input value is used as an output value). Neural networks are constructed by combining many units that perform simple calculations.
Each connection between units has a weight called a connection weight. As shown in FIG. 2, the multilayer neural network has a unit 206 that is a component of
2. It has a layered structure of an intermediate layer 203 and an output layer 204,
This is a neural network in which the units forming each layer have connections only with units in adjacent layers. Signals are transmitted through the network from the input layer to the output layer. As shown in FIG. 5, an hourglass network has the same number of units in the input layer 503 and output layer 505,
This is a multilayer neural network in which the number of units in the middle layer 504 is smaller than that. By making the hourglass network learn the identity mapping of the input pattern, the structure of the example sentence is reflected in the connection weights between the units of the hourglass network. The neural network analysis unit 104 is a means for analyzing the connection weights between units of the hourglass network that has been trained, and extracting relationships between elements constituting an example sentence from there.

【0006】[0006]

【作用】入力として例文の集合101が与えられると、
入力パターン生成部102においてこれをニューラルネ
ットワークが直接扱える数値パターンの集合に変換する
。次に、これを学習用パターンとして、恒等写像学習ニ
ューラルネットワーク部103において砂時計型ニュー
ラルネットワークに学習用パターンの恒等写像を学習さ
せる。砂時計型ネットワークは中間層のユニット数が入
力層,出力層のユニット数よりも少ないので、恒等写像
を学習させることにより、中間層で情報圧縮を行うしく
みが形成され、学習用パターンに内在する構造が結合重
みに反映される。学習終了後、ニューラルネットワーク
解析部104において砂時計型ネットワークの出力層と
中間層のユニット間の結合重みを解析し、パターンを構
成する要素間の従属,独立関係を発見する。出力層内の
ユニットについて、中間層内の同一のユニットから重い
結合を受けているユニット同士には従属関係を、そうで
ないユニット同士には独立関係を結論づける。この従属
,独立関係を言語の構造として抽出し、抽出結果105
とする。
[Operation] When a set of example sentences 101 is given as input,
The input pattern generation unit 102 converts this into a set of numerical patterns that can be directly handled by the neural network. Next, using this as a learning pattern, the identity mapping learning neural network unit 103 causes an hourglass neural network to learn the identity mapping of the learning pattern. In an hourglass network, the number of units in the middle layer is smaller than the number of units in the input and output layers, so by learning the identity mapping, a mechanism for compressing information in the middle layer is formed, which is inherent in the learning pattern. The structure is reflected in the connection weights. After the learning is completed, the neural network analysis unit 104 analyzes the connection weights between the units of the output layer and the intermediate layer of the hourglass network, and discovers the dependence and independence relationships between the elements constituting the pattern. Regarding units in the output layer, a dependent relationship is concluded between units that are heavily coupled from the same unit in the intermediate layer, and an independent relationship is concluded between units that are not. This dependency/independence relationship is extracted as a language structure, and the extraction result 105
shall be.

【0007】また、この方法は記号処理だけではなく信
号処理にも適用できる。例文の集合101の代わりに信
号の標本の集合が与えられると、入力パターン生成部1
02でこれをニューラルネットワークで扱うのに適した
数値パターンに変換する。これを学習用パターンとして
、恒等写像学習ニューラルネットワーク部103で学習
用パターンの恒等写像を学習する。その後、ニューラル
ネットワーク解析部104で砂時計型ネットワークの結
合重みを解析し、そこから信号の成分間の従属、独立関
係を抽出し、抽出結果105とする。
Furthermore, this method can be applied not only to symbol processing but also to signal processing. When a set of signal samples is given instead of the set of example sentences 101, the input pattern generation unit 1
In step 02, this is converted into a numerical pattern suitable for handling by a neural network. Using this as a learning pattern, the identity mapping learning neural network unit 103 learns the identity mapping of the learning pattern. Thereafter, the neural network analysis unit 104 analyzes the connection weights of the hourglass network, extracts dependence and independence relationships between signal components from the connection weights, and extracts them as extraction results 105.

【0008】[0008]

【実施例】多層ニューラルネットワークは図2に示すよ
うに、入力層202,いくつかの中間層203,出力層
204が順に結合されて構成される。各層は、入力層側
の隣接する層(前段の層)から送られてきた信号を入力
とし、これに変換を加え、出力層側の隣接する層(次段
の層)へ出力する。ただし、入力層は外部からの信号を
入力とし、変換を加えずに次段の層へ出力する。出力層
は前段の層からの信号を入力とし、変換を加え、外部へ
出力する。外部から入力層へ入力された信号はネットワ
ークの中を常に入力層側から出力層側へ伝えられ、出力
層側から入力層側へ逆に伝えられることはない。各層は
簡単な計算を行うユニットで構成される。入力層を構成
するユニットを入力ユニット,出力層を構成するユニッ
トを出力ユニット,中間層を構成するユニットを中間ユ
ニットと呼ぶことにする。
DESCRIPTION OF THE PREFERRED EMBODIMENTS As shown in FIG. 2, a multilayer neural network is constructed by sequentially connecting an input layer 202, some intermediate layers 203, and an output layer 204. Each layer inputs a signal sent from an adjacent layer on the input layer side (previous layer), transforms it, and outputs it to an adjacent layer on the output layer side (next layer). However, the input layer receives signals from the outside and outputs them to the next layer without any conversion. The output layer receives the signal from the previous layer, transforms it, and outputs it to the outside. Signals input from the outside to the input layer are always transmitted through the network from the input layer side to the output layer side, and are never transmitted from the output layer side to the input layer side. Each layer consists of units that perform simple calculations. The units that make up the input layer will be called input units, the units that make up the output layer will be called output units, and the units that make up the intermediate layer will be called intermediate units.

【0009】中間ユニット,出力ユニットは図3に示す
ような多入力一出力のユニットである。各ユニットは数
1で与えられる入出力特性を持つ。
The intermediate unit and the output unit are multi-input and one-output units as shown in FIG. Each unit has input/output characteristics given by equation 1.

【0010】0010

【数1】       oi=f(neti)         
                         
       …(数1)   oi はユニットiの出力、fは出力関数である。 neti はユニットiの入力の重み付き総和であり、
数2で与えられる。
[Formula 1] oi=f(neti)

...(Equation 1) oi is the output of unit i, and f is the output function. neti is the weighted sum of the inputs of unit i,
It is given by the number 2.

【0011】[0011]

【数2】[Math 2]

【0012】ここで、oj は前段の層内のユニットj
の出力、wijはユニットjからユニットiへの結合重
み、θi はユニットiが持つバイアスである。各ユニ
ットは隣接する層内のユニットとの間に結合を持ち、同
一層内のユニット間には結合はない。出力関数fは通常
、数3で与えられるシグモイド関数が使われる。図4に
シグモイド関数の入出力特性を示す。
Here, oj is the unit j in the previous layer.
, wij is the connection weight from unit j to unit i, and θi is the bias that unit i has. Each unit has bonds between units in adjacent layers, and there are no bonds between units in the same layer. As the output function f, a sigmoid function given by Equation 3 is usually used. Figure 4 shows the input/output characteristics of the sigmoid function.

【0013】[0013]

【数3】       f(x)=1/(1+exp(−x)) 
                         
    …(数3)   入力ユニットは1入力1出力のユニットであり、入
力値をそのまま出力値とする。
[Equation 3] f(x)=1/(1+exp(-x))

...(Math. 3) The input unit is a unit with one input and one output, and the input value is used as the output value.

【0014】砂時計型ニューラルネットワークは図5に
示すように、入力層503と出力層505のユニット数
が同じで、中間層504のユニット数がそれより少ない
多層ネットワークである。この実施例では中間層を1層
持つ、3層の砂時計型ネットワークを用いたが、さらに
多くの中間層を持つ砂時計型ネットワークも可能である
。この砂時計型ネットワークに恒等写像を学習させる。 恒等写像とは、出力値が入力値に等しい写像である。砂
時計型ネットワークに恒等写像を学習させると、中間層
で情報圧縮が行われるためのしくみが形成され、その結
果、パターンに内在する構造が結合重みに反映される。
As shown in FIG. 5, the hourglass neural network is a multilayer network in which the input layer 503 and output layer 505 have the same number of units, and the intermediate layer 504 has a smaller number of units. In this embodiment, a three-layer hourglass network with one intermediate layer is used, but an hourglass network with more intermediate layers is also possible. Let this hourglass network learn identity mapping. An identity mapping is a mapping whose output value is equal to the input value. When an hourglass network learns the identity mapping, a mechanism is created for information compression in the middle layer, and as a result, the structure inherent in the pattern is reflected in the connection weights.

【0015】ニューラルネットワークは結合重みを調節
することによって入出力間の写像を学習する。ここでは
バックプロパゲーション法という学習アルゴリズムをも
ちいて結合重みの調節を行う。バックプロパゲーション
法は、ニューラルネットワークに入力パターンとそれに
対して出力すべきパターン(これを教師パターンと呼ぶ
)の組を提示し、ニューラルネットワークが実際に出力
したパターンと教師パターンの差に応じて結合重みを修
正するという教師付き学習である。ユニットjからユニ
ットiへの結合重みwijの修正量Δwijは数4で与
えられる。
Neural networks learn mappings between inputs and outputs by adjusting connection weights. Here, a learning algorithm called backpropagation method is used to adjust the connection weights. The backpropagation method presents a neural network with a set of an input pattern and a pattern to be output (this is called a teacher pattern), and combines them according to the difference between the pattern actually output by the neural network and the teacher pattern. This is supervised learning that modifies the weights. The modification amount Δwij of the connection weight wij from unit j to unit i is given by Equation 4.

【0016】[0016]

【数4】         Δwij=−ηδioj      
                         
      …(数4)   ηは学習定数と呼ばれる定数、oj はユニットj
の出力である。δi はユニットiの誤差信号で、その
求め方はユニットiが出力ユニットか中間ユニットかに
よって違う。ユニットiが出力ユニットである場合はδ
i は数5によって与えられる。
[Formula 4] Δwij=−ηδioj

...(Equation 4) η is a constant called learning constant, oj is unit j
This is the output of δi is the error signal of unit i, and how to obtain it differs depending on whether unit i is an output unit or an intermediate unit. δ if unit i is an output unit
i is given by equation 5.

【0017】[0017]

【数5】         δi=(oi−ti)f′(neti
)                        
   …(数5)   ここで、ti はユニットiに対する教師パターン
である。また、f′は関数fの微分係数である。ユニッ
トiが中間ユニットである場合は、δi は数6で与え
られる。
[Formula 5] δi=(oi-ti)f'(neti
)
...(Equation 5) Here, ti is the teacher pattern for unit i. Further, f' is a differential coefficient of the function f. If unit i is an intermediate unit, δi is given by Equation 6.

【0018】[0018]

【数6】[Math 6]

【0019】ユニットjはユニットiの次段の層内のユ
ニットである。このように、誤差信号は出力層側から入
力層側へ伝えられる。数4にしたがって、入力パターン
とそれに対する教師パターンを提示しては結合重みを修
正するという操作を繰り返し行い、写像を学習する。図
6にバックプロパゲーション法のPAD図を示す。
Unit j is a unit in the next layer to unit i. In this way, the error signal is transmitted from the output layer side to the input layer side. According to Equation 4, the mapping is learned by repeatedly presenting an input pattern and a teacher pattern corresponding to the input pattern and modifying the connection weights. FIG. 6 shows a PAD diagram of the backpropagation method.

【0020】恒等写像は、入力と同じ値を出力とするの
で、教師パターンを用意するために入力パターン以外の
情報をなんら必要としない。したがって、事前に知識が
得られていない、全くの未知のパターンに対しても容易
に適用できるという利点を持つ。
Since the identity mapping outputs the same value as the input, no information other than the input pattern is required to prepare the teacher pattern. Therefore, it has the advantage that it can be easily applied to completely unknown patterns for which no prior knowledge has been obtained.

【0021】次に、さらに具体的な実施例を用いて説明
する。
Next, a more specific example will be explained.

【0022】実施例1 実施例として記号列の構造抽出を行う。用いた記号列は
、4通りの主語(I,YOU,HE,SHE),1つの
動詞(LIKE),4通りの目的語(ME,YOU,H
IM,HER)から作られる3単語の英文である。なお
、I  LIKEME.のような文は自然な英語ではな
いかも知れないが、ここでは許しているので、主語と目
的語の組み合わせから16個の文ができる。
Example 1 As an example, the structure of a symbol string will be extracted. The symbol strings used were four types of subjects (I, YOU, HE, SHE), one verb (LIKE), and four types of objects (ME, YOU, H).
This is a three-word English sentence made from IM, HER). In addition, I LIKEME. Sentences like ``may not be natural English, but they are allowed here, so 16 sentences can be made from the combination of subject and object.

【0023】ニューラルネットワークの構造を図7に示
す。記号列に用いられる記号の数をS、記号列の長さを
Lとしたとき、入力層はS×L個のユニットを持ち、各
ユニットは、それぞれの記号と、記号列中の位置を表し
ている。この例では、1つの単語を1つの記号とみなし
、用いる単語は、I,YOU,HE,SHE,ME,H
IM,HER,LIKE,LIKESの9種類に、空白
を加えた10種類とし、英文は3単語からなるので、入
力ユニット数は30となる。例えば、このネットワーク
に  I  LIKE  YOU.  という文を入力
する場合は、第1列のI,第2列のLIKE,第3列の
YOUに対応するユニットに値1を、その他のユニット
に値0を入力する。出力層の構成は入力層のそれと同じ
である。中間層は1層とする。各中間ユニットはすべて
の入力ユニット、すべての出力ユニットとの間に結合を
持つ。
The structure of the neural network is shown in FIG. When the number of symbols used in a symbol string is S and the length of the symbol string is L, the input layer has S×L units, and each unit represents each symbol and its position in the symbol string. ing. In this example, one word is considered one symbol, and the words used are I, YOU, HE, SHE, ME, H.
There are 10 types, including 9 types: IM, HER, LIKE, and LIKES, plus blanks, and an English sentence consists of 3 words, so the number of input units is 30. For example, in this network I LIKE YOU. When inputting the sentence, enter the value 1 in the units corresponding to I in the first column, LIKE in the second column, and YOU in the third column, and enter the value 0 in the other units. The configuration of the output layer is the same as that of the input layer. The middle layer is one layer. Each intermediate unit has connections with all input units and all output units.

【0024】学習の結果、恒等写像が実現されているか
どうかの判定は最大学習誤差を用いる。最大学習誤差 
maxerr は数7で定義される。
The maximum learning error is used to determine whether the identity mapping is realized as a result of learning. maximum learning error
maxerr is defined by equation 7.

【0025】[0025]

【数7】[Math 7]

【0026】ここで、oipはパターンpを入力したと
きの出力ユニットiの出力値、tipは入力パターンp
に対する出力ユニットiの教師パターンである。max
err<0.1であれば恒等写像が実現できたとみなす
Here, oip is the output value of output unit i when pattern p is input, and tip is input pattern p.
This is the teacher pattern of the output unit i for the output unit i. max
If err<0.1, it is assumed that the identity mapping has been realized.

【0027】中間ユニットの数を決めるために、種々の
中間ユニット数について、言語の構造が適切に獲得され
るかを調べた。言語の構造が獲得されているかどうかの
判定は次のようにして行った。16個の英文のうち、1
5個を用いて恒等写像を学習させる。こうして学習した
ネットワークに、学習に用いなかった1文を入力し、未
学習パターンについても恒等写像が実現されれば言語の
構造が獲得されているとする。16個の文はみな同じ構
造を持っていると考えられるので、15個の文について
の構造が獲得されていれば、その構造は未学習の1文に
も適用できるはずである。
In order to determine the number of intermediate units, we investigated whether the structure of the language could be properly acquired for various numbers of intermediate units. We determined whether the language structure had been acquired as follows. 1 out of 16 English sentences
Learn identity mapping using 5 pieces. It is assumed that the structure of the language has been acquired if one sentence that was not used for learning is input to the network thus learned, and the identity mapping is realized even for the unlearned pattern. Since all 16 sentences are considered to have the same structure, if the structure of the 15 sentences has been acquired, the structure should be applicable to one unlearned sentence.

【0028】また、赤池の情報量規準AICを導入する
。AICは数8で定義される。
Furthermore, Akaike's information criterion AIC is introduced. AIC is defined by equation 8.

【0029】[0029]

【数8】         AIC=NlogeE+2m    
                         
    …(数8)   ここで、Nは学習パターン数、mは中間ユニット数
である。Eは誤差の二乗和で、数9で与えられる。
[Formula 8] AIC=NlogeE+2m

...(Equation 8) Here, N is the number of learning patterns, and m is the number of intermediate units. E is the sum of squares of errors and is given by Equation 9.

【0030】[0030]

【数9】[Math. 9]

【0031】ただし、Mは出力ユニット数である。AI
Cは、与えられた標本点からもとの関数の近似関数を求
める問題において、近似関数のパラメータの数が適当で
あるかどうかの評価に用いられる量であり、その場合、
Nは標本点の数、mはパラメータの数である。理想的な
場合においては、パラメータ数の増加にともなってAI
Cの値は減少し、ある段階で最小となり、その後はわず
かに増大する傾向を示す。そこで、AICの値が最小と
なるパラメータ数を最適とする。Nを学習パターン数、
mを中間ユニット数に置き換えて、AICをニューラル
ネットワークの問題に導入するのは多少無理があるかも
知れないが、参考として取り入れた。なお、AICにつ
いては岩波講座ソフトウェア科学9「数値処理プログラ
ミング」p.169−p.171,p.176−p.1
78を参考にした。
[0031] However, M is the number of output units. AI
C is a quantity used to evaluate whether the number of parameters of the approximation function is appropriate in the problem of finding an approximation function of the original function from given sample points; in that case,
N is the number of sample points, and m is the number of parameters. In the ideal case, as the number of parameters increases, the AI
The value of C decreases, reaches a minimum at a certain stage, and then shows a tendency to increase slightly. Therefore, the number of parameters for which the AIC value is the minimum is determined to be the optimum number. N is the number of learning patterns,
Although it may be a bit unreasonable to replace m with the number of intermediate units and introduce AIC into neural network problems, we have incorporated it as a reference. Regarding AIC, please refer to Iwanami Lecture Software Science 9 "Numerical Processing Programming" p. 169-p. 171, p. 176-p. 1
78 was used as a reference.

【0032】中間ユニット数が3から9のそれぞれの場
合について、ネットワークに恒等写像を学習させる実験
を、結合重みの初期値を変えて20回行い、未学習パタ
ーンについての最大誤差、ならびに、AICによる比較
を行った。学習定数は0.5、1回の学習における、結
合重み修正の繰り返し回数は学習用パターン1個につき
100000回ずつ、結合重みの初期値は(−1,1)
の一様乱数で与えた。表1に中間ユニット数が3から9
のそれぞれの場合について、20回の学習のうち、学習
用データについて恒等写像を実現できた回数、そのうち
、さらに未学習データについても恒等写像を実現できた
回数を示す。また、図8に中間ユニット数とAICの関
係を示す。図8には学習用データについて恒等写像を実
現できたときのAICの平均値をプロットしてある。
[0032] For each case where the number of intermediate units is from 3 to 9, an experiment in which the network learns the identity mapping is performed 20 times by changing the initial value of the connection weight, and the maximum error for the unlearned pattern and the AIC A comparison was made. The learning constant is 0.5, the number of repetitions of connection weight correction in one learning is 100,000 times for each learning pattern, and the initial value of connection weights is (-1, 1).
given as a uniform random number. Table 1 shows the number of intermediate units from 3 to 9.
For each case, the number of times the identity mapping was realized for the learning data out of 20 learnings and the number of times the identity mapping was realized for the unlearned data are also shown. Further, FIG. 8 shows the relationship between the number of intermediate units and AIC. FIG. 8 plots the average value of AIC when the identity mapping can be realized for the learning data.

【0033】[0033]

【表1】[Table 1]

【0034】中間ユニットが3個の場合は、20回の学
習のうちのいずれも恒等写像を正しく学習できなかった
。中間ユニットが4個以上の場合は、中間ユニットが多
いほど学習用パターンに対する恒等写像は実現されやす
いが、未学習パターンにたいしてはむしろ実現されにく
くなる傾向がある。この結果から、言語の構造を推定す
るには、中間ユニット数は4が適当と言える。なお、A
ICの値を見ると中間ユニット数4の場合に最小となっ
てはいないが、それほど大きくずれてはおらず、中間ユ
ニット数の増加にともなって減少し、中間ユニットを多
くしすぎると増加するという、大まかな傾向は合ってい
るので、中間ユニット数を決定する際の参考程度にはな
る。
When there were three intermediate units, the identity mapping could not be learned correctly in any of the 20 learnings. When there are four or more intermediate units, the more intermediate units there are, the easier it is to realize identity mapping for learning patterns, but it tends to be rather difficult to realize identity mapping for unlearned patterns. From this result, it can be said that four intermediate units is appropriate for estimating the structure of a language. In addition, A
Looking at the value of IC, it is not the minimum when the number of intermediate units is 4, but it is not so far off, it decreases as the number of intermediate units increases, and increases when the number of intermediate units is increased. Since the general trend is correct, it can be used as a reference when determining the number of intermediate units.

【0035】中間ユニット数4の場合の、入力パターン
に対する中間層の発火パターンの一例を表2に示す。ま
た、そのときの入力ユニットと中間ユニットの間の結合
重みを表3に、中間ユニットと出力ユニットの間の結合
重みを表4に示す。表3では、絶対値が1未満の結合重
みは中間ユニットの出力に影響を与えないとして省略し
た。同様に、表4では、絶対値が2未満の結合重みは省
略した。表3,表4において、入力ユニット、および、
出力ユニット番号1から4は記号列の第1列、ユニット
番号18,19は第2列、ユニット番号22から27は
第3列に対応するユニットである。また、すべてのパタ
ーンを通じて、1度も発火しない入力,出力ユニットは
省略した。
Table 2 shows an example of the firing pattern of the intermediate layer with respect to the input pattern when the number of intermediate units is 4. Further, Table 3 shows the connection weights between the input unit and the intermediate unit at that time, and Table 4 shows the connection weights between the intermediate unit and the output unit. In Table 3, connection weights whose absolute value is less than 1 are omitted because they do not affect the output of the intermediate unit. Similarly, in Table 4, connection weights with absolute values less than 2 are omitted. In Tables 3 and 4, the input unit and
Output unit numbers 1 to 4 correspond to the first column of the symbol string, unit numbers 18 and 19 correspond to the second column, and unit numbers 22 to 27 correspond to the third column. In addition, input and output units that never fire were omitted throughout all the patterns.

【0036】[0036]

【表2】[Table 2]

【0037】[0037]

【表3】[Table 3]

【0038】[0038]

【表4】[Table 4]

【0039】中間ユニットと出力ユニットの間の結合重
みから、出力ユニット間には次のような従属,独立関係
があることがわかる。 ・第1,第2列は中間ユニット1,4の影響を受けてい
る。第3列は中間ユニット2,3の影響を受けている。 第1,第2列と第3列の両方に影響を与える中間ユニッ
トはないので、第1,第2列と第3列は独立である。 ・第1列と第2列はともに中間ユニット1の影響を受け
ているので、第1列と第2列は従属である。
From the connection weight between the intermediate unit and the output unit, it can be seen that there is the following dependent/independent relationship between the output units. - The first and second columns are influenced by intermediate units 1 and 4. The third column is influenced by intermediate units 2,3. Since there is no intermediate unit that affects both the first, second and third columns, the first, second and third columns are independent. - Since the first and second columns are both influenced by the intermediate unit 1, the first and second columns are dependent.

【0040】一般に、中間ユニットが多すぎると中間層
で情報圧縮が十分に行われず、したがってパターンの冗
長性が残り、本質的な構造が獲得されない。反対に少な
すぎると、必要な情報が中間層に表現できず、恒等写像
が実現されない。したがって、中間ユニット数は、学習
用パターンに対する出力誤差が大きくならない範囲でな
るべく少なく選ぶ。
In general, if there are too many intermediate units, information compression will not be sufficient in the intermediate layer, and therefore pattern redundancy will remain and the essential structure will not be obtained. On the other hand, if there are too few, the necessary information cannot be expressed in the intermediate layer, and the identity mapping will not be realized. Therefore, the number of intermediate units is selected to be as small as possible without increasing the output error with respect to the learning pattern.

【0041】実施例2 次に、16個の文について恒等写像を実現するには、い
くつの例文が学習に必要か、言いかえれば、言語の構造
を推定するにはいくつの例文が必要かを調べた。実施例
1で中間ユニット数は4が適当であるとの結果を得たの
で、ここでは中間ユニット数は4とし、種々の学習用パ
ターン数について、実施例1と同様に20とおりの結合
重みの初期値から学習を行った。
Example 2 Next, how many example sentences are needed for learning to realize the identity mapping for 16 sentences, or in other words, how many example sentences are needed to estimate the structure of the language? I looked into it. In Example 1, we obtained a result that 4 is the appropriate number of intermediate units, so here we set the number of intermediate units to 4, and set 20 combination weights as in Example 1 for various numbers of learning patterns. Learning was performed from initial values.

【0042】この結果を表5に示す。表中の各列はそれ
ぞれ、学習用パターンの数、20とおりのうち、学習用
データについて恒等写像が実現できた回数、そのうちさ
らに未学習データについても恒等写像が実現できた回数
を表す。この結果、12個の例文からでも言語の構造が
獲得できた。
The results are shown in Table 5. Each column in the table represents the number of learning patterns, the number of times the identity mapping was realized for the learning data out of 20 patterns, and the number of times the identity mapping was realized for the unlearned data as well. As a result, the structure of the language could be acquired even from 12 example sentences.

【0043】[0043]

【表5】[Table 5]

【0044】ある言語の構造を学習した砂時計型ネット
ワークに未知の文を入力すると、学習した言語の構造に
その文が合っていれば、砂時計型ネットワークは入力と
同じ文を出力できる。文が構造に合っていなければ、入
力と同じ文を出力できない。したがって、入力された文
が、学習した構造に合っているかどうかの判定器として
使える。また、砂時計型ネットワークの中間ユニットの
発火パターンを見れば、入力文が砂時計型ネットワーク
で、どのように処理されたかわかるので、構文解析に役
立てることができる。
When an unknown sentence is input to an hourglass network that has learned the structure of a certain language, if the sentence matches the structure of the learned language, the hourglass network can output the same sentence as the input. If the sentence does not match the structure, it will not be possible to output the same sentence as the input. Therefore, it can be used as a judge of whether the input sentence matches the learned structure. Furthermore, by looking at the firing patterns of the intermediate units of the hourglass network, we can see how the input sentence was processed by the hourglass network, which can be useful for syntactic analysis.

【0045】[0045]

【発明の効果】事前に文法が得られていない未知の言語
に対してニューラルネットワークを用いて例文から言語
の文法を推定でき、構文解析に利用できる。また、記号
処理だけでなく信号処理においても、容易に特徴が発見
できないような信号に対してニューラルネットワークを
用いてその特徴を抽出し、信号の特性理解に役立てるこ
とができる。
[Effects of the Invention] For unknown languages whose grammars have not been obtained in advance, the grammar of the language can be estimated from example sentences using a neural network, and can be used for syntactic analysis. In addition, not only in symbol processing but also in signal processing, neural networks can be used to extract features of signals whose features cannot be easily discovered, and this can be used to help understand the characteristics of the signal.

【図面の簡単な説明】[Brief explanation of the drawing]

【図1】構造抽出のフローチャート。FIG. 1 is a flowchart of structure extraction.

【図2】多層ニューラルネットワーク。[Figure 2] Multilayer neural network.

【図3】ニューラルネットワークを構成するユニット。FIG. 3: Units configuring a neural network.

【図4】シグモイド関数の入出力特性。[Figure 4] Input-output characteristics of a sigmoid function.

【図5】砂時計型ネットワーク。FIG. 5: Hourglass network.

【図6】バックプロパゲーション法のPAD図。FIG. 6 is a PAD diagram of the backpropagation method.

【図7】実施例で用いたニューラルネットワークの構成
FIG. 7 shows the configuration of the neural network used in the example.

【図8】中間ユニット数とAICの関係。FIG. 8 shows the relationship between the number of intermediate units and AIC.

【符号の説明】[Explanation of symbols]

101…構造抽出に用いる例文の集合、102…入力パ
ターン生成部、103…恒等写像学習ニューラルネット
ワーク部、104…ニューラルネットワーク解析部、1
05…構造抽出結果、701…入力ユニットを行列状に
配置した入力層、702…入力,出力層よりユニット数
が少ない中間層、703…入力層と同じ構造の出力層。
101...Set of example sentences used for structure extraction, 102...Input pattern generation section, 103...Identity mapping learning neural network section, 104...Neural network analysis section, 1
05...Structure extraction result, 701...Input layer in which input units are arranged in a matrix, 702...Intermediate layer with fewer units than the input and output layers, 703...Output layer with the same structure as the input layer.

Claims (8)

【特許請求の範囲】[Claims] 【請求項1】あるパターン集合に属するパターンの標本
を入力とし、多入力一出力の簡単な計算を行うユニット
を重み付き結合を介して多数結合してなるニューラルネ
ットワークを用いてその標本パターンの恒等写像を学習
する処理と、恒等写像を学習したニューラルネットワー
クの結合重みを解析してパターン集合に属するパターン
の構成要素間の独立,従属関係を推定する処理からなる
ことを特徴とするニューラルネットワークによる構造抽
出方法。
Claim 1: Using a sample of a pattern belonging to a certain pattern set as input, a neural network consisting of a large number of units that perform simple calculations of multiple inputs and one output are connected via weighted combinations, and the sample pattern is constant. A neural network characterized by comprising a process of learning an identity mapping, and a process of estimating independence and dependency relationships between constituent elements of patterns belonging to a pattern set by analyzing the connection weights of the neural network that has learned the identity mapping. structure extraction method.
【請求項2】請求項1記載の構造抽出方法において、対
象となるパターン集合はある言語に属する記号列の集合
であり、与えられた例文から、記号列を構成する記号間
の独立,従属関係を推定することを特徴とするニューラ
ルネットワークによる構造抽出方法。
2. In the structure extraction method according to claim 1, the target pattern set is a set of symbol strings belonging to a certain language, and from a given example sentence, the independence and dependence relationships between the symbols constituting the symbol string are determined. A structure extraction method using a neural network that is characterized by estimating.
【請求項3】請求項1記載の構造抽出方法において、対
象となるパターン集合は信号の集合であり、与えられた
信号の標本から、信号の成分間の独立,従属関係を推定
することを特徴とするニューラルネットワークによる構
造抽出方法。
3. The structure extraction method according to claim 1, wherein the target pattern set is a signal set, and independence and dependence relationships between signal components are estimated from a given signal sample. A structure extraction method using a neural network.
【請求項4】請求項1記載の構造抽出方法において、恒
等写像を学習するニューラルネットワークは、入力層,
中間層,出力層と呼ばれる、ユニットの集合を順に結合
してなり、入力層に与えられた信号が入力層側から出力
層側への一方向のみに伝達される多層ニューラルネット
ワークであり、入力層と出力層のユニット数が等しく、
中間層のユニット数がそれより少ない砂時計型多層ニュ
ーラルネットワークであることを特徴とするニューラル
ネットワークによる構造抽出方法。
4. In the structure extraction method according to claim 1, the neural network for learning the identity mapping comprises an input layer,
It is a multilayer neural network that consists of a set of units called a middle layer and an output layer connected in order, and a signal given to the input layer is transmitted only in one direction from the input layer side to the output layer side. and the number of units in the output layer is equal,
A structure extraction method using a neural network characterized by an hourglass-shaped multilayer neural network in which the number of units in the middle layer is smaller than that.
【請求項5】請求項1記載の構造抽出方法において、標
本パターンの恒等写像を学習したニューラルネットワー
クの結合重みを解析する処理は、中間層と出力層の間の
結合重みを解析し、出力層内のユニットについて、中間
層内の同一のユニットから重い結合を受けているユニッ
ト同士には従属関係を、そうでないユニット同士には独
立関係を結論づけることを特徴とするニューラルネット
ワークによる構造抽出方法。
5. In the structure extraction method according to claim 1, the process of analyzing the connection weights of the neural network that has learned the identity mapping of the sample pattern includes analyzing the connection weights between the intermediate layer and the output layer, and analyzing the connection weights between the intermediate layer and the output layer. A structure extraction method using a neural network, which is characterized in that, regarding units in a layer, a dependent relationship is concluded between units that are heavily connected to each other from the same unit in an intermediate layer, and an independent relationship is concluded between units that are not.
【請求項6】請求項1記載の構造抽出方法において、標
本パターンの恒等写像を学習するニューラルネットワー
クの中間層のユニット数は、赤池の情報量規準AICを
参考にして決定できることを特徴とするニューラルネッ
トワークによる構造抽出方法。
6. The structure extraction method according to claim 1, wherein the number of units in the intermediate layer of the neural network that learns the identity mapping of the sample pattern can be determined with reference to Akaike's information criterion AIC. Structure extraction method using neural network.
【請求項7】請求項1記載の構造抽出方法において、入
力パターンの恒等写像を学習するニューラルネットワー
クの中間層のユニット数は、すべての標本パターンにつ
いて恒等写像が実現できる範囲でなるべく少なく設定す
ることを特徴とするニューラルネットワークによる構造
抽出方法。
7. In the structure extraction method according to claim 1, the number of units in the intermediate layer of the neural network that learns the identity mapping of the input pattern is set as small as possible within a range that can realize the identity mapping for all sample patterns. A structure extraction method using a neural network.
【請求項8】請求項2記載の記号列を対象とする構造抽
出方法において、恒等写像を学習するニューラルネット
ワークの入力層はユニットを行列状に配置し、第i行第
j列に位置するユニットは、記号iが記号列中の位置j
に出現することを意味し、入力層のこの形状により、記
号列をニューラルネットワークに入力する際に、記号列
に現れ得る全記号と、記号列の最大長以外の情報を必要
としないことを特徴とするニューラルネットワークによ
る構造抽出方法。
8. In the structure extraction method for symbol strings according to claim 2, the input layer of the neural network for learning the identity mapping has units arranged in a matrix and located in the i-th row and the j-th column. The unit is the symbol i at position j in the symbol string
Due to this shape of the input layer, inputting a symbol string into the neural network requires no information other than all the symbols that can appear in the symbol string and the maximum length of the symbol string. A structure extraction method using a neural network.
JP3143014A 1991-06-14 1991-06-14 Structure extracting method by neural network Pending JPH04367062A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3143014A JPH04367062A (en) 1991-06-14 1991-06-14 Structure extracting method by neural network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3143014A JPH04367062A (en) 1991-06-14 1991-06-14 Structure extracting method by neural network

Publications (1)

Publication Number Publication Date
JPH04367062A true JPH04367062A (en) 1992-12-18

Family

ID=15328938

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3143014A Pending JPH04367062A (en) 1991-06-14 1991-06-14 Structure extracting method by neural network

Country Status (1)

Country Link
JP (1) JPH04367062A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140098136A (en) 2011-11-18 2014-08-07 신닛테츠스미킨 카부시키카이샤 Titanium material for solid polymer fuel cell separators, method for producing same, and solid polymer fuel cell using same
KR20170003640A (en) 2014-06-16 2017-01-09 신닛테츠스미킨 카부시키카이샤 Titanium material for separator of polymer electrolyte fuel cell, separator comprising same, and polymer electrolyte fuel cell equipped therewith

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140098136A (en) 2011-11-18 2014-08-07 신닛테츠스미킨 카부시키카이샤 Titanium material for solid polymer fuel cell separators, method for producing same, and solid polymer fuel cell using same
KR20170003640A (en) 2014-06-16 2017-01-09 신닛테츠스미킨 카부시키카이샤 Titanium material for separator of polymer electrolyte fuel cell, separator comprising same, and polymer electrolyte fuel cell equipped therewith

Similar Documents

Publication Publication Date Title
CN110895932B (en) Multi-language voice recognition method based on language type and voice content collaborative classification
Rohde et al. Language acquisition in the absence of explicit negative evidence: How important is starting small?
US6601049B1 (en) Self-adjusting multi-layer neural network architectures and methods therefor
US20220076100A1 (en) Multi-Dimensional Deep Neural Network
Haug et al. Neural multi-step reasoning for question answering on semi-structured tables
Nagaraj et al. Kannada to English Machine Translation Using Deep Neural Network.
CN113254604B (en) Reference specification-based professional text generation method and device
Lakretz et al. Can transformers process recursive nested constructions, like humans?
KR100306848B1 (en) A selective attention method using neural networks
Caucheteux et al. Long-range and hierarchical language predictions in brains and algorithms
US20160275394A1 (en) Arithmetic operation apparatus, arithmetic operation method, and computer program product
CN115374270A (en) Legal text abstract generation method based on graph neural network
Lakretz et al. Causal transformers perform below chance on recursive nested constructions, unlike humans
Kazakova et al. Analysis of natural language processing technology: Modern problems and approaches
Riou et al. Online adaptation of an attention-based neural network for natural language generation
JPH04367062A (en) Structure extracting method by neural network
Mohith et al. Visual world to an audible experience: visual assistance for the blind and visually impaired
CN116150311A (en) Training method of text matching model, intention recognition method and device
CN114492464A (en) Dialog generation method and system based on bidirectional asynchronous sequence
Zha et al. Gated convolutional bidirectional attention-based model for off-topic spoken response detection
Ziai Compositional pre-training for neural semantic parsing
Jing et al. An approach to oral English assessment based on intelligent computing model
Sangani et al. Comparing deep sentiment models using quantified local explanations
Xue et al. BiosERC: Integrating Biography Speakers Supported by LLMs for ERC Tasks
Mohammad et al. Text augmentation-based model for emotion recognition using transformers