JP7316771B2 - Learning device, parameter creation method, neural network, and information processing device using the same - Google Patents
Learning device, parameter creation method, neural network, and information processing device using the same Download PDFInfo
- Publication number
- JP7316771B2 JP7316771B2 JP2018170893A JP2018170893A JP7316771B2 JP 7316771 B2 JP7316771 B2 JP 7316771B2 JP 2018170893 A JP2018170893 A JP 2018170893A JP 2018170893 A JP2018170893 A JP 2018170893A JP 7316771 B2 JP7316771 B2 JP 7316771B2
- Authority
- JP
- Japan
- Prior art keywords
- learning
- data
- input data
- neural network
- different outputs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、学習装置、パラメータの作成方法、ニューラルネットワーク及びこれを用いた情報処理装置に関し、より詳細には、例えば画像認識技術に関する。 The present invention relates to a learning device, a method of creating parameters, a neural network, and an information processing device using the same, and more particularly to image recognition technology, for example.
学習データを用いて階層型ネットワークの学習を行うことで、入力データを識別する識別器を生成する方法が知られている。一方、階層型ネットワークの層数が増えるにつれ、いわゆる勾配消失問題(重み係数の更新に必要なデルタを逆伝播させる際にデルタが消失又は発散してしまう)が顕在化し、学習の進行に障害が生じうることが知られている。 A method of generating a discriminator for discriminating input data by performing hierarchical network learning using learning data is known. On the other hand, as the number of layers in a hierarchical network increases, the so-called vanishing gradient problem (deltas disappear or diverge when backpropagating the deltas needed to update the weighting coefficients) becomes apparent, impeding the progress of learning. known to occur.
このような問題に対処するための方法として、deep supervisionと呼ばれる、ネットワークの中間層においても誤差評価及び誤差逆伝播を行う方法(以下、サイドアウト学習と呼ぶ)が知られている(非特許文献1)。また、画像の特徴量を抽出するように階層型ネットワークの学習を行うことに加えて、特定の特徴が存在する場合に特定のニューロンが活動するように学習を行うことにより、特徴に応じた的確な特徴量抽出を可能とする方法も知られている(特許文献1)。 As a method for coping with such a problem, a method called deep supervision, in which error evaluation and error backpropagation are performed even in the middle layer of the network (hereinafter referred to as side-out learning), is known (non-patent literature 1). In addition to training the hierarchical network to extract the feature values of an image, we also learned to activate specific neurons when specific features are present. There is also known a method that enables feature quantity extraction (Patent Document 1).
しかしながら、非特許文献1の方法においては、中間層からの出力に対する誤差評価の精度が低くなり、好ましい最終学習結果が得られない可能性があることが見出された。 However, in the method of Non-Patent Document 1, it was found that the error evaluation accuracy for the output from the intermediate layer is low, and there is a possibility that a favorable final learning result cannot be obtained.
本発明は、ニューラルネットワークの学習をより効果的に行うことを目的とする。 SUMMARY OF THE INVENTION It is an object of the present invention to make neural network learning more effective.
本発明の目的を達成するために、例えば、本発明の学習装置は以下の構成を備える。すなわち、
画像の各画素の属性判定処理に用いられるニューラルネットワークの学習を行う学習装置であって、
単一の学習用入力データに対応する、ニューラルネットワークからの2以上の異なる出力のそれぞれについての教師データを設定する設定手段と、
前記学習用入力データを前記ニューラルネットワークに入力して得られる、前記2以上の異なる出力のそれぞれと、前記出力に対応する教師データと、の誤差に基づいて、前記ニューラルネットワークの学習を行う学習手段と、を備え、
前記2以上の異なる出力のそれぞれについての教師データは、前記単一の学習用入力データに対応する基本教師データに対するそれぞれ異なる変形処理又はフィルタ処理の結果を示し、前記基本教師データは、前記単一の学習用入力データが示す各画素の属性を示す画像データであることを特徴とする。
In order to achieve the object of the present invention, for example, the learning device of the present invention has the following configuration. i.e.
A learning device for learning a neural network used for attribute determination processing of each pixel of an image ,
setting means for setting teacher data for each of two or more different outputs from the neural network corresponding to a single input data for learning;
Learning means for learning the neural network based on the error between each of the two or more different outputs obtained by inputting the learning input data to the neural network and teacher data corresponding to the output. and
The training data for each of the two or more different outputs indicates the results of different deformation processing or filtering processing on the basic training data corresponding to the single learning input data, and the basic training data is the single learning input data. is image data indicating the attribute of each pixel indicated by the input data for learning .
ニューラルネットワークの学習をより効果的に行うことができる。 Neural network learning can be performed more effectively.
以下、本発明の実施形態について、フローチャートと図面とを参照しながら具体的に説明する。なお、以下の具体例は本発明に係る実施形態の一例ではあるが、本発明は以下の具体的形態に限定されるものではない。本発明は、学習データを用いた階層型ネットワーク(以下、ニューラルネットワーク又は単にネットワークと呼ぶことがある)の学習に適用することができ、階層型ネットワークの学習が行われるいかなる手法にも適用可能である。 Hereinafter, embodiments of the present invention will be specifically described with reference to flowcharts and drawings. In addition, although the following specific examples are examples of embodiments according to the present invention, the present invention is not limited to the following specific forms. INDUSTRIAL APPLICABILITY The present invention can be applied to learning a hierarchical network (hereinafter sometimes referred to as a neural network or simply a network) using learning data, and can be applied to any method for learning a hierarchical network. be.
図1は、実施形態1に係る学習装置100の機能構成の一例を示す。学習装置100は、階層型ネットワークの学習を行う。基本データ記憶部101は、学習に用いる基本学習データを保持する。学習データとは、ネットワークの学習に用いられる教師データ(以下、GTと呼ぶことがある)である。本実施形態においては、学習用入力データと、学習用入力データに対する判定結果を示す教師データ(学習データ)と、を用いてネットワークの学習が行われる。
FIG. 1 shows an example of the functional configuration of a
例えば、一実施形態においては、ネットワークを用いて画像の各画素についての属性判定(ラベリング)を行うことができる。すなわち、入力データとして画像データをネットワークに入力すると、入力データに対する判定処理の結果として、画像データの各画素の属性情報(ラベル)が得られる。例えば、画像の輪郭抽出を行う具体的な一例において、入力データに対する判定処理の結果としては、入力データに対応する輪郭パターン(輪郭であるか否かを示す属性情報を画素値として有する画像)が得られる。このように、一実施形態において、入力データに対する処理結果は、入力データに対応する(輪郭パターンのような)線画パターンでありうる。 For example, in one embodiment, a network can be used to perform attribute determination (labeling) for each pixel of an image. That is, when image data is input to the network as input data, attribute information (label) of each pixel of the image data is obtained as a result of determination processing on the input data. For example, in a specific example of extracting the contour of an image, as a result of determination processing for input data, a contour pattern (an image having attribute information indicating whether or not it is a contour as a pixel value) corresponding to the input data is obtained. can get. Thus, in one embodiment, the result of processing the input data may be a line drawing pattern (such as a contour pattern) corresponding to the input data.
このような構成において、学習用入力データは画像データであり、学習データは学習用入力データの各画素についてのラベル(判定結果)を示すデータである。例えば、学習用入力データは、例えば文字又は図形等を含む画像でありうる。そして、画像の輪郭抽出を行う具体的な一例において、学習データは学習用入力データである画像中の輪郭を示す画像であり、例えばユーザ入力に従って作成されたものでありうる。基本データ記憶部は、学習データと組み合わせて、このような学習用入力データをさらに保持することができる。本明細書において、基本学習データ(基本教師データ)は設定部102による加工又は変形のような処理が行われる前の学習データ(教師データ)を指す。
In such a configuration, the input data for learning is image data, and the learning data is data indicating a label (determination result) for each pixel of the input data for learning. For example, the input data for learning can be an image including characters, graphics, or the like. In a specific example of extracting the contour of an image, the learning data is an image showing the contour in the image, which is the input data for learning, and can be created according to user input, for example. The basic data storage unit can further hold such learning input data in combination with learning data. In this specification, basic learning data (basic teacher data) refers to learning data (teacher data) before processing such as processing or transformation by the
設定部102は、ネットワークの学習に用いる学習データを設定する。また、適合的データ記憶部103は、設定部102により設定された学習データを保持する。一実施形態において、設定部102は、基本学習データに対して加工、変形、又はフィルタ処理のような処理を行うことにより、学習データを生成する。設定部102は、このように生成した学習データを適合的データ記憶部103に格納することにより、ネットワークの学習に用いる学習データ(以下、適合的学習データ、適合的教師データ、又は適合的GTと呼ぶことがある)を設定する。設定部102は、さらに、元の基本学習データを適合的データ記憶部103に格納してもよい。後述するように、設定部102は、単一の学習用入力データに対応する、階層型ネットワークからの2以上の異なる出力のそれぞれについての学習データ(適合的教師データ)を設定する。
The setting
学習部104は、適合的データ記憶部103に格納された学習データを読み込み、ネットワークの学習処理を行う。また、学習部104は、学習により得られた最終的な学習結果(例えば、ネットワークのパラメータ)を、学習結果記憶部105に格納する。階層型ネットワークの学習方法としては、公知の方法を用いることができる。例えば、階層型ネットワークにおける順伝搬計算の結果得られた出力値の誤差をこのネットワークにおいて逆伝播させることにより、ネットワークの結合状態に対応する重み係数その他のパラメータを反復的に更新することができる。後述するように、本実施形態において学習部104は、学習用入力データをネットワークに入力して得られる、2以上の異なる出力のそれぞれと、出力に対応する学習データ(適合的教師データ)と、の誤差に基づいて、階層型ネットワークの学習を行う。
The
テストデータ記憶部106は、ネットワークの評価に用いるテストデータを保持する。評価部107は、テストデータを用いてネットワークの評価を行う。このようにして得られた学習後の階層型ネットワークは、後述するように、入力データに対応する2以上の異なる出力を与える。こうして得られた2以上の異なる出力の統合結果が、入力データに対する認識処理の結果を示す。
The test
図2は本実施形態に係る学習方法のフローチャートである。以下、このフローチャートに沿って説明する。ステップS210において設定部102は、基本データ記憶部101から基本学習データを読み込む。ステップS220において、設定部102は、基本学習データに基づいて、適合的学習データを設定する。ここで、設定部102は、階層型ネットワークの構造に基づいて、2以上の異なる出力のそれぞれについての学習データ(適合的教師データ)を設定する。設定される適合的学習データは、階層型ネットワークを形成するユニットの構成又はそれらの結合状態に依存しうる。以下では、一例として、サイドアウト学習(最終層の出力誤差だけではなく、中間層の出力誤差にも基づいて学習を行う手法であり、詳細は後述する)を行う場合について説明する。
FIG. 2 is a flow chart of the learning method according to this embodiment. Description will be made below along this flow chart. In step S<b>210 , the
ステップS230において、学習部104は、ステップS220で設定された適合的学習データを用いて、階層的ネットワークの学習を行う。本実施形態で用いられるネットワークはサイドアウト(中間層からの出力)を有しており、このサイドアウトに基づいて判定結果を得ることができる。具体的な学習方法については後述する。
In step S230, the
ステップS240において、学習部104は、ステップS230における学習を終了するか否かを判定する。例えば、学習部104は、ネットワークの学習結果が所定の基準に達した際に、学習を終了すると判定することができる。一例として、評価部107は、テストデータ記憶部106に格納されているテストデータ(評価用のデータ)を用いて、ネットワークの誤認識率を評価することができる。このテストデータは、例えば、基本データ記憶部101が格納しているデータとは異なる、学習用入力データと、学習用入力データに対する判定結果を示す教師データと、のセットでありうる。また、誤認識率は、評価に用いたテストデータ全体のうち、誤った認識結果が得られたテストデータの比率として定義することができる。そして、ネットワークの誤認識率が所定の閾値以下となっている場合に、学習部104は、学習を終了すると判定することができる。学習を終了しない場合、処理はステップS230に戻り、学習部104が再びネットワークの学習を行う。一方、学習を終了する場合、処理はステップS250に進み、ここで学習部104は最終的な学習結果(例えば、後述するようなネットワークの重みパラメータ及び中間層準出力の結合係数)を、学習結果記憶部105に格納する。
In step S240, the
本実施形態に係る学習装置100は、図1に示す機能構成を実現する装置によって実現することができる。例えば、学習装置100は、各処理部を実現する専用のハードウェアを有していてもよい。一方で、一部又は全部の処理部が、コンピュータにより実現されてもよい。
The
図11は、学習装置100又はその処理部として動作可能なコンピュータの基本構成を示す図である。図11においてプロセッサ1110は、例えばCPUであり、コンピュータ全体の動作をコントロールする。メモリ1120は、例えばRAMであり、プログラム及びデータ等を一時的に記憶する。コンピュータが読み取り可能な記憶媒体1130は、例えばハードディスク又はCD-ROM等であり、プログラム及びデータ等を長期的に記憶する。本実施形態においては、記憶媒体1130が格納している、各部の機能を実現するプログラムが、メモリ1120へと読み出される。そして、プロセッサ1110が、メモリ1120上のプログラムに従って動作することにより、各部の機能が実現される。また、メモリ1120又は記憶媒体1130は、基本データ記憶部101、適合的データ記憶部103、学習結果記憶部105、又はテストデータ記憶部106のような記憶部として動作することもできる。
FIG. 11 is a diagram showing the basic configuration of a computer that can operate as the
図11において、入力インタフェース1140は外部の装置から情報を取得するためのインタフェースである。また、出力インタフェース1150は外部の装置へと情報を出力するためのインタフェースである。バス1160は、上述の各部を接続し、データのやりとりを可能とする。
In FIG. 11, an
(階層型ネットワークの構成及び学習方法)
以下、本実施形態において使用可能な階層型ネットワークの例及びステップS230で行われるネットワークの学習について説明する。図3は、階層型ネットワークの一例を示す。図3のネットワークは、3つの中間層群302,303,304によって構成されている。それぞれの中間層群の具体的な構成は特に限定されないが、例えば、畳み込み層、プーリング層、及びフルコネクト層のうち1以上の組み合わせにより構成されていてもよい。
(Hierarchical network configuration and learning method)
An example of a hierarchical network that can be used in this embodiment and the learning of the network performed in step S230 will be described below. FIG. 3 shows an example of a hierarchical network. The network of FIG. 3 is made up of three hidden
本実施形態において、階層型ネットワークからは、単一の入力データに対応する2以上の異なる出力が得られる。例えば、図3のネットワークにおいては、2以上の異なる階層から出力が得られる。すなわち、図3のネットワークにおいては、中間層群302,303,304のそれぞれから中間層準出力307,308,309が得られる。そして、中間層準出力307,308,309を統合することにより統合出力305が得られる。この統合出力305に基づいて、入力301に対する判定結果が得られる。すなわち、学習データを入力301として入力すると、中間層群302、中間層群303、中間層群304を経て、統合出力305が得られる。本実施形態では、一例として、中間層群302は2つの畳み込み層から、中間層群303は1つのプーリング層及び続く2つの畳み込み層から、中間層群304も1つのプーリング層及び続く2つの畳み込み層から構成されるものとする。
In this embodiment, the hierarchical network provides two or more different outputs corresponding to a single input data. For example, in the network of FIG. 3, outputs are available from two or more different layers. That is, in the network of FIG. 3, hidden
本実施形態において、ネットワークの学習は、それぞれの中間層群からのサイドアウト学習によって行われる。通常、階層型ネットワークを用いる場合、最終出力のみに対して誤差評価が行われ、そして誤差逆伝播法によってネットワークの学習が行われる。一方、サイドアウト学習においては、中間層群からの出力に対しても誤差評価が行われる。そして、誤差の情報を中間層群にも入力し、これを逆伝播させることができる。例えば、非特許文献1のHED(Holistically-nested Edge Detection)は、階層型ネットワークを用いて輪郭抽出(入力対象画像中に含まれる物体の輪郭部分を抽出する)を行う方法を開示している。非特許文献1においては、サイドアウト学習を用いており、具体的には中間層部分においても学習データとの誤差評価を行い、誤差逆伝播法を用いてネットワークの学習を行っている。 In this embodiment, the training of the network is done by side-out learning from each hidden layer. Usually, when using hierarchical networks, error estimation is performed only on the final output, and the network is trained by error backpropagation. On the other hand, in side-out learning, error evaluation is also performed on the output from the hidden layer group. Then, error information can also be input to the hidden layers and backpropagated. For example, HED (Holistically-nested Edge Detection) in Non-Patent Document 1 discloses a method of performing contour extraction (extracting the contour portion of an object included in an input target image) using a hierarchical network. In Non-Patent Document 1, side-out learning is used, and more specifically, error evaluation with learning data is performed even in the intermediate layer, and network learning is performed using error backpropagation.
本実施形態の場合、それぞれの中間層群302,303,304から、中間層準出力307,308,309がサイドアウト学習用に出力される。そして、それぞれ中間層準出力307,308,309と学習データ(GT)との誤差である、中間層誤差310,311,312が算出される。ここで、中間層誤差310はlside
1と、中間層誤差311はlside
2と、中間層誤差312はlside
3と、それぞれ表される。このように評価された中間層誤差310,311,312の総和を計算することにより、中間層全体での誤差評価値(式(1)のLside)が得られる。
誤差の評価方法は特に限定されない。例えば、GTのラベル値が0と1の2値である場合には、式(2)に示されるようにクロスエントロピーを用いて中間層mの誤差評価値Lside
mを規定することができる。式(2)において、yj
mは中間層mの各画素の出力値を表す。Y+
mは、中間層mに与えるGTのうちポジティブ(ラベル値が1)である領域を、Y-
mは中間層mに与えるGTのうちネガティブ(ラベル値が0)である領域を、それぞれ表す。そして、Σは全画素についての和を意味する。βはGTのうちポジティブなものとネガティブなものとの比率のアンバランスを補正する係数であり、例えば、GT全体の画素数に対するネガティブな領域の画素数の比率として定義することができる。この値βは、GT毎に算出され設定されてもよいし、全GTに対して同じ値(例えば、各GTについての値βの平均値)が設定されてもよい。
また、統合出力305は、入力データに対応する2以上の異なる出力を統合することにより得ることができる。例えば、中間層準出力307,308,309の線形和を求めることにより、中間層準出力307,308,309を重ね合わせることができる。そして、こうして得られた線形和に対してさらにシグモイド関数のような活性化関数σを作用させることにより、統合出力305を得ることができる。ここで、中間層準出力307をAside
1と、中間層準出力308をAside
2と、中間層準出力309をAside
3と、それぞれ表すことができる。この場合、例えば式(3)に従うYfuseを、統合出力305として得ることができる。統合出力305を得る際に用いる各中間層準出力307,308,309の重みも、学習により決定することができる。例えば、式(3)に示される線形和の結合係数hmも、学習により決定することができる。
本実施形態では、統合出力305とGTとの誤差である、統合誤差313も評価される。例えば、式(4)に従って、統合出力YfuseとGTのラベル値Yとの誤差であるLfuseを、統合誤差313として得ることができる。式4においてDist()は、YとYfuseとの誤差評価に用いる距離関数を意味し、この関数としては例えばクロスエントロピーを用いることができる。
ネットワーク全体の誤差は、統合誤差313(Lfuse)と、各中間層誤差310,311,312の総和(Lside)と、にしたがって得ることができる。例えば、ネットワーク全体の誤差は、式(5)で示されるLtotalでありうる。階層型ネットワーク内の各重みパラメータ及び上記中間層準出力の結合係数(hm)は、このネットワーク全体の誤差(Ltotal)を最小化するように、学習によって決定することができる。
上記のような階層型ネットワークの構成及び学習方法は、例えば非特許文献1にも記載されている通りである。一方、本実施形態においては、中間層誤差310,311,312を得る際に、それぞれの中間層群302,303,304(又は中間層準出力307,308,309)に合わせて設定された、適合的学習データが用いられる。すなわち、中間層誤差310,311,312は、それぞれの中間層群302,303,304に合わせて設定された適合的GT306-1,306-2,306-3と、中間層準出力307,308,309と、の誤差として定義される。以下、この構成について説明する。
The configuration of the hierarchical network as described above and the learning method are as described in Non-Patent Document 1, for example. On the other hand, in this embodiment, when obtaining the hidden
図4は、例えば階層型ネットワークを画像からの輪郭抽出に適用する場合における、ネットワークのサイドアウト学習について説明する図である。図4は、非特許文献1のように、同じGT(基本学習データに相当)を用いて、各中間層準出力の誤差評価をする場合を、模式的に表している。図4は、統合出力305、及び中間層群302~304からの中間層準出力307~309と、GT306との関係を表す。
FIG. 4 is a diagram for explaining side-out learning of a network when applying a hierarchical network to contour extraction from an image, for example. FIG. 4 schematically shows a case where the same GT (corresponding to basic learning data) is used as in Non-Patent Document 1 to evaluate the error of each intermediate layer sub-output. FIG. 4 shows the relationship between the
畳み込みニューラルネットワークのような階層型ネットワークにおいては、通常、畳み込み層の後にプーリング層が配置される。プーリング層を配置することにより、畳み込み層で抽出された特徴の位置感度が低下し、プーリング層からの出力が位置変化に対するロバストネスを得ることができる。 In hierarchical networks such as convolutional neural networks, pooling layers are usually placed after the convolutional layers. By arranging the pooling layer, the position sensitivity of the features extracted by the convolutional layer is reduced, and the output from the pooling layer can obtain robustness against changes in position.
例えば、プーリング層においてストライド2の2×2MAXプーリングを行うと、プーリングにより2×2の4画素のうち最大値のみが出力される。上述のように、図3の例において中間層群303,304はそれぞれ1層のプーリング層を有している。したがって、例えば128×128サイズの学習用入力データである画像をネットワークに入力し、これらのプーリング層がストライド2の2×2MAXプーリングを行う場合、中間層群303からは64×64サイズの出力が得られる。また、中間層群304からは32×32サイズの出力が得られる。
For example, if 2×2 MAX pooling with stride 2 is performed in the pooling layer, the pooling will output only the maximum value among the 2×2 4 pixels. As described above, in the example of FIG. 3, the
一方、GT(基本学習データに相当)は通常、学習用入力データと同サイズの画像(例えば輪郭画像)である。したがって、中間層準出力をGTと比較して誤差評価するために、中間層準出力はGTと同じサイズの128×128サイズに拡大される。すると、図4に示されるように、中間層準出力における1画素が、誤差評価の段階では、中間層準出力308の場合には2×2のサイズに、中間層準出力309の場合には4×4のサイズに拡大される。したがって、例えば輪郭抽出の場合においては、中間層準出力307及びGTにおける輪郭線幅が1ピクセルサイズだったとしても、中間層準出力308の輪郭線幅は2ピクセルサイズに、中間層準出力309の輪郭線幅は4ピクセルサイズになる。したがって、誤差を評価する際には、中間層準出力308,309においては、線幅の違いによる誤差の過大評価が生じる可能性がある。
On the other hand, GT (corresponding to basic learning data) is usually an image (for example, a contour image) of the same size as the learning input data. Therefore, in order to compare the hidden layer reference output with GT for error evaluation, the hidden layer reference output is enlarged to 128×128 size, which is the same size as GT. Then, as shown in FIG. 4, in the stage of error evaluation, one pixel in the intermediate layer reference output has a size of 2×2 in the case of the intermediate
図5は、GTと中間層準出力における線幅の相違によって、誤差が過大に評価される過程を模式的に示す。図5(A)に示すように、中間層準出力307とGT306において線幅の相違はないため、誤差評価においては、中間層群302から出力された輪郭パターンとGT306のパターンとの相違が評価される。一方、図5(B)に示すように、中間層準出力308とGT306との間には線幅の相違が存在するため、誤差評価においては、中間層群303から出力された輪郭パターンとGT306のパターンとの相違の他に、線幅の相違に起因する誤差も評価される。さらに、図5(C)に示すように、中間層準出力309とGT306との間にはより大きな線幅の相違が存在するため、線幅の相違に起因する誤差はより大きくなる。
FIG. 5 schematically shows the process of overestimating the error due to the difference in line width between the GT and the intermediate layer output. As shown in FIG. 5A, since there is no line width difference between the
図5(D)は、誤差が過大に評価される様子を模式的に示す。このように、中間層準出力に示される中間層群から出力された輪郭パターン510と、GT520と、の間に線幅の相違が存在する場合には、GTに示される輪郭線の両側に正しく誤差評価がなされない領域530が存在する。輪郭抽出の問題において正しく評価したいのは、出力とGTとのパターンの相違であるため、線幅の相違のようなそれ以外の誤差が評価されてしまうと好ましい最終学習結果が得られない可能性が生じる。 FIG. 5D schematically shows how the error is overestimated. In this way, when there is a difference in line width between the contour pattern 510 output from the intermediate layer group shown in the intermediate layer reference output and the GT 520, correct There is a region 530 where no error evaluation is made. What we want to evaluate correctly in the contour extraction problem is the pattern difference between the output and the GT. occurs.
非特許文献1には、中間層準出力の誤差に基づく学習に適した学習データを、基本学習データから生成するような処理は記載されていない。そして、最終的な統合出力の誤差に基づく学習データ(基本学習データに相当)と同一の学習データを用いて、各中間層準出力に基づくサイドアウト学習を行う場合、中間層準出力の誤差評価性能が低下し、学習の効率が低下する可能性があった。 Non-Patent Document 1 does not describe a process for generating learning data suitable for learning based on errors in intermediate layer standard outputs from basic learning data. Then, when performing side-out learning based on each hidden layer reference output using the same training data (equivalent to basic learning data) based on the error of the final integrated output, the error evaluation of the hidden layer reference output Performance could be degraded and learning less efficient.
このため、本実施形態において、設定部102は、単一の学習用入力データに対応する、ネットワークからの2以上の異なる出力のそれぞれについての教師データ(適合的GT)を設定する。例えば設定部102は、それぞれの中間層群(又は中間層準出力)ごとに適合的GTを設定することができる。このような構成により、線幅のような他の影響を低減して本来評価したい誤差をより正しく評価することが可能となる。その結果、サイドアウト学習の収束性及び得られる階層型ネットワークの性能向上を図ることができる。
Therefore, in this embodiment, the
このために、設定部102は、それぞれの中間層群ごとに、元の基本学習データを加工して得られた適合的学習データを設定することができる。例えば、設定部102は、中間層群ごとに、中間層準出力における線幅と誤差評価に用いる適合的GTの線幅とが近くなるように、又は少なくとも誤差評価が過大に行われないように、適合的学習データを生成することができる。このようにして、設定部102は、それぞれの中間層準出力に対して適切な誤差評価が行われるように、学習データを生成することができる。
For this reason, the
一方で、基本データ記憶部101は、単一の学習用入力データに対応する、階層型ネットワークからの2以上の異なる出力のそれぞれについての学習データ(適合的教師データ)を格納していてもよい。この場合、設定部102は、基本データ記憶部101から適合的学習データを取得して適合的データ記憶部103に格納してもよい。
On the other hand, the basic
(適合的学習データの設定方法)
以下、ステップS220における適合的学習データの設定方法の具体例を説明する。
(Method of setting adaptive learning data)
A specific example of a method for setting adaptive learning data in step S220 will be described below.
図6は、本実施形態における適合的学習データの設定方法を、図3の階層的ネットワークを用いる場合について説明する図である。図6(A)は、中間層準出力307に示される輪郭パターンと、中間層準出力307の誤差評価用のGT601に示されるポジティブ領域(輪郭パターンを表し、以下単にGTと呼ぶことがある)と、を示す。同様に、図6(B)及び図6(C)は、中間層準出力308,309に示される輪郭パターンと、中間層準出力308,309の誤差評価用のGT602,603に示される輪郭パターンと、を示す。既に説明したように、中間層準出力308,309の解像度と、GTの解像度とが一致するように、中間層準出力308,309はGTに合わせて拡大される。これに合わせて、中間層準出力308,309に示される輪郭パターンの線幅も大きくなる。
FIG. 6 is a diagram for explaining a method of setting adaptive learning data according to the present embodiment in the case of using the hierarchical network of FIG. FIG. 6A shows the contour pattern shown in the intermediate
したがって、設定部102は、2以上の異なる出力についての教師データを、2以上の異なる出力の解像度に基づいて設定することができる。例えば、設定部102は、中間層準出力307~309用のGT601~603を、中間層準出力307~309の解像度に基づいて設定することができる。本実施形態において、設定部102は、2以上の異なる出力のそれぞれに対応する幅を有する線画パターンを、2以上の異なる出力についての教師データとして設定する。例えば、設定部102は、中間層準出力307~309の解像度に対応する幅を有する線画パターンを示すGT601~603を、中間層準出力307~309の評価用に設定することができる。
Therefore, the
具体的には、中間層準出力とGTに示される、輪郭を表す線画パターンの線幅が近くなるように、中間層準出力308,309用のGT602,603の線幅が大きくされる。より具体的には、図6の例において、中間層準出力307,308,309用のGT601,602,603に示される輪郭パターンの線幅は、それぞれ1,2,4である。このように設定部102は、中間層準出力の解像度が大きい(画素数が多い)場合と比較して、解像度が小さい(画素数が少ない)場合に、線画パターンの線幅が大きくなるように、適合的GTを設定することができる。例えば設定部102は、適合的GTに示される線画パターンの線幅が、(基本学習データの解像度/中間層準出力の解像度)にほぼ一致するように、適合的GTを設定することができる。
Specifically, the line widths of the
設定部102は、基本学習データを用いて、中間層準出力の誤差評価用の適合的学習データを生成することができる。本実施形態の場合、設定部102は、学習用入力データに対応する線画パターンである基本教師データを用いて適合的学習データを生成することができる。設定部102は、例えば図9(D)のフローチャートに従って、中間層準出力307~309の誤差評価用の適合的学習データ(GT911~913)を生成することができる。
The
ステップS901において設定部102は、基本データ記憶部101に格納された基本学習データ(GT912)を取得する。ステップS902において設定部102は、GT912にフィルタ処理を行うことにより、GT911及びGT913を生成する。ステップS903において設定部102は、こうして得られたGT911~GT913を適合的データ記憶部103に格納することにより、各中間層準出力307~309用のGT911~913を設定できる。
In step S<b>901 , the
この例では、設定部102は、基本学習データに対してフィルタ処理を行うことにより、適合的学習データを生成した。すなわち、設定部102は、学習用入力データに対応する線画パターンである基本学習データ(GT912)に対して、中間層準出力ごとに異なるフィルタを作用させることにより、異なる適合的学習データ(GT911,913)を得ることができる。中間層準出力に示される輪郭パターンは、最終出力側に近づくにつれ、テクスチャを反映した細かな形態から、大まかな形態へと変化していく。基本学習データに対して変換を施すフィルタの効果により、このような変化をモデル化し、このような変化に合わせてGTの形態を変化させることができる。一例として、設定部102は、中間層準出力の解像度が大きい(画素数が多い)場合と比較して、解像度が小さい(画素数が少ない)場合に、線画パターンの線幅が大きくなるように、用いるフィルタを選択することができる。
In this example, the
フィルタの具体例としては、特定の周波数帯域のみを通過させるバンドバスフィルタが挙げられる。図9(A)には、GT912に対して高周波パスフィルタを適用することにより得られたGT911が示されている。図9(B)には、輪郭パターンの線幅が2であるGT912が示され、中間層準出力308に対してはGT912がそのまま用いられる。図9(C)には、GT912に対して低周波パスフィルタを適用することにより得られたGT913が示されている。図9(A)~(C)からわかるように、GT911はGT912よりも輪郭パターンの線幅が細く、GT913はGT912よりも輪郭パターンの線幅が太い。なお、図9(A)~(C)に示される周波数と強度のグラフにおいて、灰色の部分はフィルタ処理で通過させる帯域を示している。なお、長さの短い輪郭パターン(例えば最大長さが10ピクセル以下など)に対しては、フィルタ処理を省略し、又は輪郭パターンを消す処理を行ってもよい。このような処理によれば、例えば、ノイズの影響を抑える効果が期待できる。
A specific example of the filter is a bandpass filter that passes only a specific frequency band. FIG. 9A shows GT911 obtained by applying a high-frequency pass filter to GT912. FIG. 9B shows a GT 912 whose outline pattern has a line width of 2, and the GT 912 is used as it is for the
別の例として、基本データ記憶部101は輪郭パターンを示すベクタデータを格納していてもよい。この場合、設定部102は、中間層群に対応する線幅を有するGTを生成することができる。
As another example, the basic
また、中間層準出力307~309の誤差評価用の適合的学習データ(GT601~603)は、予め基本データ記憶部101に格納されていてもよい。さらに、設定部102は、基本データ記憶部101に格納されているデータに基づいてGT601~603を生成してもよい。図6(D)は、基本データ記憶部101における、GT601~603を生成するためのデータの格納方法の例を説明する図である。また、図6(E)は、図6(D)の縦線部分の拡大図である。図6(D)(E)に示されるように、統合出力305及び中間層準出力307の誤差評価用のGT601としては、「1」で示される輪郭パターンが用いられ、より具体的にはGT601のポジティブ領域は「1」で示される領域である。また、中間層準出力308の誤差評価用のGT602としては、「1」及び「2」で示される輪郭パターンが用いられ、中間層準出力309の誤差評価用のGT603としては、「1」及び「2」及び「3」で示される輪郭パターンが用いられる。すなわち、GT602のポジティブ領域は「1」及び「2」で表される領域であり、GT603のポジティブ領域は「1」及び「2」及び「3」で表される領域である。
Also, the adaptive learning data (GT601-603) for error evaluation of the intermediate layer sub-outputs 307-309 may be stored in the basic
この場合、設定部102は、基本データ記憶部101に格納されたデータを用いて、それぞれの中間層準出力307~309の誤差評価用の適合的学習データ(GT601~603)を生成及び設定することができる。このように、中間層準出力307~309の誤差評価用のGT601~603における輪郭パターンの線幅を順次太くすることにより、パターンの相違以外に起因する誤差が過大に評価されるのを防ぎ、より効果的にサイドアウト学習を行うことができる。例えば、第1の中間層からの出力の誤差評価用のGTよりも、第1の中間層よりもプーリング層を通って下流にある第2の中間層からの出力の誤差評価用のGTの方が、輪郭パターンの線幅が太くなるように、GTを設定することができる。
In this case, the
設定部102は、上記のように得られたそれぞれの中間層準出力用のGTに対して、ぼかし処理のようなさらなる画像処理を行って得られたGTを、適合的学習データとして設定してもよい。例えば図8(A)~(C)には、図6に示すGT601~603に対して、さらにガウシアンブラー(ガウス関数を用いて画像をぼかす処理)を適用した結果を示す。すなわち、図8(A)には、統合出力305と中間層準出力307の誤差評価に用いるための、線幅1のGT601にガウシアンブラーを作用させた後の断面801(輪郭パターンの幅方向の画素値分布)を示す。同様に、図8(B)(C)には、中間層準出力308,309の誤差評価に用いるための、線幅2,4のGT602,603にガウシアンブラーを作用させた後の断面802,803を示す。それぞれのGT601~603に適用する処理は、同一の強さであってもよいし、中間層準出力の特性に合わせた異なる強さであってもよい。
The
このように設定部102は、ぼかし処理が行われた線画パターンを、2以上の異なる出力についての教師データとして設定することができる。学習用入力データに示される正しい輪郭パターンの位置と、GTに示される輪郭パターンの位置とは、入力時の誤差のためにわずかにずれている可能性がある。ここで、GTに対してぼかし処理(例えばガウシアンブラー処理)を行うことにより、真の位置を中心とした入力誤差(例えば、ガウシアン分布に従う入力誤差)をGTに反映させ、より効果的にサイドアウト学習を行うことができる。
In this manner, the
ここまで、主にGTにおける輪郭パターンの線幅を、中間層準出力の特性に応じて変更する構成について説明したが、適合的学習データの設定方法はこのような方法に限られない。例えば、設定部102は、2以上の異なる出力のそれぞれに対応する幅を有する誤差評価対象外領域が線画パターンの周囲に設定された、2以上の異なる出力についての教師データを設定することができる。
So far, the configuration in which the line width of the outline pattern in the GT is mainly changed according to the characteristics of the intermediate stratified output has been described, but the adaptive learning data setting method is not limited to such a method. For example, the
このように、GTに誤差評価を行わない誤差評価対象外領域を設定する方法について、図7を参照して説明する。図7(A)は、中間層準出力307及び誤差評価用のGT601を示し、これは図6(A)と同様である。一方、図7(B)は、中間層準出力308、及び線幅1のGT601(GTのポジティブ領域)と線幅2の付帯領域702とで構成される中間層準出力308の誤差評価用のGTを表す。また、図7(C)は、中間層準出力309、及び線幅1のGT601(GTのポジティブ領域)と線幅4の付帯領域703とで構成される中間層準出力309の誤差評価用のGTを表す。ここで、付帯領域とは、誤差評価において評価を行わない、ポジティブ領域である輪郭パターンの両側に付属する領域のことを表す。この場合、式(2)を用いた評価において、Y+
mは中間層mに与えるGTのうちポジティブ(例えばラベル値が1)な領域を表す。また、Y-
mは中間層mに与えるGTのうちネガティブ(例えばラベル値が0)である領域を表す。このネガティブな領域は、全体の領域からポジティブ領域と付帯領域(例えばラベル値が2)を除いた領域である。
A method of setting an error-evaluation-excluded region in the GT where error evaluation is not performed in this way will be described with reference to FIG. FIG. 7(A) shows the hidden
このような付帯領域を有するGTは、例えば、図6(D)(E)に示されるデータに従って作成することができる。例えば、図7(B)に示すGTは、「1」の領域をポジティブ領域に、「2」の領域を付帯領域に、それぞれ設定することにより作成することができる。また、図7(C)に示すGTは、「1」の領域をポジティブ領域に、「2」及び「3」の領域を付帯領域に、それぞれ設定することにより作成することができる。また、上記のようなフィルタ処理を用いて付帯領域を設定することも可能である。このように、中間層準出力307~309の誤差評価用のGT601における付帯領域702,703の線幅を順次太くすることによっても、パターンの相違以外に起因する誤差が過大に評価されるのを防ぎ、より効果的にサイドアウト学習を行うことができる。
A GT having such an incidental area can be created, for example, according to the data shown in FIGS. 6(D) and 6(E). For example, the GT shown in FIG. 7B can be created by setting the area of "1" as a positive area and the area of "2" as an incidental area. Also, the GT shown in FIG. 7(C) can be created by setting the "1" area as the positive area and the "2" and "3" areas as the incidental areas. Moreover, it is also possible to set the incidental area using the filtering process as described above. In this way, by sequentially increasing the line widths of the incidental regions 702 and 703 in the
(様々なネットワーク構成への応用例)
ここまでは、それぞれの中間層群からの中間層準出力に基づいてサイドアウト学習を行う場合について説明したが、本実施形態に係る方法の適用例はこれに限られない。例えば、図10に示すように、1つの中間層群からの複数の出力に基づいてサイドアウト学習を行うこともできる。図10に示す構成においては、ネットワークの1つの中間層群における2以上の異なる中間層からの出力に基づいて、サイドアウト学習が行われる。図10(A)において、1つの中間層群1300には、畳み込み層1301,1302,1303、及びプーリング1304層が含まれる。また、図10(A)には、畳み込み層1301~1303の出力1311~1313と、そこでの誤差評価に用いるGT1321~1323が示されている。図10(B)には、GT1321~1323における輪郭パターンの線幅の変化を示しており、次第に線幅が大きくなることがわかる。
(Application examples for various network configurations)
Up to this point, a case has been described where side-out learning is performed based on the intermediate layer output from each layer group, but the application example of the method according to the present embodiment is not limited to this. For example, as shown in FIG. 10, side-out learning can also be performed based on multiple outputs from one hidden layer group. In the configuration shown in FIG. 10, side-out learning is performed based on outputs from two or more different hidden layers in one hidden layer group of the network. In FIG. 10A, one hidden layer group 1300 includes convolutional layers 1301, 1302, 1303 and a pooling 1304 layer. FIG. 10A also shows outputs 1311 to 1313 of convolution layers 1301 to 1303 and GTs 1321 to 1323 used for error evaluation there. FIG. 10B shows changes in the line width of contour patterns in GT1321 to GT1323, and it can be seen that the line width gradually increases.
この場合、設定部102は、ネットワークの1つの中間層群における2以上の異なる中間層からの出力のそれぞれについて、学習用入力データに対する教師データを設定することができる。例えば、出力1311~1313の誤差評価用のGT1321~1323における輪郭パターンの線幅を順次太くすることができる。具体例として設定部102は、第1の中間層からの出力の誤差評価用のGTよりも、第1の中間層よりも畳み込み層を通って下流にある第2の中間層からの出力の誤差評価用のGTの方が、輪郭パターンの線幅が太くなるように、GTを設定することができる。このような構成により、畳み込み層で順次フィルタを作用させていくことによる画素の空間的な相互依存範囲の拡大の影響を取り込み、パターンの相違以外に起因する誤差が過大に評価されるのを防ぐことができる。このために、より効果的にサイドアウト学習を行うことができる。
In this case, the
別の例として、図9(E)に示すように、ネットワークの1つの中間層からの複数の出力に基づいてサイドアウト学習を行うこともできる。一例として、図9(E)には、中間層群950が、畳み込み層951~953及びプーリング層954で構成される場合を示す。図9(E)の例において、設定部102は、ネットワークの1つの階層における2以上の異なるチャネル群からの出力のそれぞれについて、学習用入力データに対する教師データを設定することができる。
As another example, side-out learning can also be performed based on multiple outputs from one hidden layer of the network, as shown in FIG. 9(E). As an example, FIG. 9E shows a case where an intermediate layer group 950 is composed of convolution layers 951 to 953 and a pooling layer 954 . In the example of FIG. 9E, the
例えば、設定部102は、基本学習データに示される画像を所定の条件に従って分離し、それぞれの部分画像を示す複数の適合的学習データを生成することができる。具体例として、GTに示される輪郭パターンを特定の方向ごとに分離し、それぞれの輪郭パターンを用いて対応するネットワークの重み係数(畳み込みフィルタ)の学習を行ってもよい。ここで、サイドアウトを出力する畳み込み層951は、畳み込み層961と畳み込み層962に分割される。畳み込み層961及び畳み込み層962は、畳み込み層951における異なるチャネル群に相当する。ここで設定部102は、畳み込み層961,962のそれぞれに、異なる方向成分を有するGTを設定することができる。この場合、畳み込み層961,962のそれぞれの重み係数の学習は、異なる方向成分を有するGTを用いて行われる。例えば、畳み込み層961の学習は第1の方向の輪郭パターンを示すGT971を用いて、畳み込み層962の学習は第1の方向とは異なる第2の方向の輪郭パターンを示すGT972を用いて、それぞれ行うことができる。このように、それぞれの畳み込み層について特定のパターンを有するGTを用いた学習を集中的に行うことにより、全体の認識性能が向上することが期待される。このような構成は上記の各種の構成と組み合わせることができ、例えばGTに対してガウシアンブラー処理のようなさらなる画像処理を適用する場合と組み合わせてもよい。
For example, the
ここまで、中間層準出力をGTに合わせて拡大することを前提として、中間層準出力ごとにGTを設定する場合について説明した。一方、設定部102は、中間層準出力のそれぞれのサイズに合わせたGTを設定してもよい。例えば、設定部102は、輪郭パターンを示すGT(基本学習データ)を、中間層準出力のサイズに合わせて縮小してもよい。具体例としては、基本学習データに対してフィルタ処理を行うことにより適合的学習データを生成する方法が挙げられる。例えば、基本学習データが二値画像(「1」値が輪郭を表す)場合、2×2のMAXプーリングをストライド2×2で行うことにより、基本学習データに示される輪郭パターンを維持しながら解像度が半分になった適合的学習データを得ることができる。このように、単に画素を間引きし又は繰り返すことにより基本学習データから適合的学習データを生成するのではなく、基本学習データに対してフィルタ処理のような画像処理を行って適合的学習データを生成することができる。このような方法によれば、中間層準出力に適した適合的学習データを生成することが可能となる。
So far, the case where GT is set for each intermediate stratum output has been described on the premise that the intermediate stratum output is expanded in accordance with the GT. On the other hand, the
以上説明した方法により階層型ネットワークの学習を行うことにより、階層型ネットワークのパラメータを作成することができる。また、一実施形態に係る情報処理装置は、このように作成されたパラメータが設定された階層型ネットワークを用いて、入力データに対応する認識処理の結果を生成する生成部を有している。このような階層型ネットワークは、プログラムにより実現することもできるし、パラメータを格納するメモリとGPUのような演算部とを備える演算装置により実現することもできる。本実施形態に係る方法によれば、階層型ネットワークからの2以上の異なる出力のそれぞれが、従来のように同じ基本学習データを用いて評価する代わりに、それぞれに合った適合的学習データを用いて評価される。このため、学習によって得られるネットワークのパラメータは、従来とは異なり、より入力データに対する認識処理に適したものとなる。 By learning the hierarchical network by the method described above, the parameters of the hierarchical network can be created. Further, the information processing apparatus according to one embodiment includes a generation unit that generates a result of recognition processing corresponding to input data using the hierarchical network in which the created parameters are set. Such a hierarchical network can be implemented by a program, or by an arithmetic device having a memory for storing parameters and an arithmetic unit such as a GPU. According to the method of the present embodiment, each of two or more different outputs from the hierarchical network are evaluated using the same adaptive training data, instead of using the same basic training data as in the conventional method. evaluated. Therefore, the parameters of the network obtained by learning are different from the conventional ones and are more suitable for recognition processing of input data.
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
(Other examples)
The present invention supplies a program that implements one or more functions of the above-described embodiments to a system or device via a network or a storage medium, and one or more processors in the computer of the system or device reads and executes the program. It can also be realized by processing to It can also be implemented by a circuit (for example, ASIC) that implements one or more functions.
100:学習装置、102:設定部、104:学習部 100: learning device, 102: setting unit, 104: learning unit
Claims (16)
単一の学習用入力データに対応する、ニューラルネットワークからの2以上の異なる出力のそれぞれについての教師データを設定する設定手段と、
前記学習用入力データを前記ニューラルネットワークに入力して得られる、前記2以上の異なる出力のそれぞれと、前記出力に対応する教師データと、の誤差に基づいて、前記ニューラルネットワークの学習を行う学習手段と、を備え、
前記2以上の異なる出力のそれぞれについての教師データは、前記単一の学習用入力データに対応する基本教師データに対するそれぞれ異なる変形処理又はフィルタ処理の結果を示し、前記基本教師データは、前記単一の学習用入力データが示す各画素の属性を示す画像データであることを特徴とする、学習装置。 A learning device for learning a neural network used for attribute determination processing of each pixel of an image ,
setting means for setting teacher data for each of two or more different outputs from the neural network corresponding to a single input data for learning;
Learning means for learning the neural network based on the error between each of the two or more different outputs obtained by inputting the learning input data to the neural network and teacher data corresponding to the output. and
The training data for each of the two or more different outputs indicates the results of different deformation processing or filtering processing on the basic training data corresponding to the single learning input data, and the basic training data is the single learning input data. is image data indicating the attribute of each pixel indicated by the learning input data of .
単一の学習用入力データに対応する、ニューラルネットワークからの2以上の異なる出力のそれぞれについての教師データを設定する設定手段と、
前記学習用入力データを前記ニューラルネットワークに入力して得られる、前記2以上の異なる出力のそれぞれと、前記出力に対応する教師データと、の誤差に基づいて、前記ニューラルネットワークの学習を行う学習手段と、を備え、
学習後の前記ニューラルネットワークは、入力データに対応する2以上の異なる出力を与え、前記2以上の異なる出力の統合結果が前記入力データに対する認識処理の結果を示し、
前記入力データは画像データであり、前記入力データに対する認識処理の結果は、前記画像データの各画素の属性情報であり、
前記入力データに対する認識処理の結果は、前記入力データに対応する線画パターンであり、
前記設定手段は、前記2以上の異なる出力のそれぞれに対応する幅を有する線画パターンを、前記2以上の異なる出力についての教師データとして設定することを特徴とする、学習装置。 A learning device for learning a neural network,
setting means for setting teacher data for each of two or more different outputs from the neural network corresponding to a single input data for learning;
Learning means for learning the neural network based on the error between each of the two or more different outputs obtained by inputting the learning input data to the neural network and teacher data corresponding to the output. and
the neural network after learning provides two or more different outputs corresponding to input data, and a result of integration of the two or more different outputs indicates a result of recognition processing for the input data;
the input data is image data, and the result of recognition processing for the input data is attribute information of each pixel of the image data;
a result of recognition processing for the input data is a line drawing pattern corresponding to the input data;
The learning device, wherein the setting means sets a line drawing pattern having a width corresponding to each of the two or more different outputs as teacher data for the two or more different outputs.
単一の学習用入力データに対応する、ニューラルネットワークからの2以上の異なる出力のそれぞれについての教師データを設定する設定手段と、
前記学習用入力データを前記ニューラルネットワークに入力して得られる、前記2以上の異なる出力のそれぞれと、前記出力に対応する教師データと、の誤差に基づいて、前記ニューラルネットワークの学習を行う学習手段と、を備え、
学習後の前記ニューラルネットワークは、入力データに対応する2以上の異なる出力を与え、前記2以上の異なる出力の統合結果が前記入力データに対する認識処理の結果を示し、
前記入力データは画像データであり、前記入力データに対する認識処理の結果は、前記画像データの各画素の属性情報であり、
前記入力データに対する認識処理の結果は、前記入力データに対応する線画パターンであり、
前記設定手段は、ぼかし処理が行われた線画パターンを、前記2以上の異なる出力についての教師データとして設定することを特徴とする、学習装置。 A learning device for learning a neural network,
setting means for setting teacher data for each of two or more different outputs from the neural network corresponding to a single input data for learning;
Learning means for learning the neural network based on the error between each of the two or more different outputs obtained by inputting the learning input data to the neural network and teacher data corresponding to the output. and
the neural network after learning provides two or more different outputs corresponding to input data, and a result of integration of the two or more different outputs indicates a result of recognition processing for the input data;
the input data is image data, and the result of recognition processing for the input data is attribute information of each pixel of the image data;
a result of recognition processing for the input data is a line drawing pattern corresponding to the input data;
The learning device, wherein the setting means sets a line drawing pattern subjected to blurring processing as teacher data for the two or more different outputs.
単一の学習用入力データに対応する、ニューラルネットワークからの2以上の異なる出力のそれぞれについての教師データを設定する設定手段と、
前記学習用入力データを前記ニューラルネットワークに入力して得られる、前記2以上の異なる出力のそれぞれと、前記出力に対応する教師データと、の誤差に基づいて、前記ニューラルネットワークの学習を行う学習手段と、を備え、
学習後の前記ニューラルネットワークは、入力データに対応する2以上の異なる出力を与え、前記2以上の異なる出力の統合結果が前記入力データに対する認識処理の結果を示し、
前記入力データは画像データであり、前記入力データに対する認識処理の結果は、前記画像データの各画素の属性情報であり、
前記入力データに対する認識処理の結果は、前記入力データに対応する線画パターンであり、
前記設定手段は、前記2以上の異なる出力のそれぞれに対応する幅を有する誤差評価対象外領域が線画パターンの周囲に設定された、前記2以上の異なる出力についての教師データを設定することを特徴とする、学習装置。 A learning device for learning a neural network,
setting means for setting teacher data for each of two or more different outputs from the neural network corresponding to a single input data for learning;
Learning means for learning the neural network based on the error between each of the two or more different outputs obtained by inputting the learning input data to the neural network and teacher data corresponding to the output. and
the neural network after learning provides two or more different outputs corresponding to input data, and a result of integration of the two or more different outputs indicates a result of recognition processing for the input data;
the input data is image data, and the result of recognition processing for the input data is attribute information of each pixel of the image data;
a result of recognition processing for the input data is a line drawing pattern corresponding to the input data;
The setting means sets teacher data for the two or more different outputs, in which an error evaluation non-object area having a width corresponding to each of the two or more different outputs is set around the line drawing pattern. and learning device.
単一の学習用入力データに対応する、ニューラルネットワークからの2以上の異なる出力のそれぞれについての教師データを設定する設定手段と、
前記学習用入力データを前記ニューラルネットワークに入力して得られる、前記2以上の異なる出力のそれぞれと、前記出力に対応する教師データと、の誤差に基づいて、前記ニューラルネットワークの学習を行う学習手段と、を備え、
学習後の前記ニューラルネットワークは、入力データに対応する2以上の異なる出力を与え、前記2以上の異なる出力の統合結果が前記入力データに対する認識処理の結果を示し、
前記入力データは画像データであり、前記入力データに対する認識処理の結果は、前記画像データの各画素の属性情報であり、
前記入力データに対する認識処理の結果は、前記入力データに対応する線画パターンであり、
前記設定手段は、前記学習用入力データに対応する線画パターンである基本教師データに対してフィルタ処理を行うことにより、前記教師データを生成することを特徴とする、学習装置。 A learning device for learning a neural network,
setting means for setting teacher data for each of two or more different outputs from the neural network corresponding to a single input data for learning;
Learning means for learning the neural network based on the error between each of the two or more different outputs obtained by inputting the learning input data to the neural network and teacher data corresponding to the output. and
the neural network after learning provides two or more different outputs corresponding to input data, and a result of integration of the two or more different outputs indicates a result of recognition processing for the input data;
the input data is image data, and the result of recognition processing for the input data is attribute information of each pixel of the image data;
a result of recognition processing for the input data is a line drawing pattern corresponding to the input data;
The learning device, wherein the setting means generates the teacher data by filtering basic teacher data, which is a line drawing pattern corresponding to the input data for learning .
単一の学習用入力データに対応する、ニューラルネットワークからの2以上の異なる出力のそれぞれについての教師データを設定する設定工程と、
前記学習用入力データを前記ニューラルネットワークに入力して得られる、前記2以上の異なる出力のそれぞれと、前記出力に対応する教師データと、の誤差に基づいて、前記ニューラルネットワークの学習を行う学習工程と、を有し、
前記2以上の異なる出力のそれぞれについての教師データは、前記単一の学習用入力データに対応する基本教師データに対するそれぞれ異なる変形処理又はフィルタ処理の結果を示し、前記基本教師データは、前記単一の学習用入力データが示す各画素の属性を示す画像データであることを特徴とする、作成方法。 A method for creating a trained neural network used for attribute determination processing of each pixel of an image ,
A setting step of setting teacher data for each of two or more different outputs from the neural network corresponding to a single learning input data;
A learning step of learning the neural network based on an error between each of the two or more different outputs obtained by inputting the learning input data to the neural network and teacher data corresponding to the output. and
The training data for each of the two or more different outputs indicates the results of different deformation processing or filtering processing on the basic training data corresponding to the single learning input data, and the basic training data is the single learning input data. is image data indicating the attribute of each pixel indicated by the learning input data .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018170893A JP7316771B2 (en) | 2018-09-12 | 2018-09-12 | Learning device, parameter creation method, neural network, and information processing device using the same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018170893A JP7316771B2 (en) | 2018-09-12 | 2018-09-12 | Learning device, parameter creation method, neural network, and information processing device using the same |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020042664A JP2020042664A (en) | 2020-03-19 |
JP7316771B2 true JP7316771B2 (en) | 2023-07-28 |
Family
ID=69798377
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018170893A Active JP7316771B2 (en) | 2018-09-12 | 2018-09-12 | Learning device, parameter creation method, neural network, and information processing device using the same |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7316771B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7465500B2 (en) | 2020-05-20 | 2024-04-11 | 日本電信電話株式会社 | IMAGE PROCESSING METHOD, IMAGE PROCESSING APPARATUS AND PROGRAM |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012022535A (en) | 2010-07-15 | 2012-02-02 | Fujifilm Corp | Detector constitution device, method and program |
JP2016031746A (en) | 2014-07-30 | 2016-03-07 | キヤノン株式会社 | Information processing apparatus and information processing method |
-
2018
- 2018-09-12 JP JP2018170893A patent/JP7316771B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012022535A (en) | 2010-07-15 | 2012-02-02 | Fujifilm Corp | Detector constitution device, method and program |
JP2016031746A (en) | 2014-07-30 | 2016-03-07 | キヤノン株式会社 | Information processing apparatus and information processing method |
Non-Patent Citations (2)
Title |
---|
LIU Yu et al.,Learning Relaxed Deep Supervision for Better Edge Detection,2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) [online],2016年,pp. 231-240,[2022年8月23日検索], インターネット<URL : https://ieeexplore.ieee.org/document/7780401> |
久保田 涼介 ほか ,全層畳み込みニューラルネットワークを用いた透明物体の輪郭抽出,電子情報通信学会技術研究報告 PRMU2018-10,vol.118, No.35,2018年05月10日,pp.41-46 |
Also Published As
Publication number | Publication date |
---|---|
JP2020042664A (en) | 2020-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110414394B (en) | Facial occlusion face image reconstruction method and model for face occlusion detection | |
Lozes et al. | Partial difference operators on weighted graphs for image processing on surfaces and point clouds | |
US6263103B1 (en) | Estimating scenes using statistical properties of images and scenes | |
KR20190019822A (en) | System and method for semantic segmentation of images | |
CN112541864A (en) | Image restoration method based on multi-scale generation type confrontation network model | |
JP2007128195A (en) | Image processing system | |
CN112036260B (en) | Expression recognition method and system for multi-scale sub-block aggregation in natural environment | |
US11526963B2 (en) | Image processing apparatus, image processing method, and storage medium | |
EP1026634A2 (en) | Estimating targets using statistical properties of observations of know targets | |
CN110443775B (en) | Discrete wavelet transform domain multi-focus image fusion method based on convolutional neural network | |
CN114266894A (en) | Image segmentation method and device, electronic equipment and storage medium | |
JP2022536732A (en) | Systems and methods for removing noise and/or artifacts from OCT images using generative adversarial networks | |
KR101869266B1 (en) | Lane detection system based on extream learning convolutional neural network and method thereof | |
CN113807356B (en) | End-to-end low-visibility image semantic segmentation method | |
Huang et al. | ES-Net: An efficient stereo matching network | |
JP7316771B2 (en) | Learning device, parameter creation method, neural network, and information processing device using the same | |
CN113763535A (en) | Characteristic latent code extraction method, computer equipment and storage medium | |
CN116452992B (en) | Method for extracting center line of tubular structure of minimum path | |
CN111753980A (en) | Method for transferring features of a first image to a second image | |
KR101937585B1 (en) | Cost Aggregation Apparatus and Method for Depth Image Generation, and Recording Medium thereof | |
CN116258877A (en) | Land utilization scene similarity change detection method, device, medium and equipment | |
JP7073171B2 (en) | Learning equipment, learning methods and programs | |
JP2021527859A (en) | Irregular shape segmentation in an image using deep region expansion | |
CN113222867B (en) | Image data enhancement method and system based on multi-template image | |
CN113158970B (en) | Action identification method and system based on fast and slow dual-flow graph convolutional neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20210103 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210113 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210910 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220713 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220829 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221026 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230213 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230619 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230718 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7316771 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |