JP7316771B2 - Learning device, parameter creation method, neural network, and information processing device using the same - Google Patents

Learning device, parameter creation method, neural network, and information processing device using the same Download PDF

Info

Publication number
JP7316771B2
JP7316771B2 JP2018170893A JP2018170893A JP7316771B2 JP 7316771 B2 JP7316771 B2 JP 7316771B2 JP 2018170893 A JP2018170893 A JP 2018170893A JP 2018170893 A JP2018170893 A JP 2018170893A JP 7316771 B2 JP7316771 B2 JP 7316771B2
Authority
JP
Japan
Prior art keywords
learning
data
input data
neural network
different outputs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018170893A
Other languages
Japanese (ja)
Other versions
JP2020042664A (en
Inventor
晃一 丹治
敦史 野上
裕輔 御手洗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2018170893A priority Critical patent/JP7316771B2/en
Publication of JP2020042664A publication Critical patent/JP2020042664A/en
Application granted granted Critical
Publication of JP7316771B2 publication Critical patent/JP7316771B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、学習装置、パラメータの作成方法、ニューラルネットワーク及びこれを用いた情報処理装置に関し、より詳細には、例えば画像認識技術に関する。 The present invention relates to a learning device, a method of creating parameters, a neural network, and an information processing device using the same, and more particularly to image recognition technology, for example.

学習データを用いて階層型ネットワークの学習を行うことで、入力データを識別する識別器を生成する方法が知られている。一方、階層型ネットワークの層数が増えるにつれ、いわゆる勾配消失問題(重み係数の更新に必要なデルタを逆伝播させる際にデルタが消失又は発散してしまう)が顕在化し、学習の進行に障害が生じうることが知られている。 A method of generating a discriminator for discriminating input data by performing hierarchical network learning using learning data is known. On the other hand, as the number of layers in a hierarchical network increases, the so-called vanishing gradient problem (deltas disappear or diverge when backpropagating the deltas needed to update the weighting coefficients) becomes apparent, impeding the progress of learning. known to occur.

このような問題に対処するための方法として、deep supervisionと呼ばれる、ネットワークの中間層においても誤差評価及び誤差逆伝播を行う方法(以下、サイドアウト学習と呼ぶ)が知られている(非特許文献1)。また、画像の特徴量を抽出するように階層型ネットワークの学習を行うことに加えて、特定の特徴が存在する場合に特定のニューロンが活動するように学習を行うことにより、特徴に応じた的確な特徴量抽出を可能とする方法も知られている(特許文献1)。 As a method for coping with such a problem, a method called deep supervision, in which error evaluation and error backpropagation are performed even in the middle layer of the network (hereinafter referred to as side-out learning), is known (non-patent literature 1). In addition to training the hierarchical network to extract the feature values of an image, we also learned to activate specific neurons when specific features are present. There is also known a method that enables feature quantity extraction (Patent Document 1).

特開2016-31746号公報JP 2016-31746 A

Xie, S., Tu, Z. "Holistically-nested edge detection" ICCV, 1395-1403 (2015)Xie, S., Tu, Z. "Holistically-nested edge detection" ICCV, 1395-1403 (2015)

しかしながら、非特許文献1の方法においては、中間層からの出力に対する誤差評価の精度が低くなり、好ましい最終学習結果が得られない可能性があることが見出された。 However, in the method of Non-Patent Document 1, it was found that the error evaluation accuracy for the output from the intermediate layer is low, and there is a possibility that a favorable final learning result cannot be obtained.

本発明は、ニューラルネットワークの学習をより効果的に行うことを目的とする。 SUMMARY OF THE INVENTION It is an object of the present invention to make neural network learning more effective.

本発明の目的を達成するために、例えば、本発明の学習装置は以下の構成を備える。すなわち、
画像の各画素の属性判定処理に用いられるニューラルネットワークの学習を行う学習装置であって、
単一の学習用入力データに対応する、ニューラルネットワークからの2以上の異なる出力のそれぞれについての教師データを設定する設定手段と、
前記学習用入力データを前記ニューラルネットワークに入力して得られる、前記2以上の異なる出力のそれぞれと、前記出力に対応する教師データと、の誤差に基づいて、前記ニューラルネットワークの学習を行う学習手段と、を備え、
前記2以上の異なる出力のそれぞれについての教師データは、前記単一の学習用入力データに対応する基本教師データに対するそれぞれ異なる変形処理又はフィルタ処理の結果を示し、前記基本教師データは、前記単一の学習用入力データが示す各画素の属性を示す画像データであることを特徴とする。
In order to achieve the object of the present invention, for example, the learning device of the present invention has the following configuration. i.e.
A learning device for learning a neural network used for attribute determination processing of each pixel of an image ,
setting means for setting teacher data for each of two or more different outputs from the neural network corresponding to a single input data for learning;
Learning means for learning the neural network based on the error between each of the two or more different outputs obtained by inputting the learning input data to the neural network and teacher data corresponding to the output. and
The training data for each of the two or more different outputs indicates the results of different deformation processing or filtering processing on the basic training data corresponding to the single learning input data, and the basic training data is the single learning input data. is image data indicating the attribute of each pixel indicated by the input data for learning .

ニューラルネットワークの学習をより効果的に行うことができる。 Neural network learning can be performed more effectively.

一実施形態に係る学習装置の一例を示す機能構成図。1 is a functional configuration diagram showing an example of a learning device according to an embodiment; FIG. 一実施形態に係るパラメータ生成方法の一例を示すフローチャート。4 is a flowchart illustrating an example of a parameter generation method according to one embodiment; サイドアウト学習を行う階層型ネットワークの一例を示す模式図。Schematic diagram showing an example of a hierarchical network that performs side-out learning. サイドアウト出力とGTの関係を説明するための図。FIG. 4 is a diagram for explaining the relationship between side-out output and GT; 従来技術に従ってサイドアウト学習を行う場合の課題を説明するための図。FIG. 10 is a diagram for explaining a problem when side-out learning is performed according to the conventional technology; 一実施形態に係る適合的GTの生成方法を説明する図。FIG. 4 is a diagram for explaining a method of generating adaptive GTs according to one embodiment; 一実施形態に係る適合的GTの生成方法を説明する図。FIG. 4 is a diagram for explaining a method of generating adaptive GTs according to one embodiment; 一実施形態に係る適合的GTの生成方法を説明する図。FIG. 4 is a diagram for explaining a method of generating adaptive GTs according to one embodiment; 一実施形態に係る適合的GTの生成方法を説明する図。FIG. 4 is a diagram for explaining a method of generating adaptive GTs according to one embodiment; 一実施形態に係る適合的GTの生成方法を説明する図。FIG. 4 is a diagram for explaining a method of generating adaptive GTs according to one embodiment; 一実施形態で用いられるコンピュータの概略ブロック図。1 is a schematic block diagram of a computer used in one embodiment; FIG.

以下、本発明の実施形態について、フローチャートと図面とを参照しながら具体的に説明する。なお、以下の具体例は本発明に係る実施形態の一例ではあるが、本発明は以下の具体的形態に限定されるものではない。本発明は、学習データを用いた階層型ネットワーク(以下、ニューラルネットワーク又は単にネットワークと呼ぶことがある)の学習に適用することができ、階層型ネットワークの学習が行われるいかなる手法にも適用可能である。 Hereinafter, embodiments of the present invention will be specifically described with reference to flowcharts and drawings. In addition, although the following specific examples are examples of embodiments according to the present invention, the present invention is not limited to the following specific forms. INDUSTRIAL APPLICABILITY The present invention can be applied to learning a hierarchical network (hereinafter sometimes referred to as a neural network or simply a network) using learning data, and can be applied to any method for learning a hierarchical network. be.

図1は、実施形態1に係る学習装置100の機能構成の一例を示す。学習装置100は、階層型ネットワークの学習を行う。基本データ記憶部101は、学習に用いる基本学習データを保持する。学習データとは、ネットワークの学習に用いられる教師データ(以下、GTと呼ぶことがある)である。本実施形態においては、学習用入力データと、学習用入力データに対する判定結果を示す教師データ(学習データ)と、を用いてネットワークの学習が行われる。 FIG. 1 shows an example of the functional configuration of a learning device 100 according to the first embodiment. The learning device 100 learns a hierarchical network. The basic data storage unit 101 holds basic learning data used for learning. Learning data is teacher data (hereinafter sometimes referred to as GT) used for network learning. In the present embodiment, learning of the network is performed using input data for learning and teacher data (learning data) indicating determination results for the input data for learning.

例えば、一実施形態においては、ネットワークを用いて画像の各画素についての属性判定(ラベリング)を行うことができる。すなわち、入力データとして画像データをネットワークに入力すると、入力データに対する判定処理の結果として、画像データの各画素の属性情報(ラベル)が得られる。例えば、画像の輪郭抽出を行う具体的な一例において、入力データに対する判定処理の結果としては、入力データに対応する輪郭パターン(輪郭であるか否かを示す属性情報を画素値として有する画像)が得られる。このように、一実施形態において、入力データに対する処理結果は、入力データに対応する(輪郭パターンのような)線画パターンでありうる。 For example, in one embodiment, a network can be used to perform attribute determination (labeling) for each pixel of an image. That is, when image data is input to the network as input data, attribute information (label) of each pixel of the image data is obtained as a result of determination processing on the input data. For example, in a specific example of extracting the contour of an image, as a result of determination processing for input data, a contour pattern (an image having attribute information indicating whether or not it is a contour as a pixel value) corresponding to the input data is obtained. can get. Thus, in one embodiment, the result of processing the input data may be a line drawing pattern (such as a contour pattern) corresponding to the input data.

このような構成において、学習用入力データは画像データであり、学習データは学習用入力データの各画素についてのラベル(判定結果)を示すデータである。例えば、学習用入力データは、例えば文字又は図形等を含む画像でありうる。そして、画像の輪郭抽出を行う具体的な一例において、学習データは学習用入力データである画像中の輪郭を示す画像であり、例えばユーザ入力に従って作成されたものでありうる。基本データ記憶部は、学習データと組み合わせて、このような学習用入力データをさらに保持することができる。本明細書において、基本学習データ(基本教師データ)は設定部102による加工又は変形のような処理が行われる前の学習データ(教師データ)を指す。 In such a configuration, the input data for learning is image data, and the learning data is data indicating a label (determination result) for each pixel of the input data for learning. For example, the input data for learning can be an image including characters, graphics, or the like. In a specific example of extracting the contour of an image, the learning data is an image showing the contour in the image, which is the input data for learning, and can be created according to user input, for example. The basic data storage unit can further hold such learning input data in combination with learning data. In this specification, basic learning data (basic teacher data) refers to learning data (teacher data) before processing such as processing or transformation by the setting unit 102 is performed.

設定部102は、ネットワークの学習に用いる学習データを設定する。また、適合的データ記憶部103は、設定部102により設定された学習データを保持する。一実施形態において、設定部102は、基本学習データに対して加工、変形、又はフィルタ処理のような処理を行うことにより、学習データを生成する。設定部102は、このように生成した学習データを適合的データ記憶部103に格納することにより、ネットワークの学習に用いる学習データ(以下、適合的学習データ、適合的教師データ、又は適合的GTと呼ぶことがある)を設定する。設定部102は、さらに、元の基本学習データを適合的データ記憶部103に格納してもよい。後述するように、設定部102は、単一の学習用入力データに対応する、階層型ネットワークからの2以上の異なる出力のそれぞれについての学習データ(適合的教師データ)を設定する。 The setting unit 102 sets learning data used for network learning. Also, the adaptive data storage unit 103 holds learning data set by the setting unit 102 . In one embodiment, the setting unit 102 generates learning data by processing, transforming, or filtering the basic learning data. The setting unit 102 stores the learning data generated in this way in the adaptive data storage unit 103 to obtain learning data used for network learning (hereinafter referred to as adaptive learning data, adaptive teacher data, or adaptive GT). (sometimes called). Setting section 102 may further store the original basic learning data in adaptive data storage section 103 . As will be described later, the setting unit 102 sets learning data (adaptive teacher data) for each of two or more different outputs from the hierarchical network corresponding to single learning input data.

学習部104は、適合的データ記憶部103に格納された学習データを読み込み、ネットワークの学習処理を行う。また、学習部104は、学習により得られた最終的な学習結果(例えば、ネットワークのパラメータ)を、学習結果記憶部105に格納する。階層型ネットワークの学習方法としては、公知の方法を用いることができる。例えば、階層型ネットワークにおける順伝搬計算の結果得られた出力値の誤差をこのネットワークにおいて逆伝播させることにより、ネットワークの結合状態に対応する重み係数その他のパラメータを反復的に更新することができる。後述するように、本実施形態において学習部104は、学習用入力データをネットワークに入力して得られる、2以上の異なる出力のそれぞれと、出力に対応する学習データ(適合的教師データ)と、の誤差に基づいて、階層型ネットワークの学習を行う。 The learning unit 104 reads learning data stored in the adaptive data storage unit 103 and performs network learning processing. Also, the learning unit 104 stores the final learning result (for example, network parameters) obtained by learning in the learning result storage unit 105 . A known method can be used as a learning method for the hierarchical network. For example, by back-propagating in this network the errors in the output values resulting from the forward propagation calculations in the hierarchical network, the weighting factors and other parameters corresponding to the connectivity states of the network can be iteratively updated. As will be described later, in the present embodiment, the learning unit 104 includes two or more different outputs obtained by inputting learning input data to a network, learning data corresponding to the outputs (adaptive teacher data), The hierarchical network is trained based on the error of

テストデータ記憶部106は、ネットワークの評価に用いるテストデータを保持する。評価部107は、テストデータを用いてネットワークの評価を行う。このようにして得られた学習後の階層型ネットワークは、後述するように、入力データに対応する2以上の異なる出力を与える。こうして得られた2以上の異なる出力の統合結果が、入力データに対する認識処理の結果を示す。 The test data storage unit 106 holds test data used for network evaluation. The evaluation unit 107 evaluates the network using test data. The hierarchical network after learning thus obtained provides two or more different outputs corresponding to the input data, as will be described later. The integration result of two or more different outputs obtained in this manner indicates the result of recognition processing for the input data.

図2は本実施形態に係る学習方法のフローチャートである。以下、このフローチャートに沿って説明する。ステップS210において設定部102は、基本データ記憶部101から基本学習データを読み込む。ステップS220において、設定部102は、基本学習データに基づいて、適合的学習データを設定する。ここで、設定部102は、階層型ネットワークの構造に基づいて、2以上の異なる出力のそれぞれについての学習データ(適合的教師データ)を設定する。設定される適合的学習データは、階層型ネットワークを形成するユニットの構成又はそれらの結合状態に依存しうる。以下では、一例として、サイドアウト学習(最終層の出力誤差だけではなく、中間層の出力誤差にも基づいて学習を行う手法であり、詳細は後述する)を行う場合について説明する。 FIG. 2 is a flow chart of the learning method according to this embodiment. Description will be made below along this flow chart. In step S<b>210 , the setting unit 102 reads basic learning data from the basic data storage unit 101 . In step S220, the setting unit 102 sets adaptive learning data based on the basic learning data. Here, the setting unit 102 sets learning data (adaptive teacher data) for each of two or more different outputs based on the structure of the hierarchical network. The adaptive learning data to be set can depend on the configuration of the units forming the hierarchical network or their connection state. In the following, as an example, a case of performing side-out learning (a method of performing learning based not only on the output error of the final layer but also on the output error of the intermediate layer, the details of which will be described later) will be described.

ステップS230において、学習部104は、ステップS220で設定された適合的学習データを用いて、階層的ネットワークの学習を行う。本実施形態で用いられるネットワークはサイドアウト(中間層からの出力)を有しており、このサイドアウトに基づいて判定結果を得ることができる。具体的な学習方法については後述する。 In step S230, the learning unit 104 performs hierarchical network learning using the adaptive learning data set in step S220. The network used in this embodiment has a side-out (output from the intermediate layer), and the determination result can be obtained based on this side-out. A specific learning method will be described later.

ステップS240において、学習部104は、ステップS230における学習を終了するか否かを判定する。例えば、学習部104は、ネットワークの学習結果が所定の基準に達した際に、学習を終了すると判定することができる。一例として、評価部107は、テストデータ記憶部106に格納されているテストデータ(評価用のデータ)を用いて、ネットワークの誤認識率を評価することができる。このテストデータは、例えば、基本データ記憶部101が格納しているデータとは異なる、学習用入力データと、学習用入力データに対する判定結果を示す教師データと、のセットでありうる。また、誤認識率は、評価に用いたテストデータ全体のうち、誤った認識結果が得られたテストデータの比率として定義することができる。そして、ネットワークの誤認識率が所定の閾値以下となっている場合に、学習部104は、学習を終了すると判定することができる。学習を終了しない場合、処理はステップS230に戻り、学習部104が再びネットワークの学習を行う。一方、学習を終了する場合、処理はステップS250に進み、ここで学習部104は最終的な学習結果(例えば、後述するようなネットワークの重みパラメータ及び中間層準出力の結合係数)を、学習結果記憶部105に格納する。 In step S240, the learning unit 104 determines whether or not to end the learning in step S230. For example, the learning unit 104 can determine to end learning when the learning result of the network reaches a predetermined criterion. As an example, the evaluation unit 107 can use the test data (evaluation data) stored in the test data storage unit 106 to evaluate the recognition error rate of the network. This test data can be, for example, a set of learning input data different from the data stored in the basic data storage unit 101 and teacher data indicating the determination result for the learning input data. In addition, the false recognition rate can be defined as the ratio of test data with false recognition results to all the test data used for evaluation. Then, when the recognition error rate of the network is equal to or less than a predetermined threshold, the learning unit 104 can determine that learning is finished. If the learning is not finished, the process returns to step S230, and the learning unit 104 learns the network again. On the other hand, when the learning ends, the process proceeds to step S250, where the learning unit 104 converts the final learning result (for example, the weight parameter of the network and the coupling coefficient of the intermediate stratified output as described later) to the learning result Stored in the storage unit 105 .

本実施形態に係る学習装置100は、図1に示す機能構成を実現する装置によって実現することができる。例えば、学習装置100は、各処理部を実現する専用のハードウェアを有していてもよい。一方で、一部又は全部の処理部が、コンピュータにより実現されてもよい。 The learning device 100 according to this embodiment can be implemented by a device that implements the functional configuration shown in FIG. For example, the learning device 100 may have dedicated hardware that implements each processing unit. On the other hand, part or all of the processing units may be implemented by a computer.

図11は、学習装置100又はその処理部として動作可能なコンピュータの基本構成を示す図である。図11においてプロセッサ1110は、例えばCPUであり、コンピュータ全体の動作をコントロールする。メモリ1120は、例えばRAMであり、プログラム及びデータ等を一時的に記憶する。コンピュータが読み取り可能な記憶媒体1130は、例えばハードディスク又はCD-ROM等であり、プログラム及びデータ等を長期的に記憶する。本実施形態においては、記憶媒体1130が格納している、各部の機能を実現するプログラムが、メモリ1120へと読み出される。そして、プロセッサ1110が、メモリ1120上のプログラムに従って動作することにより、各部の機能が実現される。また、メモリ1120又は記憶媒体1130は、基本データ記憶部101、適合的データ記憶部103、学習結果記憶部105、又はテストデータ記憶部106のような記憶部として動作することもできる。 FIG. 11 is a diagram showing the basic configuration of a computer that can operate as the learning device 100 or its processing unit. A processor 1110 in FIG. 11 is, for example, a CPU, and controls the operation of the entire computer. The memory 1120 is, for example, a RAM, and temporarily stores programs, data, and the like. The computer-readable storage medium 1130 is, for example, a hard disk or CD-ROM, and stores programs, data, and the like for a long period of time. In this embodiment, a program that implements the function of each unit stored in the storage medium 1130 is read into the memory 1120 . The processor 1110 operates in accordance with the programs on the memory 1120 to implement the functions of each unit. The memory 1120 or storage medium 1130 can also act as a storage unit such as the basic data storage unit 101 , adaptive data storage unit 103 , learning result storage unit 105 , or test data storage unit 106 .

図11において、入力インタフェース1140は外部の装置から情報を取得するためのインタフェースである。また、出力インタフェース1150は外部の装置へと情報を出力するためのインタフェースである。バス1160は、上述の各部を接続し、データのやりとりを可能とする。 In FIG. 11, an input interface 1140 is an interface for acquiring information from an external device. An output interface 1150 is an interface for outputting information to an external device. A bus 1160 connects the above units and enables data exchange.

(階層型ネットワークの構成及び学習方法)
以下、本実施形態において使用可能な階層型ネットワークの例及びステップS230で行われるネットワークの学習について説明する。図3は、階層型ネットワークの一例を示す。図3のネットワークは、3つの中間層群302,303,304によって構成されている。それぞれの中間層群の具体的な構成は特に限定されないが、例えば、畳み込み層、プーリング層、及びフルコネクト層のうち1以上の組み合わせにより構成されていてもよい。
(Hierarchical network configuration and learning method)
An example of a hierarchical network that can be used in this embodiment and the learning of the network performed in step S230 will be described below. FIG. 3 shows an example of a hierarchical network. The network of FIG. 3 is made up of three hidden layer groups 302 , 303 and 304 . Although the specific configuration of each intermediate layer group is not particularly limited, for example, it may be configured by a combination of one or more of a convolutional layer, a pooling layer, and a fully connected layer.

本実施形態において、階層型ネットワークからは、単一の入力データに対応する2以上の異なる出力が得られる。例えば、図3のネットワークにおいては、2以上の異なる階層から出力が得られる。すなわち、図3のネットワークにおいては、中間層群302,303,304のそれぞれから中間層準出力307,308,309が得られる。そして、中間層準出力307,308,309を統合することにより統合出力305が得られる。この統合出力305に基づいて、入力301に対する判定結果が得られる。すなわち、学習データを入力301として入力すると、中間層群302、中間層群303、中間層群304を経て、統合出力305が得られる。本実施形態では、一例として、中間層群302は2つの畳み込み層から、中間層群303は1つのプーリング層及び続く2つの畳み込み層から、中間層群304も1つのプーリング層及び続く2つの畳み込み層から構成されるものとする。 In this embodiment, the hierarchical network provides two or more different outputs corresponding to a single input data. For example, in the network of FIG. 3, outputs are available from two or more different layers. That is, in the network of FIG. 3, hidden layer sub-outputs 307, 308, and 309 are obtained from hidden layer groups 302, 303, and 304, respectively. An integrated output 305 is obtained by integrating the intermediate layer sub-outputs 307 , 308 , and 309 . Based on this integrated output 305, the determination result for the input 301 is obtained. That is, when learning data is input as an input 301, an integrated output 305 is obtained via an intermediate layer group 302, an intermediate layer group 303, and an intermediate layer group 304. FIG. In this embodiment, as an example, hidden layers 302 are made from two convolution layers, hidden layers 303 are made from one pooling layer followed by two convolution layers, and hidden layers 304 are also made from one pooling layer followed by two convolution layers. It shall consist of layers.

本実施形態において、ネットワークの学習は、それぞれの中間層群からのサイドアウト学習によって行われる。通常、階層型ネットワークを用いる場合、最終出力のみに対して誤差評価が行われ、そして誤差逆伝播法によってネットワークの学習が行われる。一方、サイドアウト学習においては、中間層群からの出力に対しても誤差評価が行われる。そして、誤差の情報を中間層群にも入力し、これを逆伝播させることができる。例えば、非特許文献1のHED(Holistically-nested Edge Detection)は、階層型ネットワークを用いて輪郭抽出(入力対象画像中に含まれる物体の輪郭部分を抽出する)を行う方法を開示している。非特許文献1においては、サイドアウト学習を用いており、具体的には中間層部分においても学習データとの誤差評価を行い、誤差逆伝播法を用いてネットワークの学習を行っている。 In this embodiment, the training of the network is done by side-out learning from each hidden layer. Usually, when using hierarchical networks, error estimation is performed only on the final output, and the network is trained by error backpropagation. On the other hand, in side-out learning, error evaluation is also performed on the output from the hidden layer group. Then, error information can also be input to the hidden layers and backpropagated. For example, HED (Holistically-nested Edge Detection) in Non-Patent Document 1 discloses a method of performing contour extraction (extracting the contour portion of an object included in an input target image) using a hierarchical network. In Non-Patent Document 1, side-out learning is used, and more specifically, error evaluation with learning data is performed even in the intermediate layer, and network learning is performed using error backpropagation.

本実施形態の場合、それぞれの中間層群302,303,304から、中間層準出力307,308,309がサイドアウト学習用に出力される。そして、それぞれ中間層準出力307,308,309と学習データ(GT)との誤差である、中間層誤差310,311,312が算出される。ここで、中間層誤差310はlside と、中間層誤差311はlside と、中間層誤差312はlside と、それぞれ表される。このように評価された中間層誤差310,311,312の総和を計算することにより、中間層全体での誤差評価値(式(1)のLside)が得られる。

Figure 0007316771000001
In the case of this embodiment, hidden layer sub-outputs 307, 308, and 309 are output from respective hidden layer groups 302, 303, and 304 for side-out learning. Then, hidden layer errors 310, 311, and 312, which are errors between the hidden layer sub-outputs 307, 308, and 309 and the learning data (GT), respectively, are calculated. Here, the hidden layer error 310 is denoted as l side 1 , the hidden layer error 311 as l side 2 , and the hidden layer error 312 as l side 3 , respectively. By calculating the sum of the intermediate layer errors 310, 311, and 312 evaluated in this way, an error evaluation value (L side in Equation (1)) for the entire intermediate layer is obtained.
Figure 0007316771000001

誤差の評価方法は特に限定されない。例えば、GTのラベル値が0と1の2値である場合には、式(2)に示されるようにクロスエントロピーを用いて中間層mの誤差評価値Lside を規定することができる。式(2)において、y は中間層mの各画素の出力値を表す。Y は、中間層mに与えるGTのうちポジティブ(ラベル値が1)である領域を、Y は中間層mに与えるGTのうちネガティブ(ラベル値が0)である領域を、それぞれ表す。そして、Σは全画素についての和を意味する。βはGTのうちポジティブなものとネガティブなものとの比率のアンバランスを補正する係数であり、例えば、GT全体の画素数に対するネガティブな領域の画素数の比率として定義することができる。この値βは、GT毎に算出され設定されてもよいし、全GTに対して同じ値(例えば、各GTについての値βの平均値)が設定されてもよい。

Figure 0007316771000002
The error evaluation method is not particularly limited. For example, if the label value of GT is a binary value of 0 and 1, the cross entropy can be used to define the error evaluation value L side m of the hidden layer m as shown in equation (2). In equation (2), y j m represents the output value of each pixel in intermediate layer m. Y + m represents a positive region (with a label value of 1) out of the GT given to the intermediate layer m, and Y m represents a negative region (with a label value of 0) out of the GT given to the intermediate layer m. show. Σ means the sum of all pixels. β is a coefficient for correcting an imbalance in the ratio of positive and negative GTs, and can be defined, for example, as the ratio of the number of pixels in the negative region to the number of pixels in the entire GT. This value β may be calculated and set for each GT, or the same value (for example, the average value of the values β for each GT) may be set for all GTs.
Figure 0007316771000002

また、統合出力305は、入力データに対応する2以上の異なる出力を統合することにより得ることができる。例えば、中間層準出力307,308,309の線形和を求めることにより、中間層準出力307,308,309を重ね合わせることができる。そして、こうして得られた線形和に対してさらにシグモイド関数のような活性化関数σを作用させることにより、統合出力305を得ることができる。ここで、中間層準出力307をAside と、中間層準出力308をAside と、中間層準出力309をAside と、それぞれ表すことができる。この場合、例えば式(3)に従うYfuseを、統合出力305として得ることができる。統合出力305を得る際に用いる各中間層準出力307,308,309の重みも、学習により決定することができる。例えば、式(3)に示される線形和の結合係数hも、学習により決定することができる。

Figure 0007316771000003
Alternatively, integrated output 305 can be obtained by integrating two or more different outputs corresponding to the input data. For example, the hidden layer sub-outputs 307, 308, 309 can be overlaid by taking a linear sum of the hidden layer sub-outputs 307, 308, 309. FIG. Then, an integrated output 305 can be obtained by applying an activation function σ such as a sigmoid function to the linear sum thus obtained. Here, the hidden level output 307 can be represented as A side 1 , the hidden level output 308 as A side 2 , and the hidden level output 309 as A side 3 , respectively. In this case, for example, Y fuse according to equation (3) can be obtained as integrated output 305 . The weights of the intermediate layer sub-outputs 307, 308, and 309 used to obtain the integrated output 305 can also be determined by learning. For example, the linear sum coupling coefficient h m shown in equation (3) can also be determined by learning.
Figure 0007316771000003

本実施形態では、統合出力305とGTとの誤差である、統合誤差313も評価される。例えば、式(4)に従って、統合出力YfuseとGTのラベル値Yとの誤差であるLfuseを、統合誤差313として得ることができる。式4においてDist()は、YとYfuseとの誤差評価に用いる距離関数を意味し、この関数としては例えばクロスエントロピーを用いることができる。

Figure 0007316771000004
In this embodiment, the integrated error 313, which is the error between the integrated output 305 and the GT, is also evaluated. For example, L fuse , which is the error between the integrated output Y fuse and the GT label value Y, can be obtained as the integrated error 313 according to equation (4). In Equation 4, Dist() means a distance function used for error evaluation between Y and Y fuse , and cross entropy, for example, can be used as this function.
Figure 0007316771000004

ネットワーク全体の誤差は、統合誤差313(Lfuse)と、各中間層誤差310,311,312の総和(Lside)と、にしたがって得ることができる。例えば、ネットワーク全体の誤差は、式(5)で示されるLtotalでありうる。階層型ネットワーク内の各重みパラメータ及び上記中間層準出力の結合係数(h)は、このネットワーク全体の誤差(Ltotal)を最小化するように、学習によって決定することができる。

Figure 0007316771000005
The overall network error can be obtained according to the integration error 313 (L fuse ) and the sum of each hidden layer error 310, 311, 312 (L side ). For example, the overall network error can be L total given in equation (5). Each weight parameter in the hierarchical network and the coupling coefficient (h m ) of the above intermediate layer sub-outputs can be determined by learning so as to minimize the error (L total ) of the entire network.
Figure 0007316771000005

上記のような階層型ネットワークの構成及び学習方法は、例えば非特許文献1にも記載されている通りである。一方、本実施形態においては、中間層誤差310,311,312を得る際に、それぞれの中間層群302,303,304(又は中間層準出力307,308,309)に合わせて設定された、適合的学習データが用いられる。すなわち、中間層誤差310,311,312は、それぞれの中間層群302,303,304に合わせて設定された適合的GT306-1,306-2,306-3と、中間層準出力307,308,309と、の誤差として定義される。以下、この構成について説明する。 The configuration of the hierarchical network as described above and the learning method are as described in Non-Patent Document 1, for example. On the other hand, in this embodiment, when obtaining the hidden layer errors 310, 311, and 312, it is set according to the respective hidden layer groups 302, 303, and 304 (or the hidden layer sub-outputs 307, 308, and 309), Adaptive learning data is used. That is, the hidden layer errors 310, 311, and 312 are the adaptive GTs 306-1, 306-2, and 306-3 set in accordance with the respective hidden layer groups 302, 303, and 304, and the hidden layer standard outputs 307, 308 , 309 and . This configuration will be described below.

図4は、例えば階層型ネットワークを画像からの輪郭抽出に適用する場合における、ネットワークのサイドアウト学習について説明する図である。図4は、非特許文献1のように、同じGT(基本学習データに相当)を用いて、各中間層準出力の誤差評価をする場合を、模式的に表している。図4は、統合出力305、及び中間層群302~304からの中間層準出力307~309と、GT306との関係を表す。 FIG. 4 is a diagram for explaining side-out learning of a network when applying a hierarchical network to contour extraction from an image, for example. FIG. 4 schematically shows a case where the same GT (corresponding to basic learning data) is used as in Non-Patent Document 1 to evaluate the error of each intermediate layer sub-output. FIG. 4 shows the relationship between the GT 306 and the integrated output 305 and the hidden sub-outputs 307-309 from the hidden layers 302-304.

畳み込みニューラルネットワークのような階層型ネットワークにおいては、通常、畳み込み層の後にプーリング層が配置される。プーリング層を配置することにより、畳み込み層で抽出された特徴の位置感度が低下し、プーリング層からの出力が位置変化に対するロバストネスを得ることができる。 In hierarchical networks such as convolutional neural networks, pooling layers are usually placed after the convolutional layers. By arranging the pooling layer, the position sensitivity of the features extracted by the convolutional layer is reduced, and the output from the pooling layer can obtain robustness against changes in position.

例えば、プーリング層においてストライド2の2×2MAXプーリングを行うと、プーリングにより2×2の4画素のうち最大値のみが出力される。上述のように、図3の例において中間層群303,304はそれぞれ1層のプーリング層を有している。したがって、例えば128×128サイズの学習用入力データである画像をネットワークに入力し、これらのプーリング層がストライド2の2×2MAXプーリングを行う場合、中間層群303からは64×64サイズの出力が得られる。また、中間層群304からは32×32サイズの出力が得られる。 For example, if 2×2 MAX pooling with stride 2 is performed in the pooling layer, the pooling will output only the maximum value among the 2×2 4 pixels. As described above, in the example of FIG. 3, the intermediate layer groups 303 and 304 each have one pooling layer. Therefore, for example, when an image that is training input data of 128×128 size is input to the network and these pooling layers perform 2×2 MAX pooling with stride 2, the intermediate layer group 303 outputs 64×64 size. can get. An output of 32×32 size is obtained from the intermediate layer group 304 .

一方、GT(基本学習データに相当)は通常、学習用入力データと同サイズの画像(例えば輪郭画像)である。したがって、中間層準出力をGTと比較して誤差評価するために、中間層準出力はGTと同じサイズの128×128サイズに拡大される。すると、図4に示されるように、中間層準出力における1画素が、誤差評価の段階では、中間層準出力308の場合には2×2のサイズに、中間層準出力309の場合には4×4のサイズに拡大される。したがって、例えば輪郭抽出の場合においては、中間層準出力307及びGTにおける輪郭線幅が1ピクセルサイズだったとしても、中間層準出力308の輪郭線幅は2ピクセルサイズに、中間層準出力309の輪郭線幅は4ピクセルサイズになる。したがって、誤差を評価する際には、中間層準出力308,309においては、線幅の違いによる誤差の過大評価が生じる可能性がある。 On the other hand, GT (corresponding to basic learning data) is usually an image (for example, a contour image) of the same size as the learning input data. Therefore, in order to compare the hidden layer reference output with GT for error evaluation, the hidden layer reference output is enlarged to 128×128 size, which is the same size as GT. Then, as shown in FIG. 4, in the stage of error evaluation, one pixel in the intermediate layer reference output has a size of 2×2 in the case of the intermediate layer reference output 308, and is reduced to 2×2 in the case of the intermediate layer reference output 309. Enlarged to 4x4 size. Therefore, in the case of contour extraction, for example, even if the contour line width in the intermediate layer output 307 and GT is 1 pixel size, the line width in the intermediate layer output 308 is 2 pixel size, and in the intermediate layer output 309 has a width of 4 pixels. Therefore, when estimating the error, there is a possibility of overestimation of the error due to the difference in line width in the intermediate layer sub-outputs 308 and 309 .

図5は、GTと中間層準出力における線幅の相違によって、誤差が過大に評価される過程を模式的に示す。図5(A)に示すように、中間層準出力307とGT306において線幅の相違はないため、誤差評価においては、中間層群302から出力された輪郭パターンとGT306のパターンとの相違が評価される。一方、図5(B)に示すように、中間層準出力308とGT306との間には線幅の相違が存在するため、誤差評価においては、中間層群303から出力された輪郭パターンとGT306のパターンとの相違の他に、線幅の相違に起因する誤差も評価される。さらに、図5(C)に示すように、中間層準出力309とGT306との間にはより大きな線幅の相違が存在するため、線幅の相違に起因する誤差はより大きくなる。 FIG. 5 schematically shows the process of overestimating the error due to the difference in line width between the GT and the intermediate layer output. As shown in FIG. 5A, since there is no line width difference between the intermediate layer output 307 and the GT 306, the difference between the outline pattern output from the intermediate layer group 302 and the pattern of the GT 306 is evaluated in the error evaluation. be done. On the other hand, as shown in FIG. 5B, since there is a difference in line width between the intermediate layer output 308 and the GT 306, in the error evaluation, the outline pattern output from the intermediate layer group 303 and the GT 306 Errors due to line width differences are also evaluated, as well as differences from the pattern of . Furthermore, as shown in FIG. 5C, there is a larger linewidth difference between the intermediate layer output 309 and the GT 306, so the error due to the linewidth difference is larger.

図5(D)は、誤差が過大に評価される様子を模式的に示す。このように、中間層準出力に示される中間層群から出力された輪郭パターン510と、GT520と、の間に線幅の相違が存在する場合には、GTに示される輪郭線の両側に正しく誤差評価がなされない領域530が存在する。輪郭抽出の問題において正しく評価したいのは、出力とGTとのパターンの相違であるため、線幅の相違のようなそれ以外の誤差が評価されてしまうと好ましい最終学習結果が得られない可能性が生じる。 FIG. 5D schematically shows how the error is overestimated. In this way, when there is a difference in line width between the contour pattern 510 output from the intermediate layer group shown in the intermediate layer reference output and the GT 520, correct There is a region 530 where no error evaluation is made. What we want to evaluate correctly in the contour extraction problem is the pattern difference between the output and the GT. occurs.

非特許文献1には、中間層準出力の誤差に基づく学習に適した学習データを、基本学習データから生成するような処理は記載されていない。そして、最終的な統合出力の誤差に基づく学習データ(基本学習データに相当)と同一の学習データを用いて、各中間層準出力に基づくサイドアウト学習を行う場合、中間層準出力の誤差評価性能が低下し、学習の効率が低下する可能性があった。 Non-Patent Document 1 does not describe a process for generating learning data suitable for learning based on errors in intermediate layer standard outputs from basic learning data. Then, when performing side-out learning based on each hidden layer reference output using the same training data (equivalent to basic learning data) based on the error of the final integrated output, the error evaluation of the hidden layer reference output Performance could be degraded and learning less efficient.

このため、本実施形態において、設定部102は、単一の学習用入力データに対応する、ネットワークからの2以上の異なる出力のそれぞれについての教師データ(適合的GT)を設定する。例えば設定部102は、それぞれの中間層群(又は中間層準出力)ごとに適合的GTを設定することができる。このような構成により、線幅のような他の影響を低減して本来評価したい誤差をより正しく評価することが可能となる。その結果、サイドアウト学習の収束性及び得られる階層型ネットワークの性能向上を図ることができる。 Therefore, in this embodiment, the setting unit 102 sets teacher data (adaptive GT) for each of two or more different outputs from the network, corresponding to a single input data for learning. For example, the setting unit 102 can set an adaptive GT for each hidden layer group (or hidden layer reference output). With such a configuration, it is possible to reduce other influences such as line width and more accurately evaluate errors that are originally intended to be evaluated. As a result, it is possible to improve the convergence of side-out learning and the performance of the resulting hierarchical network.

このために、設定部102は、それぞれの中間層群ごとに、元の基本学習データを加工して得られた適合的学習データを設定することができる。例えば、設定部102は、中間層群ごとに、中間層準出力における線幅と誤差評価に用いる適合的GTの線幅とが近くなるように、又は少なくとも誤差評価が過大に行われないように、適合的学習データを生成することができる。このようにして、設定部102は、それぞれの中間層準出力に対して適切な誤差評価が行われるように、学習データを生成することができる。 For this reason, the setting unit 102 can set adaptive learning data obtained by processing the original basic learning data for each intermediate layer group. For example, for each hidden layer group, the setting unit 102 is set so that the line width in the hidden layer standard output and the line width of the adaptive GT used for error evaluation are close to each other, or at least so that the error evaluation is not performed excessively. , can generate adaptive training data. In this way, the setting unit 102 can generate learning data so that appropriate error evaluation is performed for each intermediate stratified output.

一方で、基本データ記憶部101は、単一の学習用入力データに対応する、階層型ネットワークからの2以上の異なる出力のそれぞれについての学習データ(適合的教師データ)を格納していてもよい。この場合、設定部102は、基本データ記憶部101から適合的学習データを取得して適合的データ記憶部103に格納してもよい。 On the other hand, the basic data storage unit 101 may store learning data (adaptive teacher data) for each of two or more different outputs from the hierarchical network corresponding to single learning input data. . In this case, setting section 102 may acquire adaptive learning data from basic data storage section 101 and store it in adaptive data storage section 103 .

(適合的学習データの設定方法)
以下、ステップS220における適合的学習データの設定方法の具体例を説明する。
(Method of setting adaptive learning data)
A specific example of a method for setting adaptive learning data in step S220 will be described below.

図6は、本実施形態における適合的学習データの設定方法を、図3の階層的ネットワークを用いる場合について説明する図である。図6(A)は、中間層準出力307に示される輪郭パターンと、中間層準出力307の誤差評価用のGT601に示されるポジティブ領域(輪郭パターンを表し、以下単にGTと呼ぶことがある)と、を示す。同様に、図6(B)及び図6(C)は、中間層準出力308,309に示される輪郭パターンと、中間層準出力308,309の誤差評価用のGT602,603に示される輪郭パターンと、を示す。既に説明したように、中間層準出力308,309の解像度と、GTの解像度とが一致するように、中間層準出力308,309はGTに合わせて拡大される。これに合わせて、中間層準出力308,309に示される輪郭パターンの線幅も大きくなる。 FIG. 6 is a diagram for explaining a method of setting adaptive learning data according to the present embodiment in the case of using the hierarchical network of FIG. FIG. 6A shows the contour pattern shown in the intermediate layer reference output 307 and the positive area (representing the contour pattern, hereinafter simply referred to as GT) indicated by the GT 601 for error evaluation of the intermediate layer reference output 307. and indicate. Similarly, FIGS. 6(B) and 6(C) show the contour patterns shown in the intermediate layer sub-outputs 308 and 309 and the contour patterns shown in the GTs 602 and 603 for error evaluation of the intermediate layer sub-outputs 308 and 309. and indicate. As already explained, the hidden layer standard outputs 308 and 309 are expanded to match the GT so that the resolution of the hidden layer standard outputs 308 and 309 matches the resolution of the GT. Correspondingly, the line width of the contour pattern shown in the intermediate layer sub-outputs 308 and 309 also increases.

したがって、設定部102は、2以上の異なる出力についての教師データを、2以上の異なる出力の解像度に基づいて設定することができる。例えば、設定部102は、中間層準出力307~309用のGT601~603を、中間層準出力307~309の解像度に基づいて設定することができる。本実施形態において、設定部102は、2以上の異なる出力のそれぞれに対応する幅を有する線画パターンを、2以上の異なる出力についての教師データとして設定する。例えば、設定部102は、中間層準出力307~309の解像度に対応する幅を有する線画パターンを示すGT601~603を、中間層準出力307~309の評価用に設定することができる。 Therefore, the setting unit 102 can set teacher data for two or more different outputs based on the resolutions of the two or more different outputs. For example, the setting unit 102 can set the GTs 601-603 for the intermediate layer output 307-309 based on the resolution of the intermediate layer output 307-309. In this embodiment, the setting unit 102 sets a line drawing pattern having a width corresponding to each of two or more different outputs as teacher data for two or more different outputs. For example, the setting unit 102 can set GTs 601 to 603 representing line drawing patterns having widths corresponding to the resolutions of the intermediate layer standard outputs 307 to 309 for evaluation of the intermediate layer standard outputs 307 to 309 .

具体的には、中間層準出力とGTに示される、輪郭を表す線画パターンの線幅が近くなるように、中間層準出力308,309用のGT602,603の線幅が大きくされる。より具体的には、図6の例において、中間層準出力307,308,309用のGT601,602,603に示される輪郭パターンの線幅は、それぞれ1,2,4である。このように設定部102は、中間層準出力の解像度が大きい(画素数が多い)場合と比較して、解像度が小さい(画素数が少ない)場合に、線画パターンの線幅が大きくなるように、適合的GTを設定することができる。例えば設定部102は、適合的GTに示される線画パターンの線幅が、(基本学習データの解像度/中間層準出力の解像度)にほぼ一致するように、適合的GTを設定することができる。 Specifically, the line widths of the GTs 602 and 603 for the intermediate layer reference outputs 308 and 309 are increased so that the line widths of the contour-representing line drawing patterns shown in the intermediate layer reference outputs and GT are close to each other. More specifically, in the example of FIG. 6, the line widths of the contour patterns shown in GTs 601, 602, 603 for intermediate layer sub-outputs 307, 308, 309 are 1, 2, 4, respectively. In this way, the setting unit 102 sets the line width of the line drawing pattern to be larger when the resolution of the intermediate layer output is low (the number of pixels is small) compared to when the resolution is high (the number of pixels is large). , adaptive GT can be set. For example, the setting unit 102 can set the adaptive GT such that the line width of the line drawing pattern shown in the adaptive GT substantially matches (the resolution of the basic training data/the resolution of the intermediate layered output).

設定部102は、基本学習データを用いて、中間層準出力の誤差評価用の適合的学習データを生成することができる。本実施形態の場合、設定部102は、学習用入力データに対応する線画パターンである基本教師データを用いて適合的学習データを生成することができる。設定部102は、例えば図9(D)のフローチャートに従って、中間層準出力307~309の誤差評価用の適合的学習データ(GT911~913)を生成することができる。 The setting unit 102 can use the basic learning data to generate adaptive learning data for error evaluation of the intermediate layer standard output. In the case of this embodiment, the setting unit 102 can generate adaptive learning data using basic teacher data, which is a line drawing pattern corresponding to learning input data. The setting unit 102 can generate adaptive learning data (GT911-913) for error evaluation of the intermediate stratified outputs 307-309, for example, according to the flowchart of FIG. 9(D).

ステップS901において設定部102は、基本データ記憶部101に格納された基本学習データ(GT912)を取得する。ステップS902において設定部102は、GT912にフィルタ処理を行うことにより、GT911及びGT913を生成する。ステップS903において設定部102は、こうして得られたGT911~GT913を適合的データ記憶部103に格納することにより、各中間層準出力307~309用のGT911~913を設定できる。 In step S<b>901 , the setting unit 102 acquires basic learning data (GT 912 ) stored in the basic data storage unit 101 . In step S902, the setting unit 102 generates GT911 and GT913 by filtering the GT912. In step S903, the setting unit 102 stores GT911-GT913 thus obtained in the adaptive data storage unit 103, thereby setting GT911-913 for each of the intermediate layer reference outputs 307-309.

この例では、設定部102は、基本学習データに対してフィルタ処理を行うことにより、適合的学習データを生成した。すなわち、設定部102は、学習用入力データに対応する線画パターンである基本学習データ(GT912)に対して、中間層準出力ごとに異なるフィルタを作用させることにより、異なる適合的学習データ(GT911,913)を得ることができる。中間層準出力に示される輪郭パターンは、最終出力側に近づくにつれ、テクスチャを反映した細かな形態から、大まかな形態へと変化していく。基本学習データに対して変換を施すフィルタの効果により、このような変化をモデル化し、このような変化に合わせてGTの形態を変化させることができる。一例として、設定部102は、中間層準出力の解像度が大きい(画素数が多い)場合と比較して、解像度が小さい(画素数が少ない)場合に、線画パターンの線幅が大きくなるように、用いるフィルタを選択することができる。 In this example, the setting unit 102 generated the adaptive learning data by filtering the basic learning data. That is, the setting unit 102 causes different adaptive learning data (GT911, 913) can be obtained. The outline pattern shown in the intermediate layer sub-output changes from a fine form reflecting the texture to a rough form as it approaches the final output side. Such changes can be modeled and the shape of the GT can be altered to accommodate such changes by the effect of filters that apply transformations to the base training data. As an example, the setting unit 102 sets the line width of the line drawing pattern to be larger when the resolution of the intermediate layer sub-output is low (the number of pixels is small) compared to when the resolution is high (the number of pixels is large). , you can choose which filters to use.

フィルタの具体例としては、特定の周波数帯域のみを通過させるバンドバスフィルタが挙げられる。図9(A)には、GT912に対して高周波パスフィルタを適用することにより得られたGT911が示されている。図9(B)には、輪郭パターンの線幅が2であるGT912が示され、中間層準出力308に対してはGT912がそのまま用いられる。図9(C)には、GT912に対して低周波パスフィルタを適用することにより得られたGT913が示されている。図9(A)~(C)からわかるように、GT911はGT912よりも輪郭パターンの線幅が細く、GT913はGT912よりも輪郭パターンの線幅が太い。なお、図9(A)~(C)に示される周波数と強度のグラフにおいて、灰色の部分はフィルタ処理で通過させる帯域を示している。なお、長さの短い輪郭パターン(例えば最大長さが10ピクセル以下など)に対しては、フィルタ処理を省略し、又は輪郭パターンを消す処理を行ってもよい。このような処理によれば、例えば、ノイズの影響を抑える効果が期待できる。 A specific example of the filter is a bandpass filter that passes only a specific frequency band. FIG. 9A shows GT911 obtained by applying a high-frequency pass filter to GT912. FIG. 9B shows a GT 912 whose outline pattern has a line width of 2, and the GT 912 is used as it is for the intermediate layer sub-output 308 . FIG. 9C shows GT913 obtained by applying a low frequency pass filter to GT912. As can be seen from FIGS. 9A to 9C, GT911 has a narrower contour pattern line width than GT912, and GT913 has a thicker contour pattern line width than GT912. In the frequency-intensity graphs shown in FIGS. 9A to 9C, the gray portions indicate the bands passed by filtering. Note that the filtering process may be omitted or the contour pattern may be erased for a short contour pattern (for example, the maximum length is 10 pixels or less). According to such processing, for example, an effect of suppressing the influence of noise can be expected.

別の例として、基本データ記憶部101は輪郭パターンを示すベクタデータを格納していてもよい。この場合、設定部102は、中間層群に対応する線幅を有するGTを生成することができる。 As another example, the basic data storage unit 101 may store vector data representing contour patterns. In this case, the setting unit 102 can generate a GT having a line width corresponding to the intermediate layer group.

また、中間層準出力307~309の誤差評価用の適合的学習データ(GT601~603)は、予め基本データ記憶部101に格納されていてもよい。さらに、設定部102は、基本データ記憶部101に格納されているデータに基づいてGT601~603を生成してもよい。図6(D)は、基本データ記憶部101における、GT601~603を生成するためのデータの格納方法の例を説明する図である。また、図6(E)は、図6(D)の縦線部分の拡大図である。図6(D)(E)に示されるように、統合出力305及び中間層準出力307の誤差評価用のGT601としては、「1」で示される輪郭パターンが用いられ、より具体的にはGT601のポジティブ領域は「1」で示される領域である。また、中間層準出力308の誤差評価用のGT602としては、「1」及び「2」で示される輪郭パターンが用いられ、中間層準出力309の誤差評価用のGT603としては、「1」及び「2」及び「3」で示される輪郭パターンが用いられる。すなわち、GT602のポジティブ領域は「1」及び「2」で表される領域であり、GT603のポジティブ領域は「1」及び「2」及び「3」で表される領域である。 Also, the adaptive learning data (GT601-603) for error evaluation of the intermediate layer sub-outputs 307-309 may be stored in the basic data storage unit 101 in advance. Further, setting section 102 may generate GTs 601 to 603 based on data stored in basic data storage section 101 . FIG. 6D is a diagram for explaining an example of a data storage method for generating GTs 601 to 603 in basic data storage unit 101. As shown in FIG. FIG. 6(E) is an enlarged view of the vertical line portion of FIG. 6(D). As shown in FIGS. 6(D) and 6(E), as GT 601 for error evaluation of integrated output 305 and intermediate layer sub-output 307, a contour pattern indicated by "1" is used. More specifically, GT 601 is the area indicated by "1". Further, as the GT 602 for error evaluation of the intermediate layer reference output 308, contour patterns indicated by "1" and "2" are used, and as the GT 603 for error evaluation of the intermediate layer reference output 309, "1" and The contour patterns indicated by "2" and "3" are used. That is, the positive regions of GT602 are the regions represented by "1" and "2", and the positive regions of GT603 are the regions represented by "1", "2" and "3".

この場合、設定部102は、基本データ記憶部101に格納されたデータを用いて、それぞれの中間層準出力307~309の誤差評価用の適合的学習データ(GT601~603)を生成及び設定することができる。このように、中間層準出力307~309の誤差評価用のGT601~603における輪郭パターンの線幅を順次太くすることにより、パターンの相違以外に起因する誤差が過大に評価されるのを防ぎ、より効果的にサイドアウト学習を行うことができる。例えば、第1の中間層からの出力の誤差評価用のGTよりも、第1の中間層よりもプーリング層を通って下流にある第2の中間層からの出力の誤差評価用のGTの方が、輪郭パターンの線幅が太くなるように、GTを設定することができる。 In this case, the setting unit 102 uses the data stored in the basic data storage unit 101 to generate and set adaptive learning data (GTs 601 to 603) for error evaluation of the respective intermediate stratified outputs 307 to 309. be able to. In this way, by sequentially increasing the line widths of the contour patterns in the GTs 601 to 603 for error evaluation of the intermediate layer reference outputs 307 to 309, errors caused by factors other than pattern differences are prevented from being overestimated. Side-out learning can be performed more effectively. For example, the GT for error estimation of the output from the first hidden layer is more likely than the GT for error estimation of the output from the second hidden layer that is downstream through the pooling layer from the first hidden layer. However, GT can be set so that the line width of the contour pattern is thickened.

設定部102は、上記のように得られたそれぞれの中間層準出力用のGTに対して、ぼかし処理のようなさらなる画像処理を行って得られたGTを、適合的学習データとして設定してもよい。例えば図8(A)~(C)には、図6に示すGT601~603に対して、さらにガウシアンブラー(ガウス関数を用いて画像をぼかす処理)を適用した結果を示す。すなわち、図8(A)には、統合出力305と中間層準出力307の誤差評価に用いるための、線幅1のGT601にガウシアンブラーを作用させた後の断面801(輪郭パターンの幅方向の画素値分布)を示す。同様に、図8(B)(C)には、中間層準出力308,309の誤差評価に用いるための、線幅2,4のGT602,603にガウシアンブラーを作用させた後の断面802,803を示す。それぞれのGT601~603に適用する処理は、同一の強さであってもよいし、中間層準出力の特性に合わせた異なる強さであってもよい。 The setting unit 102 sets the GTs obtained by performing further image processing such as blurring on the respective GTs for intermediate layer standard output obtained as described above, as adaptive learning data. good too. For example, FIGS. 8A to 8C show the results of applying Gaussian blur (processing for blurring an image using a Gaussian function) to GTs 601 to 603 shown in FIG. That is, FIG. 8A shows a cross section 801 after applying Gaussian blur to the GT 601 with a line width of 1 (in the width direction of the contour pattern) for use in error evaluation between the integrated output 305 and the intermediate layer sub-output 307. pixel value distribution). Similarly, in FIGS. 8B and 8C, cross sections 802 and 802 after Gaussian blur is applied to GTs 602 and 603 with line widths of 2 and 4 for use in error evaluation of intermediate layer sub-outputs 308 and 309. 803 is shown. The processing applied to each GT 601-603 may be of the same strength or may be of different strengths to match the characteristics of the intermediate strata output.

このように設定部102は、ぼかし処理が行われた線画パターンを、2以上の異なる出力についての教師データとして設定することができる。学習用入力データに示される正しい輪郭パターンの位置と、GTに示される輪郭パターンの位置とは、入力時の誤差のためにわずかにずれている可能性がある。ここで、GTに対してぼかし処理(例えばガウシアンブラー処理)を行うことにより、真の位置を中心とした入力誤差(例えば、ガウシアン分布に従う入力誤差)をGTに反映させ、より効果的にサイドアウト学習を行うことができる。 In this manner, the setting unit 102 can set the line drawing pattern subjected to the blurring process as teacher data for two or more different outputs. There is a possibility that the correct position of the contour pattern indicated by the learning input data and the position of the contour pattern indicated by the GT are slightly deviated due to an input error. Here, by performing blurring processing (for example, Gaussian blur processing) on the GT, the input error centered on the true position (for example, the input error following the Gaussian distribution) is reflected in the GT, and side-out is performed more effectively. can learn.

ここまで、主にGTにおける輪郭パターンの線幅を、中間層準出力の特性に応じて変更する構成について説明したが、適合的学習データの設定方法はこのような方法に限られない。例えば、設定部102は、2以上の異なる出力のそれぞれに対応する幅を有する誤差評価対象外領域が線画パターンの周囲に設定された、2以上の異なる出力についての教師データを設定することができる。 So far, the configuration in which the line width of the outline pattern in the GT is mainly changed according to the characteristics of the intermediate stratified output has been described, but the adaptive learning data setting method is not limited to such a method. For example, the setting unit 102 can set teacher data for two or more different outputs in which an error evaluation non-target area having a width corresponding to each of the two or more different outputs is set around the line drawing pattern. .

このように、GTに誤差評価を行わない誤差評価対象外領域を設定する方法について、図7を参照して説明する。図7(A)は、中間層準出力307及び誤差評価用のGT601を示し、これは図6(A)と同様である。一方、図7(B)は、中間層準出力308、及び線幅1のGT601(GTのポジティブ領域)と線幅2の付帯領域702とで構成される中間層準出力308の誤差評価用のGTを表す。また、図7(C)は、中間層準出力309、及び線幅1のGT601(GTのポジティブ領域)と線幅4の付帯領域703とで構成される中間層準出力309の誤差評価用のGTを表す。ここで、付帯領域とは、誤差評価において評価を行わない、ポジティブ領域である輪郭パターンの両側に付属する領域のことを表す。この場合、式(2)を用いた評価において、Y は中間層mに与えるGTのうちポジティブ(例えばラベル値が1)な領域を表す。また、Y は中間層mに与えるGTのうちネガティブ(例えばラベル値が0)である領域を表す。このネガティブな領域は、全体の領域からポジティブ領域と付帯領域(例えばラベル値が2)を除いた領域である。 A method of setting an error-evaluation-excluded region in the GT where error evaluation is not performed in this way will be described with reference to FIG. FIG. 7(A) shows the hidden layer sub-output 307 and the GT 601 for error estimation, which is similar to FIG. 6(A). On the other hand, FIG. 7B shows the error evaluation of the intermediate layer sub-output 308, and the error evaluation of the intermediate layer sub-output 308 composed of the GT 601 (positive region of GT) with a line width of 1 and the incidental region 702 with a line width of 2. represents GT. In addition, FIG. 7(C) shows the error evaluation of the intermediate layer secondary output 309 and the intermediate layer secondary output 309 composed of the GT 601 (positive region of GT) with a line width of 1 and the incidental region 703 with a line width of 4. represents GT. Here, the incidental area means an area attached to both sides of the contour pattern, which is a positive area and is not evaluated in the error evaluation. In this case, in the evaluation using equation (2), Y + m represents a positive region (for example, the label value is 1) of the GT given to the intermediate layer m. Also, Y m represents a negative region (for example, the label value is 0) of the GT given to the intermediate layer m. This negative area is the area excluding the positive area and the incidental area (for example, the label value is 2) from the entire area.

このような付帯領域を有するGTは、例えば、図6(D)(E)に示されるデータに従って作成することができる。例えば、図7(B)に示すGTは、「1」の領域をポジティブ領域に、「2」の領域を付帯領域に、それぞれ設定することにより作成することができる。また、図7(C)に示すGTは、「1」の領域をポジティブ領域に、「2」及び「3」の領域を付帯領域に、それぞれ設定することにより作成することができる。また、上記のようなフィルタ処理を用いて付帯領域を設定することも可能である。このように、中間層準出力307~309の誤差評価用のGT601における付帯領域702,703の線幅を順次太くすることによっても、パターンの相違以外に起因する誤差が過大に評価されるのを防ぎ、より効果的にサイドアウト学習を行うことができる。 A GT having such an incidental area can be created, for example, according to the data shown in FIGS. 6(D) and 6(E). For example, the GT shown in FIG. 7B can be created by setting the area of "1" as a positive area and the area of "2" as an incidental area. Also, the GT shown in FIG. 7(C) can be created by setting the "1" area as the positive area and the "2" and "3" areas as the incidental areas. Moreover, it is also possible to set the incidental area using the filtering process as described above. In this way, by sequentially increasing the line widths of the incidental regions 702 and 703 in the GT 601 for error evaluation of the intermediate layer sub-outputs 307 to 309, the overestimation of errors caused by factors other than pattern differences can be prevented. It is possible to prevent side-out learning more effectively.

(様々なネットワーク構成への応用例)
ここまでは、それぞれの中間層群からの中間層準出力に基づいてサイドアウト学習を行う場合について説明したが、本実施形態に係る方法の適用例はこれに限られない。例えば、図10に示すように、1つの中間層群からの複数の出力に基づいてサイドアウト学習を行うこともできる。図10に示す構成においては、ネットワークの1つの中間層群における2以上の異なる中間層からの出力に基づいて、サイドアウト学習が行われる。図10(A)において、1つの中間層群1300には、畳み込み層1301,1302,1303、及びプーリング1304層が含まれる。また、図10(A)には、畳み込み層1301~1303の出力1311~1313と、そこでの誤差評価に用いるGT1321~1323が示されている。図10(B)には、GT1321~1323における輪郭パターンの線幅の変化を示しており、次第に線幅が大きくなることがわかる。
(Application examples for various network configurations)
Up to this point, a case has been described where side-out learning is performed based on the intermediate layer output from each layer group, but the application example of the method according to the present embodiment is not limited to this. For example, as shown in FIG. 10, side-out learning can also be performed based on multiple outputs from one hidden layer group. In the configuration shown in FIG. 10, side-out learning is performed based on outputs from two or more different hidden layers in one hidden layer group of the network. In FIG. 10A, one hidden layer group 1300 includes convolutional layers 1301, 1302, 1303 and a pooling 1304 layer. FIG. 10A also shows outputs 1311 to 1313 of convolution layers 1301 to 1303 and GTs 1321 to 1323 used for error evaluation there. FIG. 10B shows changes in the line width of contour patterns in GT1321 to GT1323, and it can be seen that the line width gradually increases.

この場合、設定部102は、ネットワークの1つの中間層群における2以上の異なる中間層からの出力のそれぞれについて、学習用入力データに対する教師データを設定することができる。例えば、出力1311~1313の誤差評価用のGT1321~1323における輪郭パターンの線幅を順次太くすることができる。具体例として設定部102は、第1の中間層からの出力の誤差評価用のGTよりも、第1の中間層よりも畳み込み層を通って下流にある第2の中間層からの出力の誤差評価用のGTの方が、輪郭パターンの線幅が太くなるように、GTを設定することができる。このような構成により、畳み込み層で順次フィルタを作用させていくことによる画素の空間的な相互依存範囲の拡大の影響を取り込み、パターンの相違以外に起因する誤差が過大に評価されるのを防ぐことができる。このために、より効果的にサイドアウト学習を行うことができる。 In this case, the setting unit 102 can set teacher data for learning input data for each of outputs from two or more different hidden layers in one hidden layer group of the network. For example, the line widths of contour patterns in GTs 1321 to 1323 for error evaluation of outputs 1311 to 1313 can be made thicker sequentially. As a specific example, the setting unit 102 sets the error of the output from the second hidden layer, which is downstream of the first hidden layer through the convolutional layer, from the GT for error evaluation of the output from the first hidden layer. The GT for evaluation can be set so that the line width of the contour pattern is thicker than the GT for evaluation. With such a configuration, the influence of the expansion of the spatial interdependence range of pixels due to the sequential application of filters in the convolution layers is incorporated, and errors caused by factors other than pattern differences are prevented from being overestimated. be able to. Therefore, side-out learning can be performed more effectively.

別の例として、図9(E)に示すように、ネットワークの1つの中間層からの複数の出力に基づいてサイドアウト学習を行うこともできる。一例として、図9(E)には、中間層群950が、畳み込み層951~953及びプーリング層954で構成される場合を示す。図9(E)の例において、設定部102は、ネットワークの1つの階層における2以上の異なるチャネル群からの出力のそれぞれについて、学習用入力データに対する教師データを設定することができる。 As another example, side-out learning can also be performed based on multiple outputs from one hidden layer of the network, as shown in FIG. 9(E). As an example, FIG. 9E shows a case where an intermediate layer group 950 is composed of convolution layers 951 to 953 and a pooling layer 954 . In the example of FIG. 9E, the setting unit 102 can set teacher data for learning input data for each of outputs from two or more different channel groups in one layer of the network.

例えば、設定部102は、基本学習データに示される画像を所定の条件に従って分離し、それぞれの部分画像を示す複数の適合的学習データを生成することができる。具体例として、GTに示される輪郭パターンを特定の方向ごとに分離し、それぞれの輪郭パターンを用いて対応するネットワークの重み係数(畳み込みフィルタ)の学習を行ってもよい。ここで、サイドアウトを出力する畳み込み層951は、畳み込み層961と畳み込み層962に分割される。畳み込み層961及び畳み込み層962は、畳み込み層951における異なるチャネル群に相当する。ここで設定部102は、畳み込み層961,962のそれぞれに、異なる方向成分を有するGTを設定することができる。この場合、畳み込み層961,962のそれぞれの重み係数の学習は、異なる方向成分を有するGTを用いて行われる。例えば、畳み込み層961の学習は第1の方向の輪郭パターンを示すGT971を用いて、畳み込み層962の学習は第1の方向とは異なる第2の方向の輪郭パターンを示すGT972を用いて、それぞれ行うことができる。このように、それぞれの畳み込み層について特定のパターンを有するGTを用いた学習を集中的に行うことにより、全体の認識性能が向上することが期待される。このような構成は上記の各種の構成と組み合わせることができ、例えばGTに対してガウシアンブラー処理のようなさらなる画像処理を適用する場合と組み合わせてもよい。 For example, the setting unit 102 can separate an image represented by basic learning data according to a predetermined condition and generate a plurality of adaptive learning data representing respective partial images. As a specific example, the contour patterns shown in GT may be separated for each specific direction, and the respective contour patterns may be used to learn the weighting coefficients (convolution filters) of the corresponding networks. Here, the convolutional layer 951 that outputs side-out is divided into a convolutional layer 961 and a convolutional layer 962 . Convolutional layer 961 and convolutional layer 962 correspond to different channel groups in convolutional layer 951 . Here, the setting unit 102 can set GTs having different directional components in each of the convolution layers 961 and 962 . In this case, the learning of the weighting factors for each of the convolutional layers 961 and 962 is performed using GTs with different directional components. For example, convolutional layer 961 is trained using GT971, which indicates contour patterns in a first direction, and convolutional layer 962 is trained using GT972, which indicates contour patterns in a second direction different from the first direction. It can be carried out. In this way, by performing intensive training using GTs having specific patterns for each convolutional layer, it is expected that the overall recognition performance will be improved. Such an arrangement can be combined with the various arrangements described above, for example with applying further image processing such as Gaussian blurring to the GT.

ここまで、中間層準出力をGTに合わせて拡大することを前提として、中間層準出力ごとにGTを設定する場合について説明した。一方、設定部102は、中間層準出力のそれぞれのサイズに合わせたGTを設定してもよい。例えば、設定部102は、輪郭パターンを示すGT(基本学習データ)を、中間層準出力のサイズに合わせて縮小してもよい。具体例としては、基本学習データに対してフィルタ処理を行うことにより適合的学習データを生成する方法が挙げられる。例えば、基本学習データが二値画像(「1」値が輪郭を表す)場合、2×2のMAXプーリングをストライド2×2で行うことにより、基本学習データに示される輪郭パターンを維持しながら解像度が半分になった適合的学習データを得ることができる。このように、単に画素を間引きし又は繰り返すことにより基本学習データから適合的学習データを生成するのではなく、基本学習データに対してフィルタ処理のような画像処理を行って適合的学習データを生成することができる。このような方法によれば、中間層準出力に適した適合的学習データを生成することが可能となる。 So far, the case where GT is set for each intermediate stratum output has been described on the premise that the intermediate stratum output is expanded in accordance with the GT. On the other hand, the setting unit 102 may set the GT according to each size of the intermediate layer standard output. For example, the setting unit 102 may reduce the GT (basic learning data) indicating the contour pattern to match the size of the intermediate layer reference output. A specific example is a method of generating adaptive learning data by performing filtering on basic learning data. For example, if the basic training data is a binary image (the "1" values represent contours), 2×2 MAX pooling with a stride of 2×2 provides a resolution while maintaining the contour pattern shown in the basic training data. is halved, adaptive training data can be obtained. In this way, instead of simply thinning out or repeating pixels to generate adaptive learning data from basic learning data, image processing such as filtering is performed on the basic learning data to generate adaptive learning data. can do. According to such a method, it is possible to generate adaptive learning data suitable for intermediate layer standard output.

以上説明した方法により階層型ネットワークの学習を行うことにより、階層型ネットワークのパラメータを作成することができる。また、一実施形態に係る情報処理装置は、このように作成されたパラメータが設定された階層型ネットワークを用いて、入力データに対応する認識処理の結果を生成する生成部を有している。このような階層型ネットワークは、プログラムにより実現することもできるし、パラメータを格納するメモリとGPUのような演算部とを備える演算装置により実現することもできる。本実施形態に係る方法によれば、階層型ネットワークからの2以上の異なる出力のそれぞれが、従来のように同じ基本学習データを用いて評価する代わりに、それぞれに合った適合的学習データを用いて評価される。このため、学習によって得られるネットワークのパラメータは、従来とは異なり、より入力データに対する認識処理に適したものとなる。 By learning the hierarchical network by the method described above, the parameters of the hierarchical network can be created. Further, the information processing apparatus according to one embodiment includes a generation unit that generates a result of recognition processing corresponding to input data using the hierarchical network in which the created parameters are set. Such a hierarchical network can be implemented by a program, or by an arithmetic device having a memory for storing parameters and an arithmetic unit such as a GPU. According to the method of the present embodiment, each of two or more different outputs from the hierarchical network are evaluated using the same adaptive training data, instead of using the same basic training data as in the conventional method. evaluated. Therefore, the parameters of the network obtained by learning are different from the conventional ones and are more suitable for recognition processing of input data.

(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
(Other examples)
The present invention supplies a program that implements one or more functions of the above-described embodiments to a system or device via a network or a storage medium, and one or more processors in the computer of the system or device reads and executes the program. It can also be realized by processing to It can also be implemented by a circuit (for example, ASIC) that implements one or more functions.

100:学習装置、102:設定部、104:学習部 100: learning device, 102: setting unit, 104: learning unit

Claims (16)

画像の各画素の属性判定処理に用いられるニューラルネットワークの学習を行う学習装置であって、
単一の学習用入力データに対応する、ニューラルネットワークからの2以上の異なる出力のそれぞれについての教師データを設定する設定手段と、
前記学習用入力データを前記ニューラルネットワークに入力して得られる、前記2以上の異なる出力のそれぞれと、前記出力に対応する教師データと、の誤差に基づいて、前記ニューラルネットワークの学習を行う学習手段と、を備え、
前記2以上の異なる出力のそれぞれについての教師データは、前記単一の学習用入力データに対応する基本教師データに対するそれぞれ異なる変形処理又はフィルタ処理の結果を示し、前記基本教師データは、前記単一の学習用入力データが示す各画素の属性を示す画像データであることを特徴とする、学習装置。
A learning device for learning a neural network used for attribute determination processing of each pixel of an image ,
setting means for setting teacher data for each of two or more different outputs from the neural network corresponding to a single input data for learning;
Learning means for learning the neural network based on the error between each of the two or more different outputs obtained by inputting the learning input data to the neural network and teacher data corresponding to the output. and
The training data for each of the two or more different outputs indicates the results of different deformation processing or filtering processing on the basic training data corresponding to the single learning input data, and the basic training data is the single learning input data. is image data indicating the attribute of each pixel indicated by the learning input data of .
前記設定手段は、前記ニューラルネットワークの構造に基づいて、前記2以上の異なる出力のそれぞれについての教師データを設定することを特徴とする、請求項1に記載の学習装置。 2. The learning apparatus according to claim 1, wherein said setting means sets teacher data for each of said two or more different outputs based on the structure of said neural network. 前記設定手段は、前記ニューラルネットワークの2以上の異なる階層からの出力のそれぞれについて、学習用入力データに対する教師データを設定することを特徴とする、請求項1又は2に記載の学習装置。 3. The learning apparatus according to claim 1, wherein said setting means sets teacher data for learning input data for each of outputs from two or more different hierarchies of said neural network. 前記設定手段は、前記ニューラルネットワークの1つの階層における2以上の異なるチャネル群からの出力のそれぞれについて、学習用入力データに対する教師データを設定することを特徴とする、請求項1又は2に記載の学習装置。 3. The setter according to claim 1, wherein said setting means sets teacher data for learning input data for each of outputs from two or more different channel groups in one layer of said neural network. learning device. 前記設定手段は、前記2以上の異なる出力についての教師データを、前記2以上の異なる出力の解像度に基づいて設定することを特徴とする、請求項1から4のいずれか1項に記載の学習装置。 5. The learning according to any one of claims 1 to 4, wherein said setting means sets the teacher data for said two or more different outputs based on the resolutions of said two or more different outputs. Device. 前記設定手段は、前記単一の学習用入力データに対応するニューラルネットワークからの出力についての基本教師データに基づいて、前記2以上の異なる出力のそれぞれについての教師データについて誤差評価対象外領域を設定することを特徴とする、請求項1から5のいずれか1項に記載の学習装置。 The setting means sets an error non-evaluation area for teacher data for each of the two or more different outputs based on basic teacher data for outputs from the neural network corresponding to the single input data for learning. 6. The learning device according to any one of claims 1 to 5, characterized in that: 前記属性判定処理の結果は線画パターンを示すことを特徴とする、請求項1から6のいずれか1項に記載の学習装置。 7. The learning device according to any one of claims 1 to 6 , wherein the result of said attribute determination processing indicates a line drawing pattern. ニューラルネットワークの学習を行う学習装置であって、
単一の学習用入力データに対応する、ニューラルネットワークからの2以上の異なる出力のそれぞれについての教師データを設定する設定手段と、
前記学習用入力データを前記ニューラルネットワークに入力して得られる、前記2以上の異なる出力のそれぞれと、前記出力に対応する教師データと、の誤差に基づいて、前記ニューラルネットワークの学習を行う学習手段と、を備え、
学習後の前記ニューラルネットワークは、入力データに対応する2以上の異なる出力を与え、前記2以上の異なる出力の統合結果が前記入力データに対する認識処理の結果を示し、
前記入力データは画像データであり、前記入力データに対する認識処理の結果は、前記画像データの各画素の属性情報であり、
前記入力データに対する認識処理の結果は、前記入力データに対応する線画パターンであり、
前記設定手段は、前記2以上の異なる出力のそれぞれに対応する幅を有する線画パターンを、前記2以上の異なる出力についての教師データとして設定することを特徴とする、学習装置。
A learning device for learning a neural network,
setting means for setting teacher data for each of two or more different outputs from the neural network corresponding to a single input data for learning;
Learning means for learning the neural network based on the error between each of the two or more different outputs obtained by inputting the learning input data to the neural network and teacher data corresponding to the output. and
the neural network after learning provides two or more different outputs corresponding to input data, and a result of integration of the two or more different outputs indicates a result of recognition processing for the input data;
the input data is image data, and the result of recognition processing for the input data is attribute information of each pixel of the image data;
a result of recognition processing for the input data is a line drawing pattern corresponding to the input data;
The learning device, wherein the setting means sets a line drawing pattern having a width corresponding to each of the two or more different outputs as teacher data for the two or more different outputs.
ニューラルネットワークの学習を行う学習装置であって、
単一の学習用入力データに対応する、ニューラルネットワークからの2以上の異なる出力のそれぞれについての教師データを設定する設定手段と、
前記学習用入力データを前記ニューラルネットワークに入力して得られる、前記2以上の異なる出力のそれぞれと、前記出力に対応する教師データと、の誤差に基づいて、前記ニューラルネットワークの学習を行う学習手段と、を備え、
学習後の前記ニューラルネットワークは、入力データに対応する2以上の異なる出力を与え、前記2以上の異なる出力の統合結果が前記入力データに対する認識処理の結果を示し、
前記入力データは画像データであり、前記入力データに対する認識処理の結果は、前記画像データの各画素の属性情報であり、
前記入力データに対する認識処理の結果は、前記入力データに対応する線画パターンであり、
前記設定手段は、ぼかし処理が行われた線画パターンを、前記2以上の異なる出力についての教師データとして設定することを特徴とする、学習装置。
A learning device for learning a neural network,
setting means for setting teacher data for each of two or more different outputs from the neural network corresponding to a single input data for learning;
Learning means for learning the neural network based on the error between each of the two or more different outputs obtained by inputting the learning input data to the neural network and teacher data corresponding to the output. and
the neural network after learning provides two or more different outputs corresponding to input data, and a result of integration of the two or more different outputs indicates a result of recognition processing for the input data;
the input data is image data, and the result of recognition processing for the input data is attribute information of each pixel of the image data;
a result of recognition processing for the input data is a line drawing pattern corresponding to the input data;
The learning device, wherein the setting means sets a line drawing pattern subjected to blurring processing as teacher data for the two or more different outputs.
ニューラルネットワークの学習を行う学習装置であって、
単一の学習用入力データに対応する、ニューラルネットワークからの2以上の異なる出力のそれぞれについての教師データを設定する設定手段と、
前記学習用入力データを前記ニューラルネットワークに入力して得られる、前記2以上の異なる出力のそれぞれと、前記出力に対応する教師データと、の誤差に基づいて、前記ニューラルネットワークの学習を行う学習手段と、を備え、
学習後の前記ニューラルネットワークは、入力データに対応する2以上の異なる出力を与え、前記2以上の異なる出力の統合結果が前記入力データに対する認識処理の結果を示し、
前記入力データは画像データであり、前記入力データに対する認識処理の結果は、前記画像データの各画素の属性情報であり、
前記入力データに対する認識処理の結果は、前記入力データに対応する線画パターンであり、
前記設定手段は、前記2以上の異なる出力のそれぞれに対応する幅を有する誤差評価対象外領域が線画パターンの周囲に設定された、前記2以上の異なる出力についての教師データを設定することを特徴とする、学習装置。
A learning device for learning a neural network,
setting means for setting teacher data for each of two or more different outputs from the neural network corresponding to a single input data for learning;
Learning means for learning the neural network based on the error between each of the two or more different outputs obtained by inputting the learning input data to the neural network and teacher data corresponding to the output. and
the neural network after learning provides two or more different outputs corresponding to input data, and a result of integration of the two or more different outputs indicates a result of recognition processing for the input data;
the input data is image data, and the result of recognition processing for the input data is attribute information of each pixel of the image data;
a result of recognition processing for the input data is a line drawing pattern corresponding to the input data;
The setting means sets teacher data for the two or more different outputs, in which an error evaluation non-object area having a width corresponding to each of the two or more different outputs is set around the line drawing pattern. and learning device.
前記設定手段は、前記学習用入力データに対応する線画パターンである基本教師データを用いて前記教師データを生成することを特徴とする、請求項7から10のいずれか1項に記載の学習装置。 11. The learning device according to any one of claims 7 to 10, wherein said setting means generates said teacher data using basic teacher data that is a line drawing pattern corresponding to said input data for learning. . ニューラルネットワークの学習を行う学習装置であって、
単一の学習用入力データに対応する、ニューラルネットワークからの2以上の異なる出力のそれぞれについての教師データを設定する設定手段と、
前記学習用入力データを前記ニューラルネットワークに入力して得られる、前記2以上の異なる出力のそれぞれと、前記出力に対応する教師データと、の誤差に基づいて、前記ニューラルネットワークの学習を行う学習手段と、を備え、
学習後の前記ニューラルネットワークは、入力データに対応する2以上の異なる出力を与え、前記2以上の異なる出力の統合結果が前記入力データに対する認識処理の結果を示し、
前記入力データは画像データであり、前記入力データに対する認識処理の結果は、前記画像データの各画素の属性情報であり、
前記入力データに対する認識処理の結果は、前記入力データに対応する線画パターンであり、
前記設定手段は、前記学習用入力データに対応する線画パターンである基本教師データに対してフィルタ処理を行うことにより、前記教師データを生成することを特徴とする、学習装置。
A learning device for learning a neural network,
setting means for setting teacher data for each of two or more different outputs from the neural network corresponding to a single input data for learning;
Learning means for learning the neural network based on the error between each of the two or more different outputs obtained by inputting the learning input data to the neural network and teacher data corresponding to the output. and
the neural network after learning provides two or more different outputs corresponding to input data, and a result of integration of the two or more different outputs indicates a result of recognition processing for the input data;
the input data is image data, and the result of recognition processing for the input data is attribute information of each pixel of the image data;
a result of recognition processing for the input data is a line drawing pattern corresponding to the input data;
The learning device, wherein the setting means generates the teacher data by filtering basic teacher data, which is a line drawing pattern corresponding to the input data for learning .
学習された、画像の各画素の属性判定処理に用いられるニューラルネットワークの作成方法であって、
単一の学習用入力データに対応する、ニューラルネットワークからの2以上の異なる出力のそれぞれについての教師データを設定する設定工程と、
前記学習用入力データを前記ニューラルネットワークに入力して得られる、前記2以上の異なる出力のそれぞれと、前記出力に対応する教師データと、の誤差に基づいて、前記ニューラルネットワークの学習を行う学習工程と、を有し、
前記2以上の異なる出力のそれぞれについての教師データは、前記単一の学習用入力データに対応する基本教師データに対するそれぞれ異なる変形処理又はフィルタ処理の結果を示し、前記基本教師データは、前記単一の学習用入力データが示す各画素の属性を示す画像データであることを特徴とする、作成方法。
A method for creating a trained neural network used for attribute determination processing of each pixel of an image ,
A setting step of setting teacher data for each of two or more different outputs from the neural network corresponding to a single learning input data;
A learning step of learning the neural network based on an error between each of the two or more different outputs obtained by inputting the learning input data to the neural network and teacher data corresponding to the output. and
The training data for each of the two or more different outputs indicates the results of different deformation processing or filtering processing on the basic training data corresponding to the single learning input data, and the basic training data is the single learning input data. is image data indicating the attribute of each pixel indicated by the learning input data .
入力データに対応する認識処理の処理結果を生成するように情報処理装置を機能させるためのニューラルネットワークであって、請求項13に記載の作成方法によって作成されたパラメータが設定された、ニューラルネットワーク。 A neural network for causing an information processing device to generate a processing result of recognition processing corresponding to input data, wherein the neural network is set with parameters created by the creating method according to claim 13. 請求項14に記載のニューラルネットワークを用いて、入力データに対応する認識処理の処理結果を生成する処理手段を備える、情報処理装置。 15. An information processing apparatus comprising processing means for generating a processing result of recognition processing corresponding to input data using the neural network according to claim 14. コンピュータを、請求項1から12のいずれか1項に記載の学習装置の各手段として機能させるためのプログラム。 A program for causing a computer to function as each means of the learning device according to any one of claims 1 to 12.
JP2018170893A 2018-09-12 2018-09-12 Learning device, parameter creation method, neural network, and information processing device using the same Active JP7316771B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018170893A JP7316771B2 (en) 2018-09-12 2018-09-12 Learning device, parameter creation method, neural network, and information processing device using the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018170893A JP7316771B2 (en) 2018-09-12 2018-09-12 Learning device, parameter creation method, neural network, and information processing device using the same

Publications (2)

Publication Number Publication Date
JP2020042664A JP2020042664A (en) 2020-03-19
JP7316771B2 true JP7316771B2 (en) 2023-07-28

Family

ID=69798377

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018170893A Active JP7316771B2 (en) 2018-09-12 2018-09-12 Learning device, parameter creation method, neural network, and information processing device using the same

Country Status (1)

Country Link
JP (1) JP7316771B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7465500B2 (en) 2020-05-20 2024-04-11 日本電信電話株式会社 IMAGE PROCESSING METHOD, IMAGE PROCESSING APPARATUS AND PROGRAM

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012022535A (en) 2010-07-15 2012-02-02 Fujifilm Corp Detector constitution device, method and program
JP2016031746A (en) 2014-07-30 2016-03-07 キヤノン株式会社 Information processing apparatus and information processing method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012022535A (en) 2010-07-15 2012-02-02 Fujifilm Corp Detector constitution device, method and program
JP2016031746A (en) 2014-07-30 2016-03-07 キヤノン株式会社 Information processing apparatus and information processing method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIU Yu et al.,Learning Relaxed Deep Supervision for Better Edge Detection,2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) [online],2016年,pp. 231-240,[2022年8月23日検索], インターネット<URL : https://ieeexplore.ieee.org/document/7780401>
久保田 涼介 ほか ,全層畳み込みニューラルネットワークを用いた透明物体の輪郭抽出,電子情報通信学会技術研究報告 PRMU2018-10,vol.118, No.35,2018年05月10日,pp.41-46

Also Published As

Publication number Publication date
JP2020042664A (en) 2020-03-19

Similar Documents

Publication Publication Date Title
CN110414394B (en) Facial occlusion face image reconstruction method and model for face occlusion detection
Lozes et al. Partial difference operators on weighted graphs for image processing on surfaces and point clouds
US6263103B1 (en) Estimating scenes using statistical properties of images and scenes
KR20190019822A (en) System and method for semantic segmentation of images
CN112541864A (en) Image restoration method based on multi-scale generation type confrontation network model
JP2007128195A (en) Image processing system
CN112036260B (en) Expression recognition method and system for multi-scale sub-block aggregation in natural environment
US11526963B2 (en) Image processing apparatus, image processing method, and storage medium
EP1026634A2 (en) Estimating targets using statistical properties of observations of know targets
CN110443775B (en) Discrete wavelet transform domain multi-focus image fusion method based on convolutional neural network
CN114266894A (en) Image segmentation method and device, electronic equipment and storage medium
JP2022536732A (en) Systems and methods for removing noise and/or artifacts from OCT images using generative adversarial networks
KR101869266B1 (en) Lane detection system based on extream learning convolutional neural network and method thereof
CN113807356B (en) End-to-end low-visibility image semantic segmentation method
Huang et al. ES-Net: An efficient stereo matching network
JP7316771B2 (en) Learning device, parameter creation method, neural network, and information processing device using the same
CN113763535A (en) Characteristic latent code extraction method, computer equipment and storage medium
CN116452992B (en) Method for extracting center line of tubular structure of minimum path
CN111753980A (en) Method for transferring features of a first image to a second image
KR101937585B1 (en) Cost Aggregation Apparatus and Method for Depth Image Generation, and Recording Medium thereof
CN116258877A (en) Land utilization scene similarity change detection method, device, medium and equipment
JP7073171B2 (en) Learning equipment, learning methods and programs
JP2021527859A (en) Irregular shape segmentation in an image using deep region expansion
CN113222867B (en) Image data enhancement method and system based on multi-template image
CN113158970B (en) Action identification method and system based on fast and slow dual-flow graph convolutional neural network

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20210103

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210113

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210910

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220713

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220829

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230619

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230718

R151 Written notification of patent or utility model registration

Ref document number: 7316771

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151