JP2020042664A - Learning device, parameter creation method, neural network, and information processor using the same - Google Patents

Learning device, parameter creation method, neural network, and information processor using the same Download PDF

Info

Publication number
JP2020042664A
JP2020042664A JP2018170893A JP2018170893A JP2020042664A JP 2020042664 A JP2020042664 A JP 2020042664A JP 2018170893 A JP2018170893 A JP 2018170893A JP 2018170893 A JP2018170893 A JP 2018170893A JP 2020042664 A JP2020042664 A JP 2020042664A
Authority
JP
Japan
Prior art keywords
learning
data
neural network
input data
intermediate layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018170893A
Other languages
Japanese (ja)
Other versions
JP7316771B2 (en
Inventor
晃一 丹治
Koichi Tanji
晃一 丹治
敦史 野上
Atsushi Nogami
敦史 野上
裕輔 御手洗
Hirosuke Mitarai
裕輔 御手洗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2018170893A priority Critical patent/JP7316771B2/en
Publication of JP2020042664A publication Critical patent/JP2020042664A/en
Application granted granted Critical
Publication of JP7316771B2 publication Critical patent/JP7316771B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

To more effectively perform learning of a neural network.SOLUTION: A learning device performs learning of a neural network. The learning device sets teacher data for each of two or more different outputs from the neural network, corresponding to a single input data for learning. The learning device performs the learning of the neural network on the basis of an error between each of the two or more different outputs and the teacher data corresponding to the outputs, obtained by inputting the input data for learning in the neural network. The neural network after learning provides the two or more different outputs corresponding to the input data, and an integration result of the two or more different outputs indicates a result of recognition processing for the input data.SELECTED DRAWING: Figure 1

Description

本発明は、学習装置、パラメータの作成方法、ニューラルネットワーク及びこれを用いた情報処理装置に関し、より詳細には、例えば画像認識技術に関する。   The present invention relates to a learning device, a parameter creation method, a neural network, and an information processing device using the same, and more particularly to, for example, an image recognition technology.

学習データを用いて階層型ネットワークの学習を行うことで、入力データを識別する識別器を生成する方法が知られている。一方、階層型ネットワークの層数が増えるにつれ、いわゆる勾配消失問題(重み係数の更新に必要なデルタを逆伝播させる際にデルタが消失又は発散してしまう)が顕在化し、学習の進行に障害が生じうることが知られている。   There is known a method of generating a classifier for identifying input data by learning a hierarchical network using learning data. On the other hand, as the number of layers in the hierarchical network increases, a so-called gradient disappearance problem (delta disappears or diverges when backpropagating the delta required for updating the weighting factor) becomes apparent, and the progress of learning becomes impaired. It is known that it can occur.

このような問題に対処するための方法として、deep supervisionと呼ばれる、ネットワークの中間層においても誤差評価及び誤差逆伝播を行う方法(以下、サイドアウト学習と呼ぶ)が知られている(非特許文献1)。また、画像の特徴量を抽出するように階層型ネットワークの学習を行うことに加えて、特定の特徴が存在する場合に特定のニューロンが活動するように学習を行うことにより、特徴に応じた的確な特徴量抽出を可能とする方法も知られている(特許文献1)。   As a method for coping with such a problem, a method called “deep supervision” that performs error evaluation and error back-propagation even in a middle layer of a network (hereinafter, referred to as side-out learning) is known (Non-Patent Document) 1). In addition to learning the hierarchical network so as to extract the features of the image, it also learns so that a specific neuron is activated when a specific feature exists, so that the accuracy according to the feature can be improved. There is also known a method capable of extracting a characteristic amount (Patent Document 1).

特開2016−31746号公報JP 2016-31746 A

Xie, S., Tu, Z. "Holistically-nested edge detection" ICCV, 1395-1403 (2015)Xie, S., Tu, Z. "Holistically-nested edge detection" ICCV, 1395-1403 (2015)

しかしながら、非特許文献1の方法においては、中間層からの出力に対する誤差評価の精度が低くなり、好ましい最終学習結果が得られない可能性があることが見出された。   However, in the method of Non-Patent Document 1, it has been found that the accuracy of the error evaluation with respect to the output from the hidden layer is reduced, and a preferable final learning result may not be obtained.

本発明は、ニューラルネットワークの学習をより効果的に行うことを目的とする。   An object of the present invention is to perform neural network learning more effectively.

本発明の目的を達成するために、例えば、本発明の学習装置は以下の構成を備える。すなわち、
ニューラルネットワークの学習を行う学習装置であって、
単一の学習用入力データに対応する、前記ニューラルネットワークからの2以上の異なる出力のそれぞれについての教師データを設定する設定手段と、
前記学習用入力データを前記ニューラルネットワークに入力して得られる、前記2以上の異なる出力のそれぞれと、前記出力に対応する教師データと、の誤差に基づいて、前記ニューラルネットワークの学習を行う学習手段と、を備え、
学習後の前記ニューラルネットワークは、入力データに対応する2以上の異なる出力を与え、前記2以上の異なる出力の統合結果が前記入力データに対する認識処理の結果を示すことを特徴とする。
In order to achieve the object of the present invention, for example, the learning device of the present invention has the following configuration. That is,
A learning device for learning a neural network,
Setting means for setting teacher data for each of two or more different outputs from the neural network corresponding to a single learning input data;
Learning means for learning the neural network based on an error between each of the two or more different outputs obtained by inputting the learning input data into the neural network and teacher data corresponding to the outputs; And
After the learning, the neural network provides two or more different outputs corresponding to the input data, and an integrated result of the two or more different outputs indicates a result of a recognition process on the input data.

ニューラルネットワークの学習をより効果的に行うことができる。   Learning of the neural network can be performed more effectively.

一実施形態に係る学習装置の一例を示す機能構成図。FIG. 1 is a functional configuration diagram illustrating an example of a learning device according to an embodiment. 一実施形態に係るパラメータ生成方法の一例を示すフローチャート。9 is a flowchart illustrating an example of a parameter generation method according to an embodiment. サイドアウト学習を行う階層型ネットワークの一例を示す模式図。The schematic diagram which shows an example of the hierarchical network which performs a side-out learning. サイドアウト出力とGTの関係を説明するための図。The figure for demonstrating the relationship between a side-out output and GT. 従来技術に従ってサイドアウト学習を行う場合の課題を説明するための図。The figure for demonstrating the subject at the time of performing a side-out learning according to a prior art. 一実施形態に係る適合的GTの生成方法を説明する図。The figure explaining the generation method of the adaptive GT which concerns on one Embodiment. 一実施形態に係る適合的GTの生成方法を説明する図。The figure explaining the generation method of the adaptive GT which concerns on one Embodiment. 一実施形態に係る適合的GTの生成方法を説明する図。The figure explaining the generation method of the adaptive GT which concerns on one Embodiment. 一実施形態に係る適合的GTの生成方法を説明する図。The figure explaining the generation method of the adaptive GT which concerns on one Embodiment. 一実施形態に係る適合的GTの生成方法を説明する図。The figure explaining the generation method of the adaptive GT which concerns on one Embodiment. 一実施形態で用いられるコンピュータの概略ブロック図。FIG. 1 is a schematic block diagram of a computer used in one embodiment.

以下、本発明の実施形態について、フローチャートと図面とを参照しながら具体的に説明する。なお、以下の具体例は本発明に係る実施形態の一例ではあるが、本発明は以下の具体的形態に限定されるものではない。本発明は、学習データを用いた階層型ネットワーク(以下、ニューラルネットワーク又は単にネットワークと呼ぶことがある)の学習に適用することができ、階層型ネットワークの学習が行われるいかなる手法にも適用可能である。   Hereinafter, embodiments of the present invention will be specifically described with reference to flowcharts and drawings. The following specific example is an example of an embodiment according to the present invention, but the present invention is not limited to the following specific embodiment. INDUSTRIAL APPLICABILITY The present invention can be applied to learning of a hierarchical network (hereinafter sometimes referred to as a neural network or simply a network) using learning data, and can be applied to any method in which learning of a hierarchical network is performed. is there.

図1は、実施形態1に係る学習装置100の機能構成の一例を示す。学習装置100は、階層型ネットワークの学習を行う。基本データ記憶部101は、学習に用いる基本学習データを保持する。学習データとは、ネットワークの学習に用いられる教師データ(以下、GTと呼ぶことがある)である。本実施形態においては、学習用入力データと、学習用入力データに対する判定結果を示す教師データ(学習データ)と、を用いてネットワークの学習が行われる。   FIG. 1 illustrates an example of a functional configuration of a learning device 100 according to the first embodiment. The learning device 100 performs learning of a hierarchical network. The basic data storage unit 101 stores basic learning data used for learning. The learning data is teacher data (hereinafter sometimes referred to as GT) used for network learning. In the present embodiment, network learning is performed using learning input data and teacher data (learning data) indicating a determination result for the learning input data.

例えば、一実施形態においては、ネットワークを用いて画像の各画素についての属性判定(ラベリング)を行うことができる。すなわち、入力データとして画像データをネットワークに入力すると、入力データに対する判定処理の結果として、画像データの各画素の属性情報(ラベル)が得られる。例えば、画像の輪郭抽出を行う具体的な一例において、入力データに対する判定処理の結果としては、入力データに対応する輪郭パターン(輪郭であるか否かを示す属性情報を画素値として有する画像)が得られる。このように、一実施形態において、入力データに対する処理結果は、入力データに対応する(輪郭パターンのような)線画パターンでありうる。   For example, in one embodiment, attribute determination (labeling) for each pixel of an image can be performed using a network. That is, when image data is input to the network as input data, attribute information (label) of each pixel of the image data is obtained as a result of the determination process on the input data. For example, in a specific example of extracting an outline of an image, as a result of the determination process on the input data, an outline pattern corresponding to the input data (an image having attribute information indicating whether or not the outline is a pixel value) is obtained. can get. Thus, in one embodiment, the result of processing the input data may be a line drawing pattern (such as a contour pattern) corresponding to the input data.

このような構成において、学習用入力データは画像データであり、学習データは学習用入力データの各画素についてのラベル(判定結果)を示すデータである。例えば、学習用入力データは、例えば文字又は図形等を含む画像でありうる。そして、画像の輪郭抽出を行う具体的な一例において、学習データは学習用入力データである画像中の輪郭を示す画像であり、例えばユーザ入力に従って作成されたものでありうる。基本データ記憶部は、学習データと組み合わせて、このような学習用入力データをさらに保持することができる。本明細書において、基本学習データ(基本教師データ)は設定部102による加工又は変形のような処理が行われる前の学習データ(教師データ)を指す。   In such a configuration, the learning input data is image data, and the learning data is data indicating a label (determination result) for each pixel of the learning input data. For example, the input data for learning may be an image including, for example, characters or figures. In a specific example of extracting the outline of an image, the learning data is an image indicating an outline in the image, which is input data for learning, and may be, for example, one created in accordance with a user input. The basic data storage unit can further hold such input data for learning in combination with the learning data. In this specification, basic learning data (basic teacher data) refers to learning data (teacher data) before processing such as processing or deformation by the setting unit 102 is performed.

設定部102は、ネットワークの学習に用いる学習データを設定する。また、適合的データ記憶部103は、設定部102により設定された学習データを保持する。一実施形態において、設定部102は、基本学習データに対して加工、変形、又はフィルタ処理のような処理を行うことにより、学習データを生成する。設定部102は、このように生成した学習データを適合的データ記憶部103に格納することにより、ネットワークの学習に用いる学習データ(以下、適合的学習データ、適合的教師データ、又は適合的GTと呼ぶことがある)を設定する。設定部102は、さらに、元の基本学習データを適合的データ記憶部103に格納してもよい。後述するように、設定部102は、単一の学習用入力データに対応する、階層型ネットワークからの2以上の異なる出力のそれぞれについての学習データ(適合的教師データ)を設定する。   The setting unit 102 sets learning data used for network learning. Further, the adaptive data storage unit 103 holds the learning data set by the setting unit 102. In one embodiment, the setting unit 102 generates learning data by performing processing such as processing, deformation, or filtering on the basic learning data. The setting unit 102 stores the learning data generated in this way in the adaptive data storage unit 103, and thereby stores learning data (hereinafter referred to as adaptive learning data, adaptive teacher data, or adaptive GT) used for network learning. May be called). The setting unit 102 may further store the original basic learning data in the adaptive data storage unit 103. As described later, the setting unit 102 sets learning data (adapted teacher data) for each of two or more different outputs from the hierarchical network corresponding to a single learning input data.

学習部104は、適合的データ記憶部103に格納された学習データを読み込み、ネットワークの学習処理を行う。また、学習部104は、学習により得られた最終的な学習結果(例えば、ネットワークのパラメータ)を、学習結果記憶部105に格納する。階層型ネットワークの学習方法としては、公知の方法を用いることができる。例えば、階層型ネットワークにおける順伝搬計算の結果得られた出力値の誤差をこのネットワークにおいて逆伝播させることにより、ネットワークの結合状態に対応する重み係数その他のパラメータを反復的に更新することができる。後述するように、本実施形態において学習部104は、学習用入力データをネットワークに入力して得られる、2以上の異なる出力のそれぞれと、出力に対応する学習データ(適合的教師データ)と、の誤差に基づいて、階層型ネットワークの学習を行う。   The learning unit 104 reads the learning data stored in the adaptive data storage unit 103 and performs a network learning process. The learning unit 104 stores the final learning result (for example, network parameters) obtained by the learning in the learning result storage unit 105. As a learning method for the hierarchical network, a known method can be used. For example, by backpropagating the error of the output value obtained as a result of the forward propagation calculation in the hierarchical network, the weighting factor and other parameters corresponding to the connection state of the network can be updated iteratively. As will be described later, in the present embodiment, the learning unit 104 includes two or more different outputs obtained by inputting learning input data to the network, learning data (adapted teacher data) corresponding to the outputs, Learning of the hierarchical network is performed based on the error of.

テストデータ記憶部106は、ネットワークの評価に用いるテストデータを保持する。評価部107は、テストデータを用いてネットワークの評価を行う。このようにして得られた学習後の階層型ネットワークは、後述するように、入力データに対応する2以上の異なる出力を与える。こうして得られた2以上の異なる出力の統合結果が、入力データに対する認識処理の結果を示す。   The test data storage unit 106 holds test data used for network evaluation. The evaluation unit 107 evaluates the network using the test data. The learned hierarchical network thus obtained provides two or more different outputs corresponding to the input data, as described later. The integration result of the two or more different outputs thus obtained indicates the result of the recognition processing on the input data.

図2は本実施形態に係る学習方法のフローチャートである。以下、このフローチャートに沿って説明する。ステップS210において設定部102は、基本データ記憶部101から基本学習データを読み込む。ステップS220において、設定部102は、基本学習データに基づいて、適合的学習データを設定する。ここで、設定部102は、階層型ネットワークの構造に基づいて、2以上の異なる出力のそれぞれについての学習データ(適合的教師データ)を設定する。設定される適合的学習データは、階層型ネットワークを形成するユニットの構成又はそれらの結合状態に依存しうる。以下では、一例として、サイドアウト学習(最終層の出力誤差だけではなく、中間層の出力誤差にも基づいて学習を行う手法であり、詳細は後述する)を行う場合について説明する。   FIG. 2 is a flowchart of the learning method according to the present embodiment. Hereinafter, description will be given along this flowchart. In step S210, the setting unit 102 reads the basic learning data from the basic data storage unit 101. In step S220, the setting unit 102 sets appropriate learning data based on the basic learning data. Here, the setting unit 102 sets learning data (adapted teacher data) for each of two or more different outputs based on the structure of the hierarchical network. The set adaptive learning data may depend on the configuration of the units forming the hierarchical network or their connection state. Hereinafter, as an example, a case of performing side-out learning (a method of performing learning based on not only the output error of the final layer but also the output error of the intermediate layer, which will be described in detail later) will be described.

ステップS230において、学習部104は、ステップS220で設定された適合的学習データを用いて、階層的ネットワークの学習を行う。本実施形態で用いられるネットワークはサイドアウト(中間層からの出力)を有しており、このサイドアウトに基づいて判定結果を得ることができる。具体的な学習方法については後述する。   In step S230, the learning unit 104 learns a hierarchical network using the adaptive learning data set in step S220. The network used in the present embodiment has a side-out (output from the hidden layer), and a determination result can be obtained based on the side-out. A specific learning method will be described later.

ステップS240において、学習部104は、ステップS230における学習を終了するか否かを判定する。例えば、学習部104は、ネットワークの学習結果が所定の基準に達した際に、学習を終了すると判定することができる。一例として、評価部107は、テストデータ記憶部106に格納されているテストデータ(評価用のデータ)を用いて、ネットワークの誤認識率を評価することができる。このテストデータは、例えば、基本データ記憶部101が格納しているデータとは異なる、学習用入力データと、学習用入力データに対する判定結果を示す教師データと、のセットでありうる。また、誤認識率は、評価に用いたテストデータ全体のうち、誤った認識結果が得られたテストデータの比率として定義することができる。そして、ネットワークの誤認識率が所定の閾値以下となっている場合に、学習部104は、学習を終了すると判定することができる。学習を終了しない場合、処理はステップS230に戻り、学習部104が再びネットワークの学習を行う。一方、学習を終了する場合、処理はステップS250に進み、ここで学習部104は最終的な学習結果(例えば、後述するようなネットワークの重みパラメータ及び中間層準出力の結合係数)を、学習結果記憶部105に格納する。   In step S240, the learning unit 104 determines whether to end the learning in step S230. For example, when the learning result of the network reaches a predetermined criterion, the learning unit 104 can determine to end the learning. As an example, the evaluation unit 107 can evaluate the network misrecognition rate using test data (data for evaluation) stored in the test data storage unit 106. The test data may be, for example, a set of learning input data, which is different from the data stored in the basic data storage unit 101, and teacher data indicating a determination result for the learning input data. Further, the false recognition rate can be defined as a ratio of test data in which a false recognition result is obtained, of the entire test data used for evaluation. Then, when the erroneous recognition rate of the network is equal to or less than the predetermined threshold, the learning unit 104 can determine that the learning is to be ended. If the learning is not completed, the process returns to step S230, and the learning unit 104 performs network learning again. On the other hand, if the learning is to be ended, the process proceeds to step S250, where the learning unit 104 determines the final learning result (for example, the network weight parameter and the coupling coefficient of the intermediate layer quasi-output described later) as the learning result. It is stored in the storage unit 105.

本実施形態に係る学習装置100は、図1に示す機能構成を実現する装置によって実現することができる。例えば、学習装置100は、各処理部を実現する専用のハードウェアを有していてもよい。一方で、一部又は全部の処理部が、コンピュータにより実現されてもよい。   The learning device 100 according to the present embodiment can be realized by a device that realizes the functional configuration illustrated in FIG. For example, the learning device 100 may have dedicated hardware for realizing each processing unit. On the other hand, some or all of the processing units may be realized by a computer.

図11は、学習装置100又はその処理部として動作可能なコンピュータの基本構成を示す図である。図11においてプロセッサ1110は、例えばCPUであり、コンピュータ全体の動作をコントロールする。メモリ1120は、例えばRAMであり、プログラム及びデータ等を一時的に記憶する。コンピュータが読み取り可能な記憶媒体1130は、例えばハードディスク又はCD−ROM等であり、プログラム及びデータ等を長期的に記憶する。本実施形態においては、記憶媒体1130が格納している、各部の機能を実現するプログラムが、メモリ1120へと読み出される。そして、プロセッサ1110が、メモリ1120上のプログラムに従って動作することにより、各部の機能が実現される。また、メモリ1120又は記憶媒体1130は、基本データ記憶部101、適合的データ記憶部103、学習結果記憶部105、又はテストデータ記憶部106のような記憶部として動作することもできる。   FIG. 11 is a diagram illustrating a basic configuration of a learning device 100 or a computer operable as a processing unit thereof. In FIG. 11, a processor 1110 is, for example, a CPU and controls the operation of the entire computer. The memory 1120 is, for example, a RAM, and temporarily stores a program, data, and the like. The computer-readable storage medium 1130 is, for example, a hard disk or a CD-ROM, and stores programs and data for a long time. In the present embodiment, a program for realizing the function of each unit stored in the storage medium 1130 is read out to the memory 1120. Then, the processor 1110 operates according to the program on the memory 1120 to realize the function of each unit. Further, the memory 1120 or the storage medium 1130 can also operate as a storage unit such as the basic data storage unit 101, the adaptive data storage unit 103, the learning result storage unit 105, or the test data storage unit 106.

図11において、入力インタフェース1140は外部の装置から情報を取得するためのインタフェースである。また、出力インタフェース1150は外部の装置へと情報を出力するためのインタフェースである。バス1160は、上述の各部を接続し、データのやりとりを可能とする。   In FIG. 11, an input interface 1140 is an interface for acquiring information from an external device. The output interface 1150 is an interface for outputting information to an external device. A bus 1160 connects the above-described units and enables data exchange.

(階層型ネットワークの構成及び学習方法)
以下、本実施形態において使用可能な階層型ネットワークの例及びステップS230で行われるネットワークの学習について説明する。図3は、階層型ネットワークの一例を示す。図3のネットワークは、3つの中間層群302,303,304によって構成されている。それぞれの中間層群の具体的な構成は特に限定されないが、例えば、畳み込み層、プーリング層、及びフルコネクト層のうち1以上の組み合わせにより構成されていてもよい。
(Structure of hierarchical network and learning method)
Hereinafter, an example of a hierarchical network that can be used in the present embodiment and learning of the network performed in step S230 will be described. FIG. 3 shows an example of a hierarchical network. The network shown in FIG. 3 includes three intermediate layer groups 302, 303, and 304. Although a specific configuration of each intermediate layer group is not particularly limited, for example, it may be configured by a combination of at least one of a convolutional layer, a pooling layer, and a full connect layer.

本実施形態において、階層型ネットワークからは、単一の入力データに対応する2以上の異なる出力が得られる。例えば、図3のネットワークにおいては、2以上の異なる階層から出力が得られる。すなわち、図3のネットワークにおいては、中間層群302,303,304のそれぞれから中間層準出力307,308,309が得られる。そして、中間層準出力307,308,309を統合することにより統合出力305が得られる。この統合出力305に基づいて、入力301に対する判定結果が得られる。すなわち、学習データを入力301として入力すると、中間層群302、中間層群303、中間層群304を経て、統合出力305が得られる。本実施形態では、一例として、中間層群302は2つの畳み込み層から、中間層群303は1つのプーリング層及び続く2つの畳み込み層から、中間層群304も1つのプーリング層及び続く2つの畳み込み層から構成されるものとする。   In this embodiment, two or more different outputs corresponding to a single input data are obtained from the hierarchical network. For example, in the network of FIG. 3, outputs are obtained from two or more different layers. That is, in the network of FIG. 3, intermediate layer quasi outputs 307, 308, and 309 are obtained from each of the intermediate layer groups 302, 303, and 304. Then, an integrated output 305 is obtained by integrating the intermediate output 307, 308, and 309. Based on the integrated output 305, a determination result for the input 301 is obtained. That is, when learning data is input as an input 301, an integrated output 305 is obtained through an intermediate layer group 302, an intermediate layer group 303, and an intermediate layer group 304. In the present embodiment, as an example, the middle layer group 302 includes two convolution layers, the middle layer group 303 includes one pooling layer and two subsequent convolution layers, and the middle layer group 304 also includes one pooling layer and two subsequent convolution layers. It shall be composed of layers.

本実施形態において、ネットワークの学習は、それぞれの中間層群からのサイドアウト学習によって行われる。通常、階層型ネットワークを用いる場合、最終出力のみに対して誤差評価が行われ、そして誤差逆伝播法によってネットワークの学習が行われる。一方、サイドアウト学習においては、中間層群からの出力に対しても誤差評価が行われる。そして、誤差の情報を中間層群にも入力し、これを逆伝播させることができる。例えば、非特許文献1のHED(Holistically-nested Edge Detection)は、階層型ネットワークを用いて輪郭抽出(入力対象画像中に含まれる物体の輪郭部分を抽出する)を行う方法を開示している。非特許文献1においては、サイドアウト学習を用いており、具体的には中間層部分においても学習データとの誤差評価を行い、誤差逆伝播法を用いてネットワークの学習を行っている。   In the present embodiment, network learning is performed by side-out learning from each of the intermediate layer groups. Usually, when a hierarchical network is used, error evaluation is performed only on the final output, and learning of the network is performed by the error back propagation method. On the other hand, in the side-out learning, the error evaluation is also performed on the output from the hidden layer group. Then, information on the error is also input to the intermediate layer group and can be back-propagated. For example, HED (Holistically-nested Edge Detection) of Non-Patent Document 1 discloses a method of performing contour extraction (extracting a contour part of an object included in an input target image) using a hierarchical network. In Non-Patent Document 1, side-out learning is used. Specifically, an error evaluation with respect to the learning data is performed even in the intermediate layer portion, and network learning is performed using an error back propagation method.

本実施形態の場合、それぞれの中間層群302,303,304から、中間層準出力307,308,309がサイドアウト学習用に出力される。そして、それぞれ中間層準出力307,308,309と学習データ(GT)との誤差である、中間層誤差310,311,312が算出される。ここで、中間層誤差310はlside と、中間層誤差311はlside と、中間層誤差312はlside と、それぞれ表される。このように評価された中間層誤差310,311,312の総和を計算することにより、中間層全体での誤差評価値(式(1)のLside)が得られる。
In the case of the present embodiment, intermediate layer quasi-outputs 307, 308, 309 are output from the respective intermediate layer groups 302, 303, 304 for side-out learning. Then, intermediate layer errors 310, 311 and 312, which are errors between the intermediate layer quasi outputs 307, 308 and 309 and the learning data (GT), respectively, are calculated. Here, the intermediate layer error 310 is represented by l side 1 , the intermediate layer error 311 is represented by l side 2, and the intermediate layer error 312 is represented by l side 3 . By calculating the sum of the intermediate layer errors 310, 311 and 312 evaluated in this way, an error evaluation value (L side in equation (1)) for the entire intermediate layer is obtained.

誤差の評価方法は特に限定されない。例えば、GTのラベル値が0と1の2値である場合には、式(2)に示されるようにクロスエントロピーを用いて中間層mの誤差評価値Lside を規定することができる。式(2)において、y は中間層mの各画素の出力値を表す。Y は、中間層mに与えるGTのうちポジティブ(ラベル値が1)である領域を、Y は中間層mに与えるGTのうちネガティブ(ラベル値が0)である領域を、それぞれ表す。そして、Σは全画素についての和を意味する。βはGTのうちポジティブなものとネガティブなものとの比率のアンバランスを補正する係数であり、例えば、GT全体の画素数に対するネガティブな領域の画素数の比率として定義することができる。この値βは、GT毎に算出され設定されてもよいし、全GTに対して同じ値(例えば、各GTについての値βの平均値)が設定されてもよい。
The error evaluation method is not particularly limited. For example, when the GT label value is a binary value of 0 and 1, the error evaluation value L side m of the intermediate layer m can be defined using the cross entropy as shown in Expression (2). In the equation (2), y j m represents an output value of each pixel of the intermediate layer m. Y + m indicates a positive (label value 1) region in the GT applied to the intermediate layer m, and Y m indicates a negative (label value 0) region in the GT applied to the intermediate layer m. Represent. And Σ means the sum for all pixels. β is a coefficient for correcting the imbalance in the ratio between the positive and negative GTs, and can be defined as, for example, the ratio of the number of pixels in the negative region to the number of pixels in the entire GT. This value β may be calculated and set for each GT, or the same value (for example, an average value of the values β for each GT) may be set for all GTs.

また、統合出力305は、入力データに対応する2以上の異なる出力を統合することにより得ることができる。例えば、中間層準出力307,308,309の線形和を求めることにより、中間層準出力307,308,309を重ね合わせることができる。そして、こうして得られた線形和に対してさらにシグモイド関数のような活性化関数σを作用させることにより、統合出力305を得ることができる。ここで、中間層準出力307をAside と、中間層準出力308をAside と、中間層準出力309をAside と、それぞれ表すことができる。この場合、例えば式(3)に従うYfuseを、統合出力305として得ることができる。統合出力305を得る際に用いる各中間層準出力307,308,309の重みも、学習により決定することができる。例えば、式(3)に示される線形和の結合係数hも、学習により決定することができる。
Further, the integrated output 305 can be obtained by integrating two or more different outputs corresponding to the input data. For example, by calculating the linear sum of the intermediate layer quasi outputs 307, 308, 309, the intermediate layer quasi outputs 307, 308, 309 can be superimposed. Then, by further applying an activation function σ such as a sigmoid function to the linear sum thus obtained, an integrated output 305 can be obtained. Here, the intermediate layer quasi output 307 can be represented as A side 1 , the intermediate layer quasi output 308 as A side 2, and the intermediate layer quasi output 309 as A side 3 . In this case, for example, Y fuse according to Expression (3) can be obtained as the integrated output 305. The weights of the respective intermediate-layer quasi-outputs 307, 308, and 309 used when obtaining the integrated output 305 can also be determined by learning. For example, the coupling coefficient h m of the linear sum as shown in equation (3) can also be determined by learning.

本実施形態では、統合出力305とGTとの誤差である、統合誤差313も評価される。例えば、式(4)に従って、統合出力YfuseとGTのラベル値Yとの誤差であるLfuseを、統合誤差313として得ることができる。式4においてDist()は、YとYfuseとの誤差評価に用いる距離関数を意味し、この関数としては例えばクロスエントロピーを用いることができる。
In the present embodiment, the integrated error 313, which is the error between the integrated output 305 and GT, is also evaluated. For example, according to Equation (4), L fuse , which is the error between the integrated output Y fuse and the label value Y of the GT, can be obtained as the integrated error 313. In Expression 4, Dist () means a distance function used for evaluating an error between Y and Y fuse . For example, cross entropy can be used as this function.

ネットワーク全体の誤差は、統合誤差313(Lfuse)と、各中間層誤差310,311,312の総和(Lside)と、にしたがって得ることができる。例えば、ネットワーク全体の誤差は、式(5)で示されるLtotalでありうる。階層型ネットワーク内の各重みパラメータ及び上記中間層準出力の結合係数(h)は、このネットワーク全体の誤差(Ltotal)を最小化するように、学習によって決定することができる。
The error of the entire network can be obtained according to the integrated error 313 (L fuse ) and the sum (L side ) of the respective intermediate layer errors 310, 311 and 312. For example, the error of the entire network may be L total represented by Expression (5). Coupling coefficient of each weight parameter and the intermediate layer quasi output in a hierarchical network (h m) is to minimize the entire network error (L total), it can be determined by learning.

上記のような階層型ネットワークの構成及び学習方法は、例えば非特許文献1にも記載されている通りである。一方、本実施形態においては、中間層誤差310,311,312を得る際に、それぞれの中間層群302,303,304(又は中間層準出力307,308,309)に合わせて設定された、適合的学習データが用いられる。すなわち、中間層誤差310,311,312は、それぞれの中間層群302,303,304に合わせて設定された適合的GT306−1,306−2,306−3と、中間層準出力307,308,309と、の誤差として定義される。以下、この構成について説明する。   The configuration and learning method of the above-mentioned hierarchical network are as described in Non-Patent Document 1, for example. On the other hand, in the present embodiment, when the intermediate layer errors 310, 311 and 312 are obtained, they are set according to the respective intermediate layer groups 302, 303 and 304 (or the intermediate layer quasi outputs 307, 308 and 309). Adaptive learning data is used. That is, the intermediate layer errors 310, 311, and 312 are determined by the adaptive GTs 306-1, 306-2, and 306-3 set according to the respective intermediate layer groups 302, 303, and 304, and the intermediate layer quasi outputs 307 and 308. , 309 and 309. Hereinafter, this configuration will be described.

図4は、例えば階層型ネットワークを画像からの輪郭抽出に適用する場合における、ネットワークのサイドアウト学習について説明する図である。図4は、非特許文献1のように、同じGT(基本学習データに相当)を用いて、各中間層準出力の誤差評価をする場合を、模式的に表している。図4は、統合出力305、及び中間層群302〜304からの中間層準出力307〜309と、GT306との関係を表す。   FIG. 4 is a diagram illustrating side-out learning of a network when a hierarchical network is applied to contour extraction from an image, for example. FIG. 4 schematically illustrates a case in which the same GT (corresponding to basic learning data) is used to evaluate the error of each intermediate layer quasi-output as in Non-Patent Document 1. FIG. 4 shows the relationship between the integrated output 305 and the intermediate layer quasi-outputs 307 to 309 from the intermediate layer groups 302 to 304, and the GT 306.

畳み込みニューラルネットワークのような階層型ネットワークにおいては、通常、畳み込み層の後にプーリング層が配置される。プーリング層を配置することにより、畳み込み層で抽出された特徴の位置感度が低下し、プーリング層からの出力が位置変化に対するロバストネスを得ることができる。   In a hierarchical network such as a convolutional neural network, a pooling layer is usually arranged after a convolutional layer. By arranging the pooling layer, the position sensitivity of the feature extracted in the convolutional layer is reduced, and the output from the pooling layer can obtain robustness against position change.

例えば、プーリング層においてストライド2の2×2MAXプーリングを行うと、プーリングにより2×2の4画素のうち最大値のみが出力される。上述のように、図3の例において中間層群303,304はそれぞれ1層のプーリング層を有している。したがって、例えば128×128サイズの学習用入力データである画像をネットワークに入力し、これらのプーリング層がストライド2の2×2MAXプーリングを行う場合、中間層群303からは64×64サイズの出力が得られる。また、中間層群304からは32×32サイズの出力が得られる。   For example, when 2 × 2 MAX pooling of stride 2 is performed in the pooling layer, only the maximum value of the 2 × 2 four pixels is output by pooling. As described above, each of the intermediate layer groups 303 and 304 in the example of FIG. 3 has one pooling layer. Therefore, for example, when an image that is 128 × 128 size learning input data is input to the network and these pooling layers perform 2 × 2 MAX pooling of stride 2, a 64 × 64 size output is output from the intermediate layer group 303. can get. Also, an output of 32 × 32 size is obtained from the intermediate layer group 304.

一方、GT(基本学習データに相当)は通常、学習用入力データと同サイズの画像(例えば輪郭画像)である。したがって、中間層準出力をGTと比較して誤差評価するために、中間層準出力はGTと同じサイズの128×128サイズに拡大される。すると、図4に示されるように、中間層準出力における1画素が、誤差評価の段階では、中間層準出力308の場合には2×2のサイズに、中間層準出力309の場合には4×4のサイズに拡大される。したがって、例えば輪郭抽出の場合においては、中間層準出力307及びGTにおける輪郭線幅が1ピクセルサイズだったとしても、中間層準出力308の輪郭線幅は2ピクセルサイズに、中間層準出力309の輪郭線幅は4ピクセルサイズになる。したがって、誤差を評価する際には、中間層準出力308,309においては、線幅の違いによる誤差の過大評価が生じる可能性がある。   On the other hand, GT (corresponding to basic learning data) is usually an image (for example, a contour image) of the same size as the input data for learning. Therefore, in order to evaluate the error by comparing the intermediate layer quasi-output with the GT, the intermediate layer quasi-output is enlarged to the 128 × 128 size which is the same size as the GT. Then, as shown in FIG. 4, one pixel in the intermediate layer quasi-output has a size of 2 × 2 in the case of the intermediate layer quasi-output 308 and in the case of the intermediate layer quasi-output 309 in the error evaluation stage. It is enlarged to a size of 4x4. Therefore, for example, in the case of the contour extraction, even if the contour width in the intermediate layer semi-output 307 and the GT is 1 pixel size, the contour width of the intermediate layer semi-output 308 is 2 pixel size and the intermediate layer semi-output 309 is Has a 4-pixel size. Therefore, when the error is evaluated, the intermediate layer quasi outputs 308 and 309 may overestimate the error due to the difference in line width.

図5は、GTと中間層準出力における線幅の相違によって、誤差が過大に評価される過程を模式的に示す。図5(A)に示すように、中間層準出力307とGT306において線幅の相違はないため、誤差評価においては、中間層群302から出力された輪郭パターンとGT306のパターンとの相違が評価される。一方、図5(B)に示すように、中間層準出力308とGT306との間には線幅の相違が存在するため、誤差評価においては、中間層群303から出力された輪郭パターンとGT306のパターンとの相違の他に、線幅の相違に起因する誤差も評価される。さらに、図5(C)に示すように、中間層準出力309とGT306との間にはより大きな線幅の相違が存在するため、線幅の相違に起因する誤差はより大きくなる。   FIG. 5 schematically illustrates a process in which an error is overestimated due to a difference in line width between the GT and the intermediate layer quasi-output. As shown in FIG. 5A, there is no difference in the line width between the intermediate layer quasi-output 307 and the GT 306. Therefore, in the error evaluation, the difference between the contour pattern output from the intermediate layer group 302 and the pattern of the GT 306 is evaluated. Is done. On the other hand, as shown in FIG. 5B, since there is a difference in line width between the intermediate layer semi-output 308 and the GT 306, in the error evaluation, the contour pattern output from the intermediate layer group 303 and the GT 306 are compared. In addition to the differences from the patterns described above, errors due to differences in line width are also evaluated. Further, as shown in FIG. 5C, since there is a larger difference in line width between the intermediate layer quasi-output 309 and the GT 306, the error caused by the difference in line width is larger.

図5(D)は、誤差が過大に評価される様子を模式的に示す。このように、中間層準出力に示される中間層群から出力された輪郭パターン510と、GT520と、の間に線幅の相違が存在する場合には、GTに示される輪郭線の両側に正しく誤差評価がなされない領域530が存在する。輪郭抽出の問題において正しく評価したいのは、出力とGTとのパターンの相違であるため、線幅の相違のようなそれ以外の誤差が評価されてしまうと好ましい最終学習結果が得られない可能性が生じる。   FIG. 5D schematically shows how the error is overestimated. As described above, when there is a difference in the line width between the contour pattern 510 output from the intermediate layer group shown in the intermediate layer quasi-output and the GT 520, the contour pattern is correctly placed on both sides of the contour shown in the GT. There is a region 530 where error evaluation is not performed. In the problem of contour extraction, what we want to evaluate correctly is the difference between the pattern of the output and the GT. Therefore, if other errors such as the difference in line width are evaluated, there is a possibility that a favorable final learning result cannot be obtained. Occurs.

非特許文献1には、中間層準出力の誤差に基づく学習に適した学習データを、基本学習データから生成するような処理は記載されていない。そして、最終的な統合出力の誤差に基づく学習データ(基本学習データに相当)と同一の学習データを用いて、各中間層準出力に基づくサイドアウト学習を行う場合、中間層準出力の誤差評価性能が低下し、学習の効率が低下する可能性があった。   Non-Patent Document 1 does not disclose a process of generating learning data suitable for learning based on an error of a quasi-output of an intermediate layer from basic learning data. When performing side-out learning based on each intermediate layer quasi-output using the same learning data as the final learning data (corresponding to basic learning data) based on the error of the integrated output, the error evaluation of the intermediate quasi-output is performed. Performance could be reduced and learning efficiency could be reduced.

このため、本実施形態において、設定部102は、単一の学習用入力データに対応する、ネットワークからの2以上の異なる出力のそれぞれについての教師データ(適合的GT)を設定する。例えば設定部102は、それぞれの中間層群(又は中間層準出力)ごとに適合的GTを設定することができる。このような構成により、線幅のような他の影響を低減して本来評価したい誤差をより正しく評価することが可能となる。その結果、サイドアウト学習の収束性及び得られる階層型ネットワークの性能向上を図ることができる。   For this reason, in the present embodiment, the setting unit 102 sets the teacher data (adapted GT) for each of two or more different outputs from the network corresponding to the single learning input data. For example, the setting unit 102 can set an appropriate GT for each of the intermediate layer groups (or the intermediate layer quasi-output). With such a configuration, it is possible to reduce the other influences such as the line width, and to more correctly evaluate the error originally desired to be evaluated. As a result, the convergence of the side-out learning and the performance of the obtained hierarchical network can be improved.

このために、設定部102は、それぞれの中間層群ごとに、元の基本学習データを加工して得られた適合的学習データを設定することができる。例えば、設定部102は、中間層群ごとに、中間層準出力における線幅と誤差評価に用いる適合的GTの線幅とが近くなるように、又は少なくとも誤差評価が過大に行われないように、適合的学習データを生成することができる。このようにして、設定部102は、それぞれの中間層準出力に対して適切な誤差評価が行われるように、学習データを生成することができる。   For this reason, the setting unit 102 can set, for each intermediate layer group, adaptive learning data obtained by processing the original basic learning data. For example, the setting unit 102 sets, for each intermediate layer group, such that the line width in the intermediate layer quasi-output and the line width of the adaptive GT used for error evaluation are close, or at least the error evaluation is not performed excessively. , Adaptive learning data can be generated. In this way, the setting unit 102 can generate the learning data so that an appropriate error evaluation is performed for each intermediate layer quasi-output.

一方で、基本データ記憶部101は、単一の学習用入力データに対応する、階層型ネットワークからの2以上の異なる出力のそれぞれについての学習データ(適合的教師データ)を格納していてもよい。この場合、設定部102は、基本データ記憶部101から適合的学習データを取得して適合的データ記憶部103に格納してもよい。   On the other hand, the basic data storage unit 101 may store learning data (adapted teacher data) for each of two or more different outputs from the hierarchical network corresponding to a single learning input data. . In this case, the setting unit 102 may acquire adaptive learning data from the basic data storage unit 101 and store the acquired adaptive learning data in the adaptive data storage unit 103.

(適合的学習データの設定方法)
以下、ステップS220における適合的学習データの設定方法の具体例を説明する。
(Method of setting adaptive learning data)
Hereinafter, a specific example of the method of setting the adaptive learning data in step S220 will be described.

図6は、本実施形態における適合的学習データの設定方法を、図3の階層的ネットワークを用いる場合について説明する図である。図6(A)は、中間層準出力307に示される輪郭パターンと、中間層準出力307の誤差評価用のGT601に示されるポジティブ領域(輪郭パターンを表し、以下単にGTと呼ぶことがある)と、を示す。同様に、図6(B)及び図6(C)は、中間層準出力308,309に示される輪郭パターンと、中間層準出力308,309の誤差評価用のGT602,603に示される輪郭パターンと、を示す。既に説明したように、中間層準出力308,309の解像度と、GTの解像度とが一致するように、中間層準出力308,309はGTに合わせて拡大される。これに合わせて、中間層準出力308,309に示される輪郭パターンの線幅も大きくなる。   FIG. 6 is a diagram illustrating a method for setting adaptive learning data according to the present embodiment in a case where the hierarchical network of FIG. 3 is used. FIG. 6A shows a contour pattern shown in the intermediate layer quasi-output 307 and a positive area shown in the GT 601 for error evaluation of the intermediate layer quasi-output 307 (representing a contour pattern, sometimes simply referred to as GT hereinafter). And Similarly, FIG. 6B and FIG. 6C show the contour patterns shown in the intermediate layer quasi-outputs 308 and 309 and the contour patterns shown in the GT 602 and 603 for error evaluation of the intermediate layer quasi-outputs 308 and 309, respectively. And As described above, the intermediate layer quasi outputs 308 and 309 are enlarged so as to match the GT so that the resolution of the intermediate layer quasi outputs 308 and 309 matches the resolution of the GT. In accordance with this, the line width of the contour pattern shown in the intermediate layer quasi-outputs 308 and 309 also increases.

したがって、設定部102は、2以上の異なる出力についての教師データを、2以上の異なる出力の解像度に基づいて設定することができる。例えば、設定部102は、中間層準出力307〜309用のGT601〜603を、中間層準出力307〜309の解像度に基づいて設定することができる。本実施形態において、設定部102は、2以上の異なる出力のそれぞれに対応する幅を有する線画パターンを、2以上の異なる出力についての教師データとして設定する。例えば、設定部102は、中間層準出力307〜309の解像度に対応する幅を有する線画パターンを示すGT601〜603を、中間層準出力307〜309の評価用に設定することができる。   Therefore, the setting unit 102 can set the teacher data for two or more different outputs based on the resolution of the two or more different outputs. For example, the setting unit 102 can set the GTs 601 to 603 for the intermediate layer quasi outputs 307 to 309 based on the resolution of the intermediate layer quasi outputs 307 to 309. In the present embodiment, the setting unit 102 sets a line drawing pattern having a width corresponding to each of two or more different outputs as teacher data for two or more different outputs. For example, the setting unit 102 can set GTs 601 to 603 indicating a line drawing pattern having a width corresponding to the resolution of the intermediate layer quasi outputs 307 to 309 for evaluation of the intermediate layer quasi outputs 307 to 309.

具体的には、中間層準出力とGTに示される、輪郭を表す線画パターンの線幅が近くなるように、中間層準出力308,309用のGT602,603の線幅が大きくされる。より具体的には、図6の例において、中間層準出力307,308,309用のGT601,602,603に示される輪郭パターンの線幅は、それぞれ1,2,4である。このように設定部102は、中間層準出力の解像度が大きい(画素数が多い)場合と比較して、解像度が小さい(画素数が少ない)場合に、線画パターンの線幅が大きくなるように、適合的GTを設定することができる。例えば設定部102は、適合的GTに示される線画パターンの線幅が、(基本学習データの解像度/中間層準出力の解像度)にほぼ一致するように、適合的GTを設定することができる。   Specifically, the line widths of the GTs 602 and 603 for the intermediate layer semi-outputs 308 and 309 are increased so that the line widths of the line drawing patterns representing the contours shown in the intermediate layer semi-output and GT are close to each other. More specifically, in the example of FIG. 6, the line widths of the contour patterns shown in the GTs 601, 602, and 603 for the intermediate layer quasi outputs 307, 308, and 309 are 1, 2, and 4, respectively. As described above, the setting unit 102 increases the line width of the line drawing pattern when the resolution is small (the number of pixels is small), as compared with the case where the resolution of the intermediate layer quasi-output is large (the number of pixels is large). , An adaptive GT can be set. For example, the setting unit 102 can set the adaptive GT such that the line width of the line drawing pattern indicated by the adaptive GT substantially matches (the resolution of the basic learning data / the resolution of the intermediate layer quasi-output).

設定部102は、基本学習データを用いて、中間層準出力の誤差評価用の適合的学習データを生成することができる。本実施形態の場合、設定部102は、学習用入力データに対応する線画パターンである基本教師データを用いて適合的学習データを生成することができる。設定部102は、例えば図9(D)のフローチャートに従って、中間層準出力307〜309の誤差評価用の適合的学習データ(GT911〜913)を生成することができる。   The setting unit 102 can use the basic learning data to generate adaptive learning data for evaluating the error of the intermediate layer quasi-output. In the case of the present embodiment, the setting unit 102 can generate adaptive learning data using basic teacher data that is a line drawing pattern corresponding to the learning input data. The setting unit 102 can generate adaptive learning data (GT911 to 913) for error evaluation of the intermediate layer quasi-outputs 307 to 309, for example, according to the flowchart of FIG.

ステップS901において設定部102は、基本データ記憶部101に格納された基本学習データ(GT912)を取得する。ステップS902において設定部102は、GT912にフィルタ処理を行うことにより、GT911及びGT913を生成する。ステップS903において設定部102は、こうして得られたGT911〜GT913を適合的データ記憶部103に格納することにより、各中間層準出力307〜309用のGT911〜913を設定できる。   In step S901, the setting unit 102 acquires the basic learning data (GT912) stored in the basic data storage unit 101. In step S902, the setting unit 102 generates a GT 911 and a GT 913 by performing a filtering process on the GT 912. In step S903, the setting unit 102 can set the GTs 911 to 913 for the respective intermediate-layer quasi-outputs 307 to 309 by storing the GTs 911 to GT 913 thus obtained in the appropriate data storage unit 103.

この例では、設定部102は、基本学習データに対してフィルタ処理を行うことにより、適合的学習データを生成した。すなわち、設定部102は、学習用入力データに対応する線画パターンである基本学習データ(GT912)に対して、中間層準出力ごとに異なるフィルタを作用させることにより、異なる適合的学習データ(GT911,913)を得ることができる。中間層準出力に示される輪郭パターンは、最終出力側に近づくにつれ、テクスチャを反映した細かな形態から、大まかな形態へと変化していく。基本学習データに対して変換を施すフィルタの効果により、このような変化をモデル化し、このような変化に合わせてGTの形態を変化させることができる。一例として、設定部102は、中間層準出力の解像度が大きい(画素数が多い)場合と比較して、解像度が小さい(画素数が少ない)場合に、線画パターンの線幅が大きくなるように、用いるフィルタを選択することができる。   In this example, the setting unit 102 generates adaptive learning data by performing a filtering process on the basic learning data. In other words, the setting unit 102 applies different filters to the basic learning data (GT912), which is a line drawing pattern corresponding to the learning input data, for each intermediate layer quasi-output, so that different adaptive learning data (GT911, GT911). 913) can be obtained. The contour pattern shown in the intermediate quasi-output changes from a fine form reflecting the texture to a rough form as it approaches the final output side. Such a change can be modeled by the effect of a filter that converts the basic learning data, and the form of the GT can be changed in accordance with such a change. As an example, the setting unit 102 increases the line width of the line drawing pattern when the resolution is small (the number of pixels is small), as compared with the case where the resolution of the intermediate layer quasi-output is large (the number of pixels is large). , A filter to be used can be selected.

フィルタの具体例としては、特定の周波数帯域のみを通過させるバンドバスフィルタが挙げられる。図9(A)には、GT912に対して高周波パスフィルタを適用することにより得られたGT911が示されている。図9(B)には、輪郭パターンの線幅が2であるGT912が示され、中間層準出力308に対してはGT912がそのまま用いられる。図9(C)には、GT912に対して低周波パスフィルタを適用することにより得られたGT913が示されている。図9(A)〜(C)からわかるように、GT911はGT912よりも輪郭パターンの線幅が細く、GT913はGT912よりも輪郭パターンの線幅が太い。なお、図9(A)〜(C)に示される周波数と強度のグラフにおいて、灰色の部分はフィルタ処理で通過させる帯域を示している。なお、長さの短い輪郭パターン(例えば最大長さが10ピクセル以下など)に対しては、フィルタ処理を省略し、又は輪郭パターンを消す処理を行ってもよい。このような処理によれば、例えば、ノイズの影響を抑える効果が期待できる。   As a specific example of the filter, there is a band pass filter that allows only a specific frequency band to pass. FIG. 9A illustrates a GT 911 obtained by applying a high-frequency pass filter to the GT 912. FIG. 9B shows a GT 912 in which the line width of the contour pattern is 2, and the GT 912 is used as it is for the intermediate layer semi-output 308. FIG. 9C shows a GT 913 obtained by applying a low-frequency pass filter to the GT 912. As can be seen from FIGS. 9A to 9C, the line width of the contour pattern of the GT 911 is smaller than that of the GT 912, and the line width of the contour pattern of the GT 913 is larger than that of the GT 912. Note that, in the frequency and intensity graphs shown in FIGS. 9A to 9C, the gray portions indicate the bands passed by the filter processing. For a contour pattern having a short length (for example, a maximum length of 10 pixels or less), a filtering process may be omitted or a process of deleting the contour pattern may be performed. According to such processing, for example, an effect of suppressing the influence of noise can be expected.

別の例として、基本データ記憶部101は輪郭パターンを示すベクタデータを格納していてもよい。この場合、設定部102は、中間層群に対応する線幅を有するGTを生成することができる。   As another example, the basic data storage unit 101 may store vector data indicating an outline pattern. In this case, the setting unit 102 can generate a GT having a line width corresponding to the intermediate layer group.

また、中間層準出力307〜309の誤差評価用の適合的学習データ(GT601〜603)は、予め基本データ記憶部101に格納されていてもよい。さらに、設定部102は、基本データ記憶部101に格納されているデータに基づいてGT601〜603を生成してもよい。図6(D)は、基本データ記憶部101における、GT601〜603を生成するためのデータの格納方法の例を説明する図である。また、図6(E)は、図6(D)の縦線部分の拡大図である。図6(D)(E)に示されるように、統合出力305及び中間層準出力307の誤差評価用のGT601としては、「1」で示される輪郭パターンが用いられ、より具体的にはGT601のポジティブ領域は「1」で示される領域である。また、中間層準出力308の誤差評価用のGT602としては、「1」及び「2」で示される輪郭パターンが用いられ、中間層準出力309の誤差評価用のGT603としては、「1」及び「2」及び「3」で示される輪郭パターンが用いられる。すなわち、GT602のポジティブ領域は「1」及び「2」で表される領域であり、GT603のポジティブ領域は「1」及び「2」及び「3」で表される領域である。   Further, the adaptive learning data (GTs 601 to 603) for error evaluation of the intermediate layer quasi outputs 307 to 309 may be stored in the basic data storage unit 101 in advance. Further, the setting unit 102 may generate the GTs 601 to 603 based on the data stored in the basic data storage unit 101. FIG. 6D is a diagram illustrating an example of a method of storing data for generating GTs 601 to 603 in basic data storage unit 101. FIG. 6E is an enlarged view of a vertical line portion in FIG. 6D. As shown in FIGS. 6D and 6E, a contour pattern indicated by “1” is used as the GT 601 for error evaluation of the integrated output 305 and the intermediate layer quasi-output 307. More specifically, the GT 601 is used. Are the areas indicated by “1”. Further, as the GT 602 for error evaluation of the intermediate layer quasi-output 308, contour patterns indicated by “1” and “2” are used, and as the GT 603 for error evaluation of the intermediate layer quasi-output 309, “1” and “1” are used. Contour patterns indicated by “2” and “3” are used. That is, the positive area of the GT 602 is an area represented by “1” and “2”, and the positive area of the GT 603 is an area represented by “1”, “2”, and “3”.

この場合、設定部102は、基本データ記憶部101に格納されたデータを用いて、それぞれの中間層準出力307〜309の誤差評価用の適合的学習データ(GT601〜603)を生成及び設定することができる。このように、中間層準出力307〜309の誤差評価用のGT601〜603における輪郭パターンの線幅を順次太くすることにより、パターンの相違以外に起因する誤差が過大に評価されるのを防ぎ、より効果的にサイドアウト学習を行うことができる。例えば、第1の中間層からの出力の誤差評価用のGTよりも、第1の中間層よりもプーリング層を通って下流にある第2の中間層からの出力の誤差評価用のGTの方が、輪郭パターンの線幅が太くなるように、GTを設定することができる。   In this case, the setting unit 102 uses the data stored in the basic data storage unit 101 to generate and set adaptive learning data (GTs 601 to 603) for error evaluation of the respective intermediate layer quasi outputs 307 to 309. be able to. In this way, by sequentially increasing the line width of the contour pattern in the GTs 601 to 603 for error evaluation of the intermediate layer quasi-outputs 307 to 309, it is possible to prevent errors due to other than pattern differences from being overestimated, The side-out learning can be performed more effectively. For example, the GT for evaluating the error of the output from the second intermediate layer downstream through the pooling layer with respect to the first intermediate layer is better than the GT for evaluating the error of the output from the first intermediate layer. However, the GT can be set so that the line width of the contour pattern is increased.

設定部102は、上記のように得られたそれぞれの中間層準出力用のGTに対して、ぼかし処理のようなさらなる画像処理を行って得られたGTを、適合的学習データとして設定してもよい。例えば図8(A)〜(C)には、図6に示すGT601〜603に対して、さらにガウシアンブラー(ガウス関数を用いて画像をぼかす処理)を適用した結果を示す。すなわち、図8(A)には、統合出力305と中間層準出力307の誤差評価に用いるための、線幅1のGT601にガウシアンブラーを作用させた後の断面801(輪郭パターンの幅方向の画素値分布)を示す。同様に、図8(B)(C)には、中間層準出力308,309の誤差評価に用いるための、線幅2,4のGT602,603にガウシアンブラーを作用させた後の断面802,803を示す。それぞれのGT601〜603に適用する処理は、同一の強さであってもよいし、中間層準出力の特性に合わせた異なる強さであってもよい。   The setting unit 102 sets a GT obtained by performing further image processing such as a blurring process on each of the intermediate layer quasi-output GTs obtained as described above as adaptive learning data. Is also good. For example, FIGS. 8A to 8C show the results of further applying Gaussian blur (processing for blurring an image using a Gaussian function) to the GTs 601 to 603 shown in FIG. That is, FIG. 8A shows a cross section 801 (in the width direction of the contour pattern) after a Gaussian blur is applied to the GT 601 having a line width of 1 to be used for evaluating the error between the integrated output 305 and the intermediate layer quasi output 307. (Pixel value distribution). Similarly, FIGS. 8B and 8C show cross sections 802 and 802 after applying a Gaussian blur to GTs 602 and 603 having a line width of 2 and 4 to be used for error evaluation of the intermediate layer quasi outputs 308 and 309, respectively. 803 is shown. The processing applied to each of the GTs 601 to 603 may have the same strength or different strengths according to the characteristics of the intermediate layer quasi-output.

このように設定部102は、ぼかし処理が行われた線画パターンを、2以上の異なる出力についての教師データとして設定することができる。学習用入力データに示される正しい輪郭パターンの位置と、GTに示される輪郭パターンの位置とは、入力時の誤差のためにわずかにずれている可能性がある。ここで、GTに対してぼかし処理(例えばガウシアンブラー処理)を行うことにより、真の位置を中心とした入力誤差(例えば、ガウシアン分布に従う入力誤差)をGTに反映させ、より効果的にサイドアウト学習を行うことができる。   As described above, the setting unit 102 can set the line drawing pattern on which the blurring processing has been performed as teacher data for two or more different outputs. There is a possibility that the position of the correct contour pattern shown in the input data for learning and the position of the contour pattern shown in GT are slightly shifted due to an error at the time of input. Here, by performing a blurring process (for example, Gaussian blur process) on the GT, an input error centered on a true position (for example, an input error according to a Gaussian distribution) is reflected on the GT, and the GT is more effectively side-out. Can learn.

ここまで、主にGTにおける輪郭パターンの線幅を、中間層準出力の特性に応じて変更する構成について説明したが、適合的学習データの設定方法はこのような方法に限られない。例えば、設定部102は、2以上の異なる出力のそれぞれに対応する幅を有する誤差評価対象外領域が線画パターンの周囲に設定された、2以上の異なる出力についての教師データを設定することができる。   The configuration in which the line width of the contour pattern in the GT is mainly changed in accordance with the characteristic of the intermediate layer quasi-output has been described above, but the method of setting the adaptive learning data is not limited to such a method. For example, the setting unit 102 can set teacher data for two or more different outputs in which an error evaluation non-target area having a width corresponding to each of two or more different outputs is set around the line drawing pattern. .

このように、GTに誤差評価を行わない誤差評価対象外領域を設定する方法について、図7を参照して説明する。図7(A)は、中間層準出力307及び誤差評価用のGT601を示し、これは図6(A)と同様である。一方、図7(B)は、中間層準出力308、及び線幅1のGT601(GTのポジティブ領域)と線幅2の付帯領域702とで構成される中間層準出力308の誤差評価用のGTを表す。また、図7(C)は、中間層準出力309、及び線幅1のGT601(GTのポジティブ領域)と線幅4の付帯領域703とで構成される中間層準出力309の誤差評価用のGTを表す。ここで、付帯領域とは、誤差評価において評価を行わない、ポジティブ領域である輪郭パターンの両側に付属する領域のことを表す。この場合、式(2)を用いた評価において、Y は中間層mに与えるGTのうちポジティブ(例えばラベル値が1)な領域を表す。また、Y は中間層mに与えるGTのうちネガティブ(例えばラベル値が0)である領域を表す。このネガティブな領域は、全体の領域からポジティブ領域と付帯領域(例えばラベル値が2)を除いた領域である。 A method of setting a non-error evaluation target area in which error evaluation is not performed on the GT will be described with reference to FIG. FIG. 7A shows an intermediate layer quasi-output 307 and a GT 601 for error evaluation, which is the same as FIG. 6A. On the other hand, FIG. 7B shows an error evaluation of the intermediate layer quasi-output 308 and the intermediate layer quasi-output 308 composed of the GT 601 having a line width of 1 (a positive region of GT) and the incidental region 702 having a line width of 2. GT. FIG. 7 (C) shows the error evaluation of the intermediate layer quasi-output 309 and the intermediate layer quasi-output 309 composed of the GT 601 having a line width of 1 (positive area of GT) and the incidental region 703 having a line width of 4. GT. Here, the supplementary region refers to a region that is not evaluated in the error evaluation and that is attached to both sides of the contour pattern that is a positive region. In this case, in the evaluation using Expression (2), Y + m represents a positive (for example, a label value of 1) region in the GT provided to the intermediate layer m. Y m represents a negative region (for example, a label value of 0) in the GT provided to the intermediate layer m. The negative region is a region obtained by removing the positive region and the accompanying region (for example, the label value is 2) from the entire region.

このような付帯領域を有するGTは、例えば、図6(D)(E)に示されるデータに従って作成することができる。例えば、図7(B)に示すGTは、「1」の領域をポジティブ領域に、「2」の領域を付帯領域に、それぞれ設定することにより作成することができる。また、図7(C)に示すGTは、「1」の領域をポジティブ領域に、「2」及び「3」の領域を付帯領域に、それぞれ設定することにより作成することができる。また、上記のようなフィルタ処理を用いて付帯領域を設定することも可能である。このように、中間層準出力307〜309の誤差評価用のGT601における付帯領域702,703の線幅を順次太くすることによっても、パターンの相違以外に起因する誤差が過大に評価されるのを防ぎ、より効果的にサイドアウト学習を行うことができる。   A GT having such an incidental region can be created, for example, in accordance with the data shown in FIGS. For example, the GT shown in FIG. 7B can be created by setting an area “1” as a positive area and an area “2” as an incidental area. The GT shown in FIG. 7C can be created by setting the area of “1” as a positive area and the areas of “2” and “3” as ancillary areas. In addition, it is also possible to set an incidental region using the above-described filter processing. As described above, by sequentially increasing the line widths of the incidental regions 702 and 703 in the GT 601 for error evaluation of the intermediate layer quasi-outputs 307 to 309, the error caused by other than the pattern difference can be overestimated. Prevention and more effective side-out learning.

(様々なネットワーク構成への応用例)
ここまでは、それぞれの中間層群からの中間層準出力に基づいてサイドアウト学習を行う場合について説明したが、本実施形態に係る方法の適用例はこれに限られない。例えば、図10に示すように、1つの中間層群からの複数の出力に基づいてサイドアウト学習を行うこともできる。図10に示す構成においては、ネットワークの1つの中間層群における2以上の異なる中間層からの出力に基づいて、サイドアウト学習が行われる。図10(A)において、1つの中間層群1300には、畳み込み層1301,1302,1303、及びプーリング1304層が含まれる。また、図10(A)には、畳み込み層1301〜1303の出力1311〜1313と、そこでの誤差評価に用いるGT1321〜1323が示されている。図10(B)には、GT1321〜1323における輪郭パターンの線幅の変化を示しており、次第に線幅が大きくなることがわかる。
(Examples of application to various network configurations)
Up to this point, a case has been described in which side-out learning is performed based on the intermediate layer quasi-outputs from the respective intermediate layer groups, but the application example of the method according to the present embodiment is not limited to this. For example, as shown in FIG. 10, side-out learning can be performed based on a plurality of outputs from one intermediate layer group. In the configuration shown in FIG. 10, side-out learning is performed based on outputs from two or more different hidden layers in one hidden layer group of the network. In FIG. 10A, one intermediate layer group 1300 includes convolutional layers 1301, 1302, 1303, and a pooling 1304 layer. FIG. 10A shows outputs 1311 to 1313 of the convolution layers 1301 to 1303 and GTs 1321 to 1323 used for error evaluation there. FIG. 10B shows a change in the line width of the contour pattern in the GTs 1321 to 1323, and it can be seen that the line width gradually increases.

この場合、設定部102は、ネットワークの1つの中間層群における2以上の異なる中間層からの出力のそれぞれについて、学習用入力データに対する教師データを設定することができる。例えば、出力1311〜1313の誤差評価用のGT1321〜1323における輪郭パターンの線幅を順次太くすることができる。具体例として設定部102は、第1の中間層からの出力の誤差評価用のGTよりも、第1の中間層よりも畳み込み層を通って下流にある第2の中間層からの出力の誤差評価用のGTの方が、輪郭パターンの線幅が太くなるように、GTを設定することができる。このような構成により、畳み込み層で順次フィルタを作用させていくことによる画素の空間的な相互依存範囲の拡大の影響を取り込み、パターンの相違以外に起因する誤差が過大に評価されるのを防ぐことができる。このために、より効果的にサイドアウト学習を行うことができる。   In this case, the setting unit 102 can set the teacher data for the learning input data for each of the outputs from two or more different hidden layers in one hidden layer group of the network. For example, the line widths of the contour patterns in the GTs 1321 to 1323 for error evaluation of the outputs 1311 to 1313 can be sequentially increased. As a specific example, the setting unit 102 outputs the error of the output from the second intermediate layer downstream from the first intermediate layer through the convolutional layer with respect to the GT for evaluating the error of the output from the first intermediate layer. The GT for evaluation can be set such that the line width of the contour pattern is larger in the GT for evaluation. With such a configuration, the influence of the expansion of the spatial interdependence range of pixels caused by sequentially applying filters in the convolutional layer is taken in, and errors caused by other than pattern differences are prevented from being overestimated. be able to. Therefore, the side-out learning can be performed more effectively.

別の例として、図9(E)に示すように、ネットワークの1つの中間層からの複数の出力に基づいてサイドアウト学習を行うこともできる。一例として、図9(E)には、中間層群950が、畳み込み層951〜953及びプーリング層954で構成される場合を示す。図9(E)の例において、設定部102は、ネットワークの1つの階層における2以上の異なるチャネル群からの出力のそれぞれについて、学習用入力データに対する教師データを設定することができる。   As another example, as shown in FIG. 9E, side-out learning can be performed based on a plurality of outputs from one hidden layer of the network. As an example, FIG. 9E illustrates a case where the intermediate layer group 950 includes the convolution layers 951 to 953 and the pooling layer 954. In the example of FIG. 9E, the setting unit 102 can set teacher data for learning input data for each of outputs from two or more different channel groups in one layer of the network.

例えば、設定部102は、基本学習データに示される画像を所定の条件に従って分離し、それぞれの部分画像を示す複数の適合的学習データを生成することができる。具体例として、GTに示される輪郭パターンを特定の方向ごとに分離し、それぞれの輪郭パターンを用いて対応するネットワークの重み係数(畳み込みフィルタ)の学習を行ってもよい。ここで、サイドアウトを出力する畳み込み層951は、畳み込み層961と畳み込み層962に分割される。畳み込み層961及び畳み込み層962は、畳み込み層951における異なるチャネル群に相当する。ここで設定部102は、畳み込み層961,962のそれぞれに、異なる方向成分を有するGTを設定することができる。この場合、畳み込み層961,962のそれぞれの重み係数の学習は、異なる方向成分を有するGTを用いて行われる。例えば、畳み込み層961の学習は第1の方向の輪郭パターンを示すGT971を用いて、畳み込み層962の学習は第1の方向とは異なる第2の方向の輪郭パターンを示すGT972を用いて、それぞれ行うことができる。このように、それぞれの畳み込み層について特定のパターンを有するGTを用いた学習を集中的に行うことにより、全体の認識性能が向上することが期待される。このような構成は上記の各種の構成と組み合わせることができ、例えばGTに対してガウシアンブラー処理のようなさらなる画像処理を適用する場合と組み合わせてもよい。   For example, the setting unit 102 can separate an image indicated by the basic learning data according to a predetermined condition, and generate a plurality of adaptive learning data indicating each partial image. As a specific example, the contour pattern shown in the GT may be separated for each specific direction, and learning of the weight coefficient (convolution filter) of the corresponding network may be performed using each contour pattern. Here, the convolution layer 951 for outputting the side-out is divided into a convolution layer 961 and a convolution layer 962. The convolution layer 961 and the convolution layer 962 correspond to different channel groups in the convolution layer 951. Here, the setting unit 102 can set GTs having different directional components in each of the convolution layers 961 and 962. In this case, learning of the respective weight coefficients of the convolution layers 961 and 962 is performed using GTs having different direction components. For example, learning of the convolution layer 961 is performed using GT971 indicating a contour pattern in a first direction, and learning of the convolution layer 962 is performed using GT972 indicating a contour pattern in a second direction different from the first direction. It can be carried out. As described above, it is expected that the overall recognition performance will be improved by intensively performing learning using a GT having a specific pattern for each convolutional layer. Such a configuration can be combined with the various configurations described above, and may be combined with, for example, a case where further image processing such as Gaussian blur processing is applied to GT.

ここまで、中間層準出力をGTに合わせて拡大することを前提として、中間層準出力ごとにGTを設定する場合について説明した。一方、設定部102は、中間層準出力のそれぞれのサイズに合わせたGTを設定してもよい。例えば、設定部102は、輪郭パターンを示すGT(基本学習データ)を、中間層準出力のサイズに合わせて縮小してもよい。具体例としては、基本学習データに対してフィルタ処理を行うことにより適合的学習データを生成する方法が挙げられる。例えば、基本学習データが二値画像(「1」値が輪郭を表す)場合、2×2のMAXプーリングをストライド2×2で行うことにより、基本学習データに示される輪郭パターンを維持しながら解像度が半分になった適合的学習データを得ることができる。このように、単に画素を間引きし又は繰り返すことにより基本学習データから適合的学習データを生成するのではなく、基本学習データに対してフィルタ処理のような画像処理を行って適合的学習データを生成することができる。このような方法によれば、中間層準出力に適した適合的学習データを生成することが可能となる。   So far, a case has been described in which the GT is set for each intermediate layer quasi-output, on the assumption that the intermediate layer quasi-output is expanded in accordance with the GT. On the other hand, the setting unit 102 may set a GT according to each size of the intermediate-layer quasi-output. For example, the setting unit 102 may reduce the GT (basic learning data) indicating the contour pattern according to the size of the intermediate layer quasi-output. As a specific example, there is a method of generating adaptive learning data by performing a filtering process on basic learning data. For example, when the basic learning data is a binary image (the value “1” represents an outline), 2 × 2 MAX pooling is performed with a stride of 2 × 2, so that the resolution is maintained while maintaining the outline pattern indicated in the basic learning data. , Learning data can be obtained. In this way, adaptive learning data is generated by performing image processing such as filter processing on the basic learning data, instead of generating adaptive learning data from the basic learning data simply by thinning out or repeating pixels. can do. According to such a method, it is possible to generate adaptive learning data suitable for the intermediate layer quasi-output.

以上説明した方法により階層型ネットワークの学習を行うことにより、階層型ネットワークのパラメータを作成することができる。また、一実施形態に係る情報処理装置は、このように作成されたパラメータが設定された階層型ネットワークを用いて、入力データに対応する認識処理の結果を生成する生成部を有している。このような階層型ネットワークは、プログラムにより実現することもできるし、パラメータを格納するメモリとGPUのような演算部とを備える演算装置により実現することもできる。本実施形態に係る方法によれば、階層型ネットワークからの2以上の異なる出力のそれぞれが、従来のように同じ基本学習データを用いて評価する代わりに、それぞれに合った適合的学習データを用いて評価される。このため、学習によって得られるネットワークのパラメータは、従来とは異なり、より入力データに対する認識処理に適したものとなる。   By learning the hierarchical network by the method described above, the parameters of the hierarchical network can be created. In addition, the information processing apparatus according to one embodiment includes a generation unit that generates a result of a recognition process corresponding to input data using a hierarchical network in which parameters created in this way are set. Such a hierarchical network can be realized by a program, or by an arithmetic device including a memory for storing parameters and an arithmetic unit such as a GPU. According to the method according to the present embodiment, instead of each of the two or more different outputs from the hierarchical network being evaluated using the same basic learning data as in the related art, the adaptive learning data corresponding to each is used. Is evaluated. For this reason, the parameters of the network obtained by learning are different from the conventional ones, and are more suitable for the recognition processing of the input data.

(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
(Other Examples)
The present invention supplies a program for realizing one or more functions of the above-described embodiments to a system or an apparatus via a network or a storage medium, and one or more processors in a computer of the system or the apparatus read and execute the program. This processing can be realized. Further, it can also be realized by a circuit (for example, an ASIC) that realizes one or more functions.

100:学習装置、102:設定部、104:学習部   100: learning device, 102: setting unit, 104: learning unit

Claims (16)

ニューラルネットワークの学習を行う学習装置であって、
単一の学習用入力データに対応する、ニューラルネットワークからの2以上の異なる出力のそれぞれについての教師データを設定する設定手段と、
前記学習用入力データを前記ニューラルネットワークに入力して得られる、前記2以上の異なる出力のそれぞれと、前記出力に対応する教師データと、の誤差に基づいて、前記ニューラルネットワークの学習を行う学習手段と、を備え、
学習後の前記ニューラルネットワークは、入力データに対応する2以上の異なる出力を与え、前記2以上の異なる出力の統合結果が前記入力データに対する認識処理の結果を示すことを特徴とする、学習装置。
A learning device for learning a neural network,
Setting means for setting teacher data for each of two or more different outputs from the neural network corresponding to a single learning input data;
Learning means for learning the neural network based on an error between each of the two or more different outputs obtained by inputting the learning input data into the neural network and teacher data corresponding to the outputs; And
A learning apparatus, wherein the neural network after learning provides two or more different outputs corresponding to input data, and an integrated result of the two or more different outputs indicates a result of a recognition process on the input data.
前記設定手段は、前記ニューラルネットワークの構造に基づいて、前記2以上の異なる出力のそれぞれについての教師データを設定することを特徴とする、請求項1に記載の学習装置。   The learning device according to claim 1, wherein the setting unit sets teacher data for each of the two or more different outputs based on a structure of the neural network. 前記設定手段は、前記ニューラルネットワークの2以上の異なる階層からの出力のそれぞれについて、学習用入力データに対する教師データを設定することを特徴とする、請求項1又は2に記載の学習装置。   The learning device according to claim 1, wherein the setting unit sets teacher data for learning input data for each of outputs from two or more different layers of the neural network. 前記設定手段は、前記ニューラルネットワークの1つの階層における2以上の異なるチャネル群からの出力のそれぞれについて、学習用入力データに対する教師データを設定することを特徴とする、請求項1又は2に記載の学習装置。   The said setting means sets the teacher data with respect to the input data for learning about each output from two or more different channel groups in one hierarchy of the said neural network, The Claims characterized by the above-mentioned. Learning device. 前記入力データは画像データであり、前記入力データに対する認識処理の結果は、前記画像データの各画素の属性情報であることを特徴とする、請求項1から4のいずれか1項に記載の学習装置。   The learning according to any one of claims 1 to 4, wherein the input data is image data, and a result of a recognition process on the input data is attribute information of each pixel of the image data. apparatus. 前記設定手段は、前記2以上の異なる出力についての教師データを、前記2以上の異なる出力の解像度に基づいて設定することを特徴とする、請求項5に記載の学習装置。   The learning device according to claim 5, wherein the setting unit sets the teacher data for the two or more different outputs based on the resolution of the two or more different outputs. 前記入力データに対する認識処理の結果は、前記入力データに対応する線画パターンであることを特徴とする、請求項5又は6に記載の学習装置。   The learning device according to claim 5, wherein a result of the recognition processing on the input data is a line drawing pattern corresponding to the input data. 前記設定手段は、前記2以上の異なる出力のそれぞれに対応する幅を有する線画パターンを、前記2以上の異なる出力についての教師データとして設定することを特徴とする、請求項7に記載の学習装置。   The learning apparatus according to claim 7, wherein the setting unit sets a line drawing pattern having a width corresponding to each of the two or more different outputs as teacher data for the two or more different outputs. . 前記設定手段は、ぼかし処理が行われた線画パターンを、前記2以上の異なる出力についての教師データとして設定することを特徴とする、請求項7又は8に記載の学習装置。   The learning device according to claim 7, wherein the setting unit sets the line drawing pattern on which the blurring processing has been performed as teacher data for the two or more different outputs. 前記設定手段は、前記2以上の異なる出力のそれぞれに対応する幅を有する誤差評価対象外領域が線画パターンの周囲に設定された、前記2以上の異なる出力についての教師データを設定することを特徴とする、請求項7に記載の学習装置。   The setting means sets teacher data for the two or more different outputs, wherein an error evaluation non-target area having a width corresponding to each of the two or more different outputs is set around a line drawing pattern. The learning device according to claim 7, wherein 前記設定手段は、前記学習用入力データに対応する線画パターンである基本教師データを用いて前記教師データを生成することを特徴とする、請求項7から10のいずれか1項に記載の学習装置。   The learning device according to claim 7, wherein the setting unit generates the teacher data using basic teacher data that is a line drawing pattern corresponding to the learning input data. . 前記設定手段は、前記学習用入力データに対応する線画パターンである基本教師データに対してフィルタ処理を行うことにより、前記教師データを生成することを特徴とする、請求項7から9のいずれか1項に記載の学習装置。   10. The teacher data according to claim 7, wherein the setting unit generates the teacher data by performing a filtering process on basic teacher data that is a line drawing pattern corresponding to the learning input data. The learning device according to claim 1. 学習されたニューラルネットワークの作成方法であって、
単一の学習用入力データに対応する、ニューラルネットワークからの2以上の異なる出力のそれぞれについての教師データを設定する設定工程と、
前記学習用入力データを前記ニューラルネットワークに入力して得られる、前記2以上の異なる出力のそれぞれと、前記出力に対応する教師データと、の誤差に基づいて、前記ニューラルネットワークの学習を行う学習工程と、を有し、
前記学習工程により前記学習されたニューラルネットワークのパラメータが作成され、前記学習されたニューラルネットワークは入力データに対応する2以上の異なる出力を与え、前記2以上の異なる出力の統合結果が前記入力データに対する認識処理の結果を示すことを特徴とする、作成方法。
A method of creating a learned neural network,
A setting step of setting teacher data for each of two or more different outputs from the neural network corresponding to a single learning input data;
A learning step of learning the neural network based on an error between each of the two or more different outputs obtained by inputting the learning input data into the neural network and teacher data corresponding to the outputs. And having
The learning step generates parameters of the learned neural network, and the learned neural network provides two or more different outputs corresponding to the input data, and an integrated result of the two or more different outputs corresponds to the input data. A creation method characterized by indicating a result of a recognition process.
請求項13に記載の作成方法によって作成されたパラメータが設定された、ニューラルネットワーク。   A neural network in which parameters created by the creation method according to claim 13 are set. 請求項14に記載のニューラルネットワークを用いて、入力データに対応する認識処理の処理結果を生成する処理手段を備える、情報処理装置。   An information processing apparatus comprising: a processing unit configured to generate a processing result of a recognition process corresponding to input data using the neural network according to claim 14. コンピュータを、請求項1から12のいずれか1項に記載の学習装置の各手段として機能させるためのプログラム。   A program for causing a computer to function as each unit of the learning device according to any one of claims 1 to 12.
JP2018170893A 2018-09-12 2018-09-12 Learning device, parameter creation method, neural network, and information processing device using the same Active JP7316771B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018170893A JP7316771B2 (en) 2018-09-12 2018-09-12 Learning device, parameter creation method, neural network, and information processing device using the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018170893A JP7316771B2 (en) 2018-09-12 2018-09-12 Learning device, parameter creation method, neural network, and information processing device using the same

Publications (2)

Publication Number Publication Date
JP2020042664A true JP2020042664A (en) 2020-03-19
JP7316771B2 JP7316771B2 (en) 2023-07-28

Family

ID=69798377

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018170893A Active JP7316771B2 (en) 2018-09-12 2018-09-12 Learning device, parameter creation method, neural network, and information processing device using the same

Country Status (1)

Country Link
JP (1) JP7316771B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7465500B2 (en) 2020-05-20 2024-04-11 日本電信電話株式会社 IMAGE PROCESSING METHOD, IMAGE PROCESSING APPARATUS AND PROGRAM

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012022535A (en) * 2010-07-15 2012-02-02 Fujifilm Corp Detector constitution device, method and program
JP2016031746A (en) * 2014-07-30 2016-03-07 キヤノン株式会社 Information processing apparatus and information processing method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012022535A (en) * 2010-07-15 2012-02-02 Fujifilm Corp Detector constitution device, method and program
JP2016031746A (en) * 2014-07-30 2016-03-07 キヤノン株式会社 Information processing apparatus and information processing method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIU YU ET AL.: "Learning Relaxed Deep Supervision for Better Edge Detection", 2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR) [ONLINE], JPN6022035943, 2016, pages 231 - 240, XP033021198, ISSN: 0004860378, DOI: 10.1109/CVPR.2016.32 *
久保田 涼介 ほか: "全層畳み込みニューラルネットワークを用いた透明物体の輪郭抽出", 電子情報通信学会技術研究報告 PRMU2018-10, vol. 118, no. 35, JPN6022035945, 10 May 2018 (2018-05-10), pages 41 - 46, ISSN: 0004860379 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7465500B2 (en) 2020-05-20 2024-04-11 日本電信電話株式会社 IMAGE PROCESSING METHOD, IMAGE PROCESSING APPARATUS AND PROGRAM

Also Published As

Publication number Publication date
JP7316771B2 (en) 2023-07-28

Similar Documents

Publication Publication Date Title
Lefkimmiatis Universal denoising networks: a novel CNN architecture for image denoising
JP4618098B2 (en) Image processing system
EP3963516B1 (en) Teaching gan (generative adversarial networks) to generate per-pixel annotation
US20210150347A1 (en) Guided training of machine learning models with convolution layer feature data fusion
Azevedo et al. Fuzzy morphological extreme learning machines to detect and classify masses in mammograms
JP6708755B2 (en) Information processing method, information processing apparatus, and computer-readable storage medium
JP7103240B2 (en) Object detection and recognition devices, methods, and programs
Pistilli et al. Learning robust graph-convolutional representations for point cloud denoising
CN110827330B (en) Time sequence integrated multispectral remote sensing image change detection method and system
Reza et al. Transresunet: Improving u-net architecture for robust lungs segmentation in chest x-rays
CN112200733B (en) Grid denoising method based on graph convolution network
CN115631112B (en) Building contour correction method and device based on deep learning
KR20220162603A (en) Computer implemented methods, devices and computer program products
JP2022536732A (en) Systems and methods for removing noise and/or artifacts from OCT images using generative adversarial networks
CN114266894A (en) Image segmentation method and device, electronic equipment and storage medium
JP2019008421A (en) Processing method, program, information processing apparatus, and image processing apparatus
CN114897728A (en) Image enhancement method and device, terminal equipment and storage medium
CN113158970B (en) Action identification method and system based on fast and slow dual-flow graph convolutional neural network
CN110546687B (en) Image processing device and two-dimensional image generation program
JP2021051589A5 (en)
JP2020042664A (en) Learning device, parameter creation method, neural network, and information processor using the same
JP2023003763A (en) Learning apparatus, image processing apparatus, learning processing method, and program
CN110837787B (en) Multispectral remote sensing image detection method and system for three-party generated countermeasure network
JP2021527859A (en) Irregular shape segmentation in an image using deep region expansion
CN116385369A (en) Depth image quality evaluation method and device, electronic equipment and storage medium

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20210103

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210113

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210910

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220713

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220829

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230619

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230718

R151 Written notification of patent or utility model registration

Ref document number: 7316771

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151