JP2024025499A - Information processing device, complete convolutional network producing method and program - Google Patents
Information processing device, complete convolutional network producing method and program Download PDFInfo
- Publication number
- JP2024025499A JP2024025499A JP2022128999A JP2022128999A JP2024025499A JP 2024025499 A JP2024025499 A JP 2024025499A JP 2022128999 A JP2022128999 A JP 2022128999A JP 2022128999 A JP2022128999 A JP 2022128999A JP 2024025499 A JP2024025499 A JP 2024025499A
- Authority
- JP
- Japan
- Prior art keywords
- processing
- likelihood
- array data
- learning
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 96
- 230000010365 information processing Effects 0.000 title claims description 75
- 238000012545 processing Methods 0.000 claims abstract description 497
- 230000013016 learning Effects 0.000 claims abstract description 169
- 230000008569 process Effects 0.000 claims abstract description 57
- 230000011218 segmentation Effects 0.000 claims description 29
- 238000012790 confirmation Methods 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 20
- 238000012360 testing method Methods 0.000 claims description 18
- 238000005070 sampling Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 9
- 230000007423 decrease Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 15
- 238000013528 artificial neural network Methods 0.000 description 13
- 238000011176 pooling Methods 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 6
- 238000003709 image segmentation Methods 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
Description
本発明は、情報処理装置、完全畳み込みネットワークを生産する方法、及びプログラムに関し、特に配列データに対するセグメンテーション処理に関する。 The present invention relates to an information processing device, a method for producing a fully convolutional network, and a program, and particularly relates to segmentation processing for array data.
近年、画像等の配列データを分類する技術、及び分類結果に基づいて配列データから一部を抽出する技術が提案されている。例えば、物体が写っている画像を処理することにより、画像から有用な情報を抽出することができる。特に、ニューラルネットワーク(例えば多階層のディープニューラルネットワーク)を用いて、画像中の物体のカテゴリを認識する物体認識技術が盛んに研究されている。また、画像中の物体のカテゴリを画素レベルで推定することにより、画像をセグメンテーションする技術も、盛んに研究されている。 In recent years, techniques for classifying array data such as images and techniques for extracting part of the array data based on the classification results have been proposed. For example, by processing an image containing an object, useful information can be extracted from the image. In particular, object recognition technology that uses neural networks (eg, multilayer deep neural networks) to recognize categories of objects in images is being actively researched. Furthermore, techniques for segmenting images by estimating the categories of objects in images at the pixel level are also being actively researched.
例えば、非特許文献1は、Transformerアーキテクチャを用いて物体認識を行うVision Transformerを提案している。この手法では、Self-Attention層などにおいて中間処理結果の全体を用いた処理が行われる。一方で、非特許文献2は、畳み込み層及びプーリング層のみからなる完全畳み込みネットワークを用いて画像のセグメンテーションを行う技術を提案している。 For example, Non-Patent Document 1 proposes a Vision Transformer that performs object recognition using a Transformer architecture. In this method, processing is performed using the entire intermediate processing result in the Self-Attention layer or the like. On the other hand, Non-Patent Document 2 proposes a technique for performing image segmentation using a fully convolutional network consisting of only convolutional layers and pooling layers.
非特許文献1の方法では、画像全体に対する処理を各層で行うことにより、物体認識精度が向上する一方で、処理に時間を要する。一方で、非特許文献2の方法によれば、畳み込み層では局所的なフィルタ処理が行われるため、高速なセグメンテーション処理を行うことができるが、非特許文献1の方法よりも処理精度が低下する傾向にある。また、非特許文献1の方法では各層の処理が画像全体を参照しながら行われ、非特許文献2の方法では各層の処理が画像の局所領域を参照しながら行われるため、非特許文献1に示される手法を非特許文献2に示される手法に組み込むことも容易ではなかった。 In the method of Non-Patent Document 1, the object recognition accuracy is improved by processing the entire image in each layer, but the processing takes time. On the other hand, according to the method of Non-Patent Document 2, since local filter processing is performed in the convolutional layer, high-speed segmentation processing can be performed, but the processing accuracy is lower than that of the method of Non-Patent Document 1. There is a tendency. In addition, in the method of Non-Patent Document 1, processing of each layer is performed while referring to the entire image, and in the method of Non-Patent Document 2, processing of each layer is performed while referring to a local area of the image. It was also not easy to incorporate the method shown in the method shown in Non-Patent Document 2.
本発明は、配列データを高精度及び高速に分類することを目的とする。 The present invention aims to classify sequence data with high precision and high speed.
本発明の一実施形態に係る情報処理装置は以下の構成を備える。すなわち、
配列データが特定のクラスに含まれる尤度を算出する第1の処理手段と、
前記第1の処理手段とは異なる処理を行う第2の処理手段であって、完全畳み込みネットワークを用いて、配列データが特定のクラスに含まれる尤度を算出する第2の処理手段と、
学習用の配列データについての前記尤度を前記第1の処理手段が算出する処理の過程で得られた情報を教師データとして用いて、前記完全畳み込みネットワークの学習処理を行う学習手段と、
を備える。
An information processing device according to an embodiment of the present invention has the following configuration. That is,
a first processing means for calculating the likelihood that the array data is included in a specific class;
a second processing means that performs processing different from the first processing means, the second processing means calculating the likelihood that the array data is included in a specific class using a fully convolutional network;
Learning means for performing learning processing for the fully convolutional network using information obtained in the process in which the first processing means calculates the likelihood for the learning array data as teacher data;
Equipped with
配列データを高精度及び高速に分類することができる。 Sequence data can be classified with high accuracy and high speed.
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。 Hereinafter, embodiments will be described in detail with reference to the accompanying drawings. Note that the following embodiments do not limit the claimed invention. Although a plurality of features are described in the embodiments, not all of these features are essential to the invention, and the plurality of features may be arbitrarily combined. Furthermore, in the accompanying drawings, the same or similar components are designated by the same reference numerals, and redundant description will be omitted.
本発明の一実施形態に係る情報処理装置は、第1の処理部と、第2の処理部と、学習部と、を備える。この情報処理装置は、配列データの分類を行うことができる。以下の例において、情報処理装置は、配列データの複数の位置について、当該位置周辺のデータの分類を行う。また、この情報処理装置は、分類結果に応じた配列データのセグメンテーションを行うことができる。以下の例では、情報処理装置は、特に、画像に写っている物体のクラスに応じて画像を分割する処理を行う。このような情報処理装置は、例えば、画像に写っている物体を認識する物体認識システムとして用いることができる。 An information processing device according to an embodiment of the present invention includes a first processing section, a second processing section, and a learning section. This information processing device can classify array data. In the following example, the information processing device classifies data around a plurality of positions in array data. Further, this information processing device can perform segmentation of array data according to the classification results. In the following example, the information processing apparatus performs processing to divide an image, particularly according to the class of an object shown in the image. Such an information processing device can be used, for example, as an object recognition system that recognizes objects in images.
第1の処理部は、例えば、非特許文献1と同様の処理を行うことができる。また、第2の処理部は、例えば、非特許文献2と同様の処理を行うことができる。本発明の一実施形態によれば、第2の処理部は、あらかじめ学習されている第1の処理部と近い精度で配列データの分類を行うことができる。一方で、第2の処理部は、非特許文献2と同様に高速に配列データの分類及びセグメンテーション処理を行うことができる。 The first processing unit can perform the same processing as in Non-Patent Document 1, for example. Further, the second processing unit can perform the same processing as in Non-Patent Document 2, for example. According to one embodiment of the present invention, the second processing section can classify array data with accuracy close to that of the first processing section that has been trained in advance. On the other hand, the second processing unit can perform the classification and segmentation processing of array data at high speed as in Non-Patent Document 2.
配列データは、例えば、1つ又は複数の座標軸に沿って配列されたデータを有している。配列データの例としては、1次元の時間軸に沿って配列された音圧データを有する音声データ、及び2次元座標軸に沿って配列された画素データを有する画像データが挙げられる。配列データは、3次元座標軸に沿って配列された画素データを有するボクセルデータであってもよい。以下では、配列データが画像データである例について説明する。以下の例において、第2の処理部は、画像データを処理するために、2次元の完全畳み込みネットワークを用いる。一方で、第2の処理部は、時間軸方向の完全畳み込みネットワークを用いて音声データを処理することができる。また、第2の処理部は、3次元の完全畳み込みネットワークを用いてボクセルデータを処理することができる。 The array data includes, for example, data arranged along one or more coordinate axes. Examples of array data include audio data having sound pressure data arranged along a one-dimensional time axis, and image data having pixel data arranged along a two-dimensional coordinate axis. The array data may be voxel data having pixel data arranged along three-dimensional coordinate axes. An example in which the array data is image data will be described below. In the following example, the second processing unit uses a two-dimensional fully convolutional network to process the image data. On the other hand, the second processing unit can process the audio data using a fully convolutional network in the time axis direction. Further, the second processing unit can process the voxel data using a three-dimensional fully convolutional network.
図1は、本発明の一実施形態に係る情報処理装置1の構成を示すブロック図である。第1の処理部101は、配列データが特定のクラスに含まれる尤度を算出する。例えば、第1の処理部101は、複数のクラスのそれぞれについて配列データがクラスに含まれる尤度を算出することができる。本実施形態において、第1の処理部101は、画像からオブジェクト尤度を生成する処理を行う。
FIG. 1 is a block diagram showing the configuration of an information processing device 1 according to an embodiment of the present invention. The
この例において、第1の処理部101には所定サイズの配列データが入力される。例えば、第1の処理部101には固定サイズの学習用の配列データ(すなわち学習用の画像)が入力される。そして、第1の処理部101は、入力された画像に対するオブジェクト尤度を算出する。オブジェクト尤度は、入力された画像に写る物体が所定のカテゴリ(すなわちクラス)に属する確率の推定値を、1以上のカテゴリのそれぞれについて示す。
In this example, array data of a predetermined size is input to the
図4(A)は、第1の処理部101による処理例を示す図である。入力画像10101は、第1の処理部101に入力される。第1の処理部101は、分類精度を向上させるために、Self-Attention処理、Transformer、又は入力された特徴の全てを用いる処理の繰り返しを用いてオブジェクト尤度を算出することができる。
FIG. 4A is a diagram illustrating an example of processing by the
本実施形態において、第1の処理部101は、非特許文献1に示されるVisionTransformerを用いて処理を行う。VisionTransformerは、最初に入力画像を特徴に変換する。VisionTransformerは、次に、特徴に対してエンコーダと呼ばれる多層パーセプトロン及びSelf-Attentionを含むブロックをL回適用する。VisionTransformerは、最後に、得られた特徴を物体のカテゴリごとの尤度に変換する。
In this embodiment, the
本実施形態では、第1の処理部101が処理に用いるパラメータは、オブジェクト尤度を推定できるように調整されている。例えば、第1の処理部101が用いるVisionTransformerは、予めオブジェクト尤度を推定するように学習されている。ここで、学習とは、VisionTransformerが有するパラメータを調整することである。学習方法は特に限定されないが、例えば以下の方法を用いることができる。すなわち、オブジェクト尤度にsoftmax関数を適用した結果と、画像中の物体のカテゴリを表すラベルと、に基づいて推定の妥当性を判定する。このとき、推定の妥当性を示すロス関数を設定することができる。そして、ロス関数の値が減少するようにバックプロパゲーションを行うことにより、VisionTransformerのパラメータを調整することができる。
In this embodiment, the parameters used for processing by the
図4(A)の例では、入力画像10101は、画素値を線形変換することにより、特徴10103に変換されている。VisionTransformerを用いる場合、処理されるデータは複数の特徴に分割され、VisionTransformerは分割により得られた特徴を扱う。本実施形態では、画像が同じ大きさの部分画像に分割され、それぞれの部分画像に線形変換を施すことにより特徴が得られる。
In the example of FIG. 4A, an
特徴10103は、第1エンコーダブロック10104に入力される。第1エンコーダブロック10104は、多層パーセプトロン及びSelf-Attention処理を含み、入力特徴と同じ次元の特徴を出力する。第1エンコーダブロック10104は、生成した特徴を第2エンコーダブロック10105に出力する。第2エンコーダブロック10105を含む各エンコーダブロックも同様に、1つ前のエンコーダブロックから出力された特徴を処理し、生成した特徴を出力する。第Lエンコーダブロック10106から出力された特徴は、特徴をオブジェクト尤度へ変換する尤度変換処理10107に入力される。VisionTransformerは、第Lエンコーダブロック10106から出力された特徴のうち、一部の次元に対し多層パーセプトロン処理を行うことにより、オブジェクト尤度10108を得る。オブジェクト尤度10108は、第1の処理部101が出力するオブジェクト尤度である。オブジェクト尤度10108の各次元は物体のカテゴリに対応する。そして、オブジェクト尤度10108の各次元は、対応するカテゴリに物体が含まれる確率の推定値を表す。図4(A)の例では、オブジェクト尤度10108は、物体が第1カテゴリ第dカテゴリのそれぞれに属する確率の推定値を示す、第1カテゴリ尤度~第dカテゴリ尤度を示す。このように、オブジェクト尤度はベクトルにより表すことができる。
VisionTransformerのエンコーダブロック10104~10106に含まれるSelf-Attention処理は、入力された特徴のすべての値を利用した処理を行う。このように、VisionTransformerを用いた処理においては、画像全体の情報を有効に利用した処理が行われる。一方で、畳み込み処理においては、入力された特徴のうちフィルタサイズに相当する特徴のみを利用した処理が行われるため、ローカルな特徴が出力される。したがって、VisionTransformerを用いた処理によれば、畳み込み処理を行う畳み込みニューラルネットワークと比較して、物体のカテゴリの推定精度が向上する。 Self-Attention processing included in the encoder blocks 10104 to 10106 of the Vision Transformer performs processing using all values of input features. In this way, in processing using VisionTransformer, processing is performed that effectively utilizes the information of the entire image. On the other hand, in convolution processing, processing is performed using only the features corresponding to the filter size among the input features, so local features are output. Therefore, processing using Vision Transformer improves the accuracy of estimating the category of an object compared to a convolutional neural network that performs convolution processing.
第2の処理部102は、完全畳み込みネットワークを用いて、配列データが特定のクラスに含まれる尤度を算出する。例えば、第2の処理部102は、複数のクラスのそれぞれについて配列データがクラスに含まれる尤度を算出する。ここで、第2の処理部102は、第1の処理部101とは異なる処理を用いて尤度を算出する。本実施形態において、第2の処理部102は、画像から1つ以上のオブジェクト尤度を含むオブジェクト尤度マップを生成する処理を行う。オブジェクト尤度マップは、画像座標と対応する座標を持つ。また、オブジェクト尤度マップは、各座標の要素がオブジェクト尤度を表す。本実施形態において、第2の処理部102は、入力画像の画素又は部分領域ごとのオブジェクト尤度を表すオブジェクト尤度マップを算出することができる。
The
図3(A)は、第2の処理部102による処理例を示す図である。画像10201は、第2の処理部102に入力される。本実施形態において、第2の処理部102は、非特許文献2に示される完全畳み込みネットワークを用いる。完全畳み込みネットワークは、全ての層が畳み込み層又はプーリング層からなるニューラルネットワークである。完全畳み込みネットワークを用いた処理においては、畳み込み処理又はプーリング処理を、入力画像に対して複数回(図3(A)においてはM回)適用することにより特徴マップが得られる。そして、特徴マップがオブジェクト尤度マップに変換され、出力される。なお、各層では、畳み込み処理又はプーリング処理に加えて、活性化関数又はバイアスの適用などを行ってもよい。
FIG. 3A is a diagram illustrating an example of processing by the
上述のように、第1の処理部101には所定サイズの配列データが入力される。一方で、第2の処理部102には、この所定サイズ以上の配列データを入力することができる。第2の処理部102が用いる完全畳み込みネットワークは、この所定サイズの第1の配列データが入力されると、第1の配列データが特定のクラスに含まれる尤度を示す1つのオブジェクト尤度(例えば1つのベクトル)を出力するように調整されている。例えば、完全畳み込みネットワークは、第1の処理部101への入力画像と同じサイズの画像が入力されると、1つのオブジェクト尤度を出力する。図4(B)の例では、調整後の、畳み込み層及びプーリング層の数はM個である。例えば、第1の処理部101への入力画像のサイズが99×99画素である場合、完全畳み込みネットワークは3×3フィルタを用いた畳み込み処理を行う畳み込み層を49層有していてもよい。このようなニューラルネットワークに99×99画素の画像を入力すると、1つのオブジェクト尤度が出力される。なお、後述するように、この畳み込み層ではパディング処理が行われないため、1つの畳み込み層において画像の縦及び横の大きさが2画素ずつ減少する。
As described above, array data of a predetermined size is input to the
一方で、図3(A)に示すように、第2の処理部102が用いる完全畳み込みネットワークは、所定サイズよりも大きい第2の配列データが入力されると、複数のオブジェクト尤度を含むオブジェクト尤度マップを出力する。例えば、第2の処理部102は、第1の処理部101への入力画像よりも大きいサイズの画像が入力されると、入力画像の大きさに応じた尤度マップを生成することができる。この場合、オブジェクト尤度マップは、複数の部分配列データのそれぞれが特定のクラスに含まれる尤度を示す。ここで、複数の部分配列データのそれぞれは、第2の配列データの一部である。例えば、部分配列データは、所定サイズよりも大きい画像の一部である、所定サイズの部分画像である。
On the other hand, as shown in FIG. 3A, when second array data larger than a predetermined size is input to the fully convolutional network used by the
また、本実施形態においては、完全畳み込みネットワークは、パディング処理、又は配列データのサイズの変動によって処理内容が変動する階層処理を行わないように構成されている。本実施形態において、第2の処理部102の学習時に入力される画像(例えば図4(B)の画像10101)のサイズと、第2の処理部102を用いたオブジェクト尤度の推定時に入力される画像(例えば図3(A)の画像10201)のサイズとは異なる。したがって、第2の処理部102によって行われる処理が、入力画像サイズが変動すると処理内容も変動するような階層処理を含む場合、セグメンテーション処理の精度が学習によっても向上しにくくなる。そこで、例えば、畳み込み層及びプーリング層でパディングを行わないように、完全畳み込みネットワークを構成することができる。画像の端部におけるパディングの影響を除くことにより、第2の処理部102への入力画像のサイズが変化しても、推定処理の結果が変化しなくなる。このため、より高精度なセグメンテーション処理が可能になる。
Furthermore, in the present embodiment, the fully convolutional network is configured not to perform padding processing or hierarchical processing in which the processing contents vary depending on variations in the size of array data. In this embodiment, the size of an image (for example,
画像10201は、畳み込み層又はプーリング層における処理である、第2の処理部102が有する第1階層処理10203に入力される。第1階層処理10203では、入力画像が処理される。第1階層処理10203では畳み込み処理又はプーリング処理が行われるため、第1階層処理10203で得られる処理結果は、画像10201と同じ座標軸を有する特徴マップとなる。第1階層処理10203で得られた処理結果は、第2階層処理10204に出力される。同様に、第2階層処理10204及び第M階層処理10205を含む各階層処理も、畳み込み層又はプーリング層における処理である。これらの各階層処理においても、同様に、1つ前の階層処理からの出力が処理され、処理結果が出力される。
The image 10201 is input to the
第M階層処理10205によって得られた特徴マップは、尤度変換処理10206に入力される。尤度変換処理10206では、特徴マップに示される各特徴をオブジェクト尤度に変換することにより、オブジェクト尤度マップ10207が生成される。そして、第2の処理部102はこのオブジェクト尤度マップ10207を出力する。尤度変換処理10206は、第1の処理部101における尤度変換処理10107と同様の処理である。第2の処理部102は特徴マップを扱うため、尤度変換処理10206は畳み込み処理により行われる。例えば、特徴マップからオブジェクト尤度への変換は、1層の畳み込み処理により行うことができる。
The feature map obtained by the
オブジェクト尤度マップ10207は、オブジェクト尤度10208,10209を含んでいる。各オブジェクト尤度は画像10201の画素又は部分領域に対応している。また、オブジェクト尤度マップ10207上のオブジェクト尤度の位置関係は、画像10201上の位置関係と対応している。例えば、オブジェクト尤度10208は、オブジェクト尤度10209と比較して、画像上10201でより左側にある部分領域についてのオブジェクト尤度を表している。
Object likelihood map 10207 includes
図3(C)は、図3(B)に示す画像10001を第2の処理部102に入力することにより得られるオブジェクト尤度マップが示す、カテゴリAの物体に対応する尤度マップを示す。図3(D)は、同じオブジェクト尤度マップが示す、カテゴリBの物体に対応する尤度マップを示す。対応するカテゴリの物体が存在する画像10001の領域付近で、それぞれの尤度マップの値が高くなっている。
FIG. 3C shows a likelihood map corresponding to an object of category A, which is represented by an object likelihood map obtained by inputting the image 10001 shown in FIG. 3B to the
完全畳み込みネットワークに含まれる各階層処理10203~10205においては、座標軸方向に隣接している特徴が共通して利用される。一方で、VisionTransformerを用いる場合、Self-Attention処理及び多層パーセプトロン処理においては座標軸方向の全ての特徴が利用される。このため、ある入力画像に対する処理と、この入力画像を1画素分だけ並進移動させて得られる画像に対する処理との間で、計算過程は全く異なるため、計算過程で生成される中間特徴を共有することはできない。このように、計算過程で生成される中間特徴を共有しながら処理が行われる完全畳み込みネットワークを用いた処理は、VisionTransformerを用いた処理よりも計算効率がよい。
In each of the
学習部103は、学習用の配列データについての尤度を第1の処理部101が算出する処理の過程で得られた情報を教師データとして用いて、第2の処理部102が用いる完全畳み込みネットワークの学習処理を行う。本明細書では、第2の処理部102が用いる完全畳み込みネットワークの学習のことを、第2の処理部102の学習と呼ぶことがある。例えば、学習部103は、第1の処理部101が入力画像に基づいてオブジェクト尤度を算出するときに用いる情報を、第2の処理部102に伝達することができる。上述のように、第1の処理部101はVisionTransformerを用いた処理を行う。一方で、VisionTransformerは第2の処理部102が有する完全畳み込みネットワークとは構造が異なる。このため、第1の処理部101が用いるパラメータを単純に第2のパラメータに移動することはできない。
The
本実施形態においては、学習部103は、教師データを用いた第2の処理部102の学習を行う。教師データとしては、画像11と、画像11を入力された第1の処理部101が出力したオブジェクト尤度とのセットが用いられる。このような学習により、第2の処理部102は、第1の処理部101によるオブジェクト尤度推定性能に近い性能を有するように学習される。そして、第2の処理部102は、このような性能を用いてセグメンテーション処理ができるようになる。
In this embodiment, the
学習部103は、尤度取得部1031及び尤度学習部1032を有する。尤度取得部1031は、画像11を入力された第1の処理部101が出力したオブジェクト尤度を取得する。そして、尤度取得部1031は、取得したオブジェクト尤度を尤度学習部1032に出力する。
The
尤度学習部1032は、第2の処理部102の学習を行う。具体的には、尤度学習部1032は、画像11、及び第1の処理部101が出力した画像11に対応するオブジェクト尤度を、教師データとして取得する。そして、尤度学習部1032は、この教師データを用いて第2の処理部102の学習を行う。尤度学習部1032は、第1の処理部101が出力したオブジェクト尤度と、画像11が入力された第2の処理部102が出力したオブジェクト尤度マップに示されるオブジェクト尤度との差分が減少するように、第2の処理部102のパラメータを更新する。すなわち、尤度学習部1032は、第2の処理部102が用いる完全畳み込みネットワークのパラメータを更新することができる。尤度学習部1032は学習のために例えばバックプロパゲーションを用いることができ、学習のために参照するロス関数としては、例えばオブジェクト尤度の差分のL1ノルムを用いることができる。
The
図2は、一実施形態に係る情報処理装置1が行う、一実施形態に係る学習処理方法の手順を示すフローチャートである。この処理により、画像に対するセグメンテーション処理を行うセグメンテーションネットワークを作成することができる。このような処理によれば、高精度及び高速に分類処理及びセグメンテーション処理を行うニューラルネットワークを生成することができる。 FIG. 2 is a flowchart illustrating a procedure of a learning processing method according to an embodiment, which is performed by the information processing device 1 according to the embodiment. Through this processing, it is possible to create a segmentation network that performs segmentation processing on images. According to such processing, it is possible to generate a neural network that performs classification processing and segmentation processing with high precision and high speed.
S1001ではデータ取得処理が行われる。具体的には、尤度取得部1031は画像11を取得する。本実施形態で尤度取得部1031は、第1の処理部101によるオブジェクト尤度の推定対象となる複数の画像11を取得する。本実施形態では取得される画像11はカラー画像である。しかしながら、尤度取得部1031は画像11としてグレースケール画像又は距離画像を取得してもよい。
In S1001, data acquisition processing is performed. Specifically, the
S1002及びS1003で、学習部103は、第1の処理部101の情報を第2の処理部102に伝達する情報伝達処理を行う。S1002においては、第1の処理部101による尤度取得処理が行われる。具体的には、尤度取得部1031は、画像11を第1の処理部101に入力する。次に、第1の処理部101は画像11に対してオブジェクト尤度を算出する処理を行う。そして、尤度取得部1031は第1の処理部101から算出されたオブジェクト尤度を取得する。上述のように、オブジェクト尤度は、1以上のカテゴリのそれぞれについて、入力された画像に写る物体がこのカテゴリに属する確率の推定値を示す。
In S1002 and S1003, the
第1の処理部101による尤度取得処理は、図4(A)を参照して説明したように行われる。この例において、図4(A)の画像10101は、第1の処理部101に入力された画像11である。ここで、カテゴリの数をdとすると、第1の処理部101が出力し、図4(A)においてオブジェクト尤度10108として表されている、画像11に対応するオブジェクト尤度uは、
S1003では、尤度学習部1032による尤度学習処理が行われる。例えば、尤度学習部1032は、取得した画像11とオブジェクト尤度とを教師データとして用いて、上述のように第2の処理部102が用いる完全畳み込みネットワークの学習を行う。
In S1003, likelihood learning processing is performed by the
図4(B)は、本実施形態における尤度学習処理を説明する図である。図4(B)に示されている第2の処理部102における各処理10203~10206は、図3(A)と同様である。一方で、この例において、第2の処理部102には、第1の処理部101にも入力された、画像11が入力される。図4(B)の画像10101は、第2の処理部に入力された画像11である。既に説明したように、第2の処理部102は、第1の処理部101への入力画像と同じサイズの画像が入力されると、1つのオブジェクト尤度10218からなるオブジェクト尤度マップ10217を出力する。図4(B)においてオブジェクト尤度10218として表されるオブジェクト尤度vは、オブジェクト尤度マップ10217に含まれ、画像11に写る物体のカテゴリの尤度を示すベクトル10219である。オブジェクト尤度vは、オブジェクト尤度uと同じ次元を有している。
FIG. 4(B) is a diagram illustrating the likelihood learning process in this embodiment. Each
この場合、学習部103は、学習用の第3の配列データ(例えば画像11)について第1の処理部101が算出した尤度と、第3の配列データについて第2の処理部102が算出した尤度と、の差分に基づいて、第2の処理部102の学習を行うことができる。具体的には、学習部103は、このような差分が小さくなるように第2の処理部102の学習を行うことができる。このような差分を評価するために用いるロス関数としては、例えば、
十分な数の画像11のそれぞれを用いて、S1001~S1003に従う最適化を繰り返し行うことにより、第2の処理部102の学習を行うことができる。その後、学習後の第2の処理部102に画像21を入力することにより、第2の処理部102からは画像21に対応する尤度マップが出力される。
The
ところで、このように学習された第2の処理部102は、図4(B)に示すように、第1の処理部101への入力画像と同じサイズの画像が入力されると、第1の処理部101と同様のオブジェクト尤度を出力する。一方で、図3(A)に示すように、第2の処理部102は、第1の処理部101への入力画像よりも大きいサイズの画像が入力されると、入力画像の大きさに応じた尤度マップを生成する。この尤度マップは、入力画像に含まれる部分画像が特定のクラスに含まれる尤度であるオブジェクト尤度を示している。すなわち、この尤度マップに基づいて、画像21に含まれる物体のカテゴリ推定を行うことができる。上記のように学習された第2の処理部102は、第1の処理部101による物体のカテゴリ推定精度と近い精度で、このカテゴリ推定を行うことができる。
By the way, as shown in FIG. 4(B), the
また、第2の処理部102が出力した尤度マップに示されるオブジェクト尤度に従って、写っている物体のカテゴリごとに画像をセグメンテーションすることができる。したがって、このように学習された第2の処理部102は、画像をセグメンテーションするために用いることができる。一実施形態において、第2の処理部102は、尤度マップに基づいて配列データのセグメンテーションを行う。
Further, according to the object likelihood shown in the likelihood map output by the
以上説明したように、本実施形態に係る情報処理装置は、あらかじめ学習されている第1の処理部101と近い精度を持ち、かつ効率よくオブジェクト尤度を算出できるように、第2の処理部102の学習を行うことができる。こうして、本実施形態に係る情報処理装置は、パラメータが学習された完全畳み込みネットワークを生産することができる。その後、本実施形態に係る情報処理装置の第2の処理部102は、パラメータが学習された完全畳み込みネットワークを用いて、配列データの分類処理又はセグメンテーション処理を行うことができる。また、本実施形態に係る情報処理装置は、学習により得られた完全畳み込みネットワークのパラメータを出力してもよい。この場合、他の情報処理装置は、本実施形態に係る情報処理装置学習から出力された完全畳み込みネットワークのパラメータを用いて、配列データの分類処理又はセグメンテーション処理を行うことができる。いずれの方法によっても、完全畳み込みネットワークを用いた、高精度及び高速に分類処理及びセグメンテーション処理を行うことができる。
As described above, the information processing device according to the present embodiment has a second processing unit that has accuracy close to that of the
上記の実施形態において、学習部103は、第2の処理部102の学習のために、第1の処理部101が出力したオブジェクト尤度を教師データとして用いた。一方で、学習部103は、学習用の配列データがクラスに含まれる尤度を第1の処理部101が算出する処理の過程で得られた他の情報に基づいて、第2の処理部102の学習を行うことができる。
In the embodiment described above, the
例えば、学習部103は、第2の処理部102の学習のために、第1の処理部101による画像11に対する処理の途中で得られた中間特徴を教師データとして用いることができる。一実施形態においては、学習用の配列データに対して第1の処理部101が尤度を算出する過程で得られた学習用の配列データの特徴と、第2の処理部102が算出した学習用の配列データの特徴と、が用いられる。学習部103は、これらの特徴の差分が小さくなるように、第2の処理部102が用いる完全畳み込みネットワークの学習処理を行う。
For example, the
例えば、第1の処理部101は、図4(A)の例において第Lエンコーダブロック10106が出力した特徴を出力することができる。この特徴のことを中間特徴と呼ぶ。この中間特徴は、例えばp次元のベクトルである。学習部103は、このような中間特徴を第1の処理部101から取得することができる。この中間特徴は、教師データとして用いることができる。
For example, the
また、第2の処理部102は、図4(B)の例において第M階層処理10205で得られた特徴マップを出力することができる。この特徴マップのことを中間特徴マップと呼ぶ。この中間特徴マップは、この例では1×1×p次元のマップであり、すなわちp次元のベクトルで表される特徴を示す。学習部103は、このような中間特徴マップを第2の処理部102から取得することができる。
Further, the
この場合、学習部103は、画像11に対応する第1の処理部101が出力した中間特徴と、画像11が入力された第2の処理部102が出力した中間特徴マップとの差分が減少するように、第2の処理部102のパラメータを更新することができる。パラメータの更新は上記の実施形態と同様に行うことができる。
In this case, the
このような実施形態に従って学習された第2の処理部102によるオブジェクト尤度の算出及び画像のセグメンテーションについて、図5を参照して説明する。この場合、第2の処理部102は、完全畳み込みネットワークを用いて特定のクラスの配列データの特徴を算出することができる。そして、第2の処理部102は、特定のクラスの配列データの特徴と、完全畳み込みネットワークを用いて算出した処理対象の配列データの特徴と、の相関に基づいて、処理対象の配列データが特定のクラスに含まれる尤度を算出することができる。以下の例では、第2の処理部102が特定のカテゴリの画像について出力した中間特徴と、第2の処理部102が処理対象の画像について出力した中間特徴と、の類似性に基づいて、処理対象の画像がセグメンテーションされる。
The object likelihood calculation and image segmentation performed by the
まず、学習後の第2の処理部102に、あるカテゴリの物体の画像10231が入力される。この例において、画像10231のサイズは、第1の処理部101に入力される画像のサイズと同じである。すると、第2の処理部102は、第M階層処理10205によって得られた中間特徴マップ10237を出力する。この中間特徴マップ10237は、類似性の基準となる特徴10239を含んでいる。図5の例において、特徴10239はp次元のベクトルである。
First, an image 10231 of an object in a certain category is input to the
さらに、学習後の第2の処理部102に、セグメンテーション処理の対象となる画像10241が入力される。この画像10241のサイズは、画像10231のサイズより大きくてもよい。すると、第2の処理部102は、第M階層処理10205によって得られた中間特徴マップ10247を出力する。図5の例において、この中間特徴マップは、それぞれが画像10241の画素又は部分領域に対応する、複数のp次元のベクトルを含む。
Furthermore, an image 10241 to be subjected to segmentation processing is input to the
次に、第2の処理部102は、中間特徴マップ10247と特徴10239との内積処理を行うことにより、類似度マップ10249を得る。この類似度マップ10249は、画像10241の部分領域におけるオブジェクト尤度を示す。この場合のオブジェクト尤度は、画像10241の部分領域に写る物体が、画像10231に写る物体のカテゴリに属する確率の推定値を示す。さらに、第2の処理部102は、類似度マップ10249が示すオブジェクト尤度に基づいて画像10241をセグメンテーションすることができる。こうして、画像10231に写る物体が存在する領域が区別されるように、画像10241のセグメンテーションを行うことができる。
Next, the
この実施形態では、中間特徴マップを生成するように第2の処理部102の学習が行われる。このような構成により、あらかじめ定められたカテゴリについてのオブジェクト尤度を推定する代わりに、任意の画像特徴との類似性に基づく画像のセグメンテーションを行うことができる。
In this embodiment, the
また、上記の実施形態においては、第1の処理部101が出力したオブジェクト尤度が、それぞれ第2の処理部102の学習のための教師データとして用いられた。一方で、第1の処理部101が出力した複数のオブジェクト尤度がまとめられたオブジェクト尤度マップを、第2の処理部102の学習のための教師データとして用いてもよい。このような実施形態について、図6(A)及び図6(B)を参照して説明する。
Furthermore, in the embodiments described above, the object likelihoods output by the
この場合、第1の処理部101は、複数の配列データのそれぞれが特定のクラスに含まれる尤度を算出する。ここで、第1の処理部101に入力される複数の配列データのそれぞれは所定サイズを有している。また、これらの複数の配列データは、この所定サイズよりも大きい学習用の第3の配列データの一部である。例えば、第1の処理部101は、複数の画像(例えば4枚の画像)のそれぞれに対応するオブジェクト尤度を算出することができる。尤度取得部1031は、第1の処理部101が出力したこれらのオブジェクト尤度を取得することができる。
In this case, the
例えば、図6(A)の例では、学習用の第3の配列データである画像20301のサイズは第1の処理部101に入力可能な画像サイズより大きい。そして、複数の配列データである4枚の画像20302は、画像20301からの、画像20301よりも小さいサンプリング画像である。そして、第1の処理部101は、オブジェクト尤度の算出処理を4回行うことにより、4つの画像のそれぞれについてのオブジェクト尤度20311~20314を出力する。図6(A)の例では、画像11は画像20301として示されている。
For example, in the example of FIG. 6A, the size of the
尤度取得部1031がサンプリングにより生成する画像の数は、画像20301が入力された第2の処理部102が出力するオブジェクト尤度の個数と同じである。また、尤度取得部1031は、第1の処理部101へ入力される画像として適したサイズを有するように、画像のサンプリングを行う。また、サンプリングの際には、4枚の画像20302として示されているように、第2の処理部102が出力する複数のオブジェクト尤度の位置関係と合うように、サンプリング位置がずらされる。
The number of images generated by sampling by the
さらに、尤度取得部1031は、第1の処理部101が算出した尤度を含む尤度マップを生成する。例えば、尤度取得部1031は、オブジェクト尤度20311~20314をオブジェクト尤度マップ20304に変換する。ここで、尤度マップは、サンプリング画像のサンプリング位置に、このサンプリング画像について第1の処理部101が算出した尤度を有している。例えば、図6(A)において、オブジェクト尤度マップ20304上におけるオブジェクト尤度の配置は、尤度取得部1031がサンプリングした画像の位置関係と整合している。具体的には、左上のサンプリング画像に対応するオブジェクト尤度20311は、オブジェクト尤度マップ20304の左上に配置される。このために、尤度取得部1031は、画像座標の位置関係を示す数値を決定する。この例では、オブジェクト尤度20311はu0,0、オブジェクト尤度20312はu1,0、オブジェクト尤度20313はu0,1、オブジェクト尤度20314はu1,1と表される。そして、尤度取得部1031は、生成したオブジェクト尤度マップ20304を尤度学習部1032に出力する。
Furthermore, the
尤度学習部1032は、第2の処理部102の学習を行う。尤度学習部1032は、尤度取得部1031から、画像20301と、画像20301に対応するオブジェクト尤度マップ20304を取得する。そして、尤度学習部1032は、画像20301及びオブジェクト尤度マップ20304を教師データとして用いて、第2の処理部102の学習を行う。具体的には、尤度学習部1032は、第1の処理部101が算出した尤度を含む尤度マップと、学習用の第3の配列データについて第2の処理部102が算出した尤度マップと、の差分に基づいて、第2の処理部102の学習を行うことができる。具体的には、尤度学習部1032は、オブジェクト尤度マップ20304と、画像20301が入力された第2の処理部102が出力したオブジェクト尤度マップ20306との差分が減少するように、第2の処理部102のパラメータを更新することができる。差分の評価に用いるロス関数としては、例えば、各オブジェクト尤度の差分のL1ノルムの和を用いることができる。例えば、ロス関数は下式で表すことができる。
このような実施形態によれば、複数のオブジェクト尤度の集合が教師データとして用いられるため、学習の効率が向上する。 According to such an embodiment, a set of a plurality of object likelihoods is used as training data, so that learning efficiency is improved.
(ネットワーク構造の確認)
上記の実施形態によれば、第2の処理部102が用いるニューラルネットワークを、高精度及び高速に分類処理及びセグメンテーション処理を行えるように学習することができる。一方で、第2の処理部102が用いるニューラルネットワークが、十分に高精度及び高速な分類処理及びセグメンテーション処理を行える構造を有しているかどうかを、さらに確認することができる。
(Check network structure)
According to the above embodiment, the neural network used by the
図7は、一実施形態に係る情報処理装置3の構成を示すブロック図である。この情報処理装置3は、第2の処理部102が用いるニューラルネットワークの構造を確認することができる。第1の処理部101、第2の処理部102、及び学習部103の構成は図1と同様であり、以下では異なる点について説明する。
FIG. 7 is a block diagram showing the configuration of the information processing device 3 according to one embodiment. This information processing device 3 can confirm the structure of the neural network used by the
本実施形態において、第2の処理部102は、ネットワーク構造12を入力として受け付けることができる。ネットワーク構造12は、第2の処理部102が用いるニューラルネットワークの構造を示す情報である。ネットワーク構造12は、例えば、階層処理の個数、階層処理の種類、階層処理を施す順番、及び尤度変換後のカテゴリ数などを示すことができる。第2の処理部102は、ネットワーク構造12に従う構造を有する完全畳み込みネットワークを用いて、オブジェクト尤度マップを生成することができる。また、第2の処理部102は、受け付けたネットワーク構造12を確認部304に出力することができる。
In this embodiment, the
確認部304は、ネットワーク構造12が、十分に高精度及び高速に分類処理及びセグメンテーション処理を行える構造を示しているかどうかを確認する。このような処理は、例えば図2に従う処理を開始する前に行うことができる。確認部304は、例えば、第2の処理部102が用いる完全畳み込みネットワークが、パディング処理、又は配列データのサイズの変動によって処理内容が変動する階層処理を含むかどうかを確認することができる。
The
既に説明したように、第2の処理部102によって行われる処理が、入力画像サイズが変動すると処理内容も変動するような階層処理を含む場合、セグメンテーション処理の精度が学習によって向上しにくくなる。ニューラルネットワークがこのような階層処理を含む場合、ニューラルネットワークの構造を修正することにより、より高精度及び高速に分類処理及びセグメンテーション処理を行うことが可能になる。
As described above, when the processing performed by the
そこで、確認部304は、各階層処理に、入力画像サイズの変動によって処理内容が変動する特定の処理が含まれるかどうかを確認することができる。このような特定の処理としては、例えばパディング処理が挙げられる。パディング処理においては、画像の周辺部分に対してのみ特別な処理が行われる。このため、画像が小さいほど、パディング処理によって追加された値を用いた処理の回数が多くなる。すなわち、パディング処理が行われる場合、入力画像サイズの変動によって第2の処理部102による処理内容が変動する。
Therefore, the
確認部304はまた、完全畳み込みネットワークが、パディング処理、又は配列データのサイズの変動によって処理内容が変動する階層処理を行わないように、完全畳み込みネットワークの構成を修正することができる。例えば、確認部304は、階層処理がパディング処理を含むことをネットワーク構造12が示す場合、パディング処理を行わないようにネットワーク構造12を修正することができる。このように、確認部304は、自動的にネットワーク構造12を修正し、修正されたネットワーク構造12を第2の処理部102に出力することができる。
The
別の方法として、確認部304は、第2の処理部102にテストデータに対する処理を行わせることができる。こうして、確認部304は、第2の処理部102が用いる完全畳み込みネットワークが、パディング処理、又は配列データのサイズの変動によって処理内容が変動する階層処理を含むかどうかを確認することができる。このような例について、図8(A)~図8(C)を参照して説明する。
Alternatively, the
図8(A)は、第2の処理部102aによって行われる処理が、入力画像サイズの変動によって処理内容が変動する階層処理を含まない場合の例を示す。図8(A)の例では、ネットワーク構造12に従う処理を行う第2の処理部102aにテストデータ30201が入力されている。テストデータ30201は、十分に大きい画像であり、1画素のみ異なる画素値を有し、他の画素は同じ画素値を有する画像である。入力画像サイズの変動によって処理内容が変動する階層処理が行われない場合、オブジェクト尤度の推定値は、テストデータ30201における画素値が等しい領域では一致する。したがって、テストデータ30201に対して出力されたオブジェクト尤度マップ30207のほとんどの領域では値が等しくなる。一方で、テストデータ30201において異なる値を有する画素の付近においては、この画素から抽出された特徴を用いた計算が行われるため、図8(A)に示されるようにオブジェクト尤度の値が他の領域とは異なる。
FIG. 8A shows an example in which the processing performed by the second processing unit 102a does not include hierarchical processing in which the processing contents change depending on changes in the input image size. In the example of FIG. 8A, test data 30201 is input to the second processing unit 102a that performs processing according to the
一方で、図8(B)は、第2の処理部102bによって行われる処理が、入力画像サイズの変動によって処理内容が変動する階層処理を含む場合の例を示す。図8(B)の例でも、図8(A)と同様のテストデータ30201が、ネットワーク構造12に従う処理を行う第2の処理部102bに入力されている。そして、第2の処理部102bは、テストデータ30201に対してオブジェクト尤度マップ30217を出力する。例えば、第2の処理部102bによって行われる処理がパディング処理を含んでいる場合、テストデータの内容にかかわらず、オブジェクト尤度マップの周辺部分の値は内側部分の値とは異なる。図8(C)は、オブジェクト尤度マップ30217を詳細に示す。オブジェクト尤度マップ30217は、テストデータ30201に含まれる、異なる画素値を有する画素の影響を受ける部分30218を含む。また、オブジェクト尤度マップ30217は、部分30218の外側にある、テストデータ30201に含まれる異なる画素値を有する画素の影響を受けない部分30219を含む。さらに、オブジェクト尤度マップ30217は、部分30219の外側にある、パディング処理などの影響で部分30219とは異なる値を有する部分を有している。
On the other hand, FIG. 8(B) shows an example in which the processing performed by the second processing unit 102b includes hierarchical processing in which the processing contents change depending on changes in the input image size. In the example of FIG. 8(B) as well, test data 30201 similar to that of FIG. 8(A) is input to the second processing unit 102b that performs processing according to the
このように、確認部304は、テストデータを入力された第2の処理部102が出力したオブジェクト尤度マップが、内部とは異なる値を有する領域をマップの周辺部分に有しているかどうかを判定できる。そして、確認部304は、このような領域がマップの周辺部分に存在しない場合、第2の処理部102が行う処理は、入力画像サイズが変動すると処理内容が変動するような階層処理を含まないと判定することができる。この場合、第2の処理部102は、ネットワーク構造12が、高精度及び高速な分類処理及びセグメンテーション処理を行える構造を示していると判定できる。
In this way, the
別の方法として、確認部304は、テストデータを入力された第2の処理部102が出力したオブジェクト尤度マップ30217のうち、異なる画素値を有する画素の影響を受ける部分30218を検出することができる。次に、確認部304は、オブジェクト尤度マップ30217のうち、異なる画素値を有する画素の影響を受ける部分30218を除く部分が、一様な値を有しているか否かを判定することができる。例えば、この部分における最頻値から所定範囲内の値の割合が、所定の割合を超える場合に、確認部304はこの部分が一様な値を有していると判定することができる。確認部304は、この部分が一様な値を有している場合に、第2の処理部102が行う処理は、入力画像サイズが変動すると処理内容が変動するような階層処理を含まないと判定することができる。確認部304は、このような処理を異なるサイズのテストデータのそれぞれについて行ってもよい。
As another method, the
このようにテストデータを用いることにより、第2の処理部102が行う処理が、パディング処理以外の、入力画像サイズが変動したときに処理内容が変動するような階層処理を含むかどうかを判定することができる。確認部304は、さらに、ネットワーク構造12の確認結果を、表示装置13などを介して出力してもよい。この場合、ユーザは確認部304による確認結果を知ることができる。
By using the test data in this way, it is determined whether the processing performed by the
このような方法によれば、第2の処理部102の学習を行う前に、第2の処理部102が高精度及び高速に分類処理及びセグメンテーション処理を行える構造を有しているかどうかを確認することができる。このため、より確実に、高精度及び高速に分類処理及びセグメンテーション処理を行うことができるニューラルネットワークを生成することができる。
According to such a method, before learning the
(第1の処理部の追加学習)
学習後の第2の処理部102が出力したオブジェクト尤度マップを利用することにより、第1の処理部101の追加学習に用いる教師データを作成してもよい。
(Additional learning of the first processing unit)
Teacher data used for additional learning of the
上述のように、学習後の第2の処理部102に画像21が入力されると、第2の処理部102は画像21に対応するオブジェクト尤度マップを出力する。ここで、学習部103は、第2の処理部102から出力されたオブジェクト尤度マップを取得することができる。そして、学習部103は、取得したオブジェクト尤度マップ及び画像21から、第1の処理部101の学習に用いる教師データを作成することができる。さらに、学習部103、この教師データを用いて第1の処理部101の追加学習を行うことができる。
As described above, when the
以下で、図9を参照して、第1の処理部101の追加学習のために学習部103が行う処理について説明する。このような処理は、S1003の後に行うことができる。まず、第2の処理部102は、追加学習用の配列データを、学習部103による学習後の完全畳み込みネットワークに入力する。こうして、第2の処理部102は、追加学習用の配列データに含まれる部分配列データのそれぞれが特定のクラスに含まれる尤度を示す尤度マップを生成する。例えば、第2の処理部102には、画像40001が入力される。この画像40001は図1の画像21に対応し、第1の処理部101へ入力される画像よりも大きいサイズを有している。そして、第2の処理部102は、画像40001に対応するオブジェクト尤度マップ40007を出力する。尤度マップ40008,40009は、オブジェクト尤度マップ40007から抽出された、特定のカテゴリの物体についての尤度マップである。具体的には、尤度マップ40008はカテゴリAの物体についての尤度マップである。また、尤度マップ40009はカテゴリBの物体についての尤度マップである。
Below, with reference to FIG. 9, the process performed by the
そして、学習部103は、尤度マップに基づいて追加学習用の配列データから追加学習用の部分配列データを抽出する。また、学習部103は、抽出された部分配列データを用いて第1の処理部101の追加学習を行う。学習部103が行う処理は、ブロック40410として示されている。学習部103は、画像40001とオブジェクト尤度マップ40007を用いて、第1の処理部101の学習のために利用できる教師データを生成する。学習部103は、オブジェクト尤度マップにおいて高い尤度を有する領域を検出する。例えば、学習部103は、オブジェクト尤度マップ40007を所定の閾値(例えば0.3)を用いて2値化することにより、高い尤度を有する領域を特定することができる。そして、この領域の面積が閾値よりも大きい場合に、学習部103は、特定された領域に対応する部分を、画像40001から切り抜くことができる。こうして切り抜かれたデータは、教師データとして用いられる。
Then, the
図9の例において、学習部103は、尤度マップ40008における高い尤度を有する領域を検出し、画像40001における対応する領域である破線領域を切り抜いている。こうして切り抜かれた画像と、尤度マップ40008に対応するカテゴリ情報(この例ではカテゴリA)との組み合わせが、教師データ40413として用いられる。同様に、学習部103は、尤度マップ40009を参照して、画像40001から破線領域を切り抜く。こうして切り抜かれた画像と、尤度マップ40009に対応するカテゴリ情報(この例ではカテゴリB)との組み合わせが、教師データ40414として用いられる。
In the example of FIG. 9, the
そして、学習部103は、得られた教師データを用いて第1の処理部101の学習を行う。第1の処理部101の具体的な学習方法は特に限定されず、例えば上述の方法を用いることができる。
Then, the
上記の方法によれば、任意の画像に対してオブジェクト尤度マップを生成し、さらにこのオブジェクト尤度マップに基づいて教師データを生成することができる。こうして生成された教師データを用いて第1の処理部101の追加学習を行うことにより、第1の処理部101はより高精度なオブジェクト尤度の推定を行えるようになる。さらに、こうして追加学習された第1の処理部101を用いて、既に説明した方法で第2の処理部102の学習を行うことにより、高速にセグメンテーション処理を行うニューラルネットワークの性能をさらに向上させることができる。
According to the above method, it is possible to generate an object likelihood map for any image, and further to generate training data based on this object likelihood map. By performing additional learning of the
(その他の実施例)
ここまで本発明の実施形態の例を説明したが、本発明は例えば、システム、装置、方法、プログラム、又は記録媒体等としての実現することができる。例えば、複数の機器(例えば、ホストコンピュータ、インタフェース機器、撮像装置、又はwebアプリケーション等)から構成されるシステムに本発明を適用することができる。一方で、1つの機器からなる装置に本発明を適用してもよい。
(Other examples)
Although examples of embodiments of the present invention have been described so far, the present invention can be realized as, for example, a system, an apparatus, a method, a program, a recording medium, or the like. For example, the present invention can be applied to a system composed of a plurality of devices (eg, a host computer, an interface device, an imaging device, a web application, etc.). On the other hand, the present invention may be applied to a device consisting of one device.
上記の各実施形態に係る情報処理装置は、コンピュータを用いて実現することができる。例えば、図1等に示される各情報処理装置が有する各処理部の機能は、コンピュータにより実現することができる。コンピュータとしては例えば、汎用のパーソナルコンピュータ及びサーバなどが挙げられる。もっとも、少なくとも一部の処理部が専用のハードウェアによって実現されてもよい。また、各画像処理装置が、例えばネットワークを介して接続された複数の情報処理装置によって構成されていてもよい。例えば、各画像処理装置の機能はクラウドサービスとして提供されてもよい。 The information processing apparatus according to each of the embodiments described above can be realized using a computer. For example, the functions of each processing unit included in each information processing device shown in FIG. 1 and the like can be realized by a computer. Examples of the computer include a general-purpose personal computer and a server. However, at least some of the processing units may be realized by dedicated hardware. Further, each image processing device may be configured by a plurality of information processing devices connected via a network, for example. For example, the functions of each image processing device may be provided as a cloud service.
図10は、一実施形態に係る、コンピュータを用いて実現される情報処理装置のハードウェア構成例を示す図である。図10においてプロセッサ1010は、例えばCPUであり、コンピュータ全体の動作をコントロールする。メモリ1020は、例えばRAMであり、プログラム及びデータ等を一時的に記憶する。コンピュータが読み取り可能な記憶媒体1030は、例えばハードディスク又はCD-ROM等であり、プログラム及びデータ等を長期的に記憶する。本実施形態においては、記憶媒体1030が格納している、各部の機能を実現するプログラムが、メモリ1020へと読み出される。そして、プロセッサ1010が、メモリ1020上のプログラムに従って動作することにより、各部の機能が実現される。
FIG. 10 is a diagram illustrating an example of a hardware configuration of an information processing apparatus implemented using a computer, according to an embodiment. In FIG. 10, a
図10において、入力インタフェース1040は外部の装置から情報を取得するためのインタフェースである。また、出力インタフェース1050は外部の装置へと情報を出力するためのインタフェースである。バス1060は、上述の各部を接続し、データのやりとりを可能とする。
In FIG. 10, an
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。 The present invention provides a system or device with a program that implements one or more functions of the embodiments described above via a network or a storage medium, and one or more processors in a computer of the system or device reads and executes the program. This can also be achieved by processing. It can also be realized by a circuit (for example, ASIC) that realizes one or more functions.
本明細書の開示は、以下の情報処理装置、パラメータが学習された完全畳み込みネットワークを生産する方法、及びプログラムを含む。 The disclosure of this specification includes the following information processing apparatus, method for producing a fully convolutional network with learned parameters, and a program.
(項目1)
配列データが特定のクラスに含まれる尤度を算出する第1の処理手段と、
前記第1の処理手段とは異なる処理を行う第2の処理手段であって、完全畳み込みネットワークを用いて、配列データが特定のクラスに含まれる尤度を算出する第2の処理手段と、
学習用の配列データについての前記尤度を前記第1の処理手段が算出する処理の過程で得られた情報を教師データとして用いて、前記完全畳み込みネットワークの学習処理を行う学習手段と、
を備えることを特徴とする情報処理装置。
(Item 1)
a first processing means for calculating the likelihood that the array data is included in a specific class;
a second processing means that performs processing different from the first processing means, the second processing means calculating the likelihood that the array data is included in a specific class using a fully convolutional network;
Learning means for performing learning processing for the fully convolutional network using information obtained in the process in which the first processing means calculates the likelihood for the learning array data as teacher data;
An information processing device comprising:
(項目2)
前記第1の処理手段には、所定サイズの配列データが入力され、
前記第2の処理手段には、前記所定サイズ以上の配列データが入力されることを特徴とする、項目1に記載の情報処理装置。
(Item 2)
Array data of a predetermined size is input to the first processing means,
2. The information processing apparatus according to item 1, wherein array data of the predetermined size or more is input to the second processing means.
(項目3)
前記完全畳み込みネットワークは、前記所定サイズの第1の配列データが入力されると、前記第1の配列データが前記特定のクラスに含まれる尤度を示す1つのベクトルを出力することを特徴とする、項目2に記載の情報処理装置。
(Item 3)
The fully convolutional network is characterized in that when the first array data of the predetermined size is input, it outputs one vector indicating the likelihood that the first array data is included in the specific class. , the information processing device according to item 2.
(項目4)
前記完全畳み込みネットワークは、前記所定サイズよりも大きい第2の配列データが入力されると、複数の部分配列データのそれぞれが前記特定のクラスに含まれる尤度を示す尤度マップを出力し、前記複数の部分配列データのそれぞれは、前記第2の配列データの一部であることを特徴とする、項目2又は3に記載の情報処理装置。
(Item 4)
When the second array data larger than the predetermined size is input, the fully convolutional network outputs a likelihood map indicating the likelihood that each of the plurality of partial array data is included in the specific class; 4. The information processing device according to item 2 or 3, wherein each of the plurality of partial array data is a part of the second array data.
(項目5)
前記学習手段は、学習用の第3の配列データについて前記第1の処理手段が算出した尤度と、前記第3の配列データについて前記第2の処理手段が算出した尤度と、の差分が少なくなるように前記完全畳み込みネットワークの学習処理を行うことを特徴とする、項目1から4のいずれか1項目に記載の情報処理装置。
(Item 5)
The learning means calculates the difference between the likelihood calculated by the first processing means for the third array data for learning and the likelihood calculated by the second processing means for the third array data. The information processing device according to any one of items 1 to 4, characterized in that the learning process of the fully convolutional network is performed so that the total convolutional network is reduced.
(項目6)
前記第1の処理手段は、複数の配列データのそれぞれが特定のクラスに含まれる尤度を算出し、
前記複数の配列データのそれぞれは、前記所定サイズよりも大きい学習用の第3の配列データの一部であり、
前記学習手段は、前記第1の処理手段が算出した尤度を含む尤度マップと、前記第3の配列データについて前記第2の処理手段が算出した尤度マップと、の差分が少なくなるように前記完全畳み込みネットワークの学習処理を行うことを特徴とする、項目2から4のいずれか1項目に記載の情報処理装置。
(Item 6)
The first processing means calculates the likelihood that each of the plurality of array data is included in a specific class,
Each of the plurality of array data is a part of third array data for learning that is larger than the predetermined size,
The learning means is configured to reduce the difference between a likelihood map including the likelihood calculated by the first processing means and a likelihood map calculated by the second processing means for the third array data. The information processing device according to any one of items 2 to 4, characterized in that the learning process of the fully convolutional network is performed.
(項目7)
前記第3の配列データは画像であり、
前記複数の配列データは、前記画像の異なる位置からの、前記画像よりも小さいサンプリング画像であり、
前記第1の処理手段が算出した尤度を含む尤度マップは、前記サンプリング画像のサンプリング位置に、前記サンプリング画像について前記第1の処理手段が算出した前記尤度が配置された構造を有することを特徴とする、項目6に記載の情報処理装置。
(Item 7)
the third array data is an image;
The plurality of array data are sampled images smaller than the image from different positions of the image,
The likelihood map including the likelihood calculated by the first processing means has a structure in which the likelihood calculated by the first processing means for the sampling image is placed at the sampling position of the sampling image. The information processing device according to item 6, characterized by:
(項目8)
前記第2の処理手段は、前記尤度マップに基づいて、前記配列データのセグメンテーションを行うことを特徴とする、項目4に記載の情報処理装置。
(Item 8)
The information processing device according to item 4, wherein the second processing means performs segmentation of the array data based on the likelihood map.
(項目9)
前記配列データは画像であり、前記部分配列データは前記画像に含まれる部分画像であり、前記第2の処理手段は、前記部分画像が特定のクラスに含まれる尤度に基づいて前記画像のセグメンテーションを行うことを特徴とする、項目8に記載の情報処理装置。
(Item 9)
The array data is an image, the partial array data is a partial image included in the image, and the second processing means performs segmentation of the image based on the likelihood that the partial image is included in a specific class. The information processing device according to item 8, characterized in that the information processing device performs the following.
(項目10)
前記第1の処理手段は、複数のクラスのそれぞれについて配列データが前記クラスに含まれる尤度を算出し、
前記第2の処理手段は、複数のクラスのそれぞれについて配列データが前記クラスに含まれる尤度を算出することを特徴とする、項目1から9のいずれか1項目に記載の情報処理装置。
(Item 10)
The first processing means calculates the likelihood that the array data is included in the class for each of the plurality of classes;
9. The information processing apparatus according to any one of items 1 to 9, wherein the second processing means calculates, for each of a plurality of classes, the likelihood that the array data is included in the class.
(項目11)
前記第1の処理手段は、Self-Attention処理、Transformer、又は入力された特徴の全てを用いる処理の繰り返し、を用いて前記尤度を算出することを特徴とする、項目1から10のいずれか1項目に記載の情報処理装置。
(Item 11)
Any one of items 1 to 10, wherein the first processing means calculates the likelihood using Self-Attention processing, Transformer, or repetition of processing using all input features. The information processing device described in item 1.
(項目12)
前記学習手段は、前記学習用の配列データに対して前記第1の処理手段が尤度を算出する過程で得られた前記学習用の配列データの特徴と、前記第2の処理手段が前記完全畳み込みネットワークを用いて算出した前記学習用の配列データの特徴と、の差分が少なくなるように前記完全畳み込みネットワークの学習処理を行うことを特徴とする、項目1から4のいずれか1項目に記載の情報処理装置。
(Item 12)
The learning means uses the features of the learning array data obtained in the process in which the first processing means calculates the likelihood for the learning array data, and the second processing means According to any one of items 1 to 4, the learning process of the fully convolutional network is performed so that the difference between the characteristics of the learning array data calculated using the convolutional network is reduced. information processing equipment.
(項目13)
前記第2の処理手段は、前記完全畳み込みネットワークを用いて算出した特定のクラスの配列データの特徴と、前記完全畳み込みネットワークを用いて算出した処理対象の配列データの特徴と、の相関に基づいて、処理対象の配列データが前記特定のクラスに含まれる尤度を算出することを特徴とする、項目12に記載の情報処理装置。
(Item 13)
The second processing means is based on the correlation between the characteristics of the array data of a specific class calculated using the fully convolutional network and the characteristics of the array data to be processed calculated using the fully convolutional network. , the information processing apparatus according to
(項目14)
前記完全畳み込みネットワークは、パディング処理、又は前記配列データのサイズの変動によって処理内容が変動する階層処理を行わないように構成されていることを特徴とする、項目1から13のいずれか1項目に記載の情報処理装置。
(Item 14)
According to any one of items 1 to 13, the fully convolutional network is configured so as not to perform padding processing or hierarchical processing in which processing contents vary depending on variations in the size of the array data. The information processing device described.
(項目15)
前記完全畳み込みネットワークが、パディング処理、又は前記配列データのサイズの変動によって処理内容が変動する階層処理を含むかどうかを確認する確認手段をさらに備えることを特徴とする、項目1から13のいずれか1項目に記載の情報処理装置。
(Item 15)
Any one of items 1 to 13, further comprising confirmation means for confirming whether the fully convolutional network includes padding processing or hierarchical processing in which processing contents vary depending on variations in the size of the array data. The information processing device described in item 1.
(項目16)
前記確認手段は、前記第2の処理手段にテストデータに対する処理を行わせることにより、前記完全畳み込みネットワークが、パディング処理、又は前記配列データのサイズの変動によって処理内容が変動する階層処理を含むかどうかを確認することを特徴とする、項目15に記載の情報処理装置。
(Item 16)
The confirmation means causes the second processing means to perform processing on the test data, thereby determining whether the fully convolutional network includes padding processing or hierarchical processing in which processing contents vary depending on variations in the size of the array data. The information processing device according to item 15, characterized in that the information processing device confirms whether or not the information is present.
(項目17)
前記確認手段は、前記完全畳み込みネットワークが、パディング処理、又は前記配列データのサイズの変動によって処理内容が変動する階層処理を行わないように、前記完全畳み込みネットワークの構成を修正することを特徴とする、項目15又は16に記載の情報処理装置。
(Item 17)
The confirmation means is characterized in that the configuration of the fully convolutional network is modified so that the fully convolutional network does not perform padding processing or hierarchical processing in which the processing contents vary due to variations in the size of the array data. , the information processing device according to item 15 or 16.
(項目18)
前記第2の処理手段は、追加学習用の配列データを、前記学習手段による学習後の前記完全畳み込みネットワークに入力することにより、前記追加学習用の配列データに含まれる部分配列データのそれぞれが特定のクラスに含まれる尤度を示す尤度マップを生成し、
前記学習手段は、前記尤度マップに基づいて前記追加学習用の配列データから追加学習用の部分配列データを抽出し、抽出された前記部分配列データを用いて前記第1の処理手段の追加学習を行うことを特徴とする、項目1から17のいずれか1項目に記載の情報処理装置。
(Item 18)
The second processing means specifies each of the partial sequence data included in the sequence data for additional learning by inputting the sequence data for additional learning into the fully convolutional network after learning by the learning means. Generate a likelihood map showing the likelihood of being included in the class of
The learning means extracts partial sequence data for additional learning from the sequence data for additional learning based on the likelihood map, and performs additional learning of the first processing means using the extracted partial sequence data. The information processing device according to any one of items 1 to 17, characterized in that the information processing device performs the following.
(項目19)
情報処理装置が、パラメータが学習された完全畳み込みネットワークを生産する方法であって、
前記情報処理装置は、
配列データが特定のクラスに含まれる尤度を算出する第1の処理手段と、
前記第1の処理手段とは異なる処理を行う第2の処理手段であって、完全畳み込みネットワークを用いて、配列データが特定のクラスに含まれる尤度を算出する第2の処理手段と、を備え、
前記方法は、
前記第1の処理手段を用いて、学習用の配列データについての前記尤度を算出する処理を行う工程と、
前記第1の処理手段が前記尤度を算出する処理の過程で得られた情報を教師データとして用いて、前記完全畳み込みネットワークの学習処理を行う工程と、
を含むことを特徴とする、方法。
(Item 19)
A method for an information processing device to produce a fully convolutional network with learned parameters, the method comprising:
The information processing device includes:
a first processing means for calculating the likelihood that the array data is included in a specific class;
a second processing means that performs processing different from the first processing means, the second processing means calculating the likelihood that the array data is included in a specific class using a fully convolutional network; Prepare,
The method includes:
using the first processing means to calculate the likelihood of the learning array data;
performing a learning process of the fully convolutional network using information obtained in the process of calculating the likelihood by the first processing means as training data;
A method, comprising:
(項目20)
コンピュータを、項目1から18のいずれか1項目に記載の情報処理装置として機能させるためのプログラム。
(Item 20)
A program for causing a computer to function as the information processing device according to any one of items 1 to 18.
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。 The invention is not limited to the embodiments described above, and various changes and modifications can be made without departing from the spirit and scope of the invention. Therefore, the following claims are hereby appended to disclose the scope of the invention.
101:第1の処理部、102:第2の処理部、103:学習部、304:確認部 101: First processing unit, 102: Second processing unit, 103: Learning unit, 304: Confirmation unit
Claims (20)
前記第1の処理手段とは異なる処理を行う第2の処理手段であって、完全畳み込みネットワークを用いて、配列データが特定のクラスに含まれる尤度を算出する第2の処理手段と、
学習用の配列データについての前記尤度を前記第1の処理手段が算出する処理の過程で得られた情報を教師データとして用いて、前記完全畳み込みネットワークの学習処理を行う学習手段と、
を備えることを特徴とする情報処理装置。 a first processing means for calculating the likelihood that the array data is included in a specific class;
a second processing means that performs processing different from the first processing means, the second processing means calculating the likelihood that the array data is included in a specific class using a fully convolutional network;
Learning means for performing learning processing for the fully convolutional network using information obtained in the process in which the first processing means calculates the likelihood for the learning array data as teacher data;
An information processing device comprising:
前記第2の処理手段には、前記所定サイズ以上の配列データが入力されることを特徴とする、請求項1に記載の情報処理装置。 Array data of a predetermined size is input to the first processing means,
2. The information processing apparatus according to claim 1, wherein array data of the predetermined size or more is input to the second processing means.
前記複数の配列データのそれぞれは、前記所定サイズよりも大きい学習用の第3の配列データの一部であり、
前記学習手段は、前記第1の処理手段が算出した尤度を含む尤度マップと、前記第3の配列データについて前記第2の処理手段が算出した尤度マップと、の差分が少なくなるように前記完全畳み込みネットワークの学習処理を行うことを特徴とする、請求項4に記載の情報処理装置。 The first processing means calculates the likelihood that each of the plurality of array data is included in a specific class,
Each of the plurality of array data is a part of third array data for learning that is larger than the predetermined size,
The learning means is configured to reduce the difference between a likelihood map including the likelihood calculated by the first processing means and a likelihood map calculated by the second processing means for the third array data. 5. The information processing apparatus according to claim 4, wherein learning processing of the fully convolutional network is performed.
前記複数の配列データは、前記画像の異なる位置からの、前記画像よりも小さいサンプリング画像であり、
前記第1の処理手段が算出した尤度を含む尤度マップは、前記サンプリング画像のサンプリング位置に、前記サンプリング画像について前記第1の処理手段が算出した前記尤度が配置された構造を有することを特徴とする、請求項6に記載の情報処理装置。 the third array data is an image;
The plurality of array data are sampled images smaller than the image from different positions of the image,
The likelihood map including the likelihood calculated by the first processing means has a structure in which the likelihood calculated by the first processing means for the sampling image is placed at the sampling position of the sampling image. The information processing device according to claim 6, characterized in that:
前記第2の処理手段は、複数のクラスのそれぞれについて配列データが前記クラスに含まれる尤度を算出することを特徴とする、請求項4に記載の情報処理装置。 The first processing means calculates the likelihood that the array data is included in the class for each of the plurality of classes;
5. The information processing apparatus according to claim 4, wherein the second processing means calculates, for each of a plurality of classes, the likelihood that the array data is included in the class.
前記学習手段は、前記尤度マップに基づいて前記追加学習用の配列データから追加学習用の部分配列データを抽出し、抽出された前記部分配列データを用いて前記第1の処理手段の追加学習を行うことを特徴とする、請求項1に記載の情報処理装置。 The second processing means specifies each of the partial sequence data included in the sequence data for additional learning by inputting the sequence data for additional learning into the fully convolutional network after learning by the learning means. Generate a likelihood map showing the likelihood of being included in the class of
The learning means extracts partial sequence data for additional learning from the sequence data for additional learning based on the likelihood map, and performs additional learning of the first processing means using the extracted partial sequence data. The information processing apparatus according to claim 1, wherein the information processing apparatus performs the following.
前記情報処理装置は、
配列データが特定のクラスに含まれる尤度を算出する第1の処理手段と、
前記第1の処理手段とは異なる処理を行う第2の処理手段であって、完全畳み込みネットワークを用いて、配列データが特定のクラスに含まれる尤度を算出する第2の処理手段と、を備え、
前記方法は、
前記第1の処理手段を用いて、学習用の配列データについての前記尤度を算出する処理を行う工程と、
前記第1の処理手段が前記尤度を算出する処理の過程で得られた情報を教師データとして用いて、前記完全畳み込みネットワークの学習処理を行う工程と、
を含むことを特徴とする、方法。 A method for an information processing device to produce a fully convolutional network with learned parameters, the method comprising:
The information processing device includes:
a first processing means for calculating the likelihood that the array data is included in a specific class;
a second processing means that performs processing different from the first processing means, the second processing means calculating the likelihood that the array data is included in a specific class using a fully convolutional network; Prepare,
The method includes:
using the first processing means to calculate the likelihood of the learning array data;
performing a learning process of the fully convolutional network using information obtained in the process of calculating the likelihood by the first processing means as training data;
A method, comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022128999A JP2024025499A (en) | 2022-08-12 | 2022-08-12 | Information processing device, complete convolutional network producing method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022128999A JP2024025499A (en) | 2022-08-12 | 2022-08-12 | Information processing device, complete convolutional network producing method and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024025499A true JP2024025499A (en) | 2024-02-26 |
Family
ID=90010942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022128999A Pending JP2024025499A (en) | 2022-08-12 | 2022-08-12 | Information processing device, complete convolutional network producing method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2024025499A (en) |
-
2022
- 2022-08-12 JP JP2022128999A patent/JP2024025499A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6843086B2 (en) | Image processing systems, methods for performing multi-label semantic edge detection in images, and non-temporary computer-readable storage media | |
CN109478239B (en) | Method for detecting object in image and object detection system | |
CN110659582A (en) | Image conversion model training method, heterogeneous face recognition method, device and equipment | |
CN109118473B (en) | Angular point detection method based on neural network, storage medium and image processing system | |
CN107784288B (en) | Iterative positioning type face detection method based on deep neural network | |
CN112529015A (en) | Three-dimensional point cloud processing method, device and equipment based on geometric unwrapping | |
CN111310622A (en) | Fish swarm target identification method for intelligent operation of underwater robot | |
JP2019194821A (en) | Target recognition device, target recognition method, and program | |
KR102313215B1 (en) | Apparatus and method for defect classification using feature generation based on machine-learning | |
US20220114724A1 (en) | Image processing model generation method, image processing method and device, and electronic device | |
CN113221956B (en) | Target identification method and device based on improved multi-scale depth model | |
CN114529516A (en) | Pulmonary nodule detection and classification method based on multi-attention and multi-task feature fusion | |
CN113592807A (en) | Training method, image quality determination method and device, and electronic equipment | |
CN111144425B (en) | Method and device for detecting shot screen picture, electronic equipment and storage medium | |
CN115880495A (en) | Ship image target detection method and system under complex environment | |
US20230104839A1 (en) | Partial planar point cloud matching using machine learning with applications in biometric systems | |
US11915419B1 (en) | Auto-normalization for machine learning | |
CN117131348B (en) | Data quality analysis method and system based on differential convolution characteristics | |
CN117710295A (en) | Image processing method, device, apparatus, medium, and program product | |
CN113657214B (en) | Building damage assessment method based on Mask RCNN | |
JP2024025499A (en) | Information processing device, complete convolutional network producing method and program | |
CN111488882B (en) | High-precision image semantic segmentation method for industrial part measurement | |
CN114842506A (en) | Human body posture estimation method and system | |
CN113781475A (en) | Method and system for detecting human body target with remarkable thermal infrared image | |
Krishnaveni et al. | An assertive framework for automatic tamil sign language recognition system using computational intelligence |