JP7054603B2 - Judgment device, judgment method, and judgment program - Google Patents
Judgment device, judgment method, and judgment program Download PDFInfo
- Publication number
- JP7054603B2 JP7054603B2 JP2016152924A JP2016152924A JP7054603B2 JP 7054603 B2 JP7054603 B2 JP 7054603B2 JP 2016152924 A JP2016152924 A JP 2016152924A JP 2016152924 A JP2016152924 A JP 2016152924A JP 7054603 B2 JP7054603 B2 JP 7054603B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- feature information
- determination device
- determination
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 82
- 230000008569 process Effects 0.000 claims description 47
- 238000013528 artificial neural network Methods 0.000 claims description 35
- 238000004364 calculation method Methods 0.000 claims description 33
- 238000012545 processing Methods 0.000 claims description 21
- 238000011176 pooling Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 description 28
- 238000010586 diagram Methods 0.000 description 15
- 238000013527 convolutional neural network Methods 0.000 description 12
- 230000010365 information processing Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 101100444028 Drosophila melanogaster Dso2 gene Proteins 0.000 description 5
- 101000821981 Homo sapiens Sarcoma antigen 1 Proteins 0.000 description 3
- 102100021466 Sarcoma antigen 1 Human genes 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 101100028092 Drosophila melanogaster Or22a gene Proteins 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 101100202463 Schizophyllum commune SC14 gene Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000000946 synaptic effect Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Description
本発明は、判定装置、判定方法、及び判定プログラムに関する。 The present invention relates to a determination device, a determination method, and a determination program.
従来、ニューラルネットワークによる画像の特徴抽出に関する技術が提供されている。例えば、畳み込みニューラルネットワーク(Convolutional Neural Network)により、画像の顕著性マップを生成する技術が提供されている。また、ニューラルネットワークにより、画像に含まれる所定の対象を識別する技術が提供されている。 Conventionally, a technique for extracting image features by a neural network has been provided. For example, a convolutional neural network provides a technique for generating an image saliency map. Further, a neural network provides a technique for identifying a predetermined object included in an image.
しかしながら、上記の従来技術では画像に含まれる対象の数が適切に判定されるとは限らない。例えば、画像に含まれる所定の対象を識別するのみでは、画像に含まれる対象の数を適切に判定できるとは限らない。 However, in the above-mentioned conventional technique, the number of objects included in the image is not always properly determined. For example, it is not always possible to appropriately determine the number of objects included in an image simply by identifying a predetermined object included in the image.
本願は、上記に鑑みてなされたものであって、ニューラルネットワークにおける情報を用いて画像に含まれる対象の数を適切に判定する判定装置、判定方法、及び判定プログラムを提供することを目的とする。 The present application has been made in view of the above, and an object thereof is to provide a determination device, a determination method, and a determination program for appropriately determining the number of objects included in an image by using information in a neural network. ..
本願に係る判定装置は、画像中の対象の数を識別するニューラルネットワークに入力された入力画像に基づく複数の特徴情報であって、前記ニューラルネットワークが識別する各数に対応する複数の特徴情報を取得する取得部と、前記取得部により取得された前記複数の特徴情報に基づいて、前記入力画像に含まれる前記対象の数を判定する判定部と、を備えたことを特徴とする。 The determination device according to the present application is a plurality of feature information based on an input image input to a neural network that identifies the number of objects in an image, and a plurality of feature information corresponding to each number identified by the neural network. It is characterized by including an acquisition unit to be acquired and a determination unit for determining the number of objects included in the input image based on the plurality of feature information acquired by the acquisition unit.
実施形態の一態様によれば、ニューラルネットワークにおける情報を用いて画像に含まれる対象の数を適切に判定することができるという効果を奏する。 According to one aspect of the embodiment, there is an effect that the number of objects included in the image can be appropriately determined by using the information in the neural network.
以下に、本願に係る判定装置、判定方法、及び判定プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る判定装置、判定方法、及び判定プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。 Hereinafter, a determination device according to the present application, a determination method, and an embodiment for implementing the determination program (hereinafter referred to as “embodiment”) will be described in detail with reference to the drawings. It should be noted that this embodiment does not limit the determination device, determination method, and determination program according to the present application. Further, in each of the following embodiments, the same parts are designated by the same reference numerals, and duplicate description is omitted.
(実施形態)
〔1.判定処理〕
図1を用いて、実施形態に係る判定処理の一例について説明する。図1は、実施形態に係る判定処理の一例を示す図である。図1に示す判定装置100は、画像に含まれる対象の数を認識する学習器LEから取得した各数に対応する特徴情報を用いて画像に含まれる対象の数を判定する。具体的には、判定装置100は、学習器LEから取得した各数に対応する特徴情報ごとにスコアを算出し、スコアに基づいて画像に含まれる対象の数を判定する。図1に示す学習器LEは、画像に含まれる対象の数が0個、1個、2個、3個、または4個以上の5つの種別(クラス)のいずれに分類されるかを識別する。この場合、学習器LEは、画像を5つのクラス(数)に分類する。
(Embodiment)
[1. Determination process〕
An example of the determination process according to the embodiment will be described with reference to FIG. FIG. 1 is a diagram showing an example of a determination process according to an embodiment. The
図1に示す例において、画像に含まれる対象の数を認識する学習器LEについては、非特許文献1に示すようなNIN(Network In Network)での個数の検出等の種々の従来技術を適宜用いて生成された学習器であってもよい。例えば、図1中の学習器LEは、畳み込みニューラルネットワーク(Convolutional Neural Network)の全結合層を畳み込み層に置き換えた学習器であってもよい。以下では、畳み込みニューラルネットワークをCNNと記載する場合がある。例えば、図1中の学習器LEは、全結合層を含まないCNN、すなわちFCN(Fully Convolutional Neuralnetwork)であってもよい。例えば、通常のCNNにおいては全結合層を通すことで画像の空間的な情報が失われる。一方、FCNでは全結合層を畳み込み層に置き換えることで空間的な情報(「receptive field」ともいう)を維持した推定が可能となる。なお、図1中の学習器LEは、各クラス(数)に対応する特徴情報を取得可能であれば、どのような学習器であってもよい。例えば、図1中の学習器LEは、NINに対象の数を識別する学習を行わせたものであってもよい。
In the example shown in FIG. 1, for the learner LE that recognizes the number of objects included in the image, various conventional techniques such as detection of the number by NIN (Network In Network) as shown in Non-Patent
また、図1中の学習器LEは、画像に含まれる人の顔の数を識別する。例えば、図1中の学習器LEは、画像に含まれる人の顔の数に応じて、画像を複数のクラス(数)に分類する。例えば、図1中の学習器LEは、画像に含まれる人の顔の数に応じて、各数に対応する各クラスに画像を分類する。また、図1に示す例においては、数を判定する対象が人の顔である場合を示すが、対象は、人の顔に限らず、犬や猫等の他の生物や植物や車等の種々の物体等であってもよい。また、ここでいう対象は、識別可能であれば種々の対象が含まれてもよく、例えば火や海の波など種々の現象等が含まれてもよい。 Further, the learning device LE in FIG. 1 identifies the number of human faces included in the image. For example, the learner LE in FIG. 1 classifies an image into a plurality of classes (numbers) according to the number of human faces included in the image. For example, the learner LE in FIG. 1 classifies images into classes corresponding to each number according to the number of human faces included in the image. Further, in the example shown in FIG. 1, a case where the target for determining the number is a human face is shown, but the target is not limited to the human face, but other organisms such as dogs and cats, plants, cars, and the like. It may be various objects or the like. Further, the object referred to here may include various objects as long as it can be identified, and may include various phenomena such as fire and sea waves.
上述のように、図1では、判定装置100は、画像に含まれる人の顔の数に関する情報を出力する識別器(モデル)である学習器LEを用いる。図1の例では、判定装置100は、後述する所定の学習処理により生成済みの学習器LEを用いるものとする。なお、判定装置100は、所定の対象の数を判定可能であれば、どのような学習器を用いてもよい。また、学習器LEを生成(学習)する際には、所定の損失関数や正解情報等を用いるが詳細は後述する。
As described above, in FIG. 1, the
ここから、図1を用いて、判定装置100による画像に含まれる対象の数の判定処理について説明する。図1に示すように、判定装置100には、画像IM11が入力される(ステップS10)。例えば、判定装置100は、対象として5人の人、すなわち5つの顔が写った画像IM11を取得する。画像IM11を取得した判定装置100は、所定の学習器に画像IM11を入力する(ステップS11)。例えば、図1では、判定装置100は、画像に含まれる対象の数を識別する識別器(モデル)である学習器LEに画像IM11を入力する。
From here, with reference to FIG. 1, the determination process of the number of objects included in the image by the
例えば、画像IM11が入力された学習器LEは、画像IM11に含まれる対象の数を識別する処理を行う。例えば、学習器LEは、対象の数を識別する処理を行う過程において、各クラス(数)に対応する特徴情報を生成する。図1の例では、0個、1個、2個、3個、または4個以上の5つの人の顔の数(クラス)に対応する特徴情報が、学習器LEにより生成される。 For example, the learner LE to which the image IM 11 is input performs a process of identifying the number of objects included in the image IM 11. For example, the learner LE generates feature information corresponding to each class (number) in the process of identifying the number of objects. In the example of FIG. 1, feature information corresponding to the number (class) of five faces of 0, 1, 2, 3, or 4 or more is generated by the learner LE.
そこで、判定装置100は、学習器LEによる画像に含まれる人の顔の数を識別する処理の過程で生成される各特徴情報を取得する。図1の例では、判定装置100は、学習器LEから人の顔の数が0個であるクラスに対応する特徴情報FM10を取得する(ステップS12-0)。
Therefore, the
例えば、特徴情報FM10は、画像IM11における各画素の特徴量を示す。なお、ここでいう特徴量は、例えば、特徴量を示す数値である。具体的には、特徴情報FM10を構成する各点(画素)の位置は、画像IM11に重畳させた場合に画像IM11において重なる位置に対応し、特徴情報FM10は、画像IM11において対応する画素の特徴量を示す。なお、図1中の特徴情報FM10では、特徴を示す領域を色が濃い態様で示す。すなわち、特徴情報FM10では、特徴量が大きいほど色が濃い態様で表示される。具体的には、図1中の特徴情報FM10では、画像IM11において人の顔が位置する領域が色の濃い態様で示される。なお、他の特徴情報についても同様である。 For example, the feature information FM10 indicates the feature amount of each pixel in the image IM11. The feature amount referred to here is, for example, a numerical value indicating the feature amount. Specifically, the positions of the points (pixels) constituting the feature information FM10 correspond to the overlapping positions in the image IM11 when superimposed on the image IM11, and the feature information FM10 corresponds to the characteristics of the corresponding pixels in the image IM11. Indicates the amount. In the feature information FM10 in FIG. 1, the region showing the feature is shown in a dark color mode. That is, in the feature information FM10, the larger the feature amount, the darker the color is displayed. Specifically, in the feature information FM10 in FIG. 1, the region where the human face is located is shown in the image IM11 in a dark mode. The same applies to other feature information.
また、図1の例では、判定装置100は、学習器LEから人の顔の数が1個であるクラスに対応する特徴情報FM11を取得する(ステップS12-1)。また、図1の例では、判定装置100は、学習器LEから人の顔の数が2個であるクラスに対応する特徴情報FM12を取得する(ステップS12-2)。また、図1の例では、判定装置100は、学習器LEから人の顔の数が3個であるクラスに対応する特徴情報FM13を取得する(ステップS12-3)。また、図1の例では、判定装置100は、学習器LEから人の顔の数が4個以上であるクラスに対応する特徴情報FM14を取得する(ステップS12-4)。このように、判定装置100は、学習器LEから、0個、1個、2個、3個、または4個以上の5つの顔の数(クラス)に対応する特徴情報FM10~FM14を取得する。なお、上記例では、説明を簡単にするために、1つの学習器LEから5つの特徴情報を取得する例を示したが、0個、1個、2個、3個、または4個以上の人の顔を各々識別する5つの学習器から各数に対応する特徴情報を取得してもよい。以下、ステップS12-0~S12-4を区別せずに説明する場合、ステップS12と記載する場合がある。
Further, in the example of FIG. 1, the
その後、判定装置100は、ステップS12において取得した特徴情報FM10~FM14の各々についてスコアを算出する。例えば、判定装置100は、特徴情報FM10~FM14の各々における特徴量の平均をスコアとして算出してもよい。また、判定装置100は、特徴情報FM10~FM14の各々における特徴量の平均に所定の係数を乗算した値をスコアとして算出してもよい。また、判定装置100は、特徴情報FM10~FM14の各々における特徴量の合計をスコアとして算出してもよい。また、判定装置100は、特徴情報FM10~FM14の各々における特徴量の合計に所定の係数を乗算した値をスコアとして算出してもよい。
After that, the
例えば、判定装置100は、特徴情報FM10における特徴量に基づいて、特徴情報FM10のスコアを算出する(ステップS13-0)。図1の例では、判定装置100は、スコア情報SC10に示すように、人の顔の数「0個」に対応するスコアを「0.12」と算出する。また、例えば、判定装置100は、特徴情報FM11における特徴量に基づいて、特徴情報FM11のスコアを算出する(ステップS13-1)。図1の例では、判定装置100は、スコア情報SC11に示すように、人の顔の数「1個」に対応するスコアを「0.01」と算出する。また、例えば、判定装置100は、特徴情報FM12における特徴量に基づいて、特徴情報FM12のスコアを算出する(ステップS13-2)。図1の例では、判定装置100は、スコア情報SC12に示すように、人の顔の数「2個」に対応するスコアを「0.03」と算出する。また、例えば、判定装置100は、特徴情報FM13における特徴量に基づいて、特徴情報FM13のスコアを算出する(ステップS13-3)。図1の例では、判定装置100は、スコア情報SC13に示すように、人の顔の数「3個」に対応するスコアを「0.06」と算出する。また、例えば、判定装置100は、特徴情報FM14における特徴量に基づいて、特徴情報FM14のスコアを算出する(ステップS13-4)。図1の例では、判定装置100は、スコア情報SC14に示すように、人の顔の数「4個以上」に対応するスコアを「0.75」と算出する。以下、ステップS13-0~S13-4を区別せずに説明する場合、ステップS13と記載する場合がある。
For example, the
その後、判定装置100は、画像IM11に含まれる人の顔の数を判定する(ステップS14)。図1の例では、判定装置100は、ステップS13において取得した各特徴情報FM10~FM14のスコアに基づいて、画像IM11に含まれる人の顔の数を判定する。例えば、判定装置100は、ステップS13において取得した各特徴情報FM10~FM14のスコアのうち、最大のスコアである特徴情報FM14に対応するクラス(数)を画像IM11に含まれる人の顔の数と判定する。具体的には、判定装置100は、数判定情報AN11に示すように、画像IM11に含まれる人の顔の数を4個以上と判定する。
After that, the
また、判定装置100は、画像IM11に含まれる人の顔の位置を判定する(ステップS15)。図1の例では、判定装置100は、最大のスコアである特徴情報FM14に基づいて画像IM11に含まれる人の顔の位置を判定する。例えば、判定装置100は、所定の閾値以上の特徴量が位置する領域に人の顔が含まれると判定する。図1の例では、判定装置100は、画像IM11において特徴情報FM14の領域AR11に対応する領域に人の顔が含まれると判定する。具体的には、判定装置100は、位置判定情報AP11に示すように、画像IM11に含まれる人の顔の位置を画像IM11の上部と判定する。なお、なお、学習器LEがFCNである場合、判定装置100は、特徴情報を用いずに人の顔の位置を推定してもよい。また、判定された人の顔の位置に基づく画像の加工については後述する。
Further, the
上述したように、判定装置100は、ニューラルネットワーク(図1ではFCN)における情報を用いて画像に含まれる対象の数を適切に判定する。図1では、判定装置100は、学習器LEから、0個、1個、2個、3個、または4個以上の5つの顔の数(クラス)に対応する特徴情報FM10~FM14を取得する。そして、判定装置100は、取得した特徴情報FM10~FM14の各々のスコアに基づいて、画像IM11に含まれる人の顔の数を判定する。これにより、判定装置100は、画像に含まれる対象の数を適切に判定することができる。そして、判定装置100は、判定した人の顔の数に対応する特徴情報FM14に基づいて、画像IM11に含まれる人の顔の位置を判定する。これにより、判定装置100は、画像に含まれる対象の位置を適切に判定することができる。
As described above, the
上述した例では、学習器LEが、画像に含まれる対象の数を0個、1個、2個、3個、または4個以上の5つの種別(クラス)のいずれかに分類する場合を示したが、学習器LEが分類するクラスは、上記に限らず、目的に応じて種々のクラスであってもよい。例えば、学習器LEが分類するクラスは、画像に含まれる対象の数が0~9個の各個数、または、10個以上であるかを識別する11のクラスであってもよい。また、例えば、学習器LEが分類するクラスは、5個未満、または5個以上であるかを識別する2つのクラスであってもよい。 In the above example, the learning device LE shows a case where the number of objects included in the image is classified into one of five types (classes) of 0, 1, 2, 3, or 4 or more. However, the classes classified by the learner LE are not limited to the above, and may be various classes depending on the purpose. For example, the class classified by the learner LE may be 11 classes for identifying whether the number of objects included in the image is 0 to 9 each, or 10 or more. Further, for example, the class classified by the learner LE may be two classes for identifying whether the number is less than 5, or 5 or more.
〔2.判定装置の構成〕
次に、図2を用いて、実施形態に係る判定装置100の構成について説明する。図2は、実施形態に係る判定装置100の構成例を示す図である。図2に示すように、判定装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、判定装置100は、判定装置100の管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
[2. Judgment device configuration]
Next, the configuration of the
(通信部110)
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部110は、ネットワークと有線または無線で接続され、例えば端末装置との間で情報の送受信を行う。
(Communication unit 110)
The communication unit 110 is realized by, for example, a NIC (Network Interface Card) or the like. Then, the communication unit 110 is connected to the network by wire or wirelessly, and transmits / receives information to / from, for example, a terminal device.
(記憶部120)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。実施形態に係る記憶部120は、図2に示すように、学習情報記憶部121と、画像情報記憶部122とを有する。
(Memory unit 120)
The storage unit 120 is realized by, for example, a semiconductor memory element such as a RAM (Random Access Memory) or a flash memory (Flash Memory), or a storage device such as a hard disk or an optical disk. As shown in FIG. 2, the storage unit 120 according to the embodiment has a learning
(学習情報記憶部121)
実施形態に係る学習情報記憶部121は、学習に関する各種情報を記憶する。例えば、図3では、学習情報記憶部121は、所定の学習処理により生成された学習器LEに関する学習情報(モデル)を記憶する。図3に、実施形態に係る学習情報記憶部121の一例を示す。図3に示す学習情報記憶部121は、「重み(wij)」を記憶する。
(Learning information storage unit 121)
The learning
例えば、図3に示す例において、「重み(w11)」は「0.2」であり、「重み(w12)」は「-0.3」であることを示す。また、図3に示す例において、「重み(w21)」は「0.5」であり、「重み(w22)」は「1.3」であることを示す。 For example, in the example shown in FIG. 3, it is shown that the “weight (w 11 )” is “0.2” and the “weight (w 12 )” is “−0.3”. Further, in the example shown in FIG. 3, it is shown that the “weight (w 21 )” is “0.5” and the “weight (w 22 )” is “1.3”.
なお、「重み(wij)」は、例えば、学習器LEにおけるニューロンyiからニューロンxjへのシナプス結合係数であってもよい。また、学習情報記憶部121は、上記に限らず、目的に応じて種々の情報を記憶してもよい。
The "weight ( wij )" may be, for example, a synaptic connection coefficient from the neuron y i to the neuron x j in the learner LE. Further, the learning
(画像情報記憶部122)
実施形態に係る画像情報記憶部122は、画像に関する各種情報を記憶する。図4に、実施形態に係る画像情報記憶部122の一例を示す。図4に示す画像情報記憶部122は、「画像ID」、「画像」といった項目を有する。
(Image information storage unit 122)
The image
「画像ID」は、画像を識別するための識別情報を示す。「画像」は、画像情報を示す。具体的には、「画像」は、学習器LEに入力した画像を示す。図4では、説明のため画像IDにより識別される画像を図示するが、「画像」としては、画像の格納場所を示すファイルパス名などが格納されてもよい。 The "image ID" indicates identification information for identifying an image. "Image" indicates image information. Specifically, the "image" indicates an image input to the learner LE. In FIG. 4, an image identified by an image ID is shown for explanation, but as the “image”, a file path name or the like indicating a storage location of the image may be stored.
なお、画像情報記憶部122は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、画像情報記憶部122は、画像を生成した日時に関する情報を記憶してもよい。また、例えば、画像情報記憶部122は、画像に含まれる対象に関する情報を記憶してもよい。図4では、画像ID「IM11」により識別される画像には、5つの人の顔が含まれることを示す情報を記憶してもよい。また、例えば、画像情報記憶部122は、取得した元となる画像を記憶してもよい。
The image
(制御部130)
図2の説明に戻って、制御部130は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、判定装置100内部の記憶装置に記憶されている各種プログラム(判定プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部130は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
(Control unit 130)
Returning to the description of FIG. 2, the control unit 130 is a controller, and is stored in a storage device inside the
図2に示すように、制御部130は、取得部131と、学習部132と、算出部133と、判定部134と、生成部135と、提供部136とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図2に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
As shown in FIG. 2, the control unit 130 includes an
(取得部131)
取得部131は、各種情報を取得する。取得部131は、画像を取得する。例えば、取得部131は、外部の情報処理装置から画像を取得する。図1では、取得部131は、外部の情報処理装置から画像IM11を取得する。また、取得部131は、画像情報記憶部122から画像(例えば、画像IM11)を取得してもよい。
(Acquisition unit 131)
The
また、取得部131は、画像中の対象の数を識別するニューラルネットワークに入力された入力画像に基づく複数の特徴情報であって、ニューラルネットワークが識別する各数に対応する複数の特徴情報を取得する。例えば、取得部131は、画像中の人の顔の数を識別するニューラルネットワークに入力された入力画像に基づく複数の特徴情報を取得する。また、例えば、取得部131は、畳み込み処理及びプーリング処理を行うニューラルネットワークが識別する各数に対応する複数の特徴情報を取得する。また、例えば、取得部131は、全結合層を含まないニューラルネットワークが識別する各数に対応する複数の特徴情報を取得する。また、例えば、取得部131は、FCNが識別する各数に対応する複数の特徴情報を取得する。
Further, the
図1の例では、取得部131は、学習器LEが識別する各数に対応する複数の特徴情報を取得する。例えば、取得部131は、学習器LEから0個、1個、2個、3個、または4個以上の5つの顔の数(クラス)に対応する特徴情報FM10~FM14を取得する。また、例えば、取得部131は、特徴情報FM10~FM14を外部の情報処理装置から取得してもよい。
In the example of FIG. 1, the
(学習部132)
学習部132は、種々の情報を学習する。また、学習部132は、学習により種々の情報を生成する。例えば、学習部132は、学習器(モデル)を学習する。言い換えると、学習部132は、学習を行うことにより学習器(モデル)を生成する。例えば、学習部132は、学習器LEを学習する。例えば、学習部132は、画像と当該画像に含まれる対象の数との組み合わせにより学習器を学習する。また、学習部132は、所定の評価関数を最小化するように学習器を学習する。なお、学習部132が行う学習処理の詳細は後述する。なお、判定装置100は、外部の情報処理装置から各数に対応する複数の特徴情報を取得する場合、学習部132を有しなくてもよい。
(Learning Department 132)
The
(算出部133)
算出部133は、各種情報を算出する。例えば、算出部133は、複数の特徴情報に基づいてスコアを算出する。例えば、算出部133は、各数(クラス)に対応する特徴情報に基づいて、各数に対応するスコアを算出する。
(Calculation unit 133)
The calculation unit 133 calculates various information. For example, the calculation unit 133 calculates the score based on a plurality of feature information. For example, the calculation unit 133 calculates the score corresponding to each number based on the feature information corresponding to each number (class).
図1の例では、算出部133は、特徴情報FM10~FM14の各々についてスコアを算出する。例えば、算出部133は、特徴情報FM10~FM14の各々における特徴量の平均をスコアとして算出する。例えば、算出部133は、特徴情報FM10における特徴量に基づいて、人の顔の数「0個」に対応するスコアを「0.12」と算出する。また、例えば、算出部133は、特徴情報FM11における特徴量に基づいて、人の顔の数「1個」に対応するスコアを「0.01」と算出する。また、例えば、算出部133は、特徴情報FM12における特徴量に基づいて、人の顔の数「2個」に対応するスコアを「0.03」と算出する。また、例えば、算出部133は、特徴情報FM13における特徴量に基づいて、人の顔の数「3個」に対応するスコアを「0.06」と算出する。また、例えば、算出部133は、特徴情報FM14における特徴量に基づいて、人の顔の数「4個以上」に対応するスコアを「0.75」と算出する。 In the example of FIG. 1, the calculation unit 133 calculates a score for each of the feature information FM10 to FM14. For example, the calculation unit 133 calculates the average of the feature amounts in each of the feature information FM10 to FM14 as a score. For example, the calculation unit 133 calculates the score corresponding to the number of human faces "0" as "0.12" based on the feature amount in the feature information FM10. Further, for example, the calculation unit 133 calculates the score corresponding to the number of human faces "1" as "0.01" based on the feature amount in the feature information FM11. Further, for example, the calculation unit 133 calculates the score corresponding to the number of human faces "2" as "0.03" based on the feature amount in the feature information FM12. Further, for example, the calculation unit 133 calculates the score corresponding to the number of human faces "3" as "0.06" based on the feature amount in the feature information FM13. Further, for example, the calculation unit 133 calculates the score corresponding to the number of human faces "4 or more" as "0.75" based on the feature amount in the feature information FM14.
(判定部134)
判定部134は、種々の情報を判定する。例えば、判定部134は、取得部131により取得された複数の特徴情報に基づいて、入力画像に含まれる対象の数を判定する。例えば、判定部134は、算出部133により算出されたスコアに基づいて、入力画像に含まれる対象の数を判定する。判定部134は、算出部133により算出された数に対応するスコアに基づいて、入力画像に含まれる対象の数を判定する。
(Judgment unit 134)
The determination unit 134 determines various information. For example, the determination unit 134 determines the number of objects included in the input image based on the plurality of feature information acquired by the
図1の例では、判定部134は、画像IM11に含まれる人の顔の数を判定する。例えば、判定部134は、各特徴情報FM10~FM14のスコアに基づいて、画像IM11に含まれる人の顔の数を判定する。例えば、判定部134は、各特徴情報FM10~FM14のスコアのうち、最大のスコアである特徴情報FM14に対応するクラス(数)を画像IM11に含まれる人の顔の数と判定する。例えば、判定部134は、画像IM11に含まれる人の顔の数を4個以上と判定する。 In the example of FIG. 1, the determination unit 134 determines the number of human faces included in the image IM 11. For example, the determination unit 134 determines the number of human faces included in the image IM 11 based on the scores of the feature information FM10 to FM14. For example, the determination unit 134 determines that the class (number) corresponding to the feature information FM14, which is the maximum score among the scores of the feature information FM10 to FM14, is the number of human faces included in the image IM11. For example, the determination unit 134 determines that the number of human faces included in the image IM 11 is 4 or more.
また、判定部134は、判定した対象の数に対応する特徴情報における特徴量に関する情報に基づいて、入力画像における対象の位置を判定する。判定部134は、画像IM11に含まれる人の顔の位置を判定する。図1の例では、判定部134は、最大のスコアである特徴情報FM14に基づいて画像IM11に含まれる人の顔の位置を判定する。例えば、判定部134は、所定の閾値以上の特徴量が位置する領域に人の顔が含まれると判定する。例えば、判定部134は、画像IM11において特徴情報FM14の領域AR11(図1参照)に対応する領域に人の顔が含まれると判定する。例えば、判定部134は、位置判定情報AP11に示すように、画像IM11に含まれる人の顔の位置を画像IM11の上部と判定する。 Further, the determination unit 134 determines the position of the target in the input image based on the information regarding the feature amount in the feature information corresponding to the number of the determined targets. The determination unit 134 determines the position of the human face included in the image IM 11. In the example of FIG. 1, the determination unit 134 determines the position of the human face included in the image IM 11 based on the feature information FM 14 which is the maximum score. For example, the determination unit 134 determines that the human face is included in the region where the feature amount equal to or higher than the predetermined threshold value is located. For example, the determination unit 134 determines that the human face is included in the region corresponding to the region AR11 (see FIG. 1) of the feature information FM14 in the image IM11. For example, as shown in the position determination information AP11, the determination unit 134 determines that the position of the human face included in the image IM11 is the upper part of the image IM11.
また、例えば、判定部134は、各特徴情報に含まれる複数の領域の各々の特徴量に関する情報に基づいて、入力画像に含まれる対象の位置を判定する。この場合についての詳細は後述する。 Further, for example, the determination unit 134 determines the position of the target included in the input image based on the information regarding the feature amount of each of the plurality of regions included in each feature information. Details of this case will be described later.
(生成部135)
生成部135は、各種情報を生成する。例えば、生成部135は、取得部131により取得された複数の特徴情報や判定部134により判定された対象の数や位置等に基づいて、画像を生成する。例えば、生成部135は、画像IM11をクロッピングすることにより、加工画像(以下、「クロッピング画像」ともいう)を生成する。なお、ここでいうクロッピングとは画像から所定の領域を切り取る処理をいう。また、生成部135がクロッピングにより生成した画像は、例えば所定のコンテンツの画像として配信されるが、詳細は後述する。なお、判定装置100が、画像中の対象の数や位置の判定のみを行う場合、生成部135を有しなくてもよい。
(Generator 135)
The
(提供部136)
提供部136は、外部の情報処理装置へ各種情報を提供(送信)する。例えば、提供部136は、生成部135により生成された加工画像を外部の情報処理装置へ提供する。また、提供部136は、加工画像IM12~IM14等(図6参照)を提供する。また、提供部136は、判定部134により判定された対象の数や位置に関する情報を外部の情報処理装置へ提供する。
(Providing Department 136)
The providing unit 136 provides (transmits) various information to an external information processing device. For example, the providing unit 136 provides the processed image generated by the generating
〔3.画像に含まれる対象の数の判定処理のフロー〕
ここで、図5を用いて、実施形態に係る判定装置100による画像に含まれる対象の数の判定処理の手順について説明する。図5は、実施形態に係る対象の数の判定の一例を示すフローチャートである。
[3. Flow of judgment processing of the number of objects included in the image]
Here, with reference to FIG. 5, a procedure for determining the number of objects included in the image by the
図5に示すように、判定装置100は、画像を取得する(ステップS101)。図1では、判定装置100は、画像IM11を取得する。その後、判定装置100は、ステップS101で取得した画像を学習器に入力する(ステップS102)。図1では、判定装置100は、取得した画像IM11を学習器LEに入力する。
As shown in FIG. 5, the
その後、判定装置100は、複数のクラス(数)の各々に対応する特徴情報を取得する(ステップS103)。図1では、判定装置100は、学習器LEから、0個、1個、2個、3個、または4個以上の5つの顔の数(クラス)に対応する特徴情報FM10~FM14を取得する。
After that, the
その後、判定装置100は、各クラス(数)に対応する特徴情報に基づいて、各クラス(数)に対応するスコアを算出する(ステップS104)。図1では、判定装置100は、特徴情報FM10~FM14の各々に基づいて、0個、1個、2個、3個、または4個以上の5つの顔の数(クラス)に対応するスコアを算出する。
After that, the
その後、判定装置100は、各クラス(数)に対応するスコアに基づいて、画像に含まれる対象の数を判定する(ステップS105)。図1では、判定装置100は、各特徴情報FM10~FM14のスコアに基づいて、画像IM11に含まれる人の顔の数を判定する。
After that, the
〔4.加工画像の生成〕
ここで、判定装置100による加工画像の生成について、図6を用いて説明する。図6は、実施形態に係る加工画像の生成例を示す図である。図6の例では、判定装置100の判定部134により判定された人の顔の位置に基づく画像のクロッピングの一例を示す。例えば、このような画像のクロッピングは、判定装置100の生成部135が行う。
[4. Generation of processed images]
Here, the generation of the processed image by the
なお、図6に示す画像IM11は、図1に示す画像IM11と同様であるものとする。すなわち、図6に示す画像IM11は、特徴情報FM14の領域AR11(図1参照)に対応する領域(以下、「特徴領域」ともいう)に人の顔が含まれると判定され、画像IM11に含まれる人の顔の位置を画像IM11の上部と判定されているものとする。 The image IM11 shown in FIG. 6 is assumed to be the same as the image IM11 shown in FIG. That is, the image IM11 shown in FIG. 6 is determined to include a human face in the region (hereinafter, also referred to as “feature region”) corresponding to the region AR11 (see FIG. 1) of the feature information FM14, and is included in the image IM11. It is assumed that the position of the face of the person is determined to be the upper part of the image IM11.
図6の例では、判定装置100が3種類のアスペクト比に応じた加工画像IM12~IM14を画像IM11から生成する場合を示す。例えば、判定装置100は、アスペクト比が「1:1」である場合、画像IM11をクロッピングすることにより、アスペクト比が「1:1」であり、画像IM11の特徴領域を含む加工画像IM12を生成する。また、例えば、判定装置100は、アスペクト比が「2:1」である場合、画像IM11をクロッピングすることにより、アスペクト比が「2:1」であり、画像IM11の特徴領域を含む加工画像IM13を生成する。また、例えば、判定装置100は、アスペクト比が「4:3」である場合、画像IM11をクロッピングすることにより、アスペクト比が「4:3」であり、画像IM11の特徴領域を含む加工画像IM14を生成する。このように、判定装置100は、種々のアスペクト比に応じた加工画像IM12~IM14等を生成することができる。例えば、判定装置100は、アスペクト比が指定された場合、その指定されたアスペクト比を満たす加工画像を画像IM11から生成してもよい。
In the example of FIG. 6, the case where the
なお、図6に示す各アスペクト比に対応する加工画像IM12~IM14は一例であり、判定装置100は、アスペクト比を満たせば、どのような加工画像が生成されてもよい。例えば、判定装置100は、アスペクト比が指定された場合、アスペクト比を満たす切取枠を拡縮したり、特徴情報FM14中を移動させたりすることにより、特徴情報FM14内において切取枠内の領域の特徴量の平均が最大となる領域をクロッピングすることにより、指定されたアスペクト比を満たす加工画像を生成してもよい。また、例えば、判定装置100は、画像IM11の特徴領域を含み、アスペクト比を満たせば、どのような加工画像を生成してもよい。
The processed images IM12 to IM14 corresponding to each aspect ratio shown in FIG. 6 are examples, and the
また、図6に示す例では、判定装置100により生成されたアスペクト比が「2:1」である加工画像IM13がユーザU1により利用される端末装置10に表示される場合を示す。図6に示す例では、端末装置10には、所定のコンテンツ配信装置から配信されたコンテンツCT11~CT14が表示される。なお、判定装置100がコンテンツを配信する場合、コンテンツCT11~CT14は判定装置100から端末装置10へ送信されてもよい。
Further, in the example shown in FIG. 6, a case where the processed
図6に示す例においては、コンテンツCT14の画像には加工画像IM13が用いられる。このように、加工画像IM13は、端末装置10においてスクロール方向に並べて表示されるコンテンツの画像として用いられてもよい。このように、判定装置100により生成された加工画像IM13は、スマートフォン等の種々の端末装置10において表示される。上述したように、判定装置100は、種々のアスペクト比に応じて加工画像を生成できるため、端末装置10の種別を問わず、適切な加工画像を生成することができる。
In the example shown in FIG. 6, the processed image IM13 is used for the image of the content CT14. As described above, the processed
〔5.画像の加工処理のフロー〕
次に、図7を用いて、実施形態に係る判定装置100による画像の加工処理の手順について説明する。図7は、実施形態に係る加工画像の生成の一例を示すフローチャートである。
[5. Image processing flow]
Next, the procedure of image processing by the
図7に示すように、判定装置100は、画像と、画像中の対象の数に対応する特徴情報を取得する(ステップS201)。図1では、判定装置100は、画像IM11と画像IM11中の対象の数(4個以上)に対応する特徴情報FM14を取得する。
As shown in FIG. 7, the
その後、判定装置100は、アスペクト比を取得する(ステップS202)。例えば、判定装置100は、アスペクト比「2:1」を取得する。その後、判定装置100は、アスペクト比と特徴情報に基づいて、画像中の対象を含むようにクロッピング画像を生成する(ステップS203)。例えば、判定装置100は、アスペクト比「2:1」と特徴情報FM14に基づいて、画像IM11の特徴領域を含む加工画像IM13を生成する。
After that, the
〔6.学習処理〕
ここで、判定装置100の学習部132における学習処理について、図8及び図9を用いて説明する。図8及び図9は、実施形態に係る学習処理の一例を示す図である。
[6. Learning process]
Here, the learning process in the
まず、判定装置100が用いる学習器LEについて簡単に説明する。判定装置100が用いる学習器LEは、例えば、入力されたデータに対する演算結果を出力する複数のノードを多層に接続した学習器であって、教師あり学習により抽象化された画像の特徴を学習された学習器である。例えば、学習器LEは、複数のノードを有する層を多段に接続したニューラルネットワークであり、いわゆるディープラーニングの技術により実現されるDNN(Deep Neural Network)であってもよい。また、画像の特徴とは、画像に含まれる文字の有無、色、構成等、画像内に現れる具体的な特徴のみならず、撮像されている物体が何であるか、画像がどのような利用者に好かれるか、画像の雰囲気等、抽象化(メタ化)された画像の特徴をも含む概念であってもよい。
First, the learning device LE used by the
例えば、学習器LEは、ディープラーニングの技術により、以下のような学習手法により生成される。例えば、学習器は、各ノードの間の接続係数が初期化され、様々な特徴を有する画像が入力される。そして、学習器は、学習器における出力と、入力した画像との誤差が少なくなるようにパラメータ(接続係数)を補正するバックプロパゲーション(誤差逆伝播法)等の処理により生成される。例えば、学習器は、誤差関数等、所定の損失(ロス)関数を最小化するようにバックプロパゲーション等の処理を行うことにより生成される。上述のような処理を繰り返すことで、学習器は、入力された画像をより良く再現できる出力、すなわち入力された画像の特徴を出力することができる。 For example, the learning device LE is generated by the following learning method by the technique of deep learning. For example, in the learner, the connection coefficient between each node is initialized, and an image having various characteristics is input. Then, the learner is generated by processing such as backpropagation (error back propagation method) that corrects a parameter (connection coefficient) so that an error between the output in the learner and the input image is reduced. For example, the learner is generated by performing processing such as backpropagation so as to minimize a predetermined loss function such as an error function. By repeating the process as described above, the learner can output an output that can better reproduce the input image, that is, a feature of the input image.
なお、学習器の学習手法については、上述した手法に限定されるものではなく、任意の公知技術が適用可能である。また、学習器の学習を行う際に用いられる情報は、画像及びその画像に含まれる対象の数等の種々の画像のデータセットを利用してもよい。学習器の学習を行う際に用いられる情報は、対象が1つ含まれる画像及び対象が1つであることを示す情報のセットや、対象が複数(例えば2つ)含まれる画像及び対象が複数(例えば2つ)であることを示す情報のセットや、対象が含まれない画像及び対象が含まれない(0である)ことを示す情報のセット等を利用してもよい。また、学習器に対する画像の入力方法、学習器が出力するデータの形式、学習器に対して明示的に学習させる特徴の内容等は、任意の手法が適用できる。すなわち、判定装置100は、画像から抽象化された特徴を示す特徴量を算出できるのであれば、任意の学習器を用いることができる。
The learning method of the learning device is not limited to the above-mentioned method, and any known technique can be applied. Further, as the information used when learning the learner, data sets of various images such as an image and the number of objects included in the image may be used. The information used when learning the learner includes an image containing one target and a set of information indicating that the target is one, and an image containing a plurality of targets (for example, two) and a plurality of targets. You may use a set of information indicating that (for example, two), an image that does not include the target, a set of information that indicates that the target is not included (0), and the like. In addition, any method can be applied to the method of inputting an image to the learning device, the format of the data output by the learning device, the content of the feature to be explicitly learned by the learning device, and the like. That is, the
図1では、判定装置100は、入力画像の局所領域の畳み込みとプーリングとを繰り返す、いわゆる畳み込みニューラルネットワーク(CNN)による学習器LEを用いるものとする。例えば、CNNによる学習器LEは、画像から特徴を抽出して出力する機能に加え、画像内に含まれる文字や撮像対象等の位置的変異に対し、出力の不変性を有する。このため、学習器LEは、画像の抽象化された特徴を精度良く算出することができる。
In FIG. 1, the
まず、図8を用いて説明する。図8に示す例は、判定装置100は、2個の人の顔を含む画像IM21と画像IM21に含まれる顔の数を示す情報RO21(以下、「正解情報RO21」と記載する場合がある)との組み合わせを教師データとして取得する(ステップS21)。図8では、正解情報RO21は、画像IM21に含まれる顔の数が2個であることを示す情報を含む。具体的には、正解情報RO21は、画像IM21に含まれる顔の数が2個であるため、画像IM21に含まれる顔の数が2個である確率が「1(100%)」であることを示す情報を含む。
First, it will be described with reference to FIG. In the example shown in FIG. 8, the
そして、学習器LEには、2個の人の顔を含む画像IM21が入力される(ステップS22)。その後、出力情報OC21-1に示すような対象の各数の確率を示す情報が学習器LEから出力される(ステップS23)。図8では、画像IM21に含まれる顔の数が0個である確率が「0.05(5%)」であり、1個である確率が「0.3(30%)」であり、2個である確率が「0.5(50%)」であり、3個である確率が「0.1(10%)」であり、4個以上である確率が「0.05(5%)」であることを示す出力情報OC21-1が、学習器LEから出力される。 Then, an image IM21 including the faces of two people is input to the learner LE (step S22). After that, information indicating the probability of each number of objects as shown in the output information OC21-1 is output from the learner LE (step S23). In FIG. 8, the probability that the number of faces included in the image IM21 is 0 is “0.05 (5%)”, the probability that the number is 1 is “0.3 (30%)”, and 2 The probability of having 3 pieces is "0.5 (50%)", the probability of having 3 pieces is "0.1 (10%)", and the probability of having 4 or more pieces is "0.05 (5%)". The output information OC21-1 indicating that the above is output from the learner LE.
上述したように、例えば、学習部132は、ディープラーニングの技術により、学習器LEを学習し、生成する。例えば、学習部132は、画像と当該画像中における所定の対象の数との組み合わせを教師データとして用いる。例えば、学習部132は、学習器LEにおける出力と、教師データに含まれる所定の対象の各数の確率との誤差が少なくなるようにパラメータ(接続係数)を補正するバックプロパゲーション(誤差逆伝播法)等の処理を行うことにより、学習器LEを学習する。例えば、学習部132は、所定の誤差(ロス)関数を最小化するようにバックプロパゲーション等の処理を行うことにより学習器LEを生成する。
As described above, for example, the
例えば、学習部132は、下記の式(1)に示すような、誤差関数Lを用いる。下記の式(1)に示すように、学習部132は、例えば、N-クラス分類問題の場合、交差エントロピーを誤差関数として用いる。なお、誤差関数Lは、識別結果の確信度を表すものであれば、どのような関数であっても良い。例えば、誤差関数Lは、識別確率から求められるエントロピーであってもよい。また、例えば、誤差関数Lは、学習器LEの認識の精度を示すものであれば、どのような関数であってもよい。
For example, the
ここで、上記式(1)や下記の式(2)~(3)中の「x」は画像を示す。例えば、図8に示す例において、上記式(1)や下記の式(2)~(3)中の「x」は、画像IM21に対応する。また、変数「n」に代入される0~Nは、学習器LEが識別(分類)する各クラスに対応する。例えば、上記式(1)に対応する学習器LEは、N個のクラスを識別することを示す。例えば、各クラスには、対象の数を示す「1個」や「2個」等が各々対応する。 Here, "x" in the above formula (1) and the following formulas (2) to (3) indicates an image. For example, in the example shown in FIG. 8, "x" in the above formula (1) and the following formulas (2) to (3) corresponds to the image IM21. Further, 0 to N assigned to the variable "n" correspond to each class identified (classified) by the learner LE. For example, the learner LE corresponding to the above equation (1) indicates that N classes are identified. For example, each class corresponds to "1", "2", etc., which indicate the number of objects.
また、上記式(1)や下記の式(3)中の「tn(x)」は、画像IM21におけるクラスn(0~Nのいずれか)に対応する対象の数の確率を示す。例えば、上記式(1)中の「tn(x)」は、正解情報RO21に示すような、クラスnに対応する対象の数の確率を示す。この場合、例えば、クラス0に対応する対象の数を「0個」とした場合、「t0(x)」は、「0(0%)」となる。また、例えば、クラス2に対応する対象の数を「2個」とした場合、「t2(x)」は、「1(100%)」となる。
Further, "t n (x)" in the above equation (1) and the following equation (3) indicates the probability of the number of objects corresponding to the class n (any of 0 to N) in the image IM21. For example, "t n (x)" in the above equation (1) indicates the probability of the number of objects corresponding to the class n as shown in the correct answer information RO21. In this case, for example, when the number of objects corresponding to
また、上記式(1)や下記の式(2)、(3)中の「pn(x)」は、画像IM21におけるクラスn(0~Nのいずれか)に対応する対象の数について、学習器LEの出力に基づく確率を示す。例えば、上記式(1)中の「pn(x)」は、出力情報OC21-1に示すような、学習器LEが出力するクラスnに対応する対象の数の確率を示す。この場合、例えば、クラス1に対応する対象の数を「1個」とした場合、「p1(x)」は、「0.3(30%)」となる。
Further, " pn (x)" in the above equation (1) and the following equations (2) and (3) is the number of objects corresponding to the class n (any of 0 to N) in the image IM21. The probability based on the output of the learner LE is shown. For example, " pn (x)" in the above equation (1) indicates the probability of the number of objects corresponding to the class n output by the learner LE as shown in the output information OC21-1. In this case, for example, when the number of objects corresponding to
また、上記式(1)中の「pn(x)」は、xに対するクラスnの確率で以下の式(2)に示すようなSoftmax関数で定義される。 Further, " pn (x)" in the above equation (1) is defined by the Softmax function as shown in the following equation (2) with a probability of class n with respect to x.
上記式(2)の関数「fn」は、CNN(学習器LE)が出力するクラスnのスコアである。「θ」は、CNN(学習器LE)のパラメータである。また、関数「exp」は、指数関数(exponential function)である。この場合、上記式(1)に示す誤差関数L(1)の勾配は、下記の式(3)により算出される。 The function "f n " in the above equation (2) is a score of the class n output by the CNN (learner LE). "Θ" is a parameter of CNN (learner LE). Further, the function "exp" is an exponential function. In this case, the gradient of the error function L (1) shown in the above equation (1) is calculated by the following equation (3).
上記式(3)に示すように、1~Nまでの全クラスにおいて、pn(x)=tn(x)である場合、誤差関数L(x)の勾配は0になり極値になる。例えば、学習部132は、誤差関数L(x)の勾配が0になるように、フィードバック処理を行う(ステップS24)。例えば、学習部132が上述のような処理を繰り返すことにより、学習器LEは、入力された画像における対象の数に関する情報を適切に出力することができる。なお、図8は、学習器LEの出力を正解情報RO21に近づけるために、誤差関数L等を最小化するように処理を繰り返すことを視覚的に示すためのものであり、学習器LE内において自動で行われてもよい。
As shown in the above equation (3), when pn (x) = t n (x) in all the classes from 1 to N, the gradient of the error function L (x) becomes 0 and becomes an extreme value. .. For example, the
次に、図9を用いて説明する。図9の例では、判定装置100が全体を含む2個の人の顔と、半分を含む1個の人の顔を含む画像IM31を教師データとして用いる場合を示す。すなわち、図9の例では、判定装置100は、2.5個の人の顔を含む画像IM31を教師データとして用いる。
Next, it will be described with reference to FIG. In the example of FIG. 9, a case where the
上述のように、図9の例では、判定装置100は、2.5個の人の顔を含む画像IM31と画像IM31に含まれる顔の数を示す情報RO31(以下、「正解情報RO31」と記載する場合がある)との組み合わせを教師データとして取得する(ステップS31)。図8では、正解情報RO31は、画像IM31に含まれる顔の数が2.5個であることを示す情報を含む。具体的には、正解情報RO31は、画像IM31に含まれる顔の数が2.5個であるため、画像IM31に含まれる顔の数が2個である確率が「0.5(50%)」であり、画像IM31に含まれる顔の数が3個である確率が「0.5(50%)」であることを示す情報を含む。
As described above, in the example of FIG. 9, the
例えば、上述した正解情報RO31に示すような、画像IM31に含まれる顔の数が2個である確率が「0.5(50%)」であり、画像IM31に含まれる顔の数が3個である確率が「0.5(50%)」であることを示す情報は、「2.5(個)=2(個)×0.5+3(個)×0.5」を満たす。このように、学習を行った場合、判定装置100は、人の顔が部分的に含まれる場合であっても、各数に対応するクラスの確率と各数とを用いて、画像に含まれる対象の数を適切に推定することができる。
For example, as shown in the above-mentioned correct answer information RO31, the probability that the number of faces included in the image IM31 is 2 is "0.5 (50%)", and the number of faces included in the image IM31 is 3. The information indicating that the probability of being "0.5 (50%)" satisfies "2.5 (pieces) = 2 (pieces) x 0.5 + 3 (pieces) x 0.5". In this way, when learning is performed, the
そして、学習器LEには、2個の人の顔を含む画像IM31が入力される(ステップS32)。その後、出力情報OC31-1に示すような対象の各数の確率を示す情報が学習器LEから出力される(ステップS33)。図9では、画像IM31に含まれる顔の数が0個である確率が「0(0%)」であり、1個である確率が「0.1(10%)」であり、2個である確率が「0.4(40%)」であり、3個である確率が「0.4(40%)」であり、4個以上である確率が「0.1(10%)」であることを示す出力情報OC31-1が、学習器LEから出力される。 Then, an image IM 31 including the faces of two people is input to the learner LE (step S32). After that, information indicating the probability of each number of objects as shown in the output information OC31-1 is output from the learner LE (step S33). In FIG. 9, the probability that the number of faces included in the image IM31 is 0 is "0 (0%)", the probability that the number is 1 is "0.1 (10%)", and the number is 2. A certain probability is "0.4 (40%)", a probability of 3 is "0.4 (40%)", and a probability of 4 or more is "0.1 (10%)". The output information OC31-1 indicating that there is is output from the learner LE.
図9に示す例においても、図8に示す例と同様に、学習部132は、上記式(1)~(3)を用いて、誤差関数L(x)の勾配が0になるように、フィードバック処理を行う(ステップS34)。例えば、学習部132が上述のような処理を繰り返すことにより、対象が複数ある場合であっても、学習器LEは、入力された画像に含まれる対象の数を適切に出力することができる。なお、図9は、学習器LEの出力を正解情報RO31に近づけるために、誤差関数L等を最小化するように処理を繰り返すことを視覚的に示すためのものであり、学習器LE内において自動で行われてもよい。
In the example shown in FIG. 9, similarly to the example shown in FIG. 8, the
〔7.学習処理のフロー〕
ここで、図10を用いて、実施形態に係る判定装置100による学習処理の手順について説明する。図10は、実施形態に係る学習処理の一例を示すフローチャートである。
[7. Learning process flow]
Here, the procedure of the learning process by the
図10に示すように、判定装置100は、画像と画像中の対象の数に関する正解情報とを取得する(ステップS301)。図8では、判定装置100は、2個の人の顔を含む画像IM21と画像に含まれる人の顔の数を示す正解情報RO21とを取得する。その後、判定装置100は、ステップS301で取得した画像を学習器に入力する(ステップS302)。図8では、判定装置100は、取得した画像IM21を学習器LEに入力する。
As shown in FIG. 10, the
その後、判定装置100は、学習器の出力に基づく人の顔の各数の確率と、正解情報の人の顔の各数の確率との誤差が小さくなるように学習する(ステップS303)。図8では、判定装置100は、学習器LEの出力に基づく出力情報OC21-1に示す人の顔の各数の確率と、正解情報RO21に示す人の顔の各数の確率とに基づいて学習する。
After that, the
その後、判定装置100は、所定の条件を満たす場合(ステップS304:Yes)、処理を終了する。例えば、判定装置100は、学習器の出力に基づく人の顔の各数の確率と正解情報の人の顔の各数の確率との誤差が所定の閾値以内である場合や、学習を開始してから所定の時間が経過した場合に所定の条件を満たすとして、処理を終了してもよい。また、判定装置100は、所定の条件を満たさない場合(ステップS304:No)、ステップS303の処理を繰り返す。例えば、判定装置100は、学習器の出力に基づく人の顔の各数の確率と正解情報の人の顔の各数の確率との誤差が所定の閾値より大きい場合や、学習を開始してから所定の時間が経過していない場合に所定の条件を満たさないとして、ステップS303の処理を繰り返してもよい。なお、上記の学習処理は一例であり、判定装置100は、種々の手順により学習を行ってもよい。
After that, when the predetermined condition is satisfied (step S304: Yes), the
〔8.画像の分割〕
上記例においては、判定装置100が画像全体に対して処理を行う例を示したが、判定装置100は、画像を複数の範囲に分割して処理を行ってもよい。この点について、図11を用いて説明する。図11は、実施形態に係る判定処理の一例を示す図である。
[8. Image split]
In the above example, an example in which the
以下、図11を用いて、判定装置100による画像に含まれる対象の数の判定処理について説明する。図11に示すように、判定装置100には、画像IM11が入力される(ステップS40)。例えば、判定装置100は、対象として5人の人、すなわち5つの顔が写った画像IM11を取得する。画像IM11を取得した判定装置100は、所定の学習器に画像IM11を入力する(ステップS41)。
Hereinafter, the determination process of the number of objects included in the image by the
ここで、判定装置100は、画像IM11を4つの範囲(4範囲)に分割して学習器に入力する。図11の例では、判定装置100は、左上の範囲に対応する画像IM11-1、右上の範囲に対応する画像IM11-2、左下の範囲に対応する画像IM11-3、及び右下の範囲に対応する画像IM11-4の4つの範囲(4範囲)に画像IM11を分割して学習器LEに入力する。なお、図11の例では、ステップS41として示すが、画像IM11-1~IM11-4は個別に学習器LEに入力されてもよい。
Here, the
例えば、画像IM11-1~IM11-4が入力された学習器LEは、画像IM11-1~IM11-4の各々に含まれる対象の数を識別する処理を行う。例えば、学習器LEは、対象の数を識別する処理を行う過程において、各クラス(数)に対応する特徴情報を生成する。図11の例では、0個、1個、2個、3個、または4個以上の5つの人の顔の数(クラス)に対応する特徴情報が、画像IM11-1~IM11-4の各々について学習器LEにより生成される。 For example, the learner LE to which the images IM11-1 to IM11-4 are input performs a process of identifying the number of objects included in each of the images IM11-1 to IM11-4. For example, the learner LE generates feature information corresponding to each class (number) in the process of identifying the number of objects. In the example of FIG. 11, the feature information corresponding to the number (class) of five faces of 0, 1, 2, 3, or 4 or more is each of the images IM11-1 to IM11-4. Is generated by the learner LE.
そこで、判定装置100は、画像IM11-1~IM11-4の各々について、学習器LEによる画像に含まれる人の顔の数を識別する処理の過程で生成される各特徴情報を取得する。図11の例では、判定装置100は、画像IM11-1について、学習器LEから人の顔の数が0個であるクラスに対応する特徴情報FM40-1を取得する。また、図11の例では、判定装置100は、画像IM11-2について、学習器LEから人の顔の数が0個であるクラスに対応する特徴情報FM40-2を取得する。また、図11の例では、判定装置100は、画像IM11-3について、学習器LEから人の顔の数が0個であるクラスに対応する特徴情報FM40-3を取得する。また、図11の例では、判定装置100は、画像IM11-4について、学習器LEから人の顔の数が0個であるクラスに対応する特徴情報FM40-4を取得する。なお、以下では、特徴情報FM40-1~FM40-4を併せて特徴情報FM40と記載する場合がある。このように、判定装置100は、画像IM11について、学習器LEから人の顔の数が0個であるクラスに対応する特徴情報FM40を取得する(ステップS42-0)。
Therefore, the
例えば、特徴情報FM40は、画像IM11における各画素の特徴量を示す。なお、ここでいう特徴量は、例えば、特徴量を示す数値である。具体的には、特徴情報FM40を構成する各点(画素)の位置は、画像IM11に重畳させた場合に画像IM11において重なる位置に対応し、特徴情報FM40は、画像IM11において対応する画素の特徴量を示す。なお、図11中の特徴情報FM40では、特徴を示す領域を色が濃い態様で示す。すなわち、特徴情報FM40では、特徴量が大きいほど色が濃い態様で表示される。具体的には、図11中の特徴情報FM40では、画像IM11において人の顔が位置する領域が色の濃い態様で示される。なお、他の特徴情報についても同様である。 For example, the feature information FM40 indicates the feature amount of each pixel in the image IM11. The feature amount referred to here is, for example, a numerical value indicating the feature amount. Specifically, the positions of the points (pixels) constituting the feature information FM 40 correspond to the overlapping positions in the image IM 11 when superimposed on the image IM 11, and the feature information FM 40 corresponds to the characteristics of the corresponding pixels in the image IM 11. Indicates the amount. In the feature information FM40 in FIG. 11, the region showing the feature is shown in a dark color mode. That is, in the feature information FM40, the larger the feature amount, the darker the color is displayed. Specifically, in the feature information FM40 in FIG. 11, the region where the human face is located is shown in the image IM11 in a dark mode. The same applies to other feature information.
また、図11の例では、判定装置100は、画像IM11-1について、学習器LEから人の顔の数が1個であるクラスに対応する特徴情報FM41-1を取得する。また、図11の例では、判定装置100は、画像IM11-2について、学習器LEから人の顔の数が1個であるクラスに対応する特徴情報FM41-2を取得する。また、図11の例では、判定装置100は、画像IM11-3について、学習器LEから人の顔の数が1個であるクラスに対応する特徴情報FM41-3を取得する。また、図11の例では、判定装置100は、画像IM11-4について、学習器LEから人の顔の数が1個であるクラスに対応する特徴情報FM41-4を取得する。なお、以下では、特徴情報FM41-1~FM41-4を併せて特徴情報FM41と記載する場合がある。このように、判定装置100は、画像IM11について、学習器LEから人の顔の数が1個であるクラスに対応する特徴情報FM41を取得する(ステップS42-1)。
Further, in the example of FIG. 11, the
また、図11の例では、判定装置100は、画像IM11-1について、学習器LEから人の顔の数が2個であるクラスに対応する特徴情報FM42-1を取得する。また、図11の例では、判定装置100は、画像IM11-2について、学習器LEから人の顔の数が2個であるクラスに対応する特徴情報FM42-2を取得する。また、図11の例では、判定装置100は、画像IM11-3について、学習器LEから人の顔の数が2個であるクラスに対応する特徴情報FM42-3を取得する。また、図11の例では、判定装置100は、画像IM11-4について、学習器LEから人の顔の数が2個であるクラスに対応する特徴情報FM42-4を取得する。なお、以下では、特徴情報FM42-1~FM42-4を併せて特徴情報FM42と記載する場合がある。このように、判定装置100は、画像IM11について、学習器LEから人の顔の数が2個であるクラスに対応する特徴情報FM42を取得する(ステップS42-2)。
Further, in the example of FIG. 11, the
また、図11の例では、判定装置100は、画像IM11-1について、学習器LEから人の顔の数が3個であるクラスに対応する特徴情報FM43-1を取得する。また、図11の例では、判定装置100は、画像IM11-2について、学習器LEから人の顔の数が3個であるクラスに対応する特徴情報FM43-2を取得する。また、図11の例では、判定装置100は、画像IM11-3について、学習器LEから人の顔の数が3個であるクラスに対応する特徴情報FM43-3を取得する。また、図11の例では、判定装置100は、画像IM11-4について、学習器LEから人の顔の数が3個であるクラスに対応する特徴情報FM43-4を取得する。なお、以下では、特徴情報FM43-1~FM43-4を併せて特徴情報FM43と記載する場合がある。このように、判定装置100は、画像IM11について、学習器LEから人の顔の数が3個であるクラスに対応する特徴情報FM43を取得する(ステップS42-3)。
Further, in the example of FIG. 11, the
また、図11の例では、判定装置100は、画像IM11-1について、学習器LEから人の顔の数が4個以上であるクラスに対応する特徴情報FM44-1を取得する。また、図11の例では、判定装置100は、画像IM11-2について、学習器LEから人の顔の数が4個以上であるクラスに対応する特徴情報FM44-2を取得する。また、図11の例では、判定装置100は、画像IM11-3について、学習器LEから人の顔の数が4個以上であるクラスに対応する特徴情報FM44-3を取得する。また、図11の例では、判定装置100は、画像IM11-4について、学習器LEから人の顔の数が4個以上であるクラスに対応する特徴情報FM44-4を取得する。なお、以下では、特徴情報FM44-1~FM44-4を併せて特徴情報FM44と記載する場合がある。このように、判定装置100は、画像IM11について、学習器LEから人の顔の数が4個以上であるクラスに対応する特徴情報FM44を取得する(ステップS42-4)。以下、ステップS42-0~S42-4を区別せずに説明する場合、ステップS42と記載する場合がある。
Further, in the example of FIG. 11, the
その後、判定装置100は、ステップS42において取得した特徴情報FM40~FM44の各々についてスコアを算出する。例えば、判定装置100は、特徴情報FM40について、特徴情報FM40-1~FM40-4の各々のスコアを算出する。例えば、判定装置100は、特徴情報FM40-1における特徴量に基づいて、特徴情報FM40-1のスコアを算出する。また、例えば、判定装置100は、特徴情報FM40-2における特徴量に基づいて、特徴情報FM40-2のスコアを算出する。例えば、判定装置100は、特徴情報FM40-3における特徴量に基づいて、特徴情報FM40-3のスコアを算出する。また、例えば、判定装置100は、特徴情報FM40-4における特徴量に基づいて、特徴情報FM40-4のスコアを算出する。このように、判定装置100は、特徴情報FM40-1~FM40-4の各々における特徴量に基づいて、特徴情報FM40-1~FM40-4の各々のスコアを算出する(ステップS43-0)。
After that, the
図11の例では、判定装置100は、スコア情報SC40に示すように、人の顔の数「0個」について、特徴情報FM40-1のスコアを「0」、特徴情報FM40-2のスコアを「0」、特徴情報FM40-3のスコアを「0.9」、及び特徴情報FM40-4のスコアを「0.8」と算出する。
In the example of FIG. 11, as shown in the score information SC40, the
また、例えば、判定装置100は、特徴情報FM41-1~FM41-4の各々における特徴量に基づいて、特徴情報FM41-1~FM41-4の各々のスコアを算出する(ステップS43-1)。図11の例では、判定装置100は、スコア情報SC41に示すように、人の顔の数「1個」について、特徴情報FM41-1のスコアを「0」、特徴情報FM41-2のスコアを「0」、特徴情報FM41-3のスコアを「0.05」、及び特徴情報FM41-4のスコアを「0.1」と算出する。
Further, for example, the
また、例えば、判定装置100は、特徴情報FM42-1~FM42-4の各々における特徴量に基づいて、特徴情報FM42-1~FM42-4の各々のスコアを算出する(ステップS43-2)。図11の例では、判定装置100は、スコア情報SC42に示すように、人の顔の数「2個」について、特徴情報FM42-1のスコアを「0.2」、特徴情報FM42-2のスコアを「0.8」、特徴情報FM42-3のスコアを「0」、及び特徴情報FM42-4のスコアを「0」と算出する。
Further, for example, the
また、例えば、判定装置100は、特徴情報FM43-1~FM43-4の各々における特徴量に基づいて、特徴情報FM43-1~FM43-4の各々のスコアを算出する(ステップS43-3)。図11の例では、判定装置100は、スコア情報SC43に示すように、人の顔の数「3個」について、特徴情報FM43-1のスコアを「0.8」、特徴情報FM43-2のスコアを「0.2」、特徴情報FM43-3のスコアを「0」、及び特徴情報FM43-4のスコアを「0」と算出する。
Further, for example, the
また、例えば、判定装置100は、特徴情報FM44-1~FM44-4の各々における特徴量に基づいて、特徴情報FM44-1~FM44-4の各々のスコアを算出する(ステップS43-4)。図11の例では、判定装置100は、スコア情報SC44に示すように、人の顔の数「4個以上」について、特徴情報FM44-1のスコアを「0」、特徴情報FM44-2のスコアを「0」、特徴情報FM44-3のスコアを「0」、及び特徴情報FM44-4のスコアを「0」と算出する。
Further, for example, the
その後、判定装置100は、以下の式(4)により、各範囲に含まれる人の顔の数を判定する。
After that, the
上記の式(4)における、「Num」は、判定される人の顔の数を示す。また、右辺中の「pc」は、各数のスコア(確率)に対応する。また、右辺中の「nc」は、各数(クラス)に対応する。「c」は、0個、1個、2個、3個、または4個以上の5つの顔の数(クラス)に対応する。 In the above formula (4), "Num" indicates the number of faces of the person to be determined. Further, " pc " in the right side corresponds to each number of scores (probabilities). Further, " nc " in the right side corresponds to each number (class). “C” corresponds to the number (class) of five faces of 0, 1, 2, 3, or 4 or more.
ここで、画像IM11における左上の範囲に対応する画像IM11-1に含まれる人の顔の数の判定について説明する。画像IM11-1に含まれる人の顔の数は、上記式(4)を用いて、以下のような式(5)のように算出される。 Here, the determination of the number of human faces included in the image IM11-1 corresponding to the upper left range in the image IM11 will be described. The number of human faces included in the image IM11-1 is calculated by the following formula (5) using the above formula (4).
2.8 = 0×0+0×1+0.2×2+0.8×3+0×4 …(5) 2.8 = 0 x 0 + 0 x 1 + 0.2 x 2 + 0.8 x 3 + 0 x 4 ... (5)
上記式(5)の右辺中の第1項は、0個のクラスに対応し、顔の数「0」とそのスコア「0」を乗算した項となる。また、上記式(5)の右辺中の第2項は、1個のクラスに対応し、顔の数「1」とそのスコア「0」を乗算した項となる。また、上記式(5)の右辺中の第3項は、2個のクラスに対応し、顔の数「2」とそのスコア「0.2」を乗算した項となる。また、上記式(5)の右辺中の第4項は、3個のクラスに対応し、顔の数「3」とそのスコア「0.8」を乗算した項となる。また、上記式(5)の右辺中の第5項は、4個以上のクラスに対応し、顔の数「4」とそのスコア「0」を乗算した項となる。 The first term in the right-hand side of the above equation (5) corresponds to 0 classes and is a term obtained by multiplying the number of faces "0" by the score "0". Further, the second term in the right side of the above equation (5) corresponds to one class and is a term obtained by multiplying the number of faces "1" and the score "0". Further, the third term in the right side of the above equation (5) corresponds to two classes and is a term obtained by multiplying the number of faces "2" and the score "0.2". Further, the fourth term in the right side of the above equation (5) corresponds to three classes and is a term obtained by multiplying the number of faces "3" and the score "0.8". Further, the fifth term in the right side of the above equation (5) corresponds to four or more classes, and is a term obtained by multiplying the number of faces "4" and the score "0".
上記式(5)により、判定装置100は、画像IM11-1に含まれる人の顔の数を「2.8」個と判定する。
According to the above formula (5), the
また、画像IM11における右上の範囲に対応する画像IM11-2に含まれる人の顔の数の判定について説明する。画像IM11-2に含まれる人の顔の数は、上記式(4)を用いて、以下のような式(6)のように算出される。 Further, the determination of the number of human faces included in the image IM11-2 corresponding to the upper right range in the image IM11 will be described. The number of human faces included in the image IM11-2 is calculated by the following formula (6) using the above formula (4).
2.2 = 0×0+0×1+0.8×2+0.2×3+0×4 …(6) 2.2 = 0 x 0 + 0 x 1 + 0.8 x 2 + 0.2 x 3 + 0 x 4 ... (6)
上記式(6)により、判定装置100は、画像IM11-2に含まれる人の顔の数を「2.2」個と判定する。なお、画像IM11-3や画像IM11-4は、人の顔の数が1個以上である場合に対応する特徴情報のスコアが所定の閾値未満であるとして、上記式(4)による数の判定(算出)を行わなくてもよい。
According to the above formula (6), the
このように、図11の例では、判定装置100は、画像IM11の左上の範囲に2.8個の人の顔が含まれ、画像IM11の右上の範囲に2.2個の人の顔が含まれると判定する。したがって、判定装置100は、画像IM11において人の顔が含まれる位置を適切に判定することができる。
As described above, in the example of FIG. 11, the
また、判定装置100は、上記式(5)により算出された顔の数「2.8」個と、上記式(6)により算出された顔の数「2.2」個とを合算することにより、画像IM11全体に含まれる人の顔の数は、「5」個であると判定する。このように、判定装置100は、各範囲に対応する画像IM11-1~IM11-4について判定した人の顔の数に基づいて、画像IM11全体に含まれる人の顔の数を判定することができる。
Further, the
なお、図11の例では、画像を左上、右上、左下、右下の4エリアに分割する例を示したが、例えば9エリアや16エリア等の種々のエリアに分割してもよい。 In the example of FIG. 11, the image is divided into four areas of upper left, upper right, lower left, and lower right, but the image may be divided into various areas such as 9 areas and 16 areas.
〔9.効果〕
上述してきたように、実施形態に係る判定装置100は、取得部131と、判定部134とを有する。取得部131は、画像中の対象の数を識別するニューラルネットワーク(実施形態においては「学習器LE」。以下同じ)に入力された入力画像(実施形態においては「画像IM11」。以下同じ)に基づく複数の特徴情報であって、ニューラルネットワークが識別する各数に対応する複数の特徴情報を取得する。判定部134は、取得部131により取得された複数の特徴情報に基づいて、入力画像に含まれる対象の数を判定する。
[9. effect〕
As described above, the
これにより、実施形態に係る判定装置100は、ニューラルネットワークにおける情報を用いて画像に含まれる対象の数を適切に判定することができる。
Thereby, the
また、実施形態に係る判定装置100において、判定部134は、判定した対象の数に対応する特徴情報における特徴量に関する情報に基づいて、入力画像における対象の位置を判定する。
Further, in the
これにより、実施形態に係る判定装置100は、判定した対象の顔の数に対応する特徴情報に基づいて、入力画像に含まれる人の顔の位置を判定する。したがって、判定装置100は、画像に含まれる対象の位置を適切に判定することができる。
As a result, the
また、実施形態に係る判定装置100において、取得部131は、画像中の人の顔の数を識別するニューラルネットワークに入力された入力画像に基づく複数の特徴情報を取得する。
Further, in the
これにより、実施形態に係る判定装置100は、ニューラルネットワークにおける情報を用いて画像に含まれる人の顔の数を適切に判定することができる。
Thereby, the
また、実施形態に係る判定装置100は、算出部133を有する。算出部133は、複数の特徴情報に基づいてスコアを算出する。判定部134は、算出部133により算出されたスコアに基づいて、入力画像に含まれる対象の数を判定する。
Further, the
これにより、実施形態に係る判定装置100は、算出したスコアに基づいて画像に含まれる対象の数を判定することにより、ニューラルネットワークにおける情報を用いて画像に含まれる対象の数を適切に判定することができる。
As a result, the
また、実施形態に係る判定装置100において、算出部133は、各数に対応する特徴情報に基づいて、各数に対応するスコアを算出する。判定部134は、算出部133により算出された各数に対応するスコアに基づいて、入力画像に含まれる対象の数を判定する。
Further, in the
これにより、実施形態に係る判定装置100は、算出した各数に対応するスコアに基づいて、画像に含まれる対象の数を判定することにより、ニューラルネットワークにおける情報を用いて画像に含まれる対象の数を適切に判定することができる。
As a result, the
また、実施形態に係る判定装置100において、取得部131は、畳み込み処理及びプーリング処理を行うニューラルネットワークが識別する各数に対応する複数の特徴情報を取得する。
Further, in the
これにより、実施形態に係る判定装置100は、畳み込み処理及びプーリング処理を行うニューラルネットワークにおける情報を用いて画像に含まれる人の顔の数を適切に判定することができる。
Thereby, the
また、実施形態に係る判定装置100において、取得部131は、全結合層を含まないニューラルネットワークが識別する各数に対応する複数の特徴情報を取得する。
Further, in the
これにより、実施形態に係る判定装置100は、全結合層を含まないニューラルネットワーク(FCN)における情報を用いて画像に含まれる人の顔の数を適切に判定することができる。
Thereby, the
また、実施形態に係る判定装置100において、判定部134は、各特徴情報に含まれる複数の領域の各々の特徴量に関する情報に基づいて、入力画像に含まれる対象の位置を判定する。
Further, in the
これにより、実施形態に係る判定装置100は、各特徴情報に含まれる複数の領域の各々の特徴量に関する情報に基づいて、入力画像に含まれる対象の位置を判定することにより、ニューラルネットワークにおける情報を用いて画像に含まれる対象の数を適切に判定する。したがって、判定装置100は、画像に含まれる対象の位置を適切に判定することができる。
As a result, the
〔10.ハードウェア構成〕
上述してきた実施形態に係る判定装置100は、例えば図12に示すような構成のコンピュータ1000によって実現される。図12は、判定装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
[10. Hardware configuration]
The
CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
The
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、ネットワークNを介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータをネットワークNを介して他の機器へ送信する。
The
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを入出力インターフェイス1600を介して出力装置へ出力する。
The
メディアインターフェイス1700は、記録媒体1800に格納されたプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
The
例えば、コンピュータ1000が実施形態に係る判定装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部130の機能を実現する。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置からネットワークNを介してこれらのプログラムを取得してもよい。
For example, when the
以上、本願の実施形態を図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の行に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。 The embodiments of the present application have been described in detail with reference to the drawings, but these are examples, and various modifications and improvements are made based on the knowledge of those skilled in the art, including the embodiments described in the disclosure line of the invention. It is possible to carry out the present invention in other forms described above.
〔11.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
[11. others〕
Further, among the processes described in the above-described embodiment, all or a part of the processes described as being automatically performed can be manually performed, or the processes described as being manually performed can be performed. All or part of it can be done automatically by a known method. In addition, information including processing procedures, specific names, various data and parameters shown in the above documents and drawings can be arbitrarily changed unless otherwise specified. For example, the various information shown in each figure is not limited to the information shown in the figure.
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。 Further, each component of each of the illustrated devices is a functional concept, and does not necessarily have to be physically configured as shown in the figure. That is, the specific form of distribution / integration of each device is not limited to the one shown in the figure, and all or part of them may be functionally or physically distributed / physically in any unit according to various loads and usage conditions. Can be integrated and configured.
また、上述してきた実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。 Further, the above-described embodiments can be appropriately combined as long as the processing contents do not contradict each other.
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。 Further, the above-mentioned "section, module, unit" can be read as "means" or "circuit". For example, the acquisition unit can be read as an acquisition means or an acquisition circuit.
100 判定装置
121 学習情報記憶部
122 画像情報記憶部
130 制御部
131 取得部
132 学習部
133 算出部
134 判定部
135 生成部
136 提供部
100
Claims (10)
前記取得部により取得された前記複数の特徴情報に基づいて、前記入力画像に含まれる前記対象の数を判定する判定部と、
前記各数に対応する特徴情報に基づいて、前記各数に対応するスコアを算出する算出部と、
前記算出部により算出されたスコアのうち最大のスコアである特徴情報に含まれる所定の閾値以上の特徴量が位置する領域と、各々の縦横比率が異なる複数のアスペクト比とに基づいて、クロッピングした加工画像を生成する生成部と、
を備えることを特徴とする判定装置。 A plurality of feature information based on an input image input to a neural network that identifies the number of objects in an image, and an acquisition unit that acquires a plurality of feature information corresponding to each number identified by the neural network.
A determination unit that determines the number of objects included in the input image based on the plurality of feature information acquired by the acquisition unit.
A calculation unit that calculates a score corresponding to each number based on the feature information corresponding to each number, and a calculation unit.
Based on the area where the feature amount above a predetermined threshold value included in the feature information which is the maximum score among the scores calculated by the calculation unit is located, and a plurality of aspect ratios having different aspect ratios . A generator that generates cropped processed images,
A determination device characterized by comprising.
判定した前記対象の数に対応する特徴情報における特徴量に関する情報に基づいて、前記入力画像における前記対象の位置を判定する
ことを特徴とする請求項1に記載の判定装置。 The determination unit
The determination device according to claim 1, wherein the position of the object in the input image is determined based on the information regarding the feature amount in the feature information corresponding to the determined number of objects.
画像中の人の顔の数を識別するニューラルネットワークに入力された入力画像に基づく前記複数の特徴情報を取得する
ことを特徴とする請求項1または請求項2に記載の判定装置。 The acquisition unit
The determination device according to claim 1 or 2, wherein the plurality of feature information based on an input image input to a neural network for identifying the number of human faces in an image is acquired.
前記算出部により算出されたスコアに基づいて、前記入力画像に含まれる前記対象の数を判定する
ことを特徴とする請求項3に記載の判定装置。 The determination unit
The determination device according to claim 3, wherein the number of the objects included in the input image is determined based on the score calculated by the calculation unit.
前記算出部により算出された前記各数に対応するスコアに基づいて、前記入力画像に含まれる前記対象の数を判定する
ことを特徴とする請求項4に記載の判定装置。 The determination unit
The determination device according to claim 4, wherein the number of the objects included in the input image is determined based on the score corresponding to each of the numbers calculated by the calculation unit.
畳み込み処理及びプーリング処理を行う前記ニューラルネットワークが識別する各数に対応する複数の特徴情報を取得する
ことを特徴とする請求項1~5のいずれか1項に記載の判定装置。 The acquisition unit
The determination device according to any one of claims 1 to 5, wherein a plurality of feature information corresponding to each number identified by the neural network that performs convolution processing and pooling processing is acquired.
全結合層を含まない前記ニューラルネットワークが識別する各数に対応する複数の特徴情報を取得する
ことを特徴とする請求項6に記載の判定装置。 The acquisition unit
The determination device according to claim 6, wherein a plurality of feature information corresponding to each number identified by the neural network not including the fully connected layer is acquired.
各特徴情報に含まれる複数の領域の各々の特徴量に関する情報に基づいて、前記入力画像に含まれる前記対象の位置を判定する
ことを特徴とする請求項1~7のいずれか1項に記載の判定装置。 The determination unit
The invention according to any one of claims 1 to 7, wherein the position of the target included in the input image is determined based on the information regarding the feature amount of each of the plurality of regions included in the feature information. Judgment device.
画像中の対象の数を識別するニューラルネットワークに入力された入力画像に基づく複数の特徴情報であって、前記ニューラルネットワークが識別する各数に対応する複数の特徴情報を取得する取得工程と、
前記取得工程により取得された前記複数の特徴情報に基づいて、前記入力画像に含まれる前記対象の数を判定する判定工程と、
前記各数に対応する特徴情報に基づいて、前記各数に対応するスコアを算出する算出工程と、
前記算出工程により算出されたスコアのうち最大のスコアである特徴情報に含まれる所定の閾値以上の特徴量が位置する領域と、各々の縦横比率が異なる複数のアスペクト比とに基づいて、クロッピングした加工画像を生成する生成工程と、
を含むことを特徴とする判定方法。 It is a judgment method executed by a computer.
A plurality of feature information based on an input image input to a neural network that identifies the number of objects in an image, and an acquisition process for acquiring a plurality of feature information corresponding to each number identified by the neural network.
A determination step of determining the number of the objects included in the input image based on the plurality of feature information acquired by the acquisition step, and a determination step.
A calculation process for calculating a score corresponding to each number based on the feature information corresponding to each number, and a calculation step.
Based on the region where the feature amount above a predetermined threshold value included in the feature information which is the maximum score among the scores calculated by the calculation step is located, and a plurality of aspect ratios having different aspect ratios . The generation process to generate cropped processed images and
A determination method characterized by including.
前記取得手順により取得された前記複数の特徴情報に基づいて、前記入力画像に含まれる前記対象の数を判定する判定手順と、
前記各数に対応する特徴情報に基づいて、前記各数に対応するスコアを算出する算出手順と、
前記算出手順により算出されたスコアのうち最大のスコアである特徴情報に含まれる所定の閾値以上の特徴量が位置する領域と、各々の縦横比率が異なる複数のアスペクト比とに基づいて、クロッピングした加工画像を生成する生成手順と、
をコンピュータに実行させることを特徴とする判定プログラム。 An acquisition procedure for acquiring a plurality of feature information based on an input image input to a neural network that identifies the number of objects in an image and corresponding to each number identified by the neural network.
A determination procedure for determining the number of the objects included in the input image based on the plurality of feature information acquired by the acquisition procedure, and a determination procedure.
A calculation procedure for calculating a score corresponding to each number based on the feature information corresponding to each number, and a calculation procedure.
Based on the area where the feature amount above a predetermined threshold value included in the feature information, which is the maximum score among the scores calculated by the calculation procedure, is located, and a plurality of aspect ratios having different aspect ratios . The generation procedure to generate the cropped processed image and
A judgment program characterized by having a computer execute.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016152924A JP7054603B2 (en) | 2016-08-03 | 2016-08-03 | Judgment device, judgment method, and judgment program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016152924A JP7054603B2 (en) | 2016-08-03 | 2016-08-03 | Judgment device, judgment method, and judgment program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018022332A JP2018022332A (en) | 2018-02-08 |
JP7054603B2 true JP7054603B2 (en) | 2022-04-14 |
Family
ID=61166012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016152924A Active JP7054603B2 (en) | 2016-08-03 | 2016-08-03 | Judgment device, judgment method, and judgment program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7054603B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7001489B2 (en) | 2018-02-09 | 2022-01-19 | 三菱重工業株式会社 | Scramjet engine and projectile |
JP7300958B2 (en) * | 2019-10-10 | 2023-06-30 | Kddi株式会社 | IMAGING DEVICE, CONTROL METHOD, AND COMPUTER PROGRAM |
US20230022458A1 (en) * | 2020-01-17 | 2023-01-26 | Sony Semiconductor Solutions Corporation | Information processing device, information processing method, and program |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017211939A (en) | 2016-05-27 | 2017-11-30 | ヤフー株式会社 | Generation device, generation method, and generation program |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2978374B2 (en) * | 1992-08-21 | 1999-11-15 | 松下電器産業株式会社 | Image processing device, image processing method, and control device for air conditioner |
US6545743B1 (en) * | 2000-05-22 | 2003-04-08 | Eastman Kodak Company | Producing an image of a portion of a photographic image onto a receiver using a digital image of the photographic image |
JP6119991B2 (en) * | 2013-08-23 | 2017-04-26 | ブラザー工業株式会社 | Image processing apparatus and computer program |
-
2016
- 2016-08-03 JP JP2016152924A patent/JP7054603B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017211939A (en) | 2016-05-27 | 2017-11-30 | ヤフー株式会社 | Generation device, generation method, and generation program |
Non-Patent Citations (3)
Title |
---|
Chen et al.,Automatic Image Cropping:A Computational Complexity Study,CVPR,2016,507-515 |
Zhang et al.,Salient Object Subitizing,CVPR,2015,4045-4054 |
山下直晃,田中智大,A Simple Method to Create Enhanced Saliency Map with CNN Classifier,画像の認識・理解シンポジウム(2016) |
Also Published As
Publication number | Publication date |
---|---|
JP2018022332A (en) | 2018-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109697434B (en) | Behavior recognition method and device and storage medium | |
EP3333768A1 (en) | Method and apparatus for detecting target | |
CN110276406B (en) | Expression classification method, apparatus, computer device and storage medium | |
US10445910B2 (en) | Generating apparatus, generating method, and non-transitory computer readable storage medium | |
US20170344881A1 (en) | Information processing apparatus using multi-layer neural network and method therefor | |
US20150325046A1 (en) | Evaluation of Three-Dimensional Scenes Using Two-Dimensional Representations | |
US10878566B2 (en) | Automatic teeth whitening using teeth region detection and individual tooth location | |
US20180157892A1 (en) | Eye detection method and apparatus | |
US11017296B2 (en) | Classifying time series image data | |
JP7228961B2 (en) | Neural network learning device and its control method | |
JP7054603B2 (en) | Judgment device, judgment method, and judgment program | |
CN111183455A (en) | Image data processing system and method | |
JP6664579B2 (en) | Learning device, learning method and learning program | |
US11468571B2 (en) | Apparatus and method for generating image | |
US11301723B2 (en) | Data generation device, data generation method, and computer program product | |
JP7086878B2 (en) | Learning device, learning method, program and recognition device | |
WO2017165332A1 (en) | 2d video analysis for 3d modeling | |
JP2017059090A (en) | Generation device, generation method, and generation program | |
Chen et al. | Learning to rank retargeted images | |
JP2020177582A (en) | Leaning device, learning method, program, and recognition device | |
US20170155833A1 (en) | Method and system for real-time image subjective social contentment maximization | |
KR102208688B1 (en) | Apparatus and method for developing object analysis model based on data augmentation | |
US20240045992A1 (en) | Method and electronic device for removing sensitive information from image data | |
JP2018005405A (en) | Information processor and information processing method | |
JP6214073B2 (en) | Generating device, generating method, and generating program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190325 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20191101 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20191108 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200318 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200331 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200526 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20200630 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200910 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20200910 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20200924 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20200929 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20201009 |
|
C211 | Notice of termination of reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C211 Effective date: 20201013 |
|
C22 | Notice of designation (change) of administrative judge |
Free format text: JAPANESE INTERMEDIATE CODE: C22 Effective date: 20210629 |
|
C13 | Notice of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: C13 Effective date: 20210817 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211018 |
|
C23 | Notice of termination of proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C23 Effective date: 20220201 |
|
C03 | Trial/appeal decision taken |
Free format text: JAPANESE INTERMEDIATE CODE: C03 Effective date: 20220308 |
|
C30A | Notification sent |
Free format text: JAPANESE INTERMEDIATE CODE: C3012 Effective date: 20220308 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220404 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7054603 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |