JP2016099668A - Learning method, learning device, image recognition method, image recognition device and program - Google Patents
Learning method, learning device, image recognition method, image recognition device and program Download PDFInfo
- Publication number
- JP2016099668A JP2016099668A JP2014233800A JP2014233800A JP2016099668A JP 2016099668 A JP2016099668 A JP 2016099668A JP 2014233800 A JP2014233800 A JP 2014233800A JP 2014233800 A JP2014233800 A JP 2014233800A JP 2016099668 A JP2016099668 A JP 2016099668A
- Authority
- JP
- Japan
- Prior art keywords
- learning
- image
- discriminator
- region
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
Description
本発明は、入力画像中の被写体の検出、および被写体ごとに領域を分割するための技術に関する。 The present invention relates to a technique for detecting a subject in an input image and dividing an area for each subject.
従来から、画像シーンの認識や被写体に応じた画質補正等の後段処理のために、被写体ごとに領域を分割し、被写体の分類に関するクラスを識別する処理が知られている。非特許文献1に記載の方法では、まず、色情報、テクスチャ情報に基づいて入力画像をSP(スーパーピクセル)と呼ばれる小領域に分割する。そして、分割した各小領域のクラスをRecursive−Neural−Networks(RNNs)と呼ばれる識別器を用いて識別する。
2. Description of the Related Art Conventionally, processing for dividing a region for each subject and identifying a class related to subject classification is known for subsequent processing such as image scene recognition and image quality correction according to the subject. In the method described in Non-Patent
しかし、非特許文献1の方法のように、単に小領域から抽出された特徴量に基づいて画像中の各領域のクラスを識別する方法では、信頼度が高い(識別スコア、識別尤度が高い)にも関わらず誤検出する場合がある。たとえば、空の一部を切り出した小領域と青い壁の一部を切り出した小領域のように、特徴量の近い小領域を識別器で識別することは難しい。
However, the method of identifying the class of each region in the image based on the feature amount extracted from the small region as in the method of Non-Patent
上記課題を解決するために、本発明の学習方法によれば、画像の領域ごとにクラスを識別するための第1の識別器を、学習用画像を用いて学習する第1の学習工程と、学習した前記第1の識別器により、学習評価画像の領域ごとのクラスを識別する学習時識別工程と、前記第1の識別器による前記学習評価画像に対するクラスの識別結果が誤っている誤識別領域を選択する選択工程と、選択された前記誤識別領域を含む領域を用いて、学習データを生成する生成工程と、前記生成された学習データのクラスを識別する第2の識別器を学習する第2の学習工程とを有することを特徴とする。 In order to solve the above-mentioned problem, according to the learning method of the present invention, a first learning step of learning a first classifier for identifying a class for each region of an image using a learning image; A learning identification step for identifying a class for each region of the learning evaluation image by the learned first discriminator, and a misidentification region in which the class identification result for the learning evaluation image by the first discriminator is incorrect A selection step of selecting a learning step, a generation step of generating learning data using the selected region including the misidentification region, and a second classifier of learning a second classifier for identifying a class of the generated learning data And 2 learning steps.
以上の構成によれば、本発明は、画像認識装置により認識対象画像を認識する際、クラスの識別が難しい小領域が認識対象画像にあっても、その誤検出を軽減でき、画像を精度よく認識することができる。 According to the above configuration, according to the present invention, when the recognition target image is recognized by the image recognition device, even if the recognition target image includes a small region that is difficult to identify the class, the erroneous detection can be reduced, and the image can be accurately displayed. Can be recognized.
[第1の実施形態]
以下、図面を参照して本発明の実施形態を詳細に説明する。
[First Embodiment]
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
図1は、本実施形態に係る画像認識システムを示す構成図である。本実施形態の画像認識システムは、カメラ10と画像認識装置20とがネットワークを介して接続されている。なお、カメラ10と画像認識装置20とが一体に構成されていてもよい。カメラ10によって撮影された画像は画像認識装置20へと出力され、画像認識装置20はカメラ10より出力された画像を取得する。本実施形態では、図1に示すようなシーン30をカメラ10が撮影し、画像認識装置20がこの認識対象画像を処理する形態について説明する。
FIG. 1 is a configuration diagram illustrating an image recognition system according to the present embodiment. In the image recognition system of this embodiment, the
図2は、本実施形態の認識対象画像を説明する図である。図2(a)は、カメラ10によってシーン30を撮影することにより得られた認識対象画像100を示している。本実施形態の画像認識装置20は、画像を認識するために、取得した認識対象画像の各小領域のクラスを識別し、認識対象画像を領域分割する。本実施形態において、クラスとは、図2(b)に示されるように、sky、tree、car等といった被写体の分類に関するクラスカテゴリー名のことであり、クラスは認識対象画像の各画素に対して割り当てられる。
FIG. 2 is a diagram illustrating a recognition target image according to the present embodiment. FIG. 2A shows a
図3は、本実施形態において、認識対象画像の各領域のクラスを識別する処理を概念的に説明する図である。図3(a)に示すように、認識対象画像を縦方向、横方向にそれぞれ分割して成る領域を処理の単位領域とし、クラスを識別する。本実施形態では、このクラス識別の処理の単位を画素単位としている。図3(b)は、図3の(a)の左上部分を拡大した図であり、各画素103にskyカテゴリーが割り当てられている様子を示している。このように、本実施形態では、認識対象画像100の各画素103にクラスが割り当てられることで、領域分割が実現される。
FIG. 3 is a diagram conceptually illustrating processing for identifying a class of each region of the recognition target image in the present embodiment. As shown in FIG. 3A, a class is identified by setting a region obtained by dividing a recognition target image in the vertical direction and the horizontal direction as a unit region for processing. In this embodiment, the unit of the class identification process is a pixel unit. FIG. 3B is an enlarged view of the upper left part of FIG. 3A, and shows a state where the sky category is assigned to each
図4は、画像認識装置20のハードウェア構成を示すブロック図である。CPU401は、画像認識装置20全体を制御する。CPU401がROM403やHD404等に格納されたプログラムを実行することにより、後述する画像認識装置20の機能構成及び画像認識装置20に係るフローチャートの処理が実現される。RAM402は、CPU401がプログラムを展開して実行するワークエリアとして機能する記憶領域を有する。ROM403は、CPU401が実行するプログラム等を格納する記憶領域を有する。HD404は、CPU401が処理を実行する際に要する各種のプログラム、閾値に関するデータ等を含む各種のデータを格納する記憶領域を有する。操作部405は、ユーザによる入力操作を受け付ける。表示部406は、画像認識装置20の情報を表示する。ネットワークI/F407は、画像認識装置20と外部の機器とを接続する。
FIG. 4 is a block diagram illustrating a hardware configuration of the
図5は、本実施形態における画像認識装置20の機能構成を示す図である。前述したとおり、本実施形態の画像認識装置20は、カメラ10とネットワークを介して接続されている。また、画像認識装置20は、取得部501、識別部502、検出部504を有する。更に、画像認識装置20は、必要な情報を記憶、保持するための手段として第1識別器保持部503、第2識別器保持部505、第1統合識別器保持部507を有する。なお、第1識別器保持部503、第2識別器保持部505、第1統合識別器保持部507は、画像認識装置20とは別体の不揮発性記憶装置に設けられていてもよい。画像認識装置20が有するこれらの各機能の詳細については、図6等を用いて後述する。
FIG. 5 is a diagram illustrating a functional configuration of the
図6(a)は、本実施形態における認識対象の画像を処理する際の画像認識処理を示すフローチャートである。まず、各工程の処理の概要を述べる。 FIG. 6A is a flowchart showing an image recognition process when processing an image to be recognized in the present embodiment. First, an outline of the process in each step will be described.
取得工程S110では、取得部501がカメラ10によって撮影された認識対象画像を入力データとして受信する。検出工程S120では、検出部504が第2識別器保持部505に記憶されている第2識別器を用いて、予め第2識別器で学習しておいた事例を検出する。事例の検出方法および学習方法については、後述する。第2識別器が複数ある場合には複数回適用して事例を検出する。検出結果は、統合識別部506に送信される。
In the acquisition step S110, the
識別工程S130では、識別部502が第1識別器保持部503に記憶されている第1識別器を用いて、認識対象画像の各領域のクラスを識別する。各領域のクラス識別結果は、統合識別部506に送信される。統合識別工程S140では、統合識別部506が第2識別器による検出結果および第1識別器による識別結果を統合して、認識対象画像の領域ごとにクラス識別を実行する。
In the identifying step S130, the identifying
次に、図6(a)に示したフローチャートに従って、各処理のより具体的な処理について述べる。 Next, more specific processing of each processing will be described according to the flowchart shown in FIG.
取得工程S110では、取得部501がカメラ10によって撮影された認識対象画像を入力データとして受信する。この認識対象画像は、予め撮影されて外部装置に記憶されていてもよい。この場合、取得部501は、認識対象画像を外部装置から取得する。
In the acquisition step S110, the
次に、検出工程S120では、検出部504が第2識別器保持部505に記憶されている第2識別器を用いて、予め第2識別器で学習しておいた事例を検出する。事例の学習方法については、学習時の処理を説明する際に述べる。
Next, in the detection step S120, the
図7は、本実施形態における事例の検出方法を説明するための図である。事例の検出は、図7(a)に示すように、認識対象画像100に対して検出ウィンドウ110をスキャンさせることで行う。図7(b)は、検出すべき事例が検出ウィンドウ110で検出される様子を示すものである。
FIG. 7 is a diagram for explaining a case detection method according to this embodiment. As shown in FIG. 7A, the case is detected by scanning the
そして、事例の存在位置を示すためのマスク111が学習時に記憶されていて、図7(c)に示すようにマスク111を認識対象画像100の検出位置に重ね合わせることで、事例に対応する領域が抽出される。マスク111は、事例が存在している画素に1、存在しない画素には0が記録されている。もしくは存在確率として0〜1の実数値が記録されていてもよい。
Then, a
検出ウィンドウで検出処理を行った結果は、各画素における検出スコア(もしくは尤度、0〜1の実数値とする)として出力される。具体的には、各画素における検出結果(スコア)は、検出器が出力するスコア(尤度)にマスク111に記録されている事例の存在確率をかけ合わせたものになる。各画素における検出結果(スコア)をSD(x、y)とおくと、以下の数1式となる。
SD(x,y)=S(x0,y0)・Mask(x−x0,y−y0) ・・・数1
ここで、S(x0、y0)はx0、y0における検出器(第2識別器)が出力するスコア(尤度)である。Mask(x−x0、y−y0)は、x、yにおける事例の存在確率を表している。複数の検出結果が存在する場合(1つの検出器によって多数の検出位置が検出され、検出結果が複数存在する場合)には、複数の検出結果を各画素で平均化すればよい。これにより、認識対象画像の各画素に対して0〜1の実数値が割り当てられる。以下、これを検出スコアマップと記載する。
The result of performing the detection process in the detection window is output as a detection score (or likelihood, a real value of 0 to 1) in each pixel. Specifically, the detection result (score) in each pixel is obtained by multiplying the score (likelihood) output from the detector by the existence probability of the case recorded in the
S D (x, y) = S (x 0 , y 0 ) · Mask (x−x 0 , y−y 0 )...
Here, S (x 0 , y 0 ) is a score (likelihood) output by the detector (second discriminator) at x 0 , y 0 . Mask (x−x 0 , y−y 0 ) represents the existence probability of cases in x and y. When there are a plurality of detection results (when a large number of detection positions are detected by one detector and a plurality of detection results exist), the plurality of detection results may be averaged at each pixel. Thereby, a real value of 0 to 1 is assigned to each pixel of the recognition target image. Hereinafter, this is referred to as a detection score map.
なお、事例を検出する際、マスク111を認識対象画像100の検出位置に重ね合わせたあと、グラフカットなどを用いて輪郭をリファインしてもよい。リファインした場合は、そののちに数1式で示したように認識対象画像100に対して検出スコアを算出すればよい。また、ここでは1つの事例のみを検出器によって検出する例について述べたが、複数の事例を検出してもよい。その場合は、各事例に対して検出スコアマップを保持しておく。
When detecting the case, the contour may be refined using a graph cut or the like after the
次に、識別工程S130では、識別部502が第1識別器保持部503に記憶されている第1識別器を用いて、認識対象画像のクラス識別を行う。図8は、認識対象画像に対する識別工程S130の処理を示す図である。本実施形態においては、図8(a)、(b)に示すように、撮影された認識対象画像100を分割して成る小領域101ごとにクラスを識別する。ここで、小領域とは、画像中における1画素以上であって所定値以下の画素で構成される領域を意味する。本実施形態においては、非特許文献3に記載されているようなSP(スーパーピクセル)と呼ばれる小領域に分割する。なお、その他ブロック分割などを用いるようにしてもよい。
Next, in the identifying step S130, the identifying
本実施形態において、第1識別器は小領域101から特徴量を抽出し、その特徴量を入力とする識別器に相当する。このような識別器としては、例えば、非特許文献1に示すRecursive−Neural−Networks(RNNs)を用いることができる。または、SupportVectorMashines(SVMs)などの特徴量を入力して識別結果が出力される識別器であってもよい。本実施形態の識別結果は、予め定義されている各クラスに対して0から1の値域をとり、その値が高いほど信頼度が高いことを示す。第1識別器の学習方法については、学習時の処理を説明する際に述べる。
In the present embodiment, the first discriminator corresponds to a discriminator that extracts a feature amount from the
なお、本実施形態においては、認識対象画像を予め小領域に分割し、小領域ごとに第1識別器によってクラス識別を行う方法について説明したが、これに限定されるものではない。例えば、非特許文献2に示されるような条件付き確率場CRF(Conditional−Random−Field)を用いて、領域分割及びクラス識別を同時に行ってもよい。また、本実施形態においては、図8(b)に示すように、各小領域は重なり合うことなく認識対象画像上に配置されるとしているが、重なり合っていてもよい。その場合の統合方法については、後述する。 In the present embodiment, a method has been described in which the recognition target image is divided into small areas in advance, and class identification is performed by the first classifier for each small area. However, the present invention is not limited to this. For example, region division and class identification may be performed simultaneously using a conditional random field CRF (Conditional-Random-Field) as shown in Non-Patent Document 2. Further, in the present embodiment, as shown in FIG. 8B, each small region is arranged on the recognition target image without overlapping, but may be overlapped. The integration method in that case will be described later.
次に、統合識別工程S140では、統合識別部506が、検出工程S120における検出結果と識別工程S130におけるクラス識別結果とを統合して最終結果を出力する。図9は、本実施形態における統合処理を説明するための図である。図9(a)は認識対象画像、図9(b)は第2識別器による検出結果、図9(c)は第1識別器による識別結果、図9(d)は統合による最終的な画像のクラス識別結果を表している。ここでいう検出結果とは、図9(b)に示すように、検出ウィンドウ110によって検出された事例の検出位置に対してマスク111を認識対象画像に重ね合わせたものに相当し、実際には前述の数1式で示したように各画素に対して検出スコアを算出したものである。
Next, in the integrated identification step S140, the
本実施形態における統合方法としては、以下の二つの方法のいずれかを用いることができる。 As the integration method in the present embodiment, one of the following two methods can be used.
1つ目の方法としては、検出工程S120において検出器(第2識別器)が出力するスコア(尤度)のうち、予め定められた閾値以上の検出結果に対応するマスクを重畳し、それ以外の領域には第1識別器による識別結果を採用する。図9(b)に示すように検出された事例に対応するマスク111を図9(d)のように重畳する。検出された事例の全てのマスクを重畳したのちに、それ以外の領域に対して、図9(c)に示す第1識別器による識別結果を重畳することで最終的なクラス識別結果とする。小領域同士が重なりあっている場合には、一度小領域ごとにクラスを識別したあと各画素で所属している小領域のクラス識別結果を平均化や投票処理することなどにより決定すればよい。また、検出処理によって得られたマスクと第1識別器に利用した小領域が重なっている場合には、どちらかの結果を優先的に採用してもよいし、重なっている領域のみ信頼度の高い結果を採用してもよい。
As a first method, a mask corresponding to a detection result equal to or higher than a predetermined threshold is superimposed on the score (likelihood) output by the detector (second discriminator) in the detection step S120, and the others The result of discrimination by the first discriminator is adopted for the area of. As shown in FIG. 9B, a
2つ目の方法としては、予め学習された統合識別器を利用する。統合識別器の学習方法については後述し、ここでは識別時の統合識別器の利用方法について説明する。本実施形態では、各画素における検出工程S120の検出結果と各画素における識別工程S130におけるクラス識別結果を入力として、各画素のクラスを識別する統合識別器を利用する。各画素における識別結果とは、その画素が含まれる小領域に対するクラス識別の結果のことである。 As the second method, an integrated classifier learned in advance is used. A learning method of the integrated classifier will be described later, and here, a method of using the integrated classifier at the time of identification will be described. In the present embodiment, an integrated discriminator for identifying the class of each pixel is used with the detection result of the detection step S120 for each pixel and the class identification result for the identification step S130 for each pixel as inputs. The identification result in each pixel is a result of class identification for a small area including the pixel.
事例を検出する第2識別器の数をNd、第1識別器によって識別されるクラス数をCとすると、各画素で統合識別器に入力される入力ベクトルの次元数はNd+C次元となる。その入力ベクトルに対して、最終的に出力するクラス数Cに対応するC次元の出力値を統合識別器によって出力する。ここでは第1識別器で識別するクラス数と最終的に出力するクラス数は同数であるとしているが、異なる数でもよい。 Assuming that the number of second classifiers that detect cases is Nd and the number of classes identified by the first classifier is C, the number of dimensions of the input vector input to the integrated classifier at each pixel is Nd + C dimensions. For the input vector, a C-dimensional output value corresponding to the number of classes C to be finally output is output by the integrated discriminator. Here, the number of classes identified by the first discriminator is the same as the number of classes finally output, but may be different.
また、ここでは、各画素で統合識別を行ったが、識別工程S130で用いた小領域ごとに統合識別を行ってもよいし、統合識別用に小領域やブロックを規定して小領域やブロックごとに統合処理を行ってもよい。その場合は、統合識別器に入力する前に、検出スコアマップおよび第1識別器による識別結果を小領域やブロックごとに平均化する。 Here, the integrated identification is performed for each pixel. However, the integrated identification may be performed for each small area used in the identification step S130, or the small area and the block may be defined by defining the small area and the block for the integrated identification. You may perform an integration process for every. In that case, before inputting to the integrated classifier, the discrimination result by the detection score map and the first classifier is averaged for each small region or block.
以上説明した方法によって、検出工程における検出結果と識別工程における識別結果とが統合されて、最終的に図9(d)の結果が得られる。このあと、非特許文献2に開示されているような条件付き確率場CRF(Conditional−Random−Field)を用いて各画素のクラスを再推定してもよい。 By the method described above, the detection result in the detection step and the identification result in the identification step are integrated, and finally the result of FIG. 9D is obtained. Thereafter, the class of each pixel may be re-estimated using a conditional random field CRF (Conditional-Random-Field) as disclosed in Non-Patent Document 2.
次に、本実施形態における検出工程S120、識別工程S130で利用する第1識別器および第2識別器の学習方法について説明する。 Next, a learning method for the first discriminator and the second discriminator used in the detection step S120 and the discrimination step S130 in the present embodiment will be described.
図10(a)は、本実施形態における学習装置300の機能構成を示す図である。なお、学習装置300のハードウェア構成は図4に示した画像認識装置20と同様である。ここでは、学習装置300が図5の画像認識装置20とは別に構成されているものとして説明するが、学習装置300が画像認識装置20と一体に構成されて、画像認識装置20に学習装置300の各機能部が含まれるよう構成されていてもよい。即ち、画像認識装置20のCPU401がROM403やHD404等に格納されたプログラムを実行することにより、学習装置300の機能構成及び学習装置300に係るフローチャートの処理が実現されるようにしてもよい。
FIG. 10A is a diagram illustrating a functional configuration of the
学習装置300は、第1識別器学習部301、学習時識別部302、誤識別領域選択部303、第2識別器学習データ生成部304、第2識別器学習部305、統合識別器学習部306を有する。更に、学習装置300は、必要なデータを記憶、保持するための手段として学習用画像保持部351、学習評価画像保持部352、第1識別器保持部353、第2識別器学習データ保持部354、第2識別器保持部355、第2統合識別器保持部356を有している。学習装置300が有する各機能の詳細については、図11(a)等を用いて後述する。
The
図11(a)は、本実施形態における学習に関する処理を示すフローチャートである。 FIG. 11A is a flowchart showing processing related to learning in the present embodiment.
まず、第1識別器学習工程T110では、第1識別器学習部301が、学習用画像保持部351に保持されている学習用画像を用いて、第1識別器を学習する。図12は、第1識別器の学習に用いられる学習用画像を説明するための図である。本実施形態では、学習用画像として、例えば図12(a)に示されるような画像50と、図12(b)に示されるような、画像50の各画素のクラス名が定義されている正解データ(以下GT(グランドトゥルース)と記載)とを利用する。このとき複数の識別器を学習してもよいが、ここでは、説明の簡略化のため識別器を1つ学習するものとする。第1識別器学習部301で学習された第1識別器は、第1識別器保持部353に送信される。
First, in the first discriminator learning step T110, the first
次に、学習時識別工程T120では、学習時識別部302が、第1識別器学習工程T110で学習された第1識別器を用いて、学習評価画像保持部352に保持されている学習評価画像の領域のクラス識別を行う。ここでは、学習評価画像と前述の学習用画像の画像50とを区別して説明しているが、学習評価画像と前述の学習用画像は同じデータであってもよい。学習時識別部302でクラス識別された結果は、誤識別領域選択部303に送信される。
Next, in the learning time identification step T120, the learning
次に、誤識別領域選択工程T130では、誤識別領域選択部303が、学習時識別工程T120において識別されたクラス識別結果から誤識別領域を選択する。誤識別領域選択部303は、クラス識別結果と学習評価画像保持部352に保持されている学習評価画像のGTとを比較することにより、誤識別領域を選択する。誤識別領域の選択方法は、後で詳しく説明する。
Next, in the erroneous identification region selection step T130, the erroneous identification
次に、第2識別器学習データ生成工程T140では、第2識別器学習データ生成部304が、誤識別領域選択工程T130で選択された誤識別領域に基づいて第2識別器で学習する学習データを生成する。この生成方法については、後で詳しく説明する。第2識別器学習データ生成部304によって生成された学習データは、第2識別器学習データ保持部354に送信される。
Next, in the second discriminator learning data generation step T140, the learning data that the second discriminator learning
次に、第2識別器学習工程T150では、第2識別器学習部305が、第2識別器学習データ生成工程T140で生成された学習データを用いて第2識別器を学習する。 Next, in the second discriminator learning step T150, the second discriminator learning unit 305 learns the second discriminator using the learning data generated in the second discriminator learning data generation step T140.
最後に、統合識別器学習工程T160では、統合識別器学習部306が、第1識別器学習工程T110で学習した第1識別器の識別結果と第2識別器学習工程T150で学習した第2識別器の識別結果とを統合する統合識別器もしくパラメータを学習する。 Finally, in the integrated discriminator learning step T160, the integrated discriminator learning unit 306 performs the identification result of the first discriminator learned in the first discriminator learning step T110 and the second discrimination learned in the second discriminator learning step T150. The integrated classifier or parameter that integrates the classifier result is learned.
次に、図11(a)に示したフローチャートに従って、各工程の具体的な処理について述べる。 Next, specific processing of each step will be described according to the flowchart shown in FIG.
まず、第1識別器学習工程T110では、第1識別器学習部301が、第1識別器の学習を行う。第1識別器は、先に説明したように各画素のクラスを識別できるものであればどのような識別器であってもよい。本実施形態においては、小領域から特徴量を抽出し、その特徴量を入力とする識別器の1つであるRecursive−Neural−Networks(RNNs)を用いて説明する。RNNsについては、非特許文献1に詳細な説明がなされている。
First, in the first discriminator learning step T110, the first
図13は、第1識別器学習部301により実行される第1識別器学習工程の処理の詳細なフローを示したものである。図中のMは、第1識別器の学習に用いる学習評価画像の数を示している。
FIG. 13 shows a detailed flow of the process of the first discriminator learning process executed by the first
まず、T1201では、第1識別器の学習に用いる学習用画像のリストを設定する。 First, at T1201, a list of learning images used for learning of the first discriminator is set.
次に、T1202では、T1201で設定された学習画像リストに基づいて、第1識別器の学習に用いる各学習用画像を小領域に分割する。例えば、画像認識処理の識別工程S130で説明したようなSP(スーパーピクセル)と呼ばれる小領域に分割する。 Next, in T1202, based on the learning image list set in T1201, each learning image used for learning by the first discriminator is divided into small regions. For example, the image is divided into small regions called SP (superpixels) as described in the image recognition processing identification step S130.
次に、T1203では、T1202で分割された各小領域の特徴量を抽出する。もしくは、全学習用画像それぞれの特徴量を予め抽出しておいて、この工程では学習画像リストに基づいて特徴量をロードしてもよい。T1202、T1203の処理は、全学習用画像の全小領域に対して行われる。特徴量の例としては、各小領域内の色特徴やテクスチャ特徴の統計量を用いればよく、例えば、RGB、HSV、Lab、YCbCr色空間の各成分や、Gabor filter、LoGのフィルタ応答を用いることができる。色特徴は、4(色空間)×3(成分)の12次元となる。また、フィルタ応答は、Gabor filter、LoGフィルタの数に対応した次元数となる。 Next, in T1203, the feature amount of each small area divided in T1202 is extracted. Alternatively, the feature amounts of all the learning images may be extracted in advance, and the feature amounts may be loaded based on the learning image list in this step. The processes of T1202 and T1203 are performed for all small regions of all learning images. As an example of the feature amount, a statistic of color feature or texture feature in each small region may be used. For example, RGB, HSV, Lab, YCbCr color space components, Gabor filter, LoG filter responses are used. be able to. The color feature has 12 dimensions of 4 (color space) × 3 (component). The filter response has a dimension number corresponding to the number of Gabor filters and LoG filters.
さらには、小領域ごとに特徴付けを行うため、各小領域内の画素ごとに得られる特徴量から統計量を求める。用いる統計量は、平均、標準偏差、歪度、尖度の4つを用いるとする。歪度は分布の非対称性の度合いを示し、尖度は分布が平均の近くに密集している度合いを示す統計量である。よって、色特徴は4(色空間)×3(成分)×4(統計量)の48次元となり、テクスチャ特徴の次元数は(フィルタ応答数)×4(統計量)となる。また、この他に小領域の重心座標や小領域の面積などを特徴量としてもよい。 Further, since the characterization is performed for each small area, the statistic is obtained from the characteristic amount obtained for each pixel in each small area. Assume that four statistics are used: average, standard deviation, skewness, and kurtosis. Skewness indicates the degree of asymmetry of the distribution, and kurtosis is a statistic indicating the degree to which the distribution is close to the average. Therefore, the color feature has 48 dimensions of 4 (color space) × 3 (component) × 4 (statistic), and the number of dimensions of the texture feature is (filter response number) × 4 (statistic). In addition, the center of gravity coordinates of the small area, the area of the small area, and the like may be used as the feature amount.
次に、T1204では、第1判別器が学習する領域のクラス定義およびクラス数を設定する。クラス数は2以上であればよい。例えば、図12(b)の学習用画像には、sky、building、tree、road、bodyが定義されている。この場合、クラス数を5クラスとしてもよいし、building、tree、road、bodyを合わせて1つのクラスとして、そのクラスとskyの2クラスを識別する識別器を学習してもよい。 Next, in T1204, the class definition and the number of classes of the area learned by the first discriminator are set. The number of classes may be two or more. For example, sky, building, tree, load, and body are defined in the learning image in FIG. In this case, the number of classes may be five, or a classifier that identifies two classes, that class and sky, may be learned by combining building, tree, load, and body as one class.
次に、T1205では、T1204で定義されたクラスを識別する第1識別器を学習する。学習された第1識別器は第1識別器保持部353に記憶される。 Next, in T1205, a first classifier that identifies the class defined in T1204 is learned. The learned first discriminator is stored in the first discriminator holding unit 353.
学習時識別工程T120では、学習時識別部302が、第1識別器学習工程T110により学習された第1識別器を用いて学習評価画像に対してクラスの識別を行う。ここでは、第1識別器の数は1、学習評価画像はN枚とし、合計N回のクラス識別を行う。このクラス識別では、先の第1識別器学習工程T110で定義した小領域に学習評価画像を分割して、各小領域の特徴量に基づいてクラスを識別する。本実施形態における第1識別器であるRecursive−Neural−Networks(RNNs)は、先に定義した各クラスに対する尤度を出力する。
In the learning time identification step T120, the learning
第1識別器で識別するクラス数をCとすると、各小領域に対する第1識別器の判別器結果SRは、以下の数2式で表される。
SR={S1,S2,・・・,Sc} ・・・数2
ここで各Sc(c=1、2、・・・、C)は、各クラスに対する尤度である。クラスを識別するにあたっては、上記の数2式に基づき、各小領域に対して最も尤度の高いクラスを割り当てる。各学習評価画像に対するクラス識別の結果は、誤識別領域選択部303に送信される。
When the number of classes identified by the first identifier is C, classifier result S R of the first discriminator for each small region is expressed by the following equation (2).
S R = {S 1 , S 2 ,..., S c }.
Here, each S c (c = 1, 2,..., C) is a likelihood for each class. In identifying the class, the class with the highest likelihood is assigned to each small region based on the above equation (2). The class identification result for each learning evaluation image is transmitted to the misidentification
次に、誤識別領域選択工程T130では、誤識別領域選択部303が、学習評価画像に対する識別結果とGT(グランドトゥルース)とを比較することで、誤識別領域を選択する。図14は、誤識別領域選択工程の処理を説明する図である。図14(a)は、学習評価画像120に対して第1識別器によってクラスを識別した小領域およびその識別結果を示している。また、図14(b)は、学習評価画像のGT130を示している。誤識別領域選択部303は、図14(a)の識別結果と図14(b)のGTとを比較して、誤識別領域121を選択する。誤識別領域選択部303は、各学習評価画像に対して誤識別領域を取得する。
Next, in the misidentification region selection step T130, the misidentification
次に、第2識別器学習データ生成工程T140では、第2識別器学習データ生成部304が、誤識別領域選択工程T130で選択された誤識別領域に基づいて、第2識別器で学習する学習データを生成する。図15は、第2識別器学習データ生成部304によって実行される第2識別器学習データ生成工程T140の詳細な処理のフローチャートである。図中のLは選択する誤識別領域の数であり、生成される学習データ数に対応する。
Next, in the second discriminator learning data generation step T140, learning in which the second discriminator learning
T1401では、誤識別領域選択工程T130で選択された誤識別領域をソートする。全ての誤識別領域に対して第2識別器で学習データを生成するようにしてもよいが、ここでは、一部の誤識別領域を用いて学習データを生成するために、誤識別領域をソートする。ソート方法は、たとえば、学習評価画像の各小領域をクラス識別した際の尤度や小領域の面積を用いればよい。たとえば、尤度の高い領域を選択すれば、尤度が高いにも関わらずクラスを誤って識別している小領域を選択することができ、小領域の特徴量のみでは識別することが難しいような小領域を選択することができる。 In T1401, the misidentification areas selected in the misidentification area selection step T130 are sorted. Although the learning data may be generated by the second discriminator for all the misidentification areas, here the misidentification areas are sorted in order to generate learning data using a part of the misidentification areas. To do. As the sorting method, for example, the likelihood when classifying each small region of the learning evaluation image or the area of the small region may be used. For example, if a region with a high likelihood is selected, a small region in which the class is mistakenly identified even though the likelihood is high can be selected, and it is difficult to identify only with a feature amount of the small region. A small area can be selected.
T1402では、T1401でソートした誤識別領域を1つ選択する。そして、T1403では、第2識別器で学習する学習データ(正事例)を生成する。図16は、第2識別器で学習する学習データを示す。図16(a)は、学習評価画像120から、誤識別領域121に近い小領域をいくつか連結して学習データ122を生成した例を表している。連結させる小領域は誤識別領域に近い領域で、同じクラスの領域であればいくつ連結してもよい。図16(b)は、さらに小領域をいくつか連結した例を表している。図16(c)は、図16(d)に示されるようなGT130に基づいて、誤識別領域を含む同クラスの領域(図ではcar領域)を第2識別器の学習データとして選択している。なお、学習データの選択方法としては、誤識別を含むようにすれば、小領域を連結するのではなく矩形などで学習データを切り出してきてもよい。
In T1402, one misidentification area sorted in T1401 is selected. In T1403, learning data (positive case) learned by the second discriminator is generated. FIG. 16 shows learning data learned by the second discriminator. FIG. 16A shows an example in which
T1404では、T1403で生成された学習データ(正事例)に対する負事例を生成する。図17は、負事例を生成するT1404の処理を説明するための図である。図17(a)は学習評価画像120に対して生成された学習データ122を示しており、図17(b)は別の学習評価画像150から負事例123を生成する様子を示している。負事例は、誤識別領域に小領域をいくつか連結して生成した学習データの形状を表すマスクを用いて、誤識別領域を検出した学習評価画像とは異なる学習評価画像の一部分を切り出すことで生成することができる。このようにして、複数の学習評価画像から、学習データと同一の形状で切り出した領域を負事例として作成する。なお、負事例は、誤識別領域で誤識別したクラスと同じクラスの領域から生成される方が効果的である。
In T1404, a negative case for the learning data (positive case) generated in T1403 is generated. FIG. 17 is a diagram for explaining the processing of T1404 for generating a negative case. FIG. 17A shows learning
T1405では、T1403で生成された学習データ(正事例)により第2識別器を学習することで、識別性能が向上するかを評価する。具体的には、T1403で生成された学習データ(正事例)およびT1404で生成された負事例データから特徴量を取得し、その距離を算出する。ここでは、第1識別器学習の際に用いた特徴量と同様の特徴量を用いるが、他の特徴量を用いるようにしてもよい。生成した学習データをSPosi、負事例データをSNega_iとするとき、SPosiは数3式を満たすように設定すればよい。
argimin dist(f(SPosi),f(SNega_i))>l1 ・・・数3
数3式において、distは二つの特徴量の距離を計算するもので、ヒストグラム距離やユーグリッド距離などを用いることができる。また、fは小領域内の特徴量を示している。数3式により表現されるように、最も近接する負事例データに対する距離が所定の距離l1以上であれば、その学習データを採用し、所定の距離l1以下であれば再度学習データを生成する。l1は0以上の任意の値でよいが、例えば、学習評価画像中で誤識別していない小領域同士の距離それぞれ算出し、その中で最も値の小さい距離を用いるようにしてもよい。
In T1405, it is evaluated whether the discrimination performance is improved by learning the second discriminator from the learning data (correct case) generated in T1403. Specifically, the feature amount is acquired from the learning data (positive case) generated in T1403 and the negative case data generated in T1404, and the distance is calculated. Here, the same feature quantity as that used in the first discriminator learning is used, but other feature quantities may be used. When the generated learning data is S Posi and the negative case data is S Nega_i , S Posi may be set to satisfy Equation 3.
arg i min dist (f (S Posi ), f (S Nega — i ))> l 1
In equation (3), dist calculates the distance between two feature quantities, and a histogram distance, Eugrid distance, or the like can be used. Further, f indicates a feature amount in the small area. As expressed by Equation 3, if the distance to the closest negative case data is greater than or equal to the predetermined distance l 1 , the learning data is adopted, and if the distance is equal to or smaller than the predetermined distance l 1 , learning data is generated again. To do. l 1 may be an arbitrary value equal to or greater than 0. For example, the distance between small regions that are not misidentified in the learning evaluation image may be calculated, and the distance having the smallest value may be used.
また、学習データと負事例データを比較するだけでなく、学習データと同じクラスの領域(この場合carの領域)とも比較を行い、学習データと負事例データの距離は離し、且つ、同じクラスの他の領域との距離は離さないようにする。これにより、学習データが示す領域の大きさが大きくなりすぎないようできる。同じクラスの他の領域をS(c=c(SPosi))とすると、SPosiは数4式を満たすように設定すればよい。
dist(f(SPosi),f(SNega))>l1,dist(f(SPosi),f(S(c=c(SPosi))))<l2 ・・・数4
ここで、数4式におけるl2は予め定められた所定値であり、例えば、学習評価画像中で誤識別していない小領域同士の距離を算出し、その中で最も小さい値をl1に、最も大きい値l2とする。選択した誤識別領域の全てに対して、以上の処理を行う。
In addition to comparing the learning data with the negative case data, the learning data is also compared with the area of the same class as the learning data (in this case, the car area), the distance between the learning data and the negative case data is separated, and the same class Avoid distances from other areas. Thereby, the size of the area indicated by the learning data can be prevented from becoming too large. Assuming that another region of the same class is S (c = c (S Posi )), S Posi may be set so as to satisfy Equation 4.
dist (f (S Posi ), f (S Nega ))> l 1 , dist (f (S Posi ), f (S (c = c (S Posi )))) <l 2.
Here, l 2 in Equation 4 is a predetermined value, for example, the distance between small regions that are not misidentified in the learning evaluation image is calculated, and the smallest value among them is set to l 1 . The largest value is l 2 . The above process is performed on all selected erroneous identification areas.
次に、第2識別器学習工程T150では、第2識別器学習部305が、第2識別器学習データ生成工程T140で生成された学習データを用いて識別器を学習する。たとえば、各学習データに対して生成した負事例を用いて、SupportVectorMashines(SVMs)を学習すればよい。学習された各識別器は第2識別器学習データ保持部354に保持され、識別処理において利用される。
Next, in the second discriminator learning step T150, the second discriminator learning unit 305 learns the discriminator using the learning data generated in the second discriminator learning data generation step T140. For example, it is only necessary to learn SupportVectorMachines (SVMs) using negative cases generated for each learning data. Each learned discriminator is held in the second discriminator learning
最後に、統合識別器学習工程T160では、統合識別器学習部306が、第1識別器学習工程T110で学習した第1識別器の識別結果と第2識別器学習工程T150で学習した第2識別器の識別結果を統合する統合識別器もしくパラメータを学習する。 Finally, in the integrated discriminator learning step T160, the integrated discriminator learning unit 306 performs the identification result of the first discriminator learned in the first discriminator learning step T110 and the second discrimination learned in the second discriminator learning step T150. The integrated discriminator or parameter for integrating the discriminator results is learned.
前述したとおり、第1識別器の識別結果と第2識別器の識別結果とを統合する統合方法は2つある。ここでは、2つ目の方法として挙げた統合識別器を利用する方法を用いるものとし、この統合識別器の学習方法について説明をする。なお、1つ目の方法を利用する場合には、検出器(第2識別器)が出力するスコア(尤度)から最終結果として採用するスコアを決めるための閾値を、学習評価画像に対して決定する。その際には、複数の閾値を設定し、学習評価画像に対して領域分割の精度が最も高くなる閾値を採用すればよい。 As described above, there are two integration methods for integrating the identification result of the first classifier and the identification result of the second classifier. Here, the method using the integrated classifier mentioned as the second method is used, and a learning method of this integrated classifier will be described. When the first method is used, a threshold for determining a score to be adopted as a final result from the score (likelihood) output from the detector (second discriminator) is set for the learning evaluation image. decide. In that case, a plurality of threshold values may be set, and a threshold value with the highest area division accuracy may be adopted for the learning evaluation image.
図18は、統合識別器学習工程T160において、統合識別器学習部306が行う処理の詳細なフローチャートである。図中のNは学習評価画像数を示している。ここでは、学習評価画像に対して再度第1識別器を用いてクラスを識別するようにしているが、学習時識別工程T120で行った識別結果を保持しておいてロードしてもよい。 FIG. 18 is a detailed flowchart of processing performed by the integrated classifier learning unit 306 in the integrated classifier learning step T160. N in the figure indicates the number of learning evaluation images. Here, the class is identified again using the first discriminator for the learning evaluation image, but the identification result performed in the learning-time identification step T120 may be held and loaded.
T2601では、統合識別器の学習に用いる学習評価画像のリストを取得する。以下では学習評価画像の全画素の結果を統合識別器の学習に用いるとしているが、学習時間短縮のために間引いてもよい。また、ここでは学習評価画像を利用する例について述べているが、他の学習画像を用意してもよいし、第1識別器の学習時に用いた学習用画像を利用してもよい。 In T2601, a list of learning evaluation images used for learning of the integrated classifier is acquired. In the following, the results of all the pixels of the learning evaluation image are used for learning of the integrated discriminator, but may be thinned out to shorten the learning time. Although an example using a learning evaluation image is described here, another learning image may be prepared, or a learning image used during learning of the first discriminator may be used.
T2602では、学習評価画像のリストに従い、学習評価画像を1枚ずつロードする。次に、T2603では、先の第2識別器学習手段で学習された第2識別器をロードし、学習評価画像の対象位置に対して検出処理を行う。対象位置とは、学習評価画像に対して検出処理を行う対象の位置であり、通常は学習評価画像の左上から右下に対してラスタスキャンをしていく。本実施形態においても、学習評価画像の左上から右下に対してラスタスキャンすることで、検出処理を行う。なお、本実施形態では、第2識別器を1つだけとして説明するが、複数ある場合には複数の識別器を利用して検出処理を行う。なお、複数の識別器を利用した場合の統合識別器の学習方法に関しては後で述べる。 In T2602, according to the list of learning evaluation images, the learning evaluation images are loaded one by one. Next, in T2603, the second classifier learned by the second classifier learning unit is loaded, and detection processing is performed on the target position of the learning evaluation image. The target position is a position where a detection process is performed on the learning evaluation image, and usually a raster scan is performed from the upper left to the lower right of the learning evaluation image. Also in the present embodiment, the detection process is performed by raster scanning from the upper left to the lower right of the learning evaluation image. In the present embodiment, the description will be made assuming that there is only one second discriminator. However, when there are a plurality of discriminators, the detection process is performed using the plural discriminators. A learning method of the integrated classifier when a plurality of classifiers is used will be described later.
すべての位置で検出処理を行ったのち、処理はT2605へ進む。T2605では、第1識別器を用いて学習評価画像のクラス識別を行う。 After performing the detection process at all positions, the process proceeds to T2605. In T2605, class identification of the learning evaluation image is performed using the first classifier.
T2606では、T2603で行われた検出処理およびT2605で行われたクラス識別の結果を結合する。各画素に対応する結合結果をS(x、y)とすると、統合結果は以下の数5式となる。
S(x,y)={S(x,y)∈R,SD(x,y)} ・・・数5
ここで、S(x、y)∈Rは対象画素が含まれる小領域に対する第1識別器による識別結果を表している。また、SD(x、y)は数1式で現れる対象画素(x、y)に対応する第2識別器の識別スコアである。たとえば、第1識別器の識別するクラス数を10として、第2識別器の数が5の場合、S(x、y)の次元数は15となる。以上の作業を学習評価画像のリストに従い、各学習評価画像の全画素に対して行う。
In T2606, the detection process performed in T2603 and the result of the class identification performed in T2605 are combined. When the combined result corresponding to each pixel is S (x, y), the integrated result is expressed by the following equation (5).
S (x, y) = {S (x, y) εR , S D (x, y)} Equation 5
Here, S (x, y) εR represents the discrimination result by the first discriminator for the small region including the target pixel. S D (x, y) is an identification score of the second classifier corresponding to the target pixel (x, y) appearing in
T2607では、数5式で表されるT2606で結合した結果を入力として、各画素のクラスを識別する識別器を学習する。図12(b)の場合、sky、building、tree、road、bodyが定義されているため、5クラスに対応してクラス尤度を出力する識別器を学習する必要がある。5クラスのいずれであるかを識別するマルチクラス識別器を学習してもよいし、各クラスについて、そのクラスであるかそれ以外のクラスであるかを識別する2クラス識別器を5個学習し、5個の識別器のうち最もクラス尤度の高いクラスに割り当てるようにしてもよい。図12(b)の場合であれば、skyであるか、それ以外のクラスであるbuilding、tree、road、bodyをまとめた4クラスのどれかであるかの2クラス識別を行う。それを他の4クラスに対しても行い、識別時には最も高い尤度を出力した2クラス識別器が識別しているクラスを割り当てる。 In T2607, the classifier that identifies the class of each pixel is learned by using the result of combining in T2606 expressed by Equation 5 as an input. In the case of FIG. 12B, since sky, building, tree, load, and body are defined, it is necessary to learn a classifier that outputs class likelihood corresponding to five classes. A multi-class classifier that identifies which class is one of the five classes may be learned, and for each class, five 2-class classifiers that identify the class or the other class are learned. Of the five classifiers, the class having the highest class likelihood may be assigned. In the case of FIG. 12B, two-class identification is performed to determine whether the class is sky or any of the four classes including building, tree, load, and body that are other classes. This is also performed for the other four classes, and at the time of identification, the class identified by the two-class classifier that outputs the highest likelihood is assigned.
以上により、統合識別器学習工程T160の処理は完了し、この工程で学習された統合識別器は第2統合識別器保持部356に保持され、識別処理の統合識別工程S140において供される。上記説明では、第1統合識別器保持部507と第2統合識別器保持部356を別の構成として説明したが、画像認識装置20と学習装置300を一体に構成する場合には、第1統合識別器保持部507と第2統合識別器保持部356を1つの保持部としてもよい。
The integrated discriminator learning step T160 is thus completed, and the integrated discriminator learned in this step is held in the second integrated discriminator holding unit 356 and provided in the integrated discriminating step S140 of the discriminating process. In the above description, the first integrated
本実施形態では、各画素に対して統合識別を行う例について述べたが、数5式で表される各画素における結合結果を小領域もしくはブロックごとに平均化して入力してもよい。その場合、統合する識別器の学習時に与える教師値は小領域内で最も画素数の多いクラスを与えてもよし、小領域の面積に対する画素数を回帰値としてsupport−vector−regressionを学習してもよい。 In the present embodiment, an example in which integrated identification is performed on each pixel has been described. However, a combination result in each pixel expressed by Equation 5 may be averaged and input for each small region or block. In that case, the teacher value given when learning the classifiers to be integrated may be given the class having the largest number of pixels in the small area, or the support-vector-regulation is learned by using the number of pixels relative to the area of the small area as a regression value. Also good.
また、本実施形態においては、全学習評価画像を用いて統合識別器を学習する例について説明したが、全学習評価画像を用いるのではなく、学習評価画像をランダムに選択してもよいし、学習評価画像内の画素をランダムに選択してもよい。 Moreover, in this embodiment, although the example which learns an integrated discriminator using all the learning evaluation images was demonstrated, instead of using all the learning evaluation images, you may select a learning evaluation image at random, You may select the pixel in a learning evaluation image at random.
以上のように、本実施形態の画像認識装置20によれば、まず、第2識別器によりクラスを識別すべき領域を検出するとともに、第1識別器を用いて前記認識対象画像の領域ごとにクラスを識別する。そして、第2識別器を用いた検出結果と第1識別器によるクラス識別を統合して、認識対象画像の各領域のクラスを識別する。この構成により、本実施形態では、クラスの識別が難しい小領域の誤検出を軽減でき、画像を高精度に認識することができる。
As described above, according to the
また、学習時識別部302が第1識別器による学習評価画像の識別結果を評価するとともに、誤識別領域選択部303が第1識別器では誤識別領域を、識別が難しい小領域として選択する。そして、第2識別器学習部305は、選択された誤識別領域を含む複数の小領域からなる領域を識別するための第2の識別器を学習する。最後に、第1識別器による識別結果と第2識別器による識別結果とを統合して、統合識別器を学習する。以上のように学習した第1識別器および第2識別器を利用する画像認識装置20では、画像の識別精度を高めることができる。
In addition, the learning-
[第2の実施形態]
次に、第2の実施形態として、学習時に位置情報などの付帯情報を第2識別器に対応づけておくことで、認識時にその付帯情報を取得し、その情報に基づいて複数ある第2識別器の中から必要な第2識別器を選択して識別を行う形態について説明を行う。
[Second Embodiment]
Next, as a second embodiment, incidental information such as position information is associated with a second discriminator at the time of learning to acquire the incidental information at the time of recognition, and there are a plurality of second identifications based on the information. A mode in which a necessary second discriminator is selected from among the discriminators to perform discrimination will be described.
付帯情報とは、撮影の際に画像に付帯させることができる種々の情報のことである。たとえば、撮影を行った位置のGPSなどの位置情報、色温度やカメラで設定された各種パラメータ等の認識対象画像を撮影したカメラにより得られる情報、ブロックや画素ごとに得られるオートフォーカスの情報、撮影画像から得られるシーン特徴量などがある。シーン特徴量とは、画像に対して一意に得られる特徴量のことであり、非特許文献5に記載されているSpatial Pyramid Matching Kernelや非特許文献4に記載されているGIST特徴量を利用することができる。または、画像を複数のブロックに分割し、各ブロックの色分布をヒストグラム化した特徴量などでもよい。その他、画像全体を表す特徴量や、画像の各部分から得られる特徴量を統計量として集計したものであれば利用できる。 The accompanying information is various information that can be attached to an image at the time of photographing. For example, position information such as GPS of the position where the image was taken, information obtained by the camera that took the image to be recognized such as color temperature and various parameters set by the camera, autofocus information obtained for each block or pixel, There are scene feature values obtained from captured images. The scene feature value is a feature value uniquely obtained for an image, and uses a spatial pyramid matching kernel described in Non-Patent Document 5 or a GIST feature value described in Non-Patent Document 4. be able to. Alternatively, it may be a feature amount obtained by dividing an image into a plurality of blocks and histogramating the color distribution of each block. In addition, any feature amount that represents the entire image or a feature amount obtained from each part of the image is aggregated as a statistic.
本実施形態における画像認識装置20、学習装置300の機能構成は、第1の実施形態において図5、図10(a)で示した画像認識装置20、学習装置300と同様であるが、一部の機能部における処理内容が第1の実施形態とは異なる。具体的には、画像認識装置20における取得部501は、画像の認識処理において、認識対象画像とともに付帯情報を取得する。また、学習装置300が用いる学習用画像および学習評価画像について、少なくとも第2識別器の学習に用いるデータに対しては付帯情報が必要である。
The functional configurations of the
次に、本実施形態における画像の認識処理について説明する。図6(b)は、本実施形態における認識対象の画像を処理する際の認識処理を示すフローチャートである。取得工程S210の処理内容は、第1の実施形態におけるS110と同様であるため、説明を省略する。 Next, image recognition processing in the present embodiment will be described. FIG. 6B is a flowchart showing the recognition processing when processing the image to be recognized in the present embodiment. Since the processing content of acquisition process S210 is the same as that of S110 in 1st Embodiment, description is abbreviate | omitted.
付帯情報取得工程S220では、取得部501が、取得工程S210において取得した認識対象画像の付帯情報を取得し、取得した付帯情報を検出部504に送信する。取得する付帯情報としては、前述したように、たとえば、カメラ10にGPSが搭載されていれば位置情報を取得するようにしてもよいし、もしくはカメラ10が撮像するために用いたパラメータ等を取得するようにしてもよい。
In the incidental information acquisition step S220, the
検出工程S230では、検出部504が、付帯情報取得工程S220において得られた付帯情報に基づいて複数ある第2識別器の中から所定の第2識別器をロードし、検出処理を行う。本実施形態では、学習処理の第2識別器学習工程において、付帯情報を第2識別器と一緒に保持しておき、認識処理の際に付帯情報が近い所定数の第2識別器をロードする。または、付帯情報間の距離を定義して距離に応じて第2識別器をロードするようにしてもよい。
In the detection step S230, the
またさらに、付帯情報との距離に応じて各検出器(第2識別器)の結果を重みづけしてもよい。例えば、シーン特徴量の場合、第2識別器の学習データを取得した学習評価画像のシーン特徴量と認識対象画像のシーン特徴量との距離を算出し、付帯情報との距離に応じて各検出器の結果を重みづけする。このような距離としては、例えばヒストグラム距離などを用いることができる。また、各種撮影パラメータや色温度などの、画像に対して一意に対応する情報を付帯情報として利用する場合には、その数値を直接比較すればよい。また、ブロックや画素ごとに対応づけられたオートフォーカス情報の場合には、その得られた値をベクトル化したり、ヒストグラム化したりして比較するようにすればよい。また、それらすべての値を結合、ベクトル化して、第2識別器の学習データを取得した学習評価画像から得られるベクトルと比較するようにしてもよい。 Furthermore, the result of each detector (second discriminator) may be weighted according to the distance from the incidental information. For example, in the case of a scene feature amount, the distance between the scene feature amount of the learning evaluation image obtained from the learning data of the second discriminator and the scene feature amount of the recognition target image is calculated, and each detection is performed according to the distance to the auxiliary information. Weight the result of the vessel. As such a distance, for example, a histogram distance or the like can be used. When information uniquely corresponding to an image such as various shooting parameters and color temperature is used as supplementary information, the numerical values may be directly compared. In addition, in the case of autofocus information associated with each block or pixel, the obtained values may be compared by vectorization or histogram formation. Alternatively, all these values may be combined and vectorized, and compared with a vector obtained from a learning evaluation image obtained by acquiring learning data of the second discriminator.
第2識別器をロードした後の検出工程S230の処理内容は、第1の実施形態における処理内容と同様であるため、その説明を省略する。 Since the processing content of the detection step S230 after loading the second discriminator is the same as the processing content in the first embodiment, the description thereof is omitted.
識別工程統合処理S240および統合識別処理工程S250の処理内容は、第1の実施形態におけるS130およびS140と同様であるため、説明を省略する。 The processing contents of the identification step integration processing S240 and the integration identification processing step S250 are the same as S130 and S140 in the first embodiment, and thus description thereof is omitted.
以上、本実施形態では、学習装置300は第2識別器を学習する際に付帯情報も併せて保持し、画像を認識する認識処理の際に認識対象画像の付帯情報に基づいて第2識別器をロードする。これにより、不必要な第2識別器による検出処理を省くことででき、画像認識装置20によるクラス識別の精度向上および高速化、省メモリ化を達成することができる。
As described above, in the present embodiment, the
[第3の実施形態]
次に、第3の実施形態として、学習処理において学習された統合識別器での識別結果を学習評価画像を用いて評価することにより、第2識別器および統合識別器による識別結果の精度を向上させる形態について説明する。なお、本実施形態において、統合識別器を評価するために用いられる学習評価画像は、他の工程で用いられる学習評価画像と同じであってもよいし、別に用意してもよい。
[Third Embodiment]
Next, as a third embodiment, the accuracy of identification results by the second classifier and the integrated classifier is improved by evaluating the classification result of the integrated classifier learned in the learning process using the learning evaluation image. The form to be made is demonstrated. In the present embodiment, the learning evaluation image used for evaluating the integrated discriminator may be the same as the learning evaluation image used in other steps, or may be prepared separately.
本実施形態における画像認識装置20およびその処理フローは、第1の実施形態と同様であるため説明を省略する。次に、本実施形態における学習装置300およびその処理フローについて説明する。図10(b)は、本実施形態における学習装置300の機能構成を示す図である。本実施形態における学習装置300は、第1の実施形態において図10(a)で示した学習装置300の各機能部の構成に加えて、統合識別器評価部307を有する。統合識別器評価部307の詳細な説明については、図11(b)等を用いて後述する。その他の機能部の構成については、図10(a)と同様であるため説明を省略する。
Since the
次に、本実施形態における学習処理について説明する。図11(b)は、本実施形態において、学習装置300が実行する学習処理を示すフローチャートである。第1識別器学習工程T310から統合識別器学習工程T360までの処理は、第1の実施形態における第1識別器学習工程T110から統合識別器学習工程T160と同様であるため、その説明を省略する。
Next, the learning process in this embodiment will be described. FIG. 11B is a flowchart illustrating a learning process executed by the
統合識別器評価工程T370では、統合識別器評価部307が、統合識別器学習工程T360により学習された統合識別器を評価する。図19は、統合識別器評価部307により実行する統合識別器評価工程T370の処理の詳細を示したフローチャートである。 In the integrated discriminator evaluation step T370, the integrated discriminator evaluation unit 307 evaluates the integrated discriminator learned in the integrated discriminator learning step T360. FIG. 19 is a flowchart showing details of the integrated discriminator evaluation step T370 executed by the integrated discriminator evaluating unit 307.
T3701では、学習評価画像に対して、第2識別器によって学習した事例の検出処理を行う。この検出処理の方法は、認識処理における検出工程S120の処理内容と同様であるため、説明を省略する。 In T3701, the detection processing of the case learned by the second classifier is performed on the learning evaluation image. Since the method of this detection process is the same as the processing content of the detection step S120 in the recognition process, description thereof is omitted.
T3702では、学習評価画像に対して、第1識別器によってクラスの識別を行う。ここでの処理内容も、認識処理における識別工程S130の処理内容と同様であるため、説明を省略する。 In T3702, the class is identified by the first classifier for the learning evaluation image. Since the processing content here is the same as the processing content of the identification step S130 in the recognition processing, the description thereof is omitted.
T3703では、T3701の検出結果とT3702の識別結果とを統合し、第2統合識別器保持部356に記憶されている統合識別器を用いて学習評価画像の識別を行う。 In T3703, the detection result of T3701 and the identification result of T3702 are integrated, and the learning evaluation image is identified using the integrated classifier stored in the second integrated classifier holding unit 356.
T3704では、T3702で行った第1識別器による識別結果を学習評価画像のGTと比較することにより精度評価する。この精度評価には、例えば、PixelAccuracyを用いる。PixelAccuracyとは、非特許文献1などにおいて領域分割の評価によく用いられる評価値で、各画素のクラス識別結果が正解しているかどうかを集計した値である。
In T3704, accuracy is evaluated by comparing the identification result by the first classifier performed in T3702 with GT of the learning evaluation image. For example, Pixel Accuracy is used for this accuracy evaluation. PixelAccuracy is an evaluation value often used for evaluation of region division in
T3705では、T3703で行った統合識別器による統合識別結果を学習評価画像のGTと比較して精度評価する。ここでの精度評価もT3704と同様、PixelAccuracyを用いて評価を行う。 In T3705, the integrated identification result by the integrated classifier performed in T3703 is compared with the GT of the learning evaluation image to evaluate the accuracy. The accuracy evaluation here is also performed using Pixel Accuracy as in T3704.
T3706では、T3704でおよびT3705で評価した識別精度を比較する。そして、第1識別器による識別精度に対して、統合識別結果の精度が所定値以上高くなっていなければ、再度第2識別器を学習する。つまり、学習評価画像に対する統合識別器による識別結果であるPixelAccuracyが、第1識別器による識別結果であるPixelAccuracyよりも所定値以上高くなっていなければ、再度第2識別器を学習する。 In T3706, the discrimination accuracy evaluated in T3704 and T3705 is compared. Then, if the accuracy of the integrated identification result is not higher than a predetermined value with respect to the identification accuracy by the first identifier, the second identifier is learned again. That is, if the Pixel Accuracy as the identification result by the integrated classifier for the learning evaluation image is not higher than the Pixel Accuracy as the identification result by the first classifier, the second classifier is learned again.
再度第2識別器を学習する場合には、統合識別器による識別結果であるPixelAccuracyが第1識別器による識別結果よりも所定値以上高くなるまで、誤識別領域選択工程T330から統合識別器評価工程T370までを繰り返す。2回目以降の誤識別領域選択工程T330では、第1識別器による識別結果ではなく、統合識別器による統合識別結果に対して誤識別領域を選択する。選択された誤識別領域が、以前に選択されていた領域の場合には、第2識別器における学習データのサイズを変更するか特徴量を変更する。学習データのサイズを変更する場合には、先の学習データに比べて隣接する小領域を多く結合すればよい。また、以前に選択されていない誤識別領域の場合には、その領域を識別するための検出器(第2識別器)を追加すればよい。第2識別器を再学習したあとは、統合識別器を再度学習して、統合識別結果を再評価する。 When learning the second discriminator again, the integrated discriminator evaluation process starts from the erroneous discrimination area selection step T330 until PixelAccuracy, which is the discrimination result by the integrated discriminator, becomes higher than the discrimination result by the first discriminator by a predetermined value or more. Repeat until T370. In the second and subsequent erroneous identification region selection step T330, an erroneous identification region is selected for the integrated identification result by the integrated classifier, not by the identification result by the first identifier. If the selected misidentification area is an area that has been selected before, the size of the learning data in the second discriminator is changed or the feature amount is changed. When changing the size of the learning data, it suffices to combine a large number of adjacent small regions as compared with the previous learning data. In the case of a misidentification region that has not been selected before, a detector (second identifier) for identifying the region may be added. After re-learning the second discriminator, the integrated discriminator is learned again, and the integrated discriminating result is reevaluated.
以上、本実施形態によれば、第1の識別器による識別結果と第2の識別器による検出結果を統合した統合識別器を学習評価画像を用いて評価することにより、統合識別器による識別精度を高めることができる。 As described above, according to the present embodiment, by using the learning evaluation image to evaluate the integrated discriminator that integrates the discrimination result by the first discriminator and the detection result by the second discriminator, the discrimination accuracy by the integrated discriminator. Can be increased.
[第4の実施形態]
次に、第4の実施形態として、学習評価画像に対して誤識別した領域について、ユーザがクラスを定義することにより、その領域の事例に対応する第2識別器を学習する構成について説明する。好適な構成としては、ユーザが登録した学習評価画像を第1領域識別器がクラスを識別し、その結果をユーザが見て必要な箇所を誤識別領域として選択する。そして、選択された誤識別領域に基づいて、第2識別器を学習する。
[Fourth Embodiment]
Next, as a fourth embodiment, a configuration will be described in which a user defines a class for a region misidentified with respect to a learning evaluation image, thereby learning a second classifier corresponding to a case in that region. As a preferred configuration, the first region discriminator identifies the class of the learning evaluation image registered by the user, and selects a necessary portion as a misidentification region by viewing the result. Then, the second discriminator is learned based on the selected misidentification region.
本実施形態における画像認識装置20およびその処理フローは、第1の実施形態と同様であるため説明を省略する。次に、本実施形態における学習装置300およびその処理フローについて説明する。図10(c)は、本実施形態における学習装置300の機能構成を示す図である。本実施形態における学習装置300は、第1の実施形態において図10(a)で示した学習装置300の各機能部の構成に加えて、表示制御部308、学習評価画像取得部309を有する。表示制御部308、学習評価画像取得部309の詳細な説明については、図11(c)等を用いて後述する。その他の構成については、図10(a)と同様であるため説明を省略する。
Since the
次に、本実施形態における学習処理について説明する。図11(c)は、本実施形態において、学習装置300が実行する学習処理を示すフローチャートである。第1識別器学習工程T410の処理は、第1の実施形態における第1識別器学習工程T110と同様であるため、説明を省略する。
Next, the learning process in this embodiment will be described. FIG. 11C is a flowchart showing a learning process executed by the
学習評価画像取得工程T420では、学習評価画像取得部309が、ユーザによって学習装置300に登録された学習用画像を取得する。取得された学習評価画像は、学習評価画像保持部352に送信され、記憶される。
In the learning evaluation image acquisition step T420, the learning evaluation
学習時識別工程T430では、第1識別器学習部301が、学習評価画像取得工程T420で取得した学習評価画像に対して、第1識別器を用いてクラスの識別を行う。具体的な処理内容は、第1の実施形態における学習時識別工程T120の処理内容と同様であるため、説明を省略する。
In the learning time identification step T430, the first
誤識別領域選択工程T440では、表示制御部308が、学習時識別工程T430で用いられた学習用画像を表示部406に表示させる。表示部406に表示された学習用画像は学習時識別工程T430のクラス識別の際に分割された小領域の単位で選択できるようになっており、ユーザは操作部405(マウス等)を操作することによって誤識別領域を選択できる。誤識別領域選択部303は、ユーザが選択、指示した誤識別領域に関わる情報を取得することにより、誤識別領域を選択する。また、選択された誤識別領域に対するクラス定義も行われる。クラス定義は予め決められたクラスの中から、誤識別領域選択部303が選択するようにしてもよいし、ユーザが選択して、その選択した情報を誤識別領域選択部303が取得するようにしてもよい。
In the erroneous identification region selection step T440, the display control unit 308 causes the
第2識別器学習データ生成工程T450および第2識別器学習工程T460の処理は、第1の実施形態における第2識別器学習データ生成工程T140および第2識別器学習工程T150の処理内容と同様であるため、その説明を省略する。 The processing of the second discriminator learning data generation step T450 and the second discriminator learning step T460 is the same as the processing contents of the second discriminator learning data generation step T140 and the second discriminator learning step T150 in the first embodiment. Therefore, the description thereof is omitted.
以上、本実施形態では、第1識別器学習部301は、ユーザにより登録された学習評価画像を用いて第1識別器を学習するとともに、誤識別領域選択部303が、ユーザが選択指示した誤識別領域に関わる情報を取得することにより、誤識別領域を選択する。これによって、第1識別器では識別が難しい小領域を抽出することができる。特に、本実施形態では、ユーザの選択指示に基づいて誤識別領域を選択するようにしているので、GTがない学習評価画像を用いることができ、ユーザが認識させたい画像に対して識別精度の高い識別器を学習することができる。
As described above, in the present embodiment, the first
また、本発明は、上記実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(又はCPUやMPU等)がプログラムを読み出して実行する処理である。また、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。本発明は上記実施例に限定されるものではなく、本発明の趣旨に基づき種々の変形(各実施例の有機的な組合せを含む)が可能であり、それらを本発明の範囲から除外するものではない。即ち、上述した各実施例及びその変形例を組み合わせた構成も全て本発明に含まれるものである。 In addition, the present invention supplies software (program) for realizing the functions of the above-described embodiments to a system or apparatus via a network or various storage media, and the computer of the system or apparatus (or CPU, MPU, etc.) programs Is read and executed. Further, the present invention may be applied to a system composed of a plurality of devices or an apparatus composed of a single device. The present invention is not limited to the above embodiments, and various modifications (including organic combinations of the embodiments) are possible based on the spirit of the present invention, and these are excluded from the scope of the present invention. is not. That is, the present invention includes all the combinations of the above-described embodiments and modifications thereof.
300 学習装置
301 第1識別器学習部
302 学習時識別部
303 誤識別領域選択部
304 第2識別器学習データ生成部
305 第2識別器学習部
306 統合識別器学習部
DESCRIPTION OF
Claims (16)
学習した前記第1の識別器により、学習評価画像の領域ごとのクラスを識別する学習時識別工程と、
前記第1の識別器による前記学習評価画像に対するクラスの識別結果が誤っている誤識別領域を選択する選択工程と、
選択された前記誤識別領域を含む領域を用いて、学習データを生成する生成工程と、
前記生成された学習データのクラスを識別する第2の識別器を学習する第2の学習工程とを有することを特徴とする学習方法。 A first learning step of learning a first discriminator for identifying a class for each region of an image using a learning image;
A learning time identifying step of identifying a class for each region of the learning evaluation image by the learned first discriminator;
A selection step of selecting a misidentification area in which the class identification result for the learning evaluation image by the first classifier is incorrect;
A generation step of generating learning data using a region including the selected misidentification region;
And a second learning step of learning a second discriminator for identifying the class of the generated learning data.
前記統合識別器の識別結果の評価値が前記第1の識別器の識別結果の評価値よりも所定値以上高くなるまで、前記誤識別領域を含む領域のサイズを異ならせて前記第2の学習工程を繰り返すことを特徴とする請求項7に記載の学習方法。 An evaluation step for obtaining an evaluation value as a result of identifying a class for each area of the learning evaluation image by the integrated classifier and an evaluation value as a result of identifying a class for each area of the learning evaluation image by the first classifier Further comprising
Until the evaluation value of the identification result of the integrated discriminator becomes higher than the evaluation value of the identification result of the first discriminator by a predetermined value or more, the size of the region including the misidentification region is made different, and the second learning is performed. The learning method according to claim 7, wherein the steps are repeated.
第1の識別器を用いて前記認識対象画像の領域ごとにクラスを識別する識別工程と、
前記検出工程の検出結果と前記識別工程の識別結果とに基づいて、前記認識対象画像の領域ごとのクラスを識別する統合識別工程とを有することを特徴とする画像認識方法。 A detection step of detecting a region whose class is to be identified by the second classifier from the recognition target image;
An identifying step of identifying a class for each region of the recognition target image using a first identifier;
An image recognition method comprising: an integrated identification step of identifying a class for each region of the recognition target image based on a detection result of the detection step and an identification result of the identification step.
前記検出工程は、取得された前記付帯情報に基づいて、複数の第2の識別器から前記検出工程で用いる第2の識別器を選択することを特徴とする請求項9または10に記載の画像認識方法。 It further includes an acquisition step of acquiring incidental information incidental to the recognition target image,
The image according to claim 9 or 10, wherein the detection step selects a second discriminator to be used in the detection step from a plurality of second discriminators based on the acquired auxiliary information. Recognition method.
学習した前記第1の識別器により、学習評価画像の領域ごとのクラスを識別する学習時識別手段と、
前記第1の識別器による前記学習評価画像に対するクラスの識別結果が誤っている誤識別領域を選択する選択手段と、
選択された前記誤識別領域を含む領域を用いて、学習データを生成する生成手段と、
前記生成された学習データのクラスを識別する第2の識別器を学習する第2の学習手段とを有することを特徴とする学習装置。 First learning means for learning a first discriminator for identifying a class for each region of an image using a learning image;
A learning time identifying means for identifying a class for each region of the learning evaluation image by the learned first discriminator;
Selecting means for selecting a misidentification region in which the class identification result for the learning evaluation image by the first classifier is incorrect;
Generating means for generating learning data using a region including the selected misidentification region;
A learning apparatus comprising: a second learning unit that learns a second classifier that identifies a class of the generated learning data.
第1の識別器を用いて前記認識対象画像の領域ごとにクラスを識別する識別手段と、
前記検出手段の検出結果と前記識別手段の識別結果とに基づいて、前記認識対象画像の領域ごとのクラスを識別する統合識別手段とを有することを特徴とする画像認識装置。 Detecting means for detecting a region in which a class should be identified by the second classifier from the recognition target image;
Identifying means for identifying a class for each region of the recognition target image using a first identifier;
An image recognition apparatus comprising: an integrated identification unit that identifies a class for each region of the recognition target image based on a detection result of the detection unit and an identification result of the identification unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014233800A JP2016099668A (en) | 2014-11-18 | 2014-11-18 | Learning method, learning device, image recognition method, image recognition device and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014233800A JP2016099668A (en) | 2014-11-18 | 2014-11-18 | Learning method, learning device, image recognition method, image recognition device and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016099668A true JP2016099668A (en) | 2016-05-30 |
Family
ID=56077860
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014233800A Pending JP2016099668A (en) | 2014-11-18 | 2014-11-18 | Learning method, learning device, image recognition method, image recognition device and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2016099668A (en) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109804388A (en) * | 2016-10-12 | 2019-05-24 | 欧姆龙株式会社 | Identification information distribution system, identification information distribution method and its program |
JP2019087229A (en) * | 2017-11-02 | 2019-06-06 | キヤノン株式会社 | Information processing device, control method of information processing device and program |
JPWO2019003474A1 (en) * | 2017-06-30 | 2020-04-30 | 株式会社島津製作所 | Radiotherapy tracking device, position detection device, and moving body tracking method |
CN111868780A (en) * | 2018-03-08 | 2020-10-30 | Jvc建伍株式会社 | Learning data generation device, learning model generation system, learning data generation method, and program |
WO2022230413A1 (en) * | 2021-04-26 | 2022-11-03 | オムロン株式会社 | Detection device, control method for detection device, method for generating model by model generation device that generates trained model, information processing program, and recording medium |
WO2022244787A1 (en) * | 2021-05-19 | 2022-11-24 | 京セラ株式会社 | Information processing method, program, and information processing device |
JP2023001367A (en) * | 2020-05-29 | 2023-01-04 | 株式会社日立ハイテク | Image processing system and image processing method |
US11836906B2 (en) | 2017-03-27 | 2023-12-05 | Hitachi High-Tech Corporation | Image processing system and computer program for performing image processing |
US11995835B2 (en) | 2020-04-23 | 2024-05-28 | Hitachi Systems, Ltd. | Pixel-level object detection system and program thereof |
JP7495498B2 (en) | 2020-06-30 | 2024-06-04 | 富士フイルム株式会社 | Information processing device, learning device, imaging device, control method for information processing device, and program |
JP7559791B2 (en) | 2022-03-14 | 2024-10-02 | トヨタ自動車株式会社 | Learning device, control method thereof, and control program |
-
2014
- 2014-11-18 JP JP2014233800A patent/JP2016099668A/en active Pending
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109804388A (en) * | 2016-10-12 | 2019-05-24 | 欧姆龙株式会社 | Identification information distribution system, identification information distribution method and its program |
CN109804388B (en) * | 2016-10-12 | 2023-06-30 | 欧姆龙株式会社 | Identification information distribution system, identification information distribution method, and program therefor |
US11836906B2 (en) | 2017-03-27 | 2023-12-05 | Hitachi High-Tech Corporation | Image processing system and computer program for performing image processing |
US11224763B2 (en) | 2017-06-30 | 2022-01-18 | Shimadzu Corporation | Tracking device for radiation treatment, position detection device, and method for tracking moving body |
JP7099459B2 (en) | 2017-06-30 | 2022-07-12 | 株式会社島津製作所 | Radiation therapy tracking device, position detection device and moving object tracking method |
JPWO2019003474A1 (en) * | 2017-06-30 | 2020-04-30 | 株式会社島津製作所 | Radiotherapy tracking device, position detection device, and moving body tracking method |
JP2019087229A (en) * | 2017-11-02 | 2019-06-06 | キヤノン株式会社 | Information processing device, control method of information processing device and program |
JP7190842B2 (en) | 2017-11-02 | 2022-12-16 | キヤノン株式会社 | Information processing device, control method and program for information processing device |
CN111868780A (en) * | 2018-03-08 | 2020-10-30 | Jvc建伍株式会社 | Learning data generation device, learning model generation system, learning data generation method, and program |
CN111868780B (en) * | 2018-03-08 | 2023-07-28 | Jvc建伍株式会社 | Learning data generation device and method, model generation system, and program |
JP7557958B2 (en) | 2020-04-23 | 2024-09-30 | 株式会社日立システムズ | Pixel-level object detection system and program thereof |
US11995835B2 (en) | 2020-04-23 | 2024-05-28 | Hitachi Systems, Ltd. | Pixel-level object detection system and program thereof |
JP7438311B2 (en) | 2020-05-29 | 2024-02-26 | 株式会社日立ハイテク | Image processing system and image processing method |
JP2023001367A (en) * | 2020-05-29 | 2023-01-04 | 株式会社日立ハイテク | Image processing system and image processing method |
JP7495498B2 (en) | 2020-06-30 | 2024-06-04 | 富士フイルム株式会社 | Information processing device, learning device, imaging device, control method for information processing device, and program |
WO2022230413A1 (en) * | 2021-04-26 | 2022-11-03 | オムロン株式会社 | Detection device, control method for detection device, method for generating model by model generation device that generates trained model, information processing program, and recording medium |
WO2022244787A1 (en) * | 2021-05-19 | 2022-11-24 | 京セラ株式会社 | Information processing method, program, and information processing device |
JP7559791B2 (en) | 2022-03-14 | 2024-10-02 | トヨタ自動車株式会社 | Learning device, control method thereof, and control program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2016099668A (en) | Learning method, learning device, image recognition method, image recognition device and program | |
JP6448325B2 (en) | Image processing apparatus, image processing method, and program | |
CN108364010B (en) | License plate recognition method, device, equipment and computer readable storage medium | |
US11282185B2 (en) | Information processing device, information processing method, and storage medium | |
CN107609485B (en) | Traffic sign recognition method, storage medium and processing device | |
JP6332937B2 (en) | Image processing apparatus, image processing method, and program | |
JP6330385B2 (en) | Image processing apparatus, image processing method, and program | |
CN110232713B (en) | Image target positioning correction method and related equipment | |
US20160358035A1 (en) | Saliency information acquisition device and saliency information acquisition method | |
US11055584B2 (en) | Image processing apparatus, image processing method, and non-transitory computer-readable storage medium that perform class identification of an input image using a discriminator that has undergone learning to perform class identification at different granularities | |
JP6351240B2 (en) | Image processing apparatus, image processing method, and program | |
JP2006048322A (en) | Object image detecting device, face image detection program, and face image detection method | |
JP2011188496A (en) | Backlight detection device and backlight detection method | |
US9418440B2 (en) | Image segmenting apparatus and method | |
JP2017033469A (en) | Image identification method, image identification device and program | |
CN111783505A (en) | Method and device for identifying forged faces and computer-readable storage medium | |
JP2018092610A (en) | Image recognition device, image recognition method, and program | |
US9256835B2 (en) | Information processing apparatus enabling discriminator to learn and method thereof | |
US11100650B2 (en) | Method for foreground and background determination in an image | |
CN106503638B (en) | Image procossing, vehicle color identification method and system for color identification | |
JP2019057815A (en) | Monitoring system | |
JP2018055195A (en) | Learning device, image discrimination device, learning method, image discrimination method and program | |
US20190042869A1 (en) | Image processing apparatus and control method therefor | |
CN114331946A (en) | Image data processing method, device and medium | |
WO2020022329A1 (en) | Object detection/recognition device, method, and program |