JP2016157219A - 画像処理方法、画像処理装置 - Google Patents

画像処理方法、画像処理装置 Download PDF

Info

Publication number
JP2016157219A
JP2016157219A JP2015033704A JP2015033704A JP2016157219A JP 2016157219 A JP2016157219 A JP 2016157219A JP 2015033704 A JP2015033704 A JP 2015033704A JP 2015033704 A JP2015033704 A JP 2015033704A JP 2016157219 A JP2016157219 A JP 2016157219A
Authority
JP
Japan
Prior art keywords
coordinate
image processing
neural network
image data
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015033704A
Other languages
English (en)
Other versions
JP6348431B2 (ja
Inventor
マーティン クリンキット
Klinkigt Martin
マーティン クリンキット
大輔 松原
Daisuke Matsubara
大輔 松原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2015033704A priority Critical patent/JP6348431B2/ja
Priority to PCT/JP2016/054828 priority patent/WO2016136607A1/ja
Priority to CN201680008800.5A priority patent/CN107251091A/zh
Priority to SG11201706065VA priority patent/SG11201706065VA/en
Publication of JP2016157219A publication Critical patent/JP2016157219A/ja
Application granted granted Critical
Publication of JP6348431B2 publication Critical patent/JP6348431B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

【課題】ニューラルネットワークを用いて物体を検出する処理の効率を向上させる。【解決手段】画像処理装置100は、ニューラルネットワークを用いて画像データ200内の物体を検出する装置であり、領域定義器110、座標分解器120、量子化器130、マッピング器140、学習器150、分類器160、再現器170を備える。物体検出を実施するために必要なタスクを、分類問題を解くために必要なタスクに変換し、入力データを分類するニューラルネットワークを用いて、物体検出を分類問題として処理する。【選択図】図1

Description

本発明は、ニューラルネットワークを用いて画像を処理する技術に関する。
物体検出は、多くの画像処理タスクにおいて重要な役割を有している。物体検出の目的は、画像内の特定の物体またはその一部を発見することである。物体を特定した後、例えば物体特定などの処理を実施することができる。
物体検出の1形態として、顔認識がある。顔認識の精度を高めるためには一般に、顔を特定の向きにそろえる必要がある。この整列を実施するため、例えば眼、鼻、口などのような顔の特徴要素を用いることができる。物体検出技術を用いることにより、これら特徴要素を認識し、その認識した特徴要素を用いて顔の向きを揃えることができる。
物体検出において、スライドウインドウと呼ばれるものが用いられる。このアプローチにおいては、画像から任意の領域を抽出し、その領域が特定の物体を含んでいる確率を計算する。計算した確率が閾値以上である場合、その領域において当該物体が検出されることになる。スライドウインドウにより、検出精度を高めることができる。ただしこのアプローチは、対象物体のおおよその位置が事前に得られていない場合、演算負荷が高いという課題がある。閾値以上の確率が得られるまで、ウインドウを様々な場所に移動させたりサイズ変更したりすることが必要だからである。
またスライドウインドウを用いる場合において、領域内に特定の物体が存在する確率を計算するため、テンプレートマッチングを実施することがある。テンプレートは通常あらかじめ定義されているので、当該物体の外観が経時変化する場合、マッチングがうまく作用しない。したがって検出精度を高めるためには、テンプレートをアップデートする必要がある。
物体の変化に対して適応する手法として、機械学習を用いるものがある。機械学習によるアプローチは、物体を識別する外観上の特徴要素を学習することにより、当該物体の外観的特徴を抽象化して把握するものである。一般に機械学習においては、画像データとその画像データから得られる既知の検出結果のペアをあらかじめ学習し、学習器は新たな画像データに対してその学習結果に基づき物体検出を実施する。検出結果の精度に応じて学習パラメータを調整することもできる。
ニューラルネットワークは、機械学習を実施する学習器としてよく知られている。ニューラルネットワークは、人間の脳からヒントを得てこれを模擬するニューロンを備える。各ニューロンに対する入力に対して所与の重みを乗算し、さらにバイアスを加算して、当該ニューロンの出力を得る。
下記特許文献1は、畳み込みニューラルネットワークを用いて、低解像度画像内の人物を認識する手法について記載している。同文献においては、識別する人物の画像を用いて繰り返し学習を実施する。
US2011/0222724号公報
ニューラルネットワークを用いて物体検出を実施する場合、学習過程において、所望の検出結果が得られるように重みやバイアスを調整する。ニューラルネットワークを用いて物体検出を実施する際の課題は、所望の結果が得られるようになるまで、長い学習時間が必要なことである。
本発明は、上記のような課題に鑑みてなされたものであり、ニューラルネットワークを用いて物体を検出する処理の効率を向上させることを目的とする。
本発明においては、物体検出を実施するために必要なタスクを、分類問題を解くために必要なタスクに変換し、入力データを分類するニューラルネットワークを用いて、物体検出を分類問題として処理する。
本発明によれば、入力データを分類するニューラルネットワークを用いることにより、物体検出のために必要な処理を分類問題として効率的に処理することができる。
上記した以外の課題、構成および効果は、以下の実施形態の説明により明らかにされるであろう。
実施形態1に係る画像処理装置100の機能ブロック図である。 領域定義器110の処理、座標分解器120の処理、および量子化器130の処理を説明する図である。 学習器150の層構成を例示する図である。 分類器160が出力する出力ベクトルについて説明する図である。 再現器170により処理を説明する図である。 実施形態2に係る画像処理装置100の機能ブロック図である。 シフト器180の処理を説明する図である。 画像データ200が走行する車両を側面から撮影したものである場合における領域定義器110の処理と量子化器130の処理を説明する図である。 画像データ200が車両を正面から撮影したものである場合における領域定義器110の処理を説明する図である。 実施形態4に係る画像処理装置100のハードウェア構成を示す図である。
<本発明の基本的な考え方>
以下では本発明の理解を容易にするため、まず本発明の基本的な考え方について最初に説明し、その後に本発明の実施形態について説明する。
ニューラルネットワークを用いて物体を検出する手法として、例えば特許文献1に記載されているような畳み込みニューラルネットワークを用いるものがある。同手法においては例えば、画像データに対して形状検出フィルタを適用する(畳み込む)ことにより物体の形状を検出し、フィルタ出力に対してMax Poolingなどの手法を適用することによりフィルタ内における物体の位置ずれをぼかす。これら処理を実装した層を多段的に連結することにより、ニューラルネットワークが形成される。
ニューラルネットワークのその他用途として、分類問題を解くことが挙げられる。この場合、入力データとその入力データがいずれの分類に属するかとの間の対応関係をあらかじめニューラルネットワークに学習させておく。ニューラルネットワークに対して新たな入力データが投入されると、当該ニューラルネットワークはあらかじめ学習した結果に基づきその入力データがいずれの分類に属するかを示す値を出力する。
ニューラルネットワークは一般に、物体検出を実施することよりも分類問題を解くことのほうが、より効率的に処理できる。物体検出は当該物体が存在している箇所を特定するタスクであるのに対し、分類問題は分類対象が属する分類を回答するタスクであり、出力すべき事項が物体検出よりも単純化されているからである。本発明はこのことに着目し、物体検出問題を分類問題として取り扱う手段を提供することにより、ニューラルネットワークを用いて物体を検出する処理効率を向上させることを図る。
<実施の形態1>
図1は、本発明の実施形態1に係る画像処理装置100の機能ブロック図である。画像処理装置100は、ニューラルネットワークを用いて画像データ200内の物体を検出する装置であり、領域定義器110、座標分解器120、量子化器130、マッピング器140、学習器150、分類器160、再現器170を備える。以下では画像データ200の例として、人の顔画像を取り扱う。各機能部の動作については後述する。
図2は、領域定義器110の処理、座標分解器120の処理、および量子化器130の処理を説明する図である。以下図2にしたがって、これら3つの機能部の動作について説明する。
領域定義器110は、画像データ200が含んでいると想定される特徴的要素の個数および位置に応じて、画像データ200上で1以上のサブ領域を定義する。例えば人間の顔を検出する場合、画像データ200の(紙面に向かって)左上部分を右目領域、右上部分を左目領域、下半分を口領域として定義する。領域定義器110が定義するサブ領域の個数および位置は、検出する物体の特徴に応じてあらかじめ定めておいてもよいし、画像認識装置100が備える適当なインターフェースを介して都度指定してもよい。サブ領域は必ずしも定義する必要はなく、画像データ200全体を1つの領域として物体検出を実施してもよい。以下では図2のようにサブ領域を定義したことを前提とする。
座標分解器120は、各サブ領域のピクセル座標を座標軸毎に分解する。分解後の各座標値は、それぞれ個別の1次元ベクトルとして取り扱われる。本実施形態1においては人の顔の2次元画像を取り扱っているので、各ピクセル座標はX座標の値とY座標の値に分解される。
量子化器130は、座標分解器120によって分解された各座標軸のピクセル座標値を所定のインターバルで量子化する。これにより各サブ領域内のピクセルは、1ピクセル毎の連続的画素からインターバル毎の離散的画素へ変換される。各サブ領域の量子化インターバルは必ずしも同じでなくともよい。さらには、各座標軸の量子化インターバルも必ずしも同じでなくともよい。例えば図2に示すように、小さい領域の量子化インターバルは小さくセットし、横長領域においてはX座標の量子化インターバルをY座標の量子化インターバルより大きくしてもよい。量子化インターバルは、後述する再現器170が各特徴要素を座標系上に再現する際の誤差幅を規定する。詳細は後述する。量子化器130は演算負荷を軽減するためのものであるため、充分な演算リソースがある場合、量子化器130は必ずしも必要ではない。
マッピング器140は、物体検出問題を分類問題として取り扱うために必要な処理を実施する。物体検出問題を分類問題として取り扱う場合、畳み込みニューラルネットワークの内部において構成されている各層は画像データ200内の各ピクセルが対象物体の座標値であるか否かを分類し、この各層の出力を集約していくことにより、最終的に対象物体の座標値が得られると考えられる。そこで本発明においては、画像データ200内の各ピクセルの座標値(量子化を実施した場合は量子化後の座標値)それぞれを分類問題における分類対象とみなし、各座標値が対象物体である(=各座標値が対象物体の一部に含まれている)か否かをニューラルネットワークによって分類することとした。
マッピング器140は、画像データ200内の各ピクセルの座標値(量子化を実施した場合は量子化後の座標値)に対して、学習器150内部のいずれかの分類を割り当てる。ピクセル座標値と内部分類との間の対応関係は、例えばあらかじめ変換テーブルとして定義しておけばよい。ピクセル座標値から学習器150の内部分類への変換は、サブ領域毎および座標軸毎に実施する。本実施形態1においては、3つのサブ領域とXY軸が存在するので、マッピング器140は右目領域/左目領域/口領域それぞれのXYピクセル座標を、学習器150の内部分類へ変換する。
学習器150は、例えば畳み込みニューラルネットワークなどを用いて構成された機械学習器である。学習器150は、マッピング器140によって分類された各ピクセル座標が検出対象物体の座標値であるか否かをあらかじめ学習する。本実施形態1において、検出対象物体は画像データ200内の右目/左目/口の3つである。学習器150は、あらかじめ実施した学習結果を用いて、新たな画像データ200の右目/左目/口の座標を認識する。
図3は、学習器150の層構成を例示する図である。ここでは画像データ200は64ピクセル×64ピクセルの2次元画像であるものとする。以下図3を用いて、学習器150の構成例について説明する。
第1層は、画像データ200に対して9ピクセル×9ピクセルの形状検出フィルタを適用する。このフィルタは、例えば垂直方向の線分を検出するフィルタである場合、中央列が大きい値を有しその他列は小さい値を有する9×9の配列である。学習器150は、画像データ200の左上端のピクセルにフィルタの左上端を合わせ、フィルタウインドウ内の各ピクセル画素値を、その画素と同じ位置のフィルタ値に対して乗算する。設計によってはその乗算結果に対してさらにバイアス値を加算してもよい。バイアス値はフィルタの全要素について同一でもよいし、要素毎に異なる値としてもよい。学習器150は、各ピクセル画素値とフィルタ値を乗算した結果(あるいはさらにバイアス値を加算した結果)をフィルタ内の9×9個の各要素値について合算し、これを当該ピクセル位置に対応するニューロンに対して入力する。
入力値を受け取ったニューロンは、所定の活性化関数に対してその入力値を入力し、出力値を計算する。活性化関数の例として、Rectified Linear Unit(ReLU)などの非線形フィルタ関数が挙げられる。ReLUは、f(x)=max(0,x)として定義される。
学習器150は、画像データ200の左上端のピクセルから順にフィルタウインドウを移動させ、画像データ200の全ピクセルをフィルタによってスキャンする。学習器150は、フィルタウインドウの各位置において上記と同様の演算を実施し、その結果を当該位置に対応するニューロンに対して入力し、当該ニューロンは出力値を計算する。図3に示す例においては、64×64ピクセルの画像データ200に対して、9×9ピクセルのフィルタを適用しているので、フィルタの開始位置は1ピクセル目から56ピクセル目までとなる。したがって1層目の後、56×56ピクセルに相当する処理結果が得られることになる。
形状検出フィルタの種類が1つのみである場合、検出できる形状も1つのみとなる。複数の形状を検出したい場合、各層において複数種類の形状検出フィルタを適用することができる。1層目においては、20種類の形状検出フィルタを適用することとし、フィルタ種類毎にニューロンを設けることとした。このように形状検出フィルタを層毎に複数設ける手法は、Feature Mapなどと呼ばれている。最終的に1層目の後は、56×56×20ピクセルに相当する処理結果が得られることになる。
畳み込みニューラルネットワークにおいて形状検出フィルタを適用する場合、検出対象である形状の位置がフィルタウインドウ内において想定される位置からずれている場合がある。これを解消するため、例えばMax Poolingなどの手法により位置ずれをぼかす。Max Poolingとは概略的に述べると、ウインドウ内の最大値のみを残す手法であり、ウインドウ内の形状はその最大値によって抽象化される。これは画像の解像度を落とすことに相当する。図3に示す例においては、1層目の出力に対して2×2のウインドウを用いてMax Poolingを実施し、28×28×20の処理結果を得ている。
2層目はMax Poolingの結果得られた28×28×20の処理結果に対して7×7のフィルタウインドウを適用している。高次層においては低次層よりも複雑な形状を検出するので、2層目における形状検出フィルタの個数は40とした。以降の層においてもこれまでと同様の処理を実施する。図3に示す構成例においては、最終的に3×3×60の処理結果が得られる。
最終段におけるfully connected層は120個のニューロンを有し、前層までの全てのニューロンはfully connected層内のいずれかのニューロンと接続される。したがってfully connected層は、前層までの全てのニューロンの情報を有する。
図4は、分類器160が出力する出力ベクトルについて説明する図である。分類器160は、fully connected層が有する120個のニューロンそれぞれの出力に対してロジスティック回帰分析を実施し、右目X座標/右目Y座標/左目X座標/左目Y座標/口X座標/口Y座標に関する分析結果を出力する。この分析結果は6つの要素を有するベクトルとみなすことができる。
学習器150は、右目領域/左目領域/口領域それぞれのXY座標に対応する内部分類を有している。したがって、低次層から高次層へ向かって情報を集約していくにつれて、学習器150が内部的に有している分類は、右目X座標/右目Y座標/左目X座標/左目Y座標/口X座標/口Y座標の6分類に集約されていくと考えられる。そこで本実施形態1において、分類器160が学習器150の最終段におけるfully connected層の各ニューロンの出力値に対してロジスティック回帰分析を実施することにより、これら6要素値を有する出力ベクトルを取得することとした。
図5は、再現器170により処理を説明する図である。再現器170は、分類器160が出力する出力ベクトルを用いて、画像データ200の座標系上に、右目X座標/右目Y座標/左目X座標/左目Y座標/口X座標/口Y座標の6座標値を再現する。具体的には、(a)量子化器130を用いて出力ベクトルの各要素値を画像データ200の座標系上へ投影し、(b)座標分解器120を用いて逆量子化された各要素値をXY座標へ整形し、(c)領域定義器110を用いて各XY座標を画像データ200上のサブ領域に対して割り当てる。
出力ベクトルの各要素値は、量子化された右目/左目/口のXY座標に相当する。量子化器130は、量子化されたXY座標を連続値座標へ逆量子化する。例えば量子化器130が画像データ200上の0.3以上0.4未満の座標値を0.3へ量子化するように構成されていると仮定する。量子化器130は、出力ベクトルの要素値が0.3であれば、これを0.3以上0.4未満の座標値へ逆量子化する。0.3以上0.4未満の座標値であればいずれでもよいが、右目/左目/口の真のXY座標との間の誤差を最小化するためには、中央値である0.35へ逆量子化することが望ましい。これにより、真の座標値が0.3以上0.4未満のいずれの値であっても、期待誤差は最小となる。
座標分解器120は、逆量子化されたXY座標をペアにすることにより、(X,Y)座標を生成する。例えば右目X座標に関するロジスティック回帰分析結果を逆量子化した座標値と、右目Y座標に関するロジスティック回帰分析結果を逆量子化した座標値とをペアにすることにより、右目の座標値ベクトル(XRE,YRE)を生成する。左目と口についても同様である。
領域定義器110は、座標分解器120によって得られた右目/左目/口のXY座標を対応する各サブ領域へ割り当てる。
以上の結果、画像データ200の座標系上に対して、右目/左目/口のXY座標が再現されることになる。図5の下図は、画像データ200上においてこれら座標値が再現された結果を例示している。
<実施の形態1:まとめ>
以上のように、本実施形態1に係る画像処理装置100は、画像データ200上の座標値を量子化して学習器150内部の分類を割り当て、各座標値が各サブ領域内の検出対象物体のXY座標であるか否かを分類する。これにより、物体検出問題を分類問題として取り扱うことができるので、学習器150の学習効率を向上させることができる。
本実施形態1において、座標分解器120は画像データ200の座標値を座標軸毎に分解したが、これは座標軸毎に学習器150の内部分類を割り当てることにより、個々の座標軸に対する学習処理を簡易化し、もって学習処理全体を効率化する意義がある。座標値を座標軸毎に分解しなくとも十分な効率が得られる場合は、必ずしも座標値を分解する必要はない。
<実施の形態2>
図6は、本発明の実施形態2に係る画像処理装置100の機能ブロック図である。本実施形態2に係る画像処理装置100は、実施形態1で説明した構成に加えてシフト器180を備える。その他構成は実施形態1と同様である。
図7は、シフト器180の処理を説明する図である。再現器170が画像データ200上に右目/左目/口のXY座標を再現した結果、これらの位置が画像データ200の中央からずれている場合、シフト器180は画像データ200全体を中央寄りにシフトさせる。例えば顔画像においては、右目/左目/口のXY座標の重心が画像データ200の中央に配置されるようにシフトさせることにより、右目/左目/口を画像データ200内でバランスよく配置することができる。具体的なシフト処理の内容は画像データ200内の物体に依拠するので、これに応じて適宜定めればよい。
<実施の形態3>
本発明の実施形態3では、画像データ200が人の顔画像以外である場合におけるサブ領域の定義について例示する。画像処理装置100の構成は実施形態1〜2で説明したものと同様である。
図8は、画像データ200が走行する車両を側面から撮影したものである場合における領域定義器110の処理と量子化器130の処理を説明する図である。車両は路面を走行するので、路面近傍のみを検出対象とすれば足りる。そこで領域定義器110は、画像データ200の下半分を路面領域として定義し、量子化器130は同領域の座標値を量子化する。以後の処理は路面領域に対してのみ実施すればよい。これにより、検出精度を落とすことなく処理効率を向上させることができる。
図9は、画像データ200が車両を正面から撮影したものである場合における領域定義器110の処理を説明する図である。この実施形態においては、車両を正面から見た場合の特徴的要素は左右ライトとナンバープレートであると考え、領域定義器110はこれらに相当するサブ領域を定義している。車両デザインは様々なものがあることを考慮し、図9においてサブ領域は重なり合っている。
<実施の形態4>
図10は、本発明の実施形態4に係る画像処理装置100のハードウェア構成を示す図である。実施形態1〜3で説明した画像処理装置100が備える各機能部は、その機能を実装したソフトウェアをCPU(Central Processing Unit)などの演算装置が実行することにより構成することができる。
さらにこれら機能部を複数の装置に分散して搭載し、各装置が互いに通信することにより、画像処理装置100を構成することができる。図10においては、画像処理装置100の機能を装置1000aと1000bに分割し、これら装置がネットワーク1400を介して通信することにより、画像処理装置100を構成することができる。図10においては、各装置1000はそれぞれCPU1100、メモリ1200、通信インターフェース1300を備える。
各装置1000がいずれの機能を実行するかは、適宜定めることができる。例えば装置1000aは領域定義器110、座標分解器120、量子化器130、およびマッピング器140に相当する処理を実行してその結果を装置1000bへ送信し、装置1000bは学習器150、分類器160、再現器170、およびシフト器180に相当する処理を実行することができる。
<実施の形態5>
以上の実施形態1〜4において、分類器160はfully connected層の出力に対してロジスティック回帰分析を実施することを説明した。ロジスティック回帰分析は、fully connected層の出力を分類するためのものであるので、同様の処理をニューラルネットワークによる分類処理として実装することもできる。したがって分類器160は、ロジスティック回帰分析を実施することに代えて、fully connected層の次の新たなニューラルネットワーク層として構成することもできる。
以上の実施形態1〜4において、ニューロンの活性化関数としてReLUを用いることを説明したが、その他の活性化関数を用いることもできる。例えばハイパボリックタンジェント関数、シグモイド関数、などが考えられる。各層における活性化関数としてそれぞれ異なるものを用いることもできる。
以上の実施形態1〜4においては、サブ領域および量子化後の各座標は矩形ベースであるが、検出しようとする物体の形状によっては、例えば三角形や多角形などその他形状を用いることもできる。
以上の実施形態1〜4において説明した学習器150のニューラルネットワーク構造は例示であり、その他構造を用いることもできる。
<本発明の変形例について>
本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。上記実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることもできる。また、ある実施形態の構成に他の実施形態の構成を加えることもできる。また、各実施形態の構成の一部について、他の構成を追加・削除・置換することもできる。
上記各構成、機能、処理部、処理手段等は、それらの一部や全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記録装置、ICカード、SDカード、DVD等の記録媒体に格納することができる。
100:画像処理装置、110:領域定義器、120:座標分解器、130:量子化器、140:マッピング器、150:学習器、160:分類器、170:再現器、180:シフト器、200:画像データ。

Claims (10)

  1. 入力データを分類するように学習を実施するニューラルネットワークを用いて、物体を含む画像データを処理する方法であって、
    前記画像データのピクセル座標を量子化する量子化ステップ、
    前記量子化したピクセル座標に対して、前記ニューラルネットワークが内部的に有するいずれかの内部分類を割り当てるマッピングステップ、
    前記画像データの前記量子化したピクセル座標、および前記マッピングステップにおいて割り当てた内部分類を用いて前記ニューラルネットワークの学習を実施する学習ステップ、
    前記学習後の前記ニューラルネットワークの出力値を取得する出力ステップ、
    前記学習後の前記ニューラルネットワークの出力値に対して、前記量子化の逆量子化を実施することにより、前記ニューラルネットワークの出力値を前記画像データの座標系上に投影し、前記物体の位置を前記座標系上に再現する再現ステップ、
    を有することを特徴とする画像処理方法。
  2. 前記画像処理方法はさらに、前記画像データ上において複数の領域を定義するステップを有し、
    前記画像処理方法は、前記量子化ステップと前記マッピングステップを前記領域毎に実施する
    ことを特徴とする請求項1記載の画像処理方法。
  3. 前記画像処理方法はさらに、前記ピクセル座標を座標軸毎に分解するステップを有し、
    前記マッピングステップにおいては、前記分解した座標軸毎に個別の前記内部分類を割り当てる
    ことを特徴とする請求項1記載の画像処理方法。
  4. 前記画像処理方法はさらに、前記ピクセル座標を座標軸毎に分解するステップを有し、
    前記マッピングステップにおいては、前記分解した座標軸毎に個別の前記内部分類を割り当て、
    前記画像処理方法はさらに、前記ニューラルネットワークの出力値を前記物体の前記座標軸上におけるいずれかの座標値へ分類する分類ステップを有し、
    前記再現ステップにおいては、前記分類ステップの結果に対して前記量子化の逆量子化を実施することにより、前記物体の位置を前記座標系上に再現する
    ことを特徴とする請求項1記載の画像処理方法。
  5. 前記画像処理方法はさらに、前記再現ステップにおいて前記座標系上に再現した前記物体を前記画像データ上の中央に向けてシフトさせるステップを有する
    ことを特徴とする請求項1記載の画像処理方法。
  6. 入力データを分類するように学習を実施するニューラルネットワークを用いて、物体を含む画像データを処理する装置であって、
    前記画像データのピクセル座標を量子化する量子化器、
    前記量子化したピクセル座標に対して、前記ニューラルネットワークが内部的に有するいずれかの内部分類を割り当てるマッピング器、
    前記画像データの前記量子化したピクセル座標、および前記マッピング器が割り当てた内部分類を用いて前記ニューラルネットワークの学習を実施する学習器、
    前記学習後のニューラルネットワークの出力値に対して、前記量子化の逆量子化を実施することにより、前記ニューラルネットワークの出力値を前記画像データの座標系上に投影し、前記物体の位置を前記座標系上に再現する再現器、
    を備えることを特徴とする画像処理装置。
  7. 前記画像処理装置はさらに、前記画像データ上において複数の領域を定義する領域定義器を備え、
    前記画像処理装置は、前記量子化器による処理と前記マッピング器による処理を前記領域毎に実施する
    ことを特徴とする請求項6記載の画像処理装置。
  8. 前記画像処理装置はさらに、前記ピクセル座標を座標軸毎に分解する分解器を備え、
    前記マッピング器は、前記分解した座標軸毎に個別の前記内部分類を割り当てる
    ことを特徴とする請求項6記載の画像処理装置。
  9. 前記画像処理装置はさらに、前記ピクセル座標を座標軸毎に分解する分解器を備え、
    前記マッピング器は、前記分解した座標軸毎に個別の前記内部分類を割り当て、
    前記画像処理装置はさらに、前記ニューラルネットワークの出力値を前記物体の前記座標軸上におけるいずれかの座標値へ分類する分類器を備え、
    前記再現器は、前記分類器による処理結果に対して前記量子化器による量子化の逆量子化を実施することにより、前記物体の位置を前記座標系上に再現する
    ことを特徴とする請求項6記載の画像処理装置。
  10. 前記画像処理装置はさらに、前記再現器が前記座標系上に再現した前記物体を前記画像データ上の中央に向けてシフトさせるシフト器を備える
    ことを特徴とする請求項6記載の画像処理装置。
JP2015033704A 2015-02-24 2015-02-24 画像処理方法、画像処理装置 Active JP6348431B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2015033704A JP6348431B2 (ja) 2015-02-24 2015-02-24 画像処理方法、画像処理装置
PCT/JP2016/054828 WO2016136607A1 (ja) 2015-02-24 2016-02-19 画像処理方法、画像処理装置
CN201680008800.5A CN107251091A (zh) 2015-02-24 2016-02-19 图像处理方法、图像处理装置
SG11201706065VA SG11201706065VA (en) 2015-02-24 2016-02-19 Image processing method, image processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015033704A JP6348431B2 (ja) 2015-02-24 2015-02-24 画像処理方法、画像処理装置

Publications (2)

Publication Number Publication Date
JP2016157219A true JP2016157219A (ja) 2016-09-01
JP6348431B2 JP6348431B2 (ja) 2018-06-27

Family

ID=56788589

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015033704A Active JP6348431B2 (ja) 2015-02-24 2015-02-24 画像処理方法、画像処理装置

Country Status (4)

Country Link
JP (1) JP6348431B2 (ja)
CN (1) CN107251091A (ja)
SG (1) SG11201706065VA (ja)
WO (1) WO2016136607A1 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018235628A1 (ja) * 2017-06-23 2018-12-27 オムロン株式会社 見守り支援システム及びその制御方法、及びプログラム
WO2019003859A1 (ja) * 2017-06-27 2019-01-03 オムロン株式会社 見守り支援システム及びその制御方法、及びプログラム
JP2019021313A (ja) * 2017-07-14 2019-02-07 シナプス テクノロジー コーポレイション アイテムの検出
CN111260214A (zh) * 2020-01-15 2020-06-09 大亚湾核电运营管理有限责任公司 核电站预留工单领料方法、装置、设备及存储介质
JP2020113945A (ja) * 2019-01-16 2020-07-27 パナソニック株式会社 監視カメラおよび検知方法
US10950104B2 (en) 2019-01-16 2021-03-16 PANASONIC l-PRO SENSING SOLUTIONS CO., LTD. Monitoring camera and detection method
JPWO2020240851A1 (ja) * 2019-05-31 2021-09-13 ニューラルポケット株式会社 情報処理システム、情報処理装置、サーバ装置、プログラム、又は方法
US11960565B2 (en) 2018-03-02 2024-04-16 Nec Corporation Add-mulitply-add convolution computation for a convolutional neural network
US11989639B2 (en) 2018-03-02 2024-05-21 Nec Corporation Inferential device, convolutional operation method, and program

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03103997A (ja) * 1989-09-19 1991-04-30 Teremateiiku Kokusai Kenkyusho:Kk 文字切出し認識装置
JPH0458943A (ja) * 1990-06-28 1992-02-25 Konica Corp デジタル放射線画像の画像認識装置
JPH04317263A (ja) * 1991-04-17 1992-11-09 Fuji Photo Film Co Ltd ニューラルネットワークを用いた照射野認識の前処理方法
JPH05307639A (ja) * 1992-04-30 1993-11-19 Toshiba Corp 郵便物の宛名領域検出装置
JPH08272971A (ja) * 1995-03-31 1996-10-18 Toyota Motor Corp 対象物認識方法
JP2008198078A (ja) * 2007-02-15 2008-08-28 Toyota Central R&D Labs Inc 画像検出装置
JP2010086482A (ja) * 2008-10-02 2010-04-15 Canon Inc 画像認識装置および画像認識方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100014755A1 (en) * 2008-07-21 2010-01-21 Charles Lee Wilson System and method for grid-based image segmentation and matching
JP2010055194A (ja) * 2008-08-26 2010-03-11 Sony Corp 画像処理装置および方法、学習装置および方法、並びにプログラム
US8582807B2 (en) * 2010-03-15 2013-11-12 Nec Laboratories America, Inc. Systems and methods for determining personal characteristics
CN102722712B (zh) * 2012-01-02 2014-04-16 西安电子科技大学 基于连续度的多尺度高分辨图像目标检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03103997A (ja) * 1989-09-19 1991-04-30 Teremateiiku Kokusai Kenkyusho:Kk 文字切出し認識装置
JPH0458943A (ja) * 1990-06-28 1992-02-25 Konica Corp デジタル放射線画像の画像認識装置
JPH04317263A (ja) * 1991-04-17 1992-11-09 Fuji Photo Film Co Ltd ニューラルネットワークを用いた照射野認識の前処理方法
JPH05307639A (ja) * 1992-04-30 1993-11-19 Toshiba Corp 郵便物の宛名領域検出装置
JPH08272971A (ja) * 1995-03-31 1996-10-18 Toyota Motor Corp 対象物認識方法
JP2008198078A (ja) * 2007-02-15 2008-08-28 Toyota Central R&D Labs Inc 画像検出装置
JP2010086482A (ja) * 2008-10-02 2010-04-15 Canon Inc 画像認識装置および画像認識方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
中西 功: ""特徴の種類と位置を用いたパターン認識手法の検討"", 電子情報通信学会技術研究報告, vol. 92, no. 521, JPN6018005979, 18 March 1993 (1993-03-18), JP, pages 17 - 24, ISSN: 0003798367 *
近藤 正: ""ロジスティックGMDH−typeニューラルネットワークスによる医用画像認識"", 第47回 システム制御情報学会研究発表講演会講演論文集, JPN6018018245, 16 May 2003 (2003-05-16), JP, pages 639 - 640, ISSN: 0003798369 *
鈴井 智史、外2名: ""システム簡易化のための特徴点選択による表情認識手法に関する検討"", 映像情報メディア学会技術報告, vol. 28, no. 61, JPN6016013926, 21 October 2004 (2004-10-21), JP, pages 1 - 4, ISSN: 0003798368 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019008515A (ja) * 2017-06-23 2019-01-17 オムロン株式会社 見守り支援システム及びその制御方法
WO2018235628A1 (ja) * 2017-06-23 2018-12-27 オムロン株式会社 見守り支援システム及びその制御方法、及びプログラム
WO2019003859A1 (ja) * 2017-06-27 2019-01-03 オムロン株式会社 見守り支援システム及びその制御方法、及びプログラム
JP2019008638A (ja) * 2017-06-27 2019-01-17 オムロン株式会社 見守り支援システム及びその制御方法
JP2019021313A (ja) * 2017-07-14 2019-02-07 シナプス テクノロジー コーポレイション アイテムの検出
US11960565B2 (en) 2018-03-02 2024-04-16 Nec Corporation Add-mulitply-add convolution computation for a convolutional neural network
US11989639B2 (en) 2018-03-02 2024-05-21 Nec Corporation Inferential device, convolutional operation method, and program
JP2020113945A (ja) * 2019-01-16 2020-07-27 パナソニック株式会社 監視カメラおよび検知方法
US11380177B2 (en) 2019-01-16 2022-07-05 Panasonic I-Pro Sensing Solutions Co., Ltd. Monitoring camera and detection method
US10950104B2 (en) 2019-01-16 2021-03-16 PANASONIC l-PRO SENSING SOLUTIONS CO., LTD. Monitoring camera and detection method
JPWO2020240851A1 (ja) * 2019-05-31 2021-09-13 ニューラルポケット株式会社 情報処理システム、情報処理装置、サーバ装置、プログラム、又は方法
CN111260214B (zh) * 2020-01-15 2024-01-26 大亚湾核电运营管理有限责任公司 核电站预留工单领料方法、装置、设备及存储介质
CN111260214A (zh) * 2020-01-15 2020-06-09 大亚湾核电运营管理有限责任公司 核电站预留工单领料方法、装置、设备及存储介质

Also Published As

Publication number Publication date
JP6348431B2 (ja) 2018-06-27
CN107251091A (zh) 2017-10-13
WO2016136607A1 (ja) 2016-09-01
SG11201706065VA (en) 2017-09-28

Similar Documents

Publication Publication Date Title
JP6348431B2 (ja) 画像処理方法、画像処理装置
JP6983937B2 (ja) 畳み込みニューラルネットワークにおける構造学習
US10373312B2 (en) Automated skin lesion segmentation using deep side layers
EP3295385B1 (en) Fixed point neural network based on floating point neural network quantization
US9734567B2 (en) Label-free non-reference image quality assessment via deep neural network
Kim et al. Nonnegative tucker decomposition
KR102564854B1 (ko) 정규화된 표현력에 기초한 표정 인식 방법, 표정 인식 장치 및 표정 인식을 위한 학습 방법
US9734424B2 (en) Sensor data filtering
KR20180048930A (ko) 분류를 위한 강제된 희소성
WO2022012668A1 (zh) 一种训练集处理方法和装置
KR102370910B1 (ko) 딥러닝 기반 소수 샷 이미지 분류 장치 및 방법
KR20200067631A (ko) 영상 처리 장치 및 그 동작방법
CN111950700A (zh) 一种神经网络的优化方法及相关设备
JP2023507248A (ja) 物体検出および認識のためのシステムおよび方法
EP3239897A1 (en) Method and apparatus for determining the similarity between multivariate data sets
CN115294563A (zh) 一种基于Transformer的增强了局部语义学习能力的3D点云分析方法及装置
Bezak Building recognition system based on deep learning
KR102420104B1 (ko) 영상 처리 장치 및 그 동작방법
US9679219B2 (en) Image feature classification
US20220383073A1 (en) Domain adaptation using domain-adversarial learning in synthetic data systems and applications
EP3588441B1 (en) Imagification of multivariate data sequences
Mikhaylevskiy et al. Fast emotion recognition neural network for IoT devices
CN115909009A (zh) 图像识别方法、装置、存储介质及电子设备
CN116229584A (zh) 一种人工智能领域的文本分割识别方法、系统、设备及介质
US20220121953A1 (en) Multi-task learning via gradient split for rich human analysis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170321

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180413

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180522

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180531

R151 Written notification of patent or utility model registration

Ref document number: 6348431

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151