JP5574816B2 - データ処理装置及びデータ処理方法 - Google Patents

データ処理装置及びデータ処理方法 Download PDF

Info

Publication number
JP5574816B2
JP5574816B2 JP2010112661A JP2010112661A JP5574816B2 JP 5574816 B2 JP5574816 B2 JP 5574816B2 JP 2010112661 A JP2010112661 A JP 2010112661A JP 2010112661 A JP2010112661 A JP 2010112661A JP 5574816 B2 JP5574816 B2 JP 5574816B2
Authority
JP
Japan
Prior art keywords
processing
stage
image data
data
stages
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010112661A
Other languages
English (en)
Other versions
JP2011242898A5 (ja
JP2011242898A (ja
Inventor
良子 三瀬
愼二 白神
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2010112661A priority Critical patent/JP5574816B2/ja
Priority to US13/102,168 priority patent/US9003167B2/en
Priority to EP11165810.0A priority patent/EP2386950B1/en
Priority to CN2011101259221A priority patent/CN102243600B/zh
Publication of JP2011242898A publication Critical patent/JP2011242898A/ja
Publication of JP2011242898A5 publication Critical patent/JP2011242898A5/ja
Application granted granted Critical
Publication of JP5574816B2 publication Critical patent/JP5574816B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5066Algorithms for mapping a plurality of inter-dependent sub-tasks onto a plurality of physical CPUs

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Processing (AREA)
  • Multi Processors (AREA)
  • Image Analysis (AREA)

Description

本発明は、複数の処理モジュールを直列に接続し、ある処理の結果に応じて次の処理が実行されるか否かが決定されるカスケード処理を行うデータ処理装置及びその制御方法に関する。
一般に、デジタルカメラやプリンタにおいて、入力画像中の人物や顔といった特定の被写体を検出し、検出された被写体に適した処理を行う技術が提案されている。この特定の被写体を検出する一例として、顔に対して肌色補正処理を行うための、顔検出処理がある。人間の顔検出処理には、非特許文献1による手法(Viola&Jones手法と呼ぶ)、人間の顔の対称的特徴、テンプレート・マッチング、ニューラル・ネットワークなどを利用した手法など、種々の方式が提案されている。
Viola&Jones手法においては、Adaboostによる学習結果(特徴量)を元に複数の識別処理が実行される。この複数の識別処理はカスケード処理で実現されるものであり、各識別処理は、識別を行った結果、次の識別処理を行う時はTrueを、次の識別処理を行わない時はFalseを出力する。そして、識別結果がFalseであった場合は当該識別処理を終了する。ここで使用される学習結果の特徴量の一例を図15の(a)に示す。特徴量210は、両目部分の小矩形と両目下部分(頬の部分)を比べると、両目部分は両目下部分より黒っぽいという特徴を示す特徴量である。また、特徴量211は、両目部分において、目の部分は黒っぽく、目と目の間である眉間部は、目の部分に比べ、白っぽいという特徴を示す特徴量である。このような学習結果(学習された特徴量)を入力データと照らし合わせ、全ての特徴量に対する識別処理がTrueと出力された場合、顔であると判断される。
また、Viola&Jones手法では、ある区切り(以下、ステージ)で識別処理が区切られ、ステージ毎にTrue、Falseの識別を行っていくことで、顔と非顔を識別していく。また、前段のステージでは、false negative(顔を非顔と判定すること:見落とし)を最小化し、false positive(非顔を顔と判定すること:誤検出)が比較的高めの確率になるような単純な特徴のみを用いている。単純な特徴のみを用いると、少ない演算回数で識別処理が可能となるため、プロセッサを用いて処理を行った場合においても高速処理が可能となる。さらに、なるべく多くの矩形領域を、より前段で効率よくFalse(非顔)と識別していくことが出来るため、画像全体に対する顔検出処理を短時間に完了することが可能になる。
画像全体から矩形領域を切り出して、前記識別処理を順次実施する際の矩形領域の切り出し順序にはいくつかの方法が考えられるが、画像左上画素を開始点とし主走査方向(水平方向)に1画素ずつ走査していく方法が広く用いられている。図14Aの(a)を用いてこの走査方法について説明する。入力画像を、識別処理を行う矩形領域高さで主走査方向に分割した短冊状の領域をバンドと呼ぶ。図14Aの(a)においてBand_Aは、入力画像の左上画素を上端とするバンドである。また、Band_aは、Band_Aの上端から1画素分副走査方向(垂直方向)にずれた画素を上端とするバンドである。上記の走査方法においては、まず入力画像の左上画素を始点とし、矩形領域の左上画素が始点と一致する矩形領域(サブウインドウ)に対して識別処理を行う。次に、主走査方向に1画素ずつずれた矩形領域に対して順次識別処理を行っていき、矩形領域の右端が入力画像右端と一致するまで処理を行う。この時点でBand_Aに対する処理が完了する。次に、Band_A処理時の始点から副走査方向に1画素ずれた画素を始点として、主走査方向に1画素ずつずれた矩形領域に対して順次識別処理を行っていき、矩形領域右端が入力画像右端と一致する点まで処理を行う。この時点でBand_aに対する処理が完了する。以下、1画素ずつ副走査方向にずらしながら、矩形領域の下端が入力画像の下端と一致するまでバンドに対する処理を行っていく。
上述の走査方法を用いて順次識別処理を行う場合に、識別処理の初段ステージ(ステージ0)において、走査の進行に応じて識別結果がFalseからTrueへと遷移し、次にTrueからFalseに遷移する様子を、図15を用いて説明する。ステージ0では、図15の(a)に示した特徴量210を用いて識別処理を行うものとする。図15の(b)から(e)は、入力画像の顔部分に対し、矩形領域が主走査方向に走査した際の、特徴量210と顔部分の相対位置を示したものである。(c)に示される矩形領域位置では、ほぼ顔が矩形領域の中心に位置しているため、特徴量210との照合結果がTrue(顔らしい)と判定される。(b)および(d)は、特徴量210との照合結果がTrue(顔らしい)と判断される矩形領域の左端および右端を示している。すなわち、(b)の1画素左の矩形領域の識別結果はFalse(非顔)と判定され、(d)の1画素右の矩形領域の識別結果もFalse(非顔)と判定される。(e)は、(a)から(d)へと走査が進行する際に識別結果がFalseからTrueへと遷移し、次にTrueからFalseに遷移する様子を示している。
このように、走査の進行に伴って識別結果はFalseからTrue、TrueからFalseへの遷移を繰り返すが、入力画像に含まれる顔部分の密度に応じてTrueおよびFalseの出現頻度は変動する。図16の(a)〜(c)を用いて、顔部分の密度により、ステージ0におけるTrueおよびFalseの出現頻度がどのように変動するかを説明する。図16において、識別結果がTrueとなった矩形領域の左上にはTと示し、Falseとなった矩形領域の左上にはFと示す。
図16の(a)は顔部分が単独で存在する場合の例を示している。走査の進行に応じてT(True)が9個続いたあとF(False)が27個続いている。(b)は、同一バンド内に2つの顔部分がある距離を持って存在する場合の例を示している。T(True)が9個続いたあとF(False)が6個続き、更にT(True)が9個続いたあとF(False)が6個続いている。(c)は、同一バンド内に2つの顔部分が隣接して存在する場合の例を示している。T(True)が9個続いたあとF(False)が1個続き、更にT(True)が9個続いたあとF(False)が1個続いている。
以上から、顔検出処理に用いられる各識別器の出力結果としてTrueの出現頻度が高いかFalseの出現頻度が高いかは、入力画像に含まれる顔部分の密度に依存することがわかる。顔検出においては識別処理がステージとして区切られ、ステージ毎にTrueかFalseかの識別が行われる。各ステージにおけるTrueの出現確率を以下「通過率」と呼ぶ。図16の(a)の場合、ステージ0の通過率は、T(True)とF(False)の割合から1/4と計算される。同様に、(b)のような割合で顔が出現する場合は3/5、(c)のような割合で顔が出現する場合は9/10となる。
次に、複数ステージが直列に接続されたカスケード処理におけるステージ毎の通過率と、ステージ初段からあるステージまでが連続して識別結果としてTrueとなる確率(累積通過率)の関係を説明する。
先頭である1段目の識別処理の処理総数(入力される矩形領域数)をSとする。次の2段目の識別処理には、その前段である1段目の識別処理でTrueと識別されたものだけが入力されることになる。よって、2段目の識別処理が処理するデータ量、すなわち矩形領域数は、1段目の識別処理が処理する矩形領域数に1段目の識別処理の通過率p[1]をかけたもの(S*p[1])となる。更に、3段目の識別処理が処理するデータ量、すなわち矩形領域数は、2段目の識別処理が処理する矩形領域数に、2段目の識別処理の通過率p[2]をかけたもの、すなわち、S*p[1])*p[2]となる。以下、同様の計算により、N段目の識別処理が処理するデータ量、すなわち矩形領域数は、
S*p[0]*p[1]*・・・*p[N-2]*p[N-1]
で表される。以下、p[0]*p[1]*・・・・*p[N-1]をステージNにおける識別処理の累積通過率P[N]と呼ぶ。また、1段目の識別器には入力データが全て入力されるので、P[0]=1(100%の通過率で1段目の識別器に入ってくる)となる。
前述した通り、通過率は、入力画像の種類や入力画像内の処理位置(処理対象となる矩形領域位置)により変動する。すなわち、集合写真のように顔密度が高い画像の通過率は、風景写真のように顔密度が低い入力画像の通過率よりも総じて高い値となる。また、集合写真であっても、写真上部に風景が撮影され、写真下部に人物が撮影されているような入力画像の場合、写真下部の方が顔密度が高くなる。したがって、顔密度が高い写真下部(人物部)に対して識別処理を行っている場合の通過率は、顔密度が低い写真上部(風景部)に対して識別処理を行っている場合の通過率よりも総じて高い値となる。
入力画像の種類や入力画像内の処理位置により前記累積通過率がどのように変動するかを図14A、図14Bを用いて具体的に説明する。図14Aの(a)は入力画像中に比較的多くの顔部分を含む集合写真の一例である。(a)中に示したBand_A, B, C, Dにおける各ステージの累積通過率の平均値を、図14Bのグラフに示す。Band_Aのように顔密度の低いバンドにおいては、ステージ0の識別処理によりほとんど全ての矩形領域が非顔と判定されるため、ステージ1における平均累積通過率はほぼ0%となる。一方、Band_Dのように顔密度の高いバンドでは、全てのステージにおいて多くの矩形領域が顔らしいと判定されるため、ステージ2における平均累積通過率は50%以上となっている。以上から分かるように、総じて顔密度の高い入力画像においても、処理位置によって累積通過率は著しく異なる。
一方、図14Aの(b)は、入力画像中の顔部分が、(a)と比べて少ない集合写真の一例である。図14Bのグラフには、図14Aの(b)に示したBand_X, Y, Zおける各ステージの累積通過率の平均値も示されている。Band_Xにおいては、図14Aの(a)のBand_Aと同様の平均累積通過率となるが、(b)の中で最も顔密度が高いBand_Zでもステージ2における平均累積通過率は50%を下回っている。すなわち、(a)と(b)のように異なる入力画像では、同じ処理位置であっても平均累積通過率は著しく異なる。
Viola&Jones手法に代表される識別処理は、複数ステージからなる多段のカスケード処理により実現されており、なるべく前段のステージでより多くの矩形領域を非顔と判定することにより処理の高速化を図っている。しかしながら、以上に述べてきたように、各ステージにおいて非顔と判定される確率は入力画像の種類や入力画像内の処理位置により著しく異なるという特徴を持つ。
昨今、デジタルカメラ等に顔検出機能を搭載する事例が増えている。また、今後は単に機能を搭載するのみならず、撮影時に顔検出処理をリアルタイムに行いたいという処理の高速化要求が高まっている。識別処理に限らずデータ処理を高速化する一般的な手法としては、動作周波数を上げる手法や、入出力データの転送律速を防ぐために、内部にFIFOやRAMを持つ手法がある。また、処理を時間的・空間的に並列化する手法が広く用いられている。時間的並列処理(パイプライン処理)では、カスケード状に並んだ各ステージに対して、専用の識別器を装備することにより、ステージ毎に装備された各々の識別器が同時並列動作可能となるため、処理の高速化が図られる。ただし、各ステージの処理時間の中で最長の処理時間が全体の処理時間を律速する。従って、全ステージの通過率が100%で、各ステージの処理時間が均一であるならば、ステージ数分(ステージが3つであれば、4倍)の高速化が可能となる。
また、空間的並列処理とは、前述したパイプライン処理を更に高速化するため、パイプラインを複数装備することにより、複数の入力データを同時処理する高速化手法である。この空間的並列処理では、其々のパイプライン処理に対し、入力データを滞りなく供給できる場合において、空間的並列化した分(パイプラインを4基搭載すれば、4倍)の高速化が可能となる。したがって、12個の識別器により、ステージ数が3のパイプラインを4基搭載するように構成することで理論上は12倍の高速化を達成することができる。
特開2003−256221号公報
P. Viola and M. Jones, "Robust Real-time Object Detection", SECOND INTERNATIONAL WORKSHOP ON STATISTICAL ANDCOMPUTATIONAL THEORIES OF VISION, July 13 2001.
上述したように、顔検出における識別処理を高速化するために、従来技術では、時間的並列処理と空間的並列処理を組み合わせることにより性能の向上を図っている。例えば、12個の識別器を搭載することにより、識別器1個の場合に比べてパイプライン段数×空間並列度分(上記の例では12倍)の性能向上を狙っている。
しかしながら、前述したように、入力画像の種類や画像内の処理位置によって平均累積通過率が大幅に変動する。顔密度の高い場合にはパイプライン段数×空間並列度分に近い性能向上が得られるが、顔密度が低い場合には性能向上がパイプライン段数×空間並列度分に遠く及ばない。すなわち、従来技術の時間的空間的並列処理を用いた高速化手法には、通過率によっては充分な性能向上が達成できなくなるという課題に加え、入力画像の種類や画像内の処理位置による性能変動が著しいという課題があった。
この性能低下および性能変動は、あるステージの平均累積通過率が変動により低下した際に、後段ステージに対するデータ供給が滞ることにより、後段ステージに装備された識別器が稼動しない状況に陥ることによって生じる。識別器が稼動しない状況を詳しく説明するため、12個の識別器を用いてステージ数3のパイプラインを4基搭載した構成で、図14Aの(a)、(b)の画像を処理した場合を考える。図17において、(a)〜(h)は、Band_A, B, C, D, X, Y, Zに対して識別処理を行った場合の各識別器の平均的な稼動状態を模式的に示した図である。ただし、以下の説明では全ての識別器の処理時間は同一であると仮定する。
図17の(a)〜(h)において、白で示した識別器が常時稼動する識別器(モジュール)、ハッチングで示したものが前段の処理結果によって稼動または停止するモジュールである。また、クロスハッチで示したものは、常時停止するモジュールである。各バンドのステージNにおける識別処理の平均累積通過率P[N]を、前述の図14Bに示すグラフから求めると、Band_Aにおいては、P[1]=10%、P[2]=2%となる。従って、ステージ0では4個の識別器が常時稼動しているが、ステージ1、ステージ2においては各々3個の識別器は常時停止しており、ステージ1で唯一稼動している識別器の稼働率は40%、ステージ2で唯一稼動している識別器の稼働率は0.8%、となる。よって、Band_Aでは、約4.5(=4+0.4+0.08)倍の性能しか得られない。一方、Band_Dにおいては、平均累積通過率が高くP[1]=92%、P[2]=90%であることから、ステージ1、ステージ2ともにほとんど全ての識別器が常時稼動状態となる。その結果、約11.3(=4+4x0.92+4x0.9)倍という目標性能に近い高速化が測れる。しかし、図14Aの(a)の画像全体の平均累積通過率は、P[1]=50%、p[2]=40%であり、約7.6(=4+4x0.5+4x0.4)倍の高速化しか図れない。
以上のような分析を各バンドに対して行うと、図14Aの(a)のBand_Dにおいては、各ステージの平均累積通過率が高いため目標値である12倍に近い約11.3倍の性能が得られる。しかしながら、Band_Cでは約8.4倍、Band_Bでは約5.8倍、Band_Aでは約4.5倍の性能しか得られず、画像全体では約7.5倍の性能しか得られないことがわかる。同様に、図14の(b)に示す画像においては、Band_Xでは約4.5倍((a)のBand_Aと同様)、Band_Yでは約4.9倍、Band_Zでは約6.8倍、画像全体では4.7倍と、(a)に比べて更に低い性能となる。
以上の説明では、全ての識別器の処理時間が同一であると仮定したが、実際には各ステージの処理負荷は異なる。そのため、前述した時間的並列処理における処理律速(各ステージの処理時間の中で最長の処理時間が全体の処理時間を律速)が生じる可能性があり、更なる性能低下要因となる。
従来から、プロセッサの稼働率を均一化して処理性能向上および安定を図るため、様々な動的負荷分散の手法が提案されている。例えば、特許文献1では、以下のような提案がなされている。すなわち、複数プロセッサの各処理時間帯に対して、並列プログラムから生成されるプロセスを、各並列プログラムに対して予め設定されたプロセッサ配分率に応じた時間に従ってそれぞれ割り当てる。そして、各プロセッサそれぞれの処理時間帯のうちプロセスが割り当てられていない空き時間帯に対して、ある並列プログラムから生成される複数の並列プロセスを、並列動作可能に割り当てられるかを判定する。並列動作が可能な場合、空き時間帯に対し他の並列プロセスを追加で割り当て、各プロセッサは、各プロセッサそれぞれの処理時間帯に割り当てられた並列プロセスを実行する。
しかしながら、特許文献1の技術は、ターンアラウンド時間の保証が必要なプロセスを予め決まったタイムスロットに割り付けた上で、並列動作可能な複数の並列プロセスを空きタイムスロットに追加割り当てするものである。これにより、ターンアラウンド時間を保証しつつ、プロセッサの稼働率を向上させる。しかしながら、特許文献1は、予め決まった負荷のプロセスを処理する場合しか考慮していない。すなわち、従来技術のいずれにおいても、ステージ毎の通過率と処理時間に着目した制御は行っていない。そのため、Viola&Jones手法に示した顔検出のように、ある処理の結果に応じて次の処理が実行されるか否かが決定されるような複数の処理を制御するデータ処理(いわゆるカスケード処理)において、処理(プロセス)の負荷(実行時間)が入力データに依存して変動する場合においては、性能低減および性能変動を抑制する効果は乏しいという欠点があった。
本発明は、上記の課題に鑑みてなされたものであり、入力画像の種類や画像内の処理位置による性能変動が少なく、均一の高い処理性能をもつデータ処理装置を提供することを目的とする。
上記の目的を達成するための本発明の一態様によるデータ処理装置は以下の構成を備える。すなわち、
2以上の所定数のステージで処理を行うデータ処理であって、入力画像データから順次に抽出された部分画像データに対する前段のステージでの処理結果に応じて当該部分画像データに対する後段のステージでの処理を実行するか否かが決定されるデータ処理を、複数の処理モジュールを用いて実行するデータ処理装置であって、
前記所定数のステージに前記複数の処理モジュールを分配し、前記所定数のステージ間及び少なくとも1つのステージ内において複数の部分画像データを並列に処理するように前記複数の処理モジュールを接続する接続手段と、
入力画像データを主走査方向に走査して複数の走査位置のそれぞれに対応する部分画像データを順次切り出す切り出し手段と、
前記所定数のステージの各々について、当該ステージに入力された画像データ量に対する後段のステージに処理を実行させる処理結果が得られた画像データ量の割合を検出する検出手段と、
前記切り出し手段における所定の走査位置ごとに、前記検出手段で検出した割合に基づいて各ステージで処理される画像データ量を取得し、取得した画像データ量に対する処理時間の差がステージ間で小さくなるように各ステージに分配する処理モジュールの個数を決定する決定手段と、
前記決定手段で決定された分配にしたがって、前記接続手段による前記複数の処理モジュールの接続状態を変更する変更手段とを備える。
本発明によれば、ステージ処理毎に検出した通過率とステージ毎の処理時間に基づいてモジュール構成(各ステージの空間並列度、すなわち各ステージに装備すべき識別器数)が動的に変更される。このため、入力画像の種類や画像内の処理位置による性能変動が少なく、均一の高い処理性能が得られるという効果がある。
実施形態に係るデータ処理装置の構成例を示すブロック図。 実施形態に係るモジュール構成変更部の構成例を示す図。 複数の識別器により処理を時間的・空間的に並列化する接続例を示す図。 (a)〜(d)は、ステージ毎の累積通過率と、モジュールの割り当ての例を示す図。 通過率の検出例を示す図。 (a)〜(d)は24個の識別器の各々の稼動状態を説明する図。 (a)〜(d)は24個の識別器の接続状態が通過率に応じて変更される様子を示す図。 (a),(b)は識別器の接続構成を決定する手順を説明する図。 (a),(b)は識別器の接続構成を決定する手順を説明する図。 通過率検出部による通過率の検出処理を説明する図。 (a)〜(c)は図10に示した通過率検出例に従ったモジュール構成変更を説明する図。 (a),(b)はモジュール構成変更部をネットワーク(インターコネクト)により実現する例を説明する図。 プロセッサを用いて識別器を実現した場合を説明する図。 (a)、(b)は顔検出を行なう画像例を示す図。 画像の各部における通過率を示す図。 (a)は顔認識のための特徴量の例を示す図、(b)〜(e)は顔検出結果の例を示す図。 (a)〜(c)は、画像中の顔密度の違いによる通過率の変動を説明する図。 (a)〜(h)は、通過率の変動による識別器の稼働率の変化を説明する図。
以下、添付の図面を参照して、本発明の好適な実施形態を説明する。
図1は、本実施形態によるデータ処理装置の全体構成の例を示すブロック図である。本実施形態のデータ処理装置は、2以上の所定数のステージからなるデータ処理を複数の処理モジュールを用いて実行する。処理モジュールは所定数のステージの各ステージに割り当てられ、入力データから順次に抽出された部分データについて処理を行い、前段のステージでの処理結果に応じて後段のステージでの当該部分データへの処理を実行するか否かが決定される。以下では、入力データとして画像データを用い、識別モジュールとして画像データからパターン識別を行うための識別器を用いて説明を行うが、入力データ、処理モジュールはこれに限られるものではない。例えば、DNAの塩基配列情報に関するパターン認識や、音声信号に関するパターン認識に適用することも可能である。
CPU100は、読み出し専用のメモリであるROM101に記憶されている各種プログラムを実行することにより、データ処理装置の全体を制御する。DRAM103は、処理対象である画像データを格納する。DRAM103に格納されている画像データは、DRAMコントローラ102を介して制御器105へ供給される。処理部106は、パターン識別を行うための12個の識別器0〜11を有する。モジュール構成変更部110は、所定数のステージの各々に識別器0〜11を分配し、所定数のステージ間及び少なくとも1つのステージ内において複数の部分データを並列に処理するように識別器を接続する。詳細は、図2及び図3により後述する。
識別処理のスタート時にCPU100は、ROM101にある処理設定データ記憶部104より、特徴量等に代表される設定データを取得し、処理部106内の各識別器へ設定する。より具体的には、各識別器に、識別器が所属するステージに対応した特徴量(例えば、ステージ0に所属する識別器には図15の(a)に示した特徴量210が、ステージ1に所属する識別器には特徴量211が設定される。また、CPU100は、処理設定データ記憶部104より、画像データ位置(アドレス)等に代表される設定データを取得し、制御器105へ設定する。更に、この初期状態において、CPU100は、モジュール構成変更部110を初期状態に設定する。モジュール構成変更部110では、識別器0〜11が、3ステージのパイプライン構成が4基並列に接続された状態(図2、図3により後述する)となるように接続が設定される。
制御器105、処理部106、モジュール構成変更部110への設定が終わると、CPU100は制御器105および処理部106に対し処理の開始を通知する。制御器105は、設定された画像データ位置(アドレス)等に基づいてDRAMコントローラ102にアクセスすることにより、DRAM103に格納されている画像データから矩形領域のデータを順次読み出し、処理部106に転送する。矩形領域については、図14Aの(a)で説明したとおりである。処理部106は転送されてきた矩形領域の画像データに対し、順次識別処理を実行する。処理結果は、結果格納部112に格納され、CPU100が結果を読み出すことにより、画像データ内で顔と判断された矩形領域の座標値を知ることが出来る。
図3は、モジュール構成変更部110により、識別器0〜11が3ステージのパイプライン構成が4基並列に接続された場合の、識別器の接続状態(初期状態)を示す図である。識別器の接続は、図2に示すように、モジュール構成変更部110による接続の切替により変更することができる。図2では、識別器0が制御器105と接続され、識別器0→識別器1→識別器2の順に接続された後、識別器2の出力が結果格納部112に供給される。
ある入力画像の一部である矩形領域の画像データ(入力データ0:data_in0)に対し、制御器105から識別器0への入力データをdata_in0とし説明を行う。また、valid信号とは、data_inが有効であるか制御するための制御信号であり、識別器0がTrueと判定した場合はvalid_out=1を出力し、Falseと判定した場合は、valid_out=0を出力する。
制御器105は制御信号のアサート(valid_in0=1)を検出することにより、有効なデータ(data_in0)が入力されたことを検出する。すると、制御器105は、この有効なデータ(data_in0)を識別器0のdata_inに出力するとともに、入力データが有効であることを示すべく識別器0のvalid_inに「1」を出力する。識別器0はvalid_in=1を検出すると、入力データ(data_in)を基に、識別処理を行い、識別結果(valid_out)を出力する。識別器0出力結果は識別器1の入力信号valid_inとなる。識別器0はTrueと識別した場合には当該入力データを次の識別器1のdata_inに、入力データが有効であることを示す「1」を識別子1のvalid_inに出力する。これにより、識別器1は、有効な入力データを検出でき、処理を行うことができる。このように、data線では、入力データの受け渡しを行い、valid線では、有効データが入力されたかどうか(処理を行うかどうか)の制御を行う。識別器0〜2の識別結果が全てTrueであった場合、識別器2からはvalid_out=1が出力されることにより、入力データ0(data_in0)には、顔が含まれると判断される。以上に述べた構成とすることにより、3つのステージの識別器が完全に同時並列動作可能な場合には、識別器1個の構成と比べて最大3倍の処理高速化が図られる。
また、図3では、上述の時間的並列処理を更に高速化するために、空間的並列処理を行うように識別器が接続される。すなわち、3つのステージの処理を実行するパイプライン構成を4基並列に接続することにより、合計で12倍の高速化を目指している。したがって、図3の構成では、空間並列処理を行うために、どの座標の矩形領域の処理結果であるか判別するための、矩形領域の座標位置を示す座標データ(coord_in)が用いられる。制御器105にdata_in、valid_inが入力されると、ステージ0用に搭載された4個の識別器0,3,6,9には、data_in0、data_in1、data_in2、data_in3と順番に入力される。
その後、其々の空間並列処理を行った後、ステージ2用に搭載された4個の識別器2,5,8,11から、結果格納部112に対し、coord_out0、coord_out1、coord_out2、coord_out3が入力される。つまり、ステージ0用に搭載された識別器数が4倍になり、各々異なる4つの矩形領域データ(data_in0、data_in1、data_in2、data_in3)に対して同時に処理を行うことが出来る。このため、12個の識別器が完全に同時並列動作可能な場合には、識別器1個の構成と比べて最大12倍の処理高速化が図られる。なお、図2の信号線(入力信号inおよび出力信号out)は、図1で示した3種類の入出力信号(座標データ(coord_in/out)、画像データ(data_in/out)、制御信号(valid_in/out))を1本に束ねて表記したものである。
図1に戻り、本実施形態のデータ処理装置は、更に、通過率検出部107、処理時間記憶部108、算出部109を有する。また、識別器間の接続が、算出部109による計算結果に応じて、モジュール構成変更部110を介して変更される。
通過率検出部107は、各々の識別器が出力する識別結果信号(result信号)(本実施形態では、valid線と同じ)を入力することにより、各ステージの通過率(後段のステージに処理を実行させる処理結果が得られた割合)を検出する。算出部109(CPU100により実行される算出プログラム)は、通過率検出部107により検出された各ステージ(識別器)の通過率と、処理時間記憶部108に記憶された各ステージにおける識別器の処理時間とを用いてモジュール構成を算出する。
モジュール構成変更部110は、算出部109により算出された構成情報に基づきモジュール構成を変更する。モジュール構成変更部110は、制御器105からの入力信号(in0〜in11)と結果格納部への出力信号(out0〜out11)と、識別器0〜11の入出力信号の全接続を設定できるようにクロスバースイッチで構成されている。水平に配置された複数スイッチのうち最大一箇所のスイッチを接続(ON)することにより、入出力間の接続が確立される。スイッチの開閉(ON/OFF)は、経路(スイッチ)設定部114により制御される。
次に、算出部109が、通過率検出部107により検出された各ステージの通過率と、処理時間記憶部108に記憶された各ステージの処理時間とを用いてモジュール構成を算出する方法を説明する。以下、図4の(a)〜(d)(以下、例1〜例4という)に示す、ある時間で検出した通過率と処理時間を用いて詳細に説明する。
ステージNに装備された識別器1個あたりの処理時間をTm[N]、ステージNにおける累積通過率をP[N]とする。この場合、ステージNにおいて1つの入力データ(矩形画像データ)のデータ量を1個の識別器で処理するのに必要な平均処理時間Td[N]は以下の式(1)で与えられる。
Td[N] = Tm[N]*P[N] ・・・(1)
Td[N]は、識別器1個あたりの平均処理時間であるため、同じステージを処理することができる識別器(モジュール)を複数装備すれば、このステージあたりの処理を分担することが可能となる。従って、ステージNに装備される識別器(モジュール)の数をNum[N]とすると、ステージNにおける入力データ(矩形画像データ)1つあたりの処理時間T[N]は以下の式(2)で与えられる。
T[N] = Td[N]/Num[N] = (Tm[N]*P[N])/Num[N] ・・・(2)
前述したように、時間的並列処理の効率を最適化するためには各ステージの処理時間が均一であることが望ましい。すなわち、全てのステージにおいてT[N]が均一になるようにNum[N]を決定することにより、ステージ毎に装備すべき最適な識別器の数が算出可能である。以下、図4の例1に示す各ステージにおける識別器1個あたりの処理時間Tmと累積通過率Pの情報を基に、算出部109が、ステージ0,1,2の各々が装備すべき最適な識別器の数Num[0]、Num[1]、Num[2]を算出する方法を説明する。
全てのステージにおいて処理時間を均一にするためには、
(Tm[0]*P[0])/Num[0] = (Tm[1]*P[1])/Num[1]=(Tm[2]*P[2])/Num[2]・・・(3)
となるように各ステージに分配される識別器の個数Num[0]、Num[1]、Num[2]を決定すればよい。これは、累積通過率により求まる各ステージで処理されるデータ量と各ステージの処理時間とから、ステージごとの処理時間が均一になるように各ステージに分配する識別器の個数を決定しているものである。式(3)に例1の識別器1個あたりの処理時間Tmと累積通過率Pを代入すると、
(1*1)/Num[0] =(1*1/2)/Num[1]=(1*(1/2*1/2))/Num[2]
となり、
Num[0]:Num[1]:Num[2]=4:2:1・・・(4)
となる。従って、通過率検出部107により検出された通過率を用い、各ステージにおける識別器(処理モジュール)の数が式(4)の比率となるように各ステージを構成することにより、停止状態となるモジュールの少ない最適な回路構成にすることが可能となる。なお、例2、例3、例4も同様の方法でステージ間のモジュール数の比を算出した例を示している。
なお上記の算出は、CPU100が、
・処理時間記憶部108に格納されている識別器1個あたりの処理時間を読み出し、
・通過率検出部107により検出された通過率から累積通過率を算出し、
・式(3)の各項を演算するなどして式(4)の識別器数比を求める、算出プログラムを実行(算出部109)することによって実現可能である。
次に、本実施形態によるモジュール構成変更を実施した場合の、性能向上および性能安定の効果を図5〜図7を参照して説明する。ただし、通過率変動と性能の関係を分かりやすく説明するため、全ての識別器の処理時間は、例1に示すように同一(Tm[0]=Tm[1]=Tm[2]=1)であると仮定する。また、通過率検出部107により、図5の例(1)〜(3)に示されているように通過率が検出されたものとする。
以下では、処理部106は24個の識別器を有し、3ステージのパイプライン構成が、8基並列に接続可能であるとする。図6は、従来通りの、モジュール構成が不変の場合を示し、図7は、本実施形態にしたがってモジュール構成が変更される場合を示す。まず、モジュール構成の初期状態を簡略化して図6、図7の(a)に示す。初期状態では、3段のステージの各々に8個ずつの識別器を装備し、時間的並列度3、空間的並列度8として構成される。識別器の総数は24個であり、識別器1個の構成に対し、最大24倍の性能向上を狙ったものである。
動作開始後、通過率検出部107により例(1)に示したようにステージ0,1の通過率p[0]=1/3,p[1]=4/5、累積通過率P[1]=3/20,P[2]=1/20が検出されたとする。ここで、全ての識別器の処理時間は同一(Tm[0]=Tm[1]=Tm[2]=1)であると仮定している。そのため、累積通過率P[1]=3/20、P[2]=1/20を用いると、式(3)を満たすモジュール数の比はNum[0]:Num[1]:Num[2]=20:3:1と算出される。算出部109は、こうして算出されたモジュール数比となるようにモジュール構成変更部110に指示する。この結果、図7の(b)に示すように、すなわち、Num[0]=20、Num[1]=3、Num[2]=1となるように、モジュール構成変更部110は構成(各ステージに割り当てるモジュールの個数)を変更する。この場合、全ての識別器が常時稼動した状態となるため、識別器1個の構成に対し24倍の性能となる。
一方、従来技術の構成においては、例(1)に示される通過率の場合、図6の(b)に示すように、ステージ2用に搭載された識別器のうち7個は常に停止状態となり、残りの1個がStage0,1の結果により稼動又は停止する状態になる。なお、図17と同様、常時稼動する識別器を白、前段の結果によって稼動または停止するモジュールをハッチング、常時停止するモジュールをクロスハッチで示している。この際の処理性能は、累積通過率がP[1]=3/20、P[2]=1/20であることから、識別器1個の構成に対し約9.6(=8+8x3/20+8x1/20)倍となり、本実施形態に比べ、40%の性能しか得られない。
更に通過率が変動し、通過率検出部107により例(2)に示した通過率(ステージ0,1の通過率p[0]=1/3、p[1]=4/5、累積通過率はP[1]=1/3、P[2]=4/15)が検出されたとする。この場合、式(3)を満たすモジュール数の比はNum[0]:Num[1]:Num[2]=15:5:4と算出され、図7の(c)に示すように、Num[0]=15、Num[1]=5、Num[2]=4となるように構成が変更される。この場合の性能も例(1)と同様、全ての識別器が常時稼動した状態となるため、識別器1個の構成に対し24倍の性能となり、通過率変動による性能変動は生じない。
一方、従来技術の構成においては、図6の(c)に示すように、例(1)の通過率の場合と同様に、多くの識別器が停止状態となる。累積通過率がP[1]=1/3、P[2]=4/15であることから、識別器1個の構成に対し約12.8(=8+8x1/3+8x4/15)倍の処理性能となり、本実施形態に比べ、50%程度の性能しか得られない。
更に通過率が変動し、例(3)に示した通過率(ステージ0,1の通過率p[0]=4/5、p[1]=3/4、累積通過率はP[1]=4/5、P[2]=3/5)が検出されたとする。この場合、式(3)を満たすモジュール数の比はNum[0]:Num[1]:Num[2]=5:4:3と算出され、図7の(d)に示すように(Num[0]=10、Num[1]=8、Num[2]=6となるように構成が変更される。識別器1個の構成に対する性能は例(1)、例(2)と同様24倍となり、依然高い性能を維持される。
一方、従来技術の構成においては、図6の(d)に示すように比較的通過率の高い例(3)においても、全ての識別器が常時動作する訳ではない。この場合、累積通過率がP[1]=4/5,P[2]=3/5であることから、識別器1個の構成に対し約19.2(=8+8x4/5+8x3/5)倍の性能となり、本実施形態の性能の80%にとどまる。
以上に述べたように、従来技術においては、あるステージの平均累積通過率が低下した際には、後段ステージに対するデータ供給が滞ることにより、後段ステージに装備された識別器が稼動しない状況に陥るため、性能低下生じる。また、平均累積通過率が変動した際には、稼動しない識別器数が変動するため、性能変動が生じる。これに対して、本実施形態によれば、平均累積通過率が低下・変動した場合においても、稼動しない識別器数を常に最小化することができるため、常に安定した高い性能を得ることが出来る。
ただし、以上の説明においては、本発明の効果を明らかにするためモジュール数比が整数比となる例を用いた。しかしながら、一般的にはモジュール数比が常に整数比となるとは限らない。また、整数比であったとしても、搭載されているモジュール総数などにより、算出された比の構成が不可能な場合もある。例えば、図4の(a)に示した例1において、搭載されているモジュール総数が6個であったとすると、4:2:1の比を満たすモジュール構成は取り得ない。このように、式(3)を満たすモジュール数の比が整数比とならない場合や、搭載されているモジュール総数において式(3)を満たすことが出来ない場合には、以下の手順に従ってモジュール数比を決定する。
搭載されている総数の識別器を、各ステージに配分する場合、どのステージに何個の識別器を配置するかには複数の選択肢が存在する。
〈第1の手順〉
第1の手順では、全てのステージに少なくとも1個の識別器が装備されるような選択肢を全選択肢の中から選別する。識別器が1個も装備されないステージが存在すれば、全体としては処理が完結しないため、これは妥当な選別基準である。そして、第1の手順により選別された選択肢の中から最良の構成を決定するため、以下に述べる第2の手順を適用する。
〈第2の手順〉
ある選択肢において、ステージNにおける入力データ(矩形画像データ)1つあたりの処理時間T[N]を式(2)を用いて全ステージに対して求め、その中の最大値を該選択肢の第1の処理時間とする。前述したように、パイプライン処理においては各ステージの処理時間の中で最長の処理時間が全体の処理時間を律速するため、ステージ処理時間の最大値(第1の処理時間)を全体の処理時間と見なすことは妥当である。そして、第1の手順により選定された全ての選択肢の中から上記第1の処理時間が最小となる選択肢を選定し、これを最良の構成とする。第2の手順により選定された選択肢が複数存在する場合は、更に第3の手順を適用する。
〈第3の手順〉
ある選択肢において、ステージNにおける入力データ(矩形画像データ)1つあたりの処理時間T[N]を式(2)を用いて全ステージに対して求め、その中の2番目に大きい値を該選択肢の第2の処理時間とする。そして、第2の手順により選定された全ての選択肢の中から上記第2の処理時間が最小となる選択肢を選定し、これを最良の構成とする。
第3の手順を適用しても選定された選択肢が複数存在する場合は、3番目に大きい値(第3の処理時間)、4番目に大きい値(第4の処理時間)を順次用いて同様の比較を行う。そして、第Nの処理時間が最小となる選択肢が1つとなったところで選定を完了する。また、全てのステージに対して同様の比較を行っても複数の選択肢が残った場合は、その中の任意の選択肢を最良の構成とする。
以下、上記手順の具体例を、図8および図9を用いて説明する。図8は、図4の例1に対して上記手順を適用する例である。すなわち、例1の条件で、各ステージに分配すべきモジュールの個数を算出した結果、Num[0]:Num[1]:Num[2]=4:2:1と算出された。しかし、搭載されている識別器が6個であった場合、どのようにモジュール構成を選択するかを詳細に示す。
ステージ0,1,2にどのようにモジュール数を割り当てるかの選択肢として、第1の手順で示したように、全てのステージに少なくとも1個の識別器が装備されるような選択肢1〜10を図8の(b)に示す。次に第2の手順において、第1の手順により選別された選択肢の中から最良の構成を決定する。このため、前述したように、ある選択肢において、ステージNにおける入力データ(矩形画像データ)1つあたりの処理時間T[N]を式(2)を用いて全ステージに対して求め、その中の最大値を該選択肢の第1の処理時間とする。図8の(b)の第1番〜第5番の選択肢の構成に対する計算の様子を図8の(a)に示す。第1の手順により選定された全ての選択肢の中からこの第1の処理時間が最小となる選択肢を選定し、これを最良の構成とする。図8の(b)においては、ステージ処理時間の最大値が1/3と他の選択肢に比べ小さい第2番の選択肢が最良の構成として選択される。
次に図9により、図4の(c)に示した例3の条件で、図8と同様に識別器が6個装備されている例を挙げ、第2の手順により選定された選択肢が複数存在するために第3の手順を適用する例を示す。即ち、ステージ0,1,2にどのようにモジュール数を割り当てるかの選択肢として、第1の手順で示したように、全てのステージに少なくとも1個の識別器が装備されるような選択肢1〜10を図9の(b)に示す。図9の(b)の第1番〜第6番の選択肢の構成に対する計算の様子を図9の(a)に示す。
例3の条件で、モジュール数を算出した結果、Num[0]:Num[1]:Num[2]=2:1:1と算出される。次に、上述した第1及び第2の手順を用いて、算出されたステージ処理時間の最大値が最小となる選択肢を選択する。図9の例では、(a)、(b)に示すように、第1番〜第6番までの選択肢が同じ1/2となる。そこで、第3の手順により、2番目に大きいステージ処理時間を比べる。その結果、図9の(b)では、第5番の選択肢の2番目に大きいステージ処理時間の最大値が1/4と他の選択肢に比べて小さいことがわかる。よって、第5番の選択肢が最良の構成として選択される。以上に述べた手順を用いることで、式(3)を満たすモジュール数比が整数比とならない場合においても最良の構成を選択することが可能となる。
次に、入力画像を順次処理していく際に、通過率検出部107により通過率を検出する手順を図10、図11を用いて説明する。なお、画像の走査方法としては、入力画像の主走査方向に1画素ずつ識別処理を行っていく、前述した方法を用いる。
まず処理開始時に、通過率検出部107は通過率を初期値(例えば100%)に設定するとともに、モジュール構成を図11の(a)に示す初期構成とする。処理が開始されると、通過率検出部107は、画素処理毎に入力される各ステージの識別結果をもとに、各ステージの通過率を更新していく。主走査方向に所定数の画素(矩形領域)が識別処理された時点で、算出部109はその時点における各ステージの通過率をもとに、上述した手順で次の画素以降を処理する際に用いる構成を算出、決定する。そして、算出部109は、その算出値に基づき構成変更を行うべくモジュール構成変更部110に指示する。なお、処理が画像右端に達した場合、通過率検出部107は通過率を上述した初期値に再設定する。
図10、図11を用いて、上記手順を更に具体例を説明する。なお、主走査方向の所定画素数としては、図10に示すW0,W1,W2,W3を用いる。また、図11の(c)は、図10に示した入力画像のバンドBand_Cを処理した際のW0区間およびW1区間におけるステージ0、1の平均通過率を示す。
バンドBand_Cの処理を開始する際には、前述したように、通過率検出部107が示す通過率は初期値に設定されている。従って、バンドBand_CのW0区間(Band_C(W0))を処理する際の構成は図11の(a)に示す初期構成となる。Band_C(W0)の右端画素の処理が完了すると、通過率検出部107が出力する通過率は、(c)よりp[0]=1/3、p[1]=4/5となる。算出部109により、式(3)を満たすモジュール数の比はNum[0]:Num[1]:Num[2]=15:5:4と算出され、モジュール構成は図11の(b)に示す構成へと変更される。
引き続きバンドBand_CのW1区間(Band_C(W1))の処理を行い、Band_C(W1)の右端画素の処理が完了した際には、通過率検出部107が出力する通過率は(d)よりW0区間と全く同じ値(p[0]=1/3、p[1]=4/5)である。この場合、算出部109により算出されたモジュール数の比が現状と同じであるため、構成変更は行われない。以下同様に、各区間の右端画素処理が完了する毎に構成を算出、変更し、W1区間、W2区間を順次処理していく。
次に、モジュール構成変更部110の具体的な実装例を説明する。図2は、モジュール構成変更部110により、制御器105の入力信号(in0)→識別器0→識別器1→識別器2→結果格納部112への出力信号(out0)の接続を実現している例である。図2に示したように、接続する部分のスイッチが接続(ON)されることで、この経路が実現できている。
次に、ステージ毎の識別器数を変更する手順を説明する。例えば、算出部109により、式(4)を満たすモジュール数の比がNum[0]:Num[1]:Num[2]=6:4:2と算出されたとする。この場合、ステージ0には識別器0〜5、ステージ1には識別器6〜9、ステージ2には識別器10〜11が配備されることになる。図示しない制御部により、各々の識別器に対し、各ステージ処理に必要なパラメータが転送される。また、経路(スイッチ)設定部114は、初期経路設定として、以下の経路を確立する。
in0→識別器0→識別器6→識別器10→out0
in1→識別器1→識別器7→識別器11→out1
in2→識別器2→識別器8
in3→識別器3→識別器9
in4→識別器4
in5→識別器5
識別器8、9は、隣接するステージの識別器10、11のいずれかに接続される必要があり、識別器4,5は隣接するステージの識別器6,7,8,9のいずれかに接続される必要があるが、初期経路設定では未接続とする。経路(スイッチ)設定部114は各識別器から出力される制御信号(valid)を監視している。例えば、識別器6,7がともにデータ転送中(識別器6,7のvalid信号が有効)の状態で識別器8のvalid信号が有効になったことを検出したとする。すると、経路(スイッチ)設定部114は識別器6、7のデータ転送完了(valid信号の無効)のいずれか早い方を待つ。そして、例えば識別器6のデータ転送完了が早かった場合には、識別器6の転送完了後直ちに接続経路を、
in0→識別器0→識別器6
in1→識別器1→識別器7→識別器11→out1
in2→識別器2→識別器8→識別器10→out0
in3→識別器3→識別器9
in4→識別器4
in5→識別器5
に変更する。
以上の説明ではモジュール構成変更手段の実装手段としてクロスバースイッチの例を用いたが、より汎用的にはネットワーク(インターコネクト)を用いる実現方法がある。
次に、図12を用いて、モジュール構成変更部110をネットワーク(インターコネクト)を用いて実現する例を説明する。識別器0〜11の各々が出力する識別結果は通過率検出部107に入力される。また、各々の識別器はネットワーク(インターコネクト)80に接続されており、ある矩形画像データに対する識別処理を実行中の場合、ネットワーク80に対し、処理中であるというステータスを送信(例えば、ビジー信号のアサート)する。どの識別器の処理結果をどの識別器へ送信するか、すなわち識別器間の接続関係(トポロジー)の決定は、ネットワーク80に装備された通信経路設定部111によりなされる。
例えば、図12の(a)の構成においては、ステージ0の処理を分担する識別器0〜2の出力はステージ1の処理を分担する識別器3〜5に送信されるように設定されている。また、識別器3〜5の出力はステージ2の処理を担当する識別器6〜8に送信されるように設定される。また、通信経路設定部111に対する設定内容は、図示しない算出部109によって算出されたモジュール構成に基づいて決定される。
例えば、算出部109により、式(3)を満たすモジュール数の比がNum[0]:Num[1]:Num[2]=6:2:1と算出されたとする。この場合には、識別器0〜2,5,7,8の出力が識別器3〜4に送信され、識別器3〜4の出力が識別器6に送信されるように通信経路設定部111の設定内容を変更すればよい。その結果、図12の(b)に示す構成が実現される。
なお、ネットワーク80は複数の送信先が設定されている場合、処理中を示すステータスを送信していない(ビジー信号をアサートしていない)識別器の中から1個を選択し、接続を確立するように制御を行う。ただし、全ての送信先が処理中の場合は、少なくとも1個が処理中でなくなるのを待ったのちに接続を確立する。
なお、ネットワーク(インターコネクト)の構成手段としては、前述のクロスバースイッチ方式の他、リング方式、共有バス方式等の様々な手段が考えられるが、いずれの方式を用いたとしても、本発明の有効性は損なわれるものではない。
<他の実施形態>
次に図13を用いて、他の実施形態の説明を行う。図13は図12の(b)の各識別器をプロセッサで実装した図である。プロセッサを用いて実装することにより、図12の(a)から(b)への識別モジュール構成変更が、プロセッサが実行するプログラムを変更するだけで、実現可能となる。すなわち、
・プロセッサ5aが実行するプログラムをステージ1の処理プログラムからステージ0の処理プログラムに変更し、
・プロセッサ7a,8aが実行するプログラムをステージ2の処理プログラムからステージ0の処理プログラムに変更することにより、構成を変更することが出来る。
識別処理においては、通常カスケード段数が数十ステージにもおよぶため、各ステージに1個以上の識別器を専用に装備することは回路規模の観点から困難な場合がある。このような場合には、連続する複数のステージを統合し、統合されたステージに対して識別器を装備するなどして回路規模を適正化する必要がある。プロセッサを用いた実装においては、連続する2つ以上のステージ処理を統合して1個のプロセッサで実行することが、プログラム変更により容易に実現可能である。
また、各ステージに装備すべき最適な識別器の数を決定する際に従うべき前述の手順においては、識別器の総数は与えられたものとしていた。しかし、プロセッサを用いた実装においては、ステージ数が多い場合に、1個のプロセッサで実行するステージ処理の統合が容易に行える。そのため、与えられたプロセッサ総数に対して、構成の選択肢が広がることにより、より良いモジュール構成を決定することが可能となる。
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。

Claims (6)

  1. 2以上の所定数のステージで処理を行うデータ処理であって、入力画像データから順次に抽出された部分画像データに対する前段のステージでの処理結果に応じて当該部分画像データに対する後段のステージでの処理を実行するか否かが決定されるデータ処理を、複数の処理モジュールを用いて実行するデータ処理装置であって、
    前記所定数のステージに前記複数の処理モジュールを分配し、前記所定数のステージ間及び少なくとも1つのステージ内において複数の部分画像データを並列に処理するように前記複数の処理モジュールを接続する接続手段と、
    入力画像データを主走査方向に走査して複数の走査位置のそれぞれに対応する部分画像データを順次切り出す切り出し手段と、
    前記所定数のステージの各々について、当該ステージに入力された画像データ量に対する後段のステージに処理を実行させる処理結果が得られた画像データ量の割合を検出する検出手段と、
    前記切り出し手段における所定の走査位置ごとに、前記検出手段で検出した割合に基づいて各ステージで処理される画像データ量を取得し、取得した画像データ量に対する処理時間の差がステージ間で小さくなるように各ステージに分配する処理モジュールの個数を決定する決定手段と、
    前記決定手段で決定された分配にしたがって、前記接続手段による前記複数の処理モジュールの接続状態を変更する変更手段とを備えることを特徴とするデータ処理装置。
  2. 前記決定手段は、各ステージで処理される画像データ量を取得し、ステージ間の前記画像データ量の比にしたがって各ステージに分配する処理モジュールの個数を決定することを特徴とする請求項1に記載のデータ処理装置。
  3. 前記所定数のステージの各ステージについて前記部分画像データの処理に要する処理時間を記憶する記憶手段を更に備え、
    前記決定手段は、
    前記割合に基づいて各ステージで処理される画像データ量を算出し、
    各ステージについて前記画像データ量と前記処理時間と当該ステージに分配された処理モジュールの数とに基づいて求まる処理モジュールあたりの平均処理時間の最大値が、最も小さくなるように各ステージに分配する処理モジュールの個数を決定することを特徴とする請求項1に記載のデータ処理装置。
  4. 前記検出手段は、前記入力画像データの所定の画像データ量ごとに前記割合を検出し、
    前記決定手段は、前記所定の画像データ量ごとに検出される前記割合に基づいて各ステージに分配する処理モジュールの個数を決定し、
    前記変更手段は、前記所定の画像データ量ごとに、前記決定手段で決定された分配にしたがって前記接続手段による前記複数の処理モジュールの接続状態を変更することを特徴とする請求項1乃至3のいずれか1項に記載のデータ処理装置。
  5. 前記変更手段は、処理モジュールによる処理が完了したか否かを監視し、隣接するステージ間で分配された処理モジュールの数が異なる場合に、前段のステージにおける処理モジュールの処理が完了した順に、前段のステージにおける処理モジュールを後段のステージにおける処理が完了した処理モジュールと接続することを特徴とする請求項1乃至4の何れか1項に記載のデータ処理装置。
  6. 2以上の所定数のステージで処理を行うデータ処理であって、入力画像データから順次に抽出された部分画像データに対する前段のステージでの処理結果に応じて当該部分画像データに対する後段のステージでの処理を実行するか否かが決定されるデータ処理を、複数の処理モジュールを用いて実行するデータ処理装置であって、
    前記所定数のステージに前記複数の処理モジュールを分配し、前記所定数のステージ間及び少なくとも1つのステージ内において複数の部分画像データを並列に処理するように前記複数の処理モジュールを接続する接続手段を備えたデータ処理装置によるデータ処理方法であって、
    切り出し手段が、入力画像データを主走査方向に走査して複数の走査位置のそれぞれに対応する部分画像データを順次切り出す切り出し工程と、
    検出手段が、前記所定数のステージの各々について、当該ステージに入力された画像データ量に対する後段のステージに処理を実行させる処理結果が得られた画像データ量の割合を検出する検出工程と、
    決定手段が、前記切り出し工程における所定の走査位置ごとに、前記検出工程で検出した割合に基づいて各ステージで処理される画像データ量を取得し、取得した画像データ量に対する処理時間の差がステージ間で小さくなるように各ステージに分配する処理モジュールの個数を決定する決定工程と、
    変更手段が、前記決定工程で決定された分配にしたがって、前記接続手段による前記複数の処理モジュールの接続状態を変更する変更工程とを備えることを特徴とするデータ処理方法。
JP2010112661A 2010-05-14 2010-05-14 データ処理装置及びデータ処理方法 Expired - Fee Related JP5574816B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2010112661A JP5574816B2 (ja) 2010-05-14 2010-05-14 データ処理装置及びデータ処理方法
US13/102,168 US9003167B2 (en) 2010-05-14 2011-05-06 Data processing apparatus and data processing method
EP11165810.0A EP2386950B1 (en) 2010-05-14 2011-05-12 Data processing apparatus and data processing method
CN2011101259221A CN102243600B (zh) 2010-05-14 2011-05-16 数据处理设备和数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010112661A JP5574816B2 (ja) 2010-05-14 2010-05-14 データ処理装置及びデータ処理方法

Publications (3)

Publication Number Publication Date
JP2011242898A JP2011242898A (ja) 2011-12-01
JP2011242898A5 JP2011242898A5 (ja) 2013-06-27
JP5574816B2 true JP5574816B2 (ja) 2014-08-20

Family

ID=44357938

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010112661A Expired - Fee Related JP5574816B2 (ja) 2010-05-14 2010-05-14 データ処理装置及びデータ処理方法

Country Status (4)

Country Link
US (1) US9003167B2 (ja)
EP (1) EP2386950B1 (ja)
JP (1) JP5574816B2 (ja)
CN (1) CN102243600B (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5618670B2 (ja) 2010-07-21 2014-11-05 キヤノン株式会社 データ処理装置及びその制御方法
WO2022070427A1 (ja) * 2020-10-02 2022-04-07 日本電気株式会社 画像処理装置、画像処理方法及びコンピュータ可読媒体

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS51112236A (en) 1975-03-28 1976-10-04 Hitachi Ltd Shape position recognizer unit
JPH0262671A (ja) 1988-08-30 1990-03-02 Toshiba Corp カラー編集処理装置
WO1993004429A2 (en) * 1991-08-13 1993-03-04 Board Of Regents Of The University Of Washington Method of generating multidimensional addresses in an imaging and graphics processing system
US5668631A (en) 1993-12-20 1997-09-16 Minolta Co., Ltd. Measuring system with improved method of reading image data of an object
US6407817B1 (en) 1993-12-20 2002-06-18 Minolta Co., Ltd. Measuring system with improved method of reading image data of an object
US6545687B2 (en) 1997-01-09 2003-04-08 Canon Kabushiki Kaisha Thumbnail manipulation using fast and aspect ratio zooming, compressing and scaling
US6643400B1 (en) 1999-03-31 2003-11-04 Minolta Co., Ltd. Image processing apparatus and method for recognizing specific pattern and recording medium having image processing program recorded thereon
US20030228565A1 (en) 2000-04-26 2003-12-11 Cytokinetics, Inc. Method and apparatus for predictive cellular bioinformatics
US7092569B1 (en) 1999-07-29 2006-08-15 Fuji Photo Film Co., Ltd. Method and device for extracting specified image subjects
EP1205840B1 (en) * 2000-11-08 2010-07-14 Altera Corporation Stall control in a processor with multiple pipelines
JP3943022B2 (ja) 2000-12-01 2007-07-11 株式会社荏原製作所 基板検査装置
EP1324528A1 (en) * 2001-12-31 2003-07-02 TELEFONAKTIEBOLAGET LM ERICSSON (publ) Apparatus and method for flexible data rate matching
JP2003256221A (ja) 2002-02-28 2003-09-10 Fujitsu Ltd 並列プロセス実行方法、及びマルチプロセッサ型コンピュータ
US7181085B1 (en) * 2002-04-04 2007-02-20 Acorn Technologies, Inc. Adaptive multistage wiener filter
US20030226000A1 (en) * 2002-05-30 2003-12-04 Mike Rhoades Collapsible pipeline structure and method used in a microprocessor
US7444632B2 (en) * 2003-09-25 2008-10-28 International Business Machines Corporation Balancing computational load across a plurality of processors
JP4549352B2 (ja) 2004-09-30 2010-09-22 富士フイルム株式会社 画像処理装置および方法,ならびに画像処理プログラム
US20060200651A1 (en) * 2005-03-03 2006-09-07 Collopy Thomas K Method and apparatus for power reduction utilizing heterogeneously-multi-pipelined processor
US20060224864A1 (en) * 2005-03-31 2006-10-05 Dement Jonathan J System and method for handling multi-cycle non-pipelined instruction sequencing
JP4231516B2 (ja) * 2006-08-04 2009-03-04 株式会社日立製作所 実行コードの生成方法及びプログラム
WO2008117468A1 (ja) * 2007-03-27 2008-10-02 Advantest Corporation 試験装置
US8103108B2 (en) 2007-05-01 2012-01-24 Sharp Kabushiki Kaisha Image processing apparatus, image forming apparatus, image processing system, and image processing method
JP5058681B2 (ja) * 2007-05-31 2012-10-24 キヤノン株式会社 情報処理方法及び装置、プログラム、記憶媒体
CN101334780A (zh) 2007-06-25 2008-12-31 英特维数位科技股份有限公司 人物影像的搜寻方法、系统及存储影像元数据的记录媒体
US8284205B2 (en) * 2007-10-24 2012-10-09 Apple Inc. Methods and apparatuses for load balancing between multiple processing units
JP5101993B2 (ja) 2007-11-01 2012-12-19 キヤノン株式会社 情報処理装置および情報処理方法
US20090125706A1 (en) * 2007-11-08 2009-05-14 Hoover Russell D Software Pipelining on a Network on Chip
JP4948379B2 (ja) * 2007-12-18 2012-06-06 キヤノン株式会社 パターン識別器生成方法、情報処理装置、プログラム及び記憶媒体
US20090208112A1 (en) 2008-02-20 2009-08-20 Kabushiki Kaisha Toshiba Pattern recognition method, and storage medium which stores pattern recognition program
JP4513898B2 (ja) * 2008-06-09 2010-07-28 株式会社デンソー 画像識別装置
JP5100596B2 (ja) * 2008-10-03 2012-12-19 キヤノン株式会社 情報処理装置及び情報処理方法
JP5258506B2 (ja) * 2008-10-24 2013-08-07 キヤノン株式会社 情報処理装置
CN101515286B (zh) * 2009-04-03 2012-04-11 东南大学 基于图像特征多级过滤的图像匹配方法
JP2011076495A (ja) * 2009-09-30 2011-04-14 Toshiba Corp マルチプロセッサによる並列処理装置
JP5618670B2 (ja) 2010-07-21 2014-11-05 キヤノン株式会社 データ処理装置及びその制御方法

Also Published As

Publication number Publication date
EP2386950A2 (en) 2011-11-16
US9003167B2 (en) 2015-04-07
JP2011242898A (ja) 2011-12-01
US20110283088A1 (en) 2011-11-17
EP2386950B1 (en) 2020-11-25
EP2386950A3 (en) 2013-07-24
CN102243600B (zh) 2013-01-23
CN102243600A (zh) 2011-11-16

Similar Documents

Publication Publication Date Title
JP5618670B2 (ja) データ処理装置及びその制御方法
US8923646B2 (en) Geodesic superpixel segmentation
US9633251B2 (en) Facial identification method, facial identification apparatus and computer program for executing the method
US9021347B2 (en) Information processing method and apparatus, program, and storage medium
JP5100596B2 (ja) 情報処理装置及び情報処理方法
JP2011059819A (ja) 情報処理方法及び装置
JP5574816B2 (ja) データ処理装置及びデータ処理方法
US8553991B2 (en) Clustering processing apparatus and clustering processing method
US8666176B2 (en) Object recognition apparatus and object recognition method
US20100119107A1 (en) Information processing apparatus including a plurality of multi-stage connected information processing units
JP5371541B2 (ja) データ処理装置及びその処理方法
US20050228966A1 (en) Processor system and data processing method
JP5686548B2 (ja) 情報処理装置、情報処理方法、プログラム
Chen et al. Parallel object detection on multicore platforms
CN115984083A (zh) 电子装置和电子装置的图像处理方法
US11048922B2 (en) Gesture detection using color segmentation
US20240004717A1 (en) Control apparatus, control method, and program
CN109583262B (zh) 对象侦测的适应系统与方法
Crosbie et al. Index policies and a novel performance space structure for a class of generalised branching bandit problems
CN118260033A (en) Task scheduling method and heterogeneous processor
JPH0269877A (ja) 画像処理装置
CN118260054A (en) Acquisition method, training method, task processing method and related devices
JPH04257915A (ja) 情報処理装置
CN116155750A (zh) 深度学习作业资源放置方法、系统、设备和存储介质
CN117764806A (zh) 图片预处理方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130514

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130514

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140303

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140501

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140701

R151 Written notification of patent or utility model registration

Ref document number: 5574816

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees