JP2011090411A

JP2011090411A - 画像処理装置、画像処理方法

Info

Publication number: JP2011090411A
Application number: JP2009241882A
Authority: JP
Inventors: Yasuyo Shimizu; 康世清水
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2009-10-20
Filing date: 2009-10-20
Publication date: 2011-05-06
Anticipated expiration: 2029-10-20
Also published as: US8311271B2; US20110091117A1; JP5671224B2

Abstract

【課題】ユーザのスケジュールに応じた認識辞書を用いて認識処理を行うための技術を提供すること。
【解決手段】ユーザが滞在する予定地を示す予定地情報と、予定地に滞在する予定時間帯を示す予定時間帯情報と、を関連付けて管理するスケジュール情報を保持する。予定地を撮像したときに撮像画像中に登場しうる被写体を認識するために用いる認識辞書を予定地情報と関連付けて保持する。現在時刻を示す時刻情報、現在時刻におけるユーザの滞在場所の画像を取得する。取得した時刻情報を含む時間帯を示す予定時間帯情報と関連付けて保持されている予定地情報を特定し、特定した予定地情報に関連付けて保持されている認識辞書を特定する。特定した認識辞書を用いて画像中の被写体を認識し、認識結果を示す認識情報を出力する。
【選択図】図１

Description

本発明は、認識技術に関するものである。

昨今、デジタルカメラ等の普及やメモリ容量の増大によって撮影画像を大量に保存することが可能となり、その結果、撮影画像の整理が煩わしさを増している。また従来より、顔認証などを用いて被写体ごとに画像に誰が写っているのかという情報をつけて整理する技術がある。以下、顔認証の技術について説明する。

人間の顔を判別する技術として、画像から特定の被写体パターンを自動的に検出する画像処理方法がある。このような方法は、通信会議、マン・マシン・インタフェース、セキュリティ、人間の顔を追跡するためのモニタ・システム、画像圧縮などの多くの分野で使用することができる。このような画像中から顔を検出する技術としては、例えば、非特許文献１に各種方式が挙げられている。その中では幾つかの顕著な特徴（２つの目、口、鼻等）と特徴間の固有の幾何学的位置関係を利用する又は人間の顔の対称的特徴、人間の顔色の特徴、テンプレート・マッチング、ニューラル・ネットワーク等を利用して人間の顔を検出する方式が示されている。例えば、非特許文献２で提案されている方式は、ニューラル・ネットワークにより画像中の顔パターンを検出する方法である。また、非特許文献３では、照合パターンの顔確率を複数の見え方に関する統計的分布の統合モデルとして捉えて判別処理を行っている。また、処理の高速化に着目した例としては、非特許文献４がある。この報告の中ではAdaBoostを使って多くの弱判別器を有効に組合せて顔判別の精度を向上させる一方、夫々の弱判別器をHaarタイプの矩形特徴量で構成し、しかも矩形特徴量の算出を、積分画像を利用して高速に行っている。また、AdaBoost学習によって得た判別器を直列に繋ぎ、カスケード型の顔検出器を構成するようにしている。このカスケード型の顔検出器は、前段の単純な（即ち計算量がより少ない）判別器を使って明らかに顔でないパターンの候補を除去し、残りの候補に対してのみより高い識別性能を持つ後段の複雑な（即ち計算量がより多い）判別器を使って顔か否かを判定する。これは、すべての候補に対して複雑な判定を行う必要がないので、高速に処理を行うことができる。しかしながら、以上説明した何れの技術も、静止画に対して顔の検出を適用したものであり、動画像からの検出に適用してはいない。

非特許文献５では、非特許文献３の手法をベースにしており、所定フレームの顔検出結果をもとに次フレームの顔の状態を予測し、それに顔の判別処理を適用して顔検出結果を更新する方法を提案している。この方法により、複数フレームにおける顔の判別結果を統合することができるので、精度向上につながるとしているが、新しい顔の出現には対応できず、例えば、５フレームごとに全探索を行うなどの対応策を提案している。

特許文献１では、動画像に対して顔の検出を実時間で行うために、時間的に変化していない領域の判定を行い、その領域を顔検出処理から除外する方法がとられている。この方法は、高速化には効果的ではあるが、非特許文献５で示されているような複数フレームにおける顔の判別結果の統合は行っていないので、精度向上は望めない。

非特許文献２におけるニューラル・ネットワークの重み、閾値や、非特許文献４における弱判別器が参照する矩形特徴量を定義するためのパラメータや、矩形特徴量から判別処理を行うための演算係数、閾値などは、一般に認識辞書と呼ばれる。そしてそのデータは通常、数十KBから数百KBの規模のデータになる。

また、特許文献２によれば、人物の個別認識の際に用いるデータベースとして、個人認識パラメータだけではなく、スケジュールなどのデータベースの属性を増やすことにより認識の精度を上げる。

しかしながら実際には、被写体は人間だけではなかったり多くの画像において同じ被写体が写っていたり、逆に風景画像のように人が写っていない場合など、人物の認識あるいは認証だけでは十分に整理できない場合が多い。これに対し、認識対象の被写体種類を拡張することが考えられる。多種類の被写体を認識することで、より詳細に書誌情報（メタデータ）をつけ、より効率的に撮影画像を整理することが可能となる。

特開2005-174352号公報特開2005-127285号公報

Yang et al, "Detecting Faces in Images: A Survey", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL.24 , NO.1, JANUARY 2002 Rowley et al, "Neural network-based face detection", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL.20 , NO.1, JANUARY 1998 Schneiderman and Kanade, "A statistical method for 3D object detection applied to faces and cars", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR2000) Viola and Jones, "Rapid Object Detection using Boosted Cascade of Simple Features", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR'01) Mikolajczyk et al, "Face detection in a video sequence - a temporal approarch", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR'01)

しかしながら、認識対象の被写体の種類を拡張した場合において、認識対象それぞれについて認識処理のパラメータデータ（以下、認識辞書と呼ぶ）が必要になる。したがって、認識対象が多種にわたればわたるほど、認識辞書も多数必要となり、認識辞書を保存するための記憶領域が大きくなるという課題がある。また、認識辞書が増えるほどより多くの認識処理が必要となり、その結果機器の処理負荷が高くなり、処理時間が膨大になったり、構成が大きくなったりするという課題がある。

また、非特許文献２によれば、スケジュールの属性は認識パラメータに付随するもので、スケジュールが異なる場合には、そのスケジュールの数だけ認識パラメータを持つ必要があるという課題が残る。

本発明は以上の問題に鑑みて成されたものであり、ユーザのスケジュールに応じた認識辞書を用いて認識処理を行うための技術を提供する。

本発明の画像処理装置は、ユーザが滞在する予定地を示す予定地情報と、当該予定地に滞在する予定時間帯を示す予定時間帯情報と、を関連付けて管理するスケジュール情報を保持する第１の保持手段と、前記予定地を撮像したときに撮像画像中に登場しうる被写体を認識するために用いる認識辞書を、前記予定地情報と関連付けて保持する第２の保持手段と、現在時刻を示す時刻情報を取得すると共に、現在時刻における前記ユーザの滞在場所の画像を取得する取得手段と、前記取得手段が取得した時刻情報を含む時間帯を示す予定時間帯情報と関連付けて前記第１の保持手段に保持されている予定地情報を特定する第１の特定手段と、前記第１の特定手段が特定した予定地情報に関連付けて前記第２の保持手段に保持されている認識辞書を特定する第２の特定手段と、前記第２の特定手段が特定した認識辞書を用いて前記画像中の被写体を認識する処理を行う認識手段と、前記認識手段による認識結果を示す認識情報を出力する出力手段とを備えることを特徴とする。

本発明の構成によれば、ユーザのスケジュールに応じた認識辞書を用いて認識処理を行う。

画像処理装置の機能構成例を示すブロック図。画像処理装置２５とサーバ装置２６の機能構成例を示すブロック図。認識辞書の登録処理のフローチャート。（ａ）はスケジュール２０の一例を示す図、（ｂ）は認識辞書の構成を示す図、（ｃ）は辞書セット対応表２７の構成を示す図。認識処理のフローチャート。（ａ）はプレビュー表示例を示す図、（ｂ）は画像保存部１３に登録する情報の構成を示す図。ステップＳ２００の詳細を示すフローチャート。ステップＳ３００の詳細を示すフローチャート。画像認識部１１の機能構成例を示すブロック図。認識処理のフローチャート。辞書セット対応表２７の構成を示す図。

以下、添付図面を参照し、本発明の好適な実施形態について説明する。なお、以下説明する実施形態は、本発明を具体的に実施した場合の一例を示すもので、特許請求の範囲に記載の構成の具体的な実施例の１つである。

［第１の実施形態］
＜実施形態１＞
先ず、本実施形態に係る画像処理装置において、認識処理を行うために用いる構成について、図１のブロック図を用いて説明する。然るに、図１には、認識処理に係る構成以外については省略している。なお、図１に示した各部は何れもハードウェアで構成されているものとして説明するが、その一部をソフトウェアで構成しても良く、その場合、このソフトウェアは、画像処理装置が有するメモリ内に格納され、不図示のＣＰＵにより実行されることになる。

画像入力部１０は、静止画像若しくは動画像を構成する各フレームの画像を取得し、取得した画像を画像認識部１１と画像処理部１２とに送出する。何れにせよ、画像入力部１０は、取得した画像を１枚ずつ画像認識部１１と画像処理部１２とに送出する。画像の取得方法は、撮像であっても良いし、スキャンであっても良い。また、画像入力部１０が取得する画像は公知のＪＰＥＧ符号化などの符号化方式を用いて符号化されていても良い。この場合、画像入力部１０は、取得した符号化画像を復号してから画像認識部１１と画像処理部１２とに送出する。

本実施形態では、画像処理装置はデジタルカメラであるとするので、この場合、画像入力部１０は、ユーザから入力された撮像指示に従って画像の撮像を行い、撮像した静止画像を画像認識部１１と画像処理部１２とに送出する。もちろん、画像処理装置をＰＣ（パーソナルコンピュータ）等のデジタルカメラ以外の機器とすることもできる。

画像認識部１１は、画像入力部１０から入力された画像に対して、認識辞書保存部１４に格納されている認識辞書を用いて認識処理を行い、画像中のどの位置にどのような被写体が映っているのかを検出する。そして画像認識部１１は、この認識の結果を示す認識情報を、後段の画像処理部１２に送出する。認識辞書保存部１４は、画像認識部１１が画像中に登場している被写体を認識する為に用いる認識辞書を格納している。

画像処理部１２は、後述するプレビュー表示を行うと共に、画像認識部１１による認識結果を示す認識情報と、画像入力部１０から入力された画像とを関連付けて後段の画像保存部１３に出力する。なお、出力先についてはこれに限定するものではない。

時刻管理部１７は、現在時刻を計時しており、現在時刻の取得要求を受けると、現在時刻を示す時刻情報を要求元に返す。もちろん、現在時刻の計時は他の機器が行い、時刻管理部１７がこの機器から現在時刻を取得するようにしても良い。

認識辞書保存部１６には、後述するサーバ装置から取得した認識辞書が格納されており、認識辞書保存部１４には認識辞書保存部１６に格納されている認識辞書群のうち現在使用する分だけが格納されている。

スケジュール保存部１８には、ユーザが設定したスケジュールの情報が格納されている。認識辞書選択部１５は、時刻管理部１７に要求することで取得した現在時刻とスケジュール保存部１８に格納されているスケジュールの情報とから、認識辞書保存部１４にロードする認識辞書を決定し、決定した認識辞書を認識辞書保存部１６から選択する。そして認識辞書選択部１５は選択した認識辞書を、認識辞書保存部１６から認識辞書保存部１４にダウンロードする。また認識辞書選択部１５は、現在時刻において認識辞書保存部１４に不要な認識辞書があった場合は、この認識辞書を無効化する。

なお、認識辞書保存部１４と認識辞書保存部１６とが同じ記憶装置上で構成されている場合は、認識辞書保存部１６から認識辞書保存部１４に複写するように構成しても良いが、両者の状態が区別できるようにすれば、必ずしも複写することは必要ではない。その場合、例えば同じ記憶装置上にどの認識辞書が選択状態にあるか（認識辞書保存部１４にあるといえる状態であるか）を示すデータを作成し、そのデータに基づいて画像認識部１１は認識辞書を読み込むようにすれば良い。

なお本実施形態では、画像保存部１３、認識辞書保存部１４、認識辞書保存部１６、スケジュール保存部１８は、その機能の違いから別ブロックに分けて説明する。しかし、これらが完全に別の装置で構成されなければならないわけではなく、幾つかの装置がこれらの記憶装置を兼ねるように構成しても良い。例えば、認識辞書保存部１４をRAM等の書き換え可能で高速にアクセス可能な記憶装置で構成し、認識辞書保存部１６、スケジュール保存部１８、画像保存部１３はSDカードやハードディスクに代表される比較的安価な記憶装置装置で構成する。しかし、これはあくまでも一例に過ぎず、如何なるメモリ構成を制限するものではない。

ここで、画像認識部１１の動作について、図９のブロック図を用いて説明する。本実施形態に係る画像認識部１１は、非特許文献４のように、弱判別器を直列に接続して認識処理を行うものとする。

画像認識部１１は、画像入力部１０を介して入力された画像２２００上にウィンドウ領域２２０１を設け、このウィンドウ領域２２０１内の画素値に基づいて、このウィンドウ領域２２０１内に被写体が含まれているか否かを判断する。画像認識部１１は、直列に接続した４つの弱判別器２２０１〜２２０４を有しており、それぞれの弱判別器２２０１〜２２０４は、参照する弱判別器パラメータが異なるだけで、同一の構成とすることができる。それぞれの弱判別器２２０１〜２２０４は、認識辞書２２２０内の弱判別器パラメータ２２２１〜２２２４を参照して認識処理を行う。認識辞書２２２０内には、弱判別器の数だけ弱判別器パラメータが含まれている。弱判別器パラメータは、本実施形態では、参照領域定義、演算係数、閾値といったパラメータから構成されている。

弱判別器２２０１〜２２０４の出力は、例えば判定結果の真偽を表す数値である。一例としては、それぞれの弱判別器は、直前の弱判別器の真偽値と自身の真偽値の論理和とを直後の弱判別器に出力するように構成する。この場合、直前の弱判別器の出力が偽値であれば、自身の判定結果の結果に依らず偽値を出力することになるので、自身の処理を省略するように構成できる。あるいは、各弱判別器の真値の数を合計するように構成することも考えられる。

またあるいは、真偽の2値ではなく、尤もらしさを表す値(尤度)を出力するように構成することも可能である。その場合、直前の弱判別器が出力した尤度に、自身が算出した尤度を演算して自身の出力尤度とするように構成することが考えられる。演算は単純には加算であるが、重みづけ平均や、乗算等他の演算を含むように構成しても良い。さらには、真偽値と尤度とを対にして出力するように構成しても良い。このようにして画像認識部１１からは、判定結果２２３０が出力される。この判定結果２２３０は、先に述べたような真偽値や尤度といった値である。

なお、図９では、弱判別器２２０１〜２２０４の全ての処理を行って判定結果2230を得るような形になっているが、弱判別器２２０１〜２２０４において、認識対象物ではないという判定が可能であれば、その時点で処理を打ち切るように構成しても良い。

以上説明したウィンドウ領域２２０１内に対する認識処理を、ウィンドウ領域２２０１を画像２２００内で移動させる毎に行うことで、各位置におけるウィンドウ領域２２０１内の認識処理結果が得られる。そしてこれにより、画像２２００中の様々な位置に写った被写体を検出することができる。また、画像２２００として、入力画像を様々な解像度に変倍した画像を与えることにより、入力画像中に様々な大きさで写った被写体を検出することができる。

なお図９に示した画像認識部１１の構成は一例であって、これに限定するものではない。例えば、単一の弱判別器を用いて認識処理を反復するように構成し、弱判別器パラメータ２２２１〜２２２４を切り替えながら処理を行うように構成しても良い。その場合、必要に応じて認識辞書２２２０は、内部に持つ弱判別器パラメータの数を保持するように構成する。なお、認識辞書２２２０が含む弱判別器パラメータの数が４つであるのは、あくまでも一例であって、任意の数であって構わない。また、この方式によれば、認識辞書２２２０を別のものに変更することにより、新たな被写体を検出することが可能になる。

次に、図１に示した画像処理装置が認識処理を行う前に、認識辞書保存部１６に必要な認識辞書を登録するための処理について、図２のブロック図を用いて説明する。係る処理のために画像処理装置２５をサーバ装置２６に接続し、サーバ装置２６から必要な情報を認識辞書保存部１６にダウンロードする。

図２において画像処理装置２５は、図１に示した画像処理装置と同じであっても良いし、認識辞書保存部１６、スケジュール保存部１８を図１の画像処理装置と共有する他の画像処理装置であっても良い。また、画像処理装置２５は図１に示した画像処理装置と同様、パーソナルコンピュータやデジタルカメラなどにより構成されも良い。本実施形態では、画像処理装置２５は図１に示した画像処理装置と同じ装置であるものとして説明する。なお、画像処理装置２５が行うものとして後述する各処理の実行及び制御は、ＣＰＵ９００によって行われる。

スケジュール保存部１８は、ユーザが入力部２１を操作して入力したスケジュール２０を保存する。スケジュール２０には、期間データおよび認識辞書セット名が記載されていればよい。

期間データとは、例えば「１０時から１１時」などの開始時刻と終了時刻との対でも構わないし、「１０時から１時間」などの開始時刻と時間的な長さとの対でも構わない。本実施形態では期間データを開始時刻と終了時刻との対として説明するが、期間データには日付等の情報を含んでも構わない。

認識辞書セット名とは、あるスケジュールに関連する複数あるいは単数の認識辞書を抽出するために用いる名前である。ここでは、認識辞書セット名は任意の文字列としたが、識別子を用いてもかまわない。スケジュール２０の一例を図４（ａ）に示す。このスケジュール２０は、ユーザの２００８年１０月２０日のスケジュールを示す。図４（ａ）ではスケジュール２０は表形式で表現されており、表の左側に期間データとして時刻（開始時刻と終了時刻との対）、表の右側に認識辞書セット名として認識辞書セットを指定するキーワードが記されている。例えば、２００８年１０月２０日の９時から１１時に必要な認識辞書セット名は「動物園」であることを示している。このようなスケジュール２０の作成、編集操作は汎用のＧＵＩなどを用いて行うことが一般的であるが、このような情報入力形態は特に限定するものではない。

また、スケジュール２０における認識辞書セット名の代わりに、「行き先」を登録しても良い。このように、期間データと認識辞書セット名の識別子に関連付けられる情報が記載されてさえいれば、スケジュール２０のフォーマットはいかなるものでもかまわない。

入力部２１はボタン群などの入力インターフェースであり、ユーザが操作することで各種の情報をＣＰＵ９００に対して入力することができる。表示部２２は液晶画面等により構成されており、ＣＰＵ９００による処理結果を画像や文字などでもって表示することができる。例えば、カメラのユーザインターフェイスやＰＣのディスプレイ等を想定している。

画像処理装置２５は、通信部２４を介してサーバ装置２６とのデータ通信を行う。通信部２４はＵＳＢケーブル・無線ＬＡＮ等により構成されている。もちろん、その通信形態については特に限定するものではない。

サーバ装置２６は、認識辞書群２３と辞書セット対応表２７とを保持している。然るに、サーバ装置２６は、大量のデータを保持し、そのうち外部装置から要求のあったデータをこの外部装置にダウンロードすることができる装置であれば、如何なる装置であっても良い。

ここで、サーバ装置２６が保持する認識辞書群２３のうちの任意の１つの認識辞書の構成について図４（ｂ）を用いて説明する。然るに認識辞書群２３に含まれるそれぞれの認識辞書は、図４（ｂ）に示すような特徴を有している。

図４（ｂ）には、被写体としての象を認識するための認識辞書８１０（「象．ｄｉｃ」）を示している。この認識辞書８１０には、認識対象情報８１１と、認識パラメータ８１２とが含まれている。

認識パラメータ８１２は、画像認識部１１が被写体としての像を認識する為に用いるパラメータである。認識パラメータ８１２は、例えば非特許文献２におけるニューラル・ネットワークの重み、閾値、若しくは非特許文献４における弱判別器が参照する矩形特徴量を定義するためのパラメータや、矩形特徴量から判別処理を行うための演算計数、閾値等である。またこの認識パラメータ８１２は、画像認識部１１が解釈可能な形式で認識辞書８１０に格納されている。

認識対象情報８１１は、認識パラメータ８１２を用いて検出可能な被写体を識別するための情報である。この認識対象情報８１１は、画像の取得後に被写体のメタデータを生成するのに十分な情報であれば任意の情報で構わない。一例を挙げると、文字列データが認識対象情報８１１として格納されている。あるいは認識対象情報８１１として識別子(ＩＤ)を用いても構わない。ただし、この場合、ユーザに提示する際には、別途ＩＤと被写体をあらわす文字列の対応表等を用意し、ＩＤから被写体を表す文字列に変換し、変換した文字列を提示するのが好ましい。例えば、ここでは象を認識するための認識パラメータ８１２の識別子として、認識対象情報８１１は「象」という文字列が格納されてる。

なお、認識辞書８１０の構成は、図４（ｂ）に示した構成に限定するものではない。また、図４（ｂ）において認識辞書８１０が認識対象情報８１１と認識パラメータ８１２を内包しているのは概念的な構成、即ち認識対象情報８１１とそれに対応した認識パラメータ８１２の対をもって認識辞書８１０とする、ということを示しているに過ぎない。従って、認識対象情報８１１と認識パラメータ８１２とが同一のファイルに格納されていなければならないという制限はない。認識対象情報８１１とそれに対応する認識パラメータ８１２の対応付けができていれば、別個のファイルに格納されていても構わない。

また、図４（ｂ）において、認識辞書８１０は認識対象情報８１１と認識パラメータ８１２しか含んでいないが、これは最小構成を示しているに過ぎない。したがって、この他に必要に応じて他のデータを含むように構成しても良い。

次に、サーバ装置２６が保持する辞書セット対応表２７の構成について図４（ｃ）を用いて説明する。サーバ装置２６上に認識辞書群２３のみしか用意されていない場合、ユーザは認識辞書群２３に含まれているそれぞれの認識辞書を参照し、画像処理装置２５にダウンロードする認識辞書を選択する必要がある。しかし、認識辞書群２３には多数の認識辞書が含まれているため、全ての認識辞書を参照するという作業は、ユーザに大きな負担を強いることになる。そこで、認識辞書群２３を使用目的毎（認識辞書セット毎）に分割し、管理することが必要となる。本実施形態では、認識辞書群２３を、遊園地や水族館など、ユーザが滞在しうる予定地（場所）毎の認識辞書セットとして管理する。

図４（ｃ）では、認識辞書群２３に含まれているそれぞれの認識辞書を、場所毎に管理している管理テーブルを示している。管理テーブル９１０は認識辞書セット名「動物園」の認識辞書セットを管理するためのテーブルである。この管理テーブル９１０には、動物園を撮像したときに撮像画像中に登場しうる被写体として予め定められた被写体を認識するために用いる認識辞書のファイル名が登録されている。ここでは、動物園を撮像したときに撮像画像中に登場しうる被写体として予め定められた被写体は象、きりん、ペンギンなどである。従って、管理テーブル９１０には、象を認識するための認識辞書のファイル名「象．ｄｉｃ」、きりんを認識するための認識辞書のファイル名「きりん．ｄｉｃ」、ペンギンを認識するための認識辞書のファイル名「ペンギン．ｄｉｃ」が登録されている。即ち、管理テーブル９１０に登録されているファイル名を有するそれぞれの認識辞書は、動物園についての認識辞書セットを形成している。

管理テーブル９２０は認識辞書セット名「水族館」の認識辞書セットを管理するためのテーブルである。この管理テーブル９２０には、水族館を撮像したときに撮像画像中に登場しうる被写体として予め定められた被写体を認識するために用いる認識辞書のファイル名が登録されている。ここでは、水族館を撮像したときに撮像画像中に登場しうる被写体として予め定められた被写体はマンボウ、さめ、ペンギンなどである。従って管理テーブル９２０には、マンボウを認識するための認識辞書のファイル名「マンボウ．ｄｉｃ」、さめを認識するための認識辞書のファイル名「さめ．ｄｉｃ」、ペンギンを認識するための認識辞書のファイル名「ペンギン．ｄｉｃ」が登録されている。即ち、管理テーブル９２０に登録されているファイル名を有するそれぞれの認識辞書は、水族館についての認識辞書セットを形成している。

もちろん、他の場所についての管理テーブルを作成しても良い。そしてこのような管理テーブルの集合である辞書セット対応表２７は上述の通りサーバ装置２６に登録されているが、この辞書セット対応表２７は、スケジュール保存部１８にもダウンロードしておく。

また、図４（ｃ）に示すとおり、管理テーブル９１０と管理テーブル９２０の双方には「ペンギン.dic」が登録されている。これは「ペンギン.dic」という１つの認識辞書を動物園についての認識処理と、水族館についての認識処理とで共有することを意味しており、それぞれの認識処理について１つずつ「ペンギン.dic」を設ける必要はなく、１つでよい。

なお、図４（ｃ）では、辞書セット対応表２７のフォーマットの一例として認識辞書セット名を用いているが、フォーマットはこれに限定するものではない。また、本実施形態では、サーバ装置２６上の認識辞書群２３および辞書セット対応表２７は既に準備されているものとして説明したが、これらの情報は適当なタイミングで画像処理装置２５側から編集、作成するようにしても良い。もちろん、他の機器から編集、作成するようにしても良い。

次に、認識辞書保存部１６に必要な認識辞書を登録するための処理について図３のフローチャートを用いて説明する。なお、図３のフローチャートに従った処理の主体は何れもＣＰＵ９００である。ＣＰＵ９００は、画像処理装置２５内の不図示のメモリに格納されているコンピュータプログラムやデータを用いて図３のフローチャートに従った処理を実行する。これは、以降に登場する何れのフローチャートについても同様である。

先ずステップＳ１０では、ユーザが入力部２１を用いて入力したスケジュール２０を画像処理装置２５内の不図示のメモリに取得する。次に、ステップＳ１１では、ステップＳ１０で取得したスケジュール２０を、必要に応じて画像処理装置２５が解釈可能な形式に変換し、スケジュール保存部１８へ保存する。解釈可能な形式について、以下に説明する。

図４（ａ）に示したスケジュール２０によれば、各時刻に対応する認識辞書セット名が直接入力されているため、本ステップでは何も実施する必要がない。一方、認識辞書セット名の代わりに「行き先」を用いた場合、「行き先」と「認識辞書セット名」とを関連付ける為のテーブルを作成する。例えば、「上野動物園」→「動物園」と関連付ける。

更にステップＳ１１では、辞書セット対応表２７を、サーバ装置２６からスケジュール保存部１８にダウンロードする。次に、ステップＳ１２では、サーバ装置２６からスケジュール保存部１８にダウンロードされた辞書セット対応表２７を参照し、ステップＳ１０で取得したスケジュール２０に記載されている認識辞書セット名と共に管理されている認識辞書名を特定する。

スケジュール２０が図４（ａ）に示したものである場合、このスケジュール２０に記載されている認識辞書セット名は「動物園」、「テーマパーク」、「水族館」であるので、「動物園」、「テーマパーク」、「水族館」のそれぞれの管理テーブルを特定する。そして、動物園の管理テーブルに登録されているそれぞれの認識辞書名（図４（ｃ）の場合、「象．ｄｉｃ」、「きりん．ｄｉｃ」、「ペンギン．ｄｉｃ」）を有する認識辞書を、サーバ装置２６に対して要求する。サーバ装置２６はこの要求された認識辞書を認識辞書群２３から特定して画像処理装置２５に返信するので、画像処理装置２５はこの返信されたそれぞれの認識辞書を、動物園の認識辞書セットとして認識辞書保存部１６に登録する。このような認識辞書セットの取得処理を、テーマパーク、水族館、についても同様にして行う。これにより認識辞書保存部１６には、動物園の認識辞書セット、水族館の認識辞書セット、テーマパークの認識辞書セットがサーバ装置２６からダウンロードされる。

次に、図３のフローチャートに従った処理が完了した後で、図１に示した構成による認識処理について、図５のフローチャートを用いて説明する。

先ずステップＳ２００では、認識辞書選択部１５は、画像入力部１０を介して入力した画像に対する認識処理で用いる認識辞書を認識辞書保存部１６から選択し、選択した認識辞書を認識辞書保存部１４にダウンロードする。ステップＳ２００における処理の詳細については後述する。

次にステップＳ３００では、画像認識部１１は、画像入力部１０を介して入力した画像に対して、認識辞書保存部１４にダウンロードされた認識辞書を用いた認識処理を行う。例えば、「動物園」の認識辞書セットが認識辞書保存部１４にダウンロードされているとする。「動物園」の認識辞書セットには「象.dic」、「きりん.dic」、「ペンギン.dic」等の認識辞書が含まれている。更に上述の通り、それぞれの認識辞書には、被写体を認識するために用いる認識パラメータが格納されている。然るに、画像認識部１１は、画像入力部１０を介して入力した画像に対して、認識辞書保存部１４にダウンロードされたそれぞれの認識辞書に含まれている認識パラメータを用いた認識処理を行う。ステップＳ３００における処理の詳細については後述する。

次にステップＳ４００では、画像処理部１２は、画像入力部１０を介して入力した画像と、ステップＳ３００における認識結果とを表示部２２にプレビュー表示する。この表示例を図６（ａ）に示す。図６（ａ）には、動物園における象の画像に対して、この象を認識した結果としての枠１２０１を重畳表示している。

このように象が映っている画像を画像入力部１０から取得した場合、画像認識部１１は、認識辞書保存部１４に格納されている「動物園」の認識辞書セット中のそれぞれの認識辞書中の認識パラメータを用いて、この取得した画像に対する被写体検出を行う。係る被写体検出において、認識辞書「象.dic」の認識パラメータと被写体のパラメータとが一致した場合に、そのときの検出位置に枠１２０１を重畳表示する。もちろん、認識結果をどのような形式で出力するのかについては特に限定するものではなく、枠１２０１の重畳表示以外の形態を用いても良い。

次に、不図示の指示部を介して撮像指示が入力された場合には処理はステップＳ５００を介してステップＳ６００に進み、撮像指示が入力されていない場合には、処理はステップＳ５００を介してステップＳ７００に進む。撮像指示が入力された場合には撮影要求フラグがＴＲＵＥとなり、撮像指示が入力されていない場合には、撮影要求フラグがＦＡＬＳＥとなる。撮影要求フラグの初期値はＦＡＬＳＥであるとする。

ステップＳ６００では、画像処理部１３は、画像入力部１０を介して取得した画像と、画像認識部１１による認識結果としての認識情報（メタデータ）とを関連付けて画像保存部１３に格納する。更に画像処理装置２５は、撮影要求フラグをＦＡＬＳＥに戻す。

画像処理部１２が画像保存部１３に格納した情報の構成例について、図６（ｂ）を用いて説明する。ファイル１３１０は、画像入力部１０から取得した画像データ１３３０と、画像データ１３３０に対する画像認識部１１による認識結果としてのメタデータ１３２０と、を含んでいる。画像１３３０に対する認識処理では、人と象とが認識されたので、人の検出位置には枠１３８０が重畳表示されており、象の検出位置には枠１３９０が重畳表示されている。然るに、メタデータ１３２０には、人の認識結果と象の認識結果とが含まれていることになる。更に図６（ｂ）では、メタデータ１３２０には撮影日時「２００８／１０／２０」が含まれている。そしてこのようなファイルに対して、例えば「20081020.jpg」という識別子をつけて画像保存部１３へ保存する。

次に、不図示の指示部を介して撮影終了指示が入力された場合には処理はステップＳ７００を介してステップＳ８００に進み、入力されていない場合には処理はステップＳ７００を介してステップＳ２００に戻る。撮影終了指示が入力された場合には、終了要求フラグはＴＲＵＥとなり、撮影終了指示が入力されていない場合には終了要求フラグはＦＡＬＳＥとなる。撮影終了指示とは、例えば本装置の電源のオフ指示や、認識を使用しないモードに切り替える指示といったものである。ステップＳ８００では、終了要求フラグをクリアする。

次に、上記ステップＳ２００における処理の詳細について、図７のフローチャートを用いて説明する。先ずステップＳ２１０では、認識辞書選択部１５は、スケジュール保存部１８に保存されているスケジュール２０を読み出す。

ステップＳ２２０では、認識辞書選択部１５は先ず、時刻管理部１７に対して現在時刻を要求する。時刻管理部１７はこの要求に応じて現在時刻を示す時刻情報を認識辞書選択部１５に送信するので、認識辞書選択部１５はこの時刻情報を取得する。次に認識辞書選択部１５は、取得した時刻情報が示す現在時刻を含む時間帯を表す期間データを、ステップＳ２１０で読み出したスケジュール２０から特定し、特定した期間データに対応する認識辞書セット名をスケジュール２０から特定する。

例えば、時刻管理部１７から取得した時刻情報が示す現在時刻が１５時であり、スケジュール２０が図４（ａ）に示した構成を有しているものとする。この場合、認識辞書選択部１５は、１５時を含む時間帯を示す期間データ「１２：００−１６：００」を特定し、特定した期間データに対応する認識辞書セット名「テーマパーク」を特定する。そして次に、認識辞書選択部１５は、この特定した認識辞書セット名の認識辞書セットが認識辞書保存部１４に格納されているか否かをチェックする。

次に、ステップＳ２３０では、認識辞書選択部１５は、現在使用しない認識辞書セットが認識辞書保存部１４に格納されているか否かをチェックする。そして現在使用しない認識辞書セットが認識辞書保存部１４に格納されている場合には処理はステップＳ２４０に進む。一方、現在使用しない認識辞書セットが認識辞書保存部１４に格納されていない場合には処理はステップＳ２５０に進む。

例えば、現在時刻が１５時であるのに、認識辞書保存部１４に「動物園」、「テーマパーク」の認識辞書セットが格納されている場合、「動物園」の認識辞書セットは現在使用しない。然るにこの場合には処理はステップＳ２４０に進む。

ステップＳ２４０では、認識辞書選択部１５は、ステップＳ２３０で現在使用しない認識辞書セットとして特定した認識辞書セットを無効化する。認識辞書セットを無効化する方法については様々な方法があり、例えば、現在使用しない認識辞書セットを認識辞書保存部１４から削除すれば良い。また、あらかじめ認識辞書不要フラグを認識辞書保存部１４内に用意しておき、現在使用する認識辞書セットの認識辞書不要フラグをオフにし、現在使用しない認識辞書セットの認識辞書不要フラグをオンにするようにしても良い。

次に、ステップＳ２５０では、認識辞書選択部１５は、ステップＳ２２０におけるチェックの結果、即ち、現在使用する認識辞書セットが認識辞書保存部１４に格納されているか否かのチェック結果を参照する。そして、格納されていればステップＳ２００の処理は終了する。一方、格納されていなければ処理はステップＳ２６０に進む。

ステップＳ２６０では、認識辞書選択部１５は、現在使用する認識辞書セットはステップＳ２２０で特定しているので、この特定した認識辞書セットを認識辞書保存部１６から取得し、認識辞書保存部１４にダウンロードする。なお、上記認識辞書不要フラグを導入した場合には、ステップＳ２６０では、現在使用する認識辞書セットの認識辞書不要フラグをオフにする。

以上説明したステップＳ２００における処理を行うことで、認識辞書保存部１４には、現在時刻にユーザが滞在しているものとしてスケジュールされた場所の画像に対して認識処理を行う場合に用いる認識辞書セットが登録されていることになる。即ち、スケジュール２０に基づくスケジュール通りにユーザが場所を移動すれば、認識辞書保存部１４には必ず、ユーザが現在滞在している場所の画像について認識処理を行う場合に必要な認識辞書セットが登録されていることになる。これにより、画像認識部１１は認識処理を行う場合、現在必要な認識辞書セットしか参照しないので、無駄な認識辞書の参照を防ぐことができる。

次に、上記ステップＳ３００における処理の詳細について、図８のフローチャートを用いて説明する。先ずステップＳ３１０では、画像認識部１１は、画像入力部１０から画像を取得する。この取得した画像は静止画像であっても良いし、動画像を構成する１フレーム分の画像であっても良い。もちろん、動画像の場合には、各フレームの画像に対して以下に説明する処理を行えばよい。

次に、ステップＳ３２０では、画像認識部１１は、変数Ｉを０に初期化する。変数Ｉは、ステップＳ３１０で取得した画像に対する認識処理で用いた認識辞書の数をカウントする為の変数である。

次に、ステップＳ３３０では、画像認識部１１は、変数Ｉの値が、上記ステップＳ２００でダウンロードした認識辞書の数NumOfActiveDicより小さいか否かを判断する。係る判断の結果、Ｉ＜NumOfActiveDicの場合には処理はステップＳ３４０に進み、Ｉ≧NumOfActiveDicの場合には、ステップＳ３００の処理は終了する。

ステップＳ３４０では、画像認識部１１は、ステップＳ２００でダウンロードした認識辞書セットにおいてＩ番目の認識辞書を用いて認識処理を実行する。ステップＳ３５０では、画像認識部１１は、変数Ｉの値を１つインクリメントする。そして処理はステップＳ３３０に戻る。

以上の説明をまとめると、本実施形態では、画像中の被写体を認識するためには、以下の２つの保持構成が前提となる。

・ユーザが滞在する予定地を示す予定地情報と、この予定地に滞在する予定時間帯を示す予定時間帯情報と、を関連付けて管理するスケジュール情報（スケジュール２０）を保持する（第１の保持）
・被写体を認識するために用いる認識辞書を、予定地情報と関連付けて保持する（第２の保持）
そして認識処理では先ず、現在時刻を示す時刻情報を取得すると共に、現在時刻におけるユーザの滞在場所の画像を取得する。そして、この取得した時刻情報を含む時間帯を示す予定時間帯情報と関連付けてスケジュール２０が管理している予定地情報を特定し（第１の特定）、特定した予定地情報に関連付けて保持されている認識辞書を特定する（第２の特定）。そしてこの特定した認識辞書を用いて画像中の被写体を認識する。

［第２の実施形態］
第１の実施形態は、ユーザがスケジュール２０で管理しているスケジュール通りに行動することで成立するものである。しかし、実際にはスケジュールが遅れたり、変更したりする場合が考えられる。本実施形態では係るケースを鑑み、スケジュール２０を適宜編集することを容認する。

本実施形態は、図１の画像処理装置が、上記図５のフローチャートに従った処理を行う代わりに、図１０のフローチャートに従った処理を実行する以外は、第１の実施形態と同じである。なお、図１０に示したフローチャートにおいて、図５と同じステップ番号を付している処理については第１の実施形態で説明したとおりであるので、その説明は省略する。

先ず、ステップＳ１００では、ユーザが画像処理装置の不図示の指示部を用いて、スケジュール変更要求を入力したか否かをチェックする。係るチェックの結果、スケジュール変更要求を入力した場合には処理はステップＳ９１０に進み、入力していない場合には、処理はステップＳ２００に進む。ここで、スケジュール変更要求を入力した場合には、スケジュール確認フラグはＴＲＵＥとなり、入力していない場合には、スケジュール確認フラグはＦＡＬＳＥとなる。

ステップＳ９１０では、スケジュール２０を変更するためのＧＵＩを表示部２２に表示する。このＧＵＩには、スケジュール２０に登録されている期間データを滞在時間帯として、認識辞書セット名を滞在場所名として表示すると共に、現在時刻を含む時間帯を示す期間データに対してチェックマークなどを付加表示する。

ユーザがこのＧＵＩに対して入力部２１を用いてスケジュール２０を変更する旨の指示を入力すると、処理はステップＳ９２０を介してステップＳ９４０に進む。一方、スケジュール２０の変更を行わない旨の指示をユーザが入力部２１を用いて入力した場合には、処理はステップＳ９２０を介してステップＳ２００に進む。なお、スケジュール２０を変更する旨の指示を入力した場合には、修正要求フラグがＴＲＵＥとなり、スケジュール２０を変更しない旨の指示を入力した場合には、修正要求フラグがＦＡＬＳＥとなる。

ステップＳ９４０では、ユーザは入力部２１を用いてスケジュール２０を変更するための指示を入力するので、この入力指示を受け付ける。ユーザは上記ＧＵＩを用いて、チェックマークが付加表示された期間データ及びこの期間データに対応する認識辞書セット名を変更することができる。

例えば、スケジュール２０に「９：００−１１：００（期間データ）上野動物園（認識辞書セット名）」が登録されており且つ現在午前１０時半であるのに、ユーザは上野動物園を取りやめて直接遊園地へ移動したとする。この場合、期間データにおいて開始時刻「９：００」を現在時刻「１０：３０」に変更する。この変更はユーザが入力部２１を用いて「９：００」の表示位置を指示してから「１０：３０」を入力することで行っても良いし、入力部２１からの入力無しに画像処理装置が自動的に行っても良い。後者の場合、現在時刻は時刻管理部１７が計時しているので、この計時した時刻を現在時刻として用いればよい。そして終了時刻「１１：００」の変更では、ユーザが入力部２１を用いて「１１：００」の表示位置を指示してから所望の時刻を入力すればよい。

また、ユーザは入力部２１を用いて認識辞書セット名「上野動物園」を「遊園地」に変更する。認識辞書セット名を変更する場合、ユーザが入力部２１を用いて「上野動物園」の表示位置を指示すると、画像処理装置は、認識辞書保存部１６に格納されている全ての認識辞書セットの認識辞書セット名を表示部２２に一覧表示する。従ってユーザはこの一覧表示された中から「遊園地」を入力部２１を用いて選択する。これにより、「上野動物園」を「遊園地」に変更することができる。

なお、終了時刻を「１１：００」以降に変更すると、それ以降のスケジュールの期間データも変わってきてしまうケースが発生しうる。その場合には、ユーザがそれらの期間データを入力部２１を用いて適宜編集しても良いし、次のスケジュールにずれ込んだ分だけ、以降のスケジュールの期間データを変更しても良い。

以上のようにしてユーザは、自身の実際の行動に合致するようにスケジュール２０を適宜編集することができる。そして処理はステップＳ２００に進む。なお、第１の実施形態では、ステップＳ７００において終了要求フラグがＦＡＬＳＥの場合にはステップＳ２００に戻っていたが、本実施形態では、終了要求フラグがＦＡＬＳＥの場合にはステップＳ１００に戻る。

［第３の実施形態］
第１，２の実施形態では、ユーザが同じ場所に滞在していた場合、１つの認識辞書セットしか用いることができない。本実施形態では、ユーザが同じ場所に滞在していても、時間帯で認識辞書を切り替えることを容認するものである。

例えばスケジュール２０に期間データとして「１０：００〜２２：００」、認識辞書セット名として「テーマパーク」が登録されている場合、第１，２の実施形態では、１０：００〜２２：００ではテーマパークの認識辞書セットしか用いられないことになる。そこで、本実施形態ではこの場合、テーマパークの認識辞書セットとして、予め定められた時間帯毎の認識辞書セットを用意する。本実施形態に係る辞書セット対応表２７の一例を図１１に示す。

図１１の辞書セット対応表２７によれば、テーマパークの認識辞書セットを用いる場合、現在時刻が１０時〜１８時であれば「パレード.dic」、「キャラクターＡ.dic」、「コースターＡ.dic」の認識辞書セット「テーマパーク．昼」を利用する。一方、現在時刻が１８時〜２２時であれば「花火.dic」、「キャラクターＡ.dic」、「コースターＡ.dic」の認識辞書セット「テーマパーク．夜」を利用する。

このように、同じテーマパークの認識辞書セットであっても、時間帯毎に使用する認識辞書を使い分けるように辞書セット対応表２７を構成すれば、ユーザがずっとテーマパークに滞在しても、時間帯毎に認識辞書を切り替えることができる。これはテーマパーク以外についても同じである。

なお、辞書セット対応表２７の構成についてはこれに限定するものではなく、同様の趣旨を達成できるのであれば、如何なる構成を採用しても良い。また、本実施形態では、１つの認識辞書セットを時間帯毎の認識辞書セットとして辞書セット対応表２７で管理するようにしているが、「時間」以外の環境要素を用いても良い。例えば、１つの認識辞書セットを天候や季節毎の認識辞書セットとして辞書セット対応表２７で管理するようにしても良い。

なお、以上説明した各実施形態は適宜組み合わせて用いても良い。また、別個の装置として説明したものや、同じ装置として説明したものはこれに限るものではなく、種種の変形例が可能である。

また本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）をネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、システム或いは装置のコンピュータ（又はＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。この場合、そのプログラム、及び該プログラムを記憶したコンピュータ読み取り可能な記憶媒体は、本発明を構成することになる。

Claims

ユーザが滞在する予定地を示す予定地情報と、当該予定地に滞在する予定時間帯を示す予定時間帯情報と、を関連付けて管理するスケジュール情報を保持する第１の保持手段と、
前記予定地を撮像したときに撮像画像中に登場しうる被写体を認識するために用いる認識辞書を、前記予定地情報と関連付けて保持する第２の保持手段と、
現在時刻を示す時刻情報を取得すると共に、現在時刻における前記ユーザの滞在場所の画像を取得する取得手段と、
前記取得手段が取得した時刻情報を含む時間帯を示す予定時間帯情報と関連付けて前記第１の保持手段に保持されている予定地情報を特定する第１の特定手段と、
前記第１の特定手段が特定した予定地情報に関連付けて前記第２の保持手段に保持されている認識辞書を特定する第２の特定手段と、
前記第２の特定手段が特定した認識辞書を用いて前記画像中の被写体を認識する処理を行う認識手段と、
前記認識手段による認識結果を示す認識情報を出力する出力手段と
を備えることを特徴とする画像処理装置。
更に、
前記予定地情報と前記予定時間帯情報とを入力し、入力した当該予定地情報と当該予定時間帯情報とを前記第１の保持手段に登録する入力手段と、
複数の認識辞書のそれぞれを前記予定地情報と関連付けて管理するサーバ装置に対して、前記入力手段が入力した予定地情報に対応する認識辞書を要求する要求手段と、
前記要求手段による要求に応じて前記サーバ装置から送信された認識辞書を、前記入力手段が入力した予定地情報と関連付けて前記第２の保持手段に登録する手段と
を備えることを特徴とする請求項１に記載の画像処理装置。
更に、前記予定地情報、前記予定時間帯情報を編集する編集手段を備えることを特徴とする請求項１又は２に記載の画像処理装置。
前記第２の保持手段は、前記認識情報を、予め定められた時間帯を示す時間帯情報と、前記予定地情報と、に関連付けて保持しており、
前記第２の特定手段は、前記第１の特定手段が特定した予定地情報と、前記取得手段が取得した時刻情報が示す時刻を含む時間帯を示す時間帯情報と、に関連付けて前記第２の保持手段に保持されている認識辞書を特定する
ことを特徴とする請求項１乃至３の何れか１項に記載の画像処理装置。
前記出力手段は、前記認識情報を、前記画像と関連付けて記憶装置に出力することを特徴とする請求項１乃至４の何れか１項に記載の画像処理装置。
ユーザが滞在する予定地を示す予定地情報と、当該予定地に滞在する予定時間帯を示す予定時間帯情報と、を関連付けて管理するスケジュール情報を保持する第１の保持手段と、
前記予定地を撮像したときに撮像画像中に登場しうる被写体を認識するために用いる認識辞書を、前記予定地情報と関連付けて保持する第２の保持手段と、
を備える画像処理装置の画像処理方法であって、
取得手段が、現在時刻を示す時刻情報を取得すると共に、現在時刻における前記ユーザの滞在場所の画像を取得する取得工程と、
第１の特定手段が、前記取得工程で取得した時刻情報を含む時間帯を示す予定時間帯情報と関連付けて前記第１の保持手段に保持されている予定地情報を特定する第１の特定工程と、
第２の特定手段が、前記第１の特定工程で特定した予定地情報に関連付けて前記第２の保持手段に保持されている認識辞書を特定する第２の特定工程と、
認識手段が、前記第２の特定工程で特定した認識辞書を用いて前記画像中の被写体を認識する処理を行う認識工程と、
出力手段が、前記認識工程での認識結果を示す認識情報を出力する出力工程と
を備えることを特徴とする画像処理方法。
コンピュータを、請求項１乃至５の何れか１項に記載の画像処理装置が有する各手段として機能させるためのコンピュータプログラム。