JP2010034880A

JP2010034880A - 画像処理装置および表示制御方法

Info

Publication number: JP2010034880A
Application number: JP2008195306A
Authority: JP
Inventors: Kazue Kaneko; 和恵金子
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2008-07-29
Filing date: 2008-07-29
Publication date: 2010-02-12

Abstract

【課題】デジタルカメラには撮影画像に対してユーザが音声や文字によるメモを付与する機能があるが、画像を表示する際にメモをそのまま再生すると、ユーザがメモの付与時の状況を知らない場合にはメモの内容が理解しにくいという問題があった。
【解決手段】
撮影した静止画像の画像データと、該画像データに関する質問内容を示す質問データと、該質問内容に対するユーザの応答内容を示す応答データと、を画像ＤＢ１０６に保持しておく。そして、画像表示部１０１で画像データが表示される際に、該画像データに対する質問データおよび応答データの両方を、該画像データに重ねて表示する。これにより、静止画像を表示する際に、該画像に設定された質問および応答がメモとして適切に再生されるため、該画像についてのユーザの理解を助けることができる。
【選択図】図１

Description

本発明は画像処理装置および表示制御方法に関し、特に、静止画像を表示する際に該画像に関するメモをユーザに提示する画像処理装置および表示制御方法に関する。

近年のデジタルカメラの普及に従い、撮影された写真（以下、撮影画像）をディスプレイ上で鑑賞することが増えてきている。それに伴い、撮影画像をスライドショーとして閲覧する機能、さらにはスライドショーに対してＢＧＭを付与する機能を有するパーソナルコンピュータ（ＰＣ）のソフトウェアや、ＤＶＤレコーダ、ゲーム機等が市販されている。また、静止画像に対してテキストデータや音声データをメモとして付与する機能を有するデジタルカメラが知られている。

そこで、静止画像に付与された音データの再生やテキストデータの表示をスライドショーに対応させるために、以下のような技術が提案されている。

まず、スライドショーにおける静止画の表示時間を、静止画像に対応付けられた音データの時間に合わせて変更する技術がある（例えば、特許文献１，２参照）。

また、静止画像に対応付けられた音データの再生と、スライドショー時のＢＧＭの音量の調節を行う技術がある（例えば、特許文献３，４参照）。

また、写真画像に対して撮影時に自動付与されたメタデータから、その画像を説明する文を作成し、文字列として表示する技術がある（例えば、特許文献５参照）。

また、写真画像に対して撮影時に自動付与された文字や数値のメタデータから、その画像のナレーション文を音声で出力する技術がある（例えば、特許文献６参照）。

また、ユーザにメモ付与を促すために、撮影時に質問を行い、質問内容と応答内容を文字や音声のメモとして保存する技術がある（例えば、特許文献７参照）。
特開平10-145730号公報特許第03258968号公報特開2005-051706号公報特開平11-168692号公報特開平11-249941号公報特開2004-320233号公報特開2007-258934号公報

しかしながら、上記従来の技術に基づいて、静止画像に付与された音データの再生やテキストデータの表示をスライドショーに対応させることを考えた場合、以下のような問題があった。

まず、特許文献１乃至４は、音声メモやＢＧＭなどの音データの再生に特化されたものである。特に特許文献３および特許文献４によれば、音声メモとＢＧＭを同時に再生したり、音声メモのみを再生したりすることができる。このように、スライドショー時に、撮影時に録音した音声メモを再生することは、その写真の撮影時の状況を想起させる手段として大変有効である。しかしながら、前後の文脈のない発声は、聞く側にとって時として聴き取り難いという問題がある。また、メモとしてテキストデータが付与された場合については考慮されていないため、例えば文字としてのメモが画像のどの部分にどういう意図で付与されたものであるか等、特に撮影時の状況を知らない場合にはメモの内容が理解しづらい場合もあった。

一方、特許文献５および６は、静止画像を説明する文を撮影時に自動付与されたメタデータから作成するものであり、音声メモとして付与された音データについては使用しない。このように作成された説明文は、静止画像を説明するナレーションとして有効ではあるが、撮影時の生の音声は聞こえないため、臨場感に欠けるという問題があった。また、生成する文は特許文献５の場合、固定でありバリエーションがなかった。特許文献６の場合、ナレーション文の生成時に、画像に対する好感度キーや使用するメタデータを解析してテンプレートを選択するものであり、個々の画像について同様にテンプレート選択を行う。したがって、説明文のアウトラインはどの画像についても似たようなものとなり、特に複数の画像が再生されるスライドショー等において、同じような説明が単調に繰り返されてしまうという問題があった。

特許文献７は、撮影時にユーザのメモ付与を促すために撮像装置側から質問を行うものである。質問内容と応答内容を静止画像とともに記録しておき、静止画像を閲覧する際に、画像と同時に質問内容を表示し、ユーザの要求があったときに、応答音声を再生するものである。質問と応答という形態をとることで、質問内容が応答内容を促すものであり、質問自体が応答を理解するための補助情報となる。特許文献７の画像表示形態は、質問内容を文字情報として画像とともに表示し、ユーザの指示を受けて応答内容の内容を再生するブラウザでの利用を想定したもののみである。スライドショーなどでの質問応答の同時もしくは連続提示についての利用については言及されていない。

本発明は上述した問題を解決するためになされたものであり、静止画像を表示する際に、該画像に設定された質問および応答をメモとして適切に再生し、ユーザに提示する画像処理装置およびその制御方法を提供することを目的とする。

上記目的を達成するための一手段として、本発明の画像処理装置は以下の構成を備える。

すなわち、静止画像の画像データと、該画像データに関する質問内容を示す質問データと、該質問内容に対する応答内容を示す応答データと、を保持する保持手段と、前記画像データを表示する表示手段と、前記表示手段で前記画像データが表示される際に、該画像データに対する前記質問データおよび前記応答データを出力する出力手段と、を有することを特徴とする。

例えば、前記質問データおよび前記応答データはテキストデータであり、前記出力手段は、前記表示手段に表示される前記画像データに対し、前記質問データおよび前記応答データを文字列として配置して表示出力することを特徴とする。

また例えば、前記質問データおよび前記応答データは音声データであり、前記出力手段は、前記質問データ、前記応答データの順に音声出力することを特徴とする。

また例えば、前記質問データは、質問内容の提示形式と、該提示形式における前記応答データの挿入箇所を規定する提示用テンプレートであり、前記出力手段は、前記提示用テンプレートに前記応答データを挿入した提示用のデータを出力することを特徴とする。

例えば、前記提示用テンプレートは、前記応答データと、該応答データ以外のパラメータの挿入箇所を規定し、前記出力手段は、前記画像データに付与されたメタデータから前記パラメータの内容を取得して、前記提示用テンプレートに前記応答データおよび前記パラメータを挿入した提示用のデータを出力することを特徴とする。

上記構成からなる本発明によれば、静止画像を表示する際に、該画像に設定された質問および応答をメモとして適切に再生し、ユーザに提示することができるため、該画像についてのユーザの理解を助けることができる。

以下、添付の図面を参照して、本発明をその好適な実施形態に基づいて詳細に説明する。なお、以下の実施形態において示す構成は一例に過ぎず、本発明は図示された構成に限定されるものではない。

＜第１実施形態＞
●システム構成
図１は、本実施形態に係る画像処理装置の構成を示すブロック図である。同図において、１０１は画像データやテキストデータを表示する画像表示部、１０２はスライドショーの開始や画像表示要求などのユーザによる操作を入力する操作入力部、である。１０３は画像データやテキストデータの表示のタイミングや配置を管理する表示管理部、１０４は表示タイミングに合わせて画像データを選択する画像選択部、である。また、１０５は画像データに対応付けられた質問や応答のテキストデータを取り出すためのテキスト選択部である。そして１０６は、画像データと、それに対応付けられた質問および応答のテキストデータを記憶する画像データベース（以下、画像ＤＢ）である。

●画像ＤＢ
本実施形態では、画像ＤＢ１０６は、画像データに対応する質問および応答を示すテキストデータを保存している。以下、この質問データおよび応答データの例について説明する。

ここで図２５に、質問データの例を示す。同図に示すように質問データにおいては、所定の複数の質問名に対し、それぞれの質問内容を示すテキストデータが保持されている。

つまり、画像データに対し、質問名に対応する質問内容のテキストデータが対応づけられており、その質問データに対して応答文のテキストデータが対応づけられている。

なお、画像ＤＢ１０６には質問内容をテキストデータとして保持する例を示したが、図２５に示した質問データのような質問名とテキストデータの対応表を画像ＤＢ１０６に予め用意しておき、質問名を画像と対応付けて記憶するようにしても良い。この場合すなわち、質問名から質問内容であるテキストデータを検索するようにすれば良い。

なお、画像ＤＢ１０６への画像データ及び質問応答データの追加方法としては、画像入力部および質問応答設定部を設けて画像入力時に質問応答を対応付けるようにしても良い。また、通信部を設けて外部から予め対応付けられた画像データおよび質問応答データを入力するようにしても良い。

●画像表示処理
以下、本実施形態における画像表示処理について、図２のフローチャートを用いて説明する。なおここでは、一枚の画像の表示要求がなされた場合についての処理を示す。スライドショー等、画像を連続して再生する際には、図２に示す再生処理を任意の時間をおいて繰り返せば良い。

まずステップＳ２０１において、表示すべき画像データを操作入力部１０２を介して選択する。そしてステップＳ２０２において画像選択部１０４が、該選択された画像データを画像ＤＢ１０６から検索し、該画像データに対応する質問データが登録されているか否かをチェックする。質問データが無い場合にはステップＳ２０７へ進み、画像表示部１０１に対して画像データのみを表示して処理を終了する。

一方、画像ＤＢ１０６に質問データが登録されている場合にはステップＳ２０３へ進み、テキスト選択部１０５が画像ＤＢ１０６より、質問内容としてのテキストデータを取得する。そしてステップＳ２０４において、該質問データに対する応答データが画像ＤＢ１０６に登録されているか否かをチェックする。無い場合にはステップＳ２０７へ進み、画像表示部１０１に対して画像データのみを表示して処理を終了する。すなわち本実施形態においては、画像データに対する質問データがあるにも関わらず応答データが無い場合には、質問応答についての表示出力は行われない。

一方、画像ＤＢ１０６に応答データが登録されている場合にはステップＳ２０５へ進み、テキスト選択部１０５が、応答内容としてのテキストデータを画像ＤＢ１０６から取得する。そしてステップＳ２０６で表示管理部１０３が、質問と応答のテキストデータを画像データに対して配置することによって合成し、ステップＳ２０７で該合成された画像データを画像表示部１０１に表示して、処理を終了する。

●画像表示例
以下、本実施形態における画像表示例を示す。図３は、処理対象となる撮影直後の画像データと、該画像データに対して「今日は何の日？」という質問が選択され、それに対して「メイの誕生日」という応答がなされた例を示す。すなわち画像データに対して、「今日は何の日？」という質問文と、「メイの誕生日」という応答文が対応付けられて、画像ＤＢ１０６に登録されている。図４に、図３のように登録された画像データについての表示例を示す。図４によれば、図３に示す画像データに対する質問内容と、該質問に対する応答内容としてのテキストデータが、画像左上に改行を挟んで配置され、表示されている。

以上説明したように本実施形態によれば、例えば撮影等による画像入力時に設定された質問およびそれに対する応答として付与されているテキストデータを、該画像データの再生時に表示する。これにより、該画像データに対し、より適切なメモを添付することができ、画像についての理解を助けることができる。

＜第２実施形態＞
以下、本発明に係る第２実施形態について説明する。上述した第１実施形態では、画像に対するメモ（質問および応答）をテキストデータとして登録する例を示したが、第２実施形態ではこれを音声データとして保持する例を示す。

●システム構成
図５は、第２実施形態に係る画像処理装置の構成を示すブロック図である。同図において、５０１は画像データを表示する画像表示部、５０２は質問内容と応答内容である音声データを出力する音声出力部、５０３はスライドショーの開始や画像表示要求などのユーザによる操作を入力する操作入力部、である。また、５０４は画像データの表示や音声データの再生タイミング、および画像データの配置を管理する再生管理部、５０５は表示タイミングに合わせて画像データを選択する画像選択部、である。５０６は、画像データに対応付けられた質問や応答の音声データを取り出すための音声メモ選択部である。そして５０７は、画像データとそれに対応付けられた質問および応答の音声データを記憶する画像データベース（以下、画像ＤＢ）である。

●画像ＤＢ
第２実施形態では、画像ＤＢ５０７は画像データと対応する質問および応答を示す音声データを保持する。以下、この質問データおよび応答データの例について説明する。なお、第２実施形態の質問データは、上述した第１実施形態で例示した図２５と同様の内容であるが、質問名に対する質問内容が、テキストデータではなく、音声データとして保持されている。つまり、画像データに対し、質問名に対応する質問内容の音声データが対応づけられており、その質問データに対して応答文の音声データが対応づけられている。

なお、画像ＤＢ５０７には質問内容を音声データとして保持する例を示したが、図２５に示した質問データのように、質問名とその内容を示す音声データの対応表を画像ＤＢ５０７に予め用意しておき、質問名を画像と対応付けて記憶しても良い。この場合すなわち、質問名から質問内容の音声データを検索するようにすれば良い。

なお、画像ＤＢ５０７への画像データ及び質問応答データの追加方法としては、画像入力部および質問応答設定部を設けて画像入力時に質問応答を対応付けるようにしても良い。また、通信部を設けて外部から予め対応付けられた画像データおよび質問応答データを入力するようにしても良い。

●画像表示処理
以下、第２実施形態における一枚の画像表示要求に対する表示処理について、図６のフローチャートを用いて説明する。第２実施形態においても、スライドショー等、画像を連続して再生する際には、図６に示す再生処理を任意の時間をおいて繰り返せば良い。

まずステップＳ６０１において、表示すべき画像データを操作入力部５０３を介して選択する。そしてステップＳ６０２において画像選択部５０５が、該選択された画像データを画像ＤＢ５０７から検索し、該画像データに対応する質問の音声データが登録されているか否かをチェックする。質問の音声データが無い場合にはステップＳ６０８へ進み、画像表示部５０１に対して画像データのみを表示して処理を終了する。

一方、画像ＤＢ５０７に質問の音声データが登録されている場合にはステップＳ６０３へ進み、音声メモ選択部５０６が画像ＤＢ５０７より、質問内容である音声データを取得する。そしてステップＳ６０４において、該質問に対する応答の音声データが画像ＤＢ５０７に登録されているか否かをチェックする。登録されていない場合にはステップＳ６０８へ進み、画像表示部１０１に対して画像データのみを表示して処理を終了する。すなわち第２実施形態においても、画像データに対する質問データがあるにも関わらず応答データが無い場合には、質問応答についての音声出力は行われない。

一方、画像ＤＢ５０７に応答の音声データが登録されている場合にはステップＳ６０５へ進み、音声メモ選択部５０６が、応答内容としての音声データを画像ＤＢ５０７から取得する。そしてステップＳ６０６で音声メモ選択部５０６は、質問と応答の音声データを連続する音声データにまとめる。

そしてステップＳ６０７で再生管理部５０４の制御に基づき、音声出力部５０２による該音声データの出力を開始し、同時にステップＳ６０８で画像表示部５０１に画像データを表示して、処理を終了する。すなわち第２実施形態では、音声出力の終了を待たずに、画像表示を行う。言い換えれば、画像表示と同時に音声出力を行う。

●画像表示例
以下、第２実施形態における画像表示例を示す。図７は、第２実施形態における処理対象となる画像データと、該画像データに対する質問と応答の音声データが登録されている例を示す。そして図８に、図７の画像データについての表示例を示す。図８によれば、図７に示す画像データに対する質問内容と、該質問に対する応答内容としての音声データを連続させ、画像表示と同時に音声出力している。図８においては、音声データである旨を表現する吹き出し内において、「今日は何の日？」と「メイの誕生日」という音声が、それぞれ異なる話者の発声によるものである旨を示すために、文字フォントが異なっている。これは、第２実施形態における質問音声は音声メモ（応答）を促すためのものであり、撮影時に録音される音声メモとは異なる音声であることが予想されるためである。

以上説明したように第２実施形態によれば、応答内容として音声データが登録されている場合にはこれを再生することにより、画像に対する臨場感が増大する。

なお第２実施形態では、質問内容および応答内容を音声データとして記録する例を示したが、これらの全体もしくは一部をテキストデータとして、すなわちテキストデータと音声データを混在可能として記憶しておいても良い。この場合例えば、再生時に該テキストデータ部分を音声合成して音声データに変換し、記録されている音声データと接続して再生すれば良い。

＜第３実施形態＞
以下、本発明に係る第３実施形態について説明する。上述した第１実施形態では、質問文に対応付けた応答文をそれぞれ別の文といて提示する例を示したが、第３実施形態では、提示する質問文をテンプレート形式とした例を示す。

●システム構成
図９は、第３実施形態に係る画像処理装置の構成を示すブロック図である。同図において、９０１は画像データやテキストデータを表示する画像表示部、９０２はスライドショーの開始や画像表示要求などのユーザによる操作を入力する操作入力部、である。９０３は画像データやテキストデータの表示のタイミングや配置を管理する表示管理部、９０４は表示タイミングに合わせて画像データを選択する画像選択部、である。また、９０５は画像データに対応付けられた提示用テンプレートや応答のテキストデータを取り出し、提示用のテキストデータを作成するためのテキスト編集部である。そして９０６は、画像データとそれに対応付けられた提示用テンプレートおよび応答のテキストデータを記憶する画像データベース（以下、画像ＤＢ）である。

●画像ＤＢ
第３実施形態では、画像ＤＢ９０６へ画像データに対応する提示用テンプレートおよびその応答文を示すテキストデータを設定することが可能である。以下、このテンプレートおよびその応答文の例について説明する。

ここで図２６に、質問データの例を示す。同図に示すように質問データにおいては、所定の複数の質問名に対し、それぞれに対応する提示用テンプレートを示すテキストデータが保持されている。ここで提示用テンプレートは、質問内容の提示形式と、該提示形式における応答文の挿入箇所を規定している。この提示用テンプレートに対して応答文が対応付けられている。

なお、ここでは提示用テンプレートをテキストデータとして画像ＤＢ９０６に保持する例を示したが、図２６に示した質問データのような質問名と提示用テンプレートの対応表を画像ＤＢ９０６に予め用意しておき、質問名を画像と対応付けて記憶しても良い。この場合すなわち、質問名から提示用テンプレートを検索するようにすれば良い。

なお、画像ＤＢ９０６への画像データ及び質問応答データの追加方法としては、画像入力部および質問応答設定部を設けて画像入力時に質問応答を対応付けるようにしても良い。また、通信部を設けて外部から予め対応付けられた画像データおよび質問応答データを入力するようにしても良い。

●画像表示処理
以下、第３実施形態における画像表示処理について、図１０のフローチャートを用いて説明する。なおここでは、一枚の画像の表示要求がなされた場合についての処理を示す。スライドショー等、画像を連続して再生する際には、図１０に示す再生処理を任意の時間をおいて繰り返せば良い。

まずステップＳ１００１において、表示すべき画像データを操作入力部９０２を介して選択する。そしてステップＳ１００２において画像選択部９０４が、該選択された画像データを画像ＤＢ９０６から検索し、該画像データに対応する提示用テンプレートが登録されているか否かをチェックする。登録されていない場合にはステップＳ１００８へ進み、画像表示部９０１に対して画像データのみを表示して処理を終了する。

一方、画像ＤＢ９０６に提示用テンプレートが登録されている場合にはステップＳ１００３へ進み、テキスト編集部９０５が画像ＤＢ９０６より、提示用テンプレートであるテキストデータを取得する。そしてステップＳ１００４において、該提示用テンプレートに対する応答文が画像ＤＢ９０６に登録されているか否かをチェックする。無い場合にはステップＳ１００８へ進み、画像表示部９０１に対して画像データのみを表示して処理を終了する。すなわち第３実施形態においても、画像データに対する提示用テンプレートがあるにも関わらず応答文が無い場合には、提示用のテキストデータの表示出力は行われない。

一方、画像ＤＢ９０６に応答文が登録されている場合にはステップＳ１００５へ進み、テキスト編集部９０５が、応答内容としてのテキストデータを画像ＤＢ９０６から取得する。そしてステップＳ１００６でテキスト編集部９０５が、提示用テンプレートに応答のテキストデータを挿入して提示用のテキストデータを作成する。

そしてステップＳ１００７で表示管理部９０３が、該提示用のテキストデータを画像データに対して配置することによって合成し、ステップＳ１００８で、該合成された画像データを画像表示部９０１に表示して、処理を終了する。

●画像表示例
以下、第３実施形態における画像表示例を示す。図１１は、第３実施形態における処理対象となる画像データと、該画像データに対して「この日は＜応答＞です。」という提示用テンプレートが設定され、それに対して「メイの誕生日」という応答がなされた例を示す。そして図１２に、図１１の画像データについての表示例を示す。図１２によれば、図１１に示す提示用テンプレートに対し、応答内容としてのテキストデータを挿入して作成した提示用のテキストデータを、画像左上に配置し、表示している。

以上説明したように第３実施形態によれば、質問内容そのものではなく、質問に応じたテンプレートを提示し、ユーザが該テンプレートに対して応答内容を挿入することによって、画像データに対するメモを作成する。これにより、複数の類似した静止画像群について、各画像に対してそれぞれ異なる説明文を作成することができ、例えばスライドショー再生において同じようなナレーションが連続することを防ぐことができる。

＜第４実施形態＞
以下、本発明に係る第４実施形態について説明する。上述した第３実施形態では、画像に対する提示用テンプレートおよび応答をテキストデータとして登録する例を示したが、第４実施形態ではこれを音声データとして保持する例を示す。

●システム構成
図１３は、第４実施形態に係る画像処理装置の構成を示すブロック図である。同図において、１３０１は画像データを表示する画像表示部、１３０２は提示用の音声データを出力する音声出力部、１３０３はスライドショーの開始や画像表示要求などのユーザによる操作を入力する操作入力部、である。また、１３０４は画像データの表示や音声データの再生タイミング、および画像データの配置を管理する再生管理部、１３０５は表示タイミングに合わせて画像データを選択する画像選択部、である。１３０６は、画像データに対応付けられた提示用テンプレートや応答の音声データを取り出し、提示用の音声データを作成するための音声編集部である。そして１３０７は、画像データとそれに対応付けられたテンプレートおよび応答の音声データを記憶する画像データベース（以下、画像ＤＢ）である。

●画像ＤＢ
第４実施形態では、画像ＤＢ１３０７は対応するテンプレートおよび応答を示す音声データを保持する。以下、この提示用テンプレートおよび応答データの例について説明する。

ここで図２７に、質問データの例を示す。同図に示すように第４実施形態における質問データは、上述した第３実施形態で例示した図２６と同様の内容であるが、質問名に対する提示用テンプレートとして、テキストデータに加えて音声データも保持している。すなわち、各提示用テンプレートにおいて、テキストデータおよび音声データのいずれにも応答文の挿入箇所が設定されている。

この提示用テンプレートに対応した応答文も画像ＤＢに保持する
。

なお、ここでは提示用テンプレートを音声データと応答挿入箇所指定からなるデータとして画像ＤＢ１３０７に保持する例を示した。第４実施形態はこの例に限らず、図２６に示した質問データのような質問名と提示用テンプレートの対応表を画像ＤＢ１３０７に予め用意しておき、質問名を画像と対応付けて記憶しても良い。この場合すなわち、質問名から提示用テンプレートを検索するようにすれば良い。

●画像表示処理
以下、第４実施形態における一枚の画像表示要求に対する表示処理について、図１４のフローチャートを用いて説明する。第４実施形態においても、スライドショー等、画像を連続して再生する際には、図１４に示す再生処理を任意の時間をおいて繰り返せば良い。

まずステップＳ１４０１において、表示すべき画像データを操作入力部１３０３を介して選択する。そしてステップＳ１４０２において画像選択部１３０５が、該選択された画像データを画像ＤＢ１３０７から検索し、該画像データに対応する提示用テンプレートが登録されているか否かをチェックする。テンプレートが無い場合にはステップＳ１４０８へ進み、画像表示部１３０１に対して画像データのみを表示して処理を終了する。

一方、画像ＤＢ１３０７に提示用テンプレートが登録されている場合にはステップＳ１４０３へ進み、音声編集部１３０６が画像ＤＢ１３０７より、提示用テンプレートのテキストデータを取得する。そしてステップＳ１４０４において、該テンプレートに対する応答の音声データが画像ＤＢ１３０７に登録されているか否かをチェックする。登録されていない場合にはステップＳ１４０８へ進み、画像表示部１３０１に対して画像データのみを表示して処理を終了する。すなわち第４実施形態においても、画像データに対する提示用テンプレートがあるにも関わらず応答の音声データが無い場合には、提示用テンプレートに関する音声出力は行われない。

一方、画像ＤＢ１３０７に応答の音声データが登録されている場合にはステップＳ１４０５へ進み、音声編集部１３０６が、応答内容としての音声データを画像ＤＢ１３０７から取得する。そしてステップＳ１４０６で音声編集部１３０６が、提示用テンプレートの音声データに予め設定されている応答挿入箇所に対して、応答の音声データを挿入することによって、提示用の音声データを作成する。

そしてステップＳ１４０７で再生管理部１３０４の制御に基づいて、音声出力部１３０２による該提示用の音声データの出力を開始し、同時にステップＳ１４０８で画像表示部１３０１に画像データを表示して、処理を終了する。すなわち第４実施形態では、音声出力の終了を待たずに、画像表示を行う。言い換えれば、画像表示と同時に音声出力を行う。

●画像表示例
以下、第４実施形態における画像表示例を示す。図１５は、第４実施形態における処理対象となる画像データと、該画像データに対する提示用テンプレートと応答の音声データが登録されている例を示す。そして図１６に、図１５の画像データについての表示例を示す。図１６によれば、図１５に示す画像データに対する質問内容と、該質問に対する応答内容としての音声データを合成して、画像表示と同時に音声出力している。図１６においては、音声データである旨を表現する吹き出し内において、「この日は」「です」と「メイの誕生日」という音声が、それぞれ異なる話者の発声によるものである旨を示すために、文字フォントが異なっている。これは、第４実施形態における提示用テンプレートは音声メモ（応答）を促すためのものであり、撮影時に録音される音声メモとは異なる音声であることが予想されるためである。

以上説明したように第４実施形態によれば、上述した第３実施形態と同様に各画像に対してそれぞれ異なる説明文を付与するが、これを音声データとして付与、再生することにより、画像再生時の臨場感が増す。

なお第４実施形態では、提示用テンプレートおよび応答内容を音声データとして記録する例を示したが、これらの全体もしくは一部をテキストデータとして記憶しておいても良い。この場合例えば、再生時に該テキストデータ部分を音声合成して音声データに変換し、記録されている音声データと接続して再生すれば良い。

＜第５実施形態＞
以下、本発明に係る第５実施形態について説明する。上述した第３実施形態では、画像に対する質問として提示用テンプレートを利用する例を示したが、第５実施形態ではこの提示用テンプレート内に応答文以外のパラメータを設け、該パラメータの内容を画像データに自動付与されたメタデータに依存する例を示す。

●システム構成
図１７は、第５実施形態に係る画像処理装置の構成を示すブロック図である。同図において、１７０１は画像データやテキストデータを表示する画像表示部、１７０２はスライドショーの開始や画像表示要求などのユーザによる操作を入力する操作入力部、である。１７０３は画像データやテキストデータの表示のタイミングや配置を管理する表示管理部、１７０４は表示タイミングに合わせて画像データを選択する画像選択部、である。また、１７０５は画像データに対応付けられた提示用テンプレートや応答のテキストデータを取り出し、提示用テンプレート内のパラメータを用いて提示用のテキストデータを作成するためのテキスト編集部である。そして１７０６は、画像データとそれに対応付けられた提示用テンプレートおよび応答のテキストデータを記憶する画像データベース（以下、画像ＤＢ）である。なお、画像データには例えばその撮影時刻等、付随情報を示すメタデータが予め付与されている。そして１７０７は、提示用テンプレート内に記述されたパラメータの内容を、対応する画像データのメタデータから取得するパラメータ取得部である。

●画像ＤＢ
第５実施形態では、画像ＤＢ１７０６は画像データに対応する提示用テンプレートおよびその応答文を示すテキストデータ、画像データに関するパラメータを保持する。以下、この提示用テンプレートおよび応答文の例について説明する。

ここで図２８に、質問データの例を示す。同図に示すように質問データにおいては、所定の複数の質問名に対し、それぞれに対応する提示用テンプレートを示すテキストデータが保持されている。ここで提示用テンプレートは、質問内容の提示形式と、該提示形式における応答データ（ここでは応答文）の挿入箇所と、該応答データ以外のパラメータ文字列の挿入箇所を規定している。第５実施形態におけるパラメータ文字列としては、＜撮影日＞や＜撮影時刻＞、＜撮影場所＞、＜被写体＞、＜最終撮影場所＞等があり、これらの内容を撮影時に画像データに付与されたメタデータより取得する。

なお、第５実施形態において、メタデータとして設定される＜撮影日＞や＜撮影時刻＞については、例えば撮像装置のタイマより取得される。また、＜撮影場所＞、＜最終撮影場所＞については、例えば撮像装置にＧＰＳ等の位置同定手段を設けることにより、取得可能である。このような撮影場所情報については、その経緯度を地図上の地名に置き換えることも有効である。また＜被写体＞については、例えば撮像装置に画像認識機能を設けることにより、被写体の種別や人名を同定して取得することが可能である。このように、提示用テンプレートに記述されるパラメータとしては、画像データにメタデータとして付与されうる情報であれば、どのような情報であっても使用可能である。

なお、一般に撮影時刻としては「年:月：日：時：分」の構成をとるが、この例では、＜撮影日＞を「月日」、＜撮影時＞を「朝/昼/午後/夜」等の表現に変換する手段を別途備えているものとする。

画像ＤＢ１７０６は、質問データに対応した応答データも保持する。

●画像表示処理
以下、第５実施形態における画像表示処理について、図１８のフローチャートを用いて説明する。なおここでは、一枚の画像の表示要求がなされた場合についての処理を示す。スライドショー等、画像を連続して再生する際には、図１８に示す再生処理を任意の時間をおいて繰り返せば良い。

まずステップＳ１８０１において、表示すべき画像データを操作入力部１７０２を介して選択する。そしてステップＳ１８０２において画像選択部１７０４が、該選択された画像データを画像ＤＢ１７０６から検索し、該画像データに対応する提示用テンプレートが登録されているか否かをチェックする。登録されていない場合にはステップＳ１８０９へ進み、画像表示部１７０１に対して画像データのみを表示して処理を終了する。

一方、画像ＤＢ１７０６に提示用テンプレートが登録されている場合にはステップＳ１８０３へ進み、テキスト編集部１７０５が画像ＤＢ１７０６より、提示用テンプレートであるテキストデータを取得する。そしてステップＳ１８０４において、該提示用テンプレートに対する応答文が画像ＤＢ１７０６に登録されているか否かをチェックする。無い場合にはステップＳ１８０９へ進み、画像表示部１７０１に対して画像データのみを表示して処理を終了する。すなわち第５実施形態においても、画像データに対する提示用テンプレートがあるにも関わらず応答文が無い場合には、提示用のテキストデータの表示出力は行われない。

一方、画像ＤＢ１７０６に応答文が登録されている場合にはステップＳ１８０５へ進み、テキスト編集部１７０５が、応答内容としてのテキストデータを画像ＤＢ１７０６から取得する。そしてステップＳ１８０６でパラメータ取得部１７０９が、提示用テンプレート内のパラメータに適合する値（文字列）を、画像データに付与されているメタデータから取得する。

そしてステップＳ１８０７でテキスト編集部１７０５が、提示用テンプレートに応答のテキストデータおよびパラメータを挿入して提示用のテキストデータを作成する。そしてステップＳ１８０８で表示管理部１７０３が、該提示用のテキストデータを画像データに対して配置することによって合成し、ステップＳ１８０９で該合成された画像データを画像表示部１７０１に表示して、処理を終了する。

●画像表示例
以下、第５実施形態における画像表示例を示す。図１９は、第５実施形態における処理対象となる画像データと、該画像データに対して「＜撮影日＞は＜応答＞です。」という提示用テンプレートが設定され、それに対して「メイの誕生日」という応答がなされた例を示す。そしてこの場合、画像データの撮影日は「５月３日」であり、この日付情報は撮影時に撮像装置のタイマより取得され、メタデータとして自動的に付与されたものである。

そして図２０に、図１９の画像データについての表示例を示す。図２０によれば、図１９に示す提示用テンプレートに対し、まず、応答内容としてのテキストデータが＜応答＞の挿入箇所に挿入されている。そしてさらに、パラメータとしての＜撮影日＞の挿入箇所に、メタデータより取得した撮影日情報を挿入することによって、提示用のテキストデータが作成され、これを画像左上に配置して表示している。

以上説明したように第５実施形態によれば、質問に応じたテンプレートの中にメタデータに依存するパラメータを用意しておくことにより、例えば写真撮影時等、画像データの生成時の状況について提供できる情報量を増やすことが可能となる。

＜第６実施形態＞
以下、本発明に係る第６実施形態について説明する。上述した第５実施形態では、画像に対するパラメータを含んだ提示用テンプレートおよび応答をテキストデータとして登録する例を示したが、第６実施形態では応答については音声データとして登録する例を示す。

●システム構成
図２１は、第６実施形態に係る画像処理装置の構成を示すブロック図である。同図において、２１０１は画像データを表示する画像表示部、２１０２は音声データを出力する音声出力部、２１０３はスライドショーの開始や画像表示要求などのユーザによる操作を入力する操作入力部、である。また、２１０４は画像データの表示や音声データの再生タイミング、および画像データの配置を管理する再生管理部、２１０５は表示タイミングに合わせて画像データを選択する画像選択部、である。

２１０６は、画像データに対応付けられた応答の音声データを取り出し、音声合成部２１１１で作成された仮の提示用音声データと合成することによって提示用の音声データを作成するための音声編集部である。そして２１０７は、画像データとそれに対応付けられた提示用テンプレートおよび応答の音声データを記憶する画像データベース（以下、画像ＤＢ）である。なお、画像データには例えばその撮影時刻等、付随情報を示すメタデータが予め付与されている。

また２１０８は、テキスト編集部２１１０で作成された仮の提示用テキストデータに対して読み付けを行って、仮の提示用音声データを作成する音声合成部である。２１０９は、提示用テンプレート内に記述されたパラメータの内容を、対応する画像データのメタデータから取得するパラメータ取得部である。そして２１１０は、提示用テンプレートのテキストデータにパラメータ取得部２１０９で取得されたパラメータを挿入して、仮の提示用テキストデータを作成するテキスト編集部である。

●画像ＤＢ
第６実施形態では、画像ＤＢ２１０７は対応するテンプレートおよび応答を示す音声データを保持する。以下、この提示用テンプレートおよび応答文の例について説明する。なお、第６実施形態の質問データは、上述した第５実施形態で例示した図２８と同様である。

画像ＤＢ２１０７は、質問データに対応した応答データも保持する。

●画像表示処理
以下、第６実施形態における一枚の画像表示要求に対する表示処理について、図２２のフローチャートを用いて説明する。第６実施形態においても、スライドショー等、画像を連続して再生する際には、図２２に示す再生処理を任意の時間をおいて繰り返せば良い。

まずステップＳ２２０１において、表示すべき画像データを操作入力部２１０３を介して選択する。そしてステップＳ２２０２において画像選択部２１０５が、該選択された画像データを画像ＤＢ２１０７から検索し、該画像データに対応する提示用テンプレートが登録されているか否かをチェックする。テンプレートが無い場合にはステップＳ２２１１へ進み、画像表示部２１０１に対して画像データのみを表示して処理を終了する。

一方、画像ＤＢ２１０７に提示用テンプレートが登録されている場合にはステップＳ２２０３へ進み、テキスト編集部２１１３が画像ＤＢ２１０７より、提示用テンプレートのテキストデータを取得する。そしてステップＳ２２０４において、該テンプレートに対する応答の音声データが画像ＤＢ２１０７に登録されているか否かをチェックする。登録されていない場合にはステップＳ２２１１へ進み、画像表示部２１０１に対して画像データのみを表示して処理を終了する。すなわち第６実施形態においても、画像データに対する提示用テンプレートがあるにも関わらず応答の音声データが無い場合には、提示用テンプレートに関する音声出力は行われない。

一方、画像ＤＢ２１０７に応答の音声データが登録されている場合にはステップＳ２２０５へ進み、音声編集部２１０６が、応答内容としての音声データを画像ＤＢ２１０７から取得する。次にステップＳ２２０６でパラメータ取得部２１０９が、提示用テンプレート内のパラメータに適合する値（文字列）を、画像データに付与されているメタデータから取得する。そしてステップＳ２２０７でテキスト編集部２１１０が、提示用テンプレートのテキストデータにパラメータの文字列を挿入して、仮の提示用テキストデータを作成する。そしてステップＳ２２０８で音声合成部２１０８が、仮の提示用テキストデータに対する音声合成（読み付け）を行うことによって、仮の提示用音声データを作成する。

そしてステップＳ２２０９で音声編集部２１０６が、音声合成部２１０８で作成された仮の提示用音声データに対し、提示用テンプレートで設定されていた応答挿入箇所に応答の音声データを挿入して、提示用の音声データを作成する。

そしてステップＳ２２１０で、再生管理部２１０４の制御に基づいて、音声出力部２１０２による該提示用の音声データの出力を開始し、同時にステップＳ２２１１で画像表示部２１０１に画像データを表示して、処理を終了する。すなわち第６実施形態では、音声出力の終了を待たずに、画像表示を行う。言い換えれば、画像表示と同時に音声出力を行う。

●画像表示例
以下、第６実施形態における画像表示例を示す。

まず、提示用テンプレートにパラメータとして撮影日が設定されている例について、図２３，図２４を用いて説明する。

図２３は、第６実施形態における処理対象となる画像データと、該画像データに対して「＜撮影日＞は＜応答＞です。」という提示用テンプレートが保持され、それに対して音声による応答（「メイの誕生日」）が保持されている例を示す。この場合、＜撮影日＞が提示用テンプレートにおけるパラメータであり、このパラメータは、撮影時に撮像装置のタイマより取得され、メタデータとして画像データに自動的に付与されたものであり、この例では画像データの撮影日は「５月３日」である。

そして図２４に、図２３の画像データについての表示例を示す。図２４によれば、図２３に示す提示用テンプレートのテキストデータに対し、パラメータとしての＜撮影日＞の挿入箇所に、メタデータより取得した撮影日情報のテキストデータが挿入される。そしてこれが音声変換されることにより、仮の提示用音声データが作成される。そしてさらに、仮の提示用音声データに対し、応答内容としての音声データが＜応答＞の挿入箇所に挿入されることにより、提示用の音声データが作成され、画像表示と同時に音声出力される。

次に、提示用テンプレートにパラメータとして、ＧＰＳ機能等によって同定される撮影場所が設定されている例について、図２９，図３０を用いて説明する。

図２９は、第５実施形態において処理対象となる画像データと、該画像データに対して「ここは＜撮影場所＞の＜応答＞」という提示用テンプレートが設定され、それに対して音声による応答（「おじいちゃんち」）がなされた例を示す。なお、画像データの撮影日は「５月３日」であり、ＧＰＳ機能によって撮影場所が「新潟県」と同定されている。

そして図３０に、図２９の画像データについての表示例を示す。図３０によれば、図２９に示す提示用テンプレートのテキストデータに対し、パラメータとしての＜撮影場所＞の挿入箇所に、メタデータより取得した撮影場所応報のテキストデータが挿入される。そしてこれが音声変換されることにより、仮の提示用音声データが作成される。そしてさらに、仮の提示用音声データに対し、応答内容としての音声データが＜応答＞の挿入箇所に挿入されることにより、提示用の音声データが作成され、画像表示と同時に音声出力される。このように撮影場所をパラメータとして用いることにより、画像再生時に作成される提示用の音声データでは、「新潟県」という普遍的な地名と、「おじいちゃんち」という個人的な場所の言及の両方の情報が提示される。

なお図２４および図３０においては、音声データである旨を表現する吹き出し内において、異なる文字フォントが混在しているが、これは、それぞれが異なる話者の発声による旨を示すためである。

以上説明したように第６実施形態によれば、上述した第５実施形態で得られる効果に加えて、音声によるメモ再生を行うことにより、画像再生時の臨場感が増す。

なお第６実施形態では、応答音声挿入位置およびパラメータ記述を含んだ提示用テンプレートをテキストデータとして記録する例を示したが、該提示用テンプレートにおける応答音声挿入位置およびパラメータ記述以外の部分を音声データとして記録しても良い。この場合例えば、再生時にパラメータの部分のみを音声合成によって音声データに変換し、記録されている音声データと接続しても良い。また、応答内容をテキストデータとして記憶しておき、これを音声データに変換してもよい。

＜変形例＞
なお、本発明は上述した各実施形態に限定されるものではなく、その変形例もまた、本発明の範疇である。以下、変形例を挙げる。

上述した第２，４，６実施形態においては、質問音声もしくは提示用テンプレートの音声データと応答音声データを直接接続する例を示したが、これを直接接続せずに、間に一定時間の沈黙もしくは何らかの音を挿入するようにしても良い。

また、上述した第４，６実施形態においては、提示用テンプレートから作成されたテキストデータに対して音声合成を施すことによって合成音を作成する例を示した。しかしながら、応答音声挿入箇所で別々のテキストデータとして合成音を作成した場合、接続する箇所のイントネーションが不自然になる可能性がある。そこで、応答音声挿入箇所にダミーの文字列を挿入した文字列から音声データを作成し、ダミーの音声データ部分を実際の応答音声と入れ替えるようにしてもよい。

また、上述した第１，３，５実施形態においては、画像再生時に文字表示を行う例を示したが、文字表示と同時に表示文字列を音声合成して読み上げるようにしても良い。

また、上述した第１，２実施形態においては、質問内容が登録されていない場合には応答内容の提示は行わない例を示したが、質問内容がない場合であっても応答内容のみを提示するようにしても良い。

また、上述した第３，４，５，６実施形態においては、提示用テンプレートが登録されていない場合には応答内容の提示は行わない例を示したが、提示用テンプレートがない場合であっても応答内容のみを提示するようにしても良い。

また、上述した第２，４，６実施形態においては、音声出力を開始してその終了を待たずに表示処理を終了する例を示した。しかしながら、スライドショー表示を行う場合にはこの限りでなく、出力する音声の所要時間を計算し、一枚の画像表示に割り当てられている時間よりも音声出力が長くなる場合には、音声出力の所要時間に、画像表示時間を合わせると良い。例えば、音声出力終了まで、画像表示を終了しないようにすることや、合成音声の速度を速めること、間に挿入する沈黙や音を省略すること、質問内容や提示用テンプレートの適用を除外すること、等が考えられる。

＜他の実施形態＞
本発明は例えば、システム、装置、方法、プログラム若しくは記憶媒体(記録媒体)等としての実施態様をとることが可能である。具体的には、複数の機器（例えば、ホストコンピュータ、インタフェース機器、スキャナ、webアプリケーション等）から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。

本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムを、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される。なお、この場合のプログラムとは、実施形態において図に示したフローチャートに対応したコンピュータ可読のプログラムである。

従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。

その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等の形態であっても良い。

プログラムを供給するための記録媒体としては、以下に示す媒体がある。例えば、フロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD-ROM、CD-R、CD-RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD-ROM，DVD-R)などである。

プログラムの供給方法としては、以下に示す方法も可能である。すなわち、クライアントコンピュータのブラウザからインターネットのホームページに接続し、そこから本発明のコンピュータプログラムそのもの(又は圧縮され自動インストール機能を含むファイル)をハードディスク等の記録媒体にダウンロードする。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明に含まれるものである。

また、本発明のプログラムを暗号化してCD-ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせることも可能である。すなわち該ユーザは、その鍵情報を使用することによって暗号化されたプログラムを実行し、コンピュータにインストールさせることができる。

また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される。さらに、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。

さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、実行されることによっても、前述した実施形態の機能が実現される。すなわち、該プログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行うことが可能である。

本発明に係る一実施形態における画像処理装置の構成を示すブロック図である。本実施形態における表示処理を示すフローチャートである。本実施形態における表示対象となる画像データ例を示す図である。本実施形態における表示例を示す図である。第２実施形態における画像処理装置の構成を示すブロック図である。第２実施形態における表示処理を示すフローチャートである。第２実施形態における表示対象となる画像データ例を示す図である。第２実施形態における表示例を示す図である。第３実施形態における画像処理装置の構成を示すブロック図である。第３実施形態における表示処理を示すフローチャートである。第３実施形態における表示対象となる画像データ例を示す図である。第３実施形態における表示例を示す図である。第４実施形態における画像処理装置の構成を示すブロック図である。第４実施形態における表示処理を示すフローチャートである。第４実施形態における表示対象となる画像データ例を示す図である。第４実施形態における表示例を示す図である。第５実施形態における画像処理装置の構成を示すブロック図である。第５実施形態における表示処理を示すフローチャートである。第５実施形態における表示対象となる画像データ例を示す図である。第５実施形態における表示例を示す図である。第６実施形態における画像処理装置の構成を示すブロック図である。第６実施形態における表示処理を示すフローチャートである。第６実施形態における表示対象となる画像データ例を示す図である。第６実施形態における表示例を示す図である。本実施形態における質問データ例を示す図である。第３実施形態における、提示用テンプレートを含む質問データ例を示す図である。第４実施形態における、提示用テンプレートを含む質問データ例を示す図である。第５実施形態における、パラメータ記述を有する提示用テンプレートを含む質問データ例を示す図である。第６実施形態における表示対象となる画像データ例を示す図である。第６実施形態における表示例を示す図である。

Claims

静止画像の画像データと、該画像データに関する質問内容を示す質問データと、該質問内容に対する応答内容を示す応答データと、を保持する保持手段と、
前記画像データを表示する表示手段と、
前記表示手段で前記画像データが表示される際に、該画像データに対する前記質問データおよび前記応答データを出力する出力手段と、
を有することを特徴とする画像処理装置。
前記質問データおよび前記応答データはテキストデータであり、
前記出力手段は、前記表示手段に表示される前記画像データに対し、前記質問データおよび前記応答データを文字列として配置して表示出力する
ことを特徴とする請求項１に記載の画像処理装置。
前記質問データおよび前記応答データは音声データであり、
前記出力手段は、前記質問データ、前記応答データの順に音声出力することを特徴とする請求項１に記載の画像処理装置。
さらに、テキストデータに音声合成を施して音声データを生成する音声合成手段を有し、
前記質問データおよび前記応答データはテキストデータと音声データが混在可能であり、
前記出力手段は、前記質問データおよび前記応答データについて、音声データ部分は音声出力し、テキストデータ部分は前記音声合成手段で音声データに変換して音声出力する
ことを特徴とする請求項１に記載の画像処理装置。
前記質問データは、質問内容の提示形式と、該提示形式における前記応答データの挿入箇所を規定する提示用テンプレートであり、
前記出力手段は、前記提示用テンプレートに前記応答データを挿入した提示用のデータを出力する
ことを特徴とする請求項１に記載の画像処理装置。
前記提示用テンプレートは、前記応答データと、該応答データ以外のパラメータの挿入箇所を規定し、
前記出力手段は、前記画像データに付与されたメタデータから前記パラメータの内容を取得して、前記提示用テンプレートに前記応答データおよび前記パラメータを挿入した提示用のデータを出力する
ことを特徴とする請求項５に記載の画像処理装置。
前記提示用テンプレートおよび前記応答データはテキストデータを含み、
前記出力手段は、前記表示手段に表示される前記画像データに対し、前記提示用のデータを文字列として配置して表示出力することを特徴とする請求項５または６に記載の画像処理装置。
前記提示用テンプレートおよび前記応答データは音声データを含み、
前記出力手段は、前記提示用のデータを音声出力する
ことを特徴とする請求項５または６に記載の画像処理装置。
さらに、テキストデータに音声合成を施して音声データを生成する音声合成手段を有し、
前記提示用テンプレートおよび前記応答データはテキストデータと音声データが混在可能であり、
前記出力手段は、前記提示用テンプレートおよび前記応答データについて、音声データ部分は音声出力し、テキストデータ部分は前記音声合成手段で音声データに変換して音声出力する
ことを特徴とする請求項５または６に記載の画像処理装置。
さらに、前記画像データを入力する入力手段と、
前記画像データに対する前記質問データおよび前記応答データを設定する設定手段と、を有し、
前記保持手段は、前記画像データを、前記設定手段で設定された前記質問データおよび前記応答データと対応付けて保持する
ことを特徴とする請求項１ないし９のいずれか１項に記載の画像処理装置。
前記設定手段は、前記質問データの質問内容に対するユーザの応答に基づいて、前記応答データを設定することを特徴とする請求項１０に記載の画像処理装置。
静止画像の画像データと、該画像データに関する質問内容を示す質問データと、該質問内容に対する応答内容を示す応答データと、を保持手段に保持した画像処理装置における表示制御方法であって、
前記画像データを表示する際に、該画像データに対する前記質問データおよび前記応答データも提示することを特徴とする表示制御方法。
前記質問データおよび前記応答データはテキストデータであり、
前記画像データを表示する際に、該画像データに対し、前記質問データおよび前記応答データを文字列として配置して表示する
ことを特徴とする請求項１２に記載の表示制御方法。
前記質問データおよび前記応答データは音声データであり、
前記画像データを表示する際に、前記質問データ、前記応答データの順に音声出力することを特徴とする請求項１２に記載の表示制御方法。
前記質問データは、質問内容の提示形式と、該提示形式における前記応答データの挿入箇所を規定する提示用テンプレートであり、
前記画像データを表示する際に、前記提示用テンプレートに前記応答データを挿入した提示用のデータを提示する
ことを特徴とする請求項１２に記載の表示制御方法。
コンピュータを請求項１乃至１１のいずれか１項に記載の画像処理装置として機能させるためのプログラム。
請求項１６に記載のプログラムを記憶したコンピュータ可読な記憶媒体。