JP2010034880A - 画像処理装置および表示制御方法 - Google Patents
画像処理装置および表示制御方法 Download PDFInfo
- Publication number
- JP2010034880A JP2010034880A JP2008195306A JP2008195306A JP2010034880A JP 2010034880 A JP2010034880 A JP 2010034880A JP 2008195306 A JP2008195306 A JP 2008195306A JP 2008195306 A JP2008195306 A JP 2008195306A JP 2010034880 A JP2010034880 A JP 2010034880A
- Authority
- JP
- Japan
- Prior art keywords
- data
- image
- question
- response
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Transforming Electric Information Into Light Information (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
【課題】デジタルカメラには撮影画像に対してユーザが音声や文字によるメモを付与する機能があるが、画像を表示する際にメモをそのまま再生すると、ユーザがメモの付与時の状況を知らない場合にはメモの内容が理解しにくいという問題があった。
【解決手段】
撮影した静止画像の画像データと、該画像データに関する質問内容を示す質問データと、該質問内容に対するユーザの応答内容を示す応答データと、を画像DB106に保持しておく。そして、画像表示部101で画像データが表示される際に、該画像データに対する質問データおよび応答データの両方を、該画像データに重ねて表示する。これにより、静止画像を表示する際に、該画像に設定された質問および応答がメモとして適切に再生されるため、該画像についてのユーザの理解を助けることができる。
【選択図】 図1
【解決手段】
撮影した静止画像の画像データと、該画像データに関する質問内容を示す質問データと、該質問内容に対するユーザの応答内容を示す応答データと、を画像DB106に保持しておく。そして、画像表示部101で画像データが表示される際に、該画像データに対する質問データおよび応答データの両方を、該画像データに重ねて表示する。これにより、静止画像を表示する際に、該画像に設定された質問および応答がメモとして適切に再生されるため、該画像についてのユーザの理解を助けることができる。
【選択図】 図1
Description
本発明は画像処理装置および表示制御方法に関し、特に、静止画像を表示する際に該画像に関するメモをユーザに提示する画像処理装置および表示制御方法に関する。
近年のデジタルカメラの普及に従い、撮影された写真(以下、撮影画像)をディスプレイ上で鑑賞することが増えてきている。それに伴い、撮影画像をスライドショーとして閲覧する機能、さらにはスライドショーに対してBGMを付与する機能を有するパーソナルコンピュータ(PC)のソフトウェアや、DVDレコーダ、ゲーム機等が市販されている。また、静止画像に対してテキストデータや音声データをメモとして付与する機能を有するデジタルカメラが知られている。
そこで、静止画像に付与された音データの再生やテキストデータの表示をスライドショーに対応させるために、以下のような技術が提案されている。
まず、スライドショーにおける静止画の表示時間を、静止画像に対応付けられた音データの時間に合わせて変更する技術がある(例えば、特許文献1,2参照)。
また、静止画像に対応付けられた音データの再生と、スライドショー時のBGMの音量の調節を行う技術がある(例えば、特許文献3,4参照)。
また、写真画像に対して撮影時に自動付与されたメタデータから、その画像を説明する文を作成し、文字列として表示する技術がある(例えば、特許文献5参照)。
また、写真画像に対して撮影時に自動付与された文字や数値のメタデータから、その画像のナレーション文を音声で出力する技術がある(例えば、特許文献6参照)。
また、ユーザにメモ付与を促すために、撮影時に質問を行い、質問内容と応答内容を文字や音声のメモとして保存する技術がある(例えば、特許文献7参照)。
特開平10-145730号公報
特許第03258968号公報
特開2005-051706号公報
特開平11-168692号公報
特開平11-249941号公報
特開2004-320233号公報
特開2007-258934号公報
しかしながら、上記従来の技術に基づいて、静止画像に付与された音データの再生やテキストデータの表示をスライドショーに対応させることを考えた場合、以下のような問題があった。
まず、特許文献1乃至4は、音声メモやBGMなどの音データの再生に特化されたものである。特に特許文献3および特許文献4によれば、音声メモとBGMを同時に再生したり、音声メモのみを再生したりすることができる。このように、スライドショー時に、撮影時に録音した音声メモを再生することは、その写真の撮影時の状況を想起させる手段として大変有効である。しかしながら、前後の文脈のない発声は、聞く側にとって時として聴き取り難いという問題がある。また、メモとしてテキストデータが付与された場合については考慮されていないため、例えば文字としてのメモが画像のどの部分にどういう意図で付与されたものであるか等、特に撮影時の状況を知らない場合にはメモの内容が理解しづらい場合もあった。
一方、特許文献5および6は、静止画像を説明する文を撮影時に自動付与されたメタデータから作成するものであり、音声メモとして付与された音データについては使用しない。このように作成された説明文は、静止画像を説明するナレーションとして有効ではあるが、撮影時の生の音声は聞こえないため、臨場感に欠けるという問題があった。また、生成する文は特許文献5の場合、固定でありバリエーションがなかった。特許文献6の場合、ナレーション文の生成時に、画像に対する好感度キーや使用するメタデータを解析してテンプレートを選択するものであり、個々の画像について同様にテンプレート選択を行う。したがって、説明文のアウトラインはどの画像についても似たようなものとなり、特に複数の画像が再生されるスライドショー等において、同じような説明が単調に繰り返されてしまうという問題があった。
特許文献7は、撮影時にユーザのメモ付与を促すために撮像装置側から質問を行うものである。質問内容と応答内容を静止画像とともに記録しておき、静止画像を閲覧する際に、画像と同時に質問内容を表示し、ユーザの要求があったときに、応答音声を再生するものである。質問と応答という形態をとることで、質問内容が応答内容を促すものであり、質問自体が応答を理解するための補助情報となる。特許文献7の画像表示形態は、質問内容を文字情報として画像とともに表示し、ユーザの指示を受けて応答内容の内容を再生するブラウザでの利用を想定したもののみである。スライドショーなどでの質問応答の同時もしくは連続提示についての利用については言及されていない。
本発明は上述した問題を解決するためになされたものであり、静止画像を表示する際に、該画像に設定された質問および応答をメモとして適切に再生し、ユーザに提示する画像処理装置およびその制御方法を提供することを目的とする。
上記目的を達成するための一手段として、本発明の画像処理装置は以下の構成を備える。
すなわち、静止画像の画像データと、該画像データに関する質問内容を示す質問データと、該質問内容に対する応答内容を示す応答データと、を保持する保持手段と、前記画像データを表示する表示手段と、前記表示手段で前記画像データが表示される際に、該画像データに対する前記質問データおよび前記応答データを出力する出力手段と、を有することを特徴とする。
例えば、前記質問データおよび前記応答データはテキストデータであり、前記出力手段は、前記表示手段に表示される前記画像データに対し、前記質問データおよび前記応答データを文字列として配置して表示出力することを特徴とする。
また例えば、前記質問データおよび前記応答データは音声データであり、前記出力手段は、前記質問データ、前記応答データの順に音声出力することを特徴とする。
また例えば、前記質問データは、質問内容の提示形式と、該提示形式における前記応答データの挿入箇所を規定する提示用テンプレートであり、前記出力手段は、前記提示用テンプレートに前記応答データを挿入した提示用のデータを出力することを特徴とする。
例えば、前記提示用テンプレートは、前記応答データと、該応答データ以外のパラメータの挿入箇所を規定し、前記出力手段は、前記画像データに付与されたメタデータから前記パラメータの内容を取得して、前記提示用テンプレートに前記応答データおよび前記パラメータを挿入した提示用のデータを出力することを特徴とする。
上記構成からなる本発明によれば、静止画像を表示する際に、該画像に設定された質問および応答をメモとして適切に再生し、ユーザに提示することができるため、該画像についてのユーザの理解を助けることができる。
以下、添付の図面を参照して、本発明をその好適な実施形態に基づいて詳細に説明する。なお、以下の実施形態において示す構成は一例に過ぎず、本発明は図示された構成に限定されるものではない。
<第1実施形態>
●システム構成
図1は、本実施形態に係る画像処理装置の構成を示すブロック図である。同図において、101は画像データやテキストデータを表示する画像表示部、102はスライドショーの開始や画像表示要求などのユーザによる操作を入力する操作入力部、である。103は画像データやテキストデータの表示のタイミングや配置を管理する表示管理部、104は表示タイミングに合わせて画像データを選択する画像選択部、である。また、105は画像データに対応付けられた質問や応答のテキストデータを取り出すためのテキスト選択部である。そして106は、画像データと、それに対応付けられた質問および応答のテキストデータを記憶する画像データベース(以下、画像DB)である。
●システム構成
図1は、本実施形態に係る画像処理装置の構成を示すブロック図である。同図において、101は画像データやテキストデータを表示する画像表示部、102はスライドショーの開始や画像表示要求などのユーザによる操作を入力する操作入力部、である。103は画像データやテキストデータの表示のタイミングや配置を管理する表示管理部、104は表示タイミングに合わせて画像データを選択する画像選択部、である。また、105は画像データに対応付けられた質問や応答のテキストデータを取り出すためのテキスト選択部である。そして106は、画像データと、それに対応付けられた質問および応答のテキストデータを記憶する画像データベース(以下、画像DB)である。
●画像DB
本実施形態では、画像DB106は、画像データに対応する質問および応答を示すテキストデータを保存している。以下、この質問データおよび応答データの例について説明する。
本実施形態では、画像DB106は、画像データに対応する質問および応答を示すテキストデータを保存している。以下、この質問データおよび応答データの例について説明する。
ここで図25に、質問データの例を示す。同図に示すように質問データにおいては、所定の複数の質問名に対し、それぞれの質問内容を示すテキストデータが保持されている。
つまり、画像データに対し、質問名に対応する質問内容のテキストデータが対応づけられており、その質問データに対して応答文のテキストデータが対応づけられている。
なお、画像DB106には質問内容をテキストデータとして保持する例を示したが、図25に示した質問データのような質問名とテキストデータの対応表を画像DB106に予め用意しておき、質問名を画像と対応付けて記憶するようにしても良い。この場合すなわち、質問名から質問内容であるテキストデータを検索するようにすれば良い。
なお、画像DB106への画像データ及び質問応答データの追加方法としては、画像入力部および質問応答設定部を設けて画像入力時に質問応答を対応付けるようにしても良い。また、通信部を設けて外部から予め対応付けられた画像データおよび質問応答データを入力するようにしても良い。
●画像表示処理
以下、本実施形態における画像表示処理について、図2のフローチャートを用いて説明する。なおここでは、一枚の画像の表示要求がなされた場合についての処理を示す。スライドショー等、画像を連続して再生する際には、図2に示す再生処理を任意の時間をおいて繰り返せば良い。
以下、本実施形態における画像表示処理について、図2のフローチャートを用いて説明する。なおここでは、一枚の画像の表示要求がなされた場合についての処理を示す。スライドショー等、画像を連続して再生する際には、図2に示す再生処理を任意の時間をおいて繰り返せば良い。
まずステップS201において、表示すべき画像データを操作入力部102を介して選択する。そしてステップS202において画像選択部104が、該選択された画像データを画像DB106から検索し、該画像データに対応する質問データが登録されているか否かをチェックする。質問データが無い場合にはステップS207へ進み、画像表示部101に対して画像データのみを表示して処理を終了する。
一方、画像DB106に質問データが登録されている場合にはステップS203へ進み、テキスト選択部105が画像DB106より、質問内容としてのテキストデータを取得する。そしてステップS204において、該質問データに対する応答データが画像DB106に登録されているか否かをチェックする。無い場合にはステップS207へ進み、画像表示部101に対して画像データのみを表示して処理を終了する。すなわち本実施形態においては、画像データに対する質問データがあるにも関わらず応答データが無い場合には、質問応答についての表示出力は行われない。
一方、画像DB106に応答データが登録されている場合にはステップS205へ進み、テキスト選択部105が、応答内容としてのテキストデータを画像DB106から取得する。そしてステップS206で表示管理部103が、質問と応答のテキストデータを画像データに対して配置することによって合成し、ステップS207で該合成された画像データを画像表示部101に表示して、処理を終了する。
●画像表示例
以下、本実施形態における画像表示例を示す。図3は、処理対象となる撮影直後の画像データと、該画像データに対して「今日は何の日?」という質問が選択され、それに対して「メイの誕生日」という応答がなされた例を示す。すなわち画像データに対して、「今日は何の日?」という質問文と、「メイの誕生日」という応答文が対応付けられて、画像DB106に登録されている。図4に、図3のように登録された画像データについての表示例を示す。図4によれば、図3に示す画像データに対する質問内容と、該質問に対する応答内容としてのテキストデータが、画像左上に改行を挟んで配置され、表示されている。
以下、本実施形態における画像表示例を示す。図3は、処理対象となる撮影直後の画像データと、該画像データに対して「今日は何の日?」という質問が選択され、それに対して「メイの誕生日」という応答がなされた例を示す。すなわち画像データに対して、「今日は何の日?」という質問文と、「メイの誕生日」という応答文が対応付けられて、画像DB106に登録されている。図4に、図3のように登録された画像データについての表示例を示す。図4によれば、図3に示す画像データに対する質問内容と、該質問に対する応答内容としてのテキストデータが、画像左上に改行を挟んで配置され、表示されている。
以上説明したように本実施形態によれば、例えば撮影等による画像入力時に設定された質問およびそれに対する応答として付与されているテキストデータを、該画像データの再生時に表示する。これにより、該画像データに対し、より適切なメモを添付することができ、画像についての理解を助けることができる。
<第2実施形態>
以下、本発明に係る第2実施形態について説明する。上述した第1実施形態では、画像に対するメモ(質問および応答)をテキストデータとして登録する例を示したが、第2実施形態ではこれを音声データとして保持する例を示す。
以下、本発明に係る第2実施形態について説明する。上述した第1実施形態では、画像に対するメモ(質問および応答)をテキストデータとして登録する例を示したが、第2実施形態ではこれを音声データとして保持する例を示す。
●システム構成
図5は、第2実施形態に係る画像処理装置の構成を示すブロック図である。同図において、501は画像データを表示する画像表示部、502は質問内容と応答内容である音声データを出力する音声出力部、503はスライドショーの開始や画像表示要求などのユーザによる操作を入力する操作入力部、である。また、504は画像データの表示や音声データの再生タイミング、および画像データの配置を管理する再生管理部、505は表示タイミングに合わせて画像データを選択する画像選択部、である。506は、画像データに対応付けられた質問や応答の音声データを取り出すための音声メモ選択部である。そして507は、画像データとそれに対応付けられた質問および応答の音声データを記憶する画像データベース(以下、画像DB)である。
図5は、第2実施形態に係る画像処理装置の構成を示すブロック図である。同図において、501は画像データを表示する画像表示部、502は質問内容と応答内容である音声データを出力する音声出力部、503はスライドショーの開始や画像表示要求などのユーザによる操作を入力する操作入力部、である。また、504は画像データの表示や音声データの再生タイミング、および画像データの配置を管理する再生管理部、505は表示タイミングに合わせて画像データを選択する画像選択部、である。506は、画像データに対応付けられた質問や応答の音声データを取り出すための音声メモ選択部である。そして507は、画像データとそれに対応付けられた質問および応答の音声データを記憶する画像データベース(以下、画像DB)である。
●画像DB
第2実施形態では、画像DB507は画像データと対応する質問および応答を示す音声データを保持する。以下、この質問データおよび応答データの例について説明する。なお、第2実施形態の質問データは、上述した第1実施形態で例示した図25と同様の内容であるが、質問名に対する質問内容が、テキストデータではなく、音声データとして保持されている。つまり、画像データに対し、質問名に対応する質問内容の音声データが対応づけられており、その質問データに対して応答文の音声データが対応づけられている。
第2実施形態では、画像DB507は画像データと対応する質問および応答を示す音声データを保持する。以下、この質問データおよび応答データの例について説明する。なお、第2実施形態の質問データは、上述した第1実施形態で例示した図25と同様の内容であるが、質問名に対する質問内容が、テキストデータではなく、音声データとして保持されている。つまり、画像データに対し、質問名に対応する質問内容の音声データが対応づけられており、その質問データに対して応答文の音声データが対応づけられている。
なお、画像DB507には質問内容を音声データとして保持する例を示したが、図25に示した質問データのように、質問名とその内容を示す音声データの対応表を画像DB507に予め用意しておき、質問名を画像と対応付けて記憶しても良い。この場合すなわち、質問名から質問内容の音声データを検索するようにすれば良い。
なお、画像DB507への画像データ及び質問応答データの追加方法としては、画像入力部および質問応答設定部を設けて画像入力時に質問応答を対応付けるようにしても良い。また、通信部を設けて外部から予め対応付けられた画像データおよび質問応答データを入力するようにしても良い。
●画像表示処理
以下、第2実施形態における一枚の画像表示要求に対する表示処理について、図6のフローチャートを用いて説明する。第2実施形態においても、スライドショー等、画像を連続して再生する際には、図6に示す再生処理を任意の時間をおいて繰り返せば良い。
以下、第2実施形態における一枚の画像表示要求に対する表示処理について、図6のフローチャートを用いて説明する。第2実施形態においても、スライドショー等、画像を連続して再生する際には、図6に示す再生処理を任意の時間をおいて繰り返せば良い。
まずステップS601において、表示すべき画像データを操作入力部503を介して選択する。そしてステップS602において画像選択部505が、該選択された画像データを画像DB507から検索し、該画像データに対応する質問の音声データが登録されているか否かをチェックする。質問の音声データが無い場合にはステップS608へ進み、画像表示部501に対して画像データのみを表示して処理を終了する。
一方、画像DB507に質問の音声データが登録されている場合にはステップS603へ進み、音声メモ選択部506が画像DB507より、質問内容である音声データを取得する。そしてステップS604において、該質問に対する応答の音声データが画像DB507に登録されているか否かをチェックする。登録されていない場合にはステップS608へ進み、画像表示部101に対して画像データのみを表示して処理を終了する。すなわち第2実施形態においても、画像データに対する質問データがあるにも関わらず応答データが無い場合には、質問応答についての音声出力は行われない。
一方、画像DB507に応答の音声データが登録されている場合にはステップS605へ進み、音声メモ選択部506が、応答内容としての音声データを画像DB507から取得する。そしてステップS606で音声メモ選択部506は、質問と応答の音声データを連続する音声データにまとめる。
そしてステップS607で再生管理部504の制御に基づき、音声出力部502による該音声データの出力を開始し、同時にステップS608で画像表示部501に画像データを表示して、処理を終了する。すなわち第2実施形態では、音声出力の終了を待たずに、画像表示を行う。言い換えれば、画像表示と同時に音声出力を行う。
●画像表示例
以下、第2実施形態における画像表示例を示す。図7は、第2実施形態における処理対象となる画像データと、該画像データに対する質問と応答の音声データが登録されている例を示す。そして図8に、図7の画像データについての表示例を示す。図8によれば、図7に示す画像データに対する質問内容と、該質問に対する応答内容としての音声データを連続させ、画像表示と同時に音声出力している。図8においては、音声データである旨を表現する吹き出し内において、「今日は何の日?」と「メイの誕生日」という音声が、それぞれ異なる話者の発声によるものである旨を示すために、文字フォントが異なっている。これは、第2実施形態における質問音声は音声メモ(応答)を促すためのものであり、撮影時に録音される音声メモとは異なる音声であることが予想されるためである。
以下、第2実施形態における画像表示例を示す。図7は、第2実施形態における処理対象となる画像データと、該画像データに対する質問と応答の音声データが登録されている例を示す。そして図8に、図7の画像データについての表示例を示す。図8によれば、図7に示す画像データに対する質問内容と、該質問に対する応答内容としての音声データを連続させ、画像表示と同時に音声出力している。図8においては、音声データである旨を表現する吹き出し内において、「今日は何の日?」と「メイの誕生日」という音声が、それぞれ異なる話者の発声によるものである旨を示すために、文字フォントが異なっている。これは、第2実施形態における質問音声は音声メモ(応答)を促すためのものであり、撮影時に録音される音声メモとは異なる音声であることが予想されるためである。
以上説明したように第2実施形態によれば、応答内容として音声データが登録されている場合にはこれを再生することにより、画像に対する臨場感が増大する。
なお第2実施形態では、質問内容および応答内容を音声データとして記録する例を示したが、これらの全体もしくは一部をテキストデータとして、すなわちテキストデータと音声データを混在可能として記憶しておいても良い。この場合例えば、再生時に該テキストデータ部分を音声合成して音声データに変換し、記録されている音声データと接続して再生すれば良い。
<第3実施形態>
以下、本発明に係る第3実施形態について説明する。上述した第1実施形態では、質問文に対応付けた応答文をそれぞれ別の文といて提示する例を示したが、第3実施形態では、提示する質問文をテンプレート形式とした例を示す。
以下、本発明に係る第3実施形態について説明する。上述した第1実施形態では、質問文に対応付けた応答文をそれぞれ別の文といて提示する例を示したが、第3実施形態では、提示する質問文をテンプレート形式とした例を示す。
●システム構成
図9は、第3実施形態に係る画像処理装置の構成を示すブロック図である。同図において、901は画像データやテキストデータを表示する画像表示部、902はスライドショーの開始や画像表示要求などのユーザによる操作を入力する操作入力部、である。903は画像データやテキストデータの表示のタイミングや配置を管理する表示管理部、904は表示タイミングに合わせて画像データを選択する画像選択部、である。また、905は画像データに対応付けられた提示用テンプレートや応答のテキストデータを取り出し、提示用のテキストデータを作成するためのテキスト編集部である。そして906は、画像データとそれに対応付けられた提示用テンプレートおよび応答のテキストデータを記憶する画像データベース(以下、画像DB)である。
図9は、第3実施形態に係る画像処理装置の構成を示すブロック図である。同図において、901は画像データやテキストデータを表示する画像表示部、902はスライドショーの開始や画像表示要求などのユーザによる操作を入力する操作入力部、である。903は画像データやテキストデータの表示のタイミングや配置を管理する表示管理部、904は表示タイミングに合わせて画像データを選択する画像選択部、である。また、905は画像データに対応付けられた提示用テンプレートや応答のテキストデータを取り出し、提示用のテキストデータを作成するためのテキスト編集部である。そして906は、画像データとそれに対応付けられた提示用テンプレートおよび応答のテキストデータを記憶する画像データベース(以下、画像DB)である。
●画像DB
第3実施形態では、画像DB906へ画像データに対応する提示用テンプレートおよびその応答文を示すテキストデータを設定することが可能である。以下、このテンプレートおよびその応答文の例について説明する。
第3実施形態では、画像DB906へ画像データに対応する提示用テンプレートおよびその応答文を示すテキストデータを設定することが可能である。以下、このテンプレートおよびその応答文の例について説明する。
ここで図26に、質問データの例を示す。同図に示すように質問データにおいては、所定の複数の質問名に対し、それぞれに対応する提示用テンプレートを示すテキストデータが保持されている。ここで提示用テンプレートは、質問内容の提示形式と、該提示形式における応答文の挿入箇所を規定している。この提示用テンプレートに対して応答文が対応付けられている。
なお、ここでは提示用テンプレートをテキストデータとして画像DB906に保持する例を示したが、図26に示した質問データのような質問名と提示用テンプレートの対応表を画像DB906に予め用意しておき、質問名を画像と対応付けて記憶しても良い。この場合すなわち、質問名から提示用テンプレートを検索するようにすれば良い。
なお、画像DB906への画像データ及び質問応答データの追加方法としては、画像入力部および質問応答設定部を設けて画像入力時に質問応答を対応付けるようにしても良い。また、通信部を設けて外部から予め対応付けられた画像データおよび質問応答データを入力するようにしても良い。
●画像表示処理
以下、第3実施形態における画像表示処理について、図10のフローチャートを用いて説明する。なおここでは、一枚の画像の表示要求がなされた場合についての処理を示す。スライドショー等、画像を連続して再生する際には、図10に示す再生処理を任意の時間をおいて繰り返せば良い。
以下、第3実施形態における画像表示処理について、図10のフローチャートを用いて説明する。なおここでは、一枚の画像の表示要求がなされた場合についての処理を示す。スライドショー等、画像を連続して再生する際には、図10に示す再生処理を任意の時間をおいて繰り返せば良い。
まずステップS1001において、表示すべき画像データを操作入力部902を介して選択する。そしてステップS1002において画像選択部904が、該選択された画像データを画像DB906から検索し、該画像データに対応する提示用テンプレートが登録されているか否かをチェックする。登録されていない場合にはステップS1008へ進み、画像表示部901に対して画像データのみを表示して処理を終了する。
一方、画像DB906に提示用テンプレートが登録されている場合にはステップS1003へ進み、テキスト編集部905が画像DB906より、提示用テンプレートであるテキストデータを取得する。そしてステップS1004において、該提示用テンプレートに対する応答文が画像DB906に登録されているか否かをチェックする。無い場合にはステップS1008へ進み、画像表示部901に対して画像データのみを表示して処理を終了する。すなわち第3実施形態においても、画像データに対する提示用テンプレートがあるにも関わらず応答文が無い場合には、提示用のテキストデータの表示出力は行われない。
一方、画像DB906に応答文が登録されている場合にはステップS1005へ進み、テキスト編集部905が、応答内容としてのテキストデータを画像DB906から取得する。そしてステップS1006でテキスト編集部905が、提示用テンプレートに応答のテキストデータを挿入して提示用のテキストデータを作成する。
そしてステップS1007で表示管理部903が、該提示用のテキストデータを画像データに対して配置することによって合成し、ステップS1008で、該合成された画像データを画像表示部901に表示して、処理を終了する。
●画像表示例
以下、第3実施形態における画像表示例を示す。図11は、第3実施形態における処理対象となる画像データと、該画像データに対して「この日は<応答>です。」という提示用テンプレートが設定され、それに対して「メイの誕生日」という応答がなされた例を示す。そして図12に、図11の画像データについての表示例を示す。図12によれば、図11に示す提示用テンプレートに対し、応答内容としてのテキストデータを挿入して作成した提示用のテキストデータを、画像左上に配置し、表示している。
以下、第3実施形態における画像表示例を示す。図11は、第3実施形態における処理対象となる画像データと、該画像データに対して「この日は<応答>です。」という提示用テンプレートが設定され、それに対して「メイの誕生日」という応答がなされた例を示す。そして図12に、図11の画像データについての表示例を示す。図12によれば、図11に示す提示用テンプレートに対し、応答内容としてのテキストデータを挿入して作成した提示用のテキストデータを、画像左上に配置し、表示している。
以上説明したように第3実施形態によれば、質問内容そのものではなく、質問に応じたテンプレートを提示し、ユーザが該テンプレートに対して応答内容を挿入することによって、画像データに対するメモを作成する。これにより、複数の類似した静止画像群について、各画像に対してそれぞれ異なる説明文を作成することができ、例えばスライドショー再生において同じようなナレーションが連続することを防ぐことができる。
<第4実施形態>
以下、本発明に係る第4実施形態について説明する。上述した第3実施形態では、画像に対する提示用テンプレートおよび応答をテキストデータとして登録する例を示したが、第4実施形態ではこれを音声データとして保持する例を示す。
以下、本発明に係る第4実施形態について説明する。上述した第3実施形態では、画像に対する提示用テンプレートおよび応答をテキストデータとして登録する例を示したが、第4実施形態ではこれを音声データとして保持する例を示す。
●システム構成
図13は、第4実施形態に係る画像処理装置の構成を示すブロック図である。同図において、1301は画像データを表示する画像表示部、1302は提示用の音声データを出力する音声出力部、1303はスライドショーの開始や画像表示要求などのユーザによる操作を入力する操作入力部、である。また、1304は画像データの表示や音声データの再生タイミング、および画像データの配置を管理する再生管理部、1305は表示タイミングに合わせて画像データを選択する画像選択部、である。1306は、画像データに対応付けられた提示用テンプレートや応答の音声データを取り出し、提示用の音声データを作成するための音声編集部である。そして1307は、画像データとそれに対応付けられたテンプレートおよび応答の音声データを記憶する画像データベース(以下、画像DB)である。
図13は、第4実施形態に係る画像処理装置の構成を示すブロック図である。同図において、1301は画像データを表示する画像表示部、1302は提示用の音声データを出力する音声出力部、1303はスライドショーの開始や画像表示要求などのユーザによる操作を入力する操作入力部、である。また、1304は画像データの表示や音声データの再生タイミング、および画像データの配置を管理する再生管理部、1305は表示タイミングに合わせて画像データを選択する画像選択部、である。1306は、画像データに対応付けられた提示用テンプレートや応答の音声データを取り出し、提示用の音声データを作成するための音声編集部である。そして1307は、画像データとそれに対応付けられたテンプレートおよび応答の音声データを記憶する画像データベース(以下、画像DB)である。
●画像DB
第4実施形態では、画像DB1307は対応するテンプレートおよび応答を示す音声データを保持する。以下、この提示用テンプレートおよび応答データの例について説明する。
第4実施形態では、画像DB1307は対応するテンプレートおよび応答を示す音声データを保持する。以下、この提示用テンプレートおよび応答データの例について説明する。
ここで図27に、質問データの例を示す。同図に示すように第4実施形態における質問データは、上述した第3実施形態で例示した図26と同様の内容であるが、質問名に対する提示用テンプレートとして、テキストデータに加えて音声データも保持している。すなわち、各提示用テンプレートにおいて、テキストデータおよび音声データのいずれにも応答文の挿入箇所が設定されている。
この提示用テンプレートに対応した応答文も画像DBに保持する
。
。
なお、ここでは提示用テンプレートを音声データと応答挿入箇所指定からなるデータとして画像DB1307に保持する例を示した。第4実施形態はこの例に限らず、図26に示した質問データのような質問名と提示用テンプレートの対応表を画像DB1307に予め用意しておき、質問名を画像と対応付けて記憶しても良い。この場合すなわち、質問名から提示用テンプレートを検索するようにすれば良い。
●画像表示処理
以下、第4実施形態における一枚の画像表示要求に対する表示処理について、図14のフローチャートを用いて説明する。第4実施形態においても、スライドショー等、画像を連続して再生する際には、図14に示す再生処理を任意の時間をおいて繰り返せば良い。
以下、第4実施形態における一枚の画像表示要求に対する表示処理について、図14のフローチャートを用いて説明する。第4実施形態においても、スライドショー等、画像を連続して再生する際には、図14に示す再生処理を任意の時間をおいて繰り返せば良い。
まずステップS1401において、表示すべき画像データを操作入力部1303を介して選択する。そしてステップS1402において画像選択部1305が、該選択された画像データを画像DB1307から検索し、該画像データに対応する提示用テンプレートが登録されているか否かをチェックする。テンプレートが無い場合にはステップS1408へ進み、画像表示部1301に対して画像データのみを表示して処理を終了する。
一方、画像DB1307に提示用テンプレートが登録されている場合にはステップS1403へ進み、音声編集部1306が画像DB1307より、提示用テンプレートのテキストデータを取得する。そしてステップS1404において、該テンプレートに対する応答の音声データが画像DB1307に登録されているか否かをチェックする。登録されていない場合にはステップS1408へ進み、画像表示部1301に対して画像データのみを表示して処理を終了する。すなわち第4実施形態においても、画像データに対する提示用テンプレートがあるにも関わらず応答の音声データが無い場合には、提示用テンプレートに関する音声出力は行われない。
一方、画像DB1307に応答の音声データが登録されている場合にはステップS1405へ進み、音声編集部1306が、応答内容としての音声データを画像DB1307から取得する。そしてステップS1406で音声編集部1306が、提示用テンプレートの音声データに予め設定されている応答挿入箇所に対して、応答の音声データを挿入することによって、提示用の音声データを作成する。
そしてステップS1407で再生管理部1304の制御に基づいて、音声出力部1302による該提示用の音声データの出力を開始し、同時にステップS1408で画像表示部1301に画像データを表示して、処理を終了する。すなわち第4実施形態では、音声出力の終了を待たずに、画像表示を行う。言い換えれば、画像表示と同時に音声出力を行う。
●画像表示例
以下、第4実施形態における画像表示例を示す。図15は、第4実施形態における処理対象となる画像データと、該画像データに対する提示用テンプレートと応答の音声データが登録されている例を示す。そして図16に、図15の画像データについての表示例を示す。図16によれば、図15に示す画像データに対する質問内容と、該質問に対する応答内容としての音声データを合成して、画像表示と同時に音声出力している。図16においては、音声データである旨を表現する吹き出し内において、「この日は」「です」と「メイの誕生日」という音声が、それぞれ異なる話者の発声によるものである旨を示すために、文字フォントが異なっている。これは、第4実施形態における提示用テンプレートは音声メモ(応答)を促すためのものであり、撮影時に録音される音声メモとは異なる音声であることが予想されるためである。
以下、第4実施形態における画像表示例を示す。図15は、第4実施形態における処理対象となる画像データと、該画像データに対する提示用テンプレートと応答の音声データが登録されている例を示す。そして図16に、図15の画像データについての表示例を示す。図16によれば、図15に示す画像データに対する質問内容と、該質問に対する応答内容としての音声データを合成して、画像表示と同時に音声出力している。図16においては、音声データである旨を表現する吹き出し内において、「この日は」「です」と「メイの誕生日」という音声が、それぞれ異なる話者の発声によるものである旨を示すために、文字フォントが異なっている。これは、第4実施形態における提示用テンプレートは音声メモ(応答)を促すためのものであり、撮影時に録音される音声メモとは異なる音声であることが予想されるためである。
以上説明したように第4実施形態によれば、上述した第3実施形態と同様に各画像に対してそれぞれ異なる説明文を付与するが、これを音声データとして付与、再生することにより、画像再生時の臨場感が増す。
なお第4実施形態では、提示用テンプレートおよび応答内容を音声データとして記録する例を示したが、これらの全体もしくは一部をテキストデータとして記憶しておいても良い。この場合例えば、再生時に該テキストデータ部分を音声合成して音声データに変換し、記録されている音声データと接続して再生すれば良い。
<第5実施形態>
以下、本発明に係る第5実施形態について説明する。上述した第3実施形態では、画像に対する質問として提示用テンプレートを利用する例を示したが、第5実施形態ではこの提示用テンプレート内に応答文以外のパラメータを設け、該パラメータの内容を画像データに自動付与されたメタデータに依存する例を示す。
以下、本発明に係る第5実施形態について説明する。上述した第3実施形態では、画像に対する質問として提示用テンプレートを利用する例を示したが、第5実施形態ではこの提示用テンプレート内に応答文以外のパラメータを設け、該パラメータの内容を画像データに自動付与されたメタデータに依存する例を示す。
●システム構成
図17は、第5実施形態に係る画像処理装置の構成を示すブロック図である。同図において、1701は画像データやテキストデータを表示する画像表示部、1702はスライドショーの開始や画像表示要求などのユーザによる操作を入力する操作入力部、である。1703は画像データやテキストデータの表示のタイミングや配置を管理する表示管理部、1704は表示タイミングに合わせて画像データを選択する画像選択部、である。また、1705は画像データに対応付けられた提示用テンプレートや応答のテキストデータを取り出し、提示用テンプレート内のパラメータを用いて提示用のテキストデータを作成するためのテキスト編集部である。そして1706は、画像データとそれに対応付けられた提示用テンプレートおよび応答のテキストデータを記憶する画像データベース(以下、画像DB)である。なお、画像データには例えばその撮影時刻等、付随情報を示すメタデータが予め付与されている。そして1707は、提示用テンプレート内に記述されたパラメータの内容を、対応する画像データのメタデータから取得するパラメータ取得部である。
図17は、第5実施形態に係る画像処理装置の構成を示すブロック図である。同図において、1701は画像データやテキストデータを表示する画像表示部、1702はスライドショーの開始や画像表示要求などのユーザによる操作を入力する操作入力部、である。1703は画像データやテキストデータの表示のタイミングや配置を管理する表示管理部、1704は表示タイミングに合わせて画像データを選択する画像選択部、である。また、1705は画像データに対応付けられた提示用テンプレートや応答のテキストデータを取り出し、提示用テンプレート内のパラメータを用いて提示用のテキストデータを作成するためのテキスト編集部である。そして1706は、画像データとそれに対応付けられた提示用テンプレートおよび応答のテキストデータを記憶する画像データベース(以下、画像DB)である。なお、画像データには例えばその撮影時刻等、付随情報を示すメタデータが予め付与されている。そして1707は、提示用テンプレート内に記述されたパラメータの内容を、対応する画像データのメタデータから取得するパラメータ取得部である。
●画像DB
第5実施形態では、画像DB1706は画像データに対応する提示用テンプレートおよびその応答文を示すテキストデータ、画像データに関するパラメータを保持する。以下、この提示用テンプレートおよび応答文の例について説明する。
第5実施形態では、画像DB1706は画像データに対応する提示用テンプレートおよびその応答文を示すテキストデータ、画像データに関するパラメータを保持する。以下、この提示用テンプレートおよび応答文の例について説明する。
ここで図28に、質問データの例を示す。同図に示すように質問データにおいては、所定の複数の質問名に対し、それぞれに対応する提示用テンプレートを示すテキストデータが保持されている。ここで提示用テンプレートは、質問内容の提示形式と、該提示形式における応答データ(ここでは応答文)の挿入箇所と、該応答データ以外のパラメータ文字列の挿入箇所を規定している。第5実施形態におけるパラメータ文字列としては、<撮影日>や<撮影時刻>、<撮影場所>、<被写体>、<最終撮影場所>等があり、これらの内容を撮影時に画像データに付与されたメタデータより取得する。
なお、第5実施形態において、メタデータとして設定される<撮影日>や<撮影時刻>については、例えば撮像装置のタイマより取得される。また、<撮影場所>、<最終撮影場所>については、例えば撮像装置にGPS等の位置同定手段を設けることにより、取得可能である。このような撮影場所情報については、その経緯度を地図上の地名に置き換えることも有効である。また<被写体>については、例えば撮像装置に画像認識機能を設けることにより、被写体の種別や人名を同定して取得することが可能である。このように、提示用テンプレートに記述されるパラメータとしては、画像データにメタデータとして付与されうる情報であれば、どのような情報であっても使用可能である。
なお、一般に撮影時刻としては「年:月:日:時:分」の構成をとるが、この例では、<撮影日>を「月日」、<撮影時>を「朝/昼/午後/夜」等の表現に変換する手段を別途備えているものとする。
画像DB1706は、質問データに対応した応答データも保持する。
●画像表示処理
以下、第5実施形態における画像表示処理について、図18のフローチャートを用いて説明する。なおここでは、一枚の画像の表示要求がなされた場合についての処理を示す。スライドショー等、画像を連続して再生する際には、図18に示す再生処理を任意の時間をおいて繰り返せば良い。
●画像表示処理
以下、第5実施形態における画像表示処理について、図18のフローチャートを用いて説明する。なおここでは、一枚の画像の表示要求がなされた場合についての処理を示す。スライドショー等、画像を連続して再生する際には、図18に示す再生処理を任意の時間をおいて繰り返せば良い。
まずステップS1801において、表示すべき画像データを操作入力部1702を介して選択する。そしてステップS1802において画像選択部1704が、該選択された画像データを画像DB1706から検索し、該画像データに対応する提示用テンプレートが登録されているか否かをチェックする。登録されていない場合にはステップS1809へ進み、画像表示部1701に対して画像データのみを表示して処理を終了する。
一方、画像DB1706に提示用テンプレートが登録されている場合にはステップS1803へ進み、テキスト編集部1705が画像DB1706より、提示用テンプレートであるテキストデータを取得する。そしてステップS1804において、該提示用テンプレートに対する応答文が画像DB1706に登録されているか否かをチェックする。無い場合にはステップS1809へ進み、画像表示部1701に対して画像データのみを表示して処理を終了する。すなわち第5実施形態においても、画像データに対する提示用テンプレートがあるにも関わらず応答文が無い場合には、提示用のテキストデータの表示出力は行われない。
一方、画像DB1706に応答文が登録されている場合にはステップS1805へ進み、テキスト編集部1705が、応答内容としてのテキストデータを画像DB1706から取得する。そしてステップS1806でパラメータ取得部1709が、提示用テンプレート内のパラメータに適合する値(文字列)を、画像データに付与されているメタデータから取得する。
そしてステップS1807でテキスト編集部1705が、提示用テンプレートに応答のテキストデータおよびパラメータを挿入して提示用のテキストデータを作成する。そしてステップS1808で表示管理部1703が、該提示用のテキストデータを画像データに対して配置することによって合成し、ステップS1809で該合成された画像データを画像表示部1701に表示して、処理を終了する。
●画像表示例
以下、第5実施形態における画像表示例を示す。図19は、第5実施形態における処理対象となる画像データと、該画像データに対して「<撮影日>は<応答>です。」という提示用テンプレートが設定され、それに対して「メイの誕生日」という応答がなされた例を示す。そしてこの場合、画像データの撮影日は「5月3日」であり、この日付情報は撮影時に撮像装置のタイマより取得され、メタデータとして自動的に付与されたものである。
以下、第5実施形態における画像表示例を示す。図19は、第5実施形態における処理対象となる画像データと、該画像データに対して「<撮影日>は<応答>です。」という提示用テンプレートが設定され、それに対して「メイの誕生日」という応答がなされた例を示す。そしてこの場合、画像データの撮影日は「5月3日」であり、この日付情報は撮影時に撮像装置のタイマより取得され、メタデータとして自動的に付与されたものである。
そして図20に、図19の画像データについての表示例を示す。図20によれば、図19に示す提示用テンプレートに対し、まず、応答内容としてのテキストデータが<応答>の挿入箇所に挿入されている。そしてさらに、パラメータとしての<撮影日>の挿入箇所に、メタデータより取得した撮影日情報を挿入することによって、提示用のテキストデータが作成され、これを画像左上に配置して表示している。
以上説明したように第5実施形態によれば、質問に応じたテンプレートの中にメタデータに依存するパラメータを用意しておくことにより、例えば写真撮影時等、画像データの生成時の状況について提供できる情報量を増やすことが可能となる。
<第6実施形態>
以下、本発明に係る第6実施形態について説明する。上述した第5実施形態では、画像に対するパラメータを含んだ提示用テンプレートおよび応答をテキストデータとして登録する例を示したが、第6実施形態では応答については音声データとして登録する例を示す。
以下、本発明に係る第6実施形態について説明する。上述した第5実施形態では、画像に対するパラメータを含んだ提示用テンプレートおよび応答をテキストデータとして登録する例を示したが、第6実施形態では応答については音声データとして登録する例を示す。
●システム構成
図21は、第6実施形態に係る画像処理装置の構成を示すブロック図である。同図において、2101は画像データを表示する画像表示部、2102は音声データを出力する音声出力部、2103はスライドショーの開始や画像表示要求などのユーザによる操作を入力する操作入力部、である。また、2104は画像データの表示や音声データの再生タイミング、および画像データの配置を管理する再生管理部、2105は表示タイミングに合わせて画像データを選択する画像選択部、である。
図21は、第6実施形態に係る画像処理装置の構成を示すブロック図である。同図において、2101は画像データを表示する画像表示部、2102は音声データを出力する音声出力部、2103はスライドショーの開始や画像表示要求などのユーザによる操作を入力する操作入力部、である。また、2104は画像データの表示や音声データの再生タイミング、および画像データの配置を管理する再生管理部、2105は表示タイミングに合わせて画像データを選択する画像選択部、である。
2106は、画像データに対応付けられた応答の音声データを取り出し、音声合成部2111で作成された仮の提示用音声データと合成することによって提示用の音声データを作成するための音声編集部である。そして2107は、画像データとそれに対応付けられた提示用テンプレートおよび応答の音声データを記憶する画像データベース(以下、画像DB)である。なお、画像データには例えばその撮影時刻等、付随情報を示すメタデータが予め付与されている。
また2108は、テキスト編集部2110で作成された仮の提示用テキストデータに対して読み付けを行って、仮の提示用音声データを作成する音声合成部である。2109は、提示用テンプレート内に記述されたパラメータの内容を、対応する画像データのメタデータから取得するパラメータ取得部である。そして2110は、提示用テンプレートのテキストデータにパラメータ取得部2109で取得されたパラメータを挿入して、仮の提示用テキストデータを作成するテキスト編集部である。
●画像DB
第6実施形態では、画像DB2107は対応するテンプレートおよび応答を示す音声データを保持する。以下、この提示用テンプレートおよび応答文の例について説明する。なお、第6実施形態の質問データは、上述した第5実施形態で例示した図28と同様である。
第6実施形態では、画像DB2107は対応するテンプレートおよび応答を示す音声データを保持する。以下、この提示用テンプレートおよび応答文の例について説明する。なお、第6実施形態の質問データは、上述した第5実施形態で例示した図28と同様である。
画像DB2107は、質問データに対応した応答データも保持する。
●画像表示処理
以下、第6実施形態における一枚の画像表示要求に対する表示処理について、図22のフローチャートを用いて説明する。第6実施形態においても、スライドショー等、画像を連続して再生する際には、図22に示す再生処理を任意の時間をおいて繰り返せば良い。
以下、第6実施形態における一枚の画像表示要求に対する表示処理について、図22のフローチャートを用いて説明する。第6実施形態においても、スライドショー等、画像を連続して再生する際には、図22に示す再生処理を任意の時間をおいて繰り返せば良い。
まずステップS2201において、表示すべき画像データを操作入力部2103を介して選択する。そしてステップS2202において画像選択部2105が、該選択された画像データを画像DB2107から検索し、該画像データに対応する提示用テンプレートが登録されているか否かをチェックする。テンプレートが無い場合にはステップS2211へ進み、画像表示部2101に対して画像データのみを表示して処理を終了する。
一方、画像DB2107に提示用テンプレートが登録されている場合にはステップS2203へ進み、テキスト編集部2113が画像DB2107より、提示用テンプレートのテキストデータを取得する。そしてステップS2204において、該テンプレートに対する応答の音声データが画像DB2107に登録されているか否かをチェックする。登録されていない場合にはステップS2211へ進み、画像表示部2101に対して画像データのみを表示して処理を終了する。すなわち第6実施形態においても、画像データに対する提示用テンプレートがあるにも関わらず応答の音声データが無い場合には、提示用テンプレートに関する音声出力は行われない。
一方、画像DB2107に応答の音声データが登録されている場合にはステップS2205へ進み、音声編集部2106が、応答内容としての音声データを画像DB2107から取得する。次にステップS2206でパラメータ取得部2109が、提示用テンプレート内のパラメータに適合する値(文字列)を、画像データに付与されているメタデータから取得する。そしてステップS2207でテキスト編集部2110が、提示用テンプレートのテキストデータにパラメータの文字列を挿入して、仮の提示用テキストデータを作成する。そしてステップS2208で音声合成部2108が、仮の提示用テキストデータに対する音声合成(読み付け)を行うことによって、仮の提示用音声データを作成する。
そしてステップS2209で音声編集部2106が、音声合成部2108で作成された仮の提示用音声データに対し、提示用テンプレートで設定されていた応答挿入箇所に応答の音声データを挿入して、提示用の音声データを作成する。
そしてステップS2210で、再生管理部2104の制御に基づいて、音声出力部2102による該提示用の音声データの出力を開始し、同時にステップS2211で画像表示部2101に画像データを表示して、処理を終了する。すなわち第6実施形態では、音声出力の終了を待たずに、画像表示を行う。言い換えれば、画像表示と同時に音声出力を行う。
●画像表示例
以下、第6実施形態における画像表示例を示す。
以下、第6実施形態における画像表示例を示す。
まず、提示用テンプレートにパラメータとして撮影日が設定されている例について、図23,図24を用いて説明する。
図23は、第6実施形態における処理対象となる画像データと、該画像データに対して「<撮影日>は<応答>です。」という提示用テンプレートが保持され、それに対して音声による応答(「メイの誕生日」)が保持されている例を示す。この場合、<撮影日>が提示用テンプレートにおけるパラメータであり、このパラメータは、撮影時に撮像装置のタイマより取得され、メタデータとして画像データに自動的に付与されたものであり、この例では画像データの撮影日は「5月3日」である。
そして図24に、図23の画像データについての表示例を示す。図24によれば、図23に示す提示用テンプレートのテキストデータに対し、パラメータとしての<撮影日>の挿入箇所に、メタデータより取得した撮影日情報のテキストデータが挿入される。そしてこれが音声変換されることにより、仮の提示用音声データが作成される。そしてさらに、仮の提示用音声データに対し、応答内容としての音声データが<応答>の挿入箇所に挿入されることにより、提示用の音声データが作成され、画像表示と同時に音声出力される。
次に、提示用テンプレートにパラメータとして、GPS機能等によって同定される撮影場所が設定されている例について、図29,図30を用いて説明する。
図29は、第5実施形態において処理対象となる画像データと、該画像データに対して「ここは<撮影場所>の<応答>」という提示用テンプレートが設定され、それに対して音声による応答(「おじいちゃんち」)がなされた例を示す。なお、画像データの撮影日は「5月3日」であり、GPS機能によって撮影場所が「新潟県」と同定されている。
そして図30に、図29の画像データについての表示例を示す。図30によれば、図29に示す提示用テンプレートのテキストデータに対し、パラメータとしての<撮影場所>の挿入箇所に、メタデータより取得した撮影場所応報のテキストデータが挿入される。そしてこれが音声変換されることにより、仮の提示用音声データが作成される。そしてさらに、仮の提示用音声データに対し、応答内容としての音声データが<応答>の挿入箇所に挿入されることにより、提示用の音声データが作成され、画像表示と同時に音声出力される。このように撮影場所をパラメータとして用いることにより、画像再生時に作成される提示用の音声データでは、「新潟県」という普遍的な地名と、「おじいちゃんち」という個人的な場所の言及の両方の情報が提示される。
なお図24および図30においては、音声データである旨を表現する吹き出し内において、異なる文字フォントが混在しているが、これは、それぞれが異なる話者の発声による旨を示すためである。
以上説明したように第6実施形態によれば、上述した第5実施形態で得られる効果に加えて、音声によるメモ再生を行うことにより、画像再生時の臨場感が増す。
なお第6実施形態では、応答音声挿入位置およびパラメータ記述を含んだ提示用テンプレートをテキストデータとして記録する例を示したが、該提示用テンプレートにおける応答音声挿入位置およびパラメータ記述以外の部分を音声データとして記録しても良い。この場合例えば、再生時にパラメータの部分のみを音声合成によって音声データに変換し、記録されている音声データと接続しても良い。また、応答内容をテキストデータとして記憶しておき、これを音声データに変換してもよい。
<変形例>
なお、本発明は上述した各実施形態に限定されるものではなく、その変形例もまた、本発明の範疇である。以下、変形例を挙げる。
なお、本発明は上述した各実施形態に限定されるものではなく、その変形例もまた、本発明の範疇である。以下、変形例を挙げる。
上述した第2,4,6実施形態においては、質問音声もしくは提示用テンプレートの音声データと応答音声データを直接接続する例を示したが、これを直接接続せずに、間に一定時間の沈黙もしくは何らかの音を挿入するようにしても良い。
また、上述した第4,6実施形態においては、提示用テンプレートから作成されたテキストデータに対して音声合成を施すことによって合成音を作成する例を示した。しかしながら、応答音声挿入箇所で別々のテキストデータとして合成音を作成した場合、接続する箇所のイントネーションが不自然になる可能性がある。そこで、応答音声挿入箇所にダミーの文字列を挿入した文字列から音声データを作成し、ダミーの音声データ部分を実際の応答音声と入れ替えるようにしてもよい。
また、上述した第1,3,5実施形態においては、画像再生時に文字表示を行う例を示したが、文字表示と同時に表示文字列を音声合成して読み上げるようにしても良い。
また、上述した第1,2実施形態においては、質問内容が登録されていない場合には応答内容の提示は行わない例を示したが、質問内容がない場合であっても応答内容のみを提示するようにしても良い。
また、上述した第3,4,5,6実施形態においては、提示用テンプレートが登録されていない場合には応答内容の提示は行わない例を示したが、提示用テンプレートがない場合であっても応答内容のみを提示するようにしても良い。
また、上述した第2,4,6実施形態においては、音声出力を開始してその終了を待たずに表示処理を終了する例を示した。しかしながら、スライドショー表示を行う場合にはこの限りでなく、出力する音声の所要時間を計算し、一枚の画像表示に割り当てられている時間よりも音声出力が長くなる場合には、音声出力の所要時間に、画像表示時間を合わせると良い。例えば、音声出力終了まで、画像表示を終了しないようにすることや、合成音声の速度を速めること、間に挿入する沈黙や音を省略すること、質問内容や提示用テンプレートの適用を除外すること、等が考えられる。
<他の実施形態>
本発明は例えば、システム、装置、方法、プログラム若しくは記憶媒体(記録媒体)等としての実施態様をとることが可能である。具体的には、複数の機器(例えば、ホストコンピュータ、インタフェース機器、スキャナ、webアプリケーション等)から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
本発明は例えば、システム、装置、方法、プログラム若しくは記憶媒体(記録媒体)等としての実施態様をとることが可能である。具体的には、複数の機器(例えば、ホストコンピュータ、インタフェース機器、スキャナ、webアプリケーション等)から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムを、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される。なお、この場合のプログラムとは、実施形態において図に示したフローチャートに対応したコンピュータ可読のプログラムである。
従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等の形態であっても良い。
プログラムを供給するための記録媒体としては、以下に示す媒体がある。例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD-ROM、CD-R、CD-RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD-ROM,DVD-R)などである。
プログラムの供給方法としては、以下に示す方法も可能である。すなわち、クライアントコンピュータのブラウザからインターネットのホームページに接続し、そこから本発明のコンピュータプログラムそのもの(又は圧縮され自動インストール機能を含むファイル)をハードディスク等の記録媒体にダウンロードする。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明に含まれるものである。
また、本発明のプログラムを暗号化してCD-ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせることも可能である。すなわち該ユーザは、その鍵情報を使用することによって暗号化されたプログラムを実行し、コンピュータにインストールさせることができる。
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される。さらに、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、実行されることによっても、前述した実施形態の機能が実現される。すなわち、該プログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行うことが可能である。
Claims (17)
- 静止画像の画像データと、該画像データに関する質問内容を示す質問データと、該質問内容に対する応答内容を示す応答データと、を保持する保持手段と、
前記画像データを表示する表示手段と、
前記表示手段で前記画像データが表示される際に、該画像データに対する前記質問データおよび前記応答データを出力する出力手段と、
を有することを特徴とする画像処理装置。 - 前記質問データおよび前記応答データはテキストデータであり、
前記出力手段は、前記表示手段に表示される前記画像データに対し、前記質問データおよび前記応答データを文字列として配置して表示出力する
ことを特徴とする請求項1に記載の画像処理装置。 - 前記質問データおよび前記応答データは音声データであり、
前記出力手段は、前記質問データ、前記応答データの順に音声出力することを特徴とする請求項1に記載の画像処理装置。 - さらに、テキストデータに音声合成を施して音声データを生成する音声合成手段を有し、
前記質問データおよび前記応答データはテキストデータと音声データが混在可能であり、
前記出力手段は、前記質問データおよび前記応答データについて、音声データ部分は音声出力し、テキストデータ部分は前記音声合成手段で音声データに変換して音声出力する
ことを特徴とする請求項1に記載の画像処理装置。 - 前記質問データは、質問内容の提示形式と、該提示形式における前記応答データの挿入箇所を規定する提示用テンプレートであり、
前記出力手段は、前記提示用テンプレートに前記応答データを挿入した提示用のデータを出力する
ことを特徴とする請求項1に記載の画像処理装置。 - 前記提示用テンプレートは、前記応答データと、該応答データ以外のパラメータの挿入箇所を規定し、
前記出力手段は、前記画像データに付与されたメタデータから前記パラメータの内容を取得して、前記提示用テンプレートに前記応答データおよび前記パラメータを挿入した提示用のデータを出力する
ことを特徴とする請求項5に記載の画像処理装置。 - 前記提示用テンプレートおよび前記応答データはテキストデータを含み、
前記出力手段は、前記表示手段に表示される前記画像データに対し、前記提示用のデータを文字列として配置して表示出力することを特徴とする請求項5または6に記載の画像処理装置。 - 前記提示用テンプレートおよび前記応答データは音声データを含み、
前記出力手段は、前記提示用のデータを音声出力する
ことを特徴とする請求項5または6に記載の画像処理装置。 - さらに、テキストデータに音声合成を施して音声データを生成する音声合成手段を有し、
前記提示用テンプレートおよび前記応答データはテキストデータと音声データが混在可能であり、
前記出力手段は、前記提示用テンプレートおよび前記応答データについて、音声データ部分は音声出力し、テキストデータ部分は前記音声合成手段で音声データに変換して音声出力する
ことを特徴とする請求項5または6に記載の画像処理装置。 - さらに、前記画像データを入力する入力手段と、
前記画像データに対する前記質問データおよび前記応答データを設定する設定手段と、を有し、
前記保持手段は、前記画像データを、前記設定手段で設定された前記質問データおよび前記応答データと対応付けて保持する
ことを特徴とする請求項1ないし9のいずれか1項に記載の画像処理装置。 - 前記設定手段は、前記質問データの質問内容に対するユーザの応答に基づいて、前記応答データを設定することを特徴とする請求項10に記載の画像処理装置。
- 静止画像の画像データと、該画像データに関する質問内容を示す質問データと、該質問内容に対する応答内容を示す応答データと、を保持手段に保持した画像処理装置における表示制御方法であって、
前記画像データを表示する際に、該画像データに対する前記質問データおよび前記応答データも提示することを特徴とする表示制御方法。 - 前記質問データおよび前記応答データはテキストデータであり、
前記画像データを表示する際に、該画像データに対し、前記質問データおよび前記応答データを文字列として配置して表示する
ことを特徴とする請求項12に記載の表示制御方法。 - 前記質問データおよび前記応答データは音声データであり、
前記画像データを表示する際に、前記質問データ、前記応答データの順に音声出力することを特徴とする請求項12に記載の表示制御方法。 - 前記質問データは、質問内容の提示形式と、該提示形式における前記応答データの挿入箇所を規定する提示用テンプレートであり、
前記画像データを表示する際に、前記提示用テンプレートに前記応答データを挿入した提示用のデータを提示する
ことを特徴とする請求項12に記載の表示制御方法。 - コンピュータを請求項1乃至11のいずれか1項に記載の画像処理装置として機能させるためのプログラム。
- 請求項16に記載のプログラムを記憶したコンピュータ可読な記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008195306A JP2010034880A (ja) | 2008-07-29 | 2008-07-29 | 画像処理装置および表示制御方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008195306A JP2010034880A (ja) | 2008-07-29 | 2008-07-29 | 画像処理装置および表示制御方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010034880A true JP2010034880A (ja) | 2010-02-12 |
Family
ID=41738861
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008195306A Withdrawn JP2010034880A (ja) | 2008-07-29 | 2008-07-29 | 画像処理装置および表示制御方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010034880A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220229830A1 (en) * | 2015-12-08 | 2022-07-21 | Rovi Guides, Inc. | Systems and methods for generating smart responses for natural language queries |
-
2008
- 2008-07-29 JP JP2008195306A patent/JP2010034880A/ja not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220229830A1 (en) * | 2015-12-08 | 2022-07-21 | Rovi Guides, Inc. | Systems and methods for generating smart responses for natural language queries |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI287399B (en) | Information processing apparatus and method and recording medium storing program therefor | |
US8677228B2 (en) | Recording medium for creating electronic album | |
JP2006268800A (ja) | 議事録作成支援装置、議事録作成支援方法及びプログラム | |
JP2005341015A (ja) | 議事録作成支援機能を有するテレビ会議システム | |
KR20040077748A (ko) | 화상 배신 장치 | |
JP2003330777A (ja) | データファイル再生装置、記録メディア、データファイル記録装置及びデータファイル記録プログラム | |
KR101108003B1 (ko) | 사용자 단어검색 이력을 통한 학습컨텐츠 제공 시스템 | |
CN104065908A (zh) | 用于创建和再现生动图片文件的设备和方法 | |
CN101520806B (zh) | 内容编辑装置及其方法 | |
JP4314201B2 (ja) | 歌詞と音楽との同期データ作成方法、装置、プログラムおよびプログラムを記録する記録媒体 | |
JPH11175533A (ja) | 画像検索装置 | |
Kruge et al. | MadPad: A Crowdsourcing System for Audiovisual Sampling. | |
JP2010034880A (ja) | 画像処理装置および表示制御方法 | |
JP2007271817A (ja) | ルビ表示機能付カラオケシステム | |
JP2006050469A (ja) | コンテンツ生成装置、コンテンツ生成方法、プログラムおよび記録媒体 | |
JP2006276550A (ja) | カラオケ演奏装置 | |
WO2019039192A1 (ja) | 画像再生装置、情報処理装置、画像再生方法および画像データのデータ構造 | |
JP2007258934A (ja) | 情報処理装置及び情報処理方法 | |
JP7451999B2 (ja) | 録画装置、動画システム、録画方法、及びプログラム | |
JP7133367B2 (ja) | 動画編集装置、動画編集方法、及び動画編集プログラム | |
JP2006135895A (ja) | 画像記録再生システム及び電子アルバム作成システム | |
JP2010048959A (ja) | 音声出力システム及び車載装置 | |
JP2004234372A (ja) | 情報提供システム、情報編集装置、情報提供装置、コンテンツ、記録媒体、および携帯型情報端末 | |
JP4189653B2 (ja) | 画像記録再生方法および画像記録再生装置 | |
KR102173082B1 (ko) | 어학학습 콘텐츠 제공장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20111004 |