本発明は、デジタルカメラのディスプレイ等に表示される画像の表示に連動して、この画像に相当する画像データに、音情報を付与する技術に関するものである。
近年の情報のデジタル化に伴い、デジタル化された情報が増加しており、いかにこれらの情報を管理するかが重要である。例えばデジタルカメラで撮影された画像をPCで保管する上で、大量に撮影した画像データをいかに分類や検索するかが重要である。この分類、検索を容易にする一般的な方法として、上記画像データにメタデータを付与し、付与したメタデータに基づいて、後に分類や検索をすることが知られている。メタデータを付与する方法としては、撮影日時、カメラ名、撮影条件をメタデータとして上記画像データに自動的に付与することが広く行なわれている。
しかし、画像データに付与したいメタデータは多岐に渡っている。よって、デジタルカメラなどが、ユーザによる情報入力を伴わずに例えば撮影対象人物、場所、イベント情報などをメタデータとして付与することは難しい。したがって、GUIなどを用いてメタデータの候補を表示してユーザにメタデータを選択させたり、メタデータに相当する音情報を録音したりする方法が用いられることもある。
画像データに付与する音情報を録音する、いわゆる音声メモ機能は、デジタルカメラに広く用いられている。ユーザは画像データに関する情報を自分の声で録音したり、また画像データに関する環境音を録音したりする。さらに、録音した音声メモを音声認識してテキストのメタデータに変換する用途も考えられる。
しかし、必要に応じて毎回、音声メモ機能をシステムメニューから起動することは手間がかかる。そこでユーザに手間をかけることなく、音声メモを簡単に付与する機能が望まれる。このような背景において幾つかの文献が知られている。例えば、特許文献1では、音声記録モードでシャッターを押下すると、押下に応答して音声を取得している。また、特許文献2では、シャッターの半押しもしくは押下からシャッターを離すまでの間、音声を取得している。
特開2002−057930号公報
特開2003−069925号公報
しかしながら、被写体に集中してシャッターを押下する時に、同時に音声メモを付与することはユーザの負荷が大きい。むしろユーザにとっては、画像データに関連付ける音声メモはその画像データを視覚的に確認する段階で付与することが望ましいと考えられる。
また、特許文献1、特許文献2共に、シャッター動作に連動して音声メモを取り込むので、ユーザが音声メモを付与することをしない場合には無駄な音声ファイルがメモリに保存されることになってしまう。
本発明は上記従来例に鑑みて成されたものであり、デジタルカメラのディスプレイ等に表示される画像の表示に連動して効率良く音情報を取得し、かつ得られた音情報をこの画像に対応する画像データに付与することを主な目的とする。
上記課題を解決するために、本発明に係る情報処理装置は、例えば、画像データに関連付けて音情報を付与する情報処理装置であって、前記画像データが表す画像を表示手段に表示させる表示制御手段と、前記表示手段による前記画像の表示中に音情報を取得する取得手段と、前記取得手段で取得した前記音情報に音声が含まれるか否かを検出する検出手段と、前記音声検出手段が音声を検出した場合に前記音情報を前記画像データに関連付けて記憶する記憶手段とを有することを特徴とする。
本発明によれば、デジタルカメラのディスプレイ等に表示される画像の表示に連動して効率良く音情報を取得し、かつ得られた音情報をこの画像に対応する画像データに付与することが可能となる。
以下、図面を参照して実施の形態を詳細に説明する。ただし、この実施の形態に記載されている構成要素はあくまでも例示であり、本発明の範囲をそれらのみに限定する趣旨のものではない。
図1に、実施例1における情報処理装置のハードウェア構成図を示す。図1において、101は中央処理装置(CPU)、102は制御メモリ(ROM)、103はメモリ(RAM)である。
104は液晶画面などの表示装置、105はマイクなどの音声入力装置、106はスピーカなどの音声出力装置である。
107はデータバスであり、上記各構成間における信号の授受を仲介する。上記各装置を1つの機器内に備えるものとして、例えばデジタルカメラなどが想定される。
したがって、図1には不図示の撮像装置(スキャナもしくはCCD等)も備えており、この撮像装置により撮影することで取得した画像(画像データ)を表示装置104に表示させる機能を備える。
また、上記撮像装置で取得された画像(画像データ)は、上記CPU101およびメモリ102に格納された圧縮符号化プログラムにより、JPEG、JPEG2000、JPEG−XR等の方式によって圧縮符号化される。
また、圧縮符号化された画像データ(1枚の写真に相当する符号化データ)は、後述する種々の方法で音声情報(音声メモ)と共に、メモリ103内に1つのファイルとして保存されることになる。
上述したように、本実施例の情報処理を実現するための制御プログラムやその制御プログラムで用いるデータは、ROM102に記録されている。
これらの制御プログラムや制御データは、CPU101の制御のもと、データバス107を通じて適宜RAM103に取り込まれ、CPU101によって実行される。即ち、本実施例を図1を用いて実行する際には、いわゆるソフトウェア処理が実行されることになる。
図2は本実施例における情報処理装置の機能構成図である。同図において、201は、表示装置104に撮像装置により取得した画像データに対応する画像(写真)を表示させる表示制御部である。
なおこの画像データは撮影直後に表示用に利用されると共に、圧縮符号化の対象としても用いられ、圧縮符号化された画像データは図2に示されないメモリ(図1におけるメモリ103)に保存される。
これら符号化画像データが、後述する種々の方法で音情報と共に、保存されることになる。202は、表示制御部201による表示に併せて音声入力装置105を介して音情報を取得する音情報取得部である。
203は、音情報取得部202が取得した音情報を入力として、音情報に含まれる音声(人間が意図的に発する意味のある音)を検出する音声検出部である。
204は、音情報を破棄する音情報破棄部である。205は、音情報を保存する音情報保存部である。
なお、この音情報保存部205は、図1のメモリ103を構成する一部または全部であると考えることができる。その場合には、上述した圧縮符号化された画像データも保存部205に格納すると考えて良い。
図3は、情報処理装置の処理フローである。図2、図3を用いて本実施形態における音情報の取得処理の流れを説明する。
まず、ステップS301において、表示制御部201が画像データの表示を開始する。ステップS302において、音情報取得部202は、画像データの表示開始に併せて音情報の取得を開始する。
この音情報には、例えば、音声メモとして上記情報処理装置のユーザ(人間)が発する音が含まれる。ステップS303では、画像データの表示中に取得した音情報を音声検出部203に入力し、音声検出部203が音声の有無を検出する。
音情報取得部はステップS304で画像データの表示が終了しているか否かを確認し、画像データの表示が終了していなければステップS303に戻り音情報を取得し続ける。
表示制御部201はステップS305で画像データを表示し、所定時間の経過あるいはユーザの操作などに基づいてステップS306で画像データの表示を終了する。
音情報取得部202は、ステップS307で音情報の取得を終了する。そしてステップS308において、ステップS303の音声検出で音声を含むことを検出したか否かを確認する。
もし音声を含んでいたことを確認すれば、ステップS309で音情報保存部205が、表示制御部201が表示した画像に対応する画像データ(JPEG、JPEG2000、JPEG−XRなどに変換されている画像データ)に音情報を関連付けて保存する。
この時、保存する音情報は、画像表示の開始から終了に併せて取得した音情報の全てでも構わないし、音声検出部203によって音声があることを判定された音声区間の音情報のみを保存しても構わない。
また、音情報に複数の音声区間が存在する場合には、それぞれの音声区間の音情報を繋げて一つの音情報ファイルにしても良いし、音声区間ごとに複数の音情報ファイルに分けて保存しても良い。
一方、もしステップS308で音声を含んでいないと確認すれば、ステップS310で音情報破棄部204が、音情報を破棄する。
ここで、音声検出部203が音情報から検出する音声は、人間が発する音声(語彙)である。この音声検出手段としては、例えば音情報のパワーに基づく手段やゼロクロス回数に基づく手段、ピッチ情報や周波数特性に基づく手段などの方法を適用できる。
また、関連付けの方法としては、例えば、画像データと音情報を拡張子だけ異なるファイル名(例えば「AAA.JPG」と「AAA.WAV」の組合せ)で保存しても良いし、画像データのヘッダの部分に音情報のファイル名をリンク情報として記述しても良い。
図4は、デジタルカメラ(図1に示す装置に相当)における画像(撮影された画像)を確認するための表示に、本発明を使用する場合の一例を示す。
同図において、401は画像を表示するディスプレイ(図1における表示装置104に相当)、402は音情報を入力するマイク(図1における音声入力装置105に相当)である。
デジタルカメラ等による撮影の後、撮影された画像をディスプレイ401に一定時間、確認のために表示する。いわゆるプレビューである。
なお、本実施例においては主に撮影直後の画像表示(いわゆるプレビュー)を想定して説明するが、本発明は撮影直後の表示に限らない。
例えば、過去に撮影し、かつメモリに保存している画像データを再生表示する場合(いわゆるスライドショー)に適用することもできる。このスライドショーへの適用については別に後述する。
本実施例において、表示の開始と終了までの期間(即ち撮影された1枚の画像がディスプレイに表示されている間)に、マイク402から自動的に音情報を取得する。
もし音情報に音声が含まれていれば、音声検出部203によって音声を検出し、音情報保存部205が音情報を画像に対応付けて音声メモとしてメモリに保存する。
一方、音情報に音声が含まれていなければ、音情報を不要な音声メモであると判断して音情報破棄部204が破棄する。この結果、画像表示時にユーザが発話した音情報(音声)だけが、音声メモとして画像に関連付けられて保存されることになる。
以上により、ユーザは特にボタン操作を行わずに、容易に画像(写真)データを確認しながら音声メモを付与することができる。
また、ユーザが意図的に発声した音声メモのみを自動的に画像データに関連付けて保存することができる。
上記実施例では、デジタルカメラによる撮影後に、撮影された画像を確認している最中に音声メモを付与する例を説明したが、本発明はこれに限られるものではない。
図5は、複写機においてスキャン文書を確認するときに音声メモを付与する例である。
同図は複写機の画面及びコントロールパネルを表している。
同図において、501は情報を表示するディスプレイである。502は音情報を入力するマイクである。ユーザが文書をスキャンすると、スキャンした文書(画像データ)をディスプレイ501に確認のために表示する。
またこの表示ともに上記文書(画像データ)は、複写機内部のハードディスクに保存される。ハードディスクに保存された画像データは、その後にコピー(複写機内部の印刷部により印刷)されたり、FAX(外部機器へ送信)されたりする。
本実施例においては、確認のための文書の表示開始に併せて、マイク502から自動的に音情報を取得する。
このとき、ユーザが音声を発していれば、音情報(音声)が音声メモとして上記文書(画像データ)に関連付けられてハードディスクに保存される。一方、ユーザが音声を発していなければ、音情報は破棄されるので、上記文書には音声メモは付与されない。
図6は、画像閲覧ソフトウエアにおいて、表示された画像(画像データ)に音声メモを付与する例である。同図において、601はコンピュータ、602はコンピュータ601上で動作する画像閲覧ソフトウエアに相当するウィンドウである。
603は、画像閲覧ソフトウエア(ウィンドウ)602の内部にあって画像をリスト表示する画像リストである。604は処理対象の画像を拡大して表示する画像表示エリアである。605はコンピュータ601に接続し、音情報を入力するマイクである。
ユーザが画像リスト603から画像を1つ選択したり、あるいは画像閲覧ソフトウエア602の機能である「複数の画像を、順次、切り換えながら表示する動作」を実行したりすると、画像表示エリア604には選択中の1つの画像が拡大された状態で表示される。
そして、各画像の表示開始にあわせて、マイク605から音情報の取得を開始する。また、自動もしくは手動でその画像の表示を終了すると、これに合わせて音情報の取得を終了する。
上述した「複数の画像を、順次、切り換えながら表示する動作」の場合は、ある画像の表示終了と共に次の画像が表示されるので、再度、音情報の取得を開始することになる。
また、各画像に対して取得した音情報は音声検出部203の判定に基づいて、音声が含まれていれば表示した画像に関連付けて音情報を保存する。音声が含まれていなければ、音情報を不要として破棄する。
上記実施例では、音声検出部203が音情報に人の音声が含まれているか否かを判定し、音声が含まれていれば音情報を画像データに関連付けて保存し、音声が含まれていなければ音情報を破棄している。言い換えれば、以上の実施例においては、「音声であるか否か」を考慮しているが、「いかなる意味の音声であるか」は考慮されていない。
よって本実施例では、以上の実施例の機能に加え、取得した音声が特定の認識候補の中に含まれている場合のみ、その音声を画像データに関連付けて保存し、特定の認識候補に含まれていない音声は破棄することとする。
図7に本実施例における情報処理装置の機能構成図を示す。同図において、201〜205は上記実施例と同等の機能である。701は、音情報を入力して音声認識を実行する音声認識部である。702は、音声認識結果を表示データに関連付けて保存する認識結果記憶部である。
音声検出部203は、画像(画像データ)の表示に併せて取得した音情報に音声が含まれているか否かを判定する。音声が含まれていないと判定された音情報は音情報破棄部204で破棄され、音声が含まれると判定された音情報は音声認識部701に入力される。
音声認識部701は音声を認識して、特定の認識候補のいずれかであるか、あるいはいずれの認識候補とも異なるため棄却するかを判定する。
もし、上記音声が特定の認識候補のいずれかであれば、その音声を含む音情報を、音情報保存部205に保存し、かつ、その音声認識の結果(テキストデータまたは識別フラグ)を認識結果記憶部702に保存する。
なお、他の実施例と考え方は同様であるので、これら保存部205に保存される音情報や記憶部702に保存される音声認識の結果は、当然、表示中の画像に相当する画像データに対応付けて保存される。
例えば、「AAA.JPG」に相当する画像データを表示し、上述した音声認識の結果として“レストラン”という単語を得た場合と考える。この場合には、単語“レストラン”をテキストデータ「AAA.TXT」(または識別フラグ)として画像データ「AAA.JPG」に関連付けて保存する。
また、「AAA.JPG」に相当する画像データを表示中に取得した音情報(単語“レストラン”を含む)を「AAA.WAV」として保存する。
なお、音声認識部701がいずれの認識候補も不一致と判定して認識結果として出力しなければ、音情報を音情報破棄部204で破棄する。
音声認識の手段としては、HMM、DPマッチング、ニューラルネットワークなどを適用できる。音声認識部が認識可能な認識候補は、装置があらかじめ用意した単語列でも良いし、ユーザが装置に登録した単語列でも良い。
以上により、ユーザは面倒な操作をすることなく、音声メモと共に音声メモの内容を表すテキストデータを、表示中の画像データに関連付けて付与することができる。また、ユーザが発声しない場合や、音声認識部が受け付けない言葉を発声した場合は、自動的に音声メモを破棄することができる。
上記実施例では、ステップS305のデータ表示からステップS306でデータ表示終了に遷移する方法として、所定時間の経過もしくはユーザの操作を挙げた。
これに対して本実施例においては、音声を検出した場合に一連の音声区間が終了するまでは、その音声が付与されるべきる画像データの表示を終了しない。
図8は本実施例における、画像データの表示及び音声取得の開始から終了までの処理の流れを表すフローチャートである。ステップS801で表示制御部201が画像データの表示を開始すると、ステップS802で音情報取得部202が音情報の取得を開始する。
ステップS803で、音情報取得部202が逐次音情報を取得し、音声検出部203が音情報に音声が含まれているか否かを検出する。
音情報の取得は、ステップS804でデータ表示の終了を確認するまで続ける。一方、表示制御部201は、ステップS805で画像データを表示し、ステップS806で、この表示の開始から一定時間経過したか否かを確認する。
なお、この一定時間とは、1枚の画像を表示(プレビュー)するのに十分であるとして予め設定されている時間に相当する。もし一定時間経過していなければ、ステップS805に戻って画像データの表示を継続し、一定時間経過すればステップS807に進む。
ステップS807では、上記一定時間が経過した時点で、音声検出部203に入力されている音情報が音声を含む音声区間であるか否かを確認する。
もし音声区間(すなわち一連の音声をユーザが発声中)であれば、ステップS805で画像データの表示を継続する。もし音声区間でなければ、ステップS808で画像データの表示を終了する。
表示制御部201が画像データの表示を終了すると、音情報取得部202がステップS804からステップS809に進み、音情報の取得を終了する。
図9は音情報に音声が含まれない場合の、画像データの表示時期を示すタイムチャートである。まず時刻901で表示制御部201が表示を開始すると、これに併せて音情報取得部202が音情報の取得を開始する。
取得した音情報は順次音声検出部203に入力し、音情報に音声を含むか否かを判定する。図9では音情報に音声が検出されないまま一定時間が経過する。
よってこの場合には、一定時間が経過した時刻902で、表示制御部201が表示を終了し、併せて音情報取得部202が音声取得を終了する。
図10は音情報に音声が含まれる場合の、画像データの表示時期を示すタイムチャートである。まず時刻1001で表示及び音情報の取得を開始する。時刻1002では音声検出部203が音声を検出する。
音声はユーザが発声している間、音声区間として検出され続ける。時刻1003では、図9と同様に一定時間が経過するが、まだ音声が検出されているので表示を終了しない(ステップS807のYesに相当)。
時刻1004で、音声が検出されなくなると、音声検出部203が音声区間の終了を表示制御部201に伝達する。(ステップS807のNoに相当)これに伴って表示制御部201が画像データの表示を終了し、また音声取得部202が音声の取得を終了する。
なお、もし音声区間の終了が、一定時間の経過時よりも先に起こったとしても、一定時間の経過をする時点までは該当する画像データの表示と音情報の取得は継続しても構わない。一方、音声区間が終了した時点で画像データの表示と音情報の取得を終了しても構わない。この場合には、複数の画像データに対して音声メモの添付作業を高速に行うことができるであろう。
以上のように、音声検出部203が検出する音声区間に応じて画像の表示及び音声取得の時間を延長することによって、ユーザが画像の表示時間、音声の録音時間を気にする必要なく、音声メモを適切に付与することができる。
上記実施例では、音声区間を検出している間、画像の表示および音情報の取得の時間を延長した。これに対し、装置の傾きを検出する傾きセンサの値に基づいて画像の表示および音情報取得の時間を延長しても良い。
ユーザが音情報入力のためにマイクを、あるいはデータ確認のために表示画面(ディスプレイ401)を、意図的に所望の方向に傾ける事がある。
そこで本実施例では、図4のデジタルカメラにデジタルカメラの傾き状態を検知できる傾きセンサを搭載することとする。
本実施例においても画像の表示開始と共に音情報の取得を開始する。ただし、ここで所定時間が経過した後も、傾きセンサが表示画面が所定の傾きに傾いていることを検知している間は、画像の表示を終了しない。
そして、傾きセンサが上記所定の傾きに傾いていることを検知しなくなった時点で表示を終了し、それに伴って音情報の取得を終了する。
上記実施例では、音声検出部203が音情報に含まれる音声を検出し、音声を含むか否かの判定に基づいて音声を画像データに関連付けて保存するか、あるいはこの音声を破棄するかを判定していた。
本実施例では、音情報破棄部204を備えず、音情報を破棄しない場合について説明する。
例えば、音声検出部203の判定に基づいて、音声を検出した場合には、音情報を表示中の画像(それに対応する画像データ)のヘッダ部に記述することによって画像と音情報を関連付けて保存する。
一方、音声を検出しなかった場合には、音情報を表示中の画像(画像に対応する画像データ)に関連付けずに保存するという実装にしても良い。すなわち表示中の画像と音声情報をリンクさせないように制御するだけでも、上記各実施例と同様の効果を得ることができるであろう。
なお、音声検出部203の判定の有無に応じて、画像データに関連付けて保存する音情報を変更しても良い。例えば、音情報に音声を含むことを検出した場合はその音声区間に相当する時間帯に入力した音情報のみ保存し、音声を検出しなかった場合には上記画像を表示している時間帯に取得した全ての音情報を保存するようにしても良い。
上記実施例では、音声検出部203が音情報に含まれる音声を検出し、音声を含むか否かの判定に基づいて音声を表示中の画像データに関連付けて保存するか、あるいは破棄するかを判定している。
これに対して本実施例では、音情報を複数の音の種類のいずれかに分類しておき、何れの種類の音情報が取得されたかに応じて音情報を保存するか破棄するかを判定する。すなわち、音声に限らず後に有用になり得る音情報であれば、それらを保存の対象にする。以下に一例を説明する。
図11に、本実施例における機能構成図を示す。同図において、1101は音情報の種類を判別する音種類判別部である。音種類判別部1101では、入力した音情報を、音声、音楽、自然音、風切り音などの種類のいずれかであるか判別する。
そして、判別の結果、所定の種類(例えば音声または自然音に属する音情報)であれば、取得した音情報は有用な音情報であるとして、音情報保存部205で表示中の画像データと関連付けて保存する。
一方、上記所定の種類とは異なる種類である判別された場合には、音情報破棄部204でその音情報を破棄する。
音の種類を判別する方法としては、GMM(ガウシアン・ミクスチャ・モデル)を音の種類ごとに生成して保持しておき、入力音情報に対してどの種類のモデルが最も尤度が高くなるかを評価して判別する方法がある。ただし音の種類を判別する方法はこれに限るものではない。
以上の構成により、画像データの表示時に入力された音情報が、所望の種類の場合のみ、表示中の画像データと関連付けて保存することができる。
上記実施例では、各画像データの表示の開始と同時に音声取得を開始し、画像データの表示の終了と同時に音声取得を終了するものとして説明している。
しかしながら、例えば、データ表示の開始、終了から所定時間だけ遅らせて音声の取得を開始、終了するような制御を行うようにしても、他の実施例と同様の効果を得ることができるであろう。
即ち、上記各実施例は、画像データの表示の開始と終了のタイミングを考慮して、音声取得の開始と終了が実行されるという思想において、広く適用できる。
前述の各実施例では、主に1枚の画像を表示する場合に、この表示中の画像に対応する画像データに音情報を関連付けて記録する操作について説明した。
ところで、もしも音情報を記録する対象となる画像が多数存在する場合には、いわゆるスライドショー実行時などの“複数の画像を順に切り換えつつ表示する時”に、それぞれに対応する音情報を記録できることが効果的である。
以下では、処理候補となる複数の画像データ(音声または有用な音情報が添付されるべき各画像データ)が存在する場合に、それら画像データに対応する画像を順次表示しつつ、効果的に音情報を記録/添付する技術を説明する。
図12は、スライドショーにおいて各画像を表示する工程を示すフローチャートである。
また、図13は、上記図12の表示工程に連動して、表示される画像に対応する画像データに音情報を関連付けて保存する工程を示すフローチャートである。
なお、本実施例に適用される装置は、少なくとも図1に示す処理部を備えており、また図7に示す各機能を備えるものである。以下では、図1および図7も参照しながら、図12、図13の処理工程を説明する。
以下、図12を用いて、各画像の表示の流れを説明する。
図12のステップS1201において、表示制御部201は、図1の表示装置104に、現在の処理対象である画像データに対応する画像を表示させる。
ステップS1202において、表示制御部201は、上記画像を時間T1だけ経過したと判断するまで表示を続ける。上記時間T1が経過した後、ステップS1203に進んで、上記画像の表示を終了する。
ステップS1204では、次に処理されるべき画像データが存在するかどうか判断する。もし次の画像データが存在すればS1205に進み、次の画像データを処理対象の画像データとし、S1201に戻る。もしステップS1204で次に処理される画像データがなければ処理を終了する。
以下、図13を用いて、音情報の取得および保存の流れについて説明する。
ステップS1301は、上述したS1201と連動している。すなわち、上述したS1201の画像を表示し始めた時点がステップS1301に相当する。ステップS1301では、音情報取得部202により、音情報取得を開始する。
ステップS1302では、音情報取得部202が取得した音情報に対し、音声検出部203により音声検出が実行される。
なお、S1302〜S1305のルーチンでは、表示中の画像に対応する1つの画像データに付与するべき音声の検出作業を実行する期間を制御する。本実施例では、この音声検出作業の実行期間を好適なものとするため、S1303、S1304、S1305等の種々の判断工程を備える。
ステップS1303はステップS1203に連動するステップである。ステップS1303では、表示制御部201が取得中の音情報に対応する画像の表示が終了したかどうか判断する。
もし画像の表示が終了していなければステップS1302に戻る。一方、画像の表示が終了していればステップS1304に進む。なお、上記画像の表示が終了したか否かの判断は、上記画像から次の画像に表示が切り換わったという動作としても解釈できる。
ステップS1304では、現時点で取得している音情報が音声区間に相当するか否かを音声検出部203が判定する。
もし音声区間でなければ、ステップS1306において音情報取得部202が音情報の取得を終了する。一方、音声区間である場合には、ステップS1305に進む。ステップS1305では、表示制御部201が音情報に対応する画像の表示が終了してから時間T2だけ経過したか否かを判断する。なお、この時間T2は、予め設定された時間である。
ステップS1305において、もし時間T2だけ経過していなければ、ステップS1302に戻る。一方、時間T2だけ経過していれば、ステップS1306において音情報取得部202が音情報の取得を終了する。
以上から解るように、この時間T2とは、ある画像に対応する音声区間として音声を取得できる最大の延長時間である。
なお、音情報取得部202は、「音声取得の作業を延長したか否か」が判る延長情報を予め保持している。そして、ある画像の音声取得時にステップS1305からステップS1302に戻った時に、「音声取得の作業を延長していないこと」を表す延長情報から、「音声取得の作業を延長したこと」を表す延長情報に内容が変更される。
ステップS1304または1305を経て、音情報の取得を終了すると、ステップS1307に進む。ステップS1307では、音情報取得部202は、上記延長情報に基づいて、音情報の取得を延長したかどうか判断する。
もし音情報取得を延長していた場合には、ステップS1308において、表示制御部201がステップS1202で次の画像を表示する時間T1を上記延長の時間だけ延ばす。
例えば、上述した画像に付与される音声の取得時間が時間T2だけ延長されていた場合には、次の画像を表示する時間をT1+T2にする。
これは、音情報の取得を延長している時間(即ち音声入力にユーザの意識が向いている時間であって、ユーザが視覚的に画像に注目していない時間)に、次の画像を表示してしまっていることを考慮したものである。即ち、次の画像をユーザが意識的に確認する時間を実質的に時間T1にする効果がある。この制御については、後でも述べる。
ステップS1309では、取得した音情報から音声検出部203が音声を検出したか否かを判定する。音声を検出していればステップS1310において音情報保存部205が音情報をデータに関連付けて保存し、音声を検出していなければステップS1311において音情報破棄部204が音情報を破棄する。
ステップS1312では、表示制御部201が表示する次の画像(次の処理対象となる画像データ)があれば、ステップS1301に戻って次の画像の表示に連動して、その画像に対応する音情報の取得を開始する。次に表示するべき画像が無ければ音声の取得を終了する。
図14〜図17は、複数の画像を表示するタイミング、およびそれら画像に対応する音情報の取得(音声の検出)のタイミング、およびそれら音情報(音声)の保存を行う様子を視覚的に示した図である。なお、これらの図において横軸は時間軸である。
図14は、1つの画像が表示されている時間内に、その画像に対応する音情報(音声)の取得が収まっている場合を示す図である。
同図において、1401は画像を表示する区間であり、1402は音情報から音声を検出した区間であり、1403は画像データに関連付けて保存する音情報の区間を表す。
また、画像データAが表す画像を画像Aとし、画像データBが表す画像を画像Bとし、画像データCが表す画像を画像Cとする。
表示制御部201は、スライドショーの実行時において画像A、B、Cを順番に、それぞれ時間T1だけ表示する。そして、音情報取得部202は各画像の表示にあわせて対応する音情報を取得し、音声検出部203はその音情報に含まれる音声を検出する。
図14において、画像Aの表示区間に、この画像Aに対応する音声区間が収まっている。このような場合には、前述の図13におけるステップ1305からS1304に遷移した直後にS1306へ進むため、音声取得を延長するという作業は発生しないことになる。その結果、音情報保存部205は、画像Aの表示区間に取得された音声を画像データAに関連付けて保存する。
図14において、画像Bの表示区間には、音情報に含まれる音声を検出していない。この場合、音情報破棄部204は、画像Bの表示区間で取得した音情報(音声を含まない情報)を破棄する。即ち、画像データBには音声は付与されない。
図14において、画像Cの表示区間には、画像Cの表示区間に、この画像Cに対応する音声区間が収まっている。その結果、画像データAの場合と同様に、音情報保存部205は、画像Cの表示区間に取得された音声を画像データCに関連付けて保存する。
図15は、1つの画像が表示されている時間内に、その画像に対応する音情報(音声)の取得が収まっていない場合を示す図である。同図においては、画像Aの表示時に検出した音声区間が画像Bの表示開始時間に跨いでいる。
図15において、第1画像データが表す第1画像(画像A)と、第2画像データが表す第2画像(画像B)とを順次表示される。そして、第1画像の表示から第2画像の表示に切り換えた第1時点(時点1)において音声が検出された場合には、第1時点から第2時点(時点2)までに取得した音情報も第1画像データに関連付けて記憶される。以下詳細を説明する。
同図において、時間αは、画像Aの表示が終了する時間(時点1)を越えて、音声検出部203が継続して音声を検出した延長区間である。
同じく、時間βは、画像Bの表示が終了する時間を越えて、音声検出部203が継続して音声を検出した延長区間である。このような場合には、前述の図13におけるステップ1305からS1304に遷移した後に、S1305を経由してS1302に戻るという動作を時間αまたはβだけ繰り返していることになる。
また、これら時間α、βは、ステップS1305の判断工程を経由するため、最長の延長時間T2より短い。
同図において、画像データAに対応する音声の検出区間が時間αだけ延長されているので、画像データAには、時間(T1+α)に取得された音情報に含まれる音声部分が関連付けて付与される。
ところで、画像Bの表示は、画像Aの表示が終了した時点で既に始まっている。しかしながら、上述した延長時間αの間(時点1から2)に、ユーザが画像Bを意識するのは困難である。
したがって、画像Bをユーザが意識的に確認する時間を実質的に時間T1にする必要がある。よって、図15のような場合には、前述の図13のステップS1308によって、画像Bの表示時間は(T1+α)に延長される。即ち、図15において、画像Aに対応する音声が時点2まで存在する場合には、画像Bの表示は時点3まで延長される。
次に、画像Bに対応する音声の付与について述べる。図15において、画像Bの表示中に音声が検出されるが、この音声は、画像Bの表示終了後(画像Cの表示開始後)も時間βだけ継続している。即ち、画像Bに対応する音声の検出は時点4まで延長される。
そして、この場合には、時点2から時点4で取得された音情報に含まれる音声を、画像データBに付与することになる。
次に、画像Cに対応する音声の付与の制御方法を述べる。画像Cの表示時間においては、時点3から時点4までの間に音声が検出されている。しかしながら、この音声は画像Bに対応する音声であるとして画像データBに付与されている。
したがって、画像Cに対応する音声は無いものとして扱われる。即ち、時点4から画像Cの表示が終了されるまでに取得された音情報(この情報には音声は含まれていない)を破棄することになる。
以上の説明では、図15における画像Bに付与する音声は時点(2)から時点4で取得された音声を、画像データBに付与するとしたが、以下の様に変形しても良い。即ち、画像Bに付与する音声は時点1から時点4で取得された音声を、画像データBに付与しても良い。
この場合には、画像データAと画像データBの両方に、時点1から時点2までに取得された音声を重複して付与することになる。これにより、画像データAと画像データBが個別で利用される場合などに、それぞれのデータに関連する可能性のある音声を十分に活用できる。
図16は、画像Aに対応する音声の検出が、画像Aの表示終了(時点1)から予め設定された時間T2を越えて更に続いている場合の例である。
これは、前述の図13におけるステップS1305において「時間T2を経過した」という判断に基づいて、ステップS1306に進む場合に相当する。即ち、この場合には、画像データAに付与される音声が最大延長時間に達しているので、時間(T1+T2)で取得した音情報のうちの音声部分を画像データAに付与して終了することになる。
そして、それに続いて、すぐに画像データBへ付与されるべき音声の検出が始まる。この切り換え動作は、前述の図13において、画像AのためにS1305からS1302の処理を行った直後に、画像BのためのS1301からの処理を開始することに相当する。
また、この場合には、画像Aに対応する音情報(音声)の取得の終了が時点(5)まで延長されているため、画像Bの表示時間も延長される。図16における画像Bの表示は、時間T2だけ延長されることになる。
以上によれば、画像Bの表示開始(時点1)から時点5までに取得された音声は、画像データAに関連付けて付与され、時点5以降で画像Bの表示が終了するまでに取得された音声は、画像データBに付与されることになる。
このような制御は、その制御を行う装置などの制約として、1つの画像に対して音声(音声データ)を添付する際の上限値が存在する場合や、ユーザによる発話の切れ目が判別し難い場合などに有効である。
図17は、画像Aの表示時間に検出された音声が、画像Bの表示時間を越えて、更に画像Cの表示時間にまで連続する場合を示した例である。同図では画像C表示後も更に時間γ(γ<T2)だけ音声が続いている。
この場合、図16における説明と同様に、各画像(画像Aと画像B)の表示終了から時間T2だけ延長した時点で、一旦、音声の区間が区切られることになる。そして、画像データAおよび画像データBには、それぞれ時間(T1+T2)で取得された音情報に含まれる音声が関連付けて付与される。
また、図17の場合には、画像Bと画像Cの表示時間が時間(T1+T2)に延長される。また、画像データCには、時点6から時点7までに取得された音情報に含まれる音声が関連付けて付与される。
[実施例9の変形例]
以上の説明においては、画像Aの表示が終了してから時間T2が過ぎると、画像Aのための音情報の取得を強制的に終了していたが、その強制終了の作業と同等の制御を行う変形例を、図18のフローチャートを用いて説明する。
なお、図13と図18は上記一部の制御機能が異なるのみであり、1つの装置内に2つの制御機能を備え、装置内で状況に応じてスイッチングするようにしても良い。
図18で用いる制御機能は、音声検出部203が行なう音声検出の閾値(取得中の音情報に音声が含まれていると判断する基準)を、図13等で説明した時間T2を越えた場合に変更するものである。
具体的には、図13のS1304に相当する判断ステップにて、音声が連続しているという判断がされ難くなる閾値に変更することにより、ステップS1306に相当する音声の検出、取得が終了する方向に導こうとするものである。
以下、図13で説明したフローチャートと比較しながら、図18のフローチャートを説明する。
まず、図18におけるステップS1801〜ステップS1803までの動作は、図13のステップS1301からステップS1303までの動作と同等である。
ステップS1804では、音情報が音声区間であるか否か(取得中の音情報が音声を含んでいるか否か)を、音声検出部203が判定する。これも基本的には前述のステップS1304と同等である。
ステップS1804において、もし取得中の音情報が音声区間でなければ、ステップS1807に進む。もし取得中の音声が音声区間であれば、ステップS1805に進む。ステップS1807では音情報取得部202が音情報の取得を終了する。
ステップS1807からステップS1813までの処理は、図13のステップS1306からステップS1312までの処理と同等である。よって図18においては、ステップS1805とS1806が特徴的な工程と言える。
ステップS1805において、画像の表示が終了した時点から時間T2だけ経過したか否か判断する。なお、この判断自体は、前述のステップS1305と同等である。もし時間T2だけ経過していた場合にはステップS1806に進む。
ステップS1806では、音声検出部203によって、音声検出の判断基準となる閾値を変更する。この閾値とは、例えば音声として見なす最低音量である。またこの変更とは、デフォルトの基準よりも音声が検出されにくい基準に置き換える作業に相当する。
上記ステップS1805またはステップS1806を経ると、ステップS1802に戻る。
なお、上述した閾値は上記音量に限られない。他の例として、検出対象の一連の音が所定の閾値を交差する回数(いわゆるゼロクロス回数)なども考えられる。何れにしても、その閾値の変更では、デフォルトの基準よりも音声が検出されにくい基準に置き換える。
また、ここで変更された閾値は、後段のステップS1813(Yes)の状態からS1801に戻る途中のステップS1814において、デフォルトの閾値に戻される。
図19は、図14〜図17と同様に、複数の画像を表示するタイミング、およびそれら画像に対応する音情報の取得(音声の検出)のタイミング、およびそれら音情報(音声)の保存を行う様子を視覚的に示した図である。図19では、更に、上述した、音声検出に適用する閾値の変化も示している。
図19において、上述したデフォルトの閾値がP1に相当し、この閾値P1は例えば音声として許容する最小音量である。また、上述した音声として検出されにくい閾値がP2に相当する。P1、P2とも音量における閾値だとすると、これらはP1<P2の関係を持つ。
図19において、画像Aの表示中に、音声検出部203は通常の閾値P1を用いて、取得された音情報に含まれる音声を検出する。即ち、音量が閾値P1を超える音声のみを音声として検出する。
図19において、画像Aの表示中に始まった音声区間は、画像Aの表示が終了してから時間δ後の時点9に終了する。即ち、この音声区間は、上記終了から時間T2が経った時点8においてもまだ継続している。
前述したステップS1806において、時点8からは、閾値がP1からP2へ変更される。
時点8からは、閾値P2を用いて音声が検出されるので、閾値P1を用いた場合よりも早い時点であろう時点9において音声区間が終了することになる。
そして、画像Aの音情報の取得は、時点9で終了する。この終了は、画像Aの音声取得ルーチンにおけるステップS1804からステップS1807への遷移に相当する。
ここで、画像Bの表示時間はT1+δに延長される。これは前述したステップS1809における延長に相当する。
画像Aの表示開始から時間(T1+δ)の音情報に含まれる音声が、画像データAに関連付けて付与される。
なお、時点9からは、画像Bに対する音情報の取得を行うために、前述したステップS1814において、閾値をP2からデフォルトの閾値P1に戻す。そして、その後の画像Bに対する音声の検出は閾値P1を用いて行われる。
以上、図18で説明した方法によっても、図13で説明した方法と同様に、各画像に添付される音声が必要以上に延長されることを防止しつつ、画像の表示とこの画像への音声の付与を行うことができる。
なお、本発明の目的は、前述した実施例の機能を実現するプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置がプログラムコードを読み出し実行することによっても、達成できる。
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶したコンピュータ読取可能な記憶媒体は本発明を構成することになる。
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
また、プログラムコードの指示に基づき、コンピュータ上のOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。
さらに、プログラムコードが、コンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、機能拡張ユニットが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。
実施例1における情報処理装置のハードウェア構成図
実施例1における情報処理装置の機能構成を表すブロック図
実施例1における処理の流れを表すフローチャート
実施例1における、デジタルカメラでの使用例を表す図。
実施例2における、複写機での使用例を表す図
実施例2における、画像閲覧ソフトウエアでの使用例を表す図
実施例3における情報処理装置の機能構成を表すブロック図
実施例4における処理の流れを表すフローチャート
実施例4における、音情報に音声を含まない場合のデータ表示及び音情報取得のタイムチャート
実施例4における、音情報に音声を含む場合のデータ表示及び音情報取得のタイムチャート
実施例7における情報処理装置の機能構成を表すブロック図
実施例9で画像を表示する際のフローチャート
実施例9で音情報を取得する際のフローチャート
実施例9で画像の表示時間と音声の時間を示す一例
実施例9で画像の表示時間と音声の時間を示す一例
実施例9で画像の表示時間と音声の時間を示す一例
実施例9で画像の表示時間と音声の時間を示す一例
実施例9で音情報を取得する際のフローチャート
実施例9で画像の表示時間と音声の時間を示す一例
符号の説明
101 表示部
102 音情報取得部
103 音声検出部
104 音情報破棄部
105 音情報保存部