JP2009141942A

JP2009141942A - 情報処理装置及び情報処理方法及びプログラム及び記憶媒体

Info

Publication number: JP2009141942A
Application number: JP2008228324A
Authority: JP
Inventors: Hideo Kuboyama; 英生久保山; Toshiaki Fukada; 俊明深田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2007-11-14
Filing date: 2008-09-05
Publication date: 2009-06-25
Anticipated expiration: 2028-09-05
Also published as: JP5279420B2

Abstract

【課題】デジタルカメラのディスプレイ等に表示される画像の表示に連動して効率良く音情報を取得し、かつ得られた音情報をこの画像に対応する画像データに付与する。
【解決手段】画像データが表す画像を表示手段に表示させる表示制御手段と、表示手段による画像の表示中に音情報を取得する取得手段と、取得手段で取得した音情報に音声が含まれるか否かを検出する検出手段と、音声検出手段が音声を検出した場合に音情報を画像データに関連付けて記憶する記憶手段とを備える。
【選択図】図１

Description

本発明は、デジタルカメラのディスプレイ等に表示される画像の表示に連動して、この画像に相当する画像データに、音情報を付与する技術に関するものである。

近年の情報のデジタル化に伴い、デジタル化された情報が増加しており、いかにこれらの情報を管理するかが重要である。例えばデジタルカメラで撮影された画像をＰＣで保管する上で、大量に撮影した画像データをいかに分類や検索するかが重要である。この分類、検索を容易にする一般的な方法として、上記画像データにメタデータを付与し、付与したメタデータに基づいて、後に分類や検索をすることが知られている。メタデータを付与する方法としては、撮影日時、カメラ名、撮影条件をメタデータとして上記画像データに自動的に付与することが広く行なわれている。

しかし、画像データに付与したいメタデータは多岐に渡っている。よって、デジタルカメラなどが、ユーザによる情報入力を伴わずに例えば撮影対象人物、場所、イベント情報などをメタデータとして付与することは難しい。したがって、ＧＵＩなどを用いてメタデータの候補を表示してユーザにメタデータを選択させたり、メタデータに相当する音情報を録音したりする方法が用いられることもある。

画像データに付与する音情報を録音する、いわゆる音声メモ機能は、デジタルカメラに広く用いられている。ユーザは画像データに関する情報を自分の声で録音したり、また画像データに関する環境音を録音したりする。さらに、録音した音声メモを音声認識してテキストのメタデータに変換する用途も考えられる。

しかし、必要に応じて毎回、音声メモ機能をシステムメニューから起動することは手間がかかる。そこでユーザに手間をかけることなく、音声メモを簡単に付与する機能が望まれる。このような背景において幾つかの文献が知られている。例えば、特許文献１では、音声記録モードでシャッターを押下すると、押下に応答して音声を取得している。また、特許文献２では、シャッターの半押しもしくは押下からシャッターを離すまでの間、音声を取得している。
特開２００２−０５７９３０号公報特開２００３−０６９９２５号公報

しかしながら、被写体に集中してシャッターを押下する時に、同時に音声メモを付与することはユーザの負荷が大きい。むしろユーザにとっては、画像データに関連付ける音声メモはその画像データを視覚的に確認する段階で付与することが望ましいと考えられる。

また、特許文献１、特許文献２共に、シャッター動作に連動して音声メモを取り込むので、ユーザが音声メモを付与することをしない場合には無駄な音声ファイルがメモリに保存されることになってしまう。

本発明は上記従来例に鑑みて成されたものであり、デジタルカメラのディスプレイ等に表示される画像の表示に連動して効率良く音情報を取得し、かつ得られた音情報をこの画像に対応する画像データに付与することを主な目的とする。

上記課題を解決するために、本発明に係る情報処理装置は、例えば、画像データに関連付けて音情報を付与する情報処理装置であって、前記画像データが表す画像を表示手段に表示させる表示制御手段と、前記表示手段による前記画像の表示中に音情報を取得する取得手段と、前記取得手段で取得した前記音情報に音声が含まれるか否かを検出する検出手段と、前記音声検出手段が音声を検出した場合に前記音情報を前記画像データに関連付けて記憶する記憶手段とを有することを特徴とする。

本発明によれば、デジタルカメラのディスプレイ等に表示される画像の表示に連動して効率良く音情報を取得し、かつ得られた音情報をこの画像に対応する画像データに付与することが可能となる。

以下、図面を参照して実施の形態を詳細に説明する。ただし、この実施の形態に記載されている構成要素はあくまでも例示であり、本発明の範囲をそれらのみに限定する趣旨のものではない。

図１に、実施例１における情報処理装置のハードウェア構成図を示す。図１において、１０１は中央処理装置（ＣＰＵ）、１０２は制御メモリ（ＲＯＭ）、１０３はメモリ（ＲＡＭ）である。

１０４は液晶画面などの表示装置、１０５はマイクなどの音声入力装置、１０６はスピーカなどの音声出力装置である。

１０７はデータバスであり、上記各構成間における信号の授受を仲介する。上記各装置を１つの機器内に備えるものとして、例えばデジタルカメラなどが想定される。

したがって、図１には不図示の撮像装置（スキャナもしくはＣＣＤ等）も備えており、この撮像装置により撮影することで取得した画像（画像データ）を表示装置１０４に表示させる機能を備える。

また、上記撮像装置で取得された画像（画像データ）は、上記ＣＰＵ１０１およびメモリ１０２に格納された圧縮符号化プログラムにより、ＪＰＥＧ、ＪＰＥＧ２０００、ＪＰＥＧ−ＸＲ等の方式によって圧縮符号化される。

また、圧縮符号化された画像データ（１枚の写真に相当する符号化データ）は、後述する種々の方法で音声情報（音声メモ）と共に、メモリ１０３内に１つのファイルとして保存されることになる。

上述したように、本実施例の情報処理を実現するための制御プログラムやその制御プログラムで用いるデータは、ＲＯＭ１０２に記録されている。

これらの制御プログラムや制御データは、ＣＰＵ１０１の制御のもと、データバス１０７を通じて適宜ＲＡＭ１０３に取り込まれ、ＣＰＵ１０１によって実行される。即ち、本実施例を図１を用いて実行する際には、いわゆるソフトウェア処理が実行されることになる。

図２は本実施例における情報処理装置の機能構成図である。同図において、２０１は、表示装置１０４に撮像装置により取得した画像データに対応する画像（写真）を表示させる表示制御部である。

なおこの画像データは撮影直後に表示用に利用されると共に、圧縮符号化の対象としても用いられ、圧縮符号化された画像データは図２に示されないメモリ（図１におけるメモリ１０３）に保存される。

これら符号化画像データが、後述する種々の方法で音情報と共に、保存されることになる。２０２は、表示制御部２０１による表示に併せて音声入力装置１０５を介して音情報を取得する音情報取得部である。

２０３は、音情報取得部２０２が取得した音情報を入力として、音情報に含まれる音声（人間が意図的に発する意味のある音）を検出する音声検出部である。

２０４は、音情報を破棄する音情報破棄部である。２０５は、音情報を保存する音情報保存部である。

なお、この音情報保存部２０５は、図１のメモリ１０３を構成する一部または全部であると考えることができる。その場合には、上述した圧縮符号化された画像データも保存部２０５に格納すると考えて良い。

図３は、情報処理装置の処理フローである。図２、図３を用いて本実施形態における音情報の取得処理の流れを説明する。

まず、ステップＳ３０１において、表示制御部２０１が画像データの表示を開始する。ステップＳ３０２において、音情報取得部２０２は、画像データの表示開始に併せて音情報の取得を開始する。

この音情報には、例えば、音声メモとして上記情報処理装置のユーザ（人間）が発する音が含まれる。ステップＳ３０３では、画像データの表示中に取得した音情報を音声検出部２０３に入力し、音声検出部２０３が音声の有無を検出する。

音情報取得部はステップＳ３０４で画像データの表示が終了しているか否かを確認し、画像データの表示が終了していなければステップＳ３０３に戻り音情報を取得し続ける。

表示制御部２０１はステップＳ３０５で画像データを表示し、所定時間の経過あるいはユーザの操作などに基づいてステップＳ３０６で画像データの表示を終了する。

音情報取得部２０２は、ステップＳ３０７で音情報の取得を終了する。そしてステップＳ３０８において、ステップＳ３０３の音声検出で音声を含むことを検出したか否かを確認する。

もし音声を含んでいたことを確認すれば、ステップＳ３０９で音情報保存部２０５が、表示制御部２０１が表示した画像に対応する画像データ（ＪＰＥＧ、ＪＰＥＧ２０００、ＪＰＥＧ−ＸＲなどに変換されている画像データ）に音情報を関連付けて保存する。

この時、保存する音情報は、画像表示の開始から終了に併せて取得した音情報の全てでも構わないし、音声検出部２０３によって音声があることを判定された音声区間の音情報のみを保存しても構わない。

また、音情報に複数の音声区間が存在する場合には、それぞれの音声区間の音情報を繋げて一つの音情報ファイルにしても良いし、音声区間ごとに複数の音情報ファイルに分けて保存しても良い。

一方、もしステップＳ３０８で音声を含んでいないと確認すれば、ステップＳ３１０で音情報破棄部２０４が、音情報を破棄する。

ここで、音声検出部２０３が音情報から検出する音声は、人間が発する音声（語彙）である。この音声検出手段としては、例えば音情報のパワーに基づく手段やゼロクロス回数に基づく手段、ピッチ情報や周波数特性に基づく手段などの方法を適用できる。

また、関連付けの方法としては、例えば、画像データと音情報を拡張子だけ異なるファイル名（例えば「ＡＡＡ．ＪＰＧ」と「ＡＡＡ．ＷＡＶ」の組合せ）で保存しても良いし、画像データのヘッダの部分に音情報のファイル名をリンク情報として記述しても良い。

図４は、デジタルカメラ（図１に示す装置に相当）における画像（撮影された画像）を確認するための表示に、本発明を使用する場合の一例を示す。

同図において、４０１は画像を表示するディスプレイ（図１における表示装置１０４に相当）、４０２は音情報を入力するマイク（図１における音声入力装置１０５に相当）である。

デジタルカメラ等による撮影の後、撮影された画像をディスプレイ４０１に一定時間、確認のために表示する。いわゆるプレビューである。

なお、本実施例においては主に撮影直後の画像表示（いわゆるプレビュー）を想定して説明するが、本発明は撮影直後の表示に限らない。

例えば、過去に撮影し、かつメモリに保存している画像データを再生表示する場合（いわゆるスライドショー）に適用することもできる。このスライドショーへの適用については別に後述する。

本実施例において、表示の開始と終了までの期間（即ち撮影された１枚の画像がディスプレイに表示されている間）に、マイク４０２から自動的に音情報を取得する。

もし音情報に音声が含まれていれば、音声検出部２０３によって音声を検出し、音情報保存部２０５が音情報を画像に対応付けて音声メモとしてメモリに保存する。

一方、音情報に音声が含まれていなければ、音情報を不要な音声メモであると判断して音情報破棄部２０４が破棄する。この結果、画像表示時にユーザが発話した音情報（音声）だけが、音声メモとして画像に関連付けられて保存されることになる。

以上により、ユーザは特にボタン操作を行わずに、容易に画像（写真）データを確認しながら音声メモを付与することができる。

また、ユーザが意図的に発声した音声メモのみを自動的に画像データに関連付けて保存することができる。

上記実施例では、デジタルカメラによる撮影後に、撮影された画像を確認している最中に音声メモを付与する例を説明したが、本発明はこれに限られるものではない。

図５は、複写機においてスキャン文書を確認するときに音声メモを付与する例である。

同図は複写機の画面及びコントロールパネルを表している。

同図において、５０１は情報を表示するディスプレイである。５０２は音情報を入力するマイクである。ユーザが文書をスキャンすると、スキャンした文書（画像データ）をディスプレイ５０１に確認のために表示する。

またこの表示ともに上記文書（画像データ）は、複写機内部のハードディスクに保存される。ハードディスクに保存された画像データは、その後にコピー（複写機内部の印刷部により印刷）されたり、ＦＡＸ（外部機器へ送信）されたりする。

本実施例においては、確認のための文書の表示開始に併せて、マイク５０２から自動的に音情報を取得する。

このとき、ユーザが音声を発していれば、音情報（音声）が音声メモとして上記文書（画像データ）に関連付けられてハードディスクに保存される。一方、ユーザが音声を発していなければ、音情報は破棄されるので、上記文書には音声メモは付与されない。

図６は、画像閲覧ソフトウエアにおいて、表示された画像（画像データ）に音声メモを付与する例である。同図において、６０１はコンピュータ、６０２はコンピュータ６０１上で動作する画像閲覧ソフトウエアに相当するウィンドウである。

６０３は、画像閲覧ソフトウエア（ウィンドウ）６０２の内部にあって画像をリスト表示する画像リストである。６０４は処理対象の画像を拡大して表示する画像表示エリアである。６０５はコンピュータ６０１に接続し、音情報を入力するマイクである。

ユーザが画像リスト６０３から画像を１つ選択したり、あるいは画像閲覧ソフトウエア６０２の機能である「複数の画像を、順次、切り換えながら表示する動作」を実行したりすると、画像表示エリア６０４には選択中の１つの画像が拡大された状態で表示される。

そして、各画像の表示開始にあわせて、マイク６０５から音情報の取得を開始する。また、自動もしくは手動でその画像の表示を終了すると、これに合わせて音情報の取得を終了する。

上述した「複数の画像を、順次、切り換えながら表示する動作」の場合は、ある画像の表示終了と共に次の画像が表示されるので、再度、音情報の取得を開始することになる。

また、各画像に対して取得した音情報は音声検出部２０３の判定に基づいて、音声が含まれていれば表示した画像に関連付けて音情報を保存する。音声が含まれていなければ、音情報を不要として破棄する。

上記実施例では、音声検出部２０３が音情報に人の音声が含まれているか否かを判定し、音声が含まれていれば音情報を画像データに関連付けて保存し、音声が含まれていなければ音情報を破棄している。言い換えれば、以上の実施例においては、「音声であるか否か」を考慮しているが、「いかなる意味の音声であるか」は考慮されていない。

よって本実施例では、以上の実施例の機能に加え、取得した音声が特定の認識候補の中に含まれている場合のみ、その音声を画像データに関連付けて保存し、特定の認識候補に含まれていない音声は破棄することとする。

図７に本実施例における情報処理装置の機能構成図を示す。同図において、２０１〜２０５は上記実施例と同等の機能である。７０１は、音情報を入力して音声認識を実行する音声認識部である。７０２は、音声認識結果を表示データに関連付けて保存する認識結果記憶部である。

音声検出部２０３は、画像（画像データ）の表示に併せて取得した音情報に音声が含まれているか否かを判定する。音声が含まれていないと判定された音情報は音情報破棄部２０４で破棄され、音声が含まれると判定された音情報は音声認識部７０１に入力される。

音声認識部７０１は音声を認識して、特定の認識候補のいずれかであるか、あるいはいずれの認識候補とも異なるため棄却するかを判定する。

もし、上記音声が特定の認識候補のいずれかであれば、その音声を含む音情報を、音情報保存部２０５に保存し、かつ、その音声認識の結果（テキストデータまたは識別フラグ）を認識結果記憶部７０２に保存する。

なお、他の実施例と考え方は同様であるので、これら保存部２０５に保存される音情報や記憶部７０２に保存される音声認識の結果は、当然、表示中の画像に相当する画像データに対応付けて保存される。

例えば、「ＡＡＡ．ＪＰＧ」に相当する画像データを表示し、上述した音声認識の結果として“レストラン”という単語を得た場合と考える。この場合には、単語“レストラン”をテキストデータ「ＡＡＡ．ＴＸＴ」（または識別フラグ）として画像データ「ＡＡＡ．ＪＰＧ」に関連付けて保存する。

また、「ＡＡＡ．ＪＰＧ」に相当する画像データを表示中に取得した音情報（単語“レストラン”を含む）を「ＡＡＡ．ＷＡＶ」として保存する。

なお、音声認識部７０１がいずれの認識候補も不一致と判定して認識結果として出力しなければ、音情報を音情報破棄部２０４で破棄する。

音声認識の手段としては、ＨＭＭ、ＤＰマッチング、ニューラルネットワークなどを適用できる。音声認識部が認識可能な認識候補は、装置があらかじめ用意した単語列でも良いし、ユーザが装置に登録した単語列でも良い。

以上により、ユーザは面倒な操作をすることなく、音声メモと共に音声メモの内容を表すテキストデータを、表示中の画像データに関連付けて付与することができる。また、ユーザが発声しない場合や、音声認識部が受け付けない言葉を発声した場合は、自動的に音声メモを破棄することができる。

上記実施例では、ステップＳ３０５のデータ表示からステップＳ３０６でデータ表示終了に遷移する方法として、所定時間の経過もしくはユーザの操作を挙げた。

これに対して本実施例においては、音声を検出した場合に一連の音声区間が終了するまでは、その音声が付与されるべきる画像データの表示を終了しない。

図８は本実施例における、画像データの表示及び音声取得の開始から終了までの処理の流れを表すフローチャートである。ステップＳ８０１で表示制御部２０１が画像データの表示を開始すると、ステップＳ８０２で音情報取得部２０２が音情報の取得を開始する。

ステップＳ８０３で、音情報取得部２０２が逐次音情報を取得し、音声検出部２０３が音情報に音声が含まれているか否かを検出する。

音情報の取得は、ステップＳ８０４でデータ表示の終了を確認するまで続ける。一方、表示制御部２０１は、ステップＳ８０５で画像データを表示し、ステップＳ８０６で、この表示の開始から一定時間経過したか否かを確認する。

なお、この一定時間とは、１枚の画像を表示（プレビュー）するのに十分であるとして予め設定されている時間に相当する。もし一定時間経過していなければ、ステップＳ８０５に戻って画像データの表示を継続し、一定時間経過すればステップＳ８０７に進む。

ステップＳ８０７では、上記一定時間が経過した時点で、音声検出部２０３に入力されている音情報が音声を含む音声区間であるか否かを確認する。

もし音声区間（すなわち一連の音声をユーザが発声中）であれば、ステップＳ８０５で画像データの表示を継続する。もし音声区間でなければ、ステップＳ８０８で画像データの表示を終了する。

表示制御部２０１が画像データの表示を終了すると、音情報取得部２０２がステップＳ８０４からステップＳ８０９に進み、音情報の取得を終了する。

図９は音情報に音声が含まれない場合の、画像データの表示時期を示すタイムチャートである。まず時刻９０１で表示制御部２０１が表示を開始すると、これに併せて音情報取得部２０２が音情報の取得を開始する。

取得した音情報は順次音声検出部２０３に入力し、音情報に音声を含むか否かを判定する。図９では音情報に音声が検出されないまま一定時間が経過する。

よってこの場合には、一定時間が経過した時刻９０２で、表示制御部２０１が表示を終了し、併せて音情報取得部２０２が音声取得を終了する。

図１０は音情報に音声が含まれる場合の、画像データの表示時期を示すタイムチャートである。まず時刻１００１で表示及び音情報の取得を開始する。時刻１００２では音声検出部２０３が音声を検出する。

音声はユーザが発声している間、音声区間として検出され続ける。時刻１００３では、図９と同様に一定時間が経過するが、まだ音声が検出されているので表示を終了しない（ステップＳ８０７のＹｅｓに相当）。

時刻１００４で、音声が検出されなくなると、音声検出部２０３が音声区間の終了を表示制御部２０１に伝達する。（ステップＳ８０７のＮｏに相当）これに伴って表示制御部２０１が画像データの表示を終了し、また音声取得部２０２が音声の取得を終了する。

なお、もし音声区間の終了が、一定時間の経過時よりも先に起こったとしても、一定時間の経過をする時点までは該当する画像データの表示と音情報の取得は継続しても構わない。一方、音声区間が終了した時点で画像データの表示と音情報の取得を終了しても構わない。この場合には、複数の画像データに対して音声メモの添付作業を高速に行うことができるであろう。

以上のように、音声検出部２０３が検出する音声区間に応じて画像の表示及び音声取得の時間を延長することによって、ユーザが画像の表示時間、音声の録音時間を気にする必要なく、音声メモを適切に付与することができる。

上記実施例では、音声区間を検出している間、画像の表示および音情報の取得の時間を延長した。これに対し、装置の傾きを検出する傾きセンサの値に基づいて画像の表示および音情報取得の時間を延長しても良い。

ユーザが音情報入力のためにマイクを、あるいはデータ確認のために表示画面（ディスプレイ４０１）を、意図的に所望の方向に傾ける事がある。

そこで本実施例では、図４のデジタルカメラにデジタルカメラの傾き状態を検知できる傾きセンサを搭載することとする。

本実施例においても画像の表示開始と共に音情報の取得を開始する。ただし、ここで所定時間が経過した後も、傾きセンサが表示画面が所定の傾きに傾いていることを検知している間は、画像の表示を終了しない。

そして、傾きセンサが上記所定の傾きに傾いていることを検知しなくなった時点で表示を終了し、それに伴って音情報の取得を終了する。

上記実施例では、音声検出部２０３が音情報に含まれる音声を検出し、音声を含むか否かの判定に基づいて音声を画像データに関連付けて保存するか、あるいはこの音声を破棄するかを判定していた。

本実施例では、音情報破棄部２０４を備えず、音情報を破棄しない場合について説明する。

例えば、音声検出部２０３の判定に基づいて、音声を検出した場合には、音情報を表示中の画像（それに対応する画像データ）のヘッダ部に記述することによって画像と音情報を関連付けて保存する。

一方、音声を検出しなかった場合には、音情報を表示中の画像（画像に対応する画像データ）に関連付けずに保存するという実装にしても良い。すなわち表示中の画像と音声情報をリンクさせないように制御するだけでも、上記各実施例と同様の効果を得ることができるであろう。

なお、音声検出部２０３の判定の有無に応じて、画像データに関連付けて保存する音情報を変更しても良い。例えば、音情報に音声を含むことを検出した場合はその音声区間に相当する時間帯に入力した音情報のみ保存し、音声を検出しなかった場合には上記画像を表示している時間帯に取得した全ての音情報を保存するようにしても良い。

上記実施例では、音声検出部２０３が音情報に含まれる音声を検出し、音声を含むか否かの判定に基づいて音声を表示中の画像データに関連付けて保存するか、あるいは破棄するかを判定している。

これに対して本実施例では、音情報を複数の音の種類のいずれかに分類しておき、何れの種類の音情報が取得されたかに応じて音情報を保存するか破棄するかを判定する。すなわち、音声に限らず後に有用になり得る音情報であれば、それらを保存の対象にする。以下に一例を説明する。

図１１に、本実施例における機能構成図を示す。同図において、１１０１は音情報の種類を判別する音種類判別部である。音種類判別部１１０１では、入力した音情報を、音声、音楽、自然音、風切り音などの種類のいずれかであるか判別する。

そして、判別の結果、所定の種類（例えば音声または自然音に属する音情報）であれば、取得した音情報は有用な音情報であるとして、音情報保存部２０５で表示中の画像データと関連付けて保存する。

一方、上記所定の種類とは異なる種類である判別された場合には、音情報破棄部２０４でその音情報を破棄する。

音の種類を判別する方法としては、ＧＭＭ（ガウシアン・ミクスチャ・モデル）を音の種類ごとに生成して保持しておき、入力音情報に対してどの種類のモデルが最も尤度が高くなるかを評価して判別する方法がある。ただし音の種類を判別する方法はこれに限るものではない。

以上の構成により、画像データの表示時に入力された音情報が、所望の種類の場合のみ、表示中の画像データと関連付けて保存することができる。

上記実施例では、各画像データの表示の開始と同時に音声取得を開始し、画像データの表示の終了と同時に音声取得を終了するものとして説明している。

しかしながら、例えば、データ表示の開始、終了から所定時間だけ遅らせて音声の取得を開始、終了するような制御を行うようにしても、他の実施例と同様の効果を得ることができるであろう。

即ち、上記各実施例は、画像データの表示の開始と終了のタイミングを考慮して、音声取得の開始と終了が実行されるという思想において、広く適用できる。

前述の各実施例では、主に１枚の画像を表示する場合に、この表示中の画像に対応する画像データに音情報を関連付けて記録する操作について説明した。

ところで、もしも音情報を記録する対象となる画像が多数存在する場合には、いわゆるスライドショー実行時などの“複数の画像を順に切り換えつつ表示する時”に、それぞれに対応する音情報を記録できることが効果的である。

以下では、処理候補となる複数の画像データ（音声または有用な音情報が添付されるべき各画像データ）が存在する場合に、それら画像データに対応する画像を順次表示しつつ、効果的に音情報を記録／添付する技術を説明する。

図１２は、スライドショーにおいて各画像を表示する工程を示すフローチャートである。

また、図１３は、上記図１２の表示工程に連動して、表示される画像に対応する画像データに音情報を関連付けて保存する工程を示すフローチャートである。

なお、本実施例に適用される装置は、少なくとも図１に示す処理部を備えており、また図７に示す各機能を備えるものである。以下では、図１および図７も参照しながら、図１２、図１３の処理工程を説明する。

以下、図１２を用いて、各画像の表示の流れを説明する。

図１２のステップＳ１２０１において、表示制御部２０１は、図１の表示装置１０４に、現在の処理対象である画像データに対応する画像を表示させる。

ステップＳ１２０２において、表示制御部２０１は、上記画像を時間Ｔ１だけ経過したと判断するまで表示を続ける。上記時間Ｔ１が経過した後、ステップＳ１２０３に進んで、上記画像の表示を終了する。

ステップＳ１２０４では、次に処理されるべき画像データが存在するかどうか判断する。もし次の画像データが存在すればＳ１２０５に進み、次の画像データを処理対象の画像データとし、Ｓ１２０１に戻る。もしステップＳ１２０４で次に処理される画像データがなければ処理を終了する。

以下、図１３を用いて、音情報の取得および保存の流れについて説明する。

ステップＳ１３０１は、上述したＳ１２０１と連動している。すなわち、上述したＳ１２０１の画像を表示し始めた時点がステップＳ１３０１に相当する。ステップＳ１３０１では、音情報取得部２０２により、音情報取得を開始する。

ステップＳ１３０２では、音情報取得部２０２が取得した音情報に対し、音声検出部２０３により音声検出が実行される。

なお、Ｓ１３０２〜Ｓ１３０５のルーチンでは、表示中の画像に対応する１つの画像データに付与するべき音声の検出作業を実行する期間を制御する。本実施例では、この音声検出作業の実行期間を好適なものとするため、Ｓ１３０３、Ｓ１３０４、Ｓ１３０５等の種々の判断工程を備える。

ステップＳ１３０３はステップＳ１２０３に連動するステップである。ステップＳ１３０３では、表示制御部２０１が取得中の音情報に対応する画像の表示が終了したかどうか判断する。

もし画像の表示が終了していなければステップＳ１３０２に戻る。一方、画像の表示が終了していればステップＳ１３０４に進む。なお、上記画像の表示が終了したか否かの判断は、上記画像から次の画像に表示が切り換わったという動作としても解釈できる。

ステップＳ１３０４では、現時点で取得している音情報が音声区間に相当するか否かを音声検出部２０３が判定する。

もし音声区間でなければ、ステップＳ１３０６において音情報取得部２０２が音情報の取得を終了する。一方、音声区間である場合には、ステップＳ１３０５に進む。ステップＳ１３０５では、表示制御部２０１が音情報に対応する画像の表示が終了してから時間Ｔ２だけ経過したか否かを判断する。なお、この時間Ｔ２は、予め設定された時間である。

ステップＳ１３０５において、もし時間Ｔ２だけ経過していなければ、ステップＳ１３０２に戻る。一方、時間Ｔ２だけ経過していれば、ステップＳ１３０６において音情報取得部２０２が音情報の取得を終了する。

以上から解るように、この時間Ｔ２とは、ある画像に対応する音声区間として音声を取得できる最大の延長時間である。

なお、音情報取得部２０２は、「音声取得の作業を延長したか否か」が判る延長情報を予め保持している。そして、ある画像の音声取得時にステップＳ１３０５からステップＳ１３０２に戻った時に、「音声取得の作業を延長していないこと」を表す延長情報から、「音声取得の作業を延長したこと」を表す延長情報に内容が変更される。

ステップＳ１３０４または１３０５を経て、音情報の取得を終了すると、ステップＳ１３０７に進む。ステップＳ１３０７では、音情報取得部２０２は、上記延長情報に基づいて、音情報の取得を延長したかどうか判断する。

もし音情報取得を延長していた場合には、ステップＳ１３０８において、表示制御部２０１がステップＳ１２０２で次の画像を表示する時間Ｔ１を上記延長の時間だけ延ばす。

例えば、上述した画像に付与される音声の取得時間が時間Ｔ２だけ延長されていた場合には、次の画像を表示する時間をＴ１＋Ｔ２にする。

これは、音情報の取得を延長している時間（即ち音声入力にユーザの意識が向いている時間であって、ユーザが視覚的に画像に注目していない時間）に、次の画像を表示してしまっていることを考慮したものである。即ち、次の画像をユーザが意識的に確認する時間を実質的に時間Ｔ１にする効果がある。この制御については、後でも述べる。

ステップＳ１３０９では、取得した音情報から音声検出部２０３が音声を検出したか否かを判定する。音声を検出していればステップＳ１３１０において音情報保存部２０５が音情報をデータに関連付けて保存し、音声を検出していなければステップＳ１３１１において音情報破棄部２０４が音情報を破棄する。

ステップＳ１３１２では、表示制御部２０１が表示する次の画像（次の処理対象となる画像データ）があれば、ステップＳ１３０１に戻って次の画像の表示に連動して、その画像に対応する音情報の取得を開始する。次に表示するべき画像が無ければ音声の取得を終了する。

図１４〜図１７は、複数の画像を表示するタイミング、およびそれら画像に対応する音情報の取得（音声の検出）のタイミング、およびそれら音情報（音声）の保存を行う様子を視覚的に示した図である。なお、これらの図において横軸は時間軸である。

図１４は、１つの画像が表示されている時間内に、その画像に対応する音情報（音声）の取得が収まっている場合を示す図である。

同図において、１４０１は画像を表示する区間であり、１４０２は音情報から音声を検出した区間であり、１４０３は画像データに関連付けて保存する音情報の区間を表す。

また、画像データＡが表す画像を画像Ａとし、画像データＢが表す画像を画像Ｂとし、画像データＣが表す画像を画像Ｃとする。

表示制御部２０１は、スライドショーの実行時において画像Ａ、Ｂ、Ｃを順番に、それぞれ時間Ｔ１だけ表示する。そして、音情報取得部２０２は各画像の表示にあわせて対応する音情報を取得し、音声検出部２０３はその音情報に含まれる音声を検出する。

図１４において、画像Ａの表示区間に、この画像Ａに対応する音声区間が収まっている。このような場合には、前述の図１３におけるステップ１３０５からＳ１３０４に遷移した直後にＳ１３０６へ進むため、音声取得を延長するという作業は発生しないことになる。その結果、音情報保存部２０５は、画像Ａの表示区間に取得された音声を画像データＡに関連付けて保存する。

図１４において、画像Ｂの表示区間には、音情報に含まれる音声を検出していない。この場合、音情報破棄部２０４は、画像Ｂの表示区間で取得した音情報（音声を含まない情報）を破棄する。即ち、画像データＢには音声は付与されない。

図１４において、画像Ｃの表示区間には、画像Ｃの表示区間に、この画像Ｃに対応する音声区間が収まっている。その結果、画像データＡの場合と同様に、音情報保存部２０５は、画像Ｃの表示区間に取得された音声を画像データＣに関連付けて保存する。

図１５は、１つの画像が表示されている時間内に、その画像に対応する音情報（音声）の取得が収まっていない場合を示す図である。同図においては、画像Ａの表示時に検出した音声区間が画像Ｂの表示開始時間に跨いでいる。

図１５において、第１画像データが表す第１画像（画像Ａ）と、第２画像データが表す第２画像（画像Ｂ）とを順次表示される。そして、第１画像の表示から第２画像の表示に切り換えた第１時点（時点１）において音声が検出された場合には、第１時点から第２時点（時点２）までに取得した音情報も第１画像データに関連付けて記憶される。以下詳細を説明する。

同図において、時間αは、画像Ａの表示が終了する時間（時点１）を越えて、音声検出部２０３が継続して音声を検出した延長区間である。

同じく、時間βは、画像Ｂの表示が終了する時間を越えて、音声検出部２０３が継続して音声を検出した延長区間である。このような場合には、前述の図１３におけるステップ１３０５からＳ１３０４に遷移した後に、Ｓ１３０５を経由してＳ１３０２に戻るという動作を時間αまたはβだけ繰り返していることになる。

また、これら時間α、βは、ステップＳ１３０５の判断工程を経由するため、最長の延長時間Ｔ２より短い。

同図において、画像データＡに対応する音声の検出区間が時間αだけ延長されているので、画像データＡには、時間（Ｔ１＋α）に取得された音情報に含まれる音声部分が関連付けて付与される。

ところで、画像Ｂの表示は、画像Ａの表示が終了した時点で既に始まっている。しかしながら、上述した延長時間αの間（時点１から２）に、ユーザが画像Ｂを意識するのは困難である。

したがって、画像Ｂをユーザが意識的に確認する時間を実質的に時間Ｔ１にする必要がある。よって、図１５のような場合には、前述の図１３のステップＳ１３０８によって、画像Ｂの表示時間は（Ｔ１＋α）に延長される。即ち、図１５において、画像Ａに対応する音声が時点２まで存在する場合には、画像Ｂの表示は時点３まで延長される。

次に、画像Ｂに対応する音声の付与について述べる。図１５において、画像Ｂの表示中に音声が検出されるが、この音声は、画像Ｂの表示終了後（画像Ｃの表示開始後）も時間βだけ継続している。即ち、画像Ｂに対応する音声の検出は時点４まで延長される。

そして、この場合には、時点２から時点４で取得された音情報に含まれる音声を、画像データＢに付与することになる。

次に、画像Ｃに対応する音声の付与の制御方法を述べる。画像Ｃの表示時間においては、時点３から時点４までの間に音声が検出されている。しかしながら、この音声は画像Ｂに対応する音声であるとして画像データＢに付与されている。

したがって、画像Ｃに対応する音声は無いものとして扱われる。即ち、時点４から画像Ｃの表示が終了されるまでに取得された音情報（この情報には音声は含まれていない）を破棄することになる。

以上の説明では、図１５における画像Ｂに付与する音声は時点（２）から時点４で取得された音声を、画像データＢに付与するとしたが、以下の様に変形しても良い。即ち、画像Ｂに付与する音声は時点１から時点４で取得された音声を、画像データＢに付与しても良い。

この場合には、画像データＡと画像データＢの両方に、時点１から時点２までに取得された音声を重複して付与することになる。これにより、画像データＡと画像データＢが個別で利用される場合などに、それぞれのデータに関連する可能性のある音声を十分に活用できる。

図１６は、画像Ａに対応する音声の検出が、画像Ａの表示終了（時点１）から予め設定された時間Ｔ２を越えて更に続いている場合の例である。

これは、前述の図１３におけるステップＳ１３０５において「時間Ｔ２を経過した」という判断に基づいて、ステップＳ１３０６に進む場合に相当する。即ち、この場合には、画像データＡに付与される音声が最大延長時間に達しているので、時間（Ｔ１＋Ｔ２）で取得した音情報のうちの音声部分を画像データＡに付与して終了することになる。

そして、それに続いて、すぐに画像データＢへ付与されるべき音声の検出が始まる。この切り換え動作は、前述の図１３において、画像ＡのためにＳ１３０５からＳ１３０２の処理を行った直後に、画像ＢのためのＳ１３０１からの処理を開始することに相当する。

また、この場合には、画像Ａに対応する音情報（音声）の取得の終了が時点（５）まで延長されているため、画像Ｂの表示時間も延長される。図１６における画像Ｂの表示は、時間Ｔ２だけ延長されることになる。

以上によれば、画像Ｂの表示開始（時点１）から時点５までに取得された音声は、画像データＡに関連付けて付与され、時点５以降で画像Ｂの表示が終了するまでに取得された音声は、画像データＢに付与されることになる。

このような制御は、その制御を行う装置などの制約として、１つの画像に対して音声（音声データ）を添付する際の上限値が存在する場合や、ユーザによる発話の切れ目が判別し難い場合などに有効である。

図１７は、画像Ａの表示時間に検出された音声が、画像Ｂの表示時間を越えて、更に画像Ｃの表示時間にまで連続する場合を示した例である。同図では画像Ｃ表示後も更に時間γ（γ＜Ｔ２）だけ音声が続いている。

この場合、図１６における説明と同様に、各画像（画像Ａと画像Ｂ）の表示終了から時間Ｔ２だけ延長した時点で、一旦、音声の区間が区切られることになる。そして、画像データＡおよび画像データＢには、それぞれ時間（Ｔ１＋Ｔ２）で取得された音情報に含まれる音声が関連付けて付与される。

また、図１７の場合には、画像Ｂと画像Ｃの表示時間が時間（Ｔ１＋Ｔ２）に延長される。また、画像データＣには、時点６から時点７までに取得された音情報に含まれる音声が関連付けて付与される。

［実施例９の変形例］
以上の説明においては、画像Ａの表示が終了してから時間Ｔ２が過ぎると、画像Ａのための音情報の取得を強制的に終了していたが、その強制終了の作業と同等の制御を行う変形例を、図１８のフローチャートを用いて説明する。

なお、図１３と図１８は上記一部の制御機能が異なるのみであり、１つの装置内に２つの制御機能を備え、装置内で状況に応じてスイッチングするようにしても良い。

図１８で用いる制御機能は、音声検出部２０３が行なう音声検出の閾値（取得中の音情報に音声が含まれていると判断する基準）を、図１３等で説明した時間Ｔ２を越えた場合に変更するものである。

具体的には、図１３のＳ１３０４に相当する判断ステップにて、音声が連続しているという判断がされ難くなる閾値に変更することにより、ステップＳ１３０６に相当する音声の検出、取得が終了する方向に導こうとするものである。

以下、図１３で説明したフローチャートと比較しながら、図１８のフローチャートを説明する。

まず、図１８におけるステップＳ１８０１〜ステップＳ１８０３までの動作は、図１３のステップＳ１３０１からステップＳ１３０３までの動作と同等である。

ステップＳ１８０４では、音情報が音声区間であるか否か（取得中の音情報が音声を含んでいるか否か）を、音声検出部２０３が判定する。これも基本的には前述のステップＳ１３０４と同等である。

ステップＳ１８０４において、もし取得中の音情報が音声区間でなければ、ステップＳ１８０７に進む。もし取得中の音声が音声区間であれば、ステップＳ１８０５に進む。ステップＳ１８０７では音情報取得部２０２が音情報の取得を終了する。

ステップＳ１８０７からステップＳ１８１３までの処理は、図１３のステップＳ１３０６からステップＳ１３１２までの処理と同等である。よって図１８においては、ステップＳ１８０５とＳ１８０６が特徴的な工程と言える。

ステップＳ１８０５において、画像の表示が終了した時点から時間Ｔ２だけ経過したか否か判断する。なお、この判断自体は、前述のステップＳ１３０５と同等である。もし時間Ｔ２だけ経過していた場合にはステップＳ１８０６に進む。

ステップＳ１８０６では、音声検出部２０３によって、音声検出の判断基準となる閾値を変更する。この閾値とは、例えば音声として見なす最低音量である。またこの変更とは、デフォルトの基準よりも音声が検出されにくい基準に置き換える作業に相当する。

上記ステップＳ１８０５またはステップＳ１８０６を経ると、ステップＳ１８０２に戻る。

なお、上述した閾値は上記音量に限られない。他の例として、検出対象の一連の音が所定の閾値を交差する回数（いわゆるゼロクロス回数）なども考えられる。何れにしても、その閾値の変更では、デフォルトの基準よりも音声が検出されにくい基準に置き換える。

また、ここで変更された閾値は、後段のステップＳ１８１３（Ｙｅｓ）の状態からＳ１８０１に戻る途中のステップＳ１８１４において、デフォルトの閾値に戻される。

図１９は、図１４〜図１７と同様に、複数の画像を表示するタイミング、およびそれら画像に対応する音情報の取得（音声の検出）のタイミング、およびそれら音情報（音声）の保存を行う様子を視覚的に示した図である。図１９では、更に、上述した、音声検出に適用する閾値の変化も示している。

図１９において、上述したデフォルトの閾値がＰ１に相当し、この閾値Ｐ１は例えば音声として許容する最小音量である。また、上述した音声として検出されにくい閾値がＰ２に相当する。Ｐ１、Ｐ２とも音量における閾値だとすると、これらはＰ１＜Ｐ２の関係を持つ。

図１９において、画像Ａの表示中に、音声検出部２０３は通常の閾値Ｐ１を用いて、取得された音情報に含まれる音声を検出する。即ち、音量が閾値Ｐ１を超える音声のみを音声として検出する。

図１９において、画像Ａの表示中に始まった音声区間は、画像Ａの表示が終了してから時間δ後の時点９に終了する。即ち、この音声区間は、上記終了から時間Ｔ２が経った時点８においてもまだ継続している。

前述したステップＳ１８０６において、時点８からは、閾値がＰ１からＰ２へ変更される。

時点８からは、閾値Ｐ２を用いて音声が検出されるので、閾値Ｐ１を用いた場合よりも早い時点であろう時点９において音声区間が終了することになる。

そして、画像Ａの音情報の取得は、時点９で終了する。この終了は、画像Ａの音声取得ルーチンにおけるステップＳ１８０４からステップＳ１８０７への遷移に相当する。

ここで、画像Ｂの表示時間はＴ１＋δに延長される。これは前述したステップＳ１８０９における延長に相当する。

画像Ａの表示開始から時間（Ｔ１＋δ）の音情報に含まれる音声が、画像データＡに関連付けて付与される。

なお、時点９からは、画像Ｂに対する音情報の取得を行うために、前述したステップＳ１８１４において、閾値をＰ２からデフォルトの閾値Ｐ１に戻す。そして、その後の画像Ｂに対する音声の検出は閾値Ｐ１を用いて行われる。

以上、図１８で説明した方法によっても、図１３で説明した方法と同様に、各画像に添付される音声が必要以上に延長されることを防止しつつ、画像の表示とこの画像への音声の付与を行うことができる。

なお、本発明の目的は、前述した実施例の機能を実現するプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置がプログラムコードを読み出し実行することによっても、達成できる。

この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶したコンピュータ読取可能な記憶媒体は本発明を構成することになる。

プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどを用いることができる。

また、プログラムコードの指示に基づき、コンピュータ上のＯＳ（オペレーティングシステム）などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。

さらに、プログラムコードが、コンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、機能拡張ユニットが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。

実施例１における情報処理装置のハードウェア構成図実施例１における情報処理装置の機能構成を表すブロック図実施例１における処理の流れを表すフローチャート実施例１における、デジタルカメラでの使用例を表す図。実施例２における、複写機での使用例を表す図実施例２における、画像閲覧ソフトウエアでの使用例を表す図実施例３における情報処理装置の機能構成を表すブロック図実施例４における処理の流れを表すフローチャート実施例４における、音情報に音声を含まない場合のデータ表示及び音情報取得のタイムチャート実施例４における、音情報に音声を含む場合のデータ表示及び音情報取得のタイムチャート実施例７における情報処理装置の機能構成を表すブロック図実施例９で画像を表示する際のフローチャート実施例９で音情報を取得する際のフローチャート実施例９で画像の表示時間と音声の時間を示す一例実施例９で画像の表示時間と音声の時間を示す一例実施例９で画像の表示時間と音声の時間を示す一例実施例９で画像の表示時間と音声の時間を示す一例実施例９で音情報を取得する際のフローチャート実施例９で画像の表示時間と音声の時間を示す一例

符号の説明

１０１表示部
１０２音情報取得部
１０３音声検出部
１０４音情報破棄部
１０５音情報保存部

Claims

画像データに関連付けて音情報を付与する情報処理装置であって、
前記画像データが表す画像を表示手段に表示させる表示制御手段と、
前記表示手段による前記画像の表示中に音情報を取得する取得手段と、
前記取得手段で取得した前記音情報に音声が含まれるか否かを検出する検出手段と、
前記音声検出手段が音声を検出した場合に前記音情報を前記画像データに関連付けて記憶する記憶手段と、
を有することを特徴とする情報処理装置。
前記検出手段が音声を検出しなかった場合に、前記音情報を破棄する音情報破棄手段をさらに有することを特徴とする請求項１に記載の情報処理装置。
前記記憶手段は、前記検出手段が音声を検出した場合に、音声を検出した区間の音情報のみを記憶することを特徴とする請求項１に記載の情報処理装置。
前記取得手段で取得した前記音情報を音声認識し、認識候補のいずれかを認識結果として出力する音声認識手段と、
前記認識結果を前記画像データに関連付けて記憶する認識結果記憶手段とをさらに有することを特徴とする請求項１に記載の情報処理装置。
前記音声認識手段が前記認識候補のいずれも前記認識結果としなかった場合に、前記音情報を破棄する音情報破棄手段を有することを特徴とする請求項４に記載の情報処理装置。
前記表示制御手段は、前記検出手段が前記音情報に音声を含むことを検出している間は、前記画像の表示を終了しないことを特徴とする請求項１の情報処理装置。
前記情報処理装置が傾いている状態を検出する傾き検出手段をさらに有し、
前記表示制御手段は、前記傾き検出手段が前記状態が予め設定された傾きであることを検出している間は、前記画像の表示を終了しないことを特徴とする請求項１の情報処理装置。
前記表示制御手段は、第１画像データが表す第１画像と、第２画像データが表す第２画像とを、前記表示手段に順次表示させ、
前記第１画像の表示から前記第２画像の表示に切り換えた第１時点において前記検出手段が音声を検出していた場合には、前記記憶手段は、前記第１時点から前記検出手段により音声が検出されなくなる第２時点までに前記取得手段で取得した音情報も前記第１画像データに関連付けて記憶することを特徴とする請求項１に記載の情報処理装置。
前記表示制御手段は、前記第１時点から前記第２時点に相当する時間に基づいて、前記第２画像を前記表示手段に表示させる時間を延長することを特徴とする請求項８に記載の情報処理装置。
画像データに関連付けて音情報を付与する情報処理装置であって、
前記画像データが表す画像を表示手段に表示させる表示制御手段と、
前記表示手段による前記画像の表示中に音情報を取得する取得手段と、
前記取得手段で取得した音情報の種類を判別する音種類判別手段と、
前記音種類判別手段が、前記音情報が所定の種類であると判別した場合に前記音情報を前記データに関連付けて記憶する記憶手段と、
を有することを特徴とする情報処理装置。
前記音種類判別手段が前記音情報を前記所定の種類とは異なる種類と判別した場合に、前記音情報を破棄する音情報破棄手段をさらに有することを特徴とする請求項１０に記載の情報処理装置。
画像データに関連付けて音情報を付与する情報処理方法であって、
前記画像データが表す画像を表示手段に表示する表示制御工程と、
前記表示手段への画像の表示中に音情報を取得する取得工程と、
前記取得工程で取得した前記音情報に音声が含まれるか否かを検出する検出工程と、
前記検出工程が音声を検出した場合に前記音情報を前記画像データに関連付けてメモリに記憶する記憶工程と、
を有することを特徴とする情報処理方法。
画像データに関連付けて音情報を付与する情報処理方法であって、
前記画像データが表す画像を表示手段に表示する表示制御工程と、
前記表示手段への画像の表示中に音情報を取得する取得工程と、
前記取得工程で取得した音情報の種類を判別する音種類判別工程と、
前記音種類判別工程が、前記音情報が所定の種類であると判別した場合に前記音情報を前記画像データに関連付けて保存する音情報保存工程と、
を有することを特徴とする情報処理方法。
請求項１２又は１３の何れか１項に記載の情報処理方法をコンピュータに実行させるためのプログラム。
請求項１４に記載のプログラムを記憶したコンピュータ読取可能な記憶媒体。