JP5111343B2

JP5111343B2 - 再生装置

Info

Publication number: JP5111343B2
Application number: JP2008307089A
Authority: JP
Inventors: 勝美齊藤
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2008-12-02
Filing date: 2008-12-02
Publication date: 2013-01-09
Anticipated expiration: 2028-12-02
Also published as: JP2010134507A

Description

本発明は、記録された画像信号と音声信号を再生する際に、画像には顔が現れずに声だけが聞こえる人物について、それがどのような人物であるのかを再生画像上に表示する機能を有する再生装置に関する。

従来、記録映像や、遠隔地から伝送された映像を再生表示する際に、画面上に表示されている人物に関する情報を追加表示するシステムが知られている。例えば、テレビ会議システムでは、発言者を撮影した画像に、この発言者に関して視聴者が興味のある何らの情報を付加した映像信号を生成する技術が、特許文献１に記載されている。撮影対象となりうる人物の情報を事前に登録しておき、撮影時に人物を識別して付加表示する。この方法は映像に映し出されている人物に関する情報を得たい場合には有用である。
特開平２−６７８８９号公報

民生用のビデオカメラでは、撮影対象となる人物は，視聴者の家族、友人等の既知の人物であることが多い。このような場合には、被写体人物の情報を付加的に表示する必要性が低い。

しかし、撮影視野外の人物について音声のみが記録されることが多々ある。このような場合、当該人物を特定するには、音声の記憶に頼るしか無い。しかし、これは、聞き慣れているか，話し方等に特徴がなければ、人物の特定は難しい。また、発声主を推測するための記憶を辿る作業は、映像視聴に対する集中度を低下させ、純粋に映像を楽しむことを阻害してしまう。

本発明は、このような不都合を解消する再生装置を提示することを目的とする。

上記目的を達成するため、本発明に係る再生装置は、記録媒体から読み出した画像データを再生し、再生画像信号を出力する画像処理手段と、前記記録媒体から読み出した音声データを再生し、再生音声信号を出力する音声処理手段と、複数人の声データと顔画像データを記録したデータベースと、前記再生音声信号から人声を判別し認識する人声認識手段と、前記人声認識手段で認識された人声と前記データベースに登録された声データとを照合し同定する人声照合手段と、前記再生画像信号から人物の顔を判別し認識する顔画像認識手段と、前記顔画像認識手段で認識された人物の顔と前記データベースに登録された顔画像データとを照合し同定する顔画像照合手段と、同一シーン中の前記人声照合手段で同定された人物から前記顔画像照合手段で同定された人物を除外した人物を、付加画像表示の対象として決定する付加画像表示判定手段と、前記データベースから前記付加画像表示判定手段で決定された対象の人物を示す情報を読み出して、前記再生画像信号に合成すべき付加画像を生成する付加画像生成手段と、前記再生画像信号に前記付加画像を合成する表示画像生成手段とを有することを特徴とする。

本発明によれば、映像に映し出されていない声の発声主に関する情報を再生映像中に表示することで、発声主を視覚的に認識することが可能となる。発声主を推測するための記憶を辿る作業によって映像視聴に対する集中度を低下させてしまうことが無くなる。

以下、図面を参照して、本発明の実施例を詳細に説明する。

図１は、本発明に係る再生装置の一実施例の概略構成ブロック図を示す。再生装置１０の記録媒体１２には、音声付きの映像信号が記録されている。記録媒体１２は、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）に代表される光ディスク、磁気テープ、ハードディスク、又は、フラッシュメモリを内蔵したメモリカードなどからなる。記録媒体駆動装置１４は、記録媒体１２を駆動して、記録媒体１２に信号を読み書きする装置である。

データベース１６には、複数人の個人情報データが登録可能であり、現に登録されている。各個人情報データは、顔画像照合機能に使用する顔画像データとその特徴量を示す顔画像特徴量データ、人声照合機能に使用する声データとその特徴量を示す声特徴量データ、並びに、その他の種々のデータを含む。

画像処理部１８は、記録媒体１２から読み出された圧縮画像データを復号化し、種々の加工を施して、再生画像データを生成する。顔画像認識部２０は、画像処理部１８で処理された画像データから人物の顔に該当する領域の有無を判別する。顔画像照合部２２は、顔画像認識部２０で顔画像があると判別された領域を、データベース１６に登録された顔画像データと比較する。これにより、再生画像中に含まれる人物が、データベース１６に登録済みか否か、そして登録された誰であるかを特定できる。

付加画像生成部２４は、記録媒体１２から再生された再生画像信号にスーパーインポーズされるべき付加画像データを生成する。表示画像生成部２６は画像処理部１８から出力させる再生画像データに付加画像生成部２４から出力される付加画像データを合成する。表示画像生成部２６により、再生画像に付加画像がスーパーインポーズされた合成画像が生成される。但し、表示画像生成部２６の出力画像は、合成画像以外に、再生画像のみからなる場合、又は付加画像のみからなる場合もありうる。

表示部２８は、表示画像生成部２６で生成された画像データを使用者が視認できるように画像として表示する。表示部２８は、例えば、該再生装置に組み込まれている。表示部２８は、液晶ディスプレイ（ＬＣＤ）や有機ＥＬディスプレイなどのディスプレイ装置とその駆動回路からなる。

音声処理部３０は、記録媒体１２から読み出された圧縮音声データを復号化し、種々の加工を施す。人声認識部３２は、音声処理部３０で得られた再生音声信号から、人間の発声に該当する音声の有無を判別する。人声照合部３４は、人声認識部３２で人間の声と判別された部分に対し、データベース１６に登録された声データと比較する。音量検出部３６は、人声認識部３２で人物の声であると判断された場合に、その音量の大きさを検出する。音声出力装置３８は、音声処理部３０で生成された再生音声を音響出力する装置である。音声出力装置３８は、例えば、再生装置１０に組み込まれたスピーカとその駆動回路からなる。

付加画像表示判定部４０は、顔画像照合部２２の照合結果と人声照合部３４の照合結果を基に、付加画像生成部２４により生成させる付加画像の内容を決定する。

外部出力部４２は、表示画像生成部２６により生成された画像信号及び音声処理部３０による再生音声信号を外部に出力する手段であり、例えば、外部出力用の駆動回路と、接続端子又は送信アンテナとからなる。

ＣＰＵ４４は、付加画像生成部２４及び表示画像生成部２６を制御するだけでなく、画像処理および音声処理が同期動作するように再生装置１０の全体を制御する中央演算装置である。

入力装置４６は、使用者が再生装置１０に動作モードや動作条件等を入力するための装置であり、種々のスイッチ又はボタン、若しくは、メニュー画面上に表示される操作可能な要素などからなる。

本実施例の特徴的な動作を理解するために、次のような状況を想定する。すなわち、Ａ氏とＢ氏の２人が会話を交わしている状況でＡ氏にカメラを向けた結果として、図２に示すように撮影画角内にはＡ氏だけが収まり、Ｂ氏は音声だけが記録されたとする。

図３は、そのような状況で記録された映像の、従来の方法による再生画面の表示例を示す。人物Ａを含む再生画像が画面上に表示され、再生音声が、画面横のスピーカから出力される。画面の右隅とスピーカに付記した記号群は、Ｂ氏の声を図示化したものである。

これに対し、図４は、本実施例による再生画面例を示す。再生画像が表示部２８の画面上に表示され、再生音声が、画面横のスピーカ（音声出力装置３８）から出力される。画面の右隅とスピーカに付記した記号群は、Ｂ氏の声を図示化したものである。図３とは異なり、画面内に、人物Ｂを示す付加画像が重畳表示される。人物Ｂを示す付加画像により、視聴者は，発言者がＢ氏であることを認識又は推測することができる。

本実施例により撮影画角内に入っていない話者を特定し、当該話者を示す付加画像を合成する動作を説明する。図５は、その動作のフローチャートを示す。なお、ここでは、記録媒体１２がＤＶＤであるとする。

まず、データベース１６に、必要な人物の個人情報データを事前に登録する（Ｓ１）。先に説明したように、各人の個人情報データは、顔画像データとその特徴量を示す顔画像特徴量データ、声データとその特徴量を示す声特徴量データ、及び、その他の種々の属性データからなる。属性データは、例えば、氏名、ニックネーム、性別」、年齢、生年月日及び似顔絵などからなる。

音声処理部３０は、記録媒体１２から読み出された圧縮音声データを伸長し、再生音声信号を人声認識部３２、音声出力装置３８及び外部出力部４２に供給する。人声認識部３２は、再生音声信号から人声を抽出して解析し、人声が含まれているかどうかを判別する（Ｓ２）。人声が含まれている場合、人声認識部３２は、抽出した人声データを人声照合部３４に供給する。

人声照合部３４は、人声認識部３２からの人声データからその特徴量を抽出し、データベース１６の声特徴量データに照合して、一定以上の高い相関を有する特徴量を持つ人物を探索する（Ｓ３）。人声照合部３４は、一定値以上の相関度を有する声特徴量データが存在した場合、これらの声特徴量データを有する人物を付加画像表示の候補として付加画像表示判定部４０に通知する（Ｓ４）。

他方、画像処理部１８は、記録媒体１２から再生された圧縮画像データを伸長して再生画像データを生成する。顔画像認識部２０は、再生画像から人の顔画像を抽出し、抽出した顔画像データを顔画像照合部２２に供給する（Ｓ５）。顔画像照合部２２は、顔画像認識部２０からの顔画像データからその特徴量を抽出し、データベース１６の顔画像特徴量データに照合して、一定以上の高い相関を有する顔画像特徴量を持つ人物を探索する（Ｓ６）。顔画像照合部２２は、一定値以上の相関度を有する顔画像特徴量データが存在した場合、その顔画像特徴量データを有する人物を、付加画像表示の除外候補として付加画像表示判定部４０に通知する（Ｓ７）。

付加画像表示判定部４０は、再生音声から抽出された候補（人声照合部３４からの通知情報）から、再生画像から抽出された除外候補（顔画像照合部２２からの除外候補）を除外する（Ｓ８）。これにより、話者の可能性の高い人物候補（Ｓ４）から、画面内に入っている人物（Ｓ７）を除外できる。即ち，撮影画面内には入っていないが，音声が記録されている人物を特定できる。複数人が存在する場合には、人声特徴量の相関度が最も高い人物を話者と決定する。付加画像表示判定部４０は、最終的に決定した人物を付加画像生成部２４に通知する。

付加画像生成部２４は、付加画像表示判定部４０から通知された人物の顔画像データをデータベース１６から読み出し、この顔画像を含む所定サイズの付加画像を生成する（Ｓ９）。付加画像生成部２４は、生成した付加画像を表示画像生成部２６に供給する。

表示画像生成部２６は、画像処理部１８からの再生画像データに、付加画像生成部２４からの付加画像をスーパーインポーズして、合成画像データを生成する（Ｓ１０）。合成画像データは、表示部２８に印加され、図４に示すように表示される。もちろん、外部出力部４２から外部に出力されることもある。表示画像は、記録媒体１２に記録された画像の上にピクトグラフが重ね描きされた見掛けになる。このため、再生画像にスーパーインポーズする付加画像を以降ではピクトグラフとも表現する。

データベース１６を説明する。データベース１６は、記録媒体１２に格納されても、再生装置１０に内蔵されても良い。再生装置１０がネットワーク対応の場合には、データベース１６を、ネッットワークを介して接続するサーバ上に用意しても良い。記録媒体１２が再生装置１０から着脱自在である場合、記録媒体１２のデータベースを再生装置１０の記憶領域にロードして利用する方式でも、記録媒体１２上のデータベースを直接参照する方式の何れであってもよい。また、前者の場合、データベースのみを記録した着脱可能な記録媒体を用意してもよい。

データベース１６に登録される各人の個人情報データは、顔画像照合とピクトグラフ表示に使用するための顔画像データと、音声照合に使用するための声データを必ず有する。これに加えて、氏名、ニックネーム、性別、年齢、生年月日、及び似顔絵などデータを付加的な属性情報として保持する。これらの付加的な属性情報を、顔画像データと同時に、または置き換えてピクトグラフ表示に使用してもよい。

データベース１６に登録される人数が増加してくると、ピクトグラフとして表示を出したい人物と出したくない人物の区分が生じてくる。この区分に対応するために、各々の個人情報データ毎にピクトグラフ表示の可否を設定する項目を設けるのが好ましい。新規登録された個人情報データの新規登録時にデフォルトでどちらを設定するかは、使用状況に応じて決定すればよい。ＣＰＵ４４は、付加画像を表示すべき人物が、データベース１６において、合成表示を許すように設定されている場合に、表示画像生成部２６に前記再生画像信号に前記付加画像を合成させる。

データベース１６は、他の機器で作成されたものも読み込んで使えるような汎用性のあるものであるのが好ましい。

本実施例のピクトグラフ表示について説明する。声だけが聞こえる人物に関する情報をピクトグラフで表示することは、視認性を付加できるので有用ではある。そして、表示方法を工夫することで、その効果を更に増すことができる。

ピクトグラフ表示機能の有効／無効、即ち、要否を使用者が設定できると、本来の記録画像だけを見たいという要求にも対応できる。これは、画像に映っていない人物が誰であるのかを気にしない場合や、既知の声だが聞こえている場合などに有効である。たとえば、使用者によりピクトグラフ表示機能が無効に設定されている場合、ＣＰＵ４４は、画面外の発声者の声が録音されていても、付加画像生成部２４に付加画像を生成させない。

ピクトグラフとして表示される情報はデータベース１６が有する項目の中から１つ以上である。どの項目を表示させるかを選択できると、使用者の知りたい情報に連動することができる。例えば、顔画像と同時に「氏名」を表示させれば、顔画像だけでは誰であるのかを判別しづらいときでも、人物を特定しやすくなる。もちろん、「氏名」だけを表示することでも、同様の効果を得ることができる。

ピクトグラフ表示対象者の全人物に対し表示をするデータ項目を統一した場合、幾人かの人物では該当項目が未登録である可能性も考えられる。このような状況に対応するために、ピクトグラフ表示データの各項目に優先順位を持たせ、上位項目が未登録な場合には次点項目を表示するようにすると良い。例えば、第１優先順位に「ニックネーム」を、第２優先順位に「氏名」を設定したとする。この場合、「ニックネーム」の項目が登録されている人物に関しては「ニックネーム」が表示され、「ニックネーム」の項目が登録されていない人物に関しては「氏名」が表示されるようにする。すなわち、データベース１６の各人物の項目中に、付加画像の生成に利用できる複数の項目がある場合に、使用者が、これら複数の項目の全部又は一部に優先順位を設定する手段を設ける。

このような優先順位を設定する作業は、データベース１６に登録できる各人の個人情報データの項目が多数になるほど、煩雑なものとなる。これに対しては、有限個の上位順位までを使用者が設定できるようにしておき、それ以下の順位の項目については再生装置１０が自動的に割り振るようにすればよい。これにより、使用者の負担が軽減する。尚、使用者がデータベース１６の個人情報データ内の項目に一切のデータを追加したかった場合でも、登録必須項目である顔画像データが何れかの優先順位に割り当てられるので、ピクトグラフに表示するデータは確保される。

画面上でのピクトグラフは、再生画像中の注目度の高い部分を出来るだけ遮らないが望ましい。一般的に、画像の注目度は周辺部よりも中心部の方が高い傾向にあるので、ピクトグラフの表示場所は基本的に再生画像の周辺部に配置されることになる。しかし、被写体が動いているシーンなどでは、その被写体の移動に伴って周辺部の注目度が高くなる場合もあり得る。このとき、注目度が高くなる場所と、ピクトグラフが表示される場所とが重なり合うことは望ましくない。ピクトグラフの表示場所を使用者が設定できると、このような事態を回避できる。

ピクトグラフの大きさについても使用者が設定できると便利である。例えば、大きさを、「大」、「中」、「小」やドット数で表現された規定段階の中から選択できる形式や、同様の表現が付記された図表を用いて選択する形式が考えられる。これは、再生装置１０に備えつけられている比較的小型の表示画面で見る場合と、外部接続機能を介してテレビなどの比較的大型の画面で見る場合のように、表示画面の画素数が大きく異なる場合に、有用である。視認性を満足するために求められるピクトグラフの大きさに無視できない差があるからである。

また、形状についても、四角形や丸形などの選択肢を設けると、使用者の嗜好性を活かすことができる。ただし、設定された形状に従って表示可能なデータに制限を設ける必要も生じる。例えば、小さな外形寸法内部で視認性を満足しながら表現できるデータは、限られる。実際の制限の設け方は、それぞれの再生装置に適したもので良い。ピクトグラフの形状として、このような制限が働く形状が設定された場合、表示可能なデータ候補の中の優先順位が上位のものから表示される。大きさ及び形状の何れについても、設定変更操作と同時に実際のピクトグラフの大きさ及び形状が変更するのが好ましい。

再生音声信号とデータベース１６にある声データをそれぞれの特徴量で照合して、正しい人物を選択できなかった場合、ピクトグラフに誤ったデータが使用されることになる。使用者が表示されたピクトグラフを見て誤りに気付いたとき、本実施例では、正しい内容に修正できる。図６は、その修正動作のフローチャートを示す。

使用者は、再生表示画像を見て、聞こえてくる声とピクトグラフに表示される人物情報の正誤を確認する（Ｓ２１）。ここで誤りを発見し、修正を行う場合は修正機能を使用する（Ｓ２２）。表示部２８の画面を見ながら、スイッチやタッチパネルなどの入力装置４６を用いて、正しい情報がヒストグラムとして表示されるように修正する（Ｓ２３〜Ｓ３１）。

具体的に説明する。使用者が修正を選択すると（Ｓ２２）、修正モードに入り、画面上のピクトグラフを選択する画面になる（Ｓ２３）。このピクトグラフ選択の際に、データベース１６には該当する人物がいないとして表示対象から外されていた声に対して、「該当人物なし」を示すピクトグラフを表示して、それを選択できるようにすることが望ましい。これにより、人声照合部３４が再生音声信号とデータベース１６の声データとを同定できなかった誤りに対する修正が可能になる。

ピクトグラフ選択画面上で選択されているピクトグラフは、形状や色や縁取りなどが変化をして何らかの強調表示をする。使用者は入力装置４６によって修正対象のピクトグラフを選択する（Ｓ２４）。選択の直後に、「本当に修正をして良いか」という、修正の意思を確認するダイアログを表示する（Ｓ２５）。続いて、修正後に使用するデータを検索し選択する（Ｓ２６）。

また、同時に修正するピクトグラフの対象範囲を選択する（Ｓ２７）。このような選択ステップを設けることで、誤選択の可能性を低減できる。たとえば、第１の選択肢として、「選択したもののみ」に限定する。第２の選択肢として、「選択したピクトグラフと同一人物が認識されているもの全て」に限定する。第３の選択肢として、「選択したピクトグラフと同一人物が認識されているものの中で、選択したシーンと比較して人声照合の相関率が低いもの」に限定する。これらの選択肢の表現方法は、それぞれの再生装置に適した方法が選択される。

修正実行可否を確認する（Ｓ２８）。使用者の修正実行の決定に従い、実際のピクトグラフ表示データの差替え処理が行われる（Ｓ２９）。このとき、対象となったピクトグラフと同時修正を行った範囲をデータベース１６に反映すると、次回以降の人声照合の精度が向上する。

他にも修正すべきピクトグラフがある場合（Ｓ３０）、同様の手順によって修正を行う。その他の修正すべきピクトグラフが無い場合（Ｓ３０）、修正モードから抜け（Ｓ２３１）、一連の修正作業を終える。

以上の構成および動作によって、画像信号と音声信号を再生した際に、画像に映っておらずに声だけが聞こえる人物に関する情報を視認できるようになる。

本発明の第２実施例を説明する。図７は、第２実施例の概略構成ブロック図を示す。図１に示す実施例と同じ構成要素には同じ符号を付してある。図１と同じ構成要素には同じ符号を付してある。

第２実施例では、個人情報データベースに画像と音声を記録する機能を付加した。即ち，再生装置１０ａには、カメラ部５０及びマイクロホン５２が追加される。ＣＰＵ４４ａ、画像処理部１８ａ及び音声処理部３０ａには、それぞれＣＰＵ４４、画像処理部１８及び音声処理部３０の機能に加えて、データベース１６ａに画像と音声を記録する機能を付加した。

変更部分を詳細に説明する。カメラ部５０はレンズ及び撮像センサから成り、データベース１６ａに登録する顔画像データを取り込むのに利用できる。すなわち、画像処理部１８ａは、カメラ部５０で撮影された画像信号に色バランス及びガンマ補正を施し、サイズ等を調整し、データベース１６ａに顔画像データとして登録する。

マイクロホン５２は、データベース１６ａの声データの基になる人声を収音するのに使用可能である。音声処理部３０ａは、マイクロホン５２で収音された音声信号に必要な処理を施した後、データベース１６ａに音データとして登録する。その処理のために、音声処理部３０ａは、マイクロホン５２の出力を増幅するプリアンプ、及び、プリアンプのアナログ出力をデジタル化するＡ／Ｄ変換器を具備する。

図８を参照して、取り込んだ画像データ及び音声データのデータベース１６ａへの登録方法を説明する。

使用者は再生装置１０ａの機能メニューからデータベース登録機能を選択し（Ｓ４１）、データベース１６に新しい個人情報を作成する（Ｓ４２）。

まず、顔画像データを登録する（Ｓ４３）。具体的には、カメラ部５０が起動し、撮影が可能な状態になる（Ｓ４４）。登録したい人物を被写体とし、その顔を含んだ画像を撮影する（Ｓ４５）。このとき、表示部２８にカメラ部５０が捉えている画像が表示される。被写体となった人物自身が、表示部２８の表示画像を見ながら、カメラ部５０と自分の顔の位置関係を確認できるようにすると、効率的な撮影が行える。撮影画角内に被写体が的確に捉えられたら、入力装置４６のスイッチを押して撮影を実行し、被写体の顔画像を取り込む（Ｓ４６）。画像処理部１８ａは、カメラ部５０からの画像データをデータベース１６ａへの登録に適した形式とサイズに処理する。このとき、画像処理部１８ａは、撮影した顔画像データから顔画像特徴量を算出し（Ｓ４７）、顔画像データとともにデータベース１６ａに登録する（Ｓ４８）。ここでの顔画像特徴量算出処理には、再生画像から検出された人物の顔画像特徴量を算出する機能を利用できる。

次に、声データを登録する（Ｓ４９）。音声処理部３０ａは、マイクロホン５２が収音する音声信号を処理する機能を起動する（Ｓ５０）。収音準備が整い収音可能な状態になったら、表示部２８に声を入力することを促す表示をする。登録に適したフレーズを表示し、それを登録者に発声させるようにすれば、登録者が発言すべきフレーズに迷うことがないので好ましい。声を記録する際、入力装置４６のスイッチを記録開始時と終了時に押すようにするか、押されている最中を記録期間とする。

音声処理部３０ａは、マイクロホン５２からの音声を一旦保持する（Ｓ５１）。そして、表示とともにこの音声を再生して、登録して良いかどうかを使用者に確認する（Ｓ５２）。使用者が登録を拒否すれば、音声の取り込みをやり直す。使用者が登録を承認すると、音声処理部３０ａは、取り込んだ音声をデータベース１６ａへの登録に適した形式及びサイズに処理し、声特徴量を算出し（Ｓ５３）、声データと声特徴量をデータベース１６ａに登録する（Ｓ５４）。ここでの声特徴量算出処理には、再生音声から声特徴量を算出する機能を利用できる。

続いて、データベース１６ａに、例えば、氏名等の、その他の項目を入力する（Ｓ５５）。

図８に示す登録順序は一例であり、例えば最初に「氏名」を入力してから顔画像データを登録してもよいことは明らかである。

このようにして登録されたデータベース１６ａの個人情報データは、実施例１の再生装置１０において、記録媒体１２に記録された画像信号および音声信号の再生時に使用可能である。

図９は、本発明の第３実施例の概略構成ブロック図を示す。再生装置１１０の記録媒体１１２には、音声付きの映像信号が記録されている。記録媒体１１２は、ＤＶＤに代表される光ディスク、磁気テープ、ハードディスク、又は、フラッシュメモリを内蔵したメモリカードなどからなる。記録媒体駆動装置１１４は、記録媒体１１２を駆動して、記録媒体１１２に信号を読み書きする装置である。

データベース１１６にはデータベース１６と同様に、複数人の個人情報データが登録可能であり、現に登録されている。各個人情報データは、顔画像照合機能に使用する顔画像データとその特徴量を示す顔画像特徴量データ、人声照合機能に使用する声データとその特徴量を示す声特徴量データ、並びに、その他の種々のデータを含む。

画像処理部１１８は、記録媒体１１２から読み出された圧縮画像データを復号化し、種々の加工を施して、再生画像データを生成する。顔画像認識部１２０は、画像処理部１１８で処理された画像データから人物の顔に該当する領域の有無を判別する。顔画像照合部１２２は、顔画像認識部１２０で顔画像があると判別された領域を、データベース１１６に登録された顔画像データと比較する。これにより、再生画像中に含まれる人物が、データベース１１６に登録済みか否か、そして登録された誰であるかを特定できる。

付加画像生成部１２４は、記録媒体１１２から再生された再生画像信号にスーパーインポーズされるべき付加画像データを生成する。表示画像生成部１２６は画像処理部１１８から出力させる再生画像データに付加画像生成部１２４から出力される付加画像データを合成する。表示画像生成部１２６により、再生画像に付加画像がスーパーインポーズされた合成画像が生成される。但し、表示画像生成部１２６の出力画像は、合成画像以外に、再生画像のみからなる場合、又は付加画像のみからなる場合もありうる。

表示部１２８は、表示画像生成部１２６で生成された画像データを使用者が視認できるように画像として表示する。表示部１２８は、例えば、該再生装置に組み込まれている。表示部１２８は、液晶ディスプレイ（ＬＣＤ）や有機ＥＬディスプレイなどのディスプレイ装置とその駆動回路からなる。

音声処理部１３０は、記録媒体１１２から読み出された圧縮音声データを復号化し、種々の加工を施す。人声認識部１３２は、音声処理部１３０で得られた再生音声信号から、人間の発声に該当する音声の有無を判別する。人声照合部１３４は、人声認識部１３２で人間の声と判別された部分に対し、データベース１１６に登録された声データと比較する。音量検出部１３６は、人声認識部１３２で人物の声であると判断された場合に、その音量の大きさを検出する。音声出力装置１３８は、音声処理部１３０で生成された再生音声を音響出力する装置である。音声出力装置１３８は、例えば、再生装置１１０に組み込まれたスピーカとその駆動回路からなる。

付加画像表示判定部１４０は、顔画像照合部１２２の照合結果と人声照合部１３４の照合結果を基に、付加画像生成部１２４により生成させる付加画像の内容を決定する。

外部出力部１４２は、表示画像生成部１２６により生成された画像信号及び音声処理部１３０による再生音声信号を外部に出力する手段であり、例えば、外部出力用の駆動回路と、接続端子又は送信アンテナとからなる。

カメラ部１５０はレンズ及び撮像センサから成り、データベース１１６に登録する顔画像データを取り込むのに利用できる。すなわち、画像処理部１１８は、カメラ部１５０で撮影された画像信号に色バランス及びガンマ補正を施し、サイズ等を調整し、データベース１１６に顔画像データとして登録する。画像処理部１１８はまた、カメラ部１５０からの撮影画像の特徴量を抽出し、抽出した特徴量を顔画像特徴量データとしてデータベース１１６に登録する。

マイクロホン１５２は、データベース１１６の声データの基になる人声を収音するのに使用可能である。音声処理部１３０は、マイクロホン１５２で収音された音声信号に必要な処理を施した後、データベース１１６に音データとして登録する。その処理のために、音声処理部１３０は、マイクロホン５２の出力を増幅するプリアンプ、及び、プリアンプのアナログ出力をデジタル化するＡ／Ｄ変換器を具備する。音声処理部１３０はまた、収音された音データの特徴量を抽出し、声特徴量データとしてデータベース１１６に登録する。

ＣＰＵ１４４は、付加画像生成部１２４及び表示画像生成部１２６を制御するだけでなく、画像処理および音声処理が同期動作するように再生装置１１０の全体を制御する中央演算装置である。

入力装置１４６は、使用者が再生装置１１０に動作モードや動作条件等を入力するための装置であり、種々のスイッチ又はボタン、若しくは、メニュー画面上に表示される操作可能な要素などからなる。

オーサリング処理部１６０は画像処理部１１８と音声処理部１３０の出力信号に、付加画像生成部１２４で生成された付加画像をサブピクチャとして付加したものを、規定のフォーマットに則したデータに変換する。オーサリング処理部１６０は、その処理結果を、記録媒体駆動装置１６２を介して記録媒体１６４に記録する。記録媒体１６４は、オーサリング処理部１６０で生成されたデータの記録保存先である。記録媒体駆動装置１６２は、記録媒体１６４に応じた制御方式で記録媒体１６４を駆動し、記録媒体１６４に信号を読み書きする。

記録媒体１１２をオーサリング処理部１６０の処理結果の記録先にしてもよいことは明らかである。この場合、勿論、記録媒体１１２は読み出し専用記録媒体ではなく、記録可能な媒体である。図９に示す実施例では、各データの保存場所を理解しやすいように、記録媒体１１２と記録媒体１６４を別々に図示しているに過ぎない。

図１０は、本実施例の特徴的な動作を示すフローチャートである。図１０を参照して、本実施例の特徴的な動作を説明する。

まず、データベース１１６に、必要な人物の個人情報データを事前に登録する（Ｓ１０１）。先に説明したように、各人の個人情報データは、顔画像データとその特徴量を示す顔画像特徴量データ、声データとその特徴量を示す声特徴量データ、及び、その他の種々の属性データからなる。属性データは、例えば、氏名、ニックネーム、性別」、年齢、生年月日及び似顔絵などからなる。

データベース１１６のデータの内、顔画像データ、声データ及びこれらの特徴量を示すデータは、カメラ部１５０、マイクロホン１５２、画像処理部１１８及び音声処理部１３０を使って、データベース１１６に登録できる。具体的な方法は後述する。

音声処理部１３０は、記録媒体１１２から読み出された圧縮音声データを伸長し、再生音声信号を人声認識部１３２、音声出力装置１３８、外部出力部１４２及びオーサリング処理部１６０に供給する。人声認識部１３２は、再生音声信号から人声を抽出して解析し、人声が含まれているかどうかを判別する（Ｓ１０２）。人声が含まれている場合、人声認識部１３２は、抽出した人声データを人声照合部１３４に供給する。

人声照合部１３４は、人声認識部１３２からの人声データからその特徴量を抽出し、データベース１１６の声特徴量データに照合して、一定以上の高い相関を有する特徴量を持つ人物を探索する（Ｓ１０３）。人声照合部１３４は、一定値以上の相関度を有する声特徴量データが存在した場合、これらの声特徴量データを有する人物を付加画像表示の候補として付加画像表示判定部１４０に通知する（Ｓ１０４）。

他方、画像処理部１１８は、記録媒体１１２から再生された圧縮画像データを伸長して再生画像データを生成する。顔画像認識部１２０は、再生画像から人の顔画像を抽出し、抽出した顔画像データを顔画像照合部１２２に供給する（Ｓ１０５）。顔画像照合部１２２は、顔画像認識部１２０からの顔画像データからその特徴量を抽出し、データベース１１６の顔画像特徴量データと照合して、一定以上の高い相関を有する顔画像特徴量を持つ人物を探索する（Ｓ１０６）。顔画像照合部１２２は、一定値以上の相関度を有する顔画像特徴量データが存在した場合、その顔画像特徴量データを有する人物を、付加画像表示の除外候補として付加画像表示判定部１４０に通知する（Ｓ１０７）。

付加画像表示判定部１４０は、再生音声から抽出された候補（人声照合部１３４からの通知情報）から、再生画像から抽出された除外候補（顔画像照合部１２２からの除外候補）を除外する（Ｓ１０８）。これにより、同一シーン中で、話者の可能性の高い人物候補（Ｓ１０４）から、画面内に入っている人物（Ｓ１０７）を除外できる。即ち，撮影画面内には入っていないが，音声が記録されている人物を特定できる。付加画像表示判定部１４０は、このように特定された人物を付加画像生成部１２４に通知する。

付加画像生成部１２４は、付加画像表示判定部１４０から通知された人物の顔画像データをデータベース１１６から取得し（Ｓ１０９）、この顔画像を含む所定サイズの付加画像を生成する（Ｓ１１０）。付加画像生成部１２４は、生成した付加画像を表示画像生成部１２６とオーサリング処理部１６０に供給する。

表示画像生成部１２６は、画像処理部１１８からの再生画像データに、付加画像生成部１２４からの付加画像をスーパーインポーズして、合成画像データを生成する。合成画像データは、表示部１２８に印加され、図４に示すように表示される。もちろん、外部出力部１４２から外部に出力されることもある。

また、オーサリング処理部１６０は、画像処理部１１８からの再生画像信号と、音声処理部１３０からの再生音声信号と、付加画像生成部１２４からの付加画像を多重して１つの映像コンテンツを生成する。その際、付加画像をピクトグラム様のサブピクチャとして再生画像信号に重畳した映像信号を生成する（Ｓ１１１）。オーサリング処理部１６０は、このように生成した映像コンテンツを記録媒体駆動装置１６２により記録媒体１６４に記録する（Ｓ１１２）。例えば、ＤＶＤ−ＶＩＤＥＯ形式のＤＶＤを作成する。ＤＶＤ−ＶＩＤＥＯ形式の場合、「字幕」機能をオンにすることによって、画角外で発声する人物の情報を主たる映像の上に重ね描き表示させながら、視聴できる。

データベース１１６を説明する。データベース１１６は、データベース１６と同様に、記録媒体１１２に格納されても、再生装置１１０に内蔵されても良い。再生装置１１０がネットワーク対応の場合には、データベース１１６を、ネットワークを介して接続するサーバ上に用意しても良い。記録媒体１１２が再生装置１１０から着脱自在である場合、記録媒体１１２に記録されるデータベースを再生装置１１０の記憶領域にロードして利用する方式でも、記録媒体１１２上のデータベースを直接参照する方式の何れであってもよい。また、前者の場合、データベースのみを記録した着脱可能な記録媒体を用意してもよい。

データベース１１６の構造は、データベース１６の構造と同様である。データベース１１６に登録される各人の個人情報データは、顔画像照合とピクトグラフ表示に使用するための顔画像データと、音声照合に使用するための声データを必ず有する。これに加えて、氏名、ニックネーム、性別、年齢、生年月日、及び似顔絵などデータを付加的な属性情報として保持する。これらの付加的な属性情報を、顔画像データと同時に、または置き換えてピクトグラフ表示に使用してもよい。

データベース１１６に登録される人数が増加してくると、ピクトグラフとして表示を出したい人物と出したくない人物の区分が生じてくる。この区分に対応するために、各々の個人情報データ毎にピクトグラフ表示の可否を設定する項目を設けるのが好ましい。新規登録された個人情報データの新規登録時にデフォルトでどちらを設定するかは、使用状況に応じて決定すればよい。

データベース１１６も、データベース１６と同様に、他の機器で作成されたものも読み込んで使えるような汎用性のあるものであるのが好ましい。

ピクトグラフ表示機能の有効／無効を使用者が設定できると、本来の記録画像だけを見たいという要求にも対応できる。これは、画像に映っていない人物が誰であるのかを気にしない場合や、既知の声だが聞こえている場合などに有効である。

ピクトグラフとして表示される情報はデータベース１１６が有する項目の中から１つ以上である。どの項目を表示させるかを選択できると、使用者の知りたい情報に連動することができる。例えば、顔画像と同時に「氏名」を表示させれば、顔画像だけでは誰であるのかを判別しづらいときでも、人物を特定しやすくなる。もちろん、「氏名」だけを表示することでも、同様の効果を得ることができる。

ピクトグラフ表示対象者の全人物に対し表示をするデータ項目を統一した場合、幾人かの人物では該当項目が未登録である可能性も考えられる。このような状況に対応するために、ピクトグラフ表示データの各項目に優先順位を持たせ、上位項目が未登録な場合には次点項目を表示するようにすると良い。例えば、第１優先順位に「ニックネーム」を、第２優先順位に「氏名」を設定したとする。この場合、「ニックネーム」の項目が登録されている人物に関しては「ニックネーム」が表示され、「ニックネーム」の項目が登録されていない人物に関しては「氏名」が表示される。このような優先順位を設定する作業は、データベース１１６に登録できる各人の個人情報データの項目が多数になるほど、煩雑なものとなる。これに対しては、有限個の上位順位までを使用者が設定できるようにしておき、それ以下の順位の項目については再生装置１１０が自動的に割り振るようにすればよい。これにより、使用者の負担が軽減する。尚、使用者がデータベース１１６の個人情報データ内の項目に一切のデータを追加したかった場合でも、登録必須項目である顔画像データが何れかの優先順位に割り当てられるので、ピクトグラフに表示するデータは確保される。

画面上に同時に表示されるピクトグラフの数に上限を設けると、多数のピクトグラフが現れてしまうことで主映像や他のピクトグラフを覆い隠してしまうことを防止できる。一画面上または同一シーンに対して表示されるピクトグラフの上限数又は最大数を使用者が設定できると、再生するテレビモニタのサイズや視認能力に応じて適切な変更が可能となる。このように表示数に制限がある場合、どのようなピクトグラフを優先して表示をするかが重要になってくる。最もシンプルな方法は、発声者を認識した時点で次々とピクトグラフを更新していく方法である。時系列の発声順序に注目した、所謂「後着優先型」である。常に最新の発声者からピクトグラフの表示上限に等しい数だけ遡る時点での発言者までが表示対象となる。同じ人物が連続的に発声を続ける限りは表示の更新が行われないが、他の者の発言が挿入された時点で更新が行われる。

他には、発声音量に連動する方法が考えられる。音量検出部１３６を用いて人物の発声音量を測定し、この結果からピクトグラフの表示優先順位を決定する。音量の大きな順番に優先順位が高くなれば、より耳に届きやすい人物のピクトグラフが優先表示される。逆に音量の小さな順番に優先順位が高くなれば、より耳に届きにくく聞き逃しやすい人物のピクトグラフが優先表示される。

また、もともと優先的に表示をしたい人物を決めておくことも有効である。これはデータベース１１６の登録項目中にピクトグラフ表示優先度設定値を持たせ、付加画像表示判定部１４０がこの設定値に応じた処理を行うことで実現できる。

例えば，映像ソースがホームビデオで撮影されたものである場合、撮影者が最も近距離から頻繁に発声していることが考えられる。このとき、前述のような優先順位を与えると、撮影者のピクトグラフが断然高頻度で表示されることになる。撮影者が映像に映らないことが多いのは確かではあるが、それが誰であったのかは比較的分かり易いものである。そこで、撮影者が誰であるのかを入力できるようにして、その人物のピクトグラフだけを他とは違う表現方法にしたり、あるいは表示しないようにすることで、ピクトグラフ表示の煩雑さを軽減できる。

視認性の向上とあわせて娯楽性のあるインターフェイスも考えられる。１つ目の方法では、発声音声の音量に応じてピクトグラフの大きさを変化させる。音量検出部１３６で検出された音量データとピクトグラフの外形寸法の二者に相関性を持たせる。例えば、大きさを３段階で変化させる場合、音量データに２つの閾値レベルを設け、低い側の閾値レベル以下であれば小さく、２つの閾値レベル間であれば中程度に、高い側の閾値レベル以上であれば大きくする。

２つ目の方法では、発声音声の指向角に応じてピクトグラフの表示位置を変化させる。音量検出部１３６が再生音声を解析し、スピーカ出力に対して視聴者のがどの方向からの音声と認識するかを調べる。再生音声が２チャンネルモードの場合には、音声の指向角に合わせてピクトグラフを左右方向に変化させて表示する。サラウンドモードの場合には、音声の左右方向を左右に、前後方向を上下に見立ててピクトグラフを配置する。例えば、右前方から聞こえる音声に対応するピクトグラフを再生画像の右上方に表示する。

発声音量や指向角は常時変化するものであるから、ピクトグラフ表示もその変化に追随すべきである。適当な時間間隔でピクトグラフ表示を更新することで、音声の変化動向を可視的に表すことができる。

また他にも、データベース１１６に登録されたデータを基に、性別や年齢などに応じた色分けをすることなども考えられる。
表示タイミングにも配慮をすると、より見やすくすることができる。例えば、驚いた拍子に発する「あっ」という短い発声を検出した場合を考える。このような音声の検出結果に対して敏速な反応をすると、ピクトグラフが表示されるのは一瞬の出来事となる。これではピクトグラフで表示された人物が誰であったのかを確認するのは、非常に困難になる。そこで、オーサリング処理部１６０が、ある音声に対応するピクトグラフを一定時間先行して表示開始するように設定する。また、発声終了時には、一定時間表示を保持した後に消すという設定にする。すなわち、オーサリング処理部１６０は、発声開始よりも時間的に先行してサブピクチャの表示を開始し、発声終了より時間的に遅れてサブピクチャの表示を終了するようにオーサリングを行う。こうすることで、実際の発声時間の前後にピクトグラフを確認できる時間的余裕が生まれ、短い発声に対する視認性が改善される。あるいは、事前に発声時間を検出できるようであれば、ある規定時間以下の発声に対してだけ、前記のタイミング調整を行うのも良い。

前述した様々なピクトグラフ表示方法を組み合わせてサブピクチャの設定を行う際に次のようにする。すなわち、複数のサブピクチャチャネルを生成するオーサリング処理が可能であるならば、組合せ方法を変えた複数のチャネルを持ち合わせるようにする。例えば、あるチャネルは後着優先表示で、別のチャネルは音量優先表示で、更に別のチャネルでは指向角と性別による色分けで、という手法が可能である。これがＤＶＤＶＩＤＥＯ形式でオーサリングされたものであれば、「字幕」を切り替えることで色々な表示を楽しむことができる。図１１は、同時に表示されるピクトグラフの上限数が３で、発声音量と発声指向角に連動するピクトグラフ表示例を示す。

このように、本実施例では、再生画像に映らずに再生声だけが聞こえる人物に関する情報を示すピクトグラフをサブピクチャとして表示可能な情報媒体を作成できる。

再生音声信号とデータベース１１６にある声データをそれぞれの特徴量で照合して、正しい人物を選択できなかった場合、ピクトグラフに誤ったデータが使用されることになる。使用者が表示されたピクトグラフを見て誤りに気付いたとき、本実施例では、正しい内容に修正できる。図１２は、その修正動作のフローチャートを示す。

使用者は、再生表示画像を見て、聞こえてくる声とピクトグラフに表示される人物情報の正誤を確認する（Ｓ１２１）。ここで誤りを発見し、修正を行う場合は修正機能を使用する（Ｓ１２２）。表示部１２８の画面を見ながら、スイッチやタッチパネルなどの入力装置１４６を用いて、正しい情報がヒストグラムとして表示されるように修正する（Ｓ１２３〜Ｓ１３１）。

具体的に説明する。使用者が修正を選択すると（Ｓ１２２）、修正モードに入り、画面上のピクトグラフを選択する画面になる（Ｓ１２３）。このピクトグラフ選択の際に、データベース１１６には該当する人物がいないとして表示対象から外されていた声に対して、「該当人物なし」を示すピクトグラフを表示して、それを選択できるようにすることが望ましい。これにより、人声照合部１３４が再生音声信号とデータベース１１６の声データとを同定できなかった誤りに対する修正が可能になる。

ピクトグラフ選択画面上で選択されているピクトグラフは、形状や色や縁取りなどが変化をして何らかの強調表示をする。使用者は入力装置１４６によって修正対象のピクトグラフを選択する（Ｓ１２４）。選択の直後に、「本当に修正をして良いか」という、修正の意思を確認するダイアログを表示する（Ｓ１２５）。続いて、修正後に使用するデータを検索し選択する（Ｓ１２６）。

また、同時に修正するピクトグラフの対象範囲を選択する（Ｓ１２７）。このような選択ステップを設けることで、誤選択の可能性を低減できる。たとえば、第１の選択肢として、「選択したもののみ」に限定する。第２の選択肢として、「選択したピクトグラフと同一人物が認識されているもの全て」に限定する。第３の選択肢として、「選択したピクトグラフと同一人物が認識されているものの中で、選択したシーンと比較して人声照合の相関率が低いもの」に限定する。これらの選択肢の表現方法は、それぞれの再生装置に適した方法が選択される。

修正実行可否を確認する（Ｓ１２８）。使用者の修正実行の決定に従い、実際のピクトグラフ表示データの差替え処理が行われる（Ｓ１２９）。このとき、対象となったピクトグラフと同時修正を行った範囲をデータベース１１６に反映すると、次回以降の人声照合の精度が向上する。

他にも修正すべきピクトグラフがある場合（Ｓ１３０）、同様の手順によって修正を行う。その他の修正すべきピクトグラフが無い場合（Ｓ１３０）、修正モードから抜け（Ｓ１３１）、一連の修正作業を終える。

本実施例では、カメラ部１５０及びマイクロホン１５２をデータベース１１６に顔画像データ及び声データを登録するのに使用できる。図１３を参照して、取り込んだ画像データ及び音声データのデータベース１１６への登録方法を説明する。

使用者は再生装置１１０の機能メニュからデータベース登録機能を選択し（Ｓ１４１）、データベース１１６に新しい個人情報を作成する（Ｓ１４２）。

まず、顔画像データを登録する（Ｓ１４３）。具体的には、カメラ部１５０が起動し、撮影が可能な状態になる（Ｓ１４４）。登録したい人物を被写体とし、その顔を含んだ画像を撮影する（Ｓ１４５）。このとき、表示部１２８にカメラ部１５０が捉えている画像が表示される。被写体となった人物自身が、表示部１２８の表示画像を見ながら、カメラ部１５０と自分の顔の位置関係を確認できるようにすると、効率的な撮影が行える。撮影画角内に被写体が的確に捉えられたら、入力装置１４６のスイッチを押して撮影を実行し、被写体の顔画像を取り込む（Ｓ１４６）。画像処理部１１８は、カメラ部１５０からの画像データをデータベース１１６への登録に適した形式とサイズに処理する。このとき、画像処理部１１８は、撮影した顔画像データから顔画像特徴量を算出し（Ｓ１４７）、顔画像データとともにデータベース１１６に登録する（Ｓ１４８）。ここでの顔画像特徴量算出処理には、再生画像から検出された人物の顔画像特徴量を算出する機能を利用できる。

次に、声データを登録する（Ｓ１４９）。音声処理部１３０は、マイクロホン１５２が収音する音声信号を処理する機能を起動する（Ｓ１５０）。収音準備が整い収音可能な状態になったら、表示部１２８に声を入力することを促す表示をする。登録に適したフレーズを表示し、それを登録者に発声させるようにすれば、登録者が発言すべきフレーズに迷うことがないので好ましい。声を記録する際、入力装置１４６のスイッチを記録開始時と終了時に押すようにするか、押されている最中を記録期間とする。

音声処理部１３０は、マイクロホン１５２からの音声を一旦保持する（Ｓ１５１）。そして、表示とともにこの音声を再生して、登録して良いかどうかを使用者に確認する（Ｓ１５２）。使用者が登録を拒否すれば、音声の取り込みをやり直す。使用者が登録を承認すると、音声処理部１３０は、取り込んだ音声をデータベース１１６への登録に適した形式及びサイズに処理し、声特徴量を算出し（Ｓ１５３）、声データと声特徴量をデータベース１１６に登録する（Ｓ１５４）。ここでの声特徴量算出処理には、再生音声から声特徴量を算出する機能を利用できる。

続いて、データベース１１６に、例えば、氏名等の、その他の項目を入力する（Ｓ１５５）。

図１３に示す登録順序は一例であり、例えば最初に「氏名」を入力してから顔画像データを登録してもよいことは明らかである。

本発明の第１実施例に係る再生装置の概略構成ブロック図である。撮影状況の説明図である。従来例での再生状態を示す模式図である。本実施例による再生状態を示す模式図である。本実施例における付加画像の生成過程を説明するフローチャートである。本実施例におけるピクトグラフ修正過程を説明するフローチャートである。本発明の第２実施例の概略構成ブロック図である。第２実施例におけるデータベースへの個人情報登録過程を説明するフローチャートである。本発明の第３実施例の概略構成ブロック図である。第３実施例における付加画像の生成過程を説明するフローチャートである。第３実施例におけるピクトグラム表示例を示す図である。第３実施例におけるピクトグラフ修正過程を説明するフローチャートである。第３実施例におけるデータベースへの個人情報登録過程を説明するフローチャートである。

符号の説明

１０，１０ａ，１１０：再生装置
１２，１１２：記録媒体
１４，１１４：記録媒体駆動装置
１６，１６ａ，１１６ａ：データベース
１８，１１８：画像処理部
２０，１２０：顔画像認識部
２２，１２２：顔画像照合部
２４，１２４：付加画像生成部
２６，１２６：表示画像生成部
２８，１２８：表示部
３０，１３０：音声処理部
３２，１３２：人声認識部
３４，１３４：人声照合部
３６，１３６：音量検出部
３８，１３８：音声出力装置
４０，１４０：付加画像表示判定部
４２，１４２：外部出力部
４４，１４４：ＣＰＵ
４６，１４６：入力装置
５０，１５０：カメラ部
５２，１５２：マイクロホン
１６０：オーサリング処理部
１６２：記録媒体駆動装置
１６４：記録媒体

Claims

記録媒体から読み出した画像データを再生し、再生画像信号を出力する画像処理手段と、
前記記録媒体から読み出した音声データを再生し、再生音声信号を出力する音声処理手段と、
複数人の声データと顔画像データを記録したデータベースと、
前記再生音声信号から人声を判別し認識する人声認識手段と、
前記人声認識手段で認識された人声と前記データベースに登録された声データとを照合し同定する人声照合手段と、
前記再生画像信号から人物の顔を判別し認識する顔画像認識手段と、
前記顔画像認識手段で認識された人物の顔と前記データベースに登録された顔画像データとを照合し同定する顔画像照合手段と、
同一シーン中の前記人声照合手段で同定された人物から前記顔画像照合手段で同定された人物を除外した人物を、付加画像表示の対象として決定する付加画像表示判定手段と、前記データベースから前記付加画像表示判定手段で決定された対象の人物を示す情報を読み出して、前記再生画像信号に合成すべき付加画像を生成する付加画像生成手段と、
前記再生画像信号に前記付加画像を合成する表示画像生成手段
とを有することを特徴とする再生装置。
前記データベースは、前記顔画像照合手段が使用する顔画像データとは別に、前記付加画像生成手段に供給するデータを具備することを特徴とする請求項１に記載の再生装置。
前記データベースは、前記表示画像生成手段における前記再生画像信号と前記付加画像との合成の可否を示す情報を各人物ごとに有し、
前記表示画像生成手段は、前記データベースに合成を許す情報が登録されている場合に、前記再生画像信号に前記付加画像を合成する
ことを特徴とする請求項１又は２に記載の再生装置。
前記表示画像生成手段は、前記再生画像信号が示す画像の周辺に前記付加画像を配置することを特徴とする請求項１乃至３の何れか１項に記載の再生装置。
更に、前記再生画像信号に前記付加画像をサブピクチャとして合成した画像信号と、前記再生音声信号とを含む情報を生成し、前記記録媒体または前記記録媒体とは異なる記録媒体に記録するオーサリング手段を有することを特徴とする請求項１乃至４の何れか１項に記載の再生装置。
同一シーンに対して複数の前記付加画像が存在する場合に、発声の順番で前記複数の付加画像の表示の優先順位を決定することを特徴とする請求項５に記載の再生装置。
同一シーンに対して複数の前記付加画像が存在する場合に、発声の音量の順番で前記複数の付加画像の表示の優先順位を決定することを特徴とする請求項５に記載の再生装置。
同一シーンに対して複数の前記付加画像が存在する場合に、前記データベースに登録される各人物の表示優先度に従って前記複数の付加画像の表示の優先順位を決定することを特徴とする請求項５に記載の再生装置。
前記オーサリング手段は、発声よりも時間的に先行してサブピクチャの表示を開始するようにオーサリング処理を行うことを特徴とする請求項５に記載の再生装置。
前記オーサリング手段は、発声の終了から時間的に遅れてサブピクチャの表示を終了するようにオーサリング処理を行うことを特徴とする請求項５に記載の再生装置。