JP2011135388A

JP2011135388A - 手話映像合成装置、手話映像合成方法、手話表示位置設定装置、手話表示位置設定方法、及びプログラム

Info

Publication number: JP2011135388A
Application number: JP2009293628A
Authority: JP
Inventors: Yuzo Oshima; 雄三大嶋
Original assignee: ASUTEMU KK; Astem Corp
Current assignee: ASUTEMU KK; Astem Corp
Priority date: 2009-12-25
Filing date: 2009-12-25
Publication date: 2011-07-07
Anticipated expiration: 2029-12-25
Also published as: JP5346797B2

Abstract

【課題】番組映像における人物の領域に隣接する位置に手話映像を表示する合成映像を生成して出力する手話映像合成装置を提供する。
【解決手段】番組の映像である番組映像を受け付ける番組映像受付部１１と、番組映像に対応した手話の映像である手話映像を受け付ける手話映像受付部１２と、番組映像における人物の領域を特定する人物領域特定部１３と、人物領域特定部１３が特定した人物の領域に隣接する位置に手話映像の表示位置を設定する表示位置設定部１５と、番組映像における、表示位置設定部１５が設定した表示位置に、手話映像を合成した合成映像を生成する映像合成部２０と、合成映像を出力する映像出力部２１と、を備える。
【選択図】図１

Description

本発明は、番組映像と手話映像とを合成して出力する手話映像表示装置等や、手話映像の表示位置を決める手話表示位置設定装置等に関する。

従来、番組映像と、その番組映像に関する手話映像とを表示する場合があった。その場合に、手話映像の表示位置が決まっていることがあった（例えば、特許文献１参照）。

特開２００６−１３５８２８号公報

手話映像が番組映像の表示領域内に表示される場合（例えば、番組映像の右上の領域などに、番組映像よりも小さい大きさの手話映像を表示する場合など）であって、手話映像の表示位置が決まっている場合には、不都合が生じる場合がある。例えば、番組映像において話者が左の方に表示されており、手話映像が右の方のあらかじめ決められた位置に表示されている場合には、それを見ている聴覚障害を有する者は、話者と手話映像との間で頻繁に視線移動をする必要があり、眼の疲労が大きくなるという問題があった。また、話者と手話映像とが重なってしまった場合には、話者を見ることができないという問題もあった。

本発明は、このような課題を解決するためになされたものであり、番組映像における人物の領域を特定し、その人物の領域の近傍に手話映像を合成する手話映像合成装置等を提供することを目的とする。

上記目的を達成するため、本発明による手話映像合成装置は、番組の映像である番組映像を受け付ける番組映像受付部と、番組映像に対応した手話の映像である手話映像を受け付ける手話映像受付部と、番組映像における人物の領域を特定する人物領域特定部と、人物領域特定部が特定した人物の領域に隣接する位置に手話映像の表示位置を設定する表示位置設定部と、番組映像における、表示位置設定部が設定した表示位置に、手話映像を合成した合成映像を生成する映像合成部と、合成映像を出力する映像出力部と、を備えたものである。

このような構成により、人物の領域に隣接する位置に手話映像を表示する合成映像を生成して出力することができる。したがって、その合成映像を見る者は、人物の近くに表示されている手話映像を見ることができる。その結果、例えば、話者である人物と、手話映像との間での視線移動の距離が短くなり、眼精疲労等の疲労を防止することができる。また、例えば、話者である人物が手話映像によって隠れてしまう事態を防止することができる。

また、本発明による手話映像合成装置では、人物領域特定部は、複数の人物の領域を特定するものであり、人物領域特定部が特定した複数の人物の領域のうち、話者の人物の領域を特定する話者特定部をさらに備え、表示位置設定部は、話者特定部が特定した話者に対応する人物の領域に隣接する位置に手話映像の表示位置を設定してもよい。

このような構成により、複数の人物の領域が特定された場合であっても、話者の近くに手話映像を表示することができる。複数の表示されている人物を見る者は、話者に注目することが多いと考えられるため、その話者と手話映像との間の視線移動の距離を短くすることができる。

また、本発明による手話映像合成装置では、手話映像受付部は、複数の手話映像を受け付けるものであり、人物領域特定部は、複数の人物の領域を特定するものであり、各手話映像と、各人物の領域とをそれぞれ対応付ける対応特定部をさらに備え、表示位置設定部は、各手話映像の表示位置を、手話映像に対応特定部によって対応付けられた人物の領域に隣接する位置に設定し、映像合成部は、複数の手話映像を番組映像の設定された表示位置に合成してもよい。

このような構成により、複数の手話映像を受け付けた場合に、人物の領域ごとに、それぞれ対応する手話映像を近くに表示することができる。その結果、人物と手話との間での視線移動が少なくなると共に、どの手話映像が、どの人物に対応しているのかを容易に把握することができるようになる。

また、本発明による手話映像合成装置では、対応特定部は、複数の手話映像と、複数の人物の領域とのうち、両者の動きの程度の近いものを対応付けてもよい。
このような構成により、動きの程度の類似性を見ることによって、手話映像と人物の領域との間の対応付けをとることができる。なお、人が話している場合には、口の周りやジェスチャーなどが大きくなると考えられ、またその発話に応じて手話映像の動きも大きくなると考えられるため、正確な対応付けが可能となりうる。

また、本発明による手話映像合成装置では、人物の領域の動きは、人物の領域の口の動きであってもよい。
このような構成により、口の動きによって、発話しているかどうかをより正確に捉えることができ、その結果、より正確な対応付けが可能となる。

また、本発明による手話映像合成装置では、手話映像を表示するかどうか判断する表示判断部をさらに備え、映像合成部は、表示判断部が表示しないと判断した手話映像を合成しなくてもよい。
このような構成により、例えば、手話映像の表示が不要であると判断された場合に、その不要な手話映像によって番組映像の一部が隠されてしまうことを防止することができる。

また、本発明による手話映像合成装置では、表示判断部は、手話映像に動きがない場合に、手話映像を表示しないと判断してもよい。
このような構成により、動きのない手話映像を表示しないようにすることができる。ここで、手話映像に動きがない場合には、手話のための動作が行われていないため、そのような手話映像を表示しても意味がないと考えられるからである。

また、本発明による手話映像合成装置では、番組映像受付部が受け付ける番組映像の属性を示す情報である番組関連情報を受け付ける番組関連情報受付部と、番組関連情報と、手話映像の表示の大きさを示す大きさ情報とを対応付ける情報である対応情報が記憶される対応情報記憶部と、番組関連情報受付部が受け付けた番組関連情報に、対応情報によって対応付けられる大きさ情報を取得する取得部と、をさらに備え、映像合成部は、番組映像に、取得部が取得した大きさ情報で示される大きさの手話映像を合成してもよい。

このような構成により、番組関連情報に応じて、表示する手話映像の大きさを変えることができる。例えば、手話映像が重要であることが番組関連情報によって示される場合には、その番組関連情報に対応する大きさ情報で示される手話影像の大きさを大きいものに設定しておくことによって、その番組関連情報に対応する番組映像については、手話映像を大きく表示することができる。

また、本発明による手話映像合成装置では、番組関連情報は、映像番組のジャンルを示す情報を含むものであってもよい。
このような構成により、映像番組のジャンルに応じて、手話映像の大きさを切り替えることができる。例えば、ニュースでは、手話映像が重要であると考えられるため、その手話映像の大きさを大きく設定することができる。一方、野球やサッカーなどのスポーツでは、手話映像があまり重要ではないと考えられるため、その手話映像の大きさを小さく設定することができる。

また、本発明による手話映像合成装置では、表示位置設定部は、人物領域特定部が人物の領域を特定できなかった場合には、あらかじめ決められている位置を手話映像の表示位置に設定してもよい。
このような構成により、人物の領域を特定できなかった場合であっても、少なくとも手話映像を表示することはできることになる。

また、本発明による手話映像合成装置は、番組の映像である番組映像を受け付ける番組映像受付部と、番組映像に対応した手話の映像である複数の手話映像を受け付ける手話映像受付部と、番組映像に複数の手話映像を合成した合成映像を生成する映像合成部と、合成映像を出力する映像出力部と、を備えたものである。

また、本発明による手話映像合成装置は、番組の映像である番組映像を受け付ける番組映像受付部と、番組映像に対応した手話の映像である手話映像を受け付ける手話映像受付部と、手話映像を表示するかどうか判断する表示判断部と、表示判断部が手話映像を表示すると判断した際には、番組映像に手話映像を合成した映像であり、表示判断部が手話映像を表示しないと判断した際には、手話映像である合成映像を生成する映像合成部と、合成映像を出力する映像出力部と、を備えたものである。

また、本発明による手話表示位置設定装置は、番組の映像である番組映像を受け付ける番組映像受付部と、前記番組映像における人物の領域を特定する人物領域特定部と、前記人物領域特定部が特定した人物の領域に隣接する位置に前記手話映像の表示位置を設定する表示位置設定部と、前記番組映像における、前記表示位置設定部が設定した表示位置を示す情報である位置情報を出力する出力部と、を備えたものである。
このような構成により、手話表示位置設定装置において、手話映像を合成する位置を示す位置情報を生成することができる。そして、その位置情報を用いて、例えば、手話映像合成装置において番組映像と手話映像とを合成することができる。

また、本発明による手話映像合成装置は、番組の映像である番組映像を受け付ける番組映像受付部と、前記番組映像に対応した手話の映像である手話映像を受け付ける手話映像受付部と、前記番組映像における、前記手話映像の表示位置を示す情報である位置情報を受け付ける位置情報受付部と、前記番組映像における、前記位置情報によって示される表示位置に、前記手話映像を合成した合成映像を生成する映像合成部と、前記合成映像を出力する映像出力部と、を備えたものである。
このような構成により、手話映像合成装置において、位置情報の示す位置に手話映像を合成することができる。その位置情報は、例えば、前述の手話表示位置設定装置において生成されたものであってもよい。

本発明による手話映像合成装置等によれば、例えば、番組映像における人物の領域に隣接する位置に手話映像を表示する合成映像を生成して出力することができる。

本発明の実施の形態１による手話映像合成装置の構成を示すブロック図同実施の形態による手話映像合成装置の動作を示すフローチャート同実施の形態における対応情報の一例を示す図同実施の形態における番組映像の一例を示す図同実施の形態における手話映像の一例を示す図同実施の形態における特定された人物の領域について説明するための図同実施の形態における人物領域特定情報の一例を示す図同実施の形態における手話映像の表示位置の設定について説明するための図同実施の形態における合成映像の一例を示す図同実施の形態における番組映像の一例を示す図同実施の形態における合成映像の一例を示す図同実施の形態における番組映像の一例を示す図同実施の形態における特定された人物の領域や口の領域について説明するための図同実施の形態における人物領域特定情報の一例を示す図同実施の形態における合成映像の一例を示す図同実施の形態における合成映像の一例を示す図本発明の実施の形態２による手話映像合成装置の構成を示すブロック図同実施の形態による手話映像合成装置の動作を示すフローチャート同実施の形態による手話映像合成装置の動作を示すフローチャート同実施の形態における対応結果情報の一例を示す図同実施の形態における合成映像の一例を示す図他の形態による手話表示位置設定装置と手話映像合成装置の構成を示すブロック図他の形態による手話表示位置設定装置と手話映像合成装置の構成を示すブロック図上記実施の形態におけるコンピュータシステムの外観一例を示す模式図上記実施の形態におけるコンピュータシステムの構成の一例を示す図

以下、本発明による手話映像合成装置、手話表示位置設定装置について、実施の形態を用いて説明する。なお、以下の実施の形態において、同じ符号を付した構成要素及びステップは同一または相当するものであり、再度の説明を省略することがある。

（実施の形態１）
本発明の実施の形態１による手話映像合成装置について、図面を参照しながら説明する。本実施の形態による手話映像合成装置は、番組映像における人物の領域を認識し、その人物の領域に隣接する位置に手話映像を表示するものである。

図１は、本実施の形態による手話映像合成装置１の構成を示すブロック図である。本実施の形態による手話映像合成装置１は、番組映像受付部１１と、手話映像受付部１２と、人物領域特定部１３と、話者特定部１４と、表示位置設定部１５と、表示判断部１６と、番組関連情報受付部１７と、対応情報記憶部１８と、取得部１９と、映像合成部２０と、映像出力部２１とを備える。

番組映像受付部１１は、番組の映像である番組映像を受け付ける。番組映像は、例えば、ドラマや、映画、ニュース、ドキュメンタリー、スポーツ、バラエティー等の映像であり、そのジャンルを問わない。また、番組映像のデータ形式も問わない。例えば番組情報は、アナログのデータであってもよく、デジタルのデータであってもよい。後者の場合に、番組映像の形式は、例えば、ＭＰＥＧ（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ）であってもよく、ＡＶＩ（ＡｕｄｉｏＶｉｄｅｏＩｎｔｅｒｌｅａｖｅ）であってもよく、あるいは、その他の形式であってもよい。また、その番組映像が圧縮されている場合に、その圧縮形式も問わない。番組映像は、音の情報を含んでいてもよく、あるいは、含んでいなくてもよい。

番組映像受付部１１は、例えば、カメラ等のデバイスから入力された番組映像を受け付けてもよく、有線もしくは無線の通信回線を介して送信された番組映像を受信してもよく、所定の記録媒体（例えば、光ディスクや磁気ディスク、半導体メモリなど）から読み出された番組映像を受け付けてもよい。本実施の形態では、放送された番組映像を受信する場合について説明する。なお、番組映像受付部１１は、受け付けを行うためのデバイス（例えば、モデムやネットワークカード、チューナなど）を含んでもよく、あるいは含まなくてもよい。また、番組映像受付部１１は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。

手話映像受付部１２は、番組映像に対応した手話の映像である手話映像を受け付ける。この手話映像は、番組映像受付部１１が受け付けた番組映像に対応するものである。したがって、聴覚障害者が番組映像と、その番組映像に対応した手話映像とを見ることによって、番組映像に対応する音声の情報を知ることができることになる。手話映像は、例えば、ＣＧ（ＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓ）の映像であってもよく、アニメーションの映像であってもよく、実写の映像であってもよい。この手話映像が生成される過程は問わない。例えば、放送局において、番組映像と、手話映像とが生成され、それらが同期されて放送されてもよく、番組映像（例えば、放送されたものでもよく、記録媒体から読み出されたものでもよい）に対応する手話通訳が手話通訳者によって行われ、その手話通訳者の映像を撮影することによって手話映像が生成されてもよく、番組映像に対応するテキスト情報（例えば、番組映像に対応する字幕情報であってもよく、番組映像に対応する音声情報を音声認識することによって得られたテキスト情報であってもよい）を用いて自動的に手話映像が生成されてもよく、その他の手法で生成されてもよい。

手話映像受付部１２は、例えば、カメラ等のデバイスから入力された手話映像を受け付けてもよく、有線もしくは無線の通信回線を介して送信された手話映像を受信してもよく、所定の記録媒体（例えば、光ディスクや磁気ディスク、半導体メモリなど）から読み出された手話映像を受け付けてもよい。なお、手話映像受付部１２は、受け付けを行うためのデバイス（例えば、モデムやネットワークカードなど）を含んでもよく、あるいは含まなくてもよい。また、手話映像受付部１２は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。

なお、番組映像受付部１１が受け付ける番組映像と、手話映像受付部１２が受け付ける手話映像とは、同期を取ることができるようになっている、すなわち、時間的な位置の対応が分かるようになっていることが好適である。例えば、時間的な位置が対応している番組映像と手話映像とのそれぞれが、番組映像受付部１１と手話映像受付部１２とにおいて同時に受け付けられてもよく、両者にタイムコードが含まれており、そのタイムコードを用いて両者の同期を取ることができるようになっていてもよい。後者の場合に、同期している時間的な位置に同じタイムコードが付与されていてもよく、あるいは、両者のタイムコードは独立して付与されているが、両者の同期するタイムコードを対応付ける情報が別途、存在していてもよい。両者の同期するタイムコードを対応付ける情報が別途、存在する場合に、そのタイムコードを対応付ける情報は、例えば、番組情報や、手話情報に重畳されていてもよい。

人物領域特定部１３は、番組映像における人物の領域を特定する。なお、番組映像に複数の人物の領域が存在する場合には、人物領域特定部１３は、その複数の人物の領域のそれぞれを特定してもよい。人物とは、実写の人間のことであってもよく、ＣＧやアニメーションの登場人物であってもよい。人物領域特定部１３は、番組映像の動画から人物の領域の特定を行ってもよく、あるいは、その動画に含まれる一のフレーム（静止画）において人物の領域の特定を行ってもよい。人物領域特定部１３は、番組映像に写っている人物の画像領域を特定する。人物の領域の特定は、例えば、人物の全体の画像領域の特定であってもよく、あるいは、人物の一部（例えば、顔など）の画像領域の特定であってもよい。人物の顔の画像領域の特定方法としては、例えば、人物の目、鼻、口、耳などの特徴点等によって顔の画像領域を抽出する方法や、顔の肌色によって顔の画像領域を抽出する方法などがすでに知られている。また、人物の全体の画像領域の特定方法としては、例えば、背景差分を抽出する方法、人物の形を示すパターンを保持しておき、そのパターンマッチングによって人物の領域を特定する方法、人物の顔の領域を抽出し、その抽出された顔の領域に基づいて人物全体の領域を抽出する方法などがある。抽出された人物の顔の領域に基づいて人物全体の領域を抽出する方法としては、例えば、輪郭抽出アルゴリズムを用いて顔の輪郭を延長することによって人物全体の画像領域を抽出する方法や、人物の体の形を示すパターンを保持しておき、そのパターンマッチングによって抽出された顔の画像領域に続く人物全体の画像領域を抽出する方法などがある。なお、これ以外の方法を用いて人物の画像領域を特定してもよいことは言うまでもない。人物の画像領域の特定方法は従来から知られており、その詳細な説明を省略する。また、人物領域特定部１３は、特定した人物の領域を示す情報と、その人物を識別する人物ＩＤとを対応付けて蓄積してもよい。その場合に、時間の経過に応じて人物の領域が変化する場合もあるが、その場合であっても、同じ人物の領域を示す情報に対しては、同じ人物ＩＤが対応付けられることが好適である。例えば、特徴点群を追跡することによって同じ人物の領域をトラッキングする技術などがすでに知られており、この方法の詳細な説明を省略する。

話者特定部１４は、人物領域特定部１３が複数の人物の領域を特定した際に、人物領域特定部１３が特定した複数の人物の領域のうち、話者の人物の領域を特定する。例えば、話者特定部１４は、人物領域特定部１３が特定した人物の領域において、口の特徴点によって、口の領域を特定する。そして、話者特定部１４は、その口の領域について動き検出を行い、動きがある場合（例えば、検出された動きがしきい値以上である場合など）に、その口の領域を含む人物の領域を話者の領域として特定してもよい。なお、動き検出の方法は、例えば、ブロックマッチング法や勾配法などがすでに知られており、その詳細な説明を省略する。また、動き検出は、その検出時点に対して一定の期間だけ過去の時点から、その検出時点までの番組映像を用いて行われるものとする。このことは、他の構成要素において動き検出を行う場合にも同様であるとする。この話者特定部１４での動き検出の場合には、その一定の期間は、あまり長くないことが好適である。その検出時点において、動きがあるかどうかを知りたいからである。例えば、その一定の期間は、２秒程度に設定されてもよい。また、動き検出は、例えば、その一定の期間の最先のフレームと、後端のフレームとの類似度を求めることによって行ってもよい。その類似度が大きいほど動きが小さく、類似度が小さいほど動きが大きいことになる。また、複数の人物の領域のうちのいずれか一つが話者の人物の領域に特定されることが好適であるため、複数の人物の領域に対応する口の領域において動きが検出された場合には、その検出された動きが最も大きい口の領域に対応する人物の領域を話者の人物の領域に特定してもよい。また、ここでは、口の領域の動き検出を行うことによって話者を特定する場合について説明したが、顔の領域の動き検出を行うことによって話者を特定してもよい。話者の人物の領域を特定するとは、具体的には、話者の人物の領域を識別する情報に対応付けて、話者であることを示すフラグを設定することであってもよく、その話者の人物の領域を識別する情報を所定の記憶領域に蓄積することであってもよく、あるいは、その他の方法であってもよい。

表示位置設定部１５は、人物領域特定部１３が特定した人物の領域に隣接する位置に手話映像の表示位置を設定する。人物の領域に隣接する位置とは、その人物の領域の右側であってもよく、左側であってもよく、上側であってもよく、下側であってもよい。また、隣接するとは、人物の領域と手話映像との間に全く空間を挟まないことであってもよく、少しの空間を挟むことを含んでもよい。ただし、後者の場合であっても、その少しの空間は、人物と手話映像との対応をとることができる程度の小さい空間であることが好適である。また、人物の領域に隣接するとは、手話映像がその人物の領域に重ならないことである。手話映像の表示位置を設定するとは、例えば、手話映像が矩形である場合に、番組映像における、手話映像の特定の点（例えば、いずれかの頂点であってもよく、中心点であってもよく、その他の点であってもよい）の位置を設定することであってもよい。本実施の形態では、表示位置設定部１５が、手話映像の頂点を特定する情報（例えば、手話映像の左上の頂点であることを示す情報等）と、その情報によって特定される頂点の番組映像における位置を示す情報とを設定する場合について説明する。なお、人物領域特定部１３が複数の人物の領域を特定し、話者特定部１４が話者の人物の領域を特定した場合には、表示位置設定部１５は、話者特定部１４が特定した話者に対応する人物の領域に隣接する位置に手話映像の表示位置を設定するものとする。なお、表示位置設定部１５は、人物領域特定部１３が人物の領域を特定できなかった場合には、あらかじめ決められている位置を手話映像の表示位置に設定してもよい。また、表示位置設定部１５は、人物領域特定部１３が複数の人物の領域を特定したが、話者特定部１４が話者を特定しなかった場合には、あらかじめ決められている位置を手話映像の表示位置に設定してもよい。そのあらかじめ決められている位置は、例えば、表示位置設定部１５がアクセス可能な図示しない記録媒体において記憶されていてもよい。

表示判断部１６は、手話映像を表示するかどうか判断する。この判断は、手話映像によって手話の動作が表示されていない場合にも、番組映像の一部を手話映像によって占有することは適切ではないため、行われるものである。したがって、表示判断部１６は、手話映像によって手話の動作が表示されているかどうかを判断することが好適である。その判断のために、表示判断部１６は、例えば、手話映像に対して動き検出を行い、動きがない場合に、手話映像を表示しないと判断し、動きがある場合に、手話映像を表示すると判断してもよい。なお、動きがないとは、全く動きがない場合（すなわち、時間的に隣接する２個のフレームが全く同じものである場合）であってもよく、あるいは、動きがしきい値以下である場合を含んでもよい。動き検出については、上述の説明と同様であり、その詳細な説明を省略する。なお、動き検出において一定の期間の手話映像を用いる場合に、その一定の期間は、前述の話者特定部１４の用いる一定の期間と同程度であってもよく、あるいは、その期間よりも長くてもよい。表示するかしないかは、ある程度長い周期で判断されてもよいからである。また、手話通訳者の映像等が含まれていないブランクの手話映像が受け付けられた場合や、手話映像そのものが受け付けられていない場合にも、表示判断部１６は、手話映像を表示しないと判断してもよい。また、番組映像が音の情報を含む場合に、表示判断部１６は、その音の情報に、発声された音声の情報が含まれていない場合、すなわち、音楽や効果音のみしか含まれていない場合には、手話映像を表示しないと判断し、発声された音声の情報が含まれている場合に、手話映像を表示すると判断してもよい。音の情報に発声された音声の情報が含まれている場合には、その音声に応じた有意な手話映像が存在するものと考えられるからである。なお、表示判断部１６は、音の情報に発声された音声の情報が含まれているかどうかを、例えば、音の情報に音声に対応する音響的な特徴が含まれるかどうかを判断することによって行ってもよい。その音響的な特徴が含まれる場合には、音の情報に音声の情報が含まれていることになる。その判断は、例えば、音響モデルを用いて行われてもよい。また、表示判断部１６は、音の情報に対して、既存の音声認識処理を実行し、その実行結果が有意な文書である場合には、音の情報に発声された音声の情報が含まれていると判断し、そうでない場合には、音の情報に発声された音声の情報が含まれていないと判断してもよい。有意な文書であるかどうかは、音声認識処理を実行した際の尤度を用いて知ることができる。その尤度があらかじめ設定されているしきい値よりも低い場合には、有意な文書への音声認識を行うことができなかったことになり、音の情報に発声された音声の情報が含まれていないと判断できる。また、発声された音声の特徴（例えば、周波数や強弱の変化等に関する特等等）をあらかじめ保持しておき、音の情報にその特徴が含まれるかどうか判断することによって、発声された音声が含まれるかどうかを判断してもよい。その特徴が含まれる場合には、音の情報が発声された音声であると判断されることになり、その特徴が含まれない場合には、音の情報が発声された音声でないと判断されることになる。なお、これ以外の方法によって、音の情報に発声された音声の情報が含まれているかどうかを判断してもよいことは言うまでもない。

番組関連情報受付部１７は、番組映像受付部１１が受け付ける番組映像の属性を示す情報である番組関連情報を受け付ける。番組関連情報は、例えば、番組映像のジャンルを示す情報を含んでいてもよく、番組映像の名称を示す情報を含んでいてもよく、番組の内容に関する情報（例えば、番組のトピックや、番組に登場する俳優の氏名等であってもよい）を含んでいてもよく、番組についての説明の情報を含んでいてもよく、その他の情報を含んでいてもよい。本実施の形態では、番組関連情報が番組映像のジャンルを示す情報である場合について説明する。また、番組関連情報は、ＥＰＧ（ＥｌｅｃｔｒｏｎｉｃＰｒｏｇｒａｍＧｕｉｄｅ：電子番組ガイド）の情報そのものであってもよく、その情報の一部であってもよい。このＥＰＧの情報は、例えば、ＳＩ情報（公式番組情報）と呼ばれることもある。

番組関連情報受付部１７が番組関連情報を受け付ける過程は問わない。番組関連情報受付部１７は、例えば、インターネット等のネットワーク上のサーバから番組関連情報を受信してもよく、放送された番組関連情報を受信してもよく、番組映像に重畳されている番組関連情報を受け付けてもよく、所定の記録媒体（例えば、光ディスクや磁気ディスク、半導体メモリなど）から読み出された番組関連情報を受け付けてもよい。本実施の形態では、番組関連情報受付部１７は、番組映像に重畳されている番組関連情報を受け付けるものとする。なお、番組関連情報受付部１７は、受け付けを行うためのデバイス（例えば、モデムやネットワークカードなど）を含んでもよく、あるいは含まなくてもよい。また、番組関連情報受付部１７は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。

対応情報記憶部１８では、対応情報が記憶される。対応情報は、番組関連情報と、大きさ情報とを対応付ける情報である。大きさ情報は、手話映像の表示の大きさを示す情報であり、例えば、手話映像の画面の大きさそのものを示す情報（例えば、手話映像の画面の縦・横の長さ（ピクセル）を示す情報など）であってもよく、番組映像の画面に対する手話映像の画面の相対的な大きさを示す情報（例えば、面積や長さについて５０％、３０％など）であってもよく、手話映像の画面の複数の大きさがあらかじめ設定されている場合には、その大きさを識別する情報（例えば、「大」「中」「小」など）であってもよい。なお、大きさ情報によって示される手話映像の表示の大きさは、当然ながら、番組映像の表示の大きさよりも小さいものである。

ここで、「番組関連情報と、大きさ情報とを対応付ける」とは、番組関連情報から大きさ情報を取得できればよいという意味である。したがって、対応情報は、番組関連情報と大きさ情報とを組として含む情報を有してもよく、番組関連情報と大きさ情報とをリンク付ける情報であってもよい。後者の場合には、対応情報は、例えば、番組関連情報と大きさ情報の格納されている位置を示すポインタやアドレスとを対応付ける情報であってもよい。本実施の形態では、前者の場合について説明する。また、番組関連情報と大きさ情報とは、直接対応付けられていなくてもよい。例えば、番組関連情報に、第３の情報が対応しており、その第３の情報に大きさ情報が対応していてもよい。

対応情報記憶部１８に対応情報が記憶される過程は問わない。例えば、記録媒体を介して対応情報が対応情報記憶部１８で記憶されるようになってもよく、通信回線等を介して送信された対応情報が対応情報記憶部１８で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された対応情報が対応情報記憶部１８で記憶されるようになってもよい。対応情報記憶部１８での記憶は、ＲＡＭ等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。対応情報記憶部１８は、所定の記録媒体（例えば、半導体メモリや磁気ディスク、光ディスクなど）によって実現されうる。

取得部１９は、番組関連情報受付部１７が受け付けた番組関連情報に、対応情報によって対応付けられる大きさ情報を取得する。厳密に言えば、取得部１９は、番組関連情報受付部１７が受け付けた番組関連情報であって、後述する映像合成部２０が手話映像を合成する番組映像に対応する番組関連情報に、対応情報で対応付けられている大きさ情報を取得する。その大きさ情報は、後述する映像合成部２０が番組映像に合成する手話映像の大きさを決めるために用いられることになる。映像合成部２０が手話映像を合成する番組映像に対応する番組関連情報を特定することができるように、番組映像と番組関連情報とが紐付けられていることが好適である。例えば、対応する番組映像と番組関連情報とが番組映像識別情報などによって紐付けられていてもよい。その場合には、取得部１９は、映像合成部２０が手話映像を合成する番組映像の番組映像識別情報を取得し、その番組映像識別情報に対応する番組関連情報を特定することによって、映像合成部２０が手話映像を合成する番組映像に対応する番組関連情報を特定することができることになる。

映像合成部２０は、番組映像における、表示位置設定部１５が設定した表示位置に、手話映像を合成した合成映像を生成する。映像の一部に他の映像を合成する方法はすでに公知であり、その説明を省略する。また、映像合成部２０は、表示判断部１６が手話映像を表示しないと判断した場合には、手話映像の合成を行わない。手話映像の合成を行わない場合には、番組映像そのものが、そのまま合成映像となる。また、映像合成部２０は、番組映像に、取得部１９が取得した大きさ情報で示される大きさの手話映像を合成する。

映像出力部２１は、合成映像を出力する。この合成映像は、前述のように、映像合成部２０による手話映像の合成が行われた場合には、手話映像を一部に含む番組映像であり、手話映像の合成が行われなかった場合には、番組映像そのものとなる。ここで、この出力は、例えば、表示デバイス（例えば、ＣＲＴや液晶ディスプレイなど）への表示でもよく、所定の機器への通信回線を介した送信でもよく、記録媒体への蓄積でもよく、他の構成要素への引き渡しでもよい。なお、映像出力部２１は、出力を行うデバイス（例えば、表示デバイスなど）を含んでもよく、あるいは含まなくてもよい。また、映像出力部２１は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。また、番組映像が音の情報も含む場合には、映像出力部２１は、スピーカによるその音の情報の出力を行ってもよい。

なお、番組映像受付部１１が受け付けた番組映像や、手話映像受付部１２が受け付けた手話映像、表示位置設定部１５が設定した表示位置を示す情報、番組関連情報受付部１７が受け付けた番組関連情報、取得部１９が取得した大きさ情報などは、図示しない記録媒体において一時的に記憶されてもよいことは言うまでもない。

次に、本実施の形態による手話映像合成装置１の動作について、図２のフローチャートを用いて説明する。
（ステップＳ１０１）番組関連情報受付部１７は、番組関連情報を受け付けたかどうか判断する。そして、番組関連情報を受け付けた場合には、ステップＳ１０２に進み、そうでない場合には、ステップＳ１０４に進む。

（ステップＳ１０２）取得部１９は、対応情報記憶部１８で記憶されている対応情報を用いて、番組関連情報受付部１７が受け付けた番組関連情報に対応する大きさ情報を取得する。

（ステップＳ１０３）映像合成部２０は、その取得された大きさ情報を、図示しない記録媒体で一時的に記憶する。そして、ステップＳ１０１に戻る。

（ステップＳ１０４）番組映像受付部１１は、番組映像を受け付けたかどうか判断する。そして、番組映像を受け付けた場合には、ステップＳ１０５に進み、そうでない場合には、ステップＳ１０９に進む。なお、番組映像受付部１１は、番組映像を一フレームごとに受信してもよく、あるいは、連続する複数のフレームごとに受信してもよい。

（ステップＳ１０５）手話映像受付部１２は、手話映像を受け付けたかどうか判断する。そして、手話映像を受け付けた場合には、ステップＳ１０６に進み、そうでない場合、すなわち、手話映像が手話映像合成装置１に来ていない場合には、ステップＳ１０８に進む。なお、手話映像受付部１２は、手話映像を一フレームごとに受信してもよく、あるいは、連続する複数のフレームごとに受信してもよい。

（ステップＳ１０６）表示判断部１６は、手話映像を表示するかどうか判断する。そして、手話映像を表示すると判断した場合には、ステップＳ１０７に進み、そうでない場合には、ステップＳ１０８に進む。なお、表示判断部１６は、それまでに受け付けられ、図示しない記録媒体で一時的に記憶されている一定期間（例えば、１秒程度、３秒程度など）の手話映像を用いて、この判断を行ってもよい。

（ステップＳ１０７）映像合成部２０は、手話映像受付部１２が受け付けた手話映像を、番組映像受付部１１が受け付けた番組映像に合成した合成映像を生成する。なお、その合成の際に、映像合成部２０は、ステップＳ１０３で一時的に記憶された大きさ情報に応じた大きさで手話映像が表示されるように、手話映像を番組映像に合成するものとする。また、後述するステップＳ１１４で一時的に記憶された表示位置に、手話映像が表示されるように、手話映像を番組映像に合成するものとする。なお、手話映像の合成の際に、まだ表示位置の設定が行われていない場合には、あらかじめ決められている位置に手話映像が表示されるように、手話映像を番組映像に合成してもよい。

（ステップＳ１０８）映像出力部２１は、映像合成部２０が生成した合成映像を出力する。そして、ステップＳ１０１に戻る。

（ステップＳ１０９）表示位置設定部１５は、表示位置の設定を行うかどうか判断する。そして、表示位置の設定を行う場合には、ステップＳ１１０に進み、そうでない場合には、ステップＳ１０１に戻る。なお、表示位置設定部１５は、定期的に（例えば、２秒ごと、１０秒ごとなど）に、表示位置の設定を行うと判断してもよい。手話映像の表示位置が頻繁に変更されると、手話映像を見づらくなるため、表示位置が設定される頻度は、手話映像の表示位置が頻繁に変更されない程度に設定されることが好適である。

（ステップＳ１１０）人物領域特定部１３は、番組映像における人物の領域を特定する。

（ステップＳ１１１）話者特定部１４は、複数の人物の領域が特定されたかどうか判断する。そして、複数の人物の領域が特定された場合には、ステップＳ１１２に進み、そうでない場合には、ステップＳ１１３に進む。人物の領域の特定そのものができなかった場合にも、ステップＳ１１３に進むものとする。

（ステップＳ１１２）話者特定部１４は、特定された複数の人物の領域から、話者の人物の領域を特定する。

（ステップＳ１１３）表示位置設定部１５は、特定された人物の領域に隣接する位置に、手話映像の表示位置を設定する。その特定された人物の領域は、ステップＳ１１０において特定された人物の領域が１個である場合には、その人物の領域であり、２個以上である場合には、ステップＳ１１２で特定された話者の人物の領域である。なお、表示位置設定部１５は、手話映像のすべてが番組映像の範囲内に表示されるように、その位置の設定を行うものとする。また、ステップＳ１１０で人物の領域の特定を行うことができなかった場合には、表示位置設定部１５は、あらかじめ決められている位置を手話映像の表示位置に設定する。また、手話映像のすべてが番組映像の範囲内に表示されるように適切に設定することができなかった場合にも、表示位置設定部１５は、あらかじめ決められている位置を手話映像の表示位置に設定してもよい。また、複数の人物の領域が特定されたが、ステップＳ１１２において話者の人物の領域を特定できなかった場合にも、表示位置設定部１５は、あらかじめ決められている位置を手話映像の表示位置に設定してもよい。

（ステップＳ１１４）映像合成部２０は、表示位置設定部１５によって設定された表示位置を示す情報を図示しない記録媒体において一時的に記憶する。そして、ステップＳ１０１に戻る。

なお、図２のフローチャートにおいて、ステップＳ１０４，Ｓ１０５において、番組映像と手話映像とが時間的に直列的に受け付けられる場合について説明したが、そうでなくてもよい。例えば、並列して両映像が受け付けられ、受け付けられた手話映像は、図示しない記録媒体においてバッファリングされていてもよい。そして、番組映像が受け付けられた際に、バッファリングされており、まだ合成されていない手話映像が存在する場合には、ステップＳ１０６に進み、そうでない場合には、ステップＳ１０８に進んでもよい。なお、図２のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

また、一の番組映像については、その番組映像に対応する番組関連情報は同じであるため、番組関連情報受付部１７は、新たな番組映像が受け付けられるごとに、その番組映像に対応する番組関連情報を受け付けることが好適である。また、一の番組映像の受け付けが行われている際に、番組関連情報の受け付けが複数行われる場合には、最新の番組関連情報を一時的に記憶しておき、その最新の番組関連情報と異なる番組関連情報が受け付けられた場合にのみ、ステップＳ１０２に進み、そうでない場合には、ステップＳ１０４に進むようにしてもよい。

次に、本実施の形態による手話映像合成装置１の動作について、具体例を用いて説明する。この具体例では、手話映像合成装置１が放送された番組映像、及び手話映像を受信し、その番組映像に重畳されている番組関連情報を用いて大きさ情報の取得が行われるものとする。したがって、番組映像に、その番組映像に対応する番組関連情報が重畳されていることによって、番組映像と番組関連情報との紐付けが行われていることになる。

また、この具体例において、対応情報記憶部１８では、図３で示される対応情報が記憶されているものとする。図３において、番組のジャンルを示す番組関連情報と、大きさ情報とが対応付けられている。大きさ情報は、手話映像の画面の高さ及び幅を示すものである。例えば、番組関連情報「ニュース」には、大きさ情報（Ｈ１，Ｗ１）が対応付けられている。したがって、ニュースの番組映像の場合には、画面の高さがＨ１となり、画面の幅がＷ１となるように手話映像が表示されることになる。

まず、ユーザが、手話映像合成装置１を操作することによって、ニュース番組を見るようにチャンネル設定を行ったとする。すると、そのチャンネルの図４で示される番組映像が番組映像受付部１１で受信され（ステップＳ１０４）、その番組映像に対応する図５で示される手話映像が手話映像受付部１２で受信される（ステップＳ１０５）。そして、表示判断部１６は、手話映像を表示するかどうか判断する（ステップＳ１０６）。なお、この段階では、判断できるだけの手話映像が受信されていないため、表示判断部１６は、手話映像を表示しないと判断するものとする。すると、映像合成部２０は、手話映像の合成されていない、番組映像そのものである合成映像を映像出力部２１に渡し、映像出力部２１は、その合成映像をディスプレイに表示する（ステップＳ１０８）。その結果、図４で示される表示が行われることになる。この番組映像受付部１１による番組映像の受信と、映像出力部２１による番組映像の表示とは、一定の手話映像が蓄積されて表示判断部１６が手話映像を表示すると判断するまで繰り返して実行されることになる。

なお、その番組映像の受信に応じて、その番組映像に重畳されている番組関連情報「ニュース」が番組映像受付部１１によって抽出され、その抽出された番組関連情報が図示しない経路を介して番組関連情報受付部１７に渡されたとする。番組関連情報受付部１７は、その番組関連情報を受け付けると、その番組関連情報を取得部１９に渡す（ステップＳ１０１）。取得部１９は、受け取った番組関連情報「ニュース」を検索キーとして図３で示される対応情報の番組関連情報を検索する。すると、１番目のレコードがヒットするため、取得部１９は、その１番目のレコードから大きさ情報（Ｈ１，Ｗ１）を取得して映像合成部２０に渡す（ステップＳ１０２）。映像合成部２０は、受け取った大きさ情報を、図示しない記録媒体に蓄積する（ステップＳ１０３）。

また、番組映像の受信が開始されたため、表示位置設定部１５は、表示位置の設定を行うと判断し、人物領域特定部１３に対して、人物の領域を特定する処理を行う旨の指示を渡す（ステップＳ１０９）。すると、人物領域特定部１３は、番組映像受付部１１が受け付けた図４で示される番組映像において、人物の領域を特定する（ステップＳ１１０）。その結果、図６の番組映像における太い曲線で囲まれた領域である人物の領域が特定されたとする。その人物の領域の特定に応じて、人物領域特定部１３は、図７で示される人物領域特定情報を生成し、図示しない記録媒体に蓄積する。なお、図７の人物領域特定情報において、人物ＩＤと、領域情報とが対応付けられている。人物ＩＤは、特定した人物の領域ごとに人物領域特定部１３が自動的に付与する識別情報である。また、領域情報は、図６の太い曲線を示す座標値（ピクセル値）である。各座標値（ｘ１，ｙ１）、（ｘ２，ｙ２）…等は、図６の太い曲線に対応する各ピクセルの座標値であってもよく、あるいは、図６の太い曲線に対応する各ピクセルから選択された飛び飛びの座標値（例えば、１０ピクセルごとの座標値）であってもよい。結果として、この領域情報を用いて、人物の領域を特定することができるのであれば、領域情報の内容は問わない。

次に、話者特定部１４は、図７で示される人物領域特定情報を参照し、人物ＩＤが１個しか存在しないため、複数の人物の領域の特定は行われなかったと判断する（ステップＳ１１１）。そして、表示位置設定部１５に表示位置の設定を行う旨の指示を出す。その指示に応じて、表示位置設定部１５は、特定された人物の領域に対応する表示位置の設定の処理を行う（ステップＳ１１３）。

ここで、表示位置を設定する方法の一例について図８を用いて説明する。まず、表示位置設定部１５は、特定された人物の領域のうち、横方向については最も右側の位置に対応し、上下方向については最も上側の位置に対応する第１の基準点の座標値を取得する。この座標値の取得は、領域情報に含まれる最大のｘ座標の値と、最小のｙ座標の値とを取得することによって行われる。なお、番組映像の座標系では、左上の点が原点であり、その原点から右向きにｘ軸が設定され、下向きにｙ軸が設定されているものとする。その後、表示位置設定部１５は、第１の基準点を手話映像の左上の頂点とする第１の表示位置に手話映像を表示できるかどうか判断する。具体的には、表示位置設定部１５は、映像合成部２０から大きさ情報を受け取り、その大きさ情報を用いて、第１の表示位置における左下の頂点、右上の頂点、右下の頂点のすべてが番組映像内に含まれるかどうか判断する。より具体的には、第１の基準点のｘ座標の値に、Ｗ１を加算したｘ座標の値が、番組映像のｘ座標の最大値を超えているかどうか判断する。そして、超えている場合には、右上と右下の頂点が番組映像内に含まれないことになるため、表示位置設定部１５は、少なくとも１個の頂点が番組映像内に含まれていないと判断する。また、第１の基準点のｙ座標の値に、Ｈ１を加算したｙ座標の値が、番組映像のｙ座標の最大値を超えているかどうか判断する。そして、超えている場合には、左下と右下の頂点が番組映像内に含まれないことになるため、表示位置設定部１５は、少なくとも１個の頂点が番組映像内に含まれていないと判断する。また、第１の基準点のｘ座標の値に、Ｗ１を加算したｘ座標の値が、番組映像のｘ座標の最大値を超えておらず、第１の基準点のｙ座標の値に、Ｈ１を加算したｙ座標の値が、番組映像のｙ座標の最大値を超えていない場合には、表示位置設定部１５は、すべての頂点が番組映像内に含まれると判断する。そして、表示位置設定部１５は、すべての頂点が番組映像内に含まれる場合には、手話映像の表示位置を第１の表示位置に決定する。具体的には、表示位置設定部１５は、表示位置を示す情報として、第１の基準点の座標値と、その座標値に対応するのが手話映像の左上の頂点であることを示す情報（例えば、「左上」でもよい）とを生成し、その表示位置を示す情報を映像合成部２０に渡す。

また、表示位置設定部１５は、第１の表示位置の少なくとも１個の頂点が番組映像内に含まれていない場合には、第１の基準点を手話映像の左下の頂点とする第２の表示位置に手話映像を表示できるかどうか判断する。この判断の詳細な処理については省略する。そして、第２の表示位置に手話映像を表示できる場合には、表示位置設定部１５は、手話映像の表示位置を第２の表示位置に決定する。具体的には、表示位置設定部１５は、表示位置を示す情報として、第１の基準点の座標値と、その座標値に対応するのが手話映像の左下の頂点であることを示す情報（例えば、「左下」でもよい）とを生成し、その表示位置を示す情報を映像合成部２０に渡す。

また、表示位置設定部１５は、第２の表示位置に手話映像を表示できない場合には、第１の基準点を手話映像の右下の頂点とする第３の表示位置に手話映像を表示できるかどうか判断する。この判断の詳細な処理については省略する。そして、第３の表示位置に手話映像を表示できる場合には、表示位置設定部１５は、手話映像の表示位置を第３の表示位置に決定する。

また、表示位置設定部１５は、第３の表示位置に手話映像を表示できない場合には、第２の基準点を手話映像の右上の頂点とする第４の表示位置に手話映像を表示できるかどうか判断する。この判断の詳細な処理については省略する。なお、第２の基準点は、領域情報に含まれる最小のｘ座標の値と、最小のｙ座標の値とに対応する点である。そして、第４の表示位置に手話映像を表示できる場合には、表示位置設定部１５は、手話映像の表示位置を第４の表示位置に決定する。このようにして、順番に表示位置を変更しながら、手話映像の表示位置を設定する処理を行う。なお、第５の表示位置、第６の表示位置にも手話映像を表示することができなかった場合には、表示位置設定部１５は、図示しない記録媒体から、あらかじめ決められている表示位置を読み出し、手話映像の表示位置を、その読み出した表示位置に設定する。

なお、この具体例では、手話映像の表示位置が、第１の表示位置に設定されたものとする。すなわち、第１の基準点の座標値（Ａ，Ｂ）と、頂点の位置を示す「左上」とを含む情報が映像合成部２０に渡されたとする。すると、映像合成部２０は、その情報を図示しない記録媒体に蓄積する（ステップＳ１１４）。

次に、一定の手話映像が蓄積された後に、次の番組映像が番組映像受付部１１で受信され（ステップＳ１０４）、その番組映像に対応する手話映像が手話映像受付部１２で受信されたとする（ステップＳ１０５）。すると、表示判断部１６は、手話映像を表示するかどうか判断する（ステップＳ１０６）。この場合には、すでに過去の手話映像が存在するため、表示判断部１６は、その手話映像を用いて動き検出を行い、動きがしきい値以上であり、手話映像を表示すると判断したとする（ステップＳ１０６）。すると、映像合成部２０は、図９で示されるように、第１の基準点を左上の頂点として、高さがＨ１であり、幅がＷ１である手話映像を番組映像に合成し、その合成後の合成映像を映像出力部２１に渡す（ステップＳ１０７）。映像出力部２１は、その図９で示される合成映像をディスプレイに表示する（ステップＳ１０８）。このようにして、番組映像への手話映像の合成や、定期的な表示位置の設定等が繰り返して実行されることになる。

なお、そのニュースの番組において、ニュースキャスターの位置が図１０で示されるように左の方に移動したとする。すると、それに応じて、新たな表示位置の設定が行われる（ステップＳ１０９〜Ｓ１１４）。そして、その新たに設定された表示位置に応じて、図１１で示されるように、合成される手話映像の位置も変更されることになる（ステップＳ１０４〜Ｓ１０８）。このように、番組映像において人物が移動しても、その移動に追随して手話映像も移動するため、ユーザは、人物の近くに絶えず表示される手話映像を見ることができることになる。

次に、番組映像に二人の人物が含まれる場合について説明する。図４の番組映像で表示されていたニュースキャスターの横に、図１２で示されるように、別のニュース解説者が登場したとする。すると、次の表示位置の設定を行うタイミングで、人物領域特定部１３は、図１３で示されるように、２個の人物の領域を特定する。なお、その際の人物領域特定情報において、左の人物に対応する人物ＩＤが「Ｕ００１」であり、右の人物に対応する人物ＩＤが「Ｕ００２」であったとする。また、その特定によって生成された人物領域特定情報は、図１４で示されるものであったとする。

この場合には、複数の人物の領域が特定されているため（ステップＳ１１１）、話者特定部１４は、話者を特定する処理を行う（ステップＳ１１２）。具体的には、話者特定部１４は、人物ＩＤ「Ｕ００１」で識別される人物の領域における口の領域である第１の口領域を特定し、その口領域の動き検出を行う。また、話者特定部１４は、人物ＩＤ「Ｕ００２」で識別される人物の領域における口の領域である第２の口領域を特定し、その口領域の動き検出も行う。そして、話者特定部１４は、両者の動きを比較して、動きの大きい方を話者に特定する（ステップＳ１１２）。この場合には、人物ＩＤ「Ｕ００１」に対応する動きの方が大きかったとする。すると、話者特定部１４は、その人物ＩＤ「Ｕ００１」を表示位置設定部１５に渡す。表示位置設定部１５は、その人物ＩＤ「Ｕ００１」に対応する領域情報を用いて、表示位置の設定を行う（ステップＳ１１３）。そして、その表示位置を示す情報が映像合成部２０に渡され、図示しない記録媒体に蓄積される（ステップＳ１１４）。その後、番組情報が受け付けられると、新たな表示位置に応じた手話映像と番組映像との合成が行われ（ステップＳ１０４〜Ｓ１０７）、ディスプレイに図１５で示される合成映像が表示される（ステップＳ１０８）。なお、その後に、人物ＩＤ「Ｕ００２」で識別される人物の領域における口の動きの方が大きくなると、それに応じて表示位置が変更される（ステップＳ１０９〜Ｓ１１４）。そして、その変更後の表示位置に応じて、図１６で示されるように、手話映像の合成位置が変更されることになる。

なお、ニュースの間などにおいて、単に音楽が流れるだけであり、ニュースキャスターや解説者による発話が中断したとする。すると、それに応じて手話映像の動きもなくなるため、その際には、表示判断部１６が手話映像を表示しないと判断し、手話映像の合成が行われないことになる（ステップＳ１０６，Ｓ１０８）。その後に、ニュースキャスター等による発話が開始されると、それに応じて手話映像の動きも生じることになり、表示判断部１６は手話映像を表示すると判断して、手話映像の表示が再開されることになる（ステップＳ１０６〜Ｓ１０８）。

以上のように、本実施の形態による手話映像合成装置１によれば、人物の領域の近傍に手話映像が表示されることになる。合成映像を見るユーザは、手話映像と人物の領域との両方を見たいと考えられるが、その場合でも、両者が近くに表示されるため、視線移動の距離が短くなり、眼精疲労等の疲労の起こる可能性を低減することができる。また、表示判断部１６による判断結果に応じて手話映像を表示したり、表示しなかったりするため、意味のない手話映像の表示をしないようにすることができる。また、番組映像に２以上の人物が含まれる場合には、話者を特定して、その話者の人物の領域の近傍に手話映像が表示されることになる。合成映像を見るユーザは、表示されている人物のうち、話者に注目すると考えられるため、この場合にも、その話者と手話映像とが近くに表示されることによって、視線移動を少なくすることができ、疲労を軽減できる。また、番組映像のジャンルに応じた大きさで手話映像を表示することができるため、例えば、ニュースなどのように発話内容が重要である場合には、手話映像を大きく表示し、スポーツなどのように発話内容があまり重要でない場合には、手話映像を小さく表示するようにもできる。

なお、本実施の形態では、複数の人物の領域が特定された場合に、話者特定部１４によって特定された話者の人物の領域に対応付けて手話映像が表示される場合について説明したが、そうでなくてもよい。すなわち、話者特定部１４による話者の特定を行わなくてもよい。話者の特定を行わない場合には、手話映像合成装置１は、話者特定部１４を備えていなくてもよい。また、その場合において、複数の人物の領域が特定された際には、例えば、選択された一の人物の領域に隣接する位置に手話映像の位置が設定されてもよく、複数の人物の領域の中心（この中心は、例えば、複数の人物の領域の重心であってもよい）の位置に手話映像の位置が設定されてもよい。なお、選択された一の人物の領域は、例えば、最も大きい人物の領域であってもよく、複数の人物の領域のうち、ちょうど真ん中に位置する人物の領域であってもよい（例えば、５個の人物の領域が横方向に並んでいる場合には、例えば、左から３番目の人物の領域であってもよい）。

また、本実施の形態では、話者特定部１４が口の領域の動き検出を行うことによって話者を特定する場合について説明したが、話者特定部１４は、それ以外の方法で話者を特定してもよい。例えば、話者を示す情報（例えば、左から２番目の人物が話者である等の情報）が番組映像に重畳されている場合には、話者特定部１４は、その情報を用いて、話者を特定してもよい。具体的には、話者を示す情報によって、左から２番目の人物が話者である旨が示される場合には、話者特定部１４は、人物領域特定部１３が特定した人物の領域のうち、左から２番目の人物の領域を話者の人物の領域に特定してもよい。

（実施の形態２）
本発明の実施の形態２による手話映像合成装置について、図面を参照しながら説明する。本実施の形態による手話映像合成装置は、複数の手話映像を受け付けるものである。

図１７は、本実施の形態による手話映像合成装置３の構成を示すブロック図である。本実施の形態による手話映像合成装置３は、番組映像受付部１１と、手話映像受付部１２と、人物領域特定部１３と、表示位置設定部１５と、表示判断部１６と、番組関連情報受付部１７と、対応情報記憶部１８と、取得部１９と、映像合成部２０と、映像出力部２１と、対応特定部３１とを備える。なお、対応特定部３１以外の構成及び動作は、手話映像受付部１２が複数の手話映像を受け付け、表示位置設定部１５が後述する対応特定部３１による対応付けの結果を用いて、複数の手話映像の表示位置をそれぞれ設定し、映像合成部２０が番組映像の設定されたそれぞれの位置に複数の手話映像を合成する以外は、実施の形態１と同様であり、その詳細な説明を省略する。

手話映像受付部１２は、前述のように複数の手話映像を受け付けるものである。手話映像受付部１２は、例えば、複数のインターフェースによって複数の手話映像を受け付けてもよく、複数のチャンネルで放送された複数の手話映像を受信してもよく、その複数の手話映像を受け付ける方法は問わない。本実施の形態では、手話映像受付部１２が２個の手話映像を受け付ける場合について説明する。なお、手話映像受付部１２が受け付けた複数の手話映像には、それらを識別することができる識別情報が対応付いていることが好適である。また、手話映像受付部１２が受け付ける手話映像の個数は、番組映像によって異なってもよく、また、一の番組映像内で変化してもよい。

本実施の形態では、人物領域特定部１３は、手話映像受付部１２が２以上の手話映像を受け付ける場合には、複数の人物の領域を特定することが好適である。複数の手話映像に対応する複数の人物の領域が番組映像に存在すると考えられるからである。

対応特定部３１は、手話映像受付部１２が受け付けた各手話映像と、人物領域特定部１３が特定した各人物の領域とをそれぞれ対応付ける。対応特定部３１は、複数の手話映像と、複数の人物の領域とのうち、両者の動きの程度（変化の程度）の近いもの同士を対応付けてもよい。人物の領域の動きは、人物の領域の口の動きであってもよい。「動きの程度」については、前述の動き検出の方法によって検出することができる。また、口の動きの程度の検出も、実施の形態１の話者特定部１４に関して説明した方法によって口の領域を特定し、その特定した口の領域について動き検出を行うことによって実現できる。動きの程度の近いもの同士を対応付けるとは、動きの大きいもの同士を対応付け、動きの小さいもの同士を対応付けることである。手話の動きが大きい場合には、それに対応する人物が発話しており、その発話に応じて口の周りの動きやジェスチャーなどが大きくなり、一方、手話の動きが小さい場合には、それに対応する人物が発話していないか発話しているとしても程度が低く、それに応じて口の周りの動きやジェスチャーなどが小さくなと考えられるからである。例えば、その対応付けは次のようにして行うことができる。対応特定部３１は、複数の手話映像の動きを検出し、その動きの大きい順に手話映像をソートする。また、対応特定部３１は、複数の人物の領域の動き、またはその領域の口の領域の動きを検出し、その動きの大きい順に人物の領域をソートする。そして、対応特定部３１は、ソート後の同じ順番の手話映像と、人物の領域とを対応付けることによって、動きの程度の近いもの同士を対応付けることができることになる。なお、手話映像のソートや、人物の領域のソートは、厳密には、その手話映像を識別する情報や、人物の領域を識別する情報のソートであってもよい。また、この動きの程度が近いかどうかを時系列に沿った動きの相関によって判断してもよい。例えば、ある人物領域と、手話映像とについて、時系列に沿った動きの相関が高い場合、すなわち、動きの緩急のパターンの類似度が高い場合には、両者は対応しているものであると考えられるからである。なお、手話映像と、人物の領域とを対応付けるとは、例えば、手話映像の識別情報と、人物の領域の識別情報とを対応付ける情報を生成し、図示しない記録媒体に蓄積することであってもよい。その情報は、例えば、各レコードに手話映像の識別情報と、人物の領域の識別情報とを有する情報であってもよい。

表示位置設定部１５は、各手話映像の表示位置を、手話映像に対応特定部３１によって対応付けられた人物の領域に隣接する位置に設定する。一の人物の領域に対する一の手話映像の表示位置の設定方法は、実施の形態１で説明した方法と同様である。なお、この場合には、複数の手話映像の位置を設定するため、表示位置設定部１５は、複数の手話映像が重ならないように、各手話映像の表示位置を設定することが好適である。例えば、図８のように表示位置を設定する際に、表示位置を設定しようとする手話映像が、すでに表示位置の設定された手話映像と重なる場合には、表示位置設定部１５は、その表示位置に手話映像を表示できないと判断してもよい。また、表示位置設定部１５は、人物領域特定部１３が人物の領域を特定できなかった場合には、あらかじめ決められている位置を手話映像の表示位置に設定してもよい。また、表示位置設定部１５は、手話映像同士が重ならないように表示位置を設定することができない場合にも、あらかじめ決められている位置を手話映像の表示位置に設定してもよい。また、表示位置設定部１５は、人物領域特定部１３が特定した人物の領域の個数と、手話映像受付部１２が受け付けた手話映像の個数とが一致しない場合にも、あらかじめ決められている位置を手話映像の表示位置に設定してもよい。なお、この場合には、複数の手話映像の表示位置が重ならないようにあらかじめ設定されているものとする。また、表示位置設定部１５は、人物領域特定部１３が特定した人物の領域の個数と、手話映像受付部１２が受け付けた手話映像の個数とが一致しない場合であって、特定された人物の領域が１個である場合には、その一の人物の領域に隣接する２以上の手話映像の表示位置を設定するようにしてもよい。例えば、図８のように表示位置を設定するのであれば、１個目の手話映像の表示位置が第Ｎの表示位置に決まった後に、２個目の手話映像の表示位置を第Ｎ＋１以降の表示位置に設定できるかどうかを、順次判断することによって、その表示位置を設定してもよい。３個目以降の手話映像についても同様である。

映像合成部２０は、複数の手話映像を、番組映像の表示位置設定部１５によって設定された表示位置にそれぞれ合成する。なお、手話映像を番組映像に合成する処理を手話映像の個数だけ行う以外は、実施の形態１での説明と同様である。

なお、本実施の形態では、２以上の手話映像が受け付けられる場合の処理について説明したが、一の手話映像のみが受け付けられた場合には、各構成要素は、実施の形態１と同様に動作すればよい。

次に、本実施の形態による手話映像合成装置３の動作について、図１８のフローチャートを用いて説明する。なお、図１８のフローチャートにおいて、ステップＳ２０１〜Ｓ２０５以外の処理は、実施の形態１の図２のフローチャートと同様であり、その説明を省略する。なお、手話映像受付部１２が複数の手話映像を受け付けた場合には、ステップＳ１０６では、表示判断部１６は、各手話映像について表示するかどうかを個別に判断するものとする。そして、すべての手話映像を表示しないと判断した場合には、ステップＳ１０８に進み、少なくとも１個の手話映像を表示すると判断した場合には、ステップＳ１０７に進むものとする。また、ステップＳ１０７では、表示判断部１６によって表示すると判断された手話映像のみを番組映像に合成するものとする。

（ステップＳ２０１）対応特定部３１は、手話映像の数と同じ個数の人物の領域が特定されたかどうか判断する。そして、手話映像の数と同じ個数の人物の領域が特定された場合には、ステップＳ２０２に進み、そうでない場合には、ステップＳ２０４に進む。人物の領域の特定そのものができなかった場合にも、ステップＳ２０４に進むものとする。

（ステップＳ２０２）対応特定部３１は、手話映像と人物の領域とを対応付ける。この処理の詳細については、図１９のフローチャートを用いて後述する。

（ステップＳ２０３）表示位置設定部１５は、対応特定部３１による特定結果を用いて、各手話映像の表示位置を設定する。

（ステップＳ２０４）表示位置設定部１５は、各手話映像の表示位置を、あらかじめ決められている位置に設定する。

（ステップＳ２０５）映像合成部２０は、表示位置設定部１５によって設定された表示位置を示す情報を図示しない記録媒体において一時的に記憶する。なお、この情報は、各手話映像について表示位置を示す情報である。そして、ステップＳ１０１に戻る。

なお、図１８のフローチャートのステップＳ２０４において、一の人物の領域が特定された場合には、前述のように、その一の人物の領域に隣接する位置に、複数の手話映像の表示位置を設定するようにしてもよい。また、図１８のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

図１９は、図１８のフローチャートにおける対応を特定する処理（ステップＳ２０２）の詳細を示すフローチャートである。
（ステップＳ３０１）対応特定部３１は、人物領域特定部１３によって特定された各人物の領域のそれぞれについて動きの検出を行う。

（ステップＳ３０２）対応特定部３１は、手話映像受付部１２が受け付けた複数の手話映像のそれぞれについて動きの検出を行う。

（ステップＳ３０３）対応特定部３１は、動きの程度の近いもの同士を対応付ける。そして、図１８のフローチャートに戻る。

次に、本実施の形態による手話映像合成装置３の動作について、具体例を用いて説明する。なお、複数の手話映像と、複数の人物の領域との対応付けを行い、その結果に応じて各手話映像の表示位置を設定する以外の動作については、実施の形態１の具体例と同様であり、その詳細な説明を省略する。

実施の形態１の具体例と同様に、ユーザがニュース番組を見るようにチャンネル設定が行われ、その番組映像がディスプレイに表示されたとする（ステップＳ１０４〜Ｓ１０８）。その番組映像の表示は、一定の手話映像が蓄積されて表示判断部１６が手話映像を表示すると判断するまで継続されるものとする。また、番組関連情報が受け付けられ、それに応じて大きさ情報が取得されて一時的に記憶されたとする（ステップＳ１０１〜Ｓ１０３）。なお、そのニュースの番組情報に応じて受信された手話映像は２個であるとする。

また、番組映像の受信が開始され、動き検出ができるほどの時間が経過した後に、表示位置設定部１５は、表示位置の設定を行うと判断し、人物領域特定部１３に対して、人物の領域を特定する処理を行う旨の指示を渡す（ステップＳ１０９）。すると、人物領域特定部１３は、番組映像受付部１１が受け付けた図１２と同様の番組映像において、２個の人物の領域を特定する（ステップＳ１１０）。そして、その結果を示す図１４と同様の人物領域特定情報が図示しない記録媒体に蓄積される。

次に、対応特定部３１は、手話映像の個数と、特定された人物の領域の個数とが等しいと判断し（ステップＳ２０１）、対応を特定する処理を実行する（ステップＳ２０２）。具体的には、対応特定部３１は、人物ＩＤ「Ｕ００１」に対応する領域情報で示される領域と、人物ＩＤ「Ｕ００２」に対応する領域情報で示される領域とについて、動き検出を行う（ステップＳ３０１）。また、対応特定部３１は、手話映像受付部１２が受け付けた２個の手話映像のそれぞれについても、動き検出を行う（ステップＳ３０２）。なお、その２個の手話映像を識別する情報として、手話映像ＩＤ「Ｆ００１」「Ｆ００２」が各手話映像に対応付けられているとする。そして、対応特定部３１は、対応する動きの大きい順に人物ＩＤと、手話映像ＩＤとをソートし、ソート後の手話映像ＩＤと人物ＩＤとを１番目から順番に対応付けた情報である図２０で示される対応結果情報を生成し、その対応結果情報を表示位置設定部１５に渡す（ステップＳ３０３）。表示位置設定部１５は、その対応結果情報を図示しない記録媒体に蓄積する。図２０において、例えば、対応結果情報の１番目のレコードで、人物ＩＤ「Ｕ００１」と、手話映像ＩＤ「Ｆ００１」とが対応付けられている。したがって、人物ＩＤ「Ｕ００１」に対応する人物の領域と、手話映像ＩＤ「Ｆ００１」に対応する手話映像とが対応付けられたことになる。

また、表示位置設定部１５は、その蓄積した対応結果情報を参照し、人物ＩＤ「Ｕ００１」に対応する人物の領域について、実施の形態１の具体例と同様にして表示位置を設定する。その表示位置が、手話映像ＩＤ「Ｆ００１」で識別される手話映像の表示位置となる。また、表示位置設定部１５は、同様にして、人物ＩＤ「Ｕ００２」に対応する人物の領域についても、実施の形態１の具体例と同様に表示位置を設定する。その際に、手話映像ＩＤ「Ｆ００１」で識別される手話映像の表示位置に重ならないように表示位置の設定を行うものとする（ステップＳ２０３）。そして、表示位置設定部１５は、表示位置を示す情報と、手話映像ＩＤとを対応付ける情報を、映像合成部２０に渡す。映像合成部２０は、その受け取った情報を図示しない記録媒体に蓄積する（ステップＳ２０５）。

その後、表示判断部１６がそれぞれの手話映像を表示すると判断したとすると（ステップＳ１０６）、それに応じて映像合成部２０は、２個の手話映像をそれぞれ表示位置設定部１５から受け取った、番組映像の表示位置に合成し、その合成映像を映像出力部２１に渡す（ステップＳ１０７）。映像出力部２１は、その合成映像をディスプレイに表示する（ステップＳ１０８）。図２１は、そのようにしてディスプレイに表示された合成映像である。各人物の領域に対応付けられた手話映像が合成されている。したがって、図２１の合成映像を見たユーザは、人物と手話映像との対応を容易に知ることができることになる。

以上のように、本実施の形態による手話映像合成装置３によれば、２以上の手話映像が受け付けられた場合に、各手話映像を、その手話映像に対応する人物の領域に隣接して表示することができるようになる。したがって、合成映像を見る者は、人物と手話映像との対応を容易に把握することができるようになる。また、その手話映像が人物の近くに表示されるため、手話映像と人物との間の視線移動が少なくなり、眼精疲労等の疲労を軽減することができることは実施の形態１と同様である。

なお、本実施の形態では、複数の手話映像と、複数の人物の領域との動きを用いて両者の対応を特定する場合について説明したが、それ以外の方法によって両者を対応付けてもよいことは言うまでもない。例えば、手話映像に対して、その手話映像に対応する人物を識別する人物識別情報が重畳されているとする。したがって、手話映像と人物識別情報との対応を知ることができるようになっているものとする。また、各人物識別情報と、その人物識別情報で識別される人物の画像の特徴を示す特徴情報とを対応付ける人物特徴対応情報が、図示しない記録媒体で記憶されているものとする。そして、対応特定部３１は、人物領域特定部１３が特定した人物の領域から特徴を抽出し、その特徴と一致する特徴情報を特定することによって、その人物の領域が、その特定した特徴情報に対応する人物識別情報で識別される人物のものであると知ることができる。そして、その人物識別情報を介して、人物の領域と、手話映像とを対応付けることができるようになる。ここで、一致するとは、両者が完全に一致する場合だけでなく、両者の類似度がしきい値以上の場合を含んでもよい。

また、上記各実施の形態の具体例において、手話映像として同じ図形を用いているが、これは説明の便宜上であり、実際には動きがあるため、いろいろなポーズとなりうる。

また、上記各実施の形態において、表示判断部１６によって手話映像を表示するかどうかの判断を行い、その判断結果に応じて、映像合成部２０が手話映像の合成を行う場合について説明したが、そうでなくてもよい。表示判断部１６による判断を行わなくてもよい。その場合には、手話映像合成装置１，３は、表示判断部１６を備えていなくてもよい。表示判断部１６による判断を行わない場合には、映像合成部２０は、絶えず手話映像を番組映像に合成することになる。

また、上記各実施の形態では、番組関連情報が番組のジャンルを示す情報である場合について主に説明したが、そうでなくてもよい。前述のように、番組関連情報は、番組に出演する俳優の氏名や番組の名称であってもよい。その場合であっても、その俳優の氏名や番組の名称に対応する大きさ情報が取得され、その取得された大きさ情報を用いた手話映像の合成が行われてもよい。

また、上記各実施の形態では、取得部１９が取得した大きさ情報で示される大きさの手話映像が番組映像に合成される場合について説明したが、そうでなくてもよい。あらかじめ決められた大きさの手話映像が番組映像に合成されてもよい。その場合には、手話映像合成装置１，３は、番組関連情報受付部１７、対応情報記憶部１８、取得部１９を備えていなくてもよい。

また、上記各実施の形態において、番組映像に手話映像を合成する際に、手話映像と、その手話映像に対応する人物の領域とを対応付ける表示である対応表示が追加されるようにしてもよい。例えば、手話映像と、その手話映像に対応する人物の領域とのそれぞれを囲む同じ色の外縁の線である対応表示が追加されてもよい。その追加は、映像合成部２０によって行われてもよく、他の構成要素によって行われてもよい。また、２以上の手話映像が合成される際には、手話映像ごとにその色が異なっていることが好適である。そのようにすることで、人物と手話映像との対応がよりわかりやすくなる。また、例えば、手話映像と、その手話映像に対応する人物の領域との間を結ぶ線である対応表示が追加されてもよい。また、その他の対応表示が追加されてもよいことは言うまでもない。

また、上記各実施の形態において、人物領域特定部１３が特定した人物の領域があらかじめ決められている大きさよりも小さい場合には、表示位置設定部１５は、その人物の領域に対して手話映像の位置の設定を行わなくてもよい。あまりにも小さい人物の映像の場合には、手話映像がその人物に対応したものであるのかどうかが明確でないことが多いと考えられるからである。また、人物領域特定部１３が特定した人物の領域があらかじめ決められている数よりも多い場合には、表示位置設定部１５は、その人物の領域に対して手話映像の位置の設定を行わなくてもよい。あまりにも人物の映像が多い場合には、手話映像がどの人物に対応したものであるのかが明確でないことが多いと考えられるからである。

また、手話映像合成装置は、２以上の手話映像を受け付けて、それを合成した合成映像を生成するものであってもよい。その場合には、例えば、手話映像合成装置は、番組映像受付部と、手話映像受付部と、映像合成部と、映像出力部とを備えたものであってもよい。番組映像受付部は、番組映像を受け付けるものであり、前述の番組映像受付部１１と同様のものである。また、手話映像受付部は、番組映像に対応した手話の映像である複数の手話映像を受け付けるものであり、前述の実施の形態２における手話映像受付部１２と同様のものである。映像合成部は、番組映像に複数の手話映像を合成した合成映像を生成する。その場合に、手話映像を合成する番組映像における位置は、あらかじめ決められたものであってもよく、あるいは、そうでなくてもよい。後者の場合には、前述のように表示位置設定部１５等によって決められた位置であってもよい。映像出力部は、合成映像を出力するものであり、前述の映像出力部２１と同様のものである。このような手話映像合成装置によって、２以上の手話映像を一の番組映像に合成することによって、合成映像を生成することができる。

また、手話映像合成装置は、表示判断部による判断結果に応じて、手話映像を表示したり、しなかったりするものであってもよい。その場合には、例えば、手話映像合成装置は、番組映像受付部と、手話映像受付部と、表示判断部と、映像合成部と、映像出力部とを備えたものであってもよい。番組映像受付部は、番組映像を受け付けるものであり、前述の番組映像受付部１１と同様のものである。また、手話映像受付部は、番組映像に対応した手話の映像である複数の手話映像を受け付けるものであり、前述の実施の形態２における手話映像受付部１２と同様のものである。表示判断部は、手話映像を表示するかどうか判断するものであり、前述の表示判断部１６と同様のものである。映像合成部は、表示判断部が手話映像を表示すると判断した際には、番組映像に手話映像を合成した映像である合成映像を生成し、表示判断部が手話映像を表示しないと判断した際には、手話映像である合成映像を生成するものであり、前述の映像合成部２０と同様のものである。映像出力部は、合成映像を出力するものであり、前述の映像出力部２１と同様のものである。このような手話映像合成装置によって、手話映像を表示する必要がない場合には、その手話映像を合成しないようにすることができ、不必要な手話映像によって、番組映像の一部が占有されることを回避することができる。

なお、上記各実施の形態では、手話映像合成装置１，３において、手話映像の表示位置を設定すると共に、番組映像と手話映像との合成も行う場合について説明したが、手話映像の表示位置の設定と、番組映像と手話映像との合成とは別個に行われてもよい。その場合には、例えば、図２２で示されるように、手話表示位置設定装置５において、手話映像の表示位置の設定が行われ、手話映像合成装置６において、番組映像と手話映像との合成が行われてもよい。

図２２において、手話表示位置設定装置５は、番組映像受付部１１と、手話映像受付部１２と、人物領域特定部１３と、話者特定部１４と、表示位置設定部１５と、出力部５１とを備える。なお、出力部５１以外の構成及び動作は、実施の形態１と同様であり、その説明を省略する。

出力部５１は、番組映像における、表示位置設定部１５が設定した表示位置を示す情報である位置情報を出力する。なお、出力部５１は、番組映像受付部１１が受け付けた番組映像、及び、手話映像受付部１２が受け付けた手話映像を、位置情報と一緒に出力してもよい。ここで、この出力は、例えば、所定の機器への通信回線を介した送信でもよく、記録媒体への蓄積でもよい。ここでは、出力部５１は、有線または無線の通信回線５００を介して、位置情報、番組映像、手話映像を手話映像合成装置６に送信するものとする。通信回線５００を介した送信は、例えば、放送であってもよく、インターネットやイントラネット、公衆電話回線網を介した送信であってもよい。なお、出力部５１は、出力を行うデバイス（例えば、通信デバイスなど）を含んでもよく、あるいは含まなくてもよい。また、出力部５１は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。

なお、手話表示位置設定装置５は、例えば、番組映像の送信元の装置（例えば、放送局の装置）であってもよく、その番組映像を中継する装置であってもよい。前者の場合には、例えば、番組映像受付部１１や手話映像受付部１２は、番組映像等を記録媒体から読み出すことによって受け付けてもよい。また、後者の場合には、例えば、番組映像受付部１１や手話映像受付部１２は、番組映像等を受信することになる。また、前述のように、両映像は同期されていることが好適であることは言うまでもない。また、出力部５１が番組映像や手話映像、位置情報を送信する際には、それらを同期できるように送信することが好適である。例えば、出力部５１は、同期している番組映像と手話映像と位置情報とを、それぞれ別チャンネルで送信してもよい。また、例えば、出力部５１は、番組映像と、手話映像と、位置情報とを、それらの同期のための情報（例えば、タイムコードなど）と一緒に送信してもよい。出力部５１が送信以外の出力を行う場合にも同様である。なお、手話表示位置設定装置５は、番組映像等をリアルタイムで受け付けて、それを用いて位置情報を生成し、番組映像等と位置情報とをリアルタイムで出力してもよく、あるいは、生成した位置情報を図示しない記録媒体で記憶しておき、その位置情報を一括して出力してもよい。

図２２において、手話映像合成装置６は、番組映像受付部１１と、手話映像受付部１２と、表示判断部１６と、番組関連情報受付部１７と、対応情報記憶部１８と、取得部１９と、映像出力部２１と、位置情報受付部６１と、映像合成部６２とを備える。なお、位置情報受付部６１及び映像合成部６２以外の構成及び動作は、実施の形態１と同様であり、その説明を省略する。なお、ここでは、番組映像受付部１１及び手話映像受付部１２は、手話表示位置設定装置５から送信された番組映像等を受信するものとする。

位置情報受付部６１は、手話映像を表示する位置を示す位置情報を受け付ける。ここで、この受け付けは、例えば、有線もしくは無線の通信回線を介して送信された情報の受信でもよく、所定の記録媒体（例えば、光ディスクや磁気ディスク、半導体メモリなど）から読み出された情報の受け付けでもよい。ここでは、位置情報受付部６１が手話表示位置設定装置５から送信された位置情報を受信する場合について説明する。なお、位置情報受付部６１は、受け付けを行うためのデバイス（例えば、モデムやネットワークカードなど）を含んでもよく、あるいは含まなくてもよい。また、位置情報受付部６１は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。また、位置情報受付部６１が受け付ける位置情報は、手話映像合成装置６の番組映像受付部１１が受け付ける番組映像に関連したものである。すなわち、その番組映像において、人物の領域に隣接する位置に手話映像を表示するための位置情報である。

映像合成部６２は、表示位置設定部１５が設定した表示位置に代えて、位置情報受付部６１が受け付けた位置情報で示される表示位置に手話映像を合成する以外、実施の形態１の映像合成部２０と同様のものであり、その詳細な説明を省略する。

この図２２で示されるように、手話表示位置設定装置５において表示位置を設定し、手話映像合成装置６においてその設定された表示位置を用いて手話映像を合成してもよい。
なお、手話表示位置設定装置５において、手話映像の表示位置の設定のためには、手話映像は必要ないため、手話表示位置設定装置５は、手話映像を受け付けなくてもよい。その場合には、手話表示位置設定装置５は、手話映像受付部１２を備えていなくてもよい。また、手話表示位置設定装置５において、話者を特定した表示位置の設定を行わなくてもよい。その場合には、手話表示位置設定装置５は、話者特定部１４を備えていなくてもよい。また、手話表示位置設定装置５の出力部５１は、番組映像や手話映像を出力しなくてもよい。その場合には、出力部５１は、位置情報のみを出力するものであってもよい。

また、手話映像合成装置６において、表示判断部１６による判断に応じた手話映像の合成を行わなくてもよい。その場合には、手話映像合成装置６は、表示判断部１６を備えていなくてもよい。また、手話映像合成装置６において、番組関連情報に応じた手話映像の合成を行わなくてもよい。その場合には、手話映像合成装置６は、番組関連情報受付部１７と、対応情報記憶部１８と、取得部１９とを備えていなくてもよい。

また、手話表示位置設定装置５から手話映像合成装置６に、記録媒体等を介して位置情報が渡されてもよいことは言うまでもない。例えば、出力部５１が位置情報を記録媒体に蓄積し、位置情報受付部６１がその記録媒体から位置情報を読み出してもよい。また、手話表示位置設定装置５から手話映像合成装置６に、番組映像や手話映像が送信されなくてもよいことは言うまでもない。その場合には、手話映像合成装置６の番組映像受付部１１や手話映像受付部１２は、受信以外の方法によって番組映像等を受け付けてもよい。

また、上記実施の形態２の手話映像合成装置３についても、図２２の手話表示位置設定装置５と手話映像合成装置６と同様に、手話映像の表示位置の設定と、番組映像等の合成とを別の装置で行ってもよい。その場合には、図２３で示されるように、手話表示位置設定装置７は、番組映像受付部１１と、手話映像受付部１２と、人物領域特定部１３と、表示位置設定部１５と、対応特定部３１と、出力部５１とを備える。それらの構成及び動作は、実施の形態２及び前述の説明と同様のものであり、その説明を省略する。また、図２３において、手話映像合成装置６は、図２２の手話映像合成装置６と同様のものである。

また、上記実施の形態において、各処理または各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよく、あるいは、複数の装置または複数のシステムによって分散処理されることによって実現されてもよい。

また、上記実施の形態において、各構成要素が実行する処理に関係する情報、例えば、各構成要素が受け付けたり、取得したり、選択したり、生成したり、送信したり、受信したりした情報や、各構成要素が処理で用いるしきい値や数式、アドレス等の情報等は、上記説明で明記していない場合であっても、図示しない記録媒体において、一時的に、あるいは長期にわたって保持されていてもよい。また、その図示しない記録媒体への情報の蓄積を、各構成要素、あるいは、図示しない蓄積部が行ってもよい。また、その図示しない記録媒体からの情報の読み出しを、各構成要素、あるいは、図示しない読み出し部が行ってもよい。

また、上記実施の形態において、各構成要素等で用いられる情報、例えば、各構成要素が処理で用いるしきい値やアドレス、各種の設定値等の情報がユーザによって変更されてもよい場合には、上記説明で明記していない場合であっても、ユーザが適宜、それらの情報を変更できるようにしてもよく、あるいは、そうでなくてもよい。それらの情報をユーザが変更可能な場合には、その変更は、例えば、ユーザからの変更指示を受け付ける図示しない受付部と、その変更指示に応じて情報を変更する図示しない変更部とによって実現されてもよい。その図示しない受付部による変更指示の受け付けは、例えば、入力デバイスからの受け付けでもよく、通信回線を介して送信された情報の受信でもよく、所定の記録媒体から読み出された情報の受け付けでもよい。

また、上記実施の形態において、手話映像合成装置１，３に含まれる２以上の構成要素が通信デバイスや入力デバイス等を有する場合に、２以上の構成要素が物理的に単一のデバイスを有してもよく、あるいは、別々のデバイスを有してもよい。

また、上記実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをＣＰＵ等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。なお、上記実施の形態における手話映像合成装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、番組の映像である番組映像を受け付ける番組映像受付部、番組映像に対応した手話の映像である手話映像を受け付ける手話映像受付部、番組映像における人物の領域を特定する人物領域特定部、人物領域特定部が特定した人物の領域に隣接する位置に手話映像の表示位置を設定する表示位置設定部、番組映像における、表示位置設定部が設定した表示位置に、手話映像を合成した合成映像を生成する映像合成部、合成映像を出力する映像出力部として機能させるためのプログラムである。

なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を受け付ける受付部や、情報を出力する出力部などにおけるモデムやインターフェースカードなどのハードウェアでしか実現できない機能は、上記プログラムが実現する機能には少なくとも含まれない。

また、このプログラムは、サーバなどからダウンロードされることによって実行されてもよく、所定の記録媒体（例えば、ＣＤ−ＲＯＭなどの光ディスクや磁気ディスク、半導体メモリなど）に記録されたプログラムが読み出されることによって実行されてもよい。また、このプログラムは、プログラムプロダクトを構成するプログラムとして用いられてもよい。

また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。

図２４は、上記プログラムを実行して、上記実施の形態による手話映像合成装置を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現されうる。

図２４において、コンピュータシステム９００は、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）ドライブ９０５、ＦＤ（Ｆｌｏｐｐｙ（登録商標）Ｄｉｓｋ）ドライブ９０６を含むコンピュータ９０１と、キーボード９０２と、マウス９０３と、モニタ９０４とを備える。

図２５は、コンピュータシステム９００の内部構成を示す図である。図２５において、コンピュータ９０１は、ＣＤ−ＲＯＭドライブ９０５、ＦＤドライブ９０６に加えて、ＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９１１と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ９１２と、ＭＰＵ９１１に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９１３と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク９１４と、ＭＰＵ９１１、ＲＯＭ９１２等を相互に接続するバス９１５とを備える。なお、コンピュータ９０１は、ＬＡＮへの接続を提供する図示しないネットワークカードを含んでいてもよい。

コンピュータシステム９００に、上記実施の形態による手話映像合成装置の機能を実行させるプログラムは、ＣＤ−ＲＯＭ９２１、またはＦＤ９２２に記憶されて、ＣＤ−ＲＯＭドライブ９０５、またはＦＤドライブ９０６に挿入され、ハードディスク９１４に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ９０１に送信され、ハードディスク９１４に記憶されてもよい。プログラムは実行の際にＲＡＭ９１３にロードされる。なお、プログラムは、ＣＤ−ＲＯＭ９２１やＦＤ９２２、またはネットワークから直接、ロードされてもよい。

プログラムは、コンピュータ９０１に、上記実施の形態による手話映像合成装置の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム９００がどのように動作するのかについては周知であり、詳細な説明は省略する。

また、本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

以上より、本発明による手話映像合成装置等によれば、番組映像における人物の領域に隣接する位置に手話映像を表示する合成映像を生成して出力できるという効果が得られ、番組映像と手話映像とを合成する装置等として有用である。

１、３、６手話映像合成装置
５、７手話表示位置設定装置
１１番組映像受付部
１２手話映像受付部
１３人物領域特定部
１４話者特定部
１５表示位置設定部
１６表示判断部
１７番組関連情報受付部
１８対応情報記憶部
１９取得部
２０、６２映像合成部
２１映像出力部
３１対応特定部
５１出力部
６１位置情報受付部

Claims

番組の映像である番組映像を受け付ける番組映像受付部と、
前記番組映像に対応した手話の映像である手話映像を受け付ける手話映像受付部と、
前記番組映像における人物の領域を特定する人物領域特定部と、
前記人物領域特定部が特定した人物の領域に隣接する位置に前記手話映像の表示位置を設定する表示位置設定部と、
前記番組映像における、前記表示位置設定部が設定した表示位置に、前記手話映像を合成した合成映像を生成する映像合成部と、
前記合成映像を出力する映像出力部と、を備えた手話映像合成装置。
前記人物領域特定部は、複数の人物の領域を特定するものであり、
前記人物領域特定部が特定した複数の人物の領域のうち、話者の人物の領域を特定する話者特定部をさらに備え、
前記表示位置設定部は、前記話者特定部が特定した話者に対応する人物の領域に隣接する位置に前記手話映像の表示位置を設定する、請求項１記載の手話映像合成装置。
前記手話映像受付部は、複数の手話映像を受け付けるものであり、
前記人物領域特定部は、複数の人物の領域を特定するものであり、
各手話映像と、各人物の領域とをそれぞれ対応付ける対応特定部をさらに備え、
前記表示位置設定部は、各手話映像の表示位置を、当該手話映像に前記対応特定部によって対応付けられた人物の領域に隣接する位置に設定し、
前記映像合成部は、前記複数の手話映像を前記番組映像の設定された表示位置に合成する、請求項１記載の手話映像合成装置。
前記対応特定部は、複数の手話映像と、複数の人物の領域とのうち、両者の動きの程度の近いものを対応付ける、請求項３記載の手話映像合成装置。
前記人物の領域の動きは、人物の領域の口の動きである、請求項４記載の手話映像合成装置。
前記手話映像を表示するかどうか判断する表示判断部をさらに備え、
前記映像合成部は、前記表示判断部が表示しないと判断した手話映像を合成しない、請求項１から請求項５のいずれか記載の手話映像合成装置。
前記表示判断部は、前記手話映像に動きがない場合に、当該手話映像を表示しないと判断する、請求項６記載の手話映像合成装置。
前記番組映像受付部が受け付ける番組映像の属性を示す情報である番組関連情報を受け付ける番組関連情報受付部と、
番組関連情報と、手話映像の表示の大きさを示す大きさ情報とを対応付ける情報である対応情報が記憶される対応情報記憶部と、
前記番組関連情報受付部が受け付けた番組関連情報に、前記対応情報によって対応付けられる大きさ情報を取得する取得部と、をさらに備え、
前記映像合成部は、前記番組映像に、前記取得部が取得した大きさ情報で示される大きさの手話映像を合成する、請求項１から請求項７のいずれか記載の手話映像合成装置。
前記番組関連情報は、映像番組のジャンルを示す情報を含む、請求項８記載の手話映像合成装置。
前記表示位置設定部は、前記人物領域特定部が人物の領域を特定できなかった場合には、あらかじめ決められている位置を前記手話映像の表示位置に設定する、請求項１から請求項９のいずれか記載の手話映像合成装置。
番組の映像である番組映像を受け付ける番組映像受付部と、
前記番組映像における人物の領域を特定する人物領域特定部と、
前記人物領域特定部が特定した人物の領域に隣接する位置に前記手話映像の表示位置を設定する表示位置設定部と、
前記番組映像における、前記表示位置設定部が設定した表示位置を示す情報である位置情報を出力する出力部と、を備えた手話表示位置設定装置。
番組の映像である番組映像を受け付ける番組映像受付部と、
前記番組映像に対応した手話の映像である手話映像を受け付ける手話映像受付部と、
前記番組映像における、前記手話映像の表示位置を示す情報である位置情報を受け付ける位置情報受付部と、
前記番組映像における、前記位置情報によって示される表示位置に、前記手話映像を合成した合成映像を生成する映像合成部と、
前記合成映像を出力する映像出力部と、を備えた手話映像合成装置。
番組の映像である番組映像を受け付ける番組映像受付ステップと、
前記番組映像に対応した手話の映像である手話映像を受け付ける手話映像受付ステップと、
前記番組映像における人物の領域を特定する人物領域特定ステップと、
前記人物領域特定ステップで特定した人物の領域に隣接する位置に前記手話映像の表示位置を設定する表示位置設定ステップと、
前記番組映像における、前記表示位置設定ステップで設定した表示位置に、前記手話映像を合成した合成映像を生成する映像合成ステップと、
前記合成映像を出力する映像出力ステップと、を備えた手話映像合成方法。
番組の映像である番組映像を受け付ける番組映像受付ステップと、
前記番組映像における人物の領域を特定する人物領域特定ステップと、
前記人物領域特定ステップで特定した人物の領域に隣接する位置に前記手話映像の表示位置を設定する表示位置設定ステップと、
前記番組映像における、前記表示位置設定ステップで設定した表示位置を示す情報である位置情報を出力する出力ステップと、を備えた手話表示位置設定方法。
番組の映像である番組映像を受け付ける番組映像受付ステップと、
前記番組映像に対応した手話の映像である手話映像を受け付ける手話映像受付ステップと、
前記番組映像における、前記手話映像の表示位置を示す情報である位置情報を受け付ける位置情報受付ステップと、
前記番組映像における、前記位置情報によって示される表示位置に、前記手話映像を合成した合成映像を生成する映像合成ステップと、
前記合成映像を出力する映像出力ステップと、を備えた手話映像合成方法。
コンピュータを、
番組の映像である番組映像を受け付ける番組映像受付部、
前記番組映像に対応した手話の映像である手話映像を受け付ける手話映像受付部、
前記番組映像における人物の領域を特定する人物領域特定部、
前記人物領域特定部が特定した人物の領域に隣接する位置に前記手話映像の表示位置を設定する表示位置設定部、
前記番組映像における、前記表示位置設定部が設定した表示位置に、前記手話映像を合成した合成映像を生成する映像合成部、
前記合成映像を出力する映像出力部として機能させるためのプログラム。
コンピュータを、
番組の映像である番組映像を受け付ける番組映像受付部、
前記番組映像における人物の領域を特定する人物領域特定部、
前記人物領域特定部が特定した人物の領域に隣接する位置に前記手話映像の表示位置を設定する表示位置設定部、
前記番組映像における、前記表示位置設定部が設定した表示位置を示す情報である位置情報を出力する出力部として機能させるためのプログラム。
コンピュータを、
番組の映像である番組映像を受け付ける番組映像受付部、
前記番組映像に対応した手話の映像である手話映像を受け付ける手話映像受付部、
前記番組映像における、前記手話映像の表示位置を示す情報である位置情報を受け付ける位置情報受付部、
前記番組映像における、前記位置情報によって示される表示位置に、前記手話映像を合成した合成映像を生成する映像合成部、
前記合成映像を出力する映像出力部として機能させるためのプログラム。