以下、本発明による手話映像合成装置、手話表示位置設定装置について、実施の形態を用いて説明する。なお、以下の実施の形態において、同じ符号を付した構成要素及びステップは同一または相当するものであり、再度の説明を省略することがある。
(実施の形態1)
本発明の実施の形態1による手話映像合成装置について、図面を参照しながら説明する。本実施の形態による手話映像合成装置は、番組映像における人物の領域を認識し、その人物の領域に隣接する位置に手話映像を表示するものである。
図1は、本実施の形態による手話映像合成装置1の構成を示すブロック図である。本実施の形態による手話映像合成装置1は、番組映像受付部11と、手話映像受付部12と、人物領域特定部13と、話者特定部14と、表示位置設定部15と、表示判断部16と、番組関連情報受付部17と、対応情報記憶部18と、取得部19と、映像合成部20と、映像出力部21とを備える。
番組映像受付部11は、番組の映像である番組映像を受け付ける。番組映像は、例えば、ドラマや、映画、ニュース、ドキュメンタリー、スポーツ、バラエティー等の映像であり、そのジャンルを問わない。また、番組映像のデータ形式も問わない。例えば番組情報は、アナログのデータであってもよく、デジタルのデータであってもよい。後者の場合に、番組映像の形式は、例えば、MPEG(Moving Picture Experts Group)であってもよく、AVI(Audio Video Interleave)であってもよく、あるいは、その他の形式であってもよい。また、その番組映像が圧縮されている場合に、その圧縮形式も問わない。番組映像は、音の情報を含んでいてもよく、あるいは、含んでいなくてもよい。
番組映像受付部11は、例えば、カメラ等のデバイスから入力された番組映像を受け付けてもよく、有線もしくは無線の通信回線を介して送信された番組映像を受信してもよく、所定の記録媒体(例えば、光ディスクや磁気ディスク、半導体メモリなど)から読み出された番組映像を受け付けてもよい。本実施の形態では、放送された番組映像を受信する場合について説明する。なお、番組映像受付部11は、受け付けを行うためのデバイス(例えば、モデムやネットワークカード、チューナなど)を含んでもよく、あるいは含まなくてもよい。また、番組映像受付部11は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
手話映像受付部12は、番組映像に対応した手話の映像である手話映像を受け付ける。この手話映像は、番組映像受付部11が受け付けた番組映像に対応するものである。したがって、聴覚障害者が番組映像と、その番組映像に対応した手話映像とを見ることによって、番組映像に対応する音声の情報を知ることができることになる。手話映像は、例えば、CG(Computer Graphics)の映像であってもよく、アニメーションの映像であってもよく、実写の映像であってもよい。この手話映像が生成される過程は問わない。例えば、放送局において、番組映像と、手話映像とが生成され、それらが同期されて放送されてもよく、番組映像(例えば、放送されたものでもよく、記録媒体から読み出されたものでもよい)に対応する手話通訳が手話通訳者によって行われ、その手話通訳者の映像を撮影することによって手話映像が生成されてもよく、番組映像に対応するテキスト情報(例えば、番組映像に対応する字幕情報であってもよく、番組映像に対応する音声情報を音声認識することによって得られたテキスト情報であってもよい)を用いて自動的に手話映像が生成されてもよく、その他の手法で生成されてもよい。
手話映像受付部12は、例えば、カメラ等のデバイスから入力された手話映像を受け付けてもよく、有線もしくは無線の通信回線を介して送信された手話映像を受信してもよく、所定の記録媒体(例えば、光ディスクや磁気ディスク、半導体メモリなど)から読み出された手話映像を受け付けてもよい。なお、手話映像受付部12は、受け付けを行うためのデバイス(例えば、モデムやネットワークカードなど)を含んでもよく、あるいは含まなくてもよい。また、手話映像受付部12は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
なお、番組映像受付部11が受け付ける番組映像と、手話映像受付部12が受け付ける手話映像とは、同期を取ることができるようになっている、すなわち、時間的な位置の対応が分かるようになっていることが好適である。例えば、時間的な位置が対応している番組映像と手話映像とのそれぞれが、番組映像受付部11と手話映像受付部12とにおいて同時に受け付けられてもよく、両者にタイムコードが含まれており、そのタイムコードを用いて両者の同期を取ることができるようになっていてもよい。後者の場合に、同期している時間的な位置に同じタイムコードが付与されていてもよく、あるいは、両者のタイムコードは独立して付与されているが、両者の同期するタイムコードを対応付ける情報が別途、存在していてもよい。両者の同期するタイムコードを対応付ける情報が別途、存在する場合に、そのタイムコードを対応付ける情報は、例えば、番組情報や、手話情報に重畳されていてもよい。
人物領域特定部13は、番組映像における人物の領域を特定する。なお、番組映像に複数の人物の領域が存在する場合には、人物領域特定部13は、その複数の人物の領域のそれぞれを特定してもよい。人物とは、実写の人間のことであってもよく、CGやアニメーションの登場人物であってもよい。人物領域特定部13は、番組映像の動画から人物の領域の特定を行ってもよく、あるいは、その動画に含まれる一のフレーム(静止画)において人物の領域の特定を行ってもよい。人物領域特定部13は、番組映像に写っている人物の画像領域を特定する。人物の領域の特定は、例えば、人物の全体の画像領域の特定であってもよく、あるいは、人物の一部(例えば、顔など)の画像領域の特定であってもよい。人物の顔の画像領域の特定方法としては、例えば、人物の目、鼻、口、耳などの特徴点等によって顔の画像領域を抽出する方法や、顔の肌色によって顔の画像領域を抽出する方法などがすでに知られている。また、人物の全体の画像領域の特定方法としては、例えば、背景差分を抽出する方法、人物の形を示すパターンを保持しておき、そのパターンマッチングによって人物の領域を特定する方法、人物の顔の領域を抽出し、その抽出された顔の領域に基づいて人物全体の領域を抽出する方法などがある。抽出された人物の顔の領域に基づいて人物全体の領域を抽出する方法としては、例えば、輪郭抽出アルゴリズムを用いて顔の輪郭を延長することによって人物全体の画像領域を抽出する方法や、人物の体の形を示すパターンを保持しておき、そのパターンマッチングによって抽出された顔の画像領域に続く人物全体の画像領域を抽出する方法などがある。なお、これ以外の方法を用いて人物の画像領域を特定してもよいことは言うまでもない。人物の画像領域の特定方法は従来から知られており、その詳細な説明を省略する。また、人物領域特定部13は、特定した人物の領域を示す情報と、その人物を識別する人物IDとを対応付けて蓄積してもよい。その場合に、時間の経過に応じて人物の領域が変化する場合もあるが、その場合であっても、同じ人物の領域を示す情報に対しては、同じ人物IDが対応付けられることが好適である。例えば、特徴点群を追跡することによって同じ人物の領域をトラッキングする技術などがすでに知られており、この方法の詳細な説明を省略する。
話者特定部14は、人物領域特定部13が複数の人物の領域を特定した際に、人物領域特定部13が特定した複数の人物の領域のうち、話者の人物の領域を特定する。例えば、話者特定部14は、人物領域特定部13が特定した人物の領域において、口の特徴点によって、口の領域を特定する。そして、話者特定部14は、その口の領域について動き検出を行い、動きがある場合(例えば、検出された動きがしきい値以上である場合など)に、その口の領域を含む人物の領域を話者の領域として特定してもよい。なお、動き検出の方法は、例えば、ブロックマッチング法や勾配法などがすでに知られており、その詳細な説明を省略する。また、動き検出は、その検出時点に対して一定の期間だけ過去の時点から、その検出時点までの番組映像を用いて行われるものとする。このことは、他の構成要素において動き検出を行う場合にも同様であるとする。この話者特定部14での動き検出の場合には、その一定の期間は、あまり長くないことが好適である。その検出時点において、動きがあるかどうかを知りたいからである。例えば、その一定の期間は、2秒程度に設定されてもよい。また、動き検出は、例えば、その一定の期間の最先のフレームと、後端のフレームとの類似度を求めることによって行ってもよい。その類似度が大きいほど動きが小さく、類似度が小さいほど動きが大きいことになる。また、複数の人物の領域のうちのいずれか一つが話者の人物の領域に特定されることが好適であるため、複数の人物の領域に対応する口の領域において動きが検出された場合には、その検出された動きが最も大きい口の領域に対応する人物の領域を話者の人物の領域に特定してもよい。また、ここでは、口の領域の動き検出を行うことによって話者を特定する場合について説明したが、顔の領域の動き検出を行うことによって話者を特定してもよい。話者の人物の領域を特定するとは、具体的には、話者の人物の領域を識別する情報に対応付けて、話者であることを示すフラグを設定することであってもよく、その話者の人物の領域を識別する情報を所定の記憶領域に蓄積することであってもよく、あるいは、その他の方法であってもよい。
表示位置設定部15は、人物領域特定部13が特定した人物の領域に隣接する位置に手話映像の表示位置を設定する。人物の領域に隣接する位置とは、その人物の領域の右側であってもよく、左側であってもよく、上側であってもよく、下側であってもよい。また、隣接するとは、人物の領域と手話映像との間に全く空間を挟まないことであってもよく、少しの空間を挟むことを含んでもよい。ただし、後者の場合であっても、その少しの空間は、人物と手話映像との対応をとることができる程度の小さい空間であることが好適である。また、人物の領域に隣接するとは、手話映像がその人物の領域に重ならないことである。手話映像の表示位置を設定するとは、例えば、手話映像が矩形である場合に、番組映像における、手話映像の特定の点(例えば、いずれかの頂点であってもよく、中心点であってもよく、その他の点であってもよい)の位置を設定することであってもよい。本実施の形態では、表示位置設定部15が、手話映像の頂点を特定する情報(例えば、手話映像の左上の頂点であることを示す情報等)と、その情報によって特定される頂点の番組映像における位置を示す情報とを設定する場合について説明する。なお、人物領域特定部13が複数の人物の領域を特定し、話者特定部14が話者の人物の領域を特定した場合には、表示位置設定部15は、話者特定部14が特定した話者に対応する人物の領域に隣接する位置に手話映像の表示位置を設定するものとする。なお、表示位置設定部15は、人物領域特定部13が人物の領域を特定できなかった場合には、あらかじめ決められている位置を手話映像の表示位置に設定してもよい。また、表示位置設定部15は、人物領域特定部13が複数の人物の領域を特定したが、話者特定部14が話者を特定しなかった場合には、あらかじめ決められている位置を手話映像の表示位置に設定してもよい。そのあらかじめ決められている位置は、例えば、表示位置設定部15がアクセス可能な図示しない記録媒体において記憶されていてもよい。
表示判断部16は、手話映像を表示するかどうか判断する。この判断は、手話映像によって手話の動作が表示されていない場合にも、番組映像の一部を手話映像によって占有することは適切ではないため、行われるものである。したがって、表示判断部16は、手話映像によって手話の動作が表示されているかどうかを判断することが好適である。その判断のために、表示判断部16は、例えば、手話映像に対して動き検出を行い、動きがない場合に、手話映像を表示しないと判断し、動きがある場合に、手話映像を表示すると判断してもよい。なお、動きがないとは、全く動きがない場合(すなわち、時間的に隣接する2個のフレームが全く同じものである場合)であってもよく、あるいは、動きがしきい値以下である場合を含んでもよい。動き検出については、上述の説明と同様であり、その詳細な説明を省略する。なお、動き検出において一定の期間の手話映像を用いる場合に、その一定の期間は、前述の話者特定部14の用いる一定の期間と同程度であってもよく、あるいは、その期間よりも長くてもよい。表示するかしないかは、ある程度長い周期で判断されてもよいからである。また、手話通訳者の映像等が含まれていないブランクの手話映像が受け付けられた場合や、手話映像そのものが受け付けられていない場合にも、表示判断部16は、手話映像を表示しないと判断してもよい。また、番組映像が音の情報を含む場合に、表示判断部16は、その音の情報に、発声された音声の情報が含まれていない場合、すなわち、音楽や効果音のみしか含まれていない場合には、手話映像を表示しないと判断し、発声された音声の情報が含まれている場合に、手話映像を表示すると判断してもよい。音の情報に発声された音声の情報が含まれている場合には、その音声に応じた有意な手話映像が存在するものと考えられるからである。なお、表示判断部16は、音の情報に発声された音声の情報が含まれているかどうかを、例えば、音の情報に音声に対応する音響的な特徴が含まれるかどうかを判断することによって行ってもよい。その音響的な特徴が含まれる場合には、音の情報に音声の情報が含まれていることになる。その判断は、例えば、音響モデルを用いて行われてもよい。また、表示判断部16は、音の情報に対して、既存の音声認識処理を実行し、その実行結果が有意な文書である場合には、音の情報に発声された音声の情報が含まれていると判断し、そうでない場合には、音の情報に発声された音声の情報が含まれていないと判断してもよい。有意な文書であるかどうかは、音声認識処理を実行した際の尤度を用いて知ることができる。その尤度があらかじめ設定されているしきい値よりも低い場合には、有意な文書への音声認識を行うことができなかったことになり、音の情報に発声された音声の情報が含まれていないと判断できる。また、発声された音声の特徴(例えば、周波数や強弱の変化等に関する特等等)をあらかじめ保持しておき、音の情報にその特徴が含まれるかどうか判断することによって、発声された音声が含まれるかどうかを判断してもよい。その特徴が含まれる場合には、音の情報が発声された音声であると判断されることになり、その特徴が含まれない場合には、音の情報が発声された音声でないと判断されることになる。なお、これ以外の方法によって、音の情報に発声された音声の情報が含まれているかどうかを判断してもよいことは言うまでもない。
番組関連情報受付部17は、番組映像受付部11が受け付ける番組映像の属性を示す情報である番組関連情報を受け付ける。番組関連情報は、例えば、番組映像のジャンルを示す情報を含んでいてもよく、番組映像の名称を示す情報を含んでいてもよく、番組の内容に関する情報(例えば、番組のトピックや、番組に登場する俳優の氏名等であってもよい)を含んでいてもよく、番組についての説明の情報を含んでいてもよく、その他の情報を含んでいてもよい。本実施の形態では、番組関連情報が番組映像のジャンルを示す情報である場合について説明する。また、番組関連情報は、EPG(Electronic Program Guide:電子番組ガイド)の情報そのものであってもよく、その情報の一部であってもよい。このEPGの情報は、例えば、SI情報(公式番組情報)と呼ばれることもある。
番組関連情報受付部17が番組関連情報を受け付ける過程は問わない。番組関連情報受付部17は、例えば、インターネット等のネットワーク上のサーバから番組関連情報を受信してもよく、放送された番組関連情報を受信してもよく、番組映像に重畳されている番組関連情報を受け付けてもよく、所定の記録媒体(例えば、光ディスクや磁気ディスク、半導体メモリなど)から読み出された番組関連情報を受け付けてもよい。本実施の形態では、番組関連情報受付部17は、番組映像に重畳されている番組関連情報を受け付けるものとする。なお、番組関連情報受付部17は、受け付けを行うためのデバイス(例えば、モデムやネットワークカードなど)を含んでもよく、あるいは含まなくてもよい。また、番組関連情報受付部17は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
対応情報記憶部18では、対応情報が記憶される。対応情報は、番組関連情報と、大きさ情報とを対応付ける情報である。大きさ情報は、手話映像の表示の大きさを示す情報であり、例えば、手話映像の画面の大きさそのものを示す情報(例えば、手話映像の画面の縦・横の長さ(ピクセル)を示す情報など)であってもよく、番組映像の画面に対する手話映像の画面の相対的な大きさを示す情報(例えば、面積や長さについて50%、30%など)であってもよく、手話映像の画面の複数の大きさがあらかじめ設定されている場合には、その大きさを識別する情報(例えば、「大」「中」「小」など)であってもよい。なお、大きさ情報によって示される手話映像の表示の大きさは、当然ながら、番組映像の表示の大きさよりも小さいものである。
ここで、「番組関連情報と、大きさ情報とを対応付ける」とは、番組関連情報から大きさ情報を取得できればよいという意味である。したがって、対応情報は、番組関連情報と大きさ情報とを組として含む情報を有してもよく、番組関連情報と大きさ情報とをリンク付ける情報であってもよい。後者の場合には、対応情報は、例えば、番組関連情報と大きさ情報の格納されている位置を示すポインタやアドレスとを対応付ける情報であってもよい。本実施の形態では、前者の場合について説明する。また、番組関連情報と大きさ情報とは、直接対応付けられていなくてもよい。例えば、番組関連情報に、第3の情報が対応しており、その第3の情報に大きさ情報が対応していてもよい。
対応情報記憶部18に対応情報が記憶される過程は問わない。例えば、記録媒体を介して対応情報が対応情報記憶部18で記憶されるようになってもよく、通信回線等を介して送信された対応情報が対応情報記憶部18で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された対応情報が対応情報記憶部18で記憶されるようになってもよい。対応情報記憶部18での記憶は、RAM等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。対応情報記憶部18は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。
取得部19は、番組関連情報受付部17が受け付けた番組関連情報に、対応情報によって対応付けられる大きさ情報を取得する。厳密に言えば、取得部19は、番組関連情報受付部17が受け付けた番組関連情報であって、後述する映像合成部20が手話映像を合成する番組映像に対応する番組関連情報に、対応情報で対応付けられている大きさ情報を取得する。その大きさ情報は、後述する映像合成部20が番組映像に合成する手話映像の大きさを決めるために用いられることになる。映像合成部20が手話映像を合成する番組映像に対応する番組関連情報を特定することができるように、番組映像と番組関連情報とが紐付けられていることが好適である。例えば、対応する番組映像と番組関連情報とが番組映像識別情報などによって紐付けられていてもよい。その場合には、取得部19は、映像合成部20が手話映像を合成する番組映像の番組映像識別情報を取得し、その番組映像識別情報に対応する番組関連情報を特定することによって、映像合成部20が手話映像を合成する番組映像に対応する番組関連情報を特定することができることになる。
映像合成部20は、番組映像における、表示位置設定部15が設定した表示位置に、手話映像を合成した合成映像を生成する。映像の一部に他の映像を合成する方法はすでに公知であり、その説明を省略する。また、映像合成部20は、表示判断部16が手話映像を表示しないと判断した場合には、手話映像の合成を行わない。手話映像の合成を行わない場合には、番組映像そのものが、そのまま合成映像となる。また、映像合成部20は、番組映像に、取得部19が取得した大きさ情報で示される大きさの手話映像を合成する。
映像出力部21は、合成映像を出力する。この合成映像は、前述のように、映像合成部20による手話映像の合成が行われた場合には、手話映像を一部に含む番組映像であり、手話映像の合成が行われなかった場合には、番組映像そのものとなる。ここで、この出力は、例えば、表示デバイス(例えば、CRTや液晶ディスプレイなど)への表示でもよく、所定の機器への通信回線を介した送信でもよく、記録媒体への蓄積でもよく、他の構成要素への引き渡しでもよい。なお、映像出力部21は、出力を行うデバイス(例えば、表示デバイスなど)を含んでもよく、あるいは含まなくてもよい。また、映像出力部21は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。また、番組映像が音の情報も含む場合には、映像出力部21は、スピーカによるその音の情報の出力を行ってもよい。
なお、番組映像受付部11が受け付けた番組映像や、手話映像受付部12が受け付けた手話映像、表示位置設定部15が設定した表示位置を示す情報、番組関連情報受付部17が受け付けた番組関連情報、取得部19が取得した大きさ情報などは、図示しない記録媒体において一時的に記憶されてもよいことは言うまでもない。
次に、本実施の形態による手話映像合成装置1の動作について、図2のフローチャートを用いて説明する。
(ステップS101)番組関連情報受付部17は、番組関連情報を受け付けたかどうか判断する。そして、番組関連情報を受け付けた場合には、ステップS102に進み、そうでない場合には、ステップS104に進む。
(ステップS102)取得部19は、対応情報記憶部18で記憶されている対応情報を用いて、番組関連情報受付部17が受け付けた番組関連情報に対応する大きさ情報を取得する。
(ステップS103)映像合成部20は、その取得された大きさ情報を、図示しない記録媒体で一時的に記憶する。そして、ステップS101に戻る。
(ステップS104)番組映像受付部11は、番組映像を受け付けたかどうか判断する。そして、番組映像を受け付けた場合には、ステップS105に進み、そうでない場合には、ステップS109に進む。なお、番組映像受付部11は、番組映像を一フレームごとに受信してもよく、あるいは、連続する複数のフレームごとに受信してもよい。
(ステップS105)手話映像受付部12は、手話映像を受け付けたかどうか判断する。そして、手話映像を受け付けた場合には、ステップS106に進み、そうでない場合、すなわち、手話映像が手話映像合成装置1に来ていない場合には、ステップS108に進む。なお、手話映像受付部12は、手話映像を一フレームごとに受信してもよく、あるいは、連続する複数のフレームごとに受信してもよい。
(ステップS106)表示判断部16は、手話映像を表示するかどうか判断する。そして、手話映像を表示すると判断した場合には、ステップS107に進み、そうでない場合には、ステップS108に進む。なお、表示判断部16は、それまでに受け付けられ、図示しない記録媒体で一時的に記憶されている一定期間(例えば、1秒程度、3秒程度など)の手話映像を用いて、この判断を行ってもよい。
(ステップS107)映像合成部20は、手話映像受付部12が受け付けた手話映像を、番組映像受付部11が受け付けた番組映像に合成した合成映像を生成する。なお、その合成の際に、映像合成部20は、ステップS103で一時的に記憶された大きさ情報に応じた大きさで手話映像が表示されるように、手話映像を番組映像に合成するものとする。また、後述するステップS114で一時的に記憶された表示位置に、手話映像が表示されるように、手話映像を番組映像に合成するものとする。なお、手話映像の合成の際に、まだ表示位置の設定が行われていない場合には、あらかじめ決められている位置に手話映像が表示されるように、手話映像を番組映像に合成してもよい。
(ステップS108)映像出力部21は、映像合成部20が生成した合成映像を出力する。そして、ステップS101に戻る。
(ステップS109)表示位置設定部15は、表示位置の設定を行うかどうか判断する。そして、表示位置の設定を行う場合には、ステップS110に進み、そうでない場合には、ステップS101に戻る。なお、表示位置設定部15は、定期的に(例えば、2秒ごと、10秒ごとなど)に、表示位置の設定を行うと判断してもよい。手話映像の表示位置が頻繁に変更されると、手話映像を見づらくなるため、表示位置が設定される頻度は、手話映像の表示位置が頻繁に変更されない程度に設定されることが好適である。
(ステップS110)人物領域特定部13は、番組映像における人物の領域を特定する。
(ステップS111)話者特定部14は、複数の人物の領域が特定されたかどうか判断する。そして、複数の人物の領域が特定された場合には、ステップS112に進み、そうでない場合には、ステップS113に進む。人物の領域の特定そのものができなかった場合にも、ステップS113に進むものとする。
(ステップS112)話者特定部14は、特定された複数の人物の領域から、話者の人物の領域を特定する。
(ステップS113)表示位置設定部15は、特定された人物の領域に隣接する位置に、手話映像の表示位置を設定する。その特定された人物の領域は、ステップS110において特定された人物の領域が1個である場合には、その人物の領域であり、2個以上である場合には、ステップS112で特定された話者の人物の領域である。なお、表示位置設定部15は、手話映像のすべてが番組映像の範囲内に表示されるように、その位置の設定を行うものとする。また、ステップS110で人物の領域の特定を行うことができなかった場合には、表示位置設定部15は、あらかじめ決められている位置を手話映像の表示位置に設定する。また、手話映像のすべてが番組映像の範囲内に表示されるように適切に設定することができなかった場合にも、表示位置設定部15は、あらかじめ決められている位置を手話映像の表示位置に設定してもよい。また、複数の人物の領域が特定されたが、ステップS112において話者の人物の領域を特定できなかった場合にも、表示位置設定部15は、あらかじめ決められている位置を手話映像の表示位置に設定してもよい。
(ステップS114)映像合成部20は、表示位置設定部15によって設定された表示位置を示す情報を図示しない記録媒体において一時的に記憶する。そして、ステップS101に戻る。
なお、図2のフローチャートにおいて、ステップS104,S105において、番組映像と手話映像とが時間的に直列的に受け付けられる場合について説明したが、そうでなくてもよい。例えば、並列して両映像が受け付けられ、受け付けられた手話映像は、図示しない記録媒体においてバッファリングされていてもよい。そして、番組映像が受け付けられた際に、バッファリングされており、まだ合成されていない手話映像が存在する場合には、ステップS106に進み、そうでない場合には、ステップS108に進んでもよい。なお、図2のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
また、一の番組映像については、その番組映像に対応する番組関連情報は同じであるため、番組関連情報受付部17は、新たな番組映像が受け付けられるごとに、その番組映像に対応する番組関連情報を受け付けることが好適である。また、一の番組映像の受け付けが行われている際に、番組関連情報の受け付けが複数行われる場合には、最新の番組関連情報を一時的に記憶しておき、その最新の番組関連情報と異なる番組関連情報が受け付けられた場合にのみ、ステップS102に進み、そうでない場合には、ステップS104に進むようにしてもよい。
次に、本実施の形態による手話映像合成装置1の動作について、具体例を用いて説明する。この具体例では、手話映像合成装置1が放送された番組映像、及び手話映像を受信し、その番組映像に重畳されている番組関連情報を用いて大きさ情報の取得が行われるものとする。したがって、番組映像に、その番組映像に対応する番組関連情報が重畳されていることによって、番組映像と番組関連情報との紐付けが行われていることになる。
また、この具体例において、対応情報記憶部18では、図3で示される対応情報が記憶されているものとする。図3において、番組のジャンルを示す番組関連情報と、大きさ情報とが対応付けられている。大きさ情報は、手話映像の画面の高さ及び幅を示すものである。例えば、番組関連情報「ニュース」には、大きさ情報(H1,W1)が対応付けられている。したがって、ニュースの番組映像の場合には、画面の高さがH1となり、画面の幅がW1となるように手話映像が表示されることになる。
まず、ユーザが、手話映像合成装置1を操作することによって、ニュース番組を見るようにチャンネル設定を行ったとする。すると、そのチャンネルの図4で示される番組映像が番組映像受付部11で受信され(ステップS104)、その番組映像に対応する図5で示される手話映像が手話映像受付部12で受信される(ステップS105)。そして、表示判断部16は、手話映像を表示するかどうか判断する(ステップS106)。なお、この段階では、判断できるだけの手話映像が受信されていないため、表示判断部16は、手話映像を表示しないと判断するものとする。すると、映像合成部20は、手話映像の合成されていない、番組映像そのものである合成映像を映像出力部21に渡し、映像出力部21は、その合成映像をディスプレイに表示する(ステップS108)。その結果、図4で示される表示が行われることになる。この番組映像受付部11による番組映像の受信と、映像出力部21による番組映像の表示とは、一定の手話映像が蓄積されて表示判断部16が手話映像を表示すると判断するまで繰り返して実行されることになる。
なお、その番組映像の受信に応じて、その番組映像に重畳されている番組関連情報「ニュース」が番組映像受付部11によって抽出され、その抽出された番組関連情報が図示しない経路を介して番組関連情報受付部17に渡されたとする。番組関連情報受付部17は、その番組関連情報を受け付けると、その番組関連情報を取得部19に渡す(ステップS101)。取得部19は、受け取った番組関連情報「ニュース」を検索キーとして図3で示される対応情報の番組関連情報を検索する。すると、1番目のレコードがヒットするため、取得部19は、その1番目のレコードから大きさ情報(H1,W1)を取得して映像合成部20に渡す(ステップS102)。映像合成部20は、受け取った大きさ情報を、図示しない記録媒体に蓄積する(ステップS103)。
また、番組映像の受信が開始されたため、表示位置設定部15は、表示位置の設定を行うと判断し、人物領域特定部13に対して、人物の領域を特定する処理を行う旨の指示を渡す(ステップS109)。すると、人物領域特定部13は、番組映像受付部11が受け付けた図4で示される番組映像において、人物の領域を特定する(ステップS110)。その結果、図6の番組映像における太い曲線で囲まれた領域である人物の領域が特定されたとする。その人物の領域の特定に応じて、人物領域特定部13は、図7で示される人物領域特定情報を生成し、図示しない記録媒体に蓄積する。なお、図7の人物領域特定情報において、人物IDと、領域情報とが対応付けられている。人物IDは、特定した人物の領域ごとに人物領域特定部13が自動的に付与する識別情報である。また、領域情報は、図6の太い曲線を示す座標値(ピクセル値)である。各座標値(x1,y1)、(x2,y2)…等は、図6の太い曲線に対応する各ピクセルの座標値であってもよく、あるいは、図6の太い曲線に対応する各ピクセルから選択された飛び飛びの座標値(例えば、10ピクセルごとの座標値)であってもよい。結果として、この領域情報を用いて、人物の領域を特定することができるのであれば、領域情報の内容は問わない。
次に、話者特定部14は、図7で示される人物領域特定情報を参照し、人物IDが1個しか存在しないため、複数の人物の領域の特定は行われなかったと判断する(ステップS111)。そして、表示位置設定部15に表示位置の設定を行う旨の指示を出す。その指示に応じて、表示位置設定部15は、特定された人物の領域に対応する表示位置の設定の処理を行う(ステップS113)。
ここで、表示位置を設定する方法の一例について図8を用いて説明する。まず、表示位置設定部15は、特定された人物の領域のうち、横方向については最も右側の位置に対応し、上下方向については最も上側の位置に対応する第1の基準点の座標値を取得する。この座標値の取得は、領域情報に含まれる最大のx座標の値と、最小のy座標の値とを取得することによって行われる。なお、番組映像の座標系では、左上の点が原点であり、その原点から右向きにx軸が設定され、下向きにy軸が設定されているものとする。その後、表示位置設定部15は、第1の基準点を手話映像の左上の頂点とする第1の表示位置に手話映像を表示できるかどうか判断する。具体的には、表示位置設定部15は、映像合成部20から大きさ情報を受け取り、その大きさ情報を用いて、第1の表示位置における左下の頂点、右上の頂点、右下の頂点のすべてが番組映像内に含まれるかどうか判断する。より具体的には、第1の基準点のx座標の値に、W1を加算したx座標の値が、番組映像のx座標の最大値を超えているかどうか判断する。そして、超えている場合には、右上と右下の頂点が番組映像内に含まれないことになるため、表示位置設定部15は、少なくとも1個の頂点が番組映像内に含まれていないと判断する。また、第1の基準点のy座標の値に、H1を加算したy座標の値が、番組映像のy座標の最大値を超えているかどうか判断する。そして、超えている場合には、左下と右下の頂点が番組映像内に含まれないことになるため、表示位置設定部15は、少なくとも1個の頂点が番組映像内に含まれていないと判断する。また、第1の基準点のx座標の値に、W1を加算したx座標の値が、番組映像のx座標の最大値を超えておらず、第1の基準点のy座標の値に、H1を加算したy座標の値が、番組映像のy座標の最大値を超えていない場合には、表示位置設定部15は、すべての頂点が番組映像内に含まれると判断する。そして、表示位置設定部15は、すべての頂点が番組映像内に含まれる場合には、手話映像の表示位置を第1の表示位置に決定する。具体的には、表示位置設定部15は、表示位置を示す情報として、第1の基準点の座標値と、その座標値に対応するのが手話映像の左上の頂点であることを示す情報(例えば、「左上」でもよい)とを生成し、その表示位置を示す情報を映像合成部20に渡す。
また、表示位置設定部15は、第1の表示位置の少なくとも1個の頂点が番組映像内に含まれていない場合には、第1の基準点を手話映像の左下の頂点とする第2の表示位置に手話映像を表示できるかどうか判断する。この判断の詳細な処理については省略する。そして、第2の表示位置に手話映像を表示できる場合には、表示位置設定部15は、手話映像の表示位置を第2の表示位置に決定する。具体的には、表示位置設定部15は、表示位置を示す情報として、第1の基準点の座標値と、その座標値に対応するのが手話映像の左下の頂点であることを示す情報(例えば、「左下」でもよい)とを生成し、その表示位置を示す情報を映像合成部20に渡す。
また、表示位置設定部15は、第2の表示位置に手話映像を表示できない場合には、第1の基準点を手話映像の右下の頂点とする第3の表示位置に手話映像を表示できるかどうか判断する。この判断の詳細な処理については省略する。そして、第3の表示位置に手話映像を表示できる場合には、表示位置設定部15は、手話映像の表示位置を第3の表示位置に決定する。
また、表示位置設定部15は、第3の表示位置に手話映像を表示できない場合には、第2の基準点を手話映像の右上の頂点とする第4の表示位置に手話映像を表示できるかどうか判断する。この判断の詳細な処理については省略する。なお、第2の基準点は、領域情報に含まれる最小のx座標の値と、最小のy座標の値とに対応する点である。そして、第4の表示位置に手話映像を表示できる場合には、表示位置設定部15は、手話映像の表示位置を第4の表示位置に決定する。このようにして、順番に表示位置を変更しながら、手話映像の表示位置を設定する処理を行う。なお、第5の表示位置、第6の表示位置にも手話映像を表示することができなかった場合には、表示位置設定部15は、図示しない記録媒体から、あらかじめ決められている表示位置を読み出し、手話映像の表示位置を、その読み出した表示位置に設定する。
なお、この具体例では、手話映像の表示位置が、第1の表示位置に設定されたものとする。すなわち、第1の基準点の座標値(A,B)と、頂点の位置を示す「左上」とを含む情報が映像合成部20に渡されたとする。すると、映像合成部20は、その情報を図示しない記録媒体に蓄積する(ステップS114)。
次に、一定の手話映像が蓄積された後に、次の番組映像が番組映像受付部11で受信され(ステップS104)、その番組映像に対応する手話映像が手話映像受付部12で受信されたとする(ステップS105)。すると、表示判断部16は、手話映像を表示するかどうか判断する(ステップS106)。この場合には、すでに過去の手話映像が存在するため、表示判断部16は、その手話映像を用いて動き検出を行い、動きがしきい値以上であり、手話映像を表示すると判断したとする(ステップS106)。すると、映像合成部20は、図9で示されるように、第1の基準点を左上の頂点として、高さがH1であり、幅がW1である手話映像を番組映像に合成し、その合成後の合成映像を映像出力部21に渡す(ステップS107)。映像出力部21は、その図9で示される合成映像をディスプレイに表示する(ステップS108)。このようにして、番組映像への手話映像の合成や、定期的な表示位置の設定等が繰り返して実行されることになる。
なお、そのニュースの番組において、ニュースキャスターの位置が図10で示されるように左の方に移動したとする。すると、それに応じて、新たな表示位置の設定が行われる(ステップS109〜S114)。そして、その新たに設定された表示位置に応じて、図11で示されるように、合成される手話映像の位置も変更されることになる(ステップS104〜S108)。このように、番組映像において人物が移動しても、その移動に追随して手話映像も移動するため、ユーザは、人物の近くに絶えず表示される手話映像を見ることができることになる。
次に、番組映像に二人の人物が含まれる場合について説明する。図4の番組映像で表示されていたニュースキャスターの横に、図12で示されるように、別のニュース解説者が登場したとする。すると、次の表示位置の設定を行うタイミングで、人物領域特定部13は、図13で示されるように、2個の人物の領域を特定する。なお、その際の人物領域特定情報において、左の人物に対応する人物IDが「U001」であり、右の人物に対応する人物IDが「U002」であったとする。また、その特定によって生成された人物領域特定情報は、図14で示されるものであったとする。
この場合には、複数の人物の領域が特定されているため(ステップS111)、話者特定部14は、話者を特定する処理を行う(ステップS112)。具体的には、話者特定部14は、人物ID「U001」で識別される人物の領域における口の領域である第1の口領域を特定し、その口領域の動き検出を行う。また、話者特定部14は、人物ID「U002」で識別される人物の領域における口の領域である第2の口領域を特定し、その口領域の動き検出も行う。そして、話者特定部14は、両者の動きを比較して、動きの大きい方を話者に特定する(ステップS112)。この場合には、人物ID「U001」に対応する動きの方が大きかったとする。すると、話者特定部14は、その人物ID「U001」を表示位置設定部15に渡す。表示位置設定部15は、その人物ID「U001」に対応する領域情報を用いて、表示位置の設定を行う(ステップS113)。そして、その表示位置を示す情報が映像合成部20に渡され、図示しない記録媒体に蓄積される(ステップS114)。その後、番組情報が受け付けられると、新たな表示位置に応じた手話映像と番組映像との合成が行われ(ステップS104〜S107)、ディスプレイに図15で示される合成映像が表示される(ステップS108)。なお、その後に、人物ID「U002」で識別される人物の領域における口の動きの方が大きくなると、それに応じて表示位置が変更される(ステップS109〜S114)。そして、その変更後の表示位置に応じて、図16で示されるように、手話映像の合成位置が変更されることになる。
なお、ニュースの間などにおいて、単に音楽が流れるだけであり、ニュースキャスターや解説者による発話が中断したとする。すると、それに応じて手話映像の動きもなくなるため、その際には、表示判断部16が手話映像を表示しないと判断し、手話映像の合成が行われないことになる(ステップS106,S108)。その後に、ニュースキャスター等による発話が開始されると、それに応じて手話映像の動きも生じることになり、表示判断部16は手話映像を表示すると判断して、手話映像の表示が再開されることになる(ステップS106〜S108)。
以上のように、本実施の形態による手話映像合成装置1によれば、人物の領域の近傍に手話映像が表示されることになる。合成映像を見るユーザは、手話映像と人物の領域との両方を見たいと考えられるが、その場合でも、両者が近くに表示されるため、視線移動の距離が短くなり、眼精疲労等の疲労の起こる可能性を低減することができる。また、表示判断部16による判断結果に応じて手話映像を表示したり、表示しなかったりするため、意味のない手話映像の表示をしないようにすることができる。また、番組映像に2以上の人物が含まれる場合には、話者を特定して、その話者の人物の領域の近傍に手話映像が表示されることになる。合成映像を見るユーザは、表示されている人物のうち、話者に注目すると考えられるため、この場合にも、その話者と手話映像とが近くに表示されることによって、視線移動を少なくすることができ、疲労を軽減できる。また、番組映像のジャンルに応じた大きさで手話映像を表示することができるため、例えば、ニュースなどのように発話内容が重要である場合には、手話映像を大きく表示し、スポーツなどのように発話内容があまり重要でない場合には、手話映像を小さく表示するようにもできる。
なお、本実施の形態では、複数の人物の領域が特定された場合に、話者特定部14によって特定された話者の人物の領域に対応付けて手話映像が表示される場合について説明したが、そうでなくてもよい。すなわち、話者特定部14による話者の特定を行わなくてもよい。話者の特定を行わない場合には、手話映像合成装置1は、話者特定部14を備えていなくてもよい。また、その場合において、複数の人物の領域が特定された際には、例えば、選択された一の人物の領域に隣接する位置に手話映像の位置が設定されてもよく、複数の人物の領域の中心(この中心は、例えば、複数の人物の領域の重心であってもよい)の位置に手話映像の位置が設定されてもよい。なお、選択された一の人物の領域は、例えば、最も大きい人物の領域であってもよく、複数の人物の領域のうち、ちょうど真ん中に位置する人物の領域であってもよい(例えば、5個の人物の領域が横方向に並んでいる場合には、例えば、左から3番目の人物の領域であってもよい)。
また、本実施の形態では、話者特定部14が口の領域の動き検出を行うことによって話者を特定する場合について説明したが、話者特定部14は、それ以外の方法で話者を特定してもよい。例えば、話者を示す情報(例えば、左から2番目の人物が話者である等の情報)が番組映像に重畳されている場合には、話者特定部14は、その情報を用いて、話者を特定してもよい。具体的には、話者を示す情報によって、左から2番目の人物が話者である旨が示される場合には、話者特定部14は、人物領域特定部13が特定した人物の領域のうち、左から2番目の人物の領域を話者の人物の領域に特定してもよい。
(実施の形態2)
本発明の実施の形態2による手話映像合成装置について、図面を参照しながら説明する。本実施の形態による手話映像合成装置は、複数の手話映像を受け付けるものである。
図17は、本実施の形態による手話映像合成装置3の構成を示すブロック図である。本実施の形態による手話映像合成装置3は、番組映像受付部11と、手話映像受付部12と、人物領域特定部13と、表示位置設定部15と、表示判断部16と、番組関連情報受付部17と、対応情報記憶部18と、取得部19と、映像合成部20と、映像出力部21と、対応特定部31とを備える。なお、対応特定部31以外の構成及び動作は、手話映像受付部12が複数の手話映像を受け付け、表示位置設定部15が後述する対応特定部31による対応付けの結果を用いて、複数の手話映像の表示位置をそれぞれ設定し、映像合成部20が番組映像の設定されたそれぞれの位置に複数の手話映像を合成する以外は、実施の形態1と同様であり、その詳細な説明を省略する。
手話映像受付部12は、前述のように複数の手話映像を受け付けるものである。手話映像受付部12は、例えば、複数のインターフェースによって複数の手話映像を受け付けてもよく、複数のチャンネルで放送された複数の手話映像を受信してもよく、その複数の手話映像を受け付ける方法は問わない。本実施の形態では、手話映像受付部12が2個の手話映像を受け付ける場合について説明する。なお、手話映像受付部12が受け付けた複数の手話映像には、それらを識別することができる識別情報が対応付いていることが好適である。また、手話映像受付部12が受け付ける手話映像の個数は、番組映像によって異なってもよく、また、一の番組映像内で変化してもよい。
本実施の形態では、人物領域特定部13は、手話映像受付部12が2以上の手話映像を受け付ける場合には、複数の人物の領域を特定することが好適である。複数の手話映像に対応する複数の人物の領域が番組映像に存在すると考えられるからである。
対応特定部31は、手話映像受付部12が受け付けた各手話映像と、人物領域特定部13が特定した各人物の領域とをそれぞれ対応付ける。対応特定部31は、複数の手話映像と、複数の人物の領域とのうち、両者の動きの程度(変化の程度)の近いもの同士を対応付けてもよい。人物の領域の動きは、人物の領域の口の動きであってもよい。「動きの程度」については、前述の動き検出の方法によって検出することができる。また、口の動きの程度の検出も、実施の形態1の話者特定部14に関して説明した方法によって口の領域を特定し、その特定した口の領域について動き検出を行うことによって実現できる。動きの程度の近いもの同士を対応付けるとは、動きの大きいもの同士を対応付け、動きの小さいもの同士を対応付けることである。手話の動きが大きい場合には、それに対応する人物が発話しており、その発話に応じて口の周りの動きやジェスチャーなどが大きくなり、一方、手話の動きが小さい場合には、それに対応する人物が発話していないか発話しているとしても程度が低く、それに応じて口の周りの動きやジェスチャーなどが小さくなと考えられるからである。例えば、その対応付けは次のようにして行うことができる。対応特定部31は、複数の手話映像の動きを検出し、その動きの大きい順に手話映像をソートする。また、対応特定部31は、複数の人物の領域の動き、またはその領域の口の領域の動きを検出し、その動きの大きい順に人物の領域をソートする。そして、対応特定部31は、ソート後の同じ順番の手話映像と、人物の領域とを対応付けることによって、動きの程度の近いもの同士を対応付けることができることになる。なお、手話映像のソートや、人物の領域のソートは、厳密には、その手話映像を識別する情報や、人物の領域を識別する情報のソートであってもよい。また、この動きの程度が近いかどうかを時系列に沿った動きの相関によって判断してもよい。例えば、ある人物領域と、手話映像とについて、時系列に沿った動きの相関が高い場合、すなわち、動きの緩急のパターンの類似度が高い場合には、両者は対応しているものであると考えられるからである。なお、手話映像と、人物の領域とを対応付けるとは、例えば、手話映像の識別情報と、人物の領域の識別情報とを対応付ける情報を生成し、図示しない記録媒体に蓄積することであってもよい。その情報は、例えば、各レコードに手話映像の識別情報と、人物の領域の識別情報とを有する情報であってもよい。
表示位置設定部15は、各手話映像の表示位置を、手話映像に対応特定部31によって対応付けられた人物の領域に隣接する位置に設定する。一の人物の領域に対する一の手話映像の表示位置の設定方法は、実施の形態1で説明した方法と同様である。なお、この場合には、複数の手話映像の位置を設定するため、表示位置設定部15は、複数の手話映像が重ならないように、各手話映像の表示位置を設定することが好適である。例えば、図8のように表示位置を設定する際に、表示位置を設定しようとする手話映像が、すでに表示位置の設定された手話映像と重なる場合には、表示位置設定部15は、その表示位置に手話映像を表示できないと判断してもよい。また、表示位置設定部15は、人物領域特定部13が人物の領域を特定できなかった場合には、あらかじめ決められている位置を手話映像の表示位置に設定してもよい。また、表示位置設定部15は、手話映像同士が重ならないように表示位置を設定することができない場合にも、あらかじめ決められている位置を手話映像の表示位置に設定してもよい。また、表示位置設定部15は、人物領域特定部13が特定した人物の領域の個数と、手話映像受付部12が受け付けた手話映像の個数とが一致しない場合にも、あらかじめ決められている位置を手話映像の表示位置に設定してもよい。なお、この場合には、複数の手話映像の表示位置が重ならないようにあらかじめ設定されているものとする。また、表示位置設定部15は、人物領域特定部13が特定した人物の領域の個数と、手話映像受付部12が受け付けた手話映像の個数とが一致しない場合であって、特定された人物の領域が1個である場合には、その一の人物の領域に隣接する2以上の手話映像の表示位置を設定するようにしてもよい。例えば、図8のように表示位置を設定するのであれば、1個目の手話映像の表示位置が第Nの表示位置に決まった後に、2個目の手話映像の表示位置を第N+1以降の表示位置に設定できるかどうかを、順次判断することによって、その表示位置を設定してもよい。3個目以降の手話映像についても同様である。
映像合成部20は、複数の手話映像を、番組映像の表示位置設定部15によって設定された表示位置にそれぞれ合成する。なお、手話映像を番組映像に合成する処理を手話映像の個数だけ行う以外は、実施の形態1での説明と同様である。
なお、本実施の形態では、2以上の手話映像が受け付けられる場合の処理について説明したが、一の手話映像のみが受け付けられた場合には、各構成要素は、実施の形態1と同様に動作すればよい。
次に、本実施の形態による手話映像合成装置3の動作について、図18のフローチャートを用いて説明する。なお、図18のフローチャートにおいて、ステップS201〜S205以外の処理は、実施の形態1の図2のフローチャートと同様であり、その説明を省略する。なお、手話映像受付部12が複数の手話映像を受け付けた場合には、ステップS106では、表示判断部16は、各手話映像について表示するかどうかを個別に判断するものとする。そして、すべての手話映像を表示しないと判断した場合には、ステップS108に進み、少なくとも1個の手話映像を表示すると判断した場合には、ステップS107に進むものとする。また、ステップS107では、表示判断部16によって表示すると判断された手話映像のみを番組映像に合成するものとする。
(ステップS201)対応特定部31は、手話映像の数と同じ個数の人物の領域が特定されたかどうか判断する。そして、手話映像の数と同じ個数の人物の領域が特定された場合には、ステップS202に進み、そうでない場合には、ステップS204に進む。人物の領域の特定そのものができなかった場合にも、ステップS204に進むものとする。
(ステップS202)対応特定部31は、手話映像と人物の領域とを対応付ける。この処理の詳細については、図19のフローチャートを用いて後述する。
(ステップS203)表示位置設定部15は、対応特定部31による特定結果を用いて、各手話映像の表示位置を設定する。
(ステップS204)表示位置設定部15は、各手話映像の表示位置を、あらかじめ決められている位置に設定する。
(ステップS205)映像合成部20は、表示位置設定部15によって設定された表示位置を示す情報を図示しない記録媒体において一時的に記憶する。なお、この情報は、各手話映像について表示位置を示す情報である。そして、ステップS101に戻る。
なお、図18のフローチャートのステップS204において、一の人物の領域が特定された場合には、前述のように、その一の人物の領域に隣接する位置に、複数の手話映像の表示位置を設定するようにしてもよい。また、図18のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
図19は、図18のフローチャートにおける対応を特定する処理(ステップS202)の詳細を示すフローチャートである。
(ステップS301)対応特定部31は、人物領域特定部13によって特定された各人物の領域のそれぞれについて動きの検出を行う。
(ステップS302)対応特定部31は、手話映像受付部12が受け付けた複数の手話映像のそれぞれについて動きの検出を行う。
(ステップS303)対応特定部31は、動きの程度の近いもの同士を対応付ける。そして、図18のフローチャートに戻る。
次に、本実施の形態による手話映像合成装置3の動作について、具体例を用いて説明する。なお、複数の手話映像と、複数の人物の領域との対応付けを行い、その結果に応じて各手話映像の表示位置を設定する以外の動作については、実施の形態1の具体例と同様であり、その詳細な説明を省略する。
実施の形態1の具体例と同様に、ユーザがニュース番組を見るようにチャンネル設定が行われ、その番組映像がディスプレイに表示されたとする(ステップS104〜S108)。その番組映像の表示は、一定の手話映像が蓄積されて表示判断部16が手話映像を表示すると判断するまで継続されるものとする。また、番組関連情報が受け付けられ、それに応じて大きさ情報が取得されて一時的に記憶されたとする(ステップS101〜S103)。なお、そのニュースの番組情報に応じて受信された手話映像は2個であるとする。
また、番組映像の受信が開始され、動き検出ができるほどの時間が経過した後に、表示位置設定部15は、表示位置の設定を行うと判断し、人物領域特定部13に対して、人物の領域を特定する処理を行う旨の指示を渡す(ステップS109)。すると、人物領域特定部13は、番組映像受付部11が受け付けた図12と同様の番組映像において、2個の人物の領域を特定する(ステップS110)。そして、その結果を示す図14と同様の人物領域特定情報が図示しない記録媒体に蓄積される。
次に、対応特定部31は、手話映像の個数と、特定された人物の領域の個数とが等しいと判断し(ステップS201)、対応を特定する処理を実行する(ステップS202)。具体的には、対応特定部31は、人物ID「U001」に対応する領域情報で示される領域と、人物ID「U002」に対応する領域情報で示される領域とについて、動き検出を行う(ステップS301)。また、対応特定部31は、手話映像受付部12が受け付けた2個の手話映像のそれぞれについても、動き検出を行う(ステップS302)。なお、その2個の手話映像を識別する情報として、手話映像ID「F001」「F002」が各手話映像に対応付けられているとする。そして、対応特定部31は、対応する動きの大きい順に人物IDと、手話映像IDとをソートし、ソート後の手話映像IDと人物IDとを1番目から順番に対応付けた情報である図20で示される対応結果情報を生成し、その対応結果情報を表示位置設定部15に渡す(ステップS303)。表示位置設定部15は、その対応結果情報を図示しない記録媒体に蓄積する。図20において、例えば、対応結果情報の1番目のレコードで、人物ID「U001」と、手話映像ID「F001」とが対応付けられている。したがって、人物ID「U001」に対応する人物の領域と、手話映像ID「F001」に対応する手話映像とが対応付けられたことになる。
また、表示位置設定部15は、その蓄積した対応結果情報を参照し、人物ID「U001」に対応する人物の領域について、実施の形態1の具体例と同様にして表示位置を設定する。その表示位置が、手話映像ID「F001」で識別される手話映像の表示位置となる。また、表示位置設定部15は、同様にして、人物ID「U002」に対応する人物の領域についても、実施の形態1の具体例と同様に表示位置を設定する。その際に、手話映像ID「F001」で識別される手話映像の表示位置に重ならないように表示位置の設定を行うものとする(ステップS203)。そして、表示位置設定部15は、表示位置を示す情報と、手話映像IDとを対応付ける情報を、映像合成部20に渡す。映像合成部20は、その受け取った情報を図示しない記録媒体に蓄積する(ステップS205)。
その後、表示判断部16がそれぞれの手話映像を表示すると判断したとすると(ステップS106)、それに応じて映像合成部20は、2個の手話映像をそれぞれ表示位置設定部15から受け取った、番組映像の表示位置に合成し、その合成映像を映像出力部21に渡す(ステップS107)。映像出力部21は、その合成映像をディスプレイに表示する(ステップS108)。図21は、そのようにしてディスプレイに表示された合成映像である。各人物の領域に対応付けられた手話映像が合成されている。したがって、図21の合成映像を見たユーザは、人物と手話映像との対応を容易に知ることができることになる。
以上のように、本実施の形態による手話映像合成装置3によれば、2以上の手話映像が受け付けられた場合に、各手話映像を、その手話映像に対応する人物の領域に隣接して表示することができるようになる。したがって、合成映像を見る者は、人物と手話映像との対応を容易に把握することができるようになる。また、その手話映像が人物の近くに表示されるため、手話映像と人物との間の視線移動が少なくなり、眼精疲労等の疲労を軽減することができることは実施の形態1と同様である。
なお、本実施の形態では、複数の手話映像と、複数の人物の領域との動きを用いて両者の対応を特定する場合について説明したが、それ以外の方法によって両者を対応付けてもよいことは言うまでもない。例えば、手話映像に対して、その手話映像に対応する人物を識別する人物識別情報が重畳されているとする。したがって、手話映像と人物識別情報との対応を知ることができるようになっているものとする。また、各人物識別情報と、その人物識別情報で識別される人物の画像の特徴を示す特徴情報とを対応付ける人物特徴対応情報が、図示しない記録媒体で記憶されているものとする。そして、対応特定部31は、人物領域特定部13が特定した人物の領域から特徴を抽出し、その特徴と一致する特徴情報を特定することによって、その人物の領域が、その特定した特徴情報に対応する人物識別情報で識別される人物のものであると知ることができる。そして、その人物識別情報を介して、人物の領域と、手話映像とを対応付けることができるようになる。ここで、一致するとは、両者が完全に一致する場合だけでなく、両者の類似度がしきい値以上の場合を含んでもよい。
また、上記各実施の形態の具体例において、手話映像として同じ図形を用いているが、これは説明の便宜上であり、実際には動きがあるため、いろいろなポーズとなりうる。
また、上記各実施の形態において、表示判断部16によって手話映像を表示するかどうかの判断を行い、その判断結果に応じて、映像合成部20が手話映像の合成を行う場合について説明したが、そうでなくてもよい。表示判断部16による判断を行わなくてもよい。その場合には、手話映像合成装置1,3は、表示判断部16を備えていなくてもよい。表示判断部16による判断を行わない場合には、映像合成部20は、絶えず手話映像を番組映像に合成することになる。
また、上記各実施の形態では、番組関連情報が番組のジャンルを示す情報である場合について主に説明したが、そうでなくてもよい。前述のように、番組関連情報は、番組に出演する俳優の氏名や番組の名称であってもよい。その場合であっても、その俳優の氏名や番組の名称に対応する大きさ情報が取得され、その取得された大きさ情報を用いた手話映像の合成が行われてもよい。
また、上記各実施の形態では、取得部19が取得した大きさ情報で示される大きさの手話映像が番組映像に合成される場合について説明したが、そうでなくてもよい。あらかじめ決められた大きさの手話映像が番組映像に合成されてもよい。その場合には、手話映像合成装置1,3は、番組関連情報受付部17、対応情報記憶部18、取得部19を備えていなくてもよい。
また、上記各実施の形態において、番組映像に手話映像を合成する際に、手話映像と、その手話映像に対応する人物の領域とを対応付ける表示である対応表示が追加されるようにしてもよい。例えば、手話映像と、その手話映像に対応する人物の領域とのそれぞれを囲む同じ色の外縁の線である対応表示が追加されてもよい。その追加は、映像合成部20によって行われてもよく、他の構成要素によって行われてもよい。また、2以上の手話映像が合成される際には、手話映像ごとにその色が異なっていることが好適である。そのようにすることで、人物と手話映像との対応がよりわかりやすくなる。また、例えば、手話映像と、その手話映像に対応する人物の領域との間を結ぶ線である対応表示が追加されてもよい。また、その他の対応表示が追加されてもよいことは言うまでもない。
また、上記各実施の形態において、人物領域特定部13が特定した人物の領域があらかじめ決められている大きさよりも小さい場合には、表示位置設定部15は、その人物の領域に対して手話映像の位置の設定を行わなくてもよい。あまりにも小さい人物の映像の場合には、手話映像がその人物に対応したものであるのかどうかが明確でないことが多いと考えられるからである。また、人物領域特定部13が特定した人物の領域があらかじめ決められている数よりも多い場合には、表示位置設定部15は、その人物の領域に対して手話映像の位置の設定を行わなくてもよい。あまりにも人物の映像が多い場合には、手話映像がどの人物に対応したものであるのかが明確でないことが多いと考えられるからである。
また、手話映像合成装置は、2以上の手話映像を受け付けて、それを合成した合成映像を生成するものであってもよい。その場合には、例えば、手話映像合成装置は、番組映像受付部と、手話映像受付部と、映像合成部と、映像出力部とを備えたものであってもよい。番組映像受付部は、番組映像を受け付けるものであり、前述の番組映像受付部11と同様のものである。また、手話映像受付部は、番組映像に対応した手話の映像である複数の手話映像を受け付けるものであり、前述の実施の形態2における手話映像受付部12と同様のものである。映像合成部は、番組映像に複数の手話映像を合成した合成映像を生成する。その場合に、手話映像を合成する番組映像における位置は、あらかじめ決められたものであってもよく、あるいは、そうでなくてもよい。後者の場合には、前述のように表示位置設定部15等によって決められた位置であってもよい。映像出力部は、合成映像を出力するものであり、前述の映像出力部21と同様のものである。このような手話映像合成装置によって、2以上の手話映像を一の番組映像に合成することによって、合成映像を生成することができる。
また、手話映像合成装置は、表示判断部による判断結果に応じて、手話映像を表示したり、しなかったりするものであってもよい。その場合には、例えば、手話映像合成装置は、番組映像受付部と、手話映像受付部と、表示判断部と、映像合成部と、映像出力部とを備えたものであってもよい。番組映像受付部は、番組映像を受け付けるものであり、前述の番組映像受付部11と同様のものである。また、手話映像受付部は、番組映像に対応した手話の映像である複数の手話映像を受け付けるものであり、前述の実施の形態2における手話映像受付部12と同様のものである。表示判断部は、手話映像を表示するかどうか判断するものであり、前述の表示判断部16と同様のものである。映像合成部は、表示判断部が手話映像を表示すると判断した際には、番組映像に手話映像を合成した映像である合成映像を生成し、表示判断部が手話映像を表示しないと判断した際には、手話映像である合成映像を生成するものであり、前述の映像合成部20と同様のものである。映像出力部は、合成映像を出力するものであり、前述の映像出力部21と同様のものである。このような手話映像合成装置によって、手話映像を表示する必要がない場合には、その手話映像を合成しないようにすることができ、不必要な手話映像によって、番組映像の一部が占有されることを回避することができる。
なお、上記各実施の形態では、手話映像合成装置1,3において、手話映像の表示位置を設定すると共に、番組映像と手話映像との合成も行う場合について説明したが、手話映像の表示位置の設定と、番組映像と手話映像との合成とは別個に行われてもよい。その場合には、例えば、図22で示されるように、手話表示位置設定装置5において、手話映像の表示位置の設定が行われ、手話映像合成装置6において、番組映像と手話映像との合成が行われてもよい。
図22において、手話表示位置設定装置5は、番組映像受付部11と、手話映像受付部12と、人物領域特定部13と、話者特定部14と、表示位置設定部15と、出力部51とを備える。なお、出力部51以外の構成及び動作は、実施の形態1と同様であり、その説明を省略する。
出力部51は、番組映像における、表示位置設定部15が設定した表示位置を示す情報である位置情報を出力する。なお、出力部51は、番組映像受付部11が受け付けた番組映像、及び、手話映像受付部12が受け付けた手話映像を、位置情報と一緒に出力してもよい。ここで、この出力は、例えば、所定の機器への通信回線を介した送信でもよく、記録媒体への蓄積でもよい。ここでは、出力部51は、有線または無線の通信回線500を介して、位置情報、番組映像、手話映像を手話映像合成装置6に送信するものとする。通信回線500を介した送信は、例えば、放送であってもよく、インターネットやイントラネット、公衆電話回線網を介した送信であってもよい。なお、出力部51は、出力を行うデバイス(例えば、通信デバイスなど)を含んでもよく、あるいは含まなくてもよい。また、出力部51は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
なお、手話表示位置設定装置5は、例えば、番組映像の送信元の装置(例えば、放送局の装置)であってもよく、その番組映像を中継する装置であってもよい。前者の場合には、例えば、番組映像受付部11や手話映像受付部12は、番組映像等を記録媒体から読み出すことによって受け付けてもよい。また、後者の場合には、例えば、番組映像受付部11や手話映像受付部12は、番組映像等を受信することになる。また、前述のように、両映像は同期されていることが好適であることは言うまでもない。また、出力部51が番組映像や手話映像、位置情報を送信する際には、それらを同期できるように送信することが好適である。例えば、出力部51は、同期している番組映像と手話映像と位置情報とを、それぞれ別チャンネルで送信してもよい。また、例えば、出力部51は、番組映像と、手話映像と、位置情報とを、それらの同期のための情報(例えば、タイムコードなど)と一緒に送信してもよい。出力部51が送信以外の出力を行う場合にも同様である。なお、手話表示位置設定装置5は、番組映像等をリアルタイムで受け付けて、それを用いて位置情報を生成し、番組映像等と位置情報とをリアルタイムで出力してもよく、あるいは、生成した位置情報を図示しない記録媒体で記憶しておき、その位置情報を一括して出力してもよい。
図22において、手話映像合成装置6は、番組映像受付部11と、手話映像受付部12と、表示判断部16と、番組関連情報受付部17と、対応情報記憶部18と、取得部19と、映像出力部21と、位置情報受付部61と、映像合成部62とを備える。なお、位置情報受付部61及び映像合成部62以外の構成及び動作は、実施の形態1と同様であり、その説明を省略する。なお、ここでは、番組映像受付部11及び手話映像受付部12は、手話表示位置設定装置5から送信された番組映像等を受信するものとする。
位置情報受付部61は、手話映像を表示する位置を示す位置情報を受け付ける。ここで、この受け付けは、例えば、有線もしくは無線の通信回線を介して送信された情報の受信でもよく、所定の記録媒体(例えば、光ディスクや磁気ディスク、半導体メモリなど)から読み出された情報の受け付けでもよい。ここでは、位置情報受付部61が手話表示位置設定装置5から送信された位置情報を受信する場合について説明する。なお、位置情報受付部61は、受け付けを行うためのデバイス(例えば、モデムやネットワークカードなど)を含んでもよく、あるいは含まなくてもよい。また、位置情報受付部61は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。また、位置情報受付部61が受け付ける位置情報は、手話映像合成装置6の番組映像受付部11が受け付ける番組映像に関連したものである。すなわち、その番組映像において、人物の領域に隣接する位置に手話映像を表示するための位置情報である。
映像合成部62は、表示位置設定部15が設定した表示位置に代えて、位置情報受付部61が受け付けた位置情報で示される表示位置に手話映像を合成する以外、実施の形態1の映像合成部20と同様のものであり、その詳細な説明を省略する。
この図22で示されるように、手話表示位置設定装置5において表示位置を設定し、手話映像合成装置6においてその設定された表示位置を用いて手話映像を合成してもよい。
なお、手話表示位置設定装置5において、手話映像の表示位置の設定のためには、手話映像は必要ないため、手話表示位置設定装置5は、手話映像を受け付けなくてもよい。その場合には、手話表示位置設定装置5は、手話映像受付部12を備えていなくてもよい。また、手話表示位置設定装置5において、話者を特定した表示位置の設定を行わなくてもよい。その場合には、手話表示位置設定装置5は、話者特定部14を備えていなくてもよい。また、手話表示位置設定装置5の出力部51は、番組映像や手話映像を出力しなくてもよい。その場合には、出力部51は、位置情報のみを出力するものであってもよい。
また、手話映像合成装置6において、表示判断部16による判断に応じた手話映像の合成を行わなくてもよい。その場合には、手話映像合成装置6は、表示判断部16を備えていなくてもよい。また、手話映像合成装置6において、番組関連情報に応じた手話映像の合成を行わなくてもよい。その場合には、手話映像合成装置6は、番組関連情報受付部17と、対応情報記憶部18と、取得部19とを備えていなくてもよい。
また、手話表示位置設定装置5から手話映像合成装置6に、記録媒体等を介して位置情報が渡されてもよいことは言うまでもない。例えば、出力部51が位置情報を記録媒体に蓄積し、位置情報受付部61がその記録媒体から位置情報を読み出してもよい。また、手話表示位置設定装置5から手話映像合成装置6に、番組映像や手話映像が送信されなくてもよいことは言うまでもない。その場合には、手話映像合成装置6の番組映像受付部11や手話映像受付部12は、受信以外の方法によって番組映像等を受け付けてもよい。
また、上記実施の形態2の手話映像合成装置3についても、図22の手話表示位置設定装置5と手話映像合成装置6と同様に、手話映像の表示位置の設定と、番組映像等の合成とを別の装置で行ってもよい。その場合には、図23で示されるように、手話表示位置設定装置7は、番組映像受付部11と、手話映像受付部12と、人物領域特定部13と、表示位置設定部15と、対応特定部31と、出力部51とを備える。それらの構成及び動作は、実施の形態2及び前述の説明と同様のものであり、その説明を省略する。また、図23において、手話映像合成装置6は、図22の手話映像合成装置6と同様のものである。
また、上記実施の形態において、各処理または各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよく、あるいは、複数の装置または複数のシステムによって分散処理されることによって実現されてもよい。
また、上記実施の形態において、各構成要素が実行する処理に関係する情報、例えば、各構成要素が受け付けたり、取得したり、選択したり、生成したり、送信したり、受信したりした情報や、各構成要素が処理で用いるしきい値や数式、アドレス等の情報等は、上記説明で明記していない場合であっても、図示しない記録媒体において、一時的に、あるいは長期にわたって保持されていてもよい。また、その図示しない記録媒体への情報の蓄積を、各構成要素、あるいは、図示しない蓄積部が行ってもよい。また、その図示しない記録媒体からの情報の読み出しを、各構成要素、あるいは、図示しない読み出し部が行ってもよい。
また、上記実施の形態において、各構成要素等で用いられる情報、例えば、各構成要素が処理で用いるしきい値やアドレス、各種の設定値等の情報がユーザによって変更されてもよい場合には、上記説明で明記していない場合であっても、ユーザが適宜、それらの情報を変更できるようにしてもよく、あるいは、そうでなくてもよい。それらの情報をユーザが変更可能な場合には、その変更は、例えば、ユーザからの変更指示を受け付ける図示しない受付部と、その変更指示に応じて情報を変更する図示しない変更部とによって実現されてもよい。その図示しない受付部による変更指示の受け付けは、例えば、入力デバイスからの受け付けでもよく、通信回線を介して送信された情報の受信でもよく、所定の記録媒体から読み出された情報の受け付けでもよい。
また、上記実施の形態において、手話映像合成装置1,3に含まれる2以上の構成要素が通信デバイスや入力デバイス等を有する場合に、2以上の構成要素が物理的に単一のデバイスを有してもよく、あるいは、別々のデバイスを有してもよい。
また、上記実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをCPU等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。なお、上記実施の形態における手話映像合成装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、番組の映像である番組映像を受け付ける番組映像受付部、番組映像に対応した手話の映像である手話映像を受け付ける手話映像受付部、番組映像における人物の領域を特定する人物領域特定部、人物領域特定部が特定した人物の領域に隣接する位置に手話映像の表示位置を設定する表示位置設定部、番組映像における、表示位置設定部が設定した表示位置に、手話映像を合成した合成映像を生成する映像合成部、合成映像を出力する映像出力部として機能させるためのプログラムである。
なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を受け付ける受付部や、情報を出力する出力部などにおけるモデムやインターフェースカードなどのハードウェアでしか実現できない機能は、上記プログラムが実現する機能には少なくとも含まれない。
また、このプログラムは、サーバなどからダウンロードされることによって実行されてもよく、所定の記録媒体(例えば、CD−ROMなどの光ディスクや磁気ディスク、半導体メモリなど)に記録されたプログラムが読み出されることによって実行されてもよい。また、このプログラムは、プログラムプロダクトを構成するプログラムとして用いられてもよい。
また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
図24は、上記プログラムを実行して、上記実施の形態による手話映像合成装置を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現されうる。
図24において、コンピュータシステム900は、CD−ROM(Compact Disk Read Only Memory)ドライブ905、FD(Floppy(登録商標) Disk)ドライブ906を含むコンピュータ901と、キーボード902と、マウス903と、モニタ904とを備える。
図25は、コンピュータシステム900の内部構成を示す図である。図25において、コンピュータ901は、CD−ROMドライブ905、FDドライブ906に加えて、MPU(Micro Processing Unit)911と、ブートアッププログラム等のプログラムを記憶するためのROM912と、MPU911に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するRAM(Random Access Memory)913と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク914と、MPU911、ROM912等を相互に接続するバス915とを備える。なお、コンピュータ901は、LANへの接続を提供する図示しないネットワークカードを含んでいてもよい。
コンピュータシステム900に、上記実施の形態による手話映像合成装置の機能を実行させるプログラムは、CD−ROM921、またはFD922に記憶されて、CD−ROMドライブ905、またはFDドライブ906に挿入され、ハードディスク914に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ901に送信され、ハードディスク914に記憶されてもよい。プログラムは実行の際にRAM913にロードされる。なお、プログラムは、CD−ROM921やFD922、またはネットワークから直接、ロードされてもよい。
プログラムは、コンピュータ901に、上記実施の形態による手話映像合成装置の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム900がどのように動作するのかについては周知であり、詳細な説明は省略する。
また、本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。