[第1実施形態]
次に、本発明の実施形態について、図面を参照しながら説明する。
図1は、本実施形態による提示制御装置の概略機能構成を示すブロック図である。同図において、100は、提示制御装置である。また、2は、提示装置である。提示制御装置100は、提示装置2による提示の方法等を制御する。なお、提示装置2は、例えば、テレビ受像機(「放送受信装置」とも呼ばれる。テレビ受像機が、放送通信連携機能を有する場合もある。)、デジタルサイネージ装置、インターネット端末装置(パーソナルコンピューターや、タブレット端末装置や、スマートフォンといった装置のいずれかであってよい)等である。提示装置2は、映像や音声によるコンテンツを提示するための装置である。
図示するように、提示制御装置100は、撮影部3と、画像解析部4と、画像分類部5と、分類結果利用部6と、提示装置制御部7と、分類モデル生成部8と、動作判定部9と、処理結果利用選択部10と、外部情報利用部11と、モデル共有部12と、制御対象選択部13と、外部端末制御部14とを含んで構成される。
なお、撮影部3の機能を、「画像取得部」と呼んでもよい。画像取得部は、撮影された画像を取得するものである。また、画像解析部4と、画像分類部5と、分類結果利用部6と、分類モデル生成部8と、動作判定部9と、処理結果利用選択部10と、外部情報利用部11と、モデル共有部12との機能を、「画像判定部」と呼んでもよい。画像判定部は、取得された画像に関する判定を行い、その判定結果に基づいて提示装置に対していかなる制御を行うかを決定するものである。より具体的には、画像判定部は、画像判定のためのモデルを予め記憶しており、前記モデルを用いて取得された前記画像を解析し、前記画像に含まれるユーザーの有無とユーザーの人数とを判定するものである。また、提示装置制御部7と、制御対象選択部13と、外部端末制御部14との機能を、「制御部」と呼んでもよい。制御部は、前記ユーザーの有無と、前記ユーザーの人数とに応じて、提示装置を制御するものである。別の言い方をすれば、制御部は、制御対象の提示装置を選択するとともに、提示装置に対して制御信号を送るなどの処理を行うものである。
これらの各機能部は、例えば、コンピューターと、プログラムとで実現することが可能である。また、各機能部は、必要に応じて、記憶手段を有する。記憶手段は、例えば、プログラム上の変数や、プログラムの実行によりアロケーションされるメモリーである。また、必要に応じて、磁気ハードディスク装置やソリッドステートドライブ(SSD)といった不揮発性の記憶手段を用いるようにしてもよい。また、各機能部の少なくとも一部の機能を、プログラムではなく専用の電子回路として実現してもよい。各部の機能は、次に説明する通りである。
撮影部3は、提示制御装置100の近傍または提示装置2の近傍の、所定の範囲を撮影し画像を取得する。撮影部3は、撮影のためのカメラを備えている。撮影部は、例えば、提示装置2が提示するコンテンツを視聴するユーザーがいる場合には、そのユーザーを撮影することができる。
画像解析部4は、撮影部3が撮影した画像を解析する。画像解析部4は、画像内の特徴を抽出する。例えば、画像解析部4は、画像に含まれるユーザーの顔の領域や、身体の領域などを抽出してもよい。また、画像解析部4を用いて、取得した画像の中から、例えば人間の顔の部分だけを抽出することで、背景などの画像に影響を受けないでより精度の高い分類モデルを生成することができる。
画像分類部5は、予め生成されたモデルを用いて、画像をクラスに分類する。クラスの例は、例えば、ユーザー(人)が含まれるクラス、ユーザーが含まれないクラス、含まれるユーザー数が2人であるクラス、含まれるユーザー数が3人であるクラス、特定の識別可能なユーザーが含まれるクラス、特定の動作をするユーザーが含まれるクラス、特定の顔の表情(笑い、怒り、悲しみ、泣き等)を持つユーザーが含まれるクラス、特定の顔の向き(正面、左向き、右向き、上向き、下向き等)のユーザーが含まれるクラス、特定の方向への移動あるいは特定の場所への移動等を行うユーザーが含まれるクラス等である。
分類結果利用部6は、画像分類部5によるクラス、あるいは動作判定部9が判定した動作種別に応じて、予め定められた設定に基づき、提示装置の制御のしかた(コマンド)を決定するものである。
提示装置制御部7は、分類結果利用部6が決定したコマンドにしたがって、提示装置を制御する。
分類モデル生成部8は、与えられる画像に基づいて、画像を特定のクラスに分類するためのモデルを生成する。分類モデル生成部8は、例えば、機械学習の手法を用いて、モデルを生成する。モデルとは、特定のクラスに属する画像の特徴を表す情報である。
動作判定部9は、時系列の静止画に基づき、あるいは動画に基づき、ユーザーの動作の種別を判定するものである。なお、動作判定の手法としては、既存技術によるものを用いることができる。動作判定部9は、ユーザーの身体の部分の時系列の動きに基づいて、動作の種別を判定する。
処理結果利用選択部10は、クラスと処理(コマンド)とを関連付けて記憶するものである。外部からクラス等が指定されると、処理結果利用選択部10は、設定されている処理の内容を提供する。クラスの例は、上で列挙した通りである。つまり、処理結果利用選択部10は、ユーザーの有無や、ユーザーの人数や、ユーザーの識別情報や、動作や、ユーザーの顔の表情あるいは顔の向き等に対応して設定された処理内容の情報を保持する。処理結果利用選択部10は、設定に応じて処理内容を出力する。
外部情報利用部11は、時刻情報や、番組表情報や、提示制御装置の位置情報などといった外部情報を取得する。これらの外部情報を利用することにより、提示制御装置100は、様々な方法で提示装置2を制御することができる。
モデル共有部12は、分類モデル生成部8によって生成されたモデルの情報を記憶する。また、モデル共有部12は、他の提示制御装置100におけるモデル共有部12との間で、モデルを共有することができる。モデル共有部12は、モデルを記憶するために、例えば、半導体メモリーを備える。また、モデル共有部12は、他の装置との間でのファイル転送の手順により、当該他の装置とモデルを共有する。また、モデル共有部12は、例えばクラウドサーバー装置経由で、他の提示制御装置100との間でのモデルの共有を行ってもよい。
制御対象選択部13は、複数の提示装置2を制御対象とし得る場合に、どの提示装置を制御対象とするか選択するものである。
外部端末制御部14は、提示装置2の代替となり得る外部端末装置を制御するものである。
図2は、第1実施形態の変形例によるシステムの構成を示すブロック図である。この変形例では、提示装置2Aが提示制御装置100Aを含むように構成される。つまり、提示装置2Aは、提示機能部150と、提示制御装置100Aとを含んで構成される。具体的には、提示装置2Aは、テレビ受像機や、デジタルサイネージ装置や、インターネット端末装置等である。また、この変形例では、複数台(図示する例では、3台)の提示制御装置100Aが互いに協調しながら動作する。各々の提示制御装置100Aは、図1に示した提示制御装置100と同様の機能を持つ。
提示機能部150は、コンテンツを提示する機能を有する。例えば、提示機能部150は、放送信号を受信し、その放送信号から映像および音声を抽出し、抽出された映像および音声を提示する。また、例えば、提示機能部150が、通信を介して映像や音声のファイルを受信し、受信した映像および音声を提示する。具体的には、提示機能部150は、コンテンツの映像を表示装置等に表示させ、音声をスピーカー等から出力する。
提示制御装置100Aは、前述の通り、提示制御装置100と同様の機能を持つ。つまり、提示制御装置100Aは、撮影された画像を取得し、モデルを用いて画像を解析し、その解析結果に応じて画像を分類し、分類結果に応じて提示装置2Aを制御する。提示制御装置100Aは、提示装置2A内の提示機能部150を制御する。
ある提示装置2Aに含まれる提示制御装置100Aは、他の提示装置2Aに含まれる提示制御装置100Aとの間で情報を交換しながら、互いに協調動作することもできる。具体的には、ある提示装置2Aに含まれる提示制御装置100Aは、他の提示装置2Aに含まれる提示制御装置100Aとの間で、画像を解析するためのモデルを共有してよい。つまり、ある提示装置2Aに含まれる提示制御装置100Aは、自装置が記憶するモデルの情報を、他の提示装置2Aに含まれる提示制御装置100Aに提供してよい。また、ある提示装置2Aに含まれる提示制御装置100Aは、他の提示装置2Aに含まれる提示制御装置100Aからモデルの情報を受信し、受信したモデルに基づいて画像を解析するようにしてもよい。
また、ある提示装置2Aに含まれる提示制御装置100Aは、自装置の提示機能部150による提示を制御するとともに、他の提示装置に含まれる提示機能部150による提示を制御してもよい。
図3は、提示制御装置100(提示制御装置100Aの場合も同様。なお、以下においても同様。)による、モデル生成の処理を示す概略図である。以下、この図に沿って、提示制御装置100の処理について説明する。この図に示す処理は、画像を分類するためのモデルを生成して保存する処理である。ここで生成されるモデルとは、画像を分類するための、画像の特徴を表す情報である。モデルは、例えば、ユーザー(人、視聴者)が写っている画像の特徴を表したり、逆にユーザーが写っていない画像の特徴を表したり、特定のユーザーを識別するための画像の特徴を表したりする情報である。一例として、分類モデル生成部8は、機械学習の方法を用いて、モデルを生成する。例えば、提示制御装置100が、ニューラルネットワークによるモデルを用いる場合には、画像の特徴は、ニューラルネットワーク内の各ノードにおける、入出力の重み付けパラメーターの値が、モデルを表す情報である。
図3の処理301において、撮影部3は、所定箇所を撮影し、画像を取得する。所定箇所とは、例えば、提示装置2の映像表示画面の前方である。つまり、撮影部3は、提示装置2の視聴位置にユーザーが居る場合、そのユーザーを撮影する。なお、撮影部3は、1人のユーザーについて複数枚の画像を撮影してもよい。次に処理302において、分類モデル生成部8は、画像を基にモデルを生成する。生成されるモデルは、例えば、一般のユーザーが写っている場合の画像の特徴や、識別可能な特定のユーザーが写っている場合の画像の特徴や、ユーザーが写っていない画像の特徴を表す情報である。また、モデルは、1人のユーザーが写っている画像の特徴や、2人・3人などといった複数人のユーザーが写っている画像それぞれの特徴を表す情報であってもよい。そして、処理303において、モデル共有部12は、処理302で生成されたモデルを、内部の記憶手段に記憶する。なお、モデル共有部12は、他の提示制御装置100のモデル共有部12との間で、モデルの情報を共有するようにしてもよい。これにより、複数の提示制御装置100の各々で生成されたモデルを、より多くの提示制御装置100で利用することが可能となる。
図3の処理で生成されるモデルについて、さらに説明する。画像分類部5は、入力される画像を、例えば、「ユーザー」(人間)のクラスと、「それ以外」のクラスとに分類する。その分類の際に、画像分類部5は、モデルを参照する。つまり、モデルは、画像が各クラスに属する場合の特徴の情報を持っている。分類モデル生成部8は、大量の教師データ(教師画像)を読み込むことにより、機械学習の手法を用いて、モデルを生成することができる。ここに記す例では、例えば、モデルは、鼻(らしきパーツ)と目(らしきパーツ)と口(らしきパーツ)との位置関係により、「ユーザー」クラスらしさを表す。また、モデルは、他にも、肌や、髪や、腕や、脚などといった、画像内における「ユーザー」の身体的特徴を表すものである。
ユーザーを個別に識別するためのモデルを生成するためには、分類モデル生成部8は、例えば、新規のユーザーを登録する手順を実行する。この手順によると、分類モデル生成部8は、新規のユーザーの画像をできるだけ大量に取得するとともに、それらの画像から得られる特徴とユーザー個人の識別情報とを関連付けて管理する。
図4は、図3の処理で生成されたモデルが既にモデル共有部12によって保持されていることを前提とした、提示制御装置100の全体的な処理を示す概略図である。図示するように、提示制御装置100による処理の流れは次の通りである。
処理321において、撮影部3は、提示装置2の近傍を撮影し、画像を取得する。典型的な場合において、撮影部3は、提示装置2が有する画面の前方を撮影する。撮影部3は、得られた画像を、画像解析部4および動作判定部9に渡す。
処理322において、画像解析部4は、撮影部3から受け取った画像を解析する。例えば、画像解析部4は、受け取った画像の中から人の顔が含まれる部分だけを抽出する。画像解析部4は、解析後の画像を画像分類部5に渡す。処理323において、モデル共有部12は、画像分類部5からの要求に応じて、判定に用いるためのモデルを提供する。処理324において、画像分類部5は、モデル共有部12から提供されるモデルを参照しながら、画像解析部4から渡された画像の分類を行う。画像分類部5は、撮影した画像の特徴点を解析することで画像のクラス分けを行う。画像分類部5は、具体的には、その画像にユーザーが写っているか否か、ユーザーの人数、ユーザー個人の識別結果等に応じた分類を行う。画像分類部5は、分類結果の情報(ユーザーの識別情報等)を分類結果利用部6に渡す。
一方、処理325において、動作判定部9は、撮影部3から渡された画像に含まれる動作を解析する。動作判定部9は、画像内に特定の動作が含まれている場合にはその動作の種別を表す情報を分類結果利用部6に渡す。
処理326において、処理結果利用選択部10は、分類結果利用部6からの要求に応じて、ユーザー識別情報および動作の種別情報に対応する設定情報を提供する。この設定情報は、提示装置2に対する制御の内容を表すものである。処理327において、外部情報利用部11は、必要に応じて外部情報を分類結果利用部6に提供する。そして、処理328において、分類結果利用部6は、ユーザー識別や動作の種別に応じた処理種別(処理結果利用選択部10から渡された処理種別)を確認し、その処理の実行に関するコマンドを提示装置制御部7に渡す。処理329において、提示装置制御部7は、渡されたコマンドの処理を実行する。即ち、提示装置制御部7は、渡されたコマンドに対応して、提示装置2に対する制御信号を送信する。
以上のようにして、提示制御装置100は、ユーザーの有無や、ユーザーの人数や、ユーザー識別情報や、ユーザーの動作種別等に応じて予め設定されていた処理を提示装置2が行うよう、提示装置2を制御する。
次に、提示制御装置100が、取得した画像に含まれる人の有無に応じた制御を行う場合について説明する。
図5は、予め生成されたモデルを用いて、提示制御装置100が、提示装置の電源のオン/オフを制御する処理を示す概略図である。図5の処理341において、撮影部3は、提示装置2(テレビ等)の近傍の所定の方向を撮影する。具体的には、例えば、撮影部3は、提示装置2の前方を撮影し、画像を取得する。撮影部3は、得られた画像を画像分類部5に渡す。処理342において、画像分類部5は、渡された画像を分類する。ここでは、画像分類部5は、予め生成されていたモデルを参照することにより、分類対象の画像の特徴に基づく分類を行う。具体的には画像分類部5は、分類対象の画像が、「ユーザー有」のクラスに属するか、「ユーザー無」のクラスに属するか、の分類を行う。画像分類部5は、クラス分けの結果の情報を、分類結果利用部6に渡す。なお、当該画像が「ユーザー有」(人を含む)クラスに分類された場合には、処理343に進む。また、当該画像が「ユーザー無」(人を含まない)クラスに分類された場合には、処理345に進む。
画像が人を含む場合(処理342)、処理343において、分類結果利用部6は、提示装置2の電源をオンするコマンドを生成して、提示装置制御部7に渡す。処理344において、提示装置制御部7は、分類結果利用部6から渡されたコマンド(電源オン)にしたがって、提示装置2の電源をオンにするための制御信号を提示装置2に送信する。この制御により、提示装置2の電源がオンになる。
画像が人を含まない場合(処理342)、処理345において、分類結果利用部6は、提示装置2の電源をオフするコマンドを生成して、提示装置制御部7に渡す。処理346において、提示装置制御部7は、分類結果利用部6から渡されたコマンド(電源オン)にしたがって、提示装置2の電源をオフにするための制御信号を提示装置2に送信する。
この制御により、提示装置2の電源がオフになる。
以上のように、提示制御装置100が撮影した画像を解析した際に、人間の特徴点が含まれていればユーザーが存在すると判断して、提示装置制御部7によって提示装置2の電源オンにする。また、人間の特徴点が含まれていなければユーザーが存在しないと判断して、提示装置2の電源オフを実行する。
提示装置制御部7は、例えば、赤外線リモコン装置を用いた制御(図6を参照)や、ソフトウェアによる制御(図7を参照)として実現することができる。
図6は、提示制御装置100の提示装置制御部7が赤外線リモコン装置の機能を用いて提示装置2を制御するための構成を示す概略図である。同図において、撮影部3は、提示制御装置100の一部であり、提示装置2(テレビ受像機)の上またはその近傍に設けられたカメラである。撮影部3は、所定の方向を撮影し、画像を取得する。例えば、撮影部3は、テレビ受像機の前方、即ち、テレビ受像機の画面に正対するユーザーの居る方向を撮影する。提示制御装置100は、図1を参照しながら説明したように、画像解析部4と、画像分類部5と、分類結果利用部6と、提示装置制御部7とを含む。提示装置制御部7は、赤外線リモコンモジュールと、提示制御装置100内のモジュールとから成る。
赤外線リモコンモジュールは、提示制御装置100内のモジュールから、通信ネットワーク経由で制御可能である。赤外線リモコンモジュールは、提示装置2を制御するための赤外線信号を発信することができる。赤外線リモコンモジュールは、提示装置2の機種ごとに設計されるものである。図6に示す形態では、提示装置2(テレビ受像機等)がインターネットに接続されない場合にも、提示制御装置100による提示装置2の制御を実現できるというメリットがある。
図7は、提示制御装置100の提示装置制御部7がソフトウェアの機能によって提示装置2を制御するための構成を示す概略図である。同図において、撮影部3は、図6の場合と同様に、適切な場所に設けられるカメラである。また、撮影部3は、ユーザーの居る方向を撮影することができる。
図7に示す構成において、提示装置2A(例えば、テレビ受像機)は、提示制御装置100Aとテレビ機能部151とを有する。提示装置2Aは、例えば、スマートテレビである。提示装置2A内の提示制御装置100Aは、ソフトウェアを用いて、テレビ等による提示を制御することができる。提示制御装置100Aは、プロセッサー101と、画像メモリー102と、プログラムメモリー103と、入出力部104とを含んで構成される。プログラムメモリー103は、画像解析機能4Pと、画像分類機能5Pと、分類結果利用機能6Pと、提示装置制御機能7Pと、分類モデル生成機能8Pと、動作判定機能9Pと、処理結果利用選択機能10Pと、外部情報利用機能11Pと、モデル共有機能12Pと、制御対象選択機能13Pと、外部端末制御機能14Pとの、各機能のプログラムを記憶する。これらのプログラムは、それぞれ、図1に示した、画像解析部4と、画像分類部5と、分類結果利用部6と、提示装置制御部7と、分類モデル生成部8と、動作判定部9と、処理結果利用選択部10と、外部情報利用部11と、モデル共有部12と、制御対象選択部13と、外部端末制御部14とに対応する機能を実現するものである。言い換えれば、これらのプログラムは、それぞれ、プロセッサー101に、各部の機能を実行させるものである。提示装置2Aは、下記の様に動作する。
テレビ機能部151は、テレビの放送信号を受信し、放送信号の復調および復号を行うことによって映像および音声を抽出し、それらの映像および音声を出力する。テレビ機能部151は、図2に示した提示機能部150の一例である。
プロセッサー101は、プログラムを実行してデータを処理する機能を有するものである。プロセッサー101は、CPU(中央処理装置)等とも呼ばれる。プロセッサー101は、プログラムメモリー103に記憶されている各機能のプログラムを実行することによって、画像を解析したり、テレビ機能部151の制御を行ったりする。テレビ機能部151の制御を行う機能は、提示装置制御機能7Pのプログラムとして存在する。
入出力部104は、撮影部3が撮影した画像を取り込み、画像メモリー102に書き込む。
画像メモリー102は、画像のデータを少なくとも一時的に記憶するものである。画像メモリー102は、例えば、半導体記憶装置を用いて実現される。
図7に示したソフトウェアによる制御では、提示制御装置100Aとテレビ機能部151との間では、例えば、ハイブリッドキャスト(Hybridcast)端末連携機能による制御や、テレビ受像機を製造するメーカーが実装しているネットワーク制御や、例えばアンドロイド(登録商標、AndroidOS)などの受信機内蔵オペレーティングシステム(OS)の機能を活用した制御などを用いることができる。提示装置制御機能7Pは、分類結果利用機能6Pが出力する処理結果を使用し、上記の制御方式のいずれかによる制御を行うことにより、赤外線リモコン装置などといった専用ハードウェアを用いずに、テレビ機能部151(提示装置2A)を制御できる。
また、図7に示した、テレビ機能と提示制御装置100Aとを一体化した構成に限らず、同様のソフトウェアによる制御を使用することにより、例えばスマホ(スマートフォン)のアプリや、スマートスピーカー(AIスピーカーとも呼ばれる)などから、テレビ受像機を制御することも可能である。
また、提示制御装置100Aが有する機能の一部を、いわゆるクラウド環境で実現してもよい。この場合、提示制御装置100Aが有する機能の少なくとも一部は、外部のクラウドサーバー装置で実現される。クラウドサーバー装置は、通信ネットワークを介して、処理結果を提示制御装置100Aに渡すことができる。
ソフトウェアによる制御によって、提示装置2Aに、ハイブリッドキャスト(Hybridcast、放送通信連携機能)の起動や、別のアプリの実行を行わせることもできる。これにより、提示装置2Aは、放送によるコンテンツの提示だけではなく、VOD(ビデオ・オン・デマンド)等のネットワークコンテンツ(通信ネットワークを介して提供されるコンテンツ)の提示をも行えるようになる。提示装置2Aがハイブリッドキャストを使用する場合には、提示制御装置100Aが提示装置2Aの制御を実行する前に、その実行の意向を画面にポップアップで表示するなどといった機能を実装することもできる。
ハイブリッドキャストを用いて次のようにコンテンツの提示を制御することも可能である。ユーザー識別情報と提示するコンテンツに関する傾向情報(嗜好等)との関係を、設定情報として、予め提示制御装置100の処理結果利用選択部10に登録しておく。提示装置2がテレビ放送のコンテンツを受信して提示しているとき、撮影部3が、ユーザーを撮影する。また、画像分類部5がその画像に含まれるユーザーの個人識別を行う。分類結果利用部6は、ユーザーの識別結果に応じて、且つ上記設定情報に応じて、特定分野の動画コンテンツを当該ユーザーに提示するコマンドを、提示装置制御部7に渡す。なお、この動画コンテンツは、インターネット等による通信を介して所定のサーバー装置から提供されるコンテンツである。提示装置制御部7は、ハイブリッドキャストを起動し、上記特定分野の動画コンテンツを取得して提示するよう提示装置2を制御する。この制御に基づき、提示装置2は、ハイブリッドキャストを起動し、通信ネットワークを経由して求められている動画コンテンツを取得する。そして、提示装置2は、元々受信していたテレビ放送の番組コンテンツあるいはCM(広告メッセージ動画)に代えて、通信ネットワークから取得して動画コンテンツを提示する差し替えを行う。あるいは、提示装置2は、ハイブリッドキャストにより、特定言語による字幕テキストを受信して放送番組コンテンツに重畳して表示したり、手話動画を受信して放送番組コンテンツを提示する領域の一部にその手話動画を表示したりすることもできる。以上のように、提示制御装置100は、視聴ユーザーの識別結果に応じて、提示コンテンツを差し替えるなどといった制御を行うこともできる。
次に、提示制御装置100が、ユーザー個人の識別結果やユーザーの人数にも応じて、提示装置2を制御する処理について説明する。
図8は、ユーザーの有無だけではなく、ユーザー個人の識別結果や、ユーザーの人数の判別結果等にも応じて、提示装置2を制御する処理の流れを示す概略図である。図5に示した処理では、ユーザーの有無を検知したものの、ユーザーを個別に識別して提示装置2を制御することは行われなかった。ここに示す処理では、提示制御装置100は、提示装置2(テレビ)の視聴ユーザーに応じたコンテンツを提示するよう制御する。この処理では、図3に示した処理によって、予め、ユーザー個人を識別するためのモデル(特定のユーザーとその他のユーザーとを区別するためのモデル)を作成しておく。予め作成されたモデルは、モデル共有部12によって保持されている。ユーザー個人を識別するためのモデルは、他の提示制御装置100との間で共有されるものであってもよい。
図8に示すように、処理361において、撮影部3は、提示装置2の近傍の所定の箇所を撮影する。提示制御装置100は、撮影によって得られる画像を取得する。処理362において、モデル共有部12は、画像分類部5からの要求に応じて、ユーザー個人を識別するためのモデルを提供する。処理363において、画像分類部5は、提供されるモデルを参照しながら、処理361で得られている画像のクラス分けを行う。ここでのクラス分けは、画像に含まれるユーザーを個人単位で識別するための処理である。つまり、クラス分けの処理の結果、画像に含まれるユーザーが識別される。
次に、処理364において、分類結果利用部6は、処理363におけるクラス分けの結果に応じた判定を行う。具体的には、分類結果利用部6は、ユーザーごとに関連付けられているコンテンツを特定し、そのコンテンツを提示することを判定する。分類結果利用部6は、そのコンテンツを提示するよう、提示装置制御部7に要求する。処理365において、提示装置制御部7は、分類結果利用部6から要求されたコンテンツを提示するよう、提示装置2を制御する。
図8に示した処理の、さらに具体的な例は、次の通りである。例えば、特定のユーザーの居宅には、提示装置2(テレビ受像機)が設置されている。そのユーザーの画像に基づくモデルは、提示制御装置100に予め登録されている。また、そのユーザーはテレビ放送の第1チャンネルを視聴すること、当該ユーザーの家族はテレビ放送の第2チャンネルを視聴することが予め登録されている。また、その提示装置2の近傍に誰もいない場合にはその提示装置2の電源をオフにすることが予め登録されている。この状況において、提示制御装置100は、取得した画像に当該ユーザーが写っているのか、その画像に当該ユーザーの家族が写っているのか、その画像にユーザーが誰も写っていないのかを判定する。当該ユーザーが写っている場合には、提示制御装置100は、提示装置2が第1チャンネルのテレビ放送を受信して提示するよう制御する。当該ユーザーの家族が写っている場合には、提示制御装置100は、提示装置2が第2チャンネルのテレビ放送を受信して提示するよう制御する。画像にユーザーが誰も写っていない場合には、提示制御装置100は、提示装置2の電源をオフにするよう制御する。このように、提示制御装置100は、画像に含まれるユーザーの識別結果に応じて提示装置2を制御することができる。より具体的には、提示制御装置100は、画像に含まれるユーザーの識別結果に応じて、提示装置2にどのコンテンツを提示させるかを制御することができる。
さらに、画像に含まれるユーザーの数に応じて、提示制御装置100が、提示装置2を制御するようにしてもよい。その場合、分類モデル生成部8は、複数人のユーザーが写っている画像を教師データとして使用し、予め、複数人のユーザーがいるか否かを判別するためのモデルを生成しておく。また、ユーザーの人数に応じて、2人のユーザー、3人のユーザー、4人のユーザー、・・・等が写っているか否かを判別するためのモデルを生成しておくようにしてもよい。これらの場合も、生成されたモデルは、モデル共有部12に記憶されている。そして、画像分類部5は、モデルを参照することによって、入力された画像が、「複数人のユーザー」クラスに属するか否かを判断する。あるいは、画像分類部5は、モデルを参照することによって、入力された画像が、「2人のユーザー」クラスに属するか否か、「3人のユーザー」クラスに属するか否か、「4人のユーザー」クラスに属するか否か等を判断してもよい。分類結果利用部6は、画像分類部5による分類結果に応じて、提示装置2を制御するためのコマンドを生成し、提示装置制御部7に渡す。そして、提示装置制御部7は、そのコマンドにしたがって、提示装置2を制御する。これにより、例えば、複数人のユーザーが写っている場合(複数人視聴)には、提示装置2がテレビの第3チャンネルのコンテンツを提示するように切り替える制御を行ってもよい。
以上のように、設定により、識別可能な特定のユーザーが画像に含まれる場合、特定のユーザー以外のユーザーが画像に含まれる場合、単数のユーザーが画像に含まれる場合、複数人のユーザーが画像に含まれる場合、2人のユーザーが画像に含まれる場合、3人のユーザーが画像に含まれる場合等、各々の場合にどのように提示装置2を制御するかを予め設定しておき、各場合の制御を行うことも可能となる。
次に、ユーザーの顔の表情や顔の向きなどに応じた、提示制御装置100の処理を説明する。
図9は、提示制御装置100がユーザーの顔の表情あるいは向きなどに応じて、提示装置2を制御する処理を示す概略図である。同図に示す処理では、ユーザーの顔の表情の違いや顔の向きの違いに応じたモデルを生成する。
図9の処理381において、撮影部3は、ユーザーを撮影する。このとき、撮影部3は、当該ユーザーの様々な顔の表情や、様々な顔の向きでの撮影を行い、画像を取得する。
処理382において、提示制御装置100は、撮影部3が撮影した多数の画像を、ユーザーの顔の表情の種類や、顔の向きの種類で、分類する。処理383において、分類モデル生成部8は、処理382において分類したクラスごとに、モデルを生成する。具体的には、例えば、分類モデル生成部8は、特定のユーザーの、顔の表情のクラスごと(「うれしい顔」、「悲しい顔」、「怒った顔」、「泣いた顔」、「目を瞑った顔」等)および顔の向きのクラスごと(「正面向き」、「上向き」、「下向き」、「左向き」、「右向き」等)に、各クラスの画像の特徴を表す情報をモデルとして生成する。分類モデル生成部8は、生成したモデルを、モデル共有部12に渡す。処理384において、モデル共有部12は、分類モデル生成部8から渡されたモデルの情報を、記憶手段に書き込むことによって保持する。なお、モデル共有部12はこのモデルの情報を、他の提示制御装置100のモデル共有部12との間で共有してもよい。これにより、モデル共有部12は、画像分類部5から要求された際に、上記のモデルを提供することができるようになる。
モデル共有部12がモデルを保持している状態において、処理385では、撮影部3が提示制御装置100の近傍の所定の方向を撮影する。撮影部3は、取得した画像を画像分類部5に渡す。処理386において、画像分類部5は、モデル共有部12から提供されるモデルを参照しながら、撮影部3から渡される画像の分類(クラス分け)を行う。これにより、画像分類部5は、画像に含まれるユーザーの顔がどういた表情のクラスに属するものか、あるいはユーザーの顔がその向きを向いているクラスに属するものかを特定する。画像分類部5は、クラス分けした結果の情報を、分類結果利用部6に渡す。処理387において、分類結果利用部6は、画像分類部5から渡されたクラス分けの結果にしたがって、提示装置2を制御するためのコマンドを決定する。分類結果利用部6は、決定したコマンドを、提示装置制御部7に渡す。処理388において、提示装置制御部7は、渡されたコマンドに従って提示装置2を制御するための信号を出力する。この結果、提示装置2は、撮影されたユーザーの顔の表情の種別や、顔の向き等に応じた提示を行うようになる。
図9に示した処理を行うことによって、例えば、提示装置2を次のように制御することが可能となる。一例として、撮影された画像が「目を瞑っている」クラスに分類された場合(ユーザーが提示装置2によって提示されているコンテンツを視聴していないと推定される場合)に、提示制御装置100は、設定に基づき、提示装置2の電源をオフにするよう制御することができる。また、撮影された画像が「下向きの顔」クラスに分類された場合(ユーザーが例えば手元のスマートフォンの画面を見ていて、あるいはその他の作業をしていて、提示装置2に対して注意を払っていない場合など)に、提示制御装置100は、設定に基づき、提示装置2が出力する音声の音量を所定のレベルまで下げるよう制御することができる。
また、提示装置2がテレビ放送のコンテンツを提示している途中で、撮影された画像が「横向きの顔」クラス(顔が、右向きまたは左向き)に分類された場合(ユーザーが提示装置2の提示する内容に集中していないと推察される場合)に、提示制御装置100は、設定に基づき、通信ネットワークを介して(つまり、ハイブリッドキャスト機能を利用)取得したコンテンツ(例えば、注意を惹くためのコンテンツ)を提示するよう、提示装置2を制御することができる。さらに、注意をひくためのコンテンツを提示した後に撮影された画像が「正面向きの顔」クラスに分類されたタイミングで、提示制御装置100は、設定に基づき、ユーザーに対して確実に伝達したい重要な情報のコンテンツを提示するよう、提示装置2を制御することもできる。
また、撮影された画像が「泣いている顔」や「怒っている顔」などのクラスに分類された場合に、提示制御装置100は、設定に基づき、それぞれの感情に対応するコンテンツを提示するよう、提示装置2を制御することもできる。
次に、ユーザーの動作に基づいて提示装置2を制御する処理について説明する。この処理では、撮影部3は、動画、あるいは時系列の複数の静止画を撮影する。
図10は、ユーザーの動作に基づいて提示装置2を制御する処理を示す概略図である。処理401において、撮影部3は、動画、あるいは時系列に連続する静止画を撮影する。撮影部3は、それらの画像を、動作判定部9に渡す。処理402において、動作判定部9は、ユーザーの身体の各部位の時間的な変化を解析する。その結果、動作判定部9は、ユーザーが特定の動作を行ったか否かを検知する。動作判定部9は、検出した動作のクラスの情報を、分類結果利用部6に渡す。処理403において、分類結果利用部6は、動作のクラスに応じてコマンドを決定する。例えば、ユーザーが、手を、自身の身体の左側から右側に所定範囲の速度で動作させたときに、その動作が、テレビ受像機(提示装置2)におけるチャンネルの選択を変更する(チャンネル番号を+1させる)ことを表すことを予め設定しておく。分類結果利用部6は、動作判定部9による判定結果と、上記の設定の内容とに基づいて、チャンネル番号を変更するコマンドを決定し、そのコマンドを提示装置制御部7に渡す。処理404において、提示装置制御部7は、分類結果利用部6から受け取ったコマンドにしたがって、チャンネル番号を変更する(+1させる)ための制御信号を、提示装置2に送信する。ここに挙げた動作は一例であり、その他にも、様々な動作とコマンドとを関連付けておくことによって、提示制御装置100は、ユーザーの動作に基づいた提示装置2の制御を行うことが可能となる。
次に、図11、図12、図13を参照しながら、ユーザーの位置の変化を捉えて、その変化に基づいて提示装置2を制御する処理について説明する。例えば、複数のテレビ受像機(提示装置2A)の各々が提示制御装置100Aを内部に備えている場合には、各提示制御装置100Aが有する撮影部3(カメラ)で、異なる位置の画像を取得することができる。そして、これらの提示制御装置100Aが、撮影された画像やモデルを共有することにより、異なる位置で撮影された画像に基づいて、提示制御装置100Aが提示装置2Aを制御することができる。例えば、家庭内に複数のテレビ受像機が設置されている場合や、街角等で提示制御装置100Aを備えた複数台のデジタルサイネージ機器(提示装置2A)が設置されている場合などを想定できる。
図11に示す構成では、3台のテレビ受像機(提示装置2A)の各々に対応して、カメラ(撮影部3)が設けられている。ユーザーが、図示するように進行方向に移動すると、各カメラが撮影した画像内に人が検知されるか否かが順次変わっていく。これによって、提示制御装置100Aは、必要に応じて複数台が相互に協調しながら、ユーザーの移動のパターン(どこからどこに移動したか、どの方向に移動したか、どういう速さで移動したか)を把握することができる。
この構成によれば、複数の提示制御装置は、分類のためのモデルや、取得した画像を、共有できるようにする。提示制御装置の機能を備える複数台のテレビ受像機(提示装置)を設置した場合には、人の動きや位置に応じてコンテンツを順次提供できる。
図12に示す構成では、1台の俯瞰カメラ(撮影部3)が撮影する画像内のどの位置においてユーザーが検知されるかを判定する。この場合も、提示制御装置100Aは、ユーザーの移動のパターン(上述した通り)を把握することができる。
図13に示す構成では、1台のカメラ(撮影部3)を有する提示制御装置100の、制御対象選択部13の機能を用いる。図13に示す構成では、3台のテレビ受像機(提示装置2)のうちの、真ん中の1台だけが、提示制御装置100を備えている。そして、この提示制御装置100の制御対象選択部13は、図示する3台のテレビ受像機のうちのどれを制御対象とするかを選択することができる。即ち、提示装置制御部7が出力する制御信号は、制御対象選択部13が選択した提示装置2に対してのみ作用する。
なお、制御対象選択部13は、例えば、赤外線リモコン信号の送出方向や周波数などを変更することによって、制御対象の提示装置2を変更することができる。あるいは、制御対象選択部13は、提示装置制御部7から送出される制御信号(IPプロトコルによるメッセージとして送出される)の送信先のIPアドレスを変更することによって、制御対象の提示装置2を変更することができる。
例えば、撮影部3が撮影した画像で捉えられたユーザーが3台のテレビ受像機のうちの真ん中のテレビ受像機の前方に居る場合、且つ、「ユーザーが視聴している方向にある受信機のコンテンツをNHK総合テレビのチャンネルに切り替える」という制御をする場合、提示制御装置100は次のような処理を行う。即ち、画像分類部5は、ユーザーの顔の向きを判定する。分類結果利用部6は、顔の向き(視聴方向)に対応するテレビ受像機を制御対象とするよう、制御対象選択部13に指示する。また、分類結果利用部6は、対象のテレビ受像機に関してテレビ放送のチャンネルを切り替える制御を行うよう、提示装置制御部7にコマンドを送る。これにより、ユーザーの視聴方向に存在するテレビ受像機のチャンネル選択が変更されるような制御が行われる。
以上のように、提示制御装置100は、複数の提示装置2を同時に制御することができる。
また、制御対象選択部13は、テレビ受像機以外を制御対象とすることもできる。例えば、ユーザーがテレビ受像機の正面に居る場合は、制御対象選択部13によって選択されたテレビ受像機(提示装置2)にコンテンツを提示させるよう、提示装置制御部7が制御を行う。そして、ユーザーがテレビ受像機の正面から移動して他の場所(台所等)に移った場合には、当該他の場所にテレビ受像機が設置されていなくても、制御可能な外部端末装置(例えば、スマートスピーカー)を外部端末制御部14によって制御することができる。外部端末制御部14は、他の場所に設置された外部端末が、特定のコンテンツの音声を出力するよう制御する。ユーザーは、移動後にも、外部端末装置(スピーカー)から、元のテレビ受像機で視聴していたコンテンツの続きの音声のみを聴講するといったことが可能となる。
図14は、上で説明した、提示制御装置100が、複数台の提示装置のうちのいずれかを選択して制御したり、外部端末装置を選択して制御したりする処理を示す概略図である。図示するように、処理421において、撮影部3は、ユーザーを撮影する。撮影部3は、取得した画像を、画像分類部5に渡す。処理422において、画像分類部5は、渡された画像に基づいて、ユーザーの位置や、ユーザーの顔の向き等を判定する。画像分類部5は、これらの判定結果を、分類結果利用部6に渡す。処理423において、分類結果利用部6は、設定に基づき、ユーザーの位置やユーザーの顔の向きに応じた処理を確認する。
処理424において、制御対象選択部13は、制御対象である提示装置を選択する。なお、制御対象選択部13は、外部端末装置を制御対象として選択することもできる。制御対象選択部13は、外部端末装置を制御対象とする場合には、外部端末制御部14にコマンドを渡す。その他の場合には、制御対象選択部13は、提示装置制御部7にコマンドを渡す。なお、制御対象となり得る提示装置が複数存在する場合には、制御対象選択部13は、それらの提示装置のうちのどれを制御対象とするかを選択してよい。
提示装置制御部7にコマンドが渡された場合、処理425において、提示装置制御部7は、そのコマンドに応じて、選択された提示装置に対する制御を行う。一方、外部端末制御部14にコマンドが渡された場合、処理426において、外部端末制御部14は、そのコマンドに応じて、外部端末装置に対する制御を行う。
以上説明したように、本実施形態によれば、撮影によって取得した画像を基に判定を行い、その判定結果に応じて、提示装置(テレビ受像機等の装置)を制御することができる。
[第2実施形態]
次に、本発明の第2実施形態について説明する。なお、前実施形態において既に説明した事項については以下において説明を省略する場合がある。ここでは、本実施形態に特有の事項を中心に説明する。
図15は、本実施形態による提示制御装置200の概略機能構成を示すブロック図である。図示するように、提示制御装置200は、画像取得部201と、画像判定部202と、制御部203とを含んで構成される。この構成により、提示制御装置200は、1台または複数台の提示装置2(例えば、テレビ受像機等)を制御することができる。図示した各機能の詳細は、次の通りである。
画像取得部201は、撮影された画像を取得するものである。
画像判定部202は、画像判定のためのモデルを予め記憶しており、前記モデルを用いて取得された前記画像を解析し、前記画像に含まれるユーザーの有無とユーザーの人数とを判定するものである。
制御部203は、前記ユーザーの有無と、前記ユーザーの人数とに応じて、提示装置を制御するものである。
なお、画像判定部202は、前記画像に含まれるユーザーを識別する処理を行ってもよい。また、制御部203は、前記ユーザーの識別結果に応じて前記提示装置を制御してもよい。
また、制御部203は、前記ユーザーの識別結果に応じた放送コンテンツを前記提示装置が提示するよう制御してもよい。
また、提示装置は、放送通信連携機能を備えた放送受信装置(テレビ受像機)であり、制御部203は、前記提示装置が、前記放送通信連携機能を用いて通信によって取得した通信コンテンツを提示するよう制御してもよい。
また、制御部203は、判定結果である前記ユーザーの人数に応じたコンテンツを前記提示装置が提示するよう制御してもよい。
また、画像判定部202は、前記ユーザーの顔の表情または顔の向きの少なくともいずれかを判定する処理を行ってもよい。そして、制御部203は、前記ユーザーの顔の表情または顔の向きの少なくともいずれかに応じて前記提示装置を制御してもよい。
また、画像判定部202は、他の提示制御装置200の画像判定部202との間で前記モデルを共有し、共有された前記モデルを用いて取得された前記画像を解析してもよい。
なお、上述した各実施形態における提示制御装置や提示装置の、少なくとも一部の機能をコンピューターで実現することができる。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM、DVD-ROM、USBメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
以上説明した複数の実施形態の各々によれば、撮影によって取得した画像を基に判定を行い、その判定結果に応じて、提示装置(テレビ受像機等の装置)を制御することができる。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。