JP6908906B1 - 自動スイッチング装置、自動スイッチング方法及びプログラム - Google Patents

自動スイッチング装置、自動スイッチング方法及びプログラム Download PDF

Info

Publication number
JP6908906B1
JP6908906B1 JP2020204622A JP2020204622A JP6908906B1 JP 6908906 B1 JP6908906 B1 JP 6908906B1 JP 2020204622 A JP2020204622 A JP 2020204622A JP 2020204622 A JP2020204622 A JP 2020204622A JP 6908906 B1 JP6908906 B1 JP 6908906B1
Authority
JP
Japan
Prior art keywords
cutout
index
switching
video
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020204622A
Other languages
English (en)
Other versions
JP2022091640A (ja
Inventor
太郎 矢口
太郎 矢口
大樹 加藤
大樹 加藤
萌江 竹内
萌江 竹内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Television Network Corp
Original Assignee
Nippon Television Network Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Television Network Corp filed Critical Nippon Television Network Corp
Priority to JP2020204622A priority Critical patent/JP6908906B1/ja
Priority to JP2021103756A priority patent/JP2022091670A/ja
Application granted granted Critical
Publication of JP6908906B1 publication Critical patent/JP6908906B1/ja
Publication of JP2022091640A publication Critical patent/JP2022091640A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Studio Devices (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Studio Circuits (AREA)

Abstract

【課題】映像のスイッチングを自動化すること。【解決手段】自動スイッチング装置は、コンテンツの映像素材を取得する取得部と、映像素材の人物の画像又は音声を認識する認識部と、認識されたオブジェクトの画像又は音声により、コンテンツにおけるオブジェクトの役割の指標である役割指標を計算し、役割指標を用いて、少なくとも一以上のオブジェクトを領域内に含み、映像素材から映像を切り出すための切り出し候補領域を複数選定する切り出し候補領域選定部と、映像素材におけるオブジェクトの映像変化及び音声変化を検出する検出部と、映像素材におけるオブジェクトの映像変化及び音声変化の検出結果から、各切り出し候補領域におけるスイッチングのタイミングの指標であるスイッチング指標を計算し、各切り出し候補領域のスイッチング指標を用いて、各切り出し候補領域から切り出し領域を決定する切り出し領域決定部と、映像素材から切り出し領域の映像を切り出し、現在出力されている映像を切り出した映像にスイッチングするスイッチング部とを備える。【選択図】図1

Description

本発明は自動スイッチング装置、自動スイッチング方法及びプログラムに関し、特に、スイッチングする映像の選択を自動化する自動スイッチング装置、自動スイッチング方法及びプログラムに関する。
従来、放送局における番組制作の現場では、複数台のカメラを用いて、各カメラマンがそれぞれの観点から出演者を撮影し、スイッチャが番組の意図などの観点より複数のカメラ映像からひとつの映像をスイッチング(選択)して出力映像としていた。しかし、上述のような制作システムでは、多くの人的リソースを必要としていた。そこで、人的リソースの軽減を図るため、ロボットカメラ等により自動撮影する試みがなされている(例えば、特許文献1)。
特許文献1の技術は、外部からの指令に基づいて撮影ショットタイプを設定する撮影ショットタイプ設定手段と、被写体のイベントと撮影ショットタイプと切替ショットとを関連付けた複数のイベント撮影規則生成情報を予め記憶する撮影規則生成情報記憶手段と、設定された撮影ショットタイプとイベント撮影規則生成情報とに基づいてイベントと切替ショットとを対応させたイベント撮影規則を生成する撮影規則生成手段と、外部からのイベント情報とイベント撮影規則とに基づいて撮影ショットを決定する撮影ショット制御手段とを備える。また、特許文献1の技術は、複数のロボットカメラによって撮影される被写体の複数の映像を入力し、外部から入力された、あるロボットカメラの映像から他のロボットカメラの映像に出力を切り替える指令である切替指令に基づいて、映像の出力を切り替えて、ひとつの出力映像を生成するスイッチャに映像を出力する機能も備えている。
特許4741557号公報
しかしながら、特許文献1の発明は、多くのロボットカメラを用意しなければならず、設備コストを高くなる。また、カメラを制御するための規則を詳細に定めなければならず、また、撮影からスイッチングまでを完全に自動化するものではなかった。
そこで、本発明は上記課題に鑑みて発明されたものであって、スイッチングする映像を自動的に選択できる自動スイッチング装置、自動スイッチング方法及びプログラムを提供することにある。
本発明の一態様は、コンテンツの映像素材を取得する取得部と、前記映像素材の人物の画像又は音声を認識する認識部と、認識されたオブジェクトの画像又は音声により、前記コンテンツにおけるオブジェクトの役割の指標である役割指標を計算し、前記役割指標を用いて、少なくとも一以上のオブジェクトを領域内に含み、前記映像素材から映像を切り出すための切り出し候補領域を複数選定する切り出し候補領域選定部と、前記映像素材におけるオブジェクトの映像変化及び音声変化を検出する検出部と、前記映像素材におけるオブジェクトの映像変化及び音声変化の検出結果から、前記各切り出し候補領域におけるスイッチングのタイミングの指標であるスイッチング指標を計算し、前記各切り出し候補領域のスイッチング指標を用いて、前記各切り出し候補領域から切り出し領域を決定する切り出し領域決定部と、前記映像素材から切り出し領域の映像を切り出し、現在出力されている映像を切り出した映像にスイッチングするスイッチング部とを備える自動スイッチング装置である。
本発明の一態様は、コンピュータに、コンテンツの映像素材を取得する取得機能、映像素材のオブジェクトの画像又は音声を認識する認識機能、認識されたオブジェクトの画像又は音声により、前記コンテンツのオブジェクトの役割の指標である役割指標を計算し、前記役割指標を用いて、少なくとも一以上のオブジェクトを領域内に含み、前記映像素材から映像を切り出すための切り出し候補領域を複数選定する切り出し候補領域選定機能、前記映像素材におけるオブジェクトの映像変化及び音声変化を検出する検出機能、前記映像素材におけるオブジェクトの映像変化及び音声変化の検出結果から、前記各切り出し候補領域におけるスイッチングのタイミングの指標であるスイッチング指標を計算し、前記各切り出し候補領域のスイッチング指標を用いて、前記各切り出し候補領域から切り出し領域を決定する切り出し領域決定機能、前記映像素材から切り出し領域の映像を切り出し、現在出力されている映像を切り出した映像にスイッチングするスイッチング機能を実現させるためのプログラムである。
本発明の一態様は、コンピュータが、コンテンツの映像素材を取得し、映像素材のオブジェクトの画像又は音声を認識し、認識されたオブジェクトの画像又は音声により、前記コンテンツのオブジェクトの役割の指標である役割指標を計算し、前記役割指標を用いて、一以上のオブジェクトを領域内に含み、前記映像素材から映像を切り出すための切り出し候補領域を複数選定し、前記映像素材におけるオブジェクトの映像変化及び音声変化を検出し、前記映像素材におけるオブジェクトの映像変化及び音声変化の検出結果から、前記各切り出し候補領域におけるスイッチングのタイミングの指標であるスイッチング指標を計算し、前記各切り出し候補領域のスイッチング指標を用いて、前記各切り出し候補領域から切り出し領域を決定し、前記映像素材から切り出し領域の映像を切り出し、現在出力されている映像を切り出した映像にスイッチングする自動スイッチング方法である。
本発明の一態様は、コンテンツの映像素材を取得する取得部と、映像素材のオブジェクトの画像又は音声を認識する認識部と、認識されたオブジェクトの画像又は音声により、コンテンツにおけるオブジェクトの役割と映像切替のタイミングとを考慮した指標を計算し、前記指標を用いて、前記映像素材上に少なくとも一以上のオブジェクトを含む切り出し領域を選定する切り出し領域選定部と、前記映像素材から切り出し領域の映像を切り出し、現在出力されている映像を切り出した映像にスイッチングするスイッチング部とを備える自動スイッチング装置である。
本発明は、スイッチングする映像の選択を自動化することができる。
図1は本発明の実施の形態のブロック図である。 図2は番組データベース11の番組情報の一例である。 図3はカメラ1が撮影した番組映像の一例を示す図である。 図4は切り出し候補領域選定部13、切り出し候補領域選定部15、スイッチング部16及び表示制御部17の動作を説明するための図である。 図5は切り出し候補領域選定部13、切り出し候補領域選定部15、スイッチング部16及び表示制御部17の動作を説明するための図である。 図6は切り出し候補領域選定部13、切り出し候補領域選定部15、スイッチング部16及び表示制御部17の動作を説明するための図である。 図7は切り出し候補領域選定部13、切り出し候補領域選定部15、スイッチング部16及び表示制御部17の動作を説明するための図である。 図8は実施の形態の変形例1を説明するための図である。 図9は実施の形態の変形例2のブロック図である。 図10は表示装置3におけるユーザのスイッチング映像の選択を示した図である。 図11は実施の形態の変形例3のブロック図である。
本発明の実施の形態を説明する。
以下の説明では、コンテンツを一つの番組とし、映像素材をその番組をカメラで撮影することにより得られる番組映像とし、映像素材のオブジェクトを番組の出演者とした例を説明する。但し、コンテンツ及び映像素材を限定するものではなく、例えば、コンテンツは番組に限られず、映像素材は直接、動画ファイル等を取得できるものでも良い。また、オブジェクトは出演者等の人物に限られず、映像に映っている物体(動物、製品等)でも良い。
図1は本発明の実施の形態のブロック図である。図1中、1はカメラ、2はスイッチング装置、3は表示装置である。
カメラ1は、番組を撮影するカメラである。カメラ1は、1台で、被写体(例えば、番組の出演者)全員が写るような広い画角で、番組を撮影する。本実施の形態は、後述するように、カメラ1が番組を撮影した映像(以下、番組映像と記載する)そのものを、又は、カメラ1が撮影した番組映像の一部を切り出した映像(トリミング映像)を、本線側に出力するスイッチング映像として出力する。そのため、カメラ1は高画質な映像が撮影できる4K又は8Kのカメラが好ましいが、これらに限定されるものではない。
スイッチング装置2は、取得部10と、番組データベース(番組DB)11と、認識部12と、切り出し候補領域選定部13と、検出部14と、切り出し領域決定部15と、スイッチング部16と、表示制御部17と、を備える。
取得部10は、カメラ1が撮影した番組の番組映像及び音声を入力するものである。
番組データベース11は、番組の収録、撮影にあたって、番組の番組情報が登録されるデータベースである。番組情報は、番組の出演者の出演者情報、後述する役割指標及びスイッチング指標の計算式の係数(重み値)を含む。番組情報は、番組毎に番組の収録、撮影開始前に登録される。これにより、番組毎の特性を反映することができる。尚、同一番組であっても、異なる複数の番組情報を登録するようにしても良い。例えば、コーナ毎に番組情報を登録するようにしても良い。
図2は番組データベース11の番組情報の一例である。図2に示される番組データベース11の番組情報は、トーク番組の番組Xの番組情報の一例である。
図2に示される番組Xの番組情報のうち、出演者情報として、番組Xに出演する出演者A、出演者B、出演者C及び出演者D毎に、出演者の画像特徴、番組Xにおける出演者の重要度である人物重要度、番組Xの司会を示すフラグ、番組の台本などに記載されたキーワード、番組Xにおける出演時間(オンタリー時間)等の情報が登録されている。また、後述する役割指標及びスイッチング指標に用いられる重みづけ値(係数)が登録されている。
認識部12は、顔認識機能と、骨格判定機能と、音声認識機能とを備える。
顔認識機能は、番組データベース11に登録された出演者の画像特徴を用いて、番組映像中の人物(出演者)を認識するものである。また、認識された出演者の目線方向、顔の変化(うなずきや笑顔)を検出し、これらを数値化する。これらの認識、検出方法の種類は問わないが、パターンマッチングによる方法、機械学習して得られたアルゴリズムによる認識などがある。機械学習の方法は、深層学習(ディープラーニング)が代表的なものであるが、これに限られない。
骨格判定機能は、番組映像中に写っている人物の骨格を判定する。そして、骨格判定の結果を用いて、認識した出演者の部位の撮影映像上の位置関係を特定する。骨格判定の手法は、例えば、OpenPose、VisionPose、tf-pose-estimation等があるが、これらに限られない。
音声認識機能は、番組映像の音声から、出演者の発音、音のレベル、キーワードの検出の機能を有する。また、音声認識機能は、音声自体により出演者(人物)を識別する識別機能を持っていも良い。尚、音声は、番組映像信号とは別の単独の音声信号から取得するようにしても良い。
切り出し候補領域選定部13は、認識部12により認識された出演者の画像、骨格又は音声により、番組における出演者の役割の指標である役割指標を計算する。そして、計算した役割指標を用いて、認識された少なくとも一以上の出演者を領域内に含み、番組映像から映像を切り出すための切り出し候補領域を複数選定する。
役割指標について説明する。番組において出演者は、番組の司会(MC)、メインゲスト、リアクター等、それぞれ役割があるのが通常である。例えば、トーク番組であれば、番組を進行する司会がおり、トークの中心人物となるメインのゲストがおり、トークに対してリアクションを行うリアクターがいる。番組の各出演者は自分の役割を意識しながら、番組を進行する。このような出演者の役割を数値化したものが、役割指標である。
役割指標は、時間の経過にともない変化する要素(例えば、話者、出演者の目線集合、出演者の外形変化(動作、うなずき、笑顔等)と、事前に決定される要素(人物重要度、キーワードの発話)とをパラメータとして含む指標である。また、視聴率データ、配信データ、検索エンジンの上位の検索キーワード等をパラメータに含めても良い。以下、番組がトーク番組である場合を例にして、各役割指標の算出式について説明する。
(1)役割指標(司会者)
役割指標(司会者)は、番組映像からMC(Master of ceremonies)や司会者の役割を持つ出演者を識別するための指標である。通常、番組のMCや司会者は、予め定められている。そこで、認識部12が認識した出演者の画像特徴から、番組データベース11に司会と登録されている出演者を識別する。そして、認識部12が検出した出演者が司会の場合は“1”、認識部12が検出した出演者が司会ではない場合は“0”を、役割指標(司会者)の下記式の司会者の項に代入して、役割指標(司会者)を算出する。
・役割指標(司会者)=司会者×1
上述した役割指標(司会者)の式は一例であり、他の項を適時追加しても良い。また、入力される値も一例であり、他の値を代入するようにしても良い。
(2)役割指標(トークの軸)
役割指標(トークの軸)は、番組映像から番組のトークの軸(中心)となる出演者を識別するための指標である。トークの軸は、メインとなる出演者だけとは限らず、番組の進行に伴って変化する場合も多い。この進行に伴って変化するトークの軸となる出演者を識別するための指標が役割指標(トークの軸)である。役割指標(トークの軸)の算出式の一例は、以下の通りである。
・役割指標(トークの軸)=話者×0.5 +目線集合×0.2+キーワード×0.2+人物重要度×0.1
ここで、話者は出演者が話者であることを考慮するための項であり、認識部12がトークを検出した出演者には“10”、認識部12がトークを検出しない出演者には“0”を、話者の項に代入する。目線集合は認識部12が検出した出演者の視線方向の集合値となる。例えば、役割指標(トークの軸)を計算の対象となる出演者に、他の一人の出演者の視線が向いている場合は3、他の二人の出演者の視線が向いている場合は6、他三人の出演者の視線が向いている場合は10を、目線集合の項に代入する。キーワードは、出演者がキーワードを話した場合に与えられる項であり、出演者が発した言葉が番組データベース11に登録されているキーワードであり、そのキーワードが重要である場合は10、そのキーワードが準重要である場合は5、キーワードでない場合は0を、キーワードの項に代入する。人物重要度は、認識部12が認識した出演者の人物重要度を番組データベース11から読み出し、人物重要度の項に代入する。尚、各項の係数は番組データベース11に番組毎の番組情報に登録されている。
上述した役割指標(トークの軸)の式は一例であり、他の項を適時追加しても良い。また、入力される値も一例であり、他の値を代入するようにしても良い。
(3)役割指標(リアクター)
番組の出演者の役割として、司会やトークの軸の話に対してリアクション(返答やうなずき)の役割を担う出演者(リアクター)がいる。この出演者(リアクター)の役割も、番組の進行に伴って変化する場合も多い。この出演者(リアクター)を識別する指標が役割指標(リアクター)である。役割指標(リアクター)の算出式は、以下の通りである。
・役割指標(リアクター)=うなずき×0.3+トークの軸を向いている出演者×0.2+キーワード×0.2+笑顔率×0.2+人物重要度×0.1
ここで、うなずきは司会やトークの軸の話に対してリアクションのひとつとして与えられる項であり、認識部12がうなずきを検出した出演者はその度合いに応じて0から10の値が与えられ、その値をうなずきの項に代入する。トークの軸を向いている出演者は、トークの軸となる出演者に顔を向けている出演者に与えられる項であり、認識部12により出演者がトークの軸となる出演者に顔を向けていることが検出された場合は“10”、検出されない場合は“0”を、トークの軸を向いている出演者の項に代入する。キーワードは、出演者が言葉を発した場合、その言葉が番組データベース11に登録されているキーワードであり、そのキーワードが重要である場合は10、そのキーワードが準重要である場合は5、キーワードでない場合は0を、キーワードの項に代入する。人物重要度は、認識部12が認識した出演者の人物重要度を番組データベース11から読み出し、人物重要度の項に代入する。尚、各項の係数は番組データベース11に番組毎の番組情報に登録されている。
上述した役割指標(リアクター)の式は一例であり、他の項を適時追加しても良い。また、入力される値も一例であり、他の値を代入するようにしても良い。
切り出し候補領域選定部13は、上述した役割指標を各出演者に対して随時計算を行う。そして、役割指標毎に指標が高い出演者を、予め定められた数(例えば3)だけ選択する。そして、予め定められたサイズ(例えば、アスペクト比16:9)に、選択した出演者を含むように、領域を決定する。このようにして選定された各領域を、以下、切り出し候補領域と記載する。尚、各役割指標の値が一定の閾値を超えない場合は、前回の役割指標の計算の際に選定した切り出し候補領域を維持するように構成しても良い。尚、切り出すサイズ等は、映像を提供する装置の表示サイズ等により、自由に定めることができる。
また、切り出し候補領域選定部13は、認識部12による顔認識機能や音声認識機能等の認識結果を受け、識別した出演者の氏名等の字幕を、切り出し候補領域の映像上に自動的にスーパー(重畳)するように構成しても良い。
検出部14は、認識部12と同様に、顔認識機能と、骨格判定機能と、物体識別機能(色、形状等の識別を含む)と、音声認識機能とを備える。検出部14は、認識部12により認識された各出演者の番組映像における映像変化及び音声の変化を検出する。検出するのは、例えば、出演者の識別、出演者の話だし、司会者の動き、各出演者の視線方向等である。番組映像における各出演者の検出結果は、切り出し領域決定部15に出力される。
切り出し領域決定部15は、検出部14の検出結果を用いて、各切り出し候補領域のスイッチング指標を計算する。そして、各切り出し候補領域のスイッチング指標を用いて、切り出し領域を決定する。ここで、スイッチング指標は、複数の切り出し候補領域の映像のうち、スイッチングの対象となるスイッチング映像を決定するための指標となるものである。スイッチング指標は、時間の経過にともない変化する要素(例えば、話者、出演者の目線集合、出演者の外形変化(動作、うなずき、笑顔等)と、音声要素(一定の話者が話し終わったタイミングや、話者数の変化、音量)と、オンタリー時間の調整とをパラメータとして含む指標である。また、視聴率データ、配信データ、検索エンジンの上位の検索キーワード等をパラメータに含めても良い。以下、役割指標と同様に、番組がトーク番組である場合を例にして、スイッチング指標の算出式について説明する。スイッチング指標の計算方法の一例を示す。
・(スイッチング指標)=話だし×0.7+司会動作×0.2+目線集合×0.1+時間調整
ここで、話だしは出演者の話始めを考慮するための項であり、切り出し候補領域において出演者の話だしを検出した場合は10を、切り出し候補領域の出演者の話だしが検出されない場合は0を、話だしの項目に代入する。司会動作は司会者の動作を考慮するための項であり、司会者を含む切り出し候補領域において司会者の動作が検出された場合は10を、司会者の動作が検出されない場合は0を、司会動作の項目に代入する。目線集合は検出部14が検出した出演者の視線方向の集合値となる。例えば、切り出し候補領域内の出演者に、他の一人の出演者の視線が向いている場合は3、他の二人の出演者の視線が向いている場合は6、他三人の出演者の視線が向いている場合は10を、目線集合の項に代入する。出演時間調整は、番組データベース11に登録されている出演時間と実際のオンタリー時間との差の時間である。
上述したスイッチング指標の式は一例であり、他の項を適時追加しても良い。また、入力される値も一例であり、他の値を代入するようにしても良い。
切り出し領域決定部15は、計算した各切り出し候補領域のスイッチング指標のうち最も高い値が予め定められた閾値を超える場合は、最も高いスイッチング指標の値を持つ切り出し候補領域を、切り出し領域に決定する。
更に、切り出し領域決定部15は、スイッチング指標の計算に加えて、スイッチング禁止条件を記憶している。切り出し領域決定部15は、スイッチング時点で、最も高いスイッチング指標の値を持つ切り出し候補領域の映像がスイッチング禁止条件に該当する場合は、現在の切り出し領域を維持し、新たな切り出し領域の決定は行わない。または、次に高いスイッチング指標の値を持つ切り出し候補領域を切り出し領域に決定する。
スイッチング禁止条件は、視聴者に対して不快を与えるようなスイッチングを防止するためのルールであり、例えば、スイッチング後から所定時間を経過していない場合等である。更に、切り出し領域決定部15が、現在の切り出し領域の映像と、切り出し候補領域の映像との相違を検出できるように構成されている場合、新たな切り出し領域の映像が前の切り出し領域の映像のジャンプショットとなるような場合、新たな切り出し領域の映像が現在の切り出し領域の映像とサイズやアングルなどがほぼ変わらない場合、新たな切り出し領域の映像が現在の切り出し領域の映像に対して指標に影響を与えない人物が単純に増加したような場合等である。
スイッチング部16は、番組映像から切り出し領域の映像を切り出し、スイッチング映像として出力する。
表示制御部17は、番組映像と、各切り出し候補領域の映像と、現在の出力映像(スイッチング映像)とを、表示装置3に表示する。
表示装置3は、表示制御部17から出力される各映像を出力するディスプレイである。表示装置3は、表示機能のみならず、タブレット端末のように、タッチパネルの機能を持つディスプレイであっても良い。
次に、本実施の形態のスイッチング装置2の動作を説明する。以下の動作の説明では、番組Xがトーク番組であり、その番組Xに出演者A、B、C、Dの4人の人物が出演しているものとする。そして、番組データベース11には、図2に示した番組Xの番組情報が登録されているものとする。また、役割指標及びスイッチング指標については、上述した算出式を用いるものとする。
まず、スイッチング装置2の取得部10はカメラ1が撮影された番組映像を取得する。
番組のオープニングでは、取得した番組映像が、図3に示す如く、スイッチング部16からスイッチング映像として出力されているものとする。
認識部12は、番組映像の出演者を認識する。番組映像中で認識されるのは、出演者A、出演者B、出演者C、出演者Dであり、各出演者の認識結果を切り出し候補領域選定部13に出力する。
切り出し候補領域選定部13は、所定時間毎に認識した出演者の役割指標を計算する。そして、切り出し候補領域選定部15は各切り出し候補領域のスイッチング指標を計算し、切り出し領域を決定する。スイッチング部16は番組映像から切り出し領域の映像を切り出して、切り出した映像をスイッチング映像として出力する。以下、切り出し候補領域選定部13、切り出し候補領域選定部15、スイッチング部16及び表示制御部17の各時刻の動作を説明する。尚、切り出し候補領域選定部13が選定する切り出し候補領域は、役割指標毎に役割指標の値が所定の閾値(第1の閾値)を超える最も値が大きい役割指標の切り出し候補領域をひとつ選定するものとする。また、重複する切り出し候補領域がある場合は次に指標の大きい出演者を含む領域を切り出し候補領域として選定するものとする。更に、切り出し候補領域のアスペクト比は16:9とし、バストアップの1ショットとする。
1.時刻(t)における動作
(1) 切り出し候補領域選定部13による役割指標の計算
時刻(t)の番組映像が図4に示すものであったとする。図4の番組映像において、切り出し候補領域選定部13は、認識部12の検出結果(各出演者A、B、C、D及び出演者Aの発音「今日のゲストはCさんです。」)を用いて、各出演者の各役割指標を計算し、各役割指標の最も高い値を持つ出演者を含む領域を切り出し候補領域として選定する。
(1-1) 役割指標(司会)
番組データベース11によれば、司会は出演者Aである。すると、各出演者の役割指標は以下の通りである。
・出演者Aの役割指標(司会者)=司会者×1
=1×1
=1
・出演者Bの役割指標(司会者)=司会者×1
=0×1
=0
・出演者Cの役割指標(司会者)=司会者×1
=0×1
=0
・出演者Dの役割指標(司会者)=司会者×1
=0×1
=0
ここで、役割指標(司会)の第1の閾値を0とし、0を超える役割指標(司会者)のうちその値が最も大きい出演者Aの役割が司会者であるとみなし、出演者Aを含む切り出し候補領域P1を選定する。
(1-2) 役割指標(トークの軸)
認識部12は、各出演者A、B、C、D及び出演者Aの発音「今日のゲストはCさんです。」、出演者Aが話者であること、出演者Aがキーワード「Cさん」を発音していることを検出している。この検出結果を用いて、切り出し候補領域選定部13は、各出演者の役割指標(トークの軸)を計算する。各出演者の役割指標(トークの軸)は以下の通りである。
・出演者Aの役割指標(トークの軸)=話者×0.6+目線集合×0.3+キーワード×0.5+人物重要度×0.8
=10×0.6+0×0.3+10×0.5+8×0.8
=6+2+6.4=14.4
・出演者Bの役割指標(トークの軸)=話者×0.6+目線集合×0.3+キーワード×0.5+人物重要度×0.8
=0×0.6+0×0.3+0×0.5+6×0.8=4.8
・出演者Cの役割指標(トークの軸)=話者×0.6+目線集合×0.3+キーワード×0.5+人物重要度×0.8
=0×0.6 +0×0.3+0×0.5+10×0.8=8
・出演者Dの役割指標(トークの軸)=話者×0.6 +目線集合×0.3+キーワード×0.5+人物重要度×0.8
=0×0.6+0×0.3+0×0.5+5×0.8=4.0
ここで、役割指標(トークの軸)の第1の閾値を5とし、5を超える役割指標(トークの軸)のうちその値が最も大きい出演者は出演者Aである。しかし、出演者Aは役割指標(司会)で司会者であるとみなされて切り出し候補領域P1が設定されている。そこで、次に、役割指標(トークの軸)の値が大きい出演者Cがトークの軸であるとみなし、出演者Cを含む切り出し候補領域P2を選定する。
(1-3) 役割指標(リアクター)
認識部12は、各出演者A、B、C、D及び出演者Aの発音「今日のゲストはCさんです。」、出演者Aが話者であること、出演者Aがキーワード「Cさん」を発音していること、各出演者の笑顔率を認識している。この検出結果を用いて、切り出し候補領域選定部13は、各出演者の役割指標(リアクター)を計算する。各出演者の役割指標(リアクター)は以下の通りである。
・出演者Aの役割指標(リアクター)=うなずき×0.3+ターゲットを向いている出演者×0.2+キーワード×0.2+笑顔率×0.2+人物重要度×0.1
=0×0.3+0×0.2+10×0.2+2×0.2+8×0.1
=2+0.4+0.8=3.2
・出演者Bの役割指標(リアクター)=うなずき×0.3+ターゲットを向いている出演者×0.2+キーワード×0.2+笑顔率×0.2+人物重要度×0.1
=0×0.3+0×0.2+0×0.2+6×0.2+6×0.1
=1.2+0.6=1.8
・出演者Cの役割指標(リアクター)=うなずき×0.3+ターゲットを向いている出演者×0.2+キーワード×0.2+笑顔率×0.2+人物重要度×0.1
=0×0.3+0×0.2+0×0.2+2×0.2+10×0.1
=0.4+1=1.4
・出演者Dの役割指標(リアクター)=うなずき×0.3+ターゲットを向いている出演者×0.2+キーワード×0.2+笑顔率×0.2+人物重要度×0.1
=0×0.3+0×0.2+0×0.2+6×0.2+5×0.1
=1.2+0.5=1.7
ここで、役割指標(リアクター)の第1の閾値を5とし、5を超える役割指標(リアクター)のうちその値が最も大きい出演者Bの役割がリアクターであるとみなし、出演者Bを含む切り出し候補領域P3を選定する。
以上、切り出し候補領域P1、切り出し候補領域P2、切り出し候補領域P3を、図4に示す。
(2) 切り出し領域決定部15によるスイッチング指標の計算
切り出し領域決定部15は、各切り出し候補領域のスイッチング指標を計算し、第2の閾値を超えるスイッチング指標のうち最も高いスイッチング指標の値を持つ切り出し候補領域を、切り出し領域として決定する。時刻(t)では、検出部14が、各出演者A、B、C、D及び出演者Aの話だし、出演者Aが話者であること、出演者A(司会)の動作、目線集合を検出している。また、各出演者の累計オンタリー時間を蓄積している。すると、時刻(t)における各切り出し候補領域P1、切り出し候補領域P2及び切り出し候補領域P3のスイッチング指標は、以下の通りである。
・切り出し候補領域P1のスイッチング指標=話だし×0.7+司会動作×0.2+目線集合×0.1+(出演者のオンタリー予定時間−出演者の累計オンタリー時間)
=10×0.7+10×0.2+0×0.1+(15-0)
=7+2+15=24
・切り出し候補領域P2のスイッチング指標=話だし×0.7+司会動作×0.2+目線集合×0.1+(出演者のオンタリー予定時間−出演者の累計オンタリー時間)
=0×0.7+0×0.2+0×0.1+(15-0)=15
・切り出し候補領域P3のスイッチング指標=話だし×0.7+司会動作×0.2+目線集合×0.1+(出演者のオンタリー予定時間−出演者の累計オンタリー時間)
=0×0.7+0×0.2+0×0.1+(10-0)=10
ここで、第2の閾値を10とすると、切り出し領域決定部15は、切り出し候補領域P1、P2、P3のうち、値が第2の閾値を超えるスイッチング指標のうちその値が最も大きいスイッチング指標を持つ切り出し候補領域P1を、切り出し領域Sに仮決定する。更に、切り出し候補領域P1がスイッチング禁止条件の該当するものであるかを判断する。ここでは、スイッチング禁止条件が直近のスイッチングから所定時間(z時間: z<t)を経過していない場合であるとすると、直近のスイッチングからz時間は経過しているので、切り出し候補領域P1はスイッチング禁止条件に該当しないので、図4に示す如く、切り出し候補領域P1を切り出し領域Sに決定する。
スイッチング部16は、番組映像から切り出し領域Sの映像を切り出して、スイッチング映像として出力する。
図4の下は、表示制御部17が表示装置3に表示する画面の一例である。図4では時刻(t)の表示装置3に表示される制御画面を示している。制御画面には、カメラ1が撮影した番組映像と、各切り出し候補領域P1, P2, P3の映像と、現在のスイッチング映像(切り出し領域Sの映像)とが表示されている。
2.時刻(t+m)における動作
時刻(t)から時間m経過した時刻(t+m)における動作を説明する。
(1) 切り出し候補領域選定部13による役割指標の計算
切り出し候補領域選定部13は、時刻(t)から時刻(t+m)の間、認識部12の検出結果を用いて、各出演者の各役割指標を計算する。ここでは、時刻(t)から時刻(t+m)の間は各役割指標が大きく変化せず、図5に示すように、切り出し候補領域は時刻(t)と同じものとする。
(2) 切り出し領域決定部15によるスイッチング指標の計算
切り出し領域決定部15は、時刻(t+m)の各切り出し候補領域のスイッチング指標を計算し、第2の閾値を超えるスイッチング指標のうち最も高いスイッチング指標の値を持つ切り出し候補領域を、切り出し領域として決定する。時刻(t+m)では、検出部14が、各出演者A、B、C、D及び出演者Cの話だし「今日はよろしくお願いします」、出演者A(司会)の動作、目線集合を検出している。また、各出演者の累計オンタリー時間を蓄積している。すると、時刻(t+m)における各切り出し候補領域P1、切り出し候補領域P2及び切り出し候補領域P3のスイッチング指標は、以下の通りである。
・切り出し候補領域P1のスイッチング指標=話だし×0.7+司会動作×0.2+目線集合×0.1+(出演者のオンタリー予定時間−出演者の累計オンタリー時間)
=0×0.7+0×0.2+0×0.1+(15-m)=15-m
・切り出し候補領域P2のスイッチング指標=話だし×0.7+司会動作×0.2+目線集合×0.1+(出演者のオンタリー予定時間−出演者の累計オンタリー時間)
=10×0.7+0×0.2+0×0.1+(15-0)=22
・切り出し候補領域P3のスイッチング指標=話だし×0.7+司会動作×0.2+目線集合×0.1+(出演者のオンタリー予定時間−出演者の累計オンタリー時間)
=0×0.7+0×0.2+0×0.1+(10-0)=10
ここで、第2の閾値を10とすると、切り出し領域決定部15は、切り出し候補領域P1、P2、P3のうち、値が第2の閾値を超えるスイッチング指標のうちその値が最も大きいスイッチング指標を持つ切り出し候補領域P2を、切り出し領域Sに仮決定する。更に、切り出し候補領域P2がスイッチング禁止条件の該当するものであるかを判断する。ここでは、スイッチング禁止条件が直近のスイッチングから所定時間(z時間: z<m)を経過していない場合であるとすると、直近のスイッチングからz時間は経過しているので、切り出し候補領域P2はスイッチング禁止条件に該当しないので、図5に示す通り、切り出し候補領域P2を切り出し領域Sに決定する。
スイッチング部16は、番組映像から切り出し領域Sの映像を切り出して、スイッチング映像として出力する。
図5の下は、表示制御部17が表示装置3に表示する画面の一例である。図5では時刻(t+m)の表示装置3に表示される制御画面を示している。制御画面には、カメラ1が撮影した番組映像と、各切り出し候補領域P1, P2, P3の映像と、現在のスイッチング映像(切り出し領域Sの映像)とが表示されている。
3.時刻(t+m+n)における動作
時刻(t+m)から時間n経過した時刻(t+m+n)における動作を説明する。
(1) 切り出し候補領域選定部13による役割指標の計算
切り出し候補領域選定部13は、時刻(t)から時刻(t+m+n)の間、認識部12の検出結果を用いて、各出演者の各役割指標を計算するが、ここでは、図6に示すように、時刻(t)から時刻(t+m+n)の間は各役割指標が大きく変化せず、切り出し候補領域は時刻(t)と同じものとする。
(2) 切り出し領域決定部15によるスイッチング指標の計算
切り出し領域決定部15は、時刻(t+m+n)の各切り出し候補領域のスイッチング指標を計算し、スイッチング指標が最も高い値を持つ切り出し候補領域を、切り出し領域として決定する。
時刻(t+m+n)では、検出部14が、各出演者A、B、C、D及び出演者Bの話だし「Cさんは、現在〜」、出演者A(司会)の動作、目線集合を検出している。また、各出演者の累計オンタリー時間を蓄積している。すると、時刻(t+m)における各切り出し候補領域P1、切り出し候補領域P2及び切り出し候補領域P3のスイッチング指標は、以下の通りである。
・切り出し候補領域P1のスイッチング指標=話だし×0.7+司会動作×0.2+目線集合×0.1+(出演者のオンタリー予定時間−出演者の累計オンタリー時間)
=0×0.7+0×0.2+0×0.1+(15-m)=15-m
・切り出し候補領域P2のスイッチング指標=話だし×0.7+司会動作×0.2+目線集合×0.1+(出演者のオンタリー予定時間−出演者の累計オンタリー時間)
=10×0.7+0×0.2+0×0.1+(10-0)=17
・切り出し候補領域P3のスイッチング指標=話だし×0.7+司会動作×0.2+目線集合×0.1+(出演者のオンタリー予定時間−出演者の累計オンタリー時間)
=0×0.7+0×0.2+0×0.1+(15-n)=15-m
ここで、第2の閾値を10とすると、切り出し領域決定部15は、切り出し候補領域P1、P2、P3のうち、値が第2の閾値を超えるスイッチング指標のうちその値が最も大きいスイッチング指標を持つ切り出し候補領域P3を、切り出し領域Sに仮決定する。更に、切り出し候補領域P3がスイッチング禁止条件の該当するものであるかを判断する。ここでは、スイッチング禁止条件が直近のスイッチングから所定時間(z時間: z<n)を経過していない場合であるとすると、直近のスイッチングからz時間は経過しているので、切り出し候補領域P3はスイッチング禁止条件に該当しないので、図6に示す通り、切り出し候補領域P3を切り出し領域Sに決定する。スイッチング部16は、番組映像から切り出し領域Sの映像を切り出して、スイッチング映像として出力する。
図6の下は、表示制御部17が表示装置3に表示する画面の一例である。図6では時刻(t+m+n)の表示装置3に表示される制御画面を示している。制御画面には、カメラ1が撮影した番組映像と、各切り出し候補領域P1, P2, P3の映像と、現在のスイッチング映像(切り出し領域Sの映像)とが表示されている。
4.時刻(t+n+m+o)における動作
時刻(t+m+n)から時間o経過した時刻(t+n+m+o)における動作を説明する。
(1) 切り出し候補領域選定部13による役割指標の計算
切り出し候補領域選定部13は、時刻(t+m+n)から時刻(t+n+m+o)の間、認識部12の検出結果を用いて、各出演者の各役割指標を計算する。
(1-1) 役割指標(司会)
・出演者Aの役割指標(司会者)=司会者×1
=1×1=1
・出演者Bの役割指標(司会者)=司会者×1
=0×1=0
・出演者Cの役割指標(司会者)=司会者×1
=0×1=0
・出演者Dの役割指標(司会者)=司会者×1
=0×1=0
ここで、役割指標(司会)の第1の閾値を0とし、0を超える役割指標(司会者)のうちその値が最も大きい出演者Aの役割が司会者であるとみなし、出演者Aを含む切り出し候補領域P1を選定する。
(1-2) 役割指標(トークの軸)
認識部12は、図7に示す如く、各出演者A、B、C、D及び出演者Dの発音「Cさんのファンなんです。」、出演者Dが話者であること、出演者Dがキーワード「Cさん」を発音していることを検出している。この検出結果を用いて、切り出し候補領域選定部13は、各出演者の役割指標(トークの軸)を計算する。各出演者の役割指標(トークの軸)は以下の通りである。
・出演者Aの役割指標(トークの軸)=話者×0.6+目線集合×0.3+キーワード×0.5+人物重要度×0.8
=0×0.6+0×0.3+0×0.5+8×0.8=6.4
・出演者Bの役割指標(トークの軸)=話者×0.6+目線集合×0.3+キーワード×0.5+人物重要度×0.8
=0×0.6+0×0.3+0×0.5+6×0.8=4.8
・出演者Cの役割指標(トークの軸)=話者×0.6+目線集合×0.3+キーワード×0.5+人物重要度×0.8
=0×0.6 +0×0.3+0×0.5+10×0.8=8.0
・出演者Dの役割指標(トークの軸)=話者×0.6 +目線集合×0.3+キーワード×0.5+人物重要度×0.8
=10×0.6+0×0.3+10×0.5+5×0.8
=6+5+4=15
ここで、役割指標(トークの軸)の第1の閾値を5とし、5を超える役割指標(トークの軸)のうちその値が最も大きい出演者は出演者Dであり、出演者Dがトークの軸であるとみなし、出演者Dを含む切り出し候補領域P4を選定する。
(1-3) 役割指標(リアクター)
認識部12は、各出演者A、B、C、D及び出演者Dの発音「Cさんのファンなんです。」、出演者Dが話者であること、出演者Dがキーワード「Cさん」を発音していること、各出演者の笑顔率を認識している。この検出結果を用いて、切り出し候補領域選定部13は、各出演者の役割指標(リアクター)を計算する。各出演者の役割指標(リアクター)は以下の通りである。
・出演者Aの役割指標(リアクター)=うなずき×0.3+ターゲットを向いている出演者×0.2+キーワード×0.2+笑顔率×0.2+人物重要度×0.1
=2×0.3+10×0.2+0×0.2+5×0.2+8×0.1
=0.6+2+1+0.8=4.4
・出演者Bの役割指標(リアクター)=うなずき×0.3+ターゲットを向いている出演者×0.2+キーワード×0.2+笑顔率×0.2+人物重要度×0.1
=3×0.3+10×0.2+0×0.2+6×0.2+6×0.1
=0.9+0.2+1.2+0.6=2.9
・出演者Cの役割指標(リアクター)=うなずき×0.3+ターゲットを向いている出演者×0.2+キーワード×0.2+笑顔率×0.2+人物重要度×0.1
=0×0.3+10×0.2+0×0.2+8×0.2+10×0.1
=2+1.6+1=4.6
・出演者Dの役割指標(リアクター)=うなずき×0.3+ターゲットを向いている出演者×0.2+キーワード×0.2+笑顔率×0.2+人物重要度×0.1
=0×0.3+0×0.2+10×0.2+5×0.2+5×0.1
=2+1+0.5=3.5
ここで、役割指標(リアクター)の第1の閾値を5とし、5を超える役割指標(リアクター)のうちその値が最も大きい出演者Cの役割がリアクターであるとみなし、図7に示す如く、出演者Cを含む切り出し候補領域P5を選定する。
以上、切り出し候補領域P1、切り出し候補領域P4、切り出し候補領域P5を、図7に示す。
(2) 切り出し領域決定部15によるスイッチング指標の計算
切り出し領域決定部15は、各切り出し候補領域のスイッチング指標を計算し、第2の閾値を超えるスイッチング指標のうち最も高いスイッチング指標の値を持つ切り出し候補領域を、切り出し領域として決定する。
切り出し領域決定部15は、時刻(t+n+m+o)の各切り出し候補領域のスイッチング指標を計算し、スイッチング指標が最も高い値を持つ切り出し候補領域を、切り出し領域として決定する。
時刻(t+n+m+o)では、検出部14が、各出演者A、B、C、D及び出演者Dの話だし「Aさんのファンなんです。」、出演者A(司会)の動作、目線集合を検出している。また、各出演者の累計オンタリー時間を蓄積している。すると、時刻(t+m)における各切り出し候補領域P1、切り出し候補領域P4及び切り出し候補領域P5のスイッチング指標は、以下の通りである。
・切り出し候補領域P1のスイッチング指標=話だし×0.7+司会動作×0.2+目線集合×0.1+(出演者のオンタリー予定時間−出演者の累計オンタリー時間)
=0×0.7+0×0.2+0×0.1+(15-m)=15-m
・切り出し候補領域P4のスイッチング指標=話だし×0.7+司会動作×0.2+目線集合×0.1+(出演者のオンタリー予定時間−出演者の累計オンタリー時間)
=10×0.7+0×0.2+10×0.1+(15-0)
=7+1+15=23
・切り出し候補領域P5のスイッチング指標=話だし×0.7+司会動作×0.2+目線集合×0.1+(出演者のオンタリー予定時間−出演者の累計オンタリー時間)
=0×0.7+0×0.2+0×0.1+(15-n)=15-n
ここで、第2の閾値を10とすると、切り出し領域決定部15は、切り出し候補領域P1、P4、P5のうち、値が第2の閾値を超えるスイッチング指標のうちその値が最も大きいスイッチング指標を持つ切り出し候補領域P4を、切り出し領域Sに仮決定する。更に、切り出し候補領域P4がスイッチング禁止条件の該当するものであるかを判断する。ここでは、スイッチング禁止条件が直近のスイッチングから所定時間(z時間: z<o)を経過していない場合であるとすると、直近のスイッチングからz時間は経過しているので、切り出し候補領域P4はスイッチング禁止条件に該当しないので、図7に示す如く、切り出し候補領域P4を切り出し領域Sに決定する。
スイッチング部16は、番組映像から切り出し領域Sの映像を切り出して、スイッチング映像として出力する。
図7の下は、表示制御部17が表示装置3に表示する画面の一例である。図7では時刻(t+m+n+o)の表示装置3に表示される制御画面を示している。制御画面には、カメラ1が撮影した番組映像と、各切り出し候補領域P1, P4, P5の映像と、現在のスイッチング映像(切り出し領域Sの映像)とが表示されている。
このように、各時刻について番組映像に変化があれば、各役割指標を計算し、各役割指標が第1の閾値を超える場合は切り取り候補領域を選定し、各切り取り候補領域のスイッチング指標を計算し、スイッチング指標が第2の閾値を超え、スイッチング禁止条件に該当しない場合は、切り取り領域を決定してスイッチング映像を決定する。
本実施の形態では、自動的にスイッチング映像を決定するために、従来、複数のカメラマンがそれぞれの観点に基づいて撮影を行う撮影映像を、役割指標を導入してスイッチング映像の候補となる映像の領域である切り出し候補領域を自動で選定することができる。更に、複数の切り出し候補領域の映像からひとつのスイッチング映像を決定するために、スイッチャの観点であるスイッチング指標を導入することにより、複数の切り出し候補領域から最適な切り出し領域を決定することができ、スイッチングの自動化も達成することができる。
尚、上述した実施の形態では、番組を撮影するカメラが1台の場合を説明した。しかし、これに限られず、カメラを複数台用意しても良い。この場合、各カメラからの番組映像を上述した動作をカメラ毎に行うようにすれば良い。カメラを複数台の用意する利点は、番組の出演者等を異なる方向から撮影した番組映像を取得することが可能となるので、最終的にスイッチング映像として出力される出力映像が多彩となる点である。
また、算出した役割指標及びスイッチング指標は、他のデータ解析に利用することが可能であり、更に、役割指標及びスイッチング指標を算出した各パラメータも、他のデータ解析に利用することが可能である。
<実施の形態の変形例1>
本発明の実施の形態の変形例1を説明する。
上述した実施の形態では、説明を容易とするために、切り出し候補領域を、出演者が一人含むバストショットの領域とした。しかし、切り出し候補領域はこれだけに限られない。
認識部12は、顔認識以外にも骨格判定を行っており、各出演者の骨格や、出演者の位置関係を認識することが可能である。従って、各者の骨格を用いることにより、出演が一人の場合では、出演者の全体が映るロングショット等の各種ショット(FF、BS、WS、KS等)に対応する領域を設定することが可能である。
更に、各出演者の骨格や、出演者の位置関係を用いることにより、図8に示すように、二人以上の出演者を含んだグループショットの領域を設定することも可能である。例えば、映像(画像)平面上で出演者の位置情報をクラスタリングし、分散の低くなる組み合わせで出演者のグルーピングを行い、各グループのグループショットの切り出し候補領域を設定する。尚、グループショットについては、選定する切り出し候補領域の映像が互いにジャンプショットとなるような映像を避けるようにすることも可能である。
このように、切り出し候補領域を、出演者が一人含む定められたショットの領域を、切り出し候補領域とするのではなく、上述した様々なショットや、グループショットを切り出し候補領域として選定することが可能である。
このような切り出し候補領域を選定した場合は、役割指標及びスイッチング指標については、出演者毎に計算しても良いし、グループショットの場合は役割指標及びスイッチング指標を領域に含まれる人数によって調整するようにしても良い。更に、切り出す候補領域を、スイッチング映像の解像度に合わせて調整することも可能である。
また、複数の出演者を含むグループショットの領域を切り出し候補領域に加える場合、特有のスイッチング禁止条件を設けても良い。例えば、出演者Aが一人を含む切り出し領域に対して、次の切り出し領域の映像が出演者Aと他の出演者が単に加わった映像のような場合は、スイッチングを行わないとするスイッチング禁止条件を設けても良い。
<実施の形態の変形例2>
上述した実施の形態では、スイッチングする映像を全て自動化する例を説明した。しかし、ユーザの判断により、スイッチング装置2が選択したスイッチング映像を変更したい場合もある。そこで、実施の形態の変形例2は、スイッチングする映像を自動化するとともに、切り出す候補領域の映像をユーザにより決定することができる例を説明する。
図9は実施の形態の変形例2のブロック図である。実施の形態の変形例2は、スイッチング装置2に、スイッチ映像選択部18が設けられている。
スイッチ映像選択部18は、表示装置3がタッチパネルを備えたディスプレイの場合、自動的に選択されたスイッチング映像に代えて、表示装置3に表示された切り出し候補領域の映像のうちユーザが希望の映像の選択を受けて、現在のスイッチング映像をユーザが選択した切り出し候補領域の映像をスイッチング映像とするように構成されている。
図10は表示装置3におけるユーザのスイッチング映像の選択を示した図である。図10では、ユーザは現在スイッチング映像として出力されている出演者Dの映像に代えて、切り出し候補領域の映像のうち出演者Aの映像を選択した場合を示している。
このような構成にすることにより、ユーザのスイッチングの好みを加味することができる。
<実施の形態の変形例3>
実施の形態の変形例3を説明する。
スイッチング装置2は、プログラムで動作するCPUやGPU等のプロセッサを持つコンピュータにより実現することもできる。
図11は実施の形態の変形例3のブロック図である。
コンピュータは処理部100と、記録部110とを備える。処理部100は、記憶部110に格納されるプログラムやデータ等に基づいて、スイッチング装置2の動作を統括的に制御する。処理部100の機能は、例えば、CPUやGPU等のマイクロプロセッサ、ASIC、ICメモリ等の電子部品によって実現できる。この処理部100は、主な機能処理として、取得処理101と、認識処理102と、切り出し候補領域選定処理103と、検出処理104と、切り出し領域決定処理105と、スイッチング処理106と、表示制御処理107と、スイッチ映像選択処理108とを備える。取得処理101は取得部10に対応し、認識処理102は認識部12に対応し、切り出し候補領域選定処理103は切り出し候補領域選定部13に対応し、検出処理104は検出部14に対応し、切り出し領域決定処理105は切り出し領域決定部15に対応し、スイッチング処理106はスイッチング部16に対応し、表示制御処理107は表示制御部17に対応し、スイッチ映像選択処理108はスイッチ映像選択部18に対応する。
記録部110には、コンピュータが備える種々の機能を実現するためのプログラムや、このプログラムの実行中に使用されるデータ等が予め記憶され、或いは処理の都度一時的に記憶される。記憶部110は、例えばRAMやROM、フラッシュメモリ等のICメモリ、ハードディスク等の磁気ディスク、CD−ROMやDVD等の光学ディスク等によって実現できる。
<実施の形態の変形例4>
上述した実施の形態は、役割指標を用いて切り出し候補領域を選定し、各切り出し候補領域のスイッチング指標を用いて切り出し領域を決定した。しかし、役割指標とスイッチング指標とをまとめたひとつの指標の算出式を用いても良い。
ひとつの指標の算出式を作成するにあたり、役割指標とスイッチング指標との間で重複する項を削除したり、役割指標とスイッチング指標とを合成することにより生じる誤差などを吸収する項を設けても良い。
このようなひとつの指標により、スイッチング映像を決定する場合は、切り出し候補領域の選定という処理がなくなり、スイッチング映像のための切り出し領域がひとつ決定されることになる。
<実施の形態の変形例5>
上述した実施の形態では、所定期間ごとにスイッチング指標を計算する例を説明した。しかし、かならずしも、適切なタイミングでスイッチング指標が計算できるとは限らない。そこで、実施の形態の変形例5では、映像が、ある条件を満足した時に、スイッチング指標を計算する例を説明する。
実施の形態の変形例5では、適切なタイミングでスイッチング指標を計算するために、スイッチング指標を計算するトリガとなるスイッチング指標計算トリガ条件を設ける。スイッチング指標計算トリガ条件は、例えば、以下のような例がある。
(1)番組映像の音声レベルが急激な変化
例えば、出演者のトークが終わった時などは、番組映像の音声レベルが急激に低下する。このような場合、現在出力されているスイッチング映像から他の映像にスイッチングすることが多い。一方、そのような変化が起こっている場合、各切り出し候補領域の役割指標も大きく変化しているはずである。そこで、音声レベルが所定の閾値まで低下したことをトリガとして、各切り出し候補領域のスイッチング指標を計算し、新たな切り出し領域を決定する。
また、複数人が発呼した場合や、ひとりの人物が急に大きな声を発生した場合など、全体又は個別の音声レベルが上昇した場合、現在出力されているスイッチング映像から他の映像にスイッチングすることが多い。一方、そのような変化が起こっている場合、各切り出し候補領域の役割指標も大きく変化しているはずである。そこで、音声レベルが所定の閾値まで低下したことをトリガとして、各切り出し候補領域のスイッチング指標を計算し、新たな切り出し領域を決定する。
(2)番組映像中の急激な動作の変化
番組の出演者等が急に動作をした場合など、その出演者の映像にスイッチングする場合が多い。一方、そのような変化が起こっている場合、各切り出し候補領域の役割指標も大きく変化しているはずである。そこで、映像中の急激な変化(動きベクトルの急激な変化等)を検出したことをトリガとして、各切り出し候補領域のスイッチング指標を計算し、新たな切り出し領域を決定する。
このようなスイッチング指標計算トリガ条件を満たしたときにスイッチング指標を計算することにより、適切なタイミングでスイッチング映像の選定を行うことができる。
尚、スイッチング指標計算トリガ条件を満たし、各切り出し候補領域のスイッチング指標を計算した結果、スイッチング指標の値が全体的に低く、切り出し領域を決定できない場合もありうる。例えば、ある出演者のトークが終わった後も、他の出演者が発声しない場合などである。このような場合は、予め定められた司会やグループショットの映像をスイッチング映像としても良い。
<実施の形態の変形例6>
本発明の実施の形態の変形例6を説明する。
上述した実施の形態では、各切り出し候補領域の選定にあたって、各役割指標の値が大きいものを選定する例を説明した。しかし、役割指標の値に関係なく、例外として、切り出し候補領域として選定するパターンを設けても良い。
例えば、四人グループのうち、二名の出演者を含むグループショットの領域の役割指標が高く、その領域を切り出し候補領域として選定した場合、役割指標の値とは関係なく、残りの二人の出演者のグループショットの領域についても、切り出し候補領域に選定するようにしても良い。
また、ひな壇の上段に着席しているゲストのグループショット(例えば、四人)の役割指標が高く、その領域を切り出し候補領域として選定した場合、役割指標の値とは関係なく、ひな壇の下段に着席しているゲストのグループショット(例えば、四人)の領域についても、切り出し候補領域に選定するようにしても良い。
また、一人の出演者が爆笑して、他の出演者も笑った場合など、役割指標が高くなる爆笑した出演者のみを含む切り出し候補領域のみならず、爆笑した出演者と笑った他の出演者とを含む全体の領域を切り出し候補領域に選定するようにしても良い。
以上、好ましい実施の形態をあげて本発明を説明したが、本発明は必ずしも上記実施の形態に限定されるものではなく、その技術的思想の範囲内において様々に変形し実施することが出来る。
1 カメラ
2 スイッチング装置
3 表示装置
10 取得部
11 番組データベース(番組DB)
12 認識部
13 切り出し候補領域選定部
14 検出部
15 切り出し領域決定部
16 スイッチング部
17 表示制御部
18 スイッチ映像選択部
100 処理部
110 記憶部

Claims (12)

  1. コンテンツの映像素材を取得する取得部と、
    前記映像素材の人物の画像又は音声を認識する認識部と、
    認識されたオブジェクトの画像又は音声により、前記コンテンツにおけるオブジェクトの役割の指標である役割指標を計算し、前記役割指標を用いて、少なくとも一以上のオブジェクトを領域内に含み、前記映像素材から映像を切り出すための切り出し候補領域を複数選定する切り出し候補領域選定部と、
    前記映像素材におけるオブジェクトの映像変化及び音声変化を検出する検出部と、
    前記映像素材におけるオブジェクトの映像変化及び音声変化の検出結果から、前記各切り出し候補領域におけるスイッチングのタイミングの指標であるスイッチング指標を計算し、前記各切り出し候補領域のスイッチング指標を用いて、前記各切り出し候補領域から切り出し領域を決定する切り出し領域決定部と、
    前記映像素材から切り出し領域の映像を切り出し、現在出力されている映像を切り出した映像にスイッチングするスイッチング部と
    を備える自動スイッチング装置。
  2. 前記役割指標は、オブジェクトの重要度、オブジェクトの発音の有無、オブジェクトが発したキーワード、オブジェクトの音声情報、オブジェクトの視線集合、オブジェクトの外形変化の少なくとも一以上をパラメータに持ち、
    前記切り出し候補領域選定部は、前記役割指標が第1所定値を超える映像素材中のオブジェクトを領域内に含むように、切り出し候補領域を選定する
    請求項1に記載の自動スイッチング装置。
  3. 前記役割指標の各パラメータに対し、コンテンツ毎に異なる重みづけを行う
    請求項2に記載の自動スイッチング装置。
  4. 前記切り出し候補領域選定部は、
    前記切り出し領域におけるオブジェクトの配置情報を記憶し、
    前記役割指標が第1所定値を超える映像素材中のオブジェクトと他のオブジェクトとを領域内に含むように、切り出し候補領域を選定する
    請求項2又は請求項3に記載の自動スイッチング装置。
  5. 前記スイッチング指標は、オブジェクトの発音又は音声情報、オブジェクトの動作、オブジェクトの視線方向、オブジェクトのオンタリー時間の少なくとも一以上をパラメータに持ち、
    前記切り出し領域決定部は、第2所定値を超え、最も高いスイッチング指標の切り出し候補領域を、切り出し領域として決定する
    請求項1から請求項4のいずれかに記載の自動スイッチング装置。
  6. 前記スイッチング指標の各パラメータに対し、コンテンツ毎に異なる重みづけを行う
    請求項5に記載の自動スイッチング装置。
  7. 前記切り出し領域決定部は、スイッチング禁止条件を記憶し、前記スイッチング禁止条件に該当する場合は、新たな切り出し候補領域を決定しない、または、次に高いスイッチング指標の値を持つ切り出し候補領域を切り出し領域に決定する
    請求項1から請求項6のいずれかに記載の自動スイッチング装置。
  8. 複数の切り出し候補領域の映像と、現在出力されている映像とを、表示部に表示する表示制御部と、
    前記複数の切り出し候補領域の映像のなかから、スイッチングする映像を手動で選択することが可能なスイッチング映像選択部と、
    を備える請求項1から請求項7のいずれかに記載の自動スイッチング装置。
  9. 前記コンテンツの映像素材が、番組の番組映像であり、
    前記オブジェクトが、前記番組の出演者である
    請求項1から請求項8のいずれかに記載の自動スイッチング装置。
  10. コンピュータに、
    コンテンツの映像素材を取得する取得機能、
    映像素材のオブジェクトの画像又は音声を認識する認識機能、
    認識されたオブジェクトの画像又は音声により、前記コンテンツのオブジェクトの役割の指標である役割指標を計算し、前記役割指標を用いて、少なくとも一以上のオブジェクトを領域内に含み、前記映像素材から映像を切り出すための切り出し候補領域を複数選定する切り出し候補領域選定機能、
    前記映像素材におけるオブジェクトの映像変化及び音声変化を検出する検出機能、
    前記映像素材におけるオブジェクトの映像変化及び音声変化の検出結果から、前記各切り出し候補領域におけるスイッチングのタイミングの指標であるスイッチング指標を計算し、前記各切り出し候補領域のスイッチング指標を用いて、前記各切り出し候補領域から切り出し領域を決定する切り出し領域決定機能、
    前記映像素材から切り出し領域の映像を切り出し、現在出力されている映像を切り出した映像にスイッチングするスイッチング機能
    を実現させるためのプログラム。
  11. コンピュータが、
    コンテンツの映像素材を取得し、
    映像素材のオブジェクトの画像又は音声を認識し、
    認識されたオブジェクトの画像又は音声により、前記コンテンツのオブジェクトの役割の指標である役割指標を計算し、前記役割指標を用いて、一以上のオブジェクトを領域内に含み、前記映像素材から映像を切り出すための切り出し候補領域を複数選定し、
    前記映像素材におけるオブジェクトの映像変化及び音声変化を検出し、
    前記映像素材におけるオブジェクトの映像変化及び音声変化の検出結果から、前記各切り出し候補領域におけるスイッチングのタイミングの指標であるスイッチング指標を計算し、前記各切り出し候補領域のスイッチング指標を用いて、前記各切り出し候補領域から切り出し領域を決定し、
    前記映像素材から切り出し領域の映像を切り出し、現在出力されている映像を切り出した映像にスイッチングする
    自動スイッチング方法。
  12. コンテンツの映像素材を取得する取得部と、
    映像素材のオブジェクトの画像又は音声を認識する認識部と、
    認識されたオブジェクトの画像又は音声により、コンテンツにおけるオブジェクトの役割と映像切替のタイミングとを考慮した指標を計算し、前記指標を用いて、前記映像素材上に少なくとも一以上のオブジェクトを含む切り出し領域を選定する切り出し領域選定部と、
    前記映像素材から切り出し領域の映像を切り出し、現在出力されている映像を切り出した映像にスイッチングするスイッチング部と
    を備える自動スイッチング装置。
JP2020204622A 2020-12-09 2020-12-09 自動スイッチング装置、自動スイッチング方法及びプログラム Active JP6908906B1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020204622A JP6908906B1 (ja) 2020-12-09 2020-12-09 自動スイッチング装置、自動スイッチング方法及びプログラム
JP2021103756A JP2022091670A (ja) 2020-12-09 2021-06-23 自動スイッチング装置、自動スイッチング方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020204622A JP6908906B1 (ja) 2020-12-09 2020-12-09 自動スイッチング装置、自動スイッチング方法及びプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2021103756A Division JP2022091670A (ja) 2020-12-09 2021-06-23 自動スイッチング装置、自動スイッチング方法及びプログラム

Publications (2)

Publication Number Publication Date
JP6908906B1 true JP6908906B1 (ja) 2021-07-28
JP2022091640A JP2022091640A (ja) 2022-06-21

Family

ID=76967268

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2020204622A Active JP6908906B1 (ja) 2020-12-09 2020-12-09 自動スイッチング装置、自動スイッチング方法及びプログラム
JP2021103756A Pending JP2022091670A (ja) 2020-12-09 2021-06-23 自動スイッチング装置、自動スイッチング方法及びプログラム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2021103756A Pending JP2022091670A (ja) 2020-12-09 2021-06-23 自動スイッチング装置、自動スイッチング方法及びプログラム

Country Status (1)

Country Link
JP (2) JP6908906B1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005295431A (ja) * 2004-04-05 2005-10-20 Nippon Hoso Kyokai <Nhk> 番組生成システム、コマンド生成装置、及び番組生成プログラム
JP2017059902A (ja) * 2015-09-14 2017-03-23 株式会社リコー 情報処理装置、プログラム、画像処理システム
US9942516B1 (en) * 2016-12-20 2018-04-10 Facebook, Inc. Optimizing video conferencing using contextual information
US20200267427A1 (en) * 2020-05-07 2020-08-20 Intel Corporation Generating real-time director's cuts of live-streamed events using roles
WO2020189057A1 (ja) * 2019-03-20 2020-09-24 ソニー株式会社 画像処理装置、画像処理方法、プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005295431A (ja) * 2004-04-05 2005-10-20 Nippon Hoso Kyokai <Nhk> 番組生成システム、コマンド生成装置、及び番組生成プログラム
JP2017059902A (ja) * 2015-09-14 2017-03-23 株式会社リコー 情報処理装置、プログラム、画像処理システム
US9942516B1 (en) * 2016-12-20 2018-04-10 Facebook, Inc. Optimizing video conferencing using contextual information
WO2020189057A1 (ja) * 2019-03-20 2020-09-24 ソニー株式会社 画像処理装置、画像処理方法、プログラム
US20200267427A1 (en) * 2020-05-07 2020-08-20 Intel Corporation Generating real-time director's cuts of live-streamed events using roles

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
奥田 誠 MAKOTO OKUDA: "ロボットカメラ協調撮影システム構築に向けたテレビ番組解析 Analysis of TV program for robot cameras c", 電子情報通信学会技術研究報告 VOL.105 NO.611 IEICE TECHNICAL REPORT, vol. 第105巻, JPN6021019125, JP, ISSN: 0004510884 *
奥田 誠 MAKOTO OKUDA: "対談番組を対象とした協調ロボットカメラの撮影ショット決定手法 Method for Determining Shots of Cooper", 映像情報メディア学会誌 第63巻 第6号 THE JOURNAL OF THE INSTITUTE OF IMAGE INFORMATION AND TELE, vol. 第63巻, JPN6021019124, JP, ISSN: 0004510883 *

Also Published As

Publication number Publication date
JP2022091670A (ja) 2022-06-21
JP2022091640A (ja) 2022-06-21

Similar Documents

Publication Publication Date Title
JP7396341B2 (ja) 映像音響処理装置および方法、並びにプログラム
US7117157B1 (en) Processing apparatus for determining which person in a group is speaking
US7113201B1 (en) Image processing apparatus
US7139767B1 (en) Image processing apparatus and database
US20210132686A1 (en) Storage medium, augmented reality presentation apparatus, and augmented reality presentation method
US20210249012A1 (en) Systems and methods for operating an output device
US11810597B2 (en) Video ingestion and clip creation
US9462230B1 (en) Catch-up video buffering
CN110475069B (zh) 图像的拍摄方法及装置
JP7347597B2 (ja) 動画編集装置、動画編集方法及びプログラム
CN104469491A (zh) 音频传递方法和系统
KR20140112527A (ko) 오디오 트랙의 결정을 위한 방법, 장치 및 컴퓨터 프로그램
JP2022531055A (ja) インタラクティブ対象の駆動方法、装置、デバイス、及び記録媒体
US8297754B2 (en) Apparatus and method of controlling camera work based on direction rule
US20190378535A1 (en) Apparatus That Identifies A Scene Type and Method for Identifying a Scene Type
JP6908906B1 (ja) 自動スイッチング装置、自動スイッチング方法及びプログラム
CN112995530A (zh) 视频的生成方法、装置及设备
US11689380B2 (en) Method and device for viewing conference
CN114513622A (zh) 说话人检测方法、设备、存储介质及程序产品
CN112584225A (zh) 视频录制处理方法、视频播放控制方法及电子设备
JP5182507B2 (ja) 撮影装置、撮影案内方法、及びプログラム
CN111091807A (zh) 语音合成方法、装置、计算机设备及存储介质
GB2351627A (en) Image processing apparatus
JP2022135674A (ja) 電子機器、情報処理装置、制御方法、学習方法、プログラム
CN115567670A (zh) 会议检视方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210212

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210212

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20210323

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210526

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210623

R150 Certificate of patent or registration of utility model

Ref document number: 6908906

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150