JP2019192144A

JP2019192144A - 画面構成分析装置、画面構成分析方法及びプログラム

Info

Publication number: JP2019192144A
Application number: JP2018087310A
Authority: JP
Inventors: 佐藤　誠; Makoto Sato; 佐藤　　誠; 芳博岩佐; Yoshihiro Iwasa; 正斗神崎; Masato Kanzaki; 鈴木寿晃; Hisaaki Suzuki; 寿晃鈴木; 貴之篠田; Takayuki Shinoda
Original assignee: Nippon Television Network Corp
Current assignee: Nippon Television Network Corp
Priority date: 2018-04-27
Filing date: 2018-04-27
Publication date: 2019-10-31
Anticipated expiration: 2038-04-27
Also published as: JP7209441B2

Abstract

【課題】コンテンツ映像の画面構成を分析することができる画面構成分析装置、画面構成分析方法及びプログラムを提供すること。【解決手段】コンテンツのコンテンツ映像から、コンテンツ映像を構成する画面構成要素のうち、指定された注目構成要素を認識する画像認識部と、注目構成要素に着目した場合のコンテンツ映像の画像の画面構成を分析し、分析結果である画面構成情報と、画面構成の分析対象とした画像のコンテンツ映像上の時間的位置情報とを出力する画面構成分析部と、指標と指標の時刻情報とを取得する指標取得部と、コンテンツ映像上の時間的位置情報と指標の時刻情報とを用いて、画面構成情報と指標とを同一時間軸上に関連付けて、記憶部に記憶する関連付け部とを有する画面構成分析装置である。【選択図】図１

Description

本発明は、画面構成分析装置、画面構成分析方法及びプログラムに関する。

放送番組において、ある番組の評価を放送後に行う場合に、番組の様々な構成、例えば、複数のＴＶカメラの配置、カメラの使用方法の評価、バラエティ番組の進行状況の確認、当該番組の視聴率との関係で番組を傍聴している観客に、出演者のどの発言が受けたか、というような観点から番組の評価、確認を事後的に行いたいという要望がある。

この課題を解決すべく、特許文献１の発明が提案されている。

特許文献１の発明は、ＴＶで放送された映像の各ショットの静止画像を作成し、この静止画像と、ＴＶ局名、チャンネル名、番組タイトル、放送日付、放送開始時間、放送経過時間、番組コンテンツの要約、及びタイムコードを有するインデックスとを関連付けて記憶している。このインデックスはメタデータとも呼ばれ、番組に関する情報である。

特開２０１３−１６２３３７号公報

しかし、特許文献１の発明は、インデックスには、出演者などの画面上における時系列的な有無や、配置、占有比等の画面構成に関する情報は含まれておらず、制作者側が実際にその映像を目視して画面構成を確認している。一方、制作者としては、出演者などの画面上における時系列的な出現の有無や、配置、占有比等のメタデータには表れない映像の画面構成が、視聴者に対してどのような影響を与えるのかを知りたい。

そこで、本発明は上記課題に鑑みて発明されたものであって、コンテンツ映像の画面構成を分析することができる画面構成分析装置、画面構成分析方法及びプログラムを提供することにある。

本発明の一態様は、コンテンツのコンテンツ映像から、前記コンテンツ映像を構成する画面構成要素のうち、指定された注目構成要素を認識する画像認識部と、前記注目構成要素に着目した場合の前記コンテンツ映像の画像の画面構成を分析し、分析結果である画面構成情報と、画面構成の分析対象とした画像の前記コンテンツ映像上の時間的位置情報とを出力する画面構成分析部と、指標と前記指標の時刻情報とを取得する指標取得部と、前記コンテンツ映像上の時間的位置情報と前記指標の時刻情報とを用いて、前記画面構成情報と前記指標とを同一時間軸上に関連付けて、記憶部に記憶する関連付け部とを有する画面構成分析装置である。

本発明の一態様は、コンテンツのコンテンツ映像から、前記コンテンツ映像を構成する画面構成要素のうち、指定された注目構成要素を認識し、前記注目構成要素に着目した場合の前記コンテンツ映像の画像の画面構成を分析し、分析結果である画面構成情報と、画面構成の分析対象とした画像の前記コンテンツ映像上の時間的位置情報とを出力し、指標と前記指標の時刻情報とを取得し、前記コンテンツ映像上の時間的位置情報と前記指標の時刻情報とを用いて、前記画面構成情報と前記指標とを同一時間軸上に関連付けて、記憶部に記憶する画面構成分析方法である。

本発明の一態様は、コンテンツのコンテンツ映像から、前記コンテンツ映像を構成する画面構成要素のうち、指定された注目構成要素を認識する画像認識処理と、前記注目構成要素に着目した場合の前記コンテンツ映像の画像の画面構成を分析し、分析結果である画面構成情報と、画面構成の分析対象とした画像の前記コンテンツ映像上の時間的位置情報とを出力する画面構成分析処理と、指標と前記指標の時刻情報とを取得する指標取得処理と、前記コンテンツ映像上の時間的位置情報と前記指標の時刻情報とを用いて、前記画面構成情報と前記指標とを同一時間軸上に関連付けて、記憶部に記憶する関連付け処理とをコンピュータに実行させるプログラムである。

本発明は、コンテンツ映像の画面構成を分析することができる

図１は第１の実施形態における画面構成分析装置を示すブロック図である。図２は画像認識部１による注目画面構成要素の画面上の位置、大きさの認識例を示す図である。図３は画面構成の分析及び画面構成情報を説明するための図である。図４は画面構成の分析及び画面構成情報を説明するための図である。図５は画面構成の分析及び画面構成情報を説明するための図である。図６は画面構成情報と指標とを関連付けを説明するための図である。図７はコンピュータシステムによって構成された画面構成分析装置のブロック図である。図８は出力部７に出力されるドラマＸの出演者Ａの占有比及びドラマＸの視聴率の折れ線グラフの一例を示す図である。図９は第１の実施形態の変形例１のブロック図である。図９は第１の実施形態の変形例２のブロック図である。図１０は第２の実施の形態における画面構成分析装置のブロック図である。図１１は出力部７に出力される出演者Ｂの映像上の表示（出現）の有無、出演者Ｂの音声のレベルの数値及びコンテンツＹの視聴率の折れ線グラフの一例を示す図である。図１３は第３の実施の形態における画面構成分析装置のブロック図である。図１４は第３の実施の形態の応用例を示したブロック図である。

＜第１の実施の形態＞
以下、図面を参照して、本発明の第１の実施形態における画面構成分析装置を説明する。

図１は本実施形態における画面構成分析装置を示すブロック図である。画面構成分析装置は、画像認識部１と、画面構成分析部２と、指標取得部３と、関連付け部４と、記憶部５と、出力制御部６と、出力部７とを備える。

画像認識部１は、コンテンツ映像の画面（映像）を構成する画面構成要素のうち、指定された注目画面構成要素を、入力されたコンテンツ映像から認識するものである。

ここで、画面構成要素とは、コンテンツ映像の画面（映像）を構成する各要素をいう。コンテンツ映像には人物や各種のオブジェクト（建物や、空、木等の自然物）、テロップ等が映っており、これらの要素から画面（映像）が構成される。本実施の形態では、これらのコンテンツ映像の画面を構成する要素を画面構成要素と記載する。そして、画面構成要素のうち、コンテンツ映像の画面構成を分析する上で着目する画面構成要素を注目画面構成要素と記載する。注目画面構成要素の代表的な例としては、コンテンツ映像に映っている特定の出演者、商品、テロップ等である。そして、コンテンツ映像は、画面構成要素が経時的に変化するものであれば種類は問わないが、例えば、放送番組の番組映像、ストリーミング配信される動画、デジタルサイネージに表示される連続する静止画からなるコンテンツ等がある。また、画像認識部１に入力されるコンテンツ映像は、リアルタイムの映像であるかは問わない。

注目画面構成要素の指定であるが、ユーザが分析を行いたい画面構成要素を、画像認識部１に指定することにより行われる。注目画面構成要素の指定は、個々の個体を特定する方法（例えば、具体的な司会者や主演者等を指定する方法）と、個々の個体を特定しない方法（例えば、映像上に現れる人物等を指定する方法）とのいずれでも良い。また、指定する注目画面構成要素の数は、単数、複数を問わない。

このような、注目画面構成要素を認識する画像認識方法としては、パターンマッチングや、ディープラーニング等の手法を用いた機械学習を用いた画像認識技術などがある。

画像認識部１は、コンテンツ映像から、指定された注目画面構成要素を認識すると、注目画面構成要素を識別する識別情報（例えば、注目画面構成要素が人物ならば氏名、注目画面構成要素がテロップならばテロップ等）と、注目画面構成要素の画面上の位置、大きさ等を含む注目画面構成要素認識情報を出力する。認識及び注目画面構成要素認識情報の出力は、予め定められた時間間隔（例えば、１秒又は２秒毎）で行われる。

画像認識部１による注目画面構成要素の画面上の位置、大きさの認識であるが、例えば、図２の例がある。図２の例は、注目画面構成要素を人物とした場合の例である。画像認識部１は、検出した人物に関して、図２に示す如く、認識した人物を囲む領域を注目領域に設定し、その注目領域の対角線の交点を中心点とする。そして、認識した人物の大きさを注目領域の面積とし、その中心点を認識した人物の画面上の位置座標とする。本例は一例であり、他の方法でもかまわない。

画面構成分析部２は、画像認識部１が認識した少なくとも一以上の注目画面構成要素に着目した場合のコンテンツ映像の画面構成を分析し、画面構成情報を生成する。この画面構成の分析は、注目画面構成要素をどのような観点から着目するかを設定し、その観点から画面構成を分析する。

画面構成の分析及び画面構成情報について、図３から図５を参照しながら説明する。

注目画面構成要素をドラマに出演しているある出演者Ａとした場合、出演者Ａが画面上にどのように映っているかによって画面構成は異なる。図３の例は、出演者Ａ（単独）の画面での占有率の観点から画面構成を着目した例であり、出演者Ａが画面中央に大きく（アップで）映っている場合と、出演者Ａが背景・情景・エキストラ多数とともに画面比70％以下で映っている場合と、出演者Ａが背景・情景・エキストラ多数とともに画面比50％以下で映っている場合と、出演者Ａが背景・情景・エキストラ多数とともに画面比30％以下で映っている場合を例示している。このような場合、出演者Ａが映っているという点では共通しているが、画面構成は異なり、それぞれの映像（画面）が視聴者に与える影響は異なる。注目画面構成要素をドラマに出演している複数の出演者とした場合も同様である。更に、注目画面構成要素をドラマの映像の各種スーパの文字とし、その各種スーパの位置、及びスーパ内の文字（番組名や、出演者名等）としても、その配置や内容によって、視聴者に与える影響は異なる。

また、注目画面構成要素を情報番組の司会者（ＭＣ）とした場合、司会者（ＭＣ）が画面上にどのように映っているかによって画面構成は異なる。図４の例は、司会者（ＭＣ）と他の構成要素との位置関係に着目した例であり、司会者（ＭＣ）が単独で画面中央に大きく（アップで）映っている場合と、司会者（ＭＣ）が画面にフリップ（あるいはCG画面）と一緒に映っている場合と、司会者（ＭＣ）が他の出演者（あるいはコメンテーター）と映っている（あるいは会話している）場合と、司会者（ＭＣ）が画面上のワイプ画面に映っている場合を例示している。このような場合、同じ司会者（ＭＣ）が映っているという点では共通しているが、画面構成は異なり、それぞれの映像（画面）が視聴者に与える影響は異なる。

また、注目画面構成要素をある商品とした場合、商品が画面上にどのように映っているかによって画面構成は異なる。図５の例は、商品の表示形態に着目した例であり、商品が単独で画面中央に大きく（アップで）映っている場合と、商品を紹介するVTRやCG映像が映っている場合を例示しているが、同じ商品が映っているという点では共通しているが、画面構成は異なり、それぞれの映像（画面）が視聴者に与える影響は異なる。

このように、画像認識部１が認識した少なくとも一以上の注目画面構成要素に対し、着目する観点を設定し、コンテンツ映像の画面構成を分析する。具体的な分析方法であるが、着目する観点の基準となる分析基準を指定し、その分析基準に基づいて、注目画面構成要素に着目した場合の画面構成を判断する。

最も簡単な分析基準としては、出演者や司会者のような特定の人物を注目画面構成要素に指定した場合、画面上にその特定の人物が出現しているか否かである。例えば、出演者Ａを注目画面構成要素に指定した場合、画面構成分析部２は、出演者Ａが画面上に出現している場合は“１”、出演者Ａが画面上に出現していない場合は“０”とする分析する。そして、その数値化したデータを画面構成情報として生成する。また、複数の人物を注目画面構成要素に指定した場合、指定した注目画面構成要素（人物）が画面に出現している数でも良い。更に、画面構成分析部２は、その分析対象とした画像のコンテンツ映像の時間的位置情報（コンテンツ映像のタイムコード等）も取得する。そして、画面構成分析部２は、画面構成情報及び時間的位置情報を出力する。

また、特定の人物を注目画面構成要素に設定した場合、その特定の人物が画面を占有する占有率を分析基準として良い。この場合、画面構成分析部２は、上述した図２の例における注目領域の面積と画面面積との比を占有率として計算し、その占有率の数値を画面構成情報として生成する。更に、画面構成分析部２は、その分析対象とした画像のコンテンツ映像の時間的位置情報（コンテンツ映像のタイムコード等）も取得する。そして、画面構成分析部２は、画面構成情報及び時間的位置情報を出力する。尚、占有率を段階的な数値としても良い。例えば、出演者Ａが画面を占有する占有率が０％の場合は“０”、出演者Ａが画面を占有する占有率が０％以上３０％未満の場合は“１”、出演者Ａが画面を占有する占有率が３０％以上５０％未満の場合は“２”、出演者Ａが画面を占有する占有率が５０％以上７０％未満の場合は“３”、出演者Ａが画面を占有する占有率が７０％以上の場合は“４”とする。そして、その数値化したデータを画面構成情報として生成する。更に、画面構成分析部２は、その分析対象とした画像のコンテンツ映像の時間的位置情報（コンテンツ映像のタイムコード等）も取得する。そして、画面構成分析部２は、画面構成情報及び時間的位置情報を出力する。

また、テロップ等を注目画面構成要素に設定し、その分析基準を、そのテロップ等の位置としても良い。例えば、画面を９個の領域に分割し、左上から順番にその領域を識別する識別番号を付する（例えば、左上の領域：１，・・・，右下の領域：９）。画面構成分析部２は、画像認識部１で認識した注目画面構成要素の中心点の位置座標がいずれの領域に属するかを判断し、属する領域の識別番号を画面構成情報として出力する。更に、画面構成分析部２は、その分析対象とした画像のコンテンツ映像の時間的位置情報（コンテンツ映像のタイムコード等）も取得し、時間的位置情報も出力する。

上述した画面構成分析部２による画面構成の分析及び画面構成情報は、一例であり、他の方法でも良い。

指標取得部３は、指標とこの指標の時刻情報とを取得する。指標には、直接コンテンツに関連する指標のみならず、直接コンテンツには関係しないが、経時的な人の行動をセンシングして得られた指標も含む。また、指標は、コンテンツの視聴者の行動の指標ともいえる。尚、取得する指標は所定時間間隔毎の指標であることが好ましい。

コンテンツ映像のコンテンツに関連する指標は、例えば、放送番組の視聴率、コンテンツに関連するＷｅｂページの時系列のアクセス数、コンテンツに関連した時系列のツィート数、コンテンツの時系列の再生回数等である。これらの指標は、コンテンツの内容を直接反映する指標であり、コンテンツ映像の画面構成を検討する上で重要な指標である。

一方、経時的な人の行動をセンシングして得られた指標は、コンテンツの内容を直接反映するものではないが、コンテンツ映像の画面構成を検討する上で有益な指標となる可能性がある。例えば、テレビ受信機に装着された人感センサによりセンシングして得られたテレビ受信機前に存在する人の時系列の有無、家屋に設けられた水量計によりセンシングして得られた時系列の水道量等である。サッカーの試合のコンテンツでは、試合中は視聴のためにテレビ受信機前に人が存在する場合が多いが、ハーフタイムになるとそれまで我慢していた家事等を行うため、コンテンツを表示させたまま、テレビ受信機前から離れる傾向があると思われる。すると、人感センサは人を検出しなくなり、また、水道量も増えると思われる。このように、コンテンツの視聴率のようにコンテンツの直接の指標となるものではないが、コンテンツの構成を検討する上で、有益な指標となりうる。

また、各家電に設けられたセンサの時系列データを指標としても良い。例えば、テレビ受信機の電源のＯＮ・ＯＦＦ、テレビリモコンの各種ボタンの押下、冷蔵庫のドアの開閉等の時系列データである。これらのデータも、コンテンツへの興味を分析する上で、有益な指標となる。

また、コンテンツを表示する表示装置（例えば、テレビ受信機）に、視線検出センサが設けられている場合、時系列的な視聴者の画面上の注視領域を指標としても良い。更に、視線検出センサが視聴者の瞳孔の大きさも検出できる場合は、その視聴者の瞳孔の大きさの時系列的な変化を指標としても良い。瞳孔径は「興味」のあるモノに対しては広がり、興味のないものに対しては狭まるという実験結果があり、コンテンツへの興味を分析する上で、有益な指標となるからである。

また、人体に各種センサが装着されている場合、その各種センサから得られる人体の変化の時系列データも指標としても良い。視聴者のコンテンツへの興味により、視聴者の体には変化が生じるからである。

関連付け部４は、画面構成分析部２から取得した画面構成情報と、指標取得部３から取得した指標とを、同一時間軸上に関連付けて、記憶部５に記憶する。例えば、コンテンツのタイムコードを時間軸として、同一の時刻情報を持つ、画面構成情報と指標とを関連付けて記憶部５に記憶する。図６の例では、コンテンツタイムコード１：００：２５に、画面構成情報Ａと指標Ａとが関連付けて記憶され、コンテンツタイムコード１：００：２７に、画面構成情報Ｂと指標Ｂとが関連付けて記憶され、コンテンツタイムコード１：００：２９に、画面構成情報Ｃと指標Ｃとが関連付けて記憶され、コンテンツタイムコード１：００：３１に、画面構成情報Ｄと指標Ｄとが関連付けて記憶されている。

記憶部５は、ハードディスクのような記録媒体である。

出力制御部６は、分析基準及び指標が指定されると、その分析基準の画面構成情報と指標との関係を時系列で表現した時系列情報を出力部７に出力する。尚、出力される画面構成情報と指標とは一対一の関係でなくても良く、複数の画面構成情報とひとつの指標、ひとつの画面構成情報と複数の指標、又は、複数の画面構成情報と複数の指標を同時に出力するようにしても良い。この場合、出力される画面構成情報と指標とは、同一の時間軸に対応付けられて出力されることが好ましい。

出力部７は、ディスプレイ等の出力手段である。

上述した画面構成分析装置は、具体的には、各種の演算処理等を行うプロセッサを有するコンピュータシステム（情報処理装置）によって実現することができる。図７はコンピュータシステムによって構成された画面構成分析装置のブロック図である。

画面構成分析装置は、プロセッサ１０、メモリ（ＲＯＭやＲＡＭ）１１、記憶装置（ハードディスク、半導体ディスクなど）１２、入力装置（キーボード、マウス、タッチパネルなど）１３、表示装置１４、通信装置１５などのハードウェア資源を有する汎用のコンピュータにより構成することができる。

画面構成分析装置は、記憶装置１２に格納されたプログラムがメモリ１１にロードされ、プロセッサ１０により実行されることにより、画像認識処理と、画面構成分析処理と、指標取得処理と、関連付け処理と、出力制御処理とが実現されるものである。尚、画像認識処理は画像認識部１に対応し、画面構成分析処理は画面構成分析部２に対応し、指標取得処理は指標取得部３に対応し、関連付け処理は関連付け部４に対応し、出力制御処理は出力制御部６に対応する。

次に、上述した画面構成分析装置の具体的な実施例を説明する。

本実施例は、コンテンツを放送番組のドラマＸ、注目構成要素をドラマＸに出演している出演者Ａとし、分析基準を出演者Ａ（単独）の画面での占有比とし、指標をドラマＸの視聴率とする例を説明する。

画像認識部１は、ドラマＸの映像から出演者Ａを認識する。認識は、１秒毎に行うものとする。そして、画像認識部１は、出演者Ａの注目領域の面積と、出演者Ａを認識した映像のタイムコードとを出力する。

画面構成分析部２は、画像認識部１から受信した出演者Ａの注目領域の面積とタイムコードとから、タイムコードで特定される画面において出演者Ａの注目領域の面積が占める占有比を求める。ここでの占有比は、出演者Ａが映像の画面に表示されていない場合を０とし、出演者Ａの注目領域の面積が画面の面積と一致する場合を１０として、０から１０の範囲で求める。画面構成分析部２は、求めた出演者Ａの占有比とその時のタイムコードとを関連付け部４に出力する。

指標取得部３は、ドラマＸの１秒単位の視聴率を取得する。尚、視聴率のデータは、既存のサービスから取得することができる。

関連付け部４は、画面構成分析部２から受信した出演者Ａの占有比（画面構成情報）と、指標取得部３から受信したドラマＸの１秒単位の視聴率とを、ドラマＸのタイムコードに関連付けて記憶部５に記憶する。

出力制御部６は、分析基準であるドラマＸの出演者Ａの占有比（画面構成情報）と、ドラマＸの視聴率（指標）との時系列情報が指定されると、横軸をタイムコード（時間）とし、縦軸の第１軸を視聴率とし、縦軸の第２軸を出演者Ａの占有比としたドラマＸの出演者Ａの占有比及びドラマＸの視聴率の折れ線グラフを、時系列情報として出力部７に出力する。出力部７に出力されるドラマＸの出演者Ａの占有比及びドラマＸの視聴率の折れ線グラフの一例を、図８に示す。図８では、出演者Ａの占有比と視聴率の増加とに相関があることがわかる。

このように、注目構成要素に着目した場合のコンテンツ映像の画像の画面構成情報と指標との関係を時系列に並べることにより、客観的にコンテンツ映像の画面構成を検討、評価できる。

尚、出力制御部６は、時系列情報とともに、時系列に沿ってコンテンツ映像も表示するようにしても良い。

更に、画面構成分析部２は、画面構成情報を生成すると共に、タイムコードのようなコンテンツ映像の時間的位置情報も取得し、それらは記録部に記憶されているので、画面構成情報はコンテンツ映像のメタデータとしても活用することができる。例えば、画面構成情報が出演者の画面上の出現の有無である場合、出演者の出現が有の画面構成情報の時間的位置情報を用いて、出演者が出現する映像のみを選択することができる。

＜第１の実施の形態の変形例１＞
第１の実施の形態の変形例１を説明する。

図９は第１の実施の形態の変形例１のブロック図である。

第１の実施の形態の変形例１は、上述した第１の実施の形態における画像分析装置の構成要素のうち、出力制御部６及び出力部７が除かれ、画像認識部１と画面構成分析部２と指標取得部３と関連付け部４と記憶部５とから画像分析装置１００が構成される。そして、ＬＡＮ等のネットワークを介して画像分析装置１００と接続されている端末２００が出力制御部６及び出力部７を備える。

このような構成にすることにより、画像分析装置１００が分析収集した画面構成と指標との時系列的な関係を、複数の端末が閲覧することができる。

＜第１の実施の形態の変形例２＞
第１の実施の形態の変形例２を説明する。

第１の実施の形態の変形例２は、第１の実施の形態の変形例１の画像分析装置１００が複数設けられ、各画像分析装置１００が分析したコンテンツ映像の画面構成情報及び指標を、端末２００の出力制御部６において対比させて出力できるように構成したものである。

図１０は第１の実施の形態の変形例２のブロック図である。

第１の実施の形態の変形例２では、複数の画像分析装置１００が設けられ、それぞれの画像分析装置１００には、異なる番組映像Ｍ、番組映像Ｎ、．．．、番組映像Ｚのいずれかが入力される。

各画像分析装置１００に指定される注目構成要素であるが、注目構成要素を出演者とした場合、各番組映像Ｍ、番組映像Ｎ、．．．、番組映像Ｚの出演者は異なるので、指定される注目構成要素も異なる。例えば、番組映像Ｍでは出演者Ａ、番組映像Ｎでは出演者Ｂとなるからである。しかし、着目する注目構成要素の概念としては、番組に出演している出演者のように共通していることが好ましい。

一方、各画像分析装置１００に指定される分析基準であるが、好ましくは同一の分析基準であることが好ましい。例えば、各番組映像Ｍ、番組映像Ｎ、．．．、番組映像Ｚの出演者の画面の占有比等である。

また、指標取得部３が取得する指標であるが、対比の観点から好ましくは同一種類の指標が好ましい。例えば、各番組映像Ｍ、番組映像Ｎ、．．．、番組映像Ｚの各番組の視聴率である。

このようにして各画像分析装置１００は、各番組映像Ｍ、番組映像Ｎ、．．．、番組映像Ｚの分析を行い、画面構成情報と指標とを同一時間軸上に関連付けて記憶する。

出力制御６は、分析基準及び指標が指定されると、各画像分析装置１００から画面構成情報及び指標と読み出して、各画面構成情報及び各指標との関係を、同一画面上に時系列で表現した時系列情報を出力部７に出力する。例えば、各番組映像Ｍ、番組映像Ｎ、．．．、番組映像Ｚの画面構成情報（例えば、各番組の出演者の画面占有比）と各番組映像Ｍ、番組映像Ｎ、．．．、番組映像Ｚの指標（例えば、各番組の視聴率）とを、同一画面上で時系列に並べた時系列情報を出力する。

このように構成することにより、複数のコンテンツ映像と指標との関係を対比させることができ、画面構成情報の変化に伴う視聴者の番組の遷移も評価することができる。

尚、番組映像Ｍ、番組映像Ｎ、．．．、番組映像Ｚをリアルタイムで分析しない場合は、単独の画像分析装置１００により、各番組映像Ｍ、番組映像Ｎ、．．．、番組映像Ｚをそれぞれ分析後、出力制御６が各番組映像Ｍ、番組映像Ｎ、．．．、番組映像Ｚの画面構成情報と各番組映像Ｍ、番組映像Ｎ、．．．、番組映像Ｚの指標とを、同一画面上で時系列に並べた時系列情報を出力しても良いことはいうまでもない。

＜第２の実施の形態＞
第２の実施の形態を説明する。

コンテンツの映像に含まれる音声も、視聴者に大きな影響を与えると考えられる。そこで、第２の実施の形態は、コンテンツの映像に含まれる音声も認識対象に加えてコンテンツ映像を分析する例を説明する。

図１１は第２の実施の形態における画面構成分析装置のブロック図である。

第２の実施の形態の画面構成分析装置は、第１の実施の形態の画面構成分析装置に加えて音声認識部２０を備える。

音声認識部２０は、注目画面構成要素の音声を認識するものである。注目画面構成要素の音声を認識するために、音声認識部２０は、機械学習等により、注目画面構成要素の音声を学習させておく。認識する音声は、注目画面構成要素が人物である場合は人物の音声、注目画面構成要素が楽器等のオブジェクトの場合はその注目画面構成要素が発する音である。尚、音声認識部２０は、注目画面構成要素の音声に限らず、例えば、オープニング曲や、バックグラウンドミュージックのように、映像としではなく、音が単独で存在する場合には、その音自体を注目構成要素として認識するようにしても良い。

音声認識部２０認識する音声の情報は、注目画面構成要素の音声の有無のみならず、注目画面構成要素が発する音声のレベル、周波数、ピッチ、スピード、ラウドネス値も含む。そして、これら識別した音声について、その内容に関する情報である注目構成要素音声認識情報を生成する。

画面構成分析部２は、画像認識部１から受信した注目画面構成要素認識情報と、音声認識部２０から受信した注目構成要素音声認識情報とを用いて、設定された分析基準でコンテンツ映像の画面構成を分析する。分析基準の例としては、注目画面構成が人物である場合、その人物が映像上に出現している場合におけるその人物の音声のレベルや、周波数、ピッチ、スピード、ラウドネス値等があげられる。

画面構成分析部２は、分析基準に従って、コンテンツ映像の画面構成を分析し、画面構成情報及び時間的位置情報を出力する。

指標取得部３、関連付け部４、記憶部５、出力制御部６、及び出力部７の動作は、第１の実施の形態と同様である。

具体的な実施例を説明する
本実施例は、注目構成要素を、コンテンツＹに出演しているある出演者Ｂと出演者Ｂの音声とし、分析基準を出演者Ｂ（単独）の映像上の表示（出現）の有無と、出演者Ｂの音声のレベルとし、指標をそのコンテンツＹの視聴率とする例を説明する。

画像認識部１は、コンテンツＹの映像から出演者Ｂを認識する。認識は、１秒毎に行うものとする。そして、画像認識部１は、出演者Ｂの注目領域の面積と、出演者Ｂを認識した映像のタイムコードとを出力する。

音声認識部２０は、出演者Ｂの音声を認識し、その音声データを画面構成分析部２に出力する。

画面構成分析部２は、画像認識部１から受信した出演者Ｂの注目領域の面積とタイムコードとから、タイムコードで特定される画面において出演者Ｂの映像上の表示（出現）の有無について判断する。すなわち、出演者Ｂの注目領域の面積がゼロでなければ、出演者Ｂの映像上の表示（出現）されていることになる。ここでの画面構成情報は、出演者Ｂの映像上の表示（出現）されている場合は１となり、出演者Ｂの映像上の表示（出現）されていない場合は０となる。

更に、画面構成分析部２は、音声認識部２０からの出演者Ｂの音声データに基づいて、出演者Ｂの音声のレベルを判定する。レベルの判定は、１０段階で行い、レベルが高くなると、数値が高くなるものとする。そして、画面構成分析部２は、音声のレベルの数値を画面構成情報として出力する。

指標取得部３は、コンテンツＹの１秒単位の視聴率を取得する。

関連付け部４は、画面構成分析部２から受信した出演者Ｂの画面構成情報（出演者Ｂの映像上の表示（出現）の有無と、出演者Ｂの音声のレベルの数値）と、指標取得部３から受信したコンテンツＹの１秒単位の視聴率とを、コンテンツＹのタイムコードと、そのタイムコードに対応する画面構成情報と、コンテンツＹの視聴率とを関連付けて記憶部５に記憶する。

出力制御部６は、分析基準であるコンテンツＹの出演者Ｂの画面構成情報と、コンテンツＹの視聴率との時系列情報が指定されると、横軸をタイムコード（時間）とし、縦軸の第１軸をコンテンツＹの視聴率、縦軸の第２軸を出演者Ｂの映像上の表示（出現）の有無及び出演者Ｂの音声のトーンの数値とする出演者Ｂの映像上の表示（出現）の有無、出演者Ｂの音声のレベルの数値及びコンテンツＹの視聴率の折れ線グラフを、時系列情報として出力部７に出力する。出力部７に出力されるドラマＸの出演者Ａの占有比及びドラマＸの視聴率の折れ線グラフの一例を、図１２に示す。図１２では、出演者Ｂの音声のレベルと視聴率の増加とに相関があることがわかる。

尚、第２の実施の形態は、上述した第１の実施の形態の変形と組み合わせて構成することもできる。

＜第３の実施の形態＞
図１３は第３の実施の形態における画面構成分析装置を示すブロック図である。第３の実施の形態は、第２の実施の形態に加えて、相関分析部３０を有する。

分析部３０は、記憶部５に記憶されている画面構成情報及び指標を入力データとし、その画面構成情報と指標との相関性を分析する。例えば、画面構成情報の変化にともない、その指標がどのように変化していくか、また、指標に特徴的な変化が起きた時の画面構成情報の提示等の情報である。これらは、ひとつのコンテンツ映像の分析だけでも良いが、第１の実施の形態の変形例２に説明したように複数のコンテンツの画面構成情報及び指標を分析することにより、より効果的なものとなる。

相関分析部３０の分析の一例として、相関分析部３０は、特定のコンテンツの視聴率の急上昇や急降下、人感センサの検出値が同時多発的に下がるなどの指標の特徴的変化を検出し、その特徴的変化が起きた時のコンテンツの画面構成情報とその指標データとを出力する。また、相関分析部３０は、毎日の同じ時間や、同じ曜日に現れる等の定期的な指標の特徴的変化を検出し、その特徴的変化が起きた時のコンテンツの画面構成情報とその指標データとを出力する。

また、記憶部５に記憶されている複数の画面構成情報及び指標のデータを、分析部３０に学習させ、どのような画面構成情報のときにどのような指標が変化する傾向があるのか、又は、どのような画面構成情報の変化のときにどのような指標が変化する傾向にあるのか、又は、その指標の値の高低はどのような画面構成情報が影響を与える傾向にあるのか等の総合的な分析情報も提供することができる。このような、分析方法としては、パターンマッチングや、ディープラーニング等の手法を用いた機械学習によるものなどがある。

このような相関分析部３０の分析結果は、コンテンツの編集の自動化にも貢献することができる。

図１４は第３の実施の形態の応用例を示したブロック図である。

図１４の例では、相関分析部３０の分析結果は、コンテンツ制作システム４０に入力される。コンテンツ制作システム４０の一例を説明すると、分析の結果、視聴率の上昇が認められる画面構成情報、例えば、コンテンツの特定の時間帯に、主演者が５０〜７０％の画面占有率で映像上に映っていることが、視聴率の上昇に大きく貢献しているとの分析結果があるものとする。そして、複数のカメラで撮影した映像からひとつのコンテンツの映像を制作するような場合、各カメラの映像における主演者の画面占有率を監視し、特定の時間帯において、主演者が５０〜７０％の画面占有率で映っているカメラの映像を自動的に選択するようにすれば、カメラの映像のスイッチング処理を自動化することができる。１台のカメラにおけるカメラワーク（ズームやパン等）の処理も同様である。

第３の実施の形態は、相関分析部を設けることにより、画面構成情報と指標との関係を推測できる。更に、分析結果を用いることにより、コンテンツの制作の自動化にも貢献することができる。

以上好ましい実施の形態をあげて本発明を説明したが、全ての実施の形態の構成を備える必要はなく、適時組合せて実施することができるばかりでなく、本発明は必ずしも上記実施の形態に限定されるものではなく、その技術的思想の範囲内において様々に変形し実施することが出来る。

１画像認識部
２画面構成分析部
３指標取得部
４関連付け部
５記憶部
６出力制御部
７出力部
２０音声認識部
３０相関分析部
４０コンテンツ制作システム
１００画面構成分析装置

Claims

コンテンツのコンテンツ映像から、前記コンテンツ映像を構成する画面構成要素のうち、指定された注目構成要素を認識する画像認識部と、
前記注目構成要素に着目した場合の前記コンテンツ映像の画像の画面構成を分析し、分析結果である画面構成情報と、画面構成の分析対象とした画像の前記コンテンツ映像上の時間的位置情報とを出力する画面構成分析部と、
指標と前記指標の時刻情報とを取得する指標取得部と、
前記コンテンツ映像上の時間的位置情報と前記指標の時刻情報とを用いて、前記画面構成情報と前記指標とを同一時間軸上に関連付けて、記憶部に記憶する関連付け部と
を有する画面構成分析装置。
前記画面構成情報と前記指標との時系列情報を出力する出力制御部を
有する請求項１に記載の画面構成分析装置。
前記画面構成要素は、前記コンテンツ映像に映っている人物、オブジェクト及びテロップである
請求項１又は請求項２に記載の画面構成分析装置。
前記指標は、前記コンテンツに関連した指標である
請求項１から請求項３のいずれかに記載の画面構成分析装置。
前記指標は、経時的な人の行動をセンシングして得られた指標である
請求項１から請求項３のいずれかに記載の画面構成分析装置。
前記指標は、放送番組の時系列の視聴率、コンテンツの時系列の再生回数、コンテンツに関連するＷｅｂページの時系列のアクセス数、コンテンツに関連したツィートの時系列の数、テレビ受信機に装着された人感センサによりセンシングして得られた前記テレビ受信機の前に存在する人の時系列の有無、家屋に設けられた水量計によりセンシングして得られた時系列の水道量、視線検出センサによるコンテンツ映像の注視領域の時系列の変化のいずれかである
請求項１から請求項５のいずれかに記載の画面構成分析装置。
前記画面構成分析部は、前記注目画面構成要素の画面上の数、前記注目画面構成要素の画面上の出現の有無、前記注目画面構成要素の画面の占有比、前記注目画面構成要素の画面上の位置、及び前記注目画面構成要素と他の前記画面構成要素との位置関係の少なくともいずれかに基づいて、前記コンテンツ映像の画面構成を分析する
請求項１から請求項６のいずれかに記載の画面構成分析装置。
前記コンテンツ映像から、音声を認識する音声認識部を有し、
前記画面構成情報分析部は、認識された音声を用いて、前記コンテンツ映像の画像の画面構成を分析する
請求項１から請求項７のいずれかに記載の画面構成分析装置。
前記認識する音声は、前記注目構成要素の音声である
請求項８に記載の画面構成分析装置。
前記画面構成情報分析部は、前記注目構成要素の音声の有無、周波数、ピッチ、スピード、ラウドネス値を用いて、前記コンテンツ映像の画像の画面構成を分析する
請求項８又は請求項９に記載の画面構成分析装置。
前記画像認識部と、前記画面構成分析部と、前記指標取得部と、前記関連付け部とを有する画面構成分析装置を複数設け、
前記各画面構成分析装置に、異なるコンテンツ映像の分析を行わせ、
前記出力制御部は、前記各コンテンツ映像の画面構成情報及び指標との時系列情報を出力する
請求項２から請求項１０のいずれかに記載の画面構成分析装置。
前記同一時間軸上に関連付けて記憶されている前記画面構成情報と前記指標とを用いて、前記画面構成情報と前記指標との相関性を分析する相関性分析部を有する
請求項１から請求項１１のいずれかに記載の画面構成分析装置。
前記相関性分析部の分析結果を用いて、映像制作機器を制御する映像制作システムを有する
請求項１から請求項１２のいずれかに記載の画面構成分析装置。
コンテンツのコンテンツ映像から、前記コンテンツ映像を構成する画面構成要素のうち、指定された注目構成要素を認識し、
前記注目構成要素に着目した場合の前記コンテンツ映像の画像の画面構成を分析し、分析結果である画面構成情報と、画面構成の分析対象とした画像の前記コンテンツ映像上の時間的位置情報とを出力し、
指標と前記指標の時刻情報とを取得し、
前記コンテンツ映像上の時間的位置情報と前記指標の時刻情報とを用いて、前記画面構成情報と前記指標とを同一時間軸上に関連付けて、記憶部に記憶する
画面構成分析方法。
コンテンツのコンテンツ映像から、前記コンテンツ映像を構成する画面構成要素のうち、指定された注目構成要素を認識する画像認識処理と、
前記注目構成要素に着目した場合の前記コンテンツ映像の画像の画面構成を分析し、分析結果である画面構成情報と、画面構成の分析対象とした画像の前記コンテンツ映像上の時間的位置情報とを出力する画面構成分析処理と、
指標と前記指標の時刻情報とを取得する指標取得処理と、
前記コンテンツ映像上の時間的位置情報と前記指標の時刻情報とを用いて、前記画面構成情報と前記指標とを同一時間軸上に関連付けて、記憶部に記憶する関連付け処理と
をコンピュータに実行させるプログラム。