JP2024080528A

JP2024080528A - コンテンツ処理装置

Info

Publication number: JP2024080528A
Application number: JP2022193806A
Authority: JP
Inventors: 和夫五十嵐
Original assignee: SoftBank Corp
Current assignee: SoftBank Corp
Priority date: 2022-12-02
Filing date: 2022-12-02
Publication date: 2024-06-13

Abstract

【課題】動画像の被写体であるグループの中で、１人に注目したコンテンツを簡単に提供することができるようにする。【解決手段】音声とともに動画像が再生されるコンテンツの入力を受け付ける入力受付部と、予め与えられた所定の長さの音声データに対応する音声と類似する音声が再生される区間を、入力されたコンテンツから検出する区間検出部と、検出された区間の直後に再生される画像からオブジェクトを検出するオブジェクト検出部と、検出されたオブジェクトにラベルを付与するラベル付与部とを備える。【選択図】図１

Description

本発明は、コンテンツ処理装置に関し、動画像の被写体であるグループの中で、１人に注目したコンテンツを簡単に提供することができるようにするコンテンツ処理装置に関する。

従来より、コンサートや演劇などのコンテンツのネットワークを介した配信が、ライブ配信またはオンデマンド配信により行われている（例えば、非特許文献１参照）。

近年配信されるコンテンツでは、特定のアイドルや俳優の出演を呼び物とするより、多数のアイドルや俳優などの出演者の中で、ファンのそれぞれが好む出演者に注目して楽しむことを目的とするものが多い。

また、近年のＶＲ（ＶｉｒｔｕａｌＲｅａｌｉｔｙ）技術の発達により、実在するアイドルや俳優とアバターとを組み合わせた仮想空間を作り出すことも可能となってきており、コンテンツの中で表示される特定の出演者に注目した画像処理のニーズが高まっている。

さらに、画像の中から複数の人物を抽出し、抽出された人物のそれぞれを追跡（トラッキング）する技術が提案されている（例えば、非特許文献２参照）。

https://livr.jp/app-banner https://www.programmersought.com/article/17005126187/

しかしながら、アイドルグループの中には、大人数で構成されるグループも多く、例えば、数十人のメンバーが同一のグループに属する場合もある。このような場合、ステージ上で激しく踊る数十人のアイドルの中で、１人だけに注目したコンテンツを作成することは時間とコストを要することになる。

また、再生されるコンテンツの中で注目する１人のアイドルを自動的に検出することも難しい。例えば、顔画像認識などにより、アイドルグループのメンバー各人を識別しようとしても、多人数のアイドルグループの場合、各人あたりの顔領域の画素数は、かなり少なくなり、鮮明な画像が得にくい。さらに、ステージの照明による画質の変化、衣装のデザイン変更などの要素も考慮すると、各人の特徴を定性化することが難しい。

また、アイドルグループを構成するメンバーとなる人物は、通常、同年代、同性、同国人であり、肌や体系などの特徴に差異が少なく、各人を自動的に識別することは、やはり難しい。

本発明の一態様は、動画像の被写体であるグループの中で、１人に注目したコンテンツを簡単に提供することができるようにする技術を実現することを目的とする。

本発明の一態様に係るコンテンツ処理装置は、音声とともに動画像が再生されるコンテンツの入力を受け付けるコンテンツ入力受付部と、予め与えられた所定の長さの音声データに対応する音声と類似する音声が再生される区間を、入力されたコンテンツから検出する区間検出部と、検出された前記区間の直後に再生される画像からオブジェクトを検出するオブジェクト検出部と、検出された前記オブジェクトにラベルを付与するラベル付与部とを備える。

本発明の一態様において、前記ラベル付与部は、機械学習により得られたモデルパラメータを用いた演算により、前記オブジェクトの名称に係るラベルを推定するようにしてもよい。
本発明の各態様は、コンピュータによって実現してもよく、この場合には、コンピュータを上記システムが備える各部（ソフトウェア要素）として動作させることによりシステムをコンピュータにて実現させるプログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

本発明の一態様によれば、動画像の被写体であるグループの中で、１人に注目したコンテンツを簡単に提供することができるようにする技術を実現することができる。

第一実施形態に係るコンテンツ処理装置の機能的構成例を示すブロック図である。あるアイドルグループの楽曲Ａの演奏時の画像の例を示す図である。アイドルグループのパフォーマンスにおける１つの場面の画像を示す図である。オブジェクトの指定の際に、コンテンツ処理装置のディスプレイに表示されるＧＵＩの例を示す図である。オブジェクト画像処理部による画像処理が施された画像の一例である画像を示す図である。オブジェクト画像処理部による画像処理が施された画像の別の例を示す図である。コンテンツ再生処理の流れの例について説明するフローチャートである。第二実施形態に係るコンテンツ処理装置の機能的構成例を示すブロック図である。仮想空間の例を示す図である。コンテンツ処理装置の各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータの構成例を示す図である。

以下、本発明の例示的実施形態について、図面を参照して詳細に説明する。
＜第一実施形態＞
（コンテンツ処理装置）
図１は、第一実施形態に係るコンテンツ処理装置１０の機能的構成例を示すブロック図である。同図に示されるように、コンテンツ処理装置１０は、コンテンツ入力受付部１１、コンテンツ再生部１２および操作入力受付部１３を有している。

コンテンツ入力受付部１１は、コンテンツのデータの入力を受け付ける。コンテンツのデータは、例えば、インターネットなどのネットワークを介して供給される。また、コンテンツ処理装置が、例えば、５Ｇ通信システムなどの広域無線通信ネットワークにアクセスし、広域無線通信ネットワーク経由でコンテンツのデータが供給されるようにしてもよい。

一例として、コンテンツは、コンサート、演劇などを撮影したＭＰ４形式のデータとされる。コンテンツのデータには、動画像と音声が含まれ、必要に応じて字幕などの情報も含まれる。すなわち、コンテンツ処理装置に入力されるコンテンツは、音声とともに動画像が再生されるコンテンツである。例えば、音声は、コンサートで演奏される楽曲であってもよい。

ここでは、主に、コンテンツがアイドルグループのコンサートを撮影したＭＰ４形式のデータの場合を例として説明する。アイドルグループのコンサートにおいては、複数人のアイドル（人物）から成るグループが、演奏される楽曲に合わせて歌い、踊る。楽曲に合わせた歌と踊りは、パフォーマンスとも称される。

コンテンツ再生部１２は、コンテンツ入力受付部１１によって入力が受け付けられたコンテンツを再生する。再生されたコンテンツは、例えば、ディスプレイ５０に表示される。なお、ディスプレイ５０には、スピーカーも装備され、再生されたコンテンツの音声がディスプレイ５０のスピーカーから出力される。

操作入力受付部１３は、コンテンツ処理装置１０に対するユーザの操作入力を受け付ける。操作入力受付部１３は、キーボード、マウスなどにより構成されるようにしてもよい。あるいは、ディスプレイ５０が、タッチセンサを含んで構成され、ディスプレイ５０に表示されたＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ：グラフィカルユーザインタフェース）の操作入力を検知することによって操作入力受付部１３が構成されるようにしてもよい。

また、図１に示されるように、コンテンツ処理装置１０は、区間検出部３１、オブジェクト検出部３２、ラベル付与部３３、およびオブジェクト画像処理部３４を有している。

（区間検出部）
区間検出部３１は、予め与えられた所定の長さの音声データに対応する音声と類似する音声が再生される区間を、入力されたコンテンツから検出する。

ここで、予め与えられる音声データは、入力されたコンテンツ全体の時間的長さに比べて充分に短い時間の音声に対応する音声データである。例えば、入力されたコンテンツが、アイドルグループのコンサートであった場合、コンサートで演奏された楽曲の一部であって、例えば、イントロ、間奏、サビなどに対応する音声の音声データが予め与えられる。ただし、音声データの音声は、これらに限られるものではなく、楽曲の中で連続する任意の数小節分の音などであってもよい。音声データは、例えば、図示せぬコンテンツ処理装置１０の記憶部などに記憶されるようにしてもおよい。

なお、音声には、楽器の音、歌声、効果音などが含まれてよい。

区間検出部３１は、例えば、予め与えられた音声データの音声信号の特徴量と、再生中のコンテンツの音声の再生信号を比較することで、２つの音声信号の類似度を算出する。区間検出部３１は、コンテンツの再生中に、音声データと同じ時間的長さの音声信号を連続して抽出し、抽出した音声信号の特徴量と、音声データの音声信号の特徴量とを比較することで、類似度が閾値以上となる区間を検出する。ここで検出される区間は、音声データと同じ時間的長さを有することになる。

（オブジェクト検出部）
オブジェクト検出部３２は、検出された区間の直後に再生される画像からオブジェクトを検出する。

区間検出部３１により検出された区間の直後に再生される画像は、当該区間より時間的に後に再生される画像である。例えば、当該区間の動画像に含まれる複数のフレームの中の最終フレームから、１フレーム～３０フレームの後の画像のうち、１または複数の画像であってよい。例えば、入力されたコンテンツが、アイドルグループのコンサートのコンテンツである場合、検出された区間の直後に再生される画像には、数人のアイドル（人物）が写っており、これらの人物の画像が、オブジェクト検出部３２によりオブジェクトとして検出される。

一例として、オブジェクトの検出は、グラフカット法により行うことができる。グラフカット法では、まず、切り出したいオブジェクトを含む前景オブジェクト画像と、背景画像とからなる２種類の画像の色分布や画素カラーの勾配から切り出すべき前景オブジェクト画像を構成する領域の境界を計算する。そして、計算された境界に沿って画像が切り出されることにより、切り出したい前景オブジェクト画像が抽出される。

（ラベル付与部）
ラベル付与部３３は、オブジェクト検出部３２により検出されたオブジェクトにラベルを付与する。

ここでは、アイドルグループのコンサートのコンテンツの場合を例として、ラベル付与部３３の処理について説明する。この場合、検出されるオブジェクトは人物であり、ラベル付与部３３は、人物の名称に係るラベルを付与する。すなわち、人物の名称がラベルとしてオブジェクトに付与される。

ラベル付与部３３は、例えば、ＣＮＮ（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）などによって構成され、入力された画像のオブジェクトのラベルを推定する処理を実行する。この際、ラベル付与部３３は、予め実行された機械学習により得られたモデルパラメータを用いてオブジェクトのラベルを推定する。

この機械学習では、例えば、予め撮影されたアイドルグループのコンサートを撮影した画像から検出されたオブジェクトに正解のラベルが付与されたデータが教師データとして用いられる。一般に、アイドルグループのコンサートは、同じ会場で頻繁に開催されることが多い。この場合、同じ視点から同じアイドルグループを撮影した動画像のデータが多数存在し得る。

また、アイドルグループのコンサートが頻繁に開催される場合、通常、各回のコンサートで同じ楽曲が演奏される。アイドルグループは、楽曲ごとに決まったフォーメーションで、決まった振付に従って踊ることが多い。従って、例えば、楽曲Ａが演奏される場合、間奏の直後には、決まった数人の人物が前列に立って、同じポーズをとることになる。

図２は、あるアイドルグループの楽曲Ａの演奏時の画像の例を示す図である。同図には、ディスプレイ５０に表示された画像１０１が示されており、画像１０１は、楽曲Ａの間奏の直後の画像である。同図には、３人の人物１１１、人物１１２、および人物１１３が表示されており、各人物は、それぞれ右手を上にあげるポーズをとっている。

楽曲の演奏中、アイドルグループのメンバーの各人は、激しく動くことが多いが、楽曲途中には、アイドルグループのメンバーの各人がほぼ静止する場面がある。例えば、図２の画像が、このような場面に対応する。決まった振付に従って踊るアイドルグループのパフォーマンスでは、このような場面において、各人がどのような位置関係にあり、どのようなポーズをとるかなどが予め分かっており、画像の中のオブジェクトのラベルの推定も比較的容易になる。

図２において、人物１１１、人物１１２、および人物１１３は、それぞれ画像の中のオブジェクトとして検出される。これらの人物１１１、人物１１２、および人物１１３のそれぞれの名称（名前、ニックネームなど）をラベルとして付与したデータが、ラベル付与部３３が用いるモデルパラメータの機械学習において、教師データとして用いられる。同じ視点から同じアイドルグループを撮影した動画像のデータが多数存在すれば、このような教師データも多数生成することができる。多数の教師データを用いたか機械学習により、ラベル付与部３３の推定結果の制度も向上する。

また、図２に示される例においては、３人の人物がそれぞれ同じポーズをとっているが、例えば、各人が異なるポーズをとって静止する場面があれば、個々の人物をより識別しやすくなる。このような場面の画像を用いた機械学習により、ラベル付与部３３の推定結果の制度をさらに向上させ得る。

（オブジェクトの追跡）
また、オブジェクト検出部３２は、前記ラベルが付与された前記オブジェクトを、前記区間検出部により検出された前記区間より時間的に後に再生される前記コンテンツの動画像の中で追跡する。

オブジェクトの追跡では、例えば、あるフレームの画像から検出されたオブジェクトと、１フレーム後の画像から検出されたオブジェクトとの類似度が算出される。例えば、オブジェクトの色、形、模様に関する特徴量などを比較することにより、オブジェクトの類似度が算出される。そして、閾値以上の類似度を有するオブジェクトを同一のオブジェクトとして同定することによりオブジェクトの追跡が行われる。

このようにオブジェクトが追跡されることにより、一度ラベルが付与された人物は、コンテンツの再生中に表示される動画像の中で同じラベルが付与され続けることになる。

なお、例えば、同一の楽曲を再生中に、オブジェクトの検出が複数回行われるようにすることで、より正確にオブジェクトが追跡されるようにしてもよい。例えば、同一の楽曲の中で、イントロで演奏される音声に対応する第１の音声データと、間奏で演奏される音声に対応する第２の音声データとが予め与えられるようにしてもよい。

この場合、コンテンツの中で時間的に先に再生される区間の音声である第１の音声に対応する第１の音声データと、コンテンツの中で時間的に後に再生される区間の音声である第２の音声に対応する第２の音声データが予め与えられることになる。そして、区間検出部３１は、第１の音声と類似する音声が再生される第１の区間と、第２の音声と類似する音声が再生される第２の区間とをそれぞれ検出する。

この場合、ラベル付与部３３は、第１の区間の直後の画像からオブジェクト検出部３２が検出したオブジェクトの名称を推定してラベルを付与し、第２の区間の直後の画像からオブジェクト検出部が検出したオブジェクトに再度ラベルを付与する。そして、オブジェクト検出部３２は、第１の区間に対応してラベルが付与されたオブジェクト、および第２の区間に対応してラベルが付与されたオブジェクトをそれぞれ追跡する。

例えば、アイドルグループの人数が多い場合、１つの場面において、メンバーの全員が写った画像を得ることは難しい。図３は、ディスプレイ５０に表示される画像であって、８人のメンバーから成るアイドルグループのパフォーマンスにおける１つの場面の画像１３１を示す図である。図３は、例えば、ある楽曲のイントロの直後の場面に対応する。

図３に示される場面では、８人のメンバー全員が、ほぼ静止しており、同じポーズをとっているが、人物１４２は、人物１４１の後ろに位置し、人物１４４は、人物１４３の後ろに位置している。図３に示される場面の画像から人物１４２および人物１４４をオブジェクトとして検出して追跡することは難しい。また、図３に示される場面においてラベル付与部３３により、検出された人物の名称の推定が行われた場合、人物１４２および人物１４４の名称を正しく推定することは難しい。

一方で、アイドルグループのパフォーマンスでは、１つ楽曲の演奏中にメンバー全員がほぼ静止する場面が複数回存在することが多い。各場面によって、フォーメーションも変わるため、１つの場面では、写らなかった人物が他の場面では写っているように場面を選択することも可能となる。

例えば、楽曲の中で、アイドルグループのフォーメーションが変わるタイミングで演奏される音声に対応する音声データが予め与えられるようにすれば、フォーメーションが変わる都度、ステージの前列に位置する複数の人物の名称が推定されるようにすることができる。また、フォーメーションが変わる都度、ステージの前列に位置する複数の人物のそれぞれが追跡されるようにすることができる。

すなわち、複数の音声データ（第１の音声データ、第２の音声データ、・・・）が予め与えられ、各音声データに対応する区間の直後に再生される第１の場面、第２の場面、・・・において、都度、ラベルが付与されるようにしてもよい。例えば、複数の場面のそれぞれにおいて、人物が検出され、ラベルが付与されるようにすれば、コンテンツの再生中、より正確に各人を追跡することが可能となる。

なお、例えば、楽曲の中で同じ音声が繰り返し演奏される場合、１つの音声データのみが与えられる場合でも、やはり第１の場面、第２の場面、・・・において、都度、ラベルが付与されるようにすることが可能である。

（オブジェクト画像処理部）
オブジェクト画像処理部３４は、オブジェクト検出部が検出した複数のオブジェクトのうち、ユーザが指定したオブジェクトに所定の画像処理を施す。オブジェクトの指定は、例えば、オブジェクトに付与されたラベルに基づいて行われる。

図４は、オブジェクトの指定の際に、コンテンツ処理装置１０のディスプレイ５０に表示されるＧＵＩの例を示す図である。この例では、「アイドルグループ〇〇〇第８期メンバー表」が表示されている。ここで「〇〇〇」は、再生中のコンテンツのコンサートでパフォーマンスを行うアイドルグループの名称を示す。このアイドルグループは、例えば、２０人のメンバーから成り、メンバーの少なくとも１人が交代する都度、メンバー表が更新される。グループ結成当時のメンバー表が第１期、その後、メンバーの少なくとも１人が交代する都度、第２期、第３期、・・・のようにメンバー表の更新が行われる。

図４に示されるメンバー表において、最も左側の列には、「メンバー」が示されており、アイドルグループ〇〇〇を構成する２０人のメンバー各人の名称が記述される。ここでは、「ＡＡＡ」、「ＢＢＢ」、「ＣＣＣ」、・・・によって各人の名称が示されている。なお、実際には、各人の名称は、識別番号に対応付けられ、識別番号のそれぞれは、ラベル付与部３３によって付与されるラベルに対応している。

図４に示されるメンバー表において、中央の列には、「プロフィール」が示されており、各メンバーのプロフィールが記述される。

図４に示されるメンバー表において、最も右側の列には、「注目」が示されており、この列において、ユーザの指定が行われる。例えば、ユーザは、操作入力受付部１３を介して人物の指定に関する操作を入力し、図４に示されるメンバー表の中で自身が注目する人物を指定する。この例では、ユーザがメンバーの「ＣＣＣ」に注目しており、この人物（「ＣＣＣ」）が指定されたことを示す星印が、「注目」の列に表示されている。

オブジェクト画像処理部３４は、再生されるコンテンツの画像の中で、ユーザが注目する人物の画像に所定の画像処理を施す。図５は、ディスプレイ５０に表示される画像であって、オブジェクト画像処理部３４による画像処理が施された画像の一例である画像１６１を示す図である。

ここでは、例えば、ユーザにより、図４を参照して上述したＧＵＩにより、人物１１３が注目する人物として指定されているものとする。図５の例では、人物１１３の近傍に、マーク（この例では、ハート形のマーク）１７１が重畳されて表示されている。オブジェクト画像処理部３４による画像処理の一例として、図５に示されるように、指定したオブジェクトの近傍の所定の範囲内に予め決められた画像（この例では、マーク１７１）が重畳されて表示される。

図６は、オブジェクト画像処理部３４による画像処理が施された画像の別の例を示す図である。図６の例では、ディスプレイ５０に、人物１１３が拡大されて表示された画像１９１が表示されている。すなわち、ディスプレイ５０に、ユーザが指定した人物１１３のみが拡大されて表示されている。オブジェクト画像処理部３４による画像処理の一例として、図６に示されるように、指定したオブジェクトが拡大されて表示される。

さらに、図６のように拡大された画像において、図５に示されるようなマークが重畳表示されるようにしてもよい。

なお、オブジェクト画像処理部３４による画像処理は、再生されるコンテンツの動画像を構成する各フレームの画像に連続して施される。例えば、図５に示されるようにマーク１７１が重畳される場合、コンテンツの再生中常に、楽曲に合わせて踊る人物１１３の近傍に、マーク１７１が表示されることになる。また、例えば、図６に示されるように、オブジェクトが拡大されて表示される場合、コンテンツの再生中常に、ほぼ人物１１３のみを写す画像がディスプレイに表示されることになる。

次に、図７のフローチャートを参照して、コンテンツ処理装置１０によるコンテンツ再生処理の流れの例について説明する。この処理は、コンテンツ入力受付部１１により、コンテンツのデータの入力が受け付けられた後で実行される。ここでは、ライブ配信されたアイドルグループのコンサートのコンテンツのデータが入力された場合の例について説明する。

ステップＳ１０１において、コンテンツ再生部１２は、入力されたコンテンツを再生する。

ステップＳ１０２において、区間検出部３１は、予め与えられた音声データに対応する音声と、再生されるコンテンツの音声との類似度を算出する。なお、上述したように、コンサートで演奏された楽曲の一部であって、例えば、イントロ、間奏、サビなどに対応する音声の音声データが予め与えられている。区間検出部３１は、例えば、予め与えられた音声データの音声信号の特徴量と、再生中のコンテンツの音声の再生信号を比較することで、２つの音声信号の類似度を算出する。

ステップＳ１０３において、区間検出部３１は、類似する区間が検出されたか否かを判定する。上述したように、区間検出部３１は、コンテンツの再生中に、音声データと同じ時間的長さの音声信号を連続して抽出し、抽出した音声信号の特徴量音声データの音声信号の特徴量とを比較する。そして、区間検出部３１は、例えば、類似度が閾値以上となる区間を、類似する区間として検出する。

また、複数の音声データが予め与えられている場合、複数の音声データの音声信号の特徴量のそれぞれと、再生中のコンテンツの音声の音声信号を比較することで、音声信号の類似度が算出される。このようにして、例えば、第１の音声データの音声と類似する区間、または、第２の音声データの音声と類似する区間、・・・が類似する区間として検出されることになる。

ステップＳ１０３において、類似する区間が検出されたと判定された場合、ステップＳ１０４の処理が実行される。

ステップＳ１０４において、オブジェクト検出部３２は、検出された前記区間の直後に再生される画像からオブジェクトを検出する。このとき、例えば、検出された区間の直後に再生される画像に写った一人または複数人の人物の画像が、オブジェクト検出部３２によりオブジェクトとして検出される。

ステップＳ１０５において、ラベル付与部３３は、オブジェクトの名称を推定する。このとき、ステップＳ１０４の処理でオブジェクトとして検出された人物の名称が推定される。上述したように、ラベル付与部３３は、例えば、ＣＮＮなどによって構成され、入力された画像のオブジェクトのラベルを推定する処理を実行する。この際、ラベル付与部３３は、予め実行された機械学習により得られたモデルパラメータを用いてオブジェクトの名称を推定する。

ステップＳ１０６において、ラベル付与部３３は、ステップＳ１０４の処理により検出されたオブジェクトに、ステップＳ１０５の処理により推定された名称をラベルとして付与する。すなわち、人物の名称がラベルとしてオブジェクトに付与される。

ステップＳ１０７において、オブジェクト検出部３２は、ステップＳ１０６の処理でラベルが付与されたオブジェクトを追跡する。このとき、例えば、あるフレームの画像から検出されたオブジェクトと、１フレーム後の画像から検出されたオブジェクトとの類似度が算出され、閾値以上の類似度を有するオブジェクトを同一のオブジェクトとして同定することによりオブジェクトの追跡が行われる。

ステップＳ１０８において、オブジェクト画像処理部３４は、オブジェクト検出部３２が検出した複数のオブジェクトのうち、ユーザが指定したオブジェクトに所定の画像処理を施す。

これにより、例えば、図５を参照して上述したように、指定したオブジェクトの近傍にマークが表示される。あるいは、例えば、図６を参照して上述したように、ユーザが指定した人物のみが拡大されて表示される。さらに、図６のように拡大された画像において、図５に示されるようなマークが重畳表示されるようにしてもよい。

なお、オブジェクト画像処理部３４による画像処理は、再生されるコンテンツの動画像を構成する各フレームの画像に連続して施される。

なお、オブジェクトの指定が行われていない場合、ステップＳ１０８の処理は、スキップされる。

また、ステップＳ１０３において、類似する区間が検出されなかったと判定された場合、ステップＳ１０４乃至ステップＳ１０６の処理は、スキップされ、ステップＳ１０７の処理が実行される。まだラベルが付与されていない場合は、ステップＳ１０７の処理およびステップＳ１０８の処理も実質的に実行できないので、これらの処理もスキップされる。

ステップＳ１０９において、コンテンツ再生部１２は、コンテンツを最後まで再生したか否かを判定する。ステップＳ１０９において、まだ最後まで再生されていないと判定された場合、処理は、ステップＳ１０２に戻り、区間検出部３１により、抽出した音声信号の特徴量音声データの音声信号の特徴量とが比較される。そして、区間検出部３１は、類似度が閾値以上となる区間を、類似する区間として検出する。

このように、ステップＳ１０２乃至ステップＳ１０９の処理が繰り返し実行されることにより、予め与えられた音声データに対応する区間が１回または複数回検出され（ステップＳ１０３）、検出された区間の直後の画像からオブジェクトが検出される（ステップＳ１０４）。そして、検出されたオブジェクトの名称が推定され（ステップＳ１０５）、ラベルが付与される（ステップＳ１０６）。一度、ラベルが付与されたオブジェクトは、再生されるコンテンツの画像の中で追跡され（ステップＳ１０７）、指定されたオブジェクトには、画像処理が施される（ステップＳ１０８）。

ステップＳ１０４乃至ステップＳ１０６の処理は、予め与えられた音声データの音声と類似した区間が検出される都度、実行されるので、例えば、第１の場面では、検出できなかった人物を、第２の場面で検出することも可能となる。また、第１の場面において人物の名称の推定が誤っていた場合でも、第２の場面で正しいラベルに修正されるようにすることも可能となる。さらに、第１の場面の後、誤って異なるオブジェクト（人物）が追跡されてしまった場合でも、第２の場面以後は、正しいオブジェクト（人物）が追跡されるようにすることも可能となる。

ステップＳ１０９において、コンテンツを最後まで再生したと判定された場合、コンテンツ再生処理は終了する。

このようにして、コンテンツ再生処理が実行される。

なお、以上の説明では、主に、コンテンツがアイドルグループのコンサートを撮影したＭＰ４形式のデータの場合を例として説明したが、例えば、演劇を撮影したコンテンツについて同様の処理が実施されるようにしてもよい。演劇には、通常、複数の俳優が出演するが、例えば、特定のセリフや効果音などに対応する音声データが予め与えられるようにすれば、やはりコンテンツの画像の中で検出されるオブジェクトである人物の名称を推定しやすくなる。

すなわち、演劇の中で、特定のセリフや効果音などが発せられる場面において、各人がどのような位置関係にあり、どのようなポーズをとるかなどが予め分かっており、画像の中のオブジェクトのラベルの推定も比較的容易になる。

（第一実施形態の効果）
以上に説明したように、本実施形態によれば、再生されるコンテンツの画像の中で検出されたオブジェクトにラベルを付与することができる。この際、区間検出部３１により、予め与えられた音声データの音声に類似した音声の区間が検出されるので、再生されるコンテンツの画像の中でどのオブジェクトがどの位置で検出されるかを予め予測しやすくなる。また、検出されるオブジェクトである人物がどのようなポーズをとっているかも予め予測しやすくなる。

従って、オブジェクトである人物の位置、ポーズなどの特徴をもとにオブジェクトのラベルを推定することが可能になるので、例えば、コンテンツの画像の画質が低くても、精度の高いラベルの推定が可能となる。あるいは、コンサートにおける照明、衣装などが変更になっても、やはり精度の高いラベルの推定が可能となる。

さらに、教師データのオブジェクトと、同じ位置関係にあり、同じポーズをとったオブジェクトについてラベルの推定が行われることになるので、少量の教師データによる学習であっても、ラベルが推定できる可能性が高くなる。従って、ラベル付与部３３が用いるモデルパラメータの学習の程度に係らず、精度の高いラベルの推定も可能となる。

このように、推定されたラベルが付されてオブジェクトが追跡されるようにすることで、指定した人物に注目した画像処理を施すことが可能となる。このようにすることで、例えば、多数のアイドルや俳優などの出演者の中で、ファンのそれぞれが好む出演者に注目して楽しむことが可能となる。

従って、本実施形態によれば、動画像の被写体であるグループの中で、１人に注目したコンテンツを簡単に提供することができる。

＜第二実施形態＞
図８は、第二実施形態に係るコンテンツ処理装置１０の機能的構成例を示すブロック図である。なお、第一実施形態にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を適宜省略する。

図８に示されるコンテンツ処理装置１０には、動き解析部６１およびアニメーション画像生成部７１が含まれている。その他の構成は、図１に示されるコンテンツ処理装置１０の構成と同様である。

（動き解析部）
動き解析部６１は、コンテンツの画像を解析することで、画像の中で検出されたオブジェクト（例えば、人物）の動きを解析する。また、動き解析部６１は、例えば、指定されたオブジェクトの動きを特定する。例えば、コンテンツの中で所定の時間的長さを有する区間における人物の腕、脚、頭などの動きを特定する。なお、指定されたオブジェクトは、例えば、図４を参照して上述したユーザの操作によって注目する人物として指定されたオブジェクトであってもよい。

一例として、動き解析部６１は、画像の中で検出されたオブジェクトである人物の関節位置を特定し、人物の腕、脚、頭などの各部位がどのように動いているかを解析する。なお、動き解析部６１による処理では、例えば、事前の機械学習により得られたモデルパラメータを用いて、人物の関節位置、および／または各部位の動きが推定されるようにしてもよい。

動き解析部６１の解析結果は、人物の動きを表す情報としてアニメーション画像生成部７１に供給される。

（アニメーション画像生成部）
アニメーション画像生成部７１は、動き解析部６１の解析結果に基づいてアニメーション画像を生成する。ここで、生成されるアニメーション画像は、例えば、動くキャラクターの画像である。一例として、キャラクターは、人間の体形と同様に腕、脚、頭を有し、人間と同様に関節を動かすものとされる。

アニメーション画像生成部７１は、動き解析部６１から供給された人物の動きを表す情報に基づいて、キャラクターを動かすアニメーション画像を生成する。すなわち、動き解析部６１により特定された人物の動きと同じ動きをするキャラクターのアニメーション画像が生成される。

なお、図８の例では、アニメーション画像生成部７１がコンテンツ処理装置１０の内部に設けられているが、アニメーション画像生成部７１は、例えば、コンテンツ処理装置１０とは異なる装置に設けられるようにしてもよい。

すなわち、動き解析部６１は、オブジェクト検出部３２が検出した複数の人物のうち、ユーザが指定した人物の動きを解析し、指定した人物の動きと同じ動きをするアニメーション画像を生成するアニメーション画像生成部７１に、動き解析部６１の解析結果が供給される。

（キャラクターの表示）
動くキャラクターのアニメーションは、例えば、ディスプレイ５０に表示されるようにしてもよい。このようにすることで、例えば、ユーザは、アイドルグループの中で注目する人物の動きをまねることができる。例えば、自分が気に入ったアイドルと、楽曲に合わせて一緒に踊ることができる。

また、動くキャラクターのアニメーションは、例えば、仮想空間に表示されるアバターとして利用されるようにしてもよい。すなわち、アニメーション画像生成部７１により生成されるアニメーション画像は、ユーザのアバターの画像であってもよい。図９は、仮想空間の例を示す図である。図９に示される仮想空間２００は、イベント会場を模して造られている。同図には、また、アバターとして用いられるキャラクター２１１乃至キャラクター２１６が表示されている。

アバターのそれぞれは、仮想空間２００における各ユーザの分身となるキャラクターであり、例えば、ユーザの操作等に基づいて仮想空間２００内を動くように設定されている。すなわち、キャラクター２１１乃至キャラクター２１６のそれぞれは、異なるユーザに対応付けられ、それらのユーザの操作に従って、仮想空間２００の中を移動したり、体を動かしたりする。

例えば、仮想空間２００の中にあるステージ２００ａに、アイドルグループのファンであるユーザのアバターが集まって、楽曲に合わせて踊ることも可能である。例えば、各ユーザが、アイドルグループの中で自分が注目する人物の動きを動き解析部６１で解析し、アニメーション画像生成部７１によって、自分のアバターであるキャラクターを動かすアニメーション画像を生成する。このアニメーション画像を仮想空間２００のステージ２００ａ上で再生することで、アバターがアイドルグループと同じ振付で踊る画像を楽しむことができる。

さらに、仮想空間２００の画像にアイドルグループのパフォーマンスの画像が重畳されて表示されるようにしてもよい。

（第二実施形態の効果）
以上に説明したように、本実施形態によれば、コンテンツの画像から検出されるオブジェクトのうち、指定したオブジェクトの動きを解析して、当該オブジェクトと同じ動きをするアニメーション画像を生成することができる。このようにすることで、例えば、多数のアイドルや俳優などの出演者の中で、ファンのそれぞれが好む出演者に注目した楽しみ方のバリエーションが増える。

＜その他の実施形態＞
上述した実施形態において、コンテンツ処理装置１０は、例えば、パーソナルコンピュータ、ゲーム機などによって構成されるようにしてもよいし、スマートフォンなどにより構成されるようにしてもよい。あるいは、コンテンツ処理装置１０の一部の機能が、パーソナルコンピュータなどによって実現され、他の機能がスマートフォンなどによって実現されるようにしてもよい。

また、上述した実施形態においては、コンテンツ処理装置１０により再生されるコンテンツの撮影に用いられるカメラは任意に選択されるようにしてよい。

一方で、例えば、コンテンツの撮影において、立体視用のカメラが用いられるようにしてもよい。このようにすることで、視差のある画像を撮影することができ、コンテンツ処理装置１０により再生されるコンテンツが３Ｄ表示されるようにすることが可能となる。なお、２台のカメラを用いてコンテンツの撮影が行われて、視差のある画像を得るようにしてもよい。

また、例えば、コンテンツの撮影において、３６０度カメラが用いられるようにしてもよい。３６０度カメラは、いわゆる魚眼レンズなどの広角レンズを有し、パノラマビューの画像を撮影することができる。３６０度カメラを用いて撮影された画像から生成されるコンテンツにおいては、例えば、任意の視点から見た画像を表示させることが可能となる。

このようにすることで、例えば、ユーザが指定する人物が特に目立って写る視点からの画像を再生することも可能となる。また、２台の３６０度カメラを用いてコンテンツを撮影することで、指定する人物に注目した視差のある画像を表示させることも可能となる。

＜ソフトウェアによる実現例＞
上述したコンテンツ処理装置１０は、コンピュータを機能させるためのプログラムであって、コンテンツ処理装置１０としてコンピュータを機能させるためのプログラムにより実現することができる。この場合、コンテンツ処理装置１０は、上記プログラムを実行するためのハードウェアとして、少なくとも１つの制御装置（例えばプロセッサ）と少なくとも１つの記憶装置（例えばメモリ）を有するコンピュータを備えている。このようなコンピュータの一例を図１０に示す。

コンピュータ５００は、少なくとも１つのプロセッサ５０１と、少なくとも１つのメモリ５０２と、を備えている。メモリ５０２には、コンピュータ５００をコンテンツ処理装置１０として動作させるためのプログラム５２０が記録されている。コンピュータ５００において、プロセッサ５０１は、このプログラム５２０をメモリ５０２から読み取って実行することにより、コンテンツ処理装置１０の各機能が実現される。

プロセッサ５０１としては、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、ＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＦＰＵ（ＦｌｏａｔｉｎｇｐｏｉｎｔｎｕｍｂｅｒＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＰＰＵ（ＰｈｙｓｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。

メモリ５０２としては、例えば、フラッシュメモリ、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、又は、これらの組み合わせなどを用いることができる。

なお、コンピュータ５００は、プログラム５２０を実行時に展開したり、各種データを一時的に記憶したりするためのＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）を更に備えていてもよい。また、コンピュータ５００は、他の装置との間でデータを送受信するための通信インターフェースを更に備えていてもよい。また、コンピュータ５００は、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インターフェースを更に備えていてもよい。

また、コンピュータ５００をコンテンツ処理装置１０として動作させるためのプログラム５２０は、コンピュータ５００が読み取り可能な、一時的でない有形の記録媒体５３０に記録することができる。このような記録媒体５３０としては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータ５００は、このような記録媒体５３０を介してプログラム５２０を取得することができる。

また、コンピュータ５００をコンテンツ処理装置１０として動作させるためのプログラム５２０は、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータ５００は、このような伝送媒体を介してプログラム５２０を取得することもできる。

また、コンテンツ処理装置１０の各機能の一部または全部は、論理回路により実現することも可能である。例えば、上記各制御ブロックとして機能する論理回路が形成された集積回路も本発明の範疇に含まれる。この他にも、例えば量子コンピュータにより上記各制御ブロックの機能を実現することも可能である。

以上説明してきた本発明の各態様によれば、上述した作用効果を奏することにより、持続可能な開発目標（ＳＤＧｓ）の目標９「産業と具術革新の基盤をつくろう」の達成に貢献できる。

なお、本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

〔まとめ〕
本発明の態様１に係るコンテンツ処理装置は、音声とともに動画像が再生されるコンテンツの入力を受け付けるコンテンツ入力受付部と、予め与えられた所定の長さの音声データに対応する音声と類似する音声が再生される区間を、入力されたコンテンツから検出する区間検出部と、検出された前記区間の直後に再生される画像からオブジェクトを検出するオブジェクト検出部と、検出された前記オブジェクトにラベルを付与するラベル付与部とを備える。

本発明の態様２に係るコンテンツ処理装置は、上記の態様１において、前記オブジェクトが人物であり、前記ラベル付与部は、前記人物の名称に係るラベルを付与する。

本発明の態様３に係るコンテンツ処理装置は、上記の態様１または２において、前記ラベル付与部は、機械学習により得られたモデルパラメータを用いた演算により、前記オブジェクトのラベルを推定する。

本発明の態様４に係るコンテンツ処理装置は、上記の態様１乃至３のいずれかにおいて、前記動画像とともに再生される音声が楽曲である。

本発明の態様５に係るコンテンツ処理装置は、上記の態様１乃至４のいずれかにおいて、前記オブジェクト検出部は、さらに、前記ラベルが付与された前記オブジェクトを、前記区間検出部により検出された前記区間より時間的に後に再生される前記コンテンツの動画像の中で追跡する。

本発明の態様６に係るコンテンツ処理装置は、上記の態様５において、前記コンテンツの中で時間的に先に再生される区間の音声である第１の音声に対応する第１の音声データと、前記コンテンツの中で時間的に後に再生される区間の音声である第２の音声に対応する第２の音声データが予め与えられ、前記区間検出部は、前記第１の音声と類似する音声が再生される第１の区間と、前記第２の音声と類似する音声が再生される第２の区間とをそれぞれ検出し、前記オブジェクト検出部は、前記第１の区間に対応してラベルが付与されたオブジェクト、および前記第２の区間に対応してラベルが付与されたオブジェクトをそれぞれ追跡する。

本発明の態様７に係るコンテンツ処理装置は、上記の態様５または態様６において、前記オブジェクト検出部が検出した複数のオブジェクトのうち、ユーザが指定したオブジェクトに所定の画像処理を施すオブジェクト画像処理部をさらに備える。

本発明の態様８に係るコンテンツ処理装置は、上記の態様７において、前記オブジェクト画像処理部は、前記指定したオブジェクトを拡大して表示する画像処理を施す。

本発明の態様９に係るコンテンツ処理装置は、上記の態様７または８において、前記オブジェクト画像処理部は、前記指定したオブジェクトの近傍の所定の範囲内に予め決められた画像を重畳して表示する画像処理を施す。

本発明の態様１０に係るコンテンツ処理装置は、上記の態様５乃至９のいずれかにおいて、前記検出されたオブジェクトの動きを解析する動き解析部をさらに備える。

本発明の態様１１に係るコンテンツ処理装置は、上記の態様１０において、前記オブジェクトが人物であり、前記動き解析部は、前記オブジェクト検出部が検出した複数の人物のうち、ユーザが指定した人物の動きを解析し、指定した前記人物の動きと同じ動きをするアニメーション画像を生成するアニメーション画像生成部に、前記動き解析部の解析結果が供給される。

本発明の態様１２に係るコンテンツ処理装置は、上記の態様１１において、前記アニメーション画像は、前記ユーザのアバターの画像である。

本発明の態様１３に係るコンテンツ処理方法は、音声とともに動画像が再生されるコンテンツの入力を受け付けるステップと、予め与えられた所定の長さの音声データに対応する音声と類似する音声が再生される区間を、入力されたコンテンツから検出するステップと、検出された前記区間の直後に再生される画像からオブジェクトを検出するステップと、検出された前記オブジェクトにラベルを付与するステップとを含む。

本発明の態様１４に係るプログラムは、コンピュータを、音声とともに動画像が再生されるコンテンツの入力を受け付ける入力受付部と、予め与えられた所定の長さの音声データに対応する音声と類似する音声が再生される区間を、入力されたコンテンツから検出する区間検出部と、検出された前記区間の直後に再生される画像からオブジェクトを検出するオブジェクト検出部と、検出された前記オブジェクトにラベルを付与するラベル付与部とを備えるコンテンツ処理装置として機能させる。

１０コンテンツ処理装置
１１コンテンツ入力受付部
１２コンテンツ再生部
１３操作入力受付部
３１区間検出部
３２オブジェクト検出部
３３ラベル付与部
３４オブジェクト画像処理部
５０ディスプレイ
６１動き解析部
７１アニメーション画像生成部

Claims

音声とともに動画像が再生されるコンテンツの入力を受け付ける入力受付部と、
予め与えられた所定の長さの音声データに対応する音声と類似する音声が再生される区間を、入力されたコンテンツから検出する区間検出部と、
検出された前記区間の直後に再生される画像からオブジェクトを検出するオブジェクト検出部と、
検出された前記オブジェクトにラベルを付与するラベル付与部と
を備えるコンテンツ処理装置。
前記オブジェクトは、人物であり、
前記ラベル付与部は、前記人物の名称に係るラベルを付与する
請求項１に記載のコンテンツ処理装置。
前記動画像とともに再生される音声が楽曲である
請求項１に記載のコンテンツ処理装置。
前記オブジェクト検出部は、さらに、
前記ラベルが付与された前記オブジェクトを、前記区間検出部により検出された前記区間より時間的に後に再生される前記コンテンツの動画像の中で追跡して検出する
請求項１に記載のコンテンツ処理装置。
前記コンテンツの中で時間的に先に再生される区間の音声である第１の音声に対応する第１の音声データと、前記コンテンツの中で時間的に後に再生される区間の音声である第２の音声に対応する第２の音声データが予め与えられ、
前記区間検出部は、前記第１の音声と類似する音声が再生される第１の区間と、前記第２の音声と類似する音声が再生される第２の区間とをそれぞれ検出し、
前記ラベル付与部は、前記第１の区間の直後の画像から前記オブジェクト検出部が検出したオブジェクトにラベルを付与し、前記第２の区間の直後の画像から前記オブジェクト検出部が検出したオブジェクトに再度ラベルを付与する
請求項４に記載のコンテンツ処理装置。
前記オブジェクト検出部が検出した複数のオブジェクトのうち、ユーザが指定したオブジェクトに所定の画像処理を施すオブジェクト画像処理部をさらに備える
請求項４に記載のコンテンツ処理装置。
前記オブジェクト画像処理部は、前記指定したオブジェクトを拡大して表示する画像処理を施す
請求項６に記載のコンテンツ処理装置。
前記オブジェクト画像処理部は、前記指定したオブジェクトの近傍の所定の範囲内に予め決められた画像を重畳して表示する
請求項６に記載のコンテンツ処理装置。
前記検出されたオブジェクトの動きを解析する動き解析部をさらに備える
請求項４に記載のコンテンツ処理装置。
前記オブジェクトは、人物であり、
前記動き解析部は、前記オブジェクト検出部が検出した複数の人物のうち、ユーザが指定した人物の動きを解析し、
指定した前記人物の動きと同じ動きをするアニメーション画像を生成するアニメーション画像生成部に、前記解析部の解析結果が供給される
請求項９に記載のコンテンツ処理装置。