JP2024080528A - コンテンツ処理装置 - Google Patents

コンテンツ処理装置 Download PDF

Info

Publication number
JP2024080528A
JP2024080528A JP2022193806A JP2022193806A JP2024080528A JP 2024080528 A JP2024080528 A JP 2024080528A JP 2022193806 A JP2022193806 A JP 2022193806A JP 2022193806 A JP2022193806 A JP 2022193806A JP 2024080528 A JP2024080528 A JP 2024080528A
Authority
JP
Japan
Prior art keywords
content
image
section
unit
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022193806A
Other languages
English (en)
Inventor
和夫 五十嵐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SoftBank Corp
Original Assignee
SoftBank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SoftBank Corp filed Critical SoftBank Corp
Priority to JP2022193806A priority Critical patent/JP2024080528A/ja
Publication of JP2024080528A publication Critical patent/JP2024080528A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Studio Devices (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】動画像の被写体であるグループの中で、1人に注目したコンテンツを簡単に提供することができるようにする。【解決手段】音声とともに動画像が再生されるコンテンツの入力を受け付ける入力受付部と、予め与えられた所定の長さの音声データに対応する音声と類似する音声が再生される区間を、入力されたコンテンツから検出する区間検出部と、検出された区間の直後に再生される画像からオブジェクトを検出するオブジェクト検出部と、検出されたオブジェクトにラベルを付与するラベル付与部とを備える。【選択図】図1

Description

本発明は、コンテンツ処理装置に関し、動画像の被写体であるグループの中で、1人に注目したコンテンツを簡単に提供することができるようにするコンテンツ処理装置に関する。
従来より、コンサートや演劇などのコンテンツのネットワークを介した配信が、ライブ配信またはオンデマンド配信により行われている(例えば、非特許文献1参照)。
近年配信されるコンテンツでは、特定のアイドルや俳優の出演を呼び物とするより、多数のアイドルや俳優などの出演者の中で、ファンのそれぞれが好む出演者に注目して楽しむことを目的とするものが多い。
また、近年のVR(Virtual Reality)技術の発達により、実在するアイドルや俳優とアバターとを組み合わせた仮想空間を作り出すことも可能となってきており、コンテンツの中で表示される特定の出演者に注目した画像処理のニーズが高まっている。
さらに、画像の中から複数の人物を抽出し、抽出された人物のそれぞれを追跡(トラッキング)する技術が提案されている(例えば、非特許文献2参照)。
https://livr.jp/app-banner https://www.programmersought.com/article/17005126187/
しかしながら、アイドルグループの中には、大人数で構成されるグループも多く、例えば、数十人のメンバーが同一のグループに属する場合もある。このような場合、ステージ上で激しく踊る数十人のアイドルの中で、1人だけに注目したコンテンツを作成することは時間とコストを要することになる。
また、再生されるコンテンツの中で注目する1人のアイドルを自動的に検出することも難しい。例えば、顔画像認識などにより、アイドルグループのメンバー各人を識別しようとしても、多人数のアイドルグループの場合、各人あたりの顔領域の画素数は、かなり少なくなり、鮮明な画像が得にくい。さらに、ステージの照明による画質の変化、衣装のデザイン変更などの要素も考慮すると、各人の特徴を定性化することが難しい。
また、アイドルグループを構成するメンバーとなる人物は、通常、同年代、同性、同国人であり、肌や体系などの特徴に差異が少なく、各人を自動的に識別することは、やはり難しい。
本発明の一態様は、動画像の被写体であるグループの中で、1人に注目したコンテンツを簡単に提供することができるようにする技術を実現することを目的とする。
本発明の一態様に係るコンテンツ処理装置は、音声とともに動画像が再生されるコンテンツの入力を受け付けるコンテンツ入力受付部と、予め与えられた所定の長さの音声データに対応する音声と類似する音声が再生される区間を、入力されたコンテンツから検出する区間検出部と、検出された前記区間の直後に再生される画像からオブジェクトを検出するオブジェクト検出部と、検出された前記オブジェクトにラベルを付与するラベル付与部とを備える。
本発明の一態様において、前記ラベル付与部は、機械学習により得られたモデルパラメータを用いた演算により、前記オブジェクトの名称に係るラベルを推定するようにしてもよい。
本発明の各態様は、コンピュータによって実現してもよく、この場合には、コンピュータを上記システムが備える各部(ソフトウェア要素)として動作させることによりシステムをコンピュータにて実現させるプログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
本発明の一態様によれば、動画像の被写体であるグループの中で、1人に注目したコンテンツを簡単に提供することができるようにする技術を実現することができる。
第一実施形態に係るコンテンツ処理装置の機能的構成例を示すブロック図である。 あるアイドルグループの楽曲Aの演奏時の画像の例を示す図である。 アイドルグループのパフォーマンスにおける1つの場面の画像を示す図である。 オブジェクトの指定の際に、コンテンツ処理装置のディスプレイに表示されるGUIの例を示す図である。 オブジェクト画像処理部による画像処理が施された画像の一例である画像を示す図である。 オブジェクト画像処理部による画像処理が施された画像の別の例を示す図である。 コンテンツ再生処理の流れの例について説明するフローチャートである。 第二実施形態に係るコンテンツ処理装置の機能的構成例を示すブロック図である。 仮想空間の例を示す図である。 コンテンツ処理装置の各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータの構成例を示す図である。
以下、本発明の例示的実施形態について、図面を参照して詳細に説明する。
<第一実施形態>
(コンテンツ処理装置)
図1は、第一実施形態に係るコンテンツ処理装置10の機能的構成例を示すブロック図である。同図に示されるように、コンテンツ処理装置10は、コンテンツ入力受付部11、コンテンツ再生部12および操作入力受付部13を有している。
コンテンツ入力受付部11は、コンテンツのデータの入力を受け付ける。コンテンツのデータは、例えば、インターネットなどのネットワークを介して供給される。また、コンテンツ処理装置が、例えば、5G通信システムなどの広域無線通信ネットワークにアクセスし、広域無線通信ネットワーク経由でコンテンツのデータが供給されるようにしてもよい。
一例として、コンテンツは、コンサート、演劇などを撮影したMP4形式のデータとされる。コンテンツのデータには、動画像と音声が含まれ、必要に応じて字幕などの情報も含まれる。すなわち、コンテンツ処理装置に入力されるコンテンツは、音声とともに動画像が再生されるコンテンツである。例えば、音声は、コンサートで演奏される楽曲であってもよい。
ここでは、主に、コンテンツがアイドルグループのコンサートを撮影したMP4形式のデータの場合を例として説明する。アイドルグループのコンサートにおいては、複数人のアイドル(人物)から成るグループが、演奏される楽曲に合わせて歌い、踊る。楽曲に合わせた歌と踊りは、パフォーマンスとも称される。
コンテンツ再生部12は、コンテンツ入力受付部11によって入力が受け付けられたコンテンツを再生する。再生されたコンテンツは、例えば、ディスプレイ50に表示される。なお、ディスプレイ50には、スピーカーも装備され、再生されたコンテンツの音声がディスプレイ50のスピーカーから出力される。
操作入力受付部13は、コンテンツ処理装置10に対するユーザの操作入力を受け付ける。操作入力受付部13は、キーボード、マウスなどにより構成されるようにしてもよい。あるいは、ディスプレイ50が、タッチセンサを含んで構成され、ディスプレイ50に表示されたGUI(Graphical User Interface:グラフィカルユーザインタフェース)の操作入力を検知することによって操作入力受付部13が構成されるようにしてもよい。
また、図1に示されるように、コンテンツ処理装置10は、区間検出部31、オブジェクト検出部32、ラベル付与部33、およびオブジェクト画像処理部34を有している。
(区間検出部)
区間検出部31は、予め与えられた所定の長さの音声データに対応する音声と類似する音声が再生される区間を、入力されたコンテンツから検出する。
ここで、予め与えられる音声データは、入力されたコンテンツ全体の時間的長さに比べて充分に短い時間の音声に対応する音声データである。例えば、入力されたコンテンツが、アイドルグループのコンサートであった場合、コンサートで演奏された楽曲の一部であって、例えば、イントロ、間奏、サビなどに対応する音声の音声データが予め与えられる。ただし、音声データの音声は、これらに限られるものではなく、楽曲の中で連続する任意の数小節分の音などであってもよい。音声データは、例えば、図示せぬコンテンツ処理装置10の記憶部などに記憶されるようにしてもおよい。
なお、音声には、楽器の音、歌声、効果音などが含まれてよい。
区間検出部31は、例えば、予め与えられた音声データの音声信号の特徴量と、再生中のコンテンツの音声の再生信号を比較することで、2つの音声信号の類似度を算出する。区間検出部31は、コンテンツの再生中に、音声データと同じ時間的長さの音声信号を連続して抽出し、抽出した音声信号の特徴量と、音声データの音声信号の特徴量とを比較することで、類似度が閾値以上となる区間を検出する。ここで検出される区間は、音声データと同じ時間的長さを有することになる。
(オブジェクト検出部)
オブジェクト検出部32は、検出された区間の直後に再生される画像からオブジェクトを検出する。
区間検出部31により検出された区間の直後に再生される画像は、当該区間より時間的に後に再生される画像である。例えば、当該区間の動画像に含まれる複数のフレームの中の最終フレームから、1フレーム~30フレームの後の画像のうち、1または複数の画像であってよい。例えば、入力されたコンテンツが、アイドルグループのコンサートのコンテンツである場合、検出された区間の直後に再生される画像には、数人のアイドル(人物)が写っており、これらの人物の画像が、オブジェクト検出部32によりオブジェクトとして検出される。
一例として、オブジェクトの検出は、グラフカット法により行うことができる。グラフカット法では、まず、切り出したいオブジェクトを含む前景オブジェクト画像と、背景画像とからなる2種類の画像の色分布や画素カラーの勾配から切り出すべき前景オブジェクト画像を構成する領域の境界を計算する。そして、計算された境界に沿って画像が切り出されることにより、切り出したい前景オブジェクト画像が抽出される。
(ラベル付与部)
ラベル付与部33は、オブジェクト検出部32により検出されたオブジェクトにラベルを付与する。
ここでは、アイドルグループのコンサートのコンテンツの場合を例として、ラベル付与部33の処理について説明する。この場合、検出されるオブジェクトは人物であり、ラベル付与部33は、人物の名称に係るラベルを付与する。すなわち、人物の名称がラベルとしてオブジェクトに付与される。
ラベル付与部33は、例えば、CNN(convolutional neural network)などによって構成され、入力された画像のオブジェクトのラベルを推定する処理を実行する。この際、ラベル付与部33は、予め実行された機械学習により得られたモデルパラメータを用いてオブジェクトのラベルを推定する。
この機械学習では、例えば、予め撮影されたアイドルグループのコンサートを撮影した画像から検出されたオブジェクトに正解のラベルが付与されたデータが教師データとして用いられる。一般に、アイドルグループのコンサートは、同じ会場で頻繁に開催されることが多い。この場合、同じ視点から同じアイドルグループを撮影した動画像のデータが多数存在し得る。
また、アイドルグループのコンサートが頻繁に開催される場合、通常、各回のコンサートで同じ楽曲が演奏される。アイドルグループは、楽曲ごとに決まったフォーメーションで、決まった振付に従って踊ることが多い。従って、例えば、楽曲Aが演奏される場合、間奏の直後には、決まった数人の人物が前列に立って、同じポーズをとることになる。
図2は、あるアイドルグループの楽曲Aの演奏時の画像の例を示す図である。同図には、ディスプレイ50に表示された画像101が示されており、画像101は、楽曲Aの間奏の直後の画像である。同図には、3人の人物111、人物112、および人物113が表示されており、各人物は、それぞれ右手を上にあげるポーズをとっている。
楽曲の演奏中、アイドルグループのメンバーの各人は、激しく動くことが多いが、楽曲途中には、アイドルグループのメンバーの各人がほぼ静止する場面がある。例えば、図2の画像が、このような場面に対応する。決まった振付に従って踊るアイドルグループのパフォーマンスでは、このような場面において、各人がどのような位置関係にあり、どのようなポーズをとるかなどが予め分かっており、画像の中のオブジェクトのラベルの推定も比較的容易になる。
図2において、人物111、人物112、および人物113は、それぞれ画像の中のオブジェクトとして検出される。これらの人物111、人物112、および人物113のそれぞれの名称(名前、ニックネームなど)をラベルとして付与したデータが、ラベル付与部33が用いるモデルパラメータの機械学習において、教師データとして用いられる。同じ視点から同じアイドルグループを撮影した動画像のデータが多数存在すれば、このような教師データも多数生成することができる。多数の教師データを用いたか機械学習により、ラベル付与部33の推定結果の制度も向上する。
また、図2に示される例においては、3人の人物がそれぞれ同じポーズをとっているが、例えば、各人が異なるポーズをとって静止する場面があれば、個々の人物をより識別しやすくなる。このような場面の画像を用いた機械学習により、ラベル付与部33の推定結果の制度をさらに向上させ得る。
(オブジェクトの追跡)
また、オブジェクト検出部32は、前記ラベルが付与された前記オブジェクトを、前記区間検出部により検出された前記区間より時間的に後に再生される前記コンテンツの動画像の中で追跡する。
オブジェクトの追跡では、例えば、あるフレームの画像から検出されたオブジェクトと、1フレーム後の画像から検出されたオブジェクトとの類似度が算出される。例えば、オブジェクトの色、形、模様に関する特徴量などを比較することにより、オブジェクトの類似度が算出される。そして、閾値以上の類似度を有するオブジェクトを同一のオブジェクトとして同定することによりオブジェクトの追跡が行われる。
このようにオブジェクトが追跡されることにより、一度ラベルが付与された人物は、コンテンツの再生中に表示される動画像の中で同じラベルが付与され続けることになる。
なお、例えば、同一の楽曲を再生中に、オブジェクトの検出が複数回行われるようにすることで、より正確にオブジェクトが追跡されるようにしてもよい。例えば、同一の楽曲の中で、イントロで演奏される音声に対応する第1の音声データと、間奏で演奏される音声に対応する第2の音声データとが予め与えられるようにしてもよい。
この場合、コンテンツの中で時間的に先に再生される区間の音声である第1の音声に対応する第1の音声データと、コンテンツの中で時間的に後に再生される区間の音声である第2の音声に対応する第2の音声データが予め与えられることになる。そして、区間検出部31は、第1の音声と類似する音声が再生される第1の区間と、第2の音声と類似する音声が再生される第2の区間とをそれぞれ検出する。
この場合、ラベル付与部33は、第1の区間の直後の画像からオブジェクト検出部32が検出したオブジェクトの名称を推定してラベルを付与し、第2の区間の直後の画像からオブジェクト検出部が検出したオブジェクトに再度ラベルを付与する。そして、オブジェクト検出部32は、第1の区間に対応してラベルが付与されたオブジェクト、および第2の区間に対応してラベルが付与されたオブジェクトをそれぞれ追跡する。
例えば、アイドルグループの人数が多い場合、1つの場面において、メンバーの全員が写った画像を得ることは難しい。図3は、ディスプレイ50に表示される画像であって、8人のメンバーから成るアイドルグループのパフォーマンスにおける1つの場面の画像131を示す図である。図3は、例えば、ある楽曲のイントロの直後の場面に対応する。
図3に示される場面では、8人のメンバー全員が、ほぼ静止しており、同じポーズをとっているが、人物142は、人物141の後ろに位置し、人物144は、人物143の後ろに位置している。図3に示される場面の画像から人物142および人物144をオブジェクトとして検出して追跡することは難しい。また、図3に示される場面においてラベル付与部33により、検出された人物の名称の推定が行われた場合、人物142および人物144の名称を正しく推定することは難しい。
一方で、アイドルグループのパフォーマンスでは、1つ楽曲の演奏中にメンバー全員がほぼ静止する場面が複数回存在することが多い。各場面によって、フォーメーションも変わるため、1つの場面では、写らなかった人物が他の場面では写っているように場面を選択することも可能となる。
例えば、楽曲の中で、アイドルグループのフォーメーションが変わるタイミングで演奏される音声に対応する音声データが予め与えられるようにすれば、フォーメーションが変わる都度、ステージの前列に位置する複数の人物の名称が推定されるようにすることができる。また、フォーメーションが変わる都度、ステージの前列に位置する複数の人物のそれぞれが追跡されるようにすることができる。
すなわち、複数の音声データ(第1の音声データ、第2の音声データ、・・・)が予め与えられ、各音声データに対応する区間の直後に再生される第1の場面、第2の場面、・・・において、都度、ラベルが付与されるようにしてもよい。例えば、複数の場面のそれぞれにおいて、人物が検出され、ラベルが付与されるようにすれば、コンテンツの再生中、より正確に各人を追跡することが可能となる。
なお、例えば、楽曲の中で同じ音声が繰り返し演奏される場合、1つの音声データのみが与えられる場合でも、やはり第1の場面、第2の場面、・・・において、都度、ラベルが付与されるようにすることが可能である。
(オブジェクト画像処理部)
オブジェクト画像処理部34は、オブジェクト検出部が検出した複数のオブジェクトのうち、ユーザが指定したオブジェクトに所定の画像処理を施す。オブジェクトの指定は、例えば、オブジェクトに付与されたラベルに基づいて行われる。
図4は、オブジェクトの指定の際に、コンテンツ処理装置10のディスプレイ50に表示されるGUIの例を示す図である。この例では、「アイドルグループ〇〇〇第8期メンバー表」が表示されている。ここで「〇〇〇」は、再生中のコンテンツのコンサートでパフォーマンスを行うアイドルグループの名称を示す。このアイドルグループは、例えば、20人のメンバーから成り、メンバーの少なくとも1人が交代する都度、メンバー表が更新される。グループ結成当時のメンバー表が第1期、その後、メンバーの少なくとも1人が交代する都度、第2期、第3期、・・・のようにメンバー表の更新が行われる。
図4に示されるメンバー表において、最も左側の列には、「メンバー」が示されており、アイドルグループ〇〇〇を構成する20人のメンバー各人の名称が記述される。ここでは、「AAA」、「BBB」、「CCC」、・・・によって各人の名称が示されている。なお、実際には、各人の名称は、識別番号に対応付けられ、識別番号のそれぞれは、ラベル付与部33によって付与されるラベルに対応している。
図4に示されるメンバー表において、中央の列には、「プロフィール」が示されており、各メンバーのプロフィールが記述される。
図4に示されるメンバー表において、最も右側の列には、「注目」が示されており、この列において、ユーザの指定が行われる。例えば、ユーザは、操作入力受付部13を介して人物の指定に関する操作を入力し、図4に示されるメンバー表の中で自身が注目する人物を指定する。この例では、ユーザがメンバーの「CCC」に注目しており、この人物(「CCC」)が指定されたことを示す星印が、「注目」の列に表示されている。
オブジェクト画像処理部34は、再生されるコンテンツの画像の中で、ユーザが注目する人物の画像に所定の画像処理を施す。図5は、ディスプレイ50に表示される画像であって、オブジェクト画像処理部34による画像処理が施された画像の一例である画像161を示す図である。
ここでは、例えば、ユーザにより、図4を参照して上述したGUIにより、人物113が注目する人物として指定されているものとする。図5の例では、人物113の近傍に、マーク(この例では、ハート形のマーク)171が重畳されて表示されている。オブジェクト画像処理部34による画像処理の一例として、図5に示されるように、指定したオブジェクトの近傍の所定の範囲内に予め決められた画像(この例では、マーク171)が重畳されて表示される。
図6は、オブジェクト画像処理部34による画像処理が施された画像の別の例を示す図である。図6の例では、ディスプレイ50に、人物113が拡大されて表示された画像191が表示されている。すなわち、ディスプレイ50に、ユーザが指定した人物113のみが拡大されて表示されている。オブジェクト画像処理部34による画像処理の一例として、図6に示されるように、指定したオブジェクトが拡大されて表示される。
さらに、図6のように拡大された画像において、図5に示されるようなマークが重畳表示されるようにしてもよい。
なお、オブジェクト画像処理部34による画像処理は、再生されるコンテンツの動画像を構成する各フレームの画像に連続して施される。例えば、図5に示されるようにマーク171が重畳される場合、コンテンツの再生中常に、楽曲に合わせて踊る人物113の近傍に、マーク171が表示されることになる。また、例えば、図6に示されるように、オブジェクトが拡大されて表示される場合、コンテンツの再生中常に、ほぼ人物113のみを写す画像がディスプレイに表示されることになる。
次に、図7のフローチャートを参照して、コンテンツ処理装置10によるコンテンツ再生処理の流れの例について説明する。この処理は、コンテンツ入力受付部11により、コンテンツのデータの入力が受け付けられた後で実行される。ここでは、ライブ配信されたアイドルグループのコンサートのコンテンツのデータが入力された場合の例について説明する。
ステップS101において、コンテンツ再生部12は、入力されたコンテンツを再生する。
ステップS102において、区間検出部31は、予め与えられた音声データに対応する音声と、再生されるコンテンツの音声との類似度を算出する。なお、上述したように、コンサートで演奏された楽曲の一部であって、例えば、イントロ、間奏、サビなどに対応する音声の音声データが予め与えられている。区間検出部31は、例えば、予め与えられた音声データの音声信号の特徴量と、再生中のコンテンツの音声の再生信号を比較することで、2つの音声信号の類似度を算出する。
ステップS103において、区間検出部31は、類似する区間が検出されたか否かを判定する。上述したように、区間検出部31は、コンテンツの再生中に、音声データと同じ時間的長さの音声信号を連続して抽出し、抽出した音声信号の特徴量音声データの音声信号の特徴量とを比較する。そして、区間検出部31は、例えば、類似度が閾値以上となる区間を、類似する区間として検出する。
また、複数の音声データが予め与えられている場合、複数の音声データの音声信号の特徴量のそれぞれと、再生中のコンテンツの音声の音声信号を比較することで、音声信号の類似度が算出される。このようにして、例えば、第1の音声データの音声と類似する区間、または、第2の音声データの音声と類似する区間、・・・が類似する区間として検出されることになる。
ステップS103において、類似する区間が検出されたと判定された場合、ステップS104の処理が実行される。
ステップS104において、オブジェクト検出部32は、検出された前記区間の直後に再生される画像からオブジェクトを検出する。このとき、例えば、検出された区間の直後に再生される画像に写った一人または複数人の人物の画像が、オブジェクト検出部32によりオブジェクトとして検出される。
ステップS105において、ラベル付与部33は、オブジェクトの名称を推定する。このとき、ステップS104の処理でオブジェクトとして検出された人物の名称が推定される。上述したように、ラベル付与部33は、例えば、CNNなどによって構成され、入力された画像のオブジェクトのラベルを推定する処理を実行する。この際、ラベル付与部33は、予め実行された機械学習により得られたモデルパラメータを用いてオブジェクトの名称を推定する。
ステップS106において、ラベル付与部33は、ステップS104の処理により検出されたオブジェクトに、ステップS105の処理により推定された名称をラベルとして付与する。すなわち、人物の名称がラベルとしてオブジェクトに付与される。
ステップS107において、オブジェクト検出部32は、ステップS106の処理でラベルが付与されたオブジェクトを追跡する。このとき、例えば、あるフレームの画像から検出されたオブジェクトと、1フレーム後の画像から検出されたオブジェクトとの類似度が算出され、閾値以上の類似度を有するオブジェクトを同一のオブジェクトとして同定することによりオブジェクトの追跡が行われる。
ステップS108において、オブジェクト画像処理部34は、オブジェクト検出部32が検出した複数のオブジェクトのうち、ユーザが指定したオブジェクトに所定の画像処理を施す。
これにより、例えば、図5を参照して上述したように、指定したオブジェクトの近傍にマークが表示される。あるいは、例えば、図6を参照して上述したように、ユーザが指定した人物のみが拡大されて表示される。さらに、図6のように拡大された画像において、図5に示されるようなマークが重畳表示されるようにしてもよい。
なお、オブジェクト画像処理部34による画像処理は、再生されるコンテンツの動画像を構成する各フレームの画像に連続して施される。
なお、オブジェクトの指定が行われていない場合、ステップS108の処理は、スキップされる。
また、ステップS103において、類似する区間が検出されなかったと判定された場合、ステップS104乃至ステップS106の処理は、スキップされ、ステップS107の処理が実行される。まだラベルが付与されていない場合は、ステップS107の処理およびステップS108の処理も実質的に実行できないので、これらの処理もスキップされる。
ステップS109において、コンテンツ再生部12は、コンテンツを最後まで再生したか否かを判定する。ステップS109において、まだ最後まで再生されていないと判定された場合、処理は、ステップS102に戻り、区間検出部31により、抽出した音声信号の特徴量音声データの音声信号の特徴量とが比較される。そして、区間検出部31は、類似度が閾値以上となる区間を、類似する区間として検出する。
このように、ステップS102乃至ステップS109の処理が繰り返し実行されることにより、予め与えられた音声データに対応する区間が1回または複数回検出され(ステップS103)、検出された区間の直後の画像からオブジェクトが検出される(ステップS104)。そして、検出されたオブジェクトの名称が推定され(ステップS105)、ラベルが付与される(ステップS106)。一度、ラベルが付与されたオブジェクトは、再生されるコンテンツの画像の中で追跡され(ステップS107)、指定されたオブジェクトには、画像処理が施される(ステップS108)。
ステップS104乃至ステップS106の処理は、予め与えられた音声データの音声と類似した区間が検出される都度、実行されるので、例えば、第1の場面では、検出できなかった人物を、第2の場面で検出することも可能となる。また、第1の場面において人物の名称の推定が誤っていた場合でも、第2の場面で正しいラベルに修正されるようにすることも可能となる。さらに、第1の場面の後、誤って異なるオブジェクト(人物)が追跡されてしまった場合でも、第2の場面以後は、正しいオブジェクト(人物)が追跡されるようにすることも可能となる。
ステップS109において、コンテンツを最後まで再生したと判定された場合、コンテンツ再生処理は終了する。
このようにして、コンテンツ再生処理が実行される。
なお、以上の説明では、主に、コンテンツがアイドルグループのコンサートを撮影したMP4形式のデータの場合を例として説明したが、例えば、演劇を撮影したコンテンツについて同様の処理が実施されるようにしてもよい。演劇には、通常、複数の俳優が出演するが、例えば、特定のセリフや効果音などに対応する音声データが予め与えられるようにすれば、やはりコンテンツの画像の中で検出されるオブジェクトである人物の名称を推定しやすくなる。
すなわち、演劇の中で、特定のセリフや効果音などが発せられる場面において、各人がどのような位置関係にあり、どのようなポーズをとるかなどが予め分かっており、画像の中のオブジェクトのラベルの推定も比較的容易になる。
(第一実施形態の効果)
以上に説明したように、本実施形態によれば、再生されるコンテンツの画像の中で検出されたオブジェクトにラベルを付与することができる。この際、区間検出部31により、予め与えられた音声データの音声に類似した音声の区間が検出されるので、再生されるコンテンツの画像の中でどのオブジェクトがどの位置で検出されるかを予め予測しやすくなる。また、検出されるオブジェクトである人物がどのようなポーズをとっているかも予め予測しやすくなる。
従って、オブジェクトである人物の位置、ポーズなどの特徴をもとにオブジェクトのラベルを推定することが可能になるので、例えば、コンテンツの画像の画質が低くても、精度の高いラベルの推定が可能となる。あるいは、コンサートにおける照明、衣装などが変更になっても、やはり精度の高いラベルの推定が可能となる。
さらに、教師データのオブジェクトと、同じ位置関係にあり、同じポーズをとったオブジェクトについてラベルの推定が行われることになるので、少量の教師データによる学習であっても、ラベルが推定できる可能性が高くなる。従って、ラベル付与部33が用いるモデルパラメータの学習の程度に係らず、精度の高いラベルの推定も可能となる。
このように、推定されたラベルが付されてオブジェクトが追跡されるようにすることで、指定した人物に注目した画像処理を施すことが可能となる。このようにすることで、例えば、多数のアイドルや俳優などの出演者の中で、ファンのそれぞれが好む出演者に注目して楽しむことが可能となる。
従って、本実施形態によれば、動画像の被写体であるグループの中で、1人に注目したコンテンツを簡単に提供することができる。
<第二実施形態>
図8は、第二実施形態に係るコンテンツ処理装置10の機能的構成例を示すブロック図である。なお、第一実施形態にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を適宜省略する。
図8に示されるコンテンツ処理装置10には、動き解析部61およびアニメーション画像生成部71が含まれている。その他の構成は、図1に示されるコンテンツ処理装置10の構成と同様である。
(動き解析部)
動き解析部61は、コンテンツの画像を解析することで、画像の中で検出されたオブジェクト(例えば、人物)の動きを解析する。また、動き解析部61は、例えば、指定されたオブジェクトの動きを特定する。例えば、コンテンツの中で所定の時間的長さを有する区間における人物の腕、脚、頭などの動きを特定する。なお、指定されたオブジェクトは、例えば、図4を参照して上述したユーザの操作によって注目する人物として指定されたオブジェクトであってもよい。
一例として、動き解析部61は、画像の中で検出されたオブジェクトである人物の関節位置を特定し、人物の腕、脚、頭などの各部位がどのように動いているかを解析する。なお、動き解析部61による処理では、例えば、事前の機械学習により得られたモデルパラメータを用いて、人物の関節位置、および/または各部位の動きが推定されるようにしてもよい。
動き解析部61の解析結果は、人物の動きを表す情報としてアニメーション画像生成部71に供給される。
(アニメーション画像生成部)
アニメーション画像生成部71は、動き解析部61の解析結果に基づいてアニメーション画像を生成する。ここで、生成されるアニメーション画像は、例えば、動くキャラクターの画像である。一例として、キャラクターは、人間の体形と同様に腕、脚、頭を有し、人間と同様に関節を動かすものとされる。
アニメーション画像生成部71は、動き解析部61から供給された人物の動きを表す情報に基づいて、キャラクターを動かすアニメーション画像を生成する。すなわち、動き解析部61により特定された人物の動きと同じ動きをするキャラクターのアニメーション画像が生成される。
なお、図8の例では、アニメーション画像生成部71がコンテンツ処理装置10の内部に設けられているが、アニメーション画像生成部71は、例えば、コンテンツ処理装置10とは異なる装置に設けられるようにしてもよい。
すなわち、動き解析部61は、オブジェクト検出部32が検出した複数の人物のうち、ユーザが指定した人物の動きを解析し、指定した人物の動きと同じ動きをするアニメーション画像を生成するアニメーション画像生成部71に、動き解析部61の解析結果が供給される。
(キャラクターの表示)
動くキャラクターのアニメーションは、例えば、ディスプレイ50に表示されるようにしてもよい。このようにすることで、例えば、ユーザは、アイドルグループの中で注目する人物の動きをまねることができる。例えば、自分が気に入ったアイドルと、楽曲に合わせて一緒に踊ることができる。
また、動くキャラクターのアニメーションは、例えば、仮想空間に表示されるアバターとして利用されるようにしてもよい。すなわち、アニメーション画像生成部71により生成されるアニメーション画像は、ユーザのアバターの画像であってもよい。図9は、仮想空間の例を示す図である。図9に示される仮想空間200は、イベント会場を模して造られている。同図には、また、アバターとして用いられるキャラクター211乃至キャラクター216が表示されている。
アバターのそれぞれは、仮想空間200における各ユーザの分身となるキャラクターであり、例えば、ユーザの操作等に基づいて仮想空間200内を動くように設定されている。すなわち、キャラクター211乃至キャラクター216のそれぞれは、異なるユーザに対応付けられ、それらのユーザの操作に従って、仮想空間200の中を移動したり、体を動かしたりする。
例えば、仮想空間200の中にあるステージ200aに、アイドルグループのファンであるユーザのアバターが集まって、楽曲に合わせて踊ることも可能である。例えば、各ユーザが、アイドルグループの中で自分が注目する人物の動きを動き解析部61で解析し、アニメーション画像生成部71によって、自分のアバターであるキャラクターを動かすアニメーション画像を生成する。このアニメーション画像を仮想空間200のステージ200a上で再生することで、アバターがアイドルグループと同じ振付で踊る画像を楽しむことができる。
さらに、仮想空間200の画像にアイドルグループのパフォーマンスの画像が重畳されて表示されるようにしてもよい。
(第二実施形態の効果)
以上に説明したように、本実施形態によれば、コンテンツの画像から検出されるオブジェクトのうち、指定したオブジェクトの動きを解析して、当該オブジェクトと同じ動きをするアニメーション画像を生成することができる。このようにすることで、例えば、多数のアイドルや俳優などの出演者の中で、ファンのそれぞれが好む出演者に注目した楽しみ方のバリエーションが増える。
従って、本実施形態によれば、動画像の被写体であるグループの中で、1人に注目したコンテンツを簡単に提供することができる。
<その他の実施形態>
上述した実施形態において、コンテンツ処理装置10は、例えば、パーソナルコンピュータ、ゲーム機などによって構成されるようにしてもよいし、スマートフォンなどにより構成されるようにしてもよい。あるいは、コンテンツ処理装置10の一部の機能が、パーソナルコンピュータなどによって実現され、他の機能がスマートフォンなどによって実現されるようにしてもよい。
また、上述した実施形態においては、コンテンツ処理装置10により再生されるコンテンツの撮影に用いられるカメラは任意に選択されるようにしてよい。
一方で、例えば、コンテンツの撮影において、立体視用のカメラが用いられるようにしてもよい。このようにすることで、視差のある画像を撮影することができ、コンテンツ処理装置10により再生されるコンテンツが3D表示されるようにすることが可能となる。なお、2台のカメラを用いてコンテンツの撮影が行われて、視差のある画像を得るようにしてもよい。
また、例えば、コンテンツの撮影において、360度カメラが用いられるようにしてもよい。360度カメラは、いわゆる魚眼レンズなどの広角レンズを有し、パノラマビューの画像を撮影することができる。360度カメラを用いて撮影された画像から生成されるコンテンツにおいては、例えば、任意の視点から見た画像を表示させることが可能となる。
このようにすることで、例えば、ユーザが指定する人物が特に目立って写る視点からの画像を再生することも可能となる。また、2台の360度カメラを用いてコンテンツを撮影することで、指定する人物に注目した視差のある画像を表示させることも可能となる。
<ソフトウェアによる実現例>
上述したコンテンツ処理装置10は、コンピュータを機能させるためのプログラムであって、コンテンツ処理装置10としてコンピュータを機能させるためのプログラムにより実現することができる。この場合、コンテンツ処理装置10は、上記プログラムを実行するためのハードウェアとして、少なくとも1つの制御装置(例えばプロセッサ)と少なくとも1つの記憶装置(例えばメモリ)を有するコンピュータを備えている。このようなコンピュータの一例を図10に示す。
コンピュータ500は、少なくとも1つのプロセッサ501と、少なくとも1つのメモリ502と、を備えている。メモリ502には、コンピュータ500をコンテンツ処理装置10として動作させるためのプログラム520が記録されている。コンピュータ500において、プロセッサ501は、このプログラム520をメモリ502から読み取って実行することにより、コンテンツ処理装置10の各機能が実現される。
プロセッサ501としては、例えば、CPU(Central Processing Unit)、GPU(Graphic Processing Unit)、DSP(Digital Signal Processor)、MPU(Micro Processing Unit)、FPU(Floating point number Processing Unit)、PPU(Physics Processing Unit)、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。
メモリ502としては、例えば、フラッシュメモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)、又は、これらの組み合わせなどを用いることができる。
なお、コンピュータ500は、プログラム520を実行時に展開したり、各種データを一時的に記憶したりするためのRAM(Random Access Memory)を更に備えていてもよい。また、コンピュータ500は、他の装置との間でデータを送受信するための通信インターフェースを更に備えていてもよい。また、コンピュータ500は、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インターフェースを更に備えていてもよい。
また、コンピュータ500をコンテンツ処理装置10として動作させるためのプログラム520は、コンピュータ500が読み取り可能な、一時的でない有形の記録媒体530に記録することができる。このような記録媒体530としては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータ500は、このような記録媒体530を介してプログラム520を取得することができる。
また、コンピュータ500をコンテンツ処理装置10として動作させるためのプログラム520は、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータ500は、このような伝送媒体を介してプログラム520を取得することもできる。
また、コンテンツ処理装置10の各機能の一部または全部は、論理回路により実現することも可能である。例えば、上記各制御ブロックとして機能する論理回路が形成された集積回路も本発明の範疇に含まれる。この他にも、例えば量子コンピュータにより上記各制御ブロックの機能を実現することも可能である。
以上説明してきた本発明の各態様によれば、上述した作用効果を奏することにより、持続可能な開発目標(SDGs)の目標9「産業と具術革新の基盤をつくろう」の達成に貢献できる。
なお、本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
〔まとめ〕
本発明の態様1に係るコンテンツ処理装置は、音声とともに動画像が再生されるコンテンツの入力を受け付けるコンテンツ入力受付部と、予め与えられた所定の長さの音声データに対応する音声と類似する音声が再生される区間を、入力されたコンテンツから検出する区間検出部と、検出された前記区間の直後に再生される画像からオブジェクトを検出するオブジェクト検出部と、検出された前記オブジェクトにラベルを付与するラベル付与部とを備える。
本発明の態様2に係るコンテンツ処理装置は、上記の態様1において、前記オブジェクトが人物であり、前記ラベル付与部は、前記人物の名称に係るラベルを付与する。
本発明の態様3に係るコンテンツ処理装置は、上記の態様1または2において、前記ラベル付与部は、機械学習により得られたモデルパラメータを用いた演算により、前記オブジェクトのラベルを推定する。
本発明の態様4に係るコンテンツ処理装置は、上記の態様1乃至3のいずれかにおいて、前記動画像とともに再生される音声が楽曲である。
本発明の態様5に係るコンテンツ処理装置は、上記の態様1乃至4のいずれかにおいて、前記オブジェクト検出部は、さらに、前記ラベルが付与された前記オブジェクトを、前記区間検出部により検出された前記区間より時間的に後に再生される前記コンテンツの動画像の中で追跡する。
本発明の態様6に係るコンテンツ処理装置は、上記の態様5において、前記コンテンツの中で時間的に先に再生される区間の音声である第1の音声に対応する第1の音声データと、前記コンテンツの中で時間的に後に再生される区間の音声である第2の音声に対応する第2の音声データが予め与えられ、前記区間検出部は、前記第1の音声と類似する音声が再生される第1の区間と、前記第2の音声と類似する音声が再生される第2の区間とをそれぞれ検出し、前記オブジェクト検出部は、前記第1の区間に対応してラベルが付与されたオブジェクト、および前記第2の区間に対応してラベルが付与されたオブジェクトをそれぞれ追跡する。
本発明の態様7に係るコンテンツ処理装置は、上記の態様5または態様6において、前記オブジェクト検出部が検出した複数のオブジェクトのうち、ユーザが指定したオブジェクトに所定の画像処理を施すオブジェクト画像処理部をさらに備える。
本発明の態様8に係るコンテンツ処理装置は、上記の態様7において、前記オブジェクト画像処理部は、前記指定したオブジェクトを拡大して表示する画像処理を施す。
本発明の態様9に係るコンテンツ処理装置は、上記の態様7または8において、前記オブジェクト画像処理部は、前記指定したオブジェクトの近傍の所定の範囲内に予め決められた画像を重畳して表示する画像処理を施す。
本発明の態様10に係るコンテンツ処理装置は、上記の態様5乃至9のいずれかにおいて、前記検出されたオブジェクトの動きを解析する動き解析部をさらに備える。
本発明の態様11に係るコンテンツ処理装置は、上記の態様10において、前記オブジェクトが人物であり、前記動き解析部は、前記オブジェクト検出部が検出した複数の人物のうち、ユーザが指定した人物の動きを解析し、指定した前記人物の動きと同じ動きをするアニメーション画像を生成するアニメーション画像生成部に、前記動き解析部の解析結果が供給される。
本発明の態様12に係るコンテンツ処理装置は、上記の態様11において、前記アニメーション画像は、前記ユーザのアバターの画像である。
本発明の態様13に係るコンテンツ処理方法は、音声とともに動画像が再生されるコンテンツの入力を受け付けるステップと、予め与えられた所定の長さの音声データに対応する音声と類似する音声が再生される区間を、入力されたコンテンツから検出するステップと、検出された前記区間の直後に再生される画像からオブジェクトを検出するステップと、検出された前記オブジェクトにラベルを付与するステップとを含む。
本発明の態様14に係るプログラムは、コンピュータを、音声とともに動画像が再生されるコンテンツの入力を受け付ける入力受付部と、予め与えられた所定の長さの音声データに対応する音声と類似する音声が再生される区間を、入力されたコンテンツから検出する区間検出部と、検出された前記区間の直後に再生される画像からオブジェクトを検出するオブジェクト検出部と、検出された前記オブジェクトにラベルを付与するラベル付与部とを備えるコンテンツ処理装置として機能させる。
10 コンテンツ処理装置
11 コンテンツ入力受付部
12 コンテンツ再生部
13 操作入力受付部
31 区間検出部
32 オブジェクト検出部
33 ラベル付与部
34 オブジェクト画像処理部
50 ディスプレイ
61 動き解析部
71 アニメーション画像生成部

Claims (10)

  1. 音声とともに動画像が再生されるコンテンツの入力を受け付ける入力受付部と、
    予め与えられた所定の長さの音声データに対応する音声と類似する音声が再生される区間を、入力されたコンテンツから検出する区間検出部と、
    検出された前記区間の直後に再生される画像からオブジェクトを検出するオブジェクト検出部と、
    検出された前記オブジェクトにラベルを付与するラベル付与部と
    を備えるコンテンツ処理装置。
  2. 前記オブジェクトは、人物であり、
    前記ラベル付与部は、前記人物の名称に係るラベルを付与する
    請求項1に記載のコンテンツ処理装置。
  3. 前記動画像とともに再生される音声が楽曲である
    請求項1に記載のコンテンツ処理装置。
  4. 前記オブジェクト検出部は、さらに、
    前記ラベルが付与された前記オブジェクトを、前記区間検出部により検出された前記区間より時間的に後に再生される前記コンテンツの動画像の中で追跡して検出する
    請求項1に記載のコンテンツ処理装置。
  5. 前記コンテンツの中で時間的に先に再生される区間の音声である第1の音声に対応する第1の音声データと、前記コンテンツの中で時間的に後に再生される区間の音声である第2の音声に対応する第2の音声データが予め与えられ、
    前記区間検出部は、前記第1の音声と類似する音声が再生される第1の区間と、前記第2の音声と類似する音声が再生される第2の区間とをそれぞれ検出し、
    前記ラベル付与部は、前記第1の区間の直後の画像から前記オブジェクト検出部が検出したオブジェクトにラベルを付与し、前記第2の区間の直後の画像から前記オブジェクト検出部が検出したオブジェクトに再度ラベルを付与する
    請求項4に記載のコンテンツ処理装置。
  6. 前記オブジェクト検出部が検出した複数のオブジェクトのうち、ユーザが指定したオブジェクトに所定の画像処理を施すオブジェクト画像処理部をさらに備える
    請求項4に記載のコンテンツ処理装置。
  7. 前記オブジェクト画像処理部は、前記指定したオブジェクトを拡大して表示する画像処理を施す
    請求項6に記載のコンテンツ処理装置。
  8. 前記オブジェクト画像処理部は、前記指定したオブジェクトの近傍の所定の範囲内に予め決められた画像を重畳して表示する
    請求項6に記載のコンテンツ処理装置。
  9. 前記検出されたオブジェクトの動きを解析する動き解析部をさらに備える
    請求項4に記載のコンテンツ処理装置。
  10. 前記オブジェクトは、人物であり、
    前記動き解析部は、前記オブジェクト検出部が検出した複数の人物のうち、ユーザが指定した人物の動きを解析し、
    指定した前記人物の動きと同じ動きをするアニメーション画像を生成するアニメーション画像生成部に、前記解析部の解析結果が供給される
    請求項9に記載のコンテンツ処理装置。
JP2022193806A 2022-12-02 2022-12-02 コンテンツ処理装置 Pending JP2024080528A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022193806A JP2024080528A (ja) 2022-12-02 2022-12-02 コンテンツ処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022193806A JP2024080528A (ja) 2022-12-02 2022-12-02 コンテンツ処理装置

Publications (1)

Publication Number Publication Date
JP2024080528A true JP2024080528A (ja) 2024-06-13

Family

ID=91431620

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022193806A Pending JP2024080528A (ja) 2022-12-02 2022-12-02 コンテンツ処理装置

Country Status (1)

Country Link
JP (1) JP2024080528A (ja)

Similar Documents

Publication Publication Date Title
US11217006B2 (en) Methods and systems for performing 3D simulation based on a 2D video image
CN109462776B (zh) 一种视频特效添加方法、装置、终端设备及存储介质
JP7272356B2 (ja) 画像処理装置、画像処理方法、プログラム
CN106982387B (zh) 弹幕的显示、推送方法及装置及弹幕应用系统
US9747495B2 (en) Systems and methods for creating and distributing modifiable animated video messages
KR101304111B1 (ko) 댄싱 가라오케 시스템
CN111080759B (zh) 一种分镜效果的实现方法、装置及相关产品
US9852767B2 (en) Method for generating a cyclic video sequence
US20210092466A1 (en) Information processing apparatus, information processing method, and program
JP7009997B2 (ja) 動画生成システムおよび動画表示システム
US10224073B2 (en) Auto-directing media construction
CN109120990B (zh) 直播方法、装置和存储介质
CN113487709A (zh) 一种特效展示方法、装置、计算机设备以及存储介质
KR102200239B1 (ko) 실시간 cg 영상 방송 서비스 시스템
JP2009088729A (ja) 合成画像出力装置および合成画像出力処理プログラム
JP2024080528A (ja) コンテンツ処理装置
CN116017082A (zh) 一种信息处理方法和电子设备
US11895288B2 (en) Information processing device, proposal device, information processing method, and proposal method
CN117197308A (zh) 数字人驱动方法、数字人驱动设备及存储介质
Ilisescu et al. Responsive action-based video synthesis
JP6217696B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN111800663B (zh) 一种视频合成方法及装置
JP7065708B2 (ja) 録画再生装置及びプログラム
CN110853130A (zh) 三维图像的生成方法、电子设备及存储介质
JP5772124B2 (ja) カラオケ装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231017