JP2024076103A - Information processing device, information processing method, and program - Google Patents
Information processing device, information processing method, and program Download PDFInfo
- Publication number
- JP2024076103A JP2024076103A JP2022187500A JP2022187500A JP2024076103A JP 2024076103 A JP2024076103 A JP 2024076103A JP 2022187500 A JP2022187500 A JP 2022187500A JP 2022187500 A JP2022187500 A JP 2022187500A JP 2024076103 A JP2024076103 A JP 2024076103A
- Authority
- JP
- Japan
- Prior art keywords
- video
- video data
- data
- effect
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 116
- 238000003672 processing method Methods 0.000 title claims description 3
- 230000000694 effects Effects 0.000 claims abstract description 172
- 230000000007 visual effect Effects 0.000 claims abstract description 122
- 230000008921 facial expression Effects 0.000 claims description 8
- 238000005562 fading Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 description 96
- 238000010586 diagram Methods 0.000 description 57
- 238000012545 processing Methods 0.000 description 18
- 238000000034 method Methods 0.000 description 17
- 230000008451 emotion Effects 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 7
- 230000014509 gene expression Effects 0.000 description 7
- 230000009471 action Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
Images
Abstract
【課題】視聴者の嗜好により適合する映像効果を映像データに付与する。
【解決手段】情報処理装置100は、動画像データを少なくとも含む編集対象映像データの特徴を示す対象特徴情報を取得し、前記対象特徴情報が示す特徴に類似する特徴を含む参照用映像データであって、人気度が所定の条件を満たす前記参照用映像データに含まれる映像効果を示す参照効果情報を取得し、前記参照効果情報が示す映像効果と同一又は類似の映像効果を前記編集対象映像データに付与する。
【選択図】図1
A video effect that better suits the viewer's preferences is imparted to video data.
[Solution] The information processing device 100 acquires target feature information indicating the characteristics of video data to be edited, which includes at least moving image data, acquires reference effect information indicating the visual effects included in reference video data that includes features similar to the features indicated by the target feature information and whose popularity satisfies a predetermined condition, and imparts to the video data to be edited visual effects that are the same as or similar to the visual effects indicated by the reference effect information.
[Selected Figure] Figure 1
Description
本開示は、映像データに映像効果を付与する技術に関する。 This disclosure relates to technology for adding visual effects to video data.
動画像データを含む映像データに、自動で映像効果を付与する技術がある。特許文献1には、配信用の映像において、配信者等のユーザが、所定の動作若しくは表情をとったこと、又は所定のフレーズを発話したことを特定し、当該映像のデータに、動作若しくは表情、又はフレーズに対応する映像効果を付与する技術が開示されている。
There is a technology that automatically applies visual effects to video data that includes video data.
しかしながら、特許文献1に開示された技術では、動作若しくは表情、又はフレーズごとに予め用意された映像効果を、単に、ユーザの動作若しくは表情、又はフレーズに対応させて映像のデータに付与するものである。そのため、特許文献1に開示された技術では、付与された映像効果が視聴者の嗜好に合っていない可能性があった。
However, the technology disclosed in
本開示に係る情報処理装置は、動画像データを少なくとも含む編集対象映像データの特徴を示す対象特徴情報を取得する対象取得手段と、前記対象特徴情報が示す特徴に類似する特徴を含む参照用映像データであって、人気度が所定の条件を満たす前記参照用映像データに含まれる映像効果を示す参照効果情報を取得する効果取得手段と、前記参照効果情報が示す映像効果と同一又は類似の映像効果を前記編集対象映像データに付与する付与手段と、を有する。 The information processing device according to the present disclosure has a target acquisition means for acquiring target feature information indicating features of video data to be edited that includes at least video image data, an effect acquisition means for acquiring reference effect information indicating a visual effect included in reference video data that includes features similar to the features indicated by the target feature information and whose popularity satisfies a predetermined condition, and an application means for applying a visual effect to the video data to be edited that is the same as or similar to the visual effect indicated by the reference effect information.
視聴者の嗜好により適合する映像効果を映像データに付与することができる。 Visual effects that better suit the viewer's preferences can be added to video data.
以下、添付図面を参照して本開示の技術の実施形態を詳しく説明する。尚、以下の実施形態は、本開示の技術を限定するものでなく、また本実施形態で説明されている特徴の組み合わせの全てが本開示の技術の解決手段に必須のものとは限らない。なお、同一の構成要素には同一の符号を付して、説明を省略する。 Below, the embodiments of the technology disclosed herein are described in detail with reference to the attached drawings. Note that the following embodiments do not limit the technology disclosed herein, and not all of the combinations of features described in the embodiments are necessarily essential to the solution of the technology disclosed herein. Note that the same components are given the same reference numerals and descriptions are omitted.
[実施形態1]
<情報処理システムの構成>
図1乃至10を参照して、実施形態1に係る情報処理システム1について説明する。図1は、実施形態1に係る情報処理システム1の構成の一例を示すブロック図である。情報処理システム1は、情報処理装置100、第1サーバ110、及び第2サーバ120を備える。情報処理装置100、第1サーバ110、及び第2サーバ120は、LAN(local area network)、無線LAN、又はインターネット回線等を介して、互いに通信可能に互いに接続されている。情報処理装置100は、パーソナルコンピュータ(PC)、タブレット端末、又はスマートフォン等のコンピュータにより構成される、ユーザにより操作される装置である。情報処理装置100の詳細については後述する。
[Embodiment 1]
<Configuration of Information Processing System>
An
第2サーバ120は、PC等のコンピュータ、又はクラウドサーバ等により構成される装置であって、動画像のデータ(以下「動画像データ」とも呼ぶ。)を少なくとも含む映像のデータ(以下「映像データ」とも呼ぶ。)の配信サービスを提供する。以下、映像データは、動画像データ及び音声データを含むものとして説明する。第2サーバ120は、情報処理装置100等の外部装置からの、映像データの登録要求、登録されている映像データの検索要求、又は、登録されている映像データの取得要求等のコマンドを受信して、受信したコマンドに対応する動作を行う。
The
例えば、ユーザは、情報処理装置100を用いて、第2サーバ120に登録された複数の映像データのうち、再生を所望する映像データを選択する。情報処理装置100は、ユーザが選択した映像データを取得するための取得要求のコマンドを第2サーバ120に対して送信する。具体的には、情報処理装置100は、ユーザが選択した映像データを一意に特定可能な映像ID(identifier)等を付した取得要求のコマンドを第2サーバ120に対して送信する。第2サーバ120は、取得要求のコマンドを受信して、受信した取得要求のコマンドに対応する映像データを情報処理装置100に対して送信する。映像の再生の際に、映像データに含まれる動画像データ及び音声データがレンダリングされて、動画像と音声とが同期して再生される。
For example, a user uses the
また、例えば、ユーザは、情報処理装置100を用いて、所望の映像データを第2サーバ120に登録する。具体的には、例えば、ユーザは、情報処理装置100を用いて、図1には不図示の記憶装置に記憶されている1以上の映像データから所望の映像データを選択する。情報処理装置100は、第2サーバ120に対して、登録要求のコマンドと選択した映像データとを送信する。第2サーバ120は、登録要求のコマンドと映像データとを受信して、受信した当該映像データを図1には不図示の記憶装置に記憶させて、当該映像データを登録する。
Also, for example, a user uses the
ユーザは、第2サーバ120に映像データを登録する際に、映像データの検索等に用いられる、映像のジャンルを特定するためのタグ情報(以下「タグ情報」と呼ぶ。)を付与してもよい。例えば、この場合、情報処理装置100は、第2サーバ120に対して、登録要求のコマンド、映像データ、及びタグ情報を送信する。第2サーバ120は、これらを受信して、受信した映像データとタグ情報とを対応付けて上述の記憶装置に記憶させて、当該映像データを登録する。以下、第2サーバ120に登録されている映像データは、1つ以上のタグ情報が対応付けられているものとして説明する。また、第2サーバ120は、タグ情報の他に、映像データごとの再生回数、お気に入りへの登録数、又は、良い若しくは悪い等の評価値等の、映像データの再生の状態を示す情報を管理して、当該情報を当該映像データに対応付けて、上述の記憶装置に記憶させる。映像データの再生の状態を示す情報(以下「再生情報」と呼ぶ。)は、上述のものに限定されるものではなく、映像データに対する視聴者からのコメント、映像データの視聴時に視聴者から投じられた投げ銭の額等の情報であってもよい。
When registering video data in the
第1サーバ110は、第2サーバ120から複数の映像データを取得する。以下、第1サーバ110が第2サーバ120から取得する映像データを「参照用映像データ」と呼び、参照用映像データに含まれる動画像データを「参照用動画像データ」、及び参照用映像データに含まれる音声データを「参照用音声データ」と呼ぶ。第1サーバ110は、参照用映像データを解析することにより、参照用映像データの特徴を示す情報(以下「映像特徴情報」と呼ぶ。)、及び、参照用映像データに付与されている映像効果を示す情報(以下「映像効果情報」と呼ぶ。)を取得する。第1サーバ110は、取得した映像特徴情報と映像効果情報とを対応付けて、図1には不図示の記憶装置に映像特徴情報及び映像効果情報を記憶させる。第1サーバ110は、映像特徴情報及び映像効果情報を記憶させる際に、参照用映像データに対応するタグ情報又は再生情報等の参照用映像データに関連する情報を対応付けてもよい。
The
情報処理装置100は、処理対象の映像データ(以下「対象映像データ」と呼ぶ。)を解析することにより、対象映像データの特徴を特定する。また、情報処理装置100は、第1サーバ110から、参照用映像データに対応する映像特徴情報及び映像効果情報を取得して、映像特徴情報及び映像効果情報、並びに、特定した対象映像データの特徴に基づいて、対象映像データに対して映像効果を付与する。
The
<情報処理装置の構成>
情報処理装置100は、機能構成として、映像取得部101、映像解析部102、効果取得部103、効果付与部104、及び映像出力部105を備える。情報処理装置100が機能構成として備える各部の処理は、情報処理装置100に内蔵されたASIC(Application Specific Integrated Circuit)等のハードウェアによってなされる。当該処理は、FPGA(Field Programmable Gate Array)等のハードウェアによってなされるものであってもよい。また、当該処理は、RAM(Random Access Memory)等のメモリと、CPU(Central Processor Unit)等のプロセッサとを用いたソフトウェアによってなされるものであってもよい。情報処理装置100が機能構成として備える各部の処理の詳細については後述する。
<Configuration of information processing device>
The
図2を参照して、情報処理装置100が機能構成として備える各部がソフトウェアとして動作する場合の情報処理装置100のハードウェア構成について説明する。図2は、実施形態1に係る情報処理装置100のハードウェア構成の一例を示すブロック図である。情報処理装置100は、コンピュータにより構成されており、当該コンピュータは、図2に一例として示すようにCPU201、ROM202、RAM203、補助記憶装置204、表示部205、操作部206、通信部207、及びバス208を有している。
With reference to FIG. 2, the hardware configuration of the
CPU201は、ROM202又はRAM203等に格納されているプログラム又はデータを用いて当該コンピュータを制御することにより、当該コンピュータを、情報処理装置100が機能構成として備える各部として機能させるプロセッサである。なお、情報処理装置100は、CPU201とは異なる1又は複数の専用のハードウェアを有し、CPU201による処理の少なくとも一部を専用のハードウェアが実行してもよい。専用のハードウェアの例としては、ASIC、FPGA、及びDSP(デジタルシグナルプロセッサ)等がある。ROM202は、変更を必要としないプログラム等を格納するメモリである。RAM203は、補助記憶装置204から供給されるプログラム若しくはデータ、又は通信部207を介して外部から供給されるデータ等を一時記憶するメモリである。補助記憶装置204は、例えばハードディスクドライブにより構成され、プログラム、又は画像データ若しくは音声データ等の種々のデータを記憶する。
The
表示部205は、例えば液晶ディスプレイ又はLED等により構成され、ユーザが情報処理装置100を操作、又は情報処理装置100における処理の状態を閲覧するためのGUI(Graphical User Interface)等を表示する。操作部206は、例えばキーボード、マウス、ジョイスティック、又はタッチパネル等により構成され、ユーザによる操作を受けて各種の指示をCPU201に入力する。CPU201は、表示部205を制御する表示制御部、及び操作部206を制御する操作制御部としても動作する。
The
通信部207は、情報処理装置100と外部の装置との間の、データ等の送受信等の通信に用いられる。例えば、情報処理装置100が外部の装置と有線接続される場合には、通信用のケーブルが通信部207に接続される。情報処理装置100が外部の装置と無線通信する機能を有する場合には、通信部207はアンテナを備える。バス208は、情報処理装置100がハードウェア構成として備える各部同士をつないで情報を伝達する。実施形態1では、表示部205及び操作部206は、情報処理装置100の内部に存在するものとして説明するが、表示部205及び操作部206の少なくとも一方は、情報処理装置100の外部に別の装置として存在していてもよい。
The
<第1サーバの構成>
第1サーバ110は、機能構成として、映像取得部111、人気度取得部112、映像解析部113、及び効果出力部114を備える。第1サーバ110が機能構成として備える各部の処理は、情報処理装置100に内蔵されたASIC又はFPGA等のハードウェアによってなされる。当該処理は、RAM等のメモリとCPU等のプロセッサとを用いたソフトウェアによってなされるものであってもよい。具体的には、第1サーバ110が機能構成として備える各部がソフトウェアとして動作する場合、例えば、第1サーバ110は、図2に示すハードウェアと同様のハードウェア構成を備える。
<Configuration of First Server>
The
<機能構成として備える各部の処理>
まず、第1サーバ110が機能構成として備える各部の処理について説明する。映像取得部111は、参照用映像データを取得する。具体的には、例えば、映像取得部111は、参照用映像データを、第2サーバ120から取得する。映像取得部111は、参照用映像データに加えて、当該参照用映像データの再生情報についても取得する。また、映像取得部111は、参照用映像データ及び再生情報に加えて、映像データのジャンルを特定するためのタグ情報等についても取得してもよい。以下、映像取得部111は、参照用映像データ、並びに、参照用映像データに対応する再生情報及びタグ情報を取得するものとして説明する。人気度取得部112は、再生情報に基づいて人気度を算出することにより再生情報に対応する参照用映像データの人気度を取得する。人気度の算出方法については後述する。
<Processing of each unit provided as a functional configuration>
First, the processing of each unit included in the
映像解析部113は、人気度取得部112により取得された人気度が所定の条件を満たす参照用映像データについて、映像に付与されている映像効果、及び映像の特徴を特定するための解析を行う。映像解析部113は、映像効果の特定、及び映像の特徴の特定の解析に加えて、映像のジャンル等を特定するための解析を行ってもよい。映像効果、映像の特徴、及び映像のジャンルのそれぞれを特定するための解析は、例えば、予め用意された、映像効果解析用データ、映像特徴解析用データ、又は映像ジャンル特定用データに基づいて行われる。映像効果解析用データ、映像特徴解析用データ、及び映像ジャンル特定用データのそれぞれは、第1サーバ110の補助記憶装置204等に予め記憶されている。映像解析部113は、解析結果に基づいて、参照用映像データに対応する映像効果情報及び映像特徴情報を生成する。更に、映像解析部113は、これらの情報及び人気度取得部112により取得された人気度を互いに対応付けて、映像効果特定用データとして第1サーバ110の補助記憶装置204等に記憶させる。
The
映像解析部113は、映像効果情報及び映像特徴情報に加えて、参照用映像データの映像のジャンルを示す情報(以下「映像ジャンル情報」と呼ぶ。)についても生成する。映像解析部113は、生成した映像ジャンル情報を映像効果特定用データに含めて第1サーバ110の補助記憶装置204等に記憶させる。なお、映像解析部113は、解析による映像のジャンルの特定に替えて、映像取得部111により取得されるタグ情報に基づいて映像のジャンルの特定し、映像ジャンル情報を生成してもよい。映像効果特定用データは、映像取得部111が取得する複数の参照用映像データのうちの、人気度取得部112により取得された人気度が所定の条件を満たす複数の参照用映像データについて、参照用映像データごとに生成される。効果出力部114は、情報処理装置100からの要求に応じて、映像効果特定用データを情報処理装置100に出力する。
In addition to the video effect information and video feature information, the
次に、情報処理装置100が機能構成として備える各部の処理について説明する。映像取得部101は、対象映像データを取得する。対象映像データは、例えば、情報処理装置100の補助記憶装置204に予め記憶されており、映像取得部101は、ユーザ操作により指定された対象映像データを補助記憶装置204から読み出すことにより、対象映像データを取得する。映像取得部101は、通信部207を介して、図1には不図示の外部装置等から対象映像データを取得してもよい。タグ情報が、取得する対象映像データに予め対応付けられている場合、映像取得部101は、対象映像データに加えて、対応するタグ情報を取得してもよい。
Next, the processing of each unit that the
映像解析部102は、映像取得部101により取得された対象映像データについて、映像の特徴、及び映像のジャンルを特定するための解析を行う。映像解析部102は、映像の特徴、及び映像のジャンルのそれぞれを特定するための解析は、例えば、予め用意された、映像特徴解析用データ又は映像ジャンル特定用データに基づいて行われる。映像特徴解析用データ及び映像ジャンル特定用データのそれぞれは、情報処理装置100の補助記憶装置204等に予め記憶されている。映像解析部102は、特定した、対象映像データの映像の特徴を示す情報(映像特徴情報)、及び映像のジャンルを示す情報(映像ジャンル情報)を生成する。なお、映像解析部102は、解析による映像のジャンルの特定に替えて、映像取得部101により取得される、対象映像データに対応するタグ情報に基づいて対象映像データの映像のジャンルを特定し、映像ジャンル情報を生成してもよい。
The
効果取得部103は、第1サーバ110から映像効果特定用データを取得する。具体的には、効果取得部103は、複数の参照用映像データのそれぞれに対応する映像効果特定用データのうちから、対象映像データの映像の特徴に類似する特徴を含む参照用映像データに対応する映像効果特定用データを第1サーバ110から取得する。効果取得部103は、以下のようにして、対象映像データの映像の特徴に類似する特徴を含む参照用映像データに対応する映像効果特定用データを取得してもよい。例えば、まず、効果取得部103は、複数の参照用映像データのそれぞれに対応する映像効果特定用データを第1サーバ110から取得する。続いて、効果取得部103は、取得した複数の映像効果特定用データのうちから、対象映像データの映像の特徴に類似する特徴を含む参照用映像データに対応する映像効果特定用データを取得する。
The
また、例えば、まず、効果取得部103は、対象映像データ及び参照用映像データのそれぞれに対応する映像ジャンル情報に基づいて、対象映像データのジャンルと一致するジャンルの参照用映像データを検索する。続いて、効果取得部103は、当該検索により得られた複数の参照用映像データのそれぞれに対応する映像効果特定用データのうちから、対象映像データの映像の特徴に類似する特徴を含む参照用映像データに対応する映像効果特定用データを取得する。また、例えば、まず、効果取得部103は、対象映像データ及び参照用映像データのそれぞれに対応する映像ジャンル情報に基づいて、対象映像データのジャンルと一致するジャンルの参照用映像データを検索する。続いて、効果取得部103は、当該検索により得られた複数の参照用映像データのそれぞれに対応する映像効果特定用データを第1サーバ110から取得する。続いて、取得した複数の映像効果特定用データのうちから、対象映像データの映像の特徴に類似する特徴を含む参照用映像データに対応する映像効果特定用データを取得する。
For example, first, the
効果付与部104は、対象映像データに映像効果を付与する。具体的には、効果付与部104は、効果取得部103により取得された映像効果特定用データに含まれる映像効果を示す情報に基づいて、当該映像効果と同様の映像効果を対象映像データに付与する。ここで、同様の映像効果とは、映像効果特定用データに含まれる映像効果を示す情報が示す映像効果と同一のものに限定されるものではなく、当該映像効果に類似するものも含む。映像出力部105は、効果付与部104により映像効果が付与された後の対象映像データ(以下「付与後映像データ」と呼ぶ。)を出力する。具体的には、例えば、映像出力部105は、第2サーバ120に付与後映像データを出力して、付与後映像データを第2サーバ120に登録させる。映像出力部105は、情報処理装置100の補助記憶装置204等に付与後映像データを出力して、補助記憶装置204等に付与後映像データを記憶させてもよい。
The
以下、対象映像データは、ビデオゲームの実況を行う映像(以下「ゲーム実況映像」と呼ぶ。)のデータであるものとして説明する。図3は、実施形態1に係る対象映像データの映像300の一例を示す図である。具体的には、図3(a)は、対象映像データの映像300であって、ゲーム実況映像の一例を示す図であり、図3(b)は、図3(a)に示す対象映像データに対応する付与後映像データの映像310の一例を示す図である。
In the following, the target video data will be described as data on video of a live commentary of a video game (hereinafter referred to as "live game video"). Figure 3 is a diagram showing an example of a
図3(a)に示す映像300の画像領域は、ビデオゲームの実況を行う者(以下「実況者」と呼ぶ。)301が映る画像領域302、及びビデオゲームの画面303が映る画像領域304の2つの画像領域に分かれている。情報処理装置100は、対象映像データの映像の特徴を解析し、解析した映像の特徴に適した映像効果を付与して付与後映像データを生成する。図3(b)に示す映像310では、対象映像データの映像の特徴に合わせた映像効果として、実況者301の背景312の色が、図3(a)に示す画像領域302における実況者301の背景の色に対して変化している。また、図3(b)に示す映像310では、対象映像データの映像の特徴に合わせた映像効果として、テロップ315が、図3(a)に示す映像300に対して追加されている。また、図3(b)に示す映像310では、対象映像データの映像の特徴に合わせた映像効果として、効果音316が、図3(a)に示す映像300に対応する音声に対して追加されている。
The image area of the
<第1サーバの動作>
図4を参照して、第1サーバ110の動作について説明する。図4は、実施形態1に係る第1サーバ110の処理フローの一例を示すフローチャートである。具体的には、図4は、第1サーバ110における映像効果特定用データの生成処理の処理フローを示している。第1サーバ110は、当該フローチャートの処理を繰り返すことにより、複数の参照用映像データのそれぞれに対応する映像効果特定用データを生成する。なお、以下の説明において記号「S」はステップを意味する。まず、S401にて、映像取得部111は、参照用映像データを取得する。次に、S402にて、映像取得部111は、S401にて取得した参照用映像データに対応する再生情報及びタグ情報を取得する。
<Operation of First Server>
The operation of the
図5を参照して、再生情報及びタグ情報について説明する。図5は、再生情報及びタグ情報の一例を示す図である。映像ID501は、参照用映像データを識別するための情報である。再生回数502は、再生情報の一例であって、参照用映像データがこれまでに再生された回数を示す情報である。肯定的なコメント数503は、再生情報の一例であって、これまでに参照用映像データの映像を視聴した視聴者のコメントのうちの、肯定的なコメントの数を示す情報である。否定的なコメント数504は、再生情報の一例であって、これまでに参照用映像データの映像を視聴した視聴者のコメントのうち、否定的なコメントの数を示す情報である。タグ505は、参照用映像データの映像のジャンルを特定するための情報であって、参照用映像データの登録者が予め設定したタグ情報に対応する情報である。再生回数502、肯定的なコメント数503、及び否定的なコメント数504は、人気度取得部112による参照用映像データの人気度の取得の際に用いられる。また、タグ505は、参照用映像データのジャンルを特定する際に用いられる。
The playback information and tag information will be described with reference to FIG. 5. FIG. 5 is a diagram showing an example of the playback information and tag information. The
S402の後、S403にて、人気度取得部112は、S402にて取得した再生情報を用いて、S401にて取得した参照用映像データの人気度307を算出する。人気度取得部112は、例えば、単純に、再生回数を人気度としてもよい。また、例えば、他の参照用映像データとの相対的な再生回数を人気度としてもよい。具体的には、参照用映像データの再生回数をY,他の参照用映像データの再生回数のうちの最大の再生回数をXmax、最小の再生回数をXmin、人気度をZとして、例えば、人気度取得部112は、次式(1)のように再生回数を正規化して人気度を求める。
Z=(Y―Xmin)/(Xmax―Xmin) ・・・ 式(1)
After S402, in S403, the
Z = (Y - Xmin) / (Xmax - Xmin) ... formula (1)
式(1)の場合、Zの値が大きいほど人気度が高く、Zの値が小さいほど人気度が低いことを表している。人気度の算出方法は、上述のものに限定されるものではない。例えば、再生回数をX、肯定的なコメント数をY、重みの係数をwとして、及び人気度をZとして、次式(2)のように人気度を求めてもよい。
Z=X+wY ・・・ 式(2)
In the case of formula (1), the larger the value of Z, the higher the popularity, and the smaller the value of Z, the lower the popularity. The method of calculating the popularity is not limited to the above. For example, the popularity may be calculated as in the following formula (2) where the number of views is X, the number of positive comments is Y, the weighting coefficient is w, and the popularity is Z.
Z = X + wY ... Equation (2)
また、例えば、否定的なコメント数についても考慮して、式(2)におけるYを(肯定的なコメント数-否定的なコメント数)として人気度を求めてもよい。 In addition, for example, the popularity can be calculated by taking into account the number of negative comments and setting Y in formula (2) as (number of positive comments - number of negative comments).
S403の後、S404にて、映像解析部113は、S403にて取得した人気度が所定の条件を満たすか否かを判定する。具体的には、映像解析部113は、参照用映像データの人気度が所定の閾値以上であるか否かを判定する。S404にて人気度が所定の条件を満たすと判定された場合、映像解析部113は、S405にて、映像解析部113は、S401にて取得した参照用映像データを解析する。映像解析部113は、当該解析により、参照用映像データの映像の特徴、及び参照用映像データに付与されている映像効果を特定し、当該参照用映像データに対応する映像特徴情報及び映像効果情報を生成する。映像解析部113は、生成した映像特徴情報及び映像効果情報を参照用映像データの映像ID及び人気度に対応付けて、映像効果特定用データとして第1サーバ110の補助記憶装置204に記憶させる。
After S403, in S404, the
続いてS405にて、映像解析部113は、参照用映像データを解析することにより、参照用映像データの映像のジャンルの特定を行い、映像ジャンル情報を生成する。映像解析部113は、生成した映像ジャンル情報を映像効果特定用データに含めて第1サーバ110の補助記憶装置204等に記憶させる。なお、映像解析部113は、解析による映像のジャンルの特定に替えて、S402にて取得したタグ情報に基づいて映像のジャンルの特定し、映像ジャンル情報を生成してもよい。
Next, in S405, the
図6を参照して、映像のジャンルの特定方法について説明する。図6は、映像のジャンルを特定するための映像ジャンル特定用データ600及び610の一例を示す図である。具体的には、図6(a)は、タグ情報に基づいて映像のジャンルを特定するための映像ジャンル特定用データ600の一例を示す図である。また、図6(b)は、映像データの解析結果に基づいて映像のジャンルを特定するための映像ジャンル特定用データ600の一例を示す図である。
A method for identifying a video genre will be described with reference to FIG. 6. FIG. 6 is a diagram showing an example of video
図6(a)において、映像ジャンル601は、映像解析部113により特定される映像のジャンルであり、タグ602は、参照用映像データに予め設定されているタグ情報である。映像解析部113は、参照用映像データに設定されているタグ情報に一致するタグ602を映像ジャンル特定用データ600から検索し、検索結果に基づいてタグ602に対応する映像ジャンル601を特定する。図6(b)において、映像ジャンル611は、映像解析部113により特定される映像のジャンルである。また、映像態様612は、参照用映像データの解析結果であって、参照用映像データの映像の態様を示す情報である。まず、映像解析部113は、参照用映像データの解析結果である映像の態様に一致する映像態様612を映像ジャンル特定用データ610から検索する。続いて、映像解析部113は、検索結果に基づいて映像態様612に対応する映像ジャンル611を特定する。
6(a),
図7を参照して、映像解析部113により特定される、参照用映像データに付与された映像効果について説明する。図7は、映像解析部113により特定される、参照用映像データに付与された映像効果の一例を示す図である。具体的には、図7(a)に示す背景色701は、参照用映像データに動画像の映像効果として付与されている、動画像の背景領域における色の変化の情報である。図7(b)に示すテロップ表現702は、参照用映像データに動画像の映像効果として付与されている、挿入されたテロップの位置、並びに、当該テロップ内の文字の大きさ、色、及び形状等の情報である。図7(c)に示すテロップ内容703は、参照用映像データに動画像の映像効果として付与されている、挿入されたテロップに含まれる文字列の情報である。図7(d)に示す効果音704は、参照用映像データの音声データに映像効果として付与されている音(以下「効果音」と呼ぶ。)の種類を示す情報である。
With reference to FIG. 7, the video effect given to the reference video data, as specified by the
映像効果は、例えば、動画の背景色、テロップ表現、テロップ内容、及び効果音等の映像効果の種類ごとの、機械学習等の学習により得られた学習モデル等の映像効果解析用データを用いて特定される。映像解析部113が特定する映像効果は、図7に示す映像効果に限定されるものではない。例えば、映像における動画像に対する色調変化、フェードイン若しくはフェードアウト、又はフィルタ等のエフェクト等であってもよい。また、映像の音声におけるBGM(Back Ground Music)、声色、又は抑揚等であってもよい。
The visual effects are identified using data for analyzing visual effects such as a learning model obtained by learning by machine learning or the like for each type of visual effect, such as the background color of the video, the caption expression, the caption content, and sound effects. The visual effects identified by the
図8を参照して、映像解析部113により特定される、参照用映像データの映像の特徴について説明する。図8は、映像解析部113により特定される、参照用映像データの映像の特徴の一例を示す図である。具体的には、図8(a)は、映像解析部113により特定される映像の特徴の一例を示す図であって、映像内の発話内容801の一例を示す図である。映像解析部113は、参照用映像データの映像において、映像効果が付与されている期間、又は当該期間の前若しくは後の期間の発話の内容を特定する。当該特定は、例えば、周知の音声の言語認識技術を用いることにより行うことができる。発話の内容を特定する期間は、映像効果が付与されている期間の一部又は全部を含んでいてもよく、映像効果が付与されている期間を含んでいなくてもよい。具体的には、発話の内容を特定する期間は、映像効果が付与されている期間における、始期の5秒前から終期の5秒後まで等のように、例えば、予めその期間を設定しておく。以下、映像解析部113が発話の内容を特定する、映像効果が付与されている期間、又は当該期間の前若しくは後の期間を「映像効果に対応する期間」と表記する。
With reference to FIG. 8, the features of the video of the reference video data identified by the
映像解析部113は、映像効果に対応する期間における発話の全てを特定してもよいし、取得された映像のジャンルごとに特定する語句を予め設定して、設定した語句のみを映像効果に対応する期間において特定してもよい。例えば、映像のジャンルが「ゲーム実況」である場合、映像解析部113は、発話内容801に示す「負けた」又は「勝った」等の、ゲームの勝敗等に関連する語句だけを特定してもよい。
The
図8(b)は、映像解析部113により特定される映像の特徴の一例を示す図であって、映像内で発話する者(実況者)の感情の起伏の推移を示す感情曲線802の一例を示す図である。感情曲線802の横軸は時間であり、感情曲線802は、映像全体の期間におけるものであってもよく、映像効果に対応する期間におけるものであってもよい。感情曲線802の縦軸は、実況者の感情におけるポジティブな感情を正方向、ネガティブな感情を負方向として、実況者の感情を数値化したもの(以下「ポジティブ度」と呼ぶ。)で表現したものである。人物の感情の数値化は、例えば、BERT(Bidirectional Encoder Representations from Transformers)等を用いた自然言語処理モデル等の周知の音声による感情分析技術を用いて行うことができる。ポジティブな発言の回数とネガティブな発言の回数とに基づいて、ポジティブな発言の回数からネガティブな発言の回数を減じた値をポジティブ度としてもよい。
8B is a diagram showing an example of a feature of a video identified by the
また、人物の感情の数値化は、実況者の発話だけでなく、映像の動画像に映る実況者の表情に基づいて、周知の表情認識(FER:Facial Expression Recognition)技術を用いて行ってもよい。具体的には、例えば、ポジティブな表情をした回数とネガティブな表情をした回数とに基づいて、ポジティブな表情をした回数からネガティブな表情をした回数を減じた値をポジティブ度とする。また、声の抑揚の大きさ、又は声の大きさ等を数値化し、この数値が、予め定められた基準値より、大きい場合はポジティブな感情であり、小さい場合はネガティブな感情であるものとして、当該数値と基準値との差分をポジティブ度の変化量としてもよい。 The emotions of a person may be quantified not only based on the commentator's speech but also based on the facial expressions of the commentator shown in the video image, using well-known facial expression recognition (FER) technology. Specifically, for example, the positivity level may be determined by subtracting the number of times a positive expression was made from the number of times a negative expression was made, based on the number of times a positive expression was made and the number of times a negative expression was made. In addition, the intonation of the voice or the volume of the voice may be quantified, and if this value is greater than a predetermined reference value, it may be determined that the emotion is positive, and if it is less than this value, it may be determined that the emotion is negative, and the difference between this value and the reference value may be determined as the change in positivity level.
図8(c)は、感情曲線802の生成方法の一例を説明するための図である。図8(c)に示す時系列図803は、映像の再生時刻に応じた映像の移り変わりの一例を示している。時系列図803には、一例として、再生時刻が5秒、10秒、及び15秒の時点におけるフレーム805と、各再生時刻の周辺の期間における、実況者の発話の内容804とが示されている。具体的には、時系列図803には、実況者の発話の内容804として、「良い感じ」、「やったー!」、及び「ダメだな」という語句が示されている。図8(d)は、各再生時刻におけるポジティブ度の一例を示す図である。具体的には、図8(d)には、「良い感じ」、「やったー!」、及び「ダメだな」という各語句に対応するポジティブ度の算出結果を、それぞれ2、4、及び-2とした対応表806が示されている。こうして得られた再生時刻とポジティブ度との対応関係に基づいて、感情曲線802が生成される。
8(c) is a diagram for explaining an example of a method for generating an
S405の後、S406にて、映像解析部113は、S403にて算出した人気度、並びに、S405にて生成した映像効果情報及び映像特徴情報に基づいて、例えば、S405にて特定した映像のジャンルごとに、映像効果特定用データを生成(更新)する。図9は、映像効果特定用データ900の一例を示す図である。映像特徴901、及び、映像効果902のそれぞれは、映像解析部113により生成された映像効果情報及び映像特徴情報が示す映像の特徴及び映像効果である。また、人気度903は、人気度取得部112が取得した人気度である。S406の後、又はS404にて人気度が所定の条件を満たさないと判定された場合、第1サーバ110は、図4に示すフローチャートを終了し、終了後にS401に戻って、当該フローチャートの処理を繰り返して実行する。
After S405, in S406, the
本実施形態では、人気度が参照用映像データに対する人気度であるものとして説明したが、参照用映像データの人気度は、これに限定されるものではない。例えば、人気度取得部112は、映像効果に対応する期間における参照用映像データの人気度を取得してもよい。具体的には、例えば、人気度取得部112は、生配信されている参照用映像データの映像に付与されている映像効果を解析し、映像効果に対応する期間における投げ銭の総額等を参照用映像データの人気度としてもよい。また、例えば、人気度取得部112は、映像効果に対応する期間における肯定的なコメントの数を人気度としてもよい。
In this embodiment, the popularity has been described as the popularity of the reference video data, but the popularity of the reference video data is not limited to this. For example, the
<情報処理装置の動作>
図10を参照して、情報処理装置100の動作について説明する。図10は、実施形態1に係る情報処理装置100の処理フローの一例を示すフローチャートである。まず、S1001にて、映像取得部101は、対象映像データを取得する。対象映像データに対応するタグ情報が設定されている場合、映像取得部101は、対象映像データに加えて、タグ情報についても取得する。
<Operation of the information processing device>
The operation of the
次に、S1002にて、映像解析部102は、S1001にて取得した対象映像データを解析する。映像解析部102は、当該解析により、対象映像データの映像の特徴を特定して、対象映像データに対応する映像特徴情報を生成する。続いてS1002にて、映像解析部102は、S1001にて取得した対象映像データを解析することにより、対象映像データの映像のジャンルの特定を行い、対象映像データに対応する映像ジャンル情報を生成する。なお、映像解析部102は、解析による映像のジャンルの特定に替えて、S1001にて取得したタグ情報に基づいて対象映像データの映像のジャンルを特定してもよい。映像解析部102における映像の特徴の特定方法、及び、映像のジャンルの特定方法は、第1サーバ110の映像解析部113における映像の特徴の特定方法、及び、映像のジャンルの特定方法と同様であるため、説明を省略する。
Next, in S1002, the
次に、S1003にて、効果取得部103は、第1サーバ110が生成した映像効果特定用データと、S1002にて生成した映像特徴情報とに基づいて、対象映像データに付与する映像効果を示す情報を取得する。具体的には、例えば、まず、効果取得部103は、第1サーバ110に映像効果特定用データ900を要求して、第1サーバ110の効果出力部114が出力する映像効果特定用データ900を取得する。第1サーバ110に映像効果特定用データ900を要求する際、効果取得部103は、S1002にて生成した映像ジャンル情報が示す映像のジャンルを指定して、指定した映像のジャンルに対応する映像効果特定用データ900を取得してもよい。続いて、効果取得部103は、取得した映像効果特定用データ900のうちからS1002にて生成した映像特徴情報が示す映像の特徴と同一又は類似の映像特徴901に対応する映像効果902を特定する。続いて、効果取得部103は、特定した映像効果902の情報を対象映像データに付与する映像効果の情報として取得する。
Next, in S1003, the
対象映像データに付与する映像効果を示す情報の取得方法は、上述のものに限定されるものではない。例えば、効果取得部103は、以下のようにして、対象映像データに付与する映像効果を示す情報を取得してもよい。まず、効果取得部103は、S1002にて生成した映像特徴情報を第1サーバ110に対して送信する。第1サーバ110は、映像効果特定用データ900のうちから当該映像特徴情報が示す映像の特徴と同一又は類似の映像特徴901に対応する映像効果902を特定して、特定した映像効果902を示す情報(映像効果情報)を情報処理装置100に出力する。続いて、効果取得部103は、第1サーバ110が出力する映像効果情報を受信して、受信した映像効果情報を対象映像データに付与する映像効果を示す情報として取得する。
The method of acquiring information indicating the visual effect to be applied to the target video data is not limited to the above. For example, the
なお、効果取得部103は、S1002にて生成した映像特徴情報を第1サーバ110に対して送信する際に、映像特徴情報に加えて、S1002にて生成した映像ジャンル情報を送信してもよい。この場合、第1サーバ110は、映像効果特定用データ900のうちから当該映像ジャンル情報が示す映像のジャンルが同一で、且つ、当該映像特徴情報が示す映像の特徴と同一又は類似の映像特徴901に対応する映像効果902を特定する。
When the
S1003の後、S1004にて、効果付与部104は、S1003にて取得した映像効果情報に基づいて、対象映像データに対して映像効果を付与する。具体的には、効果付与部104は、対象映像データと参照用映像データとにおいて互いに映像の特徴が同一又は類似の映像の位置に、映像効果を付与する。なお、映像の特徴の類似とは、例えば、S1002にて対象映像データの映像の特徴として特定した実況者の発話の内容が、映像特徴901の発話内容と所定の文字数以上等しい場合等を意味する。また、感情曲線同士の類似度を算出し、類似度が所定の閾値以上である場合に、映像の内容が類似していると判定してもよい。S1004の後、S1005にて、映像出力部105は、S1004にて映像効果が付与された後の対象映像データ(付与後映像データ)を出力する。S1005の後、情報処理装置100は、図10に示すフローチャートの処理を終了する。以上のように構成した情報処理装置100によれば、視聴者の嗜好により適合する映像効果を映像データに付与することができる。
After S1003, in S1004, the
これまで、第1サーバ110が、人気度が所定の条件を満たす参照用映像データのみを対象として、映像効果特定用データ900を生成する形態について説明したが、これに限定されるものではない。例えば、第1サーバ110は、人気度が所定の条件を満たすか否かに関わらず、全ての参照用映像データを対象として、映像効果特定用データ900を生成してもよい。この場合、例えば、情報処理装置100は、以下のようにして、対象映像データに付与する映像効果を示す情報を取得してもよい。
So far, the
まず、効果取得部103は、第1サーバ110に映像効果特定用データ900を要求して、第1サーバ110の効果出力部114が出力する映像効果特定用データ900を取得する。第1サーバ110に映像効果特定用データ900を要求する際、効果取得部103は、S1002にて生成した映像ジャンル情報が示す映像のジャンルを指定して、指定した映像のジャンルに対応する映像効果特定用データ900を取得してもよい。続いて、効果取得部103は、取得した映像効果特定用データ900のうちから、人気度が所定の条件を満たす映像効果902を検索する。続いて、効果取得部103は、当該検索により検出された1以上の映像効果902のうちから、S1002にて生成した映像特徴情報が示す映像の特徴と同一又は類似の映像特徴901に対応する映像効果902を特定する。続いて、効果取得部103は、特定した映像効果902の情報を対象映像データに付与する映像効果を示す情報として取得する。
First, the
また、実施形態1では、情報処理装置100が、第1サーバ110が生成した映像効果特定用データ900を用いて、対象映像データに映像効果を付与する形態について説明したが、これに限定されるものではない。例えば、情報処理装置100が映像効果特定用データ900を生成するために必要な機能構成を有していてもよい。この場合、情報処理装置100は、映像効果特定用データ900を生成して、生成した映像効果特定用データ900を用いて対象映像データに映像効果を付与する。また、例えば、第1サーバ110が、対象映像データに映像効果を付与するために必要な機能構成を有していてもよい。この場合、例えば、情報処理装置100は、対象映像データを第1サーバ110に送信し、第1サーバ110は、これを受信して、受信した対象映像データに対して映像効果を付与し、付与後映像データを情報処理装置100に送信する。すなわち、この場合、第1サーバ110は、対象映像データに対して映像効果を付与するサービスを提供するクラウドサーバ等の装置として動作する。
In addition, in the first embodiment, the
また、実施形態1では、参照用映像データは、第2サーバ120から取得されるものとして説明したが、参照用映像データの取得元は、第2サーバ120に限定されるものではない。例えば、第1サーバ110は、第2サーバ120以外の外部の装置、又は、第1サーバ110の補助記憶装置204から参照用映像データを取得してもよい。この場合、補助記憶装置204に予め記憶されている参照用映像データは、例えば、ユーザが予め第2サーバ120からダウンロードした映像データである。また、実施形態1では、第1サーバ110は、第2サーバ120に登録されている全ての参照用映像データを対象として、参照用映像データを取得するものとして説明したが、参照用映像データの取得対象はこれに限定されるものではない。例えば、第1サーバ110は、第2サーバ120に登録されている参照用映像データのうちのユーザが予め指定した参照用映像データを対象として、参照用映像データを取得してもよい。
In the first embodiment, the reference video data is described as being acquired from the
[実施形態2]
実施形態1では、一例として、対象映像データがゲーム実況映像のデータである場合を例として説明した。これに対して、実施形態2では、対象映像データが、映像に登場する者(以下「話者」と呼ぶ。)が雑談をしている映像(以下「雑談映像」と呼ぶ。)のデータである場合について説明する。実施形態2に係る情報処理システム、情報処理装置、及び第1サーバの構成は、図1及び図2に示す実施形態1に係る情報処理システム1、情報処理装置100、及び第1サーバ110の構成と同様である。そのため、以下、実施形態2に係る情報処理システム、情報処理装置、及び第1サーバの構成の説明では、図1及び図2の符号を参照して説明する。
[Embodiment 2]
In the first embodiment, as an example, the target video data is data of a game play-by-play video. In contrast, in the second embodiment, the target video data is data of a video (hereinafter referred to as a "chat video") in which a person appearing in the video (hereinafter referred to as a "speaker") is chatting. The configurations of the information processing system, the information processing device, and the first server according to the second embodiment are the same as those of the
図11は、実施形態2に係る対象映像データの映像の一例を示す図である。具体的には、図11(a)は、対象映像データの映像であって、雑談映像1100の一例を示す図であり、図11(b)は、図11(a)に示す対象映像データに対応する付与後映像データの映像1110の一例を示す図である。図11(a)に示す雑談映像1100には、1人の話者1101がPC又はタブレット端末等のモニタ1102を見ながら話している様子が映っている。情報処理装置100は、対象映像データを解析し、解析により得た映像の特徴に基づいて、対象映像データに適した映像効果を付与して付与後映像データを生成する。例えば、話者1101がネガティブな発言を繰り返している場合に、対象映像データには、例えば、図11(b)に示す映像1110のように、話者1101の背景1111のうちの上方等の一部をグレーにするといった映像効果が付与される。
11 is a diagram showing an example of a video of the target video data according to the second embodiment. Specifically, FIG. 11(a) is a diagram showing an example of a
図12を参照して、映像解析部113により特定される、参照用映像データに付与された映像効果について説明する。図12は、映像解析部113により特定される、参照用映像データに付与された映像効果の一例を示す図である。具体的には、図12に示す映像効果は、参照用映像データの映像のジャンルが雑談映像である場合の映像効果の例である。図12(a)に示す背景色1201は、参照用映像データに動画像の映像効果として付与されている、動画像の背景領域における色の変化の情報であって、一例として、変化させる背景領域の色及び位置を示している。図12(b)に示す視聴者コメント表示1202は、参照用映像データに動画像の映像効果として、視聴者からのコメントを動画像の画像領域内に表示させているか否かを示す情報である。図12(c)に示す効果音1203は、参照用映像データに音の映像効果として付与されている、挿入された効果音の種類を示す情報である。図12(d)に示すBGM1204は、参照用映像データに音の映像効果として付与されている、挿入されたBGMの種類を示す情報である。
With reference to FIG. 12, the video effect given to the reference video data, as specified by the
図13を参照して、映像解析部113により特定される、参照用映像データの映像の特徴について説明する。図13は、映像解析部113により特定される、参照用映像データの映像の特徴の一例を示す図である。具体的には、図13に示す映像の特徴は、参照用映像データの映像のジャンルが雑談映像である場合の映像の特徴の例である。図13(a)は、映像解析部113により特定される映像の特徴の一例を示す図であって、話者1101の声の大きさの経時変化の一例を、音量曲線1301を用いて示す図である。映像解析部113は、映像の再生時刻に対応する所定の期間における、話者1101の声の大きさを音声データに基づいて解析することにより、音量曲線1301を取得する。例えば、映像解析部113は、話者1101の声を連続的に解析し、解析により得られた声の大きさをそのままグラフ化して音量曲線1301を取得する。音量曲線1301の取得方法は、上述のものに限定されるものではない。例えば、映像解析部113は、話者1101が発する言葉を単語又は文章等の単位に区切って、当該単位ごとの話者1101の平均の声の大きさを解析することにより、音量曲線1301を取得してもよい。
With reference to FIG. 13, the video characteristics of the reference video data identified by the
図13(b)は、映像解析部113により特定される映像の特徴の一例を示す図であって、視聴者からのコメントに基づくポジティブ度の経時変化の一例を、曲線1302を用いて示す図である。例えば、映像解析部113は、視聴者からのコメントがポジティブなものであるかネガティブなものであるかをコメントごとに判定し、ポジティブなコメントの数とネガティブなコメントの数との差分を時系列に数値化して曲線1302を取得する。具体的には、例えば、所定の時間間隔ごとの、視聴者からのコメントにおけるポジティブなコメントの数とネガティブなコメントの数との差分を算出して、これを時系列にグラフ化することにより曲線1302を取得する。視聴者からのコメントがポジティブなものであるかネガティブなものであるかの判定は、例えば、BERT等を用いた自然言語処理モデル等の周知の言語解析技術を用いて行うことができる。
13B is a diagram showing an example of a feature of a video identified by the
図14は、映像解析部113が生成する映像効果特定用データ1400の一例を示す図である。具体的には、図14は、参照用映像データの映像のジャンルが雑談映像である場合の映像効果特定用データ1400の例である。映像特徴1401、及び、映像効果1402のそれぞれは、映像解析部113が特定した映像の特徴及び映像効果である。また、人気度1403は、人気度取得部112が取得した人気度である。情報処理装置100は、対象映像データの映像のジャンルが雑談映像である場合、図14に一例として示す映像効果特定用データ1400に基づいて、対象映像データに映像効果を付与する。対象映像データへの映像効果の付与方法は実施形態1に係る情報処理装置100における映像効果の付与方法と同様であるため、説明を省略する。
14 is a diagram showing an example of the
[実施形態3]
実施形態1では、一例として、対象映像データがゲーム実況映像のデータである場合を例として説明した。また、実施形態2では、一例として、対象映像データが雑談映像のデータである場合を例として説明した。これに対して、実施形態3では、対象映像データが、映像に登場する者(以下「講演者」と呼ぶ。)が講義をしている映像(以下「講義映像」と呼ぶ。)のデータである場合について説明する。実施形態3に係る情報処理システム、情報処理装置、及び第1サーバの構成は、図1及び図2に示す実施形態1に係る情報処理システム1、情報処理装置100、及び第1サーバ110の構成と同様である。そのため、以下、実施形態3に係る情報処理システム、情報処理装置、及び第1サーバの構成の説明では、図1及び図2の符号を参照して説明する。
[Embodiment 3]
In the first embodiment, as an example, the target video data is data of a game play-by-play video. In the second embodiment, as an example, the target video data is data of a chat video. In contrast, in the third embodiment, the target video data is data of a video (hereinafter referred to as a "lecture video") in which a person appearing in the video (hereinafter referred to as a "lecturer") is giving a lecture. The configurations of the information processing system, the information processing device, and the first server according to the third embodiment are the same as those of the
図15は、実施形態2に係る対象映像データの映像の一例を示す図である。具体的には、図15(a)は、対象映像データの映像であって、講義映像1500の一例を示す図であり、図15(b)は、図15(a)に示す対象映像データに対応する付与後映像データの映像1110の一例を示す図である。
Figure 15 is a diagram showing an example of a video of target video data according to
図15(a)に示す講義映像1500には、1人の講演者1501が指し棒1502でホワイトボード1503を指しながら講義をしている様子が映っている。情報処理装置100は、対象映像データを解析し、解析により得た映像の特徴に基づいて、対象映像データに適した映像効果を付与して付与後映像データを生成する。例えば、講演者1501が声を大きくして発話する場合に、対象映像データには、例えば、図15(b)に示す映像1510のように、講演者1501の発話の内容を、テロップを用いて強調表示するといった映像効果が付与される。
The
図16を参照して、映像解析部113により特定される、参照用映像データに付与された映像効果について説明する。図16は、映像解析部113により特定される、参照用映像データに付与された映像効果の一例を示す図である。具体的には、図16に示す映像効果は、参照用映像データの映像のジャンルが講義映像である場合の映像効果の例である。図16(a)に示すテロップ表現1601は、参照用映像データに動画像の映像効果として付与されている、挿入されたテロップの位置、並びに、当該テロップ内の文字の大きさ、色、及び形状等の情報である。図16(b)に示すテロップ内容1602は、参照用映像データに動画像の映像効果として付与されている、挿入されたテロップに含まれる文字列の情報である。図16(c)に示す効果音1603は、参照用映像データの音声データに映像効果として付与されている効果音の種類を示す情報である。
With reference to FIG. 16, the video effect given to the reference video data, as specified by the
図17を参照して、映像解析部113により特定される、参照用映像データの映像の特徴について説明する。図17は、映像解析部113により特定される、参照用映像データの映像の特徴の一例を示す図である。具体的には、図17に示す映像の特徴は、参照用映像データの映像のジャンルが講義映像である場合の映像の特徴の例である。図17(a)は、映像解析部113により特定される映像の特徴の一例を示す図であって、映像内において、講演者1501が指し棒1502でホワイトボード1503を指しているか否かの状態1701を示す図である。図17(b)は、映像解析部113により特定される映像の特徴の一例を示す図であって、講演者1501の体の向きの状態1702を示す図である。図17(c)は、映像解析部113により特定される映像の特徴の一例を示す図であって、講演者1501の声の抑揚の経時変化の一例を、抑揚曲線1703を用いて示す図である。映像解析部113は、映像の再生時刻に対応する所定の期間における講演者1501の声の抑揚を音声データに基づいて解析することにより、抑揚曲線1703を取得する。
With reference to FIG. 17, the video characteristics of the reference video data identified by the
図18は、映像解析部113が生成する映像効果特定用データ1800の一例を示す図である。具体的には、図18は、参照用映像データの映像のジャンルが講義映像である場合の映像効果特定用データ1800の例である。映像特徴1801、及び、映像効果1802のそれぞれは、映像解析部113が特定した映像の特徴及び映像効果である。また、人気度1803は、人気度取得部112が取得した人気度である。情報処理装置100は、対象映像データの映像のジャンルが講義映像である場合、図18に一例として示す映像効果特定用データ1800に基づいて、対象映像データに映像効果を付与する。対象映像データへの映像効果の付与方法は実施形態1に係る情報処理装置100における映像効果の付与方法と同様であるため、説明を省略する。
18 is a diagram showing an example of the
[その他の実施形態]
本開示は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
[Other embodiments]
The present disclosure can also be realized by a process in which a program for realizing one or more functions of the above-described embodiments is supplied to a system or device via a network or a storage medium, and one or more processors in a computer of the system or device read and execute the program. Also, the present disclosure can be realized by a circuit (e.g., ASIC) for realizing one or more functions.
[本開示の構成]
<構成1>
動画像データを少なくとも含む編集対象映像データの特徴を示す対象特徴情報を取得する対象取得手段と、
前記対象特徴情報が示す特徴に類似する特徴を含む参照用映像データであって、人気度が所定の条件を満たす前記参照用映像データに含まれる映像効果を示す参照効果情報を取得する効果取得手段と、
前記参照効果情報が示す映像効果と同一又は類似の映像効果を前記編集対象映像データに付与する付与手段と、
を有することを特徴とする情報処理装置。
[Configuration of the present disclosure]
<
an object acquiring means for acquiring object characteristic information indicating characteristics of video data to be edited, the video data including at least moving image data;
an effect acquisition means for acquiring reference effect information indicating a video effect included in reference video data including a feature similar to the feature indicated by the target feature information, the reference video data having a popularity satisfying a predetermined condition;
an applying means for applying a visual effect that is the same as or similar to the visual effect indicated by the reference effect information to the video data to be edited;
13. An information processing device comprising:
<構成2>
前記対象取得手段は、前記編集対象映像データに含まれる前記動画像データを解析することにより、前記対象特徴情報を取得すること
を特徴とする構成1に記載の情報処理装置。
<
2. The information processing device according to
<構成3>
前記対象取得手段は、前記編集対象映像データに含まれる前記動画像データに基づいて、当該動画像データが示す動画像に映る人物の動作及び表情、並びに、当該動画像に映る視聴者からのコメントの少なくいずれかを解析することにより、前記対象特徴情報を取得すること
を特徴とする構成2に記載の情報処理装置。
<
The information processing device described in
<構成4>
前記編集対象映像データは、前記編集対象映像データに含まれる前記動画像データと同期して再生される音声データを含み、
前記対象取得手段は、前記編集対象映像データに含まれる前記音声データを解析することにより、前記対象特徴情報を取得すること
を特徴とする構成1乃至3のいずれか1つに記載の情報処理装置。
<
the video data to be edited includes audio data to be played back in synchronization with the video data included in the video data to be edited;
The information processing device according to any one of
<構成5>
前記対象取得手段は、前記編集対象映像データに含まれる前記音声データに基づいて、前記編集対象映像データが示す映像に登場する人物の声の大きさ及び抑揚、並びに、前記人物の発話内容の少なくいずれかを解析することにより、前記対象特徴情報を取得すること
を特徴とする構成4に記載の情報処理装置。
<
The information processing device described in
<構成6>
前記編集対象映像データの映像のジャンルを特定する対象ジャンル特定手段、
を更に有し、
前記効果取得手段は、前記編集対象映像データの映像のジャンルと同一の映像のジャンルの前記参照用映像データに含まれる映像効果を示す前記参照効果情報を取得すること
を特徴とする構成1乃至5のいずれか1つに記載の情報処理装置。
<
a target genre specification means for specifying a video genre of the video data to be edited;
and
The information processing device according to any one of
<構成7>
前記対象ジャンル特定手段は、前記編集対象映像データに予め対応付けられたタグ情報に基づいて、前記編集対象映像データの映像のジャンルを特定すること
を特徴とする構成6に記載の情報処理装置。
<Configuration 7>
7. The information processing apparatus according to
<構成8>
前記対象ジャンル特定手段は、前記編集対象映像データを解析することにより、前記編集対象映像データの映像のジャンルを特定すること
を特徴とする構成6に記載の情報処理装置。
<
7. The information processing apparatus according to
<構成9>
前記付与手段は、前記参照効果情報が示す映像効果が付与されている前記参照用映像データの区間における前記参照用映像データの特徴に類似する特徴を含む前記編集対象映像データにおける区間に対して、前記参照効果情報に基づいて前記編集対象映像データに映像効果を付与すること
を特徴とする構成1乃至8のいずれか1つに記載の情報処理装置。
<
The information processing device of any one of
<構成10>
前記人気度は、前記参照用映像データの再生回数、前記参照用映像データの視聴者からのコメント数、及び前記参照用映像データに投じられた投げ銭の額の少なくともいずれかに基づいて算出される値であること
を特徴とする構成1乃至9のいずれか1つに記載の情報処理装置。
<
The information processing device of any one of
<構成11>
前記参照効果情報が示す映像効果は、動画像へのテロップの挿入、動画像の色調変更、動画像のフェードイン、動画像のフェードアウト、動画像へのフィルタ付与、音声への効果音の挿入、及び音声へのBGMの挿入、少なくともいずれかであること
を特徴とする構成1乃至10のいずれか1つに記載の情報処理装置。
<Configuration 11>
The information processing device according to any one of
<構成12>
前記参照用映像データは、映像配信サービスから配信される映像データであること
を特徴とする構成1乃至11のいずれか1つに記載の情報処理装置。
<
12. The information processing device according to any one of
<構成13>
前記参照用映像データは、前記映像配信サービスから配信される映像データのうちのユーザにより指定された映像データであること
を特徴とする構成12に記載の情報処理装置。
<Configuration 13>
13. The information processing device according to
<構成14>
前記参照用映像データを取得する参照データ取得手段と、
取得した前記参照用映像データの前記人気度を取得する人気度取得手段と、
前記参照用映像データを解析して、前記参照用映像データの特徴と、前記参照用映像データに含まれる映像効果とを特定する特定手段と、
前記特定された特徴及び映像効果のそれぞれを示す情報と、前記人気度とを互いに対応付けた参照特徴情報を生成する情報生成手段と、
を更に有し、
前記効果取得手段は、前記参照特徴情報に基づいて前記参照効果情報を取得すること
を特徴とする構成1乃至13のいずれか1つに記載の情報処理装置。
<Configuration 14>
A reference data acquisition means for acquiring the reference video data;
a popularity acquiring means for acquiring the popularity of the acquired reference video data;
A determination means for analyzing the reference video data and determining characteristics of the reference video data and video effects included in the reference video data;
an information generating means for generating reference feature information in which information indicating each of the identified features and visual effects is associated with the popularity;
and
The information processing device according to any one of
<構成15>
動画像データを少なくとも含む編集対象映像データの特徴を示す対象特徴情報を取得する対象取得工程と、
前記対象特徴情報が示す特徴に類似する特徴を含む参照用映像データであって、人気度が所定の条件を満たす前記参照用映像データに含まれる映像効果を示す参照効果情報を取得する効果取得工程と、
前記参照効果情報が示す映像効果と同一又は類似の映像効果を前記編集対象映像データに付与する付与工程と、
を含むことを特徴とする情報処理方法。
<
an object acquiring step of acquiring object characteristic information indicating characteristics of video data to be edited, the video data including at least moving image data;
an effect acquisition step of acquiring reference effect information indicating a video effect included in reference video data including a feature similar to the feature indicated by the target feature information, the reference video data having a popularity satisfying a predetermined condition;
an applying step of applying a visual effect that is the same as or similar to the visual effect indicated by the reference effect information to the video data to be edited;
13. An information processing method comprising:
<構成16>
コンピュータを、構成1乃至14のいずれか1つに記載の情報処理装置として機能させるためのプログラム。
<Configuration 16>
A program for causing a computer to function as the information processing device according to any one of
100 情報処理装置
102 映像解析部
103 効果取得部
104 効果付与部
REFERENCE SIGNS
Claims (16)
前記対象特徴情報が示す特徴に類似する特徴を含む参照用映像データであって、人気度が所定の条件を満たす前記参照用映像データに含まれる映像効果を示す参照効果情報を取得する効果取得手段と、
前記参照効果情報が示す映像効果と同一又は類似の映像効果を前記編集対象映像データに付与する付与手段と、
を有することを特徴とする情報処理装置。 an object acquiring means for acquiring object characteristic information indicating characteristics of video data to be edited, the video data including at least moving image data;
an effect acquisition means for acquiring reference effect information indicating a video effect included in reference video data including a feature similar to the feature indicated by the target feature information, the reference video data having a popularity satisfying a predetermined condition;
an applying means for applying a visual effect that is the same as or similar to the visual effect indicated by the reference effect information to the video data to be edited;
13. An information processing device comprising:
を特徴とする請求項1に記載の情報処理装置。 The information processing apparatus according to claim 1 , wherein the object obtaining means obtains the object characteristic information by analyzing the video image data included in the video data to be edited.
を特徴とする請求項2に記載の情報処理装置。 The information processing device of claim 2, wherein the target acquisition means acquires the target characteristic information by analyzing at least one of the movements and facial expressions of people appearing in the video image represented by the video image data, and comments from viewers appearing in the video image, based on the video image data contained in the video data to be edited.
前記対象取得手段は、前記編集対象映像データに含まれる前記音声データを解析することにより、前記対象特徴情報を取得すること
を特徴とする請求項1に記載の情報処理装置。 the video data to be edited includes audio data to be played back in synchronization with the video data included in the video data to be edited;
The information processing apparatus according to claim 1 , wherein the object obtaining means obtains the object characteristic information by analyzing the audio data included in the video data to be edited.
を特徴とする請求項4に記載の情報処理装置。 The information processing device of claim 4, wherein the target acquisition means acquires the target characteristic information by analyzing at least one of the volume and intonation of the voice of a person appearing in the video represented by the video data to be edited, and the content of the person's speech, based on the audio data contained in the video data to be edited.
を更に有し、
前記効果取得手段は、前記編集対象映像データの映像のジャンルと同一の映像のジャンルの前記参照用映像データに含まれる映像効果を示す前記参照効果情報を取得すること
を特徴とする請求項1に記載の情報処理装置。 a target genre specification means for specifying a video genre of the video data to be edited;
and
The information processing apparatus according to claim 1 , wherein the effect acquisition means acquires the reference effect information indicating visual effects included in the reference video data of the same video genre as that of the video data to be edited.
を特徴とする請求項6に記載の情報処理装置。 The information processing apparatus according to claim 6 , wherein the target genre identifying means identifies a video genre of the video data to be edited on the basis of tag information previously associated with the video data to be edited.
を特徴とする請求項6に記載の情報処理装置。 The information processing apparatus according to claim 6 , wherein the target genre identification means identifies a video genre of the video data to be edited by analyzing the video data to be edited.
を特徴とする請求項1に記載の情報処理装置。 The information processing device according to claim 1, wherein the applying means applies a visual effect to the video data to be edited based on the reference effect information for a section in the video data to be edited that includes features similar to features of the reference video data in a section of the reference video data to which the visual effect indicated by the reference effect information is applied.
を特徴とする請求項1に記載の情報処理装置。 The information processing device according to claim 1, wherein the popularity is a value calculated based on at least one of the number of times the reference video data has been played, the number of comments from viewers of the reference video data, and the amount of tips given to the reference video data.
を特徴とする請求項1に記載の情報処理装置。 The information processing device according to claim 1, characterized in that the visual effects indicated by the reference effect information are at least one of inserting a subtitle into a moving image, changing a color tone of the moving image, fading in the moving image, fading out the moving image, applying a filter to the moving image, inserting a sound effect into an audio, and inserting background music into an audio.
を特徴とする請求項1に記載の情報処理装置。 The information processing device according to claim 1 , wherein the reference video data is video data distributed from a video distribution service.
を特徴とする請求項12に記載の情報処理装置。 The information processing device according to claim 12 , wherein the reference video data is video data designated by a user from among the video data distributed by the video distribution service.
取得した前記参照用映像データの前記人気度を取得する人気度取得手段と、
前記参照用映像データを解析して、前記参照用映像データの特徴と、前記参照用映像データに含まれる映像効果とを特定する特定手段と、
前記特定された特徴及び映像効果のそれぞれを示す情報と、前記人気度とを互いに対応付けた参照特徴情報を生成する情報生成手段と、
を更に有し、
前記効果取得手段は、前記参照特徴情報に基づいて前記参照効果情報を取得すること
を特徴とする請求項1に記載の情報処理装置。 A reference data acquisition means for acquiring the reference video data;
a popularity acquiring means for acquiring the popularity of the acquired reference video data;
A determination means for analyzing the reference video data and determining characteristics of the reference video data and video effects included in the reference video data;
an information generating means for generating reference feature information in which information indicating each of the identified features and visual effects is associated with the popularity;
and
The information processing apparatus according to claim 1 , wherein the effect acquisition means acquires the reference effect information based on the reference feature information.
前記対象特徴情報が示す特徴に類似する特徴を含む参照用映像データであって、人気度が所定の条件を満たす前記参照用映像データに含まれる映像効果を示す参照効果情報を取得する効果取得工程と、
前記参照効果情報が示す映像効果と同一又は類似の映像効果を前記編集対象映像データに付与する付与工程と、
を含むことを特徴とする情報処理方法。 an object acquiring step of acquiring object characteristic information indicating characteristics of video data to be edited, the video data including at least moving image data;
an effect acquisition step of acquiring reference effect information indicating a video effect included in reference video data including a feature similar to the feature indicated by the target feature information, the reference video data having a popularity satisfying a predetermined condition;
an applying step of applying a visual effect that is the same as or similar to the visual effect indicated by the reference effect information to the video data to be edited;
13. An information processing method comprising:
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024076103A true JP2024076103A (en) | 2024-06-05 |
Family
ID=
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110941954B (en) | Text broadcasting method and device, electronic equipment and storage medium | |
CN108962217B (en) | Speech synthesis method and related equipment | |
US11705096B2 (en) | Autonomous generation of melody | |
Chen et al. | What comprises a good talking-head video generation?: A survey and benchmark | |
CN111415677B (en) | Method, apparatus, device and medium for generating video | |
US9898850B2 (en) | Support and complement device, support and complement method, and recording medium for specifying character motion or animation | |
CN107403011B (en) | Virtual reality environment language learning implementation method and automatic recording control method | |
Fort et al. | Seeing the initial articulatory gestures of a word triggers lexical access | |
CN109788345A (en) | Live-broadcast control method, device, live streaming equipment and readable storage medium storing program for executing | |
US11511200B2 (en) | Game playing method and system based on a multimedia file | |
WO2022242706A1 (en) | Multimodal based reactive response generation | |
Friedland et al. | Multimedia computing | |
CN108847066A (en) | A kind of content of courses reminding method, device, server and storage medium | |
CN111147914A (en) | Video processing method, storage medium and electronic equipment | |
KR20220123170A (en) | Language Learning System and Method with AI Avatar Tutor | |
CN113077819A (en) | Pronunciation evaluation method and device, storage medium and electronic equipment | |
CN111861666A (en) | Vehicle information interaction method and device | |
US20220414472A1 (en) | Computer-Implemented Method, System, and Non-Transitory Computer-Readable Storage Medium for Inferring Audience's Evaluation of Performance Data | |
JP2024076103A (en) | Information processing device, information processing method, and program | |
WO2022249522A1 (en) | Information processing device, information processing method, and information processing system | |
CN111160051B (en) | Data processing method, device, electronic equipment and storage medium | |
CN116561294A (en) | Sign language video generation method and device, computer equipment and storage medium | |
CN112633136B (en) | Video analysis method, device, electronic equipment and storage medium | |
JP3930402B2 (en) | ONLINE EDUCATION SYSTEM, INFORMATION PROCESSING DEVICE, INFORMATION PROVIDING METHOD, AND PROGRAM | |
CN115171645A (en) | Dubbing method and device, electronic equipment and storage medium |