JP2024076103A - Information processing device, information processing method, and program - Google Patents

Information processing device, information processing method, and program Download PDF

Info

Publication number
JP2024076103A
JP2024076103A JP2022187500A JP2022187500A JP2024076103A JP 2024076103 A JP2024076103 A JP 2024076103A JP 2022187500 A JP2022187500 A JP 2022187500A JP 2022187500 A JP2022187500 A JP 2022187500A JP 2024076103 A JP2024076103 A JP 2024076103A
Authority
JP
Japan
Prior art keywords
video
video data
data
effect
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022187500A
Other languages
Japanese (ja)
Inventor
剛生 二宮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of JP2024076103A publication Critical patent/JP2024076103A/en
Pending legal-status Critical Current

Links

Images

Abstract

Figure 2024076103000001

【課題】視聴者の嗜好により適合する映像効果を映像データに付与する。
【解決手段】情報処理装置100は、動画像データを少なくとも含む編集対象映像データの特徴を示す対象特徴情報を取得し、前記対象特徴情報が示す特徴に類似する特徴を含む参照用映像データであって、人気度が所定の条件を満たす前記参照用映像データに含まれる映像効果を示す参照効果情報を取得し、前記参照効果情報が示す映像効果と同一又は類似の映像効果を前記編集対象映像データに付与する。
【選択図】図1

Figure 2024076103000001

A video effect that better suits the viewer's preferences is imparted to video data.
[Solution] The information processing device 100 acquires target feature information indicating the characteristics of video data to be edited, which includes at least moving image data, acquires reference effect information indicating the visual effects included in reference video data that includes features similar to the features indicated by the target feature information and whose popularity satisfies a predetermined condition, and imparts to the video data to be edited visual effects that are the same as or similar to the visual effects indicated by the reference effect information.
[Selected Figure] Figure 1

Description

本開示は、映像データに映像効果を付与する技術に関する。 This disclosure relates to technology for adding visual effects to video data.

動画像データを含む映像データに、自動で映像効果を付与する技術がある。特許文献1には、配信用の映像において、配信者等のユーザが、所定の動作若しくは表情をとったこと、又は所定のフレーズを発話したことを特定し、当該映像のデータに、動作若しくは表情、又はフレーズに対応する映像効果を付与する技術が開示されている。 There is a technology that automatically applies visual effects to video data that includes video data. Patent Document 1 discloses a technology that identifies when a user, such as a distributor, makes a specific action or facial expression, or speaks a specific phrase, in a video for distribution, and applies a visual effect corresponding to the action, facial expression, or phrase to the video data.

特開2019-92186号公報JP 2019-92186 A

しかしながら、特許文献1に開示された技術では、動作若しくは表情、又はフレーズごとに予め用意された映像効果を、単に、ユーザの動作若しくは表情、又はフレーズに対応させて映像のデータに付与するものである。そのため、特許文献1に開示された技術では、付与された映像効果が視聴者の嗜好に合っていない可能性があった。 However, the technology disclosed in Patent Document 1 simply applies visual effects, which are prepared in advance for each action, facial expression, or phrase, to video data in correspondence with the user's action, facial expression, or phrase. Therefore, with the technology disclosed in Patent Document 1, there is a possibility that the applied visual effects may not match the viewer's preferences.

本開示に係る情報処理装置は、動画像データを少なくとも含む編集対象映像データの特徴を示す対象特徴情報を取得する対象取得手段と、前記対象特徴情報が示す特徴に類似する特徴を含む参照用映像データであって、人気度が所定の条件を満たす前記参照用映像データに含まれる映像効果を示す参照効果情報を取得する効果取得手段と、前記参照効果情報が示す映像効果と同一又は類似の映像効果を前記編集対象映像データに付与する付与手段と、を有する。 The information processing device according to the present disclosure has a target acquisition means for acquiring target feature information indicating features of video data to be edited that includes at least video image data, an effect acquisition means for acquiring reference effect information indicating a visual effect included in reference video data that includes features similar to the features indicated by the target feature information and whose popularity satisfies a predetermined condition, and an application means for applying a visual effect to the video data to be edited that is the same as or similar to the visual effect indicated by the reference effect information.

視聴者の嗜好により適合する映像効果を映像データに付与することができる。 Visual effects that better suit the viewer's preferences can be added to video data.

情報処理システムの構成の一例を示すブロック図である。FIG. 1 is a block diagram illustrating an example of a configuration of an information processing system. 情報処理装置のハードウェア構成の一例を示すブロック図である。FIG. 2 is a block diagram showing an example of a hardware configuration of an information processing device. 対象映像データの映像の一例を示す図である。FIG. 2 is a diagram showing an example of an image of target video data. 第1サーバの処理フローの一例を示すフローチャートである。10 is a flowchart illustrating an example of a processing flow of a first server. 再生情報及びタグ情報の一例を示す図である。5A and 5B are diagrams showing an example of playback information and tag information. 映像ジャンル特定用データの一例を示す図である。FIG. 11 is a diagram showing an example of video genre identification data. 参照用映像データに付与された映像効果の一例を示す図である。FIG. 11 is a diagram showing an example of a visual effect applied to reference video data. 参照用映像データの映像の特徴の一例を示す図である。FIG. 4 is a diagram showing an example of video characteristics of reference video data. 映像効果特定用データの一例を示す図である。FIG. 11 is a diagram showing an example of visual effect specifying data. 情報処理装置の処理フローの一例を示すフローチャートである。11 is a flowchart illustrating an example of a processing flow of an information processing device. 対象映像データの映像の一例を示す図である。FIG. 2 is a diagram showing an example of an image of target video data. 参照用映像データに付与された映像効果の一例を示す図である。FIG. 11 is a diagram showing an example of a visual effect applied to reference video data. 参照用映像データの映像の特徴の一例を示す図である。FIG. 4 is a diagram showing an example of video characteristics of reference video data. 映像効果特定用データの一例を示す図である。FIG. 11 is a diagram showing an example of visual effect specifying data. 対象映像データの映像の一例を示す図である。FIG. 2 is a diagram showing an example of an image of target video data. 参照用映像データに付与された映像効果の一例を示す図である。FIG. 11 is a diagram showing an example of a visual effect applied to reference video data. 参照用映像データの映像の特徴の一例を示す図である。FIG. 4 is a diagram showing an example of video characteristics of reference video data. 映像効果特定用データの一例を示す図である。FIG. 11 is a diagram showing an example of visual effect specifying data.

以下、添付図面を参照して本開示の技術の実施形態を詳しく説明する。尚、以下の実施形態は、本開示の技術を限定するものでなく、また本実施形態で説明されている特徴の組み合わせの全てが本開示の技術の解決手段に必須のものとは限らない。なお、同一の構成要素には同一の符号を付して、説明を省略する。 Below, the embodiments of the technology disclosed herein are described in detail with reference to the attached drawings. Note that the following embodiments do not limit the technology disclosed herein, and not all of the combinations of features described in the embodiments are necessarily essential to the solution of the technology disclosed herein. Note that the same components are given the same reference numerals and descriptions are omitted.

[実施形態1]
<情報処理システムの構成>
図1乃至10を参照して、実施形態1に係る情報処理システム1について説明する。図1は、実施形態1に係る情報処理システム1の構成の一例を示すブロック図である。情報処理システム1は、情報処理装置100、第1サーバ110、及び第2サーバ120を備える。情報処理装置100、第1サーバ110、及び第2サーバ120は、LAN(local area network)、無線LAN、又はインターネット回線等を介して、互いに通信可能に互いに接続されている。情報処理装置100は、パーソナルコンピュータ(PC)、タブレット端末、又はスマートフォン等のコンピュータにより構成される、ユーザにより操作される装置である。情報処理装置100の詳細については後述する。
[Embodiment 1]
<Configuration of Information Processing System>
An information processing system 1 according to the first embodiment will be described with reference to Figs. 1 to 10. Fig. 1 is a block diagram showing an example of the configuration of the information processing system 1 according to the first embodiment. The information processing system 1 includes an information processing device 100, a first server 110, and a second server 120. The information processing device 100, the first server 110, and the second server 120 are connected to each other so as to be able to communicate with each other via a local area network (LAN), a wireless LAN, an Internet line, or the like. The information processing device 100 is a device that is configured by a computer such as a personal computer (PC), a tablet terminal, or a smartphone, and is operated by a user. Details of the information processing device 100 will be described later.

第2サーバ120は、PC等のコンピュータ、又はクラウドサーバ等により構成される装置であって、動画像のデータ(以下「動画像データ」とも呼ぶ。)を少なくとも含む映像のデータ(以下「映像データ」とも呼ぶ。)の配信サービスを提供する。以下、映像データは、動画像データ及び音声データを含むものとして説明する。第2サーバ120は、情報処理装置100等の外部装置からの、映像データの登録要求、登録されている映像データの検索要求、又は、登録されている映像データの取得要求等のコマンドを受信して、受信したコマンドに対応する動作を行う。 The second server 120 is a device configured by a computer such as a PC, a cloud server, etc., and provides a distribution service for video data (hereinafter also referred to as "video data") that includes at least moving image data (hereinafter also referred to as "moving image data"). In the following description, video data will be described as including moving image data and audio data. The second server 120 receives commands such as a request to register video data, a request to search for registered video data, or a request to obtain registered video data from an external device such as the information processing device 100, and performs an operation corresponding to the received command.

例えば、ユーザは、情報処理装置100を用いて、第2サーバ120に登録された複数の映像データのうち、再生を所望する映像データを選択する。情報処理装置100は、ユーザが選択した映像データを取得するための取得要求のコマンドを第2サーバ120に対して送信する。具体的には、情報処理装置100は、ユーザが選択した映像データを一意に特定可能な映像ID(identifier)等を付した取得要求のコマンドを第2サーバ120に対して送信する。第2サーバ120は、取得要求のコマンドを受信して、受信した取得要求のコマンドに対応する映像データを情報処理装置100に対して送信する。映像の再生の際に、映像データに含まれる動画像データ及び音声データがレンダリングされて、動画像と音声とが同期して再生される。 For example, a user uses the information processing device 100 to select video data that the user desires to play from among multiple pieces of video data registered in the second server 120. The information processing device 100 transmits to the second server 120 an acquisition request command to acquire the video data selected by the user. Specifically, the information processing device 100 transmits to the second server 120 an acquisition request command with a video ID (identifier) or the like that can uniquely identify the video data selected by the user. The second server 120 receives the acquisition request command and transmits to the information processing device 100 the video data corresponding to the received acquisition request command. When playing the video, the video data and audio data included in the video data are rendered, and the video and audio are played in sync.

また、例えば、ユーザは、情報処理装置100を用いて、所望の映像データを第2サーバ120に登録する。具体的には、例えば、ユーザは、情報処理装置100を用いて、図1には不図示の記憶装置に記憶されている1以上の映像データから所望の映像データを選択する。情報処理装置100は、第2サーバ120に対して、登録要求のコマンドと選択した映像データとを送信する。第2サーバ120は、登録要求のコマンドと映像データとを受信して、受信した当該映像データを図1には不図示の記憶装置に記憶させて、当該映像データを登録する。 Also, for example, a user uses the information processing device 100 to register desired video data in the second server 120. Specifically, for example, a user uses the information processing device 100 to select desired video data from one or more video data stored in a storage device not shown in FIG. 1. The information processing device 100 transmits a registration request command and the selected video data to the second server 120. The second server 120 receives the registration request command and the video data, stores the received video data in a storage device not shown in FIG. 1, and registers the video data.

ユーザは、第2サーバ120に映像データを登録する際に、映像データの検索等に用いられる、映像のジャンルを特定するためのタグ情報(以下「タグ情報」と呼ぶ。)を付与してもよい。例えば、この場合、情報処理装置100は、第2サーバ120に対して、登録要求のコマンド、映像データ、及びタグ情報を送信する。第2サーバ120は、これらを受信して、受信した映像データとタグ情報とを対応付けて上述の記憶装置に記憶させて、当該映像データを登録する。以下、第2サーバ120に登録されている映像データは、1つ以上のタグ情報が対応付けられているものとして説明する。また、第2サーバ120は、タグ情報の他に、映像データごとの再生回数、お気に入りへの登録数、又は、良い若しくは悪い等の評価値等の、映像データの再生の状態を示す情報を管理して、当該情報を当該映像データに対応付けて、上述の記憶装置に記憶させる。映像データの再生の状態を示す情報(以下「再生情報」と呼ぶ。)は、上述のものに限定されるものではなく、映像データに対する視聴者からのコメント、映像データの視聴時に視聴者から投じられた投げ銭の額等の情報であってもよい。 When registering video data in the second server 120, the user may assign tag information (hereinafter referred to as "tag information") for identifying the genre of the video, which is used for searching for the video data, etc. In this case, for example, the information processing device 100 transmits a registration request command, video data, and tag information to the second server 120. The second server 120 receives these, associates the received video data with the tag information, stores them in the above-mentioned storage device, and registers the video data. Hereinafter, the video data registered in the second server 120 will be described as being associated with one or more tag information. In addition to the tag information, the second server 120 manages information indicating the playback status of the video data, such as the number of times each video data has been played, the number of times it has been registered in favorites, or an evaluation value such as good or bad, and associates the information with the video data and stores it in the above-mentioned storage device. The information indicating the playback status of the video data (hereinafter referred to as "playback information") is not limited to the above, and may be information such as comments from viewers on the video data, or the amount of tips given by viewers when watching the video data.

第1サーバ110は、第2サーバ120から複数の映像データを取得する。以下、第1サーバ110が第2サーバ120から取得する映像データを「参照用映像データ」と呼び、参照用映像データに含まれる動画像データを「参照用動画像データ」、及び参照用映像データに含まれる音声データを「参照用音声データ」と呼ぶ。第1サーバ110は、参照用映像データを解析することにより、参照用映像データの特徴を示す情報(以下「映像特徴情報」と呼ぶ。)、及び、参照用映像データに付与されている映像効果を示す情報(以下「映像効果情報」と呼ぶ。)を取得する。第1サーバ110は、取得した映像特徴情報と映像効果情報とを対応付けて、図1には不図示の記憶装置に映像特徴情報及び映像効果情報を記憶させる。第1サーバ110は、映像特徴情報及び映像効果情報を記憶させる際に、参照用映像データに対応するタグ情報又は再生情報等の参照用映像データに関連する情報を対応付けてもよい。 The first server 110 acquires a plurality of pieces of video data from the second server 120. Hereinafter, the video data acquired by the first server 110 from the second server 120 will be referred to as "reference video data", the video data included in the reference video data will be referred to as "reference video data", and the audio data included in the reference video data will be referred to as "reference audio data". The first server 110 analyzes the reference video data to acquire information indicating the characteristics of the reference video data (hereinafter referred to as "video feature information") and information indicating the video effects added to the reference video data (hereinafter referred to as "video effect information"). The first server 110 associates the acquired video feature information with the video effect information, and stores the video feature information and the video effect information in a storage device not shown in FIG. 1. When storing the video feature information and the video effect information, the first server 110 may associate information related to the reference video data, such as tag information or playback information, corresponding to the reference video data.

情報処理装置100は、処理対象の映像データ(以下「対象映像データ」と呼ぶ。)を解析することにより、対象映像データの特徴を特定する。また、情報処理装置100は、第1サーバ110から、参照用映像データに対応する映像特徴情報及び映像効果情報を取得して、映像特徴情報及び映像効果情報、並びに、特定した対象映像データの特徴に基づいて、対象映像データに対して映像効果を付与する。 The information processing device 100 analyzes the video data to be processed (hereinafter referred to as "target video data") to identify the characteristics of the target video data. The information processing device 100 also acquires video feature information and video effect information corresponding to the reference video data from the first server 110, and imparts video effects to the target video data based on the video feature information and video effect information, as well as the identified characteristics of the target video data.

<情報処理装置の構成>
情報処理装置100は、機能構成として、映像取得部101、映像解析部102、効果取得部103、効果付与部104、及び映像出力部105を備える。情報処理装置100が機能構成として備える各部の処理は、情報処理装置100に内蔵されたASIC(Application Specific Integrated Circuit)等のハードウェアによってなされる。当該処理は、FPGA(Field Programmable Gate Array)等のハードウェアによってなされるものであってもよい。また、当該処理は、RAM(Random Access Memory)等のメモリと、CPU(Central Processor Unit)等のプロセッサとを用いたソフトウェアによってなされるものであってもよい。情報処理装置100が機能構成として備える各部の処理の詳細については後述する。
<Configuration of information processing device>
The information processing device 100 includes, as functional components, a video acquisition unit 101, a video analysis unit 102, an effect acquisition unit 103, an effect imparting unit 104, and a video output unit 105. The processing of each unit included in the information processing device 100 as a functional component is performed by hardware such as an ASIC (Application Specific Integrated Circuit) built into the information processing device 100. The processing may be performed by hardware such as an FPGA (Field Programmable Gate Array). The processing may also be performed by software using a memory such as a RAM (Random Access Memory) and a processor such as a CPU (Central Processor Unit). Details of the processing of each unit included in the information processing device 100 as a functional component will be described later.

図2を参照して、情報処理装置100が機能構成として備える各部がソフトウェアとして動作する場合の情報処理装置100のハードウェア構成について説明する。図2は、実施形態1に係る情報処理装置100のハードウェア構成の一例を示すブロック図である。情報処理装置100は、コンピュータにより構成されており、当該コンピュータは、図2に一例として示すようにCPU201、ROM202、RAM203、補助記憶装置204、表示部205、操作部206、通信部207、及びバス208を有している。 With reference to FIG. 2, the hardware configuration of the information processing device 100 will be described when each unit that the information processing device 100 has as a functional configuration operates as software. FIG. 2 is a block diagram showing an example of the hardware configuration of the information processing device 100 according to the first embodiment. The information processing device 100 is configured by a computer, and the computer has a CPU 201, a ROM 202, a RAM 203, an auxiliary storage device 204, a display unit 205, an operation unit 206, a communication unit 207, and a bus 208, as shown as an example in FIG. 2.

CPU201は、ROM202又はRAM203等に格納されているプログラム又はデータを用いて当該コンピュータを制御することにより、当該コンピュータを、情報処理装置100が機能構成として備える各部として機能させるプロセッサである。なお、情報処理装置100は、CPU201とは異なる1又は複数の専用のハードウェアを有し、CPU201による処理の少なくとも一部を専用のハードウェアが実行してもよい。専用のハードウェアの例としては、ASIC、FPGA、及びDSP(デジタルシグナルプロセッサ)等がある。ROM202は、変更を必要としないプログラム等を格納するメモリである。RAM203は、補助記憶装置204から供給されるプログラム若しくはデータ、又は通信部207を介して外部から供給されるデータ等を一時記憶するメモリである。補助記憶装置204は、例えばハードディスクドライブにより構成され、プログラム、又は画像データ若しくは音声データ等の種々のデータを記憶する。 The CPU 201 is a processor that controls the computer using programs or data stored in the ROM 202 or the RAM 203, etc., to cause the computer to function as each unit that the information processing device 100 has as a functional configuration. The information processing device 100 may have one or more dedicated hardware units different from the CPU 201, and at least a part of the processing by the CPU 201 may be executed by the dedicated hardware units. Examples of the dedicated hardware units include ASICs, FPGAs, and DSPs (digital signal processors). The ROM 202 is a memory that stores programs that do not require modification. The RAM 203 is a memory that temporarily stores programs or data supplied from the auxiliary storage device 204, or data supplied from the outside via the communication unit 207. The auxiliary storage device 204 is, for example, a hard disk drive, and stores programs, or various data such as image data or audio data.

表示部205は、例えば液晶ディスプレイ又はLED等により構成され、ユーザが情報処理装置100を操作、又は情報処理装置100における処理の状態を閲覧するためのGUI(Graphical User Interface)等を表示する。操作部206は、例えばキーボード、マウス、ジョイスティック、又はタッチパネル等により構成され、ユーザによる操作を受けて各種の指示をCPU201に入力する。CPU201は、表示部205を制御する表示制御部、及び操作部206を制御する操作制御部としても動作する。 The display unit 205 is configured, for example, by a liquid crystal display or LEDs, and displays a GUI (Graphical User Interface) or the like for the user to operate the information processing device 100 or to view the status of processing in the information processing device 100. The operation unit 206 is configured, for example, by a keyboard, mouse, joystick, touch panel, or the like, and inputs various instructions to the CPU 201 in response to operations by the user. The CPU 201 also operates as a display control unit that controls the display unit 205, and as an operation control unit that controls the operation unit 206.

通信部207は、情報処理装置100と外部の装置との間の、データ等の送受信等の通信に用いられる。例えば、情報処理装置100が外部の装置と有線接続される場合には、通信用のケーブルが通信部207に接続される。情報処理装置100が外部の装置と無線通信する機能を有する場合には、通信部207はアンテナを備える。バス208は、情報処理装置100がハードウェア構成として備える各部同士をつないで情報を伝達する。実施形態1では、表示部205及び操作部206は、情報処理装置100の内部に存在するものとして説明するが、表示部205及び操作部206の少なくとも一方は、情報処理装置100の外部に別の装置として存在していてもよい。 The communication unit 207 is used for communication such as sending and receiving data between the information processing device 100 and an external device. For example, when the information processing device 100 is connected to an external device by wire, a communication cable is connected to the communication unit 207. When the information processing device 100 has a function of wireless communication with an external device, the communication unit 207 is equipped with an antenna. The bus 208 connects each unit that the information processing device 100 has as a hardware configuration to transmit information. In the first embodiment, the display unit 205 and the operation unit 206 are described as being present inside the information processing device 100, but at least one of the display unit 205 and the operation unit 206 may be present as a separate device outside the information processing device 100.

<第1サーバの構成>
第1サーバ110は、機能構成として、映像取得部111、人気度取得部112、映像解析部113、及び効果出力部114を備える。第1サーバ110が機能構成として備える各部の処理は、情報処理装置100に内蔵されたASIC又はFPGA等のハードウェアによってなされる。当該処理は、RAM等のメモリとCPU等のプロセッサとを用いたソフトウェアによってなされるものであってもよい。具体的には、第1サーバ110が機能構成として備える各部がソフトウェアとして動作する場合、例えば、第1サーバ110は、図2に示すハードウェアと同様のハードウェア構成を備える。
<Configuration of First Server>
The first server 110 includes, as its functional components, a video acquisition unit 111, a popularity acquisition unit 112, a video analysis unit 113, and an effect output unit 114. The processing of each unit included in the first server 110 as its functional components is performed by hardware such as an ASIC or FPGA built into the information processing device 100. The processing may be performed by software using a memory such as a RAM and a processor such as a CPU. Specifically, when each unit included in the first server 110 as its functional components operates as software, for example, the first server 110 includes a hardware configuration similar to the hardware shown in FIG. 2.

<機能構成として備える各部の処理>
まず、第1サーバ110が機能構成として備える各部の処理について説明する。映像取得部111は、参照用映像データを取得する。具体的には、例えば、映像取得部111は、参照用映像データを、第2サーバ120から取得する。映像取得部111は、参照用映像データに加えて、当該参照用映像データの再生情報についても取得する。また、映像取得部111は、参照用映像データ及び再生情報に加えて、映像データのジャンルを特定するためのタグ情報等についても取得してもよい。以下、映像取得部111は、参照用映像データ、並びに、参照用映像データに対応する再生情報及びタグ情報を取得するものとして説明する。人気度取得部112は、再生情報に基づいて人気度を算出することにより再生情報に対応する参照用映像データの人気度を取得する。人気度の算出方法については後述する。
<Processing of each unit provided as a functional configuration>
First, the processing of each unit included in the first server 110 as a functional configuration will be described. The video acquisition unit 111 acquires reference video data. Specifically, for example, the video acquisition unit 111 acquires the reference video data from the second server 120. The video acquisition unit 111 acquires not only the reference video data but also the playback information of the reference video data. The video acquisition unit 111 may also acquire tag information for identifying the genre of the video data in addition to the reference video data and the playback information. Hereinafter, the video acquisition unit 111 will be described as acquiring the reference video data, as well as the playback information and tag information corresponding to the reference video data. The popularity acquisition unit 112 acquires the popularity of the reference video data corresponding to the playback information by calculating the popularity based on the playback information. A method of calculating the popularity will be described later.

映像解析部113は、人気度取得部112により取得された人気度が所定の条件を満たす参照用映像データについて、映像に付与されている映像効果、及び映像の特徴を特定するための解析を行う。映像解析部113は、映像効果の特定、及び映像の特徴の特定の解析に加えて、映像のジャンル等を特定するための解析を行ってもよい。映像効果、映像の特徴、及び映像のジャンルのそれぞれを特定するための解析は、例えば、予め用意された、映像効果解析用データ、映像特徴解析用データ、又は映像ジャンル特定用データに基づいて行われる。映像効果解析用データ、映像特徴解析用データ、及び映像ジャンル特定用データのそれぞれは、第1サーバ110の補助記憶装置204等に予め記憶されている。映像解析部113は、解析結果に基づいて、参照用映像データに対応する映像効果情報及び映像特徴情報を生成する。更に、映像解析部113は、これらの情報及び人気度取得部112により取得された人気度を互いに対応付けて、映像効果特定用データとして第1サーバ110の補助記憶装置204等に記憶させる。 The video analysis unit 113 performs an analysis to identify the video effects and video features applied to the reference video data whose popularity level acquired by the popularity acquisition unit 112 satisfies a predetermined condition. In addition to the analysis to identify the video effects and the video features, the video analysis unit 113 may perform an analysis to identify the genre of the video. The analysis to identify the video effects, the video features, and the video genre is performed based on, for example, pre-prepared data for video effect analysis, data for video feature analysis, or data for video genre identification. The data for video effect analysis, data for video feature analysis, and data for video genre identification are each pre-stored in the auxiliary storage device 204 of the first server 110. The video analysis unit 113 generates video effect information and video feature information corresponding to the reference video data based on the analysis result. Furthermore, the video analysis unit 113 associates these pieces of information with the popularity level acquired by the popularity acquisition unit 112, and stores them in the auxiliary storage device 204 of the first server 110 as data for video effect identification.

映像解析部113は、映像効果情報及び映像特徴情報に加えて、参照用映像データの映像のジャンルを示す情報(以下「映像ジャンル情報」と呼ぶ。)についても生成する。映像解析部113は、生成した映像ジャンル情報を映像効果特定用データに含めて第1サーバ110の補助記憶装置204等に記憶させる。なお、映像解析部113は、解析による映像のジャンルの特定に替えて、映像取得部111により取得されるタグ情報に基づいて映像のジャンルの特定し、映像ジャンル情報を生成してもよい。映像効果特定用データは、映像取得部111が取得する複数の参照用映像データのうちの、人気度取得部112により取得された人気度が所定の条件を満たす複数の参照用映像データについて、参照用映像データごとに生成される。効果出力部114は、情報処理装置100からの要求に応じて、映像効果特定用データを情報処理装置100に出力する。 In addition to the video effect information and video feature information, the video analysis unit 113 also generates information indicating the genre of the video of the reference video data (hereinafter referred to as "video genre information"). The video analysis unit 113 stores the generated video genre information in the auxiliary storage device 204 of the first server 110, etc., by including it in the data for video effect identification. Note that the video analysis unit 113 may identify the genre of the video based on tag information acquired by the video acquisition unit 111 and generate the video genre information, instead of identifying the genre of the video by analysis. The data for video effect identification is generated for each reference video data for multiple reference video data acquired by the video acquisition unit 111, the popularity acquired by the popularity acquisition unit 112 of which satisfies a predetermined condition. The effect output unit 114 outputs the data for video effect identification to the information processing device 100 in response to a request from the information processing device 100.

次に、情報処理装置100が機能構成として備える各部の処理について説明する。映像取得部101は、対象映像データを取得する。対象映像データは、例えば、情報処理装置100の補助記憶装置204に予め記憶されており、映像取得部101は、ユーザ操作により指定された対象映像データを補助記憶装置204から読み出すことにより、対象映像データを取得する。映像取得部101は、通信部207を介して、図1には不図示の外部装置等から対象映像データを取得してもよい。タグ情報が、取得する対象映像データに予め対応付けられている場合、映像取得部101は、対象映像データに加えて、対応するタグ情報を取得してもよい。 Next, the processing of each unit that the information processing device 100 has as a functional configuration will be described. The video acquisition unit 101 acquires target video data. The target video data is, for example, pre-stored in the auxiliary storage device 204 of the information processing device 100, and the video acquisition unit 101 acquires the target video data by reading out the target video data specified by a user operation from the auxiliary storage device 204. The video acquisition unit 101 may acquire the target video data from an external device, etc. not shown in FIG. 1, via the communication unit 207. If tag information is pre-associated with the target video data to be acquired, the video acquisition unit 101 may acquire the corresponding tag information in addition to the target video data.

映像解析部102は、映像取得部101により取得された対象映像データについて、映像の特徴、及び映像のジャンルを特定するための解析を行う。映像解析部102は、映像の特徴、及び映像のジャンルのそれぞれを特定するための解析は、例えば、予め用意された、映像特徴解析用データ又は映像ジャンル特定用データに基づいて行われる。映像特徴解析用データ及び映像ジャンル特定用データのそれぞれは、情報処理装置100の補助記憶装置204等に予め記憶されている。映像解析部102は、特定した、対象映像データの映像の特徴を示す情報(映像特徴情報)、及び映像のジャンルを示す情報(映像ジャンル情報)を生成する。なお、映像解析部102は、解析による映像のジャンルの特定に替えて、映像取得部101により取得される、対象映像データに対応するタグ情報に基づいて対象映像データの映像のジャンルを特定し、映像ジャンル情報を生成してもよい。 The video analysis unit 102 performs an analysis of the target video data acquired by the video acquisition unit 101 to identify the video characteristics and the video genre. The analysis of the video analysis unit 102 to identify the video characteristics and the video genre is performed, for example, based on video characteristic analysis data or video genre identification data prepared in advance. The video characteristic analysis data and the video genre identification data are each stored in advance in the auxiliary storage device 204 of the information processing device 100, etc. The video analysis unit 102 generates information indicating the identified video characteristics of the target video data (video characteristic information) and information indicating the video genre (video genre information). Note that instead of identifying the video genre through analysis, the video analysis unit 102 may identify the video genre of the target video data based on tag information corresponding to the target video data acquired by the video acquisition unit 101, and generate video genre information.

効果取得部103は、第1サーバ110から映像効果特定用データを取得する。具体的には、効果取得部103は、複数の参照用映像データのそれぞれに対応する映像効果特定用データのうちから、対象映像データの映像の特徴に類似する特徴を含む参照用映像データに対応する映像効果特定用データを第1サーバ110から取得する。効果取得部103は、以下のようにして、対象映像データの映像の特徴に類似する特徴を含む参照用映像データに対応する映像効果特定用データを取得してもよい。例えば、まず、効果取得部103は、複数の参照用映像データのそれぞれに対応する映像効果特定用データを第1サーバ110から取得する。続いて、効果取得部103は、取得した複数の映像効果特定用データのうちから、対象映像データの映像の特徴に類似する特徴を含む参照用映像データに対応する映像効果特定用データを取得する。 The effect acquisition unit 103 acquires data for identifying visual effects from the first server 110. Specifically, the effect acquisition unit 103 acquires data for identifying visual effects from the first server 110, which corresponds to reference video data including features similar to the features of the video of the target video data, from among the data for identifying visual effects corresponding to each of the multiple reference video data. The effect acquisition unit 103 may acquire data for identifying visual effects corresponding to reference video data including features similar to the features of the video of the target video data, as follows. For example, first, the effect acquisition unit 103 acquires data for identifying visual effects from the first server 110, which corresponds to each of the multiple reference video data. Next, the effect acquisition unit 103 acquires data for identifying visual effects corresponding to reference video data including features similar to the features of the video of the target video data, from among the multiple acquired data for identifying visual effects.

また、例えば、まず、効果取得部103は、対象映像データ及び参照用映像データのそれぞれに対応する映像ジャンル情報に基づいて、対象映像データのジャンルと一致するジャンルの参照用映像データを検索する。続いて、効果取得部103は、当該検索により得られた複数の参照用映像データのそれぞれに対応する映像効果特定用データのうちから、対象映像データの映像の特徴に類似する特徴を含む参照用映像データに対応する映像効果特定用データを取得する。また、例えば、まず、効果取得部103は、対象映像データ及び参照用映像データのそれぞれに対応する映像ジャンル情報に基づいて、対象映像データのジャンルと一致するジャンルの参照用映像データを検索する。続いて、効果取得部103は、当該検索により得られた複数の参照用映像データのそれぞれに対応する映像効果特定用データを第1サーバ110から取得する。続いて、取得した複数の映像効果特定用データのうちから、対象映像データの映像の特徴に類似する特徴を含む参照用映像データに対応する映像効果特定用データを取得する。 For example, first, the effect acquisition unit 103 searches for reference video data of a genre that matches the genre of the target video data based on video genre information corresponding to each of the target video data and the reference video data. Next, the effect acquisition unit 103 acquires video effect identification data corresponding to reference video data containing features similar to the video features of the target video data from among the video effect identification data corresponding to each of the multiple reference video data obtained by the search. For example, first, the effect acquisition unit 103 searches for reference video data of a genre that matches the genre of the target video data based on video genre information corresponding to each of the target video data and the reference video data. Next, the effect acquisition unit 103 acquires video effect identification data corresponding to each of the multiple reference video data obtained by the search from the first server 110. Next, from among the multiple acquired video effect identification data, acquires video effect identification data corresponding to reference video data containing features similar to the video features of the target video data.

効果付与部104は、対象映像データに映像効果を付与する。具体的には、効果付与部104は、効果取得部103により取得された映像効果特定用データに含まれる映像効果を示す情報に基づいて、当該映像効果と同様の映像効果を対象映像データに付与する。ここで、同様の映像効果とは、映像効果特定用データに含まれる映像効果を示す情報が示す映像効果と同一のものに限定されるものではなく、当該映像効果に類似するものも含む。映像出力部105は、効果付与部104により映像効果が付与された後の対象映像データ(以下「付与後映像データ」と呼ぶ。)を出力する。具体的には、例えば、映像出力部105は、第2サーバ120に付与後映像データを出力して、付与後映像データを第2サーバ120に登録させる。映像出力部105は、情報処理装置100の補助記憶装置204等に付与後映像データを出力して、補助記憶装置204等に付与後映像データを記憶させてもよい。 The effect imparting unit 104 imparts a visual effect to the target video data. Specifically, the effect imparting unit 104 imparts a visual effect similar to the visual effect to the target video data based on information indicating the visual effect included in the data for identifying the visual effect acquired by the effect acquisition unit 103. Here, the similar visual effect is not limited to the same visual effect as the visual effect indicated by the information indicating the visual effect included in the data for identifying the visual effect, but also includes a visual effect similar to the visual effect. The video output unit 105 outputs the target video data after the visual effect is imparted by the effect imparting unit 104 (hereinafter referred to as "imparted video data"). Specifically, for example, the video output unit 105 outputs the imparted video data to the second server 120 and causes the imparted video data to be registered in the second server 120. The video output unit 105 may output the imparted video data to the auxiliary storage device 204 or the like of the information processing device 100 and cause the imparted video data to be stored in the auxiliary storage device 204 or the like.

以下、対象映像データは、ビデオゲームの実況を行う映像(以下「ゲーム実況映像」と呼ぶ。)のデータであるものとして説明する。図3は、実施形態1に係る対象映像データの映像300の一例を示す図である。具体的には、図3(a)は、対象映像データの映像300であって、ゲーム実況映像の一例を示す図であり、図3(b)は、図3(a)に示す対象映像データに対応する付与後映像データの映像310の一例を示す図である。 In the following, the target video data will be described as data on video of a live commentary of a video game (hereinafter referred to as "live game video"). Figure 3 is a diagram showing an example of a video 300 of the target video data according to embodiment 1. Specifically, Figure 3(a) is a diagram showing an example of a video 300 of the target video data, which is a live game video, and Figure 3(b) is a diagram showing an example of a video 310 of the post-addition video data corresponding to the target video data shown in Figure 3(a).

図3(a)に示す映像300の画像領域は、ビデオゲームの実況を行う者(以下「実況者」と呼ぶ。)301が映る画像領域302、及びビデオゲームの画面303が映る画像領域304の2つの画像領域に分かれている。情報処理装置100は、対象映像データの映像の特徴を解析し、解析した映像の特徴に適した映像効果を付与して付与後映像データを生成する。図3(b)に示す映像310では、対象映像データの映像の特徴に合わせた映像効果として、実況者301の背景312の色が、図3(a)に示す画像領域302における実況者301の背景の色に対して変化している。また、図3(b)に示す映像310では、対象映像データの映像の特徴に合わせた映像効果として、テロップ315が、図3(a)に示す映像300に対して追加されている。また、図3(b)に示す映像310では、対象映像データの映像の特徴に合わせた映像効果として、効果音316が、図3(a)に示す映像300に対応する音声に対して追加されている。 The image area of the video 300 shown in FIG. 3(a) is divided into two image areas: an image area 302 showing a person who is commenting on the video game (hereinafter referred to as "commentator") 301, and an image area 304 showing a video game screen 303. The information processing device 100 analyzes the characteristics of the video of the target video data, and generates video data after the effects are applied by applying a video effect suitable for the analyzed video characteristics. In the video 310 shown in FIG. 3(b), the color of the background 312 of the commentator 301 is changed from the color of the background of the commentator 301 in the image area 302 shown in FIG. 3(a) as a video effect that matches the video characteristics of the target video data. In the video 310 shown in FIG. 3(b), a caption 315 is added to the video 300 shown in FIG. 3(a) as a video effect that matches the video characteristics of the target video data. In addition, in the image 310 shown in FIG. 3(b), a sound effect 316 is added to the audio corresponding to the image 300 shown in FIG. 3(a) as a visual effect that matches the characteristics of the image of the target video data.

<第1サーバの動作>
図4を参照して、第1サーバ110の動作について説明する。図4は、実施形態1に係る第1サーバ110の処理フローの一例を示すフローチャートである。具体的には、図4は、第1サーバ110における映像効果特定用データの生成処理の処理フローを示している。第1サーバ110は、当該フローチャートの処理を繰り返すことにより、複数の参照用映像データのそれぞれに対応する映像効果特定用データを生成する。なお、以下の説明において記号「S」はステップを意味する。まず、S401にて、映像取得部111は、参照用映像データを取得する。次に、S402にて、映像取得部111は、S401にて取得した参照用映像データに対応する再生情報及びタグ情報を取得する。
<Operation of First Server>
The operation of the first server 110 will be described with reference to Fig. 4. Fig. 4 is a flowchart showing an example of a processing flow of the first server 110 according to the first embodiment. Specifically, Fig. 4 shows a processing flow of a generation process of data for identifying visual effects in the first server 110. The first server 110 generates data for identifying visual effects corresponding to each of a plurality of pieces of reference video data by repeating the process of the flowchart. Note that in the following description, the symbol "S" means a step. First, in S401, the video acquisition unit 111 acquires reference video data. Next, in S402, the video acquisition unit 111 acquires playback information and tag information corresponding to the reference video data acquired in S401.

図5を参照して、再生情報及びタグ情報について説明する。図5は、再生情報及びタグ情報の一例を示す図である。映像ID501は、参照用映像データを識別するための情報である。再生回数502は、再生情報の一例であって、参照用映像データがこれまでに再生された回数を示す情報である。肯定的なコメント数503は、再生情報の一例であって、これまでに参照用映像データの映像を視聴した視聴者のコメントのうちの、肯定的なコメントの数を示す情報である。否定的なコメント数504は、再生情報の一例であって、これまでに参照用映像データの映像を視聴した視聴者のコメントのうち、否定的なコメントの数を示す情報である。タグ505は、参照用映像データの映像のジャンルを特定するための情報であって、参照用映像データの登録者が予め設定したタグ情報に対応する情報である。再生回数502、肯定的なコメント数503、及び否定的なコメント数504は、人気度取得部112による参照用映像データの人気度の取得の際に用いられる。また、タグ505は、参照用映像データのジャンルを特定する際に用いられる。 The playback information and tag information will be described with reference to FIG. 5. FIG. 5 is a diagram showing an example of the playback information and tag information. The video ID 501 is information for identifying the reference video data. The number of plays 502 is an example of playback information, and is information indicating the number of times the reference video data has been played so far. The number of positive comments 503 is an example of playback information, and is information indicating the number of positive comments among the comments of viewers who have watched the video of the reference video data so far. The number of negative comments 504 is an example of playback information, and is information indicating the number of negative comments among the comments of viewers who have watched the video of the reference video data so far. The tag 505 is information for identifying the genre of the video of the reference video data, and is information corresponding to the tag information previously set by the registrant of the reference video data. The number of plays 502, the number of positive comments 503, and the number of negative comments 504 are used when the popularity acquisition unit 112 acquires the popularity of the reference video data. The tag 505 is also used when identifying the genre of the reference video data.

S402の後、S403にて、人気度取得部112は、S402にて取得した再生情報を用いて、S401にて取得した参照用映像データの人気度307を算出する。人気度取得部112は、例えば、単純に、再生回数を人気度としてもよい。また、例えば、他の参照用映像データとの相対的な再生回数を人気度としてもよい。具体的には、参照用映像データの再生回数をY,他の参照用映像データの再生回数のうちの最大の再生回数をXmax、最小の再生回数をXmin、人気度をZとして、例えば、人気度取得部112は、次式(1)のように再生回数を正規化して人気度を求める。
Z=(Y―Xmin)/(Xmax―Xmin) ・・・ 式(1)
After S402, in S403, the popularity acquiring unit 112 calculates the popularity 307 of the reference video data acquired in S401 using the playback information acquired in S402. The popularity acquiring unit 112 may, for example, simply use the number of playbacks as the popularity. Alternatively, for example, the popularity acquiring unit 112 may use the number of playbacks relative to other reference video data as the popularity. Specifically, the number of playbacks of the reference video data is Y, the maximum number of playbacks among the number of playbacks of the other reference video data is Xmax, the minimum number of playbacks is Xmin, and the popularity is Z. For example, the popularity acquiring unit 112 normalizes the number of playbacks as shown in the following formula (1) to obtain the popularity.
Z = (Y - Xmin) / (Xmax - Xmin) ... formula (1)

式(1)の場合、Zの値が大きいほど人気度が高く、Zの値が小さいほど人気度が低いことを表している。人気度の算出方法は、上述のものに限定されるものではない。例えば、再生回数をX、肯定的なコメント数をY、重みの係数をwとして、及び人気度をZとして、次式(2)のように人気度を求めてもよい。
Z=X+wY ・・・ 式(2)
In the case of formula (1), the larger the value of Z, the higher the popularity, and the smaller the value of Z, the lower the popularity. The method of calculating the popularity is not limited to the above. For example, the popularity may be calculated as in the following formula (2) where the number of views is X, the number of positive comments is Y, the weighting coefficient is w, and the popularity is Z.
Z = X + wY ... Equation (2)

また、例えば、否定的なコメント数についても考慮して、式(2)におけるYを(肯定的なコメント数-否定的なコメント数)として人気度を求めてもよい。 In addition, for example, the popularity can be calculated by taking into account the number of negative comments and setting Y in formula (2) as (number of positive comments - number of negative comments).

S403の後、S404にて、映像解析部113は、S403にて取得した人気度が所定の条件を満たすか否かを判定する。具体的には、映像解析部113は、参照用映像データの人気度が所定の閾値以上であるか否かを判定する。S404にて人気度が所定の条件を満たすと判定された場合、映像解析部113は、S405にて、映像解析部113は、S401にて取得した参照用映像データを解析する。映像解析部113は、当該解析により、参照用映像データの映像の特徴、及び参照用映像データに付与されている映像効果を特定し、当該参照用映像データに対応する映像特徴情報及び映像効果情報を生成する。映像解析部113は、生成した映像特徴情報及び映像効果情報を参照用映像データの映像ID及び人気度に対応付けて、映像効果特定用データとして第1サーバ110の補助記憶装置204に記憶させる。 After S403, in S404, the video analysis unit 113 determines whether the popularity acquired in S403 satisfies a predetermined condition. Specifically, the video analysis unit 113 determines whether the popularity of the reference video data is equal to or greater than a predetermined threshold. If it is determined in S404 that the popularity satisfies the predetermined condition, in S405, the video analysis unit 113 analyzes the reference video data acquired in S401. Through this analysis, the video analysis unit 113 identifies the video characteristics of the reference video data and the video effects added to the reference video data, and generates video characteristic information and video effect information corresponding to the reference video data. The video analysis unit 113 associates the generated video characteristic information and video effect information with the video ID and popularity of the reference video data, and stores them in the auxiliary storage device 204 of the first server 110 as video effect identification data.

続いてS405にて、映像解析部113は、参照用映像データを解析することにより、参照用映像データの映像のジャンルの特定を行い、映像ジャンル情報を生成する。映像解析部113は、生成した映像ジャンル情報を映像効果特定用データに含めて第1サーバ110の補助記憶装置204等に記憶させる。なお、映像解析部113は、解析による映像のジャンルの特定に替えて、S402にて取得したタグ情報に基づいて映像のジャンルの特定し、映像ジャンル情報を生成してもよい。 Next, in S405, the video analysis unit 113 analyzes the reference video data to identify the video genre of the reference video data and generate video genre information. The video analysis unit 113 stores the generated video genre information in the auxiliary storage device 204 of the first server 110, etc., together with the data for identifying video effects. Note that instead of identifying the video genre through analysis, the video analysis unit 113 may identify the video genre based on the tag information acquired in S402 and generate video genre information.

図6を参照して、映像のジャンルの特定方法について説明する。図6は、映像のジャンルを特定するための映像ジャンル特定用データ600及び610の一例を示す図である。具体的には、図6(a)は、タグ情報に基づいて映像のジャンルを特定するための映像ジャンル特定用データ600の一例を示す図である。また、図6(b)は、映像データの解析結果に基づいて映像のジャンルを特定するための映像ジャンル特定用データ600の一例を示す図である。 A method for identifying a video genre will be described with reference to FIG. 6. FIG. 6 is a diagram showing an example of video genre identification data 600 and 610 for identifying a video genre. Specifically, FIG. 6(a) is a diagram showing an example of video genre identification data 600 for identifying a video genre based on tag information. Also, FIG. 6(b) is a diagram showing an example of video genre identification data 600 for identifying a video genre based on the analysis results of video data.

図6(a)において、映像ジャンル601は、映像解析部113により特定される映像のジャンルであり、タグ602は、参照用映像データに予め設定されているタグ情報である。映像解析部113は、参照用映像データに設定されているタグ情報に一致するタグ602を映像ジャンル特定用データ600から検索し、検索結果に基づいてタグ602に対応する映像ジャンル601を特定する。図6(b)において、映像ジャンル611は、映像解析部113により特定される映像のジャンルである。また、映像態様612は、参照用映像データの解析結果であって、参照用映像データの映像の態様を示す情報である。まず、映像解析部113は、参照用映像データの解析結果である映像の態様に一致する映像態様612を映像ジャンル特定用データ610から検索する。続いて、映像解析部113は、検索結果に基づいて映像態様612に対応する映像ジャンル611を特定する。 6(a), video genre 601 is the genre of video identified by video analysis unit 113, and tag 602 is tag information previously set in the reference video data. Video analysis unit 113 searches for tag 602 matching tag information set in the reference video data from video genre identification data 600, and identifies video genre 601 corresponding to tag 602 based on the search result. In FIG. 6(b), video genre 611 is the genre of video identified by video analysis unit 113. Video aspect 612 is the analysis result of the reference video data, and is information indicating the aspect of the video of the reference video data. First, video analysis unit 113 searches video genre identification data 610 for video aspect 612 matching the aspect of the video that is the analysis result of the reference video data. Next, video analysis unit 113 identifies video genre 611 corresponding to video aspect 612 based on the search result.

図7を参照して、映像解析部113により特定される、参照用映像データに付与された映像効果について説明する。図7は、映像解析部113により特定される、参照用映像データに付与された映像効果の一例を示す図である。具体的には、図7(a)に示す背景色701は、参照用映像データに動画像の映像効果として付与されている、動画像の背景領域における色の変化の情報である。図7(b)に示すテロップ表現702は、参照用映像データに動画像の映像効果として付与されている、挿入されたテロップの位置、並びに、当該テロップ内の文字の大きさ、色、及び形状等の情報である。図7(c)に示すテロップ内容703は、参照用映像データに動画像の映像効果として付与されている、挿入されたテロップに含まれる文字列の情報である。図7(d)に示す効果音704は、参照用映像データの音声データに映像効果として付与されている音(以下「効果音」と呼ぶ。)の種類を示す情報である。 With reference to FIG. 7, the video effect given to the reference video data, as specified by the video analysis unit 113, will be described. FIG. 7 is a diagram showing an example of the video effect given to the reference video data, as specified by the video analysis unit 113. Specifically, the background color 701 shown in FIG. 7(a) is information on the color change in the background area of the moving image, which is given to the reference video data as a video effect of the moving image. The telop expression 702 shown in FIG. 7(b) is information on the position of the inserted telop, which is given to the reference video data as a video effect of the moving image, and the size, color, shape, etc. of the characters in the telop. The telop content 703 shown in FIG. 7(c) is information on the character string included in the inserted telop, which is given to the reference video data as a video effect of the moving image. The sound effect 704 shown in FIG. 7(d) is information indicating the type of sound (hereinafter referred to as "sound effect") given to the audio data of the reference video data as a video effect.

映像効果は、例えば、動画の背景色、テロップ表現、テロップ内容、及び効果音等の映像効果の種類ごとの、機械学習等の学習により得られた学習モデル等の映像効果解析用データを用いて特定される。映像解析部113が特定する映像効果は、図7に示す映像効果に限定されるものではない。例えば、映像における動画像に対する色調変化、フェードイン若しくはフェードアウト、又はフィルタ等のエフェクト等であってもよい。また、映像の音声におけるBGM(Back Ground Music)、声色、又は抑揚等であってもよい。 The visual effects are identified using data for analyzing visual effects such as a learning model obtained by learning by machine learning or the like for each type of visual effect, such as the background color of the video, the caption expression, the caption content, and sound effects. The visual effects identified by the video analysis unit 113 are not limited to the visual effects shown in FIG. 7. For example, they may be effects such as a color change, fade-in or fade-out, or a filter for the moving image in the video. They may also be background music (BGM), tone of voice, or intonation in the audio of the video.

図8を参照して、映像解析部113により特定される、参照用映像データの映像の特徴について説明する。図8は、映像解析部113により特定される、参照用映像データの映像の特徴の一例を示す図である。具体的には、図8(a)は、映像解析部113により特定される映像の特徴の一例を示す図であって、映像内の発話内容801の一例を示す図である。映像解析部113は、参照用映像データの映像において、映像効果が付与されている期間、又は当該期間の前若しくは後の期間の発話の内容を特定する。当該特定は、例えば、周知の音声の言語認識技術を用いることにより行うことができる。発話の内容を特定する期間は、映像効果が付与されている期間の一部又は全部を含んでいてもよく、映像効果が付与されている期間を含んでいなくてもよい。具体的には、発話の内容を特定する期間は、映像効果が付与されている期間における、始期の5秒前から終期の5秒後まで等のように、例えば、予めその期間を設定しておく。以下、映像解析部113が発話の内容を特定する、映像効果が付与されている期間、又は当該期間の前若しくは後の期間を「映像効果に対応する期間」と表記する。 With reference to FIG. 8, the features of the video of the reference video data identified by the video analysis unit 113 will be described. FIG. 8 is a diagram showing an example of the features of the video of the reference video data identified by the video analysis unit 113. Specifically, FIG. 8(a) is a diagram showing an example of the features of the video identified by the video analysis unit 113, and is a diagram showing an example of the speech content 801 in the video. The video analysis unit 113 identifies the content of the speech in the period in which the visual effect is applied, or the period before or after the period, in the video of the reference video data. The identification can be performed, for example, by using a well-known speech language recognition technology. The period in which the content of the speech is identified may include a part or the whole of the period in which the visual effect is applied, and may not include the period in which the visual effect is applied. Specifically, the period in which the content of the speech is identified is set in advance, for example, from 5 seconds before the start of the period in which the visual effect is applied to 5 seconds after the end of the period in which the visual effect is applied. Hereinafter, the period in which the visual effect is applied, or the period before or after the period in which the video analysis unit 113 identifies the content of the speech, is referred to as the "period corresponding to the visual effect".

映像解析部113は、映像効果に対応する期間における発話の全てを特定してもよいし、取得された映像のジャンルごとに特定する語句を予め設定して、設定した語句のみを映像効果に対応する期間において特定してもよい。例えば、映像のジャンルが「ゲーム実況」である場合、映像解析部113は、発話内容801に示す「負けた」又は「勝った」等の、ゲームの勝敗等に関連する語句だけを特定してもよい。 The video analysis unit 113 may identify all of the speech during the period corresponding to the visual effect, or may pre-set words and phrases to be identified for each genre of the acquired video and identify only the set words and phrases during the period corresponding to the visual effect. For example, if the genre of the video is "game commentary," the video analysis unit 113 may identify only words and phrases related to winning or losing the game, such as "lost" or "won" shown in the speech content 801.

図8(b)は、映像解析部113により特定される映像の特徴の一例を示す図であって、映像内で発話する者(実況者)の感情の起伏の推移を示す感情曲線802の一例を示す図である。感情曲線802の横軸は時間であり、感情曲線802は、映像全体の期間におけるものであってもよく、映像効果に対応する期間におけるものであってもよい。感情曲線802の縦軸は、実況者の感情におけるポジティブな感情を正方向、ネガティブな感情を負方向として、実況者の感情を数値化したもの(以下「ポジティブ度」と呼ぶ。)で表現したものである。人物の感情の数値化は、例えば、BERT(Bidirectional Encoder Representations from Transformers)等を用いた自然言語処理モデル等の周知の音声による感情分析技術を用いて行うことができる。ポジティブな発言の回数とネガティブな発言の回数とに基づいて、ポジティブな発言の回数からネガティブな発言の回数を減じた値をポジティブ度としてもよい。 8B is a diagram showing an example of a feature of a video identified by the video analysis unit 113, and is a diagram showing an example of an emotion curve 802 showing the transition of the emotional ups and downs of a person (commentator) speaking in the video. The horizontal axis of the emotion curve 802 is time, and the emotion curve 802 may be for the entire period of the video, or for a period corresponding to a video effect. The vertical axis of the emotion curve 802 represents the emotion of the commentator quantified (hereinafter referred to as "positivity degree"), with positive emotions in the commentator's emotions being in the positive direction and negative emotions being in the negative direction. The emotion of a person can be quantified using a well-known emotion analysis technique using voice, such as a natural language processing model using BERT (Bidirectional Encoder Representations from Transformers). Based on the number of positive remarks and the number of negative remarks, the value obtained by subtracting the number of negative remarks from the number of positive remarks may be used as the positivity degree.

また、人物の感情の数値化は、実況者の発話だけでなく、映像の動画像に映る実況者の表情に基づいて、周知の表情認識(FER:Facial Expression Recognition)技術を用いて行ってもよい。具体的には、例えば、ポジティブな表情をした回数とネガティブな表情をした回数とに基づいて、ポジティブな表情をした回数からネガティブな表情をした回数を減じた値をポジティブ度とする。また、声の抑揚の大きさ、又は声の大きさ等を数値化し、この数値が、予め定められた基準値より、大きい場合はポジティブな感情であり、小さい場合はネガティブな感情であるものとして、当該数値と基準値との差分をポジティブ度の変化量としてもよい。 The emotions of a person may be quantified not only based on the commentator's speech but also based on the facial expressions of the commentator shown in the video image, using well-known facial expression recognition (FER) technology. Specifically, for example, the positivity level may be determined by subtracting the number of times a positive expression was made from the number of times a negative expression was made, based on the number of times a positive expression was made and the number of times a negative expression was made. In addition, the intonation of the voice or the volume of the voice may be quantified, and if this value is greater than a predetermined reference value, it may be determined that the emotion is positive, and if it is less than this value, it may be determined that the emotion is negative, and the difference between this value and the reference value may be determined as the change in positivity level.

図8(c)は、感情曲線802の生成方法の一例を説明するための図である。図8(c)に示す時系列図803は、映像の再生時刻に応じた映像の移り変わりの一例を示している。時系列図803には、一例として、再生時刻が5秒、10秒、及び15秒の時点におけるフレーム805と、各再生時刻の周辺の期間における、実況者の発話の内容804とが示されている。具体的には、時系列図803には、実況者の発話の内容804として、「良い感じ」、「やったー!」、及び「ダメだな」という語句が示されている。図8(d)は、各再生時刻におけるポジティブ度の一例を示す図である。具体的には、図8(d)には、「良い感じ」、「やったー!」、及び「ダメだな」という各語句に対応するポジティブ度の算出結果を、それぞれ2、4、及び-2とした対応表806が示されている。こうして得られた再生時刻とポジティブ度との対応関係に基づいて、感情曲線802が生成される。 8(c) is a diagram for explaining an example of a method for generating an emotion curve 802. A time series diagram 803 shown in FIG. 8(c) shows an example of a video transition according to the playback time of the video. The time series diagram 803 shows, as an example, frames 805 at playback times of 5 seconds, 10 seconds, and 15 seconds, and the content 804 of the commentator's speech in the period around each playback time. Specifically, the time series diagram 803 shows the phrases "feeling good," "Yay!", and "Not good" as the content 804 of the commentator's speech. FIG. 8(d) is a diagram showing an example of the positivity at each playback time. Specifically, FIG. 8(d) shows a correspondence table 806 in which the calculation results of the positivity corresponding to each of the phrases "feeling good," "Yay!", and "Not good" are 2, 4, and -2, respectively. Based on the correspondence between the playback time and the positivity obtained in this way, an emotion curve 802 is generated.

S405の後、S406にて、映像解析部113は、S403にて算出した人気度、並びに、S405にて生成した映像効果情報及び映像特徴情報に基づいて、例えば、S405にて特定した映像のジャンルごとに、映像効果特定用データを生成(更新)する。図9は、映像効果特定用データ900の一例を示す図である。映像特徴901、及び、映像効果902のそれぞれは、映像解析部113により生成された映像効果情報及び映像特徴情報が示す映像の特徴及び映像効果である。また、人気度903は、人気度取得部112が取得した人気度である。S406の後、又はS404にて人気度が所定の条件を満たさないと判定された場合、第1サーバ110は、図4に示すフローチャートを終了し、終了後にS401に戻って、当該フローチャートの処理を繰り返して実行する。 After S405, in S406, the video analysis unit 113 generates (updates) data for identifying video effects, for example, for each genre of video identified in S405, based on the popularity calculated in S403 and the video effect information and video feature information generated in S405. FIG. 9 is a diagram showing an example of data for identifying video effects 900. Video feature 901 and video effect 902 are the video effect information generated by the video analysis unit 113 and the feature and video effect of the video feature information, respectively. Also, popularity 903 is the popularity acquired by the popularity acquisition unit 112. After S406, or if it is determined in S404 that the popularity does not satisfy the predetermined condition, the first server 110 ends the flowchart shown in FIG. 4, and after the end, returns to S401 and repeats the processing of the flowchart.

本実施形態では、人気度が参照用映像データに対する人気度であるものとして説明したが、参照用映像データの人気度は、これに限定されるものではない。例えば、人気度取得部112は、映像効果に対応する期間における参照用映像データの人気度を取得してもよい。具体的には、例えば、人気度取得部112は、生配信されている参照用映像データの映像に付与されている映像効果を解析し、映像効果に対応する期間における投げ銭の総額等を参照用映像データの人気度としてもよい。また、例えば、人気度取得部112は、映像効果に対応する期間における肯定的なコメントの数を人気度としてもよい。 In this embodiment, the popularity has been described as the popularity of the reference video data, but the popularity of the reference video data is not limited to this. For example, the popularity acquisition unit 112 may acquire the popularity of the reference video data in a period corresponding to the video effect. Specifically, for example, the popularity acquisition unit 112 may analyze the video effect applied to the video of the reference video data being live-streamed, and may determine the total amount of tips in the period corresponding to the video effect as the popularity of the reference video data. Also, for example, the popularity acquisition unit 112 may determine the number of positive comments in the period corresponding to the video effect as the popularity.

<情報処理装置の動作>
図10を参照して、情報処理装置100の動作について説明する。図10は、実施形態1に係る情報処理装置100の処理フローの一例を示すフローチャートである。まず、S1001にて、映像取得部101は、対象映像データを取得する。対象映像データに対応するタグ情報が設定されている場合、映像取得部101は、対象映像データに加えて、タグ情報についても取得する。
<Operation of the information processing device>
The operation of the information processing device 100 will be described with reference to Fig. 10. Fig. 10 is a flowchart showing an example of a processing flow of the information processing device 100 according to the first embodiment. First, in S1001, the video acquisition unit 101 acquires target video data. If tag information corresponding to the target video data is set, the video acquisition unit 101 acquires the tag information in addition to the target video data.

次に、S1002にて、映像解析部102は、S1001にて取得した対象映像データを解析する。映像解析部102は、当該解析により、対象映像データの映像の特徴を特定して、対象映像データに対応する映像特徴情報を生成する。続いてS1002にて、映像解析部102は、S1001にて取得した対象映像データを解析することにより、対象映像データの映像のジャンルの特定を行い、対象映像データに対応する映像ジャンル情報を生成する。なお、映像解析部102は、解析による映像のジャンルの特定に替えて、S1001にて取得したタグ情報に基づいて対象映像データの映像のジャンルを特定してもよい。映像解析部102における映像の特徴の特定方法、及び、映像のジャンルの特定方法は、第1サーバ110の映像解析部113における映像の特徴の特定方法、及び、映像のジャンルの特定方法と同様であるため、説明を省略する。 Next, in S1002, the video analysis unit 102 analyzes the target video data acquired in S1001. The video analysis unit 102 identifies the video characteristics of the target video data through the analysis, and generates video characteristic information corresponding to the target video data. Next, in S1002, the video analysis unit 102 analyzes the target video data acquired in S1001 to identify the video genre of the target video data, and generates video genre information corresponding to the target video data. Note that instead of identifying the video genre through analysis, the video analysis unit 102 may identify the video genre of the target video data based on the tag information acquired in S1001. The method of identifying the video characteristics and the video genre in the video analysis unit 102 is similar to the method of identifying the video characteristics and the video genre in the video analysis unit 113 of the first server 110, and therefore description thereof will be omitted.

次に、S1003にて、効果取得部103は、第1サーバ110が生成した映像効果特定用データと、S1002にて生成した映像特徴情報とに基づいて、対象映像データに付与する映像効果を示す情報を取得する。具体的には、例えば、まず、効果取得部103は、第1サーバ110に映像効果特定用データ900を要求して、第1サーバ110の効果出力部114が出力する映像効果特定用データ900を取得する。第1サーバ110に映像効果特定用データ900を要求する際、効果取得部103は、S1002にて生成した映像ジャンル情報が示す映像のジャンルを指定して、指定した映像のジャンルに対応する映像効果特定用データ900を取得してもよい。続いて、効果取得部103は、取得した映像効果特定用データ900のうちからS1002にて生成した映像特徴情報が示す映像の特徴と同一又は類似の映像特徴901に対応する映像効果902を特定する。続いて、効果取得部103は、特定した映像効果902の情報を対象映像データに付与する映像効果の情報として取得する。 Next, in S1003, the effect acquisition unit 103 acquires information indicating a visual effect to be applied to the target video data based on the data for visual effect identification generated by the first server 110 and the video feature information generated in S1002. Specifically, for example, first, the effect acquisition unit 103 requests the data for visual effect identification 900 from the first server 110 and acquires the data for visual effect identification 900 output by the effect output unit 114 of the first server 110. When requesting the data for visual effect identification 900 from the first server 110, the effect acquisition unit 103 may specify the genre of the video indicated by the video genre information generated in S1002 and acquire the data for visual effect identification 900 corresponding to the specified genre of the video. Next, the effect acquisition unit 103 specifies the visual effect 902 corresponding to the video feature 901 that is the same as or similar to the feature of the video indicated by the video feature information generated in S1002 from the acquired data for visual effect identification 900. Next, the effect acquisition unit 103 acquires information about the identified visual effect 902 as information about the visual effect to be applied to the target video data.

対象映像データに付与する映像効果を示す情報の取得方法は、上述のものに限定されるものではない。例えば、効果取得部103は、以下のようにして、対象映像データに付与する映像効果を示す情報を取得してもよい。まず、効果取得部103は、S1002にて生成した映像特徴情報を第1サーバ110に対して送信する。第1サーバ110は、映像効果特定用データ900のうちから当該映像特徴情報が示す映像の特徴と同一又は類似の映像特徴901に対応する映像効果902を特定して、特定した映像効果902を示す情報(映像効果情報)を情報処理装置100に出力する。続いて、効果取得部103は、第1サーバ110が出力する映像効果情報を受信して、受信した映像効果情報を対象映像データに付与する映像効果を示す情報として取得する。 The method of acquiring information indicating the visual effect to be applied to the target video data is not limited to the above. For example, the effect acquisition unit 103 may acquire information indicating the visual effect to be applied to the target video data as follows. First, the effect acquisition unit 103 transmits the video feature information generated in S1002 to the first server 110. The first server 110 identifies a video effect 902 corresponding to a video feature 901 that is the same as or similar to the feature of the video indicated by the video feature information from the video effect identification data 900, and outputs information indicating the identified video effect 902 (video effect information) to the information processing device 100. Next, the effect acquisition unit 103 receives the video effect information output by the first server 110, and acquires the received video effect information as information indicating the video effect to be applied to the target video data.

なお、効果取得部103は、S1002にて生成した映像特徴情報を第1サーバ110に対して送信する際に、映像特徴情報に加えて、S1002にて生成した映像ジャンル情報を送信してもよい。この場合、第1サーバ110は、映像効果特定用データ900のうちから当該映像ジャンル情報が示す映像のジャンルが同一で、且つ、当該映像特徴情報が示す映像の特徴と同一又は類似の映像特徴901に対応する映像効果902を特定する。 When the effect acquisition unit 103 transmits the video feature information generated in S1002 to the first server 110, the effect acquisition unit 103 may transmit the video genre information generated in S1002 in addition to the video feature information. In this case, the first server 110 identifies from the video effect identification data 900 a video effect 902 that corresponds to a video feature 901 that is the same as the video genre indicated by the video genre information and is the same as or similar to the feature of the video indicated by the video feature information.

S1003の後、S1004にて、効果付与部104は、S1003にて取得した映像効果情報に基づいて、対象映像データに対して映像効果を付与する。具体的には、効果付与部104は、対象映像データと参照用映像データとにおいて互いに映像の特徴が同一又は類似の映像の位置に、映像効果を付与する。なお、映像の特徴の類似とは、例えば、S1002にて対象映像データの映像の特徴として特定した実況者の発話の内容が、映像特徴901の発話内容と所定の文字数以上等しい場合等を意味する。また、感情曲線同士の類似度を算出し、類似度が所定の閾値以上である場合に、映像の内容が類似していると判定してもよい。S1004の後、S1005にて、映像出力部105は、S1004にて映像効果が付与された後の対象映像データ(付与後映像データ)を出力する。S1005の後、情報処理装置100は、図10に示すフローチャートの処理を終了する。以上のように構成した情報処理装置100によれば、視聴者の嗜好により適合する映像効果を映像データに付与することができる。 After S1003, in S1004, the effect imparting unit 104 imparts a visual effect to the target video data based on the video effect information acquired in S1003. Specifically, the effect imparting unit 104 imparts a visual effect to the position of the video in which the video features are the same or similar in the target video data and the reference video data. Note that the similarity of the video features means, for example, a case where the content of the commentator's speech identified as the video feature of the target video data in S1002 is equal to or greater than a predetermined number of characters in the speech content of the video feature 901. In addition, the similarity between the emotion curves may be calculated, and if the similarity is equal to or greater than a predetermined threshold, it may be determined that the content of the video is similar. After S1004, in S1005, the video output unit 105 outputs the target video data (imparted video data) after the video effect is imparted in S1004. After S1005, the information processing device 100 ends the processing of the flowchart shown in FIG. 10. With the information processing device 100 configured as described above, it is possible to impart video effects to video data that better suit the viewer's preferences.

これまで、第1サーバ110が、人気度が所定の条件を満たす参照用映像データのみを対象として、映像効果特定用データ900を生成する形態について説明したが、これに限定されるものではない。例えば、第1サーバ110は、人気度が所定の条件を満たすか否かに関わらず、全ての参照用映像データを対象として、映像効果特定用データ900を生成してもよい。この場合、例えば、情報処理装置100は、以下のようにして、対象映像データに付与する映像効果を示す情報を取得してもよい。 So far, the first server 110 has generated the data 900 for identifying visual effects only from reference video data whose popularity meets a predetermined condition, but this is not limiting. For example, the first server 110 may generate the data 900 for identifying visual effects from all reference video data, regardless of whether the popularity meets a predetermined condition. In this case, for example, the information processing device 100 may obtain information indicating the visual effect to be applied to the target video data as follows.

まず、効果取得部103は、第1サーバ110に映像効果特定用データ900を要求して、第1サーバ110の効果出力部114が出力する映像効果特定用データ900を取得する。第1サーバ110に映像効果特定用データ900を要求する際、効果取得部103は、S1002にて生成した映像ジャンル情報が示す映像のジャンルを指定して、指定した映像のジャンルに対応する映像効果特定用データ900を取得してもよい。続いて、効果取得部103は、取得した映像効果特定用データ900のうちから、人気度が所定の条件を満たす映像効果902を検索する。続いて、効果取得部103は、当該検索により検出された1以上の映像効果902のうちから、S1002にて生成した映像特徴情報が示す映像の特徴と同一又は類似の映像特徴901に対応する映像効果902を特定する。続いて、効果取得部103は、特定した映像効果902の情報を対象映像データに付与する映像効果を示す情報として取得する。 First, the effect acquisition unit 103 requests the first server 110 for the data 900 for identifying visual effects, and acquires the data 900 for identifying visual effects output by the effect output unit 114 of the first server 110. When requesting the data 900 for identifying visual effects from the first server 110, the effect acquisition unit 103 may specify the genre of the video indicated by the video genre information generated in S1002, and acquire the data 900 for identifying visual effects corresponding to the specified genre of the video. Next, the effect acquisition unit 103 searches for a visual effect 902 whose popularity meets a predetermined condition from among the acquired data 900 for identifying visual effects. Next, the effect acquisition unit 103 identifies a visual effect 902 corresponding to a visual feature 901 that is the same as or similar to the feature of the video indicated by the video feature information generated in S1002 from among one or more visual effects 902 detected by the search. Next, the effect acquisition unit 103 acquires information on the identified visual effect 902 as information indicating the visual effect to be applied to the target video data.

また、実施形態1では、情報処理装置100が、第1サーバ110が生成した映像効果特定用データ900を用いて、対象映像データに映像効果を付与する形態について説明したが、これに限定されるものではない。例えば、情報処理装置100が映像効果特定用データ900を生成するために必要な機能構成を有していてもよい。この場合、情報処理装置100は、映像効果特定用データ900を生成して、生成した映像効果特定用データ900を用いて対象映像データに映像効果を付与する。また、例えば、第1サーバ110が、対象映像データに映像効果を付与するために必要な機能構成を有していてもよい。この場合、例えば、情報処理装置100は、対象映像データを第1サーバ110に送信し、第1サーバ110は、これを受信して、受信した対象映像データに対して映像効果を付与し、付与後映像データを情報処理装置100に送信する。すなわち、この場合、第1サーバ110は、対象映像データに対して映像効果を付与するサービスを提供するクラウドサーバ等の装置として動作する。 In addition, in the first embodiment, the information processing device 100 applies a visual effect to the target video data using the data 900 for visual effect identification generated by the first server 110, but the present invention is not limited to this. For example, the information processing device 100 may have a functional configuration required to generate the data 900 for visual effect identification. In this case, the information processing device 100 generates the data 900 for visual effect identification and applies a visual effect to the target video data using the generated data 900 for visual effect identification. In addition, for example, the first server 110 may have a functional configuration required to apply a visual effect to the target video data. In this case, for example, the information processing device 100 transmits the target video data to the first server 110, and the first server 110 receives the data, applies a visual effect to the received target video data, and transmits the applied video data to the information processing device 100. That is, in this case, the first server 110 operates as a device such as a cloud server that provides a service of applying a visual effect to the target video data.

また、実施形態1では、参照用映像データは、第2サーバ120から取得されるものとして説明したが、参照用映像データの取得元は、第2サーバ120に限定されるものではない。例えば、第1サーバ110は、第2サーバ120以外の外部の装置、又は、第1サーバ110の補助記憶装置204から参照用映像データを取得してもよい。この場合、補助記憶装置204に予め記憶されている参照用映像データは、例えば、ユーザが予め第2サーバ120からダウンロードした映像データである。また、実施形態1では、第1サーバ110は、第2サーバ120に登録されている全ての参照用映像データを対象として、参照用映像データを取得するものとして説明したが、参照用映像データの取得対象はこれに限定されるものではない。例えば、第1サーバ110は、第2サーバ120に登録されている参照用映像データのうちのユーザが予め指定した参照用映像データを対象として、参照用映像データを取得してもよい。 In the first embodiment, the reference video data is described as being acquired from the second server 120, but the source of the reference video data is not limited to the second server 120. For example, the first server 110 may acquire the reference video data from an external device other than the second server 120, or from the auxiliary storage device 204 of the first server 110. In this case, the reference video data stored in advance in the auxiliary storage device 204 is, for example, video data downloaded in advance from the second server 120 by the user. In the first embodiment, the first server 110 is described as acquiring the reference video data from all reference video data registered in the second server 120, but the acquisition target of the reference video data is not limited to this. For example, the first server 110 may acquire the reference video data from the reference video data registered in the second server 120 that is designated in advance by the user.

[実施形態2]
実施形態1では、一例として、対象映像データがゲーム実況映像のデータである場合を例として説明した。これに対して、実施形態2では、対象映像データが、映像に登場する者(以下「話者」と呼ぶ。)が雑談をしている映像(以下「雑談映像」と呼ぶ。)のデータである場合について説明する。実施形態2に係る情報処理システム、情報処理装置、及び第1サーバの構成は、図1及び図2に示す実施形態1に係る情報処理システム1、情報処理装置100、及び第1サーバ110の構成と同様である。そのため、以下、実施形態2に係る情報処理システム、情報処理装置、及び第1サーバの構成の説明では、図1及び図2の符号を参照して説明する。
[Embodiment 2]
In the first embodiment, as an example, the target video data is data of a game play-by-play video. In contrast, in the second embodiment, the target video data is data of a video (hereinafter referred to as a "chat video") in which a person appearing in the video (hereinafter referred to as a "speaker") is chatting. The configurations of the information processing system, the information processing device, and the first server according to the second embodiment are the same as those of the information processing system 1, the information processing device 100, and the first server 110 according to the first embodiment shown in FIG. 1 and FIG. 2. Therefore, the configurations of the information processing system, the information processing device, and the first server according to the second embodiment will be described below with reference to the symbols in FIG. 1 and FIG. 2.

図11は、実施形態2に係る対象映像データの映像の一例を示す図である。具体的には、図11(a)は、対象映像データの映像であって、雑談映像1100の一例を示す図であり、図11(b)は、図11(a)に示す対象映像データに対応する付与後映像データの映像1110の一例を示す図である。図11(a)に示す雑談映像1100には、1人の話者1101がPC又はタブレット端末等のモニタ1102を見ながら話している様子が映っている。情報処理装置100は、対象映像データを解析し、解析により得た映像の特徴に基づいて、対象映像データに適した映像効果を付与して付与後映像データを生成する。例えば、話者1101がネガティブな発言を繰り返している場合に、対象映像データには、例えば、図11(b)に示す映像1110のように、話者1101の背景1111のうちの上方等の一部をグレーにするといった映像効果が付与される。 11 is a diagram showing an example of a video of the target video data according to the second embodiment. Specifically, FIG. 11(a) is a diagram showing an example of a chat video 1100, which is a video of the target video data, and FIG. 11(b) is a diagram showing an example of a video 1110 of the post-addition video data corresponding to the target video data shown in FIG. 11(a). The chat video 1100 shown in FIG. 11(a) shows a state in which one speaker 1101 is talking while looking at a monitor 1102 of a PC or a tablet terminal or the like. The information processing device 100 analyzes the target video data, and generates the post-addition video data by adding a video effect suitable for the target video data based on the characteristics of the video obtained by the analysis. For example, when the speaker 1101 repeatedly makes negative remarks, the target video data is given a video effect such as making a part of the upper part of the background 1111 of the speaker 1101 gray, as in the video 1110 shown in FIG. 11(b).

図12を参照して、映像解析部113により特定される、参照用映像データに付与された映像効果について説明する。図12は、映像解析部113により特定される、参照用映像データに付与された映像効果の一例を示す図である。具体的には、図12に示す映像効果は、参照用映像データの映像のジャンルが雑談映像である場合の映像効果の例である。図12(a)に示す背景色1201は、参照用映像データに動画像の映像効果として付与されている、動画像の背景領域における色の変化の情報であって、一例として、変化させる背景領域の色及び位置を示している。図12(b)に示す視聴者コメント表示1202は、参照用映像データに動画像の映像効果として、視聴者からのコメントを動画像の画像領域内に表示させているか否かを示す情報である。図12(c)に示す効果音1203は、参照用映像データに音の映像効果として付与されている、挿入された効果音の種類を示す情報である。図12(d)に示すBGM1204は、参照用映像データに音の映像効果として付与されている、挿入されたBGMの種類を示す情報である。 With reference to FIG. 12, the video effect given to the reference video data, as specified by the video analysis unit 113, will be described. FIG. 12 is a diagram showing an example of a video effect given to the reference video data, as specified by the video analysis unit 113. Specifically, the video effect shown in FIG. 12 is an example of a video effect when the video genre of the reference video data is a chat video. The background color 1201 shown in FIG. 12(a) is information on a color change in the background area of a moving image, which is given to the reference video data as a video effect of the moving image, and shows, as an example, the color and position of the background area to be changed. The viewer comment display 1202 shown in FIG. 12(b) is information indicating whether or not a comment from a viewer is displayed in the image area of the moving image as a video effect of the moving image in the reference video data. The sound effect 1203 shown in FIG. 12(c) is information indicating the type of inserted sound effect given to the reference video data as a sound video effect. BGM 1204 shown in FIG. 12(d) is information indicating the type of inserted BGM that is added to the reference video data as a sound visual effect.

図13を参照して、映像解析部113により特定される、参照用映像データの映像の特徴について説明する。図13は、映像解析部113により特定される、参照用映像データの映像の特徴の一例を示す図である。具体的には、図13に示す映像の特徴は、参照用映像データの映像のジャンルが雑談映像である場合の映像の特徴の例である。図13(a)は、映像解析部113により特定される映像の特徴の一例を示す図であって、話者1101の声の大きさの経時変化の一例を、音量曲線1301を用いて示す図である。映像解析部113は、映像の再生時刻に対応する所定の期間における、話者1101の声の大きさを音声データに基づいて解析することにより、音量曲線1301を取得する。例えば、映像解析部113は、話者1101の声を連続的に解析し、解析により得られた声の大きさをそのままグラフ化して音量曲線1301を取得する。音量曲線1301の取得方法は、上述のものに限定されるものではない。例えば、映像解析部113は、話者1101が発する言葉を単語又は文章等の単位に区切って、当該単位ごとの話者1101の平均の声の大きさを解析することにより、音量曲線1301を取得してもよい。 With reference to FIG. 13, the video characteristics of the reference video data identified by the video analysis unit 113 will be described. FIG. 13 is a diagram showing an example of the video characteristics of the reference video data identified by the video analysis unit 113. Specifically, the video characteristics shown in FIG. 13 are an example of the video characteristics when the genre of the video of the reference video data is a chat video. FIG. 13(a) is a diagram showing an example of the video characteristics identified by the video analysis unit 113, and shows an example of the change over time in the volume of the voice of the speaker 1101 using a volume curve 1301. The video analysis unit 113 acquires the volume curve 1301 by analyzing the volume of the voice of the speaker 1101 based on the audio data during a predetermined period corresponding to the playback time of the video. For example, the video analysis unit 113 continuously analyzes the voice of the speaker 1101, and acquires the volume curve 1301 by graphing the volume of the voice obtained by the analysis as it is. The method of acquiring the volume curve 1301 is not limited to the above. For example, the video analysis unit 113 may divide the speech of the speaker 1101 into units such as words or sentences, and obtain the volume curve 1301 by analyzing the average voice volume of the speaker 1101 for each unit.

図13(b)は、映像解析部113により特定される映像の特徴の一例を示す図であって、視聴者からのコメントに基づくポジティブ度の経時変化の一例を、曲線1302を用いて示す図である。例えば、映像解析部113は、視聴者からのコメントがポジティブなものであるかネガティブなものであるかをコメントごとに判定し、ポジティブなコメントの数とネガティブなコメントの数との差分を時系列に数値化して曲線1302を取得する。具体的には、例えば、所定の時間間隔ごとの、視聴者からのコメントにおけるポジティブなコメントの数とネガティブなコメントの数との差分を算出して、これを時系列にグラフ化することにより曲線1302を取得する。視聴者からのコメントがポジティブなものであるかネガティブなものであるかの判定は、例えば、BERT等を用いた自然言語処理モデル等の周知の言語解析技術を用いて行うことができる。 13B is a diagram showing an example of a feature of a video identified by the video analysis unit 113, and shows an example of a change in positivity over time based on comments from viewers, using a curve 1302. For example, the video analysis unit 113 determines whether each comment from a viewer is positive or negative, and quantifies the difference between the number of positive comments and the number of negative comments in a time series to obtain the curve 1302. Specifically, for example, the video analysis unit 113 calculates the difference between the number of positive comments and the number of negative comments in the comments from viewers for each predetermined time interval, and graphs this in a time series to obtain the curve 1302. The determination of whether a comment from a viewer is positive or negative can be made using a well-known language analysis technique, such as a natural language processing model using BERT, for example.

図14は、映像解析部113が生成する映像効果特定用データ1400の一例を示す図である。具体的には、図14は、参照用映像データの映像のジャンルが雑談映像である場合の映像効果特定用データ1400の例である。映像特徴1401、及び、映像効果1402のそれぞれは、映像解析部113が特定した映像の特徴及び映像効果である。また、人気度1403は、人気度取得部112が取得した人気度である。情報処理装置100は、対象映像データの映像のジャンルが雑談映像である場合、図14に一例として示す映像効果特定用データ1400に基づいて、対象映像データに映像効果を付与する。対象映像データへの映像効果の付与方法は実施形態1に係る情報処理装置100における映像効果の付与方法と同様であるため、説明を省略する。 14 is a diagram showing an example of the data 1400 for identifying visual effects generated by the video analysis unit 113. Specifically, FIG. 14 is an example of the data 1400 for identifying visual effects when the genre of the video of the reference video data is a chat video. The video feature 1401 and the video effect 1402 are the video feature and the video effect identified by the video analysis unit 113, respectively. The popularity 1403 is the popularity acquired by the popularity acquisition unit 112. When the genre of the video of the target video data is a chat video, the information processing device 100 imparts a visual effect to the target video data based on the data 1400 for identifying visual effects shown as an example in FIG. 14. The method of imparting visual effects to the target video data is the same as the method of imparting visual effects in the information processing device 100 according to the first embodiment, and therefore will not be described.

[実施形態3]
実施形態1では、一例として、対象映像データがゲーム実況映像のデータである場合を例として説明した。また、実施形態2では、一例として、対象映像データが雑談映像のデータである場合を例として説明した。これに対して、実施形態3では、対象映像データが、映像に登場する者(以下「講演者」と呼ぶ。)が講義をしている映像(以下「講義映像」と呼ぶ。)のデータである場合について説明する。実施形態3に係る情報処理システム、情報処理装置、及び第1サーバの構成は、図1及び図2に示す実施形態1に係る情報処理システム1、情報処理装置100、及び第1サーバ110の構成と同様である。そのため、以下、実施形態3に係る情報処理システム、情報処理装置、及び第1サーバの構成の説明では、図1及び図2の符号を参照して説明する。
[Embodiment 3]
In the first embodiment, as an example, the target video data is data of a game play-by-play video. In the second embodiment, as an example, the target video data is data of a chat video. In contrast, in the third embodiment, the target video data is data of a video (hereinafter referred to as a "lecture video") in which a person appearing in the video (hereinafter referred to as a "lecturer") is giving a lecture. The configurations of the information processing system, the information processing device, and the first server according to the third embodiment are the same as those of the information processing system 1, the information processing device 100, and the first server 110 according to the first embodiment shown in FIG. 1 and FIG. 2. Therefore, in the following description of the configurations of the information processing system, the information processing device, and the first server according to the third embodiment, the reference numerals in FIG. 1 and FIG. 2 will be used to refer to the symbols in FIG. 1 and FIG. 2.

図15は、実施形態2に係る対象映像データの映像の一例を示す図である。具体的には、図15(a)は、対象映像データの映像であって、講義映像1500の一例を示す図であり、図15(b)は、図15(a)に示す対象映像データに対応する付与後映像データの映像1110の一例を示す図である。 Figure 15 is a diagram showing an example of a video of target video data according to embodiment 2. Specifically, Figure 15(a) is a diagram showing an example of a lecture video 1500, which is a video of the target video data, and Figure 15(b) is a diagram showing an example of a video 1110 of the post-addition video data corresponding to the target video data shown in Figure 15(a).

図15(a)に示す講義映像1500には、1人の講演者1501が指し棒1502でホワイトボード1503を指しながら講義をしている様子が映っている。情報処理装置100は、対象映像データを解析し、解析により得た映像の特徴に基づいて、対象映像データに適した映像効果を付与して付与後映像データを生成する。例えば、講演者1501が声を大きくして発話する場合に、対象映像データには、例えば、図15(b)に示す映像1510のように、講演者1501の発話の内容を、テロップを用いて強調表示するといった映像効果が付与される。 The lecture video 1500 shown in FIG. 15(a) shows a lecturer 1501 giving a lecture while pointing at a whiteboard 1503 with a pointer 1502. The information processing device 100 analyzes the target video data, and generates video data after applying a video effect suitable for the target video data based on the characteristics of the video obtained by the analysis. For example, when the lecturer 1501 speaks loudly, the target video data is applied with a video effect such as highlighting the contents of the lecturer's 1501 speech using subtitles, as in the video 1510 shown in FIG. 15(b).

図16を参照して、映像解析部113により特定される、参照用映像データに付与された映像効果について説明する。図16は、映像解析部113により特定される、参照用映像データに付与された映像効果の一例を示す図である。具体的には、図16に示す映像効果は、参照用映像データの映像のジャンルが講義映像である場合の映像効果の例である。図16(a)に示すテロップ表現1601は、参照用映像データに動画像の映像効果として付与されている、挿入されたテロップの位置、並びに、当該テロップ内の文字の大きさ、色、及び形状等の情報である。図16(b)に示すテロップ内容1602は、参照用映像データに動画像の映像効果として付与されている、挿入されたテロップに含まれる文字列の情報である。図16(c)に示す効果音1603は、参照用映像データの音声データに映像効果として付与されている効果音の種類を示す情報である。 With reference to FIG. 16, the video effect given to the reference video data, as specified by the video analysis unit 113, will be described. FIG. 16 is a diagram showing an example of the video effect given to the reference video data, as specified by the video analysis unit 113. Specifically, the video effect shown in FIG. 16 is an example of the video effect when the video genre of the reference video data is a lecture video. The telop expression 1601 shown in FIG. 16(a) is information on the position of the inserted telop, as well as the size, color, and shape of the characters in the telop, which are given to the reference video data as a video effect of the moving image. The telop content 1602 shown in FIG. 16(b) is information on the character string included in the inserted telop, which is given to the reference video data as a video effect of the moving image. The sound effect 1603 shown in FIG. 16(c) is information indicating the type of sound effect given to the audio data of the reference video data as a video effect.

図17を参照して、映像解析部113により特定される、参照用映像データの映像の特徴について説明する。図17は、映像解析部113により特定される、参照用映像データの映像の特徴の一例を示す図である。具体的には、図17に示す映像の特徴は、参照用映像データの映像のジャンルが講義映像である場合の映像の特徴の例である。図17(a)は、映像解析部113により特定される映像の特徴の一例を示す図であって、映像内において、講演者1501が指し棒1502でホワイトボード1503を指しているか否かの状態1701を示す図である。図17(b)は、映像解析部113により特定される映像の特徴の一例を示す図であって、講演者1501の体の向きの状態1702を示す図である。図17(c)は、映像解析部113により特定される映像の特徴の一例を示す図であって、講演者1501の声の抑揚の経時変化の一例を、抑揚曲線1703を用いて示す図である。映像解析部113は、映像の再生時刻に対応する所定の期間における講演者1501の声の抑揚を音声データに基づいて解析することにより、抑揚曲線1703を取得する。 With reference to FIG. 17, the video characteristics of the reference video data identified by the video analysis unit 113 will be described. FIG. 17 is a diagram showing an example of the video characteristics of the reference video data identified by the video analysis unit 113. Specifically, the video characteristics shown in FIG. 17 are an example of video characteristics when the video genre of the reference video data is a lecture video. FIG. 17(a) is a diagram showing an example of the video characteristics identified by the video analysis unit 113, and is a diagram showing a state 1701 of whether or not the lecturer 1501 is pointing at the whiteboard 1503 with the pointer 1502 in the video. FIG. 17(b) is a diagram showing an example of the video characteristics identified by the video analysis unit 113, and is a diagram showing a state 1702 of the body orientation of the lecturer 1501. FIG. 17(c) is a diagram showing an example of the video characteristics identified by the video analysis unit 113, and is a diagram showing an example of the change over time in the intonation of the voice of the lecturer 1501 using an intonation curve 1703. The video analysis unit 113 obtains an intonation curve 1703 by analyzing the intonation of the speaker's 1501 voice during a specific period of time corresponding to the playback time of the video based on the audio data.

図18は、映像解析部113が生成する映像効果特定用データ1800の一例を示す図である。具体的には、図18は、参照用映像データの映像のジャンルが講義映像である場合の映像効果特定用データ1800の例である。映像特徴1801、及び、映像効果1802のそれぞれは、映像解析部113が特定した映像の特徴及び映像効果である。また、人気度1803は、人気度取得部112が取得した人気度である。情報処理装置100は、対象映像データの映像のジャンルが講義映像である場合、図18に一例として示す映像効果特定用データ1800に基づいて、対象映像データに映像効果を付与する。対象映像データへの映像効果の付与方法は実施形態1に係る情報処理装置100における映像効果の付与方法と同様であるため、説明を省略する。 18 is a diagram showing an example of the data 1800 for identifying visual effects generated by the video analysis unit 113. Specifically, FIG. 18 is an example of the data 1800 for identifying visual effects when the genre of the video of the reference video data is a lecture video. The video feature 1801 and the video effect 1802 are the video feature and the video effect identified by the video analysis unit 113, respectively. The popularity 1803 is the popularity acquired by the popularity acquisition unit 112. When the genre of the video of the target video data is a lecture video, the information processing device 100 imparts a visual effect to the target video data based on the data 1800 for identifying visual effects shown as an example in FIG. 18. The method of imparting visual effects to the target video data is the same as the method of imparting visual effects in the information processing device 100 according to the first embodiment, and therefore will not be described.

[その他の実施形態]
本開示は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
[Other embodiments]
The present disclosure can also be realized by a process in which a program for realizing one or more functions of the above-described embodiments is supplied to a system or device via a network or a storage medium, and one or more processors in a computer of the system or device read and execute the program. Also, the present disclosure can be realized by a circuit (e.g., ASIC) for realizing one or more functions.

[本開示の構成]
<構成1>
動画像データを少なくとも含む編集対象映像データの特徴を示す対象特徴情報を取得する対象取得手段と、
前記対象特徴情報が示す特徴に類似する特徴を含む参照用映像データであって、人気度が所定の条件を満たす前記参照用映像データに含まれる映像効果を示す参照効果情報を取得する効果取得手段と、
前記参照効果情報が示す映像効果と同一又は類似の映像効果を前記編集対象映像データに付与する付与手段と、
を有することを特徴とする情報処理装置。
[Configuration of the present disclosure]
<Configuration 1>
an object acquiring means for acquiring object characteristic information indicating characteristics of video data to be edited, the video data including at least moving image data;
an effect acquisition means for acquiring reference effect information indicating a video effect included in reference video data including a feature similar to the feature indicated by the target feature information, the reference video data having a popularity satisfying a predetermined condition;
an applying means for applying a visual effect that is the same as or similar to the visual effect indicated by the reference effect information to the video data to be edited;
13. An information processing device comprising:

<構成2>
前記対象取得手段は、前記編集対象映像データに含まれる前記動画像データを解析することにより、前記対象特徴情報を取得すること
を特徴とする構成1に記載の情報処理装置。
<Configuration 2>
2. The information processing device according to configuration 1, wherein the object acquiring means acquires the object characteristic information by analyzing the video image data included in the video data to be edited.

<構成3>
前記対象取得手段は、前記編集対象映像データに含まれる前記動画像データに基づいて、当該動画像データが示す動画像に映る人物の動作及び表情、並びに、当該動画像に映る視聴者からのコメントの少なくいずれかを解析することにより、前記対象特徴情報を取得すること
を特徴とする構成2に記載の情報処理装置。
<Configuration 3>
The information processing device described in configuration 2, characterized in that the target acquisition means acquires the target characteristic information by analyzing at least one of the actions and facial expressions of people appearing in the video images shown by the video image data, and comments from viewers appearing in the video images, based on the video image data included in the video data to be edited.

<構成4>
前記編集対象映像データは、前記編集対象映像データに含まれる前記動画像データと同期して再生される音声データを含み、
前記対象取得手段は、前記編集対象映像データに含まれる前記音声データを解析することにより、前記対象特徴情報を取得すること
を特徴とする構成1乃至3のいずれか1つに記載の情報処理装置。
<Configuration 4>
the video data to be edited includes audio data to be played back in synchronization with the video data included in the video data to be edited;
The information processing device according to any one of configurations 1 to 3, wherein the object acquisition means acquires the object characteristic information by analyzing the audio data included in the video data to be edited.

<構成5>
前記対象取得手段は、前記編集対象映像データに含まれる前記音声データに基づいて、前記編集対象映像データが示す映像に登場する人物の声の大きさ及び抑揚、並びに、前記人物の発話内容の少なくいずれかを解析することにより、前記対象特徴情報を取得すること
を特徴とする構成4に記載の情報処理装置。
<Configuration 5>
The information processing device described in configuration 4, characterized in that the target acquisition means acquires the target characteristic information by analyzing at least one of the volume and intonation of the voice of a person appearing in the video shown by the video data to be edited, and the content of the person's speech, based on the audio data included in the video data to be edited.

<構成6>
前記編集対象映像データの映像のジャンルを特定する対象ジャンル特定手段、
を更に有し、
前記効果取得手段は、前記編集対象映像データの映像のジャンルと同一の映像のジャンルの前記参照用映像データに含まれる映像効果を示す前記参照効果情報を取得すること
を特徴とする構成1乃至5のいずれか1つに記載の情報処理装置。
<Configuration 6>
a target genre specification means for specifying a video genre of the video data to be edited;
and
The information processing device according to any one of configurations 1 to 5, wherein the effect acquisition means acquires the reference effect information indicating the video effects contained in the reference video data of the same video genre as the video genre of the video data to be edited.

<構成7>
前記対象ジャンル特定手段は、前記編集対象映像データに予め対応付けられたタグ情報に基づいて、前記編集対象映像データの映像のジャンルを特定すること
を特徴とする構成6に記載の情報処理装置。
<Configuration 7>
7. The information processing apparatus according to configuration 6, wherein the target genre identification means identifies a genre of the video of the video data to be edited based on tag information previously associated with the video data to be edited.

<構成8>
前記対象ジャンル特定手段は、前記編集対象映像データを解析することにより、前記編集対象映像データの映像のジャンルを特定すること
を特徴とする構成6に記載の情報処理装置。
<Configuration 8>
7. The information processing apparatus according to configuration 6, wherein the target genre identification means identifies a video genre of the video data to be edited by analyzing the video data to be edited.

<構成9>
前記付与手段は、前記参照効果情報が示す映像効果が付与されている前記参照用映像データの区間における前記参照用映像データの特徴に類似する特徴を含む前記編集対象映像データにおける区間に対して、前記参照効果情報に基づいて前記編集対象映像データに映像効果を付与すること
を特徴とする構成1乃至8のいずれか1つに記載の情報処理装置。
<Configuration 9>
The information processing device of any one of configurations 1 to 8, wherein the applying means applies a visual effect to the video data to be edited based on the reference effect information for a section in the video data to be edited that includes features similar to features of the reference video data in a section of the reference video data to which the visual effect indicated by the reference effect information is applied.

<構成10>
前記人気度は、前記参照用映像データの再生回数、前記参照用映像データの視聴者からのコメント数、及び前記参照用映像データに投じられた投げ銭の額の少なくともいずれかに基づいて算出される値であること
を特徴とする構成1乃至9のいずれか1つに記載の情報処理装置。
<Configuration 10>
The information processing device of any one of configurations 1 to 9, characterized in that the popularity is a value calculated based on at least one of the number of times the reference video data has been played, the number of comments from viewers of the reference video data, and the amount of tips given to the reference video data.

<構成11>
前記参照効果情報が示す映像効果は、動画像へのテロップの挿入、動画像の色調変更、動画像のフェードイン、動画像のフェードアウト、動画像へのフィルタ付与、音声への効果音の挿入、及び音声へのBGMの挿入、少なくともいずれかであること
を特徴とする構成1乃至10のいずれか1つに記載の情報処理装置。
<Configuration 11>
The information processing device according to any one of configurations 1 to 10, characterized in that the visual effect indicated by the reference effect information is at least one of inserting subtitles into a moving image, changing a color tone of the moving image, fading in the moving image, fading out the moving image, applying a filter to the moving image, inserting a sound effect into audio, and inserting background music into audio.

<構成12>
前記参照用映像データは、映像配信サービスから配信される映像データであること
を特徴とする構成1乃至11のいずれか1つに記載の情報処理装置。
<Configuration 12>
12. The information processing device according to any one of configurations 1 to 11, wherein the reference video data is video data distributed from a video distribution service.

<構成13>
前記参照用映像データは、前記映像配信サービスから配信される映像データのうちのユーザにより指定された映像データであること
を特徴とする構成12に記載の情報処理装置。
<Configuration 13>
13. The information processing device according to configuration 12, wherein the reference video data is video data designated by a user from among video data distributed from the video distribution service.

<構成14>
前記参照用映像データを取得する参照データ取得手段と、
取得した前記参照用映像データの前記人気度を取得する人気度取得手段と、
前記参照用映像データを解析して、前記参照用映像データの特徴と、前記参照用映像データに含まれる映像効果とを特定する特定手段と、
前記特定された特徴及び映像効果のそれぞれを示す情報と、前記人気度とを互いに対応付けた参照特徴情報を生成する情報生成手段と、
を更に有し、
前記効果取得手段は、前記参照特徴情報に基づいて前記参照効果情報を取得すること
を特徴とする構成1乃至13のいずれか1つに記載の情報処理装置。
<Configuration 14>
A reference data acquisition means for acquiring the reference video data;
a popularity acquiring means for acquiring the popularity of the acquired reference video data;
A determination means for analyzing the reference video data and determining characteristics of the reference video data and video effects included in the reference video data;
an information generating means for generating reference feature information in which information indicating each of the identified features and visual effects is associated with the popularity;
and
The information processing device according to any one of configurations 1 to 13, wherein the effect acquisition means acquires the reference effect information based on the reference feature information.

<構成15>
動画像データを少なくとも含む編集対象映像データの特徴を示す対象特徴情報を取得する対象取得工程と、
前記対象特徴情報が示す特徴に類似する特徴を含む参照用映像データであって、人気度が所定の条件を満たす前記参照用映像データに含まれる映像効果を示す参照効果情報を取得する効果取得工程と、
前記参照効果情報が示す映像効果と同一又は類似の映像効果を前記編集対象映像データに付与する付与工程と、
を含むことを特徴とする情報処理方法。
<Configuration 15>
an object acquiring step of acquiring object characteristic information indicating characteristics of video data to be edited, the video data including at least moving image data;
an effect acquisition step of acquiring reference effect information indicating a video effect included in reference video data including a feature similar to the feature indicated by the target feature information, the reference video data having a popularity satisfying a predetermined condition;
an applying step of applying a visual effect that is the same as or similar to the visual effect indicated by the reference effect information to the video data to be edited;
13. An information processing method comprising:

<構成16>
コンピュータを、構成1乃至14のいずれか1つに記載の情報処理装置として機能させるためのプログラム。
<Configuration 16>
A program for causing a computer to function as the information processing device according to any one of configurations 1 to 14.

100 情報処理装置
102 映像解析部
103 効果取得部
104 効果付与部
REFERENCE SIGNS LIST 100 Information processing device 102 Video analysis unit 103 Effect acquisition unit 104 Effect imparting unit

Claims (16)

動画像データを少なくとも含む編集対象映像データの特徴を示す対象特徴情報を取得する対象取得手段と、
前記対象特徴情報が示す特徴に類似する特徴を含む参照用映像データであって、人気度が所定の条件を満たす前記参照用映像データに含まれる映像効果を示す参照効果情報を取得する効果取得手段と、
前記参照効果情報が示す映像効果と同一又は類似の映像効果を前記編集対象映像データに付与する付与手段と、
を有することを特徴とする情報処理装置。
an object acquiring means for acquiring object characteristic information indicating characteristics of video data to be edited, the video data including at least moving image data;
an effect acquisition means for acquiring reference effect information indicating a video effect included in reference video data including a feature similar to the feature indicated by the target feature information, the reference video data having a popularity satisfying a predetermined condition;
an applying means for applying a visual effect that is the same as or similar to the visual effect indicated by the reference effect information to the video data to be edited;
13. An information processing device comprising:
前記対象取得手段は、前記編集対象映像データに含まれる前記動画像データを解析することにより、前記対象特徴情報を取得すること
を特徴とする請求項1に記載の情報処理装置。
The information processing apparatus according to claim 1 , wherein the object obtaining means obtains the object characteristic information by analyzing the video image data included in the video data to be edited.
前記対象取得手段は、前記編集対象映像データに含まれる前記動画像データに基づいて、当該動画像データが示す動画像に映る人物の動作及び表情、並びに、当該動画像に映る視聴者からのコメントの少なくいずれかを解析することにより、前記対象特徴情報を取得すること
を特徴とする請求項2に記載の情報処理装置。
The information processing device of claim 2, wherein the target acquisition means acquires the target characteristic information by analyzing at least one of the movements and facial expressions of people appearing in the video image represented by the video image data, and comments from viewers appearing in the video image, based on the video image data contained in the video data to be edited.
前記編集対象映像データは、前記編集対象映像データに含まれる前記動画像データと同期して再生される音声データを含み、
前記対象取得手段は、前記編集対象映像データに含まれる前記音声データを解析することにより、前記対象特徴情報を取得すること
を特徴とする請求項1に記載の情報処理装置。
the video data to be edited includes audio data to be played back in synchronization with the video data included in the video data to be edited;
The information processing apparatus according to claim 1 , wherein the object obtaining means obtains the object characteristic information by analyzing the audio data included in the video data to be edited.
前記対象取得手段は、前記編集対象映像データに含まれる前記音声データに基づいて、前記編集対象映像データが示す映像に登場する人物の声の大きさ及び抑揚、並びに、前記人物の発話内容の少なくいずれかを解析することにより、前記対象特徴情報を取得すること
を特徴とする請求項4に記載の情報処理装置。
The information processing device of claim 4, wherein the target acquisition means acquires the target characteristic information by analyzing at least one of the volume and intonation of the voice of a person appearing in the video represented by the video data to be edited, and the content of the person's speech, based on the audio data contained in the video data to be edited.
前記編集対象映像データの映像のジャンルを特定する対象ジャンル特定手段、
を更に有し、
前記効果取得手段は、前記編集対象映像データの映像のジャンルと同一の映像のジャンルの前記参照用映像データに含まれる映像効果を示す前記参照効果情報を取得すること
を特徴とする請求項1に記載の情報処理装置。
a target genre specification means for specifying a video genre of the video data to be edited;
and
The information processing apparatus according to claim 1 , wherein the effect acquisition means acquires the reference effect information indicating visual effects included in the reference video data of the same video genre as that of the video data to be edited.
前記対象ジャンル特定手段は、前記編集対象映像データに予め対応付けられたタグ情報に基づいて、前記編集対象映像データの映像のジャンルを特定すること
を特徴とする請求項6に記載の情報処理装置。
The information processing apparatus according to claim 6 , wherein the target genre identifying means identifies a video genre of the video data to be edited on the basis of tag information previously associated with the video data to be edited.
前記対象ジャンル特定手段は、前記編集対象映像データを解析することにより、前記編集対象映像データの映像のジャンルを特定すること
を特徴とする請求項6に記載の情報処理装置。
The information processing apparatus according to claim 6 , wherein the target genre identification means identifies a video genre of the video data to be edited by analyzing the video data to be edited.
前記付与手段は、前記参照効果情報が示す映像効果が付与されている前記参照用映像データの区間における前記参照用映像データの特徴に類似する特徴を含む前記編集対象映像データにおける区間に対して、前記参照効果情報に基づいて前記編集対象映像データに映像効果を付与すること
を特徴とする請求項1に記載の情報処理装置。
The information processing device according to claim 1, wherein the applying means applies a visual effect to the video data to be edited based on the reference effect information for a section in the video data to be edited that includes features similar to features of the reference video data in a section of the reference video data to which the visual effect indicated by the reference effect information is applied.
前記人気度は、前記参照用映像データの再生回数、前記参照用映像データの視聴者からのコメント数、及び前記参照用映像データに投じられた投げ銭の額の少なくともいずれかに基づいて算出される値であること
を特徴とする請求項1に記載の情報処理装置。
The information processing device according to claim 1, wherein the popularity is a value calculated based on at least one of the number of times the reference video data has been played, the number of comments from viewers of the reference video data, and the amount of tips given to the reference video data.
前記参照効果情報が示す映像効果は、動画像へのテロップの挿入、動画像の色調変更、動画像のフェードイン、動画像のフェードアウト、動画像へのフィルタ付与、音声への効果音の挿入、及び音声へのBGMの挿入、少なくともいずれかであること
を特徴とする請求項1に記載の情報処理装置。
The information processing device according to claim 1, characterized in that the visual effects indicated by the reference effect information are at least one of inserting a subtitle into a moving image, changing a color tone of the moving image, fading in the moving image, fading out the moving image, applying a filter to the moving image, inserting a sound effect into an audio, and inserting background music into an audio.
前記参照用映像データは、映像配信サービスから配信される映像データであること
を特徴とする請求項1に記載の情報処理装置。
The information processing device according to claim 1 , wherein the reference video data is video data distributed from a video distribution service.
前記参照用映像データは、前記映像配信サービスから配信される映像データのうちのユーザにより指定された映像データであること
を特徴とする請求項12に記載の情報処理装置。
The information processing device according to claim 12 , wherein the reference video data is video data designated by a user from among the video data distributed by the video distribution service.
前記参照用映像データを取得する参照データ取得手段と、
取得した前記参照用映像データの前記人気度を取得する人気度取得手段と、
前記参照用映像データを解析して、前記参照用映像データの特徴と、前記参照用映像データに含まれる映像効果とを特定する特定手段と、
前記特定された特徴及び映像効果のそれぞれを示す情報と、前記人気度とを互いに対応付けた参照特徴情報を生成する情報生成手段と、
を更に有し、
前記効果取得手段は、前記参照特徴情報に基づいて前記参照効果情報を取得すること
を特徴とする請求項1に記載の情報処理装置。
A reference data acquisition means for acquiring the reference video data;
a popularity acquiring means for acquiring the popularity of the acquired reference video data;
A determination means for analyzing the reference video data and determining characteristics of the reference video data and video effects included in the reference video data;
an information generating means for generating reference feature information in which information indicating each of the identified features and visual effects is associated with the popularity;
and
The information processing apparatus according to claim 1 , wherein the effect acquisition means acquires the reference effect information based on the reference feature information.
動画像データを少なくとも含む編集対象映像データの特徴を示す対象特徴情報を取得する対象取得工程と、
前記対象特徴情報が示す特徴に類似する特徴を含む参照用映像データであって、人気度が所定の条件を満たす前記参照用映像データに含まれる映像効果を示す参照効果情報を取得する効果取得工程と、
前記参照効果情報が示す映像効果と同一又は類似の映像効果を前記編集対象映像データに付与する付与工程と、
を含むことを特徴とする情報処理方法。
an object acquiring step of acquiring object characteristic information indicating characteristics of video data to be edited, the video data including at least moving image data;
an effect acquisition step of acquiring reference effect information indicating a video effect included in reference video data including a feature similar to the feature indicated by the target feature information, the reference video data having a popularity satisfying a predetermined condition;
an applying step of applying a visual effect that is the same as or similar to the visual effect indicated by the reference effect information to the video data to be edited;
13. An information processing method comprising:
コンピュータを、請求項1乃至14のいずれか1項に記載の情報処理装置として機能させるためのプログラム。 A program for causing a computer to function as an information processing device according to any one of claims 1 to 14.
JP2022187500A 2022-11-24 Information processing device, information processing method, and program Pending JP2024076103A (en)

Publications (1)

Publication Number Publication Date
JP2024076103A true JP2024076103A (en) 2024-06-05

Family

ID=

Similar Documents

Publication Publication Date Title
CN110941954B (en) Text broadcasting method and device, electronic equipment and storage medium
CN108962217B (en) Speech synthesis method and related equipment
US11705096B2 (en) Autonomous generation of melody
Chen et al. What comprises a good talking-head video generation?: A survey and benchmark
CN111415677B (en) Method, apparatus, device and medium for generating video
US9898850B2 (en) Support and complement device, support and complement method, and recording medium for specifying character motion or animation
CN107403011B (en) Virtual reality environment language learning implementation method and automatic recording control method
Fort et al. Seeing the initial articulatory gestures of a word triggers lexical access
CN109788345A (en) Live-broadcast control method, device, live streaming equipment and readable storage medium storing program for executing
US11511200B2 (en) Game playing method and system based on a multimedia file
WO2022242706A1 (en) Multimodal based reactive response generation
Friedland et al. Multimedia computing
CN108847066A (en) A kind of content of courses reminding method, device, server and storage medium
CN111147914A (en) Video processing method, storage medium and electronic equipment
KR20220123170A (en) Language Learning System and Method with AI Avatar Tutor
CN113077819A (en) Pronunciation evaluation method and device, storage medium and electronic equipment
CN111861666A (en) Vehicle information interaction method and device
US20220414472A1 (en) Computer-Implemented Method, System, and Non-Transitory Computer-Readable Storage Medium for Inferring Audience&#39;s Evaluation of Performance Data
JP2024076103A (en) Information processing device, information processing method, and program
WO2022249522A1 (en) Information processing device, information processing method, and information processing system
CN111160051B (en) Data processing method, device, electronic equipment and storage medium
CN116561294A (en) Sign language video generation method and device, computer equipment and storage medium
CN112633136B (en) Video analysis method, device, electronic equipment and storage medium
JP3930402B2 (en) ONLINE EDUCATION SYSTEM, INFORMATION PROCESSING DEVICE, INFORMATION PROVIDING METHOD, AND PROGRAM
CN115171645A (en) Dubbing method and device, electronic equipment and storage medium