JP2024013024A - Moving image analyzer, moving image analysis system, edition device, learning device, moving image analysis method, and moving image analysis program - Google Patents
Moving image analyzer, moving image analysis system, edition device, learning device, moving image analysis method, and moving image analysis program Download PDFInfo
- Publication number
- JP2024013024A JP2024013024A JP2022114920A JP2022114920A JP2024013024A JP 2024013024 A JP2024013024 A JP 2024013024A JP 2022114920 A JP2022114920 A JP 2022114920A JP 2022114920 A JP2022114920 A JP 2022114920A JP 2024013024 A JP2024013024 A JP 2024013024A
- Authority
- JP
- Japan
- Prior art keywords
- video
- scene
- label
- editing
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010191 image analysis Methods 0.000 title 1
- 238000003703 image analysis method Methods 0.000 title 1
- 238000004458 analytical method Methods 0.000 claims abstract description 131
- 230000004044 response Effects 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 14
- 238000000034 method Methods 0.000 description 13
- 230000010365 information processing Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 2
- 238000012950 reanalysis Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Television Signal Processing For Recording (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
Description
本発明は、動画解析装置等に関する。 The present invention relates to a video analysis device and the like.
新たな動画を作成する際に、過去に作成された動画が使用される場合がある。このとき、動画の作成者は、過去に作成された動画が蓄積されているアーカイブから、新たな動画の作成に使用したい動画を検索する。 When creating a new video, videos created in the past may be used. At this time, the creator of the video searches for a video that he/she wants to use for creating a new video from an archive that stores videos created in the past.
動画には、番組名や番組ジャンルなどの情報が、メタデータが付与されている場合がある。この場合、動画の作成者は、このメタデータに基づいて、使用したい動画を検索する。しかし、アーカイブに多くの動画が蓄積されている場合、メタデータに基づいて動画を検索しても、多くの動画が抽出される可能性がある。そして、作成者は、この多くの動画の中から使用したいシーンを目視で探すことになる。また、作成者は、使用したいシーンを人手で切り出し、切り出された動画を使用して、新たな動画を作成する。なお、シーンとは、時系列的に連続した一場面を指す。 Videos may have metadata attached to them, including information such as the program name and program genre. In this case, the creator of the video searches for the video he or she wants to use based on this metadata. However, if there are many videos stored in the archive, even if you search for videos based on metadata, there is a possibility that many videos will be extracted. Then, the creator visually searches for the scene he or she wants to use from among these many videos. In addition, the creator manually cuts out the scene he or she wants to use, and uses the cut out video to create a new video. Note that a scene refers to a chronologically continuous scene.
これに関連する方法として、特許文献1から特許文献2に記載された方法がある。これらの方法では、動画に撮影されているシーンや被写体が解析される。 As methods related to this, there are methods described in Patent Documents 1 to 2. In these methods, the scenes and objects captured in the video are analyzed.
しかし、たとえば、放送局で使用される動画の場合、シーンや被写体の解析結果に、高い信頼性が求められる。解析結果の信頼性が低い場合、作業者による確認や修正に時間を要してしまい、作業者の負担が大きくなる。 However, for example, in the case of videos used by broadcasting stations, the results of scene and subject analysis require high reliability. If the reliability of the analysis results is low, it will take time for the operator to check and make corrections, increasing the burden on the operator.
本発明の目的は、上記課題を鑑み、シーンや被写体の解析の信頼性をより向上することを可能にする動画解析装置等を提供することにある。 SUMMARY OF THE INVENTION In view of the above-mentioned problems, an object of the present invention is to provide a video analysis device and the like that can further improve the reliability of scene and subject analysis.
本発明の一態様において、動画解析装置は、動画のジャンルを示すジャンル情報に基づいて、前記動画をシーンに分割し、前記シーンの各々に対して、前記シーンの分類を示すシーン名を決定するシーン分割部と、前記シーンに含まれる映像フレームの各々に対して、前記映像フレームに撮像されている被写体に関する情報であるラベルを設定するラベル設定部と、前記映像フレームの各々について、前記映像フレームが含まれる前記シーンの前記シーン名と、前記ラベルとを出力する出力部とを備え、前記シーン分割部は、前記動画と当該動画の前記ジャンル情報とから、前記動画を前記シーンごとに分割し、前記シーンの各々に対する前記シーン名を決定する第一の学習モデルを使用して、前記シーンの分割と前記シーン名の決定とを行う。 In one aspect of the present invention, the video analysis device divides the video into scenes based on genre information indicating the genre of the video, and determines, for each of the scenes, a scene name indicating the classification of the scene. a scene dividing section; a label setting section that sets, for each of the video frames included in the scene, a label that is information about a subject imaged in the video frame; an output unit that outputs the scene name and the label of the scene including the scene, and the scene dividing unit divides the video into scenes based on the video and the genre information of the video. , dividing the scenes and determining the scene names using a first learning model that determines the scene names for each of the scenes.
また、本発明の他の態様において、動画解析方法は、動画と当該動画のジャンルを示すジャンル情報とから、前記動画をシーンごとに分割し、前記シーンの各々に対して、シーンの分類を示すシーン名を決定する第一の学習モデルを使用して、前記動画を前記シーンに分割し、前記シーンの各々に対して前記シーン名を決定し、前記シーンに含まれる映像フレームの各々に対して、前記シーン名に基づいて、前記映像フレームに撮像されている被写体に関する情報であるラベルを設定し、前記映像フレームの各々について、前記映像フレームが含まれる前記シーンの前記シーン名と、前記ラベルとを出力する。 In another aspect of the present invention, the video analysis method divides the video into scenes based on the video and genre information indicating the genre of the video, and indicates a scene classification for each of the scenes. A first learning model that determines a scene name is used to divide the video into the scenes, determine the scene name for each of the scenes, and determine the scene name for each of the video frames included in the scene. , based on the scene name, set a label that is information about the subject imaged in the video frame, and for each video frame, set the scene name of the scene in which the video frame is included, and the label. Output.
また、本発明の他の態様において、動画解析プログラムは、コンピュータに、動画のジャンルを示すジャンル情報に基づいて、前記動画をシーンに分割し、前記シーンの各々に対して、前記シーンの分類を示すシーン名を決定するシーン分割機能と、前記シーンに含まれる映像フレームの各々に対して、前記シーン名に基づいて、前記映像フレームに撮像されている被写体に関する情報であるラベルを設定するラベル設定機能と、前記映像フレームの各々について、前記映像フレームが含まれる前記シーンの前記シーン名と、前記ラベルとを出力する出力機能とを実現させ、前記シーン分割機能は、前記動画と当該動画の前記ジャンル情報とから、前記動画を前記シーンごとに分割し、前記シーンの各々に対する前記シーン名を決定する第一の学習モデルを使用して、前記シーンの分割と前記シーン名の決定とを行う。 In another aspect of the present invention, the video analysis program causes the computer to divide the video into scenes based on genre information indicating the genre of the video, and to classify each of the scenes into scenes. a scene division function that determines a scene name to be displayed; and a label setting that sets a label, which is information about the subject imaged in the video frame, based on the scene name, for each video frame included in the scene. and an output function that outputs, for each of the video frames, the scene name of the scene in which the video frame is included, and the label, and the scene division function is configured to output the video and the label of the video frame. The video is divided into scenes based on the genre information, and the scenes are divided and the scene names are determined using a first learning model that determines the scene names for each of the scenes.
本発明によれば、シーンや被写体の解析の信頼性をより向上することが可能になる。 According to the present invention, it is possible to further improve the reliability of scene and subject analysis.
[第一の実施形態]
本発明の第一の実施形態について説明する。第一の実施形態における動画解析装置10の具体的な一例が、後述する第二の実施形態における動画解析装置20である。
[First embodiment]
A first embodiment of the present invention will be described. A specific example of the
図1に本実施形態の動画解析装置10の構成例を示す。本実施形態の動画解析装置10は、シーン分割部11とラベル設定部12と出力部13とを含む。
FIG. 1 shows a configuration example of a
シーン分割部11は、ジャンル情報に基づいて、動画をシーンごとに分割する。ジャンル情報は、動画のジャンルを示す。また、シーン分割部11は、シーンの各々に対して、シーン名を決定する。シーン名は、シーンの分類を示す。
The
シーン分割部11は、第一の学習モデルを使用して、上述の、シーンの分割とシーン名の決定とを行う。第一の学習モデルは、動画と当該動画のジャンル情報とから、動画をシーンごとに分割し、シーンの各々に対するシーン名を決定する。
The
ラベル設定部12は、シーンに含まれる映像フレームの各々に対して、シーン名に基づいて、ラベルを設定する。ラベルは、映像フレームに撮像されている被写体に関する情報である。
The
出力部13は、映像フレームの各々について、映像フレームが含まれるシーンのシーン名と、ラベルとを出力する。
The
次に、図2に本実施形態の動画解析装置10の動作フローの例を示す。
Next, FIG. 2 shows an example of the operation flow of the
シーン分割部11は、ジャンル情報に基づいて、動画をシーンに分割する。また、シーン分割部11は、シーンの各々に対して、シーン名を決定する(ステップS101)。
The
ラベル設定部12は、シーンに含まれる映像フレームの各々に対して、ラベルを設定する(ステップS102)。
The
出力部13は、映像フレームの各々について、映像フレームが含まれるシーンのシーン名と、ラベルとを出力する(ステップS103)。
The
以上で説明したように、本発明の第一の実施形態では、動画解析装置10は、シーン分割部11とラベル設定部12と出力部13とを含む。シーン分割部11は、ジャンル情報に基づいて、動画をシーンに分割する。また、シーン分割部11は、シーンの各々に対して、シーン名を決定する。シーン分割部11は、第一の学習モデルを使用して、シーンの分割とシーン名の決定とを行う。第一の学習モデルは、動画と当該動画のジャンル情報とから、動画をシーンごとに分割し、シーンの各々に対するシーン名を決定する。ラベル設定部12は、シーンに含まれる映像フレームの各々に対して、シーン名に基づいて、ラベルを設定する。出力部13は、映像フレームの各々について、映像フレームが含まれるシーンのシーン名と、ラベルとを出力する。
As described above, in the first embodiment of the present invention, the
このように、動画解析装置10は、ジャンル情報に基づいて、シーンの分割とシーン名の決定とを行う。これにより、動画解析装置10は、ジャンル情報によって示されるジャンルで頻出するシーンとしてシーンが解析される可能性を向上する。その結果、動画解析装置10は、動画の特徴量が似ているシーンであるが、誤ったシーンとしてシーンが解析される可能性を低減することができる。したがって、シーン解析の信頼性を向上することができる。また、動画解析装置10は、シーン名に基づいてラベルを設定するので、シーン解析の信頼性の向上によって、被写体の解析の信頼性も向上する。そのため、シーンや被写体の解析の信頼性をより向上することが可能になる。
In this manner, the
[第二の実施形態]
次に、本発明の第二の実施形態における動画解析装置20について説明する。第一の実施形態における動画解析装置10の具体的な一例が、第二の実施形態における動画解析装置20である。
[Second embodiment]
Next, a
まず、図3に、本実施形態の動画解析装置20を含む動画解析システム80の構成例を示す。動画解析システム80は、学習装置60と動画解析装置20と編集装置30とを含む。動画解析装置20は、動画記憶装置40と学習装置60と編集装置30とに接続される。また、学習装置60は、動画記憶装置40と動画解析装置20とに接続される。また、編集装置30は、動画記憶装置40と利用者端末50とに接続される。
First, FIG. 3 shows a configuration example of a
動画記憶装置40は、動画を記憶している。動画は、映像情報を含む。また、動画は、音声情報を含んでいてもよい。また、動画記憶装置40は、メタデータを記憶している。メタデータは、動画に関するデータである。
The
メタデータは、ジャンル情報を含む。ジャンル情報は、動画のジャンルを示す情報である。ジャンルは、動画の種別である。ジャンルは、たとえば、スポーツ、ニュース・報道、バラエティなどである。 The metadata includes genre information. Genre information is information indicating the genre of the video. The genre is the type of video. Genres include, for example, sports, news/reporting, and variety.
また、メタデータは、動画に含まれる映像フレームの各々についてのシーン名を含むことができる。シーン名とは、シーン(場面)の分類を示す名称である。シーン名は、同一の場面(シーン)を示す映像フレームに対して決定される。たとえば、動画がサッカーの動画であれば、ドリブル、ゴール、カウンターなどがシーン名である。 Additionally, the metadata can include a scene name for each video frame included in the video. The scene name is a name indicating the classification of a scene. Scene names are determined for video frames showing the same scene. For example, if the video is a soccer video, scene names include dribbling, goal, and counter.
また、メタデータは、動画に含まれる映像フレームの各々についてのラベルを含むことができる。ラベルは、映像フレームに撮像されている被写体に関する情報である。被写体は、人物であってもよい。ラベルは、一つの映像フレームに対して、一または二以上の複数個設定されることができる。また、ラベルが設定されていない映像フレームがあってもよい。 The metadata can also include labels for each video frame included in the video. The label is information regarding the subject imaged in the video frame. The subject may be a person. One or more labels can be set for one video frame. Furthermore, there may be video frames for which no labels are set.
ラベルは、たとえば、被写体の名称であってもよい。この場合、ラベルは、たとえば、「サッカー選手」、「サッカーボール」などである。ラベルは、人物名であってもよい。また、ラベルは、被写体の動作を示す情報であってもよい。この場合、ラベルは、たとえば、「ボールを蹴る」、「ピッチング」、「バッティング」などである。また、一つの被写体に対して一または二以上のラベルが設定されてもよい。たとえば、「バッティング」というラベルが設定された映像フレームに対して、さらに「バッティング」より詳細な情報である「ノーステップ打法」や「一本足打法」といったラベルが設定されてもよい。 The label may be, for example, the name of the subject. In this case, the labels are, for example, "soccer player" or "soccer ball." The label may be a person's name. Further, the label may be information indicating the motion of the subject. In this case, the labels are, for example, "kicking the ball," "pitching," "batting," and the like. Furthermore, one or more labels may be set for one subject. For example, for a video frame to which the label "batting" has been set, labels such as "no-step batting method" or "one-leg batting method", which are more detailed information than "batting", may be further set.
また、メタデータは、ラベルの各々について、ラベルに相当する被写体の領域情報を含んでいてもよい。領域情報は、映像フレームのどの領域に被写体が撮像されているかを示す情報である。 Further, the metadata may include, for each label, area information of the subject corresponding to the label. The area information is information indicating in which area of the video frame the subject is imaged.
なお、動画記憶装置40は、動画解析装置20による解析の対象の動画と、学習装置60による学習に使用される動画とを記憶することができる。また、解析の対象の動画には、まだ解析されていない動画と、解析された動画とがあり得る。また、解析された動画には、メタデータに含まれている解析結果が編集されているものと、編集されていないものとがあり得る。なお、解析結果とは、映像フレームの各々のシーン名やラベルを指す。また、学習、解析および編集については、後述する。また、解析結果とは、映像フレームの各々のシーン名とラベルを指す。まだ解析されていない動画のメタデータは、シーン名やラベルを含まない。解析された動画や学習に使用される動画のメタデータは、シーン名やラベルを含む。
Note that the
また、動画記憶装置40は、動画解析装置20から要求された動画と当該動画のメタデータとを、動画解析装置20へ送信する。また、動画記憶装置40は、学習装置60から要求された動画と当該動画のメタデータとを、学習装置60へ送信する。また、動画記憶装置40は、編集装置30から要求された動画と当該動画のメタデータとを、編集装置30へ送信する。
Further, the
利用者端末50は、メタデータを編集する利用者によって使用される端末である。利用者端末50は、たとえば、パーソナルコンピュータ等の情報処理装置である。利用者端末50は、入力デバイスの一例であるキーボードや、出力デバイスとしてのディスプレイ等のマンマシンインタフェースを備える。利用者端末50は、利用者によって入力デバイスに入力された操作に応じて、編集装置30に対する指示を行う。また、利用者端末50は、編集装置30からの制御によって、利用者端末50が備える表示手段に、画像を表示させる。
The
学習装置60は、動画の解析のための学習モデルを生成する。学習装置60の詳細については後述する。
The
動画解析装置20は、動画の解析を行う。動画解析装置20の詳細については後述する。
The
編集装置30は、メタデータの編集を行う。編集装置30の詳細については後述する。
The
次に、図4に、本実施形態の学習装置60の構成例を示す。学習装置60は、学習情報入力部61、学習情報記憶部62およびモデル生成部63を含む。
Next, FIG. 4 shows a configuration example of the
なお、本実施形態では、学習装置60と動画解析装置20とが異なる装置である場合について説明するが、動画解析装置20が学習装置60の機能を備えていても良い。
In this embodiment, a case will be described in which the
本実施形態の学習装置60は、シーン分割用の第一の学習モデルと、ラベル設定用の第二の学習モデルとを生成する。シーン分割とラベル設定とについては、後述する。第一の学習モデルを生成する処理と、第二の学習モデルを生成する処理は、互いに異なる処理である。学習装置60は、第一の学習モデルを生成する装置と、第二の学習モデルを生成する装置とに分かれていてもよい。
The
学習情報入力部61は、学習情報を受信し、学習情報記憶部62に記憶させる。学習情報記憶部62は、学習情報を記憶する。モデル生成部63は、学習情報を用いて学習モデルを生成して出力する。
The learning
まず、学習装置60が第一の学習モデルを生成する場合について説明する。第一の学習モデルは、シーン分割用の学習モデルである。第一の学習モデルへの入力は、動画と当該動画のジャンル情報である。また、第一の学習モデルの出力は、動画に含まれる映像フレームの各々に対するシーン名である。第一の学習モデルは、動画のジャンル情報に基づいて、動画をシーンごとに分割し、シーンの各々に対してシーン名を決定する。
First, a case where the
この場合、第一の学習モデルの生成のための学習情報は、シーン名、当該シーン名に該当する映像フレーム、および、当該映像フレームが含まれる動画のジャンル情報を含む。動画記憶装置40には、学習用の動画と、当該動画のメタデータが記憶されている。学習用の動画のメタデータには、ジャンル情報と、映像フレームの各々についてのシーン名が含まれている。そのため、学習情報入力部61は、学習用の動画とメタデータとを動画記憶装置40から取得することによって、学習情報を得ることができる。
In this case, the learning information for generating the first learning model includes a scene name, a video frame corresponding to the scene name, and genre information of a video including the video frame. The
なお、解析がされた動画のうち、編集装置30によってメタデータが編集された動画が、学習用の動画として使用されてもよい。このように、編集装置30による編集結果を学習に使用することで、学習モデルの精度を向上することができる。
Note that among the analyzed videos, a video whose metadata has been edited by the
また、ジャンル情報は、他の装置(不図示)によって、動画に対してあらかじめ設定され、設定されたジャンル情報を含むメタデータが動画記憶装置40に記憶されている。また、メタデータにジャンル情報が含まれていない場合には、動画解析装置20または編集装置30が、利用者端末50からの操作入力に応じて、メタデータにジャンル情報を設定してもよい。また、後述のように、編集装置30は、メタデータの編集の際に、ジャンル情報を変更することができる。
Further, the genre information is set in advance for the video by another device (not shown), and metadata including the set genre information is stored in the
モデル生成部63は、学習情報に基づいて、第一の学習モデルを生成する。また、モデル生成部63は、生成した第一の学習モデルを動画解析装置20のシーン分割部21へ送信する。
The
なお、学習情報入力部61は、所定のタイミングで、学習用の動画を動画記憶装置40から取得することができる。このときの所定のタイミングは、たとえば、新たな学習用の動画が動画記憶装置40に記憶された場合や、編集装置30によってメタデータが編集された場合などである。また、モデル生成部63は、所定のタイミングで、新たな第一の学習モデルを生成しても良い。このときの所定のタイミングは、たとえば、定時間おきや、新たな学習用の動画が学習情報記憶部62に記憶された場合や、利用者端末50から学習を指示する学習指示が入力された場合などである。
Note that the learning
次に、学習装置60が第二の学習モデルを生成する場合について説明する。第二の学習モデルは、ラベル設定用の学習モデルである。第二の学習モデルは、シーン名が同一である映像フレームである同一シーンフレーム、当該同一シーンフレームのシーン名、および、当該同一シーンフレームを含む動画のジャンル情報から、当該同一シーンフレームに含まれる映像フレームの各々に対するラベル名を設定する。
Next, a case where the
この場合、第二の学習モデルの生成のための学習情報は、ラベル、当該ラベルが設定されている映像フレーム、当該ラベルの領域情報、当該ラベルが設定されている映像フレームのシーン名、および、当該ラベルが設定されている映像フレームを含む動画のジャンル情報を含む。動画記憶装置40には、学習用の動画と、当該動画のメタデータが記憶されている。学習用の動画のメタデータには、ジャンル情報と、映像フレームの各々についてのシーン名およびラベルと、ラベルの各々についての領域情報が含まれている。そのため、学習情報入力部61は、学習用の動画と当該動画のメタデータとを動画記憶装置40から取得することによって、学習情報を得ることができる。なお、解析がされた動画のうち、編集装置30によってメタデータが編集された動画が、学習用の動画として使用されてもよい。
In this case, the learning information for generating the second learning model includes a label, a video frame to which the label is set, area information of the label, a scene name of the video frame to which the label is set, and Contains genre information of the video that includes the video frame to which the label is set. The
モデル生成部63は、学習情報に基づいて、第二の学習モデルを生成する。また、モデル生成部63は、生成した第二の学習モデルを動画解析装置20のラベル設定部22へ送信する。
The
なお、学習情報入力部61は、新たな学習用の動画が動画記憶装置40に記憶された場合や、編集装置30によってメタデータが編集された場合などの所定のタイミングで、学習用の動画を動画記憶装置40から取得することができる。また、モデル生成部63は、所定のタイミングで、新たな第二の学習モデルを生成しても良い。所定のタイミングは、たとえば、所定時間おきや、新たな学習用の動画が学習情報記憶部62に記憶された場合や、利用者端末50から学習を指示する学習指示が入力された場合などである。
Note that the learning
次に、図5に、本実施形態の動画解析装置20の構成例を示す。動画解析装置20は、シーン分割部21、ラベル設定部22および出力部23を含む。なお、動画解析装置20によって動画に対して行われる一連の動作を、解析とよぶ。
Next, FIG. 5 shows a configuration example of the
シーン分割部21は、解析の対象の動画と当該動画のメタデータとを、動画記憶装置40から取得する。また、シーン分割部21は、ジャンル情報に基づいて、解析対象の動画をシーンに分割する。また、シーン分割部21は、シーンの各々に対して、シーン名を決定する。シーン分割部21は、学習装置60で生成された第一の学習モデルを使用して、シーン分割とシーン名の決定とを行う。シーン分割部21は、第一の学習モデルに、解析対象の動画と当該動画のジャンル情報とを入力する。第一の学習モデルは、動画に含まれる映像フレームの各々に対するシーン名を出力する。
The
ラベル設定部22は、解析対象の動画に含まれる映像フレームの各々に対してラベルを設定する。ラベル設定部22は、学習装置60で生成された第二の学習モデルを使用して、ラベルの設定を行う。また、ラベル設定部22は、第二の学習モデルを使用して、ラベルの各々についての領域情報を決定する。ラベル設定部22は、第二の学習モデルに、同一シーンフレームと、当該同一シーンフレームのシーン名と、当該同一シーンフレームを含む動画のジャンル情報とを入力する。同一シーンフレームは、シーン名が同一である映像フレームである。第二の学習モデルは、当該同一シーンフレームに含まれる映像フレームの各々に対するラベルと、ラベルの領域情報とを出力する。
The
出力部23は、シーン分割部21で決定されたシーン名と、ラベル設定部22で設定されたラベルとを出力する。より具体的には、出力部23は、映像フレームの各々についてのシーン名およびラベルと、ラベルの各々についての領域情報とをメタデータに含ませて、動画記憶装置40に記憶させる。
The
次に、図6に本実施形態の編集装置30の構成例を示す。本実施形態の編集装置30は、編集部34と記憶部35とを含む。編集装置30は、動画解析装置20に含まれていてもよい。
Next, FIG. 6 shows a configuration example of the
編集部34は、利用者端末50からの動画取得指示に応じて、動画記憶装置40から、編集対象の動画と当該動画のメタデータとを取得する。また、編集部34は、取得した動画およびメタデータを記憶部35に記憶させる。動画取得指示は、編集対象の動画の取得を指示する指示である。動画取得指示は、編集対象の動画の識別情報、たとえばファイル名などを含む。
The
編集部34は、シーン編集指示に応じて、編集対象の動画のメタデータを編集する。シーン編集指示は、映像フレームの各々についてのシーン名の編集に関する指示である。また、編集部34は、ラベル編集指示に応じて、編集対象の動画のメタデータを編集する。ラベル編集指示は、映像フレームの各々についてのラベルの編集に関する指示である。シーン編集指示およびラベル編集指示は、利用者端末50から編集部34に入力される。また、編集部34は、編集されたメタデータを動画記憶装置40に記憶させる。
The
また、編集部34は、シーン編集画像表示指示に応じて、シーン編集画像110を利用者端末50に表示させる。シーン編集画像表示指示は、シーン編集画像110の表示を指示する指示である。シーン編集画像110は、シーン名の編集のための画像である。また、編集部34は、取得した動画とメタデータとに基づいて、利用者端末50に表示させるシーン編集画像110を生成する。
Furthermore, the
図7に、シーン編集画像110の例を示す。
FIG. 7 shows an example of the scene edited
シーン編集画像110は、元動画表示画像111を含む。元動画表示画像111は、編集対象の動画を表示する。元動画表示画像111に表示された動画は、利用者端末50からの操作入力によって、動画の再生や停止が可能である。編集部34は、編集対象の動画を、元動画表示画像111に表示させる。また、編集部34は、利用者端末50からの操作入力に応じて、動画の再生の開始や停止を行う。
The scene edited
また、シーン編集画像110は、シーン表示画像112を含む。シーン表示画像112は、編集対象の動画がどのようにシーン分割されているかを示す。シーン表示画像112において、横軸は、動画の始点からの再生時間を示す。シーン表示画像112では、同じシーン名が付与されている映像フレームが、同じ色で示されていてもよい。メタデータには、映像フレームの各々についてのシーン名が含まれている。編集部34は、編集対象の動画のメタデータに基づいて、同じシーン名が付与されている映像フレームを同じシーンであるとすることができる。編集部34は、互いに異なるシーン名が付与されている映像フレームの境界を、シーン表示画像112に表示させる。
The scene edited
また、シーン編集画像110は、切り出し画像113を含む。切り出し画像113には、シーン表示画像112に表示されているカーソルによって示される映像フレームの画像(静止画像)である。シーン表示画像112に表示されているカーソルは、利用者端末50からの操作入力に応じて移動される。編集部34は、利用者端末50からの操作入力に応じて、シーン表示画像112に表示されているカーソルが示す映像フレームの画像を切り出し画像113として表示する。なお、切り出し画像113の上側に表示されているタイムコードは、カーソルによって示されている映像フレームが含まれるシーンの開始位置と終了位置とを表す。
Furthermore, the scene edited
また、シーン編集画像110は、ジャンル画像114を含む。ジャンル画像114には、編集対象の動画のジャンル情報が含まれる。編集部34は、編集対象の動画のメタデータに含まれるジャンル情報を、ジャンル画像114に表示させる。
Furthermore, the scene edited
また、シーン編集画像110は、シーン名編集画像115を含む。シーン名編集画像115は、シーン名の編集のための画像である。シーン名編集画像115には、シーン表示画像112に表示されているカーソルによって示されるシーンのシーン名が表示される。また、シーン名編集画像115では、利用者端末50からの操作入力によって、「編集」が選択されると、シーン名の編集が可能になる。利用者端末50からの操作入力によって、シーン名編集画像115に文字列が入力されると、編集部34に、シーン編集指示が入力される。編集部34は、入力されたシーン編集指示に応じて、記憶部35に記憶されているメタデータを編集することによって、当該シーンに含まれる映像フレームのシーン名を変更し、編集されたメタデータを、利用者端末50に記憶させる。
The scene edited
また、シーン編集画像110は、シーン一覧画像116を含む。シーン一覧画像116は、シーンの一覧を表示する。シーン一覧画像116には、編集対象の動画に含まれるシーンのシーン名が含まれる。また、シーン一覧画像116には、シーン名の各々について、該当するシーンのサムネイルが表示される。また、シーン一覧画像116は、各々のシーンについてのタイムコードを含んでいてもよい。タイムコードは、動画の始点からの再生時間によって、各々のシーンが動画のどの位置に含まれるかを示す。
The
シーン一覧画像116は、シーン名入力領域117とシーン検索画像118を含んでいてもよい。シーン名入力領域117は、シーン名の入力のための領域である。また、シーン検索画像118は、シーン名入力領域117に入力されたシーン名のシーンを検索するための画像である。シーン検索画像118が選択されると、シーン名入力領域117に入力されているシーン名のシーンが、シーン一覧画像116に表示される。
The
また、シーン一覧画像116に表示されているサムネイルは、利用者端末50からの操作入力によって、異なるシーン名のサムネイルの表示領域へ移動されることが可能である。サムネイルの移動は、シーンの移動に相当する。編集部34は、シーンの移動を示すシーン編集指示が入力されると、記憶部35に記憶されているメタデータを編集することによって、移動されたシーンに該当する映像フレームのシーン名を変更する。そして、編集部34は、編集されたメタデータを動画記憶装置40に記憶させる。
Furthermore, the thumbnails displayed in the
また、シーン編集画像110は、時間幅編集画像119を含んでいてもよい。時間幅編集画像119は、シーンの開始位置と終了位置とを編集可能にするための画像である。時間幅編集画像119が選択されると、シーン表示画像112におけるシーンの開始位置と終了位置とが編集可能になる。編集部34は、シーンの開始位置または終了位置の編集を示すシーン編集指示が入力されると、記憶部35に記憶されているメタデータを編集することによって、シーン名が変更になった映像フレームのシーン名を変更する。そして、編集部34は、編集されたメタデータを動画記憶装置40に記憶させる。
Further, the scene edited
また、編集部34は、ラベル編集画像表示指示に応じて、ラベル編集画像120を利用者端末50に表示させる。ラベル編集画像表示指示は、ラベル編集画像120の表示を指示する指示である。ラベル編集画像120は、ラベルの編集のための画像である。また、編集部34は、取得した動画とメタデータとに基づいて、利用者端末50に表示させるラベル編集画像120を生成する。
Further, the
図8に、ラベル編集画像120の例を示す。
FIG. 8 shows an example of the label edited
ラベル編集画像120は、元動画表示画像121を含む。元動画表示画像121については、元動画表示画像111と同様のため、説明を省略する。
The label edited
また、ラベル編集画像120は、シーン表示画像122を含む。シーン表示画像122は、シーン表示画像112と同様のため、説明を省略する。
Furthermore, the
また、ラベル編集画像120は、切り出し画像123を含む。切り出し画像123は、切り出し画像113と同様のため、説明を省略する。
The label edited
また、ラベル編集画像120は、ジャンル画像124を含む。ジャンル画像124には、編集対象の動画のジャンル情報が示される。編集部34は、編集対象の動画のメタデータに含まれるジャンル情報を、ジャンル画像124に表示させる。
The label edited
また、ジャンル画像124では、利用者端末50からの操作入力に応じて、表示されるジャンル情報が変更される。ジャンル画像124の「登録」を選択する操作入力がされると、編集部34は、記憶部35に記憶されているメタデータを編集することによって、ジャンル情報を、ジャンル画像124に表示されているジャンル情報へ変更する。
Furthermore, in the
第一の学習モデルおよび第二の学習モデルは、ジャンル情報に基づく学習モデルである。そのため、ジャンル情報が変更された場合、再解析が行われると、映像フレームのシーン名やラベルが変更になる可能性がある。そのため、編集装置30は、ジャンル情報が変更された場合に、動画解析装置20に対して、編集対象の動画の再解析を指示してもよい。そして、編集部34は、再解析後のメタデータを動画記憶装置40から取得して、新たなメタデータに基づくシーン編集画像110やラベル編集画像120を利用者端末50に表示させてもよい。
The first learning model and the second learning model are learning models based on genre information. Therefore, if the genre information is changed and reanalysis is performed, the scene name or label of the video frame may be changed. Therefore, when the genre information is changed, the
また、ラベル編集画像120は、ラベル表示画像125を含む。ラベル表示画像125は、ラベルの編集のための画像である。ラベル表示画像125には、シーン表示画像122に表示されているカーソルによって選択されている映像フレームのラベルが表示される。編集部34は、編集対象の動画のメタデータを参照して、当該映像フレームに設定されているラベルをラベル表示画像125に表示する。また、ラベル表示画像125に表示されているラベルは、利用者端末50からの操作入力によって削除されることが可能である。
Furthermore, the
また、ラベル表示画像125には、類似ラベルが含まれる。類似ラベルは、追加されるラベルの候補である。
Further, the
類似ラベルは、たとえば、設定されているラベルに類似した単語であってもよい。編集部34は、たとえば、類似単語辞書を参照して、映像フレームに設定されているラベルに類似する単語を、類似ラベルとしてラベル表示画像125に表示させる。この場合、記憶部35には、類似単語辞書が記憶されている。
The similar label may be, for example, a word similar to the set label. For example, the
また、類似ラベルは、たとえば、類似動画に設定されているラベルであってもよい。編集部34は、たとえば、編集対象の動画とジャンル情報が同じ動画を、動画記憶装置40に記憶されている動画の中から検索し、検索された動画のメタデータを取得する。そして、編集部34は、当該メタデータに含まれているラベルを、類似ラベルとしてラベル表示画像125に表示させる。また、たとえば、編集部34は、動画の特徴が類似する動画を、動画記憶装置40に記憶されている動画の中から検索してもよい。この場合、動画解析装置20の出力部23は、解析の際に、動画の特徴量を算出して、動画記憶装置40に記憶させておく。そして、編集部34は、編集対象の動画の特徴量と近い特徴量を持つ動画を、動画記憶装置40から検索する。
Further, the similar label may be, for example, a label set to a similar video. For example, the
編集部34は、類似ラベルの追加を指示するラベル編集指示が入力されると、メタデータを編集することによって、選択された類似ラベルを、映像フレームのラベルとして追加する。より具体的には、編集部34は、ラベル追加画像127の「追加」を選択する操作入力がされると、類似ラベルの横のチェックボックスにチェックが入力されている類似ラベルを、映像フレームに設定されているラベルとして追加する。
When a label editing instruction to add a similar label is input, the
また、ラベル編集画像120は、ラベルなしシーン画像126を含む。ラベルなしシーン画像126には、ラベルが設定されていないシーンのサムネイルが表示される。ラベルが設定されていないシーンとは、ラベルが設定されている映像フレームがないシーンである。編集部34は、編集対象の動画のメタデータに基づいて、ラベルが設定されていないシーンのサムネイルをラベルなしシーン画像126に表示させる。また、ラベル追加画像127の「追加」を選択する操作入力がされ、ラベルなしシーンとして表示されていたシーンに対してラベルが設定されると、編集部34は、ラベルなしシーン画像126から、当該シーンを削除する。なお、編集部34は、保存用画像129または登録用画像130を選択する操作入力がされたタイミングで、ラベルが設定されたシーンを、ラベルなしシーン画像126から削除してもよい。
Additionally, the label edited
また、ラベル編集画像120は、ラベル追加画像127を含む。ラベル追加画像127は、ラベルの追加のための画像である。編集部34は、ラベル追加画像127を、ラベル表示画像125に表示されている「+」を選択する操作入力がされた場合に表示する。また、編集部34は、ラベル追加画像127を、ラベルなしシーン画像126に表示されているサムネイルを選択する操作入力がされた場合に表示する。この場合、編集部34は、シーン表示画像122に表示されているカーソルを、選択されたサムネイルに該当するシーンの位置まで、右または左に移動させる。
The label edited
編集部34は、操作入力によってラベル追加画像127に文字列が入力され、「追加」を選択する操作入力がされると、入力された文字列を、映像フレームに設定されているラベルとして、ラベル表示画像125に表示させる。このとき、チェックボックスにチェックが入力されている類似ラベルがあれば、当該類似ラベルについても、映像フレームに設定されているラベルとして、ラベル表示画像125に追加される。
When a character string is input to the
また、ラベル編集画像120は、ラベルボックス画像128を含む。ラベルボックス画像128は、ラベルについての領域情報を示すボックスを表示する。ボックスは、領域情報、すなわち、ラベルに相当する被写体が映像フレームのどの領域に撮像されているかを示す。ラベルボックス画像128は、シーン表示画像122に表示されているカーソルが示す映像フレームについて、当該映像フレームに設定されているラベルのボックスを表示する。このとき、ラベルボックス画像128は、シーン表示画像122に表示されているカーソルが示す映像フレームの画像に重畳して、ボックスを表示する。また、ラベルボックス画像128は、ボックスに対応するラベルも表示する。編集部34は、メタデータに含まれている領域情報に基づいて、各々のラベルのボックスをラベルボックス画像128に表示する。また、ボックスは、利用者端末50からの操作入力によって、移動され、また、変形される。
The
また、編集部34は、映像フレームに設定されているラベルがラベル表示画像125に追加された場合には、ラベルボックス画像128に、追加されたラベルのボックスを表示する。なお、このときに表示されるボックスの初期位置および初期サイズは、任意である。また、編集部34は、映像フレームに設定されているラベルがラベル表示画像125から削除された場合には、ラベルボックス画像128から、削除されたラベルのボックスを削除する。
Furthermore, when a label set for a video frame is added to the
また、ラベル編集画像120は、保存用画像129を含む。保存用画像129は、ラベルの一時保存のための画像である。編集部34は、保存用画像129を選択する操作入力がされると、記憶部35に記憶されているメタデータを編集することによって、シーン表示画像122に表示されているカーソルが示す映像フレームのラベルを、ラベル表示画像125に表示されているラベルへ変更する。このとき、また、編集部34は、記憶部35に記憶されているメタデータを編集することによって、シーン表示画像122に表示されているカーソルが示す映像フレームのラベルの領域情報を、ラベルボックス画像128に表示されているラベルボックスの領域情報へ変更する。また、編集部34は、このとき、当該映像フレームと同じシーン名を持ち、さらに、変更前のラベルが同じ映像フレームについて、同様のラベル変更を行ってもよい。
The label edited
また、ラベル編集画像120は、登録用画像130を含む。登録用画像130は、メタデータの登録用の画像である。編集部34は、登録用画像130を選択する操作入力がされると、まず、保存用画像129を選択する操作入力がされた場合と同様に、記憶部35に記憶されているメタデータを編集する。そして、編集部34は、記憶部35に記憶されているメタデータを、動画記憶装置40に記憶させる。
Furthermore, the
なお、シーン編集画像110およびラベル編集画像120は、たとえば、編集メニュー画像140に対する操作入力によって、利用者端末50に表示される。図9に編集メニュー画像140の例を示す。
Note that the
編集メニュー画像140は、映像情報表示画像141を含む。映像情報表示画像141は、編集対象の動画の識別情報、たとえばファイル名を表示する。
また、編集メニュー画像140は、動画選択用画像142を含む、動画選択用画像142は、編集対象の動画を選択するための画像である。編集部34は、動画選択用画像142を選択する操作入力がされると、動画の一覧などを表示する。また、編集部34は、編集対象の動画が選択されると、選択された動画の識別情報を映像情報表示画像141に表示させる。また、編集部34は、選択された動画と当該動画のメタデータとを取得して、取得した動画とメタデータとを記憶部35に記憶させる。
Further, the
また、編集メニュー画像140は、シーン編集画像表示用画像143を含む。シーン編集画像表示用画像143は、シーン編集画像110の表示のための画像である。シーン編集画像表示用画像143が選択されると、シーン編集画像表示指示が編集部34に入力される。編集部34は、シーン編集画像表示指示が入力されると、シーン編集画像110を利用者端末50に表示させる。
The
また、編集メニュー画像140は、ラベル編集画像表示用画像144を含む。ラベル編集画像表示用画像144は、ラベル編集画像120の表示のための画像である。ラベル編集画像表示用画像144が選択されると、ラベル編集画像表示指示が編集部34に入力される。編集部34は、ラベル編集画像表示指示が入力されると、ラベル編集画像120を利用者端末50に表示させる。
The
このように、本実施形態の編集装置30は、メタデータを編集して、シーン名やラベルを変更することができる。また、学習装置60は、編集されたメタデータを用いて再学習を行うことができる。このように、編集されたメタデータに基づく学習情報を用いて再学習が行われることによって、利用者が期待する精度のシーン分割や、利用者が期待する粒度のラベル付けを実現することが可能になる。
In this way, the
たとえば、映像フレームに設定されているラベルとして、ラベル表示画像125に、「バッティング」が表示されていたとする。このとき、利用者は、切り出し画像123などを確認して、さらに詳細なラベル(たとえば、「ノーステップ打法」「一本足打法」)を追加することができる。また、学習装置60は、追加されたラベルを含む学習情報を用いて再学習を行うことができる。追加されたラベルを含む学習情報を用いた再学習が行われて新たな第二の学習モデルが生成されると、第二の学習モデルによって、追加されたラベルが自動的に設定されるようになる。このように、編集されたラベルを含む学習情報を用いて再学習が行われることによって、利用者が期待する粒度のラベル付けを実現することが可能になる。
For example, assume that "batting" is displayed in the
次に、図10に、本実施形態の学習装置60の動作フローの例を示す。学習装置60は、第一の学習モデルの生成と第二の学習モデルの生成の各々について、図10の動作を行う。また、学習装置60は、所定時間おきや、利用者端末50から学習が指示された場合などに、図10の動作を行う。
Next, FIG. 10 shows an example of the operation flow of the
学習情報入力部61は、学習情報を受信し、学習情報記憶部62に記憶させる(ステップS201)。モデル生成部63は、学習情報を用いて学習モデルを生成して出力する(ステップS202)。
The learning
次に、図11に、本実施形態の動画解析装置20の動作フローの例を示す。動画解析装置20は、所定時間おきや、利用者端末50から解析が指示された場合などに、図11の動作を行う。
Next, FIG. 11 shows an example of the operation flow of the
また、動画解析装置20は、新たな解析対象の動画が動画記憶装置40に追加された場合などに、図11の動作を行ってもよい。たとえば、動画解析装置20は、動画記憶装置40から所定時間おきに動画一覧を取得して新旧の動画一覧を比較することにより、新たな動画が動画記憶装置40に追加されたことを検知することができる。または、動画記憶装置40に新たな動画を追加した装置から、動画解析装置20に対して、動画を追加したことを示す通知が送信されてもよい。
Further, the
シーン分割部21は、解析の対象の動画と当該動画のメタデータとを、動画記憶装置40から取得する(ステップS301)。また、シーン分割部21は、ジャンル情報に基づいて、解析対象の動画をシーンに分割する。また、シーン分割部21は、動画に含まれる映像フレームの各々に対して、シーン名を決定する(ステップS302)。シーン分割部21は、学習装置60で生成された第一の学習モデルを使用して、シーン分割とシーン名の決定とを行う。シーン分割部21は、第一の学習モデルに、解析対象の動画と当該動画のジャンル情報とを入力する。第一の学習モデルは、動画に含まれる映像フレームの各々に対するシーン名を出力する。
The
ラベル設定部22は、解析対象の動画に含まれる映像フレームの各々に対してラベルを設定する(ステップS303)。ラベル設定部22は、学習装置60で生成された第二の学習モデルを使用して、ラベルの設定を行う。また、ラベル設定部22は、第二の学習モデルを使用して、ラベルの各々についての領域情報を決定する。ラベル設定部22は、第二の学習モデルに、同一シーンフレーム、当該同一シーンフレームのシーン名、当該同一シーンフレームを含む動画のジャンル情報を入力する。第二の学習モデルは、当該同一シーンフレームに含まれる映像フレームの各々に対するラベルと、ラベルの領域情報とを出力する。
The
出力部23は、シーン分割部21で決定されたシーン名と、ラベル設定部22で設定されたラベルとを出力する。より具体的には、出力部23は、映像フレームの各々についてのシーン名およびラベルと、ラベルの各々についての領域情報とをメタデータに含ませて、動画記憶装置40に記憶させる(ステップS304)。
The
次に、図12に、本実施形態の編集装置30の動作フローの例を示す。
Next, FIG. 12 shows an example of the operation flow of the
編集部34は、利用者端末50からの動画取得指示に応じて、動画記憶装置40から、編集対象の動画と当該動画のメタデータとを取得する(ステップS401)。また、編集部34は、取得した動画およびメタデータを記憶部35に記憶させる。
The
編集部34は、シーン編集画像表示指示に応じて、シーン編集画像110を利用者端末50に表示させる。また、編集部34は、ラベル編集画像表示指示に応じて、ラベル編集画像120を利用者端末50に表示させる(ステップS402)。
The
そして、編集部34は、シーン編集指示に応じて、シーン編集画像110を更新する。また、編集部34は、シーン編集指示に応じて、記憶部35に記憶されているメタデータを編集する。また、編集部34は、ラベル編集指示に応じて、ラベル編集画像120を更新する。また、編集部34は、ラベル編集指示に応じて、記憶部35に記憶されているメタデータを編集する。また、編集部34は、指示に応じて、記憶部35に記憶されているメタデータを、動画記憶装置40に記憶させる(ステップS403)。
The
以上で説明したように、本発明の第二の実施形態では、動画解析装置20は、シーン分割部21とラベル設定部22と出力部23とを含む。シーン分割部21は、ジャンル情報に基づいて、動画をシーンに分割する。また、シーン分割部21は、シーンの各々に対して、シーン名を決定する。シーン分割部21は、第一の学習モデルを使用して、シーンの分割とシーン名の決定とを行う。第一の学習モデルは、動画と当該動画のジャンル情報とから、動画をシーンごとに分割し、シーンの各々に対するシーン名を決定する。ラベル設定部22は、シーンに含まれる映像フレームの各々に対して、シーン名に基づいて、ラベルを設定する。出力部23は、映像フレームの各々について、映像フレームが含まれるシーンのシーン名と、ラベルとを出力する。
As described above, in the second embodiment of the present invention, the
このように、動画解析装置20は、ジャンル情報に基づいて、シーンの分割とシーン名の決定とを行う。これにより、動画解析装置20は、ジャンル情報によって示されるジャンルで頻出するシーンとしてシーンが解析される可能性を向上する。その結果、動画解析装置20は、動画の特徴量が似ているシーンであるが、誤ったシーンとしてシーンが解析される可能性を低減することができる。したがって、シーン解析の信頼性を向上することができる。また、動画解析装置20は、シーン名に基づいてラベルを設定するので、シーン解析の信頼性の向上によって、被写体の解析の信頼性も向上する。そのため、シーンや被写体の解析の信頼性をより向上することが可能になる。
In this way, the
ラベル設定部22は、第二の学習モデルを使用して、ラベルの設定を行う。第二の学習モデルは、同一シーンフレームと、当該同一シーンフレームのシーン名と、当該同一シーンフレームを含む動画のジャンル情報とから、当該同一シーンフレームに含まれる映像フレームの各々に対するラベルを設定する。同一シーンフレームは、シーン名が同一である映像フレームである。これにより、ラベルの設定についてもジャンル情報が使用されるので、被写体の解析の信頼性をより向上することが可能になる。また、ラベル設定に第二の学習モデルが使用されることによって、設定されるラベルのばらつきを、人手でラベルが設定される場合に比べて、低減することができる。
The
また、第二の学習モデルは、さらに、ラベルの各々について、領域情報を出力する。領域情報は、映像フレームのどの領域に、ラベルに相当する被写体が撮像されているかを示す情報である。また、ラベル設定部22は、第二の学習モデルを使用して、ラベルの各々についての領域情報を決定する。出力部23は、さらに、領域情報を出力する。これによって、領域情報の可視化が可能になるので、利用者にとっての利便性が向上する。
Furthermore, the second learning model further outputs region information for each label. The region information is information indicating in which region of the video frame the subject corresponding to the label is imaged. Furthermore, the
また、出力部23は、シーン名を、メタデータに含ませて、動画記憶装置に記憶させる。メタデータは、動画に関する情報である。動画記憶装置は、動画とメタデータとを記憶する。これにより、利用者が必要とするタイミングで、利用者は、メタデータを利用することができる。
Furthermore, the
また、編集装置30は、編集部34を備える。編集部34は、動画記憶装置40から、編集対象の動画と当該動画に関するメタデータとを取得する。また、編集部34は、シーン編集画像表示指示に応じて、取得した動画とメタデータとに基づいて、シーン編集画像を利用者端末50に表示させる。シーン編集画像表示指示は、シーン編集画像の表示を指示する指示である。シーン編集画像は、シーン名の編集のための画像である。また、編集部34は、シーン編集指示に応じて、メタデータを編集する。シーン編集指示は、シーン名の編集に関する指示である。また、編集部34は、シーン編集指示に応じて、メタデータに含まれるシーン名を編集し、編集されたメタデータを、動画記憶装置40に記憶させる。これにより、シーン名の利用者による編集が可能になる。
The
また、シーン編集画像は、編集対象の動画に含まれるシーンの各々についてのシーン名とサムネイルとを含む。これにより、シーン分割の結果を利用者が容易に確認することが可能になる。 Furthermore, the scene edited image includes a scene name and a thumbnail for each scene included in the video to be edited. This allows the user to easily check the result of scene division.
また、編集部34は、異なるシーン名のサムネイルの表示領域へサムネイルが移動されることによって、シーンの移動を示すシーン編集指示が入力されると、メタデータを編集することによって、移動されたシーンに相当する映像フレームのシーン名を変更する。これにより、シーン名の変更を、容易に実現することが可能になる。
Further, when a scene editing instruction indicating movement of a scene is input by moving a thumbnail to a display area of thumbnails with a different scene name, the
また、編集部34は、動画記憶装置40から、編集対象の動画と当該動画に関するメタデータとを取得する。また、編集部34は、ラベル編集画像表示指示に応じて、取得した動画とメタデータとに基づいて、ラベル編集画像を利用者端末50に表示させる。ラベル編集画像表示指示は、ラベル編集画像の表示を指示する指示である。ラベル編集画像は、ラベルの編集のための画像である。また、編集部34は、ラベル編集指示に応じて、メタデータを編集する。ラベル編集指示は、ラベルの編集に関する指示である。また、編集部34は、ラベル編集指示に応じて、メタデータに含まれるラベルを編集し、編集されたメタデータを、動画記憶装置40に記憶させる。これにより、ラベルの利用者による編集が可能になる。
The
また、ラベル編集画像は、追加されるラベルの候補である類似ラベルを含む。編集部34は、類似ラベルの追加を指示するラベル編集指示が入力されると、メタデータを編集することによって、選択された類似ラベルを、映像フレームのラベルとして追加する。これにより、ラベルの追加が容易になる。
The label edited image also includes similar labels that are candidates for labels to be added. When a label editing instruction to add a similar label is input, the
また、類似ラベルは、映像フレームに設定されているラベルに類似した単語である。これにより、類似した単語をラベルに追加することが容易になる。 Further, the similar label is a word similar to the label set for the video frame. This makes it easy to add similar words to the label.
また、類似ラベルは、類似動画に設定されているラベルである。類似動画は、編集対象の動画とジャンル情報が同じ動画、または、特徴量が近い動画である。編集部34は、動画記憶装置40に記憶されている動画の中から類似動画を検索し、検索された類似動画のメタデータに含まれているラベルを、類似ラベルとする。これにより、類似動画に設定されているラベルを追加することが容易になる。
Further, the similar label is a label set to a similar video. A similar video is a video that has the same genre information as the video to be edited, or a video that has similar feature amounts. The
また、ラベル編集画像は、ラベルが設定されていないシーンのサムネイルを含む。これにより、利用者は、ラベルが設定されていないシーンの存在を容易に知ることが可能になる。 Furthermore, the label edited image includes thumbnails of scenes to which no labels have been set. This allows the user to easily know the existence of scenes for which no labels have been set.
また、ラベル設定部22は、ラベルの各々について、領域情報を決定する。領域情報は、映像フレームのどの領域に、ラベルに相当する被写体が撮像されているかを示す情報である。出力部23は、さらに領域情報をメタデータに含めて動画記憶装置40に記憶させる。ラベル編集画像は、ラベルについての領域情報を示すボックスを含む。これにより、利用者は、ラベルに相当する領域を容易に把握することが可能になる。
Furthermore, the
また、学習装置60は、編集装置30によって編集されたメタデータを学習情報に用いて、第一の学習モデルを生成する。これにより、第一の学習モデルの信頼性をさらに向上することができる。
Further, the
ラベル設定部22は、第二の学習モデルを使用して、ラベルの設定を行う。第二の学習モデルは、同一シーンフレームと、当該同一シーンフレームのシーン名と、当該同一シーンフレームを含む動画の前記ジャンル情報とから、当該同一シーンフレームに含まれる映像フレームの各々に対するラベルを設定する。同一シーンフレームは、シーン名が同一である映像フレームである。学習装置60は、編集装置30によって編集されたメタデータを学習情報に用いて、第二の学習モデルを生成する。これにより、利用者による編集の結果が学習に使用されるので、自動付与されるラベルを、利用者の希望の粒度に近づけることが可能になる。
The
[ハードウェア構成例]
上述した本発明の各実施形態における動画解析装置(10、20)、編集装置30または学習装置60(以降、動画解析装置等とよぶ)を、一つの情報処理装置(コンピュータ)を用いて実現するハードウェア資源の構成例について説明する。なお、動画解析装置等は、物理的または機能的に少なくとも二つの情報処理装置を用いて実現してもよい。また、動画解析装置等は、専用の装置として実現してもよい。また、動画解析装置等の一部の機能のみを情報処理装置を用いて実現してもよい。
[Hardware configuration example]
The video analysis device (10, 20),
図13は、本発明の各実施形態の動画解析装置等を実現可能な情報処理装置のハードウェア構成例を概略的に示す図である。情報処理装置90は、通信インタフェース91、入出力インタフェース92、演算装置93、記憶装置94、不揮発性記憶装置95およびドライブ装置96を含む。
FIG. 13 is a diagram schematically showing an example of the hardware configuration of an information processing device that can implement the video analysis device and the like of each embodiment of the present invention.
たとえば、図1のシーン分割部11およびラベル設定部12は、演算装置93で実現することが可能である。また、出力部13は、通信インタフェース91および演算装置93で実現することが可能である。
For example, the
通信インタフェース91は、各実施形態の動画解析装置等が、有線あるいは/および無線で外部装置と通信するための通信手段である。なお、動画解析装置等を、少なくとも二つの情報処理装置を用いて実現する場合、それらの装置の間を通信インタフェース91経由で相互に通信可能なように接続してもよい。
The
入出力インタフェース92は、入力デバイスの一例であるキーボードや、出力デバイスとしてのディスプレイ等のマンマシンインタフェースである。
The input/
演算装置93は、汎用のCPU(Central Processing Unit)やマイクロプロセッサ等の演算処理装置や複数の電気回路によって実現される。演算装置93は、たとえば、不揮発性記憶装置95に記憶された各種プログラムを記憶装置94に読み出し、読み出したプログラムに従って処理を実行することが可能である。
The
記憶装置94は、演算装置93から参照可能な、RAM(Random Access Memory)等のメモリ装置であり、プログラムや各種データ等を記憶する。記憶装置94は、揮発性のメモリ装置であってもよい。
The
不揮発性記憶装置95は、たとえば、ROM(Read Only Memory)、フラッシュメモリ、等の、不揮発性の記憶装置であり、各種プログラムやデータ等を記憶することが可能である。
The
ドライブ装置96は、たとえば、後述する記録媒体97に対するデータの読み込みや書き込みを処理する装置である。
The
記録媒体97は、たとえば、光ディスク、光磁気ディスク、半導体フラッシュメモリ等、データを記録可能な任意の記録媒体である。
The
本発明の各実施形態は、たとえば、図13に例示した情報処理装置90により動画解析装置等を構成し、この動画解析装置等に対して、上記各実施形態において説明した機能を実現可能なプログラムを供給することにより実現してもよい。
In each embodiment of the present invention, for example, a video analysis device or the like is configured by the
この場合、動画解析装置等に対して供給したプログラムを、演算装置93が実行することによって、実施形態を実現することが可能である。また、動画解析装置等のすべてではなく、一部の機能を情報処理装置90で構成することも可能である。
In this case, the embodiment can be realized by the
さらに、上記プログラムを記録媒体97に記録しておくこともできる。そして、動画解析装置等の出荷段階、あるいは運用段階等において、適宜上記プログラムが不揮発性記憶装置95に格納されるよう構成されてもよい。なお、この場合、上記プログラムの供給方法は、出荷前の製造段階、あるいは運用段階等において、適当な治具を利用して動画解析装置等内にインストールする方法を採用してもよい。また、上記プログラムの供給方法は、インターネット等の通信回線を介して外部からダウンロードする方法等の一般的な手順を採用してもよい。
Furthermore, the above program can also be recorded on the
上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。 Part or all of the above embodiments may be described as in the following additional notes, but are not limited to the following.
(付記1)
動画のジャンルを示すジャンル情報に基づいて、前記動画をシーンごとに分割し、前記シーンの各々に対して、前記シーンの分類を示すシーン名を決定するシーン分割部と、
前記シーンに含まれる映像フレームの各々に対して、前記シーン名に基づいて、前記映像フレームに撮像されている被写体に関する情報であるラベルを設定するラベル設定部と、
前記映像フレームの各々について、前記映像フレームが含まれる前記シーンの前記シーン名と、前記ラベルとを出力する出力部と
を備え、
前記シーン分割部は、前記動画と当該動画の前記ジャンル情報とから、前記動画を前記シーンごとに分類し、前記シーンの各々に対する前記シーン名を決定する第一の学習モデルを使用して、前記シーンの分割と前記シーン名の決定とを行う、
動画解析装置。
(Additional note 1)
a scene dividing unit that divides the video into scenes based on genre information indicating a genre of the video, and determines a scene name indicating a classification of the scene for each of the scenes;
a label setting unit that sets, for each of the video frames included in the scene, a label that is information about a subject imaged in the video frame based on the scene name;
an output unit that outputs, for each of the video frames, the scene name of the scene in which the video frame is included and the label;
The scene dividing unit classifies the video into each scene based on the video and the genre information of the video, and uses a first learning model that determines the scene name for each of the scenes. dividing the scene and determining the scene name;
Video analysis device.
(付記2)
前記ラベル設定部は、前記シーン名が同一である前記映像フレームである同一シーンフレームと、当該同一シーンフレームの前記シーン名と、当該同一シーンフレームを含む前記動画の前記ジャンル情報とから、当該同一シーンフレームに含まれる前記映像フレームの各々に対する前記ラベルを設定する第二の学習モデルを使用して、前記ラベルの設定を行う、
付記1に記載の動画解析装置。
(Additional note 2)
The label setting unit selects the same scene frame which is the video frame having the same scene name, the scene name of the same scene frame, and the genre information of the video including the same scene frame. Setting the labels using a second learning model that sets the labels for each of the video frames included in a scene frame;
The video analysis device described in Appendix 1.
(付記3)
前記第二の学習モデルは、さらに、前記ラベルの各々について、前記映像フレームのどの領域に、前記ラベルに相当する前記被写体が撮像されているかを示す情報である領域情報を出力し、
前記ラベル設定部は、前記第二の学習モデルを使用して、前記ラベルの各々についての前記領域情報を決定し、
前記出力部は、さらに、前記領域情報を出力する、
付記2に記載の動画解析装置。
(Additional note 3)
The second learning model further outputs, for each of the labels, area information that is information indicating in which area of the video frame the subject corresponding to the label is imaged;
The label setting unit determines the area information for each of the labels using the second learning model,
The output unit further outputs the area information.
The video analysis device described in Appendix 2.
(付記4)
前記出力部は、前記シーン名を、前記動画に関する情報であるメタデータに含ませて、前記動画と前記メタデータとを記憶する動画記憶装置に記憶させる、
付記1に記載の動画解析装置。
(Additional note 4)
The output unit includes the scene name in metadata that is information regarding the video, and stores the scene name in a video storage device that stores the video and the metadata.
The video analysis device described in Appendix 1.
(付記5)
付記1に記載の動画解析装置と、
前記第一の学習モデルを生成する学習装置と
を備える動画解析システム。
(Appendix 5)
The video analysis device described in Appendix 1,
A video analysis system comprising: a learning device that generates the first learning model.
(付記6)
付記2または付記3に記載の動画解析装置と、
前記第一の学習モデルおよび前記第二の学習モデルを生成する学習装置と
を備える動画解析システム。
(Appendix 6)
The video analysis device described in Appendix 2 or 3,
A video analysis system comprising: a learning device that generates the first learning model and the second learning model.
(付記7)
付記4に記載の動画解析装置と、編集装置とを備え、
前記編集装置は、
前記シーン名の編集に関する指示であるシーン編集指示に応じて、前記メタデータを編集する編集部
を備え、
前記編集部は、
前記動画記憶装置から、編集対象の動画と当該動画に関するメタデータとを取得し、
前記シーン名の編集のための画像であるシーン編集画像の表示を指示するシーン編集画像表示指示に応じて、取得した前記動画と前記メタデータとに基づいて、前記シーン編集画像を利用者端末に表示させ、
前記シーン編集指示に応じて、前記メタデータに含まれる前記シーン名を編集し、編集された前記メタデータを、前記動画記憶装置に記憶させる、
動画解析システム。
(Appendix 7)
Comprising the video analysis device and editing device described in Appendix 4,
The editing device includes:
an editing unit that edits the metadata in accordance with a scene editing instruction that is an instruction regarding editing the scene name;
The editorial department is
Obtaining a video to be edited and metadata regarding the video from the video storage device,
In response to a scene editing image display instruction that instructs displaying a scene editing image that is an image for editing the scene name, the scene editing image is displayed on the user terminal based on the acquired video and the metadata. display,
Editing the scene name included in the metadata in response to the scene editing instruction, and storing the edited metadata in the video storage device.
Video analysis system.
(付記8)
前記シーン編集画像は、編集対象の前記動画に含まれる前記シーンの各々についての前記シーン名とサムネイルとを含む、
付記7に記載の動画解析システム。
(Appendix 8)
The scene editing image includes the scene name and thumbnail for each of the scenes included in the video to be edited.
The video analysis system described in Appendix 7.
(付記9)
前記編集部は、異なる前記シーン名の前記サムネイルの表示領域へ前記サムネイルが移動されることによって、前記シーンの移動を示す前記シーン編集指示が入力されると、前記メタデータを編集することによって、移動された前記シーンに相当する前記映像フレームの前記シーン名を変更する、
付記8に記載の動画解析システム。
(Appendix 9)
The editing unit edits the metadata when the scene editing instruction indicating movement of the scene is input by moving the thumbnail to a display area of the thumbnail with a different scene name. changing the scene name of the video frame corresponding to the moved scene;
The video analysis system described in Appendix 8.
(付記10)
付記4に記載の動画解析装置と、編集装置とを備え、
前記編集装置は、
前記動画解析装置は、前記ラベルの編集に関する指示であるラベル編集指示に応じて、前記メタデータを編集する編集部
を備え、
前記編集部は、
前記動画記憶装置から、編集対象の動画と当該動画に関する前記メタデータとを取得し、
前記ラベルの編集のための画像であるラベル編集画像の表示を指示するラベル編集画像表示指示に応じて、取得した前記動画と前記メタデータとに基づいて、前記ラベル編集画像を利用者端末に表示させ、
前記ラベル編集指示に応じて、前記メタデータに含まれる前記ラベルを編集し、編集された前記メタデータを、前記動画記憶装置に記憶させる、
動画解析システム。
(Appendix 10)
Comprising the video analysis device and editing device described in Appendix 4,
The editing device includes:
The video analysis device includes an editing unit that edits the metadata in accordance with a label editing instruction that is an instruction regarding editing the label,
The editorial department is
acquiring a video to be edited and the metadata regarding the video from the video storage device;
Displaying the label editing image on the user terminal based on the acquired video and the metadata in response to a label editing image display instruction that instructs displaying a label editing image that is an image for editing the label. let me,
editing the label included in the metadata in response to the label editing instruction, and storing the edited metadata in the video storage device;
Video analysis system.
(付記11)
前記ラベル編集画像は、追加されるラベルの候補である類似ラベルを含み、
前記編集部は、前記類似ラベルの追加を指示する前記ラベル編集指示が入力されると、前記メタデータを編集することによって、選択された前記類似ラベルを、前記映像フレームの前記ラベルとして追加する、
付記10に記載の動画解析システム。
(Appendix 11)
The label editing image includes similar labels that are candidates for labels to be added,
When the label editing instruction to add the similar label is input, the editing unit adds the selected similar label as the label of the video frame by editing the metadata.
The video analysis system described in
(付記12)
前記類似ラベルは、前記映像フレームに設定されている前記ラベルに類似した単語である、
付記11に記載の動画解析システム。
(Appendix 12)
The similar label is a word similar to the label set on the video frame.
The video analysis system described in
(付記13)
前記類似ラベルは、類似動画に設定されている前記ラベルであり、
前記類似動画は、編集対象の前記動画と前記ジャンル情報が同じ前記動画、または、特徴量が近い前記動画であり、
前記編集部は、前記動画記憶装置に記憶されている前記動画の中から前記類似動画を検索し、検索された前記類似動画の前記メタデータに含まれているラベルを、前記類似ラベルとする、
付記11に記載の動画解析システム。
(Appendix 13)
The similar label is the label set to a similar video,
The similar video is a video that has the same genre information as the video to be edited, or a video that has similar feature amounts,
The editing unit searches for the similar video from among the videos stored in the video storage device, and sets a label included in the metadata of the searched similar video as the similar label.
The video analysis system described in
(付記14)
前記ラベル編集画像は、前記ラベルが設定されていない前記シーンのサムネイルを含む、
付記10に記載の動画解析システム。
(Appendix 14)
The label edited image includes a thumbnail of the scene to which the label is not set.
The video analysis system described in
(付記15)
前記ラベル設定部は、前記ラベルの各々について、前記映像フレームのどの領域に、前記ラベルに相当する前記被写体が撮像されているかを示す情報である領域情報を決定し、
前記出力部は、さらに前記領域情報を前記メタデータに含めて前記動画記憶装置に記憶させ、
前記ラベル編集画像は、前記ラベルについての前記領域情報を示すボックスを含む、
付記10に記載の動画解析システム。
(Appendix 15)
The label setting unit determines, for each of the labels, area information that is information indicating in which area of the video frame the subject corresponding to the label is imaged;
The output unit further includes the area information in the metadata and stores it in the video storage device,
the label editing image includes a box indicating the area information about the label;
The video analysis system described in
(付記16)
さらに、前記第一の学習モデルを生成する学習装置を備え、
前記学習装置は、前記編集装置によって編集された前記メタデータを学習情報に用いて、前記第一の学習モデルを生成する、
付記10から付記15のいずれかに記載の動画解析システム。
(Appendix 16)
further comprising a learning device that generates the first learning model;
The learning device generates the first learning model by using the metadata edited by the editing device as learning information.
The video analysis system according to any one of
(付記17)
前記ラベル設定部は、前記シーン名が同一である前記映像フレームである同一シーンフレームと、当該同一シーンフレームの前記シーン名と、当該同一シーンフレームを含む前記動画の前記ジャンル情報とから、当該同一シーンフレームに含まれる前記映像フレームの各々に対する前記ラベルを設定する第二の学習モデルを使用して、前記ラベルの設定を行い、
さらに、前記編集装置によって編集された前記メタデータを学習情報に用いて、前記第二の学習モデルを生成する学習装置を備える、
付記10から付記15のいずれかに記載の動画解析システム。
(Appendix 17)
The label setting unit selects the same scene frame which is the video frame having the same scene name, the scene name of the same scene frame, and the genre information of the video including the same scene frame. Setting the labels using a second learning model that sets the labels for each of the video frames included in a scene frame;
Further, a learning device that generates the second learning model by using the metadata edited by the editing device as learning information,
The video analysis system according to any one of
(付記18)
付記7から付記15のいずれかに記載の動画解析システムにおける編集装置。
(Appendix 18)
An editing device in the video analysis system according to any one of appendices 7 to 15.
(付記19)
付記5に記載の動画解析システムにおける学習装置。
(Appendix 19)
A learning device in the video analysis system according to appendix 5.
(付記20)
付記6に記載の動画解析システムにおける学習装置。
(Additional note 20)
A learning device in the video analysis system described in Supplementary Note 6.
(付記21)
付記16に記載の動画解析システムにおける学習装置。
(Additional note 21)
A learning device in the video analysis system according to appendix 16.
(付記22)
付記17に記載の動画解析システムにおける学習装置。
(Additional note 22)
A learning device in the video analysis system according to appendix 17.
(付記23)
動画と当該動画のジャンルを示すジャンル情報とから、前記動画をシーンごとに分割し、前記シーンの各々に対して、シーンの分類を示すシーン名を決定する第一の学習モデルを使用して、前記動画を前記シーンに分割し、前記シーンの各々に対して前記シーン名を決定し、
前記シーンに含まれる映像フレームの各々に対して、前記シーン名に基づいて、前記映像フレームに撮像されている被写体に関する情報であるラベルを設定し、
前記映像フレームの各々について、前記映像フレームが含まれる前記シーンの前記シーン名と、前記ラベルとを出力する、
動画解析方法。
(Additional note 23)
Using a first learning model that divides the video into scenes based on the video and genre information indicating the genre of the video, and determines a scene name indicating the classification of the scene for each of the scenes, dividing the video into the scenes and determining the scene name for each of the scenes;
setting a label, which is information about a subject imaged in the video frame, for each video frame included in the scene, based on the scene name;
outputting, for each of the video frames, the scene name and the label of the scene in which the video frame is included;
Video analysis method.
(付記24)
コンピュータに、
動画のジャンルを示すジャンル情報に基づいて、前記動画をシーンに分割し、前記シーンの各々に対して、前記シーンの分類を示すシーン名を決定するシーン分割機能と、
前記シーンに含まれる映像フレームの各々に対して、前記シーン名に基づいて、前記映像フレームに撮像されている被写体に関する情報であるラベルを設定するラベル設定機能と、
前記映像フレームの各々について、前記映像フレームが含まれる前記シーンの前記シーン名と、前記ラベルとを出力する出力機能と
を実現させ、
前記シーン分割機能は、前記動画と当該動画の前記ジャンル情報とから、前記動画を前記シーンごとに分割し、前記シーンの各々に対する前記シーン名を決定する第一の学習モデルを使用して、前記シーンの分割と前記シーン名の決定とを行う、
動画解析プログラム。
(Additional note 24)
to the computer,
a scene dividing function that divides the video into scenes based on genre information indicating a genre of the video, and determines a scene name indicating a classification of the scene for each of the scenes;
a label setting function for setting a label, which is information about a subject imaged in the video frame, for each video frame included in the scene, based on the scene name;
realizing, for each of the video frames, an output function that outputs the scene name and the label of the scene in which the video frame is included;
The scene division function divides the video into scenes based on the video and the genre information of the video, and uses a first learning model that determines the scene name for each of the scenes. dividing the scene and determining the scene name;
Video analysis program.
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。 Although the present invention has been described above with reference to the embodiments, the present invention is not limited to the above embodiments. The configuration and details of the present invention can be modified in various ways that can be understood by those skilled in the art within the scope of the present invention.
10、20 動画解析装置
11、21 シーン分割部
12、22 ラベル設定部
13、23 出力部
30 編集装置
34 編集部
35 記憶部
40 動画記憶装置
50 利用者端末
60 学習装置
61 学習情報入力部
62 学習情報記憶部
63 モデル生成部
80 動画解析システム
90 情報処理装置
91 通信インタフェース
92 入出力インタフェース
93 演算装置
94 記憶装置
95 不揮発性記憶装置
96 ドライブ装置
97 記録媒体
10, 20
Claims (10)
前記シーンに含まれる映像フレームの各々に対して、前記シーン名に基づいて、前記映像フレームに撮像されている被写体に関する情報であるラベルを設定するラベル設定部と、
前記映像フレームの各々について、前記映像フレームが含まれる前記シーンの前記シーン名と、前記ラベルとを出力する出力部と
を備え、
前記シーン分割部は、前記動画と当該動画の前記ジャンル情報とから、前記動画を前記シーンごとに分割し、前記シーンの各々に対する前記シーン名を決定する第一の学習モデルを使用して、前記シーンの分割と前記シーン名の決定とを行う、
動画解析装置。 a scene dividing unit that divides the video into scenes based on genre information indicating a genre of the video, and determines a scene name indicating a classification of the scene for each of the scenes;
a label setting unit that sets, for each of the video frames included in the scene, a label that is information about a subject imaged in the video frame based on the scene name;
an output unit that outputs, for each of the video frames, the scene name of the scene in which the video frame is included and the label;
The scene dividing unit divides the video into scenes based on the video and the genre information of the video, and uses a first learning model that determines the scene name for each of the scenes. dividing the scene and determining the scene name;
Video analysis device.
請求項1に記載の動画解析装置。 The label setting unit selects the same scene frame which is the video frame having the same scene name, the scene name of the same scene frame, and the genre information of the video including the same scene frame. Setting the labels using a second learning model that sets the labels for each of the video frames included in a scene frame;
The video analysis device according to claim 1.
請求項1に記載の動画解析装置。 The output unit includes the scene name in metadata that is information regarding the video, and stores the scene name in a video storage device that stores the video and the metadata.
The video analysis device according to claim 1.
前記第一の学習モデルを生成する学習装置と
を備える動画解析システム。 A video analysis device according to claim 1;
A video analysis system comprising: a learning device that generates the first learning model.
前記第一の学習モデルおよび前記第二の学習モデルを生成する学習装置と
を備える動画解析システム。 A video analysis device according to claim 2;
A video analysis system comprising: a learning device that generates the first learning model and the second learning model.
前記編集装置は、
前記シーン名の編集に関する指示であるシーン編集指示に応じて、前記メタデータを編集する編集部
を備え、
前記編集部は、
前記動画記憶装置から、編集対象の動画と当該動画に関するメタデータとを取得し、
前記シーン名の編集のための画像であるシーン編集画像の表示を指示するシーン編集画像表示指示に応じて、取得した前記動画と前記メタデータとに基づいて、前記シーン編集画像を利用者端末に表示させ、
前記シーン編集指示に応じて、前記メタデータに含まれる前記シーン名を編集し、編集された前記メタデータを、前記動画記憶装置に記憶させる、
動画解析システム。 Comprising the video analysis device according to claim 3 and an editing device,
The editing device includes:
an editing unit that edits the metadata in accordance with a scene editing instruction that is an instruction regarding editing the scene name;
The editorial department is
Obtaining a video to be edited and metadata regarding the video from the video storage device,
In response to a scene edit image display instruction that instructs display of a scene edit image that is an image for editing the scene name, the scene edit image is displayed on the user terminal based on the acquired video and the metadata. display,
Editing the scene name included in the metadata in response to the scene editing instruction, and storing the edited metadata in the video storage device.
Video analysis system.
前記シーンに含まれる映像フレームの各々に対して、前記シーン名に基づいて、前記映像フレームに撮像されている被写体に関する情報であるラベルを設定し、
前記映像フレームの各々について、前記映像フレームが含まれる前記シーンの前記シーン名と、前記ラベルとを出力する、
動画解析方法。 Using a first learning model that divides the video into scenes based on the video and genre information indicating the genre of the video, and determines a scene name indicating the classification of the scene for each of the scenes, dividing the video into the scenes and determining the scene name for each of the scenes;
setting a label, which is information about a subject imaged in the video frame, for each video frame included in the scene, based on the scene name;
outputting, for each of the video frames, the scene name and the label of the scene in which the video frame is included;
Video analysis method.
動画のジャンルを示すジャンル情報に基づいて、前記動画をシーンに分割し、前記シーンの各々に対して、前記シーンの分類を示すシーン名を決定するシーン分割機能と、
前記シーンに含まれる映像フレームの各々に対して、前記シーン名に基づいて、前記映像フレームに撮像されている被写体に関する情報であるラベルを設定するラベル設定機能と、
前記映像フレームの各々について、前記映像フレームが含まれる前記シーンの前記シーン名と、前記ラベルとを出力する出力機能と
を実現させ、
前記シーン分割機能は、前記動画と当該動画の前記ジャンル情報とから、前記動画を前記シーンごとに分割し、前記シーンの各々に対する前記シーン名を決定する第一の学習モデルを使用して、前記シーンの分割と前記シーン名の決定とを行う、
動画解析プログラム。 to the computer,
a scene dividing function that divides the video into scenes based on genre information indicating a genre of the video, and determines a scene name indicating a classification of the scene for each of the scenes;
a label setting function that sets a label, which is information about a subject imaged in the video frame, for each video frame included in the scene, based on the scene name;
realizing, for each of the video frames, an output function that outputs the scene name and the label of the scene in which the video frame is included;
The scene division function divides the video into scenes based on the video and the genre information of the video, and uses a first learning model that determines the scene name for each of the scenes. dividing the scene and determining the scene name;
Video analysis program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022114920A JP2024013024A (en) | 2022-07-19 | 2022-07-19 | Moving image analyzer, moving image analysis system, edition device, learning device, moving image analysis method, and moving image analysis program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022114920A JP2024013024A (en) | 2022-07-19 | 2022-07-19 | Moving image analyzer, moving image analysis system, edition device, learning device, moving image analysis method, and moving image analysis program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024013024A true JP2024013024A (en) | 2024-01-31 |
Family
ID=89714437
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022114920A Pending JP2024013024A (en) | 2022-07-19 | 2022-07-19 | Moving image analyzer, moving image analysis system, edition device, learning device, moving image analysis method, and moving image analysis program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2024013024A (en) |
-
2022
- 2022-07-19 JP JP2022114920A patent/JP2024013024A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102028198B1 (en) | Device for authoring video scene and metadata | |
JP4514928B2 (en) | Editing apparatus and method | |
US6400890B1 (en) | Image retrieving method and apparatuses therefor | |
JP4065142B2 (en) | Authoring apparatus and authoring method | |
JP2009171623A (en) | Method of describing hint information | |
JP2005318583A (en) | Editting system for audiovisual work for television news and corresponding text | |
JP2007336106A (en) | Video image editing assistant apparatus | |
US8744242B2 (en) | Time stamp creation and evaluation in media effect template | |
JPWO2008136466A1 (en) | Movie editing device | |
CN112969043B (en) | Media file generation and playing method and equipment | |
CN117201858A (en) | Video generation method, device and equipment | |
JP2024013024A (en) | Moving image analyzer, moving image analysis system, edition device, learning device, moving image analysis method, and moving image analysis program | |
JP2003224791A (en) | Method and device for retrieving video | |
JP4218319B2 (en) | Video browsing system and method | |
KR100705094B1 (en) | Video viewing system and method | |
JP5152857B2 (en) | Electronic device, display control method, and program | |
JP4692784B2 (en) | Feature quantity selection program, feature quantity selection method and apparatus in image description system | |
JP4652389B2 (en) | Metadata processing method | |
JP7198564B2 (en) | Content production system, content production device and content production method | |
US20240298065A1 (en) | Template updating method and apparatus, device, and storage medium | |
JP4547998B2 (en) | Recording information management apparatus and program | |
KR20190142800A (en) | Method and computer program for providing game contents | |
JP2005130525A (en) | Moving image editing method and moving image editing apparatus |