JP2023154608A - Video analysis device, video analysis method, and video analysis program - Google Patents
Video analysis device, video analysis method, and video analysis program Download PDFInfo
- Publication number
- JP2023154608A JP2023154608A JP2022064045A JP2022064045A JP2023154608A JP 2023154608 A JP2023154608 A JP 2023154608A JP 2022064045 A JP2022064045 A JP 2022064045A JP 2022064045 A JP2022064045 A JP 2022064045A JP 2023154608 A JP2023154608 A JP 2023154608A
- Authority
- JP
- Japan
- Prior art keywords
- video
- video analysis
- scene
- camera work
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 169
- 238000001514 detection method Methods 0.000 claims description 18
- 239000000284 extract Substances 0.000 claims description 10
- 244000208734 Pisonia aculeata Species 0.000 claims description 5
- 238000004091 panning Methods 0.000 claims description 5
- 238000003860 storage Methods 0.000 description 18
- 238000000034 method Methods 0.000 description 17
- 238000012986 modification Methods 0.000 description 12
- 230000004048 modification Effects 0.000 description 12
- 238000011156 evaluation Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 206010037180 Psychiatric symptoms Diseases 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000010191 image analysis Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000003825 pressing Methods 0.000 description 2
- 238000012913 prioritisation Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 235000014347 soups Nutrition 0.000 description 1
Images
Abstract
Description
本発明は、動画解析装置、動画解析方法、及び動画解析プログラムに関する。 The present invention relates to a video analysis device, a video analysis method, and a video analysis program.
ユーザ自身が映像を制作して投稿することが可能な動画プラットフォーム(PF)サービスが普及しており、映像制作は、より身近なものとなり、その質も向上している。映像・動画(以下、「コンテンツ」ともいう。)の増加に伴い、それを管理するPFの開発が加速している。中でも人工知能(AI)による、動画、画像、音声、言語の解析を利用して、コンテンツの内容にタグ付け(印付け)することで検索性を高める方法が報告されている(例えば、特許文献1)。 Video platform (PF) services that allow users to create and post videos themselves are becoming widespread, making video production more accessible and improving its quality. With the increase in images and videos (hereinafter also referred to as "content"), the development of PFs to manage them is accelerating. Among them, methods have been reported that utilize analysis of videos, images, audio, and language by artificial intelligence (AI) to improve searchability by tagging (marking) content (for example, patent documents 1).
特許文献1に記載のタグ付け方法は、動画ファイルを音声認識してテキスト情報へ変換し、動画ファイルを画像解析して動画ファイルにおけるシーンの切り替わりを判定し、テキスト情報における時間的な切れ目、内容的な切れ目、及びシーンの切り替わりに基づいて、動画ファイルを複数のシーンに分割し、テキスト情報から、予め定められた規則に従って、タグを抽出し、抽出されたタグを、複数のシーンのうち、対応するシーンに付与するものである。 The tagging method described in Patent Document 1 involves voice recognition of a video file, converting it into text information, image analysis of the video file to determine scene changes in the video file, and temporal breaks and content in the text information. The video file is divided into multiple scenes based on breaks and scene changes, tags are extracted from the text information according to predetermined rules, and the extracted tags are divided into multiple scenes from among the multiple scenes. It is added to the corresponding scene.
しかしながら、動画ファイルに含まれる音声を解析するだけでは、音声を含まない画像についてはタグ付けすることが難しいという問題があった。 However, there is a problem in that it is difficult to tag images that do not include audio by simply analyzing the audio included in the video file.
また、動画ファイルからカメラワークを検出する方法が知られている(例えば、非特許文献1)。しかしながら、コンテンツ制作において、カメラワークは重要な要素のうちの一つであるが、プロではない一般のユーザがカメラワークの種類(語句)とそれに伴うニュアンスを紐づけるのは難しい。そのため、動画の中にどのようなシーンが含まれているかを検索するためのタグを付して、複数の動画ファイルの中から、ユーザが視聴を目的とした動画を探し出すことが難しいという問題があった。 Furthermore, a method of detecting camera work from a video file is known (for example, Non-Patent Document 1). However, although camera work is one of the important elements in content production, it is difficult for general users who are not professionals to associate the types of camera work (phrases) and the nuances that accompany them. Therefore, the problem is that it is difficult for users to search for the video they want to watch from among multiple video files by adding tags to search for what kind of scenes are included in the video. there were.
本発明は、複数の動画ファイルの中から、ユーザが意図した対象の目的シーンを見つけ出すための検索性を向上させることが可能な動画解析装置を提供することを目的とする。 SUMMARY OF THE INVENTION An object of the present invention is to provide a video analysis device that can improve searchability for finding a target scene intended by a user from among a plurality of video files.
本開示の一実施形態に係る動画解析装置は、動画識別情報及び動画ファイルを取得する取得部と、画像の動きに基づいて、動画ファイルに含まれる所定のカメラワークを検出し、該カメラワークを含むシーンの開始時間及び終了時間を抽出するカメラワーク検出部と、カメラワークの種類と該カメラワークに対応するニュアンスとを関連付けたデータベースを参照して、シーン毎に、検出したカメラワークに対応するニュアンスを表すタグを付与するタグ付与部と、動画識別情報を含み、シーン毎に、カメラワーク、開始時間及び終了時間、並びに、タグに関する情報を対応付けた動画解析データを作成する動画解析データ作成部と、動画解析データを出力する出力部と、を有することを特徴とする。 A video analysis device according to an embodiment of the present disclosure includes an acquisition unit that acquires video identification information and a video file, and detects predetermined camera work included in the video file based on the movement of the image, and performs the camera work. A camera work detection unit that extracts the start time and end time of the included scene, and a database that associates the type of camera work with the nuances corresponding to the camera work, and corresponds to the detected camera work for each scene. Video analysis data creation that creates video analysis data that includes a tagging section that adds tags that represent nuances, video identification information, and associates information about camera work, start time and end time, and tags for each scene. and an output unit that outputs video analysis data.
本開示の一実施形態に係る動画解析装置において、動画ファイルに含まれる画像内の物体を認識する物体認識部をさらに有し、タグ付与部は、物体に基づくタグを動画解析データに付加してよい。 The video analysis device according to an embodiment of the present disclosure further includes an object recognition unit that recognizes an object in an image included in the video file, and the tagging unit adds a tag based on the object to the video analysis data. good.
本開示の一実施形態に係る動画解析装置において、動画ファイルに含まれる音声を認識する音声認識部をさらに有し、タグ付与部は、音声に基づくタグを動画解析データに付加してよい。 The video analysis device according to an embodiment of the present disclosure may further include a voice recognition unit that recognizes audio included in the video file, and the tagging unit may add a tag based on the audio to the video analysis data.
本開示の一実施形態に係る動画解析装置において、動画ファイルに含まれる画像内の文字を認識する文字認識部をさらに有し、タグ付与部は、文字に基づくタグを動画解析データに付加してよい。 The video analysis device according to an embodiment of the present disclosure further includes a character recognition unit that recognizes characters in images included in the video file, and the tagging unit adds tags based on the characters to the video analysis data. good.
本開示の一実施形態に係る動画解析装置において、所望の動画を検索するための検索タグに関する情報を取得する検索情報取得部と、動画解析データを参照して、検索タグに対応する動画を検索する動画検索部と、をさらに有してよい。 A video analysis device according to an embodiment of the present disclosure includes a search information acquisition unit that acquires information regarding a search tag for searching a desired video, and a search information acquisition unit that searches for a video corresponding to the search tag by referring to video analysis data. The video search unit may further include a video search unit for searching.
本開示の一実施形態に係る動画解析装置において、動画解析データを参照して、シーンの開始時間における画像を表示する表示部をさらに有してよい。 The video analysis device according to an embodiment of the present disclosure may further include a display unit that refers to the video analysis data and displays an image at the start time of the scene.
本開示の一実施形態に係る動画解析装置において、カメラワークは、パン、チルト、トラック、ズームイン、キャラクタードリー、ズームアウト、プルバックのうちの少なくとも1つを含んでよい。 In the video analysis device according to an embodiment of the present disclosure, camera work may include at least one of panning, tilting, tracking, zooming in, character dolly, zooming out, and pullback.
本開示の一実施形態に係る動画解析方法は、取得部が、動画識別情報及び動画ファイルを取得し、カメラワーク検出部が、画像の動きに基づいて、動画ファイルに含まれる所定のカメラワークを検出し、該カメラワークを含むシーンの開始時間及び終了時間を抽出し、タグ付与部が、カメラワークの種類と該カメラワークに対応するニュアンスとを関連付けたデータベースを参照して、シーン毎に、検出したカメラワークに対応するニュアンスを表すタグを付与し、動画解析データ作成部が、動画識別情報を含み、シーン毎に、カメラワーク、開始時間及び終了時間、並びに、タグに関する情報を対応付けた動画解析データを作成し、出力部が、動画解析データを出力することを特徴とする。 In a video analysis method according to an embodiment of the present disclosure, an acquisition unit acquires video identification information and a video file, and a camerawork detection unit detects a predetermined camerawork included in the video file based on the movement of the image. The tagging unit detects and extracts the start time and end time of the scene including the camerawork, and the tagging unit refers to a database that associates the type of camerawork with the nuance corresponding to the camerawork, and then, for each scene, A tag representing the nuance corresponding to the detected camera work was added, and the video analysis data creation unit included video identification information and associated information about the camera work, start time and end time, and tag for each scene. The present invention is characterized in that the video analysis data is created and the output unit outputs the video analysis data.
本開示の一実施形態に係る動画解析プログラムは、プロセッサに、動画識別情報及び動画ファイルを取得し、画像の動きに基づいて、動画ファイルに含まれる所定のカメラワークを検出し、該カメラワークを含むシーンの開始時間及び終了時間を抽出し、カメラワークの種類と該カメラワークに対応するニュアンスとを関連付けたデータベースを参照して、シーン毎に、検出したカメラワークに対応するニュアンスを表すタグを付与し、動画識別情報を含み、シーン毎に、カメラワーク、開始時間及び終了時間、並びに、タグに関する情報を対応付けた動画解析データを作成し、動画解析データを出力する、各ステップを実行させることを特徴とする。 A video analysis program according to an embodiment of the present disclosure causes a processor to acquire video identification information and a video file, detect predetermined camera work included in the video file based on the movement of the image, and perform the camera work. The start time and end time of the included scene are extracted, and a tag representing the nuance corresponding to the detected camera work is created for each scene by referring to a database that associates the type of camera work with the nuance corresponding to the camera work. create video analysis data that includes video identification information and associate information about camera work, start time and end time, and tags for each scene, and output the video analysis data. It is characterized by
本開示の一実施形態に係る動画解析装置によれば、複数の動画ファイルの中から、ユーザが意図した対象の目的シーンを見つけ出すための検索性を向上させることができる。 According to the video analysis device according to an embodiment of the present disclosure, it is possible to improve search performance for finding a target scene intended by a user from among a plurality of video files.
以下、図面を参照して、本発明に係る動画解析装置、動画解析方法、及び動画解析プログラムについて説明する。ただし、本発明の技術的範囲はそれらの実施の形態には限定されず、特許請求の範囲に記載された発明とその均等物に及ぶ点に留意されたい。 Hereinafter, a video analysis device, a video analysis method, and a video analysis program according to the present invention will be described with reference to the drawings. However, it should be noted that the technical scope of the present invention is not limited to these embodiments, but extends to the invention described in the claims and equivalents thereof.
(動画解析システムの概要)
まず、本開示の一実施形態に係る動画解析装置を含む動画解析システムの概要について説明する。図1に、本開示の一実施形態に係る動画解析システム101の構成図を示す。動画解析システム101は、動画解析装置10と、端末20と、を有し、これらは通信ネットワーク30を介して、有線、または無線によりデータを送受信可能に接続されている。図1には、端末20が1台のみ記載されているが、複数台であってよい。
(Overview of video analysis system)
First, an overview of a video analysis system including a video analysis device according to an embodiment of the present disclosure will be described. FIG. 1 shows a configuration diagram of a
ユーザは端末20を用いて、動画ファイルを動画解析装置10にアップロードする。動画ファイルは、ユーザが作成したものであってもよいし、既存の動画ファイルの一部または全部であってもよい。
A user uses the
動画解析装置10は、例えば、サーバであってよい。動画解析装置10は、端末20から受信した動画ファイルを画像解析して、動画ファイルに含まれているカメラワークを検出する。ここで、「カメラワーク」とは、動画を撮影する際のカメラの動かし方をいう。カメラワークには、例えば、カメラを水平方向に回転させる操作である「パン」、カメラを垂直方向に回転させる操作である「チルト」、及びカメラを水平、または垂直方向に移動させる操作である「トラック」等がある。ただし、これらの例には限られない。
The
カメラワークを変えることにより、表現や心理的印象(ニュアンス)を変えることができる。例えば、カメラワークが「パン」であるシーンが動画に含まれている場合、そのシーンは「感動」あるいは「ダイナミックさ」を表現していると考えられる。このように種々のカメラワークと、そのカメラワークが表現するニュアンスとを関連付けたデータベースを用意しておけば、検出したカメラワークに基づいて、データベースを参照して、その動画に含まれるニュアンスを抽出することができる。 By changing the camera work, you can change the expression and psychological impression (nuance). For example, if a video includes a scene where the camera work is "panning", that scene is considered to express "impression" or "dynamics". If you prepare a database that associates various types of camera work with the nuances expressed by the camera work, you can refer to the database based on the detected camera work and extract the nuances contained in that video. can do.
このようにして抽出したニュアンスを動画ファイルにタグ付けすることにより、動画ファイルにどのようなニュアンスを有するシーンが含まれているかを客観的に識別することができる。動画ファイルに抽出されたニュアンスをタグ付けした動画解析データを用意しておけば、タグに基づいて所望のニュアンスを含む動画ファイルを検索することができる。 By tagging the video file with the nuances extracted in this way, it is possible to objectively identify what kinds of nuances scenes are included in the video file. By preparing video analysis data tagged with nuances extracted from video files, video files containing desired nuances can be searched based on the tags.
例えば、これから動画を制作しようとするユーザが、参考とするために現在アップロードされている複数の動画の中から、目的とするシーンが含まれている動画を探し出す場合を例にとって説明する。この場合、複数の動画のそれぞれを最初から最後まで再生して目的とするシーンを探し出すことは非常に労力を要する。そこで、例えば、ユーザが感動的なシーンを含む動画を探す場合に、感動的なシーンが、どの動画のどの時間帯のシーンに含まれているかを探すことができれば効率的である。 For example, a case will be described in which a user who is about to create a video searches for a video containing a desired scene from among a plurality of videos currently uploaded for reference. In this case, it takes a lot of effort to play each of the multiple videos from beginning to end to find the desired scene. Therefore, for example, when a user searches for a video that includes a moving scene, it would be efficient if the user could search for which video and in which time period the moving scene is included.
本開示の一実施形態に係る動画解析システムによれば、動画ファイルに含まれるカメラワークを検出し、検出したカメラワークで表現されるニュアンスを動画ファイルにタグ付けることにより、所望の動画の検索性を向上させることができる。 According to the video analysis system according to an embodiment of the present disclosure, by detecting camerawork included in a video file and tagging the video file with nuances expressed by the detected camerawork, searchability of a desired video can be improved. can be improved.
(動画解析装置の構成)
次に、本開示の一実施形態に係る動画解析装置10について説明する。図1に示すように、動画解析装置10は、制御部11と、送受信部12と、記憶部13と、出力部14と、計時部15と、表示部16と、を有し、これらは内部バス17により接続されている。
(Configuration of video analysis device)
Next, a
送受信部12は、通信ネットワーク30を介して端末20との間でデータの送受信を行う。特に、送受信部12は、端末20から動画ファイルや、動画ファイルを検索するための情報を取得する。
The transmitting/receiving
記憶部13は、半導体メモリやハードディスク等の記憶装置である。記憶部13は、端末20から取得した動画ファイルや、データベースを記憶する。さらに、記憶部13は、動画解析装置10を制御するためのプログラムを記憶してよい。
The
制御部11は、取得部1と、カメラワーク検出部2と、タグ付与部3と、動画解析データ作成部4と、検索情報取得部5と、動画検索部6と、を有し、これらは、動画解析装置10に設けられたCPU等のプロセッサにより記憶部13に記憶されたプログラムを実行することにより実現される。
The
取得部1は、通信ネットワーク30を介して、端末20から、動画識別情報及び動画ファイルを取得する。動画識別情報は動画ファイルを識別するための情報であって、例えば、数字、文字、記号、または、これらの組み合わせであってよい。動画ファイルは、映像及び音声が格納されたファイルである。動画ファイルのフォーマットは、例えば、MP4、MOV、WMV、AVI等であるが、これらの例には限られない。取得部1は、取得した動画ファイルをカメラワーク検出部2へ出力する。
The acquisition unit 1 acquires video identification information and a video file from the terminal 20 via the
カメラワーク検出部2は、画像の動きに基づいて、動画ファイルに含まれる所定のカメラワークを検出し、該カメラワークを含むシーンの開始時間及び終了時間を抽出する。動画ファイルからカメラワークを検出する方法については後述する。
The
タグ付与部3は、カメラワークの種類と該カメラワークに対応するニュアンスとを関連付けたデータベースを参照して、シーン毎に、検出したカメラワークに対応するニュアンスを表すタグを付与する。データベースは、予め記憶部13に記憶しておいてよい。1つのカメラワークによって表現されるニュアンスは1つでもよいし、複数でもよい。
The
なお、カメラワークの種類と該カメラワークに対応するニュアンスとを関連付けた情報は、データベースを参照して取得する代わりに、カメラワークと対応するニュアンスとの関係をプログラムに組み込むようにしてよい。 Note that instead of obtaining information relating the type of camera work and the nuance corresponding to the camera work by referring to a database, the relationship between the camera work and the nuance corresponding to the camera work may be incorporated into the program.
動画解析データ作成部4は、動画識別情報を含み、シーン毎に、カメラワーク、開始時間及び終了時間、並びに、タグに関する情報を対応付けた動画解析データを作成する。
The video analysis
出力部14は、動画解析データを出力する。例えば、出力部14は、動画解析データを、通信ネットワーク30を介して端末20に出力してよい。
The
計時部15は、現在時刻を出力するモジュールである。計時部15は、カメラワーク検出部2が動画ファイルからカメラワークが切り替わるシーンの開始時間及び終了時間を動画の先頭の開始時間からの経過時間として計時してよい。
The
表示部16は、液晶表示装置や有機EL表示装置等の表示装置である。表示部16は、動画解析データを表示してよく、動画解析データを参照して、シーンの開始時間における画像を表示してよい。
The
検索情報取得部5は、所望の動画を検索するための検索タグに関する情報を取得する。検索タグは、端末20の入力部21に入力されて、通信ネットワーク30を介して検索情報取得部5によって取得されてよい。
The search
動画検索部6は、動画解析データを参照して、検索タグに対応する動画を検索する。動画解析データは動画識別情報を含み、シーン毎に、カメラワーク、開始時間及び終了時間、並びに、タグに関する情報が対応付けられているため、検索タグに基づいて、所望のシーンが含まれた動画ファイルを検索することができる。
The
(端末の構成)
端末20は、ユーザが有する端末であって、携帯電話、スマートフォン、あるいはタブレット端末等の携帯端末や、パーソナルコンピュータ等の情報端末を用いることができる。端末20は、入力部21と、記憶部22と、制御部23と、送受信部24と、表示部25と、を有している。
(Terminal configuration)
The terminal 20 is a terminal owned by the user, and may be a mobile terminal such as a mobile phone, a smartphone, or a tablet terminal, or an information terminal such as a personal computer. The terminal 20 includes an
入力部21には、キーボードやマウス等の入力装置を用いることができる。入力部21は、動画ファイルを動画解析装置10にアップロードしたり、検索しようとするタグを入力したりすることができる。
For the
記憶部22は、半導体メモリやハードディスク等の記憶装置である。記憶部22は、動画解析装置10にアップロードするための動画ファイルや、アップロードする動画ファイルの格納場所を示すURL等のデータ等を記憶する。さらに、記憶部22は、端末20を制御するためのプログラムを記憶してよい。
The
制御部23は、記憶部22に記憶されたプログラムによって端末20の動作を制御する。制御部23には、CPU等のプロセッサを用いることができ。
The
送受信部24は、通信ネットワーク30と接続され、動画解析装置10との間でデータを送受信することができる。端末20には、上記のような物理端末だけでなく、仮想端末を用いてよい。仮想端末を用いることにより、動画解析装置10にアプリケーションやデータを集約させることができ、端末20にデータを残さないようにすることができるため、情報漏洩を防止することができる。
The transmitter/
表示部25には、液晶表示装置や有機EL表示装置等の表示装置を用いることができる。
For the
(動画解析データの作成方法)
次に、本開示の一実施形態に係る動画解析装置を用いて、動画解析データを作成する方法について説明する。図2に、本開示の一実施形態に係る動画解析方法の手順を説明するためのフローチャートを示す。
(How to create video analysis data)
Next, a method of creating video analysis data using a video analysis device according to an embodiment of the present disclosure will be described. FIG. 2 shows a flowchart for explaining the procedure of a video analysis method according to an embodiment of the present disclosure.
まず、ステップS101において、ユーザが端末20を用いて動画ファイルをアップロードし、動画解析装置10の取得部1は、アップロードされた動画ファイルを取得する。
First, in step S101, a user uploads a video file using the terminal 20, and the acquisition unit 1 of the
図3に、本開示の一実施形態に係る動画解析装置10に対して、端末20から動画ファイルをアップロードする際の端末表示画面である動画アップロード画面200の例を示す。まず、アップロードする動画ファイルを選択するために、動画ファイル入力欄201に動画ファイルのファイル名を入力する。あるいは、動画ファイル入力欄201をクリックして、記憶部22に記憶された動画ファイルを選択するようにしてもよい。
FIG. 3 shows an example of a video upload
また、動画ファイル入力欄201には動画ファイルの入手先を示すURLを入力してよい。
Further, in the video
アップロードする動画が1つのみである場合は、アップロードする動画ファイル(動画ファイル(1))を選択した後、アップロードボタン202を押下して、動画ファイルの動画解析装置10へのアップロードを実行する。
If there is only one video to be uploaded, after selecting the video file to be uploaded (video file (1)), the upload
さらに、アップロードする動画を追加する場合は、追加ボタン203を押下する。そうすると、2つ目の動画ファイルである動画ファイル(2)をアップロードするための動画ファイル入力欄204が表示される。
Furthermore, when adding a video to be uploaded, an
動画ファイル入力欄204をクリックしてアップロードする動画ファイルを選択した後、アップロードボタン202を押下することにより動画解析装置10へのアップロードを実行することができる。以下、同様に、3個以上の動画ファイルを動画解析装置10にアップロードしてよい。
After selecting the video file to be uploaded by clicking on the video
なお、動画ファイルをアップロードする際に、動画ファイル入力欄(201、204)に入力した動画ファイルのファイル名が、動画識別情報となる。従って、アップロードを実行した動画ファイル名が、既に動画解析装置10にアップロードされており、動画解析装置10の記憶部13に同一ファイル名の動画ファイルが存在している場合は、動画解析装置10は端末20に対して、ファイル名の変更を促すようにしてよい。
Note that when uploading a video file, the file name of the video file input in the video file input field (201, 204) becomes the video identification information. Therefore, if the video file name that has been uploaded has already been uploaded to the
次に、ステップS102において、カメラワーク検出部2が、画像の動きに基づいて、動画ファイルに含まれる所定のカメラワークを検出し、該カメラワークを含むシーンの開始時間及び終了時間を抽出する。カメラワーク検出部2が、動画ファイルからカメラワークを検出する手順については後述する。
Next, in step S102, the camera
次に、図2に示すように、ステップS103において、タグ付与部3が、カメラワークの種類と該カメラワークに対応するニュアンスとを関連付けたデータベースを参照して、シーン毎に、検出したカメラワークに対応するニュアンスを表すタグ(印象タグ)を付与する。
Next, as shown in FIG. 2, in step S103, the
図4に、本開示の一実施形態に係る動画解析装置を用いて検出したカメラワークに基づくタグ付与結果画面300の例を示す。図4に示した例では、タグ付与結果画面300の上側に検出したカメラワークとカメラワークに対応する印象タグの検出結果301が表示され、下側に、検出されたカメラワーク(CW1~CW4)を含むシーンがサムネイル(SN1~SN3)と共に表示されている。
FIG. 4 shows an example of a tagging
例えば、動画を再生し、時刻(00:00)[mm:ss]においてカメラワークCW1が検出され、このカメラワークCW1が「パン」であったものとする。この場合、タグ付与部3は、後述するデータベースを参照して、カメラワークCW1である「パン」に対応するニュアンス「感動」及び「ダイナミック」をそれぞれ印象タグ(1)及び(2)として抽出する。
For example, assume that a video is played back, camera work CW1 is detected at time (00:00) [mm:ss], and camera work CW1 is "pan". In this case, the
さらに動画を再生して、次のカメラワークCW2が時間(00:10)で検出されたものとする。そうすると、時間(00:00)を開始時間とし、時間(00:10)を終了時間とする動画が1つのシーンを構成する。そこで、このシーンを第1シーンとする。図4に示すように、タグ付与結果画面300には、第1シーンのサムネイルSN1を時間軸と共に表示してよい。次に、タグ付与部3は、第1シーンに印象タグ(1)として「感動」を付与し、印象タグ(2)として「ダイナミック」を付与する。
Assume that the video is further played back and the next camera work CW2 is detected at time (00:10). Then, a video whose start time is time (00:00) and whose end time is time (00:10) constitutes one scene. Therefore, this scene is defined as the first scene. As shown in FIG. 4, the tagging
次に、時刻(00:10)で検出されたカメラワークCW2が「キャラクタードリー」であったものとする。この場合、タグ付与部3は、後述するデータベースを参照して、カメラワークCW2である「キャラクタードリー」に対応するニュアンス「立体感」及び「迫力」をそれぞれ印象タグ(1)及び(2)として抽出する。
Next, assume that the camera work CW2 detected at time (00:10) is "Character Dolly". In this case, the
さらに動画を再生して、次のカメラワークCW3が時間(00:20)で検出されたものとする。そうすると、時間(00:10)を開始時間とし、時間(00:20)を終了時間とする動画が1つのシーンを構成する。そこで、このシーンを第2シーンとする。図4に示すように、タグ付与結果画面300には、第2シーンのサムネイルSN2を時間軸と共に表示してよい。次に、タグ付与部3は、第2シーンに印象タグ(1)として「立体感」を付与し、印象タグ(2)として「迫力」を付与する。
Assume that the video is further played back and the next camera work CW3 is detected at time (00:20). Then, a video whose start time is time (00:10) and whose end time is time (00:20) constitutes one scene. Therefore, this scene is defined as the second scene. As shown in FIG. 4, the tagging
次に、時刻(00:20)で検出されたカメラワークCW3が「チルト」であったものとする。この場合、タグ付与部3は、データベースを参照して、カメラワークCW3である「チルト」に対応するニュアンス「悲しみ」、「孤独感」、及び「悩み事」をそれぞれ印象タグ(1)~(3)として抽出する。
Next, assume that the camera work CW3 detected at time (00:20) is "tilt". In this case, the
さらに動画を再生して、次のカメラワークCW4が時間(00:30)で検出されたものとする。そうすると、時間(00:20)を開始時間とし、時間(00:30)を終了時間とする動画が1つのシーンを構成する。そこで、このシーンを第3シーンとする。図4に示すように、タグ付与結果画面300には、第3シーンのサムネイルSN3を時間軸と共に表示してよい。次に、タグ付与部3は、第3シーンに印象タグ(1)として「悲しみ」を付与し、印象タグ(2)として「孤独感」を付与し、印象タグ(3)として「悩み事」を付与する。
Assume that the video is further played back and the next camera work CW4 is detected at time (00:30). Then, a video whose start time is time (00:20) and whose end time is time (00:30) constitutes one scene. Therefore, this scene is designated as the third scene. As shown in FIG. 4, the tagging
以上のようにして、タグ付与結果画面300には、カメラワークに対応する印象タグの検出結果301として、検出したカメラワークCW1~CW4によって分割された第1シーンから第3シーンまでのそれぞれのシーンに付与する印象タグ(1)~(3)を表示してよい。
As described above, the tagging
次に、ステップS105において、出力部14は動画解析データをユーザの端末20に出力する。具体的には、まず、動画解析装置10の出力部14が送受信部12に動画解析データを出力する。次に、動画解析装置10の送受信部12が、端末20の送受信部24に通信ネットワーク30を介して動画解析データを送信する。端末20の送受信部24は、受信した動画解析データを表示部25に出力する。
Next, in step S105, the
図5に、本開示の一実施形態に係る動画解析装置を用いて作成した動画解析データの例を示す。端末20の表示部25は、動画解析データ401を含む動画解析データ表示画面400を表示してよい。動画解析データ401は、動画ID(B1)、シーンB2、シーンの開始時間B3、シーンの終了時間B4、シーンの継続時間B5、検出されたカメラワークB6、印象タグ(1)B7、印象タグ(2)B8、印象タグ(3)B9を含む。ただし、このような例には限られない。
FIG. 5 shows an example of video analysis data created using the video analysis device according to an embodiment of the present disclosure. The
動画ID(B1)は、動画識別情報である。例えば、ユーザが動画アップロード画面200において入力した動画ファイル名を動画IDとしてよい。
The video ID (B1) is video identification information. For example, the video file name input by the user on the video upload
シーンB2は、動画ファイルに含まれるシーンを識別するための情報である。例えば、第1シーン、第2シーン等のように連続番号を含む名称を付してよい。ただし、このような例には限られず、シーンの名称は任意の名称としてよく、例えば、印象タグに対応した名称としてよい。 Scene B2 is information for identifying a scene included in the video file. For example, names including consecutive numbers such as first scene, second scene, etc. may be given. However, the name of the scene is not limited to this example, and may be any name, for example, a name corresponding to an impression tag.
開始時間B3は、シーンにおいてカメラワークが検出された時間である。例えば、時刻(00:10)にカメラワークが検出された場合は、時刻(00:10)が第2シーンの開始時間となる。 Start time B3 is the time when camera work is detected in the scene. For example, if camera work is detected at time (00:10), time (00:10) becomes the start time of the second scene.
終了時間B4は、あるシーンにおいて次のカメラワークが検出された時間である。例えば、第2シーンの時刻(00:20)に次のカメラワークが検出された場合は、時刻(00:20)が第2シーンの終了時間となる。 End time B4 is the time when the next camera work is detected in a certain scene. For example, if the next camera work is detected at the time (00:20) of the second scene, the time (00:20) becomes the end time of the second scene.
継続時間B5は、あるシーンにおける開始時間から終了時間までの時間である。例えば、第2シーンの開始時間が(00:10)であり、終了時間が(00:20)である場合は、継続時間は10[sec]となる。 The duration B5 is the time from the start time to the end time in a certain scene. For example, if the start time of the second scene is (00:10) and the end time is (00:20), the duration is 10 [sec].
カメラワークB6は、あるシーンの最初に検出されたカメラワークである。例えば、第2シーンの開始時間(00:10)にカメラワーク「キャラクタードリー」が検出された場合は、第2シーンのカメラワークは「キャラクタードリー」となる。 Camera work B6 is camera work detected at the beginning of a certain scene. For example, if the camera work "Character Dolly" is detected at the start time (00:10) of the second scene, the camera work of the second scene becomes "Character Dolly".
印象タグ(1)~(3)(B7~B9)は、検出されたカメラシーンに対応するニュアンスを表すタグであって、後述するデータベースを参照して抽出したものである。例えば、動画の第3シーンでカメラワーク「チルト」が検出された場合は、「悲しみ」、「孤独感」、「悩み事」の印象タグが抽出される。 Impression tags (1) to (3) (B7 to B9) are tags representing nuances corresponding to the detected camera scene, and are extracted with reference to a database described later. For example, if camera work "tilt" is detected in the third scene of the video, impression tags of "sadness", "loneliness", and "worries" are extracted.
(カメラワークの検出方法)
次に、本開示の一実施形態に係る動画解析装置10を用いて動画ファイルからカメラワークを検出する方法について説明する。図6に、本開示の一実施形態に係る動画解析装置10を用いて、動画ファイルからカメラワークを検出する手順を説明するためのフローチャートを示す。ここでは、動画ファイルからカメラワークを検出する方法として、非特許文献1として示した「吉高 敦夫、松井 亮治、平松 宗、「カメラワークを利用した感性情報の抽出」、情報処理学会論文誌、Vol.47、No.6、p.1696-1707」に記載された時空間投影画像を解析する方法を例にとって説明する。時空間投影画像とは、フレーム内の一定位置における、フレームに水平、垂直な直線、あるいは対角線上の映像を各フレームから抽出し、時間方向に並べた画像である。
(Method of detecting camera work)
Next, a method of detecting camera work from a video file using the
まず、ステップS201において、カメラワーク検出部2が、取得部1から取得した動画ファイルから時空間投影画像を生成する。具体的には、ある動画において、あるフレーム内の直線L(定線)を定め、各フレームから直線Lを抽出し、それらを時間軸に沿って並べることにより、時空間投影画像を生成する。
First, in step S201, the camera
次に、ステップS202において、時空間投影画像からエッジを検出する。動画にカメラワークが施されている場合は、時空間投影画像において、定線上にある静止物体の輝度変化が急峻な部分に直線成分が現れる。そこで、二値化した時空間投影画像において直線となるエッジを検出する。 Next, in step S202, edges are detected from the spatiotemporal projection image. When camera work is applied to a video, a straight line component appears in a spatiotemporal projection image in a portion where a stationary object on a fixed line has a steep change in brightness. Therefore, straight edges are detected in the binarized spatiotemporal projection image.
次に、ステップS203において、カメラワーク検出で参照する区間を決定する。参照する区間を、例えば、実際の映像作業等を考慮して、狭範囲及び広範囲の2種類とし、狭範囲をショットの先頭から所定時間(例えば2秒)、広範囲を狭範囲の判定区間に含まれる直線エッジ郡のうち、最小の始点時間から最大の終点時間の8割までの連続区間とする。 Next, in step S203, a section to be referred to for camera work detection is determined. For example, in consideration of actual video work, there are two types of reference sections: narrow range and wide range, and the narrow range is included for a predetermined period of time (for example, 2 seconds) from the beginning of the shot, and the wide range is included in the narrow range judgment interval. This is the continuous section from the minimum start point time to 80% of the maximum end point time among the straight edge groups.
次に、ステップS204において、カメラワーク検出部2は、生成した時空間投影画像にカメラワークによって現れるエッジのパターンからカメラワークの種別を判定する。検出するカメラワークは、(1)パン、(2)チルト(チルトアップ及びチルトダウンを含む)、(3)トラック、(4)ズームイン、(5)キャラクタードリー、(6)ズームアウト、(7)プルバック、の7種類である。
Next, in step S204, the
例えば、カメラワークが、パン、チルト、トラック、ズームの場合は、カメラの前後移動操作のために三脚や移動車等の装置を用いて、カメラの位置や向き、あるいはレンズの焦点距離を滑らかに変化させる。そのため、カメラワークが、パン、チルト、トラック、ズームの場合において、カメラワークの動きに対応して現れるエッジは、カメラの操作時間に比例した長さを有する、方向がほぼ一定のエッジとなる。即ち、水平な線、垂直な線、対角線を定線とした時空間投影画像のうち、どれに対してどのような直線成分が現れるかを判定することにより、カメラワークの種類を判別する。なお、時空間投影画像を解析する方法における、具体的なエッジのパターンとカメラワークの検出との関係は、非特許文献1を参照されたい。 For example, if the camera work involves panning, tilting, tracking, or zooming, use a device such as a tripod or moving vehicle to move the camera back and forth to smoothly change the camera's position and orientation, or the focal length of the lens. change. Therefore, when the camera work is panning, tilting, tracking, or zooming, the edge that appears in response to the movement of the camera work is an edge whose direction is approximately constant and whose length is proportional to the camera operation time. That is, the type of camera work is determined by determining which linear component appears for which of the spatio-temporal projection images in which horizontal lines, vertical lines, and diagonal lines are fixed lines. Note that for the relationship between specific edge patterns and camera work detection in the method of analyzing spatio-temporal projection images, please refer to Non-Patent Document 1.
以上のようにして検出したカメラワークに基づいて、カメラワークによって表現されるニュアンスをタグ(印象タグ)として動画に紐づけるために、予めカメラワークとニュアンスとの関係を記録したデータベースを用意しておくことが好ましい。 Based on the camerawork detected as described above, in order to link the nuances expressed by the camerawork to the video as tags (impression tags), a database is prepared in advance that records the relationship between camerawork and nuances. It is preferable to leave it there.
(カメラワークとニュアンスとの関係)
次に、カメラワークと、カメラワークによって表現されるニュアンスとの関係について説明する。図7に、カメラワークと該カメラワークから得られるニュアンス(印象タグ)との対応関係を表すデータベースの例を示す。データベース500は、カメラワークA1、カメラ・レンズの動きA2、印象タグ(1)~(5)(A3~A7)を含んでよい。カメラワークA1には、「パン」、「チルト」、「トラック」、「ズームイン」、「キャラクタードリー」、「ズームアウト」、「プルバック」等が含まれるが、これらの例には限られない。
(Relationship between camera work and nuance)
Next, the relationship between camera work and the nuances expressed by camera work will be explained. FIG. 7 shows an example of a database representing the correspondence between camera work and nuances (impression tags) obtained from the camera work. The
カメラワーク「パン」とは、カメラを水平方向に回転させる操作をいう。動画ファイルにカメラワーク「パン」によって撮像されたシーンが含まれている場合、そのシーンは、例えば、「感動」や「ダイナミック」といったニュアンスを表現していると考えられ、これらのニュアンスを印象タグ(1)、(2)としてよい。 Camera work "Pan" refers to the operation of rotating the camera in the horizontal direction. If a video file contains a scene captured using "pan" camera work, that scene is considered to express nuances such as "impressive" or "dynamic," and these nuances are used as impression tags. (1) and (2) may be used.
カメラワーク「チルト」とは、カメラを垂直方向に回転させる操作をいう。動画ファイルにカメラワーク「チルト」によって撮像されたシーンが含まれている場合、そのシーンは、例えば、「悲しみ」、「孤独感」、または「悩み事」といったニュアンスを表現していると考えられ、これらのニュアンスを印象タグ(1)~(3)としてよい。なお、カメラワーク「チルト」には、「チルトダウン」と「チルトアップ」が含まれる。図7に示した例では、このうち「チルトダウン」に対応するニュアンス(印象タグ)を示している。「チルト」が「チルトアップ」である場合は、対応するニュアンスは、例えば、「希望」、「憧れ」、「前進」、「期待」としてよい。 Camera work "Tilt" refers to the operation of rotating the camera in the vertical direction. If a video file contains a scene captured using "tilt" camera work, that scene is likely to express nuances such as "sadness," "loneliness," or "worries." , these nuances may be used as impression tags (1) to (3). Note that the camera work "tilt" includes "tilt down" and "tilt up." In the example shown in FIG. 7, nuances (impression tags) corresponding to "tilt down" are shown. When "tilt" is "tilt up," the corresponding nuance may be, for example, "hope," "admiration," "forward," or "expectation."
カメラワーク「トラック」とは、カメラを水平、または垂直方向に移動させる操作をいう。動画ファイルにカメラワーク「トラック」によって撮像されたシーンが含まれている場合、そのシーンは、例えば、「迫力」や「客観的」といったニュアンスを表現していると考えられ、これらのニュアンスを印象タグ(1)、(2)としてよい。 Camera work "track" refers to the operation of moving the camera horizontally or vertically. If a video file contains a scene captured by the camera work "track", that scene is considered to express nuances such as "powerful" or "objective", and these nuances are used to give an impression. It may be used as tags (1) and (2).
カメラワーク「ズームイン」とは、カメラの焦点距離を変化させる拡大操作をいう。動画ファイルにカメラワーク「ズームイン」によって撮像されたシーンが含まれている場合、そのシーンは、例えば、「緊張感」といったニュアンスを表現していると考えられ、このニュアンスを印象タグ(1)としてよい。 Camera work "Zooming in" refers to an enlargement operation that changes the focal length of the camera. If a video file contains a scene captured by the camera work "zoom in", that scene is considered to express a nuance such as "feeling of tension", and this nuance is used as an impression tag (1). good.
カメラワーク「キャラクタードリー」とは、カメラを主体に近づける拡大操作をいう。動画ファイルにカメラワーク「キャラクタードリー」によって撮像されたシーンが含まれている場合、そのシーンは、例えば、「立体感」や「迫力」といったニュアンスを表現していると考えられ、これらのニュアンスを印象タグ(1)、(2)としてよい。 Camera work "Character dolly" refers to an enlargement operation that brings the camera closer to the subject. If a video file contains a scene captured using the camera work "Character Dolly," that scene is likely to express nuances such as "three-dimensional effect" or "powerful force," and these nuances are It may be used as impression tags (1) and (2).
カメラワーク「ズームアウト」とは、カメラの焦点距離を変化させる縮小操作をいう。動画ファイルにカメラワーク「ズームアウト」によって撮像されたシーンが含まれている場合、そのシーンは、例えば、「悲しさ」、「切なさ」、「孤独感」、「解放感」、「ゆったり」といったニュアンスを表現していると考えられ、これらのニュアンスを印象タグ(1)~(5)としてよい。 Camera work "Zooming out" refers to a reduction operation that changes the focal length of the camera. If the video file contains a scene captured by the camera work "Zoom Out", the scene may be, for example, "Sadness", "Worship", "Loneliness", "Feeling of freedom", or "Relaxation". These nuances may be used as impression tags (1) to (5).
カメラワーク「プルバック」とは、カメラを主体から遠ざける縮小操作をいう。動画ファイルにカメラワーク「プルバック」によって撮像されたシーンが含まれている場合、そのシーンは、例えば、「別れ」、「悲しみ」、「喪失感」、「孤独」、または「解放感」といったニュアンスを表現していると考えられ、これらのニュアンスを印象タグ(1)~(5)としてよい。 Camera work "pullback" refers to a reduction operation that moves the camera away from the subject. If the video file contains a scene captured by the camera work "pullback", the scene has nuances such as "breakup", "sadness", "feeling of loss", "loneliness", or "feeling of freedom". These nuances can be used as impression tags (1) to (5).
カメラワークは、図7に示したものに限られず、他の撮影方法を含んでよい。また、カメラワークとそのカメラワークに対応するニュアンスとを関連付ける場合に、人工知能(AI)による機械学習モデルを用いてよい。 The camera work is not limited to that shown in FIG. 7, and may include other photographing methods. Furthermore, when associating camera work with nuances corresponding to the camera work, a machine learning model based on artificial intelligence (AI) may be used.
また、データベース500に含まれる種々のカメラワークに対応するニュアンスは、適宜変更してよい。データベース500に含まれる印象タグの修正は、ユーザが行ってもよく、動画解析装置10の管理者が行ってもよい。
Further, the nuances corresponding to various camera works included in the
また、1つのカメラワークに複数のニュアンスを表す印象タグが含まれる場合は、それらの印象タグに優先順位を付けるようにしてよい。例えば、1つのカメラワークに対応する印象タグの優先順位を印象タグ(1)から(5)まで、降順としてよい。 Further, when one camera work includes impression tags representing a plurality of nuances, these impression tags may be prioritized. For example, the priority order of impression tags corresponding to one camera work may be set in descending order from impression tags (1) to (5).
また、1つのニュアンス(印象タグ)に対応するカメラワークが複数存在する場合も考えられる。例えば、図7に示すように、印象タグ「迫力」に対応するカメラワークには、「トラック」、「キャラクタードリー」がある。この場合、印象タグ「迫力」に対応するカメラワークとして、優先順位が最も高い印象タグ(1)に「迫力」が対応しているカメラワーク「トラック」を選択してよく、あるいは、「トラック」、「キャラクタードリー」の順に優先順位を付けて選択してよい。 It is also conceivable that there are multiple camera movements corresponding to one nuance (impression tag). For example, as shown in FIG. 7, camera work corresponding to the impression tag "powerful" includes "track" and "character dolly." In this case, as the camera work corresponding to the impression tag "Impact", you may select the camera work "Track" for which "Impact" corresponds to the impression tag (1) with the highest priority, or "Track". , "Character Dolly" in order of priority.
(動画ファイルの検索方法)
次に、作成した動画解析データに基づいて、目的とするタグが付与された動画ファイルを検索する方法について説明する。図8に、本開示の一実施形態に係る動画解析装置に対して、端末から動画ファイルを検索する際の端末表示画面である動画検索画面600の例を示す。
(How to search video files)
Next, a method of searching for a video file to which a target tag has been added based on the created video analysis data will be described. FIG. 8 shows an example of a
まず、動画検索画面600において、動画を検索するための検索タグ(1)を検索タグ(1)入力欄601に入力する。図8に示した例では、検索タグ(1)として「感動」というワードを入力している。
First, on the
なお、検索タグ(1)入力欄601に検索タグのワードを直接入力する代わりに、プルダウンメニューを表示させて、表示された検索タグの中から所望の検索タグを選択するようにしてよい。
Note that instead of directly inputting the search tag word in the search tag (1)
検索タグが1つのみである場合は、検索タグ(1)を入力した後、検索開始ボタン602を押下して、動画ファイルの検索を実行する。
If there is only one search tag, after inputting search tag (1), the
さらに、検索タグを追加する場合は、タグ追加ボタン603を押下する。そうすると、2つ目の検索タグである検索タグ(2)を入力するための検索タグ(2)入力欄604が表示される。図8に示した例では、検索タグ(2)として「悲しみ」というワードが入力されている。
Furthermore, if a search tag is to be added, an
検索タグ(1)及び(2)を入力した後、検索開始ボタン602を押下することにより、検索タグ(1)及び(2)に紐づけられた動画ファイルの検索を実行することができる。以下、同様に、3個以上の検索タグを用いて動画ファイルの検索を実行するようにしてもよい。
After inputting the search tags (1) and (2), by pressing the
検索開始ボタン602が押下されると、端末20の入力部21(図1)に、検索タグに関する情報が入力され、送受信部24に出力される。検索タグに関する情報は、送受信部24から通信ネットワーク30を介して、動画解析装置10の送受信部12に送信される。
When the
動画解析装置10の送受信部12は、受信した検索タグに関する情報を検索情報取得部5に出力する。検索情報取得部5は、所望の動画を検索するための検索タグに関する情報を取得し、動画検索部6に出力する。
The transmitting/receiving
動画検索部6は、動画解析データを参照して、検索タグに対応する動画を検索する。動画検索部6は、図5に示した動画解析データ401を参照して、検索タグ(1)「感動」及び検索タグ(2)「悲しみ」を含むシーンを検索し、それぞれ第1シーン及び第3シーンに含まれていることを検出する。
The
動画検索部6は、検索結果を送受信部12に出力し、送受信部12は通信ネットワーク30を介して検索結果に関する情報を端末20に送信する。端末20の送受信部24は、検索結果に関する情報を受信し、表示部25に出力する。
The
検索結果に関する情報は、表示部25により、図8に示すように、動画検索画面600の検索結果表示欄605に表示されてよい。検索結果表示欄605には、検索された動画ファイル名C1、検索したタグが付されたシーンC2、評価C3が表示されてよい。
Information regarding the search results may be displayed by the
検索された動画ファイル名C1は、例えば、検索タグ(1)「感動」及び検索タグ(2)「悲しみ」を含む動画のファイル名であり、図8に示した例では3つの動画ファイル「1001.mp4」、「MP2022.wmv」、「DG7777.avi」が検出されたことを示している。 The searched video file name C1 is, for example, the file name of a video containing the search tag (1) "impression" and the search tag (2) "sadness", and in the example shown in FIG. .mp4", "MP2022.wmv", and "DG7777.avi" are detected.
検索したタグが付されたシーンC2は、検索タグ(1)「感動」及び検索タグ(2)「悲しみ」がタグ付けされたシーンの番号である。例えば、動画ファイル「1001.mp4」については、第1のシーンであるSN001と第3のシーンであるSN0003に検索タグ(1)及び(2)の少なくともいずれかが付与されていることを示している。 The searched tagged scene C2 is the scene number tagged with the search tag (1) "emotion" and the search tag (2) "sadness." For example, for the video file "1001.mp4", it indicates that at least one of search tags (1) and (2) is attached to the first scene SN001 and the third scene SN0003. There is.
図8に示した検索結果表示欄605には、検出された動画ファイルの数が3つである場合を例示しているが、このような例には限られず、検出される動画の数は、3つ未満、あるいは4つ以上であってよい。
Although the search
また、検出された動画ファイルの数が複数である場合は、優先順位の高い順に表示してよい。優先順位付けは、検索タグが含まれるシーンの継続時間が長い順であってよい。あるいは、優先順位付けは、検索タグが含まれるシーンの検出回数が多い順であってよい。 Furthermore, if a plurality of video files are detected, they may be displayed in descending order of priority. The prioritization may be in order of the duration of the scenes that include the search tags. Alternatively, the prioritization may be in order of the number of times scenes containing the search tag have been detected.
表示部16は、動画解析データを参照して、検索したシーンの開始時間における画像を表示するようにしてよい。例えば、図8において検索結果表示欄605に示された第1シーンの番号を表示する代わりに、第1シーンの開始時間における画像をサムネイルとして表示してよい。
The
さらに、検索結果表示欄605に表示されたシーン番号(例えば、「SN001」)またはそのサムネイルをクリックすることで、そのシーンの動画を再生するようにしてよい。例えば、第1シーンは時間(00:00)を開始時間としているため、表示部16は動画解析データ401(図5)を参照して、第1シーンの番号である「SN001」がクリックされた場合に、第1シーンの動画を再生するようにしてよい。
Furthermore, by clicking on the scene number (for example, "SN001") or its thumbnail displayed in the search
シーンC2に表示された番号またはサムネイルを選択して、そのシーンの動画を再生した結果、目的としたシーンであったか否かを評価入力欄C3に入力してよい。評価入力欄C3に入力する評価は、例えば、5段階であってよい。図8に示した例では、動画ファイル「1001.mp4」のシーンSN001及びSN003の検索結果に対する評価が5段階中の「4」であったことを示している。評価入力欄C3に入力する評価は5段階に限られず、任意の評価方法を用いてよい。 After selecting the number or thumbnail displayed in the scene C2 and playing back the video of that scene, the user may input in the evaluation input field C3 whether or not the scene was the intended scene. The evaluation input in the evaluation input field C3 may be, for example, in five stages. The example shown in FIG. 8 shows that the evaluation for the search results for scenes SN001 and SN003 of the video file "1001.mp4" was "4" out of five. The evaluation input in the evaluation input field C3 is not limited to five levels, and any evaluation method may be used.
評価結果は、動画解析データ作成部4に出力され、動画解析データ作成部4は、評価結果に基づいて、カメラワークとニュアンスを表す印象タグとの対応関係を記録したデータベースを修正してよい。例えば、あるシーンに対して低い評価がなされた場合に、そのシーンに付与されたタグと、対応するカメラワークとの関係を修正してよい。データベースの修正を行う場合に、機械学習モデルを用いて、修正を行ってよい。
The evaluation results are output to the video analysis
以上のようにして、動画ファイルからカメラワークを検出し、カメラワークによって表現されるニュアンスをタグ付けすることができる。これにより、ユーザはタグに基づいて目的のニュアンスを含む動画を探すことができ、ユーザが意図した対象の目的シーンを見つけ出すための検索性を向上させることができる。 In the manner described above, camera work can be detected from a video file and the nuances expressed by the camera work can be tagged. This allows the user to search for a video that includes the desired nuance based on the tag, and improves the search performance for finding the target scene that the user intended.
(変形例)
次に、本開示の一実施形態の変形例に係る動画解析システムについて説明する。図9に、本開示の一実施形態の変形例に係る動画解析システム102の構成ブロック図を示す。本開示の一実施形態の変形例に係る動画解析システム102が、図1に示した動画解析システム101と異なっている点は、動画ファイルに含まれる画像内の物体を認識する物体認識部7をさらに有し、タグ付与部3は、物体に基づくタグを動画解析データに付加する点である。変形例に係る動画解析システム102のその他の構成は、図1に示した動画解析システム101における構成と同様であるため、詳細な説明は省略する。
(Modified example)
Next, a video analysis system according to a modification of the embodiment of the present disclosure will be described. FIG. 9 shows a configuration block diagram of a
上述したように、動画に含まれるカメラワークに基づいて動画にタグ付けされた印象タグを用いて目的とするシーンを含む動画を検索することができる。一方、動画に含まれる物体を検索タグに加えることにより、目的とする動画の検索性をさらに向上させることができる。そこで、変形例に係る動画解析システム102においては、動画に含まれる物体に関する情報を付加情報として検索タグに加えて動画の検索を行う。
As described above, it is possible to search for a video containing a target scene using impression tags tagged to videos based on camera work included in the video. On the other hand, by adding objects included in the video to search tags, it is possible to further improve the searchability of the target video. Therefore, in the
図10に、本開示の一実施形態の変形例に係る動画解析装置を用いて検出したカメラワークを含むシーンから抽出した付加情報抽出結果画面700の例を示す。物体認識部7は、画像認識により、動画ファイルに含まれる画像内の物体を認識する。例えば、第1シーンSN1においては、物体P1~P4が検出され、画像認識により、それぞれ「窓」、「椅子」、「机」、「鞄」が認識される。同様に、第2シーンSN2においては、物体P5及びP6が検出され、画像認識により、それぞれ「女性」、「犬」が認識される。
FIG. 10 shows an example of an additional information
動画解析データ作成部4は、物体認識部7が認識した物体に関する情報に基づいて、付加情報として図11に示す付加情報解析データ800を作成してよい。付加情報解析データ800は、動画ID(D1)、シーンD2、検出時間D3、付加情報の種別D4、タグ(1)~(4)(D5~D8)を含んでよい。
The video analysis
検出時間D3は、物体が検出された時間である。例えば、図11においては、第1シーンにおいて、時間(00:05)に物体P1~P4が検出されたことを示している。 The detection time D3 is the time when the object was detected. For example, FIG. 11 shows that objects P1 to P4 were detected at time (00:05) in the first scene.
動画解析データ作成部4は、付加情報解析データ800と、図5に示した動画解析データ401とを組み合わせて、付加情報を含む動画解析データを作成してよい。図12に、本開示の一実施形態の変形例に係る動画解析装置を用いて作成した付加情報を含む動画解析データ900の例を示す。
The video analysis
付加情報を含む動画解析データ900は、項目E1~E13を含んでよい。E1~E9は、図5に示した動画解析データ401のB1~B9と同様である。付加情報を含む動画解析データ900は、動画解析データ401に加えて、タグ(1)~(4)(E10~E13)を含んでよい。
The
タグ(1)~(4)(E10~E13)は、物体認識部7が認識した物体に関する情報に対応するタグである。例えば、第1シーンで検出された物体P1は「窓」であると認識され、これをタグ(1)E10として、付加情報を含む動画解析データ900に格納する。同様に、第1シーンで検出された物体P2~P4は、それぞれ「椅子」、「机」、「鞄」であると認識され、それぞれタグ(2)~(4)(E11~E13)として、付加情報を含む動画解析データ900に格納する。
Tags (1) to (4) (E10 to E13) are tags corresponding to information regarding the object recognized by the
図12に示した印象タグ(1)~(3)に加えて、タグ(1)~(4)を用いて、動画を検索することにより、目的とする動画をより正確に検索することができる。例えば、図8に示した動画検索画面600において、検索タグ(1)または(2)に、物体に関するタグを入力して検索を実行することができる。
By searching for videos using tags (1) to (4) in addition to the impression tags (1) to (3) shown in Figure 12, it is possible to more accurately search for the desired video. . For example, in the
上記の例では、動画に含まれる物体を認識して付加情報としてタグ付けする例について説明したが、付加情報は物体に関する情報に限られず、動画に含まれる音声に関する情報であってよい。そこで、変形例に係る動画解析装置10は、図9に示すように、動画ファイルに含まれる音声を認識する音声認識部8をさらに有し、タグ付与部3は、音声に基づくタグを動画解析データに付与してよい。
In the above example, an example was described in which an object included in a video is recognized and tagged as additional information, but the additional information is not limited to information regarding the object, but may be information regarding audio included in the video. Therefore, as shown in FIG. 9, the
音声認識部8が認識する音声には、人間の会話や発言、動物の鳴き声、環境音(波の音、風の音、雷の音等)、BGM等、動画に含まれる音を含んでよい。
The voices recognized by the
例えば、図10に示すように、第3シーンにおいて、「そんなにあれが欲しいの?」といった音声S1が検出された場合、音声認識により文字に変換される。変換された文字情報は、第3シーンの時間(00:25)において検出されたタグ(1)D5として、付加情報解析データ800に格納され、付加情報を含む動画解析データ900に格納される。
For example, as shown in FIG. 10, when a voice S1 such as "Do you want that that much?" is detected in the third scene, it is converted into text by voice recognition. The converted character information is stored in the additional
さらに、上記の例では、動画に含まれる物体及び音声を認識して付加情報としてタグ付けする例について説明したが、付加情報は物体及び音声に関する情報に限られず、動画に含まれる文字に関する情報を含んでよい。そこで、変形例に係る動画解析装置10は、図9に示すように、動画ファイルに含まれる文字を認識する文字認識部9をさらに有し、タグ付与部3は、文字に基づくタグを動画解析データに付与してよい。
Furthermore, in the above example, an example was explained in which objects and sounds included in a video are recognized and tagged as additional information. However, additional information is not limited to information about objects and sounds, and information about characters included in a video is also tagged as additional information. may be included. Therefore, as shown in FIG. 9, the
例えば、図10に示すように、第2シーンにおいて、文字P7「KEEP AND GROW」及び文字P8「SOUP」が検出された場合、文字認識によりテキストに変換される。変換された文字情報は、第2シーンの時間(00:17)において検出されたタグ(1)D5及びタグ(2)D6として、付加情報解析データ800に格納され、付加情報を含む動画解析データ900に格納される。
For example, as shown in FIG. 10, when characters P7 "KEEP AND GROW" and characters P8 "SOUP" are detected in the second scene, they are converted into text by character recognition. The converted character information is stored in the additional
なお、動画ファイルから文字情報を検出する場合、背景や物体等に映し出されている文字だけでなく、動画を編集して加えられたテロップや字幕等の文字を認識するようにしてよい。 Note that when detecting text information from a video file, it may be possible to recognize not only characters displayed on the background or objects, but also characters such as subtitles and subtitles added by editing the video.
以上のように、カメラワークから抽出されたニュアンスに関する印象タグを動画ファイルにタグ付けするだけでなく、動画に含まれる物体、音声、文字等に関する情報についてタグ付けすることにより、ユーザは正確に目的の動画を検索することができる。 As mentioned above, by not only tagging video files with impression tags related to the nuances extracted from camerawork, but also tagging information about objects, sounds, text, etc. included in the video, users can accurately achieve their goals. You can search for videos.
1 取得部
2 カメラワーク検出部
3 タグ付与部
4 動画解析データ作成部
5 検索情報取得部
6 動画検索部
7 物体認識部
8 音声認識部
9 文字認識部
10 動画解析装置
11 制御部
12 送受信部
13 記憶部
14 出力部
15 計時部
16 表示部
17 内部バス
20 端末
21 入力部
22 記憶部
23 制御部
24 送受信部
25 表示部
30 通信ネットワーク
101、102 動画解析システム
1
Claims (9)
画像の動きに基づいて、前記動画ファイルに含まれる所定のカメラワークを検出し、該カメラワークを含むシーンの開始時間及び終了時間を抽出するカメラワーク検出部と、
カメラワークの種類と該カメラワークに対応するニュアンスとを関連付けたデータベースを参照して、前記シーンに、検出した前記カメラワークに対応するニュアンスを表すタグを付与するタグ付与部と、
動画識別情報を含み、シーン毎に、前記カメラワーク、前記開始時間及び終了時間、並びに、前記タグに関する情報を対応付けた動画解析データを作成する動画解析データ作成部と、
前記動画解析データを出力する出力部と、
を有することを特徴とする動画解析装置。 an acquisition unit that acquires video identification information and video files;
a camerawork detection unit that detects predetermined camerawork included in the video file based on image movement and extracts a start time and an end time of a scene including the camerawork;
a tagging unit that refers to a database that associates types of camerawork with nuances corresponding to the camerawork, and adds a tag representing the nuance corresponding to the detected camerawork to the scene;
a video analysis data creation unit that creates video analysis data that includes video identification information and associates information regarding the camera work, the start time and end time, and the tag for each scene;
an output unit that outputs the video analysis data;
A video analysis device comprising:
前記タグ付与部は、物体に基づくタグを前記動画解析データに付与する、
請求項1に記載の動画解析装置。 further comprising an object recognition unit that recognizes an object in an image included in the video file,
The tagging unit adds an object-based tag to the video analysis data.
The video analysis device according to claim 1.
前記タグ付与部は、音声に基づくタグを前記動画解析データに付与する、
請求項1または2に記載の動画解析装置。 further comprising a voice recognition unit that recognizes voice included in the video file,
The tagging unit adds a tag based on audio to the video analysis data.
The video analysis device according to claim 1 or 2.
前記タグ付与部は、文字に基づくタグを前記動画解析データに付与する、
請求項1または2に記載の動画解析装置。 further comprising a character recognition unit that recognizes characters in images included in the video file,
The tagging unit adds a text-based tag to the video analysis data.
The video analysis device according to claim 1 or 2.
前記動画解析データを参照して、検索タグに対応する動画を検索する動画検索部と、
をさらに有する、請求項1または2に記載の動画解析装置。 a search information acquisition unit that acquires information regarding a search tag for searching for a desired video;
a video search unit that searches for a video corresponding to the search tag by referring to the video analysis data;
The video analysis device according to claim 1 or 2, further comprising:
カメラワーク検出部が、画像の動きに基づいて、前記動画ファイルに含まれる所定のカメラワークを検出し、該カメラワークを含むシーンの開始時間及び終了時間を抽出し、
タグ付与部が、カメラワークの種類と該カメラワークに対応するニュアンスとを関連付けたデータベースを参照して、シーン毎に、検出した前記カメラワークに対応するニュアンスを表すタグを付与し、
動画解析データ作成部が、前記動画識別情報を含み、シーン毎に、前記カメラワーク、前記開始時間及び終了時間、並びに、前記タグに関する情報を対応付けた動画解析データを作成し、
出力部が、前記動画解析データを出力する、
ことを特徴とする動画解析方法。 The acquisition unit acquires the video identification information and the video file,
a camerawork detection unit detects a predetermined camerawork included in the video file based on the movement of the image, and extracts a start time and an end time of a scene including the camerawork,
The tagging unit refers to a database that associates types of camerawork with nuances corresponding to the camerawork, and adds a tag representing the nuance corresponding to the detected camerawork to each scene,
a video analysis data creation unit creates video analysis data that includes the video identification information and associates information regarding the camera work, the start time and end time, and the tag for each scene;
an output unit outputs the video analysis data;
A video analysis method characterized by:
動画識別情報及び動画ファイルを取得し、
画像の動きに基づいて、前記動画ファイルに含まれる所定のカメラワークを検出し、該カメラワークを含むシーンの開始時間及び終了時間を抽出し、
カメラワークの種類と該カメラワークに対応するニュアンスとを関連付けたデータベースを参照して、シーン毎に、検出した前記カメラワークに対応するニュアンスを表すタグを付与し、
前記動画識別情報を含み、シーン毎に、前記カメラワーク、前記開始時間及び終了時間、並びに、前記タグに関する情報を対応付けた動画解析データを作成し、
前記動画解析データを出力する、
各ステップを実行させることを特徴とする動画解析プログラム。 to the processor,
Obtain video identification information and video file,
Detecting a predetermined camera work included in the video file based on the movement of the image, extracting the start time and end time of the scene including the camera work,
Referring to a database that associates the type of camera work with the nuance corresponding to the camera work, assigning a tag representing the nuance corresponding to the detected camera work to each scene,
creating video analysis data that includes the video identification information and associates information regarding the camera work, the start time and end time, and the tag for each scene;
outputting the video analysis data;
A video analysis program that executes each step.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022064045A JP2023154608A (en) | 2022-04-07 | 2022-04-07 | Video analysis device, video analysis method, and video analysis program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022064045A JP2023154608A (en) | 2022-04-07 | 2022-04-07 | Video analysis device, video analysis method, and video analysis program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023154608A true JP2023154608A (en) | 2023-10-20 |
Family
ID=88373372
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022064045A Pending JP2023154608A (en) | 2022-04-07 | 2022-04-07 | Video analysis device, video analysis method, and video analysis program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023154608A (en) |
-
2022
- 2022-04-07 JP JP2022064045A patent/JP2023154608A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102290419B1 (en) | Method and Appratus For Creating Photo Story based on Visual Context Analysis of Digital Contents | |
KR101116373B1 (en) | Sharing System of Emotion Data and Method Sharing Emotion Data | |
US8717367B2 (en) | Automatically generating audiovisual works | |
CN101783886B (en) | Information processing apparatus, information processing method, and program | |
US20140328570A1 (en) | Identifying, describing, and sharing salient events in images and videos | |
KR20210042852A (en) | method for confirming a position of video playback node, apparatus, electronic equipment, computer readable storage medium and computer program | |
JP5359177B2 (en) | System, method, and program for linking media | |
KR20180118816A (en) | Content collection navigation and auto forwarding | |
JP2013502637A (en) | Metadata tagging system, image search method, device, and gesture tagging method applied thereto | |
JP2008533580A (en) | Summary of audio and / or visual data | |
US8255395B2 (en) | Multimedia data recording method and apparatus for automatically generating/updating metadata | |
JP2008003968A (en) | Information processing system, and information processing method and program | |
CN113453040B (en) | Short video generation method and device, related equipment and medium | |
US20110179003A1 (en) | System for Sharing Emotion Data and Method of Sharing Emotion Data Using the Same | |
CN112672208B (en) | Video playing method, device, electronic equipment, server and system | |
CN113094523A (en) | Resource information acquisition method and device, electronic equipment and storage medium | |
US11876634B2 (en) | Group contact lists generation | |
CN116049490A (en) | Material searching method and device and electronic equipment | |
JP2023154608A (en) | Video analysis device, video analysis method, and video analysis program | |
JP7465487B2 (en) | Emoticon Generator | |
KR20220108668A (en) | Method for Analyzing Video | |
CN113282770A (en) | Multimedia recommendation system and method | |
CN114245174B (en) | Video preview method and related equipment | |
KR102027297B1 (en) | Scene-based video navigation appratus | |
CN116170626A (en) | Video editing method, device, electronic equipment and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230209 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240229 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240305 |