JP2006014084A - Video editing apparatus, video editing program, recording medium, and video editing method - Google Patents
Video editing apparatus, video editing program, recording medium, and video editing method Download PDFInfo
- Publication number
- JP2006014084A JP2006014084A JP2004190280A JP2004190280A JP2006014084A JP 2006014084 A JP2006014084 A JP 2006014084A JP 2004190280 A JP2004190280 A JP 2004190280A JP 2004190280 A JP2004190280 A JP 2004190280A JP 2006014084 A JP2006014084 A JP 2006014084A
- Authority
- JP
- Japan
- Prior art keywords
- video
- shot
- section
- recognition
- degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、映画やテレビドラマなどストーリーを有する映像から要約映像を作成するための映像編集装置、映像編集プログラム、映像編集プログラムを記録したコンピュータ読み取り可能な記録媒体、および映像編集方法に関するものである。 The present invention relates to a video editing apparatus for creating a summary video from a video having a story such as a movie or a TV drama, a video editing program, a computer-readable recording medium recording the video editing program, and a video editing method. .
インターネット上での通信速度の増大により、映像配信やディジタル放送の利用が一般的になりつつあり、また、HDD内蔵のビデオレコーダなどが普及してきていることから、ユーザは多くの映像をインターネットを通じて取得し、それらを蓄積し、視聴することが可能となってきている。そのためユーザは、多くの映像の中から観たい映像を選択する必要がある。短時間で映像の内容や雰囲気を理解することを目的とした手法の一つとして、映像を要約する手法が挙げられる。 Due to the increase in communication speed on the Internet, video distribution and digital broadcasting are becoming more common, and video recorders with built-in HDDs have become popular, so users can acquire many videos via the Internet. It has become possible to accumulate and view them. For this reason, the user needs to select a desired video from many videos. One of the methods aimed at understanding the content and atmosphere of a video in a short time is to summarize the video.
映像にはドラマ、映画、スポーツ、ニュース、音楽番組など様々なものが存在するが、特に映画やドラマは時間が長いため、短時間で内容が理解しやすい要約映像を作成することができれば、ユーザにとっては有用なものとなる。例えば、蓄積した映画をブラウジングする場合、映画評論家が過去に観た映画の紹介や批評を書く際にその映画の内容を思い出したい場合などでは、特に要約映像の有用性が高い。映画を対象とした映像要約に関する技術としては次のようなものが知られている。 There are various types of video such as dramas, movies, sports, news, music programs, etc. Especially, movies and dramas are long, so if you can create a summary video that is easy to understand in a short time, It will be useful to you. For example, when browsing an accumulated movie, summary video is particularly useful when a movie critic wants to remember the contents of the movie when writing or introducing a review of a movie that he has watched in the past. The following technologies are known as video summarization techniques for movies.
非特許文献1では、主要人物のクロースアップ、銃声や爆発、タイトルやテロップなどの特別なイベントを検出し、これらをつなぎ合わせることで映画の予告編を目的とした要約映像を作成している。また、非特許文献2では、ドラマの心理的印象の高い区間に注目し、音楽の開始や終了、カットが頻出する箇所など心理的に重要な箇所を切り出した要約映像を作成している。また、非特許文献3では、視聴者が視覚、聴覚に注意を向ける要素を元にして作成したUser Attention Modelに基づき、視聴者が注意を向けたと考えられる区間を要約映像に採用している。
In Non-Patent
一方、非特許文献4では、ショットを視覚的な類似度に基づきクラスタリングし、各クラスタから一番長いショットを要約映像として採用している。
On the other hand, in Non-Patent
また、非特許文献5では、画像、音の特徴から映画をショット、ストーリ・ユニット、シーンに構造化し、それぞれの単位における従属性を検出することによって、映画の文脈を考慮に入れた要約映像を作成している。
In Non-Patent
また、特許文献1では、各ショットまたはシーンに対応して付与された情報に基づいて作成された当該ショットまたはシーンの評価値を用いることにより映像を抽出する技術が開示されている。
上記非特許文献1〜3に開示された技術では、特定の特徴が検出された区間を単純につなぎ合わせているに過ぎない。したがって、このような技術によって作成された要約映像は、断片的な映像になってしまい、映像においてどのような出来事が起こっているのかを十分に知ることが困難である上に、その出来事の前後関係が分かり難い要約映像となる。
In the techniques disclosed in
また、上記非特許文献4に開示された技術では、視覚的に冗長なショットを除いたに過ぎず、映像の内容を伝える上で重要なショットの選択はされていない。また、各クラスタから一番長いショットを要約映像として採用しているが、映像の内容を伝える上で一番長いショットが重要であるとは必ずしもいえない。
Further, in the technique disclosed in
また、上記非特許文献4に開示された技術では、文脈を考慮しているが、従属関係にあるショットすべてを要約映像に採用しているため、要約映像に偏りがあり映像全体の話の内容を知ることは困難である。
In the technique disclosed in
また、特許文献1に開示された技術では、評価値を作成する際に用いる情報の付与に関しては、評価者による主観的な評価を行うことが開示されている以外には、具体的な技術内容が開示されていない。
In addition, in the technique disclosed in
以上のように、従来の技術では、映像の内容を的確に把握することができるような要約映像を作成することが困難である。 As described above, with the conventional technology, it is difficult to create a summary video that can accurately grasp the content of the video.
本発明は、上記の問題点に鑑みてなされたものであり、その目的は、映像全体の内容を視聴者が的確に把握しやすい要約映像を作成する映像編集装置および映像編集方法を実現することにある。 The present invention has been made in view of the above problems, and an object thereof is to realize a video editing apparatus and a video editing method for creating a summary video that allows a viewer to accurately grasp the contents of the entire video. It is in.
本発明に係る映像編集装置は、映像を構成する各ショットの長さと、映像における動きの激しさとに基づいて特定可能な強調区間を含んだ映像から、要約映像を作成する映像編集装置であって、上記課題を解決するために、映像データに基づき、映像の各部についてショットの継続時間の長さに応じた特徴を認識するショット認識手段と、映像データに基づき、映像の各部について映像の動きの激しさに応じた特徴を認識する映像認識手段と、前記ショット認識手段および映像認識手段による認識結果に基づき、映像データのうち強調区間に該当する区間を特定する強調区間特定手段と、前記ショット認識手段および映像認識手段による認識結果に基づき、各強調区間の間の従属度合を検出する従属度検出手段と、前記ショット認識手段および映像認識手段による認識結果と、前記従属度検出手段による検出結果とに基づき、強調区間から要約映像に採用すべき部分を決定する要約作成手段とを備えることを特徴としている。 The video editing apparatus according to the present invention is a video editing apparatus that creates a summary video from a video including an emphasis section that can be specified based on the length of each shot constituting the video and the intensity of motion in the video. In order to solve the above problems, the shot recognition means for recognizing the feature corresponding to the length of the shot duration for each part of the video based on the video data, and the motion of the video for each part of the video based on the video data. Video recognition means for recognizing features according to the intensity of the image, enhancement section specifying means for specifying a section corresponding to the enhancement section in the video data based on the recognition results by the shot recognition means and the video recognition means, and the shot Based on the recognition results of the recognition means and the image recognition means, a dependency level detection means for detecting a dependency level between the emphasis sections, the shot recognition means, A recognition result by the image recognition unit, based on the detection result by the dependent degree detecting means is characterized by comprising a summary creation unit for determining the portion to be employed in the video summary from emphasis interval.
また、本発明に係る映像編集方法は、映像を構成する各ショットの長さと、映像における動きの激しさとに基づいて特定可能な強調区間を含んだ映像から、要約映像を作成する映像編集方法であって、上記課題を解決するために、映像データに基づき、映像の各部についてショットの継続時間の長さに応じた特徴を認識するショット認識処理と、映像データに基づき、映像の各部について映像の動きの激しさに応じた特徴を認識する映像認識処理と、前記ショット認識処理および映像認識処理による認識結果に基づき、映像データのうち強調区間に該当する区間を特定する強調区間特定処理と、前記ショット認識処理および映像認識処理による認識結果に基づき、各強調区間の間の従属度合を検出する従属度検出処理と、前記ショット認識処理および映像認識処理による認識結果と、前記従属度検出処理による検出結果とに基づき、強調区間から要約映像に採用すべき部分を決定する要約作成処理とを含むことを特徴としている。 The video editing method according to the present invention is a video editing method for creating a summary video from a video including an emphasis section that can be specified based on the length of each shot constituting the video and the intensity of movement in the video. In order to solve the above-described problem, a shot recognition process for recognizing a feature corresponding to the length of a shot duration for each part of the video based on the video data, and a video for each part of the video based on the video data. Video recognition processing for recognizing features according to the intensity of motion, and enhancement section identification processing for identifying a section corresponding to the enhancement section in the video data based on the recognition result by the shot recognition processing and the video recognition processing, Based on the recognition results of the shot recognition process and the video recognition process, a dependency level detection process for detecting a dependency level between the emphasis sections, and the shot recognition process. And a recognition result of the image recognition processing, based on the detection result of the subordinate level detection process is characterized in that it comprises a summarization process that determines the portion to be employed in the video summary from emphasis interval.
映画やテレビドラマなどストーリーを有する映像においては、撮影や編集の際に、特定の意味や意図を強調する目的で「映画の文法」という技法が使用される。映画の文法では、内容が効果的に視聴者に伝わるように編集上強調された区間として、アクション区間、緊迫した区間、落ち着いた区間が設定される。ここで、アクション区間とは、短いショットが連続し、かつ、映像の動きが激しい傾向にある区間であり、緊迫した区間とは、ショットの長さが徐々に短くなる傾向にある区間であり、落ち着いた区間とは、長いショットが連続し、かつ、映像の動きが緩やかな傾向にある区間である。 In movies and television dramas that have a story, a technique called “movie grammar” is used for the purpose of emphasizing a specific meaning and intention when shooting or editing. In the grammar of the movie, an action section, a tight section, and a calm section are set as sections that are editorially emphasized so that the contents are effectively transmitted to the viewer. Here, the action section is a section in which short shots are continuous and the movement of the image tends to be intense, and the tense section is a section in which the length of the shot tends to be gradually reduced. A calm section is a section in which long shots continue and the motion of the video tends to be gradual.
また、映画の文法によると、これら区間の間には、原因と結果の関係(従属関係)が成り立っている場合があり、従属関係にある区間は結合されることにより内容が明確に伝達できるようになる。 Also, according to the grammar of the movie, there may be a relationship between cause and effect (dependency relationship) between these sections, and the sections in the dependency relation can be combined to clearly communicate the contents. become.
そこで、上記構成および方法では、全体映像を的確に要約した要約映像を作成するために、上記編集上強調された区間を強調区間として特定するとともに、強調区間の間の従属関係を考慮して、要約映像に採用すべき部分を決定している。 Therefore, in the above configuration and method, in order to create a summary video that accurately summarizes the entire video, the section emphasized on the editing is specified as an emphasized section, and the dependency relationship between the emphasized sections is considered, The part to be adopted in the summary video is determined.
すなわち、上記構成および方法では、映像の各部について、ショットの継続時間の長さに応じた特徴と、映像の動きの激しさに応じた特徴とを認識するため、これらに基づいて、アクション区間、緊迫した区間、落ち着いた区間を強調区間として特定することができる。 That is, in the above configuration and method, for each part of the video, in order to recognize the feature according to the length of the duration of the shot and the feature according to the intensity of the motion of the video, based on these, the action section, A tight section and a calm section can be specified as an emphasis section.
また、強調区間の間の従属関係の度合(従属度合)は、各強調区間の特徴的性質の度合(アクション性度合、緊迫性度合、落ち着き性度合)の差として捉えることができる。上記構成および方法では、映像の各部について、ショットの継続時間の長さに応じた特徴と、映像の動きの激しさに応じた特徴とを認識するため、これらに基づいて各強調区間のアクション性度合、緊迫性度合、落ち着き性度合を認識し、各強調区間の間の従属度合を検出することができる。 Further, the degree of dependency between the emphasis sections (dependency degree) can be understood as a difference in the degree of characteristic properties (action degree, tightness degree, calmness degree) of each emphasis section. In the above-described configuration and method, for each part of the video, the feature according to the length of the duration of the shot and the feature according to the intensity of the motion of the video are recognized. It is possible to recognize the degree, the tightness degree, and the calmness degree, and to detect the degree of dependency between the emphasis sections.
そして、上記構成および方法では、上記のとおり各強調区間のアクション性度合、緊迫性度合、落ち着き性度合を認識することができ、また、各強調区間の間の従属度合も検出することができるため、これらに基づいて強調区間から要約映像に採用すべき部分を決定する。 In the configuration and method described above, the degree of action, tightness, and calmness of each emphasis section can be recognized as described above, and the degree of dependency between each emphasis section can also be detected. Based on these, the portion to be adopted in the summary video is determined from the emphasis section.
これにより、上記構成および方法では、映画の文法に即した要約映像、つまり編集上強調された強調区間と、これら強調区間の間の従属関係を反映することにより、全体の内容を視聴者が的確に把握しやすい要約映像を作成することができる。 As a result, in the above configuration and method, a summary video that conforms to the grammar of the movie, that is, the emphasis sections that are emphasized in editing, and the dependency relationship between these emphasis sections are reflected, so that the entire content can be accurately viewed by the viewer. It is possible to create a summary video that is easy to grasp.
本発明に係る映像編集装置は、上記映像編集装置において、前記ショット認識手段は、認識結果として、ショットの継続時間を示す特徴量と、ショットの継続時間の長さ度合を示す特徴量とを生成し、前記映像認識手段は、認識結果として、映像の動きの激しさ度合を示す特徴量を生成するものであってもよい。 In the video editing apparatus according to the present invention, in the video editing apparatus, the shot recognizing unit generates, as a recognition result, a feature amount indicating a duration of the shot and a feature amount indicating the length of the duration of the shot. The video recognition unit may generate a feature amount indicating the degree of intenseness of the motion of the video as a recognition result.
上記構成では、映像の各部について、ショットの継続時間を示す特徴量、ショットの継続時間の長さ度合を示す特徴量、映像の動きの激しさ度合を示す特徴量を生成する。ここで、ショットの継続時間の長さ度合とは、映像全体に対する各部のショットの相対的な長さの度合であり、映像の動きの激しさ度合とは、映像全体に対する各部の動きの相対的な激しさの度合である。 In the above configuration, for each part of the video, a feature quantity indicating the duration of the shot, a feature quantity indicating the length of the duration of the shot, and a feature quantity indicating the severity of the motion of the video are generated. Here, the degree of the duration of the shot is the degree of the relative length of the shot of each part with respect to the whole image, and the degree of the intensity of the movement of the image is the relative degree of movement of each part with respect to the whole image. The degree of intensity.
上述したように、強調区間としてのアクション区間は、短いショットが連続し、かつ、映像の動きが激しい傾向にある区間であり、緊迫した区間は、ショットの長さが徐々に短くなる傾向にある区間であり、落ち着いた区間は、長いショットが連続し、かつ、映像の動きが緩やかな傾向にある区間であるので、上記各特徴量を用いることにより、比較的簡単な演算によって強調区間の特定、従属度合の検出、要約映像として採用すべき映像部分の決定を行うことができる。 As described above, the action section as the emphasis section is a section in which short shots are continuous and the movement of the video tends to be intense, and in a tense section, the length of the shot tends to be gradually shortened. Since the long and continuous shots are slow and the movement of the video tends to be slow, the emphasis section can be specified by relatively simple calculation by using the above feature quantities. In addition, it is possible to detect the degree of dependency and determine the video portion to be adopted as the summary video.
本発明に係る映像編集装置は、上記映像編集装置において、映像データに付加された音声データに基づき、映像の各部について音声に含まれる楽器音成分の継続時間の長さに応じた特徴を認識する音声認識手段をさらに備え、前記強調区間特定手段は、さらに前記音声認識手段による認識結果に基づき、映像データのうち強調区間に該当する区間を特定し、前記従属度検出手段は、さらに前記音声認識手段による認識結果に基づき、各強調区間の間の従属度合を検出し、前記要約作成手段は、さらに前記音声認識手段による認識結果に基づき、強調区間から要約映像に採用すべき部分を決定することが望ましい。 In the video editing apparatus according to the present invention, the video editing apparatus recognizes a feature corresponding to the duration of the instrument sound component included in the audio for each part of the video based on the audio data added to the video data. Voice recognition means is further provided, the enhancement section specifying means further specifies a section corresponding to the enhancement section in the video data based on a recognition result by the voice recognition means, and the dependency level detection means is further configured to recognize the voice recognition. Detecting the degree of dependency between each emphasis section based on the recognition result by the means, and the summary creating means further determines a portion to be adopted for the summary video from the emphasis section based on the recognition result by the voice recognition means. Is desirable.
映像には音声が付加されている場合が多く、この場合、アクション区間、落ち着いた区間の特徴的性質は、上記音声に含まれる楽器音成分の継続時間の長さとしても現れる。すなわち、アクション区間では楽器音成分の継続時間が短い傾向にあり、落ち着いた区間では楽器音成分の継続時間が長い傾向にある。 In many cases, audio is added to the video, and in this case, the characteristic properties of the action section and the calm section appear as the duration of the instrument sound component included in the audio. That is, the duration of the instrument sound component tends to be short in the action section, and the duration of the instrument sound component tends to be long in the calm section.
そこで上記構成では、映像の各部について、ショットの継続時間の長さに応じた特徴と、映像の動きの激しさに応じた特徴とに加えて、楽器音成分の継続時間の長さに応じた特徴を認識し、これらに基づいて強調区間の特定、従属度合の検出、要約映像として採用すべき映像部分の決定を行っている。これにより、より的確な要約映像を作成することができる。 Therefore, in the above configuration, for each part of the video, in addition to the characteristics according to the length of the duration of the shot and the characteristics according to the intensity of the motion of the video, according to the length of the duration of the instrument sound component Based on these features, the emphasis section is specified, the degree of dependency is detected, and the video portion to be used as the summary video is determined. As a result, a more accurate summary video can be created.
本発明に係る映像編集装置は、上記映像編集装置において、前記音声認識手段は、認識結果として、楽器音成分の継続時間の長さ度合を示す特徴量を生成するものであってもよい。 In the video editing apparatus according to the present invention, in the video editing apparatus, the voice recognition unit may generate a feature amount indicating a degree of duration of a musical instrument sound component as a recognition result.
上記構成では、映像の各部について、楽器音成分の継続時間の長さ度合を示す特徴量を生成する。ここで、楽器音成分の継続時間の長さ度合とは、旋律を構成する音の長さの度合である。 In the above configuration, a feature amount indicating the degree of duration of the instrument sound component is generated for each part of the video. Here, the degree of duration of the instrument sound component is the degree of the length of the sound constituting the melody.
上述したように、アクション区間では楽器音成分の継続時間が短い傾向にあり、落ち着いた区間では楽器音成分の継続時間が長い傾向にあるので、上記特徴量を用いることにより、比較的簡単な演算によって強調区間の特定、従属度合の検出、要約映像として採用すべき映像部分の決定を行うことができる。 As described above, the duration of the instrument sound component tends to be short in the action section, and the duration of the instrument sound component tends to be long in the calm section. Thus, it is possible to specify an emphasis section, detect the degree of dependency, and determine a video portion to be adopted as a summary video.
本発明に係る映像編集装置は、上記映像編集装置において、映像データに基づき、映像の各部について映像主体の存在を検出する主体検出手段をさらに備え、前記要約作成手段は、さらに前記主体検出手段による検出結果に基づき、強調区間から要約映像に採用すべき部分を決定することが望ましい。 The video editing apparatus according to the present invention further comprises subject detection means for detecting presence of a video subject for each part of the video based on the video data in the video editing device, and the summary creation means is further provided by the subject detection means. Based on the detection result, it is desirable to determine a portion to be adopted for the summary video from the emphasis section.
映像主体とは、映像上の比較的大きな部分を占めるように撮影された登場人物や各種物体であり、それらはしばしばある一定以上の大きさで、一定範囲の色相で構成され、かつ、周辺とのコントラストが大きなオブジェクトである。映像主体の存在する部分は、映像の内容を視聴者に伝える上で重要な部分となり、その部分を優先的に採用した要約映像は、それを考慮しないものに比べて、映像の内容を理解しやすくなる。 An image subject is a character or various objects photographed so as to occupy a relatively large part of the image, and they are often larger than a certain size, composed of a certain range of hues, and The object has a large contrast. The main part of the video is an important part in conveying the video content to the viewer, and the summary video that preferentially adopts that part understands the video content compared to the video without considering it. It becomes easy.
そこで上記構成では、映像の各部について映像主体の存在を検出し、その検出結果に基づいて強調区間から要約映像に採用すべき部分を決定する。これにより、より的確な要約映像を作成することができる。 Therefore, in the above configuration, the presence of the video subject is detected for each part of the video, and a part to be adopted for the summary video is determined from the enhancement section based on the detection result. As a result, a more accurate summary video can be created.
なお、本発明は、上記映像編集装置を動作させる映像編集プログラムであって、コンピュータを前記各手段として機能させるための映像編集プログラムとして実現することもでき、この映像編集プログラムを記録したコンピュータ読み取り可能な記録媒体として実現することもできる。 The present invention is a video editing program for operating the video editing apparatus, and can be realized as a video editing program for causing a computer to function as each of the means, and can be read by a computer recording the video editing program. It can also be realized as a simple recording medium.
本発明に係る映像編集装置は、以上のように、映像データに基づき、映像の各部についてショットの継続時間の長さに応じた特徴を認識するショット認識手段と、映像データに基づき、映像の各部について映像の動きの激しさに応じた特徴を認識する映像認識手段と、前記ショット認識手段および映像認識手段による認識結果に基づき、映像データのうち強調区間に該当する区間を特定する強調区間特定手段と、前記ショット認識手段および映像認識手段による認識結果に基づき、各強調区間の間の従属度合を検出する従属度検出手段と、前記ショット認識手段および映像認識手段による認識結果と、前記従属度検出手段による検出結果とに基づき、強調区間から要約映像に採用すべき部分を決定する要約作成手段とを備えている。 As described above, the video editing apparatus according to the present invention is based on video data, shot recognition means for recognizing a feature corresponding to the length of a shot duration for each part of the video, and each part of the video based on the video data. Video recognition means for recognizing features according to the intensity of motion of the video, and enhancement section specifying means for specifying a section corresponding to the enhancement section in the video data based on the recognition results by the shot recognition means and the video recognition means Based on the recognition results by the shot recognition means and the video recognition means, a dependency level detection means for detecting the degree of dependency between the emphasis sections, the recognition results by the shot recognition means and the video recognition means, and the dependency level detection Summarizing means for determining a portion to be adopted in the summary video from the emphasis section based on the detection result by the means.
また、本発明に係る映像編集装置は、以上のように、映像データに基づき、映像の各部についてショットの継続時間の長さに応じた特徴を認識するショット認識処理と、映像データに基づき、映像の各部について映像の動きの激しさに応じた特徴を認識する映像認識処理と、前記ショット認識処理および映像認識処理による認識結果に基づき、映像データのうち強調区間に該当する区間を特定する強調区間特定処理と、前記ショット認識処理および映像認識処理による認識結果に基づき、各強調区間の間の従属度合を検出する従属度検出処理と、前記ショット認識処理および映像認識処理による認識結果と、前記従属度検出処理による検出結果とに基づき、強調区間から要約映像に採用すべき部分を決定する要約作成処理とを含んでいる。 In addition, as described above, the video editing apparatus according to the present invention is based on video data, based on video data, based on video data based on shot recognition processing for recognizing features corresponding to the length of shot duration for each part of video. Video recognition processing for recognizing features according to the intensity of motion of the video for each part, and an emphasis section for identifying a section corresponding to the emphasis section of the video data based on the recognition result by the shot recognition process and the video recognition process A subordinate degree detection process for detecting a subordinate degree between each emphasis section based on a recognition process by the identification process, the shot recognition process and the video recognition process, a recognition result by the shot recognition process and the video recognition process, and the subordinate Based on the detection result of the degree detection process, and a summary creation process for determining a portion to be adopted in the summary video from the emphasis section.
これにより、映画の文法に即した要約映像、つまり編集上強調された強調区間と、これら強調区間の間の従属関係を反映することにより、全体の内容を視聴者が的確に把握しやすい要約映像を作成することができるという効果を奏する。 As a result, a summary video that conforms to the grammar of the movie, that is, a summary video that allows the viewer to accurately grasp the entire contents by reflecting the emphasis sections that are emphasized for editing and the dependency relationship between these emphasis sections. The effect is that it can be created.
本発明では、映画の撮影や編集の際に制作者によって、特定の意味や意図を強調する目的で使用される「映画の文法」に基づき、内容が効果的に視聴者に伝わるように、編集上強調された区間としてアクション区間(アクションシーン)、緊迫した区間(緊迫したシーン)、落ち着いた区間(落ち着いたシーン)と、それらの区間と従属関係にある区間を抽出する。そして制約時間を満たすように、重要度の高い順にそれらの区間内のショットを要約映像として採用する。したがって、強調された区間だけでなくそれに至る経緯も要約映像に含めることができる。これにより、映画の内容と文脈が理解しやすい要約映像の作成手法を実現する。 In the present invention, editing is performed so that the content is effectively conveyed to the viewer based on the “movie grammar” used by the producer for emphasizing a specific meaning or intention when shooting or editing a movie. An action section (action scene), a tight section (tight scene), a calm section (calm scene), and sections that are subordinate to these sections are extracted as the above-emphasized sections. Then, the shots in those sections are adopted as the summary video in descending order of importance so as to satisfy the constraint time. Therefore, not only the emphasized section but also the process leading to it can be included in the summary video. As a result, a method for creating a summary video in which the contents and context of the movie are easy to understand is realized.
本発明の実施の一形態について図1から図15に基づいて説明すると以下の通りである。 An embodiment of the present invention will be described with reference to FIGS. 1 to 15 as follows.
1.処理内容
1.1 映画の文法
映画には、撮影や編集の際に制作者によって特定の意味や意図を強調する目的で使用される技法がある。それを「映画の文法」という(非特許文献6:ダニエル・アリホン著, 岩本憲児, 出口丈人訳, “映画の文法”, 紀伊國屋書店, 1980.参照)。
1. Processing Content 1.1 Movie Grammar Movies have techniques that are used by producers to emphasize specific meanings and intentions during filming and editing. This is called “movie grammar” (Non-Patent Document 6: written by Daniel Arihon, Noriko Iwamoto, Taketo Deguchi, “Grammar of Movie”, Kinokuniya, 1980).
映画の文法によると、編集上強調された区間であるアクション区間、緊迫した区間、落ち着いた区間の特性として次のことが述べられている。すなわち、アクション区間は、短いショットが連続し、かつ、映像の動きが激しい区間であり、緊迫した区間は、ショットの長さが徐々に短くなる区間であり、落ち着いた区間は、長いショットが連続し、かつ、映像の動きが緩やかな区間である。また、映画の文法によると、効果的な内容伝達には、原因と結果の関係にある区間を結合することが重要であることが述べられている。 According to the grammar of the movie, the following points are stated as the characteristics of the action section, the tight section, and the calm section, which are editorially emphasized sections. In other words, the action section is a section in which short shots are continuous and the motion of the video is intense, the tight section is a section in which the shot length is gradually shortened, and the calm section is a series of long shots. In addition, this is a section where the motion of the video is slow. In addition, according to the grammar of the movie, it is stated that it is important to combine the sections having a relationship between cause and effect for effective content transmission.
1.2 処理の流れ
映画の文法に基づき、話の内容を視聴者に効果的に伝えるために、編集上強調された区間として、アクション区間、緊迫した区間、落ち着いた区間を抽出する。その際、各ショットにおいて、ショットの長さ、画像の動きの激しさや緩やかさに基づき、ショットの性質として、アクション性、緊迫性、落ち着き性を定義する。そして性質を表す値が連続して高い値をとるショット群をそれぞれアクション区間、緊迫した区間、落ち着いた区間とする。これら3つの区間を抽出し、各性質を表す値の高い順に要約映像を作成する際の候補とすることにより、映画の中で編集上強調された区間を要約映像に加えることが可能となり、その要約映像は映画の内容が分かりやすいものとなる。
1.2 Process Flow Based on the grammar of the movie, in order to effectively convey the contents of the story to the viewer, an action section, a tight section, and a calm section are extracted as sections that are emphasized for editing. At that time, in each shot, action property, tightness, and calmness are defined as shot properties based on the length of the shot and the intensity and gentleness of the motion of the image. A group of shots in which the values representing the properties are continuously high are defined as an action section, a tight section, and a calm section, respectively. By extracting these three sections and using them as candidates for creating a summary video in descending order of the value representing each property, it becomes possible to add a section that is editorially emphasized in the movie to the summary video. The summary video makes the content of the movie easy to understand.
ここで、ショットとは一台のカメラから撮影された連続するフレームの集合のことである。またカットとは、ショットの境界のことである。 Here, a shot is a set of continuous frames taken from one camera. A cut is a shot boundary.
なお、ショットの性質として、アクション性、緊迫性、落ち着き性を定義する際には、そのショットに同期して再現される楽曲のテンポも考慮することが望ましい。 It should be noted that when defining the action property, tightness, and calmness as the nature of the shot, it is desirable to consider the tempo of the music that is reproduced in synchronization with the shot.
また、抽出した区間を要約映像に加えるか否かを判断する際には、主体(映像主体)の存在を考慮することが望ましい。主体の存在するショットは、話の内容を視聴者に伝える上で重要なショットとなり、そのショットを中心に採用した要約映像は、それを考慮しないものに比べて、映画の内容を理解しやすくなる。画像の中で強調されているオブジェクトが主体である可能性が高いことから、ある一定以上の大きさで、同一色で輝度の変化が周囲と異なるオブジェクトが存在するショットを検出する。 In addition, when determining whether or not to add the extracted section to the summary video, it is desirable to consider the presence of the subject (video subject). The subject's shot is an important shot for telling the audience what the story is about, and the summary video that is mainly based on that shot makes it easier to understand the content of the movie than when it is not taken into account. . Since there is a high possibility that the object emphasized in the image is the main subject, a shot in which an object having a certain size or more and the same color and a change in luminance is different from the surroundings is detected.
さらにアクション区間、緊迫した区間、落ち着いた区間のいずれか2つの区間が隣接している場合、それらの区間には原因と結果を表す従属関係がある。そのため、それら2つの区間を含めた要約映像は、含めない映像に比べてより文脈を理解しやすいものとなる。抽出した区間内でアクション性度合、緊迫性度合、あるいは落ち着き性度合の平均値を求め、前後の区間においてその差を求めることにより、それらの区間での従属関係の度合を求める。ここで従属関係の度合を前後の区間の値の差としているのは、前後の性質の違いが大きいほど、視聴者に強い印象を与えて内容を効果的に伝えることができるからである。 Furthermore, when any two sections of an action section, a tight section, and a calm section are adjacent to each other, these sections have a dependency relationship that represents a cause and an effect. Therefore, the summary video including these two sections is easier to understand the context than the video not including. An average value of the action degree, the tightness degree, or the calmness degree is obtained in the extracted sections, and the difference is obtained in the preceding and following sections, thereby obtaining the degree of dependency in those sections. The reason why the degree of dependency is the difference between the values of the preceding and following sections is that the greater the difference in the properties before and after, the stronger the impression the viewer can have and the more effective the contents can be conveyed.
最後に要約映像を作成する際、映画全体から満遍なく要約映像となる映像区間を選択し、話の内容を理解しやすくするため、映画をn(=20)等分する。そしてその分割された区間の中から、視聴者が指定した制約時間を満たすように、アクション性度合、緊迫性度合、落ち着き性度合のいずれかが高く、主体が存在するショットを優先して要約映像として採用し、それと強い従属関係のある区間内の主体の存在するショットも要約映像として採用することにより、映画の内容と文脈とをより理解しやすい要約映像を作成する。 Finally, when creating a summary video, select a video section that is uniformly a summary video from the entire movie, and divide the movie into n (= 20) equal parts to make it easier to understand the content of the story. Then, from the divided sections, the action video, the tightness, or the calmness are high so that the restriction time specified by the viewer is satisfied. As a summary video, a summary video that makes it easier to understand the content and context of the movie is created.
2.ショットの性質の定義
2.1 アクション性
2.1.1 ショットの長さによるアクション性
アクション区間では、短いショットが連続するという特徴があるため、それを以下の条件で抽出し、アクション性を表す値を求める。
2. Definition of shot characteristics 2.1 Action characteristics 2.1.1 Action characteristics according to shot length In the action section, there is a feature that short shots are continuous. Find the value.
k番目のショットskでのショットの長さをSL(sk)[秒]とすると、skでのショットの長さによるアクション性を表す値SLVA(sk)を数式(1)のように定義する。これは、アクションを視聴者に効果的に伝えるためには、短いショットを用いることに基づき、あるショットの長さが短いと判定された場合、アクションを表しているショットとみなし、アクション性を1とする。ここで、ショットの長さによるアクション性を2値としているのは、ショットの長さが短ければ短いほど、アクション性が高くなることは映画の文法により示されていないためである。 Assuming that the length of the shot at the k-th shot s k is SL (s k ) [seconds], a value SLV A (s k ) representing the action property according to the length of the shot at s k is expressed by the equation (1). Define as follows. This is based on using a short shot to effectively convey the action to the viewer. If it is determined that the length of a certain shot is short, it is regarded as a shot representing the action, and the action property is 1 And Here, the reason why the action property according to the shot length is binary is that the fact that the shorter the shot length is, the higher the action property is, is not shown by the grammar of the movie.
ただし、Thshot[秒]はショットの長さが短いことを表す閾値で、SLmean[秒]はある映画全体のショットの長さの平均値である。SLmode[秒]は、ショットの長さの最頻値を表す。ただし最頻値は、0.5秒間隔でショットの累積頻度を求め、その度数が最大になる0.5秒間での中間値としている。 However, Th shot [seconds] is a threshold value indicating that the shot length is short, and SL mean [seconds] is an average value of shot lengths of a whole movie. SL mode [second] represents the mode of the shot length. However, the mode value is an intermediate value in 0.5 seconds in which the cumulative frequency of shots is obtained at intervals of 0.5 seconds and the frequency is maximum.
2.1.2 画像内の変化によるアクション性
図1に示す時空間投影画像(非特許文献7:阿久津明人, 外村佳伸, “投影法を用いた映像の解析手法と映像ハンドリングへの応用”, 電子情報通信学会論文誌, Vol. J79-D-II, No. 5, pp. 675-686, May 1996.参照)は、映像中のオブジェクトやカメラワークによって生じる動きを可視化した画像であるため、非特許文献7ではカメラワークを検出する際に用いられている。
2.1.2 Actionability due to changes in the image Spatiotemporal projection image shown in Fig. 1 (Non-patent document 7: Akito Akutsu, Yoshinobu Tonomura, “Image analysis method using projection method and its application to image handling” ”, See IEICE Transactions, Vol. J79-D-II, No. 5, pp. 675-686, May 1996.) is an image that visualizes movements caused by objects and camera work in the video. Therefore, in
本実施形態では、時空間投影画像中に、画像の動きの激しさに伴う特徴が現れることに着目し、その特徴を検出することによってアクション性を求める。なお、本実施形態では、水平方向の時空間投影画像を利用する。水平方向の時空間投影画像は、図1に示すように、フレームの並びを横方向(図1中f方向、以下「時間軸方向」という)にとり、映像における水平方向のピクセルの並びを縦方向(図1中x方向、以下「画像走査方向」という)にとったものである。 In the present embodiment, attention is paid to the appearance of a feature associated with the intensity of image movement in the spatiotemporal projection image, and the action property is obtained by detecting the feature. In the present embodiment, a spatiotemporal projection image in the horizontal direction is used. As shown in FIG. 1, in the horizontal spatiotemporal projection image, the arrangement of frames is taken in the horizontal direction (the f direction in FIG. 1, hereinafter referred to as “time axis direction”), and the arrangement of horizontal pixels in the video is taken in the vertical direction. (The x direction in FIG. 1, hereinafter referred to as “image scanning direction”).
映像の動きが激しい場合、図2(a)(b)に示すように時空間投影画像上では画像走査方向のエッジが現れる。 When the motion of the image is intense, as shown in FIGS. 2A and 2B, an edge in the image scanning direction appears on the spatiotemporal projection image.
ショットskでの時空間投影画像における画像走査方向のエッジの数をEv(sk)とすると、時空間投影画像によるアクション性を表す値VTIVA(sk)を数式(2)のように定義する。数式(2)では、映像内の激しさを単位時間に現れるエッジの数として表している。これは、アクション区間で映像内の動きが激しいほど、時空間投影画像中に現れる画像走査方向のエッジの数が多くなることに基づいている。 Assuming that the number of edges in the image scanning direction in the spatiotemporal projection image at the shot s k is E v (s k ), a value VTIV A (s k ) representing the action property by the spatiotemporal projection image is expressed as in Equation (2). Defined in In Formula (2), the intensity in the video is expressed as the number of edges that appear in unit time. This is based on the fact that the number of edges in the image scanning direction appearing in the spatio-temporal projection image increases as the movement in the video in the action section increases.
2.1.3 音楽によるアクション性
図3に示すようにサウンドスペクトログラム上に現れる時間軸(横軸)に沿った周波数ピークを示す楽器音成分を検出することにより、ある時間間隔における楽器音成分の数により音楽が流れていることを判定することができる(非特許文献8:川崎智広, 吉高淳夫, 平川正人, 市川忠男, “映画における音楽、効果音の抽出及び印象評価手法の提案”, 信学技報, MVE97-96, pp. 23-29, 1998.参照)。
2.1.3 Action by music As shown in Fig. 3, by detecting instrument sound components showing frequency peaks along the time axis (horizontal axis) appearing on the sound spectrogram, the instrument sound components in a certain time interval are detected. It is possible to determine that music is flowing according to the number (Non-patent Document 8: Tomohiro Kawasaki, Ikuo Yoshitaka, Masato Hirakawa, Tadao Ichikawa, “Proposal of Extracting Music and Sound Effects and Impression Evaluation Techniques in Movies”, (See IEICE Technical Report, MVE97-96, pp. 23-29, 1998.)
本実施形態では、音楽の特徴がその楽器音成分の継続時間に表れることに着目し、その時間によって音楽の性質を検出する。実験により、アクション区間で流れている音楽は、楽器音成分の継続時間が短い傾向にあることを確認している。また、音楽の中でベースに分類される楽器は楽曲のテンポを知る指標になるため、ベースが担う周波数帯の楽器音成分に着目する。映画では、オーケストラで演奏された楽曲が流れることが多いため、オーケストラでベースを担う楽器の周波数帯(30-300Hz)の楽器音成分の継続時間を指標とする。 In the present embodiment, attention is paid to the fact that the feature of music appears in the duration of the instrument sound component, and the nature of the music is detected based on that time. Through experiments, it has been confirmed that the music flowing in the action section tends to have a short duration of instrument sound components. In addition, since musical instruments classified as bass in music serve as indices for knowing the tempo of music, attention is paid to musical instrument sound components in the frequency band that the bass plays. In movies, music played in an orchestra often flows, so the duration of instrument sound components in the frequency band (30-300 Hz) of the instrument that plays the bass in the orchestra is used as an index.
ショットskでの楽器音成分の長さをIL(sk) [秒]とし、楽器音成分の継続時間が短いことを判定する閾値をThinstA[秒]とすると、音楽により表現されるアクション性を表す値MVA(sk)を数式(3)のように定義する。ただし、ThinstAは実験により求めた値で1.24[秒]とした。 An action expressed by music, assuming that the length of the instrument sound component at shot s k is IL (s k ) [seconds], and the threshold for determining that the duration of the instrument sound component is short is ThinstA [seconds]. A value MV A (s k ) representing sex is defined as in Equation (3). However, ThinstA is a value obtained by experiments and is 1.24 [seconds].
2.1.4 アクション性
以上で求めた各特徴によるアクション性を表す値に基づき、ショットskでのアクション性度合Action(sk)を数式(4)のように表す。以上で求めた3つの値に基づき、ショットskでのアクション性度合を求めるが、ある要素のみが必ずアクション区間に表れるのではなく、各要素が満たされる可能性があるため、各要素の平均を求めアクション性度合としている。
2.1.4 Action Property Based on the value representing the action property of each feature obtained as described above, the action property degree Action (s k ) in the shot s k is expressed as Equation (4). Based on the three values obtained above, the degree of action at shot s k is obtained. However, not only certain elements always appear in the action section, but each element may be satisfied, so the average of each element The degree of action is sought.
2.2 緊迫性
緊迫した区間ではショットの長さが徐々に短くなるという特徴がある。その特徴に基づいて緊迫した区間を抽出する。また、緊迫した区間内でショットの平均時間が短いほど、緊迫性が高く感じられるため、それを緊迫性度合として、Tension(sk)を数式(5)のように定義する。ただし、SLTensionは緊迫した区間内でのショットの長さの平均値、nは緊迫した区間内のショットの数、miはk番目のショットからの変位を表す。なお、緊迫性度合は、緊迫した区間、つまりショットの長さが徐々に短くなるという条件を満たす区間においてのみ定義する。
2.2 Tension The length of a shot is gradually shortened in a tight section. A tight section is extracted based on the feature. In addition, the shorter the average time of shots in a tight section, the higher the sense of tightness. Therefore, Tension (s k ) is defined as Equation (5), using this as the degree of tightness. However, SL Tension length of the average value of shots in a tense period, n represents the number shots in tense section, m i denotes the displacement from the k-th shot. Note that the degree of tightness is defined only in a tight section, that is, a section that satisfies the condition that the shot length gradually decreases.
2.3 落ち着き性
2.3.1 ショットの長さによる落ち着き性
落ち着いた区間では、長いショットが連続するという特徴があるため、それを以下の条件で抽出し、落ち着き性を表す値を求める。
2.3 Calmness 2.3.1 Calmness due to shot length Since there is a feature that long shots are continuous in a calm zone, it is extracted under the following conditions to obtain a value representing calmness.
ショットskでのショットの長さによる落ち着き性を表す値SLVC(sk)を数式(6)のように定義する。これは、落ち着いた雰囲気を視聴者に効果的に伝えるためには、長いショットを用いるということに基づき、あるショットの長さが長いと判定された場合、落ち着いた感じを表しているショットとみなし、落ち着き性を1とする。ここで、ショットの長さによる落ち着き性を2値としているのは、ショットの長さが長ければ長いほど、落ち着き性が高くなることは映画の文法により示されていないためである。 Shot s k values representative of the restless due the length of the shot with SLV C (s k) is defined as Equation (6). This is based on the fact that a long shot is used to effectively convey a calm atmosphere to the viewer. If it is determined that the length of a certain shot is long, it is regarded as a shot expressing a calm feeling. The calmness is 1. The reason why the calmness by the shot length is binary is that the longer the shot length, the higher the calmness is not indicated by the grammar of the movie.
2.3.2 画像内の動きによる落ち着き性
落ち着いた区間では、映像内でオブジェクトやカメラワークによる動きがあまり見られないため、時空間投影画像上には時間軸方向に沿ってエッジが存在する。そのエッジの平らさを検出することによって落ち着き性を定義する。この場合、平らさの尺度が落ち着き性を表す値とする。
2.3.2 Calmness due to movement in the image In a calm period, there is not much movement due to objects or camerawork in the video, so there are edges along the time axis direction on the spatiotemporal projection image . The calmness is defined by detecting the flatness of the edge. In this case, the flatness scale is a value representing calmness.
ショットskでの平らさの尺度を求めるには、時空間投影画像上でエッジとなる部分を追跡し、図4(a)に示す値を図4(b)に示す追跡順序に従って加算していく。 In order to obtain a measure of flatness in the shot s k , a portion that becomes an edge on a spatiotemporal projection image is tracked, and the values shown in FIG. 4A are added according to the tracking order shown in FIG. Go.
具体的には次のとおりである。まず、時空間投影画像に対して時間軸方向のエッジ強調を行い、エッジの有無に応じて二値化した画像(時間軸方向エッジ強調画像)を作成する。そして、この時間軸方向エッジ強調画像において、エッジに相当するピクセルを注目ピクセルとし、そのエッジを時間軸方向に追跡していく。エッジを追跡するためには、図4(b)の追跡順序に従って最初にピクセルが検出される位置をエッジの移動先とする。そして、注目ピクセルに対する移動先のピクセルの位置に応じて図4(a)のように設定されている数値(スコア)を取得し、上記移動先のピクセルを新たな注目ピクセルとして上記追跡を繰り返す。このようにして追跡とともに取得していくスコアを順次加算し、この加算結果を追跡したピクセル数で除算することにより求めた値を平らさの尺度とする。 Specifically, it is as follows. First, edge enhancement in the time axis direction is performed on the spatiotemporal projection image, and a binarized image (time axis direction edge enhanced image) is created according to the presence or absence of an edge. Then, in this time axis direction edge enhanced image, a pixel corresponding to the edge is set as a target pixel, and the edge is traced in the time axis direction. In order to track the edge, the position where the pixel is first detected in accordance with the tracking sequence shown in FIG. Then, a numerical value (score) set as shown in FIG. 4A is acquired according to the position of the destination pixel with respect to the target pixel, and the above tracking is repeated using the destination pixel as a new target pixel. The scores obtained together with the tracking in this way are sequentially added, and the value obtained by dividing the addition result by the number of tracked pixels is used as a measure of flatness.
スコアの加算結果をSum(sk)、追跡ピクセル数をN(sk)とすると、ショットskでの時空間投影画像による落ち着き性を表す値VTIVC(sk)を数式(7)のように定義する。VTIVC(sk)は、エッジが時間軸方向の直線となる場合、最大値1をとり、図4(b)の追跡順序において7、あるいは9の位置に繰り返しエッジとなる部分が存在する場合、最小値0をとる。
If the score addition result is Sum (s k ) and the number of pixels to be tracked is N (s k ), the value VTIV C (s k ) representing the calmness of the spatiotemporal projection image at the shot s k is expressed by Equation (7). Define as follows. VTIV C (s k ) takes the
2.3.3 音楽による落ち着き性
楽器音成分の継続時間により、落ち着き性を判定する。実験により、落ち着いた区間で流れている音楽は、楽器音成分の継続時間が長い傾向があることを確認している。
2.3.3 Calmness by music Calmness is determined by the duration of musical instrument sound components. Through experiments, it has been confirmed that music flowing in a calm section tends to have a long duration of instrument sound components.
ショットskで楽器音成分の継続時間が長いことを判定する閾値をThinstC[秒]とすると、音楽による落ち着き性を表す値MVC(sk)を数式(8)のように定義する。ただし、ThinstCは実験により求めた値で1.40[秒]とした。 Assuming that the threshold for determining that the duration of the instrument sound component is long in the shot s k is Th instC [seconds], a value MV C (s k ) representing the calmness of music is defined as in Equation (8). However, ThinstC is a value obtained by experiments and set to 1.40 [seconds].
2.3.4 落ち着き性
以上で求めた各特徴による落ち着き性を表す値に基づき、ショットskでの落ち着き性度合Calm(sk)を数式(9)のように定義する。以上で求めた3つの値に基づき、ショットskでの落ち着き性度合を求めるが、ある要素のみが必ず落ち着いた区間に表れるのではなく、各要素が満たされる可能性があるため、各要素の平均を求め落ち着き性度合としている。
2.3.4 Based on the value representing the restless due each feature determined by restlessness and higher, defined restless with the degree of shot s k Calm the (s k) as in Equation (9). Based on the three values obtained above, the degree of calmness in the shot s k is obtained , but only certain elements do not always appear in the calmed section, but each element may be satisfied. The average is obtained and the degree of calmness is assumed.
3.装置構成および処理手順
3.1 装置構成
図5のブロック図は、本実施形態における要約映像作成装置1の構成を示している。要約映像作成装置1は、制御部2、記憶部3、データ入力部4、操作部5、データ出力部6を備えて構成されている。
3. 3. Device Configuration and Processing Procedure 3.1 Device Configuration The block diagram of FIG. 5 shows the configuration of the summary
制御部2は、所定のプログラムの命令を実行するCPU(central processing unit)、プログラムを展開するRAM(random access memory)、プログラムやデータを格納したROM(read only memory)などを備えたコンピュータによって構成されている。そして、制御部2は、映像編集プログラムを実行することにより、カット検出部11、ショット分析部12、映像分析部13、音声分析部14、主体検出部15、指標生成部16、区間抽出部17、従属度検出部18、要約映像生成部19の各部として機能する。
The
上記映像編集プログラムは、そのプログラムを記録した記録媒体から上記コンピュータに供給することができる。この映像編集プログラムを記録した記録媒体は、上記コンピュータと分離可能に構成してもよく、上記コンピュータに組み込むようになっていてもよい。この記録媒体は、記録したプログラムコードをコンピュータが直接読み取ることができるようにコンピュータに装着されるものであっても、外部記憶装置としてコンピュータに接続されたプログラム読み取り装置を介して読み取ることができるように装着されるものであってもよい。 The video editing program can be supplied to the computer from a recording medium on which the program is recorded. The recording medium on which the video editing program is recorded may be configured to be separable from the computer, or may be incorporated in the computer. Even if this recording medium is mounted on a computer so that the recorded program code can be directly read by the computer, it can be read via a program reading device connected to the computer as an external storage device. It may be attached to.
上記記録媒体としては、例えば、磁気テープ、フレキシブルディスク、ハードディスク、CD−ROM、MO、MD、DVD、CD−R、ICカード、各種ROMなどを用いることができる。 As the recording medium, for example, magnetic tape, flexible disk, hard disk, CD-ROM, MO, MD, DVD, CD-R, IC card, various ROMs and the like can be used.
なお、制御部2を通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。つまり、上記映像編集プログラムは、上記プログラムコードが電子的な伝送で具現化された搬送波あるいはデータ信号列の形態をとって供給されることもある。
The
なお、本実施形態では、コンピュータと映像編集プログラムとによって制御部2の上記各部を実現することを想定しているが、ハードウェアによって制御部2の上記各部を構成してもよい。
In the present embodiment, it is assumed that the respective units of the
記憶部3は、ハードディスクによって構成され、外部から供給される映像データや、制御部2の実行する処理によって生成されたデータなどを記憶する。なお、記憶部3に記憶されるものとして図5に図示している各種データの一部は、記憶部3に記憶する代わりに、制御部2内部のRAM等に記憶するようにしてもよい。また、記憶部3は、ハードディスクに限らず、上記データを記憶することができる記憶装置であればよい。
The
データ入力部4は、外部から要約映像作成装置1に対して供給される映像データを要約映像作成装置1内部へ入力するためのものであり、データ出力部6は、要約映像作成装置1において作成した要約映像データを要約映像作成装置1の外部へ出力するためのものである。
The
操作部5は、要約映像作成装置1の操作者の操作入力を受け付け、その操作入力に応じた信号を制御部2に対して出力するものである。
The
要約映像作成装置1の各部の機能や動作の詳細については、フローチャートに基づいて以下に説明する。
Details of the functions and operations of each unit of the summary
3.2 全体の流れ
図6のフローチャートに基づいて、要約映像作成装置1における全体的な処理の流れについて説明する。
3.2 Overall Flow The overall processing flow in the summary
まず、データ入力部4を介して映像データが入力されると、記憶部3に映像データ51として記憶される(ステップS1)。そして、カット検出部11により、映像データ51に基づいて当該映像に含まれるカットを検出し、そのカット位置を記憶部3にカット位置52として記憶させる(ステップS2)。カット位置52は、例えば映像における先頭からの経過時間によって表すことができる。このカット位置52に基づいて、ショット分析部12により、各ショットの長さを検出する(ステップS3)。
First, when video data is input via the
そして、映像分析部13により、映像データ51に基づいて当該映像の時空間投影画像53(図2(a)参照)を作成して記憶部3に記憶させるとともに(ステップS4)、映像分析部13により、時空間投影画像53に基づいて映像の動きを検出する(ステップS6)。
Then, the
また、音声分析部14により、映像データ51に含まれる音声データに基づいて当該映像に付加されている音声のサウンドスペクトログラム54(図3参照)を作成して記憶部3に記憶させるとともに(ステップS4)、音声分析部14により、サウンドスペクトログラム54に基づいて映像に付加されている音楽の性質を検出する(ステップS7)。
Further, the
また、映像分析部13により、映像における主体の有無を検出する(ステップS8)。
Further, the
そして、指標生成部16により、ステップS3,S5,S7の検出結果に基づいて、アクション性度合、緊迫性度合、落ち着き性度合を生成するとともに、区間抽出部17により、アクション区間、緊迫した区間、落ち着いた区間を抽出する(ステップS9)。また、従属度検出部18により、各区間の従属関係を検出する(ステップS10)。そして、ステップS9において抽出した区間やステップS10において検出した各区間の従属関係に基づいて、要約映像生成部19によりショットを採用することにより要約映像を作成する(ステップS11)。
Then, the
以下では、上記各ステップSについてより詳細に説明する。なお、上記ステップS2のカットの検出処理、およびステップS6のサウンドスペクトログラムの作成処理は周知の処理を利用することができるので、ここでは詳細な説明を省略する。 Below, each said step S is demonstrated in detail. The cut detection process in step S2 and the sound spectrogram creation process in step S6 can use well-known processes, and thus detailed description thereof is omitted here.
3.3 ショット長さの検出
図7のフローチャートに基づいて、ショット分析部12によるショット長さの検出処理について説明する。
3.3 Shot Length Detection A shot length detection process by the
ショット分析部12は、カット位置52に基づくことにより、各ショットのショット長さSL(sk)を計算する(ステップS001)。
The
そして、ショット分析部12は、計算したショット長さSL(sk)が閾値Thshotよりも大きい場合には(S002)、落ち着き性が高いと判定してSVLC(sk)=1とし(ステップS003、数式(6)参照)、計算したショット長さSL(sk)が閾値Thshotよりも小さい場合には(S004)、アクション性が高いと判定してSVLA(sk)=1とする(ステップS005、数式(1)参照)。
When the calculated shot length SL (s k ) is larger than the threshold Th shot (S002), the
このように、ショット分析部12は、ショットの継続時間を示す特徴量(SL(sk))と、ショットの継続時間の長さ度合を示す特徴量(SVLC(sk),SVLA(sk))とを生成する。ショットの継続時間の長さ度合とは、映像全体に対する各部のショットの相対的な長さの度合である。なお、ショット分析部12の生成するSL(sk)、SVLC(sk)、SVLA(sk)は、図示はしていないが記憶部3に記憶され、後に指標生成部16や区間抽出部17による処理に用いられる。
As described above, the
3.4 時空間投影画像の作成
図8のフローチャートに基づいて、映像分析部13による時空間投影画像の作成処理について説明する。
3.4 Creation of Spatiotemporal Projection Image A process of creating a spatiotemporal projection image by the
映像分析部13は、まず、映像中の各フレーム(水平方向x=160ピクセル、垂直方向(y)=120ピクセル)において、y=30,60,90の各水平ラインに注目し、各水平ラインにおけるピクセルの輝度を同一のx座標のピクセルごとに平均することにより、各フレームの平均輝度ラインを作成する。そして、この平均輝度ラインをフレームの時間順に並べて、図2(a)に示すような時空間投影画像を作成する(ステップS101)。
First, the
そして、映像分析部13は、作成した時空間投影画像に基づいて、画像走査方向のエッジを強調した二値画像(画像走査方向エッジ強調画像)と、時間軸方向のエッジを強調した二値画像(時間軸方向エッジ強調画像)とを生成する(ステップS102,S103)。
The
3.5 動きの検出
図9のフローチャートに基づいて、映像分析部13による映像の動きの検出処理について説明する。
3.5 Motion Detection A video motion detection process performed by the
映像分析部13は、図8のステップS102において作成した画像走査方向エッジ強調画像を用いて、この画像走査方向エッジ強調画像における各ショットに対応する部分をそれぞれ参照し、その部分に存在する10ピクセル以上で構成されたエッジの本数を計算し、その結果を当該ショットのエッジの数Ev(sk)(数式(2)参照)とする(ステップS201)。そして、数式(2)に基づいて、画像の動きに基づくアクション性を表す値VTIVA(sk)を計算する(ステップS202)。
The
次に、映像分析部13は、図8のステップS103において作成した時間軸方向エッジ強調画像を用いて、この時間軸方向エッジ強調画像における各ショットに対応する部分それぞれにおいて、時間軸方向にエッジを追跡しつつ、図4(a)(b)に基づいてスコア加算を行い、その結果をSum(sk)(数式(7)参照)とする(ステップS203)。そして、数式(7)に基づいて、画像の動きに基づく落ち着き性を表す値VTIVC(sk)を計算する(ステップS204)。
Next, the
このように、映像分析部13は、映像の動きの激しさ度合を示す特徴量(VTIVA(sk),VTIVC(sk))を生成する。映像の動きの激しさ度合とは、映像全体に対する各部の動きの相対的な激しさの度合である。なお、映像分析部13の生成するVTIVA(sk)、VTIVC(sk)は、図示はしていないが記憶部3に記憶され、後に指標生成部16による処理に用いられる。
In this way, the
3.6 音楽の性質の検出
図10のフローチャートに基づいて、音声分析部14による音楽の性質の検出処理について説明する。
3.6 Music Property Detection Music property detection processing by the
音声分析部14は、サウンドスペクトログラム54に基づくことにより、各ショットにおける楽器音成分の継続時間IL(sk)の平均値を計算する(ステップS301)。平均値の計算は、当該ショットよりも前の5ショットと、後の4ショットとの合計10ショット分における楽器音成分の継続時間の合計をショット数10で除算することにより行う(数式(3)(8)参照)。
The
そして、音声分析部14は、計算した平均値が閾値ThinstCよりも大きい場合には(S302)、緩やかな音楽が流れていると判定してMVC(sk)=1とし(ステップS303、数式(8)参照)、計算した平均値が閾値ThinstAよりも小さい場合には(S304)、激しい音楽が流れていると判定してMVA(sk)=1とする(ステップS305、数式(3)参照)。
When the calculated average value is larger than the threshold value ThinstC (S302), the
このように、音声分析部14は、音楽の継続時間の長さ度合を示す特徴量(MVC(sk),MVA(sk))を生成する。楽器音成分の継続時間の長さ度合とは、サウンドスペクトログラム上でリズムを構成する楽器により線分として表れる成分の長さの度合、すなわち旋律を構成する音の長さの度合である。なお、音声分析部14の生成するMVC(sk)、MVA(sk)は、図示はしていないが記憶部3に記憶され、後に指標生成部16による処理に用いられる。
As described above, the
3.7 主体の検出
画像内に輝度の変化が周囲と異なっており強調されたオブジェクトが存在する場合、そのショットは内容を伝える上で強調されているため重要である。そのため、以下のようにして各ショットにおいて主体を検出する。
3.7 Detecting the subject When the brightness change is different from the surroundings in the image and there is an emphasized object, it is important because the shot is emphasized in conveying the contents. Therefore, the subject is detected in each shot as follows.
図11のフローチャートに基づいて、主体検出部15による主体の検出処理について説明する。
Based on the flowchart of FIG. 11, the subject detection process by the
主体検出部15は、映像データ51とカット位置52とに基づくことにより、各ショットの最初のフレーム(先頭フレーム)に対して次の処理を行う。まず、先頭フレームの画像をグレースケール16階調表現へと変換する(ステップS401)。これにより、複雑なオブジェクトが存在する部分は画像上でエッジ密度が高くなるので、このエッジを検出する(ステップS402)
また、主体検出部15は、160ピクセル×120ピクセルの先頭フレームを8ピクセル×6ピクセルのブロックに分割し(ステップS403)、ブロック内の主要色により各ブロックの色を統一し(ステップS404)、HSV表色系で領域分割を行う(ステップS405)。
The
Further, the main
そして、主体検出部15は、エッジ密度が高いブロックの分布により主体の存在する可能性のある矩形領域を特定し(ステップS406)、矩形領域内の最大領域のブロック数が予め定めた閾値(例えば15%)以上であれば(ステップS407)、主体が存在すると判定して当該ショットについての主体の有無59に主体「有り」を記録する(ステップS408)。
Then, the
3.8 強調された区間の抽出
図12のフローチャートに基づいて、強調された区間の抽出処理について説明する。
3.8 Extraction of Emphasized Section Based on the flowchart of FIG.
まず、指標生成部16により各ショットのアクション性度合および落ち着き性度合を計算する。具体的には、指標生成部16は、アクション性度合および落ち着き性度合を、それぞれ数式(4)および(9)に基づいて計算し、算出されたアクション性度合Action(sk)および落ち着き性度合Calm(sk)をそれぞれアクション性度合56および落ち着き性度合58として記憶部3に記憶させる(ステップS501)。なお、数式(4)および(9)の計算を行う際には、ショット分析部12により算出したSVLA(sk)およびSVLC(sk)、映像分析部13により算出したVTIVA(sk)およびVTIVC(sk)、音声分析部14により算出したMVA(sk)およびMVC(sk)を用いる。
First, the
また、各ショットについて算出されたアクション性度合および落ち着き性度合を平滑化して記憶部3に記憶させる(ステップS502)。平滑化は、注目しているショットと、そのショットの前後2ショットずつの合計5ショットにおけるアクション性度合および落ち着き性度合の平均をとることにより行う。このように平滑化することにより、アクション性度合および落ち着き性度合の大まかな変動に基づいて区間の抽出を行うことができるため、より望ましい結果が得られる。そこで、区間の抽出処理においては、アクション性度合および落ち着き性度合として平滑化された値を用いる。 In addition, the action degree and calmness degree calculated for each shot are smoothed and stored in the storage unit 3 (step S502). Smoothing is performed by taking the average of the action degree and calmness degree of the shot of interest and a total of five shots, two shots before and after the shot. By smoothing in this way, it is possible to extract sections based on rough fluctuations in the degree of action and the degree of calmness, so a more desirable result can be obtained. Therefore, in the section extraction process, smoothed values are used as the action degree and the calmness degree.
次に、区間抽出部17によりアクション区間、緊迫した区間、落ち着いた区間を抽出する。そのために、区間抽出部17は、各ショットに対して次の処理を行う。
Next, the
まず、注目しているショット(注目ショット)を含む前後のショットのショット長に基づき、ショットの長さが徐々に短くなる区間(数式(5)のif式を満たす区間)に注目ショットが含まれているか否かを判別する(ステップS503)。含まれている場合は、注目ショットを緊迫した区間61として記憶部3に記憶させる(ステップS504)。なお、上記判別の際、1ショットのみが直前ショットよりも長くなり、他のショットが徐々に短くなっている区間についても、ショットの長さが徐々に短くなる区間とみなすようにしてもよい。
First, based on the shot lengths of the preceding and following shots including the shot of interest (focus shot), the shot of interest is included in a section in which the shot length gradually decreases (section that satisfies the if expression of Formula (5)). It is determined whether or not (step S503). If it is included, the shot of interest is stored in the
ショットの長さが徐々に短くなる区間に注目ショットが含まれていない場合は、注目ショットのアクション性度合56が予め定めた閾値以上であり、かつ、注目ショットのアクション性度合56が落ち着き性度合58よりも大きい、という条件を満たすか否かを判別し(ステップS505)、上記条件を満たす場合には、注目ショット以降、アクション性度合56が落ち着き性度合58よりも大きい、という条件を連続して満たすショット群をアクション区間60として記憶部3に記憶させる(ステップS506〜S509)。
When the shot of interest is not included in the section in which the length of the shot is gradually shortened, the
また、ステップS505の条件が満たされない場合には、注目ショットの落ち着き性度合58が予め定めた閾値以上であり、かつ、注目ショットの落ち着き性度合58がアクション性度合56よりも大きい、という条件を満たすか否かを判別し(ステップS510)、上記条件を満たす場合には、注目ショット以降、落ち着き性度合58がアクション性度合56よりも大きい、という条件を連続して満たすショット群を落ち着いた区間62として記憶部3に記憶させる(ステップS511〜S514)。
If the condition of step S505 is not satisfied, the condition that the degree of calmness 58 of the target shot is equal to or greater than a predetermined threshold and the degree of calmness 58 of the target shot is larger than the
3.9 区間の従属関係の検出
性質の異なる区間が連続している場合、それらは原因と結果との従属関係となる。よって、それらの関係を検出することにより、話の文脈を考慮することが可能となる。
3.9 Detecting Dependencies of Sections If sections of different nature are consecutive, they become a dependency relationship between cause and effect. Therefore, it is possible to consider the context of the story by detecting their relationship.
原因と結果とを表す映像区間には従属関係があるが、性質は異なっているため、それらの区間を同時に要約映像に採用することにより、印象を強めることができる。前後の区間の性質の差に着目し、アクション性度合、緊迫性度合、あるいは落ち着き性度合の平均値の差を求め、従属関係の度合(従属度)とする。従属度を求めることにより、編集上強調された区間と従属関係にある前後の区間のどちらから、要約映像に採用するかを決定する際の手がかりとする。これによって、より編集上強調された区間と従属関係が強い区間を要約映像として採用することが可能となる。 The video sections representing the cause and the result have a subordinate relationship, but since the properties are different, the impression can be strengthened by simultaneously adopting these sections in the summary video. Paying attention to the difference in the properties of the preceding and following sections, the difference in the average value of the degree of action, the degree of tension, or the degree of calmness is obtained and used as the degree of dependency (dependency). By obtaining the degree of dependency, it is a clue when determining which section to be adopted for the summary video from the section emphasized in editing and the preceding and following sections that are in a dependency relationship. As a result, it is possible to adopt a section having a strong dependency relationship with the section emphasized for editing as a summary video.
図13のフローチャートに基づいて、区間の従属関係の検出処理について説明する。 Based on the flowchart of FIG. 13, the processing for detecting the dependency relationship between the sections will be described.
まず、指標生成部16により、緊迫した区間における各ショットの緊迫性度合を計算する。具体的には、指標生成部16は、緊迫性度合を数式(5)に基づいて計算し、算出された緊迫性度合Tension(sk)を緊迫性度合57として記憶部3に記憶させる(ステップS601)。なお、数式(5)の計算を行う際には、ショット分析部12により算出したSL(sk)を用いる。
First, the
次に、従属度検出部18により従属度を検出する。そのために、従属度検出部18は、各区間に対して次の処理を行う。
Next, the dependency level is detected by the dependency
まず、注目している区間(注目区間)がアクション区間であるか否かを判別する(ステップS602)。 First, it is determined whether or not the section of interest (target section) is an action section (step S602).
アクション区間である場合には、さらに注目区間の後に緊迫した区間が続くか否かを判別し(ステップS603)、緊迫した区間が続く場合には、これら2つの区間に含まれるショットのアクション性度合56の平均値の差を計算して、この計算結果を、注目区間と次に続く区間との従属度63として記憶部3に記憶させる(ステップS604)。
If it is an action section, it is further determined whether or not a tense section continues after the section of interest (step S603). If the tense section continues, the action property level of shots included in these two sections is determined. The difference between the average values of 56 is calculated, and the calculation result is stored in the
注目区間がアクション区間ではない場合には、さらに注目区間の後に落ち着いた区間が続くか否かを判別し(ステップS605)、落ち着いた区間が続く場合には、これら2つの区間に含まれるショットのアクション性度合56の平均値の差を計算して、この計算結果を、注目区間と次に続く区間との従属度63として記憶部3に記憶させる(ステップS606)。
If the attention section is not an action section, it is further determined whether or not a calm section continues after the attention section (step S605). If the calm section continues, the shots included in these two sections are determined. The difference of the average value of the
注目区間が緊迫した区間や落ち着いた区間である場合にも、上記アクション区間の場合と同様にして、それぞれ注目区間と次に続く区間との従属度63を計算して記憶部3に記憶させる(ステップS607〜S611,S612〜S616)。
Even when the attention section is a tight section or a calm section, the degree of
3.10 要約映像の生成
図14のフローチャートに基づいて、要約映像の生成処理について説明する。
3.10 Generation of Summary Video A summary video generation process will be described based on the flowchart of FIG.
まず、利用者が操作部5を操作することにより、利用者の指定した要約映像の制約時間が入力される(ステップS701)。制約時間は、例えば5, 10, 15, 20, 25, 30分のいずれかを指定することにより決定される。
First, when the user operates the
次に、要約映像生成部19により、映像データが時間軸に沿ってn(例えばn=20)等分される(ステップS702)。そして、このn等分された各期間について、要約映像生成部19により次の処理が行われる。
Next, the summary
まず、要約映像生成部19は、注目している期間(注目期間)に含まれるアクション区間、緊迫した区間、落ち着いた区間それぞれが占めるショット数を計算し(ステップS703)、このショット数の割合に応じて、注目期間から要約映像に採用するアクション区間、緊迫した区間、落ち着いた区間の時間長(制約時間)を計算する(ステップS704)。
First, the summary
そして、要約映像生成部19は、注目期間に含まれるアクション区間において、アクション区間の制約時間が満たされるまで、次のようにしてショットの採用を行う。すなわち、未採用のショットの中で、主体が存在し、かつ、アクション性度合の最も高いショットを採用し(ステップS705)、採用したショットを含むアクション区間に隣接する区間の中から従属度の高い区間を選択し(ステップS706)、選択した区間における未採用のショットの中で、上記採用したショットを含むアクション区間と時間的に最も近いショットを採用する(ステップS707)、という処理を、アクション区間の制約時間が満たされるまで繰り返す。
Then, the summary
また、要約映像生成部19は、注目期間に含まれる緊迫した期間および落ち着いた期間についても、上記アクション期間の場合と同様にしてショットの選択を行う(ステップS708〜S710,S711〜S713)。
In addition, the summary
要約映像生成部19は、以上のようにして採用したショットを、要約映像データ64として記憶部3に記憶させる。なお、要約映像データ64は、採用したショットに対応する部分を映像データ51から抜き出してつなぎ合わせることにより作成したデータであってもよいが、採用したショットに対応する部分を映像データ51において特定できる情報を示すデータであってもよい。
The summary
なお、ここでは、要約映像を生成するために、音声分析部14による処理結果、および主体検出部15による検出結果に基づくものとして説明しており、これらはより的確な要約映像を生成する上で有用であるものの、これらを省略したとしても的確な要約映像を生成することは可能である。
Here, in order to generate the summary video, the description is based on the processing result by the
4.要約映像作成装置のまとめ
以上のように、要約映像作成装置(映像編集装置)1では、ショット分析部(ショット認識手段)12により、映像データ51に基づき、映像の各部についてショットの継続時間の長さに応じた特徴を認識する。また、映像分析部(映像認識手段)13により、映像データ51に基づき、映像の各部について映像の動きの激しさに応じた特徴を認識する。
4). Summary of Summary Video Creation Device As described above, in the summary video creation device (video editing device) 1, the shot analysis unit (shot recognition means) 12 uses the shot data for each part of the video based on the
そして、区間抽出部(強調区間特定手段)17により、ショット分析部12および映像分析部13による認識結果(これらに基づいて指標生成部16により生成されるアクション性度合56、緊迫性度合57、落ち着き性度合58も含む)に基づき、映像データのうち強調区間(アクション区間、緊迫した区間、落ち着いた区間)に該当する区間を特定する。また、従属度検出部(従属度検出手段)18により、ショット分析部12および映像分析部13による認識結果に基づき、各強調区間の間の従属度合を検出する。
Then, the section extraction unit (emphasis section specifying means) 17 recognizes the recognition results by the
そして、要約映像生成部(要約作成手段)19により、ショット分析部12および映像分析部13による認識結果と、従属度検出部18による検出結果とに基づき、強調区間から要約映像に採用すべき部分を決定する。
Then, the summary video generation unit (summary creation means) 19 uses the recognition result from the
これにより、要約映像作成装置1では、映画の文法に即した要約映像、つまり編集上強調された強調区間と、これら強調区間の間の従属関係を反映することにより、全体の内容を視聴者が的確に把握しやすい要約映像を作成することができる。
As a result, the summary
また、要約映像作成装置1では、音声分析部(音声認識手段)14により、映像データ51に付加された音声データに基づき、映像の各部について音声に含まれる楽器音成分の継続時間の長さに応じた特徴を認識し、区間抽出部17、従属度検出部18、要約映像生成部19における各処理に用いることが望ましい。
Also, in the summary
映像には音声が付加されている場合が多く、この場合、アクション区間、落ち着いた区間の特徴的性質は、上記音声に含まれる楽器音成分の継続時間の長さとしても現れる。したがって、ショットの継続時間の長さに応じた特徴と、映像の動きの激しさに応じた特徴とに加えて、楽器音成分の継続時間の長さに応じた特徴を認識し、これらに基づいて強調区間の特定、従属度合の検出、要約映像として採用すべき映像部分の決定を行うことにより、より的確な要約映像を作成することができる。 In many cases, audio is added to the video, and in this case, the characteristic properties of the action section and the calm section appear as the duration of the instrument sound component included in the audio. Therefore, in addition to the characteristics according to the length of the duration of the shot and the characteristics according to the intensity of the motion of the video, the characteristics according to the length of the duration of the instrument sound component are recognized and based on these. By specifying the emphasis section, detecting the degree of dependency, and determining the video portion to be adopted as the summary video, a more accurate summary video can be created.
また、要約映像作成装置1では、主体検出部(主体検出手段)15により、映像データ51に基づき、映像の各部について主体の存在を検出し、要約映像生成部19における処理に用いることが望ましい。
In the summary
主体の存在する部分は、映像の内容を視聴者に伝える上で重要な部分となり、その部分を優先的に採用した要約映像は、それを考慮しないものに比べて、映像の内容を理解しやすくなる。したがって、主体の存在を検出し、その検出結果に基づいて強調区間から要約映像に採用すべき部分を決定することにより、より的確な要約映像を作成することができる。 The part where the subject is present becomes an important part in conveying the content of the video to the viewer, and the summary video that preferentially adopts that part is easier to understand than the one that does not consider it Become. Therefore, a more accurate summary video can be created by detecting the presence of the subject and determining a portion to be adopted for the summary video from the emphasis section based on the detection result.
5.実験と評価
大学生6名の被験者に、要約映像作成装置1により作成した要約映像(実施例)と、内容、文脈ともに考慮せずに作成した要約映像(比較例)とを見比べてもらい、どちらの方が、映画の内容、話の流れが理解しやすい要約映像となっているかを評価した。
5. Experiments and
比較例として、以下のようなカットの頻度による要約映像を作成した。映画の先頭から5秒毎のフレームに対して、そこから10秒間に含まれるカットの数を求める。この10秒間に含まれるカット数が最も多いフレームから順にキーフレームとする。ここでキーフレームとは、要約映像を作成する際に着目するフレームのことである。キーフレームが含まれるショットを先頭ショットとして、先頭ショットから合計時間が10秒を越えるまでのショットを連結し、要約映像として採用する。要約映像の時間長が目的の時間に達するまでその処理を繰り返し、選択した区間を時間順に並べることで要約映像とした。この比較例の要約映像は、ショットの長さが短く、映像として印象の強い区間のみをつなぎ合わせた映像となる。 As a comparative example, a summary video with the following cut frequency was created. For a frame every 5 seconds from the beginning of the movie, find the number of cuts in 10 seconds from there. The key frames are set in order from the frame having the largest number of cuts included in the 10 seconds. Here, the key frame is a frame to be focused on when creating a summary video. Shots that include key frames are taken as the first shot, and shots from the first shot until the total time exceeds 10 seconds are connected and adopted as a summary video. The process was repeated until the time length of the summary video reached the target time, and the selected sections were arranged in time order to obtain a summary video. The summary video of this comparative example is a video in which only shots with short shot lengths and strong impressions are connected.
2本の映画(「スピード2」ヤン・デ・ボン監督, 1997年, アクション、「A.I.」スティーブン・スピルバーグ監督, 2001年, SF/ドラマ)について、実施例として作成した5分および10分の要約映像と、比較例として作成した5分および10分の要約映像とを被験者に観てもらい、話の内容の理解しやすさ、話の流れの理解しやすさの2つの観点について5段階評価をしてもらった。5段階の内訳は、5が実施例の方がよい、4がどちらかといえば実施例の方がよい、3がどちらともいえない、2がどちらかといえば比較例の方がよい、1が比較例の方がよいである。
Summary of 5 and 10 minutes of two movies ("
なお、使用した映像データの形式は、フレームサイズ160×120[pixel]、フレームレート30[frames/sec.]、24ビットカラー、オーディオ形式はサンプリング周波数22.050[kHz]、量子化8ビット、モノラルである。
The format of the video data used is frame size 160 x 120 [pixel], frame rate 30 [frames / sec.], 24-bit color, audio format is sampling frequency 22.050 [kHz],
事象間の因果関係や話の展開が把握可能な要約になっているか否かを評価するために、本実験で用いた映画を観たことがない被験者に対しては、あらかじめ映画のあらすじを読んでもらうことによって、ある程度話の内容を理解してもらった上で実験を行った。 For subjects who have not seen the movie used in this experiment in order to evaluate whether the causal relationship between events and the story development are comprehensible summaries, read the movie synopsis in advance. The experiment was carried out with some understanding of the content of the story.
評価結果を図15に示す。図15では、6名の平均評価値をプロットしている。全体的に実施例の方が、話の内容、流れともに、理解のしやすい要約映像となっている。実施例では、編集上強調された区間としてアクション区間、緊迫した区間、落ち着いた区間を抽出し、それに従属する区間も求めて要約映像を作成しているため、比較例よりも話の内容、流れともに理解のしやすい要約映像が作成できたと考えられる。 The evaluation results are shown in FIG. In FIG. 15, the average evaluation values of six people are plotted. Overall, the embodiment is a summary video that is easy to understand, both in terms of content and flow. In the embodiment, an action section, a tight section, and a calm section are extracted as sections that are emphasized for editing, and a summary video is created by obtaining sections subordinate thereto. It is thought that a summary video that is easy to understand was created.
本実施形態では、映画の内容と文脈を考慮することにより、話の内容がより理解しやすい要約映像を作成する手法を提案した。映画の文法に基づき、アクション区間、緊迫した区間、落ち着いた区間を抽出することによって、内容が効果的に伝わるように編集上強調された区間を要約映像に含めることが可能となる。さらに、それらの区間との従属関係を求めることにより、前後の話のつながりもあまり失うことなく、要約映像を作成することが可能となる。 In the present embodiment, a method of creating a summary video that makes it easier to understand the content of the story by considering the content and context of the movie has been proposed. By extracting an action section, a tight section, and a calm section based on the grammar of the movie, it is possible to include a section that has been editorially emphasized so that the contents can be effectively transmitted to the summary video. Furthermore, by obtaining a dependency relationship with these sections, it is possible to create a summary video without losing the connection between the previous and next stories.
なお、映画の要約映像を作成する上では、効果音も重要な要素と考えられるため、効果音も考慮して要約映像を作成することが望ましい。 In creating a summary video of a movie, sound effects are considered to be an important factor, so it is desirable to create a summary video in consideration of sound effects.
本発明は、映画やテレビドラマなどストーリーを有する映像から要約映像を自動的に作成するために利用することができ、例えば、視聴者に提供される映像視聴用の装置に適用できるほか、映像の制作者に提供される宣伝用映像を作成するための装置にも適用できる。 The present invention can be used to automatically create a summary video from a video having a story, such as a movie or a TV drama, and can be applied to, for example, a video viewing device provided to a viewer. The present invention can also be applied to an apparatus for creating an advertisement video provided to a producer.
1 要約映像作成装置(映像編集装置)
2 制御部
3 記憶部
4 データ入力部
5 操作部
6 データ出力部
11 カット検出部
12 ショット分析部(ショット認識手段)
13 映像分析部(映像認識手段)
14 音声分析部(音声認識手段)
15 主体検出部(主体検出手段)
16 指標生成部
17 区間抽出部(強調区間特定手段)
18 従属度検出部(従属度検出手段)
19 要約映像生成部(要約作成手段)
1. Summary video creation device (video editing device)
2
13 Video analysis unit (video recognition means)
14 Voice analysis unit (voice recognition means)
15 Subject detection unit (Subject detection means)
16
18 Dependency detector (Dependency detector)
19 Summary video generator (summary creation means)
Claims (8)
映像データに基づき、映像の各部についてショットの継続時間の長さに応じた特徴を認識するショット認識手段と、
映像データに基づき、映像の各部について映像の動きの激しさに応じた特徴を認識する映像認識手段と、
前記ショット認識手段および映像認識手段による認識結果に基づき、映像データのうち強調区間に該当する区間を特定する強調区間特定手段と、
前記ショット認識手段および映像認識手段による認識結果に基づき、各強調区間の間の従属度合を検出する従属度検出手段と、
前記ショット認識手段および映像認識手段による認識結果と、前記従属度検出手段による検出結果とに基づき、強調区間から要約映像に採用すべき部分を決定する要約作成手段とを備えることを特徴とする映像編集装置。 In a video editing device for creating a summary video from a video including an emphasis section that can be identified based on the length of each shot constituting the video and the intensity of movement in the video,
Shot recognition means for recognizing features according to the length of the duration of the shot for each part of the video based on the video data;
Video recognition means for recognizing features according to the intensity of motion of the video for each part of the video based on the video data;
Based on the recognition result by the shot recognizing unit and the video recognizing unit, the emphasis section specifying unit for specifying the section corresponding to the emphasis section in the video data;
Dependency degree detection means for detecting the degree of dependence between the emphasis sections based on the recognition results by the shot recognition means and the image recognition means;
Video comprising: summary creating means for determining a portion to be adopted for the summary video from the emphasis section based on the recognition result by the shot recognition means and the video recognition means and the detection result by the dependency level detection means. Editing device.
前記映像認識手段は、認識結果として、映像の動きの激しさ度合を示す特徴量を生成することを特徴とする請求項1に記載の映像編集装置。 The shot recognizing means generates, as a recognition result, a feature amount indicating the duration of the shot and a feature amount indicating the degree of the duration of the shot,
The video editing apparatus according to claim 1, wherein the video recognizing unit generates a feature amount indicating a degree of motion intensity of the video as a recognition result.
前記強調区間特定手段は、さらに前記音声認識手段による認識結果に基づき、映像データのうち強調区間に該当する区間を特定し、
前記従属度検出手段は、さらに前記音声認識手段による認識結果に基づき、各強調区間の間の従属度合を検出し、
前記要約作成手段は、さらに前記音声認識手段による認識結果に基づき、強調区間から要約映像に採用すべき部分を決定することを特徴とする請求項1または2に記載の映像編集装置。 Voice recognition means for recognizing a feature corresponding to the duration of the instrument sound component included in the voice for each part of the video based on the voice data added to the video data;
The enhancement section specifying means further specifies a section corresponding to the enhancement section in the video data based on the recognition result by the voice recognition means,
The dependency level detecting means further detects a dependency level between the emphasis sections based on a recognition result by the voice recognition means,
The video editing apparatus according to claim 1, wherein the summary creation unit further determines a portion to be adopted for the summary video from the emphasis section based on a recognition result by the voice recognition unit.
前記要約作成手段は、さらに前記主体検出手段による検出結果に基づき、強調区間から要約映像に採用すべき部分を決定することを特徴とする請求項1または2に記載の映像編集装置。 Based on video data, further comprising subject detection means for detecting the presence of a video subject for each part of the video,
The video editing apparatus according to claim 1, wherein the summary creation unit further determines a portion to be adopted for the summary video from the emphasis section based on a detection result by the subject detection unit.
映像データに基づき、映像の各部についてショットの継続時間の長さに応じた特徴を認識するショット認識処理と、
映像データに基づき、映像の各部について映像の動きの激しさに応じた特徴を認識する映像認識処理と、
前記ショット認識処理および映像認識処理による認識結果に基づき、映像データのうち強調区間に該当する区間を特定する強調区間特定処理と、
前記ショット認識処理および映像認識処理による認識結果に基づき、各強調区間の間の従属度合を検出する従属度検出処理と、
前記ショット認識処理および映像認識処理による認識結果と、前記従属度検出処理による検出結果とに基づき、強調区間から要約映像に採用すべき部分を決定する要約作成処理とを含むことを特徴とする映像編集方法。 In a video editing method for creating a summary video from a video including an emphasis section that can be identified based on the length of each shot constituting the video and the intensity of movement in the video,
Shot recognition processing for recognizing features according to the length of the shot duration for each part of the video based on the video data;
Based on the video data, video recognition processing for recognizing features according to the intensity of motion of the video for each part of the video,
Based on the recognition result by the shot recognition process and the video recognition process, an emphasis section specifying process for specifying a section corresponding to the emphasis section in the video data;
Based on the recognition result by the shot recognition process and the video recognition process, a dependency level detection process for detecting a dependency level between the emphasis sections;
A summary creation process for determining a portion to be adopted in the summary video from the emphasis section based on the recognition result by the shot recognition process and the video recognition process and the detection result by the dependency detection process. Editing method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004190280A JP4032122B2 (en) | 2004-06-28 | 2004-06-28 | Video editing apparatus, video editing program, recording medium, and video editing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004190280A JP4032122B2 (en) | 2004-06-28 | 2004-06-28 | Video editing apparatus, video editing program, recording medium, and video editing method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006014084A true JP2006014084A (en) | 2006-01-12 |
JP4032122B2 JP4032122B2 (en) | 2008-01-16 |
Family
ID=35780744
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004190280A Active JP4032122B2 (en) | 2004-06-28 | 2004-06-28 | Video editing apparatus, video editing program, recording medium, and video editing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4032122B2 (en) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009116582A1 (en) * | 2008-03-19 | 2009-09-24 | 国立大学法人 北海道大学 | Dynamic image search device and dynamic image search program |
JP2011066546A (en) * | 2009-09-15 | 2011-03-31 | Tokyo Kogei Univ | Frame division image generating apparatus and program |
JP2011215766A (en) * | 2010-03-31 | 2011-10-27 | Mitsubishi Electric Corp | Authoring apparatus |
US8392183B2 (en) | 2006-04-25 | 2013-03-05 | Frank Elmo Weber | Character-based automated media summarization |
WO2018155352A1 (en) * | 2017-02-21 | 2018-08-30 | パナソニックIpマネジメント株式会社 | Electronic device control method, electronic device, electronic device control system, and program |
WO2018155351A1 (en) * | 2017-02-21 | 2018-08-30 | パナソニックIpマネジメント株式会社 | Reproduction method, reproduction system, and reproduction apparatus |
JP2019003585A (en) * | 2017-06-20 | 2019-01-10 | 日本放送協会 | Summary video creation device and program of the same |
US10984248B2 (en) | 2014-12-15 | 2021-04-20 | Sony Corporation | Setting of input images based on input music |
-
2004
- 2004-06-28 JP JP2004190280A patent/JP4032122B2/en active Active
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8392183B2 (en) | 2006-04-25 | 2013-03-05 | Frank Elmo Weber | Character-based automated media summarization |
WO2009116582A1 (en) * | 2008-03-19 | 2009-09-24 | 国立大学法人 北海道大学 | Dynamic image search device and dynamic image search program |
JP5339303B2 (en) * | 2008-03-19 | 2013-11-13 | 国立大学法人北海道大学 | Video search device and video search program |
JP2011066546A (en) * | 2009-09-15 | 2011-03-31 | Tokyo Kogei Univ | Frame division image generating apparatus and program |
JP2011215766A (en) * | 2010-03-31 | 2011-10-27 | Mitsubishi Electric Corp | Authoring apparatus |
US10984248B2 (en) | 2014-12-15 | 2021-04-20 | Sony Corporation | Setting of input images based on input music |
WO2018155352A1 (en) * | 2017-02-21 | 2018-08-30 | パナソニックIpマネジメント株式会社 | Electronic device control method, electronic device, electronic device control system, and program |
WO2018155351A1 (en) * | 2017-02-21 | 2018-08-30 | パナソニックIpマネジメント株式会社 | Reproduction method, reproduction system, and reproduction apparatus |
JP2019003585A (en) * | 2017-06-20 | 2019-01-10 | 日本放送協会 | Summary video creation device and program of the same |
Also Published As
Publication number | Publication date |
---|---|
JP4032122B2 (en) | 2008-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8818803B2 (en) | Character-based automated text summarization | |
US8392183B2 (en) | Character-based automated media summarization | |
US7796860B2 (en) | Method and system for playing back videos at speeds adapted to content | |
Sundaram et al. | Determining computable scenes in films and their structures using audio-visual memory models | |
EP1081960B1 (en) | Signal processing method and video/voice processing device | |
JP4778231B2 (en) | System and method for indexing video sequences | |
JP4935355B2 (en) | Information signal processing method, information signal processing apparatus, and computer program recording medium | |
US20090025039A1 (en) | Method and apparatus for video digest generation | |
JP4882746B2 (en) | Information signal processing method, information signal processing apparatus, and computer program recording medium | |
US20110150428A1 (en) | Image/video data editing apparatus and method for editing image/video data | |
JP4491700B2 (en) | Audio search processing method, audio information search device, audio information storage method, audio information storage device and audio video search processing method, audio video information search device, audio video information storage method, audio video information storage device | |
JP2008022103A (en) | Apparatus and method for extracting highlight of moving picture of television program | |
US20050182503A1 (en) | System and method for the automatic and semi-automatic media editing | |
JP4032122B2 (en) | Video editing apparatus, video editing program, recording medium, and video editing method | |
JP5096259B2 (en) | Summary content generation apparatus and summary content generation program | |
JP2011124681A (en) | Video editing device, video editing method, and video editing program | |
JP2019003585A (en) | Summary video creation device and program of the same | |
JP2002281457A (en) | Replaying video information | |
JP2000285242A (en) | Signal processing method and video sound processing device | |
JP2008084021A (en) | Animation scenario generation method, program and device | |
JP4835439B2 (en) | Information signal processing method, information signal processing apparatus, and computer program recording medium | |
Srinivasan et al. | A survey of MPEG-1 audio, video and semantic analysis techniques | |
JP2008153920A (en) | Motion picture list displaying apparatus | |
JP2006054622A (en) | Information signal processing method, information signal processor and program recording medium | |
JP4341503B2 (en) | Information signal processing method, information signal processing apparatus, and program recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070327 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070522 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070731 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070821 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070925 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |