JP2019003585A - Summary video creation device and program of the same - Google Patents
Summary video creation device and program of the same Download PDFInfo
- Publication number
- JP2019003585A JP2019003585A JP2017120355A JP2017120355A JP2019003585A JP 2019003585 A JP2019003585 A JP 2019003585A JP 2017120355 A JP2017120355 A JP 2017120355A JP 2017120355 A JP2017120355 A JP 2017120355A JP 2019003585 A JP2019003585 A JP 2019003585A
- Authority
- JP
- Japan
- Prior art keywords
- shot
- video
- shots
- consistency
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011156 evaluation Methods 0.000 claims abstract description 24
- 238000004458 analytical method Methods 0.000 claims abstract description 22
- 238000003860 storage Methods 0.000 claims abstract description 21
- 230000006870 function Effects 0.000 claims description 4
- 238000005520 cutting process Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 abstract description 25
- 230000008878 coupling Effects 0.000 abstract description 2
- 238000010168 coupling process Methods 0.000 abstract description 2
- 238000005859 coupling reaction Methods 0.000 abstract description 2
- 238000000034 method Methods 0.000 description 14
- 238000001514 detection method Methods 0.000 description 12
- 238000000605 extraction Methods 0.000 description 10
- 238000007796 conventional method Methods 0.000 description 9
- 238000009826 distribution Methods 0.000 description 7
- 238000004519 manufacturing process Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007429 general method Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 210000000707 wrist Anatomy 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000002040 relaxant effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
Description
本発明は、映像から要約映像を生成する要約映像生成装置およびそのプログラムに関する。 The present invention relates to a summary video generation apparatus that generates a summary video from a video and a program thereof.
近年、放送番組等の映像から内容を要約した要約映像を生成する映像要約の技術が進化し、自動的に要約映像を生成する手法が開示されている(特許文献1参照)。
特許文献1に開示されている手法(以下、従来手法という)は、与えられた映像(元映像)を分割し、分割映像(ショット)の特徴量を求める。さらに、従来手法は、ショットの特徴量が元映像内において特徴的であることを判別するためのスコアを算出する。
そして、従来手法は、算出したスコアの高い順に所望の要約映像の時間長となるまでショットを選択し、選択したショットを元映像の時間の順番に結合することで、要約映像を生成する。
In recent years, video summarization technology for generating summary video summarizing content from video such as broadcast programs has evolved, and a method for automatically generating summary video has been disclosed (see Patent Document 1).
The method disclosed in Patent Document 1 (hereinafter referred to as a conventional method) divides a given video (original video) and obtains a feature amount of the divided video (shot). Further, the conventional method calculates a score for determining that the feature amount of the shot is characteristic in the original video.
In the conventional method, shots are selected in descending order of the calculated score until the desired summary video time length is reached, and the selected shots are combined in the order of time of the original video to generate a summary video.
この従来手法は、動きベクトル等の映像の特徴から生成した特徴量をクラスタリングしたスコア、または、当該スコアと元映像の音声を認識して得られる文字データ中の単語に関する特徴量から算出したスコアとを合算して得られるスコアに基づいて、要約映像を構成する各分割映像を決定する。
これによって、従来手法は、元映像から人手を介さずに自動的に要約映像を生成することを可能にしている。
This conventional method uses a score obtained by clustering feature amounts generated from video features such as motion vectors, or a score calculated from the score and feature amounts related to words in character data obtained by recognizing the voice of the original video. Based on the score obtained by adding together, each divided video constituting the summary video is determined.
Thus, the conventional method can automatically generate a summary video from the original video without human intervention.
前記した従来手法は、スコアの高いショットをそれぞれ独立に抽出して結合することで、要約映像を生成している。すなわち、従来手法は、各ショットの元映像における文脈、ショット間の前後関係、あるいは、元映像のコンテンツ全体における意味的な役割をまったく考慮していない。
そのため、従来手法によって生成された要約映像は、映像開始時点での導入部の映像の欠落に起因する唐突さ、ある特定の事象を説明する一連のショットが分断されることによる不自然さ等を、当該要約映像を視聴する視聴者に感じさせてしまう場合がある。
このように、従来手法によって生成された要約映像を新たな一つのコンテンツとして利用する場合、必ずしも内容的に整合していないショットが機械的に結合されることによる要約映像には、質的な問題が生じる可能性が高い。
The conventional method described above generates a summary video by independently extracting and combining shots with high scores. That is, the conventional method does not consider the context in the original video of each shot, the context between shots, or the semantic role in the entire content of the original video.
Therefore, the summary video generated by the conventional method has abruptness caused by the lack of video in the introduction part at the start of the video, unnaturalness due to the division of a series of shots explaining a specific event, etc. In some cases, the viewer may feel the summary video.
As described above, when the summary video generated by the conventional method is used as a new content, the summary video obtained by mechanically combining shots that do not necessarily match contents is a qualitative problem. Is likely to occur.
本発明は、このような問題に鑑みてなされたものであり、元映像における各ショット間の意味的な不連続性を緩和して要約映像を生成することが可能な要約映像生成装置およびそのプログラムを提供することを課題とする。 SUMMARY OF THE INVENTION The present invention has been made in view of such a problem, and a summary video generation apparatus and a program thereof that can generate a summary video by relaxing semantic discontinuity between shots in an original video It is an issue to provide.
前記課題を解決するため、本発明に係る要約映像生成装置は、元映像から当該元映像よりも映像時間が短い時間長となる要約映像を生成する要約映像生成装置であって、映像解析手段と、重要度算出手段と、整合性スコア記憶手段と、整合性評価手段と、ショット選択・結合手段と、を備える。 In order to solve the above problems, a summary video generation device according to the present invention is a summary video generation device that generates a summary video having a video duration shorter than the original video from the original video, the video analysis means, , Importance calculation means, consistency score storage means, consistency evaluation means, and shot selection / combination means.
かかる構成において、要約映像生成装置は、映像解析手段によって、動きベクトル、色分布等により、元映像の変化点となるショットを検出するとともに、特徴量が類似するショットの系列をシーンとして分類する。これによって、映像解析手段は、元映像を、ショットとショットが属するシーンとに分類する。
そして、要約映像生成装置は、重要度算出手段によって、ショットの特徴量に基づいて、当該ショットが元映像内において特徴的であることを示す指標である重要度スコアを算出する。例えば、重要度算出手段は、元映像内において、他のショットに対して色分布が異なる等、特徴的であるショットに対してより高いスコアを与える。
In such a configuration, the summary video generation apparatus detects shots that are changing points of the original video based on motion vectors, color distributions, and the like, and classifies a series of shots having similar feature quantities as scenes. Thereby, the video analysis means classifies the original video into a shot and a scene to which the shot belongs.
Then, the summary video generation device calculates an importance score, which is an index indicating that the shot is characteristic in the original video, based on the feature amount of the shot by the importance calculation means. For example, the importance calculation means gives a higher score to a characteristic shot such as a color distribution different from other shots in the original video.
また、要約映像生成装置は、整合性スコア記憶手段に、シーンの時間方向の距離に対応したショット間の整合性の度合いを示す整合性スコアを予め記憶しておく。この整合性スコアは、予め学習データから、要約映像において隣接するショットが元映像においてどれだけ離れたシーンで出現するのかを示す出現確率を、ショットが属するシーンの距離(シーン差分)ごとに学習したものである。ここで、学習データは、ショットとシーンが既知の元映像と、元映像から選択したショットが既知の要約映像である。
そして、要約映像生成装置は、整合性評価手段によって、整合性スコア記憶手段から、映像解析手段が検出したショットごとのシーンの距離に対応する整合性スコアを取得し、ショットの組合せに対して整合性スコアを対応付ける。
The summary video generation apparatus stores in advance a consistency score indicating a degree of consistency between shots corresponding to the distance in the time direction of the scene in the consistency score storage unit. This consistency score was previously learned from learning data, for each distance (scene difference) of the scene to which the shot belongs, the appearance probability indicating how far the adjacent shot in the summary video appears in the scene in the original video. Is. Here, the learning data is an original video whose shot and scene are known, and a summary video whose shot selected from the original video is known.
Then, the summary video generation device acquires a consistency score corresponding to the scene distance for each shot detected by the video analysis unit from the consistency score storage unit by the consistency evaluation unit, and matches the shot combination. Associate a sex score.
そして、要約映像生成装置は、ショット選択・結合手段によって、元映像から、重要度スコアにより重要度の高いショットを予め設定された数だけ選択するとともに、重要度の高いショットに対して、整合性スコアにより整合性の度合いが大きいショットを、予め設定された要約映像の時間長となるまで選択して結合する。
これによって、ショット選択・結合手段は、重要度の高いショットだけでは、そのショット間の変化が大きい場合でも、重要度の高いショットに整合性の度合いが大きいショットを付加することで、意味的な不連続性を緩和することができる。
Then, the summary video generation device selects a preset number of high importance shots based on the importance score from the original video by the shot selection / combination means, and matches the high importance shots with consistency. Shots having a high degree of consistency according to the score are selected and combined until the time length of the summary video set in advance is reached.
As a result, the shot selection / combination means makes sense by adding a shot with a high degree of consistency to a shot with a high importance even if the shot with a high importance only has a large change between shots. Discontinuity can be mitigated.
なお、要約映像生成装置は、コンピュータを、要約映像生成装置の各手段として機能させるための要約映像生成プログラムで動作させることができる。 The summary video generation apparatus can be operated by a summary video generation program for causing a computer to function as each unit of the summary video generation apparatus.
本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、元映像で特徴的な重要度の高いショットのみを抽出するのではなく、重要度の高いショットに対して、さらに、整合性の度合いが大きいショットを付加して要約映像を生成することができる。
これによって、本発明は、元映像における各ショット間の意味的な不連続性を緩和することができ、映像の意味的な流れがより自然な要約映像を生成することができる。
The present invention has the following excellent effects.
According to the present invention, instead of extracting only shots with high importance that are characteristic in the original video, a summary video is added by adding shots with a high degree of consistency to shots with high importance. Can be generated.
Accordingly, the present invention can alleviate the semantic discontinuity between shots in the original video, and can generate a summary video in which the semantic flow of the video is more natural.
以下、本発明の実施形態について図面を参照して説明する。
≪第1実施形態≫
〔要約映像生成装置の構成〕
まず、図1を参照して、本発明の第1実施形態に係る要約映像生成装置1の構成について説明する。
Embodiments of the present invention will be described below with reference to the drawings.
<< First Embodiment >>
[Configuration of summary video generator]
First, the configuration of the summary
要約映像生成装置1は、MEPG2ストリーム等の元映像(映像コンテンツ)から、当該元映像よりも映像時間が短い時間長となる要約映像(映像コンテンツ)を生成するものである。
図1に示すように、要約映像生成装置1は、映像解析手段10と、パラメータ設定手段20と、重要度算出手段30と、整合性スコア記憶手段40と、整合性評価手段50と、ショット選択・結合手段60と、を備える。
The summary
As shown in FIG. 1, the summary
映像解析手段10は、元映像の変化点となるショットを検出するとともに、特徴量が類似するショットの系列をシーンとして分類するものである。映像解析手段10は、特徴量抽出手段11と、ショット検出手段12と、シーン分類手段13と、を備える。
The video analysis means 10 detects a shot that becomes a change point of the original video and classifies a series of shots having similar feature quantities as a scene. The
特徴量抽出手段11は、元映像から時間単位(例えば、フレーム単位)で特徴量を抽出するものである。この特徴量抽出手段11は、例えば、画像特徴として、前フレームとの予め定めた大きさのブロック領域ごとの動きベクトル、色情報(色分布等)、SIFT(Scale-Invariant Feature Transform)特徴量等を算出する。また、特徴量抽出手段11は、フレーム内を人物認証した結果の有無または人物識別子等を算出することとしてもよい。
The feature
なお、特徴量抽出手段11が抽出する特徴量は、画像特徴に限定するものではなく、時間単位の特徴を示すものであれば何でもよい。例えば、元映像に音声が付随しているのであれば、その音響特徴(例えば、音声認識で一般的に用いられている対数メルフィルタバンク出力、メル周波数ケプストラム係数等)を抽出し、前記の特徴量と併用してもよい。
Note that the feature amount extracted by the feature
ショット検出手段12は、元映像が変化する映像区間をショット(分割映像)として検出するものである。ここでは、ショット検出手段12は、特徴量抽出手段11で抽出された動きベクトルによって、時間方向の変化点を映像区間の区切りとして検出する。
ショット検出手段12は、元映像の先頭から、検出したショットの順に、インデックスと、ショットの開始点および終了点を示す時間情報(例えば、時、分、秒、フレーム番号)と、特徴量と、を対応付けてシーン分類手段13に出力する。
The shot detection means 12 detects a video section where the original video changes as a shot (divided video). Here, the
The
なお、ショット検出手段12におけるショットの検出手法は、一般的な手法を用いればよく、例えば、以下の参考文献1に記載されているように、局所的画像特徴と大域的画像特徴とを併用して、ショットを検出することとしてもよい。
(参考文献1)Evlampios Apostolidis, Vasileios. Mezaris, "Fast Shot Segmentation Combining Global and Local Visual Descriptors", Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2014年.
Note that a general method may be used as a shot detection method in the
(Reference 1) Evlampios Apostolidis, Vasileios. Mezaris, "Fast Shot Segmentation Combining Global and Local Visual Descriptors", Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2014.
シーン分類手段13は、ショット検出手段12で検出されたショットを、特徴量が類似する連続するショットの部分系列ごとにシーンとして分類するものである。このシーン分類手段13は、ショットごとに、特徴量の代表値(平均値、中央値等)を算出し、代表値が予め定めた範囲内で近似する隣接するショットをシーンとして分類する。
シーン分類手段13は、ショット検出手段12から入力したショット順のインデックス、時間情報および特徴量に、さらに、シーンのインデックスを対応付けた分割映像リストを生成する。
The
The
なお、ここでは、特徴量として、1種類の特徴量(例えば、画像特徴のみ、音響特徴のみ)で、シーンを分割する例を示したが、画像特徴と音響特徴とを併用して、シーンを分割することとしてもよい。なお、画像特徴と音響特徴とを併用したシーンの分割手法は、以下の参考文献2に記載されているように公知の技術であるため、説明を省略する。
(参考文献2)Panagoiotis Sidiropoulos, Vasileios. Mezaris, Hugo Meinedo, Miguel Bugalho, Isbel Trancoso, "Temporal Video Segmentation to Scenes Using High-Level Audiovisual Features", IEEE Transactions on Circuits and Systems for Video Technology, vol. 21, no. 8, pp. 1163-1177, 2011年.
Note that, here, an example is shown in which a scene is divided by one type of feature quantity (for example, only an image feature, only an acoustic feature) as a feature quantity. It is good also as dividing. Note that a scene dividing method using both image features and acoustic features is a known technique as described in
(Reference 2) Panagoiotis Sidiropoulos, Vasileios. Mezaris, Hugo Meinedo, Miguel Bugalho, Isbel Trancoso, "Temporal Video Segmentation to Scenes Using High-Level Audiovisual Features", IEEE Transactions on Circuits and Systems for Video Technology, vol. 21, no 8, pp. 1163-1177, 2011.
ここで、図2を参照して、映像解析手段10が生成する分割映像リストの例について説明する。図2に示すように、分割映像リストL1は、ショットごとに、ショットインデックスNshot、シーンインデックスNscene、ショット開始点Tstart、ショット終了点Tend、および、特徴量Fで構成される。
Here, an example of a divided video list generated by the
ショットインデックスNshotは、ショット検出手段12で検出されたショットに対して、元映像の先頭から順番に付されたインデックスである。
シーンインデックスNsceneは、シーン分類手段13で分類されたシーンに対して、元映像の先頭から順番に付されたインデックスである。
The shot index N shot is an index assigned to the shots detected by the
The scene index N scene is an index assigned to the scene classified by the
ショット開始点Tstartおよびショット終了点Tendは、ショット検出手段12で検出されたショットの開始点(時、分、秒、フレーム番号)および終了点(時、分、秒、フレーム番号)を示す時間情報である。
The shot start point T start and the shot end point T end indicate the start point (hour, minute, second, frame number) and end point (hour, minute, second, frame number) detected by the
特徴量Fは、特徴量抽出手段11で抽出された特徴量のうちで、ショット開始点Tstartおよびショット終了点Tendの映像区間におけるフレームごとの特徴量である。
なお、図2では、1ショット分のデータを、改行“\”を介して2行で示している。
例えば、分割映像リストL1の#00002をショットインデックスとするショットは、*0001のシーンに属し、開始点“00:00:04.18”、終了点“00:00:06.09”であり、特徴量が“0.2416”等であることを示している。
The feature amount F is a feature amount for each frame in the video section of the shot start point T start and the shot end point T end among the feature amounts extracted by the feature
In FIG. 2, data for one shot is shown in two lines via a line feed “\”.
For example, a shot having # 00002 in the divided video list L1 as a shot index belongs to the scene of * 0001, has a start point “00: 00: 04.18” and an end point “00: 00: 06.09”. This indicates that the feature amount is “0.2416” or the like.
図1に戻って、要約映像生成装置1の構成について説明を続ける。
映像解析手段10は、生成した分割映像リストを、パラメータ設定手段20、重要度算出手段30、整合性評価手段50およびショット選択・結合手段60に出力する。
Returning to FIG. 1, the description of the configuration of the summary
The
パラメータ設定手段20は、外部の入力装置2を介して入力される各種のパラメータを設定するものである。このパラメータ設定手段20は、表示装置3に、パラメータ設定画面を表示してパラメータの設定を受け付ける。
パラメータ設定手段20は、元映像から、分割映像リストで示されるショットのサムネイル画像を生成し、表示装置3に表示する。また、ユーザからの指示により、パラメータ設定手段20は、元映像を再生することとしてもよい。
ユーザは、サムネイル画像や再生画像を参照して、各種パラメータを設定する。なお、パラメータ設定手段20は、予めパラメータの初期値を記憶しておき、表示装置3に表示することとしてもよい。
The parameter setting means 20 sets various parameters input via the
The parameter setting means 20 generates a thumbnail image of the shot indicated by the divided video list from the original video and displays it on the
The user sets various parameters with reference to the thumbnail image and the reproduced image. The parameter setting means 20 may store the initial parameter values in advance and display them on the
また、パラメータ設定手段20は、初期値またはユーザが設定したパラメータで、要約映像を生成した際に、後記するショット選択・結合手段60で生成される候補ショットの元映像におけるサムネイル画像を生成し、表示装置3に表示することとしてもよい。これによって、ユーザは要約映像の内容を大まかに確認することができる。
Further, the parameter setting means 20 generates a thumbnail image in the original video of the candidate shot generated by the shot selection / combination means 60 described later when the summary video is generated with the initial value or the parameter set by the user, It is good also as displaying on the
ここで、パラメータ設定手段20が設定するパラメータは、要約映像の長さ、候補ショット数である。
「要約映像の長さ」は、要約映像生成装置1が生成する要約映像の長さであって、例えば、“05:00(5分)”のような時間長とする。
Here, the parameters set by the parameter setting means 20 are the length of the summary video and the number of candidate shots.
The “summary video length” is the length of the summary video generated by the summary
「候補ショット数」は、要約映像として選択するショット数の初期値である。この候補ショット数は、後記するショット選択・結合手段60において、重要度スコアによって選択されるショット数を示す。なお、この候補ショット数は、ユーザがサムネイル画像を参照して概ねの値を設定することとしてもよいし、要約映像の長さに応じて予め固定の数を用いることとしてもよい。 “Number of candidate shots” is an initial value of the number of shots to be selected as the summary video. The number of candidate shots indicates the number of shots selected by the importance score in the shot selecting / combining means 60 described later. Note that the number of candidate shots may be set by the user with reference to the thumbnail image, or may be set in advance according to the length of the summary video.
図1に戻って、要約映像生成装置1の構成について説明を続ける。
パラメータ設定手段20は、設定したパラメータを、ショット選択・結合手段60に出力する。
Returning to FIG. 1, the description of the configuration of the summary
The
重要度算出手段30は、ショットの特徴量に基づいて、当該ショットが元映像内において特徴的であることを示す指標である重要度スコアを算出するものである。
ここでは、重要度算出手段30は、映像解析手段10で生成された分割映像リストから、ショットの元映像内における重要度の度合いを示すスコア(重要度スコア)を算出する。この重要度算出手段30における重要度スコアの算出は、特開2012−10265等に記載されているような一般的な手法を用いればよい。
具体的には、重要度算出手段30は、ショット内から任意に抽出したキーフレームのブロック領域を視覚単語(visual word)とし、すべてのショットの視覚単語から、TF−IDF(term frequency-inverse document frequency)法によって求めたTF−IDF値を重要度スコアとする。
The importance level calculation means 30 calculates an importance level score, which is an index indicating that the shot is characteristic in the original video, based on the feature amount of the shot.
Here, the importance calculation means 30 calculates a score (importance score) indicating the degree of importance of the shot in the original video from the divided video list generated by the video analysis means 10. For the calculation of the importance score in the importance calculation means 30, a general method as described in JP2012-10265A may be used.
Specifically, the importance calculation means 30 uses a block region of a key frame arbitrarily extracted from a shot as a visual word, and uses a TF-IDF (term frequency-inverse document) from the visual words of all shots. frequency) is used as the importance score.
この重要度算出手段30は、算出した重要度スコアをショットに対応付けて重要度スコアリスを生成する。具体的には、重要度算出手段30は、映像解析手段10が生成する分割映像リストのショットごとの特徴量を、重要度スコアに置き換えて重要度スコアリストを生成する。
The importance level calculation means 30 generates an importance level score list by associating the calculated importance level score with a shot. Specifically, the
ここで、図3を参照して、重要度算出手段30が生成する重要度スコアリストの例について説明する。図3に示すように、重要度スコアリストL2は、ショットごとに、ショットインデックスNshot、シーンインデックスNscene、ショット開始点Tstart、ショット終了点Tend、および、重要度スコアPで構成される。
なお、ショットインデックスNshot、シーンインデックスNscene、ショット開始点Tstartおよびショット終了点Tendは、図2で説明した分割映像リストL1と同じものである。よって、シーンインデックスNscene、ショット開始点Tstartおよびショット終了点Tendについては、分割映像リストL1を参照することとして、重要度スコアリストL2から省略しても構わない。
Here, an example of the importance score list generated by the importance calculation means 30 will be described with reference to FIG. As shown in FIG. 3, the importance score list L <b > 2 includes a shot index N shot , a scene index N scene , a shot start point T start , a shot end point T end , and an importance score P for each shot. .
Note that the shot index N shot , the scene index N scene , the shot start point T start, and the shot end point T end are the same as those in the divided video list L1 described in FIG. Therefore, the scene index N scene , the shot start point T start and the shot end point T end may be omitted from the importance score list L2 by referring to the divided video list L1.
図1に戻って、要約映像生成装置1の構成について説明を続ける。
重要度算出手段30は、生成した重要度スコアリストをショット選択・結合手段60に出力する。
Returning to FIG. 1, the description of the configuration of the summary
The importance calculation means 30 outputs the generated importance score list to the shot selection / combination means 60.
整合性スコア記憶手段40は、シーンの時間方向の距離に応じて予め整合性の度合いを示す整合性スコアを記憶するものである。この整合性スコア記憶手段40は、半導体メモリ等の一般的な記憶装置で構成することができる。
通常、映像のシーンはシーン間の距離が離れるほど、意味内容の連続性の度合いが小さく(弱く)なる。そこで、ここでは、元映像におけるショット間の整合性の指標として、それぞれのショットが属するシーンの差に応じて予め整合性スコアを記憶しておく。
具体的には、整合性スコアは、ショット同士が共起する確率であって、要約映像の隣接するショットが元映像においてどれだけ離れたシーンで出現するのかを示す出現確率を、ショットが属するシーンの距離(シーン差分)ごとに学習したものである。なお、この出現確率の算出については、第2実施形態で説明する。
The consistency score storage means 40 stores a consistency score indicating the degree of consistency in advance according to the distance in the time direction of the scene. The consistency score storage means 40 can be configured by a general storage device such as a semiconductor memory.
Normally, the degree of continuity of meaning content becomes smaller (weaker) as the distance between scenes increases. Therefore, here, as an index of consistency between shots in the original video, a consistency score is stored in advance according to the difference of the scene to which each shot belongs.
Specifically, the consistency score is a probability that shots co-occur, and an appearance probability indicating how far adjacent shots of the summary video appear in the original video is represented by the scene to which the shot belongs. For each distance (scene difference). The calculation of the appearance probability will be described in the second embodiment.
図4に整合性スコアであるシーン差分の出現確率の例を示す。図4の例は、1つのショットを基準に、時間方向で順方向に離れているシーンの距離を正、逆方向に離れているシーンの距離を負とし、シーン差分の出現確率を示している。
例えば、要約映像の隣接ショットに対応する元映像におけるシーン差分が“2”である出現確率は“0.2175”である。なお、シーン差分が“0”とは、隣接ショットが元映像において同一シーンに含まれていることを意味する。この出現確率が高いほど、あるショットに対して要約映像として同時に選択される度合いが大きい(強い)ことになる。
なお、この整合性スコアは、簡易的に、シーンの距離が近いほど大きく、遠いほど小さくした値で予め設定してもよい。
FIG. 4 shows an example of the appearance probability of a scene difference that is a consistency score. The example of FIG. 4 shows the appearance probability of a scene difference, with the distance of a scene separated in the forward direction in the time direction as positive and the distance of the scene separated in the reverse direction as negative, based on one shot. .
For example, the appearance probability that the scene difference in the original video corresponding to the adjacent shot of the summary video is “2” is “0.2175”. A scene difference of “0” means that adjacent shots are included in the same scene in the original video. The higher the appearance probability is, the higher (stronger) the degree of simultaneous selection as a summary video for a certain shot.
Note that this consistency score may be simply set in advance as a value that increases as the distance of the scene decreases and decreases as the distance of the scene increases.
整合性評価手段50は、分割映像リストと、整合性スコア記憶手段40に記憶されている整合性スコアとに基づいて、ショットの組合せに対して、当該組合せが要約映像の隣接ショットである整合性を評価するものである。ここで、評価するとは、ショットの組合せに対して、整合性の度合いを示す整合性スコアを対応付けることである。
Based on the divided video list and the consistency score stored in the consistency
具体的には、整合性評価手段50は、映像解析手段10で生成された分割映像リストに含まれるショットの組合せごとに、ショットが属するシーンの差分を求める。そして、整合性評価手段50は、ショットの組合せごとに、整合性スコア記憶手段40に記憶されているシーン差分に対応する整合性スコア(出現確率)を対応付けて整合性スコアリストを生成する。この整合性スコアリストは、ショットの組合せが要約映像の隣接ショットである整合性の度合いを評価した結果となる。
Specifically, the
ここで、図5を参照して、整合性評価手段50が生成する整合性スコアリストの例について説明する。図5に示すように、整合性スコアリストL3は、ショットの組合せごとに、対応するショットインデックスNshot1,Nshot2と、整合性スコアCとで構成される。
ショットインデックスNshot1,Nshot2は、元映像のショットの組合せを、図2で説明した分割映像リストL1に記載されているショットインデックスNshotの対として記載したものである。
整合性スコアCは、ショットインデックスNshot1,Nshot2のそれぞれのショットが属するシーンの距離(シーン差分)に対応する整合性スコア記憶手段40に記憶されている整合性スコア(出現確率)である。
Here, an example of the consistency score list generated by the
Shot index N Shot1, N Shot2 is one in which the combination of the shots of the original image, described as pairs of shot index N shot that is described in the segmented image list L1 described in Fig.
The consistency score C is a consistency score (appearance probability) stored in the consistency
例えば、整合性スコアリストL3の3行目は、ショットインデックスが#00001,#00004である2つのショットの整合性スコアが“0.3561”であることを示している。#00001,#00004の各ショットインデックスは、図2に示した分割映像リストL1において、それぞれ、*0001,*0002の各シーンに属しているため、シーン差分は“1”である。このシーン差分“1”に対する整合性スコアは、図4に示した整合性スコア記憶手段40の内容により“0.3561”となる。 For example, the third line of the consistency score list L3 indicates that the consistency score of two shots whose shot indexes are # 00001 and # 00004 is “0.3561”. Since each shot index of # 00001 and # 00004 belongs to each scene of * 0001 and * 0002 in the divided video list L1 shown in FIG. 2, the scene difference is “1”. The consistency score for the scene difference “1” is “0.3561” depending on the contents of the consistency score storage means 40 shown in FIG.
図1に戻って、要約映像生成装置1の構成について説明を続ける。
整合性評価手段50は、生成した整合性スコアリストをショット選択・結合手段60に出力する。
Returning to FIG. 1, the description of the configuration of the summary
The
ショット選択・結合手段60は、重要度算出手段30で算出された重要度スコアの高いショットに対して、整合性評価手段50で整合性スコアが高いショットを補間して要約映像を生成するものである。ショット選択・結合手段60は、候補ショット選択手段61と、補間ショット探索手段62と、候補ショット更新手段63と、候補ショット結合手段64と、を備える。
The shot selection /
候補ショット選択手段61は、重要度スコアの高いショットから順に、予め設定された数のショットを、要約映像の候補ショットとして選択するものである。
候補ショット選択手段61は、重要度算出手段30で生成された重要度スコアリストのショットごとの重要度スコアに基づいて、分割映像リストから、パラメータ設定手段20で設定されたパラメータである候補ショット数だけショット(候補ショット)を選択する。
Candidate shot selection means 61 selects a preset number of shots as candidate shots of the summary video in order from the shot with the highest importance score.
Candidate shot selection means 61 determines the number of candidate shots that are parameters set by parameter setting means 20 from the divided video list based on the importance score for each shot in the importance score list generated by importance calculation means 30. Only select shots (candidate shots).
なお、重要度スコアに基づく候補ショットの選択は、特に限定するものではない。例えば、候補ショット選択手段61は、重要度スコアリストL2(図3参照)のショットごとの重要度スコアを正規化した数値(合計が“1”となるようにスケーリングした数値)を、当該ショットが選択される確率値とする確率分布を求め、その確率分布に従ったサンプルを非復元抽出により抽出して候補ショットとする。
また、例えば、候補ショット選択手段61は、単純に、重要度スコアリストL2(図3参照)のショットごとの重要度スコアが高いショットから順に候補ショットを選択することとしてもよい。
The selection of candidate shots based on the importance score is not particularly limited. For example, the candidate shot selection means 61 uses a numerical value obtained by normalizing the importance score for each shot in the importance score list L2 (see FIG. 3) (a numerical value scaled so that the sum is “1”). A probability distribution as a probability value to be selected is obtained, and a sample according to the probability distribution is extracted by non-restoration extraction to be a candidate shot.
Further, for example, the candidate shot
候補ショット選択手段61は、選択した候補ショットを重要度スコアの高い順にリスト化する。例えば、候補ショット選択手段61は、図2に示した分割映像リストL1から、選択した候補ショットに対応する部分(ショットインデックスNshot、シーンインデックスNscene、ショット開始点Tstart、ショット終了点Tend、重要度スコアP)を抽出して、図6に示す候補ショットリストL4を生成する。
候補ショット選択手段61は、生成した候補ショットリストを補間ショット探索手段62および候補ショット更新手段63に出力する。
Candidate shot selection means 61 lists the selected candidate shots in descending order of importance score. For example, the candidate shot selection means 61 may select a part (shot index N shot , scene index N scene , shot start point T start , shot end point T end) corresponding to the selected candidate shot from the divided video list L1 shown in FIG. , The importance score P) is extracted to generate the candidate shot list L4 shown in FIG.
The candidate shot selection means 61 outputs the generated candidate shot list to the interpolation shot search means 62 and the candidate shot update means 63.
補間ショット探索手段62は、候補ショット選択手段61で選択された候補ショットに対して整合性スコアの高いショットを、当該候補ショットを補間するショット(補間ショット)として探索するものである。
補間ショット探索手段62は、整合性評価手段50で生成された整合性スコアリストを参照し、候補ショットリストの重要度スコアの高い順に、各候補ショットに対して整合性スコアが最も高いショットを補間ショットとして選択しリスト化する。例えば、補間ショット探索手段62は、図7に示すように、候補ショットと当該候補ショットに対して整合性スコアが高い補間ショットのショットインデックスNshotおよび時間情報(ショット開始点Tstart、ショット終了点Tend)を配列して補間ショットリストL5を生成する。
The interpolation shot
The interpolated shot search means 62 refers to the consistency score list generated by the consistency evaluation means 50 and interpolates the shot with the highest consistency score for each candidate shot in descending order of importance score of the candidate shot list. Select as a shot and list. For example, as illustrated in FIG. 7, the interpolation shot
ここで、補間ショット探索手段62は、候補ショットおよび補間ショットの総時間長が、パラメータ設定手段20で設定された要約映像の長さを超える場合、補間ショットの探索を終了する。なお、補間ショット探索手段62は、探索した補間ショットと同じショットが候補ショットリストに含まれている場合、ショットの重複を避けるため、補間ショットリストへの登録を行わないこととする。
また、補間ショット探索手段62は、ある候補ショットに対応する補間ショットを探索する際に、当該候補ショットに対して元映像の時間上で前後する他の候補ショットの時刻情報で示される時間を超えて補間ショットを探索しないこととする。
補間ショット探索手段62は、生成した補間ショットリストを候補ショット更新手段63に出力する。
Here, when the total time length of the candidate shot and the interpolation shot exceeds the length of the summary video set by the
Further, when searching for an interpolated shot corresponding to a certain candidate shot, the interpolated shot searching means 62 exceeds the time indicated by the time information of other candidate shots preceding and following the original video on the time of the original video. Therefore, the interpolation shot is not searched.
The interpolation shot search means 62 outputs the generated interpolation shot list to the candidate shot update means 63.
なお、補間ショット探索手段62は、候補ショット更新手段63によって更新された候補ショットに対して、さらに補間ショットを探索する旨の指示があった場合、新たな候補ショットに対して整合性スコアの高いショットを補間ショットとして探索して補間ショットリストを生成し、候補ショット更新手段63に出力する。 The interpolation shot search means 62 has a higher consistency score for a new candidate shot when there is an instruction to search for an interpolation shot for the candidate shot updated by the candidate shot update means 63. The shot is searched as an interpolation shot, an interpolation shot list is generated, and is output to the candidate shot update means 63.
候補ショット更新手段63は、候補ショット選択手段61で選択された候補ショットに対して、補間ショット探索手段62で探索された補間ショットを追加して、候補ショットを更新するものである。
候補ショット更新手段63は、候補ショット選択手段61で生成された候補ショットリストに対して、補間ショット探索手段62で探索された補間ショットを、重要度スコアの大きさの順になるように追加する。
The candidate shot
The candidate shot
例えば、候補ショット更新手段63は、図8に示すように、図6に示した候補ショット選択手段61で生成された候補ショットリストL4に、図7に示した補間ショット探索手段62で生成された補間ショットリストに記載されている補間ショットに対応する情報(ショットインデックス、時間情報、重要度スコア)を追加する。この場合、例えば、図7に示す#00004の候補ショットに対応する#00005の補間ショットは、重要度スコアが、#00006の重要度スコアよりも小さいため、図8に示す候補ショットリストでは、#00006の候補ショットよりも後ろに配置されることになる。 For example, as shown in FIG. 8, the candidate shot update means 63 is generated by the interpolation shot search means 62 shown in FIG. 7 in the candidate shot list L4 generated by the candidate shot selection means 61 shown in FIG. Information (shot index, time information, importance score) corresponding to the interpolation shot described in the interpolation shot list is added. In this case, for example, the interpolation score of # 00005 corresponding to the candidate shot of # 00004 shown in FIG. 7 has an importance score smaller than the importance score of # 00006. It is arranged behind 00006 candidate shots.
なお、候補ショット更新手段63は、候補ショットリストに登録されているショットの総時間長が、パラメータで指定された要約映像の長さに満たない場合、更新後の候補ショットリストを、補間ショット探索手段62に出力し、さらなる補間ショットの探索を指示する。このように、候補ショット更新手段63は、ショットの総時間長が要約映像の長さとなるまで、候補ショットリストを更新する。
候補ショット更新手段63は、ショットの総時間長が要約映像の長さに達した候補ショットリストを、候補ショット結合手段64に出力する。
If the total time length of the shots registered in the candidate shot list is less than the length of the summary video specified by the parameter, the candidate shot
The candidate shot
候補ショット結合手段64は、候補ショット更新手段63で更新された候補ショットに対応する時間区間の映像(ショット映像)を、元映像の時間の順番に元映像から切り出し、結合するものである。
なお、元映像から、所定の時間区間の映像を切り出す処理、および、切り出したショット映像を結合する処理は、元映像の映像フォーマットに応じた既知の手法で行うことができる。例えば、候補ショット結合手段64は、以下の参考文献3に示すFFmpeg等を用いて映像の切り出し、結合を行うことができる。
(参考文献3)Frantisek Korbel,”FFmpeg Basics: Multimedia handling with a fast audio and video encoder,” CeateSpace Independent Publishing Platform, ISBN: 978-1479327836, 2012年.
The candidate shot combining means 64 cuts out and combines the video (shot video) in the time interval corresponding to the candidate shot updated by the candidate shot update means 63 from the original video in the order of the time of the original video.
It should be noted that the process of cutting out a video of a predetermined time interval from the original video and the process of combining the cut shot video can be performed by a known method according to the video format of the original video. For example, the candidate
(Reference 3) Frantisek Korbel, “FFmpeg Basics: Multimedia handling with a fast audio and video encoder,” CeateSpace Independent Publishing Platform, ISBN: 978-1479327836, 2012.
候補ショット結合手段64は、結合した映像を元映像に対する要約映像として出力する。なお、候補ショット結合手段64は、要約映像を表示装置3に出力し、ユーザが要約映像を視認することで、パラメータを更新することとしてもよい。
Candidate shot combining means 64 outputs the combined video as a summary video for the original video. Note that the candidate
以上説明したように要約映像生成装置1を構成することで、要約映像生成装置1は、元映像で重要度が高いショットに対して、さらに整合性を考慮して、ショットを追加して要約映像を生成することができる。
これによって、要約映像生成装置1は、元映像における各ショット間の意味的な不連続性を緩和した要約映像を生成することができる。
By configuring the summary
As a result, the summary
〔要約映像生成装置の動作〕
次に、図9,図10を参照(構成については適宜図1参照)して、本発明の第1実施形態に係る要約映像生成装置1の動作について説明する。なお、ここでは、整合性スコア記憶手段40に、ショットが属するシーンの差に応じた整合性スコア(出現確率)を予め記憶しておくこととする。
[Operation of summary video generator]
Next, the operation of the summary
図9に示すように、まず、要約映像生成装置1は、映像解析手段10によって、以下のステップS1〜S4の手順で分割映像リストを生成する。
ステップS1において、映像解析手段10の特徴量抽出手段11は、元映像からフレーム単位の特徴量を抽出する。
ステップS2において、ショット検出手段12は、ステップS1で抽出した特徴量に基づいて、元映像が変化する映像区間をショットとして検出する。
ステップS3において、シーン分類手段13は、ステップS2で検出したショットを、特徴量が類似する連続するショットの部分系列ごとにシーンとして分類する。
ステップS4において、映像解析手段10は、ステップS2で検出したショット順に、ショットインデックス、シーンインデックス、ショット開始点、ショット終了点および特徴量で構成される分割映像リストL1(図2参照)を生成する。
As shown in FIG. 9, first, the summary
In step S1, the feature
In step S2, the shot detection means 12 detects a video section in which the original video changes as a shot based on the feature amount extracted in step S1.
In step S3, the
In step S4, the video analysis means 10 generates a divided video list L1 (see FIG. 2) composed of a shot index, a scene index, a shot start point, a shot end point, and a feature amount in the order of shots detected in step S2. .
そして、要約映像生成装置1は、パラメータ設定手段20によって、以下のステップ5〜S7の手順でパラメータを設定する。
ステップS5において、パラメータ設定手段20は、ステップS4で生成された分割映像リストに基づいて、元映像からショットごとのサムネイル画像を生成する。
ステップS6において、パラメータ設定手段20は、パラメータの初期値と、ステップS5で生成したサムネイル画像とを、表示装置3に表示する。
ステップS7において、パラメータ設定手段20は、外部の入力装置2を介して、パラメータの変更を受け付ける。
Then, the summary
In step S5, the parameter setting means 20 generates a thumbnail image for each shot from the original video based on the divided video list generated in step S4.
In step S6, the parameter setting means 20 displays the initial value of the parameter and the thumbnail image generated in step S5 on the
In step S <b> 7, the
次に、要約映像生成装置1は、重要度算出手段30によって、以下のステップS8〜S9の手順で重要度スコアリストを生成する。
ステップS9において、重要度算出手段30は、ステップS4で生成された分割映像リストのショットごとに、元映像内における重要度の度合いを示す重要度スコアを算出する。
ステップS10において、重要度算出手段30は、ショットのインデックスに当該ショットの重要度スコアを対応付けて重要度スコアリストL2(図3参照)を生成する。
Next, the summary
In step S9, the importance calculation means 30 calculates an importance score indicating the degree of importance in the original video for each shot of the divided video list generated in step S4.
In step S10, the importance calculation means 30 associates the importance score of the shot with the shot index and generates the importance score list L2 (see FIG. 3).
また、要約映像生成装置1は、整合性評価手段50によって、以下のステップS10〜S11の手順で整合性スコアリストを生成する。
ステップS10において、整合性評価手段50は、整合性スコア記憶手段40に記憶されているシーン差分に対応する整合性スコアを参照して、ショットの組合せに対して、それぞれのショットが属するシーンの差分を計算し、シーン差分に対応する整合性スコアを、当該ショットの組合せの評価値とする。
ステップ11において、整合性評価手段50は、ショットの組合せを示すショットインデックの対と、対応する整合性スコアとで構成される整合性スコアリストL3(図5参照)を生成する。
In addition, the summary
In step S10, the
In
なお、ステップS8〜S9の重要度算出手段30の手順と、ステップS10〜S11の整合性評価手段50の手順は、先に整合性評価手段50の手順を行っても構わない。あるいは、重要度算出手段30の手順と整合性評価手段50の手順とを並列に行っても構わない。
The procedure of the
そして、図10に示すように、要約映像生成装置1は、ショット選択・結合手段60によって、以下のステップS12〜S19の手順で要約映像を生成する。
ステップS12において、ショット選択・結合手段60の候補ショット選択手段61は、ステップS11で生成された整合性スコアリストの重要度スコアの高いショットから順に、パラメータとして設定された数のショットを、要約映像の候補ショットとして選択して、候補ショットリストL4(図6参照)を生成する。
Then, as shown in FIG. 10, the summary
In step S12, the candidate shot
ステップS13において、補間ショット探索手段62は、ステップS11で生成された整合性スコアリストを参照し、ステップS12で生成された候補ショットリストの重要度スコアの高い順に、各候補ショットに対して整合性スコアが最も高いショットを補間ショットとして選択することで補間ショットリストL5(図7参照)を生成する。 In step S13, the interpolated shot search means 62 refers to the consistency score list generated in step S11, and sets consistency for each candidate shot in descending order of importance score of the candidate shot list generated in step S12. An interpolation shot list L5 (see FIG. 7) is generated by selecting a shot with the highest score as an interpolation shot.
ステップS14において、候補ショット更新手段63は、ステップS13で生成された補間ショットリストを、上位(重要度スコアの高い順)から走査する。
ステップS15において、候補ショット更新手段63は、ステップS14で走査した補間ショットを、候補ショットに追加した場合、候補ショットの総時間が、パラメータで指定された要約映像の長さ(時間長)に達していないか否かを判定する。
補間ショットを追加しても要約映像の時間長に満たない場合(ステップS15でYes)、ショット選択・結合手段60は、ステップS16に動作を進める。一方、補間ショットを追加して要約映像の時間長に達した場合(ステップS15でNo)、ショット選択・結合手段60は、ステップS18に動作を進める。
In step S14, the candidate shot
In step S15, when the candidate shot
If the time length of the summary video is not reached even after the interpolation shot is added (Yes in step S15), the shot selecting / combining means 60 advances the operation to step S16. On the other hand, when the interpolation shot is added and the time length of the summary video is reached (No in step S15), the shot selecting / combining means 60 advances the operation to step S18.
ステップS16において、候補ショット更新手段63は、ステップS14で走査した補間ショットを候補ショットリストに追加して、更新した候補ショットリストL6(図8参照)を生成する。
ステップS17において、候補ショット更新手段63は、補間ショットリストの終端まで走査したか否かを判定する。
補間ショットリストの終端まで走査した場合(ステップS17でYes)、ショット選択・結合手段60は、ステップS13に戻って、新たな候補ショットリストに対して、補間ショットリストの生成を行う。一方、補間ショットリストの終端まで走査していない場合(ステップS17でNo)、ショット選択・結合手段60は、ステップS14に戻って、補間ショットリストの走査を継続し、補間ショットの候補ショットへの追加を行う。
In step S16, the candidate shot
In step S <b> 17, the candidate shot
When scanning to the end of the interpolation shot list (Yes in step S17), the shot selection / combination means 60 returns to step S13 to generate an interpolation shot list for the new candidate shot list. On the other hand, if the end of the interpolation shot list has not been scanned (No in step S17), the shot selection / combination means 60 returns to step S14, continues scanning the interpolation shot list, and changes to the candidate shot of the interpolation shot. Add.
ステップS18において、候補ショット結合手段64は、要約映像の時間長に達した候補ショットリストに基づいて、候補ショットに対応する時間区間の映像を元映像から切り出す。
ステップS19において、候補ショット結合手段64は、ステップS18で切り出したショット映像を、元映像の時間順に結合することで、要約映像を生成する。
In step S18, the candidate
In step S19, the candidate shot combining means 64 generates a summary video by combining the shot video cut out in step S18 in the time order of the original video.
そして、ステップS19で生成された要約映像を表示装置3に表示して、ユーザがパラメータの変更を行わない場合(ステップS20でYes)、要約映像生成装置1は、動作を終了する。一方、ユーザがパラメータの変更を行う場合(ステップS20でNo)、要約映像生成装置1は、ステップS7(図9)に戻って、パラメータの変更動作を行う。
以上の動作によって、要約映像生成装置1は、元映像における重要度の高いショットに、当該ショットと連続性の度合いが大きい(強い)ショットを付加して意味的な不連続性を緩和した要約映像を生成することができる。
When the summary video generated in step S19 is displayed on the
With the above operation, the summary
≪第2実施形態≫
次に、図11を参照して、本発明の第2実施形態に係る要約映像生成装置1Bについて説明する。図1で説明した要約映像生成装置1は、整合性スコア記憶手段40に予め整合性スコアを記憶しておく構成であった。
<< Second Embodiment >>
Next, with reference to FIG. 11, a summary
要約映像生成装置1Bは、学習データによって整合性スコアを学習する構成とした。
要約映像生成装置1Bは、映像解析手段10と、パラメータ設定手段20と、重要度算出手段30と、整合性スコア記憶手段40と、整合性評価手段50と、ショット選択・結合手段60と、整合性スコア学習手段70と、を備える。整合性スコア学習手段70以外の構成は、図1で説明した要約映像生成装置1と同じ構成であるため、同一の符号を付して説明を省略する。
The summary
The summary
整合性スコア学習手段70は、既知の学習データから、元映像のショットにおいて要約映像の隣接ショットが出現する出現確率をショットが属するシーンの距離ごとに整合性スコアとして学習するものである。この学習データは、元映像内のショットインデックスおよびシーンインデックスと、当該元映像から生成した要約映像の元映像内におけるショットインデックスとが既知のデータである。 The consistency score learning means 70 learns, from known learning data, an appearance probability that an adjacent shot of the summary video appears in the original video shot as a consistency score for each distance of the scene to which the shot belongs. This learning data is data in which the shot index and scene index in the original video and the shot index in the original video of the summary video generated from the original video are known.
例えば、元映像内のショットインデックスおよびシーンインデックスには、映像解析手段10のみを動作させて生成される分割映像リストL1(図2参照)のうちのショットインデックスNshotおよびシーンインデックスNsceneを用い、要約映像の元映像内におけるショットインデックスには、元映像から手動で要約映像を生成した際の元映像内におけるショットインデックスを用いればよい。
For example, the shot index N shot and the scene index N scene in the divided video list L1 (see FIG. 2) generated by operating only the
この整合性スコア学習手段70は、学習データの要約映像におけるショットに連続するショットが元映像のシーンとしてどれだけ離れたショットとして出現するのかを確率モデルとして学習する。この確率モデルは、以下の式(1)の初項に示すように、要約映像において、ある連続した一組のショットsi,si−dが、先行するショットsi−dが既知の条件の元で、元映像のショットの列si−d,…,si−1,siから出現する確率を、ショットsiに先行するショット列si−d,…,si−1が与えられた元での条件付き確率(Nグラム確率)として一般的には表現可能である。しかし、本実施例での確率モデルは、以下の式(1)の第3項に示すように、条件付き確率が、要約映像中のショットsiと、それに先行するショットsi−dとの元映像における距離dのみに依存すると仮定したモデルである。ここで、距離dは、“0”以上、学習データのシーンインデックスの最大値以下の整数である。 This consistency score learning means 70 learns as a probability model how far a shot that is continuous with the shot in the summary video of the learning data appears as a shot of the original video. This probability model, as shown in the first term of the formula (1), in summary video is contiguous set of shots s i, s i-d is, preceding shot s i-d is a known condition in the original, the column s i-d of shot of the original video, ..., the probability of occurrence from s i-1, s i, shot column prior to the shot s i s i-d, ... , s i-1 is Generally, it can be expressed as a conditional probability (N-gram probability) at a given element. However, in the probability model in the present embodiment, as shown in the third term of the following equation (1), the conditional probability is calculated between the shot s i in the summary video and the shot s i-d preceding it. This model is assumed to depend only on the distance d in the original video. Here, the distance d is an integer greater than or equal to “0” and less than or equal to the maximum value of the scene index of the learning data.
なお、整合性スコア学習手段70は、学習データとして、あるショットに対して、距離dだけ離れたシーンのショットが存在しない場合、その距離dに対しては、一般的なスムージング手法によって確率を与える。スムージング手法として、例えば、ノイズ成分が重畳した観測値に対して正規分布等のような一様なカーネル関数をフィッティングさせることによって真の確率値の分布を推定するカーネル密度推定法が適用可能である。
これによって、整合性スコア学習手段70は、整合性スコアとして、シーンの差分(距離d)ごとの出現確率(図4参照)を学習によって求めることができる。
整合性スコア学習手段70は、学習した整合性スコアを、シーン差分に対応付けて整合性スコア記憶手段40に書き込み記憶する。
The consistency score learning means 70 gives a probability to the distance d by a general smoothing method when there is no shot of a scene separated by a distance d with respect to a certain shot as learning data. . As a smoothing method, for example, a kernel density estimation method that estimates a distribution of true probability values by fitting a uniform kernel function such as a normal distribution to an observation value on which a noise component is superimposed can be applied. .
Thereby, the consistency score learning means 70 can obtain | require the appearance probability (refer FIG. 4) for every difference (distance d) of a scene by learning as a consistency score.
The consistency
以上説明したように要約映像生成装置1Bを構成することで、要約映像生成装置1Bは、過去の学習データからの学習によって、整合性スコアの精度を高めることができ、整合性の度合いを高めた要約映像を生成することができる。
なお、要約映像生成装置1Bの動作は、整合性スコア学習手段70における整合性スコアの学習の後は、図9,図10で説明した要約映像生成装置1の動作と同じであるため、説明を省略する。
By configuring the summary
The operation of the summary
以上、本発明の実施形態に係る要約映像生成装置1,1Bについて説明したが、要約映像生成装置1,1Bは、コンピュータを、前記した各手段として機能させるための要約映像生成プログラムで動作させることができる。
The summary
1,1B 要約映像生成装置
10 映像解析手段
11 特徴量抽出手段
12 ショット検出手段
13 シーン分類手段
20 パラメータ設定手段
30 重要度算出手段
40 整合性スコア記憶手段
50 整合性評価手段
60 ショット選択・結合手段
61 候補ショット選択手段
62 補間ショット探索手段
63 候補ショット更新手段
64 候補ショット結合手段
70 整合性スコア学習手段
DESCRIPTION OF
Claims (5)
前記元映像の変化点となるショットを検出するとともに、特徴量が類似する前記ショットの系列をシーンとして分類する映像解析手段と、
前記ショットの特徴量に基づいて、当該ショットが前記元映像内において特徴的であることを示す指標である重要度スコアを算出する重要度算出手段と、
シーンの時間方向の距離に対応したショット間の整合性の度合いを示す整合性スコアを予め記憶した整合性スコア記憶手段と、
前記整合性スコア記憶手段から、前記映像解析手段が検出した前記ショットごとの前記整合性スコアを取得し、前記ショットの組合せに対して前記整合性スコアを対応付ける整合性評価手段と、
前記元映像から、前記重要度スコアにより重要度の高いショットを予め設定された数だけ選択するとともに、前記重要度の高いショットに対して、前記整合性スコアにより整合性の度合いが大きいショットを、予め設定された前記要約映像の時間長となるまで選択して結合するショット選択・結合手段と、
を備えることを特徴とする要約映像生成装置。 A summary video generation device that generates a summary video having a video duration shorter than the original video from the original video,
Video analysis means for detecting a shot as a change point of the original video and classifying the series of shots having similar feature quantities as a scene;
Importance calculating means for calculating an importance score that is an index indicating that the shot is characteristic in the original video based on the feature amount of the shot;
Consistency score storage means for storing in advance a consistency score indicating the degree of consistency between shots corresponding to the distance in the time direction of the scene;
Consistency evaluation means for acquiring the consistency score for each shot detected by the video analysis means from the consistency score storage means, and associating the consistency score with the combination of shots;
From the original video, select a preset number of shots with high importance according to the importance score, and with respect to the shot with high importance, shots with a high degree of consistency with the consistency score, Shot selection / combination means for selecting and combining until the time length of the summary video set in advance is reached,
A summary video generation apparatus comprising:
前記学習データの要約映像における隣接するショットが元映像の中に共起する確率を前記整合性スコアとして、前記元映像内のシーンの距離ごとに学習する整合性スコア学習手段を、さらに備えることを特徴とする請求項1に記載の要約映像生成装置。 From the learning data in which the shot and scene in the original video and the position of the shot in the original video of the summary video generated from the original video are known,
It further comprises a consistency score learning means for learning, for each distance of a scene in the original video, the probability that adjacent shots in the summary video of the learning data co-occur in the original video as the consistency score. The summary video generation apparatus according to claim 1, wherein:
前記重要度スコアの高いショットを予め設定された数だけ前記要約映像の候補ショットとして選択する候補ショット選択手段と、
前記重要度スコアの高い順にそれぞれの前記候補ショットに対して、すべてのショットから前記整合性スコアが最も高いショットを、前記要約映像の時間長を超過しない範囲で補間ショットとして探索する補間ショット探索手段と、
前記候補ショットに前記補間ショットを追加して前記候補ショットを更新する候補ショット更新手段と、
前記候補ショットを、前記元映像の時間順に前記元映像から切り出して結合するショット結合手段と、
を備えることを特徴とする請求項1または請求項2に記載の要約映像生成装置。 The shot selecting / combining means includes:
Candidate shot selection means for selecting a number of shots having a high importance score as a candidate shot of the summary video in a preset number;
Interpolation shot search means for searching for shots having the highest consistency score from all the shots as the interpolation shot within a range not exceeding the time length of the summary video for each candidate shot in descending order of importance score When,
Candidate shot updating means for updating the candidate shot by adding the interpolation shot to the candidate shot;
Shot combining means for cutting out and combining the candidate shots from the original video in time order of the original video;
The summary video generation device according to claim 1, further comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017120355A JP6917210B2 (en) | 2017-06-20 | 2017-06-20 | Summary video generator and its program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017120355A JP6917210B2 (en) | 2017-06-20 | 2017-06-20 | Summary video generator and its program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019003585A true JP2019003585A (en) | 2019-01-10 |
JP6917210B2 JP6917210B2 (en) | 2021-08-11 |
Family
ID=65006942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017120355A Active JP6917210B2 (en) | 2017-06-20 | 2017-06-20 | Summary video generator and its program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6917210B2 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111641868A (en) * | 2020-05-27 | 2020-09-08 | 维沃移动通信有限公司 | Preview video generation method and device and electronic equipment |
KR102247915B1 (en) * | 2020-07-24 | 2021-05-04 | 인하대학교 산학협력단 | Reinforcement learning for unsupervised video summarization with precewise linear interpolation |
JP2021089711A (en) * | 2019-12-18 | 2021-06-10 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science Technology Co., Ltd. | Video jitter detection method and apparatus |
WO2021240652A1 (en) * | 2020-05-26 | 2021-12-02 | 日本電気株式会社 | Information processing device, control method, and storage medium |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005236546A (en) * | 2004-02-18 | 2005-09-02 | Nippon Telegr & Teleph Corp <Ntt> | Method, apparatus, and program for partial content creation |
JP2006014084A (en) * | 2004-06-28 | 2006-01-12 | Hiroshima Univ | Video editing apparatus, video editing program, recording medium, and video editing method |
JP2014112280A (en) * | 2012-12-05 | 2014-06-19 | Nippon Telegr & Teleph Corp <Ntt> | Video group reconfiguration/summarizing device, video group reconfiguration/summarizing method, and video group reconfiguration/summarizing program |
JP2015171073A (en) * | 2014-03-10 | 2015-09-28 | 国立大学法人 筑波大学 | Summary video data creation system, method and computer program |
-
2017
- 2017-06-20 JP JP2017120355A patent/JP6917210B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005236546A (en) * | 2004-02-18 | 2005-09-02 | Nippon Telegr & Teleph Corp <Ntt> | Method, apparatus, and program for partial content creation |
JP2006014084A (en) * | 2004-06-28 | 2006-01-12 | Hiroshima Univ | Video editing apparatus, video editing program, recording medium, and video editing method |
JP2014112280A (en) * | 2012-12-05 | 2014-06-19 | Nippon Telegr & Teleph Corp <Ntt> | Video group reconfiguration/summarizing device, video group reconfiguration/summarizing method, and video group reconfiguration/summarizing program |
JP2015171073A (en) * | 2014-03-10 | 2015-09-28 | 国立大学法人 筑波大学 | Summary video data creation system, method and computer program |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021089711A (en) * | 2019-12-18 | 2021-06-10 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science Technology Co., Ltd. | Video jitter detection method and apparatus |
JP7079294B2 (en) | 2019-12-18 | 2022-06-01 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | Video blur detection method and equipment |
US11546577B2 (en) | 2019-12-18 | 2023-01-03 | Beijing Baidu Netcom Science Technology Co., Ltd. | Video jitter detection method and apparatus |
WO2021240652A1 (en) * | 2020-05-26 | 2021-12-02 | 日本電気株式会社 | Information processing device, control method, and storage medium |
JP7420243B2 (en) | 2020-05-26 | 2024-01-23 | 日本電気株式会社 | Information processing device, control method and program |
CN111641868A (en) * | 2020-05-27 | 2020-09-08 | 维沃移动通信有限公司 | Preview video generation method and device and electronic equipment |
KR102247915B1 (en) * | 2020-07-24 | 2021-05-04 | 인하대학교 산학협력단 | Reinforcement learning for unsupervised video summarization with precewise linear interpolation |
Also Published As
Publication number | Publication date |
---|---|
JP6917210B2 (en) | 2021-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100828166B1 (en) | Method of extracting metadata from result of speech recognition and character recognition in video, method of searching video using metadta and record medium thereof | |
US20230232078A1 (en) | Method and data processing apparatus | |
US8750681B2 (en) | Electronic apparatus, content recommendation method, and program therefor | |
US20140149865A1 (en) | Information processing apparatus and method, and program | |
JP6917210B2 (en) | Summary video generator and its program | |
CN106021496A (en) | Video search method and video search device | |
US7769761B2 (en) | Information processing apparatus, method, and program product | |
CN111708915B (en) | Content recommendation method and device, computer equipment and storage medium | |
JP6557592B2 (en) | Video scene division apparatus and video scene division program | |
JP2008257460A (en) | Information processor, information processing method, and program | |
JP2008022103A (en) | Apparatus and method for extracting highlight of moving picture of television program | |
JP6389296B1 (en) | VIDEO DATA PROCESSING DEVICE, VIDEO DATA PROCESSING METHOD, AND COMPUTER PROGRAM | |
WO2020166382A1 (en) | Detection device, detection method, and program | |
CN114363695B (en) | Video processing method, device, computer equipment and storage medium | |
CN114090766A (en) | Video text screening method and device and electronic equipment | |
CN114677402A (en) | Poster text layout, poster generation method and related device | |
JP5941078B2 (en) | Information processing apparatus, program, and method | |
JP6917788B2 (en) | Summary video generator and program | |
JP4032122B2 (en) | Video editing apparatus, video editing program, recording medium, and video editing method | |
CN115665508A (en) | Video abstract generation method and device, electronic equipment and storage medium | |
CN113539235A (en) | Text analysis and speech synthesis method, device, system and storage medium | |
CN113539234A (en) | Speech synthesis method, apparatus, system and storage medium | |
CN108334806B (en) | Image processing method and device and electronic equipment | |
JP2005202485A (en) | Video presenting device | |
JP4492299B2 (en) | Video apparatus, video display method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200424 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210323 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210521 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210622 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210719 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6917210 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |