JPH10112835A - Video image summarizing method and video image display method - Google Patents

Video image summarizing method and video image display method

Info

Publication number
JPH10112835A
JPH10112835A JP8264287A JP26428796A JPH10112835A JP H10112835 A JPH10112835 A JP H10112835A JP 8264287 A JP8264287 A JP 8264287A JP 26428796 A JP26428796 A JP 26428796A JP H10112835 A JPH10112835 A JP H10112835A
Authority
JP
Japan
Prior art keywords
video
scene
image
representative
scenes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8264287A
Other languages
Japanese (ja)
Other versions
JP3250467B2 (en
Inventor
Shin Yamada
伸 山田
Yasuhiro Kikuchi
康弘 菊池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP26428796A priority Critical patent/JP3250467B2/en
Publication of JPH10112835A publication Critical patent/JPH10112835A/en
Application granted granted Critical
Publication of JP3250467B2 publication Critical patent/JP3250467B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To allow the method to have provision for versatility of preference of the users and video image contents by extracting scenes consecutive for a prescribed time and grouping scenes in time series. SOLUTION: When a scene change detection means 105 discriminates occurrence of a scene change in a frame image received by a image fetch means 104, the means decides a representative image in all scene modes and a head frame. Then a time length of a scene just before a scene change is calculated and a time discrimination processing means 106 stores a preceding scene representative image as a representative image in the time discrimination mode to a file server 113. Then the user selects in which mode a summarized video image is to be displayed via a user interface means 116, a head frame number of a scene to be displayed and information of the representative image are sent from the server 113 to a summarized video image reproduction means 115, which displays the summarized video image.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、映像の検索、編
集、加工、早見などを支援する方法に係り、特にビデオ
テープやビデオディスクに格納された映像を要約して、
再生または表示をする映像要約方法および映像表示方法
に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method for supporting search, editing, processing, and quick viewing of images, and more particularly, to a method for summarizing images stored on a video tape or a video disk.
The present invention relates to a video summarizing method for reproducing or displaying and a video displaying method.

【0002】[0002]

【従来の技術】映像の編集、早見においては、映像の中
から見たい部分を効率よく探すための映像要約手段が不
可欠である。画像の中から特定の代表画像を選択するこ
とを特徴とする映像要約手段として、例えば、特開昭6
4ー68084号に記載された方法(以下、シーン一覧
表示という。)、ショット毎ラッシュ再生法、特開平7
−236153号に記載された方法(以下、色差相関値
法という。)、特開平6−149902号に記載された
方法(以下、時間長指定要約法という。)が知られてい
る。
2. Description of the Related Art In video editing and quick viewing, video summarizing means for efficiently searching for a desired portion from a video is indispensable. As a video summarizing means for selecting a specific representative image from images, for example, Japanese Patent Application Laid-Open
No. 4-68084 (hereinafter referred to as scene list display), rush reproduction method for each shot,
A method described in US Pat. No. 2,236,153 (hereinafter, referred to as a color difference correlation value method) and a method described in JP-A-6-149902 (hereinafter, referred to as a time length designation summarizing method) are known.

【0003】シーン一覧表示は、シーンチェンジをあら
かじめ調べておき、図14に示すように、シーンチェン
ジ直後の画像を一覧表示する方法である。図14におい
て、(1)〜(9)がシーンチェンジ直後の画像を表し
ている。この方法では、一つのシーンをシーンの先頭画
像で代表させる。
[0003] The scene list display is a method of examining scene changes in advance and displaying a list of images immediately after the scene changes as shown in FIG. In FIG. 14, (1) to (9) represent images immediately after a scene change. In this method, one scene is represented by the leading image of the scene.

【0004】「シーン」とは、映像編集などの分野でし
ばしば使われる映像の単位であり、多くの場合、「一つ
のビデオカメラで時間的に連続して撮影された部分」と
定義される。本願では「シーン」をこれより広い意味に
用いるものとし、「シーン」とは、「映像を何らかの基
準に従って分割して形成した映像の単位」をいうものと
する。シーンは、ショット、カットと呼ばれることもあ
る。「シーンチェンジ」とは、多くの場合、編集でつな
いだ部分、ビデオカメラの撮影を中断した部分のよう
に、シーンが変化する部分をいう。本願ではこれより広
い意味に用いるものとし、「シーンチェンジ」とは、
「映像を何らかの基準に従って分割する際に分割された
部分」をいうものとする。シーンチェンジは、カットと
呼ばれることもある。また、「フレーム」とは、映像を
構成する各画像をいうものとする。
[0004] A "scene" is a unit of video that is often used in the field of video editing and the like, and is often defined as a "portion of a video camera taken continuously in time". In the present application, “scene” is used in a broader sense, and “scene” refers to “a unit of an image formed by dividing an image according to some reference”. Scenes are sometimes called shots and cuts. The “scene change” often refers to a portion where the scene changes, such as a portion connected by editing or a portion where shooting by a video camera is interrupted. In this application, it shall be used in a broader sense, and "scene change"
It refers to “parts divided when dividing a video according to some criteria”. A scene change is sometimes called a cut. In addition, “frame” refers to each image constituting a video.

【0005】映像を自動的にシーンに分割する方法とし
ては、共通色比率法(山田、藤岡、金森、松島、「部分
領域ごとの共通色に注目したシーンチェンジ検出方法の
検討」、テレビジョン学会技術報告,Vol.17,No.55)、
映像変化モデル法(山田、藤岡、金森、松島、坂内、
「編集効果を含む映像のシーンチェンジ検出方法」、テ
レビジョン学会、マルチメディアと映像処理シンポジウ
ム'94)などが提案されている。
As a method of automatically dividing an image into scenes, a common color ratio method (Yamada, Fujioka, Kanamori, Matsushima, "Study Method for Scene Change Focusing on Common Color for Each Partial Area", The Institute of Television Engineers of Japan) Technical Report, Vol. 17, No. 55),
Video change model method (Yamada, Fujioka, Kanamori, Matsushima, Sakauchi,
"Scene change detection method for video including editing effect", The Institute of Television Engineers of Japan, Multimedia and Video Processing Symposium '94), etc. have been proposed.

【0006】ショット毎ラッシュ再生法は、各シーンの
先頭部分を標準速度で次々に再生する映像要約方法であ
る。この方法は、映像の要約を見るための方法であり、
途中で再生を中断せずに最初から最後まで再生して利用
する。
[0006] The rush reproduction method for each shot is a video summarization method in which a head portion of each scene is reproduced one after another at a standard speed. This is a way to see a summary of the video,
Play from the beginning to the end without interrupting playback midway.

【0007】時間長指定要約法は、全部または一部のシ
ーンを一定時間づつ再生する方法であり、要約動画像の
時間長が指定された値になるように、各シーンの時間長
を用いて、各シーンの再生時間または再生シーン数を決
める。
[0007] The time length designation summarization method is a method of reproducing all or a part of a scene at a fixed time, and uses the time length of each scene so that the time length of the summary moving image becomes a designated value. The playback time or the number of playback scenes for each scene is determined.

【0008】色差相関値法は、カメラアングルのみが変
わって、同様な内容をもつシーンをグループ化すること
で、シーン一覧表示に比べて能率的な映像検索を可能に
する映像要約方法である。この方法では、シーンの先頭
画像(以下、カット画面という。)を求めながら、カッ
ト画面間の色差ヒストグラム相関値を求め、色差ヒスト
グラム相関値をしきい値以上にするカット画面を同一グ
ループのカット画面とみなす。このとき、類似背景を有
するカット画面同士が、同一グループになる。また、カ
ット画面を一覧表示する場合には、同一グループ内で最
初に検出されたカット画面を親画面にして、同一グルー
プ内の残りのカット画面を子画面にして表示する。例え
ば、2番目〜3番目のシーンが同一グループで、6番目
〜8番目のシーンが同一グループであるとき、図15に
示すように表示する。図15において、(1)〜(9)
は、それぞれ1番目のカット画面から9番目のカット画
面までを表す。
[0008] The color difference correlation value method is a video summarizing method that enables a more efficient video search than a scene list display by grouping scenes having similar contents while changing only the camera angle. In this method, a color difference histogram correlation value between cut images is obtained while obtaining a leading image of a scene (hereinafter, referred to as a cut image), and cut images having a color difference histogram correlation value equal to or more than a threshold value are cut images of the same group. Consider At this time, cut screens having similar backgrounds belong to the same group. When a list of cut screens is displayed, a cut screen first detected in the same group is set as a parent screen, and the remaining cut screens in the same group are displayed as sub-screens. For example, when the second to third scenes belong to the same group and the sixth to eighth scenes belong to the same group, they are displayed as shown in FIG. In FIG. 15, (1) to (9)
Represents the first to ninth cut screens, respectively.

【0009】以下、色差相関値法を用いた従来の映像要
約システムについて説明する。図16は従来例である映
像要約システムを示すブロック図である。図16におい
て、1501、1502は映像の入力装置であって、1
501はビデオディスク装置、1502はVTRであ
る。1503はビデオディスク装置1501やVTR1
502からの映像信号を処理しながら、シーンチェンジ
検出と色差相関値法を用いて映像を要約する映像要約装
置であり、フレーム画像を取り込む画像取り込み手段1
504と、シーンチェンジを検出するシーンチェンジ検
出手段1505と、カット画面(シーンの先頭画像)の
グループ化を実行するグループ生成手段1506から構
成される。1507は、ビデオディスク装置1501と
VTR1502を制御する制御装置である。1508
は、映像を圧縮する映像圧縮装置である。1509は映
像要約装置1503で作成されたカット画面とシーンチ
ェンジのデータとグループのデータと、映像圧縮装置1
508で圧縮された映像データを保存するファイルサー
バーである。1510はファイルサーバに格納されたデ
ータと画像と映像を表示する映像表示装置である。
A conventional video summarization system using the color difference correlation value method will be described below. FIG. 16 is a block diagram showing a conventional video summarizing system. In FIG. 16, reference numerals 1501 and 1502 denote video input devices.
Reference numeral 501 denotes a video disk device, and 1502 denotes a VTR. Reference numeral 1503 denotes a video disk device 1501 or VTR 1
A video summarizing apparatus for summarizing a video using a scene change detection and a color difference correlation value method while processing a video signal from a video signal 502.
504, a scene change detecting unit 1505 for detecting a scene change, and a group generating unit 1506 for performing grouping of the cut screen (the leading image of the scene). A control device 1507 controls the video disk device 1501 and the VTR 1502. 1508
Is a video compression device for compressing video. Reference numeral 1509 denotes the cut screen, scene change data and group data created by the video summarizing device 1503, and the video compression device 1
A file server that stores the video data compressed in step 508. Reference numeral 1510 denotes a video display device that displays data, images, and videos stored in the file server.

【0010】以上のように構成された映像要約システム
について、図17に示すフローチャートを用いてその全
体の動作を説明する。
The overall operation of the video summarizing system configured as described above will be described with reference to the flowchart shown in FIG.

【0011】手順1601では、図16における制御装
置1507がビデオディスク装置1501とVTR15
02を制御して、映像の再生を開始し、同時に映像圧縮
装置1508での映像の圧縮を開始する。圧縮された映
像はファイルサーバ1509に保存する。
In step 1601, the control unit 1507 in FIG.
02 is started to reproduce the video, and at the same time, the video compression by the video compression device 1508 is started. The compressed video is stored in the file server 1509.

【0012】手順1602では、制御装置1507が映
像が終了したかどうか判定する。映像が終了した場合に
は手順1607に進み、そうでなければ、手順1603
に進む。
In step 1602, the control device 1507 determines whether or not the video has ended. If the video has ended, the procedure proceeds to step 1607; otherwise, the procedure 1603
Proceed to.

【0013】手順1603では、画像取り込み手段15
04が再生中のフレーム画像を取り込む。
In step 1603, the image capturing means 15
04 captures the frame image being reproduced.

【0014】手順1604では、シーンチェンジ検出手
段1505が画像取り込み手段1504で取り込まれた
フレーム画像を処理して、前述した共通色比率法等を用
いてシーンチェンジが発生したかどうか検出する。
In step 1604, the scene change detecting means 1505 processes the frame image captured by the image capturing means 1504, and detects whether a scene change has occurred using the above-described common color ratio method or the like.

【0015】手順1604で「シーンチェンジが発生し
た」と判定された場合には手順1605に進み、そうで
なければ手順1602に戻る。
If it is determined in step 1604 that "a scene change has occurred", the flow advances to step 1605; otherwise, the flow returns to step 1602.

【0016】手順1605では、シーンチェンジ検出手
段1505で検出したシーンチェンジが発生した時点の
フレーム番号とカット画面をファイルサーバ1509に
保存する。
In step 1605, the frame number and the cut screen at the time when the scene change detected by the scene change detecting means 1505 occurs are stored in the file server 1509.

【0017】手順1606では、グループ生成手段15
06が、時系列のカット画面間の色差ヒストグラム相関
値を求め、色差ヒストグラム相関値をしきい値以上にす
るカット画面を同一グループのカット画面とみなす。グ
ループ化の結果をファイルサーバー1509に保存して
から、手順1602に戻る。
In step 1606, the group generation unit 15
06 calculates a color difference histogram correlation value between the time-series cut screens, and regards the cut screens that make the color difference histogram correlation value equal to or larger than the threshold value as cut screens of the same group. After saving the grouping result in the file server 1509, the process returns to the step 1602.

【0018】手順1607では、制御装置1507が映
像の再生と映像の圧縮を中止する。手順1608では、
使用者が映像の表示方法を選択する。代表的な部分を動
画で見たい場合には、手順1610に進む。静止画を用
いて見たい部分を探したい場合には、手順1609に進
む。
In step 1607, the control device 1507 stops the reproduction of the video and the compression of the video. In step 1608,
The user selects an image display method. If the user wants to view a representative portion as a moving image, the process proceeds to step 1610. If the user wants to search for a desired part using a still image, the process proceeds to step 1609.

【0019】手順1609では、使用者が見たい部分を
効率よく探せるように、システムが映像表示装置151
0上に映像の要約を表示する。例えば、図14に示した
ように、カット画面を一覧表示する。また、同一グルー
プと判定されたカット画面を、同一グループ内で最初に
検出されたカット画面と連結して子画面の形式で表示し
てもよい。2番目のシーンと3番目のシーンが同一グル
ープで、6番目〜8番目のシーンが同一グループである
とき、図15のように表示されることになる。
In step 1609, the system causes the image display device 151 to allow the user to efficiently search for the desired portion.
A summary of the video is displayed on 0. For example, a list of cut screens is displayed as shown in FIG. Alternatively, a cut screen determined to be in the same group may be displayed in the form of a child screen by being linked to a cut screen first detected in the same group. When the second scene and the third scene are in the same group and the sixth to eighth scenes are in the same group, they are displayed as shown in FIG.

【0020】手順1610では、システムが映像表示装
置1510上に映像の各グループの先頭部分を所定の時
間ずつ、例えば5秒ずつ表示する。
In step 1610, the system displays the head of each video group on the video display device 1510 for a predetermined time, for example, 5 seconds.

【0021】[0021]

【発明が解決しようとする課題】従来、画像の中から特
定の代表画像を選択することを特徴とする映像要約装置
は、一つの番組の中でどの映像が重要であるかがその映
像の内容等により異なるにもかかわらず、一つの基準の
みにより代表画像を選択していた。例えば「従来の技
術」の欄で説明した色差相関値法を用いた映像要約装置
では、「カメラアングルのみが異なる同様な内容をもつ
シーンは同一のグループである」という映像要約基準の
みによって番組の代表画像を選択していた。しかし同方
法では、例えばニュース番組においてしばしば起こるよ
うに、現場のアナウンサーが事件を説明するシーン等の
ように同一背景であっても人間が現れているシーンやそ
の直後のシーンのように重要な情報を有している可能性
が高いシーンを代表画像として選択することができな
い。これらの画像は背景が類似している限り全てまとめ
られてしまうからである。また同方法では、衛星放送の
番組「ハイテクシャワーインターナショナル」等のよう
に本編の各記事から2〜3シーンの動画像を抜き出して
作成されたダイジェストが最初に流れてから本編が流れ
る番組で、これらのダイジェスト画像を代表画像となる
ように本編をグループ化することができない。ダイジェ
スト部分と本編部分とを区別せず、隣り合うシーン間の
みで類似度を判断するからである。
Conventionally, a video summarizing apparatus characterized in that a specific representative image is selected from images is disclosed in which content of the video is important in one program. Despite the differences, the representative image is selected based on only one criterion. For example, in a video summarizing apparatus using the color difference correlation value method described in the section of "Prior Art", a program is only based on a video summarizing standard such that "scenes having similar contents differing only in camera angle are in the same group". The representative image was selected. However, in this method, as is often the case in news programs, important information such as a scene where a person appears even in the same background, such as a scene where an announcer explains the incident, etc. Cannot be selected as a representative image. This is because these images are all collected as long as the background is similar. In addition, in the same method, a digest created by extracting moving images of two or three scenes from each article of the main part, such as a satellite broadcast program "High Tech Shower International", flows first, and then the main part flows. The main part cannot be grouped so that the digest image described above becomes the representative image. This is because the similarity is determined only between adjacent scenes without distinguishing between the digest part and the main part.

【0022】映像要約装置のみならず、その映像要約装
置により得られた要約情報を含む映像情報を表示する映
像表示装置についても課題があった。すなわち、全ての
シーンの一部又は全部を何らかの方法で再生するショッ
ト毎ラッシュ再生法や時間長指定要約法に基づく映像表
示装置においては、映像のシーンの数が多いときには代
表画像も多くなり、使用者側の負担となっていた。ま
た、画像の中から所定の基準に従って代表画像を選択す
る映像要約装置により得られた要約情報を含む映像情報
を表示する映像表示装置においても、映像のシーンの数
が多いときには代表画像が多くなることが多く、その結
果、一覧表示される画像が多くなり、見たい部分を探し
にくいということがしばしばあった。例えばニュース番
組を要約した場合には、多くの場合、各記事から数十枚
のシーンの代表画像が表示されるために、一つの記事を
見終わるまでに、数十枚のシーンの代表画像を見る必要
があるという課題があった。
There has been a problem not only with the video summarizing apparatus but also with a video display apparatus that displays video information including the summary information obtained by the video summarizing apparatus. That is, in a video display device based on a lash reproduction method for each shot or a time length designation summarization method for reproducing part or all of all scenes by some method, when the number of video scenes is large, the number of representative images increases, and Was a burden on the participant. Also, in a video display device that displays video information including summary information obtained by a video summary device that selects a representative image from images according to a predetermined criterion, the number of representative images increases when the number of video scenes is large. As a result, the number of images displayed in a list increases, and it is often difficult to find a desired portion. For example, when summarizing a news program, in many cases, representative images of dozens of scenes are displayed from each article. There was an issue that needed to be seen.

【0023】また、図16、図17を用いて説明したシ
ステムにおける映像表示装置では静止画を用いて見たい
部分を探すことはできるが、動画と音声を用いて見たい
部分を探すことができないという課題を有していた。さ
らに、ショット毎ラッシュ再生法と時間長指定要約法で
は静止画を用いて見たい部分を探すことができないだけ
でなく、一定時間に達しないシーンが再生される場合、
その一定時間の中に次のシーンの先頭の映像が含まれる
のでその一定時間の終わりまで次のシーンが再生され、
その後再び当該次のシーンが先頭から一定時間再生され
るので、この当該次のシーンの先頭の映像が連続してか
つ重複して再生されるという課題を有していた。
The video display device in the system described with reference to FIGS. 16 and 17 can search for a desired portion using still images, but cannot search for a desired portion using moving images and sounds. There was a problem that. Furthermore, in the case of the shot-by-shot rush reproduction method and the time length designation summarization method, not only can a part to be viewed using a still image cannot be searched, but also a scene that does not reach a certain time is reproduced.
Since the first scene of the next scene is included in the certain time, the next scene is played until the end of the certain time,
Thereafter, the next scene is reproduced again from the beginning for a certain period of time, so that there is a problem that the beginning video of the next scene is reproduced continuously and redundantly.

【0024】以上で述べたように、映像の内容や使用者
の好み等に関わりなく一定の映像要約基準のみで画一的
に代表画像を選択する映像要約装置や代表画像を映像の
長さ等に関係なく表示する映像表示装置では、映像の内
容等に依存する多様性および要約に対する使用者の多様
なニーズに対応できないという課題を有していた。
As described above, a video summarizing apparatus for uniformly selecting a representative image only based on a certain video summarization standard regardless of the content of the video, the user's preference, and the like, and displaying the representative image as the length of the video, etc. However, the video display device that displays the video data regardless of the user has a problem that it cannot respond to the user's various needs for the diversity and the summary depending on the content of the video and the like.

【0025】本発明は上記従来技術の課題を解決するも
ので、映像内容の多様性および使用者の好みの多様性に
対応する映像要約装置および要約情報を効率的に表示す
るための映像表示装置を提供することを目的とする。
The present invention solves the above-mentioned problems of the prior art, and provides a video summarizing apparatus corresponding to a variety of video contents and a variety of user preferences and a video display apparatus for efficiently displaying summary information. The purpose is to provide.

【0026】[0026]

【課題を解決するための手段】上記課題を解決するため
に、本発明に係る映像要約方法を実現する映像要約装置
は、取り込まれた映像を所定の基準に基づいて分割して
形成した複数のシーンを複数の時系列グループにまとめ
るためのまたは上記複数のシーンより所定のシーンを選
択するための映像要約手段を複数用意している。この複
数の映像要約手段とは、一定時間以上継続するシーンだ
けを検出してその代表画像を抜き出す手段、色差相関値
法などを用いてグループ化した結果に対して一定時間以
上継続するシーンがその前後のシーンと同一グループに
ならないように修正してから各グループの代表画像を抜
き出す手段、さらに、映像のダイジェストを含む数十シ
ーンのそれぞれの代表画像と他のシーンのそれぞれの代
表画像との間で類似度を計算し類似度がしきい値以上に
なるシーンを検出してその代表画像だけを抜き出す手段
等であり、各手段によって抜き出された映像要約情報は
内部または外部に備えられた記録手段に映像情報自体と
共に記録される。本発明に係る映像表示方法を実現する
映像表示装置では、上記記録手段に記録された映像要約
情報である映像の要約画像である代表画像を一覧表示
し、一覧表示された画像の中から見たい部分の画像を指
定すると、その部分以降の映像が再生される。さらに、
あらかじめ映像要約手段の優先順位と、各映像要約手段
の中での画像選択の優先順位を決めておき、これらの優
先順位を用いて代表画像を決定し、使用者に指定された
枚数以下の画像を抜き出すことができる。また、一つの
映像要約手段により抜き出された代表画像の枚数がしき
い値以上になるとき、当該映像要約手段の代表画像を他
の映像要約手段による代表画像よりも先に選んで映像か
ら抜き出す画像を決定し、そうでない場合には、当該映
像要約手段以外の他の映像要約手段の代表画像の中から
選んで映像から抜き出す画像を決定して、使用者に指定
された枚数以下の画像を抜き出すことができる。
In order to solve the above-mentioned problems, an image summarizing apparatus for realizing an image summarizing method according to the present invention comprises a plurality of images obtained by dividing a captured image based on a predetermined standard. A plurality of video summarizing means are provided for grouping scenes into a plurality of time series groups or for selecting a predetermined scene from the plurality of scenes. The plurality of video summarizing means includes a means for detecting only a scene that continues for a certain time or more and extracting a representative image thereof, and a scene for a certain time or more for a result of grouping using a color difference correlation value method or the like. Means to extract representative images of each group after correcting so that they do not belong to the same group as the preceding and following scenes, and between each representative image of dozens of scenes including the digest of the video and each representative image of other scenes Means for calculating a similarity, detecting scenes in which the similarity is equal to or more than a threshold value, and extracting only a representative image thereof.The video summary information extracted by each means is stored in an internal or external recording. It is recorded in the means together with the video information itself. In the video display apparatus for realizing the video display method according to the present invention, a list of representative images, which are summary images of video, which is video summary information recorded in the recording unit, is displayed. When an image of a part is specified, the video after that part is reproduced. further,
The priorities of the video summarizing means and the priorities of image selection in each video summarizing means are determined in advance, and a representative image is determined using these priorities. Can be extracted. Further, when the number of representative images extracted by one video summarizing means is equal to or more than a threshold value, the representative image of the video summarizing means is selected and extracted from the video before the representative image by the other video summarizing means. Determine the image, if not, select an image to be extracted from the video by selecting from representative images of other video summarization means other than the video summarization means, and determine the number of images less than the number specified by the user. Can be extracted.

【0027】さらに、代表画像を一覧表示する代わり
に、各代表画像の位置付近の映像の一部を次々に再生す
る(以下、再生された映像を要約映像という)ことがで
きる。そして、この要約映像上の任意のフレームを先頭
にして、要約前の映像を再生することができる。また、
要約映像の再生の中断時に、中断した位置のフレーム画
像の内容を代表する代表画像を含む複数の代表画像を一
覧表示する。
Further, instead of displaying the representative images in a list, a part of the video near the position of each representative image can be reproduced one after another (hereinafter, the reproduced video is referred to as a summary video). Then, the video before the summarization can be reproduced with an arbitrary frame on the summary video at the top. Also,
When the reproduction of the summary video is interrupted, a list of a plurality of representative images including a representative image representing the contents of the frame image at the interrupted position is displayed.

【0028】ただし、要約映像において、代表画像の位
置付近の映像の一部が直前の代表画像の位置付近の映像
の一部に含まれる場合には、直前の代表画像の位置付近
の映像の一部の末尾を、代表画像の位置付近の映像の一
部の先頭とする。
However, in the summary video, when a part of the video near the position of the representative image is included in a part of the video near the position of the immediately preceding representative image, one of the videos near the position of the immediately preceding representative image is included. The end of the set is the beginning of a part of the video near the position of the representative image.

【0029】[0029]

【発明の実施の形態】請求項1に記載の発明は、取り込
まれた映像をそのシーンチェンジを検出することにより
分割して形成した複数のシーンについて、時系列的にそ
の前後のシーンの所定の画像(以下、シーンの所定の画
像を代表画像という。)の類似度を計算することにより
代表画像を含むシーンを時系列グループにまとめる時系
列グループ生成過程と、同一の時系列グループ内にあっ
ても一定時間以上継続するシーンについてはその前後の
シーンとは独立する時系列グループとする修正をかける
時系列グループ追加過程と、上記2つの過程で得られた
各時系列グループの映像要約情報を出力する映像要約情
報出力過程とからなる映像要約方法であり、一定時間以
上継続するシーンは全て抜き出すとともに、所定の基準
で時系列のシーンをグループ化するという作用を有す
る。
According to the first aspect of the present invention, a plurality of scenes formed by dividing a captured video by detecting a scene change of the captured video are determined in a time series by a predetermined number of scenes before and after the scene. A time-series group generation process of calculating the similarity of an image (hereinafter, a predetermined image of a scene is referred to as a representative image) to group scenes including the representative image into a time-series group. For a scene that continues for a certain period of time or more, a time series group adding step of making it a time series group independent of the preceding and following scenes, and video summary information of each time series group obtained in the above two steps are output. Is a video summarization method comprising the steps of outputting video summarization information. It has the effect that grouping.

【0030】請求項2に記載の発明は、請求項1に記載
した映像要約方法の時系列グループ生成過程におけるシ
ーンの代表画像間の類似度を計算する方法が、比較すべ
き代表画像間で共通する色を持つ画素の割合を計算する
ものであることを特徴とする映像要約方法であり、一定
時間以上継続するシーンは全て抜き出すとともに、色に
関する類似度を基準として時系列のシーンをグループ化
するという作用を有する。
According to a second aspect of the present invention, the method of calculating the similarity between representative images of scenes in the time series group generation process of the video summarizing method according to the first aspect is common to representative images to be compared. This is a video summarization method characterized by calculating the ratio of pixels having the same color, and extracts all scenes that last for a certain period of time or more, and groups time-series scenes based on the similarity regarding color. It has the action of:

【0031】請求項3に記載の発明は、取り込まれた映
像を構成する複数のシーンの内で所定の基準に従って選
択された複数のシーン(以下、基準シーンという。)の
所定の画像(以下、シーンの所定の画像を代表画像とい
う。)と映像を構成する全てのシーンの代表画像との間
で所定の基準に従って類似度を計算して基準シーンの代
表画像との類似度がしきい値以上になる代表画像を含む
シーンを選択する類似度計算過程と、上記過程で得られ
たシーンの映像要約情報を出力する映像要約情報出力過
程とからなる映像要約方法であり、映像のダイジェスト
シーンである蓋然性の高い時系列シーンと映像を構成す
る全てのシーンとの間の類似度を求めることによりダイ
ジェストシーンに対応する本編シーンを抜き出すという
作用を有する。
According to a third aspect of the present invention, a predetermined image (hereinafter, referred to as a reference scene) of a plurality of scenes (hereinafter, referred to as reference scenes) selected according to a predetermined reference from a plurality of scenes constituting a captured image. A similarity between a predetermined image of a scene is referred to as a representative image) and representative images of all scenes constituting a video according to a predetermined standard, and the similarity with the representative image of the reference scene is equal to or greater than a threshold value And a video summary information output step of outputting video summary information of the scene obtained in the above process, which is a digest scene of the video. This has the effect of extracting the main part scene corresponding to the digest scene by obtaining the similarity between the highly likely time-series scene and all the scenes constituting the video.

【0032】請求項4に記載の発明は、請求項3に記載
の映像要約方法であって、類似度計算過程において基準
シーンの代表画像と本編シーンの代表画像との間の類似
度を計算するための基準が、代表画像を複数の画像領域
に分割し、両代表画像の各画像領域内の画素の平均色の
RGB成分を比較するものであることを特徴とする。映
像のダイジェストシーンである蓋然性の高い時系列シー
ンと映像を構成する全てのシーンとの間の代表画像の各
画像領域内の画素の平均色のRGB成分を比較すること
により類似度を求めることで、ダイジェストシーンに対
応する本編シーンを抜き出すという作用を有する。
According to a fourth aspect of the present invention, there is provided the video summarizing method according to the third aspect, wherein a similarity between the representative image of the reference scene and the representative image of the main scene is calculated in the similarity calculating step. Is that the representative image is divided into a plurality of image regions, and the RGB components of the average color of the pixels in each image region of both representative images are compared. By calculating the similarity by comparing the RGB components of the average color of the pixels in each image region of the representative image between the time-series scene having high probability, which is the digest scene of the video, and all the scenes constituting the video, And has the effect of extracting the main part scene corresponding to the digest scene.

【0033】請求項5に記載の発明は、取り込まれた映
像をそのシーンチェンジを検出することにより分割して
形成した複数のシーンを複数の時系列グループにまとめ
るための複数の映像要約過程および/または上記複数の
シーンより所定のシーンを選択するための複数の映像要
約過程と、各映像要約過程により選択された各シーンの
映像要約情報を出力する映像要約出力過程とからなる映
像要約方法であって、使用者が映像の特徴等に合わせて
代表画像を決定するための複数の映像要約情報を用意す
るという作用を有する。
According to a fifth aspect of the present invention, there are provided a plurality of video summarization processes for combining a plurality of scenes formed by dividing a captured video by detecting a scene change thereof into a plurality of time series groups, and / or Alternatively, a video summarization method comprising: a plurality of video summarization processes for selecting a predetermined scene from the plurality of scenes; and a video summary output process for outputting video summary information of each scene selected by each video summarization process. In addition, there is an effect that the user prepares a plurality of pieces of video summary information for determining the representative image according to the characteristics of the video.

【0034】請求項6に記載の発明は、請求項5に記載
した映像要約方法であって、複数のシーンを複数の時系
列グループにまとめるための複数の映像要約過程および
/または上記複数のシーンより所定のシーンを選択する
ための複数の映像要約過程が、全てのシーンを選択する
映像要約過程と、上記取り込まれた映像の複数のシーン
のうち一定時間以上継続するシーンのみを選択する映像
要約過程と、時系列的にその前後のシーンの所定の画像
(以下、シーンの所定の画像を代表画像という。)の類
似度を所定の基準に従って計算して類似度がしきい値以
上になる代表画像を含むシーンを時系列グループにまと
める映像要約過程と、請求項1または請求項2に記載し
た映像要約過程と、請求項3または請求項4に記載した
映像要約過程のうち少なくとも2以上の映像要約過程で
あることを特徴とするものであり、使用者が映像の特徴
等に合わせて代表画像を決定するための複数の映像要約
情報を用意するという作用を有する。
According to a sixth aspect of the present invention, there is provided the video summarizing method according to the fifth aspect, wherein a plurality of video summarizing processes for combining a plurality of scenes into a plurality of time series groups and / or the plurality of scenes are performed. A plurality of video summarization processes for selecting a more predetermined scene include a video summarization process of selecting all scenes, and a video summarization process of selecting only a scene that continues for a predetermined time or more among the plurality of scenes of the captured video. The process and the similarity of a predetermined image of a scene before and after the scene in time series (hereinafter, a predetermined image of the scene is referred to as a representative image) are calculated according to a predetermined reference, and the similarity is equal to or larger than a threshold. A video summarization process for grouping scenes including images into a time-series group, a video summarization process according to claim 1 or 2, and a video summarization process according to claim 3 or 4. And characterized in that at least two or more video summarizing process, it has the effect of user to prepare a plurality of video summary information to determine a representative image in accordance with the characteristics or the like of the video.

【0035】請求項7に記載の発明は、請求項5または
請求項6に記載した映像要約方法であって、映像要約情
報がシーンの所定の画像(以下、シーンの所定の画像を
代表画像という。)または所定のフレーム番号(以下、
代表フレーム番号という。)であって、代表画像間のま
たは代表フレーム番号間のフレーム数が多いものから順
に代表画像または代表フレーム番号を選択してゆき、所
定の数のシーンまたは時系列シーンを選択するという作
用を有する。
According to a seventh aspect of the present invention, there is provided the video summarizing method according to the fifth or sixth aspect, wherein the video summarizing information is a predetermined image of a scene (hereinafter, a predetermined image of a scene is referred to as a representative image). .) Or a predetermined frame number (hereinafter, referred to as
It is called a representative frame number. ) In which the representative image or the representative frame number is selected in ascending order of the number of frames between the representative images or the representative frame numbers, and a predetermined number of scenes or time-series scenes are selected. .

【0036】請求項8に記載の発明は、請求項7に記載
の映像要約方法であって、一つの映像要約過程によって
は所定の数のシーンまたは時系列シーンが選択できない
場合に、残りのシーンまたは時系列シーンを他の映像要
約手段によって選択されたシーンまたは時系列シーンを
選択するという作用を有する。
The invention according to claim 8 is the video summarizing method according to claim 7, wherein when a predetermined number of scenes or time-series scenes cannot be selected by one image summarizing process, the remaining scenes are selected. Alternatively, it has an effect of selecting a time series scene or a scene selected by another video summarizing means or a time series scene.

【0037】請求項9に記載の発明は、請求項7または
請求項8に記載の映像要約方法であって、使用者が、映
像要約過程の優先順位および選択すべきシーンまたは時
系列シーンの数を入力し、その情報に従って映像要約を
行うという作用を有する。
According to a ninth aspect of the present invention, there is provided the video summarizing method according to the seventh or the eighth aspect, wherein a user selects the priority of the video summarizing process and the number of scenes or time series scenes to be selected. Is input, and video summarization is performed according to the information.

【0038】請求項10に記載の発明は、映像および請
求項1から請求項9までのいずれかの方法で選択した上
記映像の代表画像を表示する映像表示方法において、代
表画像の位置付近の映像の一部をつないだ映像(以下、
要約映像という。)上で指定されたフレームを先頭にし
て、映像を再生することを特徴とする映像表示方法であ
って、音声や被写体の動きを考慮しながら見たい部分を
指定できるという作用を有する。
According to a tenth aspect of the present invention, in a video display method for displaying a video and a representative image of the video selected by any one of the first to ninth methods, the video near the position of the representative image is displayed. Video connecting a part of
It is called a summary video. This is a video display method characterized by reproducing a video with the frame specified above at the head, and has an effect that a portion to be viewed can be specified while taking into account sound and movement of a subject.

【0039】請求項11に記載の発明は、映像の中から
抜き出した画像の位置付近の映像の一部をつないだ映像
(以下、要約映像という。)の再生の中断時に、中断し
た位置のフレーム画像の内容を代表する代表画像を含む
複数の代表画像を一覧表示することを特徴とする映像表
示方法であって、使用者が見たい部分の情報を集中的に
表示するという作用を有する。
According to an eleventh aspect of the present invention, when reproduction of a video (hereinafter, referred to as a summary video) in which a part of a video near the position of an image extracted from a video is interrupted, a frame at the interrupted position is interrupted. A video display method characterized by displaying a list of a plurality of representative images including representative images representing the contents of an image, and has an effect of intensively displaying information of a part desired by a user.

【0040】請求項12に記載の発明は、請求項10ま
たは請求項11に記載の映像表示方法であって、要約映
像の先頭の一部が直前の要約映像の末尾の一部に含まれ
る場合には、当該要約映像の中で直前の要約映像の末尾
の一部に含まれた最後のフレームの次のフレームを当該
要約映像の先頭とするという作用を有する。この方法は
一度再生された要約映像を間髪入れずに重複しての再生
を回避することができる。
According to a twelfth aspect of the present invention, there is provided the video display method according to the tenth or eleventh aspect, wherein a part of the head of the summary video is included in a part of the tail of the immediately preceding summary video. Has the effect of setting the frame next to the last frame included in a part of the end of the previous summary video in the summary video as the head of the summary video. This method can avoid duplicative reproduction of the once reproduced summary video without a pause.

【0041】請求項13に記載された発明は、取り込ま
れた映像を所定の基準に基づいて分割して形成した複数
のシーンを複数の時系列グループにまとめることにより
映像の要約情報を抽出するための複数の映像要約手段お
よび/または上記複数のシーンより所定のシーンを選択
することにより映像の要約情報を抽出するための複数の
映像要約手段と、上記の一またはそれ以上の映像要約手
段で抽出された要約情報を選択する要約情報選択手段お
よび要約情報表示手段を備えた映像要約システムであっ
て、どの基準で要約された情報を表示するかを自由に選
択できるという作用を有する。
According to a thirteenth aspect of the present invention, a plurality of scenes formed by dividing a captured video based on a predetermined criterion are grouped into a plurality of time-series groups to extract video summary information. And / or a plurality of video summarization means for extracting video summary information by selecting a predetermined scene from the plurality of scenes, and the one or more video summarization means. A video summarizing system comprising a summary information selecting means and a summary information displaying means for selecting the summarized information, which has an effect that it is possible to freely select on which basis the summarized information is to be displayed.

【0042】以下、本発明に基づく実施の形態を図面を
参照しながら説明する。 (第1の実施の形態)図1は第1の実施の形態であっ
て、複数の映像要約基準に基づき映像より要約情報を抽
出する映像要約装置と、この装置により選択された映像
の要約情報およびその映像自体を表示する映像表示装置
を組み合わせて構成した映像要約システムを示すブロッ
ク図である。
Hereinafter, embodiments of the present invention will be described with reference to the drawings. (First Embodiment) FIG. 1 shows a first embodiment, in which a video summarization apparatus for extracting summary information from a video based on a plurality of video summarization criteria, and a video summary information selected by the apparatus. FIG. 2 is a block diagram showing a video summarization system configured by combining a video display device that displays the video itself.

【0043】図1において、101、102は映像出力
装置であって、101はビデオディスク装置、102は
VTRである。103はビデオディスク装置101やV
TR102からの映像信号を処理しながら、映像を要約
する映像要約装置であって、フレーム画像を取り込む画
像取り込み手段104と、シーンチェンジを検出するシ
ーンチェンジ検出手段105と、一定時間以上継続する
シーンを検出する時間判定処理手段106と、シーンの
代表画像のグループ化を実行するグループ生成手段10
7と、時間判定処理手段106とグループ生成手段10
7の出力を受けてグループ化の結果を修正するグループ
追加手段108と、シーンの代表画像の間の類似度を計
算する画像類似度計算手段109と、類似度計算手段で
求めた類似度がしきい値以上になるシーンを検出する画
像基準処理手段110から構成される。111は、ビデ
オディスク装置101とVTR102を制御する制御装
置である。112は、映像を圧縮する映像圧縮装置であ
る。113は映像圧縮装置112で圧縮された映像デー
タと、映像要約装置103で検出された各種シーンとグ
ループのデータと、それぞれの代表画像を保存するファ
イルサーバーである。114はファイルサーバ113に
格納されたデータを用いて映像を表示する映像表示装置
であり、映像要約装置で抜き出された画像の位置付近の
映像を一定時間づつ次々に再生する要約映像再生手段1
15と、映像の再生を制御するユーザーインタフェース
手段116と、指定された位置以降の映像を再生する映
像再生手段117から構成される。
In FIG. 1, 101 and 102 are video output devices, 101 is a video disk device, and 102 is a VTR. 103 is a video disk device 101 or V
A video summarizing apparatus for summarizing a video while processing a video signal from a TR 102, comprising: an image capturing unit 104 for capturing a frame image; a scene change detecting unit 105 for detecting a scene change; Time determination processing means 106 for detecting, and group generation means 10 for performing grouping of representative images of scenes
7, time determination processing means 106 and group generation means 10
7, the group addition means 108 for correcting the grouping result in response to the output of the image 7, the image similarity calculation means 109 for calculating the similarity between the representative images of the scenes, and the similarity calculated by the similarity calculation means. It comprises an image reference processing means 110 for detecting a scene having a threshold value or more. A control device 111 controls the video disk device 101 and the VTR 102. Reference numeral 112 denotes a video compression device that compresses a video. Reference numeral 113 denotes a file server that stores video data compressed by the video compression device 112, data of various scenes and groups detected by the video summarization device 103, and respective representative images. Reference numeral 114 denotes a video display device for displaying a video using data stored in the file server 113. The video summary device 1 reproduces videos near the position of the image extracted by the video summary device one after another for a certain period of time.
15, a user interface means 116 for controlling the reproduction of the video, and a video reproduction means 117 for reproducing the video after the designated position.

【0044】映像要約システムの映像要約装置103
は、例えば、コンピュータハードウエアおよびソフトウ
エアの組み合わせにより実現することができる。また、
映像表示装置114のうち、要約映像再生手段115お
よび映像再生手段117はコンピュータ上で実現するこ
とができ、ユーザーインターフェース手段116はCR
T等のモニターおよびコンピュータのハードウエアおよ
びソフトウエアの組み合わせにより実現することができ
る。
The image summarizing device 103 of the image summarizing system
Can be realized, for example, by a combination of computer hardware and software. Also,
Of the video display device 114, the summary video playback unit 115 and the video playback unit 117 can be realized on a computer, and the user interface unit 116 is a CR
It can be realized by a combination of a monitor such as T and computer hardware and software.

【0045】本実施の形態に係る映像要約装置103は
4つの映像要約基準を備えている。第1の映像要約基準
は、映像の含む全てのシーンの先頭画面を代表画像とす
る映像要約基準である。以下では、この映像要約基準を
全シーン表示モードという。第2の映像要約基準は、一
定値以上の時間長を有するシーンの先頭画面を代表画像
とする映像要約基準である。以下では、この映像要約基
準を時間判定モードという。第3の映像要約基準は、時
間判定モードで選択されたシーンを除くシーンを色差相
関値法によりグループ化し、時間判定モードで選択され
たシーンおよび上記グループ化されたシーンの先頭画面
を代表画像とする映像要約基準である。以下では、この
映像要約基準をハイブリッドモードという。第4の映像
要約基準は、特定のニュース番組のように映像のダイジ
ェストが番組の冒頭等にあることがあらかじめわかって
いる映像の当該ダイジェストを含む部分の代表画像とそ
の他のシーンの先頭画面との間の類似度を、複数の画像
領域内の画素のRGB成分の比較によって計算し、所定
のしきい値以上の値を持つシーンの先頭画面を代表画像
とする映像要約基準である。以下では、この映像要約基
準を画像基準モードという。
The video summarizing apparatus 103 according to the present embodiment has four video summarization standards. The first video summarization criterion is a video summarization criterion in which the top screen of all scenes including a video is a representative image. Hereinafter, this video summarization standard is referred to as an all scene display mode. The second video summarization criterion is a video summarization criterion in which a top screen of a scene having a time length equal to or longer than a certain value is used as a representative image. Hereinafter, this video summarization reference is referred to as a time determination mode. The third video summarization criterion is that scenes other than the scene selected in the time determination mode are grouped by the color difference correlation method, and the scene selected in the time determination mode and the top screen of the grouped scenes are defined as a representative image. This is the video summarization criterion. Hereinafter, this video summarization standard is referred to as a hybrid mode. The fourth video summarization criterion is that a representative image of a portion including the digest of a video, such as a specific news program, which is known in advance that the digest of the video is at the beginning of the program and the top screen of other scenes This is a video summarization criterion in which the similarity between pixels is calculated by comparing RGB components of pixels in a plurality of image areas, and the top screen of a scene having a value equal to or greater than a predetermined threshold value is used as a representative image. Hereinafter, this video summarization standard is referred to as an image standard mode.

【0046】以上のように構成される映像要約システム
について、図2に示すフローチャートを用いてその動作
を説明する。
The operation of the video summarizing system configured as described above will be described with reference to the flowchart shown in FIG.

【0047】手順201では、図1における制御装置1
11がビデオディスク装置101とVTR102を制御
して、映像の再生を開始し、同時に映像圧縮装置112
での映像の圧縮を開始する。
In step 201, the control device 1 shown in FIG.
11 controls the video disk device 101 and the VTR 102 to start video playback, and at the same time,
Start compressing video in.

【0048】手順202では、制御装置111が映像が
終了したかどうか判定する。映像が終了した場合には手
順212に進み、そうでなければ、手順203に進む。
In step 202, the control device 111 determines whether or not the image has been completed. If the video has ended, the procedure proceeds to step 212; otherwise, the procedure proceeds to step 203.

【0049】手順203から手順211までは映像要約
装置103において行われる処理である。
Steps 203 to 211 are processes performed in the video summarizing apparatus 103.

【0050】手順203では、画像取り込み手段104
が再生中のフレーム画像を取り込む。
In step 203, the image capturing means 104
Captures the frame image being played.

【0051】手順204では、シーンチェンジ検出手段
105が、画像取り込み手段104で取り込まれたフレ
ーム画像を処理して、「従来の技術」の欄で述べた共通
色比率法を用いて、シーンチェンジが発生したかどうか
を判定する。ただし、共通色比率法では、次シーンのフ
レーム画像を2枚処理してからシーンチェンジが検出さ
れるので、「シーンチェンジが発生した」という判定は
「前回取り込んだフレーム画像がカット画面である」こ
とを表す。
In step 204, the scene change detecting means 105 processes the frame image captured by the image capturing means 104, and detects a scene change using the common color ratio method described in the section of "Prior Art". Determine if it has occurred. However, in the common color ratio method, since a scene change is detected after processing two frame images of the next scene, the determination that “a scene change has occurred” is “the previously captured frame image is a cut screen”. It represents that.

【0052】図3は、今述べたシーンチェンジ検出手段
105がシーンチェンジを検出する方法と前シーンを示
す説明図である。図3において、aは手順203で取り
込まれたフレーム画像であり、bは1回前の手順203
で取り込んだフレーム画像であり、cは2回前の手順2
03で取り込んだフレーム画像であり、dは3回前の手
順203で取り込んだフレーム画像である。この場合、
シーンチェンジはbとcとの間で発生しているが、それ
を検出するのはaを取り込んだ後であることを示してい
る。また、検出したシーンチェンジの直前のシーンを前
シーンと呼ぶ。
FIG. 3 is an explanatory diagram showing a method of detecting a scene change by the scene change detecting means 105 just described and a previous scene. In FIG. 3, a is the frame image captured in step 203, and b is the previous step 203.
Is the frame image captured in step 2, and c is the procedure 2 before
03 is the frame image fetched, and d is the frame image fetched in the previous procedure 203 three times. in this case,
Although a scene change has occurred between b and c, it indicates that it is detected after a is taken. The scene immediately before the detected scene change is called a previous scene.

【0053】なお、映像変化モデル法などを用いてシー
ンチェンジを検出してもよい。また、あらかじめオペレ
ータがシーンチェンジを判断して、そのシーンチェンジ
が発生した時点のフレーム番号を入力しておいてもよ
い。
The scene change may be detected by using a video change model method or the like. Alternatively, the operator may determine a scene change in advance and input a frame number at the time when the scene change occurs.

【0054】手順204でシーンチェンジ検出手段10
5が「シーンチェンジが発生した」と判定した場合には
手順205に進み、そうでなければ手順202に戻る。
In step 204, the scene change detecting means 10
If it is determined that the scene change has occurred, the process proceeds to step 205; otherwise, the process returns to step 202.

【0055】手順205では、全シーンモードのシーン
の代表画面および先頭フレームを決定する。具体的に
は、手順204で取り込まれた画像およびシーンチェン
ジが発生した時点のフレーム番号を全シーンモードのシ
ーンの代表画面および先頭フレームとしてファイルサー
バ113に保存する。なお、画像をファイルサーバー1
13に保存する場合には、縮小して保存してもよい。
In step 205, the representative screen and the first frame of the scene in the all scene mode are determined. Specifically, the image captured in step 204 and the frame number at the time when the scene change occurs are stored in the file server 113 as the representative screen and the top frame of the scene in all scene modes. In addition, the image is transferred to the file server 1
In the case where the data is stored in the file 13, the data may be reduced and stored.

【0056】手順206では、時間判定モードのシーン
の代表画面および先頭フレームを決定する。具体的に
は、手順204で検出したシーンチェンジの直前のシー
ン(以下、前シーンという)の時間長を計算してから、
時間判定処理手段106で、時間長が8秒以上になる前
シーンを検出し、検出した前シーンの代表画像を時間判
定モードの代表画像とみなしてファイルサーバ113に
保存する。また、時間判定処理手段106で検出された
前シーンの先頭フレーム番号を時間判定モードで表示す
るシーンの先頭フレーム番号としてファイルサーバーに
保存する。
In step 206, the representative screen and the first frame of the scene in the time determination mode are determined. Specifically, after calculating the time length of the scene immediately before the scene change detected in step 204 (hereinafter referred to as the previous scene),
The time determination processing means 106 detects a previous scene having a time length of 8 seconds or more, and stores a representative image of the detected previous scene in the file server 113 as a representative image in the time determination mode. The head frame number of the previous scene detected by the time determination processing means 106 is stored in the file server as the head frame number of the scene to be displayed in the time determination mode.

【0057】なお、本実施の形態では、8秒以上の前シ
ーンを検出したが、必ずしも8秒である必要はない。
In the present embodiment, the previous scene of 8 seconds or more is detected, but it is not always necessary to be 8 seconds.

【0058】手順207から209まででは、ハイブリ
ッドモードのシーンの代表画面および先頭フレームを決
定する。
In steps 207 to 209, the representative screen and the first frame of the scene in the hybrid mode are determined.

【0059】手順207では、グループ生成手段107
が、手順204で検出したシーンチェンジ直後のシーン
(以下、次シーンという。)の代表画像と前シーンの代
表画像をファイルサーバー113から取り出し、その間
の色差ヒストグラム相関値を求め、色差ヒストグラム相
関値がしきい値以上になる場合に、次シーンの代表画像
をハイブリッドモードの代表画像とみなしてファイルサ
ーバ113に保存する。さらに、色差ヒストグラム相関
値がしきい値以上になる場合には、次シーンの先頭フレ
ーム番号をハイブリッドモードで表示するシーンの先頭
フレーム番号としてファイルサーバー113に保存す
る。
In step 207, the group generation means 107
However, the representative image of the scene immediately after the scene change (hereinafter, referred to as the next scene) detected in step 204 and the representative image of the previous scene are extracted from the file server 113, and the color difference histogram correlation value between them is obtained. If the value is equal to or larger than the threshold value, the representative image of the next scene is regarded as the representative image of the hybrid mode and stored in the file server 113. If the color difference histogram correlation value is equal to or greater than the threshold value, the first frame number of the next scene is stored in the file server 113 as the first frame number of the scene to be displayed in the hybrid mode.

【0060】手順208は分岐処理である。前シーンの
時間長が8秒以上になる場合には、手順209に進み、
そうでなければ手順210に進む。
Step 208 is a branching process. If the time length of the previous scene is 8 seconds or more, proceed to step 209,
Otherwise, proceed to step 210.

【0061】手順209では、グループ追加手段108
が時間長が8秒以上の前シーンの代表画像と次シーンの
代表画像をハイブリッドモードの代表画像とみなしてフ
ァイルサーバー113に保存する。さらに、上記前シー
ンの先頭フレーム番号と次シーンの先頭フレーム番号を
ハイブリッドモードで表示するシーンの先頭フレーム番
号としてファイルサーバー113に保存する。
In step 209, the group adding means 108
Saves the representative image of the previous scene and the representative image of the next scene having a time length of 8 seconds or more as the representative image of the hybrid mode in the file server 113. Further, the head frame number of the previous scene and the head frame number of the next scene are stored in the file server 113 as the head frame number of the scene to be displayed in the hybrid mode.

【0062】手順210から211まででは、画像基準
モードのシーンの代表画面および先頭フレームを決定す
る。
In steps 210 to 211, the representative screen and the first frame of the scene in the image reference mode are determined.

【0063】手順210では、手順204においてシー
ンチェンジ検出手段105により求められた次シーンの
代表画像INと映像の先頭の20シーンの代表画像I
M(Mは1から20までの自然数)との間の類似度S(M,
N)を画像類似度計算手段110が計算する。類似度の計
算方法としては、各種の方法が考えられる。図4でその
一例を紹介する。図4は画像基準モードにおいて、ダイ
ジェストを含む部分の代表画像とその他のシーンとの間
の色彩の類似度を計算する際に画面をブロックへの分割
することを示す説明図である。すなわち、代表画像IM
を図4に示すように4×4個のブロックに分割し、i番
目のブロック内の画素の平均色のRGB成分Ri(M)、
i(M)、Bi(M)を用いて次式で計算すればよい。
In step 210, the representative image I N of the next scene and the representative image I of the first 20 scenes of the video obtained by the scene change detecting means 105 in step 204.
M (M is a natural number from 1 to 20) S (M,
N) is calculated by the image similarity calculation means 110. Various methods can be considered as a method of calculating the similarity. An example is shown in FIG. FIG. 4 is an explanatory diagram showing that the screen is divided into blocks when calculating the color similarity between the representative image of the portion including the digest and other scenes in the image reference mode. That is, the representative image I M
Is divided into 4 × 4 blocks as shown in FIG. 4, and the RGB components R i (M) of the average color of the pixels in the i-th block are
G i (M), B i and (M) may be calculated by the following equation using.

【0064】[0064]

【数1】 (Equation 1)

【0065】(数1)式において、|x|はxの絶対値
を表す。また、従来例で述べた色差ヒストグラム相関値
を類似度として用いてもよい。
In equation (1), | x | represents the absolute value of x. Further, the color difference histogram correlation value described in the conventional example may be used as the similarity.

【0066】なお、以上の説明では、次シーンの代表画
像との間の類似度を計算する画像として、映像の先頭の
20シーンの代表画像を用いたが、これは、番組の構成
によって変更するようにすることもできる。具体的に
は、映像表示装置114のユーザインターフェース手段
116からの命令により画像類似度計算手段109が次
シーンの代表画像INを映像の先頭でない部分から選ぶ
ようにしてもよい。例えば、映像の末尾にダイジェスト
がある場合には、映像の末尾の複数シーンを用いる。
In the above description, the representative image of the first 20 scenes of the video is used as an image for calculating the degree of similarity with the representative image of the next scene. However, this is changed depending on the structure of the program. You can also do so. Specifically, the image similarity calculation means 109 by a command from the user interface unit 116 of video display device 114 may be pick a representative image I N follows a scene from the portion not at the beginning of the video. For example, when there is a digest at the end of the video, a plurality of scenes at the end of the video are used.

【0067】手順211では、画像基準処理手段110
で、Mが1から20までのいずれかの値をとるときに、
In step 211, the image reference processing means 110
Then, when M takes any value from 1 to 20,

【0068】[0068]

【数2】 (Equation 2)

【0069】が成り立つかどうか調べ、(数2)が成立
するときに、次シーンの先頭フレーム番号を画像基準モ
ードで表示するシーンの先頭フレーム番号としてファイ
ルサーバー113に保存し、次シーンの代表画像を画像
基準モードの代表画像とみなす。(数2)においてθ
SIMはあらかじめ設定したしきい値である。
It is checked whether or not the following holds. When (Equation 2) holds, the first frame number of the next scene is stored in the file server 113 as the first frame number of the scene to be displayed in the image reference mode, and the representative image of the next scene is stored. Is regarded as a representative image in the image reference mode. In (Equation 2), θ
SIM is a preset threshold value.

【0070】手順211の終了後、手順202に戻る。
手順212では、映像の再生と映像の圧縮を中止する。
After the end of step 211, the process returns to step 202.
In step 212, the reproduction of the video and the compression of the video are stopped.

【0071】ここまでの手順でファイルサーバー113
には、複数の映像要約基準、すなわち全シーンモード、
時間判定モード、ハイブリッドモード、画像基準モード
によりそれぞれ抜き出された要約情報、すなわち代表画
像と先頭フレーム番号が保存された。以下の手順213
から手順215までは表示装置114において行われる
処理である。
With the above procedure, the file server 113
Contains several video summarization criteria: full scene mode,
The summary information extracted in the time determination mode, the hybrid mode, and the image reference mode, that is, the representative image and the top frame number are stored. Procedure 213 below
Steps 215 to 215 are processes performed in the display device 114.

【0072】手順213では、使用者がユーザーインタ
ーフェース手段116を介してどのモードによる要約映
像を表示するかを選択する。選択肢は、上述したよう
に、時間判定モード、ハイブリッドモード、画像基準モ
ード、全シーン表示モードである。ユーザーインターフ
ェース手段116は、ファイルサーバー113に対し
て、選択されたモードのシーンの代表画像および先頭フ
レームの情報を要約映像再生手段115に送る旨の信号
を出力する。
In step 213, the user selects which mode to display the summary video through the user interface means 116. The options are the time determination mode, the hybrid mode, the image reference mode, and the all scene display mode, as described above. The user interface unit 116 outputs a signal to the file server 113 to send the representative image of the scene in the selected mode and the information of the first frame to the summary video reproducing unit 115.

【0073】手順214では、手順213で選択された
モードで表示されるべきシーンの先頭フレーム番号と代
表画像の情報が、ファイルサーバー113より要約映像
再生手段115に送られる。これらの情報に基づいて、
要約映像再生手段115は要約映像を表示する。ここで
は使用者がハイブリッドモードを選択した場合について
説明する。図5は本発明の第1の実施の形態における要
約映像の作成方法を示す説明図である。3段の映像情報
のうち、上段は映像自体、中段は上段の映像より抜き出
された5秒間の要約映像、下段は中段の要約映像のみを
連続的に再生することを示したものである。すなわち、
図5の下段に示すように、ハイブリッドモードの各代表
画像のシーンの先頭以降の5秒間の映像データをファイ
ルサーバー113からを取り出し、標準速度で次々に再
生する。
In step 214, the head frame number of the scene to be displayed in the mode selected in step 213 and the information of the representative image are sent from the file server 113 to the summary video reproducing means 115. Based on this information,
The summary video reproducing means 115 displays the summary video. Here, a case where the user selects the hybrid mode will be described. FIG. 5 is an explanatory diagram showing a method of creating a summary video according to the first embodiment of the present invention. Of the three rows of video information, the upper row shows the video itself, the middle row shows the summary video for 5 seconds extracted from the upper row video, and the lower row shows that only the middle summary video is reproduced continuously. That is,
As shown in the lower part of FIG. 5, the video data for 5 seconds after the head of the scene of each representative image in the hybrid mode is taken out from the file server 113 and reproduced one after another at a standard speed.

【0074】なお、各代表画像のシーンの先頭以降の映
像データの長さは5秒間でなくてもよい。また、各代表
画像のシーンの先頭以降の5秒間ではなく、「各代表画
像の2秒前から5秒間再生する」というように、各代表
画像の位置前後の映像を次々に再生してもよい。また、
標準速度で再生せずに、早送りで再生してもよい。ま
た、映像内容に合わせて早送りの速度を変えてもよい。
また、各代表画像のシーンの先頭以降の5秒間が複数の
シーンを含んでもよい。
Note that the length of the video data after the head of the scene of each representative image does not have to be 5 seconds. Also, instead of the five seconds after the beginning of the scene of each representative image, the video before and after the position of each representative image may be played back one after another, such as "play back five seconds from two seconds before each representative image". . Also,
Instead of playback at the standard speed, playback may be performed at fast forward. Further, the fast-forward speed may be changed according to the video content.
Further, the five seconds after the head of the scene of each representative image may include a plurality of scenes.

【0075】使用者は、ユーザーインタフェース手段1
16を用いて要約映像の表示をしながら、見たい部分を
探す。要約映像の制御ボタンとしては、再生、逆再生、
静止、早送り、巻き戻し、1コマ送り、1コマ戻しなど
が考えられる。
The user operates the user interface means 1
While displaying the summary video using the search button 16, search for a desired part. Control buttons for the summary video include play, reverse play,
Still, fast-forward, rewind, one-frame forward, one-frame reverse, and the like can be considered.

【0076】手順215では、使用者が要約映像を見な
がら見たい部分の先頭を指定する。図6は、要約映像の
再生部分を示す説明図である。すなわち、使用者がi番
目のシーンの代表画像の先頭を2秒見た時点でユーザー
インタフェース手段116によりそのシーンを指定した
場合、映像再生手段117による映像の再生開始時点は
「i番目のシーンの代表画像の先頭から2秒経過した時
点」となる。
In step 215, the user designates the head of the part to be viewed while viewing the summary video. FIG. 6 is an explanatory diagram showing a playback part of the summary video. In other words, when the user specifies the scene by the user interface means 116 at the point of time when the user views the top of the representative image of the i-th scene for 2 seconds, the reproduction start time of the video by the video reproducing means 117 is " At the time when two seconds have elapsed from the head of the representative image ".

【0077】図7に、見たい部分を指定するためのユー
ザーインターフェース116の画面の例を示す。図7に
おいて、aは要約映像を表示する部分、bは要約映像を
制御するボタン、cは見たい部分を指定するボタンであ
る。見たい部分を指定するボタンを押した瞬間に、aに
表示されている画像が、見たい部分の先頭とみなされ
る。従って、見たい部分で要約映像を静止させておき、
ボタンcを押すと、確実に見たい部分の先頭を指定する
ことができる。
FIG. 7 shows an example of a screen of the user interface 116 for designating a part to be viewed. In FIG. 7, a is a portion for displaying the summary video, b is a button for controlling the summary video, and c is a button for specifying a portion to be viewed. As soon as the button for designating the part to be viewed is pressed, the image displayed in a is regarded as the head of the part to be viewed. Therefore, keep the summary video still at the part you want to see,
When the button c is pressed, the head of the part to be surely viewed can be designated.

【0078】なお、以上の説明では、グループの先頭シ
ーンの代表画像をハイブリッドモードの代表画像とした
が、他の方法で代表画像を選んでもよい。例えば、各グ
ループで最も時間長が長いシーンの代表画像をハイブリ
ッドモードの代表画像とみなしてもよい。また、本実施
の形態では選択するモードを4つ用意したが、4つでな
くてもよい。代表画像を求める順番も自由であり、必ず
しも、全シーン表示モード、時間判定モード、ハイブリ
ッドモード、画像基準モードの順番で代表画像を決定し
なくてもよい。
In the above description, the representative image of the head scene of the group is set as the representative image in the hybrid mode. However, the representative image may be selected by another method. For example, a representative image of a scene having the longest time length in each group may be regarded as a representative image in the hybrid mode. Further, in the present embodiment, four modes to be selected are prepared, but the number may not be four. The order in which the representative images are obtained is also arbitrary, and the representative images do not necessarily have to be determined in the order of the all scene display mode, the time determination mode, the hybrid mode, and the image reference mode.

【0079】手順214において、要約映像を静止した
ときに、静止した位置の直前の代表画像の前後の代表画
像を一覧表示してもよい。そして、手順215におい
て、表示された代表画像の一つを見たい部分の先頭とし
て指定してもよい。同時に表示する代表画像の枚数は、
例えば24枚にすればよい。
In step 214, when the summary video is frozen, a list of representative images before and after the representative image immediately before the still position may be displayed. Then, in step 215, one of the displayed representative images may be designated as the head of a part to be viewed. The number of representative images displayed at the same time is
For example, the number of sheets may be 24.

【0080】また、手順214において、各代表画像の
シーンの先頭以降の5秒間の映像データを取り出すが、
直前の代表画像のシーンの先頭以降の5秒間の中に代表
画像のシーンの先頭フレームが含まれることがある。図
8は、かかる状況での要約映像の再生部分を示す説明図
である。上記説明のように、取り出した映像データを次
々に再生すると、図8のAの部分が2回再生されること
になる。そこで、図示したように、「直前の代表画像の
シーンの先頭以降の5秒間」の中に「代表画像のシーン
の先頭フレーム」が含まれる場合には、代表画像のシー
ンの先頭ではなく、直前に再生した部分(例えば、図8
のAの部分)の直後から再生してもよい。
In step 214, the video data for 5 seconds after the head of the scene of each representative image is extracted.
The leading frame of the scene of the representative image may be included in the five seconds after the beginning of the scene of the immediately preceding representative image. FIG. 8 is an explanatory diagram showing a playback portion of the summary video in such a situation. As described above, when the extracted video data is successively reproduced, the portion A in FIG. 8 is reproduced twice. Therefore, as shown in the figure, when the “first frame of the scene of the representative image” is included in the “5 seconds after the beginning of the scene of the previous representative image”, instead of the head of the scene of the representative image, (For example, FIG. 8
May be reproduced immediately after (A part).

【0081】(第2の実施の形態)図9は第2の実施の
形態であって、複数の映像要約基準に基づき映像より要
約情報を抽出するとともに使用者に指定された枚数以下
の代表画像を抜き出す映像要約装置と、この装置により
選択された映像の要約情報およびその映像自体を表示す
る映像表示装置を組み合わせて構成した映像要約システ
ムを示すブロック図である。
(Second Embodiment) FIG. 9 shows a second embodiment, in which summary information is extracted from a video based on a plurality of video summarization criteria, and the number of representative images less than or equal to the number specified by the user. FIG. 1 is a block diagram showing a video summarization system configured by combining a video summarization device extracting a video and a video display device that displays summary information of a video selected by the device and a video itself.

【0082】図9において、801、802は映像出力
装置であって、801はビデオディスク装置、802は
VTRである。803はビデオディスク装置801やV
TR802からの映像信号を処理しながら、使用者に指
定された枚数以下の画像を抜き出して映像を要約する映
像要約装置であって、フレーム画像を取り込む画像取り
込み手段804と、シーンチェンジを検出するシーンチ
ェンジ検出手段805と、一定時間以上継続するシーン
を検出する時間判定処理手段806と、シーンの代表画
像のグループ化を実行するグループ生成手段807と、
時間判定処理手段806とグループ生成手段807の出
力を受けてグループ化の結果を修正するグループ追加手
段808と、シーンの代表画像の間の類似度を計算する
画像類似度計算手段809と、類似度計算手段で求めた
類似度がしきい値以上になるシーンを検出する画像基準
処理手段810と、シーンチェンジ検出手段805と時
間判定処理手段806とグループ追加手段808と画像
基準処理手段810の出力を受けて代表画像を決定する
画像判定手段811から構成される。812は、ビデオ
ディスク装置801とVTR802を制御する制御装置
である。813は、映像を圧縮する映像圧縮装置であ
る。814は映像要約装置803で決定した代表画像と
そのフレーム番号を保存するファイルサーバーである。
815はファイルサーバー814に格納されたデータと
画像と映像を表示する映像表示装置である。
In FIG. 9, reference numerals 801 and 802 denote video output devices, 801 denotes a video disk device, and 802 denotes a VTR. 803 is a video disk device 801 or V
A video summarizing device for extracting a number of images less than or equal to a number specified by a user while processing a video signal from the TR 802 and summarizing the video, an image capturing means 804 for capturing a frame image, and a scene for detecting a scene change. A change detection unit 805, a time determination processing unit 806 that detects a scene that continues for a predetermined time or more, a group generation unit 807 that performs grouping of representative images of the scene,
Group addition means 808 for correcting the result of grouping in response to the output of the time determination processing means 806 and group generation means 807, image similarity calculation means 809 for calculating the similarity between representative images of scenes, The output of the image reference processing means 810 for detecting a scene in which the similarity obtained by the calculation means is equal to or more than the threshold value, the scene change detection means 805, the time determination processing means 806, the group addition means 808, and the image reference processing means 810 It comprises image determining means 811 for receiving and determining a representative image. A control device 812 controls the video disk device 801 and the VTR 802. Reference numeral 813 denotes a video compression device that compresses a video. A file server 814 stores the representative image determined by the video summarizing device 803 and its frame number.
An image display device 815 displays data, images, and images stored in the file server 814.

【0083】映像要約システムの映像要約装置803
は、例えば、コンピュータ上で実現することができる。
また、映像表示装置815は、例えば、コンピュータ
と、CRT等とモニターの組み合わせによる実現するこ
とができる。
An image summarizing device 803 of the image summarizing system
Can be realized on a computer, for example.
The video display device 815 can be realized by, for example, a combination of a computer, a CRT, and a monitor.

【0084】本実施の形態に係る映像要約装置は4つの
映像要約基準を備えている。それらは第1の実施の形態
において説明したものと同じであるのでその説明は省略
する。
The video summarizing apparatus according to the present embodiment has four video summarization standards. Since they are the same as those described in the first embodiment, description thereof will be omitted.

【0085】以上のように構成された映像要約システム
について、図10に示すフローチャートを用いてその動
作を説明する。
The operation of the video summarizing system configured as described above will be described with reference to the flowchart shown in FIG.

【0086】手順901では、手順201と同様に、図
9における制御装置812がビデオディスク装置801
とVTR802を制御して、映像の再生を開始し、同時
に映像圧縮装置813での映像の圧縮を開始する。
In step 901, similarly to step 201, the control device 812 in FIG.
And the VTR 802 to start video reproduction, and at the same time, start video compression by the video compression device 813.

【0087】手順902では、手順202と同様に、映
像が終了したかどうか判定する。映像が終了した場合に
は手順912に進み、そうでなければ、手順903に進
む。
In step 902, as in step 202, it is determined whether or not the video has been completed. If the video has ended, the process proceeds to step 912; otherwise, the process proceeds to step 903.

【0088】手順903では、手順203と同様に、画
像取り込み手段804が再生中のフレーム画像を取り込
む。
In step 903, similarly to step 203, the image capturing means 804 captures the frame image being reproduced.

【0089】手順904では、手順204と同様に、シ
ーンチェンジ検出手段805が、画像取り込み手段80
4で取り込まれたフレーム画像を処理して、共通色比率
法等を用いてシーンチェンジが発生したかどうかを判定
する。
In step 904, as in step 204, the scene change detecting means 805 determines whether the scene
In step 4, the frame image captured is processed to determine whether a scene change has occurred using a common color ratio method or the like.

【0090】手順904で「シーンチェンジが発生し
た」と判定された場合には手順905に進み、そうでな
ければ手順902に戻る。
If it is determined in step 904 that "a scene change has occurred", the flow advances to step 905; otherwise, the flow returns to step 902.

【0091】手順905では全シーンモードのシーンの
代表画面および先頭フレームを決定する。すなわち、手
順904で取り込まれた画像およびその画像のフレーム
番号をファイルサーバ814に保存する。保存した画像
は、シーンの代表画像として用いる。また、シーンの代
表画像を全シーン表示モードの代表画像とみなす。
In step 905, a representative screen and a top frame of a scene in the all scene mode are determined. That is, the image captured in step 904 and the frame number of the image are stored in the file server 814. The saved image is used as a representative image of the scene. Also, the representative image of the scene is regarded as a representative image in the all scene display mode.

【0092】手順906では時間判定モードのシーンの
代表画面および先頭フレームを決定する。すなわち、手
順206と同様に、手順904で検出したシーンチェン
ジの直前のシーン(以下、前シーンという)の時間長を
計算してから、時間判定処理手段806で、時間長が8
秒以上になる前シーンを検出し、検出した前シーンの代
表画像を時間判定モードの代表画像とみなす。
In step 906, the representative screen and the first frame of the scene in the time determination mode are determined. That is, as in step 206, the time length of the scene immediately before the scene change detected in step 904 (hereinafter referred to as the previous scene) is calculated, and then the time determination processing unit 806 sets the time length to 8
A previous scene that is longer than a second is detected, and a representative image of the detected previous scene is regarded as a representative image in the time determination mode.

【0093】手順907から手順909まででは、ハイ
ブリッドモードのシーンの代表画面および先頭フレーム
を決定する。
In steps 907 to 909, the representative screen and the first frame of the scene in the hybrid mode are determined.

【0094】手順907では、手順207と同様に、グ
ループ生成手段807が、手順904で検出したシーン
チェンジ直後のシーン(以下、次シーンという。)と前
シーンの代表画像間の色差ヒストグラム相関値を求め、
色差ヒストグラム相関値がしきい値以上になる場合に、
次シーンの代表画像をハイブリッドモードの代表画像と
みなしてファイルサーバー814に保存する。なお、色
差ヒストグラムを用いずに、共通画素法を用いて時系列
のシーンのグループ化を実行し、グループの先頭シーン
の代表画像をハイブリッドモードの代表画像とみなして
もよい。共通画素法については、本実施の形態に係る映
像要約装置の動作を説明した後に説明する。
In step 907, similarly to step 207, the group generation means 807 calculates the color difference histogram correlation value between the scene immediately after the scene change detected in step 904 (hereinafter referred to as the next scene) and the representative image of the previous scene. Asked,
If the color difference histogram correlation value exceeds the threshold,
The representative image of the next scene is regarded as the representative image of the hybrid mode and stored in the file server 814. Instead of using the color difference histogram, time-series scene grouping may be performed using the common pixel method, and the representative image of the head scene of the group may be regarded as the representative image in the hybrid mode. The common pixel method will be described after the operation of the video summarizing apparatus according to the present embodiment is described.

【0095】手順908では、手順208と同様に分岐
処理を実行する。前シーンの時間長が8秒以上になる場
合には、手順909に進み、そうでなければ手順910
に進む。
In step 908, a branching process is executed as in step 208. If the time length of the previous scene is 8 seconds or more, the process proceeds to step 909; otherwise, the process proceeds to step 910.
Proceed to.

【0096】手順909では、手順209と同様に、グ
ループ追加手段808が、前シーンの代表画像と次シー
ンの代表画像をハイブリッドモードの代表画像とみなし
てファイルサーバー814に保存する。
In step 909, as in step 209, the group adding means 808 regards the representative image of the previous scene and the representative image of the next scene as a representative image in the hybrid mode, and stores the representative image in the file server 814.

【0097】手順210から手順211まででは、画像
基準モードのシーンの代表画面および先頭フレームを決
定する。
In steps 210 to 211, a representative screen and a head frame of a scene in the image reference mode are determined.

【0098】手順910では、手順210と同様に、次
シーンの代表画像INと映像の先頭の20シーンの代表
画像IM(Mは1から20までの自然数)との間の類似
度S(M,N)、を画像類似度計算手段809が計算する。
[0098] In step 910, similarly to the procedure 210, the similarity S between the representative image I M of the head 20 scene representative image I N and the video of the next scene (natural number of M is from 1 to 20) ( M, N) is calculated by the image similarity calculating means 809.

【0099】手順911では、手順211と同様に、画
像基準処理手段810で、Mが1から20までのいずれ
かの値をとるときに、(2)式が成り立つかどうか調
べ、(2)式が成立するときに、次シーンの代表画像を
画像基準モードの代表画像とみなす。手順911の終了
後、手順902に戻る。
In step 911, similarly to step 211, the image reference processing means 810 checks whether or not the expression (2) is satisfied when M takes any value from 1 to 20, and the expression (2) Is established, the representative image of the next scene is regarded as the representative image in the image reference mode. After the end of the procedure 911, the process returns to the procedure 902.

【0100】手順912では、手順212と同様に、映
像の再生と映像の圧縮を中止する。ここまでの手順でフ
ァイルサーバー814には、複数の映像要約基準、すな
わち全シーンモード、時間判定モード、ハイブリッドモ
ード、画像基準モードによりそれぞれ抜き出された要約
情報、すなわち代表画像と先頭フレーム番号が保存され
た。以下の手順913から手順918までは映像表示装
置815において行われる処理である。
In step 912, as in step 212, video reproduction and video compression are stopped. In the procedure up to this point, the file server 814 stores a plurality of video summary standards, that is, summary information extracted by the all scene mode, the time determination mode, the hybrid mode, and the image reference mode, that is, the representative image and the first frame number. Was done. The following steps 913 to 918 are processes performed in the video display device 815.

【0101】手順913から手順916まででは、映像
の要約情報である代表画像を所定の枚数にまで取捨選択
する。以下では、映像要約装置で抜き出す代表画像の枚
数が24枚に設定されている場合について述べる。
In steps 913 to 916, the representative images, which are the summary information of the video, are selected up to a predetermined number. Hereinafter, a case will be described in which the number of representative images extracted by the video summarizing apparatus is set to 24.

【0102】手順913では、画像判定手段811が、
あらかじめ決めてある優先順位に基づいて、どのモード
による代表画像を抜き出すかを決定する。以下では、優
先順位の最も高いモードを画像基準モードとし、2番目
に高いモードを時間判定モードとし、3番目に高いモー
ドをハイブリッドモードとし、4番目に高いモードを全
シーン表示モードとした場合について述べる。なお、こ
の優先順位は、使用者が画像判定手段811に命令を送
ることのできるインターフェース手段を設けて自由に設
定する態様をとることができる。
In step 913, the image determining means 811
Based on the priority determined in advance, the mode in which the representative image is extracted is determined. Hereinafter, a case where the mode with the highest priority is the image reference mode, the second highest mode is the time determination mode, the third highest mode is the hybrid mode, and the fourth highest mode is the all scene display mode State. It should be noted that this priority can be set freely by providing an interface unit that allows the user to send a command to the image determination unit 811.

【0103】まずモードを優先順位の最も高い画像基準
モードにより代表画像を決定する。画像基準モードによ
り代表画像が決定された後に手順916の分岐処理によ
りこの手順913に戻って来た場合には、前回決定した
モードよりも優先順位が一つ低いモードにより代表画像
を決定する。
First, a representative image is determined by the image reference mode having the highest priority. When the procedure returns to the procedure 913 by the branching process of the procedure 916 after the representative image is determined in the image reference mode, the representative image is determined in the mode having one lower priority than the previously determined mode.

【0104】手順914では、画像選択の優先順位にも
とづいて、手順913で決定したモードの代表画像に順
番を付ける。例えば、手順913で決定した代表画像の
中で、時間長の長いシーンの代表画像から順番に若い番
号をつけていく。同じモードの次の代表画像までの長さ
が長い代表画像から順番に若い番号を付けてもよい。
In step 914, the representative images in the mode determined in step 913 are ordered based on the priority of image selection. For example, among the representative images determined in the procedure 913, younger numbers are assigned in order from the representative image of a scene having a longer time length. The representative image having the longer length up to the next representative image in the same mode may be numbered in ascending order.

【0105】手順915では、若い番号から順番に、映
像要約装置で抜き出す代表画像とみなしていく。ただ
し、映像要約装置で抜き出す代表画像の枚数が24枚を
越えたら、作業を中断する。
In step 915, the images are regarded as representative images extracted by the video summarizing apparatus in ascending order of numbers. However, when the number of representative images extracted by the video summarizing apparatus exceeds 24, the operation is interrupted.

【0106】手順916は分岐処理である。すでに映像
要約装置で抜き出すことに決定している代表画像の枚数
が24枚未満のときは、手順913に戻る。そうでなけ
れば、手順917に進む。
Step 916 is a branching process. If the number of representative images already determined to be extracted by the video summarizing apparatus is less than 24, the procedure returns to step 913. Otherwise, go to step 917.

【0107】なお、以上の説明では、映像要約装置で抜
き出す代表画像の枚数を24枚に設定したが、必ずしも
24枚でなくてもよい。また、全てのモードによっても
代表画像の枚数が24枚未満のときは手順916で無限
ループに入るおそれがある。したがって、全てのモード
を選択した後もシーンの数が24枚未満になるときに
は、その時点での代表画像の枚数をシーンの数と同じに
なるようにしてもよい。
In the above description, the number of representative images extracted by the video summarizing apparatus is set to 24, but the number is not necessarily limited to 24. If the number of representative images is less than 24 in all modes, the process may enter an infinite loop in step 916. Therefore, when the number of scenes becomes less than 24 even after all the modes are selected, the number of representative images at that time may be made equal to the number of scenes.

【0108】手順917では、使用者が見たい部分を効
率よく探せるように、システムが映像表示装置上に映像
の要約を表示する。例えば、手順915で決定した代表
画像を一覧表示する。
In step 917, the system displays a summary of the video on the video display device so that the user can efficiently search for a desired portion. For example, a list of the representative images determined in step 915 is displayed.

【0109】手順918では、使用者が見たい部分を指
定する。例えば、マウスなどのポインティングデバイス
を用いて、見たい部分の代表画像を指定する。映像表示
装置がファイルサーバーから映像データを受け取り、指
定された部分から映像を再生する。
In step 918, a part desired by the user is specified. For example, using a pointing device such as a mouse, a representative image of a desired portion is specified. The video display device receives the video data from the file server and reproduces the video from the specified portion.

【0110】なお、以上の説明では、手順917で代表
画像を一覧表示したが、実施の形態1の手順214で述
べたように、要約映像再生手段を用いて要約映像を表示
してもよい。また、代表画像を一覧表示する画像表示手
段を設けて、映像要約装置803の中に組み込んでもよ
い。この場合には、手順917でシステムが画像表示手
段を用いて映像の要約を表示する。
In the above description, a list of representative images is displayed in step 917. However, as described in step 214 of the first embodiment, a summary video may be displayed using the summary video reproducing means. Further, an image display means for displaying a list of representative images may be provided and incorporated in the video summarizing apparatus 803. In this case, in step 917, the system displays the video summary using the image display means.

【0111】以上の説明では、設定された枚数以下の代
表画像のみを一覧表示しているが、時間判定モード、ハ
イブリッドモード、画像基準モードの各モードの代表画
像の一覧表示を選択できるようにしてもよい。
In the above description, only representative images of a set number or less are displayed in a list. However, a list display of representative images in each of the time determination mode, the hybrid mode, and the image reference mode can be selected. Is also good.

【0112】以下では、本実施の形態の映像要約システ
ムにおける手順907において時系列のシーンをグルー
プ化する際に採用することのできる共通画素法によるグ
ループ化について述べる。共通画素法は出願人が先に特
願平7−46970号において開示したものである。
In the following, grouping by the common pixel method which can be employed when grouping time-series scenes in step 907 in the video summarizing system of the present embodiment will be described. The common pixel method has been disclosed by the applicant in Japanese Patent Application No. 7-46970.

【0113】共通画素法は、シーンに共通する色に着目
して、砂浜で撮影したシーンが続く場合のような類似背
景のシーンまたは様々な人物のバストショット(人物の
胸から上が映っているシーン)が続く場合のような、類
似被写体のシーンが時系列に連続する場合を検出し、一
つのグループに統合する方法である。
The common pixel method focuses on the color common to the scenes, and has a similar background scene such as a scene taken on a sandy beach or a bust shot of various persons (the upper part is reflected from the chest of the person). This is a method of detecting a case where scenes of similar subjects are continuous in a time series, such as a case where scenes continue, and integrating them into one group.

【0114】シーンは内容の最小単位である。従って、
1つのシーン内のフレーム画像は「同一人物が登場す
る」などの共通した特徴をもつ。そこで、各シーンの先
頭部分の動画像がシーンを代表するとみなし、この動画
像を代表時空間画像という。
A scene is a minimum unit of contents. Therefore,
Frame images in one scene have common features such as "the same person appears". Therefore, the moving image at the head of each scene is regarded as representing a scene, and this moving image is referred to as a representative spatiotemporal image.

【0115】「色が共通する画素」を同一物体とみなす
と、「異なる動きをする同一色の物体」のシーンがグル
ープ化される問題がある。この問題点を解決するため
に、同一色の物体が、異なる2つのシーンで共に静止し
ている場合と、異なる2つのシーンで共に動いている場
合に限って、同一色の物体を同一物体とみなす。即ち、
「動きの有無と色が共通する画素」を同一物体とみな
す。また、同一グループ内のシーンが共通色比率条件、
すなわち、各シーンの代表時空間画像において、「グル
ープ内のシーンの代表時空間画像に共通して現れる同一
物体」の画素の総数を全画素数で正規化した値がしきい
値θSHOT以上になるという条件を満たすと仮定する。
If the "pixels having the same color" are regarded as the same object, there is a problem that the scenes of the "objects of the same color moving differently" are grouped. In order to solve this problem, the same color object is regarded as the same object only when the same color object is stationary in two different scenes and when the same color object is moving together in two different scenes. I reckon. That is,
“Pixels having the same color as the presence or absence of motion” are regarded as the same object. Also, scenes in the same group have common color ratio conditions,
That is, in the representative spatiotemporal image of each scene, the value obtained by normalizing the total number of pixels of “the same object appearing in the representative spatiotemporal image of the scenes in the group” by the total number of pixels is equal to or greater than the threshold θ SHOT . Suppose that the condition is satisfied.

【0116】図11は共通色比率条件の様子を示す説明
図である。図11に示すように、シーンSC1〜SC4
代表時空間画像に共通して現れる物体がA(背景)の部
分のみであり、Aの部分の画素数の占める割合がシーン
SC4以外でしきい値θSHOT以上になるとき、シーンS
1〜SC3は共通色比率条件を満足するが、シーンSC
1〜SC4は共通色比率条件を満足しない。SC3〜SC4
が共通色比率条件を満足するかどうかは不定である。図
11の例では、SC3〜SC4のA(背景)とB(長方形
の物体)の部分が「シーンSC3〜SC4の代表時空間画
像に共通して現れる同一物体」となり、その画素数の占
める割合がシーンSC3、SC4の両方において100%
になるので、シーンSC3〜SC4は共通色比率条件を満
足する。
FIG. 11 is an explanatory diagram showing the state of the common color ratio condition. As shown in FIG. 11, only the A (background) portion appears in the representative spatiotemporal images of the scenes SC 1 to SC 4 in common, and the ratio of the number of pixels of the A portion is different from that of the scene SC 4 . When the threshold θ SHOT is exceeded, the scene S
C 1 to SC 3 satisfy the common color ratio condition, but the scene SC
1 ~SC 4 do not satisfy the common color ratio conditions. SC 3 to SC 4
Whether or not satisfies the common color ratio condition is indeterminate. In the example of FIG. 11, SC 3 to SC 4 of A (background) and B "same object appearing in common to the representative spatiotemporal image of the scene SC 3 to SC 4" (rectangular object) portion of next, the pixel 100% in both scenes SC 3 and SC 4
Since the scene SC 3 to SC 4 satisfy the common color ratio conditions.

【0117】このとき、共通色比率条件を満足するシー
ンを同一グループとみなすと、シーンSC1〜SC3とシ
ーンSC3〜SC4が同一グループとなるので、シーンS
1〜SC4が同一グループとなるはずであるが、シーン
SC1〜SC4は共通色比率条件を満足せず矛盾が生じ
る。従って、共通色比率条件を満足しても、同一グルー
プ内のシーンとは限らない。
At this time, if scenes satisfying the common color ratio condition are regarded as the same group, scenes SC 1 to SC 3 and scenes SC 3 to SC 4 belong to the same group.
Although C 1 to SC 4 should belong to the same group, scenes SC 1 to SC 4 do not satisfy the common color ratio condition, and contradictions occur. Therefore, even if the common color ratio condition is satisfied, the scenes are not necessarily in the same group.

【0118】共通画素法では、同一グループ内で隣り合
うシーンの間の類似度が、異なるグループのシーンの間
の類似度に比べて大きい値になると仮定し、以下の手順
1〜2でグループの境界を求める。ただし、M=1と
し、Lの初期値は1とする。
In the common pixel method, it is assumed that the similarity between adjacent scenes in the same group has a larger value than the similarity between scenes in different groups. Find the boundary. However, M = 1 and the initial value of L is 1.

【0119】手順1では、シーンSCM〜SCM+Lが共通
色比率条件を満足するかどうか判定する。満足する場合
には、Lに1を加えながら、共通色比率条件を満足しな
くなるまで判定を繰り返す。図11の例では、L=4に
なった時点で手順2に進む。
In the procedure 1, it is determined whether or not the scenes SC M to SC M + L satisfy the common color ratio condition. If satisfied, the determination is repeated while adding 1 to L until the common color ratio condition is no longer satisfied. In the example of FIG. 11, the process proceeds to the procedure 2 when L = 4.

【0120】手順2では、共通色比率条件を満足する各
シーンSCM〜SCM+L-1に対して、次シーンとの類似度
を求め、類似度が最小になる部分をグループの境界とみ
なす。、図12はグループの境界の決定方法を示す説明
図である。同図において、SC2とSC3の類似度が他の
類似度、すなわちSC1とSC2の類似度およびSC3
SC4の類似度に比べて小さい値なので、SC2とSC3
の間をグループの境界とみなす。
In the procedure 2, for each of the scenes SC M to SC M + L-1 satisfying the common color ratio condition, the similarity with the next scene is obtained, and the portion having the minimum similarity is defined as the group boundary. I reckon. FIG. 12 is an explanatory diagram showing a method of determining a group boundary. In the figure, the similarity of other similarity SC 2 and SC 3, i.e., SC of 1 and smaller than the similarity of the SC similarity and SC 3 of 2 and SC 4, SC 2 and SC 3
Is regarded as a group boundary.

【0121】なお、代表時空間画像の代わりに代表画像
を用いてもよい。このときは、「色が共通する画素」を
同一物体とみなせばよい。
Note that a representative image may be used instead of the representative spatiotemporal image. In this case, "pixels having a common color" may be regarded as the same object.

【0122】(第3の実施の形態)第3の実施の形態
は、第2の実施の形態において説明した映像要約システ
ムにおいて、どのモードの代表画像から抜き出すかの選
択を、第2の実施の形態の手順913のようにあらかじ
め決められた優先順位に基づいてモードを決定するので
はなく、映像を解析してモードの優先順位を決定するこ
とにより行うものである。
(Third Embodiment) In a third embodiment, in the video summarizing system described in the second embodiment, selection of a mode from which to extract a representative image is performed according to the second embodiment. Instead of determining the mode based on a predetermined priority as in the procedure 913 of the embodiment, the mode is determined by analyzing the video and determining the priority of the mode.

【0123】図9の映像要約システムについて、図13
に示すフローチャートを用いてその動作を説明する。
The video summarizing system shown in FIG.
The operation will be described with reference to the flowchart shown in FIG.

【0124】手順1201〜手順1212の動作は、図
10に示した手順901〜手順912の動作と同じであ
るのでその説明を省略する。
The operations in steps 1201 to 1212 are the same as the operations in steps 901 to 912 shown in FIG. 10, and a description thereof will be omitted.

【0125】手順1213では、画像判定手段811が
モードの優先順位を決定する。以下では、画像基準モー
ドの代表画像の枚数が5枚以上になるときには、優先順
位の最も高いモードを画像基準モードとし、2番目に高
いモードを時間判定モードとし、3番目に高いモードを
ハイブリッドモードとし、4番目に高いモードを全シー
ン表示モードとし、画像基準モードの代表画像の枚数が
5枚未満のときには、優先順位の最も高いモードを時間
判定モードとし、2番目に高いモードをハイブリッドモ
ードとし、3番目に高いモードを全シーン表示モードと
した例について述べる。なお、ここでは画像基準モード
の代表画像が5枚以上であるか否かを調べてモードの優
先順位を変えているが、必ずしも5枚に設定する必要は
ない。この例のようにモードの自動決定基準を定めたの
は、画像基準モードの要約映像が5枚以下の場合には要
約する映像にはヘッドラインが含まれていない可能性が
高いという推定に基づいている。なお、このようなモー
ドの自動決定基準は、使用者が画像判定手段811に命
令を送ることのできるインターフェース手段を設けて自
由に設定を変更する態様をとることができる。
At step 1213, the image judging means 811 determines the priority of the mode. Hereinafter, when the number of representative images in the image reference mode becomes 5 or more, the mode with the highest priority is set to the image reference mode, the second highest mode is set to the time determination mode, and the third highest mode is set to the hybrid mode. When the number of representative images in the image reference mode is less than 5, the mode with the highest priority is the time determination mode, and the second highest mode is the hybrid mode. An example in which the third highest mode is set to the all scene display mode will be described. Here, it is checked whether or not the number of the representative images in the image reference mode is five or more, and the priority of the mode is changed. However, it is not always necessary to set the number to five. The automatic criterion for determining the mode as in this example is based on the presumption that if the number of summary videos in the image reference mode is five or less, it is highly likely that the video to be summarized does not include a headline. ing. Note that such a mode automatic determination criterion may be configured such that the user can send an instruction to the image determination unit 811 by providing an interface unit and freely change the setting.

【0126】手順1214では、手順1213で決定し
た優先順位にもとづいて画像判定手段811がモードを
決定する。まずモードを優先順位の最も高い画像基準モ
ードにより代表画像を決定する。画像基準モードにより
代表画像が決定された後に手順1217の分岐処理によ
りこの手順1214に戻って来た場合には、前回決定し
たモードよりも優先順位が一つ低いモードにより代表画
像を決定す。
In step 1214, the image determining means 811 determines the mode based on the priority determined in step 1213. First, a representative image is determined based on the image reference mode having the highest priority. When the process returns to the procedure 1214 by the branching process of the procedure 1217 after the representative image is determined in the image reference mode, the representative image is determined in a mode having one priority lower than the mode determined last time.

【0127】以下では、映像要約装置で抜き出す代表画
像の枚数が24枚に設定されている場合について述べ
る。
In the following, a case where the number of representative images extracted by the video summarizing apparatus is set to 24 will be described.

【0128】手順1215では、手順914と同様に、
画像選択の優先順位にもとづいて、手順1214で決定
したモードの代表画像に順番を付ける。例えば、手順1
214で決定した代表画像の中で、時間長の長いシーン
の代表画像から順番に若い番号をつけていく。
In step 1215, similar to step 914,
The representative images in the mode determined in step 1214 are ordered based on the image selection priority. For example, Procedure 1
In the representative images determined in 214, the representative images of scenes having a longer time length are numbered in ascending order.

【0129】手順1216では、手順915と同様に、
若い番号から順番に、映像要約装置で抜き出す代表画像
とみなしていく。ただし、映像要約装置で抜き出す代表
画像の枚数が24枚を越えたら、作業を中断する。
In step 1216, similar to step 915,
In order from the youngest number, it is regarded as a representative image extracted by the video summarizing apparatus. However, when the number of representative images extracted by the video summarizing apparatus exceeds 24, the operation is interrupted.

【0130】手順1217では、手順916と同様の分
岐処理を実行する。すでに映像要約装置で抜き出すこと
に決定している代表画像の枚数が24枚未満のときは、
手順1214に戻る。そうでなければ、手順1218に
進む。
At step 1217, the same branch processing as at step 916 is executed. If the number of representative images already determined to be extracted by the video summarization device is less than 24,
The procedure returns to step 1214. Otherwise, go to step 1218.

【0131】手順1218では、手順917と同様に、
使用者が見たい部分を効率よく探せるように、システム
が映像表示装置上に映像の要約を表示する。例えば、手
順1216で決定した代表画像を一覧表示する。
In step 1218, similar to step 917,
The system displays a summary of the image on the image display device so that the user can efficiently search for a desired portion. For example, a list of representative images determined in step 1216 is displayed.

【0132】手順1219では、手順918と同様に、
使用者が見たい部分を指定する。例えば、マウスなどの
ポインティングデバイスを用いて、見たい部分の代表画
像を指定する。映像表示装置がファイルサーバーから映
像データを受け取り、指定された部分から映像を再生す
る。
At step 1219, similar to step 918,
Specify the part that the user wants to see. For example, using a pointing device such as a mouse, a representative image of a desired portion is specified. The video display device receives the video data from the file server and reproduces the video from the specified portion.

【0133】[0133]

【発明の効果】以上で説明した本発明は次のような有利
な効果を奏するため、一定の映像要約基準のみで画一的
に代表画像を選択する従来の映像要約装置や代表画像を
映像の長さ等に関係なく選択する従来の映像表示装置と
比べて、映像内容の多様性および使用者の好みの多様性
に対応することができる。 (1)請求項1および請求項2に記載した発明に基づく
映像要約装置は、例えばニュース番組においてしばしば
起こるように、現場のアナウンサーが事件を説明するシ
ーン等のように前後のシーンと同一背景であっても重要
な情報を有している可能性の高いシーンが一定時間以上
継続する場合には、そのシーンとその直後のシーンのよ
うに重要な情報を有している可能性が高いシーンを背景
が類似している前後のシーンから取り出すことができ
る。グループ化の判断時間(本明細書の実施の形態では
8秒)より時間長の長いシーンとしては、ニュース番組
のアナウンサーのシーン、インタビューのシーン、登場
人物による説明のシーン、フリップの出るシーンなどが
ある。我々の分析によれば、時間長の長いシーンの直後
のシーンは、時間長の長いシーンと同様に重要であるこ
とが多い。
The present invention described above has the following advantageous effects. For this reason, the conventional image summarizing apparatus and the conventional image summarizing apparatus for uniformly selecting a representative image only based on a certain image summarizing standard are used. Compared to a conventional video display device that selects irrespective of length or the like, it is possible to cope with a variety of video contents and a variety of user preferences. (1) The video summarizing apparatus according to the first and second aspects of the present invention has the same background as the scenes before and after the scene, such as a scene explaining an incident by an announcer at the site, as often occurs in a news program, for example. Even if there is a scene with a high possibility of having important information for a certain period of time or more, a scene with a high possibility of having important information such as the scene and the scene immediately after the scene It can be extracted from scenes before and after having similar backgrounds. Scenes longer than the grouping determination time (8 seconds in the embodiment of the present specification) include scenes of an announcer of a news program, scenes of interviews, scenes of explanation by characters, scenes of flips, and the like. is there. According to our analysis, the scene immediately following the long scene is often as important as the long scene.

【0134】例えば、ニュース番組で現場から事件を報
告する場合には、「現場に派遣された登場人物が事件の
背景を説明するシーン」に続いて、「事件に関連するシ
ーン」の映像が流れる。この場合、「現場に派遣された
登場人物が事件の背景を説明するシーン」の画像より
も、「事件に関連するシーン」の画像の方が、事件の内
容を的確に表しており、重要である。しかし、色差ヒス
トグラム相関を用いた代表画像決定方法では、現場とい
う同一背景のシーンになるため、「事件に関連するシー
ン」と「現場に派遣された登場人物が事件の背景を説明
するシーン」が同一グループになり、「事件に関連する
シーン」の画像が代表画像にならない問題がある。ま
た、時間判定モードでも、「事件に関連するシーン」が
必ずしも8秒以上にならないため、代表画像になるとは
限らない。
For example, when a case is reported from the site in a news program, a video of a "scene related to the case" flows after "a scene in which characters dispatched to the site explain the background of the case". . In this case, the image of the "scene related to the incident" more accurately represents the content of the incident than the image of "the scene where the characters dispatched to the scene explain the background of the incident," is there. However, in the representative image determination method using the color difference histogram correlation, since the scene is the same background of the scene, the "scene related to the incident" and "the scene where the characters dispatched to the scene explain the background of the incident" In the same group, there is a problem that the image of the "scene related to the incident" does not become the representative image. Also, even in the time determination mode, the “scene related to the incident” does not always become 8 seconds or more, and thus does not always become the representative image.

【0135】一方、ハイブリッドモードでは、8秒以上
のシーンとその直後のシーンが代表画像になるので、
「事件に関連するシーン」の画像が代表画像として選ば
れ、色差ヒストグラム相関用いた代表画像決定方法と時
間判定モードにない効果が得られる。時間長の長いシー
ンの中で、アナウンサーのシーン、インタビューのシー
ン、登場人物の説明のシーンにおいては、直後のシーン
と一緒に表示されないと、内容がわからないことが多
い。色差ヒストグラム相関を用いた代表画像決定方法を
用いたとき、時間長の長いシーンの前後のシーンが表示
されるケースが多いが、しきい値が不適当だったり、背
景が類似する場合には、直後のシーンが表示されない。
しかし、ハイブリッドモードでは、確実に直後のシーン
が表示される効果がある。従って、ハイブリッドモード
は、色差相関値法や時間判定モードと比較すると、かか
る種類の番組の要約においては優位性を有する。 (2)請求項3および請求項4に記載した発明に基づく
映像要約装置は、本編の各記事から2〜3シーンの動画
像を抜き出して作成されたダイジェストが最初に流れて
から本編が流れる番組で、これらのダイジェスト画像を
代表画像となるように本編をグループ化することができ
る。ダイジェスト部分と本編部分と比較して代表画像を
決定するからである。すなわち、画像基準モードはかか
る種類の番組で絶大な効果を有する。従って、画像基準
モードでは、映像の内容がダイジェスト部分のシーンで
代表され、見たい部分を簡単に探すことができる。
On the other hand, in the hybrid mode, a scene longer than 8 seconds and a scene immediately after it are representative images.
The image of the “scene related to the incident” is selected as the representative image, and an effect that is not in the representative image determination method using the color difference histogram correlation and the time determination mode can be obtained. Of the scenes with a long duration, the contents of an announcer scene, an interview scene, and a character explanation scene cannot be understood unless they are displayed together with the immediately following scene. When the representative image determination method using the color difference histogram correlation is used, scenes before and after a scene with a long time length are often displayed, but when the threshold is inappropriate or the background is similar, The next scene is not displayed.
However, in the hybrid mode, there is an effect that the scene immediately after is surely displayed. Therefore, the hybrid mode has an advantage in summarizing such a type of program as compared with the color difference correlation value method and the time determination mode. (2) The video summarizing apparatus based on the invention described in claims 3 and 4 is a program in which a digest created by extracting moving images of two or three scenes from each article of the main part flows first, and then the main part flows. Thus, the main part can be grouped so that these digest images become representative images. This is because the representative image is determined by comparing the digest part and the main part. That is, the image reference mode has a tremendous effect on such types of programs. Therefore, in the image reference mode, the contents of the video are represented by the scene of the digest portion, and the portion to be viewed can be easily searched.

【0136】また、映像表示装置と組み合わせて映像要
約システムとして使用することにより、見たいシーンを
指定すると、本編の中のそのシーン以降の映像が再生さ
せることができ、見たい記事を簡単に再生できるという
従来の映像要約システムにはなかった効果を有する。ま
た、画像基準モードにより代表画像がほとんど選択され
ない場合には、その映像中にはその映像の内容を要約的
に紹介する部分(例えば、ニュース等ヘッドライン等)
が存在しないことになる。従って、本モードは映像に要
約情報が付属しているか否かを判定することができると
いう効果を有する。 (3)請求項5、請求項6、請求項7、請求項8、請求
項9、および請求項13に記載した発明に基づく映像要
約装置は、複数の映像要約基準を備えているため、単一
の映像要約基準により映像を要約していた従来の映像要
約装置と比較して、映像の内容の多様性により適切に対
応することができる。使用者は、番組等によって映像要
約基準を変更したり組み合わせたりすることが自由にで
きる。 (4)請求項7および請求項8および請求項9に記載し
た発明に基づく映像要約装置は、使用者が代表画像の枚
数の上限を指定できるので、代表画像の枚数を少なく抑
えることができ、従来法に比べて見たい部分を簡単に探
すことができる。さらに、あらかじめモードの優先順位
を決めておいた場合には、使用者が映像の特徴に合わせ
て代表画像を決定できる。また、画像基準モードの代表
画像の枚数がしきい値以上になるかどうかによって代表
画像の決定方法を切り替える場合には、ダイジェストが
存在する映像で、ダイジェスト部分の画像を優先して抜
き出すことができるという効果をも有する。したがっ
て、使用者が要約映像検索する効率が従来の映像要約シ
ステムと比べて向上する。 (5)請求項10に記載した発明に基づく映像表示装置
は、映像の情報およびその映像の要約情報を記録してい
るファイルサーバーの情報を利用して、各代表画像の位
置付近の一定時間の映像を次々に見ながら見たい部分を
指定できる、すなわち動画と音声を用いて見たい部分を
探すことができるので、音声や被写体の動きを考慮しな
がら見たい部分を指定できるようになる。さらに、重要
性の高いシーンなどから代表画像が選ばれているので、
再生される映像を見て、使用者が冗長に感じることはな
い。 (6)請求項11および請求項12に記載した発明に基
づく映像要約装置は、映像の代表画像およびその前後よ
りなる要約映像をを再生する際に、重複して再生する部
分が無いようにしながら要約映像を再生するので、冗長
な再生にならない。さらに、各代表画像の位置付近の一
定時間の映像を次々に見ながら、見たい部分でこの再生
を中断すると、中断した位置のフレーム画像の内容を代
表する代表画像を含む複数の代表画像を一覧表示するの
で、中断した位置付近に存在する「見たい部分に関連す
る内容」を簡単に探すことができるという効果を有す
る。
[0136] Further, by using a video summarizing system in combination with a video display device, when a scene to be viewed is specified, the video subsequent to that scene in the main part can be reproduced, and the article to be viewed can be easily reproduced. This has an effect that the conventional video summarization system does not have. When the representative image is hardly selected in the image reference mode, a portion (for example, a headline such as news) for introducing the content of the video in the video in a summary manner
Will not exist. Therefore, this mode has an effect that it is possible to determine whether or not summary information is attached to a video. (3) Since the video summarizing apparatus based on the invention described in claim 5, claim 6, claim 7, claim 8, claim 9, and claim 13 includes a plurality of video summarization standards, As compared with a conventional video summarizing apparatus that summarizes video according to one video summarization standard, it is possible to appropriately cope with the diversity of video content. The user can freely change or combine the video summarization standards depending on the program or the like. (4) In the video summarizing apparatus based on the invention described in claim 7, claim 8, and claim 9, the user can specify the upper limit of the number of representative images, so that the number of representative images can be reduced. You can easily find the part you want to see compared to the conventional method. Further, when the priorities of the modes are determined in advance, the user can determine the representative image according to the characteristics of the video. In addition, when the method of determining a representative image is switched depending on whether the number of representative images in the image reference mode is equal to or greater than a threshold value, the digest image can be preferentially extracted from a video in which a digest exists. It also has the effect. Therefore, the efficiency with which the user searches for the summary video is improved as compared with the conventional video summary system. (5) The video display device based on the invention described in claim 10 utilizes the information of the video and the information of the file server that stores the summary information of the video for a certain period of time around the position of each representative image. A desired part can be specified while watching the video one after another, that is, a desired part can be searched using a moving image and a sound. Therefore, a desired part can be specified while taking into account sound and movement of a subject. In addition, since representative images are selected from scenes with high importance,
The user does not feel redundant when watching the reproduced video. (6) The video summarizing apparatus based on the invention described in claim 11 and claim 12, when reproducing the representative image of the video and the summary video consisting of the preceding and succeeding images, while eliminating the duplicated portion. Since the summary video is reproduced, there is no redundant reproduction. Furthermore, when the reproduction is interrupted at a desired portion while watching the video for a fixed time in the vicinity of the position of each representative image one after another, a plurality of representative images including the representative image representing the contents of the frame image at the interrupted position are listed. Since the display is performed, it is possible to easily search for “contents related to the part to be viewed” existing near the interrupted position.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1の実施の形態における映像要約シ
ステムのブロック図
FIG. 1 is a block diagram of a video summarizing system according to a first embodiment of the present invention.

【図2】本発明の第1の実施の形態における映像要約シ
ステムの動作を示すフローチャート
FIG. 2 is a flowchart showing the operation of the video summarizing system according to the first embodiment of the present invention.

【図3】シーンチェンジ検出手段がシーンチェンジを検
出する方法と前シーンを示す説明図
FIG. 3 is an explanatory diagram showing a method of detecting a scene change by a scene change detecting means and a previous scene.

【図4】画像基準モードにおいて、画面をブロックへ分
割することを示す説明図
FIG. 4 is an explanatory diagram showing that a screen is divided into blocks in an image reference mode.

【図5】本発明の第1の実施の形態における要約映像の
作成方法を示す説明図
FIG. 5 is an explanatory diagram showing a method of creating a summary video according to the first embodiment of the present invention.

【図6】本発明の第1の実施の形態における見たい部分
の先頭からの再生開始の様子を示す説明図
FIG. 6 is an explanatory diagram showing a state of starting reproduction from a head of a part to be viewed according to the first embodiment of the present invention;

【図7】本発明の第1の実施の形態におけるユーザーイ
ンターフェイス手段を介して見たい部分を指定するため
の画面を示す説明図
FIG. 7 is an explanatory diagram showing a screen for designating a portion to be viewed via a user interface unit according to the first embodiment of the present invention;

【図8】本発明の第1の実施の形態における要約映像の
再生部分を示す説明図
FIG. 8 is an explanatory diagram showing a playback part of a summary video according to the first embodiment of the present invention.

【図9】本発明の第2の実施の形態における映像要約シ
ステムのブロック図
FIG. 9 is a block diagram of a video summarizing system according to a second embodiment of the present invention.

【図10】本発明の第2の実施の形態における映像表示
システムの動作を示すフローチャート
FIG. 10 is a flowchart showing the operation of the video display system according to the second embodiment of the present invention.

【図11】本発明の第2の実施の形態における共通色比
率条件の様子を示す説明図
FIG. 11 is an explanatory diagram showing a state of a common color ratio condition according to the second embodiment of the present invention.

【図12】本発明の第2の実施の形態におけるグループ
の境界の決定方法を示す説明図
FIG. 12 is an explanatory diagram showing a method for determining a group boundary according to the second embodiment of the present invention;

【図13】本発明の第3の実施の形態における映像表示
システムの動作を示すフローチャート
FIG. 13 is a flowchart showing the operation of the video display system according to the third embodiment of the present invention.

【図14】従来の映像表示装置におけるシーン一覧表示
を示す説明図
FIG. 14 is an explanatory diagram showing a scene list display in a conventional video display device.

【図15】従来の映像表示装置における映像要約結果の
一覧表示を示す説明図
FIG. 15 is an explanatory diagram showing a list display of video summary results in a conventional video display device.

【図16】従来の映像要約システムのブロック図FIG. 16 is a block diagram of a conventional video summarizing system.

【図17】従来の映像要約システムの動作を示すフロー
チャート
FIG. 17 is a flowchart showing the operation of a conventional video summarization system.

【図18】従来の共通色比率法で検出されるシーンチェ
ンジを示す図
FIG. 18 is a diagram showing a scene change detected by a conventional common color ratio method.

【符号の説明】[Explanation of symbols]

101、801 ビデオディスク装置 102、802 VTR 103、803 映像要約装置 104、804 画像取り込み手段 105、805 シーンチェンジ検出手段 106、806 時間判定処理手段 107、807 グループ生成手段 108、808 グループ追加手段 109、809 画像類似度計算手段 110、810 像基準処理手段 811 画像判定手段 111、812 制御装置 112、813 映像圧縮装置 113、814 ファイルサーバー 114、815 映像表示装置 115 要約映像再生手段 116 ユーザーインタフェース手段 117 映像再生手段 101, 801 video disk device 102, 802 VTR 103, 803 video summarization device 104, 804 image capturing means 105, 805 scene change detection means 106, 806 time judgment processing means 107, 807 group generation means 108, 808 group addition means 109, 809 Image similarity calculation means 110, 810 Image reference processing means 811 Image determination means 111, 812 Control device 112, 813 Video compression device 113, 814 File server 114, 815 Video display device 115 Summary video reproduction device 116 User interface device 117 Video Reproduction means

Claims (13)

【特許請求の範囲】[Claims] 【請求項1】 取り込まれた映像をそのシーンチェンジ
を検出することにより分割して形成した複数のシーンに
ついて、時系列的にその前後のシーンの所定の画像(以
下、シーンの所定の画像を代表画像という。)の類似度
を計算することにより代表画像を含むシーンを時系列グ
ループにまとめる時系列グループ生成過程と、同一の時
系列グループ内にあっても一定時間以上継続するシーン
についてはその前後のシーンとは独立する時系列グルー
プとする修正をかける時系列グループ追加過程と、上記
2つの過程で得られた各時系列グループの映像要約情報
を出力する映像要約情報出力過程とからなる映像要約方
法。
A plurality of scenes formed by dividing a captured video by detecting a scene change of the captured video, and a predetermined image of a scene before and after the scene in a time series (hereinafter, a predetermined image of the scene is represented as a representative image). A time-series group generation process in which scenes including a representative image are grouped into a time-series group by calculating the similarity of the image. A video sequence summarizing process for modifying the video sequence into a time series group independent of the scene described above, and a video summary information output process for outputting video summary information of each time series group obtained in the above two processes. Method.
【請求項2】 時系列グループ生成過程におけるシーン
の代表画像間の類似度を、比較すべき代表画像間で共通
する色を持つ画素の割合を計算することを特徴とする請
求項1に記載の映像要約方法。
2. The method according to claim 1, wherein the similarity between the representative images of the scene in the time series group generation process is calculated by calculating a ratio of pixels having a color common to the representative images to be compared. Video summarization method.
【請求項3】 取り込まれた映像を構成する複数のシー
ンの内で所定の基準に従って選択された複数のシーン
(以下、基準シーンという。)の所定の画像(以下、シ
ーンの所定の画像を代表画像という。)と映像を構成す
る全てのシーン(以下、本編シーンという。)の代表画
像との間で所定の基準に従って類似度を計算して、基準
シーンの代表画像との類似度がしきい値以上になる代表
画像を含むシーンを選択する類似度計算過程と、上記過
程で得られたシーンの映像要約情報を出力する映像要約
情報出力過程とからなる映像要約方法。
3. A predetermined image of a plurality of scenes (hereinafter, referred to as a reference scene) selected according to a predetermined reference from a plurality of scenes constituting the captured video (hereinafter, a predetermined image of the scene is represented). A similarity is calculated according to a predetermined criterion between a representative image of all scenes (hereinafter, referred to as a main part scene) constituting a video according to a predetermined criterion, and the similarity with the representative image of the reference scene is determined. A video summarization method comprising: a similarity calculation process of selecting a scene including a representative image having a value greater than or equal to a value; and a video summary information output process of outputting video summary information of the scene obtained in the above process.
【請求項4】 類似度計算過程において、基準シーンの
代表画像と本編シーンの代表画像との間の類似度を計算
するための基準が、代表画像を複数の画像領域に分割
し、上記両代表画像の各画像領域内の画素のRGB成分
を比較するものであることを特徴とする請求項3に記載
の映像要約方法。
4. In the similarity calculation process, a criterion for calculating the similarity between the representative image of the reference scene and the representative image of the main scene is to divide the representative image into a plurality of image areas, 4. The video summarizing method according to claim 3, wherein the RGB components of pixels in each image area of the image are compared.
【請求項5】 取り込まれた映像をそのシーンチェンジ
を検出することにより分割して形成した複数のシーンを
複数の時系列グループにまとめるための複数の映像要約
過程および/または上記複数のシーンより所定のシーン
を選択するための複数の映像要約過程と、各映像要約過
程により選択された各シーンの映像要約情報を出力する
映像要約出力過程とからなる映像要約方法。
5. A plurality of video summarization processes for grouping a plurality of scenes formed by dividing a captured video by detecting a scene change thereof into a plurality of time series groups and / or a predetermined process from the plurality of scenes. A video summarization method comprising: a plurality of video summarization processes for selecting a scene; and a video summary output process of outputting video summary information of each scene selected by each video summarization process.
【請求項6】 複数のシーンを複数の時系列グループに
まとめるための複数の映像要約過程および/または上記
複数のシーンより所定のシーンを選択するための複数の
映像要約過程が、全てのシーンを選択する第1の映像要
約過程と、上記取り込まれた映像の複数のシーンのうち
一定時間以上継続するシーンのみを選択する第2の映像
要約過程と、時系列的にその前後のシーンの所定の画像
(以下、シーンの所定の画像を代表画像という。)の類
似度を所定の基準に従って計算して類似度がしきい値以
上になる代表画像を含むシーンを時系列グループにまと
める第3の映像要約過程と、請求項1または請求項2に
記載した第4の映像要約過程と、請求項3または請求項
4に記載した第5の映像要約過程のうち少なくとも2以
上の映像要約過程であることを特徴とする請求項5に記
載の映像要約方法。
6. A plurality of video summarization processes for grouping a plurality of scenes into a plurality of time-series groups and / or a plurality of video summarization processes for selecting a predetermined scene from the plurality of scenes include all scenes. A first video summarizing step of selecting, a second video summarizing step of selecting only a scene that continues for a predetermined time or more from a plurality of scenes of the captured video, and a predetermined A third video that calculates a similarity of an image (hereinafter, a predetermined image of a scene is referred to as a representative image) according to a predetermined criterion, and collects scenes including the representative image whose similarity is equal to or greater than a threshold into a time-series group. A summarizing process, a fourth video summarizing process according to claim 1 or claim 2, and a video summarizing process of at least two of the fifth video summarizing process according to claim 3 or claim 4. 6. The video summarizing method according to claim 5, wherein:
【請求項7】 映像要約情報がシーンの所定の画像(以
下、シーンの所定の画像を代表画像という。)または所
定のフレーム番号(以下、代表フレーム番号という。)
であって、代表画像間のまたは代表フレーム番号間のフ
レーム数が多いものから順に代表画像または代表フレー
ム番号を選択して、所定の数のシーンまたは所定の数の
時系列シーンを選択することを特徴とする、請求項5ま
たは請求項6に記載の映像要約方法
7. The video summary information includes a predetermined image of a scene (hereinafter, a predetermined image of a scene is referred to as a representative image) or a predetermined frame number (hereinafter, referred to as a representative frame number).
And selecting a representative image or a representative frame number in descending order of the number of frames between representative images or representative frame numbers, and selecting a predetermined number of scenes or a predetermined number of time-series scenes. 7. The video summarizing method according to claim 5, wherein the video summarizing method is characterized in that:
【請求項8】 一つの映像要約過程によっては所定の数
の代表画像またはフレーム番号が選択できない場合に、
残りの代表画像またはフレーム番号を他の映像要約手段
によって選択された代表画像またはフレーム番号を選択
することを特徴とする、請求項7に記載の映像要約方
法。
8. When a predetermined number of representative images or frame numbers cannot be selected by one video summarization process,
8. The video summarizing method according to claim 7, wherein a representative image or frame number selected by the other video summarizing means for the remaining representative images or frame numbers is selected.
【請求項9】 使用者が、映像要約過程の優先順位およ
び選択すべきシーンまたは時系列シーンの数を入力し、
その情報に従って映像要約を行うことを特徴とする請求
項7または請求項8に記載の映像要約方法。
9. The user inputs the priority of the video summarization process and the number of scenes or time series scenes to be selected,
9. The video summarizing method according to claim 7, wherein the video summarizing is performed according to the information.
【請求項10】 映像および請求項1から請求項9まで
のいずれかの方法で選択した上記映像の代表画像を表示
する映像表示方法において、代表画像の位置付近の映像
の一部をつないだ映像(以下、要約映像という。)上で
指定されたフレームを先頭にして、映像を再生すること
を特徴とする映像表示方法。
10. A video display method for displaying a video and a representative image of the video selected by any one of claims 1 to 9, wherein a video connected to a part of a video near a position of the representative image is displayed. (Hereinafter referred to as a summary video.) A video display method characterized by reproducing a video starting from a frame specified above.
【請求項11】 映像の中から抜き出した画像の位置付
近の映像の一部をつないだ映像(以下、要約映像とい
う。)の再生の中断時に、中断した位置のフレーム画像
の内容を代表する代表画像を含む複数の代表画像を一覧
表示することを特徴とする映像表示方法。
11. When the reproduction of a video (hereinafter referred to as a summary video) connecting a part of a video near the position of an image extracted from a video is interrupted, a representative representing the contents of the frame image at the interrupted position. A video display method characterized by displaying a list of a plurality of representative images including images.
【請求項12】 要約映像の先頭の一部が直前の要約映
像の末尾の一部に含まれる場合には、当該要約映像の中
で直前の要約映像の末尾の一部に含まれた最後のフレー
ムの次のフレームを当該要約映像の先頭とすることを特
徴とする請求項10または請求項11に記載の映像表示
方法。
12. When the first part of the summary video is included in the last part of the immediately preceding summary video, the last part of the summary video included in the last part of the immediately preceding summary video is included. The video display method according to claim 10, wherein a frame next to the frame is set as a head of the summary video.
【請求項13】 取り込まれた映像を所定の基準に基づ
いて分割して形成した複数のシーンを複数の時系列グル
ープにまとめることにより映像の要約情報を抽出するた
めの複数の映像要約手段および/または上記複数のシー
ンより所定のシーンを選択することにより映像の要約情
報を抽出するための複数の映像要約手段と、上記映像要
約手段で抽出された要約情報を選択する要約情報選択手
段および要約情報表示手段を備えた映像要約システム。
13. A plurality of video summarizing means for extracting summary information of a video by grouping a plurality of scenes formed by dividing a captured video based on a predetermined standard into a plurality of time series groups, and / or A plurality of video summarization means for extracting video summary information by selecting a predetermined scene from the plurality of scenes; a summary information selection means for selecting the summary information extracted by the video summary means; and summary information A video summarization system having a display means.
JP26428796A 1996-10-04 1996-10-04 Video summarization method and video display method Expired - Fee Related JP3250467B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP26428796A JP3250467B2 (en) 1996-10-04 1996-10-04 Video summarization method and video display method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP26428796A JP3250467B2 (en) 1996-10-04 1996-10-04 Video summarization method and video display method

Publications (2)

Publication Number Publication Date
JPH10112835A true JPH10112835A (en) 1998-04-28
JP3250467B2 JP3250467B2 (en) 2002-01-28

Family

ID=17401077

Family Applications (1)

Application Number Title Priority Date Filing Date
JP26428796A Expired - Fee Related JP3250467B2 (en) 1996-10-04 1996-10-04 Video summarization method and video display method

Country Status (1)

Country Link
JP (1) JP3250467B2 (en)

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000299829A (en) * 1999-04-13 2000-10-24 Canon Inc Image processing unit and its method
JP2002041541A (en) * 2000-05-19 2002-02-08 Jisedai Joho Hoso System Kenkyusho:Kk Video retrieving device
JP2002135804A (en) * 2000-08-09 2002-05-10 Mitsubishi Electric Research Laboratories Inc Method for summarizing video by using motion descriptor and color descriptor
JP2002536857A (en) * 1999-01-30 2002-10-29 エルジー エレクトロニクス インコーポレーテッド Method for describing multi-stage summary segment information skim of multimedia stream, apparatus and method for generating summary stream from the described multi-stage summary segment information skim
JP2003032600A (en) * 2001-07-18 2003-01-31 Canon Inc Image processing unit, index preparing system, index preparing method, recording medium and program
WO2003058498A1 (en) * 2001-12-28 2003-07-17 Canon Kabushiki Kaisha Moving image data management apparatus and method
KR100436828B1 (en) * 2001-10-09 2004-06-23 한국방송공사 Video-on-demand service compression system
KR100464075B1 (en) * 2001-12-28 2004-12-30 엘지전자 주식회사 Video highlight generating system based on scene transition
JP2005025744A (en) * 2003-07-02 2005-01-27 Fuji Xerox Co Ltd Method, system and computer program product for automatically generating multilevel video summary
JP2006095304A (en) * 2004-09-27 2006-04-13 Given Imaging Ltd System and method for editing image stream captured in vivo
JP2006163605A (en) * 2004-12-03 2006-06-22 Hitachi Kokusai Electric Inc Image retrieval and display device and program thereof
JP2006172437A (en) * 2004-11-12 2006-06-29 Fuji Xerox Co Ltd Method for determining position of segment boundary in data stream, method for determining segment boundary by comparing data subset with vicinal data subset, program of instruction executable by computer, and system or device for identifying boundary and non-boundary in data stream
US7072901B2 (en) 2001-03-30 2006-07-04 International Business Machines Corporation Index generation method, index generation apparatus, index addition system, and program and storage medium thereof
JP2007075163A (en) * 2005-09-09 2007-03-29 Olympus Medical Systems Corp Image display device
WO2007049381A1 (en) * 2005-10-27 2007-05-03 Mitsubishi Electric Corporation Video summarization device
JP2007288637A (en) * 2006-04-19 2007-11-01 Sony Corp Reproducing apparatus and method, as well as program
JP2008263657A (en) * 2008-07-22 2008-10-30 Casio Comput Co Ltd Image processor, thumbnail moving image creation method and thumbnail moving image creation program
CN100466862C (en) * 2005-06-17 2009-03-04 株式会社Ntt都科摩 Communication apparatus and display method
JP2009088836A (en) * 2007-09-28 2009-04-23 Panasonic Corp Content photographing device
JP2009094814A (en) * 2007-10-09 2009-04-30 Panasonic Electric Works Co Ltd Display system and household server
WO2009054407A1 (en) * 2007-10-25 2009-04-30 Sharp Kabushiki Kaisha Display device and display method
JP2009528756A (en) * 2006-03-03 2009-08-06 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Method and apparatus for automatic generation of summaries of multiple images
US7627823B2 (en) 1998-12-28 2009-12-01 Sony Corporation Video information editing method and editing device
JP2010021728A (en) * 2008-07-09 2010-01-28 Canon Inc Image processing apparatus and image processing method
US8682142B1 (en) 2010-03-18 2014-03-25 Given Imaging Ltd. System and method for editing an image stream captured in-vivo
US8873816B1 (en) 2011-04-06 2014-10-28 Given Imaging Ltd. Method and system for identification of red colored pathologies in vivo
US9060673B2 (en) 2010-04-28 2015-06-23 Given Imaging Ltd. System and method for displaying portions of in-vivo images
KR101531783B1 (en) * 2011-05-18 2015-06-25 인텔렉츄얼 벤처스 펀드 83 엘엘씨 Video summary including a particular person
WO2015125815A1 (en) * 2014-02-20 2015-08-27 シャープ株式会社 Video image editing apparatus
US9324145B1 (en) 2013-08-08 2016-04-26 Given Imaging Ltd. System and method for detection of transitions in an image stream of the gastrointestinal tract
JP2016531471A (en) * 2013-07-12 2016-10-06 アップル インコーポレイテッド Trick playback in digital video streaming
KR20210039033A (en) * 2019-10-01 2021-04-09 씨제이올리브네트웍스 주식회사 Apparatus and Method for processing image data
US11023738B2 (en) 2018-06-13 2021-06-01 Canon Kabushiki Kaisha Information processing apparatus selecting highlight section from video, information processing method, and program
CN113873278A (en) * 2021-09-26 2021-12-31 北京奇艺世纪科技有限公司 Playing content auditing method and device and electronic equipment

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102585777B1 (en) * 2018-05-29 2023-10-10 삼성전자주식회사 Electronic apparatus and controlling method thereof

Cited By (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7627823B2 (en) 1998-12-28 2009-12-01 Sony Corporation Video information editing method and editing device
US7904813B1 (en) 1998-12-28 2011-03-08 Sony Corporation Method for editing video information and editing device
US6918081B1 (en) 1999-01-30 2005-07-12 Lg Electronics Inc. Method of describing multiple level digest segment information scheme for multimedia contents and apparatus for generating digest stream from described multiple level digest segment information scheme and method thereof
JP2002536857A (en) * 1999-01-30 2002-10-29 エルジー エレクトロニクス インコーポレーテッド Method for describing multi-stage summary segment information skim of multimedia stream, apparatus and method for generating summary stream from the described multi-stage summary segment information skim
US7406655B2 (en) 1999-01-30 2008-07-29 Lg Electronics, Inc. Method of describing multiple level digest segment information scheme for multimedia contents and apparatus for generating digest stream from described multiple level digest segment information scheme and method thereof
US7392467B2 (en) 1999-01-30 2008-06-24 Lg Electronics, Inc. Method of describing multiple level digest segment information scheme for multimedia contents and apparatus for generating digest stream from described multiple level digest segment information scheme and method thereof
JP2000299829A (en) * 1999-04-13 2000-10-24 Canon Inc Image processing unit and its method
JP2002041541A (en) * 2000-05-19 2002-02-08 Jisedai Joho Hoso System Kenkyusho:Kk Video retrieving device
JP2002135804A (en) * 2000-08-09 2002-05-10 Mitsubishi Electric Research Laboratories Inc Method for summarizing video by using motion descriptor and color descriptor
US7072901B2 (en) 2001-03-30 2006-07-04 International Business Machines Corporation Index generation method, index generation apparatus, index addition system, and program and storage medium thereof
JP2003032600A (en) * 2001-07-18 2003-01-31 Canon Inc Image processing unit, index preparing system, index preparing method, recording medium and program
JP4497761B2 (en) * 2001-07-18 2010-07-07 キヤノン株式会社 Image processing apparatus and index creation method
KR100436828B1 (en) * 2001-10-09 2004-06-23 한국방송공사 Video-on-demand service compression system
US7269290B2 (en) 2001-12-28 2007-09-11 Canon Kabushiki Kaisha Moving image data management apparatus and method
WO2003058498A1 (en) * 2001-12-28 2003-07-17 Canon Kabushiki Kaisha Moving image data management apparatus and method
US7155064B2 (en) 2001-12-28 2006-12-26 Canon Kabushiki Kaisha Moving image data management apparatus and method
KR100464075B1 (en) * 2001-12-28 2004-12-30 엘지전자 주식회사 Video highlight generating system based on scene transition
US6965701B2 (en) 2001-12-28 2005-11-15 Canon Kabushiki Kaisha Moving image data management apparatus and method
JP2005025744A (en) * 2003-07-02 2005-01-27 Fuji Xerox Co Ltd Method, system and computer program product for automatically generating multilevel video summary
US8743191B2 (en) 2004-09-27 2014-06-03 Given Imaging Ltd. System and method for editing an image stream captured in vivo
JP2006095304A (en) * 2004-09-27 2006-04-13 Given Imaging Ltd System and method for editing image stream captured in vivo
JP2006172437A (en) * 2004-11-12 2006-06-29 Fuji Xerox Co Ltd Method for determining position of segment boundary in data stream, method for determining segment boundary by comparing data subset with vicinal data subset, program of instruction executable by computer, and system or device for identifying boundary and non-boundary in data stream
JP2006163605A (en) * 2004-12-03 2006-06-22 Hitachi Kokusai Electric Inc Image retrieval and display device and program thereof
CN100466862C (en) * 2005-06-17 2009-03-04 株式会社Ntt都科摩 Communication apparatus and display method
JP2007075163A (en) * 2005-09-09 2007-03-29 Olympus Medical Systems Corp Image display device
WO2007049381A1 (en) * 2005-10-27 2007-05-03 Mitsubishi Electric Corporation Video summarization device
JP4699476B2 (en) * 2005-10-27 2011-06-08 三菱電機株式会社 Video summarization device
JPWO2007049381A1 (en) * 2005-10-27 2009-04-30 三菱電機株式会社 Video summarization device
JP2009528756A (en) * 2006-03-03 2009-08-06 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Method and apparatus for automatic generation of summaries of multiple images
JP2007288637A (en) * 2006-04-19 2007-11-01 Sony Corp Reproducing apparatus and method, as well as program
JP2009088836A (en) * 2007-09-28 2009-04-23 Panasonic Corp Content photographing device
JP2009094814A (en) * 2007-10-09 2009-04-30 Panasonic Electric Works Co Ltd Display system and household server
WO2009054407A1 (en) * 2007-10-25 2009-04-30 Sharp Kabushiki Kaisha Display device and display method
US8300926B2 (en) 2008-07-09 2012-10-30 Canon Kabushiki Kaisha Image processing apparatus and image processing method
JP2010021728A (en) * 2008-07-09 2010-01-28 Canon Inc Image processing apparatus and image processing method
JP2008263657A (en) * 2008-07-22 2008-10-30 Casio Comput Co Ltd Image processor, thumbnail moving image creation method and thumbnail moving image creation program
US8682142B1 (en) 2010-03-18 2014-03-25 Given Imaging Ltd. System and method for editing an image stream captured in-vivo
US10101890B2 (en) 2010-04-28 2018-10-16 Given Imaging Ltd. System and method for displaying portions of in-vivo images
US9060673B2 (en) 2010-04-28 2015-06-23 Given Imaging Ltd. System and method for displaying portions of in-vivo images
US8873816B1 (en) 2011-04-06 2014-10-28 Given Imaging Ltd. Method and system for identification of red colored pathologies in vivo
KR101531783B1 (en) * 2011-05-18 2015-06-25 인텔렉츄얼 벤처스 펀드 83 엘엘씨 Video summary including a particular person
JP2016531471A (en) * 2013-07-12 2016-10-06 アップル インコーポレイテッド Trick playback in digital video streaming
US10382830B2 (en) 2013-07-12 2019-08-13 Apple Inc. Trick play in digital video streaming
US9324145B1 (en) 2013-08-08 2016-04-26 Given Imaging Ltd. System and method for detection of transitions in an image stream of the gastrointestinal tract
JPWO2015125815A1 (en) * 2014-02-20 2017-03-30 シャープ株式会社 Video editing device
WO2015125815A1 (en) * 2014-02-20 2015-08-27 シャープ株式会社 Video image editing apparatus
US11023738B2 (en) 2018-06-13 2021-06-01 Canon Kabushiki Kaisha Information processing apparatus selecting highlight section from video, information processing method, and program
KR20210039033A (en) * 2019-10-01 2021-04-09 씨제이올리브네트웍스 주식회사 Apparatus and Method for processing image data
CN113873278A (en) * 2021-09-26 2021-12-31 北京奇艺世纪科技有限公司 Playing content auditing method and device and electronic equipment
CN113873278B (en) * 2021-09-26 2024-01-23 北京奇艺世纪科技有限公司 Broadcast content auditing method and device and electronic equipment

Also Published As

Publication number Publication date
JP3250467B2 (en) 2002-01-28

Similar Documents

Publication Publication Date Title
JP3250467B2 (en) Video summarization method and video display method
US6157744A (en) Method and apparatus for detecting a point of change in a moving image
US9672411B2 (en) Information processing apparatus and method, and program
US7362949B2 (en) Intelligent video system
JP3667262B2 (en) Video skimming method and apparatus
US8782563B2 (en) Information processing apparatus and method, and program
US5923365A (en) Sports event video manipulating system for highlighting movement
US20020051081A1 (en) Special reproduction control information describing method, special reproduction control information creating apparatus and method therefor, and video reproduction apparatus and method therefor
JP4559935B2 (en) Image storage apparatus and method
US7483624B2 (en) System and method for indexing a video sequence
JP3198980B2 (en) Image display device and moving image search system
JP3534368B2 (en) Moving image processing method and moving image processing apparatus
JP2003507943A (en) System and method for performing fast forward and slow motion speed conversion in a video stream based on video content
JPH0993588A (en) Moving image processing method
US20040109674A1 (en) Video summary play apparatus and method
JP3728775B2 (en) Method and apparatus for detecting feature scene of moving image
JP3240871B2 (en) Video summarization method
US20040246259A1 (en) Music program contents menu creation apparatus and method
CN115734007A (en) Video editing method, device, medium and video processing system
JP3906854B2 (en) Method and apparatus for detecting feature scene of moving image
JP3625935B2 (en) Important image extracting apparatus and important image extracting method for moving images
KR20020023063A (en) A method and apparatus for video skimming using structural information of video contents
JP2000069420A (en) Video image processor
JPH11252501A (en) Device for detecting special effect of moving image
JP2007151118A (en) Method and apparatus for detecting feature scene of moving image

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071116

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081116

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091116

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091116

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101116

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111116

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121116

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees