JP3124239B2 - Video information detection device - Google Patents

Video information detection device

Info

Publication number
JP3124239B2
JP3124239B2 JP08301865A JP30186596A JP3124239B2 JP 3124239 B2 JP3124239 B2 JP 3124239B2 JP 08301865 A JP08301865 A JP 08301865A JP 30186596 A JP30186596 A JP 30186596A JP 3124239 B2 JP3124239 B2 JP 3124239B2
Authority
JP
Japan
Prior art keywords
change
frame
audio
change frame
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP08301865A
Other languages
Japanese (ja)
Other versions
JPH10145729A (en
Inventor
陽一 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP08301865A priority Critical patent/JP3124239B2/en
Publication of JPH10145729A publication Critical patent/JPH10145729A/en
Application granted granted Critical
Publication of JP3124239B2 publication Critical patent/JP3124239B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、映像情報検出装置
に係り、詳細には、例えば動画像及びオーディオから構
成される映像情報を処理するシステムに利用される、映
像シーンの変化フレームを検出する映像情報検出装置に
関する。
[0001] 1. Field of the Invention [0002] The present invention relates to a video information detecting apparatus, and more particularly, to detecting a change frame of a video scene used in a system for processing video information composed of, for example, moving images and audio. The present invention relates to a video information detection device.

【0002】[0002]

【従来の技術】動画像及びオーディオから構成される映
像情報を記憶している媒体から利用者が所定の場面につ
いての映像を検出する動画像検出システムが提供されて
いる。
2. Description of the Related Art There is provided a moving image detection system in which a user detects a video of a predetermined scene from a medium storing video information composed of a moving image and audio.

【0003】従来のこの種の映像変化点、すなわちシー
ンチェンジフレームを検出する方法としては、例えば
「動画像データベースハンドリングに関する検討」(信
学技報,IE89−33,pp.49−56,198
9)に記載されたものがある。
As a conventional method of detecting this kind of video change point, that is, a scene change frame, for example, "Study on Moving Image Database Handling" (IEICE Technical Report, IE89-33, pp. 49-56, 198)
There is one described in 9).

【0004】ここでは、対象とする動画像の各フレーム
に対して輝度のヒストグラムを抽出し、直前のフレーム
とのヒストグラム差分量総和を算出し、その差分量が大
きい時に変化があったとしてシーンが変動したフレーム
とする。
Here, a histogram of luminance is extracted for each frame of a moving image to be processed, the sum of histogram differences from the immediately preceding frame is calculated, and it is determined that there is a change when the difference is large. The frame is changed.

【0005】図13はシーンチェンジフレームを検出す
る動画像検出装置の構成を示すブロック図、図14はそ
の画像全面変化計算部の構成を示すブロック図である。
FIG. 13 is a block diagram showing a configuration of a moving image detecting device for detecting a scene change frame, and FIG. 14 is a block diagram showing a configuration of a whole image change calculating unit.

【0006】図13において、11は動画像データ記憶
部、12は画像全面変化を計算する画像全面変化計算
部、13はシーン変化検出部である。
In FIG. 13, reference numeral 11 denotes a moving image data storage unit, 12 denotes an entire image change calculating unit for calculating an entire image change, and 13 denotes a scene change detecting unit.

【0007】上記動画像データ記憶部11は、例えばハ
ードディスクから構成され、MPEG(Moving Picture
Expert Group)等の符号化方式により、符号化された
信号が記憶される。
The moving image data storage unit 11 is constituted by, for example, a hard disk, and has a moving picture data (MPEG).
An encoded signal is stored by an encoding method such as Expert Group).

【0008】動画像データ記憶部11から読み出された
画像データ14は、画像全面変化計算部12に入力さ
れ、画像全面変化計算部12により計算された画像全面
変化量15は、シーン変化検出部13に入力される。
The image data 14 read from the moving image data storage unit 11 is input to an entire image change calculation unit 12, and the entire image change amount 15 calculated by the entire image change calculation unit 12 is calculated by a scene change detection unit. 13 is input.

【0009】また、図14において、画像全面変化計算
部12は、動画像データの輝度ヒストグラム計算する輝
度ヒストグラム計算部17及び輝度ヒストグラム差分計
算部18から構成される。
In FIG. 14, the entire image change calculator 12 includes a luminance histogram calculator 17 for calculating a luminance histogram of moving image data and a luminance histogram difference calculator 18.

【0010】輝度ヒストグラム計算部17により計算さ
れた輝度ヒストグラム19は、輝度ヒストグラム差分計
算部18に入力される。
The luminance histogram 19 calculated by the luminance histogram calculator 17 is input to a luminance histogram difference calculator 18.

【0011】以上の構成において、上記画像全面変化計
算部12には、動画像シーケンス中の各フレームの画像
データを格納した動画像データ記憶部11から、ある1
フレーム分の画像データが入力され、輝度ヒストグラム
計算部17により該フレームの輝度ヒストグラム19を
算出し、輝度ヒストグラム差分計算部18により該フレ
ームに対して直前に入力されたフレームの画像データに
対してあらかじめ算出してある輝度ヒストグラムとの差
分値総和を計算する。輝度ヒストグラム差分計算部18
により計算された輝度ヒストグラムとの差分値総和は、
画像全面変化量15としてシーン変化検出部13へ出力
される。
In the above configuration, the whole image change calculating section 12 stores a certain one of the moving image data from the moving image data storage section 11 which stores the image data of each frame in the moving image sequence.
Image data for a frame is input, a luminance histogram 19 of the frame is calculated by a luminance histogram calculator 17, and a luminance histogram difference calculator 18 calculates in advance the image data of the frame input immediately before the frame. The sum of the difference values with the calculated luminance histogram is calculated. Brightness histogram difference calculator 18
The sum of the difference values with the luminance histogram calculated by
It is output to the scene change detection unit 13 as the entire image change amount 15.

【0012】ここで、動画像データ記憶部11に格納さ
れる各フレームの画像データの輝度値Yを、 Y(x,y,t) 但し、0≦x<xw(xは水平画素位置、xwは水平方
向画素数) 0≦y<yw(yは垂直画素位置、ywは垂直方向画素
数) tはフレーム番号 とし、輝度値Yは、例えば、 0≦Y(x,y,t)<256 の値をとるとする。
Here, the luminance value Y of the image data of each frame stored in the moving image data storage unit 11 is represented by Y (x, y, t), where 0 ≦ x <xw (x is a horizontal pixel position, xw Is the number of pixels in the horizontal direction. 0 ≦ y <yw (y is the position of the vertical pixel, yw is the number of pixels in the vertical direction), t is the frame number, and the luminance value Y is, for example, 0 ≦ Y (x, y, t) <256. And take the value of.

【0013】輝度ヒストグラムを、 yhist(i,t) 但し、0≦i<256(iは輝度値) tはフレーム番号 とすると、yhist(i,t)はフレーム番号tで示
される画像データで輝度値がiとなる画素数である。
The luminance histogram is represented by yhist (i, t), where 0 ≦ i <256 (i is the luminance value), where t is a frame number, and yhist (i, t) is the luminance of the image data indicated by the frame number t. The number of pixels whose value is i.

【0014】画像全面変化量15として表される直前フ
レーム輝度ヒストグラムとの差分値総和をdyhist
(t)とすると、dyhist(t)は数1で示す式
(1)で表される。
The sum of the difference values with the immediately preceding frame luminance histogram represented as the entire image change amount 15 is dyhist
Assuming that (t), dyhist (t) is represented by Expression (1) shown in Expression 1.

【0015】[0015]

【数1】 (Equation 1)

【0016】シーン変化検出部13は、前記dyhis
t(t)を所定の閾値と大小比較し、所定の閾値より大
きい場合にフレーム間でのデータ変動が大きかった、す
なわち映像内容に変化があったと判定し、該フレーム番
号をシーン変化フレーム16として出力する。
The scene change detecting section 13 includes the dyhis
The value of t (t) is compared with a predetermined threshold value. If the value of t (t) is larger than the predetermined threshold value, it is determined that the data variation between frames is large, that is, that the video content has changed. Output.

【0017】上記輝度ヒストグラムを利用することの利
点は、画像の微小な変動に影響されないで全面的な変動
のみを安定に検出できることにある。
The advantage of using the above-mentioned luminance histogram is that only the entire fluctuation can be stably detected without being affected by the minute fluctuation of the image.

【0018】[0018]

【発明が解決しようとする課題】しかしながら、このよ
うな従来の動画像検出システムにあっては、シーンチェ
ンジフレーム検出精度、計算量とも映像処理システムで
使用するのには不十分であるという問題点があった。す
なわち、画像情報からのみシーンチェンジを満足できる
精度で検出しようとすると、複雑で演算量が莫大となる
とともに、画像情報の変化点だけでは本当に意味がある
変化点を検出することができなかった。例えば、画像情
報から得た変化量が相対的に大きくても、映像上の意味
から言えばさほど大きい変化でない、あるいはその逆の
ケースもあった。
However, such a conventional moving image detection system has a problem that both the accuracy of detecting a scene change frame and the amount of calculation are insufficient for use in a video processing system. was there. In other words, if an attempt is made to detect a scene change only from image information with sufficient accuracy, the amount of calculation becomes complicated and enormous, and a change point of image information alone cannot detect a meaningful change point. For example, in some cases, even if the amount of change obtained from image information is relatively large, the change is not so large in terms of video, or vice versa.

【0019】本発明は、誤ってシーン変化フレームを検
出する確率を低下させることができ、少ないオーディオ
処理演算量でシーン変化検出性能を向上させることがで
きる映像情報検出装置を提供することを目的とする。
An object of the present invention is to provide a video information detecting apparatus which can reduce the probability of erroneously detecting a scene change frame and improve the scene change detection performance with a small amount of audio processing operation. I do.

【0020】[0020]

【課題を解決するための手段】本発明に係る映像情報検
出装置は、互いに時系列に同期した動画像データとオー
ディオデータから構成される映像シーンに対して、動画
像データを格納する動画像データ格納手段と、オーディ
オデータを格納するオーディオデータ格納手段と、動画
像データの時系列に対する変化点を、画像変化フレーム
として算出する画像変化フレーム算出手段と、オーディ
オデータの時系列に対する変化点を、オーディオ変化フ
レームとして算出するオーディオ変化フレーム算出手段
と、画像変化フレーム及びオーディオ変化フレームに基
づいて映像シーン変化フレームを算出する映像シーン変
化フレーム算出手段とを備えた映像情報検出装置であっ
て、オーディオ変化フレーム算出手段は、前記オーディ
オデータの所定サンプル数の平均信号レベル値、あるい
は、バンドパスフィルタの各帯域出力の総和が、所定の
区間継続して所定の閾値より小となるフレームを算出す
るように構成する。
According to the present invention, there is provided a video information detecting apparatus for storing video data for a video scene composed of video data and audio data synchronized in time series with each other. Storage means, audio data storage means for storing audio data, image change frame calculation means for calculating a change point with respect to the time series of moving image data as an image change frame, and a change point with respect to the time series of audio data as audio data. A video information detecting device comprising: an audio change frame calculating means for calculating a change frame, and a video scene change frame calculating means for calculating a video scene change frame based on the image change frame and the audio change frame. The calculating means includes the audio
Average signal level value for a given number of samples of
Is configured to calculate a frame in which the sum of the band outputs of the band-pass filter is continuously smaller than a predetermined threshold for a predetermined section.

【0021】本発明に係る映像情報検出装置は、互いに
時系列に同期した動画像データとオーディオデータから
構成される映像シーンに対して、動画像データを格納す
る動画像データ格納手段と、オーディオデータを格納す
るオーディオデータ格納手段と、動画像データの時系列
に対する変化点を、画像変化フレームとして算出する画
像変化フレーム算出手段と、オーディオデータの時系列
に対する変化点を、オーディオ変化フレームとして算出
するオーディオ変化フレーム算出手段と、画像変化フレ
ーム及びオーディオ変化フレームに基づいて映像シーン
変化フレームを算出する映像シーン変化フレーム算出手
段とを備えた映像情報検出装置であって、オーディオ変
化フレーム算出手段は、オーディオデータの周波数スペ
クトルの時系列に対する変化量が所定の閾値より大きい
フレームを算出するように構成する。
A video information detecting apparatus according to the present invention comprises: a video data storage means for storing video data for a video scene composed of video data and audio data synchronized in time series; , An image change frame calculating means for calculating a change point with respect to a time series of moving image data as an image change frame, and an audio for calculating a change point with respect to the time series of audio data as an audio change frame. A video information detecting device comprising: a change frame calculating means; and a video scene change frame calculating means for calculating a video scene change frame based on the image change frame and the audio change frame. Time series of the frequency spectrum of The amount of change is adapted to calculate a larger frame than a predetermined threshold value.

【0022】本発明に係る映像情報検出装置は、互いに
時系列に同期した動画像データとオーディオデータから
構成される映像シーンに対して、動画像データを格納す
る動画像データ格納手段と、オーディオデータを格納す
るオーディオデータ格納手段と、動画像データの時系列
に対する変化点を、画像変化フレームとして算出する画
像変化フレーム算出手段と、オーディオデータの時系列
に対する変化点を、オーディオ変化フレームとして算出
するオーディオ変化フレーム算出手段と、画像変化フレ
ーム及びオーディオ変化フレームに基づいて映像シーン
変化フレームを算出する映像シーン変化フレーム算出手
段とを備えた映像情報検出装置であって、オーディオ変
化フレーム算出手段は、オーディオデータの性質によっ
て、オーディオデータの信号レベルが所定の区間継続し
て所定の閾値より小となるフレームと、オーディオデー
タの周波数スペクトルの時系列に対する変化量が所定の
閾値より大きいフレームを適応的に選択して算出するよ
うに構成する。
A video information detecting device according to the present invention comprises: a video data storage means for storing video data for a video scene composed of video data and audio data synchronized in time series with each other; , An image change frame calculating means for calculating a change point with respect to a time series of moving image data as an image change frame, and an audio for calculating a change point with respect to the time series of audio data as an audio change frame. A video information detecting device comprising: a change frame calculating means; and a video scene change frame calculating means for calculating a video scene change frame based on the image change frame and the audio change frame. Depending on the nature of the audio Frame in which the signal level of the data is continuously smaller than a predetermined threshold for a predetermined section, and a frame in which the amount of change in the time series of the frequency spectrum of the audio data is larger than the predetermined threshold is adaptively selected and calculated. Constitute.

【0023】本発明に係る映像情報検出装置は、互いに
時系列に同期した動画像データとオーディオデータから
構成される映像シーンに対して、動画像データを格納す
る動画像データ格納手段と、オーディオデータを格納す
るオーディオデータ格納手段と、動画像データの時系列
に対する変化点を、画像変化フレームとして算出する画
像変化フレーム算出手段と、オーディオデータの時系列
に対する変化点を、オーディオ変化フレームとして算出
するオーディオ変化フレーム算出手段と、画像変化フレ
ーム及びオーディオ変化フレームに基づいて映像シーン
変化フレームを算出する映像シーン変化フレーム算出手
段とを備えた映像情報検出装置であって、画像変化フレ
ーム算出手段は、画像変化フレームとして、動画像デー
タの1つのフレームの画像データが、該フレームに隣接
するフレームの画像データに対して全面的に変化するフ
レームと、動画像データの1つのフレームの画像データ
が、該フレームに隣接するフレームの画像データに対し
て局部的に変化するフレームとを算出するように構成す
る。
A video information detecting apparatus according to the present invention comprises: a video data storage means for storing video data for a video scene composed of video data and audio data synchronized in time series with each other; , An image change frame calculating means for calculating a change point with respect to a time series of moving image data as an image change frame, and an audio for calculating a change point with respect to the time series of audio data as an audio change frame. A video scene change frame calculating unit configured to calculate a video scene change frame based on the image change frame and the audio change frame, wherein the image change frame calculation unit includes an image change frame; as a frame, one frame of video data And the image data of one frame of the moving image data is locally changed with respect to the image data of the frame adjacent to the frame. It is configured to calculate a frame that changes dynamically.

【0024】本発明に係る映像情報検出装置は、互いに
時系列に同期した動画像データとオーディオデータから
構成される映像シーンに対して、動画像データを格納す
る動画像データ格納手段と、オーディオデータを格納す
るオーディオデータ格納手段と、動画像データの時系列
に対する変化点を、画像変化フレームとして算出する画
像変化フレーム算出手段と、オーディオデータの時系列
に対する変化点を、オーディオ変化フレームとして算出
するオーディオ変化フレーム算出手段と、画像変化フレ
ーム及びオーディオ変化フレームに基づいて映像シーン
変化フレームを算出する映像シーン変化フレーム算出手
段とを備えた映像情報検出装置であって、映像シーン変
化フレーム算出手段は、オーディオ変化フレームとして
算出され、かつ画像が全面的に変化するフレームとして
算出されたフレームすべてと、オーディオ変化フレーム
として算出され、かつ画像が局部的に変化するフレーム
として算出されたフレームの中から適宜選択されたフレ
ームを算出するように構成する。
A video information detecting apparatus according to the present invention comprises: a video data storage means for storing video data for a video scene composed of video data and audio data synchronized in time series with each other; , An image change frame calculating means for calculating a change point with respect to a time series of moving image data as an image change frame, and an audio for calculating a change point with respect to the time series of audio data as an audio change frame. A video scene change frame calculating means for calculating a video scene change frame based on an image change frame and an audio change frame, wherein the video scene change frame calculation means comprises: Calculated as a change frame and Is configured to calculate all frames calculated as frames that change entirely and frames that are appropriately selected from frames calculated as audio change frames and frames calculated as images where the image changes locally. I do.

【0025】本発明に係る映像情報検出装置は、互いに
時系列に同期した動画像データとオーディオデータから
構成される映像シーンに対して、動画像データを格納す
る動画像データ格納手段と、オーディオデータを格納す
るオーディオデータ格納手段と、動画像データの時系列
に対する変化点を、画像変化フレームとして算出する画
像変化フレーム算出手段と、オーディオデータの時系列
に対する変化点を、オーディオ変化フレームとして算出
するオーディオ変化フレーム算出手段と、画像変化フレ
ーム及びオーディオ変化フレームに基づいて映像シーン
変化フレームを算出する映像シーン変化フレーム算出手
段とを備えた映像情報検出装置であって、映像シーン変
化フレーム算出手段は、オーディオデータを使用してオ
ーディオ変化フレームを算出し、該算出されたオーディ
オ変化フレームを映像シーン変化フレームとして算出し
た後、映像シーンの中でさらに映像シーン変化フレーム
を算出することが必要とされる区間について、画像変化
フレーム算出手段により画像変化フレーム算出を行い区
間内で画像変化フレームとして算出されたフレームを映
像シーン変化フレームとして算出するように構成する。
A video information detecting device according to the present invention comprises: a video data storage means for storing video data for a video scene composed of video data and audio data synchronized in time series; , An image change frame calculating means for calculating a change point with respect to a time series of moving image data as an image change frame, and an audio for calculating a change point with respect to the time series of audio data as an audio change frame. A video scene change frame calculating means for calculating a video scene change frame based on an image change frame and an audio change frame, wherein the video scene change frame calculation means comprises: Audio change frames using data After calculating the calculated audio change frame as the video scene change frame, the image change frame calculation unit calculates a section in the video scene where it is necessary to further calculate the video scene change frame. An image change frame is calculated, and a frame calculated as an image change frame in a section is calculated as a video scene change frame.

【0026】[0026]

【発明の実施の形態】本発明に係る映像情報検出装置
は、高能率符号化方式を用いた映像情報システムにおい
て、映像の蓄積、再生を目的とした装置、例えば、MP
EG2のように映像・音声信号が高能率号化された信号
がディスクに記憶されている場合に適用することができ
る。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS A video information detecting apparatus according to the present invention is a video information system using a high-efficiency coding method, which is a device for storing and reproducing video, for example, MP
The present invention can be applied to a case where a signal in which a video / audio signal is highly efficient, such as EG2, is stored in a disk.

【0027】図1は本発明の第1の実施形態に係る映像
情報検出装置の全体構成を示すブロック図である。な
お、本実施形態に係る映像情報検出装置の説明にあたり
前記図13及び図14に示す動画像検出システムと同一
構成及び同一信号部分には同一符号を付している。
FIG. 1 is a block diagram showing the overall configuration of the video information detecting device according to the first embodiment of the present invention. In the description of the video information detecting apparatus according to the present embodiment, the same components and the same signal portions as those of the moving image detecting system shown in FIGS. 13 and 14 are denoted by the same reference numerals.

【0028】図1において、映像情報検出装置20は、
動画像シーケンス中の各フレームの画像データを格納す
る動画像データ記憶部11(動画像データ格納手段)、
画像全面変化を計算する画像全面変化計算部12(画像
変化フレーム算出手段)、オーディオデータを記憶する
オーディオデータ記憶部21(オーディオデータ格納手
段)、オーディオデータを基に無音情報を検出する無音
検出部22(オーディオ変化フレーム算出手段)、画像
全面変化量及び無音情報を基にシーン変化を検出するシ
ーン変化検出部23(映像シーン変化フレーム算出手
段)から構成される。
In FIG. 1, the video information detecting device 20 comprises:
A moving image data storage unit 11 (moving image data storage means) for storing image data of each frame in the moving image sequence,
Image entire change calculation unit 12 (image change frame calculation means) for calculating the entire image change, audio data storage unit 21 (audio data storage means) for storing audio data, and silence detection unit for detecting silence information based on the audio data 22 (audio change frame calculating means), and a scene change detecting section 23 (video scene change frame calculating means) for detecting a scene change based on the entire image change amount and the silence information.

【0029】本実施形態はMPEG2のように映像・音
声信号が高能率号化された信号がディスクに記憶されて
いる場合を示しており、動画像データ記憶部11は光デ
ィスクや光磁気ディスク、ハードディスク(HD)、さ
らにはディジタルVTRでもよい。
This embodiment shows a case where a signal in which a video / audio signal is converted into a high efficiency signal such as MPEG2 is stored on a disk. The moving image data storage unit 11 is an optical disk, a magneto-optical disk, a hard disk, or the like. (HD), or a digital VTR.

【0030】動画像データ記憶部11から読み出された
画像データ14は、画像全面変化計算部12に入力さ
れ、画像全面変化計算部12により計算された画像全面
変化量15は、シーン変化検出部23に入力される。
The image data 14 read from the moving image data storage unit 11 is input to an entire image change calculation unit 12, and the entire image change amount 15 calculated by the entire image change calculation unit 12 is calculated by a scene change detection unit. 23.

【0031】また、オーディオデータ記憶部21から読
み出されたオーディオデータ24は、無音検出部22に
入力され、無音検出部22により検出された無音情報2
5は、シーン変化検出部23に入力される。
The audio data 24 read from the audio data storage unit 21 is input to the silence detecting unit 22 and the silence information 2 detected by the silence detecting unit 22 is stored.
5 is input to the scene change detection unit 23.

【0032】上記画像全面変化計算部12は、前記図1
4に示す動画像データの輝度ヒストグラム計算する輝度
ヒストグラム計算部17及び輝度ヒストグラム差分計算
部18から構成される。
The image entire change calculation unit 12 performs the processing shown in FIG.
4 includes a luminance histogram calculator 17 for calculating a luminance histogram of the moving image data and a luminance histogram difference calculator 18.

【0033】図2は上記無音検出部22の構成を示すブ
ロック図である。
FIG. 2 is a block diagram showing the structure of the silence detecting section 22.

【0034】図2において、無音検出部22は、オーデ
ィオデータを連続する複数サンプルまとめてフレーム化
するオーディオフレーム構成部111、パワー計算部1
12、及び無音判定部113から構成される。
In FIG. 2, a silence detecting section 22 includes an audio frame forming section 111 for converting a plurality of continuous samples of audio data into a frame, and a power calculating section 1.
12 and a silence determination unit 113.

【0035】オーディオデータ記憶部21から読み出さ
れたオーディオデータ24は、オーディオフレーム構成
部111に入力され、オーディオフレーム構成部111
から出力されたオーディオフレームデータ114は、パ
ワー計算部112に入力される。また、パワー計算部1
12により計算されたパワーデータ115は、無音判定
部113に入力され、無音判定部113により判定され
た無音情報25は、シーン変化検出部23に入力され
る。
The audio data 24 read from the audio data storage unit 21 is input to the audio frame forming unit 111,
Are output to the power calculation unit 112. Power calculation unit 1
The power data 115 calculated by 12 is input to the silence determination unit 113, and the silence information 25 determined by the silence determination unit 113 is input to the scene change detection unit 23.

【0036】次に、上述のように構成された映像情報検
出装置20の動作を説明する。
Next, the operation of the video information detecting device 20 configured as described above will be described.

【0037】画像全面変化計算部12の動作は、従来例
と同様であり、前記数1に示す式(1)に示すdyhi
st(t)を、画像全面変化量15としてシーン変化検
出部23へ出力する。
The operation of the entire image change calculator 12 is the same as that of the conventional example, and the dyhi expression (1) shown in the equation (1) is used.
st (t) is output to the scene change detection unit 23 as the entire image change amount 15.

【0038】一方、無音検出部22には、オーディオデ
ータ24が入力され、無音検出部22は、入力レベルが
低下する時刻を映像シーケンスの内容の区切りと解釈し
て無音情報25を出力する。
On the other hand, the audio data 24 is inputted to the silence detecting section 22, and the silence detecting section 22 outputs the silence information 25 by interpreting the time when the input level decreases as a break of the contents of the video sequence.

【0039】図2を参照して無音検出部22の動作を説
明する。
The operation of the silence detector 22 will be described with reference to FIG.

【0040】オーディオデータ記憶部21に格納されて
いるオーディオデータ24は、1サンプルの解像度が1
6ビット、サンプル周波数は例えば45kHzである。
基本的には、オーディオ帯域(20kHz程度)を満足
すればよい。
The audio data 24 stored in the audio data storage section 21 has a resolution of 1 sample.
The 6-bit sample frequency is, for example, 45 kHz.
Basically, it suffices to satisfy the audio band (about 20 kHz).

【0041】オーディオフレーム構成部111は、時系
列に入力されるオーディオデータ24を連続する複数サ
ンプルまとめてフレーム化する。フレーム化したオーデ
ィオデータ24が、オーディオ処理の単位となる。
The audio frame forming section 111 forms a plurality of continuous samples of the audio data 24 input in time series into a frame. The framed audio data 24 is a unit of audio processing.

【0042】オーディオフレーム周期は、数msから数
10msの間で任意に設定可能であるが、ここでは説明
を簡略化するため動画像と同じ33ms、すなわち1フ
レームを1500サンプルで構成することにして説明す
る。オーディオデータのフレーム周期は、本実施形態の
数値には限定されない。
The audio frame period can be arbitrarily set between several ms and several tens of ms. Here, for simplicity of explanation, the same 33 ms as a moving image, that is, one frame is composed of 1500 samples. explain. The frame period of the audio data is not limited to the numerical value of the present embodiment.

【0043】オーディオデータ24を os(tt) ttはサンプル番号 オーディオフレームデータ114を of(t) tはフレーム番号 とすると、of(t)は、 os(t*1500),os(t*1500+1),…,
os(t*1500+1499) で構成される。
Assuming that the audio data 24 is os (tt) tt is a sample number, and that the audio frame data 114 is of (t) t is a frame number, of (t) is os (t * 1500) and os (t * 1500 + 1). ,…,
os (t * 1500 + 1499).

【0044】パワー計算部112は、各オーディオフレ
ームデータ114の入力レベルをpow(t)として、
数2に示す式(2)に従って算出する。
The power calculator 112 sets the input level of each audio frame data 114 as pow (t),
It is calculated according to equation (2) shown in equation 2.

【0045】[0045]

【数2】 (Equation 2)

【0046】上記オーディオデータ24、すなわちos
(tt)は、直流成分を含まないで入力されている。ま
た、pow(t)は、パワーデータ115として無音判
定部113へ出力される。
The audio data 24, ie, os
(Tt) is input without including a DC component. Also, pow (t) is output to the silence determination unit 113 as power data 115.

【0047】無音判定部113では、各オーディオフレ
ームのパワーデータ115と所定の閾値を大小比較し、
所定の閾値より小さいフレームが所定のフレーム数(数
100msオーダー)連続する時、これらのフレーム番
号を無音情報25として出力する。無音情報25で示さ
れるフレーム番号は、オーディオ信号が途切れる、すな
わち映像の内容的にも区切りを意味する可能性が高い。
The silence determination unit 113 compares the power data 115 of each audio frame with a predetermined threshold value,
When frames smaller than the predetermined threshold value are continuous for a predetermined number of frames (on the order of several hundred ms), these frame numbers are output as silence information 25. The frame number indicated by the silence information 25 has a high possibility that the audio signal is interrupted, that is, the frame number indicates a break even in the video content.

【0048】シーン変化検出部23は、画像全面変化量
15、すなわちdyhist(t)と無音情報25とに
基づいてシーン変化を検出し、dyhist(t)が所
定の閾値より小さく、かつ該フレーム番号tが無音情報
25に含まれる時、シーン変化フレーム26として出力
する。
The scene change detecting section 23 detects a scene change based on the entire image change amount 15, that is, dyhist (t) and the silence information 25, and when dyhist (t) is smaller than a predetermined threshold value and the frame number When “t” is included in the silent information 25, it is output as a scene change frame 26.

【0049】以上説明したように、第1の実施形態に係
る映像情報検出装置20は、動画像シーケンス中の各フ
レームの画像データを格納する動画像データ記憶部1
1、画像全面変化を計算する画像全面変化計算部12、
オーディオデータを記憶するオーディオデータ記憶部2
1、オーディオデータを基に無音情報を検出する無音検
出部22、画像全面変化量及び無音情報を基にシーン変
化を検出するシーン変化検出部23を備え、無音検出部
22は、オーディオデータの所定サンプル数の平均信号
レベル値、あるいは、バンドパスフィルタの各帯域出力
の総和が、所定の一定区間継続して所定の閾値より小と
なるフレームを算出し、画像データとオーディオデータ
レベルの両者の変化フレームを映像シーンの変化フレー
ムと判定するようにしたので、誤ってシーン変化フレー
ムを検出する確率が低下し、オーディオ処理を少ない演
算量でシーン変化検出性能を向上させることができる。
As described above, the video information detecting device 20 according to the first embodiment includes a moving image data storage unit 1 for storing image data of each frame in a moving image sequence.
1. an entire image change calculator 12 for calculating an entire image change;
Audio data storage unit 2 for storing audio data
1, includes a silence detector 22, scene change detecting section 23 for detecting a scene change based on the entire image variation amount and the silence information detected silence information based on audio data, the silence detector 22, a predetermined audio data Average number of samples signal
Level value or each band output of band pass filter
Is calculated as a frame in which both the image data and the audio data level change frames are determined to be the change frames of the video scene. The probability of detecting a scene change frame is reduced, and the scene change detection performance can be improved with a small amount of computation for audio processing.

【0050】特に、本実施形態では、単に音量が所定値
以上のフレームとするのではなく、意味のあるシーン変
化フレームとなるように、無音検出部22において、
ーディオデータの所定サンプル数の平均信号レベル値、
あるいは、バンドパスフィルタの各帯域出力の総和が、
所定の一定区間継続して所定の閾値より小となるフレー
ムを算出するようにしているので、誤ってシーン変化フ
レームを検出することを防止することができる。すなわ
ち、単に音量が所定値以上のフレームとする態様では、
例えば場面切替フレームの中で大声を出している、ある
いはBGMの音量が大きいフレームだけが検出されてし
まうが、本実施形態では発生している音声シーケンスの
切れ目に該当する無音情報を、シーン変化検出に用いて
いるので、正確なシーン変化検出を行うことができる。
[0050] Particularly, in this embodiment, only volume rather than a predetermined value or more frames, so that the scene change frame meaningful, the silence detector 22, O
Average signal level value for a predetermined number of audio data samples,
Alternatively, the sum of each band output of the band-pass filter is
Since a frame that is smaller than the predetermined threshold is calculated continuously for a predetermined fixed section, it is possible to prevent a scene change frame from being erroneously detected. In other words, in a mode in which the volume is simply a frame of a predetermined value or more,
For example, in the scene switching frame, only a loud voice or a frame with a large BGM volume is detected, but in the present embodiment, silence information corresponding to a break in the sound sequence generated is detected by scene change detection. Therefore, accurate scene change detection can be performed.

【0051】なお、上述したパワーデータ115の算出
方法は、本実施形態で述べた方法に限定されるものでは
なく、該当フレームにおけるオーディオ信号レベルを表
すものであればよい。例えば、各フレームのオーディオ
データに複数周波数バンクのバンドパスフィルタを施
し、各周波数バンクのバンドパスフィルタ出力の総和を
パワーデータとしても実現可能である。
The method of calculating the power data 115 described above is not limited to the method described in the present embodiment, but may be any method that represents the audio signal level in the corresponding frame. For example, band data of a plurality of frequency banks may be applied to the audio data of each frame, and the sum of the band pass filter outputs of the frequency banks may be realized as power data.

【0052】図3は本発明の第2の実施形態に係る映像
情報検出装置の全体構成を示すブロック図である。な
お、本実施形態に係る映像情報検出装置の説明にあたり
前記図1及び図2に示す動画像検出装置と同一構成及び
同一信号部分には同一符号を付して重複部分の説明を省
略する。
FIG. 3 is a block diagram showing the overall configuration of a video information detecting device according to the second embodiment of the present invention. In the description of the video information detecting device according to the present embodiment, the same components and the same signal portions as those of the moving image detecting device shown in FIGS. 1 and 2 are denoted by the same reference numerals, and the description of the overlapping portions will be omitted.

【0053】図3において、映像情報検出装置30は、
動画像シーケンス中の各フレームの画像データを格納す
る動画像データ記憶部11、画像全面変化を計算する画
像全面変化計算部12、オーディオデータを記憶するオ
ーディオデータ記憶部21、オーディオデータを基にス
ペクトル変化情報を検出するスペクトル変化検出部31
(オーディオ変化フレーム算出手段)、画像全面変化量
及びスペクトル変化情報を基にシーン変化を検出するシ
ーン変化検出部32(映像シーン変化フレーム算出手
段)から構成される。
In FIG. 3, the video information detecting device 30 comprises:
A moving image data storage unit 11 that stores image data of each frame in the moving image sequence, an entire image change calculation unit 12 that calculates an entire image change, an audio data storage unit 21 that stores audio data, and a spectrum based on the audio data. Spectrum change detection unit 31 for detecting change information
(Audio change frame calculating means) and a scene change detecting section 32 (video scene change frame calculating means) for detecting a scene change based on the entire image change amount and the spectrum change information.

【0054】動画像データ記憶部11から読み出された
画像データ14は、画像全面変化計算部12に入力さ
れ、画像全面変化計算部12により計算された画像全面
変化量15は、シーン変化検出部32に入力される。
The image data 14 read from the moving image data storage unit 11 is input to the entire image change calculation unit 12, and the entire image change amount 15 calculated by the entire image change calculation unit 12 is calculated by the scene change detection unit. 32.

【0055】また、オーディオデータ記憶部21から読
み出されたオーディオデータ24は、スペクトル変化検
出部31に入力され、スペクトル変化検出部31により
検出されたスペクトル変化情報33は、シーン変化検出
部32に入力される。
The audio data 24 read from the audio data storage unit 21 is input to a spectrum change detection unit 31, and the spectrum change information 33 detected by the spectrum change detection unit 31 is transmitted to the scene change detection unit 32. Is entered.

【0056】図4は上記スペクトル変化検出部31の構
成を示すブロック図である。
FIG. 4 is a block diagram showing the configuration of the spectrum change detecting section 31.

【0057】図4において、スペクトル変化検出部31
は、オーディオデータを連続する複数サンプルまとめて
フレーム化するオーディオフレーム構成部111、周波
数スペクトル計算部211、及びスペクトル変化判定部
212から構成される。
In FIG. 4, the spectrum change detecting section 31
Is composed of an audio frame composing unit 111, a frequency spectrum calculating unit 211, and a spectrum change judging unit 212, which collectively frame a plurality of continuous samples of audio data.

【0058】オーディオデータ記憶部21から読み出さ
れたオーディオデータ24は、オーディオフレーム構成
部111に入力され、オーディオフレーム構成部111
から出力されたオーディオフレームデータ114は、周
波数スペクトル計算部211に入力される。また、周波
数スペクトル計算部211により計算された周波数スペ
クトルデータ213は、スペクトル変化判定部212に
入力され、スペクトル変化判定部212により判定され
たスペクトル変化情報33は、シーン変化検出部32に
入力される。
The audio data 24 read from the audio data storage unit 21 is input to the audio frame forming unit 111,
The audio frame data 114 output from is input to the frequency spectrum calculation unit 211. The frequency spectrum data 213 calculated by the frequency spectrum calculation unit 211 is input to the spectrum change determination unit 212, and the spectrum change information 33 determined by the spectrum change determination unit 212 is input to the scene change detection unit 32. .

【0059】次に、上述のように構成された映像情報検
出装置30の動作を説明する。
Next, the operation of the video information detecting device 30 configured as described above will be described.

【0060】画像全面変化計算部12の動作は、前述と
同様であり、前記数1に示す式(1)に示すdyhis
t(t)を、画像全面変化量15としてシーン変化検出
部32へ出力する。
The operation of the entire image change calculator 12 is the same as that described above, and the dyhis shown in the equation (1) shown in the above equation (1).
t (t) is output to the scene change detection unit 32 as the entire image change amount 15.

【0061】一方、スペクトル変化検出部31には、オ
ーディオデータ24が入力され、スペクトル変化検出部
31は、入力周波数スペクトルが変化する時刻を映像シ
ーケンスの内容の区切りと解釈してスペクトル変化情報
33を出力する。
On the other hand, the audio data 24 is input to the spectrum change detecting section 31, and the spectrum change detecting section 31 interprets the time at which the input frequency spectrum changes as a break of the contents of the video sequence and converts the spectrum change information 33. Output.

【0062】図4を参照してスペクトル変化検出部31
の動作を説明する。
Referring to FIG. 4, spectrum change detecting section 31
Will be described.

【0063】オーディオフレーム構成部111の動作
は、前記第1の実施形態の動作と同様である。
The operation of the audio frame composing section 111 is the same as the operation of the first embodiment.

【0064】周波数スペクトル計算部211は、オーデ
ィオフレームデータ114を入力して、複数周波数バン
クのバンドパスフィルタ計算を行う。
The frequency spectrum calculator 211 receives the audio frame data 114 and performs a band pass filter calculation for a plurality of frequency banks.

【0065】周波数バンクの中心周波数は、対数間隔で
例えば、 10、20、50、100、200、500、100
0、2000、5000、10000、20000Hz の11帯域とする。
The center frequencies of the frequency banks are logarithmically spaced, for example, 10, 20, 50, 100, 200, 500, 100
There are 11 bands of 0, 2000, 5000, 10000 and 20000 Hz.

【0066】中心周波数は対数間隔で設定し、オーディ
オ帯域全体をカバーするように決定する。帯域数は、1
0から30程度にする。
The center frequency is set at logarithmic intervals, and is determined so as to cover the entire audio band. The number of bands is 1
It should be about 0 to 30.

【0067】上記実施形態では、11帯域を例としてい
るが、帯域数は本実施形態の数値には限定されない。
In the above embodiment, 11 bands are taken as an example, but the number of bands is not limited to the numerical value of this embodiment.

【0068】各オーディオフレーム番号tにおける周波
数スペクトルを、 bpf(w,t) とする。wは帯域番号で中心周波数が小さい順番とし、
本実施形態では、0≦w<11とする。
The frequency spectrum at each audio frame number t is represented by bpf (w, t). w is the band number and the order in which the center frequency is small,
In this embodiment, 0 ≦ w <11.

【0069】スペクトル変化判定部212では、各オー
ディオフレームの周波数スペクトルデータ213を、次
式(3)に従って直前フレーム付近のものと比較する。
The spectrum change determination unit 212 compares the frequency spectrum data 213 of each audio frame with that of the vicinity of the immediately preceding frame according to the following equation (3).

【0070】 dbpf(w,t,n)=|bpf(w,t)−bpf(w,t−n)| …(3) ここで、例えば、 1≦n≦5 とし、dbpf(w,t,n)を、 dbpf(w,t,1)>THL1 (THL1は所定
の閾値) を満足する回数が所定の帯域数より多く、かつ、 dbpf(w,t−1,nn)>THL2 (nn=1
〜4、THL2は所定の閾値) を満足する回数が所定の閾値より少ない、すなわち該フ
レームから周波数スペクトル変動が開始されていると判
断される時、該フレームをスペクトル変化情報33とし
て出力する。
Dbpf (w, t, n) = | bpf (w, t) −bpf (w, t−n) | (3) Here, for example, 1 ≦ n ≦ 5 and dbpf (w, t) , N), the number of times satisfying dbpf (w, t, 1)> THL1 (THL1 is a predetermined threshold) is larger than a predetermined number of bands, and dbpf (w, t−1, nn)> THL2 (nn) = 1
(4, THL2 is a predetermined threshold value) is less than the predetermined threshold value, that is, when it is determined that the frequency spectrum variation has started from the frame, the frame is output as the spectrum change information 33.

【0071】シーン変化検出部32は、入力された画像
全面変化量15、すなわちdyhist(t)とスペク
トル変化情報33から、dyhist(t)が所定の閾
値より小さく、かつ該フレーム番号tが前記スペクトル
変化情報33に含まれる時、シーン変化フレーム26と
して出力する。
The scene change detecting section 32 determines that dyhist (t) is smaller than a predetermined threshold value and that the frame number t is smaller than the predetermined threshold value, based on the input entire image change amount 15, that is, dyhist (t) and the spectrum change information 33. When it is included in the change information 33, it is output as the scene change frame 26.

【0072】以上説明したように、第2の実施形態に係
る映像情報検出装置30は、動画像シーケンス中の各フ
レームの画像データを格納する動画像データ記憶部1
1、画像全面変化を計算する画像全面変化計算部12、
オーディオデータを記憶するオーディオデータ記憶部2
1、オーディオデータを基にスペクトル変化情報を検出
するスペクトル変化検出部31、画像全面変化量及びス
ペクトル変化情報を基にシーン変化を検出するシーン変
化検出部32を備え、スペクトル変化検出部31は、オ
ーディオデータの周波数スペクトルの時系列に対する変
化量が所定の閾値より大きいフレームを算出し、画像デ
ータと、オーディオデータの状態を正確に示す情報であ
るオーディオデータ周波数スペクトルの両者の変化フレ
ームを映像シーンの変化フレームと判定するようにした
ので、誤ってシーン変化フレームを検出する確率が低下
し、シーン変化検出性能を向上させることができる。
As described above, the video information detecting device 30 according to the second embodiment includes a moving image data storage unit 1 for storing image data of each frame in a moving image sequence.
1. an entire image change calculator 12 for calculating an entire image change;
Audio data storage unit 2 for storing audio data
1. A spectrum change detection unit 31 that detects spectrum change information based on audio data, and a scene change detection unit 32 that detects a scene change based on the entire image change amount and the spectrum change information, A frame in which the change amount of the frequency spectrum of the audio data with respect to the time series is larger than a predetermined threshold is calculated, and the change frames of both the image data and the audio data frequency spectrum which is information that accurately indicates the state of the audio data are calculated. Since the change frame is determined, the probability of erroneously detecting the scene change frame is reduced, and the scene change detection performance can be improved.

【0073】なお、本実施形態では、オーディオデータ
に対して、周波数スペクトル分析を利用して変化フレー
ムを検出する方法としたが、周波数スペクトルに限定さ
れるものでなく、例えば線形予測分析のようなオーディ
オデータの性質を抽出できる分析手法による実現も可能
である。
In the present embodiment, a method of detecting a change frame in audio data by using frequency spectrum analysis has been described. However, the present invention is not limited to the frequency spectrum. It is also possible to use an analysis method that can extract the properties of audio data.

【0074】図5は本発明の第3の実施形態に係る映像
情報検出装置の全体構成を示すブロック図である。な
お、本実施形態に係る映像情報検出装置の説明にあたり
前記図1〜図4に示す動画像検出装置と同一構成及び同
一信号部分には同一符号を付して重複部分の説明を省略
する。
FIG. 5 is a block diagram showing the overall configuration of the video information detecting device according to the third embodiment of the present invention. In the description of the video information detecting device according to the present embodiment, the same components and the same signal portions as those of the moving image detecting device shown in FIGS.

【0075】図5において、映像情報検出装置40は、
動画像シーケンス中の各フレームの画像データを格納す
る動画像データ記憶部11、画像全面変化を計算する画
像全面変化計算部12、オーディオデータを記憶するオ
ーディオデータ記憶部21、各フレームのオーディオデ
ータが、音声信号か音声以外の信号かを周波数スペクト
ルの状態から判定する音声判定部41、オーディオデー
タを基に無音情報を検出する無音検出部22、オーディ
オデータを基にスペクトル変化情報を検出するスペクト
ル変化検出部31、画像全面変化量、無音情報及びスペ
クトル変化情報を基にシーン変化を検出するシーン変化
検出部42から構成される。
In FIG. 5, the video information detecting device 40 comprises:
A moving image data storage unit 11 that stores image data of each frame in the moving image sequence, an entire image change calculation unit 12 that calculates an entire image change, an audio data storage unit 21 that stores audio data, and audio data of each frame. A voice determination unit 41 for determining whether the signal is a voice signal or a signal other than voice from the state of the frequency spectrum, a silence detection unit 22 for detecting silence information based on audio data, and a spectrum change detecting spectrum change information based on the audio data. The detection unit 31 includes a scene change detection unit 42 that detects a scene change based on the entire image change amount, silence information, and spectrum change information.

【0076】動画像データ記憶部11から読み出された
画像データ14は、画像全面変化計算部12に入力さ
れ、画像全面変化計算部12により計算された画像全面
変化量15は、シーン変化検出部42に入力される。
The image data 14 read from the moving image data storage unit 11 is input to the entire image change calculation unit 12, and the entire image change amount 15 calculated by the entire image change calculation unit 12 is used as a scene change detection unit. 42.

【0077】また、オーディオデータ記憶部21から読
み出されたオーディオデータ24は、音声判定部41、
無音検出部22及びスペクトル変化検出部31にそれぞ
れ入力される。一方、音声判定部41により判定された
音声判定結果43は、無音検出部22及びスペクトル変
化検出部31にそれぞれ入力される。そして、無音検出
部22により検出された無音情報25、スペクトル変化
検出部31により検出されたスペクトル変化情報33
は、シーン変化検出部42に入力される。
The audio data 24 read from the audio data storage unit 21 is stored in the audio determination unit 41,
The signals are input to the silence detection unit 22 and the spectrum change detection unit 31, respectively. On the other hand, the voice determination result 43 determined by the voice determination unit 41 is input to the silence detection unit 22 and the spectrum change detection unit 31, respectively. The silence information 25 detected by the silence detection unit 22 and the spectrum change information 33 detected by the spectrum change detection unit 31
Is input to the scene change detection unit 42.

【0078】図6は上記音声判定部41の構成を示すブ
ロック図であり、前記図4のスペクトル変化検出部31
と同一構成部分には同一符号を付している。
FIG. 6 is a block diagram showing the structure of the voice judging section 41. The spectrum change detecting section 31 shown in FIG.
The same components as those described above are denoted by the same reference numerals.

【0079】図6において、音声判定部41は、オーデ
ィオデータを連続する複数サンプルまとめてフレーム化
するオーディオフレーム構成部111、周波数スペクト
ル計算部211、及び音声帯域レベル比較部301から
構成される。
In FIG. 6, the audio determination unit 41 is composed of an audio frame construction unit 111 for converting a plurality of continuous samples of audio data into a frame, a frequency spectrum calculation unit 211, and an audio band level comparison unit 301.

【0080】オーディオデータ記憶部21から読み出さ
れたオーディオデータ24は、オーディオフレーム構成
部111に入力され、オーディオフレーム構成部111
から出力されたオーディオフレームデータ114は、周
波数スペクトル計算部211に入力される。また、周波
数スペクトル計算部211により計算された周波数スペ
クトルデータ213は、音声帯域レベル比較部301に
入力され、音声帯域レベル比較部301により判定され
た音声判定結果43は、無音検出部22及びスペクトル
変化検出部31にそれぞれ入力される。
The audio data 24 read from the audio data storage unit 21 is input to the audio frame forming unit 111,
The audio frame data 114 output from is input to the frequency spectrum calculation unit 211. The frequency spectrum data 213 calculated by the frequency spectrum calculation unit 211 is input to the audio band level comparison unit 301, and the audio judgment result 43 determined by the audio band level comparison unit 301 is output to the silence detection unit 22 and the spectrum change Each is input to the detection unit 31.

【0081】次に、上述のように構成された映像情報検
出装置40の動作を説明する。
Next, the operation of the video information detecting device 40 configured as described above will be described.

【0082】画像全面変化計算部12の動作は、前述と
同様であり、前記数1に示す式(1)に示すdyhis
t(t)を、画像全面変化量15としてシーン変化検出
部42へ出力する。
The operation of the entire image change calculation unit 12 is the same as described above, and the dyhis
t (t) is output to the scene change detection unit 42 as the entire image change amount 15.

【0083】音声判定部41では、各フレームのオーデ
ィオデータが、音声信号であるかあるいは音声以外の例
えばバックグラウンドミュージック(BGM)信号であ
るのかを、周波数スペクトルの状態から判定する。
The audio determination section 41 determines whether the audio data of each frame is an audio signal or a non-audio, for example, background music (BGM) signal from the state of the frequency spectrum.

【0084】図6において、オーディオフレーム構成部
111と周波数スペクトル計算部211の処理内容は、
前記第2実施形態と同様である。
In FIG. 6, the processing contents of the audio frame forming unit 111 and the frequency spectrum calculating unit 211 are as follows.
This is the same as the second embodiment.

【0085】音声帯域レベル比較部301は、音声信号
帯域(200Hz付近から6000Ηz付近)の周波数
スペクトルデータ215の値と、音声信号帯域外の周波
数スペクトルデータ215の値を比較し、前者が所定の
閾値より大きい時「1」を、所定の閾値より小さい時
「0」を音声判定結果43として出力する。
The audio band level comparing section 301 compares the value of the frequency spectrum data 215 in the audio signal band (from about 200 Hz to about 6000 Ηz) with the value of the frequency spectrum data 215 outside the audio signal band. When the value is larger than the predetermined threshold value, “1” is output. When the value is smaller than the predetermined threshold value, “0” is output as the voice determination result 43.

【0086】無音検出部22では、音声判定結果43入
力が1の時、前記第1実施形態と同様な動作をしてレベ
ルが所定の閾値より小さいフレームのフレーム番号を無
音情報25としてシーン変化検出部42へ出力し、ま
た、音声判定結果43入力が0の時、動作を停止し、無
音情報25としてフレーム番号を出力しない。
When the voice judgment result 43 is 1, the silence detecting section 22 performs the same operation as in the first embodiment and detects the scene change as the silence information 25 using the frame number of the frame whose level is smaller than the predetermined threshold. When the voice judgment result 43 input is 0, the operation is stopped and the frame number is not output as the silence information 25.

【0087】スペクトル変化検出部31では、音声判定
結果43入力が0の時、前記第2実施形態と同様な動作
をしてスペクトル変化が所定の閾値より大きいフレーム
のフレーム番号をスペクトル変化情報33としてシーン
変化検出部42へ出力し、また、音声判定結果43入力
が1の時、動作を停止し、スペクトル変化情報33とし
てフレーム番号を出力しない。
When the voice judgment result 43 input is 0, the spectrum change detection unit 31 performs the same operation as in the second embodiment and sets the frame number of the frame whose spectrum change is larger than the predetermined threshold value as the spectrum change information 33. When the input is output to the scene change detection unit 42 and the sound determination result 43 input is 1, the operation is stopped, and the frame number is not output as the spectrum change information 33.

【0088】つまり、音声のようなレベル変動が大きい
場合には、無音情報25、BGMのようにレベル変動の
大きさが変化フレームである確率が高くない場合にはス
ペクトル変化情報33を適応的に利用することにより、
オーディオ変化フレーム検出精度を向上させる。
That is, when the level fluctuation such as voice is large, the silence information 25 is used, and when the probability that the level fluctuation is not a change frame like BGM is not high, the spectrum change information 33 is adaptively applied. By using
Improve audio change frame detection accuracy.

【0089】シーン変化検出部42は、入力された画像
全面変化量15、すなわちdyhist(t)、無音情
報15及びスペクトル変化情報33から、dyhist
(t)が所定の閾値より小さく、かつ該フレーム番号t
が無音情報25またはスペクトル変化情報33に含まれ
る時、シーン変化フレーム26として出力する。
The scene change detection unit 42 calculates the dyhist (t), the silence information 15 and the spectrum change information 33 from the input image entire change amount 15,
(T) is smaller than a predetermined threshold value and the frame number t
Is included in the silence information 25 or the spectrum change information 33, it is output as the scene change frame 26.

【0090】以上説明したように、第3の実施形態に係
る映像情報検出装置40は、映像情報検出装置40は、
動画像シーケンス中の各フレームの画像データを格納す
る動画像データ記憶部11、画像全面変化を計算する画
像全面変化計算部12、オーディオデータを記憶するオ
ーディオデータ記憶部21、各フレームのオーディオデ
ータが、音声信号か音声以外の信号かを周波数スペクト
ルの状態から判定する音声判定部41、オーディオデー
タを基に無音情報を検出する無音検出部22、オーディ
オデータを基にスペクトル変化情報を検出するスペクト
ル変化検出部31、画像全面変化量、無音情報及びスペ
クトル変化情報を基にシーン変化を検出するシーン変化
検出部42を備え、画像データと、オーディオデータの
状態を正確に示す情報であるレベル情報とオーディオデ
ータ周波数スペクトルを適応的に利用して映像シーンの
変化フレームと判定するようにしたので、シーン変化検
出性能を向上させることができる。
As described above, the video information detecting device 40 according to the third embodiment is
A moving image data storage unit 11 that stores image data of each frame in the moving image sequence, an entire image change calculation unit 12 that calculates an entire image change, an audio data storage unit 21 that stores audio data, and audio data of each frame. A voice determination unit 41 for determining whether the signal is a voice signal or a signal other than voice from the state of the frequency spectrum, a silence detection unit 22 for detecting silence information based on audio data, and a spectrum change detecting spectrum change information based on the audio data. A detection unit 31 includes a scene change detection unit 42 that detects a scene change based on the entire image change amount, silence information, and spectrum change information, and includes level information and audio information that accurately indicate the state of image data and audio data. Using the data frequency spectrum adaptively, change frames and Since the way, it is possible to improve the scene change detection performance.

【0091】図7は本発明の第4の実施形態に係る映像
情報検出装置の全体構成を示すブロック図である。な
お、本実施形態に係る映像情報検出装置の説明にあたり
前記図1〜図6に示す動画像検出装置と同一構成及び同
一信号部分には同一符号を付して重複部分の説明を省略
する。
FIG. 7 is a block diagram showing the overall configuration of a video information detecting device according to the fourth embodiment of the present invention. In the description of the video information detecting device according to the present embodiment, the same components and the same signal portions as those of the moving image detecting device shown in FIGS. 1 to 6 are denoted by the same reference numerals, and the description of the overlapping portions will be omitted.

【0092】図7において、映像情報検出装置50は、
動画像シーケンス中の各フレームの画像データを格納す
る動画像データ記憶部11、画像全面変化を計算する画
像全面変化計算部12、オーディオデータを記憶するオ
ーディオデータ記憶部21、各フレームのオーディオデ
ータのフレーム前後におけるレベル変動の大きさを算出
し、その結果を反映させた形でレベル変動判定を行うレ
ベル変動判定部51、オーディオデータを基に無音情報
を検出する無音検出部22、オーディオデータを基にス
ペクトル変化情報を検出するスペクトル変化検出部3
1、画像全面変化量、無音情報及びスペクトル変化情報
を基にシーン変化を検出するシーン変化検出部52から
構成される。
In FIG. 7, the video information detecting device 50 comprises:
A moving image data storage unit 11 that stores image data of each frame in the moving image sequence, an entire image change calculation unit 12 that calculates an entire image change, an audio data storage unit 21 that stores audio data, and an audio data storage unit 21 that stores audio data of each frame. A level fluctuation determining unit 51 that calculates the magnitude of the level fluctuation before and after the frame and determines the level fluctuation in a form reflecting the result, a silence detecting unit 22 that detects silence information based on the audio data, Spectrum change detection unit 3 for detecting spectrum change information
1. It is composed of a scene change detecting section 52 for detecting a scene change based on the entire image change amount, silence information and spectrum change information.

【0093】動画像データ記憶部11から読み出された
画像データ14は、画像全面変化計算部12に入力さ
れ、画像全面変化計算部12により計算された画像全面
変化量15は、シーン変化検出部52に入力される。
The image data 14 read from the moving image data storage unit 11 is input to the entire image change calculation unit 12, and the entire image change amount 15 calculated by the entire image change calculation unit 12 is calculated by the scene change detection unit. 52 is input.

【0094】また、オーディオデータ記憶部21から読
み出されたオーディオデータ24は、レベル変動判定部
51、無音検出部22及びスペクトル変化検出部31に
それぞれ入力される。一方、レベル変動判定部51によ
り判定されたレベル変動判定結果53は、無音検出部2
2及びスペクトル変化検出部31にそれぞれ入力され
る。そして、無音検出部22により検出された無音情報
25、スペクトル変化検出部31により検出されたスペ
クトル変化情報33は、シーン変化検出部52に入力さ
れる。
The audio data 24 read from the audio data storage unit 21 is input to the level fluctuation determination unit 51, the silence detection unit 22, and the spectrum change detection unit 31, respectively. On the other hand, the level change determination result 53 determined by the level change determination unit 51 is
2 and the spectrum change detection unit 31. Then, the silence information 25 detected by the silence detection unit 22 and the spectrum change information 33 detected by the spectrum change detection unit 31 are input to the scene change detection unit 52.

【0095】図8は上記レベル変動判定部51の構成を
示すブロック図であり、前記図2の無音検出部22と同
一構成部分には同一符号を付している。
FIG. 8 is a block diagram showing the structure of the level fluctuation judging section 51. The same components as those of the silence detecting section 22 of FIG. 2 are denoted by the same reference numerals.

【0096】図8において、レベル変動判定部51は、
オーディオデータを連続する複数サンプルまとめてフレ
ーム化するオーディオフレーム構成部111、パワー計
算部112、及びパワー変化量計算部401から構成さ
れる。
In FIG. 8, the level fluctuation determining section 51
It is composed of an audio frame forming unit 111, a power calculating unit 112, and a power change amount calculating unit 401, which collectively frame a plurality of continuous samples of audio data.

【0097】オーディオデータ記憶部21から読み出さ
れたオーディオデータ24は、オーディオフレーム構成
部111に入力され、オーディオフレーム構成部111
から出力されたオーディオフレームデータ114は、パ
ワー計算部112に入力される。また、パワー計算部1
12により計算されたパワーデータ115は、パワー変
化量計算部401に入力され、パワー変化量計算部40
1により計算されたレベル変動判定結果53は、無音検
出部22及びスペクトル変化検出部31にそれぞれ入力
される。
The audio data 24 read from the audio data storage unit 21 is input to the audio frame forming unit 111,
Are output to the power calculation unit 112. Power calculation unit 1
The power data 115 calculated by 12 is input to the power change amount calculation unit 401, and the power change amount calculation unit 40
The level fluctuation determination result 53 calculated in step 1 is input to the silence detection unit 22 and the spectrum change detection unit 31, respectively.

【0098】次に、上述のように構成された映像情報検
出装置50の動作を説明する。
Next, the operation of the video information detecting device 50 configured as described above will be described.

【0099】画像全面変化計算部12の動作は、前述と
同様であり、前記数1に示す式(1)に示すdyhis
t(t)を、画像全面変化量15としてシーン変化検出
部42へ出力する。
The operation of the entire image change calculation unit 12 is the same as that described above, and the dyhis
t (t) is output to the scene change detection unit 42 as the entire image change amount 15.

【0100】レベル変動判定部51は、各フレームのオ
ーディオデータの該フレーム前後におけるレベル変動の
大きさを算出し、その結果を反映させた形でレベル変動
判定結果53を出力する。
The level change judging section 51 calculates the level change level of the audio data of each frame before and after the frame, and outputs a level change judgment result 53 in a form reflecting the result.

【0101】図8において、オーディオフレーム構成部
111とパワー計算部112の処理内容は、前記第1実
施形態と同様である。
In FIG. 8, the processing contents of the audio frame forming unit 111 and the power calculating unit 112 are the same as those in the first embodiment.

【0102】パワー変化量計算部401は、数3に示す
次式(4)を満足する時は「1」を、満足しない時
「0」をレベル変動判定結果53として出力する。
The power variation calculator 401 outputs “1” as the level variation determination result 53 when the following equation (4) shown in Expression 3 is satisfied, and outputs “0” when the following equation (4) is not satisfied.

【0103】[0103]

【数3】 (Equation 3)

【0104】無音検出部22では、レベル変動判定結果
53入力が1の時、前記第1実施形態と同様な動作をし
てレベルが所定の閾値より小さいフレームのフレーム番
号を無音情報25としてシーン変化検出部52へ出力
し、また、レベル変動判定結果53入力が0の時、動作
を停止し、無音情報25としてフレーム番号を出力しな
い。
When the level change determination result 53 input is 1, the silence detecting section 22 performs the same operation as in the first embodiment, and sets the frame number of the frame whose level is smaller than the predetermined threshold as silence information 25 as the scene change information 25. When the level change determination result 53 input is 0, the operation is stopped and the frame number is not output as the silence information 25.

【0105】スペクトル変化検出部31では、レベル変
動判定結果53入力が0の時、前記第2実施形態と同様
な動作をしてスペクトル変化が所定の閾値より大きいフ
レームのフレーム番号をスペクトル変化情報33として
シーン変化検出部52へ出力し、また、レベル変動判定
結果53入力が1の時、動作を停止し、スペクトル変化
情報33としてフレーム番号を出力しない。
When the level change determination result 53 input is 0, the spectrum change detection section 31 performs the same operation as in the second embodiment to change the frame number of the frame whose spectrum change is larger than the predetermined threshold value into the spectrum change information 33. Is output to the scene change detection unit 52. When the level change determination result 53 input is 1, the operation is stopped, and the frame number is not output as the spectrum change information 33.

【0106】つまり、前後のレベル変動が大きい場合に
は無音情報25、小さい場合にはスペクトル変化情報3
3を適応的に利用することにより、オーディオ変化フレ
ーム検出精度を向上させる。
That is, if the level fluctuation before and after is large, the silence information 25 is used. If the level fluctuation is small, the spectrum change information 3 is used.
3 is used to improve the accuracy of audio change frame detection.

【0107】シーン変化検出部52では、入力された画
像全面変化量15、すなわちdyhist(t)、無音
情報25及びスペクトル変化情報33から、dyhis
t(t)が所定の閾値より小さく、かつ該フレーム番号
tが無音情報25またはスペクトル変化情報33に含ま
れる時、シーン変化フレーム26として出力する。
The scene change detecting section 52 obtains dyhis from the input entire image change amount 15, ie, dyhist (t), silence information 25 and spectrum change information 33.
When t (t) is smaller than a predetermined threshold value and the frame number t is included in the silence information 25 or the spectrum change information 33, it is output as a scene change frame 26.

【0108】以上説明したように、第4の実施形態に係
る映像情報検出装置50は、動画像シーケンス中の各フ
レームの画像データを格納する動画像データ記憶部1
1、画像全面変化を計算する画像全面変化計算部12、
オーディオデータを記憶するオーディオデータ記憶部2
1、各フレームのオーディオデータのフレーム前後にお
けるレベル変動の大きさを算出し、その結果を反映させ
た形でレベル変動判定を行うレベル変動判定部51、オ
ーディオデータを基に無音情報を検出する無音検出部2
2、オーディオデータを基にスペクトル変化情報を検出
するスペクトル変化検出部31、画像全面変化量、無音
情報及びスペクトル変化情報を基にシーン変化を検出す
るシーン変化検出部52を備え、画像データと、オーデ
ィオデータの状態を正確に示す情報であるレベル情報と
オーディオデータ周波数スペクトルを適応的に利用して
映像シーンの変化フレームと判定するようにしたので、
簡単な処理で実現することができ、シーン変化検出性能
を向上させかつコストダウンを実現することができる。
As described above, the video information detection device 50 according to the fourth embodiment stores the video data storage unit 1 for storing the image data of each frame in the video sequence.
1. an entire image change calculator 12 for calculating an entire image change;
Audio data storage unit 2 for storing audio data
1. A level fluctuation determining unit 51 that calculates the level fluctuation level of the audio data of each frame before and after the frame and determines the level fluctuation in a form reflecting the result, and silence detecting silence information based on the audio data. Detector 2
2. It has a spectrum change detection unit 31 for detecting spectrum change information based on audio data, a scene change detection unit 52 for detecting a scene change based on the entire image change amount, silence information, and the spectrum change information. Since the level information and the audio data frequency spectrum, which accurately indicate the state of the audio data, are adaptively used to determine the change frame of the video scene,
This can be realized by simple processing, and the scene change detection performance can be improved and the cost can be reduced.

【0109】図9は本発明の第5の実施形態に係る映像
情報検出装置の全体構成を示すブロック図である。な
お、本実施形態に係る映像情報検出装置の説明にあたり
前記図1〜図6に示す動画像検出装置と同一構成及び同
一信号部分には同一符号を付して重複部分の説明を省略
する。
FIG. 9 is a block diagram showing the overall configuration of a video information detecting device according to the fifth embodiment of the present invention. In the description of the video information detecting device according to the present embodiment, the same components and the same signal portions as those of the moving image detecting device shown in FIGS. 1 to 6 are denoted by the same reference numerals, and the description of the overlapping portions will be omitted.

【0110】図9において、映像情報検出装置60は、
動画像シーケンス中の各フレームの画像データを格納す
る動画像データ記憶部11、画像全面変化を計算する画
像全面変化計算部12、各フレームの画像データを隣接
フレームの画像データと比較することにより、画像の局
部的変化量を計算する画像局部変化計算部61、オーデ
ィオデータを記憶するオーディオデータ記憶部21、各
フレームのオーディオデータが、音声信号か音声以外の
信号かを周波数スペクトルの状態から判定する音声判定
部41、オーディオデータを基に無音情報を検出する無
音検出部22、オーディオデータを基にスペクトル変化
情報を検出するスペクトル変化検出部31、画像全面変
化量、画像局部変化量、無音情報及びスペクトル変化情
報を基にシーン変化を検出するシーン変化検出部62か
ら構成される。
In FIG. 9, the video information detecting device 60 comprises:
A moving image data storage unit 11 that stores image data of each frame in the moving image sequence, an entire image change calculation unit 12 that calculates an entire image change, and comparing the image data of each frame with the image data of an adjacent frame, An image local change calculation unit 61 for calculating a local change amount of an image; an audio data storage unit 21 for storing audio data; and determining whether audio data of each frame is an audio signal or a signal other than audio from a state of a frequency spectrum. A voice determination unit 41, a silence detection unit 22 that detects silence information based on audio data, a spectrum change detection unit 31 that detects spectrum change information based on audio data, an entire image change amount, an image local change amount, silence information, It comprises a scene change detecting section 62 for detecting a scene change based on the spectrum change information.

【0111】動画像データ記憶部11から読み出された
画像データ14は、画像全面変化計算部12及び画像局
部変化計算部61にそれぞれ入力され、画像全面変化計
算部12により計算された画像全面変化量15、画像局
部変化計算部61により計算された画像局部変化量63
はシーン変化検出部62に入力される。
The image data 14 read from the moving image data storage unit 11 is input to the entire image change calculation unit 12 and the local image change calculation unit 61, respectively. 15, the image local change amount 63 calculated by the image local change calculation unit 61
Is input to the scene change detection unit 62.

【0112】また、オーディオデータ記憶部21から読
み出されたオーディオデータ24は、音声判定部41、
無音検出部22及びスペクトル変化検出部31にそれぞ
れ入力される。一方、音声判定部41により判定された
音声判定結果43は、無音検出部22及びスペクトル変
化検出部31にそれぞれ入力される。そして、無音検出
部22により検出された無音情報25、スペクトル変化
検出部31により検出されたスペクトル変化情報33
は、シーン変化検出部62に入力される。
The audio data 24 read from the audio data storage unit 21 is stored in the audio determination unit 41,
The signals are input to the silence detection unit 22 and the spectrum change detection unit 31, respectively. On the other hand, the voice determination result 43 determined by the voice determination unit 41 is input to the silence detection unit 22 and the spectrum change detection unit 31, respectively. The silence information 25 detected by the silence detection unit 22 and the spectrum change information 33 detected by the spectrum change detection unit 31
Is input to the scene change detection unit 62.

【0113】図10は上記画像局部変化計算部61の構
成を示すブロック図である。
FIG. 10 is a block diagram showing the structure of the image local change calculation section 61.

【0114】図10において、画像局部変化計算部61
は、フレーム間差分計算部511及び局部変化量計算部
512から構成される。
In FIG. 10, the image local change calculator 61
Is composed of an inter-frame difference calculator 511 and a local change amount calculator 512.

【0115】画像データ14は、フレーム間差分計算部
511に入力され、フレーム間差分計算部511により
計算されたフレーム間差分データ513は局部変化量計
算部512に入力される。
The image data 14 is input to the inter-frame difference calculator 511, and the inter-frame difference data 513 calculated by the inter-frame difference calculator 511 is input to the local change amount calculator 512.

【0116】次に、上述のように構成された映像情報検
出装置60の動作を説明する。
Next, the operation of the video information detecting device 60 configured as described above will be described.

【0117】画像全面変化計算部12の動作は、前述と
同様であり、前記数1に示す式(1)に示すdyhis
t(t)を、画像全面変化量15としてシーン変化検出
部62へ出力する。
The operation of the entire image change calculation unit 12 is the same as that described above, and the dyhis expression shown in the above equation (1) is used.
t (t) is output to the scene change detection unit 62 as the entire image change amount 15.

【0118】また、音声判定部41、無音検出部22、
スペクトル変化検出部31の動作は、前記第3実施形態
の動作と同様である。
Further, the voice judging section 41, the silence detecting section 22,
The operation of the spectrum change detection unit 31 is the same as the operation of the third embodiment.

【0119】画像局部変化計算部61では、各フレーム
の画像データを隣接フレームの画像データと比較するこ
とにより、画像の局部的変化量を計算する。
The image local change calculation section 61 calculates the local change amount of the image by comparing the image data of each frame with the image data of the adjacent frame.

【0120】詳細には、フレーム間差分計算部511
は、次式(5)を計算し、フレーム間差分データ513
として局部変化量計算部512に出力する。
More specifically, the inter-frame difference calculator 511
Calculates the following equation (5), and calculates the inter-frame difference data 513.
Is output to the local change amount calculation unit 512.

【0121】 dy(x,y,t)=Y(x,y,t)−Y(x,y,t−1) …(5) 局部変化量計算部512では、 |dy(x,y,t)|<THL SMALL(所定の閾値) …(6) を満足する画素数が所定の閾値より大きく、かつ、 |dy(x,y,t)|>THL BIG(所定の閾値) …(7) 上記式(7)を満足する画素における前記差分データ絶
対値総和が所定の閾値より大きい時、(言い換えれば、
画面の変化は局部的ではあるがその変化は大きい、つま
り意味上中心となっているが小さく撮影された場合)、
前記差分データ絶対値総和値を、上記3条件のいずれか
を満足しない時は0を画像局部変化量63として出力す
る。
Dy (x, y, t) = Y (x, y, t) −Y (x, y, t−1) (5) In the local change amount calculation unit 512, | dy (x, y, t) t) | <THL SMALL (predetermined threshold) (6) The number of pixels satisfying the following expression is larger than the predetermined threshold, and | dy (x, y, t) |> THL BIG (predetermined threshold) (7) When the sum of the absolute values of the difference data in the pixels satisfying the above expression (7) is larger than a predetermined threshold value (in other words,
The change in the screen is local, but the change is large, that is, when it is centered in meaning but small,
When any of the above three conditions is not satisfied, the difference data absolute value sum value is output as 0 as the image local change amount 63.

【0122】シーン変化検出部62では、画像局部変化
量63、画像全面変化量15,dyhist(t)、無
音情報25及びスペクトル変化情報33を入力し、
(a)dyhist(t)が所定の閾値より小さく、か
つ該フレーム番号tが無音情報25またはスペクトル変
化情報33に含まれる。
The scene change detecting section 62 receives the image local change amount 63, the entire image change amount 15, dyhist (t), the silence information 25 and the spectrum change information 33,
(A) dyhist (t) is smaller than a predetermined threshold, and the frame number t is included in the silence information 25 or the spectrum change information 33.

【0123】(b)画像局部変化量63が所定の閾値よ
り大きく、かつ該フレーム番号tが無音情報25または
スペクトル変化情報33に含まれる。
(B) The image local change amount 63 is larger than a predetermined threshold value, and the frame number t is included in the silence information 25 or the spectrum change information 33.

【0124】上記(a)または(b)を満足する時、シ
ーン変化フレーム26として出力する。
When the above condition (a) or (b) is satisfied, the scene change frame 26 is output.

【0125】ここで、上記(a)は、映像の全面的な変
化によるシーン変化、上記(b)は、画像の局部変化と
オーディオの変化の組合せによる条件を示す。
Here, (a) shows a scene change due to a total change of an image, and (b) shows a condition by a combination of a local change of an image and a change of audio.

【0126】以上説明したように、第5の実施形態に係
る映像情報検出装置60は、動画像シーケンス中の各フ
レームの画像データを格納する動画像データ記憶部1
1、画像全面変化を計算する画像全面変化計算部12、
各フレームの画像データを隣接フレームの画像データと
比較することにより、画像の局部的変化量を計算する画
像局部変化計算部61、オーディオデータを記憶するオ
ーディオデータ記憶部21、各フレームのオーディオデ
ータが、音声信号か音声以外の信号かを周波数スペクト
ルの状態から判定する音声判定部41、オーディオデー
タを基に無音情報を検出する無音検出部22、オーディ
オデータを基にスペクトル変化情報を検出するスペクト
ル変化検出部31、画像全面変化量、画像局部変化量、
無音情報及びスペクトル変化情報を基にシーン変化を検
出するシーン変化検出部62を備え、画像変化フレーム
として、動画像データの1つのフレームの画像データ
が、該フレームに隣接するフレームの画像データに対し
て全面的に変化するフレームと、動画像データの1つの
フレームの画像データが、該フレームに隣接するフレー
ムの画像データに対して局部的に変化するフレームと
算出するように構成したので、画像の外見から明白な変
化だけでなく、外見からは必ずしも明白ではないが意昧
的には大きい変化をオーディオデータを利用することに
よって検出することができ、高性能なシーン検出性能を
実現することができる。
As described above, the video information detecting device 60 according to the fifth embodiment includes a moving image data storage unit 1 for storing image data of each frame in a moving image sequence.
1. an entire image change calculator 12 for calculating an entire image change;
By comparing the image data of each frame with the image data of an adjacent frame, an image local change calculation unit 61 for calculating a local change amount of the image, an audio data storage unit 21 for storing audio data, and an audio data for each frame are stored. A voice determination unit 41 for determining whether a signal is a voice signal or a signal other than voice from the state of a frequency spectrum, a silence detection unit 22 for detecting silence information based on audio data, and a spectrum change detecting spectrum change information based on audio data. A detection unit 31, an entire image change amount, an image local change amount,
Comprising a scene change detection unit 62 for detecting a scene change based on silence information and spectral change information, the image change frame
As an example, a frame in which the image data of one frame of the moving image data completely changes with respect to the image data of the frame adjacent to the frame, and an image data of one frame of the moving image data which is adjacent to the frame Frame that changes locally with respect to the image data of the
Since it is configured to calculate, it is possible to detect not only obvious changes from the appearance of the image but also large changes that are not necessarily obvious from the appearance but are ambiguous by using the audio data. And high scene detection performance.

【0127】図11は本発明の第6の実施形態に係る映
像情報検出装置の全体構成を示すブロック図である。な
お、本実施形態に係る映像情報検出装置の説明にあたり
前記図1〜図10に示す動画像検出装置と同一構成及び
同一信号部分には同一符号を付して重複部分の説明を省
略する。
FIG. 11 is a block diagram showing the overall configuration of a video information detecting device according to the sixth embodiment of the present invention. In the description of the video information detection apparatus according to the present embodiment, the same components and the same signal portions as those of the moving image detection apparatus shown in FIGS.

【0128】図11において、映像情報検出装置70
は、動画像シーケンス中の各フレームの画像データを格
納する動画像データ記憶部11、画像全面変化を計算す
る画像全面変化計算部12、各フレームの画像データを
隣接フレームの画像データと比較することにより、画像
の局部的変化量を計算する画像局部変化計算部61、オ
ーディオデータを記憶するオーディオデータ記憶部2
1、各フレームのオーディオデータが、音声信号か音声
以外の信号かを周波数スペクトルの状態から判定する音
声判定部41、オーディオデータを基に無音情報を検出
する無音検出部22、オーディオデータを基にスペクト
ル変化情報を検出するスペクトル変化検出部31、画像
全面変化量、無音情報及びスペクトル変化情報を基にシ
ーン変化を検出する全面変化シーン検出部71、画像局
部変化量及び全面変化フレーム情報を基にシーン変化を
検出するシーン変化検出部72から構成される。
In FIG. 11, a video information detecting device 70
Is a moving image data storage unit 11 for storing image data of each frame in a moving image sequence, an entire image change calculation unit 12 for calculating an entire image change, and comparing image data of each frame with image data of an adjacent frame. , An image local change calculation unit 61 that calculates a local change amount of an image, and an audio data storage unit 2 that stores audio data.
1. An audio determination unit 41 that determines whether the audio data of each frame is an audio signal or a signal other than audio from the state of the frequency spectrum, a silence detection unit 22 that detects silence information based on the audio data, A spectrum change detection unit 31 for detecting the spectrum change information, a whole change scene detection unit 71 for detecting a scene change based on the entire image change amount, silence information and the spectrum change information, and an image local change amount and the whole change frame information. It comprises a scene change detecting section 72 for detecting a scene change.

【0129】動画像データ記憶部11から読み出された
画像データ14は、画像全面変化計算部12及び画像局
部変化計算部61にそれぞれ入力され、画像全面変化計
算部12により計算された画像全面変化量15は全面変
化シーン検出部71に入力される。また、画像局部変化
計算部61により計算された画像局部変化量63はシー
ン変化検出部72に入力される。
The image data 14 read from the moving image data storage unit 11 is input to the entire image change calculator 12 and the local image change calculator 61, respectively, and the entire image change calculated by the entire image change calculator 12 is calculated. The quantity 15 is input to the overall change scene detection unit 71. The image local change amount 63 calculated by the image local change calculator 61 is input to the scene change detector 72.

【0130】また、オーディオデータ記憶部21から読
み出されたオーディオデータ24は、音声判定部41、
無音検出部22及びスペクトル変化検出部31にそれぞ
れ入力される。一方、音声判定部41により判定された
音声判定結果43は、無音検出部22及びスペクトル変
化検出部31にそれぞれ入力される。そして、無音検出
部22により検出された無音情報25、スペクトル変化
検出部31により検出されたスペクトル変化情報33
は、全面変化シーン検出部71に入力される。さらに、
全面変化シーン検出部71により検出された全面変化フ
レームは、画像局部変化計算部61により計算された画
像局部変化量63とともにシーン変化検出部72に入力
される。
The audio data 24 read from the audio data storage unit 21 is stored in the audio determination unit 41,
The signals are input to the silence detection unit 22 and the spectrum change detection unit 31, respectively. On the other hand, the voice determination result 43 determined by the voice determination unit 41 is input to the silence detection unit 22 and the spectrum change detection unit 31, respectively. The silence information 25 detected by the silence detection unit 22 and the spectrum change information 33 detected by the spectrum change detection unit 31
Is input to the entire scene change detection unit 71. further,
The entire change frame detected by the entire change scene detection unit 71 is input to the scene change detection unit 72 together with the image local change amount 63 calculated by the image local change calculation unit 61.

【0131】次に、上述のように構成された映像情報検
出装置70の動作を説明する。
Next, the operation of the video information detecting device 70 configured as described above will be described.

【0132】画像全面変化計算部12の動作は、前述と
同様であり、前記数1に示す式(1)に示すdyhis
t(t)を、画像全面変化量15として全面変化シーン
検出部71へ出力する。
The operation of the entire image change calculation unit 12 is the same as that described above, and the dyhis
t (t) is output to the entire scene change detecting unit 71 as the entire image change amount 15.

【0133】音声判定部41、無音検出部22、スペク
トル変化検出部31の動作は、前記第3実施形態の動作
と同様であり、画像局部変化計算部61の動作は、前記
第5実施形態の動作と同様である。
The operations of the voice determination unit 41, the silence detection unit 22, and the spectrum change detection unit 31 are the same as those of the third embodiment, and the operation of the image local change calculation unit 61 is the same as that of the fifth embodiment. The operation is the same.

【0134】全面変化シーン検出部71では、入力され
た画像全面変化量15,dyhist(t)、無音情報
25及びスペクトル変化情報33を基に、dyhist
(t)が所定の閾値より小さく、かつ該フレーム番号t
が無音情報25またはスペクトル変化情報33に含まれ
る時、そのフレーム番号を全面変化フレーム73として
シーン変化検出部72に出力する。
The whole-change scene detecting section 71 uses the dyhist based on the inputted whole-image change amount 15, dyhist (t), silence information 25 and spectrum change information 33.
(T) is smaller than a predetermined threshold value and the frame number t
Is included in the silence information 25 or the spectrum change information 33, the frame number is output to the scene change detection unit 72 as the entire change frame 73.

【0135】シーン変化検出部72は、画像局部変化量
63及び全面変化フレーム73を入力し、 (a)全面変化フレーム73にフレーム番号が含まれ
る。
The scene change detecting unit 72 receives the image local change amount 63 and the entire change frame 73, and (a) the entire change frame 73 includes a frame number.

【0136】(b)画像局部変化量63が所定の閾値よ
り大きく、かつ該フレーム番号tが無音情報25または
スペクトル変化情報33に含まれる。
(B) The image local change amount 63 is larger than a predetermined threshold value, and the frame number t is included in the silence information 25 or the spectrum change information 33.

【0137】上記(a)または(b)を満足する時、シ
ーン変化フレーム26として出力する。
When the above (a) or (b) is satisfied, the scene change frame 26 is output.

【0138】ここで、上記(a)は、映像の全面的な変
化によるシーン変化、上記(b)は、画像の局部変化と
オーディオの変化の組合せによる条件を示す。この場
合、上記(b)に記載されている閾値の値を全面変化フ
レーム73に含まれているフレーム数の値により変化さ
せる。
Here, (a) shows a scene change due to a total change of an image, and (b) shows a condition by a combination of a local change of an image and a change of audio. In this case, the threshold value described in (b) is changed according to the number of frames included in the entire change frame 73.

【0139】前記全面変化フレーム73に含まれている
フレーム数が多い時は、閾値を大きめに設定して条件
(b)を満足するフレームが検出されにくくする。逆
に、前記全面変化フレーム73に含まれているフレーム
数が少ない時は、閾値を小さめに設定して条件(b)を
満足するフレームが検出され易くする。
When the number of frames included in the whole change frame 73 is large, the threshold value is set to a relatively large value so that a frame satisfying the condition (b) is hardly detected. Conversely, when the number of frames included in the entire change frame 73 is small, the threshold value is set to a small value so that a frame satisfying the condition (b) is easily detected.

【0140】このことにより、最終的にシーン変化とし
て検出されるフレーム数を一定の範囲内に収めることが
できる。
As a result, the number of frames finally detected as a scene change can be kept within a certain range.

【0141】以上説明したように、第6の実施形態に係
る映像情報検出装置70は、動画像シーケンス中の各フ
レームの画像データを格納する動画像データ記憶部1
1、画像全面変化を計算する画像全面変化計算部12、
各フレームの画像データを隣接フレームの画像データと
比較することにより、画像の局部的変化量を計算する画
像局部変化計算部61、オーディオデータを記憶するオ
ーディオデータ記憶部21、各フレームのオーディオデ
ータが、音声信号か音声以外の信号かを周波数スペクト
ルの状態から判定する音声判定部41、オーディオデー
タを基に無音情報を検出する無音検出部22、オーディ
オデータを基にスペクトル変化情報を検出するスペクト
ル変化検出部31、画像全面変化量、無音情報及びスペ
クトル変化情報を基にシーン変化を検出する全面変化シ
ーン検出部71、画像局部変化量及び全面変化フレーム
情報を基にシーン変化を検出するシーン変化検出部72
を備え、オーディオ変化フレームとして算出され、かつ
画像が全面的に変化するフレームとして算出されたフレ
ームすべてと、オーディオ変化フレームとして算出さ
れ、かつ画像が局部的に変化するフレームとして算出さ
れたフレームの中から適宜選択されたフレームを算出す
るようにしたので、上位システムからシーン変化フレー
ム数を一定にする要求が発生した状況下でも(例えば、
映像シーンのダイジェストを映像変動のばらつきに関係
なく同一時間で早見したい場合)、それを満足できるシ
ーン変化フレーム検出方法としたので、高性能なシーン
検出性能を実現することができる。
As described above, the video information detecting device 70 according to the sixth embodiment includes a moving image data storage unit 1 for storing image data of each frame in a moving image sequence.
1. an entire image change calculator 12 for calculating an entire image change;
By comparing the image data of each frame with the image data of an adjacent frame, an image local change calculation unit 61 for calculating a local change amount of the image, an audio data storage unit 21 for storing audio data, and an audio data for each frame are stored. A voice determination unit 41 for determining whether the signal is a voice signal or a signal other than voice from the state of the frequency spectrum, a silence detection unit 22 for detecting silence information based on audio data, and a spectrum change detecting spectrum change information based on the audio data. A detecting unit 31, a whole scene change detecting unit 71 for detecting a scene change based on the whole image change amount, silence information and spectrum change information, and a scene change detecting for detecting a scene change based on the image local change amount and the whole change frame information Part 72
And all of the frames calculated as audio change frames and images calculated as frames where the image completely changes, and the frames calculated as audio change frames and images calculated as the locally change frame , A frame appropriately selected from the above is calculated, even under a situation where a request to make the number of scene change frames constant from the host system occurs (for example,
When it is desired to quickly view the digest of the video scene at the same time regardless of the variation of the video fluctuation), a scene change frame detection method that satisfies the same is realized, so that high-performance scene detection performance can be realized.

【0142】図12は本発明の第7の実施形態に係る映
像情報検出装置の全体構成を示すブロック図である。な
お、本実施形態に係る映像情報検出装置の説明にあたり
前記図1〜図5に示す動画像検出装置と同一構成及び同
一信号部分には同一符号を付して重複部分の説明を省略
する。
FIG. 12 is a block diagram showing the overall configuration of the video information detecting device according to the seventh embodiment of the present invention. In the description of the video information detecting device according to the present embodiment, the same components and the same signal portions as those of the moving image detecting device shown in FIGS. 1 to 5 are denoted by the same reference numerals, and the description of the overlapping portions will be omitted.

【0143】図12において、映像情報検出装置80
は、動画像シーケンス中の各フレームの画像データを格
納する動画像データ記憶部11、画面変化フレームを計
算する画面変化フレーム計算部81、オーディオデータ
を記憶するオーディオデータ記憶部21、各フレームの
オーディオデータが、音声信号か音声以外の信号かを周
波数スペクトルの状態から判定する音声判定部41、オ
ーディオデータを基に無音情報を検出する無音検出部2
2、オーディオデータを基にスペクトル変化情報を検出
するスペクトル変化検出部31、無音情報及びスペクト
ル変化情報を基にオーディオ変化フレームを検出するオ
ーディオ変化フレーム検出部82、画像変化フレーム及
びオーディオ変化フレームを基にシーン変化フレームを
検出するシーン変化フレーム検出部83から構成され
る。
In FIG. 12, a video information detecting device 80
A moving image data storage unit 11 for storing image data of each frame in a moving image sequence, a screen change frame calculation unit 81 for calculating a screen change frame, an audio data storage unit 21 for storing audio data, and an audio data for each frame. A voice determination unit 41 that determines whether the data is a voice signal or a signal other than voice from the state of the frequency spectrum; a silence detection unit 2 that detects silence information based on the audio data
2. A spectrum change detection unit 31 for detecting spectrum change information based on audio data, an audio change frame detection unit 82 for detecting an audio change frame based on silence information and spectrum change information, and based on an image change frame and an audio change frame. And a scene change frame detecting section 83 for detecting a scene change frame.

【0144】動画像データ記憶部11から読み出された
画像データ14は、画面変化フレーム計算部81に入力
され、画面変化フレーム計算部81により計算された画
像変化フレーム84は、シーン変化フレーム検出部83
に入力される。
The image data 14 read from the moving image data storage section 11 is input to a screen change frame calculation section 81, and the image change frame 84 calculated by the screen change frame calculation section 81 is converted into a scene change frame detection section. 83
Is input to

【0145】また、オーディオデータ記憶部21から読
み出されたオーディオデータ24は、音声判定部41、
無音検出部22及びスペクトル変化検出部31にそれぞ
れ入力される。一方、音声判定部41により判定された
音声判定結果43は、無音検出部22及びスペクトル変
化検出部31にそれぞれ入力される。そして、無音検出
部22により検出された無音情報25、スペクトル変化
検出部31により検出されたスペクトル変化情報33
は、オーディオ変化フレーム検出部82に入力される。
さらに、オーディオ変化フレーム検出部82により検出
されたオーディオ変化フレーム85は、画面変化フレー
ム計算部81及びシーン変化フレーム検出部83に入力
される。
The audio data 24 read from the audio data storage unit 21 is stored in the audio determination unit 41,
The signals are input to the silence detection unit 22 and the spectrum change detection unit 31, respectively. On the other hand, the voice determination result 43 determined by the voice determination unit 41 is input to the silence detection unit 22 and the spectrum change detection unit 31, respectively. The silence information 25 detected by the silence detection unit 22 and the spectrum change information 33 detected by the spectrum change detection unit 31
Is input to the audio change frame detection unit 82.
Further, the audio change frame 85 detected by the audio change frame detection unit 82 is input to the screen change frame calculation unit 81 and the scene change frame detection unit 83.

【0146】次に、上述のように構成された映像情報検
出装置80の動作を説明する。
Next, the operation of the video information detecting device 80 configured as described above will be described.

【0147】音声判定部41、無音検出部22、スペク
トル変化検出部31の動作は、前記第3実施形態の動作
と同様である。
The operations of the voice judging section 41, the silence detecting section 22, and the spectrum change detecting section 31 are the same as those of the third embodiment.

【0148】オーディオ変化フレーム検出部82は、無
音情報25とスペクトル変化情報33を入力し、無音情
報25に含まれるフレーム番号とスペクトル変化情報3
3に含まれるフレーム番号をオーディオ変化フレーム8
5として画像変化フレーム検出部81及びシーン変化フ
レーム検出部83に出力する。
The audio change frame detecting section 82 receives the silence information 25 and the spectrum change information 33, and receives the frame number and the spectrum change information 3 contained in the silence information 25.
3 is changed to the audio change frame 8
5 is output to the image change frame detection unit 81 and the scene change frame detection unit 83.

【0149】画像変化フレーム検出部81は、以下の動
作を行う。
The image change frame detecting section 81 performs the following operation.

【0150】(1)あらかじめ、最終的にシーン変化フ
レームとして検出されるフレームの最低間隔を決めてお
く。
(1) The minimum interval of a frame finally detected as a scene change frame is determined in advance.

【0151】(2)オーディオ変化フレーム検出部82
から入力されるオーディオ変化フレーム85のフレーム
間隔が前記所定のフレーム間隔より小さい時、画像デー
タからシーン変化を検出する処理を行わない。
(2) Audio change frame detecting section 82
When the frame interval of the audio change frame 85 input from the CPU is smaller than the predetermined frame interval, the processing for detecting a scene change from image data is not performed.

【0152】(3)オーディオ変化フレーム検出部82
から入力されるオーディオ変化フレーム85のフレーム
間隔が前記所定のフレーム間隔より大きい時、前記第3
実施形態と同様の方法により画像データからシーン変化
検出を行い、検出されたシーン変化フレーム番号を画像
変化フレーム84としてシーン変化フレーム検出部83
に出力する。
(3) Audio change frame detector 82
When the frame interval of the audio change frame 85 input from the third unit is larger than the predetermined frame interval, the third
A scene change is detected from the image data by the same method as in the embodiment, and the detected scene change frame number is set as the image change frame 84 and the scene change frame detecting unit 83
Output to

【0153】以上の動作により、膨大な動画像データ
(オーディオデータの約1000倍)を使用したシーン
変化検出処理を必要最低限に抑えることができる。
By the above operation, the scene change detection processing using a huge amount of moving image data (about 1000 times the audio data) can be suppressed to the minimum necessary.

【0154】シーン変化フレーム検出部83では、画像
変化フレーム84及びオーディオ変化フレーム85を入
力し、オーディオ変化フレーム85に含まれるフレーム
番号と、画像変化フレーム84に含まれるフレーム番号
を、シーン変化フレーム26として出力する。
The scene change frame detecting section 83 receives the image change frame 84 and the audio change frame 85 and inputs the frame number included in the audio change frame 85 and the frame number included in the image change frame 84 into the scene change frame 26. Output as

【0155】以上説明したように、第7の実施形態に係
る映像情報検出装置80は、動画像シーケンス中の各フ
レームの画像データを格納する動画像データ記憶部1
1、画面変化フレームを計算する画面変化フレーム計算
部81、オーディオデータを記憶するオーディオデータ
記憶部21、各フレームのオーディオデータが、音声信
号か音声以外の信号かを周波数スペクトルの状態から判
定する音声判定部41、オーディオデータを基に無音情
報を検出する無音検出部22、オーディオデータを基に
スペクトル変化情報を検出するスペクトル変化検出部3
1、無音情報及びスペクトル変化情報を基にオーディオ
変化フレームを検出するオーディオ変化フレーム検出部
82、画像変化フレーム及びオーディオ変化フレームを
基にシーン変化フレームを検出するシーン変化フレーム
検出部83を備え、オーディオデータを使用してオーデ
ィオ変化フレームを算出し、該算出されたオーディオ変
化フレームを映像シーン変化フレームとして算出した
後、映像シーンの中でさらに映像シーン変化フレームを
算出することが必要とされる区間について、画像変化フ
レーム算出を行い区間内で画像変化フレームとして算出
されたフレームを映像シーン変化フレームとして算出す
るようにしたので、計算量が少なくて済むオーディオデ
ータによるシーン変化検出を前段で行うことにより、膨
大な動画像データを使用したシーン変化検出処理を必要
最低限に抑制することができ、全体として計算量が少な
く低コストなハードウエアでシーン変化検出を行うこと
ができる。
As described above, the video information detecting device 80 according to the seventh embodiment stores the video data storage unit 1 for storing the image data of each frame in the video sequence.
1. Screen change frame calculation section 81 for calculating a screen change frame, audio data storage section 21 for storing audio data, audio for determining whether the audio data of each frame is an audio signal or a signal other than audio from the state of the frequency spectrum. A determination unit 41, a silence detection unit 22 for detecting silence information based on audio data, and a spectrum change detection unit 3 for detecting spectrum change information based on audio data
1. an audio change frame detection unit 82 that detects an audio change frame based on silence information and spectrum change information, and a scene change frame detection unit 83 that detects a scene change frame based on an image change frame and an audio change frame Calculating an audio change frame using the data, calculating the calculated audio change frame as a video scene change frame, and then calculating a video scene change frame in the video scene. Since the image change frame is calculated and the frame calculated as the image change frame in the section is calculated as the video scene change frame, the scene change detection by the audio data that requires a small amount of calculation is performed in the first stage, A huge amount of moving image data Use scene change detection process can be suppressed to the minimum required, it is possible to perform scene change detection in the calculation amount is small, low-cost hardware as a whole.

【0156】なお、上記各実施形態では、例えばMPE
G方式を用いた映像情報検出装置に適用することができ
るが、映像・音声符号化処理する装置には全て適用する
ことができる。
In each of the above embodiments, for example, the MPE
The present invention can be applied to a video information detecting device using the G system, but can be applied to all devices that perform video / audio coding processing.

【0157】また、映像情報検出装置という名称に限定
されるものではなく、本発明の技術的思想の範囲内であ
れば符号化装置等のように適宜変更することができ、装
置の一部に組み込まれる態様であってもよいことは言う
までもない。
Further, the present invention is not limited to the name of the video information detecting device, but can be appropriately changed as in an encoding device or the like within the technical idea of the present invention. It goes without saying that the embodiment may be incorporated.

【0158】[0158]

【発明の効果】本発明に係る映像情報検出装置では、オ
ーディオ変化フレーム算出手段が、オーディオデータの
所定サンプル数の平均信号レベル値、あるいは、バンド
パスフィルタの各帯域出力の総和が、所定の区間継続し
て所定の閾値より小となるフレームを算出するように構
成したので、誤ってシーン変化フレームを検出する確率
が低下し、オーディオ処理を少ない演算量でシーン変化
検出性能を向上させることができる。
In the image information detecting apparatus according to the present invention, the audio change frame calculation means, the audio data
Average signal level value for a given number of samples, or band
Since the sum of the output of each band of the pass filter is configured to continuously calculate a frame in which the sum is smaller than a predetermined threshold for a predetermined section, the probability of erroneously detecting a scene change frame is reduced and audio processing is reduced. The scene change detection performance can be improved with the amount of calculation.

【0159】本発明に係る映像情報検出装置では、オー
ディオ変化フレーム算出手段が、オーディオデータの周
波数スペクトルの時系列に対する変化量が所定の閾値よ
り大きいフレームを算出するように構成したので、誤っ
てシーン変化フレームを検出する確率が低下し、シーン
変化検出性能を向上させることができる。
In the video information detecting apparatus according to the present invention, the audio change frame calculating means is configured to calculate a frame in which the change amount of the frequency spectrum of the audio data with respect to the time series is larger than a predetermined threshold. The probability of detecting a change frame is reduced, and the scene change detection performance can be improved.

【0160】本発明に係る映像情報検出装置では、オー
ディオ変化フレーム算出手段が、オーディオデータの性
質によって、オーディオデータの信号レベルが所定の区
間継続して所定の閾値より小となるフレームと、オーデ
ィオデータの周波数スペクトルの時系列に対する変化量
が所定の閾値より大きいフレームを適応的に選択して算
出するように構成したので、画像データと、オーディオ
データの状態を正確に示す情報であるレベル情報とオー
ディオデータ周波数スペクトルを適応的に利用して映像
シーンの変化フレームと判定することにより、シーン変
化検出性能を向上させることができる。
[0160] In the video information detecting apparatus according to the present invention, the audio change frame calculating means determines whether the signal level of the audio data is continuously lower than the predetermined threshold for a predetermined section depending on the nature of the audio data. Is configured to adaptively select and calculate a frame in which the amount of change in the frequency spectrum of the time series with respect to the time series is larger than a predetermined threshold value, so that the level information and the audio information that accurately indicate the state of the image data and audio data By determining the change frame of the video scene by using the data frequency spectrum adaptively, the scene change detection performance can be improved.

【0161】本発明に係る映像情報検出装置では、画像
変化フレーム算出手段が、画像変化フレームとして、
画像データの1つのフレームの画像データが、該フレー
ムに隣接するフレームの画像データに対して全面的に変
化するフレームと、動画像データの1つのフレームの画
像データが、該フレームに隣接するフレームの画像デー
タに対して局部的に変化するフレームとを算出するよう
に構成したので、画像の外見から明白な変化だけでな
く、外見からは必ずしも明白ではないが意昧的には大き
い変化をオーディオデータを利用することによって検出
することができ、高性能なシーン検出性能を実現するこ
とができる。
[0161] In the video information detecting apparatus according to the present invention, the image change frame calculating means determines that the image data of one frame of the moving image data is the same as that of the frame adjacent to the frame as the image change frame. Since the image data is calculated so as to calculate a frame that dynamically changes and a frame in which the image data of one frame of the moving image data locally changes with respect to the image data of the frame adjacent to the frame. It is possible to detect not only obvious changes from but also large changes that are not always obvious from the appearance but are ambiguous by using the audio data, thereby realizing high-performance scene detection performance.

【0162】本発明に係る映像情報検出装置では、映像
シーン変化フレーム算出手段が、オーディオ変化フレー
ムとして算出され、かつ画像が全面的に変化するフレー
ムとして算出されたフレームすべてと、オーディオ変化
フレームとして算出され、かつ画像が局部的に変化する
フレームとして算出されたフレームの中から適宜選択さ
れたフレームを算出するように構成したので、上位シス
テムからシーン変化フレーム数を一定にする要求が発生
した状況下でも、それを満足できるシーン変化フレーム
検出方法としたので、高性能なシーン検出性能を実現す
ることができる。
In the video information detecting apparatus according to the present invention, the video scene change frame calculating means calculates all the frames calculated as audio change frames and the frames whose images are totally changed, and the audio change frames. And a frame which is appropriately selected from frames calculated as a frame where an image locally changes, so that a situation in which a higher system requests a fixed number of scene change frames occurs. However, since the scene change frame detection method that satisfies the above condition is adopted, high-performance scene detection performance can be realized.

【0163】本発明に係る映像情報検出装置では、映像
シーン変化フレーム算出手段が、オーディオデータを使
用してオーディオ変化フレームを算出し、該算出された
オーディオ変化フレームを映像シーン変化フレームとし
て算出した後、映像シーンの中でさらに映像シーン変化
フレームを算出することが必要とされる区間について、
画像変化フレーム算出手段により画像変化フレーム算出
を行い区間内で画像変化フレームとして算出されたフレ
ームを映像シーン変化フレームとして算出するように構
成したので、計算量が少なくて済むオーディオデータに
よるシーン変化検出を前段で行うことにより、膨大な動
画像データを使用したシーン変化検出処理を必要最低限
に抑制することができ、全体として計算量が少なく低コ
ストなハードウエアでシーン変化検出を行うことができ
る。
In the video information detecting apparatus according to the present invention, the video scene change frame calculating means calculates an audio change frame using the audio data, and calculates the calculated audio change frame as a video scene change frame. , For a section in the video scene where it is necessary to further calculate a video scene change frame,
Since the image change frame is calculated by the image change frame calculation means and the frame calculated as the image change frame in the section is calculated as the video scene change frame, the scene change detection by audio data that requires a small amount of calculation can be performed. By performing the processing at the first stage, the scene change detection process using a huge amount of moving image data can be suppressed to the minimum necessary, and the scene change can be detected with low-cost hardware with a small amount of calculation as a whole.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明を適用した第1の実施形態に係る映像情
報検出装置の構成を示すブロック図である。
FIG. 1 is a block diagram illustrating a configuration of a video information detection device according to a first embodiment to which the present invention has been applied.

【図2】上記映像情報検出装置の無音検出部の構成を示
すブロック図である。
FIG. 2 is a block diagram showing a configuration of a silence detecting section of the video information detecting device.

【図3】本発明を適用した第2の実施形態に係る映像情
報検出装置の構成を示すブロック図である。
FIG. 3 is a block diagram illustrating a configuration of a video information detection device according to a second embodiment to which the present invention has been applied.

【図4】上記映像情報検出装置のスペクトル変化検出部
の構成を示すブロック図である。
FIG. 4 is a block diagram illustrating a configuration of a spectrum change detection unit of the video information detection device.

【図5】本発明を適用した第3の実施形態に係る映像情
報検出装置の構成を示すブロック図である。
FIG. 5 is a block diagram illustrating a configuration of a video information detection device according to a third embodiment to which the present invention has been applied.

【図6】上記映像情報検出装置の音声判定部の構成を示
すブロック図である。
FIG. 6 is a block diagram illustrating a configuration of an audio determination unit of the video information detection device.

【図7】本発明を適用した第4の実施形態に係る映像情
報検出装置の構成を示すブロック図である。
FIG. 7 is a block diagram illustrating a configuration of a video information detection device according to a fourth embodiment to which the present invention has been applied.

【図8】上記映像情報検出装置のレベル変動判定部の構
成を示すブロック図である。
FIG. 8 is a block diagram showing a configuration of a level fluctuation determining unit of the video information detecting device.

【図9】本発明を適用した第5の実施形態に係る映像情
報検出装置の構成を示すブロック図である。
FIG. 9 is a block diagram illustrating a configuration of a video information detection device according to a fifth embodiment to which the present invention has been applied.

【図10】上記映像情報検出装置の画像局部変化計算部
の構成を示すブロック図である。
FIG. 10 is a block diagram showing a configuration of an image local change calculation unit of the video information detection device.

【図11】本発明を適用した第6の実施形態に係る映像
情報検出装置の構成を示すブロック図である。
FIG. 11 is a block diagram illustrating a configuration of a video information detection device according to a sixth embodiment to which the present invention has been applied.

【図12】本発明を適用した第7の実施形態に係る映像
情報検出装置の構成を示すブロック図である。
FIG. 12 is a block diagram illustrating a configuration of a video information detection device according to a seventh embodiment to which the present invention has been applied.

【図13】従来の映像情報検出装置の構成を示すブロッ
ク図である。
FIG. 13 is a block diagram showing a configuration of a conventional video information detecting device.

【図14】従来の映像情報検出装置の画像全面変化計算
部の構成を示すブロック図である。
FIG. 14 is a block diagram showing a configuration of a whole image change calculating unit of a conventional video information detecting device.

【符号の説明】[Explanation of symbols]

11 動画像データ記憶部(動画像データ格納手段)、
12 画像全面変化計算部(画像変化フレーム算出手
段)、20,30,40,50,60,70,80 映
像情報検出装置、21 オーディオデータ記憶部(オー
ディオデータ格納手段)、22 無音検出部(オーディ
オ変化フレーム算出手段)、23,32,42,52,
62,72 シーン変化検出部(映像シーン変化フレー
ム算出手段)、31 スペクトル変化検出部(オーディ
オ変化フレーム算出手段)、41音声判定部、51 レ
ベル変動判定部、61 画像局部変化計算部、71 全
面変化シーン検出部、81 画面変化フレーム計算部、
82 オーディオ変化フレーム検出部、83 シーン変
化フレーム検出部
11 moving image data storage unit (moving image data storage means),
12 Image whole change calculation unit (image change frame calculation unit), 20, 30, 40, 50, 60, 70, 80 Video information detection device, 21 audio data storage unit (audio data storage unit), 22 silence detection unit (audio Change frame calculating means), 23, 32, 42, 52,
62, 72 scene change detection section (video scene change frame calculation means), 31 spectrum change detection section (audio change frame calculation means), 41 sound determination section, 51 level change determination section, 61 image local change calculation section, 71 overall change Scene detector, 81 screen change frame calculator,
82 audio change frame detector, 83 scene change frame detector

Claims (6)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 互いに時系列に同期した動画像データと
オーディオデータから構成される映像シーンに対して、 前記動画像データを格納する動画像データ格納手段と、 前記オーディオデータを格納するオーディオデータ格納
手段と、 前記動画像データの時系列に対する変化点を、画像変化
フレームとして算出する画像変化フレーム算出手段と、 前記オーディオデータの時系列に対する変化点を、オー
ディオ変化フレームとして算出するオーディオ変化フレ
ーム算出手段と、 前記画像変化フレーム及び前記オーディオ変化フレーム
に基づいて映像シーン変化フレームを算出する映像シー
ン変化フレーム算出手段とを備えた映像情報検出装置で
あって、 前記オーディオ変化フレーム算出手段は、前記オーディ
オデータの所定サンプル数の平均信号レベル値、あるい
は、バンドパスフィルタの各帯域出力の総和が、所定の
区間継続して所定の閾値より小となるフレームを算出す
ることを特徴とする映像情報検出装置。
1. A video data storage means for storing video data for a video scene composed of video data and audio data synchronized in time series with each other, and audio data storage for storing the audio data. Means, an image change frame calculation means for calculating a change point in the time series of the moving image data as an image change frame, and an audio change frame calculation means for calculating a change point in the time series of the audio data as an audio change frame And a video scene change frame calculating means for calculating a video scene change frame based on the image change frame and the audio change frame, wherein the audio change frame calculation means comprises:
Average signal level value for a given number of samples of
Is a video information detecting apparatus for calculating a frame in which a total sum of band outputs of a band-pass filter is smaller than a predetermined threshold continuously for a predetermined section.
【請求項2】 互いに時系列に同期した動画像データと
オーディオデータから構成される映像シーンに対して、 前記動画像データを格納する動画像データ格納手段と、 前記オーディオデータを格納するオーディオデータ格納
手段と、 前記動画像データの時系列に対する変化点を、画像変化
フレームとして算出する画像変化フレーム算出手段と、 前記オーディオデータの時系列に対する変化点を、オー
ディオ変化フレームとして算出するオーディオ変化フレ
ーム算出手段と、 前記画像変化フレーム及び前記オーディオ変化フレーム
に基づいて映像シーン変化フレームを算出する映像シー
ン変化フレーム算出手段とを備えた映像情報検出装置で
あって、 前記オーディオ変化フレーム算出手段は、前記オーディ
オデータの周波数スペクトルの時系列に対する変化量が
所定の閾値より大きいフレームを算出することを特徴と
する映像情報検出装置。
2. A video data storage means for storing video data for a video scene composed of video data and audio data synchronized in time series with each other, and audio data storage for storing the audio data. Means, an image change frame calculation means for calculating a change point in the time series of the moving image data as an image change frame, and an audio change frame calculation means for calculating a change point in the time series of the audio data as an audio change frame And a video scene change frame calculation means for calculating a video scene change frame based on the image change frame and the audio change frame, wherein the audio change frame calculation means comprises: Time system of the frequency spectrum of A video information detecting apparatus for calculating a frame in which a change amount for a column is larger than a predetermined threshold.
【請求項3】 互いに時系列に同期した動画像データと
オーディオデータから構成される映像シーンに対して、 前記動画像データを格納する動画像データ格納手段と、 前記オーディオデータを格納するオーディオデータ格納
手段と、 前記動画像データの時系列に対する変化点を、画像変化
フレームとして算出する画像変化フレーム算出手段と、 前記オーディオデータの時系列に対する変化点を、オー
ディオ変化フレームとして算出するオーディオ変化フレ
ーム算出手段と、 前記画像変化フレーム及び前記オーディオ変化フレーム
に基づいて映像シーン変化フレームを算出する映像シー
ン変化フレーム算出手段とを備えた映像情報検出装置で
あって、 前記オーディオ変化フレーム算出手段は、前記オーディ
オデータの性質によって、前記オーディオデータの信号
レベルが所定の区間継続して所定の閾値より小となるフ
レームと、前記オーディオデータの周波数スペクトルの
時系列に対する変化量が所定の閾値より大きいフレーム
を適応的に選択して算出することを特徴とする映像情報
検出装置。
3. A moving image data storage unit for storing moving image data for a video scene composed of moving image data and audio data synchronized in time series with each other, and audio data storage for storing the audio data. Means, an image change frame calculation means for calculating a change point in the time series of the moving image data as an image change frame, and an audio change frame calculation means for calculating a change point in the time series of the audio data as an audio change frame And a video scene change frame calculation means for calculating a video scene change frame based on the image change frame and the audio change frame, wherein the audio change frame calculation means comprises: Due to the nature of A frame in which the signal level of the audio data is continuously lower than a predetermined threshold for a predetermined section and a frame in which the amount of change in the frequency spectrum of the audio data with respect to time series is larger than a predetermined threshold are adaptively selected and calculated. A video information detecting device, characterized in that:
【請求項4】 互いに時系列に同期した動画像データと
オーディオデータから構成される映像シーンに対して、 前記動画像データを格納する動画像データ格納手段と、 前記オーディオデータを格納するオーディオデータ格納
手段と、 前記動画像データの時系列に対する変化点を、画像変化
フレームとして算出する画像変化フレーム算出手段と、 前記オーディオデータの時系列に対する変化点を、オー
ディオ変化フレームとして算出するオーディオ変化フレ
ーム算出手段と、 前記画像変化フレーム及び前記オーディオ変化フレーム
に基づいて映像シーン変化フレームを算出する映像シー
ン変化フレーム算出手段とを備えた映像情報検出装置で
あって、 前記画像変化フレーム算出手段は、前記画像変化フレー
ムとして、前記動画像データの1つのフレームの画像デ
ータが、該フレームに隣接するフレームの画像データに
対して全面的に変化するフレームと、前記動画像データ
の1つのフレームの画像データが、該フレームに隣接す
るフレームの画像データに対して局部的に変化するフレ
ームとを算出することを特徴とする映像情報検出装置。
4. A video data storage means for storing video data for a video scene composed of video data and audio data synchronized in time series with each other, and audio data storage for storing the audio data. Means, an image change frame calculation means for calculating a change point in the time series of the moving image data as an image change frame, and an audio change frame calculation means for calculating a change point in the time series of the audio data as an audio change frame And a video scene change frame calculation means for calculating a video scene change frame based on the image change frame and the audio change frame, wherein the image change frame calculation means comprises: Frey
As an example, a frame in which the image data of one frame of the moving image data completely changes with respect to the image data of a frame adjacent to the frame, and an image data of one frame of the moving image data, A video information detecting apparatus for calculating a locally changing frame with respect to image data of a frame adjacent to the frame.
【請求項5】 互いに時系列に同期した動画像データと
オーディオデータから構成される映像シーンに対して、 前記動画像データを格納する動画像データ格納手段と、 前記オーディオデータを格納するオーディオデータ格納
手段と、 前記動画像データの時系列に対する変化点を、画像変化
フレームとして算出する画像変化フレーム算出手段と、 前記オーディオデータの時系列に対する変化点を、オー
ディオ変化フレームとして算出するオーディオ変化フレ
ーム算出手段と、 前記画像変化フレーム及び前記オーディオ変化フレーム
に基づいて映像シーン変化フレームを算出する映像シー
ン変化フレーム算出手段とを備えた映像情報検出装置で
あって、 前記映像シーン変化フレーム算出手段は、前記オーディ
オ変化フレームとして算出され、かつ前記画像が全面的
に変化するフレームとして算出されたフレームすべて
と、前記オーディオ変化フレームとして算出され、かつ
前記画像が局部的に変化するフレームとして算出された
フレームの中から適宜選択されたフレームを算出するこ
とを特徴とする映像情報検出装置。
5. A moving image data storing means for storing moving image data for a video scene composed of moving image data and audio data synchronized in time series with each other, and audio data storing for storing the audio data. Means, an image change frame calculation means for calculating a change point in the time series of the moving image data as an image change frame, and an audio change frame calculation means for calculating a change point in the time series of the audio data as an audio change frame And a video scene change frame calculating means for calculating a video scene change frame based on the image change frame and the audio change frame, wherein the video scene change frame calculation means comprises: Calculated as a change frame All the frames calculated as frames in which the image changes entirely and the frames calculated as the audio change frames, and appropriately selected from the frames calculated as the frames in which the image changes locally, A video information detection device, which calculates the video information.
【請求項6】 互いに時系列に同期した動画像データと
オーディオデータから構成される映像シーンに対して、 前記動画像データを格納する動画像データ格納手段と、 前記オーディオデータを格納するオーディオデータ格納
手段と、 前記動画像データの時系列に対する変化点を、画像変化
フレームとして算出する画像変化フレーム算出手段と、 前記オーディオデータの時系列に対する変化点を、オー
ディオ変化フレームとして算出するオーディオ変化フレ
ーム算出手段と、 前記画像変化フレーム及び前記オーディオ変化フレーム
に基づいて映像シーン変化フレームを算出する映像シー
ン変化フレーム算出手段とを備えた映像情報検出装置で
あって、 前記映像シーン変化フレーム算出手段は、前記オーディ
オデータを使用して前記オーディオ変化フレームを算出
し、該算出されたオーディオ変化フレームを前記映像シ
ーン変化フレームとして算出した後、前記映像シーンの
中でさらに前記映像シーン変化フレームを算出すること
が必要とされる区間について、前記画像変化フレーム算
出手段により画像変化フレーム算出を行い前記区間内で
前記画像変化フレームとして算出されたフレームを前記
映像シーン変化フレームとして算出することを特徴とす
る映像情報検出装置。
6. A video data storage means for storing video data for a video scene composed of video data and audio data synchronized in time series with each other, and audio data storage for storing the audio data. Means, an image change frame calculation means for calculating a change point in the time series of the moving image data as an image change frame, and an audio change frame calculation means for calculating a change point in the time series of the audio data as an audio change frame And a video scene change frame calculating means for calculating a video scene change frame based on the image change frame and the audio change frame, wherein the video scene change frame calculation means comprises: Using the audio data After calculating a change frame and calculating the calculated audio change frame as the video scene change frame, the image of a section in the video scene where the video scene change frame needs to be further calculated is obtained. A video information detection device, wherein a video frame change unit calculates a video change frame and calculates a frame calculated as the video change frame in the section as the video scene change frame.
JP08301865A 1996-11-13 1996-11-13 Video information detection device Expired - Fee Related JP3124239B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP08301865A JP3124239B2 (en) 1996-11-13 1996-11-13 Video information detection device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP08301865A JP3124239B2 (en) 1996-11-13 1996-11-13 Video information detection device

Publications (2)

Publication Number Publication Date
JPH10145729A JPH10145729A (en) 1998-05-29
JP3124239B2 true JP3124239B2 (en) 2001-01-15

Family

ID=17902091

Family Applications (1)

Application Number Title Priority Date Filing Date
JP08301865A Expired - Fee Related JP3124239B2 (en) 1996-11-13 1996-11-13 Video information detection device

Country Status (1)

Country Link
JP (1) JP3124239B2 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
JP4543298B2 (en) * 2001-07-03 2010-09-15 ソニー株式会社 REPRODUCTION DEVICE AND METHOD, RECORDING MEDIUM, AND PROGRAM
KR100763899B1 (en) * 2004-02-20 2007-10-05 삼성전자주식회사 Method and apparatus for detecting anchorperson shot
KR100650407B1 (en) * 2005-11-15 2006-11-29 삼성전자주식회사 Method and apparatus for generating video abstract information at high speed on based multi-modal
JP2012043140A (en) * 2010-08-18 2012-03-01 Fujifilm Corp Web page browsing system and relay server

Also Published As

Publication number Publication date
JPH10145729A (en) 1998-05-29

Similar Documents

Publication Publication Date Title
JP4683253B2 (en) AV signal processing apparatus and method, program, and recording medium
CN100546367C (en) Signal processing apparatus, signal processing method
EP1081960A1 (en) Signal processing method and video/voice processing device
US8254677B2 (en) Detection apparatus, detection method, and computer program
US20070223874A1 (en) Video-Audio Synchronization
KR20090110243A (en) Method and apparatus for multimedia encoding based on attribute of multimedia content, method and apparatus for multimedia decoding based on attributes of multimedia content
US6728473B1 (en) Moving picture recording and reproduction apparatus and method as well as medium
EP0237561A1 (en) Audio and video digital recording and playback system
KR20030056783A (en) Video highlight generating system based on scene transition
KR19980071128A (en) Advertisement detection device and advertisement detection method
US20060078292A1 (en) Apparatus and method for embedding content information in a video bit stream
JP3840928B2 (en) Signal processing apparatus and method, recording medium, and program
JP3124239B2 (en) Video information detection device
JP3402748B2 (en) Pitch period extraction device for audio signal
EP1161098B1 (en) Signal detection method and apparatus
JP3408800B2 (en) Signal detection method and apparatus, program therefor, and recording medium
JP3642019B2 (en) AV content automatic summarization system and AV content automatic summarization method
JP3496907B2 (en) Audio / video encoded data search method and search device
JP4032122B2 (en) Video editing apparatus, video editing program, recording medium, and video editing method
JP2005136810A (en) Content quality evaluation device, method therefor and program thereofor
JP2002344852A (en) Information signal processing unit and information signal processing method
JPH09147472A (en) Video and audio reproducing device
JP4036321B2 (en) Video search device and search program
JP3067043B2 (en) Automatic video cutting method
JP2002204457A (en) Video signal processor

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20001017

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081027

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081027

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091027

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101027

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees