JP2007049515A

JP2007049515A - 映像音声記録装置

Info

Publication number: JP2007049515A
Application number: JP2005232948A
Authority: JP
Inventors: Yoshiaki Kusunoki; 恵明楠; Isao Otsuka; 功大塚
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2005-08-11
Filing date: 2005-08-11
Publication date: 2007-02-22
Anticipated expiration: 2025-08-11
Also published as: JP3894940B2

Abstract

【課題】テレビジョン放送番組の記録と並行して、ＣＭ放送区間の検出を可能とする映像音声記録装置を提供する。
【解決手段】映像音声記録装置１００は、符号化ストリームを復号化し、復号化されたデータから映像のシーンチェンジを検出するシーンチェンジ検出部１３と、入力された音声データから無音区間を検出する無音検出部１４と、シーンチェンジと無音区間が同時に発生する変移点を検出する変移点検出部１５と、検出された変移点の間隔が予め設定された基準時間を中心とする所定の時間範囲内になる変移点の組み合わせが連続して２つ以上継続する区間をＣＭ放送区間と判定するＣＭフィルタ１６と、符号化ストリーム及びＣＭ放送区間の時刻情報などを記録するＨＤＤ１１を備えている。
【選択図】図１

Description

本発明は、テレビジョン放送番組の録画と並行して、録画されるテレビジョン放送番組の本編の間に挟まれているコマーシャルメッセージ（ＣｏｍｍｅｒｃｉａｌＭｅｓｓａｇｅ）放送の検出を行うことができる映像音声記録装置に関するものである。

テレビジョン放送は、その内容から「番組本編放送」と「コマーシャルメッセージ放送」に分類することができる。番組本編放送は、映画番組の場合には映画の内容自体の映像音声データに基づく放送部分である。一方、コマーシャルメッセージ放送は、広告主や広告代理店などの依頼主が放送局と契約を結んで、依頼主から提供を受けた映像音声データに基づく放送部分であり、番組本編放送の合間に放送されるものである。また、コマーシャルメッセージ放送には、放送局が自らの広告宣伝をするための放送も含まれる。本出願においては、「番組本編放送」を「番組本編」と、「コマーシャルメッセージ放送」を「ＣＭ放送」とも記す。番組本編とＣＭ放送とは、内容の関連が希薄である場合が多く、番組本編の視聴に集中したい視聴者にとっては、テレビジョン放送を録画する際又は視聴する際に、ＣＭ放送を効率よく削除したい、又は見飛ばしたい、とする要望がある。

従来の映像音声記録装置は、テレビジョン放送の音声方式を検出し、検出された音声方式に基づいて番組本編とＣＭ放送との識別を行っていた。番組本編の音声方式は、モノラル音声又は二ヶ国語音声（洋画における日本語と英語、など）であることが多く、また、一般に、ＣＭ放送の音声方式は、ステレオ音声であることが多い。このような違いを利用して、ステレオ音声が検出された区間をＣＭ放送区間と判別して、録画時にはＣＭ放送区間の録画を行わない（すなわち、削除する）、又は、視聴時にはＣＭ放送区間を見飛ばす（すなわち、スキップする）処理を行うようにしていた。

上記従来のＣＭ検出方式は、番組本編の音声方式がＣＭ放送の音声方式と同じステレオ音声である場合には、機能しなくなる。この改善策として、番組本編とＣＭ放送との境界に挿入される「ブラック・フレーム」と呼ばれる全画面黒色のフレーム映像を検出してＣＭ放送区間を特定する提案がある（例えば、特許文献１参照。）。また、番組本編とＣＭ放送との境界に生じる無音区間を検出し、検出された無音区間の出現間隔からＣＭ放送区間を特定する提案もある（例えば、特許文献２参照。）。また、映像のシーンチェンジの発生頻度を利用してＣＭ放送を抽出する提案もある（特許文献３参照）。さらに、視聴時に、ユーザーのボタン操作によって、１５秒などの固定時間を見飛ばし（すなわち、スキップ）するユーザーインターフェースを提供する提案もある。

特表平８−５０７６３３号公報（第１２−１５頁、図１）特開２００３−４７０３１号公報（第５−８頁、図１）特開２０００−１６５７９６号公報（第７頁、図１４）

しかしながら、ブラック・フレームを検出してＣＭ放送区間を特定する特許文献１に記載の方法では、国や地域、又は放送局によってはブラック・フレームが挿入されていないことがあるので（実際に、国内放送において、ブラック・フレームの挿入は法令で義務付けられてはいない）、ＣＭ放送区間の自動検出の確度を十分に高くできないという問題がある。

また、特許文献２又は３に記載の方法では、無音区間やシーンチェンジが番組本編の中にも多数存在するので、ＣＭ放送区間を高精度に特定することは困難であるという問題がある。

さらに、ユーザーのボタン操作によって１５秒スキップさせる方法では、１５秒の倍数系列にない既定外の時間長（例えば、５秒の番組スポット宣伝など）を持つＣＭ放送には対応することができないという問題がある。

そこで、本発明は、上記従来技術の課題を解決するためになされたものであり、その目的は、テレビジョン放送番組の記録と並行して、ＣＭ放送区間の抽出を可能とする映像音声記録装置を提供することである。

本発明の映像音声記録装置は、入力された映像・音声データを符号化して符号化ストリームを出力する符号化手段と、前記符号化手段から出力された符号化ストリームを記録する記録手段と、前記符号化手段から出力された符号化ストリームを復号化し、該復号化されたデータから映像のシーンチェンジを検出する映像変化点検出手段と、入力された音声データから無音区間を検出する無音検出手段と、前記映像変化点検出手段によって検出されたシーンチェンジと前記無音検出手段によって検出された無音区間が同時に発生する変移点を検出する変移点検出手段と、前記変移点検出手段によって検出された変移点の間隔が予め設定された基準時間を中心とする所定の時間範囲内になる変移点の組み合わせが連続して２つ以上継続する区間をＣＭ放送区間と判定するＣＭ放送区間判定手段と、前記ＣＭ放送区間判定手段によって判定されたＣＭ放送区間の時刻情報を記録するＣＭ放送区間情報記録手段とを有することを特徴としている。

本発明の映像音声記録装置によれば、放送番組の記録と並行してＣＭ放送区間検出処理を実行するのでリアルタイムにＣＭ放送区間検出を行うことができるという効果がある。

実施の形態１．
図１は、本発明の実施の形態１の映像音声記録装置１００の構成を概略的に示すブロック図である。図１に示されるように、映像音声記録装置１００は、アンテナ１によって受信された放送波から録画する放送番組を選局するチューナ２と、チューナ２から出力されたアナログ映像信号をデジタル化するビデオＡ／Ｄ変換部３と、チューナ２から出力されたアナログ音声信号をデジタル化するオーディオＡ／Ｄ変換部４と、デジタル映像信号をＭＰＥＧ−２（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ−２）に圧縮符号化する符号化手段としてのビデオエンコーダ５と、デジタル音声信号を、例えば、リニアＰＣＭ（Ｌｉｎｅａｒｐｕｌｓｅｃｏｄｅｍｏｄｕｌａｔｉｏｎ）又はドルビーデジタル（ＤｏｌｂｙＤｉｇｉｔａｌ）に符号化する符号化手段としてのオーディオエンコーダ６と、符号化された映像及び音声信号を１つの符号化ストリームに多重するマルチプレクサ（Ｍｕｌｔｉｐｌｅｘｅｒ）（以下「Ｍｕｘ」とも記す。）７と、ビデオエンコーダ５、オーディオエンコーダ６及びＭｕｘ７を制御する録画制御部８とを有している。

また、映像音声記録装置１００は、符号化ストリームを記録する記録手段としてのハードディスクドライブ（ＨＤＤ）１１と、Ｍｕｘ７で多重された符号化ストリームをＨＤＤ１１に安定して書き込むためのストリーム制御手段としてのストリーム制御部９と、符号化ストリームを一時的に記憶するストリームバッファ１７と、生成された各符号化ストリームをファイルとしてＨＤＤ１１に保存するためのファイルシステム部１０と、生成された符号化ストリームの番組名や生成日時に加え、特殊再生を実現するためのアドレス情報や後述するＣＭ区間情報を生成及び管理するナビゲーション部１２とを有している。

さらに、映像音声記録装置１００は、映像の場面転換シーンを検出する映像変化点検出手段としてのシーンチェンジ検出部１３と、音声の無音区間を検出する無音検出手段としての無音検出部１４と、シーンチェンジと無音区間が同時に発生する変移点を検出する変移点検出手段としての変移点検出部１５と、変移点を検出するためにシーンチェンジと無音区間の情報を保持する、変移点検出部１５内に備えられた一時記憶手段としての変移点マッチングバッファ１９と、複数の変移点からＣＭに固有の周期性等からＣＭ区間を検出するＣＭ放送区間判定手段としてのＣＭフィルタ１６と、ＣＭフィルタ１６で解析する変移点を記憶する変移点スタックテーブル１８とを有している。

図１には、記録手段としてＨＤＤ１０５が示されているが、記録手段は、ＤＶＤのような光ディスクや磁気テープなどの他の情報記録媒体であってもよい。また、映像音声記録装置１００は、放送番組を受信及び録画する受信機又はＤＶＤ／ＨＤＤハイブリッドレコーダであってもよい。さらに、映像音声記録装置１００は、家庭用のビデオレコーダに限らず、パーソナルコンピュータ、映像サーバ、又は、監視システム用の監視レコーダなどの各種用途に適用できる。

ファイルシステム部１０は、ＨＤＤ１１に書き込む情報をファイル化することによって書き込み情報に対するアクセスが簡単に行えるようにするためのデータ管理を行う。ファイルシステム部１０によって、ストリーム制御部９及びナビゲーション部１２は、ストリームや情報をＨＤＤ１１に書き込み又はＨＤＤ１１から読み出しを行うときに、ＨＤＤ１１上の直接のアドレスを気にすることなく、ファイルを指定することによって、先頭から順に、又は、指定した位置から順に読み出し及び書き込みを行うことができる。

ビデオエンコーダ５による符号化方式であるＭＰＥＧ−２は、可変レートに対応しており、そのため、１秒間に発生する符号量（ビットレート）は時間によって大きく変動する。そのため、ストリーム制御部９は、ＨＤＤ１１へのデータ書き込み及びＨＤＤ１１からのデータ読み出しによって符号化ストリームがオーバーフロー又はアンダーフローしないように、符号化ストリームをストリームバッファ１７に一時的に保持させ、ＨＤＤ１１の状態に応じて符号化ストリームのＨＤＤ１１への書き出し及びＨＤＤ１１からの読み込みを行っている。ストリームバッファ１７は、リングバッファで構成されており、書き込み位置ポインタと読み出し位置ポインタによって有効なデータ領域が管理されている。すなわち、データの書き込み時には、書き込み位置ポインタを先頭にデータサイズ分書き込みを行い、書き込んだデータサイズ分だけ書き込み位置ポインタを進める。一方、データの読み出し時には、読み出し位置ポインタを先頭にデータサイズ分読み出しを行い、読み出したデータサイズ分だけ読み出し位置ポインタを進める。ただし、リングバッファの終了位置に来たときは、ポインタを先頭の位置に戻す処理を行う。

次に、放送番組を記録する動作について説明する。ユーザーが手動で録画開始ボタンを押した、又は、予め録画タイマーで設定しておいた録画開始時間になると、チューナ２はアンテナ１で受信した放送波から指定チャンネルを選局する。チューナ２から出力された映像及び音声のアナログ信号は、それぞれビデオＡ／Ｄ変換部３及びオーディオＡ／Ｄ変換部４に送られ、デジタル映像信号及びデジタル音声信号に変換される。録画制御部８は録画開始時にビデオエンコーダ５及びオーディオエンコーダ６に対してエンコード開始を、Ｍｕｘ７に対して多重処理開始を指示する。すると、ビデオＡ／Ｄ変換部３又はオーディオＡ／Ｄ変換部４から出力されたデジタル映像信号及びデジタル音声信号が順次ビデオエンコーダ５及びオーディオエンコーダ６で圧縮符号化処理が行われ、さらに、Ｍｕｘ７で１つのプログラムストリームに多重化が行われ、ストリーム制御部９でストリームの制御を行いながらＨＤＤ１１に記録されていく。

ビデオエンコーダ５は、エンコード単位であるＧＯＰ（ＧｒｏｕｐｏｆＰｉｃｔｕｒｅｓ）の符号化が完了する毎に録画制御部８にＧＯＰ符号化完了通知を送る。ストリーム制御部９は、ビデオエンコーダ５及びオーディオエンコーダ６によって符号化されＭｕｘ７で多重された符号化ストリームをストリームバッファ１７の書き込み位置ポインタを先頭に順次書き込む。一方、ストリーム制御部９は、ＨＤＤ１１が書き込み状態になっていることを確認しながら、ストリームバッファ１７の読み出し位置ポインタから符号化ストリームを読み出し、ＨＤＤ１１に書き込みを行う。録画が実行されている間、前記動作を繰り返し行う。録画終了時には、録画制御部８は、ビデオエンコーダ５及びオーディオエンコーダ６に対して符号化終了を指示し、符号化を停止させる。符号化停止後、ストリーム制御部９は、ストリームバッファ１７に残っている符号化ストリームを全てＨＤＤ１１に書き込む。

次に、シーンチェンジ検出と無音検出について説明する。録画制御部８は、ＧＯＰの符号化完了をビデオエンコーダ５から受け取る毎に、シーンチェンジ検出部１３に対してシーンチェンジ検出コマンドを送る。シーンチェンジ検出部１３は、エンコードが完了したＧＯＰデータをストリーム制御部９から読み出し、映像のシーンチェンジの検出を行う。検出方法の一例としては、以下の方法がある。まず、読み出したＧＯＰ単位のデータからＩピクチャの復号化を行い、ヒストグラムを作成する。そのヒストグラムと一つ前のＩピクチャのヒストグラムと比較を行い、ヒストグラムの各要素値の絶対値の差の合計をシーンチェンジ差異値と定義し、そのシーンチェンジ差異値が予め設定された閾値より大きければシーンチェンジであると判定する。以下の説明においては、説明を簡単にするために、ＧＯＰを構成するピクチャ数は１５枚固定であり、そのＧＯＰの時間は０．５秒であるものとする。よって、シーンチェンジの発生した時刻は、ＧＯＰの個数で簡単に表すことが可能となる。

オーディオＡ／Ｄ変換部４は、アナログ音声信号をデジタル音声信号であるリニアＰＣＭ信号に変換する。無音検出部１４は、入力されたリニアＰＣＭ信号の振幅が予め設定されている閾値以下の状態が予め設定された時間以上続けば無音区間であると判定する。ここでは、入力されたリニアＰＣＭ信号の振幅が予め設定されている閾値以下の状態が、３００ミリ秒以上続けば、無音区間が発生したと判定する。無音区間の条件として、ある時間以上、リニアＰＣＭ信号の振幅が低い状態が続くことを必要としている理由は、瞬間的な無音を、無音区間と判定しないようにするため、及び、無音の発生毎に後述するＣＭ放送区間検出動作の頻度が多くなると、システムの処理負荷が大きくなってＣＭ放送区間検出以外の動作に支障を来たすおそれがあるからである。無音区間であると判定した場合、録画開始からのサンプル数の累積番号により無音開始時刻を算出する。また、無音区間が継続されている状態でリニアＰＣＭ信号の振幅が、予め設定されている閾値より大きくなった場合、無音区間が終了したと判定し、同様にサンプル数の累積番号から無音終了時刻を算出する。

図２は、図１に示される映像音声記録装置１００の変移点検出部１５の動作を示すフローチャートである。変移点検出部１５は、シーンチェンジ検出部１３から送られるシーンチェンジ情報又は無音検出部１４から送られる無音情報に基づいて動作を切り替える。例えば、変移点検出部１５の動作が開始されて、シーンチェンジ検出部１３においてシーンチェンジの検出動作を行い（ステップＳ１０１）、シーンチェンジ情報としてシーンチェンジ検出フラグ、ＧＯＰ番号、及びシーンチェンジ差異値が変移点検出部１５に送られたとすると、ステップＳ１０１において検出されたシーンチェンジ情報は、変移点検出部１５内の変移点マッチングバッファ１９に保存される（ステップＳ１０２）。

一方、無音検出部１４によって無音区間が検出されると（ステップＳ１０３）、無音区間情報として無音検出フラグ、無音発生時刻、及び無音終了時刻を変移点検出部１５に送る。ステップＳ１０３において判定された無音区間に関する無音情報は、変移点検出部１５内の変移点マッチングバッファ１９に保存される（ステップＳ１０４）。無音区間が検出された場合は、さらに変移点マッチングバッファ１９上で変移点検出、つまりシーンチェンジと無音が同時に発生した時間位置の検出を行う（ステップＳ１０５）。無音区間検出毎に変移点検出を行うのは、シーンチェンジ検出区間と無音区間の積情報を取るには、シーンチェンジ検出より発生頻度の低い無音区間検出の度に行うことが処理効率の面から適しているためである。変移点マッチングバッファ１９には、最新のシーンチェンジ及び無音区間の情報が一時的に保持されており、双方が一致した場合は、一致した情報が次の処理であるステップＳ１０６に送られるとともに、そのシーンチェンジ情報及び無音区間情報と、それ以前のシーンチェンジ情報及び無音区間情報が破棄される。また、予め設定された一定時間が経過したときにも、シーンチェンジ情報及び無音区間情報が破棄される。このような制御によって、有限のバッファサイズであっても、リアルタイムにシーンチェンジと無音区間の一致を検出することができる。したがって、変移点マッチングバッファ１９上で、無音区間の開始時刻から終了時刻までの間に発生したシーンチェンジを、シーンチェンジのＧＯＰ番号をもとに変移点を検出することができる。そして、シーンチェンジのＧＯＰ番号を変移点の時刻を表す値として利用する。このようにして選出された変移点及び一致したシーンチェンジの差異値及び無音の時間長を次のＣＭフィルタ１６に送り（ステップＳ１０６）、ＣＭフィルタ１６内の変移点格納用の変移点スタックテーブル１８に保存し、ＣＭフィルタ１６の動作を実行する（ステップＳ１０７）。

次に、図１に示されるＣＭフィルタ１６によってＣＭ放送区間を検出する方法について説明する。図１に示されるように、ＣＭフィルタ１６内には、変移点に関する情報を記憶する変移点スタックテーブル１８が設けられている。図３は、変移点スタックテーブル１８の一例を示す図である。変移点スタックテーブル１８は、録画と並行して実行されるＣＭ放送区間検出動作時に更新されるので、リングバッファの構成をとる。よって、リードポインタからライトポインタの手前までがＣＭ放送区間検出のための処理範囲である。変移点スタックテーブル１８内には、変移点の時間位置を示す変移点ＧＯＰ番号と、後続する変移点がＣＭとみなされた場合の最終変移点の時間位置を示す連結終了ＧＯＰ番号と、後続する変移点の個数を示す変移点カウンタと、変移点における無音時間長と、変移点におけるシーンチェンジ差異値と、この変移点の有効・無効を示す有効無効フラグとが設けられている。

変移点ＧＯＰ番号は、シーンチェンジが検出されたＧＯＰ番号である。実施の形態１においては、シーンチェンジの検出精度を１ＧＯＰとしているため、録画開始からのＧＯＰの累積番号で時間を表すことができる。

連結終了ＧＯＰ番号とは、ある変移点を基点としたＣＭ放送区間における最終変移点のＧＯＰ番号である。図３においては、変移点ＧＯＰ番号‘１０’の場合、ＧＯＰ番号‘１０’、‘４０’、‘１０１’においてＣＭが継続して検出されるので、ＧＯＰ番号‘１０１’が連結終了ＧＯＰ番号になる。変移点検出部１５では、変移点３３ｇが検出されると、ＧＯＰ番号‘１０１’にＧＯＰ番号‘１３０’が連結され、変移点３３ｂから変移点３３ｇまでがＣＭ放送区間と判定される。また、変移点ＧＯＰ番号に後続する変移点がない場合は、連結終了ＧＯＰ番号は、変移点ＧＯＰ番号と同じ値になる。

変移点カウンタは、ＣＭ放送区間においてＣＭが変移点で連結された場合における変移点の数を示す。

無音時間長は、変移点における無音区間の長さをミリ秒単位で示す。

シーンチェンジ差異値は、変移点におけるシーンチェンジの変化量を０から１までの値で示す。シーンチェンジ差異値が大きいほど、映像の変化量が大きいことを意味する。

有効無効フラグは、変移点スタックテーブル内において処理対象範囲であることを示すフラグであり、変移点が登録されたときには有効‘１’が設定され、ＣＭフィルタ１６の処理において、例えば、‘４０’のように、先行する変移点に連結された変移点について無効‘０’に変更される。また、ある変移点が処理対象範囲から外れた場合、例えば、‘１０’、‘４０’、‘１０１’、‘１３１’をＣＭ区間として検出した場合に、‘１０’以前の‘６’や、‘１０’から‘１３１’の間の全ての変移点‘６２’、‘８３’を無効‘０’にすることによって、処理の高速化及び変移点スタックテーブルに必要なメモリサイズの低減を図ることができる。

ＣＭフィルタ１６においては、変移点スタックテーブル１８の要素である変移点をそれぞれ比較し、変移点の間隔が所定の基準間隔、例えば、１５秒、３０秒、６０秒、又は９０秒相当であるものを抜き出していく。そのとき、検出誤差、ＣＭのフレームレベルでの長さのばらつき等によりＣＭの長さが１５秒からずれる可能性があるので、そのための許容誤差を、例えば、１ＧＯＰ分設ける。よって、先の変移点の間隔として有効な間隔は、ＧＯＰの個数で表現でき、３０ＧＯＰ±１ＧＯＰ、６０ＧＯＰ±１ＧＯＰ、１２０ＧＯＰ±１ＧＯＰ、及び１８０ＧＯＰ±１ＧＯＰのように、±１ＧＯＰの許容誤差を設けたＧＯＰの数で表現することができる。ＣＭフィルタ１６においては、上記変移点の間隔が上記のように予め設定しているＧＯＰの間隔と一致する変移点の間隔をＣＭ候補間隔とする。さらに、ＣＭ候補間隔が連続して２個以上ある場合には、その区間をＣＭ放送区間とする。

図４（Ａ）乃至（Ｅ）は、実施の形態１の映像音声記録装置１００におけるＣＭ放送区間検出動作を説明するための図である。図４（Ａ）乃至（Ｅ）を用いてＣＭ区放送間を特定する方法について説明する。無音検出部１４によって無音区間３１ａ，…，３１ｍが検出された場合を説明する。一方、図４（Ｂ）に示されるように、シーンチェンジ３２ａ，…，３２ｏが存在するものとする。無音区間については、無音発生時刻と無音終了時刻が得られ、シーンチェンジについては、シーンチェンジの発生したＧＯＰ番号が得られる。実施の形態１においては、ＧＯＰのフレーム数を固定にしているので、ＧＯＰ番号によって一意に時刻を表すことができる。無音とシーンチェンジの時刻を比較し、同一時刻に無音とシーンチェンジが発生した場合に、この点を変移点とする。ここでは、図４（Ｃ）に示されるように、変移点３３ａ，…，３３ｉが検出されている。さらに、各変移点３３ａ，…，３３ｉの間で、上記ＣＭ間隔に一致するものをＣＭと判定する。ここでは、変移点３３ｂから変移点３３ｃまでの間隔が３０ＧＯＰであり、変移点３３ｃから変移点３３ｆまでの間隔が６１ＧＯＰであり、変移点３３ｆから変移点３３ｇまでの間隔が２９ＧＯＰであるので、それぞれの区間がＣＭとして検出され、さらに、ＣＭが３個連続して続くので、変移点３３ｂ，…，３３ｇがＣＭ放送区間であると判定する。さらに、変移点３３ｇから２０１ＧＯＰ経過したところで変移点３３ｉが検出されるが、変移点３３ｇから変移点３３ｉまでの間隔は、予め設定されたＣＭ放送区間の最大値である１８０ＧＯＰを超えているので、ＣＭが終了したと判断することができ、ＣＭ放送区間検出を完了したことを示している。

次に、図５を用いてＣＭフィルタ１６によるＣＭ検出処理手順について説明する。変移点検出部１５においてシーンチェンジと無音区間が同時に発生する変移点が検出されると、その情報がＣＭフィルタ１６に送られることによって、ＣＭフィルタ１６の動作が開始する（ステップＳ４０１）。検出された変移点の情報は、ＣＭフィルタ１６内の変移点スタックテーブル１８の最後尾に保存される（ステップＳ４０２）。ＣＭフィルタ１６内の変移点スタックテーブル１８に保存される情報は、有効無効フラグ、変移点ＧＯＰ番号、連結終了ＧＯＰ番号、連続するＣＭとして検出された変移点の個数である変移点カウンタ値、検出された変移点の無音時間長、及びシーンチェンジの変化量を示すシーンチェンジ差異値である。次に、変移点スタックテーブル１８の読み出し基点を設定する（ステップＳ４０３）。図４（Ｃ）において、例えば、前回、変移点３３ａの処理まで完了していたとすると、今回は次の変移点３３ｂを最初の基点とする。次に、変移点の終点側を設定する（ステップＳ４０７）。図４（Ｃ）においては、変移点３３ｃを終点とする。もしも、変移点スタックテーブル１８に終点となる変移点がなければ（ステップＳ４０８）、次の基点を取得する（ステップＳ４０４）。図４（Ｃ）においては、基点が変移点３３ａで終点が変移点３３ｉの場合に、基点を変移点３３ｂにする処理である。ここで、次の基点が見つからなければ（ステップＳ４０４）、ＣＭ検出処理を終了する（ステップＳ４０６）。基点と終点が決定した場合、基点から終点までの時間長を求める（ステップＳ４０９）。図４（Ｃ）においては、基点が変移点３３ｂ、終点が変移点３３ｃの場合には、基点‘１０’と終点‘４０’との差（すなわち、変移点間隔）である３０ＧＯＰが、時間長である。この時間長が、ＣＭ基準時間である３０ＧＯＰ±１ＧＯＰ、６０ＧＯＰ±１ＧＯＰ、１２０ＧＯＰ±１ＧＯＰ、及び１８０ＧＯＰ±１ＧＯＰのいずれかに一致していれば（ステップＳ４１０）、基点の連結終了ＧＯＰ番号を終点の連結終了ＧＯＰ番号で置き換える（ステップＳ４１１）。さらに、終点の有効無効フラグを無効化し（ステップＳ４１２）、基点の変移点カウントを一つ増分する（ステップＳ４１３）。また、ステップＳ４１０においてＣＭ基準時間長ではないと判定された場合は、次に、基点と終点間の時間長が最大ＣＭ基準時間長である１８０ＧＯＰ±１ＧＯＰを超えているか否かを判断し（ステップＳ４１４）、超えていると判定された場合には、基点から連結終了ＧＯＰ番号までをＣＭ放送区間と判定し、ＣＭ放送区間の情報を録画制御部８に送る（ステップＳ４１５）。さらに、次回のＣＭ放送区間検出処理の基点を今回のＣＭ放送区間の最終変移点の次の変移点に設定すると共に、検出した最終変移点より前の変移点の有効無効フラグを無効化する（ステップＳ４１６）。

上記ステップを録画動作中継続して実行することによって、記録する放送番組のＣＭ放送区間をリアルタイムに検出することができる。ＣＭフィルタ１６で検出したＣＭ放送区間の時刻情報は、録画制御部８に一旦渡され、録画した番組の管理情報を扱うナビゲーション部１２に伝えられ、ファイルシステム１０によってファイル化され、ＣＭ放送区間情報記録手段として機能するＨＤＤ１１上に記録される。

上記のように映像音声記録装置１００を構成することによって、放送番組を録画しながらＣＭ放送区間を検出することができる。

また、シーンチェンジ検出機能を有しないエンコーダを用いた場合、通常、録画実行後にあらためて録画された番組を解析する必要があるが、本発明の構成においては、録画動作と並行してＣＭ放送区間の検出が行うことができるので、エンコーダの選択の範囲が広くなり、結果コストや調達性を重視したエンコーダの選択が可能になる。

さらに、ストリーム制御部９からシーンチェンジ検出部１３及び無音検出部１４にストリームを送ることによって、ＨＤＤ１１に録画されている番組に対して、ＣＭ放送区間検出を行うことも可能である。ただし、その場合、無音検出はシーンチェンジと同様にストリームから解析する方法を使用しなければならない。

また、シーンチェンジ検出結果と無音検出結果を一時的な記憶領域である変移点マッチングバッファ１９に記録し、変移点マッチングバッファ１９の記憶領域上で比較することによって、リアルタイムに変移点を検出することができ、よって、録画と並行してＣＭ放送区間の検出が可能になる。また、同時に発生しているシーンチェンジと無音区間が、ある程度の時間差をもって変移点検出部１５に通知されたとしても、変移点マッチングバッファ１９で情報が保持されているので、片方の情報をとりこぼすことなくＣＭ放送区間の検出を実行できる。

また、シーンチェンジ検出時には一時的な記憶領域である変移点マッチングバッファ１９への登録のみを実行し、一方で無音が検出されたときは変移点マッチングバッファ１９への登録だけでなく、変移点マッチングバッファ１９上で無音と同時に発生するシーンチェンジを検出し、さらに、ＣＭ放送区間の検出処理を行う構成にすることによって、検出回数の少ない無音検出に同期して処理を行うことができるので、ＣＰＵの処理時間が少なく、かつシステム負荷の少ない状態でＣＭ放送区間の検出を行うことができる。

また、ＣＭ放送区間検出の単位をフレーム単位でなく、例えば、ＧＯＰ単位とすることによって処理頻度及び処理負荷の低減を計れるだけでなく、ＣＭ毎にＣＭの長さが数フレーム違う場合であっても、各ＣＭの長さの違いに影響されずに、ＣＭ放送区間の検出を行うことができる。

また、以上の説明においては、シーンチェンジ検出単位を１ＧＯＰとしているが、シーンチェンジ検出単位を複数のＧＯＰ単位としてもよい。また、シーンチェンジ検出単位を任意の数のフレーム毎にしてもよい。

また、以上の説明においては、シーンチェンジ及び無音検出処理を行う方法としてソフトウェアによる例を示したが、ハードウェアによって実行してもよい。また、音声はオーディオＡ／Ｄ変換部４出力を直接解析しているが、符号化ストリームから解析して無音を検出してもよい。

実施の形態２．
実施の形態２においては、ＣＭ間の境界付近に複数の変移点が存在する場合に、ＣＭ間の境界と判定する変移点を選択する方法について説明する。通常、ＣＭの前後部分には、宣伝を行う企業名や製品名などのテロップが一時的に表示されることが多い。このため、ＣＭ間の境界付近においては、無音及びシーンチェンジが同時に起こり、変移点が複数回連続して発生する場合が多い。一方、ＣＭ放送区間の検出においては、ＣＭの時間長さの誤差や検出遅れ及び検出ばらつきを補うため、基準とするＣＭ長さに対して、ある程度の幅を持たせて検出を行っている。例えば、実施の形態１においては、１５秒のＣＭを検出するために、３０±１ＧＯＰの範囲内で検出を実行している。しかしながら、±１ＧＯＰの検出幅において複数回の変移点が存在することがあり、候補となる変移点から１つの変移点を選択する指針が必要であった。そこで、実施の形態２においては、候補となる変移点から１つの変移点を選択する指針となる３つの選択基準を示す。

図６（Ａ）乃至（Ｃ）は、候補となる変移点と選択された変移点を示している。第１の方法は、図６（Ａ）に示すように、変移点間隔が３０ＧＯＰ、６０ＧＯＰ、及び９０ＧＯＰのように、基準時間から±０ＧＯＰとなるように、次の変移点を選択していく方法である。

第２の方法は、図６（Ｂ）のＧＯＰ番号‘３０’からＧＯＰ番号‘５９’までに示すように、あるＣＭ境界検出において選択された変移点の間隔が２９ＧＯＰ（＝３０ＧＯＰ−１ＧＯＰ）となった場合に、図６（Ｂ）のＧＯＰ番号‘６０’からＧＯＰ番号‘９０’までに示すように、次のＣＭ境界検出における選択された変移点の間隔を、３１ＧＯＰ（＝３０ＧＯＰ＋１ＧＯＰ）を中心に選択する方法である。これは、選択された変移点が一時的に基準値からずれた場合（図６（Ｂ）におけるＧＯＰ番号‘５９’に相当する。）、次の変移点は、ずれを打ち消すＧＯＰを優先して選択するものである（図６（Ｂ）におけるＧＯＰ番号‘９０’に相当する）。すなわち、予め設定された基準時間（例えば、３０ＧＯＰ）を中心とする所定の時間範囲内（±１ＧＯＰの範囲内）に、検出されたシーンチェンジと検出された無音区間が同時に発生する変移点が複数検出された場合には、ＣＭフィルタ１６は、直前に判定されたＣＭの時間長と、次に前判定されるＣＭの時間長との合計が、前記予め設定された基準時間（例えば、３０ＧＯＰ）の整数倍に近づける度合いの大きい変移点をＣＭ放送区間を規定するための変移点と判定する。

第３の方法は、累積した時間が、できるだけ±０ＧＯＰになるように選択する方法である。これは、図６（Ｃ）に示されるように、選択された変移点をＧＯＰ番号‘０’、‘２９’、‘５８’とした後に、ＧＯＰ間隔が３０±０ＧＯＰとなるＧＯＰ番号‘８８’を選択せずに、ＧＯＰ間隔が３０＋１ＧＯＰとなるＧＯＰ番号‘８９’を選択し、さらに次の検出に際して、ＧＯＰ間隔が３０ＧＯＰ−１ＧＯＰや３０ＧＯＰ±０ＧＯＰを選択せずに、ＧＯＰ番号‘１２０‘を選択することによって、変移点のずれが全体として±０ＧＯＰになるようにするものである。すなわち、予め設定された基準時間（例えば、３０ＧＯＰ）を中心とする所定の時間範囲内（±１ＧＯＰの範囲内）に、検出されたシーンチェンジと検出された無音区間が同時に発生する変移点が複数検出された場合には、ＣＭフィルタ１６は、判定されるＣＭ放送区間を、予め設定された基準時間（例えば、３０ＧＯＰ）の整数倍に近づける度合いの大きい変移点をＣＭ放送区間と規定するための変移点と判定する。

上記第２の方法又は第３の方法を採用することによって、検出誤差等によって、一旦変移点が本来のＣＭ間の境界位置からずれた場合であっても、補正処理が可能となり、結果としてＣＭ放送区間検出精度を向上させることができる。

また、変移点のずれが全体として±０ＧＯＰとなる変移点を優先的に選択することによって、検出したＣＭ放送区間が基準時間に近くなるようになり、ＣＭ放送区間の検出精度が向上する。

また、累積時間数又はＧＯＰ数の累積値の基準時間からのずれが、±０ＧＯＰになるように、検出した変移点に対して重み付けを行うことによって、１つのＣＭを検出するための誤差である±１ＧＯＰがＣＭ放送区間を継続して実行するなかで、ＣＭの数が増えるほど累積する、すなわち、本来のＣＭ境界からずれる、さらには本来のＣＭ境界からずれることによって検出すべきＣＭが検出できなくなるという問題を低減することができる。

なお、実施の形態２において、上記以外の点は、上記実施の形態１の場合と同じである。

実施の形態３．
実施の形態３においては、変移点における無音時間長を用いてＣＭ放送区間の検出精度を向上させる方法を説明する。

一般に、テレビ放送番組においては、１つのＣＭの前後には約０．５秒程度の無音部分が存在し、ＣＭとＣＭのつなぎ目である境界付近においては、双方のＣＭの無音部分の和で約１秒（≒０．５秒×２）の無音部分が存在する。一方、番組本編からＣＭに移行するとき、及び、ＣＭから番組本編に移行するときは、番組本編側の無音部分が短い場合が多く、双方の無音部分の和で約０．６秒程度の無音部分が入るのみである。

図７は、実際に放送されている任意の２０番組、５９１本のＣＭを含む放送区間において、あるＣＭとその次のＣＭの間の無音部分の時間長さを測定した結果を示すグラフである。図７に示されるように、ＣＭ間の無音部分のほとんどが０．８秒から１．４秒までの間に存在している。

図８は、図７の場合と同じ任意の２０番組の放送区間において、ＣＭ放送区間が終了して番組本編に移行するときの無音部分の時間長さを測定した結果を示すグラフである。図８に示されるように、ＣＭ放送区間から番組本編に移行するときは、無音部分の時間長さのほとんどが、約０．４秒から約１．２秒までの間に存在していることがわかる。すなわち、実施の形態１で示した変移点における無音時間長が０．４秒から０．８秒までの間、又は、１．４秒以上であれば、ほとんどの場合においてＣＭが終了し番組本編に移行したと判断することができる。

図９は、ＣＭ間の無音時間長を用いてＣＭ放送区間を検出する方法を示すフローチャートである。図９において、図５のステップと同じステップには、同じ符号を付している。実施の形態３における基本的なＣＭ放送区間の検出方法は、実施の形態１の場合と同じであるが、実施の形態３においては、ステップＳ４２０で変移点の無音時間長について検証を行い、ＣＭが２つ以上検出されている状態において、先述のとおり、無音時間長が０．８秒から１．４秒まで（すなわち、第１の規定範囲）に入らなければＣＭが終了したと判定する工程が追加されている。また、ＣＭ放送区間が検出された場合においても、ＣＭ放送区間の各変移点の無音時間長において少なくとも１つ以上、０．８秒から１．４秒までの範囲内の時間長を持つ無音部分が存在しているかを検証し（ステップＳ４２０）、０．８秒から１．４秒までの範囲内の時間長を持つ無音部分が含まれていなければ、ＣＭ放送区間として採用しない工程が追加されている。

上記のように構成することによって、ＣＭ放送区間の終了及び本編開始位置を検出することができ、ＣＭ放送区間の検出精度を向上させることができる。

とくに、ＣＭから番組本編に移行した後に、ＣＭ間隔と同じ間隔でシーンチェンジと無音が発生した場合、番組本編の冒頭部分をＣＭであると誤検出する場合があるが、無音時間長によりＣＭ終了位置を精度良く検出でき、番組本編冒頭をＣＭと誤検出する事態の発生頻度を低減でき、結果として、ＣＭ放送区間の検出精度を向上させることができる。

さらに、番組本編中においてシーンチェンジと無音区間が同時に複数発生し、その間隔がＣＭ放送区間におけるシーンチェンジと無音区間の発生の間隔と同じであった場合に、番組本編をＣＭ放送区間であると誤検出する場合があるが、無音時間長がＣＭ間の無音時間長と一致していることを条件とするために、番組本編をＣＭと誤検出する事態の発生頻度を低減させることができる。

なお、実施の形態３において、上記以外の点は、上記実施の形態１及び２の場合と同じである。

実施の形態４．
実施の形態４においては、シーンチェンジの変化量を示すシーンチェンジ差異値を利用して検出精度を向上させることができるＣＭ放送区間の検出方法について説明する。

図１０は、実施の形態４の映像音声記録装置における、シーンチェンジ差異値を利用したＣＭ放送区間の検出方法を示すフローチャートである。また、図１１は、実施の形態４の映像音声記録装置における、シーンチェンジ差異値を利用したＣＭ放送区間検出方法を説明するための図である。図１１には、検出されたＣＭ放送区間と、ＣＭ放送区間における各ＣＭの境界に位置する変移点５１ａ，…，５１ｆが示されている。一般に、ＣＭと番組本編の間、又は、ＣＭとＣＭの間の映像的な因果関係は乏しく、よって、シーンチェンジの変化量は極めて大きいものとなる。実施の形態４においては、ＣＭと番組本編の間、及び、ＣＭとＣＭの間におけるシーンチェンジ差異値が、番組本編内におけるシーンチェンジ差異値よりもが大きいことを利用して、番組本編を誤ってＣＭとみなす誤検出を低減する方法について示す。

図１０のフローチャートに示される動作は、実施の形態１における図５のフローチャートに示される動作を基本とし、さらに、シーンチェンジ差異値を利用した幾つかの判断と処理が追加されている。図１０において、図５のステップと同じ又は対応するステップには、同じ符号を付している。

まず、ＣＭフィルタ１６は、基点となる変移点から終点となる変移点までの時間長がＣＭ基準時間長（例えば、１５秒、３０秒、６０秒、９０秒など）と同じと判定された（ステップＳ４１０）後に、その基点と終点が先頭ＣＭであり、かつ、時間長が６０秒又は９０秒であるかを判定する（ステップＳ４３０）。その条件に一致した場合、基点のシーンチェンジ差異値と終点のシーンチェンジ差異値を比較し（ステップＳ４３１）、基点のシーンチェンジ差異値が大きければ基点位置からＣＭが開始されたと判定し、ステップＳ４１１に復帰する。図１１においては、変移点５１ａと変移点５１ｂのシーンチェンジ差異値を比較し、シーンチェンジ差異値が大きい方を番組本編とＣＭの境界と判定することを示す。

一方、ステップＳ４３１において、基点のシーンチェンジ差異値より終点のシーンチェンジ差異値のほうが大きいと判断した場合は、ＣＭフィルタ１６は、終点位置からＣＭが開始される、すなわち、この基点と終点の間は番組本編が継続されていると判定する。

同様に、ＣＭフィルタ１６は、ＣＭ終了時にも最終ＣＭであり、かつ、時間長が６０秒又は９０秒であるかを判定し（ステップＳ４３２）、条件に一致した場合、基点のシーンチェンジ差異値と終点のシーンチェンジ差異値を比較し（ステップＳ４３３）、基点のシーンチェンジ差異値より終点のシーンチェンジ差異値が大きければ終点位置から番組本編が開始されたと判定し、処理をステップＳ４３５に移す。図１１においては、変移点５１ｅのシーンチェンジ差異値と変移点５１ｆのシーンチェンジ差異値を比較し、シーンチェンジ差異値が大きい方をＣＭと番組本編の境界と判定することを示す。

一方、終点のシーンチェンジ差異値より基点のシーンチェンジ差異値のほうが大きいと判断した場合は、ＣＭフィルタ１６は、基点位置から番組本編が開始された、すなわち、この基点と終点の間はすでに番組本編に入っていると判定する。このように、ＣＭ開始時又は本編開始時において６０秒又は９０秒などの長く、かつ、放送される頻度の少ないＣＭの場合、その区間の前後のどちらがより映像の変化量が大きいかによって番組本編とＣＭの境界を判断する。番組本編の冒頭や最後は、ひとまとまりのエピソードや１コーナーなど編集された単位になっている場合があり、その場合に、ＣＭと誤検出する可能性があるが、実施の形態４のＣＭ放送区間検出方法においては、より映像変化の大きいＣＭ境界を見つけることによって、正確にＣＭと番組本編の境界を検出することができる。

また、ステップＳ４３５においては、全変移点のシーンチェンジ差異値をチェックし、シーンチェンジの判定に用いた閾値より大きな、第２の閾値と比較し、ＣＭ放送区間の少なくとも一つの変移点のシーンチェンジ差異値が第２の閾値を越えていれば、ＣＭ放送区間として扱うステップＳ４１５に移り、反対に、超えていなければこのＣＭ放送区間を無効化する（ステップＳ４３６）。図３で説明すると、シーンチェンジ差異値の閾値が０．９であったとすると、変移点３３ｂ，３３ｃ，３３ｆ，３３ｇのうち変移点３３ｂ及び３３ｇのシーンチェンジ差異値が閾値０．９を超えているため、変移点３３ｂから変移点３３ｇまでの期間をＣＭ放送区間と判定する。

上記のように番組本編とＣＭとの境界のＣＭにおいてシーンチェンジ差異値を番組本編とＣＭの境界選択に利用することによって、番組本編とＣＭとの境界を判定することができ、番組本編の冒頭又は最後をＣＭとして誤検出する事態の発生頻度を低減させることができる。

また、検出したＣＭ放送区間内においてシーンチェンジ差異値の少なくとも一つが、ある閾値を超えない場合、ＣＭでないと判定することによって、ＣＭに比べて映像の変化量の少ない番組本編をＣＭであると誤検出する事態の発生頻度を低減させることができる。

なお、実施の形態４において、上記以外の点は、上記実施の形態１乃至３の場合と同じである。

実施の形態５．
実施の形態５においては、記録されたストリームの先頭に数秒のＣＭがあり、そのＣＭに続いて本編が記録されているような場合に、その数秒の断片化されたＣＭを検出する方法について示す。通常、映像音声記録装置１００は、記録を開始すると判断してから、実際の記録が開始されるまでに一定の時間が必要とされており、そのために予め設定されていた記録開始時刻から数秒遡って記録を開始するように構成されているものが多い。また、映像音声記録装置の内部に持っている時計は、常に正確な時刻を指し示している保障はない。そのため、例えば、放送番組がＰＭ９：００に開始予定であり、かつ、ＰＭ９：００ちょうどの本編が開始されたとしても、記録されたストリームの先頭に記録されてしまうことがあった。実施の形態５では、記録されたストリームの先頭に記録された断片化されたＣＭを抽出する方法を示す。

図１２を用いて実施の形態５を説明する。シーンチェンジと無音が同時に発生した点である変移点が、記録されているストリームから検出されたとする。その変移点が、図１２の強制ＣＭ化区間６１内の最終に発生した変移点６０ｃをＣＭと本編の境界と判断し、記録開始位置６２から６０ｃの間をＣＭとみなす。強制ＣＭ化区間は、映像音声記録装置の仕様によって決定され、例えば、記録予定時刻より５秒前から記録が開始されるのであれば、強制ＣＭ化区間は５秒とすればよい。また、映像音声記録装置の内部時計の誤差分、例えば、２秒を勘案し、７秒に設定してもよい。ここで、強制ＣＭ化区間の最終変移点６０ｃをＣＭと本編の境界として採用しているのは、強制ＣＭ化区間の時間幅が実際の記録開始時刻と記録予定時刻の差にほぼ等しいように設定していることと、ＣＭ内の変移点発生頻度は本編中の変移点発生頻度に比べて、かなり高いことによる。

以上より、予め設定された記録予定時刻ちょうどから記録を開始しないために、本編前の不要なＣＭから記録を開始するような映像音声記録装置であっても、本編より前の不要なＣＭを検出することができる。

また、映像音声記録装置の内部時計が正確な時刻を刻んでいなくても、本編より前の不要なＣＭを検出することができる。

また、実施の形態５では、強制ＣＭ化区間における最終変移点をＣＭと本編の境界として採用する方法を取ったが、強制ＣＭ化区間の代わりに、強制ＣＭ化時刻として記録開始時刻から、例えば、５秒経過した時刻を用い、その強制ＣＭ化時刻に最も近い変移点をＣＭと本編の境界として採用するよう構成してもよい。図１２では、６０ｄとＣＭを本編の境界として採用する方法である。

また、実施の形態１乃至５の各構成を選択的に組み合わせて、ＣＭ放送区間の検出を行うこともできる。

本発明の実施の形態１の映像音声記録装置の構成を概略的に示すブロック図である。実施の形態１の映像音声記録装置の変移点検出部の動作を示すフローチャートである。実施の形態１の映像音声記録装置の変移点スタックテーブルの一例を示す図である。（Ａ）乃至（Ｅ）は、実施の形態１の映像音声記録装置におけるＣＭ放送区間検出動作を説明するための図である。実施の形態１の映像音声記録装置のＣＭ放送区間検出動作を示すフローチャートである。（Ａ）乃至（Ｃ）は、本発明の実施の形態２の映像音声記録装置における変移点検出方法を示す図である。本発明の実施の形態３の映像音声記録装置におけるＣＭ間の無音時間長の測定結果を示すグラフである。実施の形態３の映像音声記録装置においてＣＭから番組本編に移行するときの無音時間長の測定結果を示すグラフである。実施の形態３の映像音声記録装置における、無音時間長を利用したＣＭ放送区間検出動作を示すフローチャートである。本発明の実施の形態４の映像音声記録装置における、シーンチェンジ差異値を利用したＣＭ放送区間検出動作を示すフローチャートである。実施の形態４の映像音声記録装置における、シーンチェンジ差異値を利用したＣＭ放送区間検出動作を説明するための図である。実施の形態５の映像音声記録装置における動作を説明するための図である。

符号の説明

１アンテナ、２チューナ、３ビデオＡ／Ｄ変換部、４オーディオＡ／Ｄ変換部、５ビデオエンコーダ、６オーディオエンコーダ、７マルチプレクサ（Ｍｕｘ）、８録画制御部、９ストリーム制御部、１０ファイルシステム部、１１ＨＤＤ、１２ナビゲーション部、１３シーンチェンジ検出部、１４無音検出部、１５変移点検出部、１６ＣＭフィルタ、１７ストリームバッファ、１８変移点スタックテーブル、１９変移点マッチングバッファ、３１ａ，…，３１ｍ無音区間、３２ａ，…，３２ｏシーンチェンジ、３３ａ，…，３３ｉ変移点、３４ａ，…，３４ｃ検出されたＣＭ、３５検出されたＣＭ放送区間、５１ａ番組本編からＣＭ放送区間に移行する時点における変移点、５１ｂ，…，５１ｅＣＭ間の変移点、５１ｆＣＭ放送区間から番組本編に移行する時点における変移点、１００映像音声記録装置。

本発明の映像音声記録装置は、入力された映像データ及び音声データを符号化して符号化ストリームを出力する符号化手段と、前記符号化手段から出力された符号化ストリームを一時的に保持するストリーム保持手段と、前記符号化手段から出力され、前記ストリーム保持手段に一時的に記録されている符号化ストリームを記録する記録手段と、前記ストリーム保持手段から符号化ストリームを読み出し、復号化を行うとともに、映像のシーンチェンジを検出する映像変化点検出手段と、前記音声データから無音区間を検出する無音検出手段と、前記映像変化点検出手段によって検出されたシーンチェンジ情報と前記無音検出手段によって検出された無音区間情報を一時的に保持する一時記憶手段と、前記一時記憶手段上でシーンチェンジと無音区間が同時に発生する変移点を検出する変移点検出手段と、前記変移点検出手段によって検出された変移点の間隔が予め設定された基準時間を中心とする所定の時間範囲内になる変移点の組み合わせが連続して２つ以上継続する区間をＣＭ放送区間と判定するＣＭ放送区間判定手段と、前記ＣＭ放送区間判定手段によって判定されたＣＭ放送区間の時刻情報を記録するＣＭ放送区間情報記録手段とを有することを特徴としている。

Claims

入力された映像データ及び音声データを符号化して符号化ストリームを出力する符号化手段と、
前記符号化手段から出力された符号化ストリームを記録する記録手段と、
前記符号化手段から出力された符号化ストリームを復号化し、該復号化されたデータから映像のシーンチェンジを検出する映像変化点検出手段と、
前記音声データから無音区間を検出する無音検出手段と、
前記映像変化点検出手段によって検出されたシーンチェンジと前記無音検出手段によって検出された無音区間が同時に発生する変移点を検出する変移点検出手段と、
前記変移点検出手段によって検出された変移点の間隔が予め設定された基準時間を中心とする所定の時間範囲内になる変移点の組み合わせが連続して２つ以上継続する区間をＣＭ放送区間と判定するＣＭ放送区間判定手段と、
前記ＣＭ放送区間判定手段によって判定されたＣＭ放送区間の時刻情報を記録するＣＭ放送区間情報記録手段と
を有することを特徴とする映像音声記録装置。
前記変移点検出手段が、
前記映像変化点検出手段によって検出されたシーンチェンジ情報と前記無音検出手段によって検出された無音区間情報を一時的に保持する一時記憶手段を有し、
前記一時記憶手段上でシーンチェンジと無音区間が同時に発生する時刻を検出する
ことを特徴とする請求項１に記載の映像音声記録装置。
前記変移点検出手段による変移点の検出動作及び前記ＣＭ放送区間判定手段によるＣＭ放送区間の判定動作は、前記無音検出手段によって無音区間が検出される毎に実行されることを特徴とする請求項１又は２のいずれかに記載の映像音声記録装置。
前記映像変化点検出手段によるシーンチェンジの検出動作は、複数フレームを１単位とする処理単位毎に実行され、
前記ＣＭ放送区間判定手段による前記ＣＭ放送区間の判定動作は、前記映像変化点検出手段によるシーンチェンジの検出動作と同じ処理単位毎に実行される
ことを特徴とする請求項１に記載の映像音声記録装置。
前記ＣＭ放送区間判定手段が用いる前記基準時間が、予め決められた数のＧＯＰに相当する時間であり、
前記ＣＭ放送区間判定手段が用いる前記基準時間を中心とする所定の時間範囲内が、前記予め決められた数のＧＯＰを中心にして±１ＧＯＰの範囲内である
ことを特徴とする請求項１乃至４のいずれかに記載の映像音声記録装置。
前記ＣＭ放送区間判定手段が用いる前記基準時間を中心とする所定の時間範囲内に、前記変移点が複数検出された場合には、
前記ＣＭ放送区間判定手段は、
前記ＣＭ放送区間判定手段により直前に判定された変移点間隔が前記基準時間よりも第１の値だけ長い場合には、次に前記ＣＭ放送区間判定手段により判定される変移点間隔を前記基準時間よりも第１の値だけ短くする変移点を、ＣＭ放送区間を規定するための変移点として優先的に選択し、
前記ＣＭ放送区間判定手段により直前に判定された変移点間隔が前記基準時間よりも第２の値だけ短い場合には、次に前記ＣＭ放送区間判定手段により判定される変移点間隔を前記基準時間よりも第２の値だけ長くする変移点を、ＣＭ放送区間を規定するための変移点として優先的に選択する
ことを特徴とする請求項１乃至５のいずれかに記載の映像音声記録装置。
前記ＣＭ放送区間判定手段が用いる前記基準時間を中心とする所定の時間範囲内に、前記変移点が複数検出された場合には、
前記ＣＭ放送区間判定手段は、前記ＣＭ放送区間判定手段によって判定されるＣＭ放送区間を、前記基準時間の整数倍に近づける度合いの大きい変移点を、ＣＭ放送区間を規定するための変移点と判定する
ことを特徴とする請求項１乃至５のいずれかに記載の映像音声記録装置。
前記無音検出手段は、音声データの無音部分の発生時刻と無音時間長を検出し、無音時間長が予め定められた第１の規定範囲内であれば、前記無音部分を、前記変移点を検出するために用いられる前記無音区間であると判定し、
前記ＣＭ放送区間判定手段は、検出された第３番目以降の変移点の無音時間長が予め定められた第１の規定範囲外であればＣＭ放送区間が終了したと判定する
ことを特徴とする請求項１乃至７のいずれかに記載の映像音声記録装置。
前記ＣＭ放送区間判定手段によって判定されたＣＭ放送区間の変移点の中に、無音時間長が第１の規定範囲内に有る変移点が存在しない場合、前記ＣＭ放送区間判定手段によって判定された前記ＣＭ放送区間を前記記録手段に記録しない
ことを特徴とする請求項８記載の映像音声記録装置。
前記映像変化点検出手段から出力される情報は、シーンチェンジ発生時間と、シーンチェンジにおける映像データの変化の度合いを示すシーンチェンジ差異値とを含み、
前記ＣＭ放送区間判定手段によって検出されたＣＭ放送区間の変移点の中に、シーンチェンジ差異値が予め設定されたシーンチェンジ基準値よりも大きい変移点が存在しない場合、前記ＣＭ放送区間判定手段によって判定された前記ＣＭ放送区間を前記記録手段に記録しない
ことを特徴とする請求項１乃至９のいずれかに記載の映像音声記録装置。
前記ＣＭ放送区間判定手段は、変移点間隔が６０秒又は９０秒であり、かつ、ＣＭと番組本編の境界にあたる場合、基点となる変移点のシーンチェンジ差異値と終点となる変移点のシーンチェンジ差異値の比較結果に基づいて、ＣＭ放送区間と番組本編と判定することを特徴とする請求項１０に記載の映像音声記録装置。
前記ＣＭ放送区間判定手段が、前記変移点検出手段によって検出された変移点のうち、ストリームが記録開始されてから規定時間内において、最後尾に発生した変移点までをＣＭ放送区間と判定することを特徴とする請求項１に記載の映像音声記録装置。