JP4935355B2

JP4935355B2 - 情報信号処理方法、情報信号処理装置及びコンピュータプログラム記録媒体

Info

Publication number: JP4935355B2
Application number: JP2006531663A
Authority: JP
Inventors: 昇村林; 裕成岡本; 勝宮本
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2004-08-10
Filing date: 2005-08-09
Publication date: 2012-05-23
Anticipated expiration: 2025-08-09
Also published as: EP1784012A4; WO2006016590A1; US20070286579A1; KR20120068050A; KR20070047776A; CN101053252B; EP1784012A1; CN101053252A; KR101385087B1; JPWO2006016590A1; US8634699B2

Description

本発明は、例えば放送番組における映像信号、音声信号などの画像音声データをＭＰＥＧ（Moving Picture Export Group）など所定の帯域圧縮処理を行い、光磁気ディスク、ハードディスク（ＨＤＤ：Hard Disk Drive）、半導体メモリなどの記録媒体に記録し再生する記録再生装置において、所定の要約再生（ダイジェスト再生）処理などの特殊再生動作を行う場合の情報信号処理方法、情報信号処理装置及びコンピュータプログラム記録媒体に関する。
本出願は、日本国において２００４年８月１０日に出願された日本特許出願番号２００４−２３３９４３を基礎として優先権を主張するものであり、この出願は参照することにより、本出願に援用される。

従来、ＶＴＲ（Video Tape Recorder）やディスク記録再生装置において、長時間記録した記録内容を時間を短縮して再生してその内容を把握する場合に、音声情報の理解速度を考慮しておおよそ１．５〜２倍速程度で再生処理が行われている。
さらに、時間短縮して再生しその要約再生（ダイジェスト再生）を行おうとすると、高速で再生した音声出力では音声の内容が理解できにくいため、無音とし画像出力のみの再生処理を行うようにしている。
そこで、記録する放送番組の画像音声データ（画像音声情報信号、画像音声信号、画像音声情報データ）に現れる特徴などに基づいて、所定の特徴データを抽出して、その所定の特徴データを用いてキーフレーム（重要フレーム）と思われるキーフレーム区間の検出を行い、あらかじめ決めた所定の規則に従って、所定のキーフレーム区間を順次選択して再生することで、元の記録した放送番組の記録時間よりも短い所定時間内で要約再生（ダイジェスト再生）を行うことがある。
また、記録した画像データの所定区間において、一定時間間隔、例えば３分、５分、１０分などの間隔毎に再生位置を示す位置情報データを自動で生成するか、又は、ユーザが手動で所望の位置に位置情報データを生成する、いわゆるチャプタデータ生成を行い、その位置情報データ（チャプタデータ）を利用して、スキップ再生、編集操作、サムネール画像表示を行う。

ところで、上述した特徴データは、画像信号と音声信号毎に複数種類の特徴について特徴データを抽出することができ、各々の特徴データを例えば、画像音声データの記録の際に抽出処理を行い、その画像音声データとともに特徴データを記録媒体に記録する。
これら記録された特徴データを読み出して所定のルール処理により要約再生（ダイジェスト再生）を行う区間を決定する信号処理を行うことになるが、複数存在する特徴データを各々別々にファイルとして記録媒体に記録したのでは、ファイルの数が多くなり、信号処理の際におけるファイルの取扱いが煩雑になり効率的ではない。
そこで、本発明の目的は、上述の如き従来の実情に鑑み、特徴データを用いる効果的な要約再生（ダイジェスト再生）動作又はチャプタ処理を行うために、特徴データを効率良く処理し、効果的な要約再生（ダイジェスト再生）、チャプタデータを用いる種々の動作を効率良く行うための情報信号処理方法、情報信号処理装置及びコンピュータプログラム記録媒体を提供することにある。
本発明に係る情報信号処理方法は、画像音声情報信号から音声信号の所定音声特徴を検出し、その検出された結果に基づいて上記音声信号を所定の音声セグメントに区切り処理できる場合に音声セグメント処理を行い、上記画像音声情報信号から画像信号の所定特性データを抽出し、その特性データに基づいて所定区間毎の特徴を示す画像特徴データを生成し、前記所定区間毎に上記画像信号を所定の画像セグメントに区切り処理できる場合には画像セグメント処理を行い、上記音声セグメント処理に基づく音声セグメントの時間長及び画像セグメント処理に基づく画像セグメントの時間長と所定のしきい値との所定比較処理の結果に基づいて、上記画像音声情報信号を所定長の再生ユニットに分割し、上記再生ユニットに基づいて、上記音声信号から抽出した音声特徴データと画像特徴データを所定の記録媒体に記録する。
また、本発明に係る情報信号処理方法は、画像音声情報信号から音声信号の音声特徴データを抽出し、その抽出された結果に基づいて上記音声信号を所定時間長の音声セグメントに区切り、上記画像音声情報信号から画像信号の特性データを抽出し、その特性データに基づいて所定区間毎の特徴を示す画像特徴データを生成し、前記所定区間毎に上記画像信号を所定時間長の画像セグメントに区切り、上記音声セグメントの時間長と上記画像セグメントの時間長とを第１の値の時間長と比較した結果、第１の値よりセグメントが短いデータの区切りにおいて、上記画像音声情報信号を、上記第１の値の時間長以下の第２の値の時間長を持つ再生ユニットに分割し、上記再生ユニットに基づいて、上記音声信号から抽出した音声特徴データと画像特徴データを所定の記録媒体に記録する。
また、本発明に係る情報信号処理装置は、画像音声情報信号から音声信号の音声特徴データを抽出し、その抽出された結果に基づいて上記音声信号を所定の音声セグメントに区切る音声信号処理部と、上記画像音声情報信号から画像信号の特性データを抽出し、その特性データに基づいて所定区間毎の特徴を示す画像特徴データを生成し、前記所定区間毎に上記画像信号を所定の画像セグメントに区切る画像信号処理部と、上記音声セグメントの時間長と上記画像セグメントの時間長とを第１の値の時間長と比較した結果、第１の値よりセグメントが短いデータの区切りにおいて、上記画像音声情報信号を、上記第１の値の時間長以下の第２の値の時間長を持つ再生ユニットに分割する制御部と、上記再生ユニットに基づいて、上記音声信号から抽出した音声特徴データと画像特徴データを所定の記録媒体に記録する記録処理部とを備える。
さらに、本発明にプログラム記録媒体は、コンピュータに、画像音声情報信号から音声信号の音声特徴データを抽出し、その抽出された結果に基づいて上記音声信号を所定時間長の音声セグメントに区切る手順と、上記画像音声情報信号から画像信号の特性データを抽出し、その特性データに基づいて所定区間毎の特徴を示す画像特徴データを生成し、前記所定区間毎に上記画像信号を所定時間長の画像セグメントに区切る手順と、上記音声セグメントの時間長と上記画像セグメントの時間長とを第１の値の時間長と比較した結果、第１の値よりセグメントが短いデータの区切りにおいて、上記画像音声情報信号を、上記第１の値の時間長以下の第２の値の時間長を持つ再生ユニットに分割する手順と、上記再生ユニットに基づいて、上記音声信号から抽出した音声特徴データと画像特徴データを所定の記録媒体に記録する手順とを実行させるための制御プログラムがコンピュータにより読取実行可能に記録されている。
本発明によれば、複数種類の異なる画像特徴データと音声特徴データを効率良く各々の特徴データファイル又は１つの特徴データファイルとしてまとめることができる。例えば、画像特徴として、カメラ特徴、テロップ特徴、シーン特徴、カラー特徴等、音声特徴として、無音特徴、音質特徴（例えば話し声か否か）などの複数ある特徴データを所定の書式により効率良くデータファイルとして処理することができ、画像音声データとともに所定の記録媒体に記録してファイル管理、信号処理の際のファイル処理なども効率的に行うことができる。
また、本発明によれば、特徴データ毎にファイルを設けないので、記録媒体において特徴データ毎にファイルを設ける場合に比べてそれだけファイルが占有する記録容量が少なくて済むことになる。
また、本発明により、ユーザがある機能が搭載されていない記録再生装置を購入した後でも、その機能が欲しいと思った場合に購入した装置そのものにその機能を容易に動作可能な状態とすることができる。
基本的な機能だけを装備した記録再生装置を初期段階で販売し、その後、色々な各ユーザの要望に応じて自分の欲しい機能を購入した装置そのものに容易に後から装備することができるので、ユーザは効率的にその装置を購入することができる。
本発明のさらに他の目的、本発明によって得られる具体的な利点は、以下において図面を参照して説明される実施に形態から一層明らかにされるであろう。

図１Ａ〜図１Ｇは、本発明を適用した記録再生装置における要約再生、チャプタ処理の動作を示す図である。図２は、チャプタ処理による表示の一例を示す図である。図３は、記録再生装置における処理プロセスの一例を示すブロック図である。図４は、記録再生装置における規則処理を示すブロック図である。図５Ａは、記録再生装置における意味付け処理と特徴データの関係の一例を示す図である。図５Ｂは、記録再生装置における意味付け処理と特徴データの関係の一例を示す図である。図６Ａ〜図６Ｃは、記録再生装置における規則ファイル書式の一例を示す図である。図７は、記録再生装置における評価値の演算処理方法の一例を示す図である。図８Ａ〜図８Ｉは、記録再生装置における時間補正関数の一例を示すグラフである。図９は、記録再生装置における時間補正関数の一般型の一例を示すグラフである。図１０は、記録再生装置におけるビデオデータの構造の一例を示す図である。図１１は、記録再生装置における再生ユニット間の接続関係の一例の図である。図１２Ａ、図１２Ｂは、記録再生装置における再生ユニット間の意味付け処理の一例を示す図である。図１３Ａ、図１３Ｂは、記録再生装置における規則２処理の一例を示す図である。図１４は、記録再生装置における時間補正関数の一例を示すグラフである。図１５Ａ、図５Ｂは、記録再生装置における規則ファイルの構成の一例の説明図である。図１６Ａ〜図１６Ｄは、記録再生装置における本発明の処理プロセスの一例を示す図である。図１７は、本発明を適用した記録再生装置の構成例を示すブロック回路図である。図１８は、記録再生装置における各種所定データ記録状態の一例を示す図である。図１９は、記録再生装置における表示の一例を示す図である。図２０は、本発明を適用した記録再生装置の他の構成例を示すブロック回路図である。図２１は、記録再生装置における音声系特徴抽出処理系の構成の一例を示すブロック回路図である。図２２は、記録再生装置における音声系特徴抽出処理系の構成の他の例を示すブロック回路図である。図２３は、記録再生装置における映像系特徴抽出処理系の構成の一例を示すブロック回路図である。図２４は、記録再生装置におけるシーンチェンジ処理を示す図である。図２５は、記録再生装置におけるテロップ、カラー特徴検出領域の一例を示す図である。図２６は、記録再生装置における類似画像特徴の一例を示す図である。図２７は、記録再生装置における人物特徴検出領域の一例を示す図である。図２８は、記録再生装置における人物検出処理の一例を示す図である。図２９は、記録再生装置における人物検出（人数判定）処理の一例を示す図である。図３０は、記録再生装置における人数検出処理の一例を示す図である。図３１は、記録再生装置における人数検出処理の一例を示す図である。図３２は、記録再生装置における人数検出処理の一例を示す図である。図３３は、記録再生装置における人数検出処理の一例を示す図である。図３４Ａ〜図３４Ｅは、記録再生装置における再生ユニット処理の一例を示す図である。図３５Ａ、図３５Ｂは、記録再生装置における再生ユニット処理の一例を示す図である。図３６は、記録再生装置におけるＣＭ（コマーシャル）検出処理の一例を示す図である。図３７は、記録再生装置における再生ユニット処理系の構成例を示すブロック図である。図３８は、記録再生装置における特徴データファイルの構成の一例を示す図である。図３９は、記録再生装置における特徴データファイルの構成の一例を示す図である。図４０は、記録再生装置における特徴データファイルの構成の一例の説明図である。図４１は、記録再生装置における再生ユニットデータの階層構造の一例を示す図である。図４２は、記録再生装置における再生ユニットデータの階層構造の一例を示す図である。図４３は、記録再生装置における再生ユニット映像特徴データの構成の一例を示す図である。図４４Ａ、図４４Ｂは、記録再生装置におけるプレイリスト（要約）データの一例を示す図である。図４５は、記録再生装置の動作の一例を示すフローチャートである。図４６は、記録再生装置における記録時間と選択可能要約再生時間の関係の一例を示す図である。図４７は、記録再生装置における記録時間と自動設定チャプタ数一例を示す図である。図４８は、記録再生装置の記録動作の一例を示すフローチャートである。図４９は、記録再生装置の再生動作の一例を示すフローチャートである。図５０は、記録再生装置の再生動作の他の例を示すフローチャートである。

以下、本発明の実施の形態について、図面を参照して以下の順序で詳細に説明する。なお、本発明は、以下の例に限定されるものではなく、本発明の要旨を逸脱しない範囲で、適宜変更可能であることは言うまでもない。
（１）本発明を適用したシステムの概要
１．１特徴データを用いた要約再生及びチャプタ点設定処理
ここでは、本発明の動作処理概要について説明する。
下記の動作概要に関係する信号処理については、ここでの項目の他に後の項目で詳細に説明する。
下記の説明でプレイリストデータ生成に関し、特別に記述する他に、特別に記述しない場合でもプレイリストデータ生成とチャプタデータを一緒に生成処理するものとしてもよい。
特徴データを用いた要約再生（ダイジェスト再生）及びチャプタ処理の説明図を図１Ａ〜図１Ｇに示す。
まず、特徴データを用いた要約再生動作について説明する。
（特徴データを用いた要約再生（ダイジェスト再生）処理）
ここで、図１Ａに示すような画像音声データ系列があると想定する。
この画像音声データ系列は、放送番組や映画ソフトその他などがあり、ハードディスク（ＨＤＤ）や光磁気ディスク、大容量半導体メモリなど所定の記録媒体を用いて、ＭＰＥＧ（Moving Picture Export Group）など所定の帯域圧縮信号処理を用いて記録及び再生処理を行うものとする。
画像音声データ系列において、所定の意味を設定し、シーンチェンジ、音声セグメントなどに応じて所定のビデオ構造（意味的ビデオ構造）に区切った所定区間の概念図を図１Ｂに示す。
この所定の意味の設定処理、所定区間の設定処理、ビデオ構造などについては後述する。
ここで、図１Ｃに示すように、意味毎に区切った各々の所定区間毎に、所定時間内に記録された全区間、所定プログラム区間など、所定の全区間（所定全区間）における各々の区間の所定の評価値を設定する。この評価値が設定された区間を、それぞれ所定評価値区間（評価データ区間）とする。
ここで、「所定時間内に記録された全区間」とは、番組の枠にとらわれず、ある所定時間分の画像音声データがあった場合に、その画像音声データの全区間を示す。
また、「所定プログラム区間」とはある１つの番組の画像音声データがあった場合に、その番組の枠の全区間を示す。
ここで、所定の評価値は所定全区間における所定キーフレーム区間（重要フレーム区間、重要（画像音声）区間）となる場合ほど、高い評価値（評価データ）を設定すると仮定する。
すなわち、評価値が高く設定された区間（重要評価値区間）を再生すれば、その区間にはキーフレーム区間が含まれるので、全区間を再生しなくても概要を把握することができることになる。
図１Ｃは、所定評価値区間の概要を示すもので、図１Ａに示す画像音声データ系列で、ｆ１〜ｆ２、ｆ４〜ｆ５、ｆ７〜ｆ８の各区間が評価値において設定したしきい値Ｔｈ以上の区間で、図１Ｄに示すようにＡ１、Ａ２、Ａ３の各区間を所定の要約再生モード時にスキップ再生することで所定の要約再生（ダイジェスト再生）行うことになる。
（特徴データを用いた自動チャプタ処理）
図１Ｅは、チャプタ点を設定する場合の概念図であり、先に説明したような、所定キーフレーム区間（重要フレーム区間）の先頭又はその近傍、及び、そのキーフレームの区間の最後に続く（最後に接続する）キーフレーム区間ではない区間の先頭又はその近傍にチャプタ点を設定する。
ここで、例えば、従来用いられているＤＶＤ(Digital Versatile Disc)記録再生装置で自動チャプタ機能と言われる所定区間の区切り点を設定することで、その時点を編集操作の目安にしたり、早送りフォワード再生（ＦＦ再生）、早送り逆再生（リワインド再生、ＲＥＷ再生）などの場合に利用することができる。
従来、上述した自動チャプタ機能として、例えば、５分等間隔、１０分等間隔、１５分等間隔などのように時間間隔を等間隔とした処理が知られており、このようなチャプタ処理では図１Ｇに示すように、キーフレームと思われる時点の開始点にはチャプタ点を設定できない場合がある。
また、従来、手動チャプタ処理という、ユーザ自身が、所望するに任意の時点にチャプタ点を設定できる機能が知られているが、この機能は、ユーザ自身が記録した、又は記録する番組（プログラム）を実際に見て設定処理を行うことになるので、ユーザにとっては面倒な操作であり、効率的ではない。
これに対し、本発明の特徴データを用いたチャプタ点設定処理（所定時点設定処理、所定位置設定処理）では、図１Ｅに示すように、適切にキーフレーム区間の先頭又はその近傍と、そのキーフレーム区間の最後に接続され、又は最後に続くキーフレーム区間ではない区間の先頭又はその近傍にチャプタ点を自動的に設定処理することができるので、従来のチャプタ処理よりも、より効果的なチャプタ点設定を行うことができる、このチャプタ処理を用いた効果的な編集操作（編集処理）や、ＦＦ再生、ＲＥＷ再生を行うことができる。
ここで、図１Ｆに示す自動設定したチャプタ点を所定の大きさのサムネール画像として所定の画像モニタに表示させる場合の概念図を図２に示す。
図１Ｆに示すように、ｆ１、ｆ４、ｆ７が各々、所定キーフレーム区間Ａ１、Ａ２、Ａ３の先頭又はその近傍で、ｆ３、ｆ６、ｆ９が各々Ａ１、Ａ２、Ａ３の区間の後のキーフレーム区間ではない区間Ｂ１、Ｂ２、Ｂ３の先頭又はその近傍であり、ユーザは図２に示すような表示画面を見ることで、例えば、記録再生装置の記録媒体であるハードディスクに記録された放送番組の編集操作において、図１Ｄに示すキーフレーム区間Ａ１、Ａ２、Ａ３を切り出し、ＤＶＤ(Digital Versatile Disc)などのディスク記録媒体に記録することなどの処理や、ｆ１、ｆ４、ｆ７の時点にスキップ再生するなどの操作を想定する。
図１Ｇに示す従来の所定時点設定点（チャプタ点、所定位置設定点）の一例を示すように、所定の一定間隔、例えば、５分間隔、１０分間隔などの一定間隔又は略一定間隔で設定点（チャプタ点）が設定処理されるが、図１Ｃ、図１Ｇから分かるように、必ずしもキーフレーム（重要フレーム）に設定されるとは限らない。
このように本発明における特徴データを用いて自動的に所定のチャプタ点（所定設定点、又は所定区切り点）又はセグメント処理を行うことで、より効果的な編集操作やスキップ再生を行うことができる。
１．２本発明の処理プロセスの一例
次に、本発明における処理プロセスの一例を図３に示す。
図３に示す処理プロセスでは、ＭＰＥＧ画像音声ストリームデータから、画像系及び音声系の各特徴データを抽出する特徴抽出処理（２）を含んでいる。
ここでは、簡単のためＭＰＥＧストリーム（１）（ＭＰＥＧデータ）は、所定記録媒体に記録する、又は、所定記録媒体に記録されているデータを想定しているが、例えば、所定の伝送系（有線系又は無線系）において伝送される画像音声データにおいても同様に本発明を適用することができる。
特徴抽出処理（２）は、記録処理と同時に行うことができるが、所定の記録媒体にすでに画像音声データが記録されている場合には、その記録媒体から再生して所定の特徴抽出処理を行うこともできる。
ここで、規則処理（ルール処理）について説明する。
この規則処理は、ルールが所定の様式で記述されたルールファイル、又はルールデータを用いて所定の処理が行われる。
ルールファイルは、例えば、番組ジャンルに応じた、特徴データに基づくルールが記述されており、このルールファイルと所定区間の各特徴データが記述されたＰＵ特徴データファイル（再生ユニット特徴データファイル）との演算により、所定プレイリストファイルが生成されることになる。
ここで、説明を分かりやすくするため、便宜上、所定番組ジャンルｎに対するルールファイルをＲｆ（ｎ）、ＰＵ特徴データファイルをＰｕ、プレイリストファイルをＤｆとし、所望の要約時間をｔとすると、以下の（１）式のような演算で表現できる。
Ｄｆ＝Ｐｕ（＊）Ｒｆ（ｎ）（＊）ｔ・・・（１）
ここで、（＊）は所定ファイルのデータを用いた所定の演算子と仮定する。
ルールファイルＲｆ（ｎ）は、以下で説明するように、例えば、所定の書式で記述され、所定の時間補正関数、意味、意味の重み付け係数（評価値、重要度）などの所定パラメータのデータなどにより構成されている。
（再生ユニット処理）
特徴抽出処理（２）の後は、本発明の特徴の１つであるＰＵ処理（３）（再生ユニット処理）を行う。
ＰＵ処理（３）において、各特徴データは、ＰＵ（再生ユニット）という区切り（４）で所定のデータ（ＰＵ特徴データファイル）として所定の記録媒体又はバッファメモリに記録（記憶）される。
（規則１処理）
ＰＵ特徴データファイルは、所定の規則１処理（５）によりＰＵの意味付け処理が行われる。後で説明するが、規則１処理（５）の概要は次の通りである。
（処理１）各特徴データの取り出し
（処理２）特徴データの組合せから第１ルールで表現されている意味の中で最も条件を満たすものを選択
（処理３）選択された意味をそのＰＵの意味として採用
この規則１処理（５）では、ＥＰＧ（電子番組ガイド）その他により、番組ジャンル、又は、過去にユーザが視聴した番組ジャンル、時間帯、再生回数、再生時刻、再生日時、その他などのパラメータ、サイド情報などが利用できる場合には、これらパラメータを考慮して所定の処理を行うようにしてもよい。
この処理に関連して行われる時間補正関数の処理については後述する。
（規則２処理）
意味付けされたＰＵ（６）は、所定の規則２処理（７）で所定の評価値処理が行われる。
規則２処理（７）では、次の（処理１）及び（処理２）の重要度についての評価値処理を行う。
（処理１）意味の重要度
（処理２）意味の出現パターンによる重要度
所定の評価値処理が行われたＰＵ（８）では、ＰＵ単体、又は、ＰＵが幾つ連結されたＰＵ群で所定の評価値が付けられている。
ここで、規則１処理（５）、規則２処理（７）では、図４に示すように、ルール切り替え処理系９００により、複数の番組ジャンルに応じたルール処理データとして、ジャンルＡ規則データ、ジャンルＢ規則データ、ジャンルＣ規則データ、・・・と幾つかの規則処理用データ（ルール処理データ）を備え、システムコントローラ系２０に入力した番組ジャンル情報データに応じて、規則１処理（５）、規則２処理（７）、又は、いずれか一方のルール処理を切り替える。
また、図４に示すように、個人別にルール処理用データを幾つ設けて切り替える。
この場合は、所定動作モードにおいて、システムコントローラに入力された所定のユーザによる設定処理により、個人１用規則処理データ、個人２用規則処理データ、個人３用規則処理データ、・・・のいずれかが、システムコントローラ系２０を介して選択処理され、その選択された規則処理データに基づいて所定のルール処理が行われる。
図４に示すような個人別の規則処理データを設けることで、例えば個人別に、通常再生又は特殊再生などの所定再生動作を行い、その再生状態、再生位置などの動作情報、動作位置情報などを所定の個人別規則処理に反映できるように所定メモリ手段に記憶して、それら情報データを所定の学習処理により、個人別規則処理データとして、随時、所定のタイミングでデータを更新処理するなどの動作を行うことにより個人別学習処理には有効な信号処理方法となる。
図４に示すように、ルール切り替え処理系９０１により各個人別ルール処理（規則処理）を切り替える場合も、規則１処理（５）、規則２処理（７）、又は、どちらか一方のルール処理を切り替える。
（規則処理の書式）
（規則１処理の場合）
ここで、意味付け処理されたＰＵは、例えば、ある放送番組を想定した場合に、以下のような英文字と意味を設定して、所定の画像音声特徴データと関連させて記述する。
文字に対する意味付けは、その放送番組においてキーフレーム（重要フレーム、重要シーン）と想定されるであろうシーン、又は要約再生、チャプタ設定などに有効と想定される所定の記録、再生区間を選択して記述する。
また、ユーザが所望するシーンを記述する。この場合は、所定の調整モードなどで、ユーザが所望するルールを記述できるようにする。
ここで、図５Ａ、図５Ｂの上段に示すように、ニュース番組、相撲番組の場合の一例について示すと次の表１のようになる。

表１：ニュース（報道）番組の場合の一例

ここで、図５Ａに示す例では、ａでアナウンサーのシーンを抜き出すルールを記述しているが、１つの規則処理では、すべての想定されるａのシーン（アナウンサーの出現シーン）を抽出することはできないと思われるため、幾つかの複数の規則に分けて記述するようにする。
図５Ａ中のｂ，ｃ，ｄ，ｅなど他の場合についても同様に複数の規則に分ける。
相撲番組の場合では、次の表２のようになる。

表２：相撲番組の場合の一例

図５Ｂに示す例においても、ａの取組み紹介シーンにおいて、すべての想定されるａのシーン、例えば、対戦に関連する力士、行司、審判員等の全員を抽出することができないものと想定されるので、幾つかの複数の規則に分けて記述するようにする。例えば、各文字に対して複数の規則を設定する。また、場合に応じて、抽出したいシーン（キーフレーム）の想定される規則を分けて記述を行う。
放送番組では、一義的に意味付けできないシーンも想定できる。例えば、定義文字を＠とし、次の表３のように設定することもできる。

表３

上述のように設定した定義文字（設定文字、意味文字）に対する規則１処理について、ニュース番組の場合を例に具体的に説明する。
図１８に示すように、各所定の特徴データが検出される場合に、上述したニュース番組の場合の定義文字ａ，ｂ，ｃ，ｄ，ｅに対する各シーンが対応すると仮定する。
ここで、図５Ａ、図５Ｂ中○の場合は論理積、△の場合は論理和の所定処理と仮定し、例えば、定義文字ａのアナウンサーのシーンでは、音声特徴の属性が話者音声、色特徴の検出領域２又は検出領域３で所定の色が検出され、類似画像情報の頻度１位又は２位が検出され、人物特徴の検出領域１又は検出領域２又は検出領域５で検出され、カメラ特徴は静止の場合と想定できる。
他のｂ，ｃ，ｄ，ｅなども図５Ａ、図５Ｂの各○、△印に応じて、上述のａの場合と同様に、各所定の特徴データと関係付けて、定義文字と特徴データとを関係付けることができる。
上述したように各定義文字と各特徴データは、所定の処理すなわち規則１処理、規則２処理を行うため、所定の書式に従って記述する。
図６Ａは、その一例で、ベクトル成分のように想定して記述するものである。
すなわち、図５Ａ、図５Ｂに示した各特徴データを、例えば、音声特徴の属性とし、属性が話者音声であるときはＡ１、属性が音楽であるときはＡ２、属性がその他の場合はＡ３とする。
映像特徴の色特徴で、領域１はＢ１、領域２はＢ２などとする。
以下、同様に、各特徴に対して、Ｂ１〜Ｂ４、Ｃ１〜Ｃ２、Ｄ１〜Ｄ５、Ｅ１〜Ｅ４、Ｆ１〜Ｆ４、Ｇ１などが設定できる。
図６Ａにおいて、例えば、定義文字ａの場合は、次の（２）式のように記述できる。
ａ＝１．０（Ａ１）１００＊（１．０（Ｂ２）１００＋１．０（Ｂ３）１００）＊（１．０（Ｃ１）１００＋１．０（Ｃ２）１００）＊（１．０（Ｄ１）１００＋１．０（Ｄ２）１００＋１．０（Ｄ５）１００）＊１．０（Ｆ１）１００
・・・・（２）
他の定義文字に対しても、図６Ａに示すように記述できる。
なお、ここで、「＊」は論理積（ＡＮＤ）、「＋」は論理和（ＯＲ）と同様の所定演算を表現するものとする。
ここで、例えば、１．０（Ａ１）１００の記述について説明する。
上述したように、（Ａ１）は、音声特徴で属性が話者音声の場合を表現している。
（重み付け係数）
１．０（Ａ１）１００の１．０は、（Ａ１）に対する重み付け係数で、ここでは、便宜上、０〜１．０の範囲を想定している。
重み付け係数は、所定演算を行うための、便宜的な係数なので、重み付け係数は、０〜１００、又は０〜１０の範囲で設定（記述）する。
（検出割合係数）
１．０（Ａ１）１００の１００は、（Ａ１）に対する検出割合係数で、その再生ユニット区間で、１００％検出される場合に、１．０（Ａ１）１００は、その条件を満たすものとする。
例えば、１．０（Ａ１）５０の場合は、その再生ユニット区間で、５０％検出される場合に、１．０（Ａ１）１００は、その条件を満たすものとする。
この検出割合については、下記の（３）式で説明する。
ここで、検出割合係数は、便宜上、０〜１００の範囲を想定している。
検出割合係数は、所定演算を行うための、便宜的な係数なので、０〜１の範囲で設定することや、０〜１０の範囲で設定（記述）する。
ここで、この検出割合係数は、その特性がその再生ユニット区間で検出できた割合とすることができる。
例えば、上述の１．０（Ａ１）１００では、話者音声が１００％検出しなければ、（Ａ１）の特性を検出したと判定しないとすることができる。
例えば、１．０（Ａ１）５０では、５０％検出したらその特性を検出したと判定する。すなわち、その所定区間において、所定の特性が検出された割合を係数で表現できる。
（特徴データの検出割合）
そこで、特性の検出の割合について説明する。
処理方法については、図３４〜図３５を参照して後述するが、本発明では、音声セグメント特徴とシーンチェンジ特徴に応じて設定処理される再生ユニット（又はプレイユニット）（ＰＵ）という所定の区間を設定する処理概念を導入している。
そこで、例えば、そのＰＵ区間全体に対する所定の特徴データが検出された割合で、上述した各所定の特性の割合を演算する。
例えば、図７において、ある再生ユニットの区間長（フレーム長、時間長など）をｆａとし、ある特徴データＰの検出区間をｆ０，ｆ１と仮定すると、この場合の特徴データＰの検出割合Ｆは、次の（３）式にて演算処理することができる。
Ｆ＝Σｆｉ／ｆａ
＝（ｆ０＋ｆ１）／ｆａ・・・（３）
この（３）式による演算値は、後で説明する評価値処理において用いることになる。
（評価値の演算方法の例）（例１）
評価値（重要度）の演算方法の一例を示す。
各特徴データについて、理想値と検出結果を以下のように処理する。
例えば、ｐ＝ｍ（Ｍ）ｎとして次の（処理１）〜（処理５）を行う。
（処理１）（３）式を用いて、各所定特徴データの検出割合ｓを演算する。
（処理２）上記検出割合係数ｎと比較して、
ｓ＜ｎの場合、ｐ＝ｍ×ｓ・・・（４）
ｓ≧ｎの場合、ｐ＝ｍ×１００・・・（５）
とする。
（処理３）上記処理で、各特徴Ｍにおいて、Ｍ１，Ｍ２・・・など同じ属性の特徴の場合で論理和（＋）処理の場合は平均処理を行う。
論理積（＊）処理の場合は、便宜上、論理積係数ｒというような処理概念を導入し、その平均処理の結果に掛けた値とする。
（処理４）上述の処理を各特徴データＭ毎に行い、各演算値の加算処理を行ってその処理結果をその評価値とする。
（処理５）演算した評価値を比較して評価値が最も大きい場合の意味をその再生ユニットａの意味とする。
上述の評価値処理は、処理方法の一例で、検出された特徴データ、又はその再生ユニット区間において検出された割合などと、設定した「意味」との対応が所定の妥当性を持った処理方法であれば、上記以外の処理方法でもよい。
例えば、上述の（処理３）の処理で論理積処理の場合は、平均化処理や論理積係数を掛けないで、同じ属性の特徴データを加算する処理だけにすることなどが想定される。
（処理３）の処理の場合で、同じ特徴データで論理積処理の場合は、検出条件が論理和処理の場合と比較して厳しくなるので、検出値を論理和処理の場合よりも大きくとるように処理を行うことができる。
ここで、上述の（２）式の場合について説明する。
例えば、各特徴の検出割合を以下の表４のようにし、検出割合係数、重み係数を一緒に示す。

表４

ここで、Ｂ２、Ｂ３や、Ｃ１、Ｃ２などのように同じ特徴の種類で、検出属性が異なる場合や、又は検出領域が異なる場合などで、論理和処理（＋）の場合は、便宜上、平均処理を求め、（２）式から、評価値ｈは、次の（６）式にて示される。
ｈ＝１００＋（８０＋８０）／２＋（１００＋１００）／２＋（８０＋８０＋８０）／３＋８０
＝１００＋８０＋１００＋８０＋８０
＝４４０・・・（６）
又は、特徴データの種類で平均化した値を評価値とすることができ、その場合は、特徴データは、Ａ〜Ｆの５種類なので、次の（７）式に示すような評価値とすることもできる。
ｈ＝４４０／５
＝８８・・・（７）
（属性が同じ特徴データ間の関係が論理積処理の場合）
ここで、（２）式の処理で、同じ属性の特徴データ、例えば、Ｂ２、Ｂ３が論理積処理の場合、すなわち、（１．０（Ｂ２）１００＊１．０（Ｂ３）１００）のような場合について検討する。
上述の評価値処理の（処理３）から論理積処理係数ｒという概念を導入し、ｒ（８０＋８０）／２のような処理を想定する。
例えば、ｒ＝１．５とすると、
ｈ＝１００＋１．５×（８０＋８０）／２＋（１００＋１００）／２＋（８０＋８０＋８０）／３＋８０
＝１００＋１２０＋１００＋８０＋８０
＝４８０・・・（８）
また、特徴データの種類５で平均化処理して
ｈ＝４８０／５
＝９６・・・（９）
という、評価値とすることができる。
これは、論理積処理の場合が論理和処理に比較して条件が厳しいので、検出した「意味」の評価値を大きく設定した方がよいとする場合である。
また、場合によっては、ｒ＝０．８として、
ｈ＝１００＋０．８×（８０＋８０）／２＋（１００＋１００）／２＋（８０＋８０＋８０）／３＋８０
＝１００＋６４＋１００＋８０＋８０
＝４２４・・・（１０）
また、特徴データの種類５で平均化処理して
ｈ＝４２４／５
＝８４．５・・・（１１）
という評価値とすることもできる。
これは、上述の場合とは逆に、論理積処理の場合が論理和処理に比較して条件が厳しいので、評価値を小さく設定した方がよいとする場合である。
（属性の異なる特徴データ間の関係が倫理和処理の場合）
ここで、例えば、（２）式で示したように、属性の異なる特徴データは、論理積演算子（＊）で表現しているが、論理和演算子（＋）の場合もある。
簡単のため、（２）式で第１項目Ａ１、第２項目Ｂ２だけを求め、
ａ＝１．０（Ａ１）１００＋１．０（Ｂ２）１００（１２）式
上述の評価値演算方法（３）で説明したような、便宜上、論理和係数ｗというような概念に基づいて処理を行う。
この場合、（１２）式から、評価値ｈは、
ｈ＝（１００＋８０）ｗ・・・（１３）
となる。ここで、
ｗ＝１
の場合は、論理積処理の場合で、
ａ＝１．０（Ａ１）１００＊１．０（Ｂ２）１００・・・（１４）
ｈ＝１００＋８０
＝１８０・・・（１５）
となる。
例えば、（８）式の論理和処理の場合には、
ｗ＝１．５・・・（１６）
として、
ｈ＝（１００＋８０）×１．５
＝２７０・・・（１７）
と、論理積処理の場合よりも高い評価値となるような処理を行う。
また、
ｗ＝０．８・・・（１８）
として、
ｈ＝（１００＋８０）×０．８
＝１４４・・・（１９）
のように、論理積処理よりも小さい評価値となるような処理を行う。
評価値処理は、設定した意味と各特徴データ、各種の係数などを結びつけた式の値の評価のために便宜上、導入した概念なので、上記評価式の各係数の範囲、値などは、上述の説明で述べた場合に限らず、小さく、又は大きく設定することもできる。
以下のような評価値の演算により、ルールファイルにより、ルールに記述された再生ユニットの各区間の評価値が決められ、例えば、要約再生モードの場合は、要約再生時間に応じて、評価値の大きいＰＵ区間が選択され、要約時間にできるだけ近くなるように、段々と評価値の小さいＰＵ区間を選択していく。
そして、選択した各ＰＵ区間を再生することで、所定の要約再生が実現できる。
（評価値処理の他の処理方法）
上記で述べた各特徴データｎの一項と、所定演算子＊とからｗ（Ｍ）＊ｋとし、各所定特徴データの検出割合ｄｅｔ重み係数ｗ、検出割合係数ｋとして、評価式の各項の特徴データｎの重み係数をｗ（ｎ）として、演算関数Ｐと演算子＊とする。
Ｐ（＊ｋ（ｎ），ｄｅｔ（ｎ））とし、
ｄ（ｎ）＝Ｐ（＊ｋ（ｎ），ｄｅｔ（ｎ））・・・（２０）
とする。
ここで、演算子＊以下のいずれかに該当するものとして、
ｄ（ｎ）は、
（１）＊＝（｜｜＞）の場合、すなわちＰ（（｜｜＞）ｋ（ｎ），ｄｅｔ（ｎ））で、
ｉｆ（ｋ（ｎ）≦ｄｅｔ（ｎ））ｔｈｅｎｄ（ｎ）＝０・・・（２１）
ｅｌｓｅｄ（ｎ）＝１００・・・（２２）
（２）＊＝（｜｜＜）の場合、すなわちＰ（（｜｜＜）ｋ（ｎ），ｄｅｔ（ｎ））で、
ｉｆ（ｋ（ｎ）＞ｄｅｔ（ｎ））ｔｈｅｎｄ（ｎ）＝０・・・（２３）
ｅｌｓｅｄ（ｎ）＝１００・・・（２４）
となる。
上記（１）、（２）のような処理の場合は、検出ｄｅｔ（ｎ）と設定検出割合ｋ（ｎ）に応じて、途中処理値ｄ（ｎ）を１００又は０に処理するので、下記の（３）又は（４）で説明する途中処理値が差分値になる場合に比較して、特徴データを顕著に特徴付けたい場合には有効である。
また、さらに、
（３）＊＝（｜＞）の場合、すなわちＰ（（｜＞）ｋ（ｎ），ｄｅｔ（ｎ））で、
ｉｆ（ｋ（ｎ）＜ｄｅｔ（ｎ））ｔｈｅｎｄ（ｎ）＝０・・・（２５）
ｅｌｓｅｄ（ｎ）＝｜ｋ（ｎ）−ｄｅｔ（ｎ）｜・・・（２６）
（４）＊＝（｜＜）の場合、すなわちＰ（（｜＜）ｋ（ｎ），ｄｅｔ（ｎ））で、
ｉｆ（ｋ（ｎ）＞ｄｅｔ（ｎ））ｔｈｅｎｄ（ｎ）＝０・・・（２７）
ｅｌｓｅｄ（ｎ）＝｜ｋ（ｎ）−ｄｅｔ（ｎ）｜・・・（２８）
であるから、評価値は次の（２９）式のようになる。

・・・（２９）
上述の演算子の導入により、例えば、Ａ１、Ｂ２の特徴データがあった場合に以下のように記述することができる。
ａ＝１．０（Ａ１）（｜｜＜）１００＋１．０（Ｂ２）（｜＜）１００
・・・（３０）
この場合、例えば、Ａ１特徴の検出割合（実際の検出値）を１００、Ｂ２特徴の検出割合（実際の検出値）を８０と仮定すると、上記（１）、（４）から、評価値ｈは、
ｈ＝（１．０×（１００−０）＋１．０（１００−８０））／（１．０＋１．０）＝（１００＋２０）／２
＝６０・・・（３１）
という評価値とすることができる。
上述のように、評価値処理の方法には、幾つかの方法があるが、ここで説明した方法に限らなくともよい。
ここで、図６Ａに示す規則１の記述においては、記述するデータの出現パターン（意味）の表現方法の一例で、意味として、ａ，ｂ，ｃ・・・などとしたが、その否定としてＡ，Ｂ，Ｃ，・・・、また、ワイルドカードとして、＊などを用いることができる。
（規則２処理の場合）
規則２処理では、上記規則１処理で意味付けされた所定区間である再生ユニット同士の意味の接続を考慮して処理を行うようにする。
また、時間補正関数を用いて時間的な補正、すなわち時間的な重み付け処理を行う。
例えば、上記規則１処理において、意味ａの評価値を７０、意味ｂの評価値を８０と仮定すると、（ａｂ）の評価値ｇは、
ｇ＝７０＋８０
＝１５０
又は、意味数の平均を求め、ここでは、ａｂの２つなので、
ｇ＝５１０／２
＝７５
又は、それぞれの評価値の積を求め、
ｇ＝７０×８０
＝５６００
例えば、便宜上、最大値を１００と仮定して最大値で正規化すると、
ｇ＝５６００／１００
＝５６
とすることができる。
時間補正関数の重み付けは、例えば、上述の（ａｂ）が、ある時点ｔで検出でき、その評価値がｇで、ｔでの時間補正係数（重み付け係数）をｗとすると、ｇｔを最終的な評価値とする。
時間補正関数は、ルールファイルにおいて規則２の所定記述場所に、所定記述規則に従って、その変化点（変化点座標系の情報データ）を記述する。
規則２処理の一例を図６Ｂに示す。
（時間補正関数）
まず、時間補正関数について説明する。
この時間補正関数は、ルールファイルにおける所定番組ジャンルにおける要約時間補正を行うために利用することができる。
これは、ユーザによっては、所定の放送番組によっては、放送時間の前半や後半を重点的に再生したいという場合も想定できる。
そこで、記録する番組のジャンル、放送時間、その他などの、その放送番組に応じた種々のパラメータを考慮して、要約再生（ダイジェスト再生）を行う所定の再生区間に対して時間（場合によっては時刻）の重み付けを行うようにすることができる。
すなわち、この重み付けを行う区間は、時間的にそれ以外の重み付けを行わない区間に比較して、要約再生（ダイジェスト再生）を行う場合の再生の重要度を大きく処理することになる。
図８Ａ〜図８Ｉは、上述した時間の重み付けを行うための時間補正関数の一例を示すものである。
図８Ａは、フラットな特性で、所定の要約再生区間に対して時間の重み付けを行わない場合である。
図８Ｂは、所定の区間内において、前半部の方を後半部に比較して、要約再生における重要度としての再生の重みを大きくする重み付けを行っている場合である。
図８Ｃは、所定の区間内において、後半部の方を前半部に比較して、要約再生における重要度としての再生の重みを大きくする重み付けを行っている場合である。
図８Ｄは、所定の区間内において、前半部と後半部を中間部に比較して、要約再生における重要度としての再生の重みを大きくする重み付けを行っている場合である。
図８Ｅは、所定の区間内において、中間部を前半部及び後半部に比較して、要約再生における重要度としての再生の重みを大きくする重み付けを行っている場合である。
図８Ｆは、図８Ｄに示す違った形の補正関数を２つ接続したようなもので前半部、前半と中央部の間、中央部、中央部と後半部の間、後半部にそれぞれ重みを付けて、さらに各重み付けを異なったものにしている。
図８Ｇは、図８Ｅに示す違った形の補正関数を２つ接続したようなもので前半部、前半と中央部の間、中央部、中央部と後半部の間、後半部にそれぞれ重みを付けて、さらに各重み付けを異なったものにしている。
図８Ｈは、図８Ｃ及び図８Ｄに示す組合せ関数で、図８Ｉは、図８Ｄと図８Ｂの組合せ関数を示している。
図９は、一般的な時間補正関数の様子を示したもので、開始点、変化点、終点の座標をそれぞれ、Ｐ０（ｔｓ，ｓ３），Ｐ１（ｔ１，ｓ３），・・・，Ｐｅ（ｔｅ，ｓ０）としている。
ここで、座標のｙ成分は、重み付けを表しているので、ここでは、便宜上最大値を１００最小値を０とし、０〜１００の間の値をとるものとし、ｘ座標は、位置情報で、後述する図４１〜図４３に示す「開始終了位置情報」のデータと同じディメンジョンの値、又は
開始終了点間の区間に基づく開始点からの割合で、０〜１００の間で設定して位置を示している。
（再生ユニットの意味と接続関係、判定処理）
上記で説明したが、所定の特徴抽出処理による特徴データからその再生ユニット（ＰＵ）における意味設定することができる。
ここで、図１０に示すようなビデオデータの構造について説明する。
ある１つのプログラム（番組）ｋを想定すると、幾つかのシーンｍ、ｍ＋１、・・・に分類することができ、シーンは幾つかのショットに分類することができる。
そして、セグメント（ショット）を構成するのは、一つ一つのフレームとなる。
シーンの切れ目（区切り）は、シーンチェンジになる。
セグメント（又はショット、又は画像セグメント。以下同様）は、シーン毎に、そのシーンに応じた類似画像のまとまり、又は、類似した画像（映像）特性のまとまりともすることができる。
セグメントやシーンなどは、そのプログラム（番組）の中において、固有な意味の概念を持っている。
そして、各々の意味を持ったセグメント、シーンは、幾つまとまってその番組を構成しているビデオ構造と捉えることができる。
例えば、野球の番組を想定した場合に、打者の画面が続いていたとすると、打者の類似画像が検出され、その類似特性セグメントに分類できる。そのセグメントは、「打者の画像」という意味（意味の概念）を有することになる。
また、投手の投球する画面が続いていたら、投手の類似画面が検出され、その類似特性に応じてセグメントに分類できる。そのセグメントは、「投手の画像」という意味（意味の概念）を持つことになる。
ここで、投手が投球して、打者が打撃し、その打者が走塁するような場合を想定した場合に、「投手の画像シーン」、「打者の画像シーン」、「打者の走塁の画像シーン」という、各々意味を持った画像シーンのつながりを捉えることができる。
所定プログラム（番組）において、上述したＰＵ毎に、画像特徴データ、音声特徴データが処理され、それら特徴データに応じてそのＰＵの意味を設定することを想定する。例えば、ニュース番組を想定した場合に、キャスター（アナウンサー）が最初にニュースの項目を読み上げるシーン（ニュース番組のヘッドライン）の場合に、そのシーン（画像）の特徴として、人物特徴が１人〜２人、テロップ（Ｔｌｐ特徴）、音声特徴の属性が話者音声、さらに、ニュース番組としたときに、そのニュース番組の中で、ニュースを読み上げるシーンは幾つ存在するので、そのニュース読み上げシーンと類似するシーンは幾つ存在することになり、類似画像特徴すなわち、特定のシーンＩＤは出現頻度が高くなる。
このように、規則１処理でも説明したように人物特徴、音声特徴、テロップ特徴、類似画像特徴、その他所定の特徴データに応じて、そのＰＵの意味を設定することができる。
例えば、上述した野球の番組の例のように、所定の意味を持つＰＵの接続関係が想定される。すなわち、所定の特徴データ又は特性データを持つＰＵ間の所定の接続とすることができる。
上述した所定の意味を持つ、すなわち所定の意味が設定されたＰＵの接続関係を図１１に示す。
図１１において、あるプログラム（番組）で所定の意味ａ〜意味ｄが設定されており、ある区間ＰＵ（ｎ）〜ＰＵ（ｎ＋２）で、接続関係は、ＰＵ（ｎ）の意味ａ、ＰＵ（ｎ＋１）の意味ｂ、ＰＵ（ｎ＋２）の意味ｃが最も自然なつながりとなることを示している。
すなわち、この図１１に示した例は相撲の場合を想定しており、意味ａ「取組み紹介シーン」の後は意味ｂ「立会いシーン」が続くことが一番妥当性であり合理的であり、意味ｂ「立会いシーン」の後は意味ｃ「取組みシーン」が続くことが一番妥当性であり合理的である。
そして、接続関係として、ａｂｃという意味を定義した文字系列とすることができ、このａｂｃの系列がキーフレームとすれば、あるプログラム（番組）の中でａｂｃを探して、探した所定区間の最初と最後、又は、その近傍などを所定設定点として設定処理を行うことができる。
他の例として、例えば、番組ジャンルが野球の場合は、ある区間で再生ユニットが、各々、「投球」、「打った」、「意味なし」、「得点」という場合に、「意味なし」を除いて、３つの意味、「投球」、「打った」、「得点」を持つと判定されたＰＵを１つにまとめて、「投球、打った、得点」という所定ＰＵのかたまりを想定することができる。
ここで、「意味なし」のＰＵは、意味がないと判定されたことにより含めても問題なく、上記４つのＰＵを１つにまとめて「投球、打った、意味なし、得点」という所定ＰＵのまとまりとすることができる。
ここで、「意味なし」を例に挙げたのは、上述の規則１の処理で所定の特徴データから所定の評価処理で、設定した幾つかの意味の中から、所定の意味付け処理を行う、すなわち、複数の意味から所定の信号処理に基づいて確からしい意味付けが行えない場合も想定できるからである。
「意味なし」の代わりに、「どのような意味でもよい」とすることができる。これは、上記した＠と同様の処理である。
あるニュース番組の場合で、ａａｂｂという接続、すなわち、「アナウンサーシーン」、「アナウンサーシーン」、「現場シーン」、「現場シーン」という接続が、妥当で合理的である場合を図１２Ａに示す。
先に説明した相撲番組の場合を図１２Ｂに示す。
図１３Ａ、図１３Ｂは、上述の番組ジャンルがニュース番組の場合で、図１３Ａに示すように、参照パターン（参照文字系列）を上記で説明した「ａａｂｂ」として、図１３Ｂに示すように、例に挙げる所定の番組記録区間の中で「ａａｂｂ」の区間を探していき、区間Ａ１、区間Ａ２が「ａａｂｂ」に一致して、検索できたことを示している。
そして、図１３Ｂに示すように、例えば、探すことができた「ａａｂｂ」区間の最初の位置ｐ１、ｐ３、最後の位置ｐ２、ｐ４を所定設定位置として設定し、後で説明するプレイリストのチャプタデータ（位置情報データ）として所定の処理を行う。例えば、要約再生モードの場合には、上記設定位置ｐ１〜ｐ２、ｐ３〜ｐ４を再生するように再生制御処理を行う。
チャプタ設定など、所定時点設定（所定位置設定）処理の場合には、ｐ１、ｐ２、ｐ３、ｐ４の各時点、又は、それら各点の所定の近傍の位置をその設定位置として所定の処理を行う。
このように、所定の特徴データから所定のＰＵの意味を持つと判定し、その所定の意味を持つとそのＰＵに設定し、それら意味が判定して設定されたＰＵから意味の接続関係を想定して、所定の意味に応じた所定数のＰＵの接続や所定数のＰＵの集合を想定して処理を行うことができる。
図６Ｂに示した規則２処理の記述方法の一例では、キーフレーム（重要フレーム）と想定し、検索したい文字系列を（ａａｂｂ）のようにし、その後に、重み付け係数として１００を設定している。その後のＰｓ（ｔｓ，ｓ４），Ｐ１（ｔ１，ｓ４），Ｐｅ（ｔｅ，ｓ３）は、先に説明した時間補正関数であって、この例の場合は、図１４に示すように、番組の後半部で徐々に重要度が減少するような関数となっている。この図１４に示すような時間補正関数の場合には、番組の前半部を重点的に視聴したいような場合に適している。
ここで、図６Ｂに示した規則２処理の記述においては、記述するデータの出現パターン（意味）の表現方法の一例で、意味として、ａ，ｂ，ｃ・・・などとしたが、その否定としてＡ，Ｂ，Ｃ，・・・、また、ワイルドカードとして、＊などを用いることもできる。この図６Ｂに示した規則２処理の記述において、ニュース番組のジャンルの場合の一として、例えば、（Ａｂｂ）とした場合、には、Ａは、「アナウンサーのシーン」以外、ｂは、「現場のシーン」ということになり、「アナウンサーのシーン」以外に「現場のシーン」が２つ続く場合を検出することになる。
ここで、評価値の演算方法の一例として、以下のような処理である。例えば、再生ユニット群を（ａｂｃ）として、上記（１）式により、ａ、ｂ、ｃの各検出割合（ｖａｌｕｅ）と重み付け係数が以下の表５に示すような場合がある。

表５

評価値＝１００×（１００＋６４＋６４）／（重みの総和）
＝１００×２２８／（１００＋８０＋８０）
＝１００×２２８／２６０
＝８８

ここで、１００を掛けたのは、便宜上、割合（％）を考慮したためであるが、上述したように、評価値のスケールは、所定の評価処理が行えて、かつ所定の演算処理上問題なければよいので、オーバフローなど処理上問題なければ、割合を考慮しなくてもよい。
（規則２処理における再生ユニット群の他の例）
ここで、規則処理２における、ある「意味」の再生ユニットが複数接続した再生ユニット群を１つの意味群ユニットとし、意味群ユニットが複数接続する場合を説明する。
上記規則１処理では、１つの再生ユニットのみの例を挙げて説明した。それは、特徴データから、検出する「意味」に最も確からしいであろう再生ユニットを見つけるためであった。
これをさらに発展させて、再生ユニット群、すなわち、この規則２処理で行った意味のつながりの再生ユニットを１つのかたまりとして、そのかたまり同士を接続した区間を検出するようにすることができる。
例えば、上記（ａａｂｂ）をＧａ１とし、（Ｇａ１Ｇａ１）のような接続とすることができる。この場合に、Ｇａ１の評価値について規則１と類似した処理を行う。この場合の評価値の演算方法として、例えば、各意味の再生ユニットの評価値の和の平均や、各意味の再生ユニットの評価値の積の平均などを求めることができる。
例えば、ａの評価値を８０、ｂの評価値を６０とした場合に、Ｇａ１の評価値は、加算の場合は、
（８０＋８０＋６０＋６０）／４＝７０
で、７０を評価値とすることができる。
規則３処理の場合通常は、図１５Ａに示すように、規則２処理まででよいが、複数の番組対して特徴データを設けた場合に、例えば、番組毎に時間的重み付け処理を行う場合には、さらに規則処理として、図１５の（Ｂ）に示すように、規則３処理を設ける。
その一例として、ニュース番組（ｎｅｗｓ）とスポーツ番組（ｓｐｏｒｔｓ）に対して重み付けと、時間補正を行う場合の例を図６Ｃに示す。
図６Ｃに示す例では、ニュース番組は、１００％の重み付けを行い、時間補正関数として開始点Ｐｓ（ｔｓ，ｓ４）、変化点Ｐ１（ｔ１，ｓ４）、終点Ｐｅ（ｔｅ，ｓ３）とする補正を行い、スポーツ番組に対しては、７０％の重み付けを行い、時間補正関数として開始点Ｐｓ（ｔｓ，ｓ４）、変化点Ｐ１（ｔ１，ｓ４）、終点Ｐｅ（ｔｅ，ｓ３）とする補正を行う。
図３で説明した処理内容を図１６を参照してさらに説明する。
図１６Ａに示すような、規則１処理により、各種所定の特徴データに基づいて、各シーンは幾つかの意味付け処理が行われる。
ここで、規則２によって意味付けされた各シーンには、図１６Ｂに示すように評価値が所定の処理により設定される。
例えば、要約再生モードの場合では、ユーザの所望する時間ｔ１で再生する場合に、上記評価値の一番高いシーン（画像）から選択していき、できるだけｔ１に近くなるように評価値の高いシーンから選択して、その選択した区間を再生するように、その位置情報を設定する。
設定した位置情報は所定のデータメモリに記憶し、再生制御を行う際に、位置情報を読み出して、所定区間の再生を行っていく。
そして、各区間を順次再生する（スキップ再生）することで、所定の要約再生（ダイジェスト再生）を行う。
図１６Ｃに示す例では、全記録時間を例えば６０分とし、要約再生を１５分で行いたいと仮定して、評価値が７０以上のＰＵを選択して、１５分にやや満たない場合に、評価値６０のＰＵｎ＋８の区間を選択して、所望の再生時間１５分にできるだけ近くなるように処理を行っている。
このように評価値の大きい所定ＰＵ区間を選択していき、所定の再生時間にできるだけ近くなるように、ＰＵ区間を選択していく。
所望の再生時間Ｔｍに対して所定の許容範囲ｔｃ内に再生時間Ｔがあるように、
Ｔｍ−ｔｃ＜Ｔ＜Ｔｍ＋ｔｃ
となるように、評価値に基づいて所定のＰＵ区間を選択する。
また、図１６Ｄに示すように、例えば、意味付けされた評価値の高い区間の最初（又はその近傍）、評価値の高い区間の最後（又はその近傍）に所定位置（チャプタ）を設定することで、その区間の編集処理をしたり、スキップ再生の一時停止処理、繰り返し再生処理など、所定の操作を行うことに利用できる。
（２）ブロック構成例
ここでは、簡単のため、記録する画像音声データは、放送番組のデータとし、ＭＰＥＧ（Moving Picture Export Group）による所定の帯域圧縮処理が行われるものとする。なお、その他の帯域圧縮信号処理としてウェーブレット変換、フラクタル解析信号処理その他などを用いるようにしてもよい。例えば、下記の説明で画像データのＤＣＴ係数は、ウェーブレット変換の場合には多重解像度解析におけるか解析係数などに相当し同様の信号処理を行うことができる。
２．１ブロック構成例１
本発明を適用した記録再生装置３０の全体ブロック構成例を図１７に示す。
ここでは、簡単のためテレビ放送を受信して、受信した放送番組を記録する例を挙げて説明する。
２．１．１記録信号処理系
この記録再生装置３０では、受信アンテナ系１と受信系２により所定の放送番組が受信され、音声信号は音声Ａ／Ｄ変換処理系３で所定のサンプリング周波数、所定の量子化ビット数で所定のＡ／Ｄ変換信号処理が行われ、その後音声エンコーダ処理系４に入力される。
音声エンコーダ処理系４では、例えばＭＰＥＧオーディオやＡＣ３オーディオ（ドルビーＡＣ３、又はAudio Code number 3）などの所定の帯域圧縮方式で信号処理が行われる。
同様に、映像信号は映像Ａ／Ｄ変換処理系８で所定のサンプリング周波数、所定の量子化ビット数で所定のＡ／Ｄ変換信号処理が行われ、その後、画像エンコーダ処理系９に入力される。
画像エンコーダ処理系９は、ＭＰＥＧビデオやウェーブレット変換などの所定の帯域圧縮方式で信号処理が行われる。
音声エンコーダ処理系４及び画像エンコーダ処理系９で処理された音声データ及び画像データは、多重化処理系５を介して記録処理系６に入力される。
音声信号の特徴抽出を行うため、音声エンコーダ処理系４に入力する信号の一部又は上記所定エンコーダ信号処理における信号処理過程の途中の信号の一部は特徴抽出処理系１０に入力される。
図１７に示す記録再生装置３０では、音声エンコーダ処理系４に入力される信号の一部として、音声エンコーダ処理系４から特徴抽出処理系１０に信号が入力されているが、音声エンコーダ処理系４に入力されるとともに特徴抽出処理系１０に入力するようにしてもよい。
同様に映像（画像）信号の特徴抽出を行うため、映像エンコーダ処理系９に入力される信号の一部又は上記所定エンコーダ信号処理における信号処理過程の途中の信号の一部が特徴抽出処理系１０に入力される。
この図１７に示した記録再生装置３０では、映像エンコーダ処理系９に入力される信号の一部として、映像エンコーダ処理系９から特徴抽出処理系１０に信号が入力されているが、映像エンコーダ処理系９に入力される共に特徴抽出処理系１０に入力されるようにしてもよい。
記録モードにおいて所定区間毎に逐次特徴データは検出され、所定のエンコーダ処理がなされた画像音声データとともに所定の記録媒体７の所定の記録領域に記録される。
上記特徴データから所定の要約再生（ダイジェスト再生）を行うためのプレイリストデータの生成を行うプレイリスト処理（９）又はチャプタデータの生成を行うダイジェスト再生チャプタ処理（１１）をプレイリスト・チャプタ生成系１９で所定の信号処理を行う。
ここで、プレイリストデータ、チャプタデータの生成は、以下のような信号処理プロセス（処理ａ又は処理ｂ）で行うことができる。
（処理ａ）特徴データを所定メモリ系又はシステムコントローラ系の所定メモリ領域に所定データ量蓄積した後、所定のプレイリストデータの生成処理、所定のチャプタデータの生成処理を行う。
（処理ｂ）画像音声データを記録する記録媒体７に所定の特徴抽出処理を行う毎に逐次特徴データを記録し、所定データ量記録した後、そのデータを再生して、所定プレイリストデータ、所定チャプタデータの生成を行う。
（処理ａ）の場合、例えば、所定時間長ｔの放送番組を記録すると、その時間長ｔの記録が終了したら、その放送番組におけるすべての所定特徴データが集積されるので、この時点で、時間長ｔの中で所定の要約再生時間ｔｄに対応するキーフレームがどこになるかを決めるプレイリストデータ生成処理を行うことができる。すなわち、この時間長ｔに処理される特徴データをメモリ系、又はシステムコントローラ系の所定メモリ領域に蓄積（記憶又は記録）しておくことになる。
（処理ｂ）の場合は、上記（処理ａ）の場合と同様で所定時間長ｔ記録した後、所定時間ｔ記録終了したことを検出（検知）して、所定の特徴データを再生して所定要約再生時間ｔｄに応じたプレイリストデータ生成処理を開始することになる。
プレイリストデータ生成処理が終了したら、所定の要約再生の動作を行う準備ができたことになり、このプレイリストデータを用いて所定の要約再生（ダイジェスト再生）を行うことができる。
上記所定の特徴データは、プレイリストデータがすでに生成されているので、もうプレイリストデータを生成しないとういう場合には消去するように信号処理を行うことがあるが、プレイリストデータを修正するなど、データの生成を再度行う場合には、特徴データはそのまま記録して残してもよい。
上記特徴データは、システムコントローラ系２０を介して、所定区間の特徴データの蓄積の後、プレイリスト・チャプタ生成処理系１９で所定の要約再生（ダイジェスト再生）用プレイリストデータを生成する。
上記生成されたプレイリストデータは、記録処理系６において所定の記録処理がなされた後、記録媒体７の所定の記録領域に記録される。
ここで、プレイリストデータは、所定の記録された区間をスキップ再生するための、所定再生区間毎の再生開始点情報と再生終了点情報の対となるデータから構成され、例えば、所定区間毎の再生開始フレーム番号と再生終了フレーム番号のデータ対などからなる。
プレイリストデータは、その記録したプログラムにおける、所定の必要な区間をスキップ再生することで要約再生（ダイジェスト再生）を行う処理のために使用するので、上記のようにフレームデータの他に、タイムコードデータやＭＰＥＧにおけるＰＴＳ（Presentation Time Stamp）、ＤＴＳ（Decode Time Stamp）などのタイムスタンプデータでもよい。
プレイリストデータは、上記のように放送番組のような画像音声情報データを記録する記録モード時で所定プログラム記録終了後に所定の生成処理を行う他に、後で説明する再生モードにおいて、特徴データを用いて所定の処理を行うようにしてもよい。
図１７において、例えば、すでにＭＰＥＧなど所定のエンコード処理がなされた画像、音声データを記録する場合には、音声エンコーダ処理系４、画像エンコード処理系９でエンコード処理を行う必要はなく、直接、多重化処理系５に入力し、記録処理系６で記録処理を行い記録媒体に記録することができる。
ここで、直接デジタル画像、音声データが入力して記録されるか、受信系２によりアナログ信号が入力し所定のエンコード処理の後に記録されるかは、システムコントローラ系２０で検出することができ、このように入力系統違いに応じて、上記所定の画像、音声特徴データ抽出処理を記録モードのときに自動的に行うか、記録終了後に行うかを決めるようにする、又はデジタル画像、音声データが入力する場合には、所定のエンコード処理系をデータが通らないことから所定のデータ構造解析処理を行う必要がないので、記録終了後に行うようにすることができる。
記録モードにおいて、上記アナログ入力系かデジタル入力系は、ユーザ入力Ｉ／Ｆ系２１を介してユーザの所定操作によって設定することもできる。
また、図１７で、音声エンコーダ処理系４又は音声Ａ／Ｄ変換処理系３、映像エンコーダ処理系９又は画像Ａ／Ｄ変換処理系８からの信号と、所定エンコード処理されたデジタル画像、音声データを直接システムコントローラ系２０で検出することで自動的に検出することもできる。
所定エンコードされたデジタルデータが検出され、音声エンコーダ系４又は音声Ａ／Ｄ変換処理系３、映像エンコーダ処理系９又は画像Ａ／Ｄ変換処理系８でデータが検出されない場合は、所定エンコード処理されたデジタル画像、音声データが入力していると判定できる。
所定のエンコードされたデジタルデータが検出さないで、音声エンコーダ系４又は音声Ａ／Ｄ変換処理系３、映像エンコーダ処理系９又は画像Ａ／Ｄ変換処理系８からのデータがシステムコントローラ系２０で検出される場合は、アナログ入力と判定できる。
アナログ入力とエンコード処理されたデジタルデータが両方検出される場合は、例えば、受信系２からのアナログ入力信号を初期設定（デフォルト設定）として所定の記録処理を行うようにしてもよい。
上述の特徴抽出処理は、例えば画像のＤＣＴデータなどを用いるので、所定のエンコード処理がなされる場合には、通常の記録処理のために行うＤＣＴ処理を特徴抽出処理として兼用することができる。音声の場合には、所定エンコード処理におけるサブバンド処理データを用いることを考えると、所定のエンコード処理がなされる場合には、通常の記録処理のために行うサブバンド処理を特徴抽出処理として兼用することができる。
上述のように、エンコード処理されたデジタルデータが直接入力する場合は、エンコード処理を行う必要がないので、このデータを解析してＤＣＴなどデータを取り出すことが必要になり、処理の負荷が生じることになる。
そこで、必要に応じて記録終了後に特徴抽出処理を行うようにする。その他、記録終了後に、特徴抽出処理を行う場合として、上記アナログ入力の場合でも、信号処理系の負荷の具合に応じて、所定の記録が終了したら自動的に行うようにしてもよい。
例えば、図２０に示すように、特徴抽出処理はソフトウェア処理で行うこともできるので、システムコントローラ系の性能によっては記録モードの各所定信号処理と同時に行うことができないので、所定の記録処理が終了してから行うようにする。また、システムコントローラ系２０はＣＰＵ、ＤＳＰ（デジタルシグナルプロセッサ）、その他各種プロセッサなどで構成することができるが、性能が高いほど高価なので上述のように処理能力に応じて、特徴抽出処理を記録処理と同時に行うか、終了後に行うかを決めるようにしてもよい。
上述の特徴抽出処理を行う所定記録モード終了後としては、例えば、所定のタイマ記録動作終了後や、通常、ユーザがその装置を動作させていないと想定できる夜中に、所定の特徴抽出処理を行うことがある。このような場合に、例えば、装置が動作している時刻をシステムコントローラ系２０内の所定メモリ手段により記憶して、所定の学習処理により、適宜、特徴抽出処理する時刻を自動設定したりすればよい。
また、記録再生など通常の動作させていない時間がシステムコントローラ系２０で検出される場合には、その動作させていない間に上記所定の特徴抽出処理を行うことができる。その場合に所定のデータすべてが処理されない場合も想定されるが、処理途中の場所をシステムコントローラ系２０内の所定メモリ手段に記憶しておき、装置が記録再生など通常動作していないことを検出して、処理できる時間があると判定されたら、途中の続きから所定の信号処理を行うようにすればよい。
２．１．２再生側処理
（通常再生モード動作）
次に、図１７に示した記録再生装置３０における再生信号処理について説明する。
まず、通常再生モードの動作について説明する。
入力Ｉ／Ｆ系２１により、通常再生モードになると、記録媒体７から所定の画像音声データ、特徴データなどが記録されている所定のデータが再生され再生処理系１２において所定の再生処理が行われる。
再生された所定のデータは、再生データ分離処理系１３において所定のデータに分離処理され、音声データは音声デコード処理系１４に入力され、記録時に帯域圧縮信号処理された信号処理方式に対応する所定のデコード処理がなされ、その後、音声Ｄ／Ａ処理系１５に入力されてＤ／Ａ変換処理された後、音声信号として出力される。
また、所定の分類処理された画像（映像）データは、映像デコード処理系１６において記録時に帯域圧縮信号処理された信号処理方式に対応する所定のデコード処理がなされた後、映像Ｄ／Ａ処理系１７に入力されてＤ／Ａ変換処理が行われ、映像信号として出力される。
（要約再生（ダイジェスト再生）モード）
要約再生モードを考える場合に、画像音声データとともに特徴データ、プレイリストデータが記録媒体に記録されているかどうかで信号処理方法が異なる。
特徴データとプレイリストデータが記録媒体に記録されているか否かは図１８のように整理することができる。
まず、図１８Ａ、図１８Ｂの場合に相当するプレイリストデータ（プレイリストデータファイル）、チャプタデータが再生できる場合、すなわち、プレイリストデータ、チャプタデータが所定の記録媒体（データ記録媒体）に記録されており、要約再生モード時に再生、又は、チャプタ表示モード時に所定チャプタ画像がサムネール表示できる場合について説明する。
すなわち、ユーザが要約再生モード又は所定チャプタモードを選択した場合について説明する。
ユーザの入力操作によりユーザ入力Ｉ／Ｆ系２１を介して、システムコントローラ系２０に所定の要約再生（ダイジェスト再生）モードの動作を行うコマンドが入力された場合に、再生データ分離処理系１３で所定データ分離し特徴データ、また、パラメータデータやプレイリストデータ、チャプタデータなどが記録されている場合には、それぞれ分離された所定の特徴データ、所定のパラメータデータ、所定のプレイリストデータ、チャプタデータなどがシステムコントローラ系２０に入力される。
再生データ分離処理系１３で特徴データ、パラメータデータ、プレイリストデータ、チャプタデータが分離できない場合には、上記のそれぞれのデータはシステムコントローラ系２０に入力されないので、再生データ分離処理系１３とシステムコントローラ系２０とにより特徴データ、プレイリストデータ、所定チャプタデータ、パラメータデータなどが所定記録媒体７に記録されているか否かの判定処理を行う。
プレイリストデータは、所定の要約再生を行うために、所定の幾つかの再生区間の再生開始情報データと再生終了情報データから構成されている。
チャプタデータは所定特徴区間の先頭又はその近傍、又はその所定特徴区間の最後又はその近傍、その特徴区間に接続された特徴区間以外の区間の先頭又はその近傍、又はその特徴区間以外の区間の最後又はその近傍の位置情報から構成される。
システムコントローラ系２０では、再生検出されたプレイリストデータのスキップ再生開始データ情報、スキップ再生終了データ情報に応じてスキップ再生を行うことで要約再生（ダイジェスト再生）を行う。
また、所定チャプタデータによりチャプタ点又はその近傍における画像を所定サムネール画像として所定表示処理を表示処理系２７で行い、所定の画像表示を行う。
次に、図１８Ｃ、図１８Ｄに示す場合に相当するプレイリストデータ（プレイリストデータファイル）、チャプタデータが再生できない場合、すなわち、プレイリストデータ、チャプタデータが記録媒体又は記憶媒体に記録（記憶）されておらず、要約再生モード時に再生できない場合、所定チャプタモード時にサムネール時点を所定サムネール表示、チャプタ再生など一連のチャプタ関連処理できない場合について説明する。
上述した放送番組などを受信した画像音声データでなく、例えば、記録媒体２５をＤＶＤソフトとし記録媒体処理系２６、再生処理系１２により再生する場合など他の記録媒体からの画像音声データを再生する場合や、特徴抽出していない画像音声データを再生する場合などは、ここで説明する処理に該当する。
プレイリストデータ又はチャプタデータが生成されておらず再生検出できない場合や、再生検出されたプレイリストデータ、チャプタデータを生成し直したい場合は、再生検出された所定の特徴データとパラメータデータとから要約再生用プレイリストデータ、及び所定チャプタ関連モード用チャプタデータを生成することができる。
図２６Ｃに示す場合、すなわち、記録時に特徴抽出処理が行われており、特徴データが再生できる場合には、図１７に示した記録再生装置３０における再生処理系１２又は再生データ分離処理系１３からプレイリストデータ又は上記所定の特徴データがプレイリスト・チャプタ生成処理系１９に入力され、所定のプレイリストデータ又は所定のチャプタデータが生成される。
ここで説明する動作の場合に、ユーザが要約再生モードのコマンドを行った場合に、図１９に示すようなプレイリストデータがないことを示す所定の表示を表示処理系２７で行うようにしてもよい。
生成されたプレイリストデータは、システムコントローラ系２０に入力される。システムコントローラ系２０は、ユーザ入力による所定の要約再生時間に応じて、プレイリストデータに基づいた所定の再生区間を順次再生（スキップ再生）するように再生制御系１８をコントロールしその制御により記録媒体７を再生制御する。
また、生成されたチャプタデータはシステムコントローラ系２０に入力される。システムコントローラ系２０は、ユーザ入力による所定のチャプタ関連動作モードに応じて、上記チャプタデータに基づいた所定のチャプタ時点の画像サムネール表示、チャプタ点のカットや接続などの編集処理、ユーザ選択したチャプタ点のスキップ再生など、所定チャプタ関連動作が行うことができるように再生制御系１８をコントロールし、その制御により記録媒体７の再生制御を行ったり、システムコントローラ系２０を介した表示処理系２７の制御などを行う。
上述したように、例えば、ＤＶＤなど外部記録媒体を記録媒体２５として要約再生する場合にも、上述の場合と同様の信号処理により行うことができ、再生制御系１８により記録媒体処理系２６を制御し、上述したような所定の要約再生処理を行う。
また、チャプタデータを用いた編集処理（編集操作）、所定のチャプタ点間（又はその近傍）のスキップ再生、チャプタ点（又はその近傍）のサムネール画像表示など、一連の所定チャプタ関連動作を上記と同様の信号処理により行うことができ、再生制御系１８により記録媒体処理系２６を制御し、上記したような所定信号処理を行う。
さらに、図１６Ｄに示す特徴データが再生できない場合について説明する。
上述の例では特徴データからプレイリストデータ、チャプタデータを生成する場合について説明したが、例えば、他のユーザが記録した外部記録媒体２５を記録媒体Ａ２６にコピーしたような場合には、特徴データが再生できない場合がある。
記録媒体７に放送番組などの画像音声データは記録されているが、特徴データが記録されておらず、再生できない場合について説明する。
ここで説明する動作の場合に、ユーザが要約再生モード又は上記所定チャプタ関連動作モードのコマンドを行った場合に、図１９に示すような特徴データがないことを示す所定の表示を表示処理系２７で行うようにしてもよい。
この場合の要約再生モードで記録媒体Ａ７から画像音声データを再生する場合は、再生処理系１２で再生されたデータは再生データ分離処理系１３に入力され、分離された記録時に所定の帯域圧縮方式で処理されている画像データと音声データは特徴抽出処理系１０に入力され、画像特性データであるＤＣＴＤＣ係数、ＡＣ係数、動きベクトル（モーションベクトル）など、音声特性データである音声パワー検出その他など各種所定の特性データ検出処理などが行われる。
特徴抽出処理系１０では、さらに、上述の各種画像音声特性データと所定のパラメータデータとにより、所定のテロップ特徴データ（テロップ区間判定データ）、人物特徴データその他の画像特徴データ（画像特徴区間判定データ）、及び話者音声特徴データ（話者音声判定データ）、拍手歓声特徴データ（拍手歓声判定データ）その他の音声特徴データ（音声特徴区間判定データ）の各種特徴抽出処理が行われる。
上記各種の画像特徴データ及び音声特徴データは、システムコントローラ系２０に入力され、所定番組又は、所定の画像音声区間のすべてについて所定の特徴抽出処理が終了したら特徴抽出処理が終了したと判定される。
ここで、特徴抽出処理が終了した場合には、システムコントローラ系２０から所定の信号処理が終了したことを示す信号が表示処理系２７に入力され、例えば図１９に示すような所定の表示を行うようにしてもよい。
次に、特徴データから所定のプレイリストデータ、チャプタデータを生成する処理について説明する。
上述の特徴データは、所定の特徴抽出区間毎にメモリ系１１に蓄えられ、上記すべての所定特徴データの処理が終了したらプレイリスト・チャプタ生成処理系１９に入力され、所定のプレイリストデータ又はチャプタデータが生成される。
ここで、特徴抽出処理系１０から直接プレイリスト・チャプタ生成処理系１９に、所定区間の特徴抽出処理データを逐次入力するようにしてもよく、上述したように所定のすべての区間や所定放送番組の特徴抽出処理が終了したら、システムコントローラ系２０からの所定の信号により、プレイリスト・チャプタ生成処理系１９で上述の如き所定のプレイリストデータ又はチャプタデータ生成処理を行うようにしてもよい。
また、特徴抽出処理系からの上記処理された特徴データは、システムコントローラ系２０を介してプレイリスト・チャプタ生成処理系１９に入力するように信号処理を行うようにしてもよい。
プレイリスト・チャプタ生成処理系１９で、所定のプレイリストデータ又はチャプタデータが生成されると、所定の処理が終了したことを示す信号がシステムコントローラ系２０に入力され、所望の要約時間に応じた要約再生又は所定のチャプタデータを用いた所定チャプタ関連動作を行うことができる。
この場合に、図１９に示すように、プレイリストデータ又はチャプタデータが生成できたことを示す所定の表示を行い、又は、要約再生モード、チャプタ関連の所定動作モードであることなどの表示を表示処理系２７に行うようにする。
ユーザが要約再生を行う場合に、例えば記録した放送番組が１時間であったとし、それを３０分で再生したいのか、２０分で再生したいのかなど、ユーザの所望する要約再生時間は分からないので、記録した放送番組など画像音声データの特徴抽出した全区間の全時間長に応じて、あらかじめ幾つかの要約時間に対応するプレイリストデータを生成することを考えることができる。
例えば、特徴抽出する放送番組の記録時間が１時間であったら、４０分、３０分、２０分の要約再生を行う、それぞれのプレイリストデータを生成する。このようにプレイリストデータを生成することで、リモコン２２などのユーザ入力で要約時間が選択された場合に、すぐに所定の要約時間に対応した要約再生動作を行うことができる。
記録媒体２５を再生する場合については、上記記録媒体Ａ７を再生する場合と同様で、記録媒体処理系２６により記録媒体２５を検出し、再生処理系１２により再生信号処理し、再生データ分離処理系１３において所定の画像音声データを分離する。その後の信号処理は上記の記録媒体７の場合と同様なので省略する。
ここで、上述した一連の処理を実行する制御プログラムは、専用のハードウェアに組み込まれているコンピュータ又は各種のプログラムをインストールすることで、各種の機能を実行させることが可能な、例えば汎用のパーソナルコンピュータなどに記録媒体からインストールされる。
この記録媒体は、制御プログラムが記録されているハードディスクだけではなく、コンピュータとは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク、光ディスク、光磁気ディスクもしくは半導体メモリなどよりなるパッケージメディアにより構成される。
２．２ブロック構成例２
ここで、図１７に示した記録再生装置３０の他の例として図２０に示す例を挙げて説明する。
放送番組を記録再生処理する信号処理の過程は、図１７に示した記録再生装置３０と同様なので、信号処理の異なる部分について説明する。
２．２．１記録側信号処理
この図２０に示す記録再生装置３０Ａにおいて上述の記録再生装置３０と異なるのは、記録モードにおいて特徴抽出処理を行う一連の信号処理をシステムコントローラ系２０においてソフトウェア的に行うことである。
この記録再生装置３０Ａでは、ネットワーク系２４により、所定のソフトウェアをダウンロードして、説明するようなソフトウェア処理による、特徴抽出処理、プレイリスト処理（チャプタ生成処理（再生区間、再生時点位置情報生成処理））などが行われる。
ソフトウェアによるダウンロードでは、例えば、本発明の処理が搭載されていない装置が、最初からあった場合に、時間をおいて後からソフト的に本発明を適用できる利点があり、例えば、製造販売などの時間的に間に合わない場合には、設計、製造側においては、本発明を適用しない簡単な構成のシステムと、後述する本発明を適用したシステムの両方のシステムをユーザに提供できる。
ユーザ側では、本発明を適用しない簡単な構成のシステムを購入した後で、ソフト的な処理で、本発明を適用できるので、後から機能を追加できるなどの利点がある。
また、処理系を修正、改良するなどの場合にもソフトをダウンロードしてアップグレードすることで、対応できる利点がある。
本発明をソフトウェアのダウンロードで装備する場合は、ユーザは所定の操作系（リモコン２２など）で、所定のインターネットサイトにネットワーク系２４を介して接続し、所定の操作系による操作で本発明のソフトウェアをダウンロードする。
ダウンロードされた本発明のソフトウェアは、システムコントローラ系２０で、所定の解凍処理、インストール処理などが行われ、後で説明する、特徴抽出処理、プレイリスト処理、チャプタ処理ほか、本発明の所定の処理機能が装備される。
システムコントローラ系２０として、所定性能を備えたマイクロプロセッサ（ＭＰＵ、又はＣＰＵ）を用いることで上述した所定の特徴抽出処理を所定の記録処理と同時に行うことができる。
上述したメモリ系１１も、このシステムコントローラ系２０内に備えられた所定のデータ記憶メモリを用いることができる。
ここで、上述したように所定の記録処理として、所定の画像音声の帯域圧縮を行う場合に、上述のような所定の性能を備えたＭＰＵ又はＣＰＵ、又はＤＳＰ（デジタル・シグナルプロセッサ）を用いることができ、この帯域圧縮処理を行っている同じＭＰＵ又はＣＰＵ、又はＤＳＰで上記所定の特徴抽出処理、プレイリスト生成処理などを行うことができる。
２．２．２再生側信号処理
この図２０に示す記録再生装置３０Ａにおいて上述の記録再生装置３０と異なるのは、再生モードにおいて、特徴データが検出できず特徴抽出処理を行う場合に、一連の信号処理をシステムコントローラ系２０においてソフトウェア的に行うことである。
システムコントローラ系２０として、所定性能を備えたマイクロプロセッサ（ＭＰＵ、又はＣＰＵ）を用いることで上述した所定の特徴抽出処理を所定の記録処理と同時に行うことができる。
上述したメモリ系１１も、このシステムコントローラ系２０内に備えられた所定のデータ記憶メモリを用いることができる。
（３）特徴抽出処理
次に、音声系特徴抽出処理及び映像（画像）系特徴抽出処理の各信号処理について説明する。
３．１音声系特徴抽出処理
音声系特徴抽出処理系では、図２１に示すように、ＭＰＥＧの画像音声ストリームデータがストリーム分離系１００に入力され、分離された音声データは音声データデコード系１０１に入力され所定のデコード処理が行われる。
デコードされた音声データ（音声信号）はレベル処理系１０２、データカウンタ系１０３、データバッファ系１０４に各々入力され、レベル処理系１０２では、音声データの所定区間の平均パワー（又は平均レベル）Ｐａｖを演算するため、データの絶対値化処理を行い、データカウンタ系１０３で所定サンプルデータ数まで計測されるまで、音声データ積算処理系１０５で積算処理を行う。
ここで、平均パワーＰａｖは、音声データの値（レベル）をＡｄ（ｎ）として以下の（３２）式の演算により求めることができる。

・・・（３２）
平均レベルを演算する所定区間として、例えば、約０．０１ｓｅｃ（１０ｍｓｅｃ）〜１ｓｅｃが考えられ、例えば、サンプリング周波数ＦｓをＦｓ＝４８ＫＨｚとすると、４８０〜４８０００サンプルの積算演算行い、サンプル数Ｓｍで平均処理を行って平均レベル（平均パワー）Ｐａｖを求める。
音声データ積算処理系１０５から出力されたデータＰａｖは、判定処理系１０６に入力され、しきい値設定系１０７で設定された所定しきい値Ａｔｈと比較処理され無音判定処理が行われる。
ここで、しきい値設定系１０７における所定しきい値Ａｔｈの設定において、Ａｔｈは固定値Ａｔｈ０として設定することが考えられるが、固定値Ａｔｈ０の他に、所定音声区間の平均レベルに応じた変動しきい値Ａｔｈｍを設定することも考えられる。
変動しきい値Ａｔｈｍとして、例えば、今処理を考えている区間をｎとし、それより前の区間（ｎ−ｋ）の平均レベルＰａｖ（ｎ−ｋ）を考え、次の（３３）式のようにすることが考えられる。

・・・（３３）
例えば、ｔ＝２として、
Ａｔｈｍ＝（Ｐａｖ（ｎ−１）＋Ｐａｖ（ｎ−２））／ｍ・・・（３４）
例えば、ｍは、おおよそ２〜２０くらいの範囲に設定する。
（その他の音声特徴抽出処理）
データバッファ系１０４に蓄積された所定音声データは、周波数解析処理系１０８に入力され、所定の周波数解析処理が行われる。
ここで、周波数解析処理としてＦＦＴ（高速フーリエ変換）などが考えられ、データバッファ系１０４からのデータの所定解析サンプルデータ数は、例えば、５１２、１０２４、２０４８、その他、など２のべき乗の所定サンプル数で所定の解析処理を行う。
周波数解析処理系１０８からの信号（データ）は、判定処理系１０９に入力され、所定の判定処理が行われる。
音楽（楽音）の判別処理は、所定周波数帯域のスペクトルピークの継続性から行うことができる。
例えば、特開２００２−１１６７８４号公報などにはそれらの技術が開示されている。
話者音声の判定では、人の会話音声波形で息継ぎの区間があるので、波形に所定の急峻な対上がり、又は立下り区間がみられ、その所定立ち上がり、又は立下り区間を検出することで所定の信号処理を行うことができる。
この場合に、上記音楽（楽音）信号波形の場合は話者音声の場合に比べて、一般的に波形の立ち上がり、又は立下り区間が現れる確率は小さいと考えられるので、この楽音（音楽）波形の特性（特徴）も考慮して、総合的に音声信号の属性判定を行うようにする。
上述のような、話者音声信号の波形特徴（波形特性）、音楽（楽音）信号の波形特徴（波形特性）の相違から音声信号の属性判定を行う場合に、波形における時間的な物理特性を検出することになるので、上述したような周波数解析を行ってから所定の判定信号処理を行う方法（周波数領域での信号解析、判定処理）の他に、ベースバンド領域で所定の判定処理を行う方法（時間領域での信号解析、判定処理）を用いることができる。
ここで、音声信号（音声データ）をデコード処理しないで、圧縮帯域のままで信号の属性解析を行う場合の音声系特徴抽出処理系の構成例を図２２に示す。
図２２に示す音声系特徴抽出処理系では、所定の帯域圧縮信号処理が施されたデータストリーム、例えば、ＭＰＥＧなどの画像音声データがストリーム分離系１００に入力されて画像データと音声データに分離され、音声データはストリームデータ解析系１１０に入力され、所定のサンプリング周波数、量子化ビット数その他などの信号解析処理が行われ、所定の音声データはサブバンド解析処理系１１１に入力される。
サブバンド解析処理系１１１で所定のサブバンド解析処理が行われ所定サブバンド帯域のデータは上記（３２）式〜（３４）式で説明したのと同様の所定信号処理が行われる。
すなわち、音声データ積算処理系１０５に入力され、データカウント系１０３で所定のサンプリングデータ数が検出されるまで所定の積算処理が行われ、その後、しきい値設定系１０７で設定される所定しきい値に基づいて判定処理系１０６で所定の無音判定処理が行われる。
この無音判定処理では、音声データのスペクトルを考慮して、エネルギが多く集まっている帯域で、サブバンド帯域としては大よそ３ＫＨｚ以下の所定データ帯域を用いることができる。
また、周波数解析により楽音（音楽）、話者音声の判定処理が行えることを述べたが、サブバンド解析処理系１１１の処理により、この信号処理系で所定の周波数解析が行われることと同様であるので、上述したような所定スペクトルピークの継続性判定処理を行うことで属性判定の信号処理を行うことができる。
この場合、スペクトルピークは、各所定サブバンド帯域の中の最大データ帯域であるので、ＦＦＴ解析処理の場合と同様の信号処理を行うことができる。
３．２画像系特徴
次に映像（画像）系の特徴抽出処理について説明する。
映像系特徴抽出処理系では、図２３に示すように、ストリーム分離系で所定の分離処理が行われた画像データは、ストリームデータ解析系２００に入力され、レート検出、画素数検出その他など所定のデータ解析が行われ、ＤＣＴ係数処理系２０１でＤＣＴのＤＣ係数検出、ＡＣ係数検出など所定のＤＣＴ演算処理（逆ＤＣＴ演算処理）が行われ、このＤＣＴ係数処理系２０１の出力に基づいて、シーンチェンジ検出処理系２０２、色特徴検出処理系２０３、類似画像検出処理系２０４、人物検出処理系２０５及びテロップ検出判定処理系２０６における各種処理が行われ、動きベクトル処理系２０８では、所定の動きベクトル検出処理が行われる。
３．２．１シーンチェンジ特徴
シーンチェンジ検出処理系２０２では、例えば、所定画面領域に分割しその領域毎にＤＣＴのＤＣ係数データのＹ（輝度データ）、Ｃｂ、Ｃｒ（色差データ）の平均値を演算してフレーム間差分演算又は、フィールド間差分演算をその領域毎に行い、所定しきい値と比較して、所定のシーンチェンジ検出を行う。
シーンチェンジがない場合は、各領域のフレーム間（又はフィールド）差分データは所定しきい値より小さく、シーンチェンジがあるとしきい値より差分データが大きくなる場合が検出できる。
ここで、画面分割の領域は、例えば、図２４に示すように有効画面を１６分割するような領域とする。
演算する画面分割の方法は図２４の場合に限らず、分割数を多くすることも、少なくすることもできるが、少な過ぎるとシーンチェンジの検出精度が鈍感になり、分割数が多いと精度が鋭過ぎることが考えられるので、およそ２５６（１６×１６）以下の範囲の間で適当な所定の分割数を設定する。
３．２．２色（カラー）特徴
色特徴検出処理系２０３では、ＤＣＴのＤＣ係数の、所定領域におけるＹ、Ｃｂ、Ｃｒデータの平均値から色特徴を検出することができる。
所定領域としては、例えば、図２５に示すような領域とすることができる。この図２５では、有効画面を横方向に４分割し検出領域１〜検出領域４、縦方向に４分割して検出領域５〜検出領域８を設けている。各検出領域には領域ＩＤが付され、各検出領域のデータは領域ＩＤによって識別される。
ここで、場合に応じて横方向だけの検出領域１〜４、又は縦方向だけの検出領域５〜８を設けるようにする。
また、図２５のような領域分割以外にも、５×５や、６×６といった碁盤状の分割方法とすることもできる。
例えば、放送番組で番組ジャンルとして「相撲」の場合を想定した場合に、図２５の検出領域３領域で茶色が検出できる場合は「土俵のシーン」の確率が高いと想定できる。
この色特徴と例えば、音声の属性特徴と組み合わせると、「土俵のシーン」＋「音声属性その他（又は話者音声）」から「取組みが開始するシーン」の確率が高い想定できるので、このようなシーン区間がキーフレーム区間と設定できる。
この場合には、取組み開始シーンでは観客の歓声などで音声レベルが大きくなったり、通常の状態とは異なる音声周波数帯域のデータが検出されることになるので、音声レベルや、所定の周波数領域データも特徴データとすることができる。
３．２．３類似シーン（類似画像）特徴
類似画像検出処理系２０４では、類似シーン（類似画像、類似映像）毎に、所定のＩＤ（識別番号、又は識別記号）をその画像（シーン）に付与（付加）（又は、割り当て）する処理で、類似画像（シーン）には同一ＩＤが付与（割り当て）処理される。例えば、特開２００２−３４４８７２号公報にその技術が開示されている。
この付加（付与）する処理はその画像（シーン）又は画像（シーン）の位置情報（フレーム番号、ＰＴＳ、記録時刻など）と一対一に対応するメモリにそのＩＤを記録するもので、その画像を表示又はその画像から再生するなどの動作を行う場合に、その画像（シーン）の位置情報とＩＤは一対一に対応しており、画像（シーン）自体とその位置情報も言うまでもなく一対一に対応しているので、例えば、同一ＩＤの画像を表示するなど類似画像分類や同一ＩＤの画像シーンの時点をスキップ再生するなど、ＩＤを利用する色々な所定動作を行うことができる。
この特徴データとしては、上述のシーンＩＤについて説明したように、検出頻度の１位、２位などの検出出現順位とすることができる。
また、図７に示すような、そのＰＵ区間長に対するその出現順位１位、２位など、検出したＩＤの検出長の割合とすることもできる。
この特徴抽出処理は、例えば、画面を複数分割（例えば、２５分割）して、その各分割した画面領域に対応する領域のＤＣＴの平均ＤＣ係数を演算して、その演算した平均ＤＣ係数をベクトル成分として、所定ベクトル距離が所定しきい値より小さい所に対応する画像（シーン）を類似画像（類似シーン）とし、類似画像（類似シーン）には、同一の所定ＩＤ（シーンＩＤ）を割り当てる処理である。
例えば、ＩＤとして、初期値を１とし、上記所定しきい値より小さい画像（シーン）が検出されない場合は、ＩＤの最大値に１を加算したものを新たなＩＤとして、その画像（シーン）に割り当てる。
本発明における、この特徴データの利用方法として、図５を参照して説明したように、所定区間でのＩＤの出現頻度を演算して、頻度１位〜２位の検出を行うなどの処理方法がある。
これは、例えばニュース番組を想定した場合に、アナウンサーシーンが頻繁に出現する場合や、相撲、野球など、類似シーンの出現が多く見込めるような番組ジャンルでは、有効な処理に用いることができる。すなわち、ニュース番組で出現頻度１位や２位では、出現頻度の高いと想定できるアナウンサーシーンが検出できる確率が高いと考えられる。
図２６は、ＩＤの出現頻度の演算方法を説明するための概要を示すもので、例えば、区間ｆ１〜ｆ２、ｆ３〜ｆ４、ｆ５〜ｆ６、ｆ７〜ｆ８の４区間で同一ＩＤであるＩＤ１が検出されている。すなわち、この区間では、類似したシーンが出現している。
図２６に示すように、所定区間同じＩＤが連続している区間を１つとして数え、そのような区間が幾つあるかを演算する。
類似シーンが出現しなくなると同一ＩＤではなくなるので、ＩＤの連続性、不連続性の数を演算することで所定の頻度を算出することも考えられる。
３．２．４人物特徴
人物検出処理系２０５では、図２７に示すように画面の領域を分割し、各領域における所定の特定色を検出することで、人物が画面に現れているかを判定することができる。
図２７に示した例では、有効画面を２×２に分割した領域１〜４の４つの領域と、画面中央付近の領域５の５つの領域としている。
例えば、ニュース番組では、領域５にアナウンサーの顔が出現する場合の確率が高い。ことが考えられる。
また、フリップ又はテロップとアナウンサーシーンが出現する場合を想定すると、領域１又は領域２にアナウンサーの顔が出現する場合がある。その場合に領域２又は領域１にフリップ又はテロップが出現すると想定できる。
例えば、特定色として白人の肌色を想定すると、以下の条件式により特定色を検出することが実験から分かっている。
０．６＜Ｃｂ／Ｃｒ＜０．９〜０．９７・・・（３５）
（０≦Ｃｂ≦２５５、０≦Ｃｒ≦２５５）・・・（３６）
以下に説明するように、図２７に示した領域における特定色の検出による方法と別の方法を用いることができる。
ここでは、簡単のため画面サイズを７２０×４８０とする。
（処理１）
色信号（Ｃｂ，Ｃｒ）からの検出条件（白人系肌色条件）ＤＣＴ係数Ｃｂ、ＣｒのＤＣ成分においてマクロブロックは１６×１６で、ｘ方向は７２０／１６＝４５で、（０〜４４）、ｙ方向は４８０／１６＝３０で、（０〜２９）毎に以下の（３．２．３）式に示す判定条件でデータポイントを検出する。場合によっては、ｘ、ｙ方向各々１／２に圧縮してｘ方向０〜２２、ｙ方向０〜１４として処理する。ここで、０≦Ｃｂ≦２５５、０≦Ｃｒ≦２５５である。
０．６＜Ｃｂ／Ｃｒ＜０．９〜０．９７・・・（３７）
ここで、例えば、８ビットシフト（１２８倍）して以下の（３８）式のような判定条件とすることもできる。
７７＜（Ｃｂ＜＜８／Ｃｒ）＜１１５〜１２４・・・（３８）
（処理２）
輝度信号ＡＣ係数からの検出条件（人物、顔などの輪郭部検出条件）上述の（３７）式や（３８）式にして示される判定条件において、所定しきい値Ａｔｈより大きいデータをｘ、ｙ方向毎に検出する。
ｘｈ（ｘ）＞Ａｔｈ・・・（３９）
ｙｈ（ｙ）＞Ａｔｈ・・・（４０）
場合によっては検出データから共分散処理を行う。
例えば、図２８に示すように、●の部分が検出点で例えば以下のようになる。
ｘｈ（０）＝０ｙｈ（０）＝０
ｘｈ（１）＝２ｙｈ（１）＝０
ｘｈ（２）＝２ｙｈ（２）＝３
・・・・・・
・・・・・・
・・・・・・
（処理３）
検出物の大きさの正当性の検出条件を考え、ｘｈ（ｘ）、ｙｈ（ｙ）の検出で、所定しきい値Ｈｔｈより大きい検出データ点
ｘｈ（ｘ）＞Ｈｔｈ・・・（４１）
ｙｈ（ｙ）＞Ｈｔｈ・・・（４２）
で、ｘ方向、ｙ方向毎に所定しきい値数Ｌｔｈより大きいデータ
ｘｌ（ｎ）＞Ｌｔｈ・・・（４３）
ｙｌ（ｍ）＞Ｌｔｈ・・・（４４）
の継続長を検出する。
例えば図２８に示す場合では、Ｈｔｈ＝２で
ｘｈ（ｘ）＞２
ｙｈ（ｙ）＞２
の検出点が継続している部分の継続長は、
ｘｌ（０）＝６
ｘｌ（１）＝１
ｙｌ（０）＝７
ｙｌ（１）＝２
と検出され、例えば、Ｌｔｈ＝３とすると、ｘｌ（０）、ｙｌ（０）がここの処理での検出データとなる。
（処理４）
人物の顔として、形状の正当性の検出条件をみる。検出された、ｘｌ（ｎ）、ｙｌ（ｍ）の各々についてその、差分又は比が所定範囲（０〜Ｄｔｈ又はｅｔｈ１〜ｅｔｈ２）のデータを検出する。
｜ｘｌ（ｎ）−ｙｌ（ｍ）｜＜Ｄｔｈ・・・（４５）
又は
ｅｔｈ１＜ｘｌ（ｎ）／ｙｌ（ｍ）＜ｅｔｈ２・・・（４６）
図２８の例では、ｘｌ（０）、ｙｌ（０）について演算を行う。
ここで、人物の顔の形状を考え、顔を４角形で近似すると仮定し、縦横比を演算する。
例えば、
０．８＜ｘｌ（ｎ）／ｙｌ（ｍ）＜１．５・・・（４７）
を検出条件と仮定すると、
ｙｌ（０）／ｘｌ（０）＝１．２・・・（４８）
で、図２８のｘｌ（０）、ｙｌ（０）の領域の物体は人物の顔の確率が高いと判定できる。
ここで、（３．２．４）の人物特徴を抽出するようなビットシフト処理を用いることができる。
上述の（処理１）〜（処理４）の検出条件の他、以下の（処理５）のような検出データの継続性判定を行うことができる。
（処理５）
検出形状の時間継続性の条件を与える。
（継続性判定方法５．１）
場合によっては、上述の（処理１）〜（処理４）の検出の時間継続性（検出の安定性）を判定するようにする。
例えば、（４８）式からピクチャＮでの検出値Ｓ（Ｎ）を
Ｓ（Ｎ）＝ｙｌ（０）／ｘｌ（０）・・・（４９）
とし、Ｓ（Ｎ＋１）、Ｓ（Ｎ＋２）などを検出して継続性の判定を行うようにする。
例えば、
０．８＜Ｓ（Ｎ）＜１．５・・・（５０）
０．８＜Ｓ（Ｎ＋１）＜１．５・・・（５１）
０．８＜Ｓ（Ｎ＋２）＜１．５・・・（５２）
と３ピクチャ継続した場合に検出したと判定する。
ここで、検出処理を行うピクチャは、Ｉピクチャを用いることができる。
（継続性判定方法５．２）
その他の方法として、上述の（処理１）〜（処理３）の検出値のいずれか、又は幾つかをピクチャＮでの検出データとして、Ｎ＋１、Ｎ＋２、Ｎ＋３と継続検出できるかを判定するようにしてもよい。
例えば、フレームＮでの検出値を
Ｃｏｌ（Ｎ）＝（Ｃｂ＜＜８）／Ｃｒ・・・（５３）
とし、
７７＜Ｃｏｌ（Ｎ）＜１１５・・・（５４）
７７＜Ｃｏｌ（Ｎ＋１）＜１１５・・・（５５）
７７＜Ｃｏｌ（Ｎ＋２）＜１１５・・・（５６）
のように、３つのＩピクチャを継続して検出できたかを判定し、次の検出処理に移行するようにする。
また、検出されたＮ〜（Ｎ＋２）ピクチャのデータの平均値を演算し、条件判定するようにしてもよい。
すなわち、検出された３ピクチャデータの平均値をＡｖＣｏｌとし、
ＡｖＣｏｌ＝（Ｃｏｌ（Ｎ）＋Ｃｏｌ（Ｎ＋１）＋Ｃｏｌ（Ｎ＋２））／３
・・・（５７）
７７＜ＡｖＣｏｌ＜１１５・・・（５８）
を判定処理することができる。
（継続性判定方法５．３）
上記（３９）式、（４０）式により、それらをピクチャＮでの検出値ｘｈ（Ｎ）（ｘ）、ｙｈ（Ｎ）（ｙ）として、Ｎ＋１、Ｎ＋２などのピクチャでの検出判定の継続性をみることができる。
すなわち、
ｘｈ（Ｎ）（ｘ）＞Ａｔｈ・・・（５９）
ｘｈ（Ｎ＋１）（ｘ）＞Ａｔｈ・・・（６０）
ｘｈ（Ｎ＋２）（ｘ）＞Ａｔｈ・・・（６１）
ｙｈ（Ｎ）（ｙ）＞Ａｔｈ・・・（６２）
ｙｈ（Ｎ＋１）（ｙ）＞Ａｔｈ・・・（６３）
ｙｈ（Ｎ＋２）（ｙ）＞Ａｔｈ・・・（６４）
のように、３つのＩピクチャが継続して検出できたかを判定し、次の検出処理に移行するようにする。
また、検出されたＮ〜（Ｎ＋２）ピクチャのデータの平均値を演算し、条件判定するようにしてもよい。
すなわち、検出された３ピクチャデータの平均値をＡｖｘｈ及びＡｖｙｈとし、
Ａｖｘｈ＝（ｘｈ（Ｎ）（ｘ）＋ｘｈ（Ｎ＋１）（ｘ）＋ｘｈ（Ｎ＋２）（ｘ））／３・・・（６５）
Ａｖｙｈ＝（ｙｈ（Ｎ）（ｙ）＋ｙｈ（Ｎ＋１）（ｙ）＋ｙｈ（Ｎ＋２）（ｙ））／３
・・・（６６）式
Ａｖｘｈ＞Ａｔｈ・・・（６７）
Ａｖｙｈ＞Ａｔｈ・・・（６８）
を判定処理するようにしてもよい。
（継続性判定方法５．４）
上記（４３）式、（４４）式により、それらをピクチャＮでの検出値ｘｌ（Ｎ）（ｘ）、ｙｌ（Ｎ）（ｙ）として、Ｎ＋１、Ｎ＋２などのピクチャでの検出判定の継続性をみるようにしてもよい。
すなわち、
ｘｌ（Ｎ）（ｘ）＞Ｌｔｈ・・・（６９）
ｘｌ（Ｎ＋１）（ｘ）＞Ｌｔｈ・・・（７０）
ｘｌ（Ｎ＋２）（ｘ）＞Ｌｔｈ・・・（７１）
ｙｌ（Ｎ）（ｙ）＞Ｌｔｈ・・・（７２）
ｙｌ（Ｎ＋１）（ｙ）＞Ｌｔｈ・・・（７３）
ｙｌ（Ｎ＋２）（ｙ）＞Ｌｔｈ・・・（７４）
のように、３Ｉピクチャ継続して検出できたかを判定し、次の検出処理に移行するようにしてもよい。
また、検出されたＮ〜（Ｎ＋２）ピクチャのデータの平均値を演算し、条件判定するようにしてもよい。
すなわち、検出された３ピクチャデータの平均値をＡｖｘｌ及びＡｖｙｌとし、
Ａｖｘｌ＝（ｘｌ（Ｎ）（ｘ）＋ｘｌ（Ｎ＋１）（ｘ）＋ｘｌ（Ｎ＋２）（ｘ））／３・・・（７５）
Ａｖｙｌ＝（ｙｌ（Ｎ）（ｙ）＋ｙｌ（Ｎ＋１）（ｙ）＋ｙｌ（Ｎ＋２）（ｙ））／３・・・（７６）
Ａｖｘｌ＞Ｌｔｈ・・・（７７）
Ａｖｙｌ＞Ｌｔｈ・・・（７８）
を判定処理するようにしてもよい。
（人物数検出の基本的な処理方法の概要）
ここで、人物数の検出判定を説明する。
（人数判定方法５．１Ｂ）
例えば、図２９の場合、ｘ方向の所定しきい値以上のデータｘｌ（０）、ｘｌ（１）の２個が検出され、ｙ方向はｙｌ（０）の１個が検出されていると仮定する。
ここで、ｘｌ（０）とｙｌ（０）とで特定される領域１と、ｘｌ（１）とｙｌ（０）とで特定される領域２のデータ密度を説明する。
領域１について、領域の全データポイントＳ１は、
Ｓ１＝ｘｌ（０）×ｙｌ（０）
＝２０・・・（７９）
所定しきい値より大きいデータ数は、
Σｘｈ（ｘ）＝１７・・・（８０）
データ密度Δ１、すなわち単位データポイント当たりのデータ数Δ１は、
Δ１＝０．８５・・・（８１）
ここで、領域１がすべてしきい値より大きいデータが検出された場合はデータ密度はΔ１＝１になる。そこで、所定しきい値Ｍｔｈを設定し、
Δ１＞Ｍｔｈ・・・（８２）
を判定する。
同様に領域２について、領域の全データポイントＳ２は、
Ｓ２＝ｘｌ（１）×ｙｌ（０）
＝２５・・・（８３）
となる。所定しきい値より大きいデータ数は、
Σｘｈ（ｘ）＝２１・・・（８４）
となる。データ密度Δ２は、
Δ２＝０．８４・・・（８５）
となる。
ここで、例えばしきい値Ｍｔｈを
Ｍｔｈ＝０．８０・・・（８６）
と仮定すると、（８１）式、（８５）式から領域１及び領域２は条件を満たし、人物が検出されたとする確率が高いと判定される。
ここで、ｘ方向について、ｘｌ（０）＋Ｘｌ（１）とｙｌ（０）で特定される領域Ｓｔは、全データポイント数が、
（ｘｌ（０）＋ｘｌ（１））×ｙｌ（０）＝４５・・・（８７）
となる。検出データ数は
Σｘｈ（ｘ）＝１７＋２１
＝３８・・・（８８）
となる。データ密度はΔは
Δ＝８．４・・・（８９）
となる。
ここで、領域Ｓｔについても
Δ＞Ｍｔｈ・・・（９０）
であるので、領域１と領域２は、同じｙ方向の位置に人物が検出されると判定される。
（その他の人数検出例１（領域が重なっている場合））
図３０に示す例においては、ｘ方向にｘｌ（０）の１個が検出され、ｙ方向にｙｌ（０）の１個が検出されている。
ｘｌ（０）とｙｌ（０）で特定される領域Ｒについて全データポイントＳｒは
Ｓｒ＝ｘｌ（０）×ｈｌ（０）
＝９０・・・（９１）
となる。検出データ数は、
Σｘｈ（ｘ）＝４４・・・（９２）
データ密度Δｒは、
Δｒ＝０．４９・・・（９３）
となる。
ここで、
Δｒ＜Ｍｔｈ
なので、領域Ｒには、１つの人物は検出されるとは判定できない。
データ密度の逆数は、
１／Δｒ＝２．０
であり、物体が２つある可能性があるが、図３１のようにデータがまばらな状態に存在する場合にもデータ密度は同じになる場合がある。
図３０について、ｙ方向の分散σをみる。
ｙｈ（ｙ）の平均値をｙｈａｖ、データ数ｍとして
ｍ＝ｙｌ（０）・・・（９４）
σｙ＝（Σ（ｙｈ（ｙ）−ｙｈａｖ）＾２）／ｍ
＝２．３２・・・（９５）
となる。ｘ方向については、平均値をｘｈａｖデータ数ｎとして
ｎ＝ｘｌ（０）・・・（９６）
σｘ＝（Σ（ｘｈ（ｘ）−ｘｈａｖ）＾２）／ｎ
＝１．０４・・・（９７）
となる。
次に、図３７について、同様にｙ方向、ｘ方向の分散は、
σｙ＝０．９９・・・（９８）
σｘ＝０．６４・・・（９９）
となる。
上述の結果から、図３６の方がデータの分散値が大きいことが分かる。
そこで、分散値に対して所定しきい値Ｂｔｈ、検出物数に応じたしきい値ｄ１，ｄ２を設定し、以下のような条件を判定し、検出物数を検出することができる。
σｙ＞Ｂｔｈ・・・（１００）
σｘ＞Ｂｔｈ・・・（１０１）
ｄ１＜１／Δ＜ｄ２・・・（１０２）
例えば、図３６の例では、
Ｂｔｈ＝２．０・・・（１０３）
ｄ１＝１．８・・・（１０４）
ｄ２＝２．３・・・（１０５）
のように、しきい値を設定して判定することができる。
（その他の検出例２（領域が対角的に離れている場合））
図３２の例では、ｘ方向にｘｌ（０）、ｘｌ（１）の２個が検出され、ｙ方向にｙｌ（０）、ｙｌ（１）の２個が検出されている。
ｘｌ（０）とｙｌ（０）で特定される領域Ｒ００について全データポイントＳ００はＳ００＝ｘｌ（０）×ｈｌ（０）
＝２０・・・（１０６）
検出データ数は、
Σｘｈ（ｘ）＝１７・・・（１０７）
データ密度Δｒは、
Δ００＝０．８５・・・（１０８）
ここで、上記（３．２．５２）から
Ｍｔｈ＝０．８０
としたので、
Δ００＞Ｍｔｈ・・・（１０９）
であり、領域Ｒ００には、１つの人物が検出される確率は高いと判定される。
次に、ｘｌ（０）と（ｙｌ（０）＋ｙｌ（１））で特定される領域Ｒａについて全データポイントＳａは
Ｓａ＝ｘｌ（０）×（ｙｌ（０）＋ｙｌ（１））
＝４０・・・（１１０）
となる。全検出データ数は、（１０７）式から
Σｘｈ（ｘ）＝１７・・・（１１１）
であり、データ密度Δａは、
Δａ＝１７／４０
＝０．４３・・・（１１２）
となる。これは、しきい値条件を満たしていない。
すなわち、今、ｘｌ（０）と（ｙｌ（０）＋ｙｌ（１））を考えているので、仮に、Δａが所定しきい値より大きいとすると、２つの人物が検出される確率は高いと判定される。
しかし、（１１２）式からΔａは、所定しきい値以下なので、ｘｌ（０）と（ｙｌ（０）＋ｙｌ（１））で特定される領域には、２つの人物は検出されるとは判定できず、（１０９）式とから、１つの人物が検出されると判定することができる。
すなわち、ｘｌ（０）とｙｌ（１）と特定される領域には人物が検出される確立は低いと判定される。
同様に、ｘｌ（１）と（ｙｌ（０）＋ｙｌ（１））とで特定される領域Ｒｂについて、全データ数は
Σｘｈ（ｘ）＝１７・・・（１１３）
となる。全データポイント数Ｓｂは、
Ｓｂ＝ｘｌ（１）（ｙｌ（０）＋ｙｌ（１））
＝４０・・・（１１４）
となる。データ密度Δｂは、
Δｂ＝１７／４０
＝０．４３・・・（１１５）
となる。
この（１１５）式から領域Ｒｂには２つの人物が検出される確率は低いことになる。
ここで、ｘｌ（１）とｙｌ（０）で特定される領域のデータ密度Δ１０は、検出データ数が
Σｘｈ（ｘ）＝１７
であり、全データポイント数が
ｘｌ（１）×ｙｌ（０）＝２０
なので、
Δ１０＝１７／２０
＝０．８５・・・（１１６）
ｘｌ（１）とｙｌ（１）とで特定される領域のデータ密度Δ１１についても同様に
Δ１１＝０．８５・・・（１１７）
となる。
上記（１１５）式〜（１１７）式から、領域１０か領域１１のいずれかは人物が検出される確率は低いことになる。
次に、（ｘｌ（０）＋ｘｌ（１））とｙｌ（０）で特定される領域Ｒｃのデータ密度について考える。検出データ数は、
Σｙｈ（ｙ）＝１７
全データポイント数は
（ｘｌ（０）＋ｘｌ（１））×ｙｌ（０）＝４０
よって、データ密度Δｃは、
Δｃ＝１７／４０
＝０．４３・・・（１１８）
これは、上述の所定しきい値Ｍｔｈ以下なので、領域Ｒｃは２つの人物が検出される確率は低く、（１０９）式及び（１１５）式〜（１１７）式などから、結局、人物が検出されるのは、ｘｌ（０）とｙｌ（０）で特定される領域、ｘｌ（１）とｙｌ（１）で特定される領域の２つとなる。
以上のような判定処理により、人物数検出を行うことができる。
（その他の人検出処理方法（方式２））
その他の方法として、ｘ方向（０〜４４）及びｙ方向（０〜２９）に対して順次、所定しきい値条件を満たすかを判定して人物検出を行うことができる。
データ系列をｄ（ｘ）（ｙ）として、上記（３７）式、（４１）式及び（４２）式の条件を満たすデータ系列を検出していき、例えば、
ｄ（ｘ１）（ｙ１），ｄ（ｘ２）（ｙ１）
ｄ（ｘ１）（ｙ２），ｄ（ｘ２）（ｙ２）
このように、ｘ方向とｙ方向で連続して検出されたとすれば、検出物の大きさと、位置も同時に分かることになる。
この方法では全データを１つずつ検出し、系列データの連続性の判定を行うなどのため、演算時間が上述の（方式１）に比較して多くかかる。
この手法を行う場合には、例えば、ｘ方向及び、ｙ方向にデータを１／２に圧縮してデータ処理数を減らしてから行うようにする。
（その他の人検出処理方法（方式３））
上述の（方式２）と類似の他の手法として、人物を４角形で近似し、４角形の大きさを順次変えて、その４角形の領域のデータが所定の条件を満たすかを判定することにより人物の検出を行うようにすることができる。
例えば、図３３のように（２×２）、（３×３）、（４×４）の４角形の領域を設定する。
上述のような大きさの異なる４角形の領域を順次小さい４角形から１データずつ移動させ、その領域内のデータが条件を満たすか判定していき、すべての領域で判定が終了したら、次の大きさの４角形についても同様に処理を行う。
すべての大きさの４角形について、処理が終了した時点で、検出領域と、検出個数が分かるが、上述の（方式２）同様処理時間を要することになる。
３．２．５テロップ特徴
テロップ検出判定処理系２０６では、図２５に示すような画面の領域におけるＤＣＴのＡＣ係数の平均値を検出する。
所定領域における画面内で、所定の大きさの文字情報を含むテロップは比較的、輪郭がはっきりしており、図２５のいずれかの領域にテロップ画像が現れた場合に、所定しきい値以上のＡＣ係数が検出でき、これによりテロップ検出を行うことができる。
上述のようにＤＣＴのＡＣ係数を検出する方法の他に、ベースバンド領域（時間領域の信号）でエッジ検出する方法を用いることができ、例えば、画像の輝度データのフレーム間差分によりエッジを検出するようにする。
また、ウェーブレット変換により、多重解像度解析を行い、所定の高周波成分データを含む所定の多重解析度領域におけるデータを用いて、図２５に対応する領域の平均値を演算するようにしてＤＣＴのＡＣ係数を用いる場合と同様の信号を行う。
テロップは、フリップの用に淡色領域とは限らず、例えば、ニュース映像の下部に出現する文字情報であり、出現領域は、おおむね、番組ジャンルにもよるが、画面の下部、上部、又は左側際、右側際などの場合の可能性が大きい。
テロップ特徴と、フリップ特徴をまとめて、文字特徴とすることも考えられる。
３．２．６カメラ特徴
カメラ特徴判定処理系２０９では、ズーム、パンその他などのカメラ動作に関する特徴で、例えば、特開２００３−２９８９８１号公報に開示されているように、ＭＰＥＧの場合には、Ｐピクチャのモーションベクトル（動きベクトル）を用いて判定することができる。
その他に例えば、特表２００２−５３５８９４号公報にカメラ特徴に関する技術が開示されている。
（４）再生ユニット（プレイユニット）処理
ここで、要約再生（ダイジェスト再生）は、所定の信号処理による音声系特徴データ、映像系特徴データの各特徴データを用いて所定の信号処理により、所定区間内において幾つかの重要再生区間（キーフレーム区間）を選定（選択）して、その各区間を逐次、スキップ再生するようにすることができる。
スキップ再生を行う場合に、例えば、話者音声区間の途中で、スキップすると、画面上は見ていてあまり違和感がない場合でも、音声の途中で途切れる場合にユーザによっては聴感上で違和感を生じる場合が想定されるので、所定音声レベル（音量）以下の区間を無音区間と設定し、その区間内の所定の時点をスキップ時点の候補とする。
また、映像のシーンチェンジは、放送番組、映画その他の映像再生では、話題の区切りの時点とみられるので、シーンチェンジ点、又はその近傍をスキップ時点の候補とすることもできる。
上述のことから、所定音声信号における所定無音区間と所定映像信号のシーンチェンジ時点又はその近傍の所定時点に応じてスキップ再生時点、スキップ再生区間を捉えることができる。
ここでは、上述のような観点から、（スキップ再生時点間（又はその区間））を、便宜上、所定の再生単位（以下再生ユニット又はプレイユニットＰｌａｙＵｎｉｔ（又はＰＵ））を設定して処理を行う。
このように設定された再生ユニット（ＰＵ）における所定の画像系特徴データ、所定の音声系特徴データが所定処理され、それら映像、音声特徴データと要約再生時間に応じて所定の要約再生（ダイジェスト再生）区間が設定され、所定の要約再生モードでスキップ再生を行うことで所定の要約再生が実行される。
また、上述のような要約再生を行うだけでなく、所定の信号処理により設定されたＰＵの最初（又はその近傍）又は最後（又はその近傍）の時点にチャプタ（又は編集点、又は再生区切り点）を設定することもできる。
すなわち、上述したようなチャプタを設定することで、そのチャプタ点を所定の信号処理によりサムネール表示を行うことや、ユーザがそのサムネール表示を見て編集を行うなどの操作を行うことができる。
次に、再生ユニット（プレイユニット）（ＰＵ）の処理の一例について、図３４〜図３５を参照して説明する。
（有音区間の場合（音声信号が所定レベル以上の場合））
図３４Ａに示す処理法１のように、所定平均レベル以上の有音区間で、その音声区間が１０秒〜２０秒の範囲の場合には、シーンチェンジによらず音声セグメントが１５秒に最も近い切れ目（所定の無音検出時点）を再生ユニットの区切りとする。
図３４Ｂに示す処理法２のように、音声区間が連続して２０秒より長く、シーンチェンジ区間が２０秒以下の場合には、シーンチェンジの切れ目が１５秒に最も近いシーンチェンジ検出点を再生ユニットの区切りとする。
図３４Ｃに示す処理法３のように、音声連続して２０秒より長く、シーンチェンジ区間が２０秒より長い場合には、音声セグメント、シーンチェンジによらず、再生ユニットが２０秒になったらその時点で区切りとする。
図３４Ｄに示す処理法４のように、音声特徴の属性が１０秒〜２０秒の範囲で変化する場合には、その属性変化点を再生ユニットの区切り点とする。
図３４Ｅに示す処理法５のように、ＣＭ（コマーシャル）検出した場合には、ＣＭ検出点を再生ユニットの区切り点とする。
ここで、ＣＭ検出の方法について図３５を参照して説明する。
一般的に放送番組のＣＭの区間長は所定時間長（通常一般的には、１５秒又は３０秒又は６０秒）であり、ＣＭの区切り点（開始、終了時点）ではシーンチェンジがあるので、上記所定時間長の検出とシーンチェンジ検出をすることで、図３６に示すようにＣＭを検出することが可能である。
（無音区間の場合（音声の平均レベルが所定以下の場合））
図３５Ａに示す処理法６のように、無音区間（音声平均レベルが所定以下の区間）が２０秒より長く、シーンチェンジ検出区間長が２０秒以下の場合には、１５秒に最も近いシーンチェンジ検出点を再生ユニットの区切り点とする。
図３５Ｂに示す処理法７のように、無音区間が２０秒より長く、シーンチェンジ検出区間が２０秒より長い場合には、シーンチェンジ検出点によらず、再生ユニットの開始点から２０秒の時点で区切り点とする。
上述のいずれの再生ユニット処理の説明で、再生ユニットの開始点の初期値は、そのプログラム（放送番組）を記録した開始時点とする。
上述のような再生ユニット処理により、所定の音声特徴、所定の映像特徴（シーンチェンジ特徴）に応じた所定の再生単位を再生することができる。
（再生ユニット生成処理系ブロック構成例）
上記で説明した再生ユニットの生成する処理系と、後で説明する、この再生ユニットに特徴データを入れ込むユニット化特徴データ処理系のブロック構成例を図３７に示す。
要約再生、チャプタ点設定などの所定時点設定処理は、再生ユニットの開始点、終点に設定するので、上記で説明した再生ユニット毎に特徴データを対応付けて処理を行う。
すなわち、所定区間毎に特徴抽出した所定の各特徴データ、音声系特徴データ、映像系特徴データを再生ユニットの区間に基づいて反映させる処理を行う。
ここで、図３７に示すユニット化特徴データ処理系のブロック構成例について説明する。
図３７に示すブロック構成例では、無音判定情報データが時間計測系３０１に入力され、上記で説明した再生ユニット処理に基づく所定の間隔（時間長）が計測され、その処理出力が再生ユニット処理系３０２に入力される。
再生ユニット処理系３０２は、シーンチェンジ判定情報データとＣＭ検出判定情報データも入力され、再生ユニット処理の各処理方法の説明で行ったような信号処理を行い所定の再生ユニットを生成する。
ここで、ＣＭ検出系３０４は、無音特徴検出情報データとシーンチェンジ特徴情報データ、それにＣＭが放送されている番組のチャンネルかを判定するチャンネル情報が入力され、図３６を参照して説明したような所定の信号処理方法により、ＣＭ検出処理を行う。
再生ユニット特徴データ処理系３０３は、音声属性情報、無音情報などの音声系特徴データと、シーンチェンジ特徴、色特徴、類似画像特徴、人物特徴、テロップ特徴、人物特徴などの各特徴データが入力され、後で説明するように再生ユニットに各特徴データを入れ込む処理を行っている。
（５）ＰＵ特徴データ処理
次に、ＰＵ特徴データファイル処理について説明する。
ＰＵ特徴データファイルには、音声系特徴データ及び映像系（画像系）特徴データがある。
この特徴データ処理は、上述した再生ユニットに特徴抽出した各音声系、映像系特徴データを入れ込む処理を行った結果のデータ（データファイル）であり、再生ユニット毎に各種特徴データが所定の記録媒体に記録される。
ここで、再生ユニット毎に特徴データを記録する場合には、各特徴データを所定の検出区間通りに検出した各特徴データを所定記録媒体に記録して、その後、上述した再生ユニットの所定区間に応じた特徴データに処理を行う。
特徴データは、音声信号（音声データ）、画像（映像）信号（画像（映像）データ）から、所定の特性データ（特性信号）を取り出して、その取り出した信号（データ）を所定の処理を行うことで、音声、画像の特徴を示す特徴データとすることができるが、ここでは、特別な注意書きをする場合を除き、特性データ（特性信号）から所定の処理を行って特徴を示す信号（データ）も特徴データ（特徴信号）と記述するものとする。
映像（画像）信号は、ＭＰＥＧストリームから特性データとしてＩピクチャにおける輝度信号（Ｙ信号）、色信号（色差信号）（Ｃｂ、Ｃｒ信号）のＤＣＴのＤＣ係数、Ｂ又はＰピクチャの動きベクトル（モーションベクトル）データ、また、ＤＣＴのＡＣ係数をそれぞれ取り出し、取り出した画面位置情報、所定しきい値、相関演算などから、シーンチェンジ特徴（ｓｃｎ特徴）、カメラ動作特徴（カメラ特徴）（ｃａｍ特徴）、類似画像特徴（類似シーン特徴又はシーンＩＤ特徴）（ｓｉｄ特徴）、テロップ特徴（ｔｌｐ特徴）、色特徴（カラー特徴）（ｃｏｌ特徴）、人物特徴（Ｐｅｒｓｏｎ特徴）などがある。
音声信号は、特性データ処理として、例えば、約２０ｍｓ毎に平均レベルが演算処理されこの演算データと所定しきい値とから、所定区間における音声信号の属性（種別）、平均パワー（平均レベル）などの音声特徴（ｓｅｇ特徴）である。
ここでは、音声属性として、話者音声、音楽（楽音）、スポーツ番組などにおける歓声などの音声が想定される。
５．１特徴データファイルの構成
図３８に示す特徴データファイルの構成例１は、上述した音声系特徴データ、シーンチェンジ特徴（ｓｃｎ特徴）、カメラ特徴（ｃａｍ特徴）、類似シーン特徴（ｓｉｄ特徴）、テロップ特徴（ｔｌｐ特徴）、色特徴（ｃｏｌ特徴）、人物特徴（Ｐｅｒｓｏｎ特徴）などの映像系特徴データを各々別々の特徴データファイルとする例である。
各々の特徴データファイルはテキスト形式のデータ又は、バイナリ形式のデータで書き込まれている。
なお、これらの特徴データは、所定の記録媒体に記録するファイルデータとしての他に、通常のデータとして所定の記録媒体（半導体メモリなど）に一時的に記憶（記録）して、後で説明する要約リストデータ生成や所定設定時点生成（チャプタ点の生成）などの所定の処理のために読み出して用いることも考えられる。以下に説明する図３９、図４０の場合も同様である。
図３９に示す例２は、上述したすべての音声系特徴データをテキスト形式又は、バイナリ形式の１つのファイルとしてまとめ、上述したすべての映像系特徴データをテキスト形式又は、バイナリ形式の１つのファイルとしてまとめた場合の例である。
図４０に示す例３は、上記したすべての音声系特徴データ及び、上記したすべての映像系特徴データをテキスト形式又は、バイナリ形式の１つのファイルとしてまとめた場合の例である。
このように、１つのファイルとしてまとめることにより、図３８の例１の場合と比較してファイル数が１つだけなので、ファイルとしての扱いが簡単になり、さらにバイナリ形式とすると、データサイズ（ファイルサイズ、ファイル容量）が小さくなり効率的になる。
ここでは、特徴データファイルを図４０の例３に示すような場合で特徴データをバイナリ形式で書き込む場合について説明する。
また、図４０に示す例３は、図３９に示す例２において、すべての音声系特徴データをバイナリ形式で記述したデータと、すべての映像系特徴データをバイナリ形式で記述したデータを一緒にしたものとなる。
上述のことから、特徴データファイルにおける以下の説明における音声系特徴データの処理方法（記述方法）は、図３９に示す音声系特徴データについて適用することができ、映像系特徴データの処理方法（記述方法）は、図３９の例２における映像系特徴データについて適用することができる。
５．２特徴データの階層構造
再生ユニットを単位とする特徴データの階層構造を図４１に示す。
以下に示す例は、所定の処理単位（再生ユニット）における所定の特徴データ処理である。
特徴データは、図４１に示すように、特徴データヘッダ情報、プログラム１特徴データ、プログラム２特徴データなどで構成される。
特徴データヘッダ情報は、図４２に示すように、プログラム１、プログラム２、などプログラム全体の総記録時間、記録開始、記録終了時刻、プログラム数（番組数）、その他情報などの所定データから構成されている。
次に、プログラム１特徴データを例に、プログラム（番組）の特徴データについて説明する。
図４１に示すように、プログラム１特徴データは、プログラム１情報、再生ユニット１情報、再生ユニット２情報などで構成されている。
図４２に示すように、プログラム１情報は、プログラム記録時間、プログラム開始、終了時刻、プログラムジャンル（番組ジャンル）、その他情報などの所定データで構成されている。
次に、再生ユニット１情報を例に、再生ユニットのデータ構造について説明する。
図４１に示すように再生ユニット１情報は、音声特徴データ、映像特徴データで構成されている。
（音声系特徴データの構成）
図４１に示すように、音声系特徴データは、系列番号情報、開始終了位置情報、音声属性情報、特徴データ、その他情報データなどで構成されている。
（映像系特徴データの構成）
図４１に示すように、映像系特徴データは、シーンチェンジ特徴、色特徴、類似画像特徴、人物特徴、テロップ特徴、カメラ特徴などの各所定の特徴情報データから構成されている。
以下のシーンチェンジ特徴、色特徴、類似画像特徴、人物特徴、テロップ特徴、カメラ特徴など各特徴データの説明で、すべての所定区間でその各項目の特徴データを所定記録媒体に記録（書込処理）する処理の他に、例えば、所定しきい値以上の特徴データが検出された場合のみ、そのデータとして所定の記録媒体に記録（書込処理）するように所定データ処理を行う。
このように、所定しきい値以上の特徴データが検出された場合のみ、所定のデータ処理を行う場合には、しきい値より小さい場合には所定の特徴データが書き込まれないので、しきい値以上の特徴データが検出されて所定の記録（書込）処理が行われ、最初から何番目の特徴データ検出かを知る場合には、下記で説明する系列番号情報から知ることができる。
（シーンチェンジ特徴）
図４３に示すように、系列番号情報、開始終了位置情報、特徴データ、その他データからなる。
ここで、系列番号情報は、０、１、２、３、・・・とそのプログラム（方法番組）の始めからのシーンチェンジが起きた順番を示す情報である。
開始終了位置情報は、上記各順番のシーンチェンジの開始終了の位置を示す情報データで、フレーム（フィールド）番号、ＰＴＳ、ＤＴＳ、時間などの情報データを用いることができる。
（色特徴）
図４３に示すように、系列番号情報、検出領域を識別する情報データ、開始終了位置情報データ、特徴データ、その他データなどからなる。
ここで、系列番号情報は、０、１、２、３、・・・とそのプログラム（方法番組）の始めからの色特徴検出の順番を示す情報である。
開始終了位置情報は、上記各順番における色特徴検出で、各領域の特徴検出した開始終了の位置を示す情報データで、フレーム（フィールド）番号、ＰＴＳ、ＤＴＳ、時間などの情報データを用いることができる。
特徴データは、例えば、ＲＧＢ、Ｙ、Ｃｂ、Ｃｒなどのデータがある。
（類似画像特徴）
図４３に示すように、系列番号情報、頻度情報開始終了位置情報、特徴データ、その他データなどからなる。
ここで、系列番号情報は、０、１、２、３、・・・とそのプログラム（方法番組）の始めからの類似画像特徴検出の順番を示す情報である。
特徴データとしては、上述したような有効画面を所定数の領域に分割（例えば２５分割）した各分割領域のＤＣＴの平均ＤＣ係数などがある。
（人物特徴）
図４３に示すように、系列番号情報、検出領域を識別する情報データ、開始終了位置情報データ、特徴データ、その他データなどからなる。
ここで、系列番号情報は、０、１、２、３、・・・とそのプログラム（方法番組）の始めからの類似画像特徴検出の順番を示す情報である。
（テロップ特徴）
図４３に示すように、系列番号情報、検出領域を識別する情報データ、開始終了位置情報データ、特徴データ、その他データなどからなる。
ここで、系列番号情報は、０、１、２、３、・・・とそのプログラム（方法番組）の始めからのテロップ特徴検出の順番を示す情報である。
（カメラ特徴）
図４３に示すように、系列番号情報、検出領域を識別する情報データ、開始終了位置情報データ、特徴データ、その他データなどからなる。
ここで、系列番号情報は、０、１、２、３、・・・とそのプログラム（方法番組）の始めからのカメラ特徴検出の順番を示す情報である。
ここで、放送番組を記録する場合に、放送番組の所定の記録処理と同時に、ここで説明する特徴抽出処理、特徴データの書込処理（記録処理）を行うことができるが、すでに、記録済みの放送番組や、その他映画、ドラマその他画像音声ソフトについて、所定の特徴抽出処理を行い、特徴データファイルを生成することもできる。
プログラム１について、上述のようにＰＵと特徴データを用いるとき、そのほかのプログラム２、プログラム３などを記録する場合にも、上述したプログラム１の場合と同様にＰＵと特徴データを用いることができる。
（６）プレイリスト処理（要約再生リスト生成処理）
次に、上記した特徴抽出処理が生成したＰＵファイル（ＰＵ特徴データファイル）から、要約再生（ダイジェスト再生）を行うための要約データ処理に関する説明を行う。
６．１要約ルール処理
本願で述べる特徴データを用いる要約再生（ダイジェスト再生）では、上述したＰＵを単位とする所定再生区間をスキップ再生処理することで所望の要約再生（ダイジェスト再生）を行う。
６．２所定時点設定処理（プレイリストファイル）処理
次にプレイリストファイルについて説明する。
このファイルは、上記した特徴データに応じて意味付けされたＰＵ、又はＰＵの接合体（ＰＵの集合体、又はＰＵの連結体）の内どれを選択して再生処理を行うかの所定データの情報が所定の書式に応じて記述されているデータである。
ここで、このデータは特徴抽出の基となった画像音声データが記録された所定の記録媒体に記録する（書込処理）場合の他に、所定のメモリ手段に一時的に記憶する場合も考えられる。
プレイリストファイルの一例を図４４Ａ、図４４Ｂに示す。
図４４Ａに示す例１における（ａ）の縦のデータ系列は、再生区間の開始位置情報のデータで、フレーム番号、時間（時刻）、ストリーム（圧縮された画像音声データ）からのＰＴＳ（プレゼンテーション・タイム・スタンプ）、又はＤＴＳ（デコード・タイム・スタンプ）などの所定の情報データなどである。
図４４Ａに示す例１における（ｂ）の縦のデータ系列は、再生区間の終了位置情報のデータで、例１の（ａ）のデータと対応して、フレーム番号、時間（時刻）、ストリーム（圧縮された画像音声データ）からのＰＴＳ（プレゼンテーション・タイム・スタンプ）、又はＤＴＳ（デコード・タイム・スタンプ）などの所定の情報データなどである。
図４４Ａに示す例１における（ｃ）の縦のデータ系列は、そのＰＵ（再生ユニット）又は再生ユニット群（ＰＵ群）の重要度である。
図４４Ａに示す例１における（ｄ）縦のデータ系列は、要約ルールで規定された、又は設定された意味の文字データである。
図４４Ｂに示す例２は、すべてのＰＵ区間について意味文字と評価値（重要度）を記述し、再生区間、チャプタ設定などの所定時点を示すために「１」、「０」の識別データを設けた場合の例である。
図４４Ｂに示す例２の（ａ）（ｂ）で示される開始点、終了点は、次の段のデータと連続的になっているのが分かる。
例えば、図４４Ｂに示す例２において、最初の開始点０終了点２２９で、次の開始点２３０に連続的につながっている。
図４４Ｂに示す例２における（ｅ）の縦のデータ系列は、要約再生を行うかどうかのフラグ情報データで、「１」の場合は再生を行う場合で、「０」の場合は再生を行わない場合である。
また、「１」の最初の時点、「０」の最初の時点を所定時点設定点（チャプタ点）とみることができる。
（７）動作フローチャート
図４５は、本発明の動作フローチャートの一例であり、これについて説明する。
処理を開始すると、まず、最初のステップＳ１で記録モードか再生モードか判定され、記録モードの場合は記録処理（Ｒ）に、また、再生モードの場合はステップＳ２の処理に移行する。
７．１再生処理関係動作フローチャート
（再生処理動作フローチャートの一例）
再生モードの場合は、ステップＳ２で要約再生（ダイジェスト再生）モードか通常再生モードか判定され、通常再生モードの場合は通常再生処理（Ｐ）に移行する。
要約再生モードの場合は、ステップＳ３で所定の特徴データが所定記録媒体に記録されているかの検出処理、又は所定ファイルデータとして記録媒体の所定記録領域に記録されているかの検出処理が判定処理される。
ステップＳ３で所定の特徴データが検出される場合には、ステップＳ４で所定のプレイリストデータ（データファイル）が所定記録媒体の所定記録領域に記録されているかが検出され、プレイリストデータ（プレイリストファイル）が検出される場合は、ステップＳ５で所定プレイリストデータを読出処理する。
ステップＳ３で所定の特徴データが検出されないと判定される場合には、ステップＳ８で今要約再生しようとする画像音声データ（プログラム、放送番組）を読み込んで所定の特徴抽出処理を行い、ステップＳ９で処理が終了したかが判定され終了しない場合はステップＳ８に戻り終了するまで処理を行う。
ステップＳ９で所定の特徴抽出処理が終了したと判定された場合には、ステップＳ６に移行して所定のプレイリストデータ生成処理が行われる。
ステップＳ４で所定のプレイリストデータ（ファイル）が検出されないと判定される場合は、ステップＳ６において所定の記録媒体の所定記録領域に記録され、又は記憶されている所定の特徴データを読込処理して所定のプレイリストデータ（ファイル）を生成処理して所定の記録媒体の所定領域に逐次、又は、処理が終了後データを書き込み、ステップＳ７ですべてのプレイリスト生成処理が終了したかが判定され、終了しない場合はステップＳ６に戻り処理を繰り返し、Ｓ７で所定のプレイリストデータがすべて生成されたと判定された場合は、ステップＳ５で書き込んだプレイリストデータを読込処理する。
ここで、ステップＳ６において、逐次生成されたプレイリストデータは上記放送番組などの画像音声情報データが記録されている同じ記録媒体上の所定記録領域に、逐次記録するようにしてもよいし、又は画像音声データが記録されたのとは別の記録媒体、例えば、装着、着脱可能な所定メモリ手段などに情報を書き込むようにしてもよい。
この場合にも、所定プレイリストデータが逐次生成処理されるとともに、逐次データを書き込む（記憶処理する）ようにしてもよいし、所定プレイリストデータがすべて生成処理され、プレイリスト処理が終了してから、生成されたすべてのプレイリストデータをまとめて記録（記憶）処理するようにしてもよい。
また、プレイリストデータは、図４６、図４７を参照して説明するように、記録時間に応じて、ユーザが複数の要約再生時間を選択できるように、記録時間に応じて、複数のプレイリストデータを生成するようにしてもよい。
ここでは、上述したように、所定ＰＵ区間、又は複数のＰＵ区間の接合された所定区間毎に、所定評価値も設定処理されるので、評価値に応じて要約再生時間を操作することができる。
ステップＳ１０で再生時間選択モードになり、ステップＳ１１で、ユーザがすぐ再生時間を選択したか、又は要約再生モード選択した後プレイリストデータの検出処理終了後から所定時間ｔｍｏｄ内にユーザが再生時間を選択処理したかが判定され、選択されない場合は、Ｓ１２でユーザにより再生ストップが選択されたかが判定処理される。
ステップＳ１２でユーザにより再生ストップが選択された場合は処理を終了し、再生ストップでない場合はステップＳ１０に戻り上記所定の処理を繰り返す。
ステップＳ１１で、ユーザが再生時間をすぐ選択した場合、又は上記所定時間のｔｍｏｄ内で再生時間を選択しない場合はステップＳ１３で要約再生動作処理に移行する。
ここで、ユーザが再生時間を選択した場合はその要約再生時間で、再生時間を選択しないで上記所定時間ｔｍｏｄ経過した場合は、所定のデフォルト設定再生時間（所期設定再生時間）ｔｐｂ０が設定される。
ここで、ユーザにより要約再生時間を任意に選択できるようにしてもよいし、記録したプログラム記録時間とプレイリストデータに基づいた、あらかじめ設定された再生時間から選択処理できるようにしてもよい。
この場合、例えば、５分、１０分、１５分、２０分、３０分などの時間とした場合に、デフォルトの要約再生時間は、記録時間に応じて、例えば、図４６のように設定することもできる。
図４６に示す例では、所定記録時間以上（Ｔｒｅｃｍｉｎ）の場合にのみ要約再生モードが設定できるようにして、この所定記録時間Ｔｒｅｃｍｉｎとして、記録時間Ｔｒｅｃが１０分未満の場合は、時間が短いので、要約再生は設定されず通常再生のみとしている。
一例として、図４６から記録時間Ｔｒｅｃが６０分の場合は、ユーザによる選択可能な要約再生時間は、１０分、１５分、３０分、４０分となり、デフォルトの設定時間は、３０分となる。
図４６に示す例では、記録時間Ｔｒｅｃが長くなるほど、ユーザによる選択可能な要約再生時間の選択数が多くなっているが、上記したように、記録時間が短い場合は、スキップ再生処理による要約再生でスキップ処理される総区間が多くなると、それだけ情報が欠落することになり、再生内容が把握できなくなることが考えられるので選択数を少なくし、適切な要約時間の選択が行えるようにし、それに比較して記録時間が長い場合は、情報量が多いので選択数を多くしてユーザによる効果的、有効な動作が行えるようにしている。
このようなユーザによる選択可能な要約再生時間の一覧、デフォルトの再生時間などの情報は、本発明を適用した記録再生装置における所定表示手段又は、その装置に接続された所定の表示手段、又は装置のリモコン上における液晶などの所定表示画面などに表示することが考えられる。
ここで、プレイリスト生成処理と同時に、チャプタ設定処理を行うこともでき、記録時間に応じて図４４に示すように、設定可能なチャプタ数に応じて自動的に所定のチャプタ設定処理が行われる。
例えば、図４４から記録時間が１時間の場合は、５〜４０個のチャプタが設定されるように所定の信号処理が行われる。
ステップＳ１３では要約再生動作が行われるが、上記したように、所定ＰＵ区間又は複数のＰＵ区間の接合区間毎に所定評価値が設定されているので、設定時間と評価値に応じてスキップ再生処理が行われ、それにより要約再生が行われる。
すなわち、評価値が高いＰＵ区間から最優先して順次選択され、選択した要約再生時間にできるだけ近くなるように、順次、上記最優先評価値に比較して評価値の小さい区間を選択処理していく。
ステップＳ１４では再生動作を終了するか判定され、終了の場合は処理を終了し、終了しない場合はステップＳ１５で再生している所定プログラム（番組）が終了したか判定され、終了の場合は処理を終了し終了しない場合は、ステップＳ１６に移行し再生時間を変更するか判定する。
ステップＳ１６で再生時間を変更する場合はステップＳ１０に戻り、上記処理を繰り返し、変更しない場合はステップＳ１３に戻り、要約再生動作を繰り返す。
７．２記録処理関係動作フローチャート
（記録処理動作フローチャートの一例）
記録モードの場合における動作フローチャートの例を図４８に示す。
図４５に示したフローチャートのステップＳ１で記録モードが選択された場合は、図４８に示すフローチャートのステップＲ１でタイマ記録モードか通常記録モードかが判定され、通常記録モードの場合は、ステップＲ９に移行し通常記録動作を行う。
ステップＲ９の通常記録動作で所定の記録信号処理に移行して、ステップＲ１０においてＭＰＥＧなどの所定エンコード処理される画像音声データ、又はエンコード処理された画像音声データから所定の特徴抽出処理が行われる。
ここで、記録信号処理と特徴抽出信号処理は、同時に行うことができる。
所定エンコード処理される画像音声データについては、所定エンコード処理される途中の画像音声データを用いて所定の特徴抽出処理を行うもので、例えば、画像のＤＣＴ処理系からＤＣＴ信号処理のＤＣ係数データ、ＡＣ係数データなどを取り出すことができ、それら所定のデータを用いて所定信号処理を行うことでシーンチェンジ特徴の検出（カット点特徴の検出）、テロップ特徴の検出など上述した各所定の特徴抽出信号処理を行う。
音声データは、所定の帯域圧縮信号処理における所定サブバンド信号処理において、所定サブバンド帯域におけるデータを用いることで、話者音声、音楽（楽音）判定検出などの信号処理を行うことができる。
楽音判定信号処理については、例えば、所定サブバンド帯域におけるデータの継続性を判定することで判定処理を行うことができる。
また、ベースバンド帯域の画像音声データを用いることもでき、例えば、画像のベースバンド信号を用いて、フレーム（又はフィールド）間差分信号処理によりシーンチェンジ検出処理や、その差分信号によるエッジ検出によりテロップ特徴信号処理など、その他所定の特徴抽出信号処理を行うことができる。
ここで、各画像、音声特徴抽出信号処理された特徴データは、画像音声データが記録される同じ所定記録媒体、又は所定のバッファメモリなどの所定データ記憶手段（データ記録手段）に記録する。
ステップＲ１１で通常記録モード終了か判定され、終了ではない場合はステップＲ９に戻り、上記動作を繰り返し、終了の場合は、ステップＲ１２に移行しプレイリストデータ生成処理（又はチャプタデータ生成処理）に移行する。
ステップＲ１でタイマ記録モードの場合は、ステップＲ２で記録開始、記録終了時刻設定を行い、ステップＲ３で所定の動作時刻か判定され、所定時刻ではない場合は、ステップＲ７で動作待機し、ステップＲ８でユーザによりタイマ動作解除の割り込み処理が行われたか判定され、タイマ動作を継続する場合は、ステップＲ３に戻り上記動作を繰り返す。
ステップＲ８でタイマ動作が解除された場合は、図４５のステップＳ１に戻り、最初の動作モード選択処理を行う。
ステップＲ３で所定の記録動作時刻になったと判定されたら、記録動作を開始し、上述したステップＲ９〜ステップＲ１１と同様の動作をステップＲ４〜ステップＲ６で行う。
特徴データは、上述したように、各画像、音声特徴抽出信号処理された特徴データ（特徴抽出データ）は画像音声データが記録される同じ所定記録媒体、又は所定のバッファメモリなどの所定データ記憶手段（データ記録手段）に記録する。ステップＲ６で記録終了時刻と判定された場合は、ステップＲ１２に移行してプレイリストデータ生成処理又はチャプタデータ生成処理を行う。
ステップＲ１２では、各種の所定特徴抽出処理された特徴データ（特徴抽出処理された所定特徴データを所定の加工処理、所定の信号処理を施したデータ、それらデータを用いて所定判定処理を行ったデータなども含む）を所定記録媒体から読出処理を行い、所定のプレイリストデータ（ファイル）生成処理、チャプタデータ生成処理を行う。
生成されたプレイリストデータ、チャプタデータは、所定記録媒体に記録され、ステップＲ１３で生成処理が終了したか判定処理され、終了しない場合は、ステップＲ１２に戻り上記処理動作を繰り返し、ステップＲ１３で終了したと判定された場合は動作を終了する。
ここで、プレイリストデータ、チャプタデータは、逐次、データの生成処理と同時に所定記録媒体に記録する場合の他に、上記、処理対象にしている所定の放送番組、プログラム、又は所定記録区間に対する所定プレイリストデータ、チャプタデータのすべての生成処理が終了した後に、まとめて所定記録媒体に記録するようにしてもよい。
（特徴抽出処理と平行して（同時に）プレイリストデータ（チャプタ）処理を行う場合）
ここで、上述の説明では、所定の放送番組、プログラムなど画像音声情報データの記録処理と同時に所定の特徴抽出処理を行い、特徴抽出処理した各種の特徴データ（特徴抽出データ、又は特徴データを用いて所定の加工、所定の信号処理を施した信号を含む）を所定の記録媒体に記録して、上記所定の放送番組、プログラムが終了した後、記録した特徴データを読み出して、プレイリストデータ（ファイル）、チャプタデータなどを生成処理する場合を述べたが、特徴抽出処理と同時に、又は特徴抽出処理と平行してプレイリストデータ（ファイル）、チャプタデータ生成処理を行うようにしてもよい。
７．３再生ユニット処理関係動作フローチャート
（ＰＵ処理で所定データ区間毎に音声セグメント処理とシーンチェンジ処理を行う場合の動作フローチャート）
上述したＰＵ信号処理の場合で、音声セグメント検出点とシーンチェンジ検出点から所定信号処理を行う動作フローチャートの一例を図４９に示す。
処理を開始するとステップＰ１で画像音声情報データが記録されている所定記録媒体から音声データ、及び後で説明するシーンチェンジ検出処理のために画像データの所定サンプルデータ数を読出処理して、ステップＰ２で読み出したデータをメモリなど所定の記録手段であるデータバッファに記憶処理（書込処理、記録処理）を行っていく。
ステップＰ３で所定サンプル数のデータがバッファに記録されたと判定された場合はステップＰ４に移行し、まだ所定サンプルデータが記録されないと判定された場合はステップＰ２に戻り動作を繰り返す。
ここで、ステップＰ２〜ステップＰ７ではＰＵ処理のために、所定、音声信号の有音、無音判定処理を考えるので、ステップＰ２の所定サンプルデータ数としては、大よそ０．１秒くらい〜１秒くらいの所定区間の間に相当するデータ数のバッファ処理を行う。
例えば、サンプリング周波数４８ＫＨｚの場合は、１秒間で４８０００サンプルデータなので、０．１秒の場合は４８００サンプルのデータをバッファに記録する。
ステップＰ４でバッファから音声データを読出処理し、ステップステップＰ５で、上述したような所定区間の音声レベルの演算処理を行い、ステップＰ６で所定レベルと比較処理を行い、所定レベル以上か所定レベル以下かの判定処理を行って、無音検出（無音判定）処理が行われる。
ステップＰ６でその区間が無音区間と判定された場合は、ステップＰ７でその情報を所定メモリ（バッファ）に記憶（記録）し、無音でなく有音と判定された場合はステップＰ８に移行し、ステップＰ１で読み込んだバッファのデータの音声バッファ処理が終了したか判定処理され、終了しない場合はステップＰ２に戻り上記の処理を繰り返し、終了した場合はステップＰ９に移行する。
ステップＰ９では、ステップＰ８で処理された音声セグメント情報データを読み出し、ステップＰ１０で上記した短い無音区間、有音区間、長い無音区間、有音区間のセグメント処理を行う。
ステップＰ１１では、所定データサンプル数の画像データのＤＣＴ処理データを所定のバッファメモリ（所定データ記録手段）に記録処理を行い、ステップＰ１２で所定データ量の記録が終了したかが判定され、所定データ量ではない場合は、ステップＰ１１に戻り上記バッファメモリ系への書込処理を繰り返し、ステップＰ１２で所定データ量の書込処理が終了したと判定された場合は、ステップＰ１３に移行する。
ステップＰ１３では上記所定のバッファメモリ系から記録した（書込処理した）所定のＤＣＴデータを読出処理し、ステップＰ１４において、フレーム間差分などの所定信号処理を行い、所定のシーンチェンジ検出処理を行う。
ステップＰ１５で所定のシーンチェンジがあったか判定処理され、シーンチェンジがあったと判定される場合は、ステップＰ１６で所定のメモリ手段（データ記録手段、データバッファ手段など）にシーンチェンジがあった時点の位置情報データを記憶（書込処理）してステップＰ１７に移行し、ステップＰ１５でシーンチェンジがないと判定された場合はステップＰ１７に移行する。
ステップＰ１７では、所定データバッファ内の所定データ量の上記シーンチェンジ検出処理が終了したか判定処理され、終了しない場合はステップＰ１１に戻り上記信号処理を繰り返し、ステップＰ１７で終了したと判定される場合は、ステップＰ１８に移行する。
ステップＰ１８では所定バッファメモリ手段に記録された（記憶された）シーンチェンジ位置情報を読み出し、ステップＰ１９で所定区間長より短いなど、短過ぎる区間は前後区間と接合するなどの、シーンチェンジ検出区間の補正処理を行う。
ステップＰ２０では上記、所定区間における生成処理された音声セグメント位置情報データ及びシーンチェンジ位置情報データを読み出し、ステップＰ２１で音声セグメント位置、音声セグメント区間長、シーンチェンジ位置、シーンチェンジ区間長などの所定情報データから、所定のＰＵの位置情報、区間情報など所定ＰＵ情報データを生成処理する。
ステップＰ２２では、ステップＰ２１で処理されたＰＵ情報から、そのＰＵ区間に対応する特徴データ（又は特徴抽出データ、又は特徴データを所定の信号処理を行った信号など）を所定の記録媒体、又は所定のデータバッファに書込処理を行う。
上記したように、これら記録媒体は、今処理の対象としている放送番組、プログラムなど所定区間の画像音声情報データが記録されているのと同じ所定記録媒体上における所定記録領域の他に、別の所定記録媒体上に記録（記憶、書込処理）を行うことも考えられる。
ステップＰ２３では所定データ量の上記音声セグメント処理、シーンチェンジ処理、ＰＵ処理など一連の信号処理が終了したか判定処理され、終了したと判定される場合は処理を終了し、終了していないと判定された場合はステップＰ１に戻り、上述した処理を繰り返す。
（ＰＵ処理ですべての音声セグメント処理を行った後にシーンチェンジ処理を行う場合の動作フローチャート）
ここで、上述の例では、記録した所定放送番組、プログラムなどの、画像音声データの所定区間毎に、逐次、音声データのセグメント処理を行い、その後、画像のシーンチェンジ検出処理を行ったが、上述したように所定区間毎の処理ではなく、今処理の対象としている放送番組、プログラムの所定区間すべての音声セグメント処理が終了した後、すべてのシーンチェンジ検出処理を行い、すべてのシーンチェンジ検出処理が終了した後、所定のＰＵ処理を行うようにすることもできる。
上述したＰＵ信号処理の場合で、音声セグメント検出点とシーンチェンジ検出点から所定信号処理を行う動作フローチャートの他の一例を図５０に示す。
処理を開始すると、まずまず最初のステップＴ１において図４９に示すフローチャートにおけるステップＰ１〜ステップＰ９で説明したような所定音声セグメント処理を行う。
ここで、音声データは所定バッファメモリに逐次所定データサンプル量のデータを読み込んで行う。
ステップＴ２で音声セグメント処理を行ったセグメント位置情報のデータを所定メモリ手段（データ記憶手段、データ記録手段）に記録していき、ステップＴ３において、今処理対象となっている放送番組、プログラムなどの所定区間すべての音声データについて所定セグメント処理が終了したか判定され、終了しないと判定された場合はステップＴ１に戻り上記の処理を繰り返し、終了したと判定された場合はステップＴ４に移行する。
ステップＴ４において上記図４９のフローチャートにおけるステップＰ１１〜ステップＰ１８で説明したような所定シーンチェンジ処理を行う。ここで、画像のＤＣＴデータは所定バッファメモリに逐次所定データサンプル量のデータを読み込んで行う。
ステップＴ５で所定シーンチェンジ処理を行ったシーンチェンジ位置情報のデータを所定メモリ手段（データ記憶手段、データ記録手段）に記録していき、ステップＴ６において、今処理対象となっている放送番組、プログラムなどの所定区間すべての画像のＤＣＴデータについて所定シーンチェンジ処理が終了したか判定され、終了しないと判定された場合はステップＴ４に戻り上述の処理を繰り返し、終了したと判定された場合はステップＴ７に移行する。
ステップＴ７では上記所定メモリ手段から所定音声セグメント位置情報のデータと、所定シーンチェンジ位置情報のデータを読み出し、ステップＴ８で所定ＰＵ処理を行い、ステップＴ９で、今処理対象となっている放送番組、プログラムなどの所定区間すべての区間にわたり所定ＰＵ処理が終了したか判定され、終了したと判定された場合は処理を終了し、終了しないと判定された場合はＴ７に戻り上記動作を繰り返す。
なお、本発明は、図面を参照して説明した上述の実施例に限定されるものではなく、添付の請求の範囲及びその主旨を逸脱することなく、様々な変更、置換又はその同様のものを行うことができることは当業者にとって明らかである。

Claims

画像音声情報信号から音声信号の音声特徴データを抽出し、その抽出された結果に基づいて上記音声信号を所定時間長の音声セグメントに区切り、
上記画像音声情報信号から画像信号の特性データを抽出し、その特性データに基づいて所定区間毎の特徴を示す画像特徴データを生成し、前記所定区間毎に上記画像信号を所定時間長の画像セグメントに区切り、
上記音声セグメントの時間長と上記画像セグメントの時間長とを第１の値の時間長と比較した結果、第１の値の時間長より上記音声セグメント又は上記画像セグメントの時間長が短いデータの区切りにおいて、上記画像音声情報信号を、上記第１の値の時間長以下の第２の値の時間長を持つ再生ユニットに分割し、
上記再生ユニットに基づいて、上記画像音声情報信号から得られた上記音声信号の音声特徴データと上記画像信号の画像特徴データを所定の記録媒体に記録する情報信号処理方法。
上記再生ユニット毎に対応付けられた音声特徴データと画像特徴データに基づいて、上記画像音声情報信号の再生区間又は再生時点を示すデータを生成する請求項１記載の情報信号処理方法。
上記画像音声情報信号の再生区間又は再生時点を示す上記データを用いて再生制御を行う請求項２記載の情報信号処理方法。
上記音声セグメントと上記画像セグメントとを第１の値の時間長と比較した結果、上記音声セグメントの時間長及び上記画像セグメントの時間長がともに第１の値の時間長より長い場合、上記画像音声情報信号を上記第２の値の時間長より長い第１の値の時間長を持つ再生ユニットに分割する請求項１記載の情報信号処理方法。
上記音声特徴データは属性情報であり、上記画像音声情報信号から得られた音声信号から属性を検出し、音声の属性が変化する位置において、上記画像音声情報信号を再生ユニットに分割する請求項１記載の情報信号処理方法。
画像音声情報信号からＣＭを検出した場合、画像音声情報信号のＣＭ検出位置において、上記画像音声情報信号を再生ユニットに分割する請求項１記載の情報信号処理方法。
画像音声情報信号から音声信号の音声特徴データを抽出し、その抽出された結果に基づいて上記音声信号を所定の音声セグメントに区切る音声信号処理部と、
上記画像音声情報信号から画像信号の特性データを抽出し、その特性データに基づいて所定区間毎の特徴を示す画像特徴データを生成し、前記所定区間毎に上記画像信号を所定の画像セグメントに区切る画像信号処理部と、
上記音声セグメントの時間長と上記画像セグメントの時間長とを第１の値の時間長と比較した結果、第１の値の時間長より上記音声セグメント又は上記画像セグメントの時間長が短いデータの区切りにおいて、上記画像音声情報信号を、上記第１の値の時間長以下の第２の値の時間長を持つ再生ユニットに分割する制御部と、
上記再生ユニットに基づいて、上記画像音声情報信号から得られた上記音声信号の音声特徴データと上記画像信号の画像特徴データを所定の記録媒体に記録する記録処理部と
を備える情報信号処理装置。
コンピュータに、
画像音声情報信号から音声信号の音声特徴データを抽出し、その抽出された結果に基づいて上記音声信号を所定時間長の音声セグメントに区切る手順と、
上記画像音声情報信号から画像信号の特性データを抽出し、その特性データに基づいて所定区間毎の特徴を示す画像特徴データを生成し、前記所定区間毎に上記画像信号を所定時間長の画像セグメントに区切る手順と、
上記音声セグメントの時間長と上記画像セグメントの時間長とを第１の値の時間長と比較した結果、第１の値の時間長より上記音声セグメント又は上記画像セグメントの時間長が短いデータの区切りにおいて、上記画像音声情報信号を、上記第１の値の時間長以下の第２の値の時間長を持つ再生ユニットに分割する手順と、
上記再生ユニットに基づいて、上記画像音声情報信号から得られた上記音声信号の音声特徴データと上記画像信号の画像特徴データを所定の記録媒体に記録する手順と
を実行させるための制御プログラムがコンピュータにより読取実行可能に記録されたプログラム記録媒体。