JP2007049332A

JP2007049332A - 記録再生装置および記録再生方法、並びに、記録装置および記録方法

Info

Publication number: JP2007049332A
Application number: JP2005230410A
Authority: JP
Inventors: Nariaki Tagami; 就章田上
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2005-08-09
Filing date: 2005-08-09
Publication date: 2007-02-22

Abstract

【課題】記録媒体に記録されたＡＶデータを効率的に検索できるようにする。
【解決手段】記録再生装置は、ビデオカメラから入力されたＡＶデータの特徴を抽出し、特徴に基づきメタデータを生成する。再生時、検索が指示されると、特徴に基づく検索メニュー画面２００が表示される。選択項目２０１のフラグが選択され、検索開始ボタン２０４が押されると、メタデータ管理部は、検索項目２０１で選択されたフラグに基づきメタデータを検索し、検索の結果、条件を満たすチャプタがあると判断された場合、タイトルやチャプタに対応するフレーム番号を取得する。取得したフレーム番号に基づく所定のフレーム画像がＨＤＤから読み出され、サムネイル画像作成部でフレーム画像からサムネイル画像が作成され、サムネイル画像を並べた検索結果画面が作成される。このように、メタデータに記述されたフラグに基づき検索を行うことで、効率的に検索できる。
【選択図】図１７

Description

この発明は、外部から入力された映像および音声を記録し、記録された映像および音声の検索を効率的に行うようにした記録再生装置および記録再生方法、並びに、記録装置および記録方法に関する。

近年、複数の番組を録画することができる大容量のハードディスクを記録媒体としたＨＤ（Hard Disc）レコーダなどの記録再生装置が急速に普及している。ＨＤレコーダは、例えば、ディジタルテレビジョン放送に重畳されて送られるＳＩ（Service Information）信号により提供されるＥＰＧ（Electronic Program Guide）と呼ばれる機能により、キーワードによる番組検索や番組録画予約を行うことができる。ＥＰＧ情報は、番組のタイトルや放送時間、放送局の情報、出演者や番組の概要など、番組に関する様々な情報からなり、このＥＰＧ情報をキーワードとして番組を記録媒体であるハードディスクに録画することができる。

また、ＨＤレコーダは、番組を録画すると共に、ＥＰＧ情報をハードディスクに記録しておくことにより、録画された番組を再生する際に、この番組情報を利用することが可能である。ＥＰＧ情報は、例えば、録画した番組を一覧表示するサムネイル表示に利用されたり、番組情報に基づくキーワード検索を行う場合に利用されている。

ここで、従来の記録再生装置１００の一例の構成について、図２１を参照して概略的に説明する。記録再生装置１００は、映像データおよび音声データからなるＡＶ（Audio/Video）データを記録媒体に記録すると共に、ＥＰＧ情報に記述された番組情報を、記録されるＡＶデータのメタデータとして記録媒体に記録する。そして、記録された複数のＡＶデータの中から、メタデータに基づいて所定のＡＶデータを検索し、再生するようにしている。ここでは、記録再生装置１００として、ハードディスクを記録媒体としたＨＤレコーダを例にとって説明する。

先ず、記録時の動作について説明する。操作部１１４は、記録再生装置１００のパネルに設けられた操作部や、リモートコントロールコマンダなどが用いられる。リモートコントロールコマンダは、例えば、赤外線信号を用いて記録再生装置１００を操作することができる。

リモートコントロールコマンダは、ユーザによる操作により、操作に応じた制御信号を生成する。生成された制御信号は、赤外線信号に変調され、記録再生装置１００に送信される。リモートコントロールコマンダから送信された赤外線信号は、記録再生装置１００の図示されない赤外線受光部により受信され、赤外線信号から制御信号に復調される。復調された制御信号は、ＣＰＵ１１５に供給される。ＣＰＵ（Central Processing Unit）１１５は、図示されないＲＯＭ（Read Only Memory）に予め記憶されたプログラムに従い、例えば操作部１１４から供給された制御信号に応じて、記録再生装置１００の各部を制御する。

アンテナ１０７は、ディジタルテレビジョン放送の電波を受信し、チューナ部１０１に供給する。チューナ部１０１は、アンテナ１０７から供給された電波を復調して、選択されたチャンネルの信号を取り出し、取り出された信号からＡＶデータとＥＰＧ情報とを抽出し、ＡＶデータを入力処理部１０２に供給し、ＥＰＧ情報を記録データ管理部１０４に供給する。

入力処理部１０２は、外部からＡＶデータを入力することもでき、チューナ部１０１から供給されるＡＶデータと外部から供給されるＡＶデータとのうち一方のＡＶデータを、例えば操作部１１４に対する操作に応じて選択する。選択されたＡＶデータは、記録信号処理部１０５に供給される。

予約管理部１０６は、例えば操作部１１４への操作に応じて、ディジタルテレビジョン放送番組の録画予約を管理する予約情報を生成する。生成された予約情報は、記録データ管理部１０４に供給される。

記録データ管理部１０４は、チューナ部１０１から供給されたＥＰＧ情報や、予約管理部１０６から供給された予約情報に基づき、記録信号処理部１０５における記録を制御する記録制御情報を生成し、記録信号処理部１０５に供給する。また、記録データ管理部１０４は、ＥＰＧ情報や予約情報に基づき、記録されるＡＶデータに関するメタデータを生成し、ＨＤＤ１１０に記録する。

記録信号処理部１０５は、入力処理部１０２から供給されたＡＶデータに対して所定の信号処理を施す。信号処理が施されたＡＶデータは、記録データ管理部１０４から供給されたメタデータと関連付けられてＨＤＤ１１０に記録される。

なお、ＥＰＧ情報は、例えば、外部のサーバからインターネットを介してＥＰＧ情報を取得するｉＥＰＧ（Internet Electronic Program Guide）機能を用いて取得することもできる。

タイトル管理部１１１は、ユーザの操作部１１４に対する操作に応じて検索情報を生成し、生成された検索情報とＨＤＤ１１０から読み出したメタデータとを用いて、再生するＡＶデータの検索を行う。そして、タイトル管理部１１１は、検索結果に基づき、ＡＶデータの再生を制御する再生制御情報を生成し、再生信号処理部１１２に供給する。

再生信号処理部１１２は、タイトル管理部１１１から供給された再生制御情報に基づき、ＨＤＤ１１０からＡＶデータを読み出し、読み出されたＡＶデータに所定に復号処理を施して出力処理部１１３に供給する。出力処理部１１３は、再生信号処理部１１２から供給されたＡＶデータを外部に出力する。外部には、テレビジョン受像機やディスプレイなどの表示装置が接続され、この表示装置により映像の表示や音声の出力が行われる。

ＥＰＧ情報には、番組名や放送日時情報だけでなく、番組の出演者情報など、様々な情報が含まれているので、これらの情報を用いて多彩な検索を行うことができる。例えば、出演している俳優の名前から検索したり、番組のジャンルから検索したりすることができる。

ところで、記録再生装置は、テレビジョン放送の録画を行うだけでなく、例えば、家庭で使われる携帯型ビデオカメラなどのカメラ一体型ビデオ信号記録装置で撮像した映像や音声を入力し、記録媒体に記録することができる。ビデオカメラは、ビデオテープやＤＶＤ（Digital Versatile Disc）、半導体メモリなどの記録媒体に、撮像した映像や音声を記録する。また、ビデオカメラは、撮影した映像や音声と共に、撮影時のホワイトバランス、絞り、シャッタースピードなどのビデオカメラの設定情報や撮影日時情報などが記述されたデータコードを記録している。ビデオカメラで撮影したＡＶデータを記録再生装置の記録媒体に記録する場合は、このデータコードがＡＶデータと共に記録再生装置へ記録されるようになっている。

設定情報や日時情報が記述されたデータコードを用いて、記録再生装置の記録媒体に記録された複数のＡＶデータの中から所望のＡＶデータを検索することができる。このデータコードに含まれる日時情報をキーワードとして検索する技術が特許文献１に記載されている。

特開２００５−２００７０号公報

ビデオカメラで撮影されたＡＶデータを記録媒体に記録することができる記録再生装置１２０の一例の構成について、図２２を参照して概略的に説明する。この例では、ビデオカメラで撮像されたＡＶデータをＨＤレコーダの記録媒体に記録する場合について説明する。なお、上述の図２１と共通する部分については、同一の符号を付し、説明を省略する。

記録再生装置１２０とビデオカメラとを接続し、ビデオカメラから出力されたＡＶデータを入力処理部１２２に入力する。入力処理部１２２は、撮影時のビデオカメラの設定情報や撮影日時情報が含まれるデータコードを抽出し、デコード部１２１でデコードして得られるカメラデータを記録データ管理部１２４に供給する。記録データ管理部１２４は、カメラデータに基づき、記録再生装置１２０の記録媒体に記録されたＡＶデータのメタデータを生成し、メタデータに基づいて生成される記録制御情報により記録信号処理部１０５を制御する。また、記録データ管理部１２４は、メタデータとＡＶデータとを関連付けてＨＤＤ１１０に記録する。

ビデオカメラで撮影されたＡＶデータを記録再生装置１２０の記録媒体に記録する場合、ＡＶデータに対して、例えば、カメラデータの日付データに基づきタイトルを生成する。また、撮影スタートや撮影ストップによる時間の切れ目によるシーンチェンジ情報や撮影日時情報に基づき、チャプタを自動的に生成する。ＨＤＤ１１０に記録されたＡＶデータは、例えばタイトル単位で管理される。

なお、ビデオカメラから入力され、記録再生装置１２０の記録媒体に記録されたＡＶデータに対して、操作部１１４を操作することにより、ＡＶデータに対してテキスト情報を付加することができる。例えば、リモートコントロールコマンダを用いて、文字が割り当てられたキーを押したり、十字キーを操作して文字を１文字ずつ入力し、さらに必要に応じて漢字やカタカナに変換することにより、テキスト情報を作成する。また、ネットワークインタフェース１２３を介して、例えばＰＣ（Personal Computer）で生成したテキスト情報をネットワーク経由でＡＶデータに付加することもできる。例えば、記録再生装置とＰＣとを接続し、ＰＣに備えられたキーボードを用いて文字を入力し、テキスト情報を作成する。

このようにして作成されたテキスト情報は、記録データ管理部１２４に供給され、記録データ管理部１２４は、このテキスト情報に基づきメタデータを生成することもできる。そして、カメラデータやテキスト情報に基づくメタデータを用いて、記録媒体に記録されたＡＶデータの中から、所定のＡＶデータを検索することができる。

記録媒体に記録されたＡＶデータを再生する場合、タイトル管理部１１１は、操作部１１４の操作に応じて検索情報を生成し、生成された検索情報とＨＤＤ１１０から読み出したメタデータとを比較して、記録媒体に記録されているＡＶデータの検索を行う。そして、検索結果に基づく再生制御情報により再生信号処理部１１２を制御する。再生信号処理部１１２は、再生制御情報に基づき、ＨＤＤ１１０からＡＶデータを読み出し、読み出されたＡＶデータに対して復号処理を施し、出力処理部１１３を介して外部に出力する。

ここで、ビデオカメラから入力され、記録再生装置に記録されたＡＶデータを検索する場合について考える。ビデオカメラから入力され、記録再生装置に記録されたタイトルには、ＥＰＧ情報で録画された番組と異なり、メタデータに含まれる情報が少ないため、目的のタイトルを的確に検索することが困難であった。例えば、メタデータを用いて検索する場合は、日時や時間といった時間情報で検索するしかないという問題点があった。

ところで、この記録再生装置は、テキスト情報を作成し、記録媒体に記録されたＡＶデータに付加することでＡＶデータに関する情報を増やすことができる。テキスト情報は、例えば、リモートコントロールコマンダなどの操作部を操作して文字を入力したり、記録再生装置にＰＣを接続し、接続されたＰＣのキーボードなどを用いて文字を入力することにより、作成することができる。

しかしながら、テキスト情報を作成するには、操作部を操作したり、記録再生装置にＰＣをいちいち接続しなければならないので、文字を入力するための操作が煩わしく、手間がかかるという問題点があった。そのため、テキスト情報を作成しないユーザも多い。

一方、検索時においては、例えば、ＡＶデータに対応付けられたタイトルなどのテキスト情報に対してキーワードを直接入力して検索する方法が考えられる。しかしながら、この検索方法の場合、入力されたキーワードと、メタデータやテキスト情報に含まれている文字列とが一致するか否かによって検索を行っているため、記録されているタイトルが多い場合や、メタデータに含まれる情報が多い場合には、検索に時間を要してしまうという問題点があった。

また、キーワードを入力するには、リモートコントロールコマンダなどの操作部や、外部に接続されたＰＣのキーボードなどを使用して、テキスト情報の作成と同様に、文字を入力する必要があるため、キーワードの入力に手間がかかるという問題点があった。

従って、この発明の目的は、ビデオカメラから入力され、記録媒体に記録されたタイトルの検索を効率的且つ的確に行うことができる記録再生装置および記録再生方法、並びに、記録装置および記録方法を提供することにある。

上述した課題を解決するために、第１の発明は、映像信号を入力する入力部と、映像信号により表示される映像の視覚的な特徴を映像信号に基づき抽出する特徴抽出部と、特徴抽出部で抽出された特徴と映像信号とを関連付けて記録媒体に記録する記録制御部とを有し、特徴に基づき、記録媒体に記録された映像信号を検索するようにしたことを特徴とする記録再生装置である。

また、第２の発明は、映像信号を入力部に入力し、映像信号により表示される映像の視覚的な特徴を映像信号に基づき抽出し、抽出された特徴と映像信号とを関連付けて記録媒体に記録し、特徴に基づき、記録媒体に記録された映像信号を検索するようにしたことを特徴とする記録再生方法である。

また、第３の発明は、映像信号を入力する入力部と、映像信号により表示される映像の視覚的な特徴を映像信号に基づき抽出する特徴抽出部と、特徴抽出部で抽出された特徴と映像信号とを関連付けて記録媒体に記録する記録制御部とを有することを特徴とする記録装置である。

また、第４の発明は、映像信号を入力部に入力し、映像信号により表示される映像の視覚的な特徴を映像信号に基づき抽出し、抽出された特徴と映像信号とを関連付けて記録媒体に記録するようにしたことを特徴とする記録方法である。

上述したように、第１および第２の発明は、入力部に入力された映像信号により表示される映像から抽出された視覚的な特徴と映像信号とを関連付けて記録媒体に記録し、特徴に基づき、記録媒体に記録された映像信号を検索するようにしているため、効率的に検索を行うことができる。

また、第３および第４の発明は、入力部に入力された映像信号により表示される映像から抽出された視覚的な特徴と映像信号とを関連付けて記録媒体に記録するようにしているため、映像信号に関する情報を自動的に付加することができる。

この発明は、ビデオカメラから入力されたＡＶデータを記録再生装置の記録媒体に記録する際に、映像および音声から特徴を抽出し、抽出された特徴に基づくメタデータを生成し、ＡＶデータと対応付けて記録媒体に記録しているため、記録媒体に記録されたＡＶデータを検索する際に、抽出された特徴に基づくメタデータを用いてＡＶデータを検索することで、効率的に検索を行うことができるという効果がある。

以下、この発明の実施の一形態について説明する。この発明は、携帯型ビデオカメラなどのカメラ一体型ビデオ信号記録装置で撮影した撮像映像信号を記録再生装置に供給し、記録する際に、撮像映像信号に含まれる特徴を抽出する。そして、抽出された特徴と撮影時のビデオカメラの設定情報や撮影日時などのデータコードとに基づきメタデータを生成して、カメラ一体型ビデオ信号記録装置から供給されたＡＶ（Audio/Video）データと共に記録媒体に記録する。また、ＡＶデータの再生時には、記録媒体に記録されたメタデータに基づき検索を行い、所定のＡＶデータを選択して再生するようにしている。このように、ビデオカメラから入力され、記録再生装置に記録されたＡＶデータの特徴を用いることにより、感覚的に検索することができる。

図１は、この発明の実施の一形態による記録再生装置１の使用形態を示す。この図１の例は、例えば、記録再生装置１とカメラ一体型ビデオ信号記録装置（以下、ビデオカメラと適宜称する）２とを接続し、記録再生装置１とビデオカメラ２との間でＡＶデータを伝送する場合の例である。

ビデオカメラ２に記録再生装置１を接続し、ビデオカメラ２でＡＶデータを再生する際に、再生されたＡＶデータと当該ＡＶデータの撮影時のビデオカメラ２の設定や撮影日時が記述されたデータコードとが記録再生装置１に供給され、記録再生装置１の記録媒体に記録される。

なお、ビデオカメラ２では、記録媒体として、例えば、ＤＶ（Digital Video）テープが用いられ、撮像された撮像映像信号をＤＶフォーマットに基づき圧縮符号化し、ＡＶデータとしてＤＶテープに記録する。

図２は、この発明の実施の一形態における記録再生装置１の一例の構成を示す。ここでは、記録再生装置１として、ハードディスクを記録媒体としたＨＤ（Hard Disc）レコーダを例にとって説明する。外部からＡＶデータおよび当該ＡＶデータの撮影時の設定や撮影日時が記述されたデータコードを入力処理部１２に入力し、入力処理部１２は、ＤＶフォーマットのＡＶデータをデコードし、記録信号処理部１５に供給する。また、入力処理部１２は、ＡＶデータと共に供給されるデータコードをデコード部１１に供給する。

入力処理部１２は、例えば、ＩＥＥＥ（Institute of Electrical and Electronic Engineers）１３９４の規格に準じたプロトコルにより通信が可能なインタフェースを有し、外部に接続されたビデオカメラとデータのやりとりを行うことができる。

なお、データの通信に用いられるインタフェースは、ＩＥＥＥ１３９４に限らず、高速でデータを転送できるインタフェース、例えばＵＳＢ（Universal Serial Bus）２．０を用いてもよい。

デコード部１１は、入力処理部１２から供給されたデータコードをデコードし、撮影時のビデオカメラの設定や撮影日時が記述されたカメラデータを生成してメタデータ生成部１４に供給する。

記録信号処理部１５は、入力処理部１２から供給されたＡＶデータに対して所定の圧縮符号化処理を施す。また、記録信号処理部１５は、映像データと当該映像データの圧縮符号化の際に発生する属性情報を特徴抽出部１０に供給する。特徴抽出部１０は、記録信号処理部１５から供給された映像データおよび属性情報に基づき当該映像データの特徴を抽出し、特徴データを生成する。生成された特徴データは、メタデータ生成部１４に供給される。

メタデータ生成部１４は、特徴データをフラグに変換する。フラグは、抽出された特徴に対して設定されるパラメータであり、例えば、全種のパラメータを互いに区別して表現できるような、なるべく短いデータ長のデータが用いられる。こうすることで、検索の際にフラグを高速で検索することができる。メタデータ生成部１４は、特徴抽出部１０で抽出された特徴に対してフラグの値と意味とが対応付けられたフラグリストを予め有しており、このフラグリストに基づき、特徴データとフラグとを所定に対応付け、メタデータを生成する。生成されたメタデータは、例えばメタデータデータベースとして管理され、ＡＶデータと互いに対応付けられてＨＤＤ（Hard Disc Drive）２０に記録される。

また、メタデータ生成部１４は、カメラデータに基づき、記録信号処理部１５における記録を制御する記録制御情報を生成する。記録信号処理部１５によるＡＶデータのＨＤＤ２０への記録は、この記録制御情報に基づき制御される。

さらに、メタデータ生成部１４は、カメラデータに基づき、ＡＶデータに対するタイトルやチャプタを生成する。例えば、カメラデータの日付データに基づきタイトルを設定し、カメラデータの時間データに基づき、時間の不連続部分でタイトルをチャプタに分割する。また、各チャプタの先頭フレームを抽出し、チャプタとフレームとの関係を示すフレームリストを生成し、ＨＤＤ２０に記録する。

なお、ネットワークインタフェース１３は、例えばＰＣ（Personal Computer）と接続可能なインタフェースを有し、ＰＣと互いに通信して、例えば、ＰＣ側で作成されたテキスト情報を記録再生装置１に取り込むことができる。取り込まれたテキスト情報は、例えばメタデータ生成部１４に供給され、メタデータの一部として用いられる。

メタデータ管理部２１は、操作部２４の操作に応じて、検索の際に、特徴および撮影日時を選択して検索を行うための検索メニュー画面をフラグリストに基づき作成し、ＨＤＤ２０に記録されているメタデータデータベースを検索する。そして、メタデータ管理部２１は、検索結果に基づき、ＡＶデータの再生を制御する再生制御情報を生成し、再生信号処理部２２に供給する。また、メタデータ管理部２１は、ＨＤＤ２０から所定のフレーム画像を受け取り、サムネイル画像作成部２６に供給する。

サムネイル画像作成部２６は、メタデータ管理部２１から供給されたフレーム画像を所定に間引いて縮小したサムネイル画像を作成する。そして、サムネイル画像作成部２６は、作成されたサムネイル画像を一覧表示したサムネイル画面を作成し、出力処理部２３に供給する。

再生信号処理部２２は、メタデータ管理部２１から供給された再生制御情報に基づき、所定の圧縮ＡＶデータをＨＤＤ２０から読み出し、復号処理を施す。復号処理が施されたＡＶデータは、出力処理部２３に供給される。

出力処理部２３は、再生信号処理部２２から供給されたＡＶデータを外部に出力する。外部には、テレビジョン受像機やディスプレイなどの表示装置が接続され、この表示装置により映像の表示や音声の出力が行われる。

操作部２４は、例えば、記録再生装置１のパネルに設けられた操作部や、リモートコントロールコマンダが用いられる。リモートコントロールコマンダは、例えば、上下左右の方向を指示することができる十字キーや、決定キーなどの記録再生装置１を操作するためのキーが設けられ、ユーザによる操作により、操作に応じた制御信号を生成する。生成された制御信号は、赤外線信号に変調されて送信される。記録再生装置１は、図示されない赤外線受光部によりリモートコントロールコマンダから送信された赤外線信号を受信すると、赤外線信号を制御信号に復調する。復調された制御信号は、ＣＰＵ２５に供給される。ＣＰＵ２５は、図示されないＲＯＭに予め記憶されたプログラムに従い、例えば操作部２４から供給された制御信号に基づき、記録再生装置１の各部を制御する。

図３は、記録信号処理部１５において、圧縮符号化処理を行う回路の一例の構成を示す。記録信号処理部１５では、例えばＭＰＥＧ２（Moving Picture Experts Group 2）方式に準じた圧縮符号化を行う。ＭＰＥＧ２方式では、時系列方向の予測符号化を用いたフレーム間圧縮符号化と、ＤＣＴ（Discrete Cosine Transform：離散コサイン変換）を用いたフレーム内圧縮符号化とを組み合わせることにより、圧縮符号化を行っている。

端子３０から供給された信号は、ブロック化回路３１で、例えば１６画素×１６ラインのマクロブロックに分割される。このマクロブロックは、減算器３４の一方の入力端に供給されると共に、動き検出回路４０に供給される。さらに、入力された画像データは、統計処理回路３２にも供給される。統計処理回路３２では、所定の統計処理により入力画像データの複雑さが算出される。算出結果は、ビットレート制御回路３３に供給される。

動き検出回路４０では、ブロック化回路３１から供給されたマクロブロックと、後述する逆量子化回路４３および逆ＤＣＴ回路４２とを介して供給される、１フレーム（あるいは１フィールド）前のマクロブロックとを比較して、例えばブロックマッチングにより動きベクトルを得る。得られた動きベクトルは、動き補償回路４１に供給される。また、マクロブロック毎の動きベクトルを示す情報が出力端４４を介して特徴抽出部１０に供給される。動き補償回路４１では、この動きベクトルに基づく動き補償が行われ、動き補償された結果が減算器３４の他方の入力端に供給される。

減算器３４で入力画像データと動き補償結果との差分が求められ、ＤＣＴ回路３５に供給される。ＤＣＴ回路３５では、この差分のマクロブロックをさらに８画素×８ラインからなるＤＣＴブロックに分割し、それぞれのＤＣＴブロックについて、ＤＣＴを行う。ＤＣＴ回路３５から出力されたＤＣＴ係数は、量子化回路３６で量子化される。量子化の際に、ビットレート制御回路３３からの制御情報に基づき、ビットレートが制御される。量子化されたＤＣＴ係数は、逆量子化回路４３およびジグザグスキャン回路３７に供給される。

ジグザグスキャン回路３７は、ＤＣＴ係数がジグザグスキャンで出力される。このＤＣＴ係数は、ＶＬＣ回路３８で可変長符号化され、圧縮ＡＶデータとして出力端３９を介してＨＤＤ２０に供給される。

ＶＬＣ回路３８での可変長符号化の際の符号化情報がビットレート制御回路３３に供給される。ビットレート制御回路３３では、この符号化情報と、上述した統計処理回路３２によるマクロブロックの複雑さの算出結果とに基づき、出力において適切なビットレートが得られるように、ビットレート制御情報を量子化回路３６に供給する。

一方、逆量子化回路４３に供給されたＤＣＴ係数は、逆量子化され逆ＤＣＴ回路４２によって画像データに復号され、動き検出回路４０および動き補償回路４１に供給される。

次に、この発明の実施の一形態による記録再生装置１の動作について説明する。外部からＤＶフォーマットのＡＶデータと共に、当該ＡＶデータの撮影時のビデオカメラの設定情報や撮影日時が記述されたデータコードが入力処理部１２に入力される。入力されたＡＶデータは、入力処理部１２で、ＤＶフォーマットのデコードがなされ、記録信号処理部１５に供給される。

記録信号処理部１５に供給されたＡＶデータは、所定の圧縮符号化処理を施され、圧縮ＡＶデータとして、ＨＤＤ２０に記録される。また、圧縮符号化の際に発生する属性情報および映像データが特徴抽出部１０に供給される。特徴抽出部１０は、記録信号処理部１５から供給された属性情報および映像データに基づき特徴データを生成し、メタデータ生成部１４に供給する。

一方、入力処理部１２に入力されたデータコードは、デコード部１１でカメラデータにデコードされ、メタデータ生成部１４に供給される。メタデータ生成部１４は、カメラデータおよび特徴データに基づき、撮影時の時間に関する時間情報と、ＡＶデータの特徴を示す特徴情報とをタイトルまたはチャプタ毎に生成する。そして、時間情報および特徴情報がメタデータとして、ＨＤＤ２０に記録される。また、メタデータ生成部１４は、デコード部１１から供給されたカメラデータに基づき、ＡＶデータに対してタイトルおよびチャプタを生成する。

タイトルは、１まとまりのＡＶデータである。例えば、撮影日時や撮影時に使用されたテープなどを単位としてタイトルが生成される。また、チャプタは、タイトル内で所定に位置を決めて生成される。例えば、撮影時間の不連続部分や一定間隔でチャプタが生成される。

再生時には、操作部２４の操作に応じて検索が指示されると、メタデータ管理部２１により検索メニュー画面が作成される。検索メニュー画面は、例えば、日時を検索すると共に、特徴をフラグで検索するような画面である。メタデータ管理部２１は、検索画面に基づく操作部２４の操作に応じてメタデータデータベースに対して検索を行い、検索結果に基づき、ＨＤＤ２０からチャプタの例えば先頭フレームにあたるフレーム画像を読み出し、サムネイル画像作成部２６に供給する。

サムネイル画像作成部２６は、メタデータ管理部２１から供給されたフレーム画像に基づきタイトルまたはチャプタのサムネイル画像を作成し、サムネイル画面を作成する。作成されたサムネイル画面は、出力処理部２３を介して外部に出力される。操作部２４の操作に応じて、サムネイル画面の中から１のサムネイル画像が選択されると、メタデータ管理部２１は、選択されたサムネイル画像に対応するＡＶデータをＨＤＤ２０から読み出すための再生制御信号を生成し、再生信号処理部２２に供給する。再生信号処理部２２は、メタデータ管理部２１から供給された再生制御情報に基づき、ＨＤＤ２０から圧縮ＡＶデータを読み出して復号し、復号されたＡＶデータを、出力処理部２３を介して外部に出力する。

ビデオカメラから入力され、記録媒体に記録されたＡＶデータに対する、タイトルおよびチャプタについて説明する。図４は、記録媒体に記録されたＡＶデータの具体的な例を示す。ＡＶデータには、例えば、カメラデータの撮影日付データに基づき、タイトルが設定される。この時、設定されたタイトルと撮影日時とが対応付けられ、タイトルと撮影日時との対応関係を示すタイトルリストが生成される。

図５は、タイトルリストの一例を示す。タイトルリストは、撮影時のビデオカメラの設定や日時が記述されたカメラデータに基づき、それぞれのタイトルに対して撮影日時が対応付けられて生成されるリストである。「タイトル」は、ＡＶデータのタイトル番号を示す。また、「時間」は、ＡＶデータが撮影された「年」、「月」、「日」、「時」および「分」を示す。

タイトルは、チャプタに分割することができる。タイトルは、例えば、カメラデータの撮影時間データに基づき、時間の不連続部分でチャプタに分割され、チャプタの先頭にタイトルの先頭フレームからのフレーム数が対応付けられる。図６は、チャプタとフレーム数との対応関係を示すフレームリストの一例を示す。例えば、指定されたチャプタから再生する場合は、フレームリストに記述された対応関係に基づき、対応付けられたフレームからの再生を開始する。例えば、タイトル「１」のチャプタ＃３を再生する場合には、フレームリストに基づき、第１２１フレームから再生する。

上述したように、この発明では、ビデオカメラから入力され、記録媒体に記録された映像データを、例えば、ＭＰＥＧ２方式により圧縮符号化している。この場合、ＤＣＴを用いたフレーム内圧縮符号化と、時系列方向の予測符号化を用いたフレーム間圧縮符号化とを用いて映像データを圧縮符号化する。ここで、時系列方向に予測符号化を行ったＢ（Bidirectionally）ピクチャおよびＰ（Predictive）ピクチャと、１画面（１フレーム）で完結するＩ（Intra）ピクチャとが定義される。最低１枚のＩピクチャを含むそれ自身で完結したグループをＧＯＰ（Group Of Picture）と呼び、ＭＰＥＧの映像データにおいて独立してアクセス可能な最小の単位とされる。例えば、１ＧＯＰは、１枚のＩピクチャと、複数枚のＰピクチャおよびＢピクチャからなる１５フレームから構成することができる。この場合、チャプタの先頭は、ＧＯＰのＩピクチャに対応付けられる。

なお、チャプタの設定は、カメラデータの時間データに基づいて設定するように説明したが、これに限らず、例えば、５分間隔や１０分間隔など、所定時間毎に設定するようにしてもよい。

次に、特徴抽出部１０において、ＡＶデータから特徴を抽出する方法について説明する。ＡＶデータに含まれる映像データおよび音声データは、映像の動きや色、音声の周波数帯や音声レベルなど、様々な特徴を有している。この発明の実施の一形態では、このような特徴を抽出し、抽出された特徴をＡＶデータに対応付ける。特徴の抽出は、例えば、チャプタ単位で行われ、抽出された特徴がそれぞれのチャプタに対応付けられるようにしている。

先ず、映像データから抽出される特徴の例について説明する。撮影した映像を後に検索する際に、有用であると思われる撮影時の状況は以下のものが考えられる。
（１）三脚使用の有無
（２）背景の色
（３）被写体の色
（４）明るさ
（５）撮影対象

これらの状況は、ビデオカメラから入力され、記録媒体に記録された映像データを圧縮符号化する際に用いられるフレーム間の動きベクトルやフレーム内の画素データなどを解析することにより判別できると考えられる。

（１）三脚使用の有無について
三脚使用の有無は、映像のブレの度合いにより判断することができる。例えば、三脚を使用して撮影した場合、ビデオカメラが固定されるため、映像は、殆どブレることがないと考えられる。一方、ビデオカメラを手で持って撮影した場合、ビデオカメラを固定することができないため、映像がブレてしまうと考えられる。例えば、ステージや室内においてビデオカメラを三脚で固定して撮影した場合、背景の映像は、ブレることがないので、背景のブレる度合いによって、三脚を使用しているか否かを判断することができると考えられる。

映像がブレているか否かは、例えば、背景の映像データの動きベクトルに基づき、背景のブレの度合いを検出することにより判断することができる。上述したように、例えば、１フレーム分の画像データは、１６画素×１６ラインのマクロブロックに分割されている。これらのマクロブロックの中から、被写体の動きを考慮して背景とみなす領域、例えば、画面枠周辺の内側の所定領域におけるフレーム間のマクロブロックに基づき求められる動きベクトルを用いる。

図７は、ステージを撮影した場合の画面の一例を示す。この時、例えば、ステージの段や、左右および上部の幕は、動かないと考えられる。すなわち、撮像対象である被写体の動きを考慮して、画面枠周辺の内側の所定領域（領域ａ）は、背景の領域とみなすことができる。

映像のブレが発生しているか否かは、この背景とみなす領域ａの動きベクトルに基づき判断できる。この領域ａにおける動きベクトルに基づき算出される動き量が所定量以上の場合は、ブレが発生しているとみなし、三脚を使用していないと判断する。一方、動き量が所定量以下である場合は、ブレが発生していないとみなし、三脚を使用していると判断する。

なお、背景とみなす領域は、状況に応じて、例えば、画面の上下端の周辺の領域や左右端の周辺の領域のみなど、適宜設定するようにしてもよい。また、例えば、画面の周辺の所定領域の幅を広げたり、または狭めたりしてもよい。

（２）背景の色について
背景の色は、背景の映像データの色により判断することができる。例えば、木々や芝生のある公園などで撮影した場合には、背景の色として「緑」が多いと考えられる。また、海などの水辺で撮影した場合には、背景の色として「青」が多いと考えられる。このように、背景には、撮影する場所に応じて代表的な色があることが多い。

そこで、撮影された映像データのうち、背景の領域の色を解析することにより、背景の代表的な色を抽出する。例えば、先ず、ＲＧＢ（Red/Green/Blue）値によって表される全ての色を、ＲＧＢ値の範囲に応じて、例えば、一般的によく知られた複数種類の色名に分類する。

次に、１フレームを所定の複数の領域に分割し、分割された領域のうち、背景と考えられる領域、例えば、画面の上端や下端の所定の領域内の画素のＲＧＢ値を検出する。検出されたＲＧＢ値から、背景と考えられる領域内のそれぞれの画素の色が、複数種類に分類された色名のうちどの色名に対応付けられるかを判断する。そして、最も多い画素が対応付けられた色名を背景の代表色とする。なお、領域を分割する方法としては、例えば、マクロブロックを用いてもよい。

（３）被写体の色について
被写体の色は、被写体の映像データの色により判断することができる。撮影された映像データのうち、被写体が映っている領域の色を解析することにより、被写体の代表的な色を抽出する。例えば、先ず、背景の色の場合と同様に、ＲＧＢ値によって表される全ての色を、ＲＧＢ値の範囲に応じて複数種類の色名に分類する。

次に、１フレームを所定の複数の領域に分割し、分割された領域のうち、被写体が映っていると考えられる領域、例えば、映像データの中心部分などの領域の画素についてＲＧＢ値を検出する。背景の色の場合と同様に、所定領域内の画素は、検出されたＲＧＢ値に基づき、複数種類に分類された色名から、ＲＧＢ値の範囲に応じて対応付けられる。そして、最も多い画素が対応付けられた色名を被写体の代表色とする。

図８は、屋外である人物を撮影した場合の画面の一例である。この例では、ＲＧＢ値によって表される全ての値を、ＲＧＢ値の範囲に応じて、一般的によく知られた色名、例えば、「黒」、「茶」、「赤」、「橙」、「黄」、「緑」、「青」、「紫」、「白」および「灰」の１０色に分類した場合について考える。

先ず、背景色の判断方法について説明する。図８に示す例の場合、例えば、空の部分や芝生の部分は、背景であると考えられる。すなわち、画面の上端の周辺の所定の領域（領域ｂ）や、画面の下端の周辺の所定領域（領域ｃ）は、背景の領域とみなすことができる。

例えば、領域ｂを背景の領域とみなした場合、領域ｂ内には、空と雲と木とがある。これらの画素のＲＧＢ値を検出すると、空の部分の画素が「青」、雲の部分の画素が「白」、木の部分の画素が「緑」に分類されると考えられる。また、領域ｂのうち、空と雲と木との割合は、それぞれ約７５％、約１０％、約１５％であると考えられる。領域ｂの画素が分類される色名で最も多いのは、１０種類に分類された色名のうち、「青」であると考えられるので、検出されたＲＧＢ値に基づき、領域ｂの色名は、例えば「青」であると判断することができる。

また、例えば、領域ｃを背景の領域とみなした場合、領域ｃ内には、芝生がある。これらの画素のＲＧＢ値を検出すると、芝生の部分の画素は、検出されたＲＧＢ値から「緑」に分類されると考えられる。領域ｃ内の殆どの画素は、１０種類に分類された色名のうち、「緑」に分類されると考えられるので、検出されたＲＧＢ値に基づき、領域ｃの色名は、例えば「緑」であると判断することができる。

次に、被写体色の判断方法について説明する。図８に示す例の場合、例えば、人物Ａの部分は、被写体であると考えられる。すなわち、画面の中心部分の所定領域（領域ｄ）は、被写体の領域とみなすことができる。例えば、領域ｄを被写体の領域とみなした場合、領域ｄ内には、人物Ａと芝生と空とがある。これらの画素のＲＧＢ値を検出すると、人物Ａの部分の画素が「赤」、芝生の部分の画素が「緑」、空の部分の画素が「青」に分類されると考えられる。また、領域ｄのうち、人物Ａと芝生と空との割合は、それぞれ約６０％、約３０％、約１０％であると考えられる。領域ｄの画素が分類される色名で最も多いのは、１０種類に分類された色名のうち、「赤」であると考えら得るので、検出されたＲＧＢ値に基づき、領域ｄの色名は、例えば「赤」であると判断することができる。

なお、背景または被写体の色の判断方法は、この例に限られない。例えば、背景の領域または被写体が映っていると考えられる領域内の画素のＲＧＢ値を累積し、累積されたＲＧＢ値を正規化することによって得られるＲＧＢ値に基づき、代表的な色を判断してもよい。

また、この例では、撮影された映像データから、予め背景の領域と被写体の領域とに分けて、それぞれの代表的な色を抽出するように説明したが、これはこの例に限られない。例えば、動きベクトルを用いて背景および被写体の領域を分けることによっても、それぞれの代表的な色を抽出することができる。

例えば、撮影された映像データのどの部分が背景で、どの部分が被写体であるかは、所定時間内におけるフレーム間のマクロブロックついて求められた動きベクトルに基づき判断することができる。

例えば、図９に示すように、人物Ａが移動する映像を撮影している場合について考える。この場合、人物Ａから少し離れた芝生は、殆ど動かないと考えられるため、この芝生が含まれるマクロブロック（領域ｅ）の動きベクトルに基づく動き量は小さいと考えられる。一方、人物Ａは動いているため、人物Ａが含まれるマクロブロック（領域ｆ）の動きベクトルに基づく動き量は大きいと考えられる。

このようにして、所定の領域における動きベクトルに基づき算出される動き量が所定量以下である場合は、そのマクロブロック内の映像データが背景であると判断し、動き量が所定量以上である場合は、そのマクロブロック内の映像データが被写体であると判断する。こうすることにより、撮影された映像データから背景の領域と被写体の領域とを判断することができる。そして、上述と同様の方法を用いることにより、背景および被写体の代表的な色を抽出することができる。

なお、上述の例では、ビデオカメラを固定した場合について説明したが、例えば、被写体を追って撮影した場合には、背景が動き、被写体が固定されると考えられるので、背景と被写体との関係は、上述と異なり、動きベクトルに基づく動き量が大きい部分が背景となり、また、動き量が小さい部分が被写体となると考えられる。

また、代表的な色の抽出方法は、これに限られず、例えば、背景や被写体の代表的な色を抽出する際に、複数の色名を代表的な色としてもよい。例えば、所定の画素数以上の画素が対応付けられた色名が複数ある場合は、最も多い画素が対応付けられた色名と、その次に多い画素が対応付けられた色名とを代表的な色としてもよい。

さらに、上述では、背景と被写体の映像データに分類して、それぞれの映像データの代表的な色を抽出したが、背景と被写体とに分けずに、１つのチャプタに対して１つの代表的な色を抽出するようにしてもよい。この場合、映像データの領域の分割を行わずに、１つのチャプタ内の全ての映像データについてのヒストグラムをＲＧＢそれぞれについて解析することで、代表的な色を抽出することが考えられる。

（４）明るさについて
明るさは、例えば、１フレーム（あるいは１フィールド）の全ての画素の明るさにより判断することができる。映像データの明るさは、撮像時の光量により異なり、例えば、晴れた日の日中に戸外で撮影した場合、映像データは、明るいものとなる。また、夕方や夜などに撮影した場合、映像データは、暗くなる。

そこで、例えば、１フレーム（あるいは１フィールド）の画素について輝度値を検出し、検出された輝度値の和を算出する。明るい映像データは、画面全体の輝度値の合計が高い値を示し、暗い映像データは、輝度値の合計が低い値を示す。そして、例えば、算出された輝度値の和に対して１または複数の閾値を所定に設け、輝度値の和を閾値により分類する。

（５）撮影対象について
撮影対象は、映像データから撮影されている人物を認識することにより判断できる。人相は、例えば、顔に対する目や鼻の位置や大きさなど、人物によって異なるという特徴がある。そこで、撮影された映像データから被写体の顔を解析することにより、撮影の対象を判断することができる。

以下、撮影対象を判断する方法について、概略的に説明する。先ず、撮影対象となる人物、例えばユーザや配偶者、子供などの人相の画像を予め登録しておく。次に、撮影された画像データに対して人物認識処理を行い、顔らしきイメージが認識されたら、人相の認識を行う。この、画像データから顔らしきイメージを認識する技術は、既に幾つかが実用化されている。人相の認識では、顔として認識された部分に複数の特徴点を設け、これら複数の特徴点の位置関係に基づき、人物画像マスタに登録済みの人相画像に対するスコアを算出し、スコアが所定値以上の登録済み画像を一致度が高い人相画像として抽出する。１つの画像データから一致度が所定値以上の人相画像が複数、得られた場合は、得られた複数の登録済み画像をそれぞれ抽出する。

このような人相画像の抽出技術としては、例えば、既に実用化されている、ガボールウェーブレット変換およびグラフマッチングを併用した顔認証技術や、摂動空間法および適用的領域混合マッチング法を併用した顔認証技術などを用いることができる。

なお、例えば、予め登録された人相画像に基づき、複数の人物が抽出された場合には、抽出された複数の人物を撮影対象としてもよい。

次に、音声データから抽出される特徴について説明する。音声データから得られる特徴で、有用であると考えられる情報は、以下の通りである。
（６）人声の有無
（７）音声レベル
（８）盛り上がりシーンの有無

これらの特徴は、音声のスペクトルや音声パターン、レベルなどを解析することにより抽出できる。

（６）人声の有無について
人声の有無は、収音された音声のスペクトルにより判断することができる。例えば、人声は、性別や年齢層によって、スペクトル分布や音圧レベルが異なるという特徴がある。音声データの統計的性質に基づくと、男女の発声には、それぞれ特徴があることが知られている。図１０に示すように、１００Ｈｚ程度の低い周波数帯に関して、男性の音圧レベルは、女性の音圧レベルに比べて高いことがわかる。

また、図１１及び図１２に示すように、男女の基本周波数及び発声頻度が高い周波数は、それぞれ１２５Ｈｚおよび２５０Ｈｚ付近であり、男性に比べて女性は、基本周波数が２倍程度であることがわかる。さらに、音声の音響的特性を決める物理的要因には、音源の特性、音道の共鳴特性及び口唇ないし鼻孔からの音波の放射特性がある。音声のスペクトルには、声道の共鳴に対応したいくつかの山、すなわちフォルマントがあり、例えば図１３に示すように、母音のフォルマントや子音のフォルマント等のおおよその領域がわかる。

このように、収音された音声から人声を抽出し、抽出された人声のスペクトル分布や音圧レベルを解析することにより、人声の有無を判断することができる。

また、例えば、特定の音声パターンを予め登録しておき、撮影時に収音された音声データと、予め登録した音声パターンとを比較することにより、特定の人物の音声の有無を判断することもできる。

例えば、ユーザや配偶者、子供など、撮影をする可能性のある人物の音声パターンを予め登録する。そして、撮影時に収音された音声データと、予め登録した音声パターンとを比較する。比較の結果、撮影時に収音された音声データの中から、登録してある音声パターンと同一の音声パターンが検出された場合には、撮影者が音声を発していると判断する。一方、撮影時に収音された音声データの中から、登録してある音声パターンと同一の音声パターンが検出されなかった場合には、撮影者は音声を発していないと判断する。

（７）音声レベルについて
音声レベルは、例えば、収音された音声のレベルによって判断することができる。音声レベルは、撮影する場所によって異なる。例えば、室内で撮影する場合、音声が壁などに反射するため、収音される音声は、平均的に高くなる。一方、屋外で撮影する場合、音声の反射の度合いが低く、また、地面などに音声が吸収されてしまうため、収音される音声は、平均的に低くなる。

そこで、例えば、収音された音声の音声レベルを検出し、検出された音声レベルの平均値を算出する。そして、算出された音声レベルの平均値に対して、１または複数の閾値を所定に設け、音声レベルの平均値を閾値により分類する。

（８）盛り上がりシーンの有無について
盛り上がりシーンの有無は、例えば、収音された音声の波形によって判断することができる。例えば、盛り上がるシーンでは、多人数による拍手や歓声が起こることが多いと考えられる。一方、盛り上がらないシーンでは、多人数による拍手や歓声は起こることは少ないと考えられる。そこで、収音された音声から多人数による拍手や歓声を検出することにより、盛り上がり場面の有無を検出することができる。

図１４を用いて、音声信号を用いて盛り上がりシーンを検出する例について説明する。この図１４の例の場合は、歓声、拍手および全体の音量に注目して、盛り上がっていると考えられる期間を盛り上がりシーンとして特定する。図１４Ａに示されるように、テレビジョン放送による音声データと映像データとが、時間軸に沿って、特徴抽出部１０に供給される。特徴抽出部１０では、これらの信号のうち音声信号を用いて、以下の３種類の解析を行う。

第１は、音量の時間当たりの変化量の解析である（図１４Ｂ参照）。例えば音声信号の波形のエンベロープを求め、このエンベロープを微分する。微分値の絶対値が閾値以上の時刻を求め、微分値が正の値の時刻を盛り上がりシーンの開始時刻ｔ_sの候補、負の値の時刻を終了時刻ｔ_eの候補としてメモリなどに記憶する。

第２は、音声信号を解析し、歓声の部分を抽出する（図１４Ｃ参照）。歓声は、特定の人声の集合であるから、人声に基づく所定の周波数ｆ_Vにピークを持つと考えられる。音声信号を、例えば中心周波数がｆ_Vであるバンドパスフィルタを用いてフィルタリングしてこの周波数ｆ_V近傍の周波数成分を抽出し、平均音量からの増加量を調べる。平均音量から増加している期間の先頭および終端の時刻を、盛り上がりシーンの開始時刻ｔ_sの候補、終了時刻ｔ_eの候補として、メモリなどに記憶する。

第３は、音声信号を解析し、拍手の部分を抽出する（図１４Ｄ参照）。拍手は、打撃音であって、人声の周波数ｆ_Vよりも高い周波数ｆ_Pにピークを持つと考えられる。音声信号を、例えば中心周波数がｆ_Pであるバンドパスフィルタを用いてフィルタリングしてこの周波数ｆ_P近傍の周波数成分を抽出し、平均音量からの増加量を調べる。平均音量から増加している期間の先頭および終端の時刻を、盛り上がりシーンの開始時刻ｔ_sの候補、終了時刻ｔ_eの候補として、メモリなどに記憶する。

音声信号に対してこれら３種類の解析を行い、解析結果に対してそれぞれ重み付けをした結果を演算し、演算結果に基づき盛り上がりシーンを判断する。図１４の例では、図１４Ｅに一例が示されるように、時刻ｔ_s1から時刻ｔ_e1までを第１の盛り上がりシーンとし、時刻ｔ_s2から時刻ｔ_e2までを第２の盛り上がりシーンとして、それぞれ判断している。

なお、上述では、チャプタ毎に特徴を抽出したが、複数のチャプタにより構成されるタイトルとしての特徴を抽出することもできる。この場合、例えば、タイトル内の全てのチャプタで抽出された特徴の平均値を用いるようにしてもよい。

さらに、これに限らず、タイトル全体でそれぞれの特徴抽出を行い、特徴データを生成するようにしてもよい。

次に、フラグリストについて説明する。図１５は、フラグリストの一例を示す。フラグリストは、上述のように抽出されたそれぞれの特徴の内容と、解析結果に応じて設定されるフラグとを表している。図１５に示す「項目」は、抽出された特徴に対応付けられる番号を示す。「内容」は、特徴抽出部１０で抽出される特徴の内容を示す。「フラグ」は、それぞれの特徴内容に対する解析結果に応じて設定される値を示す。

項目「１」は、三脚使用の有無を示す。「三脚使用」は、例えば、三脚を使用している場合と使用していない場合とに分類される。例えば、三脚を使用していないと判断された場合は、フラグに値「０」が設定され、三脚を使用していると判断された場合は、フラグに値「１」が設定される。

項目「２」は、背景色を示す。「背景色」は、この例においては、一般的によく知られている色名、例えば、「黒」、「茶」、「赤」、「橙」、「黄」、「緑」、「青」、「紫」、「白」および「灰」の１０色に分類され、それぞれの色名に対してフラグに値「０」、「１」、「２」、「３」、「４」、「５」、「６」、「７」、「８」および「９」がそれぞれ対応付けられる。例えば、背景の色が黒であると判断された場合は、フラグに値「０」が設定され、緑であると判断された場合は、フラグに値「５」が設定される。

項目「３」は、被写体色を示す。「被写体色」は、この例においては、背景色の分類と同様に、一般的によく知られている色名、例えば、「黒」、「茶」、「赤」、「橙」、「黄」、「緑」、「青」、「紫」、「白」および「灰」の１０色に分類され、それぞれの色に対してフラグに値「０」、「１」、「２」、「３」、「４」、「５」、「６」、「７」、「８」および「９」がそれぞれ対応付けられる。例えば、被写体の色が黒であると判断された場合は、フラグの値「０」が設定され、赤であると判断された場合は、フラグに値「２」が設定される。

項目「４」は、明るさを示す。「明るさ」は、例えば、ビデオカメラが撮影時にとり得る輝度値の範囲を複数の閾値によって段階的に分類している。この例では、輝度値に対して９個の閾値を設定し、輝度値を１０段階に分類している。例えば、算出された輝度値の和が一番低い閾値以下である場合は、フラグに値「０」が設定され、輝度値の和が一番高い閾値以上である場合は、フラグに値「９」が設定される。

項目「５」は、撮影対象を示す。「撮影対象」は、例えば、予め登録されている人相画像に基づき、撮影対象の人物に対してフラグに値が対応付けられる。この例では、「ユーザ」、「配偶者」、「子供」、「父」、「母」、「友人Ａ」、「友人Ｂ」に対して、それぞれフラグに値「０」、「１」、「２」、「３」、「４」、「５」、「６」が対応付けられる。例えば、撮影対象がユーザであると判断した場合は、フラグに値「０」が設定され、撮影対象が子供であると判断した場合には、フラグに値「２」が設定される。

項目「６」は、撮影者音声の有無を示す。「撮影者音声」は、例えば、予め登録されている特定の人物の音声パターンがある場合とない場合とに分類される。例えば、撮影者の音声がないと判断された場合は、フラグに値「０」が設定され、撮影者の音声があると判断された場合は、フラグに値「１」が設定される。

項目「７」は、撮影時の音声レベルを示す。「音声レベル」は、例えば、ビデオカメラが撮影時にとり得る音声レベルの範囲を複数の閾値によって段階的に分類している。この例では、音声レベルに対して９個の閾値を設定し、音声レベルを１０段階に分類している。例えば、算出された音声レベルの平均値が一番低い閾値以下である場合は、フラグに値「０」が設定され、音声レベルの平均値が一番高い閾値以上である場合は、フラグに値「９」が設定される。

項目「８」は、盛り上がりシーンの有無を示す。「盛り上がりシーン」は、例えば、盛り上がるシーンがある場合とない場合とに分類される。例えば、盛り上がりシーンがないと判断された場合は、フラグに値「０」が設定され、盛り上がりシーンがあると判断された場合は、フラグに値「１」が設定される。

なお、図１５のフラグリストは一例であって、これはこの例に限られない。例えば、図１５に記載された項目以外にも特徴となる項目を持たせてもよいし、項目の数がこれより少なくてもよい。

次に、上述のように抽出された特徴に基づいて、特徴情報を生成する方法について説明する。図１６は、特徴リストの一例を示す。特徴リストは、特徴抽出部１０で抽出された特徴と図１５に示すフラグリストとを照合し、抽出された特徴の「項目」と、その項目に対して設定されたフラグの「値」とが対応付けられたリストである。

特徴リストのそれぞれの項目の値の決定方法について、具体的な例を挙げて説明する。例えば、「天気の良い日中に、芝生におおわれた公園で遊んでいる、赤い服を着た撮影者の子供を、ビデオカメラを手に持ちながら、撮影者と子供とが会話をしながら」撮影した映像について考える。この時、抽出される特徴に対するフラグは、次のようになる。

三脚使用の有無（項目「１」）については、「ビデオカメラを手に持って撮影している」ことから、撮影された映像には、ブレが発生すると考えられる。そのため、特徴抽出部１０では、ブレが検出され、三脚を使用していないと判断されるので、項目「１」の値を「０」とする。

背景色（項目「２」）は、「芝生におおわれた公園で遊んでいる」ことから、撮影された映像のうち、芝生を含む領域が背景とみなす領域になると考えられる。背景とみなす領域では、図１５に示す１０色に分類された色名のうち、緑に対応付けられる画素が最も多いと考えられる。そのため、撮影された映像データの背景色は、緑であると判断されるので、項目「２」の値を「５」とする。

被写体色（項目「３」）は、「赤い服の子供」を撮影していることから、撮影された映像のうち、子供を含む領域が被写体とみなす領域になると考えられる。被写体とみなす領域では、図１５に示す１０色に分類された色名のうち、赤に対応付けられる画素が最も多いと考えられる。そのため、撮影された映像データの被写体色は、赤であると判断されるので、項目「３」の値を「２」とする。

明るさ（項目「４」）は、「天気の良い日中」であることから、撮影された映像データの画素の輝度値の和は、高い値を示すと考えられる。そのため、映像データの輝度値の和に基づき、明るさは、かなり明るいと判断されるので、項目「４」の値を「８」とする。撮影対象（項目「５」）は、「撮影者の子供」を撮影していることから、予め登録されている子供の人相画像に近い人相の人物が検出されると考えられる。そのため、撮影対象が子供であると判断されるので、項目「５」の値を「２」とする。

撮影者音声（項目「６」）は、「撮影者の子供と会話しながら」撮影していることから、収音された音声から、予め登録されている撮影者の音声パターンが検出されると考えられる。そのため、撮影者の音声があると判断されるので、項目「６」の値を「１」とする。音声レベル（項目「７」）は、「公園で遊んでいる」ことから、屋外での撮影であり、音声の反射などが少ないと考えられる。そのため、特徴抽出部１０では、音声レベルの平均値に基づき、音声レベルは、標準的であると判断されるので、項目「７」の値を「５」とする。盛り上がりシーンの有無（項目「８」）は、「公園で遊んでいる撮影者の子供」を撮影していることから、多人数による拍手や歓声の音声は、収音されないと考えられる。そのため、収音された音声には、特定の周波数にピークを持つ音声はないと考えられ、盛り上がりシーンはないと判断されるので、項目「８」の値を「０」とする。

このようにして、抽出されたそれぞれの特徴に対するフラグの値が設定され、これらの値が記述された特徴情報は、メタデータとして、記録媒体に記録される。

なお、上述の特徴リストは一例であって、これはこの例に限られない。例えば、フラグリストの項目に応じて、生成される特徴リストに項目を多く持たせてもよいし、少なくてもよい。

次に、記録媒体に記録されたＡＶデータを再生する際の検索方法について、より詳細に説明する。この発明の実施の一形態では、フラグリストに記述された特徴や撮影日時に基づき検索メニュー画面を作成し、作成された検索メニュー画面に表示される項目について、フラグを選択することにより、検索を行う。そして、検索メニュー画面で入力された各項目のフラグと一致するタイトルやチャプタを探し、該当するタイトルやチャプタを一覧表示して、選択できるようにしている。

図１７は、検索メニュー画面２００の一例を示す。検索メニュー画面２００には、例えば、検索項目２０１、フラグ表示領域２０２、プルダウン表示ボタン２０３、検索開始ボタン２０４および単位選択項目２０５が表示される。検索項目２０１は、映像や音声の特徴や撮影日時といった、検索条件となる項目を表す。

検索項目２０１のうち、特徴を選択する項目としては、例えば、図１５に示すフラグリストに記述された特徴に基づき、「三脚」、「背景色」、「被写体色」、「明るさ」、「撮影対象」、「撮影者音声」、「音声レベル」および「盛り上がり」が表示される。そして、これらの特徴に対して、フラグリストに記述されたフラグが設定される。

また、検索項目２０１のうち、撮影日時を選択する項目としては、例えば、カメラデータの撮影日時データに基づき、「撮影時期」、「季節」および「時間帯」が表示される。「撮影時期」の項目は、例えば、２００３年や２００４年など、撮影した年をフラグとして設定することができる。「季節」の項目は、例えば、春や夏など、撮影した季節をフラグとして設定することができる。例えば、３月〜５月に撮影されたタイトルまたはチャプタには「春」、６月〜８月に撮影されたタイトルまたはチャプタには「夏」、９月〜１１月に撮影されたタイトルまたはチャプタには「秋」、１２月〜２月に撮影されたタイトルまたはチャプタには「冬」のフラグがそれぞれ設定される。

「時間帯」の項目は、例えば、午前や午後など、撮影した時間帯をフラグとして設定することができる。例えば、６時から１２時に撮影されたタイトルまたはチャプタには「午前」、１２時から１８時までに撮影されたタイトルまたはチャプタには「午後」、１８時から６時までに撮影されたタイトルまたはチャプタには「夜」のフラグがそれぞれ設定される。

なお、撮影日時は、撮影した時間まで細かく限定すると、検索結果が得られない可能性が高い。そのため、例えば、上述のように「季節」や「時間帯」など、幅を持たせることで、検索の対象を増やすことができる。

単位選択項目２０５は、検索の単位がタイトル単位であるか、チャプタ単位であるかを選択する項目である。

フラグ表示領域２０２は、それぞれの検索項目２０１に設けられ、検索項目２０１で現在選択されているフラグとフラグに対応付けられた名称とを表示する。なお、フラグの値は、省略することができる。プルダウン表示ボタン２０３は、それぞれの検索項目２０１に設けられ、検索項目２０１に設定されているフラグをプルダウン形式で表示するためのボタンである。検索開始ボタン２０４は、各検索項目２０１のフラグを選択した後、検索を開始するためのボタンである。

次に、検索項目２０１に対してフラグを選択する方法について、図１８を参照して、具体的に説明する。ここでは、例えば、背景色の項目を選択し、フラグとして「青」を選択する場合について説明する。

例えば、操作部２４であるリモートコントロールコマンダ（以下、リモコンと適宜称する）に設けられた十字キーを操作してカーソルを移動させて「背景色」の検索項目２０１のプルダウンボタン２０３を選択し、リモコンに設けられた決定キーを押すと、「背景色」の検索項目２０１に設定されているフラグ一覧２０６がプルダウン形式で表示される。

フラグ一覧２０６には、フラグリストに設定されているフラグとフラグに対応付けられた名称とが一覧表示される。リモコンの十字キーを操作して、表示されたフラグ一覧２０６の中から「青」のフラグを選択し、決定キーを押すと、フラグ一覧２０６が閉じ、「背景色」の項目にフラグ「６」が設定され、フラグ表示領域２０２に選択されたフラグの名称（青）が表示される。このようにして、他の検索項目２０１についても上述と同様に、設定する検索項目２０１を選択し、フラグを決定する。

なお、フラグ一覧２０６には、フラグリストに記述されているフラグの他に、「選択なし」が表示される。フラグ一覧２０６の中から「選択なし」を選択した場合、検索の際にその検索項目２０１を無視して検索を行うことができる。

全ての検索項目２０１について、フラグを設定した後、十字キーを操作して、カーソルを検索開始ボタン２０４に移動させて検索開始ボタン２０４を選択し、決定キーを押すことにより、それぞれの検索項目２０１に設定されたフラグに基づき、検索が開始される。検索は、選択された項目についてａｎｄ検索が行われる。なお、検索は、ａｎｄ検索に限らず、例えば、ｏｒ検索でもよい。

検索が完了すると、上述のようにして設定された全ての検索項目２０１におけるフラグに合致するタイトルまたはチャプタの一覧が表示される。図１９は、検索結果画面２１０の一例を示す。検索結果画面２１０には、検索時に設定した検索項目２０１のフラグに合致した、タイトルまたはチャプタのサムネイル画像２１１、２１１、・・・とそのタイトルまたはチャプタの日付２１２が一覧表示される。

検索結果として一覧表示されたタイトルまたはチャプタを再生するには、リモコンの十字キーを操作することにより、カーソルを移動させ、検索結果として表示されているサムネイル画像２１１、２１１、・・・の中から目的のサムネイル画像を選択する。サムネイル画像を選択後、リモコンの決定キーを押すことにより、ＡＶデータが再生される。

検索結果画面２１０に一覧表示の中に、所望のタイトルまたはチャプタがない場合には、十字キーを操作してカーソルを再検索ボタン２１３に移動させ、決定キーを押すことにより、検索メニュー画面２００に戻り、再度検索を行うことができる。

なお、検索の結果、多数のタイトルまたはチャプタが表示された場合は、絞り込み検索ボタン２１４を選択することにより、表示された内容に対して、さらに検索を行い、タイトルまたはチャプタを絞り込むことができる。絞り込み検索ボタン２１４を選択した場合、検索条件が設定された状態の検索メニュー画面２００が再度表示され、例えば、選択されていない項目についてフラグを選択したり、選択されているフラグを変更したりすることができる。

次に、図２０のフローチャートを用いて、この発明の実施の一形態によるタイトルまたはチャプタの検索方法について説明する。ここでは、選択された項目についてａｎｄ検索を行う場合を例にとって説明する。先ず、ステップＳ１０で、メタデータ管理部２１は、ＨＤＤ２０からフラグリストを読み出し、読み出されたフラグリストに記述された項目に基づき、検索メニュー画面２００を作成する。作成された検索メニュー画面２００は、ＯＳＤ（On Screen Display）機能により、外部に接続された表示装置などに表示される。

ユーザの操作部２４への操作により、特徴および日時に関する項目のフラグが選択され、検索開始ボタンが押されると、ステップＳ１１において、各項目のフラグが選択されたか否かが判断される。フラグが選択されたと判断された場合、処理は、ステップＳ１２に移行する。一方、検索メニューから項目が全て選択されていないと判断された場合は、処理は、Ｓ１０に戻る。

ステップＳ１２では、メタデータ管理部２１は、検索メニュー画面２００で選択された検索項目２０１のフラグに基づき、メタデータデータベースを検索する。ステップＳ１３では、ステップＳ１２における検索の結果、検索項目２０１で選択したフラグを満たすチャプタがあるか否かが判断される。選択された全てのフラグを満たすチャプタがあると判断された場合、処理は、ステップＳ１４に移行する。一方、選択された全てのフラグを満たすチャプタがない判断された場合、処理は、ステップＳ１０に戻る。

ステップＳ１４では、検索するＡＶデータの単位が判断される。検索メニュー画面２００の単位選択項目２０５で選択された単位がタイトルである場合、処理は、ステップＳ１５に移行し、特徴および日付が合致するチャプタが含まれたタイトルを抽出し、当該タイトルの先頭チャプタのフレーム番号を取得する。一方、検索の単位がチャプタである場合、処理は、ステップＳ１６に移行し、特徴および日付が合致するチャプタと、そのチャプタが含まれるタイトルとを抽出し、当該チャプタのフレーム番号と、そのチャプタが含まれるタイトルの先頭チャプタのフレーム番号とを取得する。

ステップＳ１７において、メタデータ管理部２１は、取得したフレーム番号に基づき、例えば、抽出されたチャプタの先頭フレームや５秒後のフレーム画像をＨＤＤ２０から読み出し、サムネイル画像作成部２６に供給し、サムネイル画像作成部２６で所定に間引いてサムネイル画像を作成する。そして、サムネイル画像作成部２６は、作成されたサムネイル画像と日付情報とを並べて検索結果画面２１０を作成する。作成された検索結果画面２１０は、ＯＳＤ機能により、表示装置などに表示される。

なお、検索の結果、一覧表示の中に所望のタイトルまたはチャプタがない場合には、再検索ボタン２１３を選択し、検索メニュー画面２００を表示させて、再度検索を行うことができる。

このように、抽出された特徴をフラグに置き換えてメタデータを生成することにより、メタデータの容量を小さくすることができる。また、検索を行う際には、メタデータに記述されたフラグに基づき検索を行うため、例えばキーワードによりテキスト情報に対して全文一致検索を行う場合と比べて、高速で検索することができる。

なお、この発明は、上述したこの発明の実施の一形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。例えば、上述では、記録媒体としてハードディスクを用いた例について説明したが、これに限らず、記録媒体として、記録型ＤＶＤや半導体メモリなどを用いることができる。

また、例えば、動画だけでなく、静止画について特徴を抽出するようにしてもよい。

この発明の実施の一形態による記録再生装置の使用形態を示す略線図である。この発明の実施の一形態による記録再生装置の一例の構成を示すブロック図である。記録信号処理部における圧縮符号化を行う回路の一例の構成を示すブロック図である。ＡＶデータの具体例を示す略線図である。タイトルリストの一例を示す略線図である。フレームリストの一例を示す略線図である。撮影された映像から三脚の使用有無を抽出する方法を説明するための略線図である。撮影された映像から色を抽出する方法を説明するための略線図である。撮影された映像から動きベクトルを用いて被写体と背景とを判断する方法を説明するための略線図である。スペクトル解析による男女の発声の特徴を示す略線図である。スペクトル解析による男女の発声の特徴を示す略線図である。スペクトル解析による男女の発声の特徴を示す略線図である。発声の特徴を示す略線図である。収音された音声から盛り上がりシーンを抽出する方法を説明するための略線図である。フラグリストの一例を示す略線図である。特徴リストの一例を示す略線図である。検索時のメニュー画面の一例を示す略線図である。検索時のメニュー画面の一例を示す略線図である。検索結果画面の一例を示す略線図である。検索時の流れを示すフローチャートである。従来の記録再生装置において、テレビジョン放送を受信する場合の一例の構成を示すブロック図である。従来の記録再生装置において、ビデオカメラから入力されたＡＶデータを記録する場合の一例の構成を示すブロック図である。

符号の説明

１記録再生装置
１０特徴抽出部
１１デコード部
１２入力処理部
１３ネットワークインタフェース
１４メタデータ生成部
１５記録信号処理部
２０ＨＤＤ
２１メタデータ管理部
２２再生信号処理部
２３出力処理部
２４操作部
２５ＣＰＵ
２６サムネイル画像作成部
２００検索メニュー画面
２１０検索結果画面

Claims

映像信号を入力する入力部と、
上記映像信号により表示される映像の視覚的な特徴を上記映像信号に基づき抽出する特徴抽出部と、
上記特徴抽出部で抽出された上記特徴と上記映像信号とを関連付けて記録媒体に記録する記録制御部と
を有し、
上記特徴に基づき、上記記録媒体に記録された上記映像信号を検索するようにした
ことを特徴とする記録再生装置。
請求項１に記載の記録再生装置において、
上記映像信号は、カメラ一体型ビデオ信号記録装置から出力された映像信号であることを特徴とする記録再生装置。
請求項１に記載の記録再生装置において、
上記特徴抽出部は、上記映像信号により表示される撮像対象の動きに基づき上記特徴を抽出することを特徴とする記録再生装置。
請求項１に記載の記録再生装置において、
上記特徴抽出部は、上記映像信号により表示される色に基づき上記特徴を抽出することを特徴とする記録再生装置。
請求項１に記載の記録再生装置において、
上記特徴抽出部は、上記映像信号により表示される映像の明るさに基づき上記特徴を抽出することを特徴とする記録再生装置。
請求項１に記載の記録再生装置において、
上記入力部は、上記映像信号と対応した音声信号がさらに入力され、
上記特徴抽出部は、上記音声信号による聴覚的な特徴をさらに抽出し、
上記記録制御部は、上記特徴抽出部で抽出された上記特徴と上記映像信号とを関連付けて上記記録媒体に記録するようにした
ことを特徴とする記録再生装置。
請求項６に記載の記録再生装置において、
上記特徴抽出部は、上記音声信号に含まれる人声の音声パターンに基づき上記特徴を抽出することを特徴とする記録再生装置。
請求項６に記載の記録再生装置において、
上記特徴抽出部は、上記音声信号のレベルに基づき上記特徴を抽出することを特徴とする記録再生装置。
請求項６に記載の記録再生装置において、
上記特徴抽出部は、上記音声信号の周波数特性に基づき上記特徴を抽出することを特徴とする記録再生装置。
請求項１に記載の記録再生装置において、
上記記録制御部は、上記特徴をフラグとして上記記録媒体に記録するようにしたことを特徴とする記録再生装置。
請求項１０に記載の記録再生装置において、
上記記録媒体に記録された映像信号を、上記特徴抽出部で抽出可能なフラグのリストを用いて検索を行う検索部をさらに有することを特徴とする記録再生装置。
請求項１１に記載の記録再生装置において、
上記検索部は、上記フラグのリストに基づき、上記特徴の項目を一覧表示する検索画面を作成し、
上記検索画面で選択された上記特徴の項目において、上記フラグに対応する名称を一覧表示するようにしたことを特徴とする記録再生装置。
映像信号を入力部に入力し、
上記映像信号により表示される映像の視覚的な特徴を上記映像信号に基づき抽出し、
上記抽出された特徴と上記映像信号とを関連付けて記録媒体に記録し、
上記特徴に基づき、上記記録媒体に記録された上記映像信号を検索するようにした
ことを特徴とする記録再生方法。
映像信号を入力する入力部と、
上記映像信号により表示される映像の視覚的な特徴を上記映像信号に基づき抽出する特徴抽出部と、
上記特徴抽出部で抽出された上記特徴と上記映像信号とを関連付けて記録媒体に記録する記録制御部と
を有する
ことを特徴とする記録装置。
映像信号を入力部に入力し、
上記映像信号により表示される映像の視覚的な特徴を上記映像信号に基づき抽出し、
上記抽出された特徴と上記映像信号とを関連付けて記録媒体に記録するようにした
ことを特徴とする記録方法。