JP2008020767A

JP2008020767A - 記録再生装置および方法、プログラム、並びに記録媒体

Info

Publication number: JP2008020767A
Application number: JP2006193676A
Authority: JP
Inventors: Noboru Murabayashi; 昇村林
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2006-07-14
Filing date: 2006-07-14
Publication date: 2008-01-31

Abstract

【課題】記録されたコンテンツをより効率的に視聴できるようにする。
【解決手段】音声信号解析部２６１は、音声認識を行い、音声信号をテキスト情報に変換する。形態素解析部２６２は、テキスト情報に対して形態素解析を行って、単語を抽出し、記憶部２６４に記憶させる。記憶部２６４は、供給された単語とともに、その単語の出現回数を記録する。キーワード検出部２６３は、単語の出現回数に基づいて、キーワードとなる単語をその単語の出現回数と対応づけて評価値処理部２８１に出力する。テキスト情報抽出部２７１は、ホームページに含まれるテキスト情報を抽出し、同様に、キーワード検出部２７３がキーワードを出力する。評価値処理部２８１は、キーワード検出部２７３からのキーワードと、キーワード検出部２６３からのキーワードとの一致の度合いを表す評価値を算出し、その評価値を、キーワードに対応するシーンの評価値として出力する。
【選択図】図４

Description

本発明は、記録再生装置および方法、プログラム、並びに記録媒体に関し、特に、記録されたコンテンツをより効率的に視聴できるようにする記録再生装置および方法、プログラム、並びに記録媒体に関する。

近年、放送番組などをＭＰＥＧ（Moving Picture Coding Experts Group）などの圧縮信号処理により所定の信号処理を行ってハードディスク（ＨＤＤ）など所定の情報信号記録媒体に記録する記録装置（ハードディススクレコーダ、ＨＤＤレコーダ）が広く普及している。

今後、記録媒体の大容量、低価格化、デジタル放送による画像音声コンテンツの多様化、ホームサーバのさらなる普及その他の要因により、画像音声コンテンツの記録蓄積量はますます増大すると予想される。

画像音声コンテンツの記録蓄積量の増大により、ユーザは、記録媒体のコストなどを考慮することなく、より気軽にコンテンツを、大量に記録することが可能となる。このように、コンテンツを大量に記録することが可能となると、例えば、毎週、毎日連続して放送されるコンテンツなどを、数回分記録しておき、時間のあるときに、記録されたコンテンツをまとめて視聴するなど、ユーザによるコンテンツの楽しみ方（視聴のしかた）についても変化してくるものと考えられる。

そこで、蓄積された大量のコンテンツを効率よく視聴する技術が期待されている。例えば、画像音声情報信号から所定の特徴抽出処理を行い、情報信号の構造を解析し、所定のセグメントなどの区間に分け、その区間毎に所定の評価値処理を行い、その評価値に応じて、再生制御を行うことにより、長時間のコンテンツを短時間で再生する処理が考えられる。

また、このように情報信号の構造を解析することにより、動画像データからダイジェストを生成することも提案されている。
特開２００２−１９９３３３号公報

しかしながら、記録されるコンテンツの量が多くなり、例えば、毎日連続して放送されるコンテンツなどにおいて、ユーザが週末にまとめて一週間分のコンテンツを視聴する場合、記録したコンテンツのダイジェストだけを視聴しても、一週間分のコンテンツの内容を把握できないこともある。

すなわち、画像の特徴量などに基づいて代表画像を特定してダイジェストを生成する従来の方式では、連続して放送されるコンテンツのストーリーを把握するなどの点では、必ずしも有効な方式とはいえない。

本発明はこのような状況に鑑みてなされたものであり、記録されたコンテンツをより効率的に視聴できるようにするものである。

本発明の一側面は、コンテンツを記録または再生する記録再生装置であって、記録または再生するコンテンツを紹介する情報を含むデータから、テキスト情報を抽出する抽出手段と、前記抽出手段により抽出されたテキスト情報を形態素解析して予め定められた品詞の単語を検出する第１の検出手段と、前記第１の検出手段により検出された単語、およびその単語が検出された回数の情報を出力する第１の出力手段と、記録または再生するコンテンツの音声信号または音声に関連する情報を、テキスト情報に変換する音声情報変換手段と、前記音声情報変換手段による変換により得られたテキスト情報を形態素解析して予め定められた品詞の単語を検出する第２の検出手段と、前記第２の検出手段により検出された単語、およびその単語が検出された回数の情報を、前記コンテンツを構成するシーン毎に出力する第２の出力手段と、前記第１の出力手段から出力された情報と、前記第２の出力手段から出力された情報とを比較して両者の一致の度合いに基づいて評価値を算出し、前記コンテンツを構成するシーンを特定する情報と前記評価値とを対応付けて出力する評価値出力手段とを備える記録再生装置である。

前記音声情報変換手段は、前記コンテンツのクローズドキャプションを、テキスト情報に変換することで、記録または再生するコンテンツの音声に関連する情報を、テキスト情報に変換するようにすることができる。

ネットワークに接続するネットワーク接続手段をさらに備え、前記ネットワークに接続され、前記コンテンツに関する情報を掲載したホームページを記憶するサーバから前記ホームページのデータを、前記コンテンツを紹介する情報を含むデータとして取得するようにすることができる。

前記シーン毎に前記コンテンツの画像の特徴量を抽出する特徴量抽出手段をさらに備え、前記評価値出力手段は、前記ホームページのデータに含まれる画像データの特徴量と、前記特徴量抽出手段により抽出された前記コンテンツの画像の特徴量に基づいて、前記シーンに対応する前記評価値を変更するようにすることができる。

前記コンテンツに関する情報を掲載したホームページのアドレスに関する情報は、前記コンテンツが記録予約されるときに特定されるようにすることができる。

デジタル放送として放送されるコンテンツを受信する受信手段をさらに備え、前記コンテンツのデータとともに受信される前記コンテンツのメタデータを、前記コンテンツを紹介する情報を含むデータとして取得するようにすることができる。

前記コンテンツを再生する場合、前記シーンの評価値に基づいて、前記シーンの再生速度を制御するようにすることができる。

本発明の一側面は、コンテンツを記録または再生する記録再生装置の記録再生方法であって、記録または再生するコンテンツを紹介する情報を含むデータから、テキスト情報を抽出し、前記抽出されたテキスト情報を形態素解析して予め定められた品詞の単語を検出し、前記検出された単語、およびその単語が検出された回数の情報である第１の情報を出力し、記録または再生するコンテンツの音声信号または音声に関連する情報を、テキスト情報に変換し、前記変換されて得られたテキスト情報を形態素解析して予め定められた品詞の単語を検出し、前記検出された単語、およびその単語が検出された回数の情報を、前記コンテンツを構成するシーン毎に、第２の情報として出力し、前記第１の情報と、前記第２の情報とを比較して両者の一致の度合いに基づいて評価値を算出し、前記コンテンツを構成するシーンを特定する情報と前記評価値とを対応付けて出力するステップを含む記録再生方法である。

本発明の一側面は、コンテンツを記録または再生する記録再生装置に記録または再生の処理を実行させるプログラムであって、記録または再生するコンテンツを紹介する情報を含むデータから、テキスト情報の抽出を制御し、前記抽出されたテキスト情報を形態素解析して予め定められた品詞の単語の検出を制御し、前記検出された単語、およびその単語が検出された回数の情報である第１の情報の出力を制御し、記録または再生するコンテンツの音声信号または音声に関連する情報の、テキスト情報への変換を制御し、前記変換されて得られたテキスト情報を形態素解析して予め定められた品詞の単語の検出を制御し、前記検出された単語、およびその単語が検出された回数の情報を、前記コンテンツを構成するシーン毎に、第２の情報として出力するように制御し、前記第１の情報と、前記第２の情報とを比較して両者の一致の度合いに基づいて評価値を算出し、前記コンテンツを構成するシーンを特定する情報と前記評価値とを対応付けて出力するように制御するステップを含むコンピュータが読み取り可能なプログラムである。

本発明の一側面においては、記録または再生するコンテンツを紹介する情報を含むデータから、テキスト情報が抽出され、前記抽出されたテキスト情報を形態素解析して予め定められた品詞の単語が検出され、前記検出された単語、およびその単語が検出された回数の情報である第１の情報が出力される。また、記録または再生するコンテンツの音声信号または音声に関連する情報が、テキスト情報に変換され、前記変換されて得られたテキスト情報を形態素解析して予め定められた品詞の単語が検出され、前記検出された単語、およびその単語が検出された回数の情報が、前記コンテンツを構成するシーン毎に、第２の情報として出力され、前記第１の情報と、前記第２の情報とを比較して両者の一致の度合いに基づいて評価値を算出し、前記コンテンツを構成するシーンを特定する情報と前記評価値とが対応付けて出力される。

本発明によれば、記録されたコンテンツをより効率的に視聴できるようにすることができる。

以下に本発明の実施の形態を説明するが、本発明の構成要件と、明細書または図面に記載の実施の形態との対応関係を例示すると、次のようになる。この記載は、本発明をサポートする実施の形態が、明細書または図面に記載されていることを確認するためのものである。従って、明細書または図面中には記載されているが、本発明の構成要件に対応する実施の形態として、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その構成要件に対応するものではないことを意味するものではない。逆に、実施の形態が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。

本発明の一側面の記録再生装置は、記録または再生するコンテンツを紹介する情報を含むデータから、テキスト情報を抽出する抽出手段（例えば、図４のテキスト情報抽出部２７１）と、前記抽出手段により抽出されたテキスト情報を形態素解析して予め定められた品詞の単語を検出する第１の検出手段（例えば、図４の形態素解析部２６２）と、前記第１の検出手段により検出された単語、およびその単語が検出された回数の情報を出力する第１の出力手段（例えば、図４のキーワード検出部２６３）と、記録または再生するコンテンツの音声信号または音声に関連する情報を、テキスト情報に変換する音声情報変換手段（例えば、図４の音声信号解析部２６１）と、前記音声情報変換手段による変換により得られたテキスト情報を形態素解析して予め定められた品詞の単語を検出する第２の検出手段（例えば、図４の形態素解析部２６２）と、前記第２の検出手段により検出された単語、およびその単語が検出された回数の情報を、前記コンテンツを構成するシーン毎に出力する第２の出力手段（例えば、図４のキーワード検出部２６３）と、前記第１の出力手段から出力された情報と、前記第２の出力手段から出力された情報とを比較して両者の一致の度合いに基づいて評価値を算出し、前記コンテンツを構成するシーンを特定する情報と前記評価値とを対応付けて出力する評価値出力手段（例えば、図４の評価値処理部）とを備える。

この記録再生装置は、ネットワーク（例えば、図２のインターネット１０３）に接続するネットワーク接続手段（例えば、図２のネットワークI/F系２２１）をさらに備え、前記ネットワークに接続され、前記コンテンツに関する情報を掲載したホームページを記憶するサーバ（例えば、図１のサーバ１０２）から前記ホームページのデータを、前記コンテンツを紹介する情報を含むデータとして取得するようにすることができる。

この記録再生装置は、前記シーン毎に前記コンテンツの画像の特徴量を抽出する特徴量抽出手段（例えば、図２の特徴抽出処理系２０８または特徴データ検出系２１６）をさらに備え、前記評価値出力手段は、前記ホームページのデータに含まれる画像データの特徴量と、前記特徴量抽出手段により抽出された前記コンテンツの画像の特徴量に基づいて、前記シーンに対応する前記評価値を変更するようにすることができる。

この記録再生装置は、デジタル放送として放送されるコンテンツを受信する受信手段（例えば、記録再生装置１０１のアンテナ）をさらに備え、前記コンテンツのデータとともに受信される前記コンテンツのメタデータを、前記コンテンツを紹介する情報を含むデータとして取得するようにすることができる。

本発明の一側面の記録再生方法は、コンテンツを記録または再生する記録再生装置の記録再生方法であって、記録または再生するコンテンツを紹介する情報を含むデータから、テキスト情報を抽出し（例えば、図１４のステップS２２１の処理）、前記抽出されたテキスト情報を形態素解析して予め定められた品詞の単語を検出し（例えば、図１４のステップS２２３の処理）、前記検出された単語、およびその単語が検出された回数の情報である第１の情報を出力し（例えば、図１４のステップS２２５の処理）、記録または再生するコンテンツの音声信号または音声に関連する情報を、テキスト情報に変換し（例えば、図１５のステップS２４２の処理）、前記変換されて得られたテキスト情報を形態素解析して予め定められた品詞の単語を検出し（例えば、図１５のステップS２４３の処理）、前記検出された単語、およびその単語が検出された回数の情報を、前記コンテンツを構成するシーン毎に、第２の情報として出力し（例えば、図１５のステップS２４５の処理）、前記第１の情報と、前記第２の情報とを比較して両者の一致の度合いに基づいて評価値を算出し、前記コンテンツを構成するシーンを特定する情報と前記評価値とを対応付けて出力する（例えば、図１３のステップS２０３の処理）ステップを含む。

以下、図面を参照して、本発明の実施の形態について説明する。

図１は本発明を適用したコンテンツ記録再生システム１００の一実施の形態に係る構成例を示すブロック図である。記録再生装置１０１は、例えば、DVD（Digital Versatile Disk）レコーダ、またはHDD（Hard Disk Drive）レコーダとして構成され、記録された大量のコンテンツを効率よく視聴するために、また、コンテンツの編集や特定のシーンの検索を容易にするために、画像音声情報信号から所定の特徴抽出処理などを行い、コンテンツの再生制御を行うことにより、長時間のコンテンツを短時間で再生する処理が可能となるようになされている。

同図において、例えば、放送されるコンテンツの信号がアンテナなどを介して記録再生装置１０１により取得され、映像信号、および音声信号などからなるコンテンツの信号が入力信号として入力されて、例えば、所定の圧縮符号化方式で符号化されたデータとしてDVD、HDDなどで構成される所定の記録媒体に記録される。

また、記録再生装置１０１は、例えば、ネットワークインタフェースカードなどで構成され、所定のプロトコルでネットワークにアクセス可能なインタフェースを有しており、このインタフェースを介してインターネット１０３に接続可能となるように構成されている。

記録再生装置１０１は、例えば、録画対象のコンテンツを紹介するホームページを記憶しているサーバ１０２に、インターネット１０３を介してアクセスすることができるようになされている。記録再生装置１０１は、例えば、録画予約の指令などに基づいて、録画対象のコンテンツを特定し、そのコンテンツのタイトルやＩＤなどに基づいて検索を行うなどして録画対象のコンテンツを紹介するホームページのURL（uniform resource locator）を特定し、そのURLにアクセスすることで当該ホームページをダウンロードする。

なお、録画対象のコンテンツを紹介するホームページを記憶しているサーバ１０２は、実際には、１つのサーバではなく、コンテンツに応じて様々なサーバに、録画対象のコンテンツを紹介するホームページが記憶されているので、それらのサーバのそれぞれを、ここではサーバ１０２として示している。

そして、記録再生装置１０１は、ダウンロードされたホームページのデータに基づいて、録画されたコンテンツのデータの中から、ユーザが効率的に視聴するために重要となるシーンなどの画像を検出するようになされている。

図２は、図１の記録再生装置１０１の一実施の形態に係る構成例を示すブロック図である。同図に示されるように、記録再生装置１０１には、音声データを入力してデジタル信号に変換する音声Ａ／Ｄ変換処理系２０１、音声Ａ／Ｄ変換処理系２０１で変換された音声のデジタル信号を入力してエンコードする音声エンコーダ処理系２０２、映像データを入力しデジタル信号に変換する画像Ａ／Ｄ変換処理系２０６と、画像Ａ／Ｄ変換処理系２０６で変換された映像のデジタル信号を入力してエンコードする映像エンコーダ処理系２０７が設けられている。

特徴抽出処理系２０８は、音声エンコーダ処理系２０２及び映像エンコーダ処理系２０７で得られたデジタル信号のなかで、例えば、予め設定された特徴量を有する映像信号または音声信号を検出する。

音声エンコーダ処理系２０２からの音声信号と、映像エンコーダ処理系２０６からの映像信号と、特徴抽出処理系２０８の処理を経た特徴的な音声及び映像信号に関する情報は、多重化処理系２０３で多重化され、多重化された音声／映像信号が記録媒体２０５に記録されるように記録処理系２０４により制御される。

さらに、記録再生装置１０１には、記録媒体２０５に記録されているデータを再生する再生処理系２０９、再生処理系２０９で再生された音声及び映像のデータを分離する再生データ分離処理系２１０、分離された音声データをデコードする音声デコード処理系２１１、デコードされた音声データをアナログ信号に変換して出力する音声Ｄ／Ａ変換処理系２１２、再生データ分離処理系２１０で分離された映像データをデコードする映像デコード処理系２１３、デコードされた映像データをアナログ信号に変換して出力する映像Ｄ／Ａ変換処理系２１４が設けられている。

また、記録再生装置１０１には、記録媒体２０５の再生をシステムコントローラ２１９からの指示により制御する再生制御系２１５、再生データ分離系２１０で分離された特徴データ（特徴的な映像または音声信号を特定するデータなど）を検出する特徴データ検出系２１６、必要に応じてプレイするリストを生成するプレイリスト生成系２１７、ユーザの操作入力を受信するユーザ入力Ｉ／Ｆ系２１８、ディスプレイなどへの映像の表示を制御する表示処理系２２０、インターネット１０３などのネットワークにアクセスするための機能を有するネットワークI/F系２２１が設けられている。

また、再生制御系２１５は、システムコントローラ２１９により制御され、記録媒体に記録されたコンテンツの映像または音声の再生を制御する。例えば、再生制御系２１５は、システムコントローラ２１９により指定された区間の映像が、他の区間と比較して早い速度または遅い速度で再生されるように、記録媒体２０５から読み出されるデータを制御するようになされている。

メモリ系２２１は、特徴抽出処理系２０８から供給されるデータを記憶し、そのデータを、必要に応じてプレイリスト生成系２１７に供給するようになされている。

システムコントローラ２１９は、CPU（Central Processing Unit）、RAM（Random Access Memory）、ROM（Read Only Memory）、HDDなどを含む構成とされ、プログラムなどの所定のソフトウェアを実行することにより記録再生装置１０１を構成する各部を制御する。

記録再生装置１０１においてコンテンツの記録を行う場合、音声信号は、音声Ａ／Ｄ変換処理系２０１に入力され所定のＡ／Ｄ変換処理が行われた後、音声エンコーダ処理系２０２に入力され、例えば、ＭＰＥＧオーディオやＡＣ３オーディオなど所定の帯域圧縮信号処理が行われる。その後、多重化処理系２０３に入力し所定の多重化処理が行われる。

また、記録再生装置１０１においてコンテンツの記録を行う場合、映像信号は映像信号Ａ／Ｄ変換処理系２０６に入力され所定のＡ／Ｄ変換処理が行われ、映像エンコーダ処理系２０７においてＭＰＥＧなど所定の帯域圧縮信号処理が行われ、その後、多重化処理系２０３に入力され所定の多重化処理が行われる。

記録再生装置１０１においてコンテンツの再生を行う場合、記録媒体系２０５から再生された信号は、再生処理系２０９で所定の再生信号処理が行われ、再生データ分離処理系２１０に入力される。

記録再生装置１０１においてコンテンツの再生を行う場合、音声データは所定の分離処理の後、音声デコード処理系２１１で、音声エンコーダ処理系２０２により施された帯域圧縮信号処理などに対応する所定のデコード処理が行われ、音声Ｄ／Ａ処理系２１２で所定のＤ／Ａ処理が行われ、音声が出力される。

また、映像データは所定の分離処理の後、映像デコード処理系２１３で、映像エンコーダ処理系２０７により施された帯域圧縮信号処理などに対応する所定のデコード処理が行われ、映像Ｄ／Ａ処理系２１４で所定のＤ／Ａ処理が行われ、映像が出力される。

図３は、サーバ１０２に記憶されている、コンテンツを紹介するホームページの例を示す図である。ここでは、例えば、毎週月曜日から土曜日まで所定の時間帯に放送される連続ドラマなどのコンテンツを紹介するホームページを例として説明する。すなわち、当該コンテンツは、１週間に６回（６日）、それぞれ連続した異なる内容のドラマが放送され、１週間に１日は、放送がない。

図３に示されるホームページは、毎週月曜日から土曜日まで所定の時間帯に放送される連続ドラマである当該コンテンツの第１１週目に放送される各回（月曜日の放送分、火曜日の放送分、・・・土曜日の放送分のそれぞれ）の内容を紹介するものであり、領域３０１には、第１１週目のあらすじがテキスト情報として記述されている。

領域３０２、３０３、３０４、・・・には第１１週目に放送される各回の中で、それぞれ重要となるシーンの画像と、そのシーンを説明するテキスト情報とが表示されている。ここで、領域３０２は、例えば、第１１週目の月曜日に放送される回（ドラマ）の中で重要となるシーンの画像３０２ａと、そのシーンを説明するテキスト情報３０２ｂにより構成されており、領域３０３は、例えば、第１１週目の火曜日に放送される回の中で重要となるシーンの画像３０３ａと、そのシーンを説明するテキスト情報３０３ｂにより構成されており、領域３０４は、例えば、第１１週目の火曜日に放送される回の中で重要となるシーンの画像３０４ａと、そのシーンを説明するテキスト情報３０４ｂにより構成されている。

このように、コンテンツを紹介するホームページは、例えば、当該コンテンツを放送する放送局により作成され、当該コンテンツを視聴するユーザ（視聴者）が、視聴するうえで参考となる情報を、適宜掲載するように構成されている。

すなわち、コンテンツを紹介するホームページは、当該コンテンツを連続して視聴しているユーザにとって、ドラマの展開やあらすじなどを知るために、有益な情報として活用することが可能である。

本発明の記録再生装置１０１においては、コンテンツを紹介するホームページに基づいて、画像音声情報信号から所定の特徴抽出処理などを行ってコンテンツの再生制御を行うことにより、記録された大量のコンテンツを効率よく視聴することが可能となるようになされている。

図４は、システムコントローラ２１９において実行されるプログラムなどのソフトウェアの機能的構成例を示すブロック図である。

同図において、音声信号解析部２６１は、音声エンコーダ処理系２０２、または音声デコード処理系２１１から供給される音声信号を解析し、例えば、コンテンツのドラマの出演者の声などについて音声認識を行い、その音声信号を、テキスト情報に変換する処理を行う。なお、音声信号解析部２６１に、各出演者の声の音声信号上の特徴を予め学習させるなど、音声認識を行うために必要となる処理は、事前に行われているものとする。

形態素解析部２６２は、音声信号解析処理部２６１により生成されたテキスト情報に対して形態素解析を行って、テキスト情報を、単語に分解する処理を行う。そして、形態素解析部２６２は、形態素解析により得られた単語のうち、予め設定された品詞（例えば、名詞）に該当する単語を抽出し、抽出された単語を、記憶部２６４に記憶させる。

記憶部２６４は、形態素解析部２６２から供給された単語を記憶するとともに、所定の期間内でのその単語の出現回数を記録する。例えば、記憶部２６４は、形態素解析部２６２から単語Aの供給を受けた場合、単語Aを記憶するとともに、単語Aに対応づけて出現回数「１」を記録する。そして、形態素解析部２６２からさらに単語Aの供給を受けた場合、単語Aの出現回数「２」に更新する。なお、音声信号解析部２６１から、例えば、リセットを指令する情報が出力された場合、記憶部２６４は、記憶した単語とその出現回数をリセットするようになされている。

キーワード検出部２６３は、記憶部２６４に記憶された単語の出現回数に基づいて、キーワードとなる単語を検出する。キーワード検出部２６３は、例えば、記憶部２６４に記憶された単語のうち、その出現回数が、所定の閾値を超える単語であって、所定の個数の単語をキーワードとして検出する。なお、キーワード検出部２６３は、記憶部２６４に記憶された単語のうち、例えば、予め設定された個数の単語（キーワード）を、それぞれの単語の出現回数と対応づけて評価値処理部２８１に出力するようになされている。

ここで、音声信号解析部２６１は、例えば、コンテンツの各シーンについて、それぞれ上述した処理を行うものとする。そして、コンテンツのシーンは、例えば、次のように特定されるものとする。

図５は、横軸を時間として表し、コンテンツの中における映像と音声の例を示す図である。同図には、連続して放送されるドラマのコンテンツにおいて、第１回目に放送されたコンテンツの映像と、第１回目の放送に含まれる音声（ここでは、セリフ）の時間軸上の位置、および第２回目に放送されたコンテンツの映像と、第２回目の放送に含まれる音声（ここでは、セリフ）の時間軸上の位置、・・・が示されている。同図に示されるように、コンテンツが放送されている時間においては、すべて映像が存在し、また、コンテンツが放送されている時間の中で、セリフが発せられている時間が点在する。

図６は、図５に示される映像と音声の一部を拡大した図の例である。同図においては、セリフとしての音声V1乃至V5が示されている。V１は、時刻t1からt2までの間発せられており、V2は、時刻t3からt4までの間発せられており、同様に、V3乃至V5も発せられた時刻を特定することが可能である。

音声信号解析部２６１により上述した処理が行われる単位となるシーンは、例えば、音声V1乃至V5が発せられた時間に対応するシーンS１乃至S５として特定される。

すなわち、いまの場合、音声信号解析部２６１は、音声V１をテキスト情報に変換し、形態素解析部２６２およびキーワード検出部２６３の処理を経て、シーンS１におけるキーワードと、そのキーワードのそれぞれの単語の出現回数とが出力されることになる。また、同様に、音声信号解析部２６１は、音声V２乃至V5のそれぞれを、個々にテキスト情報に変換し、形態素解析部２６２およびキーワード検出部２６３の処理を経て、シーンS２乃至S５のそれぞれにおけるキーワードと、そのキーワードのそれぞれの単語の出現回数とが出力されることになる。

あるいはまた、音声信号解析部２６１により上述した処理が行われる単位となるシーンは次のように特定されるようにしてもよい。

図７は、図５に示される映像と音声の一部を拡大した図の別の例である。同図においては、やはりセリフとしての音声V1乃至V5が示されているが、映像の中において、例えば、フェードやシーンチェンジなどの特徴的な映像Isが含まれている。音声信号解析部２６１により上述した処理が行われる単位となるシーンは、例えば、映像Isが検出された時刻t11より時間的に前のシーンS11と、例えば、映像Isが検出された時刻t11より時間的に後のシーンS12とされるようにしてもよい。

すなわち、いまの場合、音声信号解析部２６１は、音声V１とV2とをテキスト情報に変換し、形態素解析部２６２およびキーワード検出部２６３の処理を経て、シーンS11におけるキーワードと、そのキーワードのそれぞれの単語の出現回数とが出力されることになる。また、同様に、音声信号解析部２６１は、音声V3乃至V5を、テキスト情報に変換し、形態素解析部２６２およびキーワード検出部２６３の処理を経て、シーンS12におけるキーワードと、そのキーワードのそれぞれの単語の出現回数とが出力されることになる。

なお、フェードやシーンチェンジなどの特徴的な映像の検出は、図１の特徴抽出処理系２０８により検出できるものとする。

図４に戻って、テキスト情報抽出部２７１は、ネットワークI/F系２２１から供給されるホームページのデータを解析し、例えば、URLのタグを参照するなどしてホームページに含まれるテキスト情報を抽出する処理を行う。

形態素解析部２７２は、テキスト情報抽出部２７１により抽出されたテキスト情報に対して形態素解析を行って、テキスト情報を、単語に分解する処理を行う。そして、形態素解析部２７２は、形態素解析により得られた単語のうち、予め設定された品詞（例えば、名詞）に該当する単語を抽出し、抽出された単語を、記憶部２７４に記憶させる。

記憶部２７４は、記憶部２６４の場合と同様に、形態素解析部２７２から供給された単語を記憶するとともに、所定の期間内でのその単語の出現回数を記録する。

キーワード検出部２７３は、キーワード検出部２６３の場合と同様に、記憶部２７４に記憶された単語の出現回数に基づいて、キーワードとなる単語を検出する。また、キーワード検出部２７３は、記憶部２７４に記憶された単語のうち、例えば、予め設定された個数の単語を、それぞれの単語の出現回数と対応づけて評価値処理部２８１に出力するようになされている。

評価値処理部２８１は、キーワード検出部２７３から供給されるキーワードと、キーワード検出部２６３から供給されるキーワードとの一致の度合いを表す評価値を、所定の演算により算出し、その評価値を、キーワード検出部２６３から供給されるキーワードに対応するシーンの評価値として出力する。

例えば、テキスト情報抽出部２７１により、図３の領域３０１のテキスト情報が抽出され、キーワード検出部２７３から図８に示されるように、キーワードが出力されたものとする。すなわち、図３の領域３０１のテキスト情報に含まれる名詞である、「ハルエ」、「レストラン」、「大介」、および「ミツエ」がキーワードとして検出され、それぞれの出現回数として「１０回」、「８回」、「７回」、および「４回」が出力されたものとする。

例えば、シーンSａに対応するキーワードとして、キーワード検出部２６３から図９に示されるように、キーワードが出力され、また、シーンＳｂに対応するキーワードとして、キーワード検出部２６３から図１０に示されるように、キーワードが出力されたものとする。いまの場合、図１０に示されるものの方が図９に示されるものより「レストラン」、および「ハルエ」の出現回数が多いので、評価値処理部２８１は、シーンＳｂの評価値を、シーンSａの評価値よりも高い値として設定する。

このように、評価値処理部２８１は、キーワードの出現回数を考慮して、キーワード検出部２７３から供給されるキーワードと、キーワード検出部２６３から供給されるキーワードとの一致の度合いを表す評価値を算出する演算を行う。なお、この演算式は、例えば、予め設定され、一致の度合いを表すにあったて適当な演算式とされる。

ここでは、図３の領域３０１のテキスト情報に基づいて、キーワード検出部２７３から出力されたキーワードと、キーワード検出部２６３から供給されるキーワードとの一致の度合いを表す評価値を算出する例について説明したが、図３の領域３０２ｂ、３０３ｂ、３０４ｂ、・・・のテキスト情報に基づいて、キーワード検出部２７３から出力されたキーワードと、キーワード検出部２６３から供給されるキーワードとの一致の度合いを表す評価値を算出するようにしてもよい。

さらに、図３の領域３０１のテキスト情報に基づいて、キーワード検出部２７３から出力されたキーワードと、図３の領域３０２ｂ、３０３ｂ、３０４ｂ、・・・のテキスト情報に基づいて、キーワード検出部２７３から出力されたキーワードとの一致の度合いを、予め算出しておき、例えば、一致の度合いが閾値以上となるテキスト情報３０３ｂに基づいて、キーワード検出部２７３から出力されたキーワードと、キーワード検出部２６３から供給されるキーワードとの一致の度合いを表す評価値を算出し、その評価値を各シーンに対応する評価値としてもよい。

あるいはまた、さらに、ネットワークI/F系２２１から供給されるホームページのデータに含まれるシーンの画像に基づいて上述した評価値が設定されるようにしてもよい。図３の領域３０２ｂのテキスト情報に基づいて、キーワード検出部２７３から出力されたキーワードと、キーワード検出部２６３から供給されるキーワードとの一致の度合いを表す評価値を算出して各シーンに対応する評価値を設定する場合、画像３０２ａと、各シーンに含まれる画像（映像）との一致の度合いを表す情報をさらに算出し、画像３０２ａと、各シーンに含まれる画像（映像）との一致の度合いを表す情報に基づいて、上述した評価値を変更するなどしてもよい。

例えば、図１１に示されるように、テキスト情報抽出部２７１により領域３０２ａのテキスト情報が抽出され、キーワード検出部２７３から出力されたキーワードとして「レストラン、光江、ハルエ、・・・」が出力され、シーンＳ２１乃至Ｓ２３において、キーワード検出部２６３から供給されるキーワードが「レストラン、光江、ハルエ、・・・」であった場合、評価値処理部２８１は、領域３０２ａの画像と一致の度合いの高い画像を含むシーンＳ２１の評価値を、シーンＳ２２またはシーンＳ２３の評価値と比較して高い値とするようにしてもよい。

なお、各シーンに含まれる画像と、領域３０２ａの画像との一致の度合いについては、図１の特徴抽出処理系２０８により算出できるものとする。

次に、記録再生装置１０１によるホームページデータ取得処理について、図１２のフローチャートを参照して説明する。

ステップＳ１０１において、システムコントローラ２１９は、録画予約が指令されたか否かを判定する。例えば、ユーザI/F系２１８を介した操作により、録画予約のコマンドなどが投入された場合、ステップS１０１においては、録画予約が指令されたと判定される。

ステップS１０１において、録画予約が指令されたと判定された場合、処理は、ステップS１０２に進み、システムコントローラ２１９は、ステップS１０１で指令されたと判定された録画予約において、録画すべき番組（コンテンツ）を特定する。このとき、例えば、録画予約の指令に伴って入力される録画開始時刻、録画終了時刻などの情報に基づいて、録画すべきコンテンツが特定される。

ステップS１０３において、システムコントローラ２１９は、ネットワークI/F系２２１を制御して、ステップS１０２の処理により特定された番組のホームページにアクセスする処理を行う。

ステップS１０４において、システムコントローラ２１９は、ネットワークI/F系２２１を制御して、ステップS１０３の処理によりアクセスした番組のホームページのデータをダウンロードする処理を行う。これにより、ダウンロードされたホームページのデータがシステムコントローラ２１９に含まれるメモリやHDDなどの記憶媒体に記憶される。

このようにして、録画予約の指令に伴って、コンテンツを紹介するホームページのデータが記録再生装置１０１にダウンロードされて記憶される。

次に、図１３のフローチャートを参照して記録再生装置１０１による重要シーン検出処理について説明する。この処理は、例えば、ユーザ入力I/F系２１８の操作に基づいて入力される指令により実行され、放送されているコンテンツを録画（記録）するとともに実行されるようにしてもよいし、コンテンツの録画（記録）が終了した後、実行されるようにしてもよい。

ステップS２０１において、システムコントローラ２１９は、図１４のフローチャートを参照して後述するホームページ取得解析処理を実行する。これにより、録画対象となるコンテンツを紹介するホームページのデータに基づいてキーワードが出力される。

ここで、図１４のフローチャートを参照して、図１３のステップS２０１のホームページ取得解析処理の詳細について説明する。なお、ここでは、例えば、ホームページデータ取得処理により録画対象となるコンテンツを紹介するホームページのデータが、システムコントローラ２１９に含まれるメモリやHDDなどの記憶媒体に記憶されているものとする。

ステップS２２１において、テキスト情報抽出部２７１は、システムコントローラ２１９に含まれる記憶媒体に記憶されているホームページのデータを取得する。

ステップS２２２において、テキスト情報抽出部２７１は、ステップS２２１の処理で取得されたホームページのデータに含まれるテキスト情報を抽出する。

ステップS２２３において、形態素解析部２７２は、ステップS２２２の処理で抽出されたテキスト情報に対して形態素解析を行う。これにより、例えば、ステップS２２２の処理により得られたテキスト情報に含まれる名詞が記憶部２７４に出力される。

ステップS２２４において、記憶部２７４は、ステップS２２３の処理に伴って出力される各名詞のそれぞれについて、出現回数を記録する。

ステップS２２５において、キーワード検出部２７３は、例えば、記憶部２７４に記憶された単語のうち、その出現回数が、所定の閾値を超える単語をキーワードとして出力する。このとき、上述したように、キーワード検出部２７３は、記憶部２７４に記憶された単語のうち、例えば、予め設定された個数の単語（キーワード）を、それぞれの単語の出現回数と対応づけて評価値処理部２８１に出力するようになされており、これにより、例えば、図８を参照して上述したようにキーワードが出力されることになる。

図１３に戻って、ステップS２０１の処理の後、処理は、ステップS２０２に進み、システムコントローラ２１９は、図１５のフローチャートを参照して後述する音声信号取得解析処理を実行する。これにより、録画対象となるコンテンツのデータに含まれる音声信号に基づいてキーワードが出力される。

ここで、図１５のフローチャートを参照して、図１３のステップS２０２の音声信号取得解析処理の詳細について説明する。

ステップS２４１において、音声信号解析部２６１は、音声エンコーダ処理系２０２、または音声デコード処理系２１１から供給される音声信号を取得する。なお、重要シーン検出処理が、放送されているコンテンツを録画（記録）するとともに実行される場合、音声エンコーダ処理系２０２から供給される音声信号が取得されることになり、重要シーン検出処理が、放送されているコンテンツの録画（記録）が終了した後、実行される場合、音声デコード処理系２１１から供給される音声信号が取得されることになる。

ステップS２４２において、音声信号解析部２６１は、ステップS２４１の処理で取得された音声信号を解析し、例えば、コンテンツのドラマの出演者の声などについて音声認識を行い、その音声信号を、テキスト情報に変換する処理を行う。

ステップS２４３において、形態素解析部２６２は、音声信号解析処理部２６１により生成されたテキスト情報に対して形態素解析を行う。これにより、例えば、ステップS２４２の処理により得られたテキスト情報に含まれる名詞が記憶部２６４に出力される。

ステップS２４４において、記憶部２６４は、ステップS２４３の処理に伴って出力される各名詞のそれぞれについて、出現回数を記録する。

ステップS２４５において、キーワード検出部２６３は、例えば、記憶部２６４に記憶された単語のうち、その出現回数が、所定の閾値を超える単語をキーワードとして出力する。このとき、上述したように、キーワード検出部２６３は、記憶部２６４に記憶された単語のうち、例えば、予め設定された個数の単語（キーワード）を、それぞれの単語の出現回数と対応づけて評価値処理部２８１に出力するようになされており、これにより、例えば、図９または図１０を参照して上述したようにキーワードが、シーン毎に出力されることになる。

図１３に戻って、ステップS２０２の処理の後、処理は、ステップS２０３に進み、システムコントローラ２１９は、図１６のフローチャートを参照して後述する評価値設定処理を実行する。これにより、録画対象となる番組（コンテンツ）の各シーンに対して、そのシーンの重要性を表す評価値が設定される。

ここで、図１６のフローチャートを参照して、図１３のステップS２０３の評価値設定処理の詳細について説明する。

ステップS２６１において、評価値処理部２８１は、図１４のステップS２２５の処理で出力されたキーワードが含まれるシーンを、図１５のステップS２４５の処理で出力されたキーワードに基づいて検索する。すなわち、図１５のステップS２４５の処理でシーン毎にキーワードが出力されるので、各シーンのキーワードに図１４のステップS２２５の処理で出力されたキーワードが含まれるか否かをチェックすることで、図１４のステップS２２５の処理で出力されたキーワードが含まれるシーンを特定することができる。

ステップS２６２において、評価値処理部２８１は、ステップS２６１の処理で検索されて、図１４のステップS２２５の処理で出力されたキーワードが含まれるシーンとして特定されたシーンのそれぞれについて、キーワードの出現回数を比較する。このとき、評価値処理部２８１は、例えば、キーワードの出現回数を考慮して、キーワード検出部２７３から供給されるキーワードと、キーワード検出部２６３から供給されるキーワードとの一致の度合いを表す評価値を算出する演算を行う。

ステップS２６３において、評価値処理部２８１は、各シーンの画像をチェックする。このとき、例えば、上述したように、ステップS２２１の処理で取得されたホームページのデータに含まれる画像（例えば、画像３０２ａ）と、各シーンに含まれる画像（映像）との一致の度合いを表す情報をさらに算出し、ホームページのデータに含まれる画像と、各シーンに含まれる画像（映像）との一致の度合いを表す情報に基づいて、上述した評価値が変更される。

なお、ステップS２６３の処理は実行されないようにしてもよい。

そして、ステップS２６４において評価値処理部２８１は、各シーンに対する評価値を設定する。

このように、各シーンに対する評価値が設定されて重要シーン検出処理は終了される。

すなわち、高い評価値が設定されたシーンは、例えば、コンテンツのドラマの展開やあらすじなどを知るために、重要なシーンと考えられ、評価値に基づいて記録されたコンテンツを再生することにより、記録された大量のコンテンツをより効率的に、ユーザに視聴させることができる。

ここまで、ホームページのデータのテキスト情報に含まれるキーワードと、コンテンツの音声信号に含まれるキーワードとを比較して各シーンの評価値を設定する例について説明したが、コンテンツから得られるキーワードは、音声信号から抽出されるものに限られるものではなく、音声信号以外の他の信号、音声に関連する情報などから抽出されるようにしてもよい。例えば、コンテンツにクローズドキャプションが含まれている場合、ホームページのデータのテキスト情報に含まれるキーワードと、コンテンツのクローズドキャプションに含まれるキーワードとを比較して各シーンの評価値を設定するようにしてもよい。

通常、クローズドキャプションは、聴覚障害者などによるコンテンツの視聴を考慮して、例えば、ドラマの中で発せられるセリフなどを、字幕として表示させることが可能となるようになされており、クローズドキャプションに含まれるキーワードに基づいて、各シーンの評価値を設定することで、音声信号に含まれるキーワードに基づいて評価値を設定した場合と同様の効果を得ることができる。

クローズドキャプションに含まれるキーワードに基づいて、各シーンの評価値を設定する場合、システムコントローラ２１９において実行されるプログラムなどのソフトウェアの機能的構成例は、例えば、図１７に示されるブロック図のようになる。

同図においては、図４の場合と異なり、音声信号解析部２６１乃至記憶部２６４に替わって、クローズドキャプション検出部２９１乃至記憶部２９４が設けられている。

すなわち、図１７の構成の場合、クローズドキャプション検出部２９１は、映像エンコーダ処理系２０７、または映像デコード処理系２１３から供給される映像（画像）信号を解析し、クローズドキャプションの検出を行い、そのクローズドキャプションを、テキスト情報に変換する処理を行う。

形態素解析部２９２は、クローズドキャプション検出部２９１により生成されたテキスト情報に対して形態素解析を行って、テキスト情報を、単語に分解する処理を行う。そして、形態素解析部２６２は、形態素解析により得られた単語のうち、予め設定された品詞（例えば、名詞）に該当する単語を抽出し、抽出された単語を、記憶部２９４に記憶させる。

記憶部２９４は、形態素解析部２９２から供給された単語を記憶するとともに、所定の期間内でのその単語の出現回数を記録する。

キーワード検出部２９３は、記憶部２９４に記憶された単語の出現回数に基づいて、キーワードとなる単語を検出する。キーワード検出部２９３は、例えば、記憶部２９４に記憶された単語のうち、その出現回数が、所定の閾値を超える単語をキーワードとして検出する。なお、キーワード検出部２９３は、記憶部２９４に記憶された単語のうち、例えば、予め設定された個数の単語（キーワード）を、それぞれの単語の出現回数と対応づけて、シーン毎に、評価値処理部２８１に出力するようになされている。

テキスト情報抽出部２７１乃至記憶部２７４のそれぞれは、図４の場合と同様なので、詳細な説明は省略する。

このように、ホームページのデータのテキスト情報に含まれるキーワードと、コンテンツのクローズドキャプションに含まれるキーワードとを比較して各シーンの評価値を設定するようにすることも可能である。

あるいはまた、クローズドキャプションに代えて、例えば、データ放送などで用いられる、コンテンツとともに送信されるデータのうち、音声に関連する情報を含むデータなどに基づいてコンテンツのキーワードが抽出され、ホームページのデータのテキスト情報に含まれるキーワードと比較されて各シーンの評価値が設定されるようにすることも可能である。

さらに、録画対象のコンテンツが、例えば、デジタル放送のコンテンツなどの場合、コンテンツとともに放送されるメタデータを、コンテンツを紹介するホームページのデータに替えて用いることも可能である。

以上においては、録画されたコンテンツに対して、そのコンテンツを紹介するホームページなどの中で、録画された部分に対応するホームページなどのデータに基づいて、各シーンの評価値を設定することを前提として説明した。すなわち、例えば、テキスト情報抽出部２７１により、テキスト情報の抽出が行われるホームページのデータが、図３に示されるものである場合、音声信号解析部２６１またはクローズドキャプション検出部２９１に入力されるコンテンツの信号は、第１１週目に放送されたドラマの各回の映像信号または音声信号に対応するものであることを前提としている。

しかしながら、例えば、テキスト情報抽出部２７１により、テキスト情報の抽出が行われるホームページのデータが、図３に示されるものである場合、音声信号解析部２６１またはクローズドキャプション検出部２９１に入力されるコンテンツの信号を、あえて第１０週目に放送されたドラマの各回の映像信号または音声信号に対応するものであるようにしてもよい。

例えば、ユーザが、当該コンテンツの第１０週目の放送分、第１１週目の放送分を全て録画しており、録画されたコンテンツを、まだ視聴していない場合、第１０週目の放送分については、第１１週目の放送分よりさらに効率的な視聴（例えば、より短時間での視聴）を求めることも考えられる。このような場合、第１０週目の放送分のコンテンツの各シーンに対して、あえて第１１週目の放送分を紹介するホームページのデータに基づいて評価値を設定することで、例えば、第１１週目のドラマのストーリーの展開を示唆するシーンなどの評価値を高く設定することができ、第１０週目の放送分のコンテンツを、より効率的に、ユーザに視聴させることが可能となる。

次に、記録媒体２０５に記録されているコンテンツであって、各シーンに評価値が設定されたコンテンツの再生について説明する。図１３のフローチャートを参照して上述した処理により、各シーンに評価値が設定されたコンテンツを再生する場合、記録再生装置１０１は、例えば、次のようにコンテンツの再生を行う。

例えば、図１８に示されるように、記録媒体２０５に記録され、再生可能なコンテンツがシーンS１乃至S１１の連続した１１のシーンで構成されており、各シーンに設定された評価値のうち、シーンS３、S７、およびS１０に設定された評価値が予め設定された閾値を超えるものであったとする。

記録再生装置１０１において、例えば、ユーザ入力I/F系２１８を操作して入力された指令であって、シーンS１乃至S１１で構成されるコンテンツについて、評価値に基づく再生を指令された場合、システムコントローラ２１９から出力される制御信号などに基づいて、再生制御系２１５が図１８の図中下側に示されるグラフのように、コンテンツの再生速度を制御する。

すなわち、評価値の高いシーンS３、S７、およびS１０と、シーンS３、S７、およびS１０のそれぞれに時間的に近い位置（部分）においては、再生速度が低くなり、それ以外の位置（部分）においては、再生速度が高くなるように制御される。このようにすることで、例えば、コンテンツのドラマの展開やあらすじなどを知るために、重要なシーンはゆっくりと再生され、それ以外のシーンは、高速に再生されるので、記録された大量のコンテンツをより効率的に、ユーザに視聴させることができる。

あるいはまた、評価値に基づく再生を指令された場合、評価値の高いシーンS３、S７、およびS１０の代表画像（例えば、それらのシーンの中の時間的に最も前の画像など）を、例えば、サムネイルとして表示させ、それらのサムネイルに基づいてユーザが選択したシーンを、通常の再生速度で再生するようにしてもよい。

なお、上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。上述した一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば図１９に示されるような汎用のパーソナルコンピュータ７００などに、ネットワークや記録媒体からインストールされる。

図１９において、CPU（Central Processing Unit）７０１は、ROM（Read Only Memory）７０２に記憶されているプログラム、または記憶部７０８からRAM（Random Access Memory）７０３にロードされたプログラムに従って各種の処理を実行する。RAM７０３にはまた、CPU７０１が各種の処理を実行する上において必要なデータなども適宜記憶される。

CPU７０１、ROM７０２、およびRAM７０３は、バス７０４を介して相互に接続されている。このバス７０４にはまた、入出力インタフェース７０５も接続されている。

入出力インタフェース７０５には、キーボード、マウスなどよりなる入力部７０６、CRT(Cathode Ray Tube)、ＬＣＤ(Liquid Crystal display)などよりなるディスプレイ、並びにスピーカなどよりなる出力部７０７、ハードディスクなどより構成される記憶部７０８、モデム、LANカードなどのネットワークインタフェースカードなどより構成される通信部７０９が接続されている。通信部７０９は、インターネットを含むネットワークを介しての通信処理を行う。

入出力インタフェース７０５にはまた、必要に応じてドライブ７１０が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア７１１が適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部７０８にインストールされる。

上述した一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、インターネットなどのネットワークや、リムーバブルメディア７１１などからなる記録媒体からインストールされる。

なお、この記録媒体は、図１９に示される、装置本体とは別に、ユーザにプログラムを配信するために配布される、プログラムが記録されている磁気ディスク（フロッピディスク（登録商標）を含む）、光ディスク（CD-ROM(Compact Disk-Read Only Memory),DVD(Digital Versatile Disk)を含む）、光磁気ディスク（MD（Mini-Disk）（登録商標）を含む）、もしくは半導体メモリなどよりなるリムーバブルメディア７１１により構成されるものだけでなく、装置本体に予め組み込まれた状態でユーザに配信される、プログラムが記録されているROM７０２や、記憶部７０８に含まれるハードディスクなどで構成されるものも含む。

本明細書において上述した一連の処理を実行するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

本発明を適用したコンテンツ記録再生システムの一実施形態に係る構成例を示すブロック図である。図１の記録再生装置の構成例を示すブロック図である。コンテンツを紹介するホームページの例を示す図である。図２のシステムコントローラで実行されるソフトウェアの機能的構成例を示すブロック図である。コンテンツの映像と音声の例を説明する図である。コンテンツのシーンの例を説明する図である。コンテンツのシーンの別の例を説明する図である。ホームページのデータに基づいて出力されたキーワードの例を示す図である。コンテンツの音声信号に基づいて出力されたキーワードの例を示す図である。コンテンツの音声信号に基づいて出力されたキーワードの別の例を示す図である。ホームページの画像に基づいて評価値を設定する例を説明する図である。ホームページデータ取得処理の例を説明するフローチャートである。重要シーン検出処理の例を説明するフローチャートである。ホームページ取得解析処理の例を説明するフローチャートである。音声信号取得解析処理の例を説明するフローチャートである。評価値設定処理の例を説明するフローチャートである。図２のシステムコントローラで実行されるソフトウェアの別の機能的構成例を示すブロック図である。コンテンツの再生の例を説明する図である。パーソナルコンピュータの構成例を示すブロック図である。

符号の説明

１００コンテンツ記録再生システム，１０１記録再生装置，１０２サーバ，１０３インターネット，２０２音声エンコーダ処理系，２０７映像エンコーダ処理系，２０５記録媒体，２０８特徴抽出処理系２１１音声デコード処理系，２１３映像デコード処理系，２１６特徴データ検出系，２１９システムコントローラ，２２１ネットワークI/F系，２６１音声信号解析部，２６２形態素解析部，２６３キーワード検出部，２６４記憶部，２７１テキスト情報抽出部，２７２形態素解析部，２７３キーワード検出部，２７４記憶部，２８１評価値処理系，２９１クローズドキャプション検出部

Claims

コンテンツを記録または再生する記録再生装置であって、
記録または再生するコンテンツを紹介する情報を含むデータから、テキスト情報を抽出する抽出手段と、
前記抽出手段により抽出されたテキスト情報を形態素解析して予め定められた品詞の単語を検出する第１の検出手段と、
前記第１の検出手段により検出された単語、およびその単語が検出された回数の情報を出力する第１の出力手段と、
記録または再生するコンテンツの音声信号または音声に関連する情報を、テキスト情報に変換する音声情報変換手段と、
前記音声情報変換手段による変換により得られたテキスト情報を形態素解析して予め定められた品詞の単語を検出する第２の検出手段と、
前記第２の検出手段により検出された単語、およびその単語が検出された回数の情報を、前記コンテンツを構成するシーン毎に出力する第２の出力手段と、
前記第１の出力手段から出力された情報と、前記第２の出力手段から出力された情報とを比較して両者の一致の度合いに基づいて評価値を算出し、前記コンテンツを構成するシーンを特定する情報と前記評価値とを対応付けて出力する評価値出力手段と
を備える記録再生装置。
前記音声情報変換手段は、前記コンテンツのクローズドキャプションを、テキスト情報に変換することで、記録または再生するコンテンツの音声に関連する情報を、テキスト情報に変換する
請求項１に記載の記録再生装置。
ネットワークに接続するネットワーク接続手段をさらに備え、
前記ネットワークに接続され、前記コンテンツに関する情報を掲載したホームページを記憶するサーバから前記ホームページのデータを、前記コンテンツを紹介する情報を含むデータとして取得する
請求項１に記載の記録再生装置。
前記シーン毎に前記コンテンツの画像の特徴量を抽出する特徴量抽出手段をさらに備え、
前記評価値出力手段は、前記ホームページのデータに含まれる画像データの特徴量と、前記特徴量抽出手段により抽出された前記コンテンツの画像の特徴量に基づいて、前記シーンに対応する前記評価値を変更する
請求項３に記載の記録再生装置。
前記コンテンツに関する情報を掲載したホームページのアドレスに関する情報は、前記コンテンツが記録予約されるときに特定される
請求項３に記載の記録再生装置。
デジタル放送として放送されるコンテンツを受信する受信手段をさらに備え、
前記コンテンツのデータとともに受信される前記コンテンツのメタデータを、前記コンテンツを紹介する情報を含むデータとして取得する
請求項１に記載の記録再生装置。
前記コンテンツを再生する場合、
前記シーンの評価値に基づいて、前記シーンの再生速度を制御する
請求項１に記載の記録再生装置。
コンテンツを記録または再生する記録再生装置の記録再生方法であって、
記録または再生するコンテンツを紹介する情報を含むデータから、テキスト情報を抽出し、
前記抽出されたテキスト情報を形態素解析して予め定められた品詞の単語を検出し、
前記検出された単語、およびその単語が検出された回数の情報である第１の情報を出力し、
記録または再生するコンテンツの音声信号または音声に関連する情報を、テキスト情報に変換し、
前記変換されて得られたテキスト情報を形態素解析して予め定められた品詞の単語を検出し、
前記検出された単語、およびその単語が検出された回数の情報を、前記コンテンツを構成するシーン毎に、第２の情報として出力し、
前記第１の情報と、前記第２の情報とを比較して両者の一致の度合いに基づいて評価値を算出し、前記コンテンツを構成するシーンを特定する情報と前記評価値とを対応付けて出力するステップ
を含む記録再生方法。
コンテンツを記録または再生する記録再生装置に記録または再生の処理を実行させるプログラムであって、
記録または再生するコンテンツを紹介する情報を含むデータから、テキスト情報の抽出を制御し、
前記抽出されたテキスト情報を形態素解析して予め定められた品詞の単語の検出を制御し、
前記検出された単語、およびその単語が検出された回数の情報である第１の情報の出力を制御し、
記録または再生するコンテンツの音声信号または音声に関連する情報の、テキスト情報への変換を制御し、
前記変換されて得られたテキスト情報を形態素解析して予め定められた品詞の単語の検出を制御し、
前記検出された単語、およびその単語が検出された回数の情報を、前記コンテンツを構成するシーン毎に、第２の情報として出力するように制御し、
前記第１の情報と、前記第２の情報とを比較して両者の一致の度合いに基づいて評価値を算出し、前記コンテンツを構成するシーンを特定する情報と前記評価値とを対応付けて出力するように制御するステップ
を含むコンピュータが読み取り可能なプログラム。
請求項８に記載のプログラムが記録されている記録媒体。