JP2015195418A

JP2015195418A - 記録再生装置、記録再生方法、記録装置及び再生装置

Info

Publication number: JP2015195418A
Application number: JP2012179652A
Authority: JP
Inventors: 雅志神谷; Masashi Kamiya; 智子三木; Tomoko Miki; 大塚　功; Isao Otsuka; 功大塚
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2012-08-14
Filing date: 2012-08-14
Publication date: 2015-11-05
Also published as: WO2014027475A1

Abstract

【課題】ユーザが動画全体の展開を理解できるように要約再生を行うことができるようにすること。【解決手段】記録再生装置１は、記憶されるマルチメディアデータから字幕データを抽出して、抽出された字幕データ内の字幕文字列を語句に分割し、分割された語句の各々に対して、その概念が特徴的であるほど高い値を示す特徴度を決定し、この特徴度を含むメタデータを、マルチメディアデータとともに記憶する記録処理部１００と、読み出されたメタデータを分析して、特徴度により示される値が予め定められた値よりも高い語句を含む字幕文字列の表示時間を再生時間として要約再生を行う再生処理部１３０とを備える。【選択図】図１

Description

本発明は、記録再生装置、記録再生方法、記録装置及び再生装置に関する。

例えば、映画、ドラマ、スポーツイベント又はニュース放送等を複写したビデオ等の動画を素早く視聴及び分析するために、要約を作成するための方法が知られている。

従来の要約方法は、まず、視聴開始前に注目キーワードを設定する。キーワードの設定は、ユーザ自身が任意に設定するか、装置が過去に視聴した番組において出現頻度の高い語彙（単語又は句）を自動的に設定するか、装置がネットワークに接続されている情報サイトから流行語を取得して設定するか等により行われる。そして、番組中の字幕データのうち設定されたキーワードに一致する語彙が含まれているショット（画像的に連続したフレーム（静止画）の集まり）が抽出される。次に、抽出されたショットの前後の一連のショット群が、ユーザが注目すべきシーン（話題等で互いに関連する一連のショット群）として抽出される。各ショットに出現する字幕データの語彙同士の意味的又は形態的な類似度が求められ、その類似度が或る閾値を越える場合に、ショットは、同一のシーンとして抽出される。また、ショットは、映像的特徴及び音響的特徴の少なくとも何れか一方の類似度が算出され、その類似度が或る閾値を越える場合に同一のシーンとして抽出される（例えば、特許文献１参照）。

また、従来の要約方法には、音声信号の特徴を利用するものがある。この方法は、まず、特許文献１のように映像的特徴及び音響的特徴の少なくとも何れか一方を用いて、一連のショット群をセグメントとして抽出する。そして、抽出された各セグメントについて、音声の特徴を利用して、ある範囲内で連続的な重要度レベルが算出される。ユーザは、その範囲内で閾値を設定し、その閾値を超える重要度レベルを持つセグメントを要約として抽出する（例えば、特許文献２参照）。

特開２００６−１２９１２２号公報特開２００６−３４５５５４号公報

しかしながら、従来の要約方法には、いくつかの問題がある。第１に、特許文献１に記載された要約方法は、ユーザが入力した語彙との一致度、ユーザが過去に視聴した番組における出現頻度を示す「主観的特徴度」、又は、世間での流行度を表す「流行的特徴度」を用いている。そして、特許文献１に記載された要約方法は、これらの特徴度が高いシーンを要約として抽出しているが、これらは全体の展開とは無関係な「非内容的特徴度」である。即ち、特許文献１に記載された要約方法では、単に、ユーザが入力した語彙、出現頻度の高い語彙及び流行の語彙を含むシーンが抽出され、このようなシーンが再生されたとしても、ユーザは、全体の展開を理解できない。例えば、ユーザが野球中継をよく見るのであれば、過去の視聴履歴にはチーム名及び様々な選手名が頻出しており、これらがキーワードとなる。これらのキーワードに基づく要約では、全体の展開を理解するために重要な得点シーンが抽出されるわけではない。多くの場合、試合展開とは関係なく、チーム名及び選手名が出現するシーンが繰り返し抽出されてしまう。

第２に、特許文献２に記載された要約方法は、「音声的特徴度」を用いている。これは、音声信号の変動と番組の盛り上がり度合いとの間に相関があることを利用したものである。例えば、野球中継等のスポーツ番組においては、得点シーンでは音量が他のシーンと比較して大きくなる傾向がある。従って、このような音声信号の特徴と番組の盛り上がり度合いとの間に相関がある動画であれば、ユーザは、この「音声的特徴度」に基づいた要約によって全体の展開を理解できる。

しかしながら、音声信号の変動と番組の盛り上がり度合いとの間に相関が無い動画の場合、要約が再生されたとしても、ユーザは、全体の展開を理解できない。例えば、推理小説が原作のドラマにおいては、犯人を特定する推理が行われるシーンは非常に重要なシーンである。しかしながら、このようなシーンにおいて、主人公が淡々と推理を行っている場合には、他のシーンに比べて音量等の音声信号の変動は小さい。従って、そのような場合には、このようなシーンは、要約として抽出されず、ユーザは、要約の再生を視聴しても、どのようにして犯人が特定されたのかを理解できない。即ち、「音声的特徴度」を用いても、番組の内容によっては「内容的特徴度」に基づいて要約が作成されることにはならない。

そこで、本発明は、以上のような問題を解消するためになされたものであって、ユーザが動画全体の展開を理解できるように要約再生を行うことができるようにすることを目的とする。

本発明の一態様に係る記録再生装置は、映像信号と、当該映像信号に基づいて表示される映像に重畳することのできる字幕文字列及び当該字幕文字列の表示時間を有する字幕データと、を含むマルチメディアデータから、当該字幕データを抽出する字幕データ抽出部と、前記字幕データ抽出部により抽出された字幕データ内の字幕文字列を語句に分割する分割部と、前記分割部により分割された語句の各々に対して、前記語句の概念が特徴的であるほど高い値を示す特徴度を決定する特徴度決定部と、前記字幕文字列の表示時間と、前記特徴度決定部で決定された特徴度と、を含むメタデータを生成するメタデータ生成部と、前記マルチメディアデータと、前記メタデータ生成部により生成されたメタデータと、を記憶する記録部と、前記記録部から読み出されたメタデータを分析して、前記特徴度により示される値が予め定められた値よりも高い語句を含む字幕文字列の表示時間を、再生時間として特定するメタデータ分析部と、前記マルチメディアデータの内、前記メタデータ分析部により特定された再生時間に対応する部分を再生する制御を行う再生制御部と、を備えることを特徴とする。

本発明の一態様によれば、ユーザが動画全体の展開を理解できるように要約再生を行うことができる。

実施の形態１〜７に係る記録再生装置の構成を概略的に示すブロック図である。実施の形態１における記録処理部の構成を概略的に示すブロック図である。実施の形態１における特徴度データベースにおける特徴度を説明するための概略図である。実施の形態１におけるメタデータの構造を示す概略図である。実施の形態１における記憶媒体に記憶されるデータのファイル及びディレクトリの階層構造を示す概略図である。実施の形態１〜７における再生処理部の構成を概略的に示すブロック図である。実施の形態１における記録処理部での処理を示すフローチャートである。実施の形態１における再生処理部での処理を示すフローチャートである。実施の形態１における特徴度と特徴度閾値との間の関係を概略的に示すグラフである。実施の形態１における記録処理部の変形例を示す概略図である。実施の形態１における記録処理部の変形例を示す概略図である。実施の形態１における再生処理部の変形例を示す概略図である。実施の形態１の変形例におけるＯＳＤプレーンを示す概略図である。実施の形態１の変形例において、ＯＳＤプレーンが重畳された映像を示す概略図である。実施の形態２における記録処理部の構成を概略的に示すブロック図である。実施の形態２におけるメタデータの構造を示す概略図である。実施の形態３における記録処理部の構成を概略的に示すブロック図である。実施の形態４における記録処理部の構成を概略的に示すブロック図である。実施の形態５における記録処理部の構成を概略的に示すブロック図である。実施の形態５におけるメタデータの構造を示す概略図である。実施の形態６における記録処理部の構成を概略的に示すブロック図である。実施の形態６におけるメタデータの構造を示す概略図である。実施の形態７における記録処理部の構成を概略的に示すブロック図である。実施の形態７におけるメタデータの構造を示す概略図である。

実施の形態１．
図１は、実施の形態１に係る記録再生装置１の構成を概略的に示すブロック図である。記録再生装置１は、データ処理部１０と、全体制御部１１と、ユーザインタフェース部（以下、Ｕ／Ｉ部という）１２とを備える。なお、図１の括弧内の符号は、それぞれ実施の形態２〜７の構成を示している。

データ処理部１０は、データを記録し、記録されたデータを再生する。データ処理部１０は、データを記録する記録処理部１００と、記録されたデータを再生する再生処理部１３０とを備える。

全体制御部１１は、記録再生装置１での処理を統括的に制御する。
Ｕ／Ｉ部１２は、ユーザからの指示を受ける入力部である。

図２は、記録処理部１００の構成を概略的に示すブロック図である。記録処理部１００は、書き込みドライブ１０１と、記録処理制御部１０２と、記録データ生成部１１０とを備える。
書き込みドライブ１０１は、記録処理制御部１０２からの制御に応じて、データを記憶媒体８に書き込む（記録する）データ書込部である。例えば、書き込みドライブ１０１は、書き込み中のデータが無く、記憶媒体８への書き込みが可能な場合、書き込み可信号を記録処理制御部１０２に与える。また、書き込みドライブ１０１は、記録データ生成部１１０からデータを受け取った場合には、書き込み不可信号を記録処理制御部１０２に与えて、受け取ったデータを記憶媒体８へ書き込む。

記録処理制御部１０２は、書き込みドライブ１０１及び記録データ生成部１１０を統括的に制御する。例えば、記録処理制御部１０２は、書き込みドライブ１０１から書き込み可信号を受け取った場合には、書き込み許可信号を記録データ生成部１１０に与える。また、記録処理制御部１０２は、書き込みドライブ１０１から書き込み不可信号を受信した場合には、書込み禁止信号を記録データ生成部１１０に与える。

記録データ生成部１１０は、ＴＶ９から出力されたマルチメディアデータを受け取り、このマルチメディアデータからメタデータを生成する。ここで、マルチメディアデータは、映像を表示するための映像信号、この映像信号に基づいて表示される映像に同期して音声を出力するための音声信号、及び、この映像信号に基づいて表示される映像に重畳することのできる字幕を表示するための字幕データ等を含む。そして、記録データ生成部１１０は、マルチメディアデータ及びメタデータを書き込みドライブ１０１に与えて、記憶媒体８に記録させる。記録データ生成部１１０は、字幕データ抽出部１１１と、形態素解析データベース１１２と、分割部１１３と、特徴度データベース１１４と、特徴度決定部１１５と、番組情報抽出部１１６と、メタデータ生成部１１７と、書き込みバッファ１１８とを備える。

字幕データ抽出部１１１は、ＴＶ９よりマルチメディアデータを受け取り、このマルチメディアデータから字幕データを抽出する。さらに、字幕データ抽出部１１１は、抽出された字幕データから、字幕として表示される字幕文字列を各々抽出する。そして、字幕データ抽出部１１１は、抽出された字幕データをメタデータ生成部１１７に与え、抽出された字幕文字列を分割部１１３に与える。

形態素解析データベース１１２は、文字列から単語を解析するために必要な形態素解析情報を格納する形態素解析情報記憶部である。例えば、形態素解析データベース１１２は、分割部１１３からの形態素解析要求を受け取り、形態素解析に必要な情報を分割部１１３に与える。

分割部１１３は、字幕データ抽出部１１１より字幕文字列を受け取り、この字幕文字列を単語毎に分割する。例えば、分割部１１３は、形態素解析データベース１１２を利用して、受け取った字幕文字列から単語を分割する。そして、分割部１１３は、分割された単語を特徴度決定部１１５に与える。

特徴度データベース１１４は、単語と、当該単語の特徴度とを対応付けた特徴度情報を記憶する特徴度情報記憶部である。ここで、特徴度は、単語の概念が特徴的であるほど高い値を示すものである。そして、例えば、特徴度データベース１１４は、特徴度決定部１１５からの特徴度算出要求を受け取り、特徴度の算出に必要な情報を特徴度決定部１１５に与える。

図３は、特徴度データベース１１４における特徴度を説明するための概略図である。
特徴度データベース１１４は、上位及び下位関係等を考慮して単語を分類したシソーラスと呼ばれる辞書を利用して特徴度を定めている。シソーラスは、図３に示されているように、上位及び下位関係をもつ木構造のようなものである。特徴度データベース１１４は、より下位に分類されている単語に対して高い特徴度を与え、より上位に分類されている単語に対して低い特徴度を与えている。言い換えると、特徴度データベース１１４は、単語の概念がより下位概念であるほど、特徴度の値が高くなる。例えば、「哺乳類」、「生物」及び「人間」の３つの単語は、シソーラスでは、上位から「生物」、「哺乳類」及び「人間」の順に分類される。「哺乳類」は「生物」の具体例の１つであり、「人間」は「哺乳類」の具体例の１つだからである。よって、特徴度データベース１１４は、このように、より具体的なものに対して高い特徴度を与えている。

また、特徴度データベース１１４は、シソーラスを利用する例に限られず、例えば、様々な分野に関する大量の文書を利用して構築することもできる。この方法では、単語毎に出現する文書数をカウントし、より小数の文書に出現する単語に対し、より高い特徴度が与えられる。一方で、より多くの文書に出現する単語に対し、より低い特徴度が与えられる。言い換えると、特徴度データベース１１４は、予め定められた調査範囲において、単語の出現頻度が低いほど、特徴度の値が高くなる。例えば、「今日」という単語は、多くの文章に出現しがちな単語であるため、より低い特徴度が与えられる。一方、それと比較して医療分野に特化した単語である「カテーテル」は、出現する文書数が少ないため、より高い特徴度が与えられる。このように、より特定の分野に特化したような単語に対して高い特徴度を与えるよう、特徴度データベース１１４が構築されていてもよい。
なお、このように文書を利用する方法では、Ｗｅｂページの記述を利用することも考えられる。例えば、より小数のＷｅｂページに出現する単語に対し、より高い特徴度が与えられる。一方で、より多くのＷｅｂページに出現する単語に対し、より低い特徴度が与えられる。

図２の説明に戻り、特徴度決定部１１５は、分割部１１３から与えられた単語の特徴度を決定する。例えば、特徴度決定部１１５は、特徴度データベース１１４を参照することにより、分割部１１３から与えられた単語の特徴度を決定する。そして、特徴度決定部１１５は、単語と、その単語に対して決定された特徴度とをメタデータ生成部１１７に与える。

番組情報抽出部１１６は、ＴＶ９よりマルチメディアデータを受け取り、このマルチメディアデータから、番組を特定するために必要な情報を含む番組情報を抽出する。そして、番組情報抽出部１１６は、抽出された番組情報をメタデータ生成部１１７に与える。なお、番組情報抽出部１１６は、マルチメディアデータに番組情報が含まれていない場合には、ＴＶ９よりマルチメディアデータとは別に、必要なデータを受け取り、受け取ったデータから番組情報を抽出する。

メタデータ生成部１１７は、字幕データ抽出部１１１から字幕データ、特徴度決定部１１５から単語及びその特徴度、番組情報抽出部１１６から番組情報を受け取り、これらの情報を用いて、ＴＶ９から出力されたマルチメディアデータのメタデータを生成する。そして、メタデータ生成部１１７は、生成されたメタデータを書き込みバッファ１１８に与える。

図４は、メタデータ生成部１１７が生成するメタデータ１５０の構造を示す概略図である。メタデータ１５０は、ＴＶ９から出力されたマルチメディアデータに含まれている番組毎に、その番組で表示される字幕と、字幕毎の表示時間と、字幕に含まれている単語及びその特徴度とを含む。メタデータ１５０は、階層Ａ、階層Ｂ、階層Ｃ、階層Ｄ及び階層Ｅの５つの階層を有する。
階層Ａのメタデータ１５０は、最上位階層に配置されている。このメタデータ１５０の下位に、メタデータ情報１５１、番組特定情報１５２、字幕情報１５３及び単語情報１５４が続いている。

階層Ｂのメタデータ情報１５１は、全ての番組のメタデータ情報を管理するための、包括的な記述であるメタデータ管理情報１５１０と、番組毎のメタデータ情報１５１１〜１５１ｍとを含む。

階層Ｃの番組特定情報１５２は、階層Ｂにおける番組毎のメタデータ情報１５１１〜１５１ｍ毎に、番組名及び放送日時等を含む番組情報１５２０及び番組中に出現する字幕データ１５２１〜１５２ｎを含む。なお、字幕データ１５２１〜１５２ｎの各々は、一度に表示される文字列毎のデータになっているものとする。

階層Ｄの字幕情報１５３は、階層Ｃにおける字幕データ１５２１〜１５２ｎ毎に、字幕として表示される文字列である字幕文字列１５３０＃１、字幕文字列１５３０＃１が表示される表示開始時刻１５３０＃２、字幕文字列１５３０＃１が表示される表示終了時刻１５３０＃３、及び、字幕文字列１５３０＃１に含まれる単語を特定する単語データ１５３１〜１５３ｐを含む。

階層Ｅの単語情報１５４は、階層Ｄにおける単語データ１５２１〜１５２ｎ毎に、単語１５４０及び単語１５４０の特徴度１５４１を含む。

なお、図４においては、メタデータ１５０を５つの階層とする場合について説明したが、メタデータ１５０は、字幕の表示時間及び字幕に含まれている単語の特徴度を特定できれば、階層をいくつ有していてもよい。また、図４に示されているメタデータ１５０は、記録されている全ての番組のメタデータを１つのファイルとして扱う場合について説明したが、例えば、番組毎に独立したファイルが形成されていてもよい。

図２の説明に戻り、書き込みバッファ１１８は、ＴＶ９よりマルチメディアデータを受け取り、また、メタデータ生成部１１７よりメタデータ１５０を受け取り、これらのデータを一時的に保持する。そして、書き込みバッファ１１８は、記録処理制御部１０２の制御に応じて、これらのデータを書き込みドライブ１０１に与える。例えば、書き込みバッファ１１８は、記録処理制御部１０２より書き込み許可信号を受けると、これらのデータを書き込みドライブ１０１に与える。そして、前述のように、書き込みドライブ１０１は、これらのデータを記憶媒体８に記憶する。

図５は、記憶媒体８に記憶されるデータのファイル及びディレクトリの階層構造を示す概略図である。
ルートディレクトリ１６０は、マルチメディアディレクトリ１６１及びメタデータディレクトリ１６２を含む。

マルチメディアディレクトリ１６１は、情報管理ファイル１６１ａ、マルチメディアファイル１６１ｂ及びバックアップファイル１６１ｃを格納する。
情報管理ファイル１６１ａは、マルチメディアディレクトリ１６１に格納されるファイルを管理するための情報のファイルである。
マルチメディアファイル１６１ｂは、ＴＶ９から出力されたマルチメディアデータを格納するファイルである。
バックアップファイル１６１ｃは、バックアップ用のファイルである。

メタデータディレクトリ１６２は、メタデータファイル１６２ａを格納する。
メタデータファイル１６２ａは、メタデータ１５０を格納するファイルである。

なお、本実施の形態において記憶媒体８に格納されるデータのファイル及びディレクトリの構造は、図５に示された構造に限られず、他のファイル及びディレクトリの構造でもよい。
また、情報管理ファイル１６１ａ及びマルチメディアデータファイル１６１ｂの何れかは、メタデータ１５０の有無又はメタデータ１５０が無効であることを示すフラグを含んでいてもよい。

図６は、再生処理部１３０の構成を概略的に示すブロック図である。再生処理部１３０は、再生処理制御部１３１と、読み取りドライブ１３２と、再生データ生成部１４０とを備える。なお、図６の括弧内の符号は、それぞれ実施の形態２〜７の構成を示している。

再生処理制御部１３１は、読み取りドライブ１３２及び再生データ生成部１４０を統括的に制御する。例えば、再生処理制御部１３１は、再生データ生成部１４０より、Ｕ／Ｉ部１２を介して入力された、再生処理部１３０での再生モードを示す再生モード制御信号を受け取る。そして、再生処理制御部１３１は、受け取った再生モード制御信号を読み取りドライブ１３２及び再生データ生成部１４０に与える。本実施の形態における再生モードは、記憶媒体８に記憶されているマルチメディアデータの全体を順次再生する通常再生モードと、このマルチメディアデータの一部を順次再生する要約再生モードとがある。

読み取りドライブ１３２は、再生処理制御部１３１及び再生データ生成部１４０からの制御に応じて、記憶媒体８からデータを読み出す。例えば、読み取りドライブ１３２は、再生処理制御部１３１から受け取った再生モード制御信号を解析して、この再生モード制御信号が通常再生モードを示すものか、要約再生モードを示すものかを判別する。そして、読み取りドライブ１３２は、再生モード制御信号が通常再生モードを示す場合には、記憶媒体８からマルチメディアデータを読み出して、このマルチメディアデータを再生データ生成部１４０に与える。
一方、読み取りドライブ１３２は、再生モード制御信号が要約再生モードを示す場合には、記憶媒体８からメタデータ１５０を読み出して、このメタデータ１５０を再生データ生成部１４０に与える。そして、読み取りドライブ１３２は、要約して再生するマルチメディアデータの部分を示す再生制御信号を再生データ生成部１４０から受け取り、受け取った再生制御信号で示される部分のデータ（部分データ）を記憶媒体８から読み出して、読み出した部分データを再生データ生成部１４０に与える。

再生データ生成部１４０は、通常再生モードでは、読み取りドライブ１３２から与えられたマルチメディアデータをＴＶ９に与える。
また、再生データ生成部１４０は、要約再生モードでは、読み取りドライブ１３２から与えられたメタデータ１５０を解析することにより、特徴度の高い字幕部分を特定して、特定した部分に対応するデータを読み取りドライブ１３２に読み出させる。そして、再生データ生成部１４０は、読み取りドライブ１３２から与えられた部分データをＴＶ９に与える。
再生データ生成部１４０は、ユーザインタフェース制御部（以下、Ｕ／Ｉ制御部という）１４１と、読み取りドライブインターフェース部（以下、読み取りドライブＩ／Ｆ部という）１４２と、メタデータ分析部１４３と、再生制御部１４４とを備える。

Ｕ／Ｉ制御部１４１は、Ｕ／Ｉ部１２の制御を行う。例えば、Ｕ／Ｉ制御部１４１は、Ｕ／Ｉ部１２を介して、ユーザより再生モード等のユーザ設定の入力を受けて、このユーザ設定を再生処理制御部１３１に与える。また、Ｕ／Ｉ制御部１４１は、Ｕ／Ｉ部１２を介して、特徴度の高低を判断するための特徴度閾値の入力を受けて、この特徴度閾値をメタデータ分析部１４３に与える。

読み取りドライブＩ／Ｆ部１４２は、読み取りドライブ１３２から与えられたデータの種類を判別して、判別された種類に応じて、当該データの送り先を変更する。例えば、読み取りドライブＩ／Ｆ部１４２は、読み取りドライブ１３２から与えられたデータがマルチメディアデータであるか、又は、メタデータ１５０であるかを判別する。そして、読み取りドライブＩ／Ｆ部１４２は、読み取りドライブ１３２から与えられたデータがマルチメディアデータである場合は、このデータをＴＶ９に与える。一方、読み取りドライブＩ／Ｆ部１４２は、読み取りドライブ１３２から与えられたデータがメタデータ１５０である場合は、このデータをメタデータ分析部１４３に与える。

メタデータ分析部１４３は、読み取りドライブＩ／Ｆ部１４２から与えられたメタデータ１５０を分析して、Ｕ／Ｉ制御部１４１から与えられた特徴度閾値を用いて特徴度が高い字幕が表示される時間を特定して、特定された時間を再生時間として再生制御部１４４に通知する。例えば、メタデータ分析部１４３は、再生処理制御部１３１から与えられた再生モード制御信号が、通常再生モードを示すか、要約再生モードを示すかを判別する。そして、メタデータ分析部１４３は、再生モード制御信号が通常再生モードを示す場合には、処理を終了する。一方、メタデータ分析部１４３は、再生モード制御信号が要約再生モードを示す場合には、読み取りドライブＩ／Ｆ部１４２よりメタデータ１５０を受け取る。そして、メタデータ分析部１４３は、受け取ったメタデータ１５０のＣ層から、字幕データ１５２１〜１５２ｎを読み出す。メタデータ分析部１４３は、読み出した字幕データ１５２１〜１５２ｎの各々から、その下位に格納されている特徴度を読み出す。そして、メタデータ分析部１４３は、読み出された特徴度から、Ｕ／Ｉ制御部１４１から与えられた特徴度閾値を超える特徴度を特定する。メタデータ分析部１４３は、特定された特徴度を有する単語が含まれる字幕文字列の表示開始時刻及び表示終了時刻を読み出した字幕データ１５２１〜１５２ｎから取得する。そして、メタデータ分析部１４３は、取得された表示開始時刻及び表示終了時刻を、再生開始時刻及び再生終了時刻として再生制御部１４４に通知する。

再生制御部１４４は、再生制御を行う。例えば、再生制御部１４４は、メタデータ分析部１４３から与えられた再生時間（例えば、再生開始時刻及び再生終了時刻）を示す再生制御信号を生成し、この再生制御信号を読み取りドライブ１３２に与える。これにより、再生制御部１４４は、マルチメディアデータの内、メタデータ分析部１４３により特定された再生時間に対応する部分の要約再生を制御することができる。

図７は、記録処理部１００での処理を示すフローチャートである。
まず、字幕データ抽出部１１１は、ＴＶ９からマルチメディアデータを受け取り、受け取ったマルチメディアデータから、字幕データを抽出する（Ｓ１０）。そして、字幕データ抽出部１１１は、抽出された字幕データに含まれている字幕文字列を、分割部１１３に与えるとともに、抽出された字幕データを、メタデータ生成部１１７に与える。

次に、分割部１１３は、形態素解析データベース１１２を利用して、字幕データ抽出部１１１から与えられた字幕文字列を分割して、単語を取得する（Ｓ１１）。そして、分割部１１３は、取得された単語を、特徴度決定部１１５に与える。

次に、特徴度決定部１１５は、特徴度データベース１１４を参照して、分割部１１３から与えられた単語の特徴度を取得する（Ｓ１２）。そして、特徴度決定部１１５は、分割部１１３から与えられた単語及びその特徴度を、メタデータ生成部１１７に与える。

また、番組情報抽出部１１６は、ＴＶ９からマルチメディアデータを受け取り、受け取ったマルチメディアデータから、番組情報を抽出する（Ｓ１３）。そして、番組情報抽出部１１６は、抽出された番組情報を、メタデータ生成部１１７に与える。

次に、メタデータ生成部１１７は、字幕データ抽出部１１１から字幕データ、特徴度決定部１１５から単語及びその特徴度、並びに、番組情報抽出部１１６から番組情報を受け取る。そして、メタデータ生成部１１７は、これらからメタデータを生成する（Ｓ１４）。具体的には、メタデータ生成部１１７は、番組情報抽出部１１６から受け取った番組情報中の番組タイトル及び放送日時のデータを、図４に示されているメタデータ１５０の構造に従って、Ｃ層の番組情報１５２０として格納する。また、メタデータ生成部１１７は、字幕データ抽出部１１１から受け取った字幕データ中の表示開始時刻、表示終了時刻及び字幕文字列を、図４に示されているメタデータ１５０の構造に従って、Ｄ層に格納する。さらに、特徴度決定部１１５から受け取った単語及びその特徴度を、図４に示されているメタデータ１５０の構造に従って、Ｅ層に格納する。そして、メタデータ生成部１１７は、生成されたメタデータを、書き込みバッファ１１８に与える。

書き込みバッファ１１８は、ＴＶ９からのマルチメディアデータ、及び、メタデータ生成部１１７からのメタデータを受け取り、一時的に保持する。そして、書き込みバッファ１１８は、記録処理制御部１０２から書き込み許可信号を受信すると、一時的に保持したマルチメディアデータ及びメタデータを書き込みドライブ１０１へ出力する。書き込みドライブ１０１は、書き込みバッファ１１８から与えられたマルチメディアデータ及びメタデータを記憶媒体８に書き込むことで記録する（Ｓ１５）。

図８は、再生処理部１３０での処理を示すフローチャートである。
読み取りドライブ１３２は、再生処理制御部１３１から受信した再生モード制御信号を判別する（Ｓ２０）。そして、再生処理制御部１３１から受信した再生モード制御信号が通常再生モードを示す場合（Ｓ２０：ＮＯ）には、処理はステップＳ２１に進み、再生処理制御部１３１から受信した再生モード制御信号が要約再生モードを示す場合（Ｓ２０：ＹＥＳ）には、処理はステップＳ２２に進む。なお、再生処理制御部１３１は、Ｕ／Ｉ制御部１４１より、通常再生モードのユーザ設定を受け取った場合には、通常再生モードを示す再生モード制御信号を読み取りドライブ１３２に与え、要約再生モードのユーザ設定を受け取った場合には、要約再生モードを示す再生モード制御信号を読み取りドライブ１３２に与える。

ステップＳ２１では、読み取りドライブ１３２は、記憶媒体８からマルチメディアデータを読み出し、読み取りドライブＩ／Ｆ部１４２に与える。そして、読み取りドライブＩ／Ｆ部１４２は、受け取ったマルチメディアデータを外部へ出力する。

ステップＳ２２では、読み取りドライブ１３２は、記憶媒体８からメタデータを読み出し、読み取りドライブＩ／Ｆ部１４２に与える。そして、読み取りドライブＩ／Ｆ部１４２は、読み取りドライブ１３２から与えられたメタデータを、メタデータ分析部１４３に与える。

次に、メタデータ分析部１４３は、読み取りドライブＩ／Ｆ部１４２から与えられたメタデータを受け取り、受け取られたメタデータのＣ層〜Ｅ層より、単語、その特徴度及び字幕データを読み出す（Ｓ２３）。

次に、メタデータ分析部１４３は、ステップＳ２３で読み出された単語及びその特徴度の内、Ｕ／Ｉ制御部１４１から受け取った特徴度閾値を超える単語を特定する。また、メタデータ分析部１４３は、特定された単語が含まれる字幕文字列の表示開始時刻及び表示終了時刻を、ステップＳ２３で読み出された字幕データから取得する。そして、メタデータ分析部１４３は、取得された表示開始時刻及び表示終了時刻を、再生開始時刻及び再生終了時刻として再生制御部１４４に与える（Ｓ２４）。

次に、再生制御部１４４は、メタデータ分析部１４３から受け取った再生開始時刻及び再生終了時刻を、再生箇所を指定する再生制御信号として読み取りドライブ１３２に与える（Ｓ２５）。
次に、読み取りドライブ１３２は、再生制御部１４４から再生箇所を指定する再生制御信号を受け取り、この再生制御信号で指定された再生箇所のマルチメディアデータを、記憶媒体８から読み出す。そして、読み取りドライブ１３２は、読み出されたマルチメディアデータを、読み取りドライブＩ／Ｆ部１４２に与える。読み取りドライブＩ／Ｆ部１４２は、受け取ったマルチメディアデータを外部へ出力する（Ｓ２６）。

以上のように、本実施の形態１に係る記録再生装置１によれば、記録対象であるマルチメディアデータから、単語及びその特徴度を抽出して、メタデータとして記憶媒体８に記録しておくため、要約再生時に、特徴度が予め定められた特徴度閾値を超える単語を含む字幕文字列が表示される時間の映像を抽出することができる。

図９は、特徴度と特徴度閾値との間の関係を概略的に示すグラフである。図９に示されているグラフは、横軸を再生時刻（再生対象番組の先頭からの経過時刻）とし、縦軸を特徴度としている。図９に示されているように、記憶媒体８に記憶されているメタデータ内の特徴度１７０は、連続的に変化する。また、図９に示されている符号１７１は、特徴度閾値を示し、この特徴度閾値１７１はユーザの設定により変化させることができる。要約再生をする際は、特徴度閾値１７１よりも高い特徴度１７０を有する単語について、その単語が出現する字幕文字列の表示開始時刻１７２Ａ、１７２Ｂから表示終了時刻１７３Ａ、１７３Ｂまでの区間１７４Ａ、１７４Ｂの映像が再生され、それ以外の区間１７５Ａ、１７５Ｂ、１７５Ｃの映像はスキップされる。なお、図中の符号１７６は、現在再生されている箇所（時刻）を示している。

以上のように、実施の形態１に係る記録再生装置１においては、記録される番組の字幕文字列に含まれる単語について、特徴度を抽出することが可能であり、この特徴度に基づいて番組の要約を作成することができる。字幕文字列は、出演者の会話及びナレーションといった、番組内容を直接的に表す要素を文字データとしたものである。このため、特徴度は、「内容的特徴度」ということができ、特徴度の変動と番組内容の重要度との相関は高い。従って、この特徴度が高い単語を含む箇所を要約として再生することで、ユーザは全体の展開を短時間で理解することができる。また、実施の形態１に係る記録再生装置１は、字幕文字列を含む番組であればジャンルを問わず特徴度を算出できるため、全てのジャンルの番組について有効的に要約再生を行うことができる。

実施の形態１に係る記録再生装置１は、特徴度を算出する単語について、分割部１１３によって分割及び抽出された全ての単語を対象にしてもよいし、品詞によって対象とする単語を絞ってもよい。例えば、分割部１１３が抽出した単語のうち、名詞に絞って特徴度が算出され、メタデータに記録されるように構成することもできる。これにより、特徴度算出処理を行う回数等を減らすことができる。さらに、メタデータに記録するデータ量を抑えることができる。

実施の形態１に係る記録再生装置１は、単語を特徴度抽出の単位としているが、複合名詞や句等としてもよい。例えば、「凶悪犯罪者」の文字列を、「凶悪」、「犯罪」及び「者」に分割するのではなく、「凶悪犯罪者」のままその特徴道が抽出されてもよい。これにより、より番組中での出現意図に沿った形で語又は句を抽出することができ、特徴度を付与することができるため、より精度の高い要約を生成することができる。この場合には、例えば、分割部１１３は、字幕文字列から語句を分割する。特徴度データベース１１４は、語句と、当該語句の特徴度とを対応付けた特徴度情報を記憶する。特徴度決定部１１５は、語句の特徴度を決定する。メタデータ生成部１１７は、語句とその特徴度をメタデータ１５０に含める。そして、メタデータ分析部１４３は、メタデータを分析して、特徴度の高い語句の字幕表示時間を再生時間として特定する。

実施の形態１に係る記録再生装置１は、更に、図１０に示されているように、特徴度決定部１１５−１が、図示されていない通信部を介して、外部のネットワーク１８０に接続することができるように構成され、外部のネットワーク１８０上にあるアップデートデータベース１８１を参照して必要な情報を取得することで、特徴度データベース１１４をアップデートできるように構成されていてもよい。これにより、流行語、若者が用いる言葉、又は、業界用語等の新語が出現した場合でも、全ての単語に関して特徴度を算出することができる。

実施の形態１に係る記録再生装置１は、図２に示されているように、記録再生装置１の内部に特徴度データベース１１４を備え、特徴度を決定しているが、このような例に限定されるものではない。例えば、図１１に示されているように、特徴度決定部１１５−２が、図示されていない通信部を介して、外部のネットワーク１８０に接続することができるように構成され、外部のネットワーク１８０上にある特徴度データベース１１４−１を用いて特徴度を決定してもよい。これにより、記録再生装置１の内部に特徴度データベース１１４を備える必要がなく、ハードウェア又はソフトウェアのリソースを抑えることができる。

実施の形態１に係る記録再生装置１は、メタデータ分析部１４３が特徴度閾値を超える特徴度を有する単語を抽出し、その単語を含む字幕文字列の表示開始時刻と表示終了時刻を特定しているが、１つの字幕文字列中に複数の単語が含まれる場合も想定される。この場合、同一の字幕文字列中に１語でも特徴度閾値を超える特徴度を有する単語があれば再生対象とする、又は、同一の字幕文字列中の単語が持つ特徴度の平均が特徴度閾値を超える場合に、再生対象とするといった方法を採用することができる。

実施の形態１に係る記録再生装置１は、図１２に示されているように、再生制御部１４４−１が図１３に示されているようなＯＳＤプレーン１９０を生成し、重畳部１４５がこれを図１４に示されているようにマルチメディアデータの映像１９７に重畳して外部に出力するように構成されていてもよい。図１３に示されているＯＳＤプレーン１９０は、横軸１９１を再生時刻とし、縦軸１９２を特徴度としているグラフを表示する。このＯＳＤプレーン１９０は、メタデータ分析部１４３によって抽出された再生時刻と特徴度１９３との関係を表しており、また、現在再生している箇所１９４及び設定されている特徴度閾値１９５を表すこともできる。さらに、このようなＯＳＤプレーン１９０を重畳させるか否かは、ユーザが設定することもできる。

実施の形態１に係る記録再生装置１は、記録時に特徴度の決定及びメタデータを生成するようにしているが、記録時にこれらをせずに、要約再生時において特徴度を算出し、特徴度閾値との比較処理を行ってもよい。この場合には、記録時の処理量を抑えることができる。一方、実施の形態１のように記録時にメタデータを生成する場合には、再生時の処理量を抑えることができる。

実施の形態２．
図１に示されているように、実施の形態２に係る記録再生装置２は、データ処理部２０と、全体制御部１１と、Ｕ／Ｉ部１２とを備える。実施の形態２に係る記録再生装置２は、データ処理部２０において、実施の形態１に係る記録再生装置１と異なっている。

データ処理部２０は、データを記録し、記録されたデータを再生する。データ処理部２０は、データを記録する記録処理部２００と、記録されたデータを再生する再生処理部２３０とを備える。実施の形態２におけるデータ処理部２０は、記録処理部２００及び再生処理部２３０において、実施の形態１におけるデータ処理部１０と異なっている。

図１５は、記録処理部２００の構成を概略的に示すブロック図である。記録処理部２００は、書き込みドライブ１０１と、記録処理制御部１０２と、記録データ生成部２１０とを備える。実施の形態２における記録処理部２００は、記録データ生成部２１０において、実施の形態１における記録処理部１００と異なっている。

記録データ生成部２１０は、ＴＶ９から出力されたマルチメディアデータを受け取り、このマルチメディアデータからメタデータを生成する。そして、記録データ生成部２１０は、マルチメディアデータ及びメタデータを書き込みドライブ１０１に与えて、記憶媒体８に記録させる。記録データ生成部２１０は、字幕データ抽出部１１１と、形態素解析データベース１１２と、分割部１１３と、特徴度データベース１１４と、特徴度決定部２１５と、番組情報抽出部１１６と、メタデータ生成部２１７と、書き込みバッファ１１８と、電子番組表データ抽出部としてのＥＰＧ（ＥｌｅｃｔｒｏｎｉｃＰｒｏｇｒａｍＧｕｉｄｅ）データ抽出部２１９と、電子番組表分割部としてのＥＰＧ分割部２２０とを備える。実施の形態２における記録データ生成部２１０は、特徴度決定部２１５及びメタデータ生成部２１７での処理の点、並びに、ＥＰＧデータ抽出部２１９及びＥＰＧ分割部２２０がさらに備えられている点において、実施の形態１における記録データ生成部１１０と異なっている。

ＥＰＧデータ抽出部２１９は、ＴＶ９よりマルチメディアデータを受け取り、このマルチメディアデータから、個別ＥＰＧデータを抽出する。個別ＥＰＧデータは、記録対象の番組に関する、番組内容、出演者及び見どころ等の文字データである。そして、ＥＰＧデータ抽出部２１９は、抽出された個別ＥＰＧデータを、ＥＰＧ分割部２２０に与える。なお、ＥＰＧデータ抽出部２１９は、マルチメディアデータにＥＰＧデータが含まれていない場合には、ＴＶ９よりマルチメディアデータとは別に、ＥＰＧデータを受け取り、このＥＰＧデータから個別ＥＰＧデータを抽出する。

ＥＰＧ分割部２２０は、ＥＰＧデータ抽出部２１９から個別ＥＰＧデータを受け取り、この個別ＥＰＧデータに含まれている文字列を単語に分割する。例えば、ＥＰＧ分割部２２０は、形態素解析データベース１１２を利用して、個別ＥＰＧデータに含まれている文字列から単語を分割する。なお、ＥＰＧ分割部２２０により分割された単語を、分割部１１３により分割された単語と区別するために、ＥＰＧ単語という。そして、ＥＰＧ分割部２２０は、分割されたＥＰＧ単語を特徴度決定部２１５に与える。

特徴度決定部２１５は、実施の形態１と同様の処理を行う他、分割部１１３から与えられた単語と、ＥＰＧ分割部２２０から与えられたＥＰＧ単語とを比較して、分割部１１３から与えられた単語の内、ＥＰＧ分割部２２０から与えられたＥＰＧ単語と一致する単語があるか否かを判断する。特徴度決定部２１５は、分割部１１３から与えられた単語の内、ＥＰＧ分割部２２０から与えられたＥＰＧ単語と一致する単語がある場合には、このような単語に、その特徴度を高めるための重み値を与える。そして、特徴度決定部２１５は、分割部１１３から与えられた単語、その特徴度、及び、その重み値がある場合にはその重み値をメタデータ生成部２１７に与える。

メタデータ生成部２１７は、字幕データ抽出部１１１から字幕データ、特徴度決定部２１５から単語、その特徴度及びその重み値、番組情報抽出部１１６から番組情報を受け取り、これらの情報を用いて、ＴＶ９から出力されたマルチメディアデータのメタデータを生成する。そして、メタデータ生成部２１７は、生成されたメタデータを書き込みバッファ１１８に与える。

図１６は、メタデータ生成部２１７が生成するメタデータ２５０の構造を示す概略図である。実施の形態２におけるメタデータ２５０は、階層Ｅの単語情報２５４において、実施の形態１におけるメタデータ１５０と異なっている。

階層Ｅの単語情報２５４は、階層Ｄにおける単語データ１５２１〜１５２ｎ毎に、単語１５４０及び単語１５４０の特徴度１５４１を含む。さらに、単語情報２５４は、付与されている場合には、重み値２５４２を含む。

図６に示されているように、再生処理部２３０は、再生処理制御部１３１と、読み取りドライブ１３２と、再生データ生成部２４０とを備える。実施の形態２における再生処理部２３０は、再生データ生成部２４０において、実施の形態１における再生処理部１３０と異なっている。

再生データ生成部２４０は、Ｕ／Ｉ制御部１４１と、読み取りドライブＩ／Ｆ部１４２と、メタデータ分析部２４３と、再生制御部１４４とを備える。実施の形態２における再生データ生成部２４０は、メタデータ分析部２４３において、実施の形態１における再生データ生成部１４０と異なっている。

メタデータ分析部２４３は、読み取りドライブＩ／Ｆ部１４２から与えられたメタデータ１５０を分析して、Ｕ／Ｉ制御部１４１から与えられた特徴度閾値を用いて特徴度が高い字幕が表示される時間を特定して、特定された時間を再生時間として再生制御部１４４に通知する。例えば、メタデータ分析部２４３は、再生処理制御部１３１から与えられた再生モード制御信号が、通常再生モードを示すか、要約再生モードを示すかを判別する。そして、メタデータ分析部２４３は、再生モード制御信号が通常再生モードを示す場合には、処理を終了する。一方、メタデータ分析部２４３は、再生モード制御信号が通常再生モードを示す場合には、読み取りドライブＩ／Ｆ部１４２よりメタデータ２５０を受け取る。そして、メタデータ分析部２４３は、受け取ったメタデータ２５０のＣ層から、字幕データ１５２１〜１５２ｎを読み出す。メタデータ分析部２４３は、読み出した字幕データ１５２１〜１５２ｎの各々から、その下位に格納されている特徴度と、存在する場合には重み値とを読み出す。そして、メタデータ分析部２４３は、読み出された特徴度、及び、重み値が存在する場合には重み値を特徴度に掛け合わせた修正特徴度から、Ｕ／Ｉ制御部１４１から与えられた特徴度閾値を超える特徴度及び修正特徴度を特定する。メタデータ分析部２４３は、特定された特徴度を有する単語及び特定された修正特徴度を有する単語が含まれる字幕文字列の表示開始時刻及び表示終了時刻を、読み出した字幕データ１５２１〜１５２ｎから取得する。そして、メタデータ分析部２４３は、取得された表示開始時刻及び表示終了時刻を、再生開始時刻及び再生終了時刻として再生制御部１４４に通知する。言い換えると、実施の形態２におけるメタデータ分析部２４３は、閾値処理をする際に、重み値を考慮する点において、実施の形態１におけるメタデータ分析部１４３と異なっている。

個別ＥＰＧデータの文字列は、番組の見どころについて記述した、文字による要約といえる。実施の形態２に係る記録再生装置２は、この文字による要約に含まれる単語について、重み値を設定することができ、その値を反映した上で要約再生を行えるため、より精度の高い要約再生を行うことができる。

実施の形態２に係る記録再生装置２は、記録処理部２００にＥＰＧ分割部２２０を持つように構成しているが、ＥＰＧ分割部２２０における、受信された文字データから単語に分割する処理については、分割部１１３と同様のため、これらを共通化してもよい。それにより、ハードウェア又はソフトウェアのリソースを抑えることができる。

実施の形態２に係る記録再生装置２は、重み値をメタデータ２５０のＥ層に別途記録するように構成しているがこのような例に限定されるものではない。例えば、特徴度決定部２１５が、重み値を特徴度に掛け合わせた上で、メタデータ生成部２１７に与えることで、メタデータ２５０のＥ層が、実施の形態１と同様に、単語１５４０及び特徴度１５４１により構成されていてもよい。これにより、メタデータ２５０に記録されるデータを減らすことができ、メタデータの容量を減らすことができる。また、再生時にメタデータから重み値を抽出し、掛け合わせる必要が無いために処理が簡単化できる。

実施の形態２に係る記録再生装置２は、重み値を利用した要約再生を行えるよう構成しているが、実際に重み値を用いるか用いないかをユーザが設定できるように構成されていてもよい。この場合、メタデータ分析部２４３は、Ｕ／Ｉ制御部１４１を介してユーザによる設定を読み込み、重み値を掛け合わせるか否かを制御するようにすればよい。これにより、同じ構成で２通りの要約再生が実施でき、ユーザは所望の要約再生方法を選択できる。

実施の形態２に係る記録再生装置２でも、語句を特徴度抽出の単位とすることができる。この場合には、例えば、ＥＰＧ分割部２２０は、個別ＥＰＧデータの文字列を語句に分割する。特徴度決定部２１５は、分割部１１３から与えられた語句と、ＥＰＧ分割部２２０より与えられた語句を比較して、重み値を付与する。メタデータ生成部２１７は、メタデータ２５０に、語句、その特徴度及びその重み値を含める。

実施の形態３．
図１に示されているように、実施の形態３に係る記録再生装置３は、データ処理部３０と、全体制御部１１と、Ｕ／Ｉ部１２とを備える。実施の形態３に係る記録再生装置３は、データ処理部３０において、実施の形態１に係る記録再生装置１と異なっている。

データ処理部３０は、データを記録し、記録されたデータを再生する。データ処理部３０は、データを記録する記録処理部３００と、記録されたデータを再生する再生処理部２３０とを備える。実施の形態３におけるデータ処理部３０は、記録処理部３００及び再生処理部２３０において、実施の形態１におけるデータ処理部１０と異なっている。なお、実施の形態３における再生処理部２３０は、実施の形態２と同様に構成されている。

図１７は、記録処理部３００の構成を概略的に示すブロック図である。記録処理部３００は、書き込みドライブ１０１と、記録処理制御部１０２と、記録データ生成部３１０とを備える。実施の形態３における記録処理部３００は、記録データ生成部３１０において、実施の形態１における記録処理部１００と異なっている。

記録データ生成部３１０は、ＴＶ９から出力されたマルチメディアデータを受け取り、このマルチメディアデータからメタデータを生成する。そして、記録データ生成部３１０は、マルチメディアデータ及びメタデータを書き込みドライブ１０１に与えて、記憶媒体８に記録させる。記録データ生成部３１０は、字幕データ抽出部１１１と、形態素解析データベース１１２と、分割部１１３と、特徴度データベース１１４と、特徴度決定部３１５と、番組情報抽出部１１６と、メタデータ生成部２１７と、書き込みバッファ１１８と、音声情報生成部３２１とを備える。実施の形態３における記録データ生成部３１０は、特徴度決定部３１５及びメタデータ生成部２１７での処理の点、並びに、音声情報生成部３２１がさらに備えられている点において、実施の形態１における記録データ生成部１１０と異なっている。なお、メタデータ生成部２１７での処理は、実施の形態２におけるメタデータ生成部２１７と同様である。

音声情報生成部３２１は、ＴＶ９よりマルチメディアデータを受け取り、このマルチメディアデータから、字幕文字列が表示される区間の音声信号を、表示される字幕文字列毎に抽出する。次に、音声情報生成部３２１は、抽出された音声信号から、その字幕文字列が表示される区間における音量を示す音量データを取得する。次に、音声情報生成部３２１は、取得された音量データで示される音量を、その字幕文字列が表示される区間において積分することで、その字幕文字列が表示される区間における音量値を算出する。そして、音声情報生成部３２１は、算出された音量値を特徴度決定部３１５に与える。

特徴度決定部３１５は、実施の形態１と同様の処理を行う他、音声情報生成部３２１から与えられた音量値が大きいほど、その区間における字幕文字列に含まれている単語の特徴度が高くなるような重み値を、その区間における字幕文字列に含まれている単語に付与する。ここで、特徴度決定部３１５は、音量値を一定範囲の値に正規化することで、重み値とする。そして、特徴度決定部３１５は、分割部１１３から与えられた単語、その特徴度、及び、その重み値をメタデータ生成部２１７に与える。

大きな音量で話している内容は重要な内容である場合があるが、実施の形態３に係る記録再生装置３は、１つの字幕文字列毎に、その字幕文字列が発せられたときの音量を重み値として表すことで、その重要度を反映して要約再生を行うことができる。

実施の形態３に係る記録再生装置３でも、語句を特徴度抽出の単位とすることができる。この場合には、例えば、特徴度決定部３１５は、音声情報生成部３２１から与えられる音量値に基づいて語句に重み値を付与する。

実施の形態４．
図１に示されているように、実施の形態４に係る記録再生装置４は、データ処理部４０と、全体制御部１１と、Ｕ／Ｉ部１２とを備える。実施の形態４に係る記録再生装置４は、データ処理部４０において、実施の形態１に係る記録再生装置１と異なっている。

データ処理部４０は、データを記録し、記録されたデータを再生する。データ処理部４０は、データを記録する記録処理部４００と、記録されたデータを再生する再生処理部２３０とを備える。実施の形態４におけるデータ処理部４０は、記録処理部４００及び再生処理部２３０において、実施の形態１におけるデータ処理部１０と異なっている。なお、実施の形態４における再生処理部２３０は、実施の形態２と同様に構成されている。

図１８は、記録処理部４００の構成を概略的に示すブロック図である。記録処理部４００は、書き込みドライブ１０１と、記録処理制御部１０２と、記録データ生成部４１０とを備える。実施の形態４における記録処理部４００は、記録データ生成部４１０において、実施の形態１における記録処理部１００と異なっている。

記録データ生成部４１０は、ＴＶ９から出力されたマルチメディアデータを受け取り、このマルチメディアデータからメタデータを生成する。そして、記録データ生成部４１０は、マルチメディアデータ及びメタデータを書き込みドライブ１０１に与えて、記憶媒体８に記録させる。記録データ生成部４１０は、字幕データ抽出部１１１と、形態素解析データベース１１２と、分割部１１３と、特徴度データベース１１４と、特徴度決定部４１５と、番組情報抽出部１１６と、メタデータ生成部２１７と、書き込みバッファ１１８と、音声認識処理部４２２とを備える。実施の形態４における記録データ生成部４１０は、特徴度決定部４１５及びメタデータ生成部２１７での処理の点、並びに、音声認識処理部４２２がさらに備えられている点において、実施の形態１における記録データ生成部１１０と異なっている。なお、メタデータ生成部２１７での処理は、実施の形態２におけるメタデータ生成部２１７と同様である。

音声認識処理部４２２は、ＴＶ９よりマルチメディアデータを受け取り、このマルチメディアデータから、字幕文字列が表示されている区間の音声信号を抽出する。次に、音声認識処理部４２２は、音声認識を行い、各単語が発せられている区間（以下、単語区間という）を特定する。次に、音声認識処理部４２２は、抽出された音声信号から特定された単語区間における音量を示す音量データを取得する。次に、音声認識処理部４２２は、取得された音量データで示される音量を、その単語区間において積分することで、その単語区間における音量値である単語音量値を算出する。そして、音声情報生成部３２１は、認識された単語（以下、認識単語という）と、その単語音量値とを特徴度決定部４１５に与える。

特徴度決定部４１５は、実施の形態１と同様の処理を行う他、分割部１１３から与えられた単語と、音声認識処理部４２２から与えられた認識単語とを比較して、分割部１１３から与えられた単語の内、音声認識処理部４２２から与えられた認識単語と一致する単語を特定する。次に、特徴度決定部４１５は、特定された単語に、一致する認識単語の単語音量値が大きいほど、特定された単語の特徴度が高くなる重み値を付与する。例えば、特徴度決定部４１５は、単語音量値を一定範囲の値に正規化することで、重み値とすることができる。なお、同じ単語が何度も出現している場合でも、分割部１１３、音声認識処理部４２２及び特徴度決定部４１５は、出現時刻等を利用して、一つ一つの単語を区別して、それぞれの単語についての単語音量値から重み値を算出することができる。そして、特徴度決定部４１５は、分割部１１３から与えられた単語、その特徴度、及び、その重み値をメタデータ生成部２１７に与える。

実施の形態３は、１つの字幕文字列単位で音量を積分して重み値を算出しているが、実施の形態４は、１つの単語単位で音量を積分して重み値を算出している。即ち、実施の形態３では、１つの字幕文字列に含まれる単語の重み値は全て同じであるのに対して、実施の形態４では、１つの字幕文字列に含まれる単語であっても、単語毎に重み値が算出される。

大きな音量で発言された単語は内容において重要な場合があるが、実施の形態４に係る記録再生装置４によれば、単語毎に、その単語が発せられたときの音量を重み値として表すことで、その重要度を反映して要約再生を行うことができる。言い換えると、実施の形態３に比べ、より細かい音量情報を重み値として反映することができる。

なお、実施の形態２〜４は、それぞれ異なる種類の重み値を算出して要約生成に利用するものであるが、当然の事ながら、要約再生に利用できる重み値は１種類に限らない。つまり、記録再生装置は、実施の形態２〜４における複数の重み値をメタデータに記録し、その中から１乃至複数の重み値を閾値処理の際に掛け合わせるように構成されていてもよい。

実施の形態４に係る記録再生装置４でも、語句を特徴度抽出の単位とすることができる。この場合には、例えば、音声認識処理部４２２は、語句に対して音量値を算出する。特徴度決定部４１５は、音声認識処理部４２２から与えられた音量値に基づいて、語句に重み値を付与する。

実施の形態５．
図１に示されているように、実施の形態５に係る記録再生装置５は、データ処理部５０と、全体制御部１１と、Ｕ／Ｉ部１２とを備える。実施の形態５に係る記録再生装置５は、データ処理部５０において、実施の形態１に係る記録再生装置１と異なっている。

データ処理部５０は、データを記録し、記録されたデータを再生する。データ処理部５０は、データを記録する記録処理部５００と、記録されたデータを再生する再生処理部５３０とを備える。実施の形態５におけるデータ処理部５０は、記録処理部５００及び再生処理部５３０において、実施の形態１におけるデータ処理部１０と異なっている。

図１９は、記録処理部５００の構成を概略的に示すブロック図である。記録処理部５００は、書き込みドライブ１０１と、記録処理制御部１０２と、記録データ生成部５１０とを備える。実施の形態５における記録処理部５００は、記録データ生成部５１０において、実施の形態１における記録処理部１００と異なっている。

記録データ生成部５１０は、ＴＶ９から出力されたマルチメディアデータを受け取り、このマルチメディアデータからメタデータを生成する。そして、記録データ生成部５１０は、マルチメディアデータ及びメタデータを書き込みドライブ１０１に与えて、記憶媒体８に記録させる。記録データ生成部５１０は、字幕データ抽出部１１１と、形態素解析データベース１１２と、分割部１１３と、特徴度データベース１１４と、番組情報抽出部１１６と、メタデータ生成部５１７と、書き込みバッファ１１８と、シーン抽出部５２３と、シーン特徴度算出部５２４とを備える。実施の形態５における記録データ生成部５１０は、メタデータ生成部５１７での処理の点、シーン抽出部５２３が設けられている点、並びに、実施の形態１における特徴度決定部１１５の代わりにシーン特徴度算出部５２４が設けられている点において、実施の形態１における記録データ生成部１１０と異なっている。なお、本実施の形態における分割部１１３は、分割された単語をシーン特徴度算出部５２４に与える。

シーン抽出部５２３は、ＴＶ９から出力されたマルチメディアデータを受け取り、このマルチメディアデータを、複数のシーンに分割する。例えば、シーン抽出部５２３は、マルチメディアデータから、動きベクトル、カラーヒストグラム、音声周波数、特性、音量及び音声関連情報の少なくとも何れか１つを抽出し、抽出されたものを分析することで、マルチメディアデータをいくつかのシーンに分割する。このようなシーンの分割方法は、一般に多くの方法が知られている。そして、シーン抽出部５２３は、分割された各々のシーンについて、シーン再生時間（シーン再生開始時刻及びシーン再生終了時刻）をメタデータ生成部５１７及びシーン特徴度算出部５２４に与える。

シーン特徴度算出部５２４は、特徴度データベース１１４を利用することで、分割部１１３から与えられた単語の特徴度を求める算出部である。さらに、シーン特徴度算出部５２４は、シーン抽出部５２３から与えられたシーン再生時間に表示される字幕文字列に含まれる単語の特徴度の平均を求め、求められた平均をシーン特徴度とする。そして、シーン特徴度算出部５２４は、シーン再生時間とそのシーン特徴度とをメタデータ生成部５１７に与える。

メタデータ生成部５１７は、字幕データ抽出部１１１から字幕データ、シーン特徴度算出部５２４からシーン再生時間及びそのシーン特徴度、並びに、番組情報抽出部１１６から番組情報を受け取り、これらの情報を用いて、ＴＶ９から出力されたマルチメディアデータのメタデータを生成する。そして、メタデータ生成部５１７は、生成されたメタデータを書き込みバッファ１１８に与える。

図２０は、メタデータ生成部５１７が生成するメタデータ５５０の構造を示す概略図である。メタデータ５５０は、ＴＶ９から出力されたマルチメディアデータに含まれている番組毎に、その番組に含まれるシーンの再生時間と、そのシーンのシーン特徴度とを示す。メタデータ５５０は、階層Ａ、階層Ｂ、階層Ｃ及び階層Ｄの４つの階層を有する。
階層Ａのメタデータ５５０は、最上位階層に配置されている。このメタデータ５５０の下位に、メタデータ情報５５１、番組特定情報５５２及びシーン情報５５３が続いている。

階層Ｂのメタデータ情報５５１は、全ての番組のメタデータ情報を管理するための、包括的な記述であるメタデータ管理情報５５１０と、番組毎のメタデータ情報５５１１〜５５１ｍとを含む。

階層Ｃの番組特定情報５５２は、階層Ｂにおける番組毎のメタデータ情報５５１１〜５５１ｍ毎に、番組名及び放送日時等を含む番組情報５５２０及び番組に含まれるシーンデータ５５２１〜５５２ｎを含む。なお、シーンデータ５５２１〜５５２ｎの各々は、番組から分割された各々のシーンを示すデータになっているものとする。

階層Ｄのシーン情報５５３は、階層Ｃにおけるシーンデータ５５２１〜５５２ｎ毎に、シーン再生開始時刻５５３０、シーン再生終了時刻５５３１、及び、シーン特徴度５５３２を含む。

なお、図２０においては、メタデータ５５０を４つの階層とする場合について説明したが、メタデータ５５０は、シーンの再生時間及びそのシーンのシーン特徴度を特定できれば、階層をいくつ有していてもよい。また、図２０に示されているメタデータ５５０は、記録されている全ての番組のメタデータを１つのファイルとして扱う場合について説明したが、例えば、番組毎に独立したファイルが形成されていてもよい。

図６に示されているように、再生処理部５３０は、再生処理制御部１３１と、読み取りドライブ１３２と、再生データ生成部５４０とを備える。実施の形態５における再生処理部５３０は、再生データ生成部５４０において、実施の形態１における再生処理部１３０と異なっている。

再生データ生成部５４０は、Ｕ／Ｉ制御部５４１と、読み取りドライブＩ／Ｆ部１４２と、メタデータ分析部５４３と、再生制御部１４４とを備える。実施の形態５における再生データ生成部５４０は、Ｕ／Ｉ制御部５４１及びメタデータ分析部５４３において、実施の形態１における再生データ生成部１４０と異なっている。

Ｕ／Ｉ制御部５４１は、Ｕ／Ｉ部１２の制御を行う。例えば、Ｕ／Ｉ制御部５４１は、Ｕ／Ｉ部１２を介して、ユーザより再生モード等のユーザ設定の入力を受けて、このユーザ設定を再生処理制御部１３１に与える。また、Ｕ／Ｉ制御部５４１は、Ｕ／Ｉ部１２を介して、シーン特徴度の高低を判断するためのシーン特徴度閾値の入力を受けて、このシーン特徴度閾値をメタデータ分析部５４３に与える。

メタデータ分析部５４３は、読み取りドライブＩ／Ｆ部１４２から与えられたメタデータ５５０を分析して、Ｕ／Ｉ制御部５４１から与えられたシーン特徴度閾値を用いてシーン特徴度が高いシーンのシーン再生時間を特定して、特定されたシーン再生時間を再生制御部１４４に通知する。例えば、メタデータ分析部５４３は、再生処理制御部１３１から与えられた再生モード制御信号が、通常再生モードを示すか、要約再生モードを示すかを判別する。そして、メタデータ分析部５４３は、再生モード制御信号が通常再生モードを示す場合には、処理を終了する。一方、メタデータ分析部５４３は、再生モード制御信号が通常再生モードを示す場合には、読み取りドライブＩ／Ｆ部１４２よりメタデータ５５０を受け取る。そして、メタデータ分析部５４３は、受け取ったメタデータ５５０のＣ層から、シーンデータ５５２１〜５５２ｎを読み出す。メタデータ分析部５４３は、読み出されたシーンデータ５５２１〜５５２ｎの各々から、その下位に格納されているシーン特徴度を読み出す。そして、メタデータ分析部５４３は、読み出されたシーン特徴度から、Ｕ／Ｉ制御部５４１より与えられたシーン特徴度閾値を超えるシーン特徴度を特定する。メタデータ分析部５４３は、特定されたシーン特徴度を有するシーンのシーン再生開始時刻及びシーン再生終了時刻を、読み出されたシーンデータ５５２１〜５５２ｎから取得する。そして、メタデータ分析部５４３は、取得されたシーン再生開始時刻及びシーン再生終了時刻を再生制御部１４４に通知する。なお、再生制御部１４４は、メタデータ分析部５４３から与えられたシーン再生開始時刻及びシーン再生終了時刻を示す再生制御信号を生成し、この再生制御信号を読み取りドライブ１３２に与える。

番組は、シーンを単位として、重要か重要でないか（特徴的か特徴的でないか）を分類できる場合が多いが、実施の形態５に係る記録再生装置５は、番組をシーンに分割し、そのシーンに含まれる単語の特徴度を利用することで、シーン毎の重要性を値で表すことができる。これにより、シーン単位で要約再生を行うことができる。

実施の形態５に係る記録再生装置５は、実施の形態２〜４で示したような重み値を利用することもできる。このような場合、記録再生装置５は、各種重み値をメタデータに記録しておき、シーン特徴度にその重み値を掛け合わせた上で、閾値処理をして再生シーンを決定する。

実施の形態５に係る記録再生装置５でも、語句を特徴度抽出の単位とすることができる。この場合には、例えば、シーン特徴度算出部５２４は、シーン再生時間に表示される字幕文字列に含まれる語句の特徴度の平均を、シーン特徴度として求める。

実施の形態６．
図１に示されているように、実施の形態６に係る記録再生装置６は、データ処理部６０と、全体制御部１１と、Ｕ／Ｉ部１２とを備える。実施の形態６に係る記録再生装置６は、データ処理部６０において、実施の形態１に係る記録再生装置１と異なっている。

データ処理部６０は、データを記録し、記録されたデータを再生する。データ処理部６０は、データを記録する記録処理部６００と、記録されたデータを再生する再生処理部６３０とを備える。実施の形態６におけるデータ処理部６０は、記録処理部６００及び再生処理部６３０において、実施の形態１におけるデータ処理部１０と異なっている。

図２１は、記録処理部６００の構成を概略的に示すブロック図である。記録処理部６００は、書き込みドライブ１０１と、記録処理制御部１０２と、記録データ生成部６１０とを備える。実施の形態６における記録処理部６００は、記録データ生成部６１０において、実施の形態１における記録処理部１００と異なっている。

記録データ生成部６１０は、ＴＶ９から出力されたマルチメディアデータを受け取り、このマルチメディアデータからメタデータを生成する。そして、記録データ生成部６１０は、マルチメディアデータ及びメタデータを書き込みドライブ１０１に与えて、記憶媒体８に記録させる。記録データ生成部６１０は、字幕データ抽出部１１１と、形態素解析データベース１１２と、分割部１１３と、特徴度データベース１１４と、特徴度決定部１１５と、番組情報抽出部１１６と、メタデータ生成部６１７と、書き込みバッファ１１８と、シーン抽出部５２３と、非重要語率算出部６２５とを備える。実施の形態６における記録データ生成部６１０は、メタデータ生成部６１７での処理の点、並びに、シーン抽出部５２３及び非重要語率算出部６２５がさらに備えられている点において、実施の形態１における記録データ生成部１１０と異なっている。但し、特徴度決定部１１５は、単語及びその特徴度を非重要語率算出部６２５に与える。

シーン抽出部５２３は、実施の形態５におけるシーン抽出部５２３と同様の処理を行う。但し、実施の形態６においては、シーン抽出部５２３は、シーン再生時間を非重要語率算出部６２５に与える。

非重要語率算出部６２５は、シーン抽出部５２３から与えられたシーン再生時間で特定されるシーン毎に、当該シーンで表示される字幕文字列に含まれる単語の内、単語重要度が相対的に低い単語が含まれている割合である非重要語率を算出する算出部である。例えば、非重要語率算出部６２５は、番組において表示される全ての字幕文字列に含まれる全ての単語及びその特徴度を、特徴度決定部１１５から受け取る。次に、非重要語率算出部６２５は、受け取った単語をその特徴度の大きさ順に整列させる。次に、非重要語率算出部６２５は、整列された単語の内、予め設定された範囲（特徴度が相対的に低い範囲）に含まれる単語を非重要語として特定する。例えば、整列させた単語が１００個ある場合に、特徴度が下から１０％の範囲に含まれる１０語を、特徴度が低いものから順に、非重要語として特定する。但し、１０％の境界において、特徴度の大きさが複数の単語で同値である場合には、１０語という枠に捉われず、同値の複数の単語も非重要語として特定する。次に、非重要語率算出部６２５は、シーン抽出部５２３から、シーン再生開始時刻及びシーン再生終了時刻を受け取り、各シーン中に含まれる全単語数を算出する。次に、非重要語率算出部６２５は、シーン毎に、算出された全単語数のうち、非重要語が含まれている割合を算出し、算出された割合を非重要語率とする。そして、非重要語率算出部６２５は、シーン再生時間及びその非重要語率をメタデータ生成部６１７に与える。

メタデータ生成部６１７は、字幕データ抽出部１１１から字幕データ、非重要語率算出部６２５からシーン再生時間及びその非重要語率、並びに、番組情報抽出部１１６から番組情報を受け取り、これらの情報を用いて、ＴＶ９から出力されたマルチメディアデータのメタデータを生成する。そして、メタデータ生成部６１７は、生成されたメタデータを書き込みバッファ１１８に与える。

図２２は、メタデータ生成部６１７が生成するメタデータ６５０の構造を示す概略図である。実施の形態６におけるメタデータ６５０は、階層Ｄのシーン情報６５３において、実施の形態５におけるメタデータ５５０と異なっている。

階層Ｄのシーン情報６５３は、階層Ｃにおけるシーンデータ５５２１〜５５２ｎ毎に、シーン再生開始時刻５５３０、シーン再生終了時刻５５３１、及び、非重要語率６５３２を含む。

図６に示されているように、再生処理部６３０は、再生処理制御部１３１と、読み取りドライブ１３２と、再生データ生成部６４０とを備える。実施の形態６における再生処理部６３０は、再生データ生成部６４０において、実施の形態１における再生処理部１３０と異なっている。

再生データ生成部６４０は、Ｕ／Ｉ制御部６４１と、読み取りドライブＩ／Ｆ部１４２と、メタデータ分析部６４３と、再生制御部１４４とを備える。実施の形態６における再生データ生成部６４０は、Ｕ／Ｉ制御部６４１及びメタデータ分析部６４３において、実施の形態１における再生データ生成部１４０と異なっている。

Ｕ／Ｉ制御部６４１は、Ｕ／Ｉ部１２の制御を行う。例えば、Ｕ／Ｉ制御部６４１は、Ｕ／Ｉ部１２を介して、ユーザより再生モード等のユーザ設定の入力を受けて、このユーザ設定を再生処理制御部１３１に与える。また、Ｕ／Ｉ制御部６４１は、Ｕ／Ｉ部１２を介して、非重要語率の高低を判断するための非重要語率閾値の入力を受けて、この非重要語率閾値をメタデータ分析部６４３に与える。

メタデータ分析部６４３は、読み取りドライブＩ／Ｆ部１４２から与えられたメタデータ６５０を分析して、Ｕ／Ｉ制御部６４１から与えられた非重要語率閾値を用いて非重要語率が低いシーンが再生される時間を特定して、特定された時間を再生時間として再生制御部１４４に通知する。例えば、メタデータ分析部６４３は、再生処理制御部１３１から与えられた再生モード制御信号が、通常再生モードを示すか、要約再生モードを示すかを判別する。そして、メタデータ分析部６４３は、再生モード制御信号が通常再生モードを示す場合には、処理を終了する。一方、メタデータ分析部６４３は、再生モード制御信号が通常再生モードを示す場合には、読み取りドライブＩ／Ｆ部１４２よりメタデータ６５０を受け取る。そして、メタデータ分析部６４３は、受け取ったメタデータ６５０のＣ層から、シーンデータ５５２１〜５５２ｎを読み出す。メタデータ分析部６４３は、読み出したシーンデータ５５２１〜５５２ｎの各々から、その下位に格納されている非重要語率を読み出す。そして、メタデータ分析部６４３は、読み出された非重要語率から、Ｕ／Ｉ制御部６４１から与えられた非重要語率閾値を下回る非重要語率を特定する。メタデータ分析部６４３は、特定された非重要語率を有するシーンのシーン再生開始時刻及びシーン再生終了時刻を、読み出したシーンデータ５５２１〜５５２ｎから取得する。そして、メタデータ分析部６４３は、取得されたシーン再生開始時刻及びシーン再生終了時刻を再生制御部１４４に通知する。

実施の形態６に係る記録再生装置６は、あるシーンにおいて特徴度が低い単語がどれ位占めているかを考慮して要約再生を行うことができる。シーン毎の特徴度の平均は、例えば、殆ど全ての単語の特徴度が低くても、特徴度が極端に高い単語が１つあるシーンは平均が上がることになる。しかしながら、ユーザが全体の内容を理解する上では、このようなシーンより、特徴度の平均が低くても特徴度が比較的高い語が多く出現するシーンのほうが重要なシーンである場合もある。従って、実施の形態６に係る記録再生装置６は、このような場合にも対応した要約再生を行うことができる。

実施の形態６に係る記録再生装置６は、実施の形態２〜４で示したような、重み値を利用することもできる。このような場合には、記録再生装置６は、各種重み値をメタデータに記録しておき、非重要語率にその重み値を掛け合わせた上で、閾値処理をして再生シーンを決定する。

実施の形態６に係る記録再生装置６でも、語句を特徴度抽出の単位とすることができる。この場合には、例えば、非重要語率算出部６２５は、シーン毎に、特徴度が相対的に低い語句が含まれている割合である非重要語句率を算出する。

実施の形態７．
図１に示されているように、実施の形態７に係る記録再生装置７は、データ処理部７０と、全体制御部１１と、Ｕ／Ｉ部１２とを備える。実施の形態７に係る記録再生装置７は、データ処理部７０において、実施の形態１に係る記録再生装置１と異なっている。

データ処理部７０は、データを記録し、記録されたデータを再生する。データ処理部７０は、データを記録する記録処理部７００と、記録されたデータを再生する再生処理部７３０とを備える。実施の形態７におけるデータ処理部７０は、記録処理部７００及び再生処理部７３０において、実施の形態１におけるデータ処理部１０と異なっている。

図２３は、記録処理部７００の構成を概略的に示すブロック図である。記録処理部７００は、書き込みドライブ１０１と、記録処理制御部１０２と、記録データ生成部７１０とを備える。実施の形態７における記録処理部７００は、記録データ生成部７１０において、実施の形態１における記録処理部１００と異なっている。

記録データ生成部７１０は、ＴＶ９から出力されたマルチメディアデータを受け取り、このマルチメディアデータからメタデータを生成する。そして、記録データ生成部７１０は、マルチメディアデータ及びメタデータを書き込みドライブ１０１に与えて、記憶媒体８に記録させる。記録データ生成部７１０は、字幕データ抽出部１１１と、形態素解析データベース１１２と、分割部１１３と、特徴度データベース１１４と、特徴度決定部１１５と、番組情報抽出部１１６と、メタデータ生成部７１７と、書き込みバッファ１１８と、シーン抽出部５２３と、非重要語率算出部６２５と、セクション割当部７２６とを備える。実施の形態７における記録データ生成部７１０は、メタデータ生成部７１７での処理の点、並びに、シーン抽出部５２３、非重要語率算出部６２５及びセクション割当部７２６がさらに備えられている点において、実施の形態１における記録データ生成部１１０と異なっている。但し、特徴度決定部１１５は、単語及びその特徴度を非重要語率算出部６２５に与える。

シーン抽出部５２３は、実施の形態５におけるシーン抽出部５２３と同様の処理を行う。但し、実施の形態７においては、シーン抽出部５２３は、シーン再生時間を非重要語率算出部６２５及びセクション割当部７２６に与える。
非重要語率算出部６２５は、実施の形態６における非重要語率算出部６２５と同様の処理を行う。

セクション割当部７２６は、シーン抽出部５２３からシーン再生時間を受け取り、受け取られたシーン再生時間で示されるシーンをいくつかのセクションに割り当てる。具体的には、セクション割当部７２６は、番組先頭からの経過時刻を算出して、所定の経過時刻において、シーンをセクションに割り当てる。例えば、６０分の番組におけるシーンを４セクションに割り当てる場合、セクション割当部７２６は、各シーンが０〜１４分、１５分〜２９分、３０分〜４４分、４５分〜６０分のどの範囲にあるかで、各シーンにセクション１〜４の番号を割り当てる。また、シーンが複数の時間帯に跨っている場合は、セクション割当部７２６は、例えば、シーンの再生開始時刻と再生終了時刻との間の中心がどちらの時間帯に含まれているかで、割り当てるセクションを判断する。これ以外にも、セクション割当部７２６は、映像信号及び音声信号の少なくとも何れか一方の特徴から得たシーン同士の関連度を考慮して、セクションを割り当てることもできる。この場合、セクション割当部７２６は、シーンの関連度が低いところでセクションを分割する。また、経過時刻で割り当てる場合にも、セクション割当部７２６は、複数の時間帯に跨っているシーンを、シーン同士の関連度を考慮してセクションへの割り当てを判断することもできる。そして、セクション割当部７２６は、シーン（シーン再生時間）とそのシーンに割り当てたセクションを示すセクション情報（セクション番号）との対応をメタデータ生成部７１７に通知する。

メタデータ生成部７１７は、字幕データ抽出部１１１から字幕データ、非重要語率算出部６２５からシーン再生時間及びその非重要語率、セクション割当部７２６からシーン再生時間及びそのセクション番号、並びに、番組情報抽出部１１６から番組情報を受け取り、これらの情報を用いて、ＴＶ９から出力されたマルチメディアデータのメタデータを生成する。そして、メタデータ生成部７１７は、生成されたメタデータを書き込みバッファ１１８に与える。

図２４は、メタデータ生成部７１７が生成するメタデータ７５０の構造を示す概略図である。実施の形態７におけるメタデータ７５０は、階層Ｄのシーン情報７５３において、実施の形態６におけるメタデータ６５０と異なっている。

階層Ｄのシーン情報７５３は、階層Ｃにおけるシーンデータ５５２１〜５５２ｎ毎に、シーン再生開始時刻５５３０、シーン再生終了時刻５５３１、非重要語率６５３２、及び、セクション番号７５３３を含む。

図６に示されているように、再生処理部７３０は、再生処理制御部１３１と、読み取りドライブ１３２と、再生データ生成部７４０とを備える。実施の形態７における再生処理部７３０は、再生データ生成部７４０において、実施の形態１における再生処理部１３０と異なっている。

再生データ生成部７４０は、Ｕ／Ｉ制御部７４１と、読み取りドライブＩ／Ｆ部１４２と、メタデータ分析部７４３と、再生制御部１４４とを備える。実施の形態７における再生データ生成部７４０は、メタデータ分析部７４３において、実施の形態１における再生データ生成部１４０と異なっている。

Ｕ／Ｉ制御部７４１は、Ｕ／Ｉ部１２の制御を行う。例えば、Ｕ／Ｉ制御部７４１は、Ｕ／Ｉ部１２を介して、ユーザより再生モード等のユーザ設定の入力を受けて、このユーザ設定を再生処理制御部１３１に与える。なお、実施の形態７においては、Ｕ／Ｉ制御部７４１は、実施の形態１とは異なり、Ｕ／Ｉ部１２を介して、特徴度の高低を判断するための特徴度閾値の入力を受ける必要はない。

メタデータ分析部７４３は、読み取りドライブＩ／Ｆ部１４２から与えられたメタデータ７５０を分析して、セクション毎に、非重要語率が相対的に低いシーンが再生される時間を所定数特定して、特定された時間を再生時間として再生制御部１４４に通知する。例えば、メタデータ分析部７４３は、再生処理制御部１３１から与えられた再生モード制御信号が、通常再生モードを示すか、要約再生モードを示すかを判別する。そして、メタデータ分析部７４３は、再生モード制御信号が通常再生モードを示す場合には、処理を終了する。一方、メタデータ分析部７４３は、再生モード制御信号が通常再生モードを示す場合には、読み取りドライブＩ／Ｆ部１４２よりメタデータ７５０を受け取る。そして、メタデータ分析部７４３は、受け取ったメタデータ７５０のＣ層から、シーンデータ５５２１〜５５２ｎを読み出す。メタデータ分析部７４３は、読み出したシーンデータ５５２１〜５５２ｎの各々から、その下位に格納されているセクション番号毎に非重要語率を読み出す。そして、メタデータ分析部７４３は、セクション番号毎に、低いものから順に数個の非重要語率を抽出する。メタデータ分析部７４３は、抽出された非重要語率を有するシーンのシーン再生開始時刻及びシーン再生終了時刻を、読み出されたシーンデータ５５２１〜５５２ｎから取得する。言い換えると、メタデータ分析部７４３は、セクション番号毎に、非重要語率が相対的に低いシーンを特定して、特定されたシーンのシーン再生開始時刻及びシーン再生終了時刻を取得する。そして、メタデータ分析部７４３は、取得されたシーン再生開始時刻及びシーン再生終了時刻を再生制御部１４４に通知する。ここで、抽出する個数については、予め定められていてもよく、また、メタデータ分析部７４３が、ユーザによる設定をＵ／Ｉ制御部７４１から受け取って決定してもよい。

実施の形態７に係る記録再生装置７は、シーンを幾つかのセクションに割り当てておき、セクション毎にシーンを幾つか抽出することで、番組全体から満遍なくシーンを抽出して、要約再生を行うことができる。特徴度の平均が高いシーン、又は、非重要語率の高い若しくは低いシーンを抽出する場合、番組の前半から後半まで万遍なくシーンが抽出されるとは限らず、番組の前半部分のみから抽出されてしまうときがある。従って、実施の形態７に係る記録再生装置７は、例えば、４つのセクションにシーンを割り当てれば、概ね「起承転結」に沿ったシーンを抽出することができる。

実施の形態７に係る記録再生装置７は、実施の形態２〜４で示したような、重み値を利用することも可能である。このような場合、記録再生装置７は、各種重み値をメタデータに記録しておき、非重要語率にその重み値を掛け合わせた上で、閾値処理をして再生シーンを決定する。

実施の形態７に係る記録再生装置７でも、語句を特徴度抽出の単位とすることができる。

以上に記載された実施の形態１〜７においては、記憶媒体８、書き込みドライブ１０１及び読み取りドライブ１３２により、マルチメディアデータ及びメタデータを記憶する記憶部が構成されている。但し、記憶部は、このような例に限定されるものではなく、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）又は半導体メモリ等により構成されていてもよい。また、以上に記載された実施の形態１〜７は、書き込みドライブ１０１と、読み取りドライブ１３２とが別々に備えられていたが、これらが１つのドライブで構成されていてもよい。

なお、以上に記載された実施の形態１〜７は、本発明を記録再生装置１〜７に適用した例を示しているが、このような例に限定されない。例えば、本発明は、記録処理部１００〜７００を備えないことにより、再生装置として構成されてもよく、また、再生処理部１３０〜７３０を備えないことにより、記録装置として構成されてもよい。

以上に記載された実施の形態１〜７においては、データ処理部１０〜７０は、ＴＶ９から出力されたマルチメディアデータを記録しているが、このような例に限定されるものではない。例えば、図示してはいないが、記録再生装置１にデジタル放送を受信するためのデジタル放送受信部が備えられ、データ処理部１０は、このようなデジタル放送受信部から得られるマルチメディアデータを記録してもよい。さらに、図示してはいないが、記録再生装置１にディスプレイ等の表示部が備えられ、データ処理部１０〜７０は、このような表示部に、記憶媒体８にから読み出されたデータを出力してもよい。

１，２，３，４，５，６，７：記録再生装置、８：記憶媒体、９：ＴＶ、１０，２０，３０，４０，５０，６０，７０：データ処理部、１１：全体制御部、１２：ユーザインタフェース部、１００，２００，３００，４００，５００，６００，７００：記録処理部、１０１：書き込みドライブ、１０２：記録処理制御部、１１０，２１０，３１０，４１０，５１０，６１０，７１０：記録データ生成部、１１１：字幕データ抽出部、１１２：形態素解析データベース、１１３：分割部、１１４，１１４−１：特徴度データベース、１１５、１１５−１，１１５−２，２１５，３１５，４１５：特徴度決定部、１１６：番組情報抽出部、１１７，２１７，５１７，６１７，７１７：メタデータ生成部、１１８：書き込みバッファ、２１９：ＥＰＧデータ抽出部、２２０：ＥＰＧ分割部、３２１：音声情報生成部、４２２：音声認識処理部、５２３：シーン抽出部、５２４：シーン特徴度算出部、６２５：非重要語率算出部、７２６：セクション割当部、１３０，２３０，５３０，６３０，７３０：再生処理部、１３１：再生処理制御部、１３２：読み取りドライブ、１４０，２４０，５４０，６４０，７４０：再生データ生成部、１４１：ユーザインタフェース制御部、１４２：読み取りドライブインターフェース部、１４３，２４３，５４３，６４３，７４３：メタデータ分析部、１４４，１４４−１：再生制御部、１４５：重畳部、１８０：ネットワーク、１８１：アップデートデータベース。

Claims

映像信号と、当該映像信号に基づいて表示される映像に重畳することのできる字幕文字列及び当該字幕文字列の表示時間を有する字幕データと、を含むマルチメディアデータから、当該字幕データを抽出する字幕データ抽出部と、
前記字幕データ抽出部により抽出された字幕データ内の字幕文字列を語句に分割する分割部と、
前記分割部により分割された語句の各々に対して、前記語句の概念が特徴的であるほど高い値を示す特徴度を決定する特徴度決定部と、
前記字幕文字列の表示時間と、前記特徴度決定部で決定された特徴度と、を含むメタデータを生成するメタデータ生成部と、
前記マルチメディアデータと、前記メタデータ生成部により生成されたメタデータと、を記憶する記録部と、
前記記録部から読み出されたメタデータを分析して、前記特徴度により示される値が予め定められた値よりも高い語句を含む字幕文字列の表示時間を、再生時間として特定するメタデータ分析部と、
前記マルチメディアデータの内、前記メタデータ分析部により特定された再生時間に対応する部分を再生する制御を行う再生制御部と、を備えること
を特徴とする記録再生装置。
前記語句、及び、前記語句の特徴度を対応付けた特徴度情報を記憶する特徴度情報記憶部をさらに備え、
前記特徴度決定部は、前記特徴度情報記憶部に記憶されている特徴度情報を参照することにより、前記分割部により分割された語句の特徴度を決定すること
を特徴とする請求項１に記載の記録再生装置。
前記特徴度情報は、前記語句の概念がより下位概念であるほど、前記特徴度の値が高くなること
を特徴とする請求項２に記載の記録再生装置。
前記特徴度情報は、予め定められた調査範囲において、前記語句の出現頻度が低いほど、前記特徴度の値が高くなること
を特徴とする請求項２に記載の記録再生装置。
ネットワークとの間で通信を行う通信部をさらに備え、
前記特徴度決定部は、前記通信部を介して、前記ネットワークから情報を取得することで、前記特徴度情報を更新すること
を特徴とする請求項２から４の何れか１項に記載の記録再生装置。
ネットワークとの間で通信を行う通信部をさらに備え、
前記特徴度決定部は、前記通信部を介して、前記語句、及び、前記語句の特徴度を対応付けた特徴度情報を記憶する特徴度記憶装置にアクセスして、当該特徴度情報を参照することにより、前記分割部により分割された語句の特徴度を決定すること
を特徴とする請求項１に記載の記録再生装置。
電子番組表データから、前記マルチメディアデータとして前記記録部に記憶させる番組に対応する部分のデータを、個別番組表データとして抽出する電子番組表データ抽出部と、
前記電子番組表データ抽出部で抽出された個別番組表データに含まれている文字列から語句を分割する電子番組表分割部と、をさらに備え、
前記特徴度決定部は、前記分割部により分割された語句の内、前記電子番組表分割部により分割された語句と一致する語句に対して、前記特徴度により示される値を高めるための重み値を付与し、
前記メタデータ分析部は、前記特徴度により示される値を前記特徴度決定部により付与された重み値で高めることにより算出された値が前記予め定められた値よりも高いか否かを判断すること
を特徴とする請求項１から６の何れか１項に記載の記録再生装置。
前記マルチメディアデータは、前記映像信号に基づいて表示される映像に同期して音声を出力するための音声信号をさらに含み、
前記音声信号から、前記字幕文字列の表示時間における音量を取得する音声情報生成部をさらに備え、
前記特徴度決定部は、前記音声情報生成部により前記音量が取得された前記字幕文字列に含まれる語句に対して、前記音声情報生成部により取得された音量が大きいほど、前記特徴度により示される値を高めるための重み値を付与し、
前記メタデータ分析部は、前記特徴度により示される値を前記特徴度決定部により付与された重み値で高めることにより算出された値が前記予め定められた値よりも高いか否かを判断すること
を特徴とする請求項１から６の何れか１項に記載の記録再生装置。
前記マルチメディアデータは、前記映像信号に基づいて表示される映像に同期して出力される音声を示す音声信号をさらに含み、
前記音声信号から、前記字幕文字列に含まれる各々の語句の表示時間における音量を取得する音声情報生成部をさらに備え、
前記特徴度決定部は、前記音声情報生成部により前記音量が取得された前記各々の語句に対して、前記音声情報生成部により取得された音量が大きいほど、前記特徴度により示される値を高めるための重み値を付与し、
前記メタデータ分析部は、前記特徴度により示される値を前記特徴度決定部により付与された重み値で高めることにより算出された値が予め定められた値よりも高いか否かを判断すること
を特徴とする請求項１から６の何れか１項に記載の記録再生装置。
映像信号と、当該映像信号に基づいて表示される映像に重畳することのできる字幕文字列及び当該字幕文字列の表示時間を有する字幕データと、を含むマルチメディアデータから、当該字幕データを抽出する字幕データ抽出部と、
前記字幕データ抽出部により抽出された字幕データ内の字幕文字列を語句に分割する分割部と、
前記映像信号から複数のシーンを抽出し、当該複数のシーンに含まれる各々のシーンの表示時間を、シーン表示時間として特定するシーン抽出部と、
前記分割部により分割された語句の各々に対して、前記語句の概念が特徴的であるほど高い値を示す特徴度を決定し、前記シーン抽出部により特定されたシーン表示時間に表示される前記字幕文字列に含まれている語句の特徴度の平均を、シーン特徴度として算出する算出部と、
前記シーン抽出部により特定されたシーン表示時間と、前記算出部により算出されたシーン特徴度と、を含むメタデータを生成するメタデータ生成部と、
前記マルチメディアデータと、前記メタデータ生成部により生成されたメタデータと、を記憶する記録部と、
前記記録部から読み出されたメタデータを分析して、前記シーン特徴度により示される値が予め定められた値よりも高いシーンのシーン表示時間を、再生時間として特定するメタデータ分析部と、
前記マルチメディアデータの内、前記メタデータ分析部により特定された再生時間に対応する部分を再生する制御を行う再生制御部と、を備えること
を特徴とする記録再生装置。
映像信号と、当該映像信号に基づいて表示される映像に重畳することのできる字幕文字列及び当該字幕文字列の表示時間を有する字幕データと、を含むマルチメディアデータから、当該字幕データを抽出する字幕データ抽出部と、
前記字幕データ抽出部により抽出された字幕データ内の字幕文字列を語句に分割する分割部と、
前記分割部により分割された語句の各々に対して、前記語句の概念が特徴的であるほど高い値を示す特徴度を決定する特徴度決定部と、
前記映像信号から複数のシーンを抽出し、当該複数のシーンに含まれる各々のシーンの表示時間を、シーン表示時間として特定するシーン抽出部と、
前記特徴度決定部により決定された特徴度で示される値が相対的に低い語句を非重要語句として特定し、前記シーン抽出部で抽出されたシーン毎に、前記字幕文字列に含まれている全ての語句における前記特定された非重要語句の割合を非重要語句率として算出する算出部と、
前記シーン抽出部により特定されたシーン表示時間と、前記算出部により算出された非重要語句率と、を含むメタデータを生成するメタデータ生成部と、
前記マルチメディアデータと、前記メタデータ生成部により生成されたメタデータと、を記憶する記録部と、
前記記録部から読み出されたメタデータを分析して、前記非重要語句率が予め定められた値よりも低いシーンのシーン表示時間を、再生時間として特定するメタデータ分析部と、
前記マルチメディアデータの内、前記メタデータ分析部により特定された再生時間に対応する部分を再生する制御を行う再生制御部と、を備えること
を特徴とする記録再生装置。
映像信号と、当該映像信号に基づいて表示される映像に重畳することのできる字幕文字列及び当該字幕文字列の表示時間を有する字幕データと、を含むマルチメディアデータから、当該字幕データを抽出する字幕データ抽出部と、
前記字幕データ抽出部により抽出された字幕データ内の字幕文字列を語句に分割する分割部と、
前記分割部により分割された語句の各々に対して、前記語句の概念が特徴的であるほど高い値を示す特徴度を決定する特徴度決定部と、
前記映像信号から複数のシーンを抽出し、当該複数のシーンに含まれる各々のシーンの表示時間を、シーン表示時間として特定するシーン抽出部と、
前記シーン抽出部で抽出されたシーンを複数のセクションに割り当てるセクション割当部と、
前記特徴度決定部により決定された特徴度で示される値が相対的に低い語句を非重要語句として特定し、前記シーン抽出部で抽出されたシーン毎に、前記字幕文字列に含まれている全ての語句における前記特定された非重要語句の割合を非重要語句率として算出する算出部と、
前記シーン抽出部により特定されたシーン表示時間と、前記算出部により算出された非重要語句率と、前記セクション割当部により割り当てられたセクションを示すセクション情報と、を含むメタデータを生成するメタデータ生成部と、
前記マルチメディアデータと、前記メタデータ生成部により生成されたメタデータと、を記憶する記録部と、
前記記録部から読み出されたメタデータを分析して、前記セクション情報で示されるセクション毎に、前記非重要語句率が相対的に低いシーンを特定し、当該特定されたシーンのシーン表示時間を、再生時間として特定するメタデータ分析部と、
前記マルチメディアデータの内、前記メタデータ分析部により特定された再生時間に対応する部分を再生する制御を行う再生制御部と、を備えること
を特徴とする記録再生装置。
映像信号と、当該映像信号に基づいて表示される映像に重畳することのできる字幕文字列及び当該字幕文字列の表示時間を有する字幕データと、を含むマルチメディアデータから、当該字幕データを抽出する字幕データ抽出過程と、
前記字幕データ抽出過程で抽出された字幕データ内の字幕文字列を語句に分割する分割過程と、
前記分割過程で分割された語句の各々に対して、前記語句の概念が特徴的であるほど高い値を示す特徴度を決定する特徴度決定過程と、
前記字幕文字列の表示時間と、前記特徴度決定過程で決定された特徴度と、を含むメタデータを生成するメタデータ生成過程と、
前記マルチメディアデータと、前記メタデータ生成過程で生成されたメタデータと、を記憶する記録過程と、
前記記録過程で記憶されたメタデータを分析して、前記特徴度により示される値が予め定められた値よりも高い語句を含む字幕文字列の表示時間を、再生時間として特定するメタデータ分析過程と、
前記マルチメディアデータの内、前記メタデータ分析過程により特定された再生時間に対応する部分を再生する制御を行う再生制御過程と、を有すること
を特徴とする記録再生方法。
前記特徴度決定過程は、前記語句、及び、前記語句の特徴度を対応付けた特徴度情報を参照することにより、前記分割過程で分割された語句の特徴度を決定すること
を特徴とする請求項１３に記載の記録再生方法。
前記特徴度情報は、前記語句の概念がより下位概念であるほど、前記特徴度の値が高くなるものであること
を特徴とする請求項１４に記載の記録再生方法。
前記特徴度情報は、予め定められた調査範囲において、前記語句の出現頻度が低いほど、前記特徴度の値が高くなるものであること
を特徴とする請求項１４に記載の記録再生方法。
ネットワークから情報を取得することで、前記特徴度情報を更新する更新過程をさらに有すること
を特徴とする請求項１４から１６の何れか１項に記載の記録再生方法。
前記特徴度決定過程は、ネットワークを介して、前記語句、及び、前記語句の特徴度を対応付けた特徴度情報を記憶する特徴度記憶装置にアクセスして、当該特徴度情報を参照することにより、前記分割過程で分割された語句の特徴度を決定すること
を特徴とする請求項１３に記載の記録再生方法。
電子番組表データから、前記マルチメディアデータとして前記記憶過程で記憶させる番組に対応する部分のデータを、個別番組表データとして抽出する電子番組表データ抽出過程と、
前記電子番組表データ抽出過程で抽出された個別番組表データに含まれている文字列から語句を分割する電子番組表分割過程と、をさらに有し、
前記特徴度決定過程は、前記分割過程で分割された語句の内、前記電子番組表分割過程で分割された語句と一致する語句に対して、前記特徴度により示される値を高めるための重み値を付与し、
前記メタデータ分析過程は、前記特徴度により示される値を前記特徴度決定過程で付与された重み値で高めることにより算出された値が前記予め定められた値よりも高いか否かを判断すること
を特徴とする請求項１３から１８の何れか１項に記載の記録再生方法。
前記マルチメディアデータは、前記映像信号に基づいて表示される映像に同期して音声を出力するための音声信号をさらに含み、
前記音声信号から、前記字幕文字列の表示時間における音量を取得する音声情報生成過程をさらに有し、
前記特徴度決定過程は、前記音声情報生成過程で前記音量が取得された前記字幕文字列に含まれる語句に対して、前記音声情報生成過程で取得された音量が大きいほど、前記特徴度により示される値を高めるための重み値を付与し、
前記メタデータ分析過程は、前記特徴度により示される値を前記特徴度決定過程で付与された重み値で高めることにより算出された値が前記予め定められた値よりも高いか否かを判断すること
を特徴とする請求項１３から１８の何れか１項に記載の記録再生方法。
前記マルチメディアデータは、前記映像信号に基づいて表示される映像に同期して出力される音声を示す音声信号をさらに含み、
前記音声信号から、前記字幕文字列に含まれる各々の語句の表示時間における音量を取得する音声情報生成過程をさらに有し、
前記特徴度決定過程は、前記音声情報生成過程で前記音量が取得された前記各々の語句に対して、前記音声情報生成過程で取得された音量が大きいほど、前記特徴度により示される値を高めるための重み値を付与し、
前記メタデータ分析過程は、前記特徴度により示される値を前記特徴度決定過程で付与された重み値で高めることにより算出された値が前記予め定められた値よりも高いか否かを判断すること
を特徴とする請求項１３から１８の何れか１項に記載の記録再生方法。
映像信号と、当該映像信号に基づいて表示される映像に重畳することのできる字幕文字列及び当該字幕文字列の表示時間を有する字幕データと、を含むマルチメディアデータから、当該字幕データを抽出する字幕データ抽出過程と、
前記字幕データ抽出過程で抽出された字幕データ内の字幕文字列を語句に分割する分割過程と、
前記映像信号から複数のシーンを抽出し、当該複数のシーンに含まれる各々のシーンの表示時間を、シーン表示時間として特定するシーン抽出過程と、
前記分割過程で分割された語句の各々に対して、前記語句の概念が特徴的であるほど高い値を示す特徴度を決定し、前記シーン抽出過程で特定されたシーン表示時間に表示される前記字幕文字列に含まれている語句の特徴度の平均を、シーン特徴度として算出する算出過程と、
前記シーン抽出過程で特定されたシーン表示時間と、前記算出過程で算出されたシーン特徴度と、を含むメタデータを生成するメタデータ生成過程と、
前記マルチメディアデータと、前記メタデータ生成過程で生成されたメタデータと、を記憶する記録過程と、
前記記録過程で記憶されたメタデータを分析して、前記シーン特徴度により示される値が予め定められた値よりも高いシーンのシーン表示時間を、再生時間として特定するメタデータ分析過程と、
前記マルチメディアデータの内、前記メタデータ分析過程で特定された再生時間に対応する部分を再生する制御を行う再生制御過程と、を有すること
を特徴とする記録再生方法。
映像信号と、当該映像信号に基づいて表示される映像に重畳することのできる字幕文字列及び当該字幕文字列の表示時間を有する字幕データと、を含むマルチメディアデータから、当該字幕データを抽出する字幕データ抽出過程と、
前記字幕データ抽出過程で抽出された字幕データ内の字幕文字列を語句に分割する分割過程と、
前記分割過程で分割された語句の各々に対して、前記語句の概念が特徴的であるほど高い値を示す特徴度を決定する特徴度決定過程と、
前記映像信号から複数のシーンを抽出し、当該複数のシーンに含まれる各々のシーンの表示時間を、シーン表示時間として特定するシーン抽出過程と、
前記特徴度決定過程で決定された特徴度の内、前記特徴度で示される値が相対的に低い語句を、非重要語句として特定し、前記シーン抽出過程で抽出されたシーンに表示される字幕文字列に含まれている全ての語句における前記特定された非重要語句の割合を、非重要語句率として算出する算出過程と、
前記シーン抽出過程で特定されたシーン表示時間と、前記算出過程で算出された非重要語句率と、を含むメタデータを生成するメタデータ生成過程と、
前記マルチメディアデータと、前記メタデータ生成過程で生成されたメタデータと、を記憶する記録過程と、
前記記録過程で記憶されたメタデータを分析して、前記非重要語句率が予め定められた値よりも低いシーンのシーン表示時間を、再生時間として特定するメタデータ分析過程と、
前記マルチメディアデータの内、前記メタデータ分析過程で特定された再生時間に対応する部分を再生する制御を行う再生制御過程と、を有すること
を特徴とする記録再生方法。
映像信号と、当該映像信号に基づいて表示される映像に重畳することのできる字幕文字列及び当該字幕文字列の表示時間を有する字幕データと、を含むマルチメディアデータから、当該字幕データを抽出する字幕データ抽出過程と、
前記字幕データ抽出過程で抽出された字幕データ内の字幕文字列を語句に分割する分割過程と、
前記分割過程で分割された語句の各々に対して、前記語句の概念が特徴的であるほど高い値を示す特徴度を決定する特徴度決定過程と、
前記映像信号から複数のシーンを抽出し、当該複数のシーンに含まれる各々のシーンの表示時間を、シーン表示時間として特定するシーン抽出過程と、
前記シーン抽出過程で抽出されたシーンを複数のセクションに割り当てるセクション割当過程と、
前記特徴度決定過程で決定された特徴度の内、前記特徴度で示される値が相対的に低い語句を、非重要語句として特定し、前記シーン抽出過程で抽出されたシーンに表示される字幕文字列に含まれている全ての語句における前記特定された非重要語句の割合を、非重要語句率として算出する算出過程と、
前記シーン抽出過程で特定されたシーン表示時間と、前記算出過程で算出された非重要語句率と、前記セクション割当過程で割り当てられたセクションを示すセクション情報と、を含むメタデータを生成するメタデータ生成過程と、
前記マルチメディアデータと、前記メタデータ生成過程で生成されたメタデータと、を記憶する記録過程と、
前記記録過程で記憶されたメタデータを分析して、前記セクション情報で示されるセクション毎に、前記非重要語句率が相対的に低いシーンを特定し、当該特定されたシーンのシーン表示時間を、再生時間として特定するメタデータ分析過程と、
前記マルチメディアデータの内、前記メタデータ分析部により特定された再生時間に対応する部分を再生する制御を行う再生制御過程と、を有すること
を特徴とする記録再生方法。
映像信号と、当該映像信号に基づいて表示される映像に重畳することのできる字幕文字列及び当該字幕文字列の表示時間を有する字幕データと、を含むマルチメディアデータから、当該字幕データを抽出する字幕データ抽出部と、
前記字幕データ抽出部により抽出された字幕データ内の字幕文字列を語句に分割する分割部と、
前記分割部により分割された語句の各々に対して、前記語句の概念が特徴的であるほど高い値を示す特徴度を決定する特徴度決定部と、
前記字幕文字列の表示時間と、前記特徴度決定部で決定された特徴度と、を含むメタデータを生成するメタデータ生成部と、
前記マルチメディアデータと、前記メタデータ生成部により生成されたメタデータと、を記憶する記録部と、を備えること
を特徴とする記録装置。
映像信号と、当該映像信号に基づいて表示される映像に重畳することのできる字幕文字列及び当該字幕文字列の表示時間を有する字幕データと、を含むマルチメディアデータから、当該字幕データを抽出する字幕データ抽出部と、
前記字幕データ抽出部により抽出された字幕データ内の字幕文字列を語句に分割する分割部と、
前記映像信号から複数のシーンを抽出し、当該複数のシーンに含まれる各々のシーンの表示時間を、シーン表示時間として特定するシーン抽出部と、
前記分割部により分割された語句の各々に対して、前記語句の概念が特徴的であるほど高い値を示す特徴度を決定し、前記シーン抽出部により特定されたシーン表示時間に表示される前記字幕文字列に含まれている語句の特徴度の平均を、シーン特徴度として算出する算出部と、
前記シーン抽出部により特定されたシーン表示時間と、前記算出部により算出されたシーン特徴度と、を含むメタデータを生成するメタデータ生成部と、
前記マルチメディアデータと、前記メタデータ生成部により生成されたメタデータと、を記憶する記録部と、を備えること
を特徴とする記録装置。
映像信号と、当該映像信号に基づいて表示される映像に重畳することのできる字幕文字列及び当該字幕文字列の表示時間を有する字幕データと、を含むマルチメディアデータから、当該字幕データを抽出する字幕データ抽出部と、
前記字幕データ抽出部により抽出された字幕データ内の字幕文字列を語句に分割する分割部と、
前記分割部により分割された語句の各々に対して、前記語句の概念が特徴的であるほど高い値を示す特徴度を決定する特徴度決定部と、
前記映像信号から複数のシーンを抽出し、当該複数のシーンに含まれる各々のシーンの表示時間を、シーン表示時間として特定するシーン抽出部と、
前記特徴度決定部により決定された特徴度で示される値が相対的に低い語句を非重要語句として特定し、前記シーン抽出部で抽出されたシーン毎に、前記字幕文字列に含まれている全ての語句における前記特定された非重要語句の割合を非重要語句率として算出する算出部と、
前記シーン抽出部により特定されたシーン表示時間と、前記算出部により算出された非重要語句率と、を含むメタデータを生成するメタデータ生成部と、
前記マルチメディアデータと、前記メタデータ生成部により生成されたメタデータと、を記憶する記録部と、を備えること
を特徴とする記録装置。
映像信号と、当該映像信号に基づいて表示される映像に重畳することのできる字幕文字列及び当該字幕文字列の表示時間を有する字幕データと、を含むマルチメディアデータから、当該字幕データを抽出する字幕データ抽出部と、
前記字幕データ抽出部により抽出された字幕データ内の字幕文字列を語句に分割する分割部と、
前記分割部により分割された語句の各々に対して、前記語句の概念が特徴的であるほど高い値を示す特徴度を決定する特徴度決定部と、
前記映像信号から複数のシーンを抽出し、当該複数のシーンに含まれる各々のシーンの表示時間を、シーン表示時間として特定するシーン抽出部と、
前記シーン抽出部で抽出されたシーンを複数のセクションに割り当てるセクション割当部と、
前記特徴度決定部により決定された特徴度で示される値が相対的に低い語句を非重要語句として特定し、前記シーン抽出部で抽出されたシーン毎に、前記字幕文字列に含まれている全ての語句における前記特定された非重要語句の割合を非重要語句率として算出する算出部と、
前記シーン抽出部により特定されたシーン表示時間と、前記算出部により算出された非重要語句率と、前記セクション割当部により割り当てられたセクションを示すセクション情報と、を含むメタデータを生成するメタデータ生成部と、
前記マルチメディアデータと、前記メタデータ生成部により生成されたメタデータと、を記憶する記録部と、を備えること
を特徴とする記録装置。
映像信号と、当該映像信号に基づいて表示される映像に重畳することのできる字幕文字列及び当該字幕文字列の表示時間を有する字幕データと、を含むマルチメディアデータ、並びに、前記字幕文字列の表示時間と、前記字幕文字列に含まれている各々の語句の概念が特徴的であるほど高い値を示す特徴度と、を含むメタデータ、を記憶する記録部と、
前記記録部から読み出されたメタデータを分析して、前記特徴度により示される値が予め定められた値よりも高い語句を含む字幕文字列の表示時間を、再生時間として特定するメタデータ分析部と、
前記マルチメディアデータの内、前記メタデータ分析部により特定された再生時間に対応する部分を再生する制御を行う再生制御部と、を備えること
を特徴とする再生装置。
映像信号と、当該映像信号に基づいて表示される映像に重畳することのできる字幕文字列及び当該字幕文字列の表示時間を有する字幕データと、を含むマルチメディアデータ、並びに、前記映像信号から抽出されたシーンのシーン表示時間と、当該シーン毎に、前記字幕文字列に含まれている各々の語句の概念が特徴的であるほど高い値を示す特徴度を平均することにより算出されたシーン特徴度、を含むメタデータを記憶する記憶部と、
前記記録部から読み出されたメタデータを分析して、前記シーン特徴度により示される値が予め定められた値よりも高いシーンのシーン表示時間を、再生時間として特定するメタデータ分析部と、
前記マルチメディアデータの内、前記メタデータ分析部により特定された再生時間に対応する部分を再生する制御を行う再生制御部と、を備えること
を特徴とする再生装置。
映像信号と、当該映像信号に基づいて表示される映像に重畳することのできる字幕文字列及び当該字幕文字列の表示時間を有する字幕データと、を含むマルチメディアデータ、並びに、前記映像信号から抽出された複数のシーンのシーン表示時間と、当該シーン毎に、語句の概念が特徴的であるほど高い値を示す特徴度の値が相対的に低い非重要語句が、前記字幕文字列に含まれている全ての語句中に含まれている割合である非重要語句率と、を含むメタデータ、を記憶する記録部と、
前記記録部から読み出されたメタデータを分析して、前記非重要語句率が予め定められた値よりも低いシーンのシーン表示時間を、再生時間として特定するメタデータ分析部と、
前記マルチメディアデータの内、前記メタデータ分析部により特定された再生時間に対応する部分を再生する制御を行う再生制御部と、を備えること
を特徴とする再生装置。
映像信号と、当該映像信号に基づいて表示される映像に重畳することのできる字幕文字列及び当該字幕文字列の表示時間を有する字幕データと、を含むマルチメディアデータ、並びに、前記映像信号から抽出された複数のシーンのシーン表示時間と、当該シーン毎に、語句の概念が特徴的であるほど高い値を示す特徴度の値が相対的に低い非重要語句が、前記字幕文字列に含まれている全ての語句中に含まれている割合である非重要語句率と、前記複数のシーンの各々に割り当てられたセクションを示すセクション情報と、を含むメタデータ、を記憶する記憶部と、
前記記録部から読み出されたメタデータを分析して、前記セクション情報で示されるセクション毎に、前記非重要語句率が相対的に低いシーンを特定し、当該特定されたシーンのシーン表示時間を、再生時間として特定するメタデータ分析部と、
前記マルチメディアデータの内、前記メタデータ分析部により特定された再生時間に対応する部分を再生する制御を行う再生制御部と、を備えること
を特徴とする再生装置。