JP2006014091A

JP2006014091A - 画像音声ストリーム処理装置

Info

Publication number: JP2006014091A
Application number: JP2004190376A
Authority: JP
Inventors: Osamu Goto; 修後藤; Toru Inada; 徹稲田; Hiroshi Kitamura; 啓喜多村
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2004-06-28
Filing date: 2004-06-28
Publication date: 2006-01-12
Also published as: WO2006001247A1; CN1977264A; KR20070028535A; US20080028426A1

Abstract

【課題】詳細目次情報を持たない画像音声データについても、独自にタグ情報ファイルを作成して画像音声データに付加して記憶するＡＶストリーム処理装置を提供する。
【解決手段】スプリッタ部１０７には、ＨＤＤ１１５に記憶させるコンテンツの画像音声データが入力される。比較部１１２には、スプリッタ部１０７から、タグ情報ファイルを作成するための特定データが入力される。比較部１１２は、入力されたデータとセレクタ部１１１に記憶されているデータとを比較し、所定条件を満たしたときにトリガ信号を出力する。トリガ信号が出力されると、タグ情報作成部１１３のタイマから時刻が読み出され、読み出された時刻はメモリ１１６に記憶される。比較部１１２での比較が終了すると、メモリ１１６に記憶されたデータをもとにタグ情報ファイルが作成され、ＨＤＤ１１５に記憶される。
【選択図】図１

Description

本発明は、画像音声ストリーム処理装置に関し、より特定的には、画像音声データに、当該画像音声データに関する情報を付加して記憶する画像音声ストリーム処理装置に関する。

現在、放送波を用いて電子番組ガイド（ＥＰＧ：Electric Program Guide）が、また、ウェブサイトからインターネットなどの通信回線を通じて詳細目次情報（番組内情報）が提供されている。視聴者は、電子番組ガイドや詳細目次情報等を利用することによって、例えば各放送番組の開始・終了時刻や番組の内容などの情報を得ることができる。

ところで、近年、録画した番組の検索を容易にするために、番組データにその番組の詳細目次情報を付加して記憶する画像音声ストリーム処理装置（以下、ＡＶストリーム処理装置という）が提案されている（例えば、特許文献１）。

図２３は、従来のＡＶストリーム処理装置１のブロック図である。ＡＶストリーム処理装置１は、デジタルチューナ２、アナログチューナ３、ＭＰＥＧ２エンコーダ４、ホストＣＰＵ５、モデム６、ハードディスクドライブ（ＨＤＤ）８、ＭＰＥＧ２デコーダ９、グラフィック生成器１０、合成器１１、メモリ１２およびユーザパネル１３を備えている。

例えば、放送事業者からデジタル放送によって提供された放送番組の画像音声信号は、図示していないアンテナで受信されて、デジタルチューナ２に入力される。デジタルチューナ２は、入力された画像音声信号を処理して、番組のＭＰＥＧ２トランスポートストリーム（以下、ＭＰＥＧ２ＴＳという）を出力する。

また、放送事業者からアナログ放送によって提供された放送番組の画像音声信号は、図示していないアンテナで受信されて、アナログチューナ３に入力される。アナログチューナ３は、入力された画像音声信号を処理して、処理後の画像音声信号をＭＰＥＧ２エンコーダ４に出力する。ＭＰＥＧ２エンコーダ４は、入力された画像音声信号をＭＰＥＧ２形式で符号化して出力する。デジタルチューナ２およびＭＰＥＧ２エンコーダ４から出力されたデジタル放送番組およびアナログ放送番組のＭＰＥＧ２ＴＳは、ＨＤＤ８に記憶される。

ＡＶストリーム処理装置１は、このように放送番組のＭＥＰＧ２ＴＳをＨＤＤ８に記憶することと並行して、または、記憶させた後に、インターネットを介して詳細目次情報をダウンロードし、記憶した放送番組のＭＰＥＧ２ＴＳに関連づけてＨＤＤ８に記録する。

グラフィック生成部１０は、ユーザパネル１３への入力に従ってホストＣＰＵ５から出力された命令信号に基づいて、ＨＤＤ８に記憶された詳細目次情報を基に番組情報画面を作成する。作成された番組情報画面は、図示しない表示部に表示させられるので、ユーザはその画面を見ることによって番組内容を把握することができる。また、このＡＶストリーム処理装置１は、詳細目次情報に記載された各トピックスの位置からＡＶデータストリームを再生することができる。

よって、このＡＶストリーム処理装置１を用いれば、録画した放送番組の中から、見たいトピックスを含む番組を効率良く探し出すことができる。また、ＡＶストリーム処理装置１によれば、見たいトピックスが記録されている位置を、早送り、再生、巻き戻し等の処理を繰り返しながら探し出す煩雑さからも解放される。
特開２００３−１９９０１３号公報

しかしながら、ＡＶストリーム処理装置１では、例えばビデオテープに録画された画像音声データや自ら撮影した動画の画像音声データように、詳細目次情報を持たない画像音声データには、詳細目次情報を付加して録画することができない。よって、詳細目次情報を持たない画像音声データは検索の対象とすることができなかった。

また、詳細目次情報を有する画像音声データであっても、詳細目次情報で提供されている情報は限られているために、内容を把握したり検索したりするために必要な情報が必ずしも含まれているとは限らなかった。

それ故に、本発明の目的は、詳細目次情報等を有していない画像音声データについても、検索に用いることができる情報を独自に作成することができるＡＶストリーム処理装置を提供することである。

本発明に係る画像音声ストリーム処理装置は、画像音声データに、検索用のタグ情報を付加して記憶する画像音声ストリーム処理装置であって、画像音声データに関する特徴データを記憶する特徴データ保持部と、前記画像音声データ中に前記特徴データが含まれていることを検出する特徴データ検出部と、前記特徴データ検出部において前記特徴データが検出されたときに前記画像音声データのタグ情報を生成するタグ情報生成部と、前記画像音声データと前記タグ情報とを記憶する画像音声データ記憶部とを備える。

また、本発明に係る画像音声ストリーム処理装置は、前記特徴データが検出された前記画像音声データ上の時刻を測定するタイマをさらに備え、前記タグ情報に、前記タイマで計測された時刻に基づく時間情報が含まれていることを特徴としてもよい。

また、本発明に係る画像音声ストリーム処理装置は、入力された画像音声データから、前記特徴データ検出部での検出に用いる特定データを抽出して、前記特徴データ検出部に出力する特定データ抽出部をさらに備えていてもよい。

また、入力された画像音声データを所定形式のデジタルデータに変換して前記特定データ抽出部に出力するデータ形式変換部をさらに備え、前記データ形式変換部は、アナログデータを所定形式のデジタルデータに変換するアナログデータ変換部と、所定形式以外の形式のデジタルデータを所定形式のデジタルデータに変換するデジタルデータ変換部とを含んでいてもよい。

また、前記タグ情報には、検出に用いた前記特徴データを示す識別子データが含まれていてもよい。

また、本発明に係る画像音声ストリーム処理装置は、前記タグ情報を用いて、再生すべき位置を検索するための画面を生成するグラフィック生成部をさらに備えていてもよい。

また、本発明に係る画像音声ストリーム処理装置は、画像音声データから取得した文字データを用いてキーワード検索用情報を作成する、キーワード検索用情報作成部をさらに備えていてもよい。

また、画像音声データのうち字幕が含まれている特定領域の画像データを抽出する画像データ抽出部と、前記画像データ抽出部で抽出された画像データに含まれる字幕を文字データに変換する字幕認識部とをさらに備え、前記キーワード検索用情報作成部は、前記画像認識部で得られた文字データを用いて、前記キーワード検索用情報を作成することを特徴としてもよい。

また、記憶する画像音声データのうち音声データを抽出する音声データ抽出部と、前記音声データ抽出部で抽出された音声データを文字データに変換する音声認識部とをさらに備え、前記キーワード検索用情報作成部は、前記音声認識部で得られた文字データを用いて、前記キーワード検索用情報を作成することを特徴としてもよい。

また、検索したい文字を入力するキーワード入力部と、前記キーワード入力部から入力された文字を前記キーワード検索用の情報から検索するキーワード検索部とをさらに備えていてもよい。

本発明に係るＡＶストリーム処理装置は、記憶する画像音声データからユーザによって指定された特徴部分を検出し、検出結果に基づいて検索用の情報を独自に生成する。よって、ユーザは、生成された検索用の情報を利用することによって、画像音声データの中から見たい位置を容易に探し出すことができる。

また、本発明に係るＡＶストリーム処理装置では、記憶するＡＶストリームから得られ得た文字データを基にキーワード検索用情報を作成することができる。よって、ユーザは、視聴したい部分を言葉で表したキーワードを、キーワード検索用情報から検索することによって、ＡＶストリーム中の視聴するのに適当な位置を容易に見つけ出すことができる。

（第１の実施形態）
図１は、本発明の第１の実施形態に係るＡＶストリーム処理装置１００の構成を示すブロック図である。ＡＶストリーム処理装置１００は、デジタルチューナ１０１、アナログチューナ１０２、スイッチ部１０３、フォーマット変換部１０４、スプリッタ部１０７、ＭＰＥＧエンコーダ１０８、ＡＶ特徴量保持部１１０、セレクタ部１１１、比較部１１２、タグ情報作成部１１３、ホストＣＰＵ１１４、ハードディスクドライブ（以下、ＨＤＤと記す）１１５、メモリ１１６、ＭＰＥＧデコーダ１１７、グラフィック生成部１１８、合成器１１９およびユーザパネル１２０を備えている。

ユーザパネル１２０は、ＡＶストリーム処理装置１００の本体に設けられたボタンや、リモートコントローラやキーボード等であって、ユーザがＡＶストリーム処理装置１００を操作するためのパネルである。ホストＣＰＵ１１４は、ＡＶストリーム処理装置１００を構成する各部の制御全般を行う演算処理部である。

デジタルチューナ１０１は、例えば、図示していないアンテナで受信したデジタル放送番組の画像音声信号を処理し、番組のＭＰＥＧ２トランスポートストリーム（ＭＰＥＧ２ＴＳ）を出力する。また、アナログチューナ１０２は、アンテナで受信したアナログ放送番組の画像音声信号を処理して、番組のアナログ画像音声信号を出力する。

スイッチ部１０３には、ＨＤＤ１１５に記憶しようとする番組の画像音声データが、デジタルチューナ１０１やアナログチューナ１０２やインターネットなどを介して入力される。また、スイッチ部１０３には、ＵＢＳやＩＥＥＥ１３９４規格を用いて、例えばＤＶＤ、ＬＤ、外付けＨＤＤ、ＶＨＳビデオ等の外部接続機器に蓄積された画像音声データも入力される。よって、スイッチ部１０３には、アナログ画像音声データ、圧縮されていないデジタル画像音声データおよび圧縮されたデジタル画像音声データが入力される。このように、ＡＶストリーム処理装置１００は、どのような種類や形式の画像音声データでも扱うことができる。なお、本明細書中では、アナログ画像音声データ、圧縮されていないデジタル画像音声データおよび圧縮されたデジタル画像音声データを総称して画像音声データ（以下、ＡＶデータと記す）という。

スイッチ部１０３は、入力されたＡＶデータを、その種類によって適当な出力先へと振り分ける役割を有している。より具体的に説明すると、スイッチ部１０３に入力されたアナログＡＶデータは、フォーマット変換部１０４のＡ／Ｄ変換部１０６に入力される。Ａ／Ｄ変換部１０６は、アナログＡＶデータを、圧縮されていない所定形式のデジタルＡＶデータに変換する。また、スイッチ部１０３に入力されたデジタルＡＶデータは、フォーマット変換部１０４のデコード処理部１０５に入力される。デコード処理部１０５は、入力されたデータの形式を判断し、必要に応じて、所定形式に復号化する処理を行う。

このように、フォーマット変換部１０４には、種類や形式が様々なＡＶデータが入力され、あらかじめ定められた所定形式のＡＶデータが出力される。なお、フォーマット変換部１０４から出力されるデータは、例えば、音声データがＰＣＭデータ、画像データがＲＥＣ６５６データというように、音声データおよび画像データがそれぞれ別データになっていてもよいし、ＭＰＥＧ形式のデータのように、両者が１つのデータになっていてもよい。ただし、フォーマット変換部１０４から出力されるデータの形式と、後述するセレクタ部１１１に記憶されるデータの形式とは、比較部１１２での比較が可能なように揃えられている必要がある。

フォーマット変換部１０４から出力されたＡＶデータは、スプリッタ部１０７に入力される。スプリッタ部１０７は、入力されたＡＶデータをすべて出力する録画用データ出力ポートと、情報ファイルを作成するために抽出されたデータのみを出力するタグ情報作成用データ出力ポートとを有している。

スプリッタ部１０７の録画用データ出力ポートから出力されたＡＶデータがＭＰＥＧ形式のデータである場合には、そのＡＶデータはそのままＨＤＤ１１５に記憶される。一方、スプリッタ部１０７の録画用データ出力ポートから出力されたＡＶデータが、ＭＰＥＧ形式のデータでない場合、そのＡＶデータはＭＰＥＧエンコーダ１０８に入力される。ＭＰＥＧエンコーダ１０８は、入力されたＡＶデータを、例えばＭＰＥＧ形式に符号化して出力する。ＭＰＥＧエンコーダ１０８から出力されたＭＰＥＧは、ＨＤＤ１１５に記憶される。

スプリッタ部１０７のタグ情報作成用データ出力ポートから比較部１１２には、特定データが出力される。ここで特定データとは、画像音声データ上の特徴的な部分を検出するために利用されるデータであり、セレクタ部１１１に記憶されているデータによって決められる。

図２は、セレクタ部１１１とＡＶ特徴量保持部１１０に記憶されているデータの一例を示した図である。ＡＶ特徴量保持部１１０には、録画する画像音声データの特徴的な部分を検出するために用いるデータの候補となるものが記憶されている。例えば、ＡＶ特徴量保持部１１０には、複数の音声特徴量データ、各音声特徴量データの特徴量タイトルデータおよび音声用一致継続値データ、および、複数の画像特徴量データ、各画像特徴量データの特徴量タイトルデータおよび画像用一致継続値データが記憶されている。なお、特徴量タイトルデータとは、ある特徴量データと他の特徴量データとをユーザが識別できるようにするために各特徴量データに付された識別子データである。

グラフィック生成部１１８は、ＡＶ特徴量保持部１１０にどのような特徴量データ等が記憶されているかを示す画面を生成する。グラフィック生成部１１８で生成された画面は、テレビ画面やパーソナルコンピュータのモニタ等の表示部に表示される。よって、録画を行う前にユーザは、この画面を見ながら、ユーザパネル１２０を用いて、所望の特徴量データおよび一致継続値データを選択しておく。選択された特徴量データおよび特徴量タイトルデータ、および、一致継続値データは、セレクタ部１１１に記憶される。なお、ＡＶ特徴量保持部１１０に記憶されているデータ読み出しやセレクタ部１１１へのデータ書き込みなど、一連の処理の制御は、ホストＣＰＵ１１４が行う。ＡＶ特徴量保持部１１０に記憶させる特徴量データは、ＡＶストリーム処理装置１００を製造するメーカー側で作成してあらかじめ記憶させておいてもよいし、ユーザが作成して記憶させられるようになっていてもよい。

図２は、ＡＶ特徴量保持部１１０からセレクタ部１１１に音声用データと画像用データとが選択された様子を示している。図２に示すセレクタ部１１１に選択されている音声特徴量データは、“無音”というタイトルが付された無音判断用閾値Ｐａである。音声用一致継続値は、Ｑａである。また、画像用特徴量データは、“黒画面”というタイトルが付された黒画面判断値用閾値Ｐｂである。画像用一致継続値は、Ｑｂである。なお、Ｐａは音量を表し、Ｐｂは輝度を表す。また、ＱａおよびＱｂは、時間を表す。図２に示すように、セレクタ部１１１に音声特徴量データと画像特徴量データが選択された場合には、スプリッタ部１０７から比較部１１２に、圧縮されていない音声データ（例えば、ＰＣＭデータ）と画像データ（例えば、ＲＥＣ６５６データ）が出力される。

次に、セレクタ部１１１および比較部１１２のブロック図である図３と、タグ情報を作成する手順を示した図４を用いて、ＡＶストリーム処理装置１００でのタグ情報作成について説明する。図３に示すように比較部１１２は、例えば、音声比較部１５０と画像比較部１６０とを備えている。音声比較部１５０は、特徴量比較器１５１、カウンタ１５２および継続値比較器１５３を、また、画像比較部１６０は、特徴量比較器１６１、カウンタ１６２および継続値比較器１６３を備えている。

音声比較部１５０の特徴量比較器１５１は、スプリッタ部１０７から出力された音声データと、セレクタ部１１１に格納されている無音判断用閾値Ｐａとを比較する。特徴量比較部１５１において、音量が閾値Ｐａ以下であると判断されると、音量がＰａより大きくなるまでの時間がカウンタ１５２で計数される。また、継続値比較器１５３は、カウンタ１５２での計数値と音声用一致継続値Ｑａとを比較する。継続値比較器１５３においてカウンタ１５２の計数値と音声用一致継続値Ｑａとが一致したと判断されると、継続値比較器１５３はトリガ信号を出力する（図４のステップＳ３）。

同様に、画像比較部１６０の特徴量比較器１６１は、スプリッタ部１０７から出力された画像データと、セレクタ部１１１に格納されている黒画面判断用閾値Ｐｂとを比較する。ここで、黒画面判断用閾値Ｐｂは、例えば、画像データ１フィールド分の輝度値の合計である。特徴量比較器１６１では、スプリッタ部１０７から出力された画像データ１フィールドの輝度値の合計Ｓが求められ、合計Ｓとセレクタ部１１１に格納されている黒画面判断用閾値Ｐｂとが比較される。特徴量比較器１６１において、合計Ｓが黒画面判断用閾値Ｐｂ以下であると判断されると、合計Ｓが黒画面判断用閾値Ｐｂよりも大きくなるまでの時間が、カウンタ１６２で計数される。カウンタ１６２での計数値は、継続値比較器１６３で一致継続値Ｑｂと比較される。継続値比較器１６３でカウンタ１６２の計数値と一致継続値Ｑｂとの一致が判断されると、継続値比較器１６３はトリガ信号を出力する（図４のステップＳ３）。

継続値比較器１５３および１６３から出力されたトリガ信号は、いずれもホストＣＰＵ１１４に割り込み信号として入力される。タグ情報作成部１１３は、ＡＶデータの開始からの経過時間を計測するタイマを備えている。トリガ信号を受けたホストＣＰＵ１１４は、タグ情報作成部１１３のタイマから時間を読み出し、また、セレクタ部１１１からタイトルを読み出すよう、読出し命令信号を出力する（ステップＳ４）。

タグ情報作成部１１３のタイマから読み出された時間とセレクタ部１１１から読み出されたタイトルとは、それぞれセクション開始時刻Ｔ（ｉ）とセクションタイトルＩＤ（ｉ）として、メモリ１１６のセグメントテーブルに書き込まれる（ステップＳ５）。なお、番号ｉは、ＡＶデータの先頭位置からの経過時間が早い順に０、１、２…と付されるセクション番号である。

また、メモリ１１６に記憶されたセクション開始時刻Ｔ（ｉ）とセクション開始時刻Ｔ（ｉ−１）との差が演算され（ステップＳ６）、その結果は、セクション長Ａ（ｉ−１）としてメモリ１１６のセグメントテーブルに書き込まれる（ステップＳ７）。図５は、作成されたセグメントテーブルの一例を示している。なお、セクション番号０の開始位置は、ＡＶデータの先頭位置であるため、セグメントテーブルのセクション番号０の部分には、あらかじめセクションタイトルＩＤ（０）とセクション開始時刻Ｔ（０）とを記憶させておくとよい。

セグメントテーブルへのセクションタイトルＩＤ（ｉ）、セクション開始時刻Ｔ（ｉ）、セクション長Ａ（ｉ−１）の書き込みが終了すると、セクション番号ｉの値が１だけ繰り上げられる（ステップＳ８）。そして、比較部１１２において比較が終了していなければ（ステップＳ２のＮＯ）、トリガ信号が出力されるまでの時間が計測される。また、比較部１１２において全ての比較が終了していれば、最後にトリガが出力された時刻Ｔ（ｉ−１）からＡＶデータの終了時刻Ｔ（ｅｎｄ）までの時間Ｔ（ｅｎｄ）−Ｔ（ｉ−１）が計算されて、セグメントファイルにセクション長Ａ（ｉ−１）として書き込まれる（ステップＳ９、Ｓ１０）。これにより、セグメントテーブルへの書き込みは終了する。

セグメントテーブルへの書き込みが終了すると、セグメントテーブルに記憶されたデータを用いて、例えば図６に示すようなタグ情報ファイルが作成される（ステップＳ１１）。なお、タグ情報ファイルは、メモリ１１６等にあらかじめ記憶されたタグ情報ファイル作成プログラムをホストＣＰＵ１１４が実行することによって作成される。作成されたタグ情報ファイルは、ＨＤＤ１１５に書き込まれる（ステップＳ１２）。つまり、ＨＤＤ１１５には、図８に示すように、ＡＶデータ１７０と、その情報データ１７１とが記憶される。

ところで、図６および図７に示す情報ファイルは、ＸＭＬで記載される検索用記述方式であるＭＰＥＧ７フォーマットで作成されている。図６に示すタグ情報ファイルにおいて、（Ａ）の部分には、ＨＤＤ１１５におけるディレクトリが示されている。このディレクトリは、録画したＡＶデータの、ＨＤＤ１１５内におけるディレクトリである。また、（Ｂ）の部分には、セクションタイトルＩＤ（ｉ）が、（Ｃ）の部分にはセクションの開始時刻Ｔ（ｉ）が、また（Ｄ）の部分にはセクション長Ａ（ｉ）が示されている。上記（Ｂ）〜（Ｄ）を含む（Ｅ）の部分は、セクション毎に作成される。

上記のようにＡＶストリーム処理装置１００は、ＡＶデータの特徴部分を検出して、その部分に関する情報を含んだタグ情報ファイルを作成する。このように作成されたタグ情報ファイルは、ＨＤＤ１１５に記憶されたＡＶデータの再生時に利用できる。

次に、ＨＤＤ１１５に記憶されＡＶデータの再生について、図９、図１０を用いて説明する。図９は、ＨＤＤ１１５に記憶されたタグ情報ファイルをもとに、図１に示すグラフィック生成部１１８で生成した画面の一例を示した図である。この画面１８０には、ＡＶデータのタイトルやセクション番号、セクション開始時刻およびセクションタイトルが表示されている。このような画面１８０は、ユーザパネル１２０に設けられたセクション画面表示ボタンをユーザが押すと、表示部に表示される。

ユーザは、表示部に表示されているセクションの中から、これから再生しようとするセクションを、ユーザパネル１２０を用いて選択する（図１０のステップＳ２１）。図９に示すように、現在選択されているセクションはハイライト表示１８１されており、他のセクションとの識別が可能な状態になっている。また、選択するセクションは、再生ボタン１８２が押されてホストＣＰＵ１１４から再生命令が出力されるまでは（ステップＳ２３）、ユーザパネル１２０の移動キー等によって変えることができる（ステップＳ２２、Ｓ２５）。

画面１８０の再生ボタン１８２が押されると、ホストＣＰＵ１１４には、選択されたセクションを示す信号が入力される。ホストＣＰＵ１１４は、選択されたセクション部分のデータを出力するようにＨＤＤ１１５に命令し、ＨＤＤ１１５は指定されたデータをＭＰＥＧデコーダ１１７に対して出力する。ＭＰＥＧデコーダ１１７は、入力されたデータを復号処理してモニタ等に出力する。

上記説明においてセクション開始位置の検出に用いた“無音”状態は、シーンチェンジの際に発生し易い。例えばニュース番組の各トピックが始まる前には一定時間以上の無音区間がある。よって、本実施形態において説明したように、無音状態が発生した位置をセクション開始位置と決めておけば、各セクションの先頭部分では、必ず新たな話題が取り上げられることになる。よって、ＡＶストリーム処理装置１００でタグ情報ファイルを作成し、各セクションの始めの部分を見ていけば、見たかった話題部分を比較的容易に見つけ出すことができる。

従来のＡＶストリーム処理装置では、録画したコンテンツのＡＶデータが詳細目次情報を持たないものであった場合、コンテンツ内容を示す情報画面を作成することはできなかった。しかしながら、本実施形態に係るＡＶストリーム処理装置１００では、例えばＶＨＳビデオに録画された画像音声データのように詳細目次情報やＥＰＧ情報を持たないものでも、独自に情報ファイルを作成することができる。また、作成された情報ファイルに含まれる情報は、表示部に表示させることができるので、ユーザはこの画面を見ることによって適当な視聴開始位置を知ることができる。

また、本実施形態に係るＡＶストリーム処理装置１００では、セクション開始位置を決めるために用いるデータをユーザが個別に設定できるので、個々のユーザの検索効率を向上させることができる。

また、ＡＶストリーム処理装置１００は、フォーマット変換部１０４を備えているために、録画したいＡＶデータがどのような形式や種類のデータであっても、比較部１１２での処理が可能な適当な形式に変換することができる。よって、どのような形式のＡＶデータからも情報ファイルを作成することができる。

なお、上述した実施形態においては、１つの音声特徴量と１つの画像特徴量とを用いてセクション開始位置を決定した。しかしながら、音声特徴量か画像特徴量かのいずれか一方だけを用いてもよく、また、複数の音声特徴量や複数の画像特徴量を用いてもよい。

また、例えば、図３における音声比較部１５０に音声比較装置を用い、画像比較部１６０に画像比較装置を用い、あらかじめセレクタ部１１１に登録しておいた音声データや画像データと一致する音声データや画像データが検出されたときにトリガ信号を出力するようにしてもよい。このように、比較部１１２が備える装置構成は、図２に示した構成に限定されない。なお、ＡＶデータをセクションに分割するために用いるデータは、音声データや画像データに限定されず、例えばテキストデータであってもよい。

なお、本実施形態におけるＨＤＤ１１５は、例えばＤＶＤ−ＲＷ等の記憶部であってもよい。また、音声比較部１５０と画像比較部１６０とで処理速度が異なる場合、タグ情報作成部１１３には、音声比較部１５０からトリガ信号が出力された時刻を計測する音声用タイマと、画像比較部１６０からトリガ信号が出力された時刻を計測する画像用タイマとを個別に設けるようにしてもよい。

なお、以上の説明では、比較部１１２からトリガ信号が出力されたときの時刻をセクション開始時刻としたが、特徴量データの性質によっては、比較部１１２からトリガ信号が出力された時刻よりも所定時間だけ前の時刻をセクション開始時刻としてもよい。これにより、セクションの先頭からＡＶデータを再生したときに、ユーザが視聴したい最初の部分が再生されないという不具合を防止することができる。

なお、図１、図２では、ＡＶ特徴量保持部１１０等に記憶されている各特徴量のタイトルデータをも記憶しているが、このような識別子データは必ずしも必要ではない。しかしながら、各特徴量データに、識別子データを付加しておけば、複数のＡＶ特徴量を用いてそれぞれ異なる特徴部分を検出した場合に、いずれの特徴量が用いられたかを識別しやすくなる。なお、識別子データは、テキストファイルに限らず、ＪＰＥＧ形式等の画像データであってもよい。また、画像データである識別子データのファイル名等を情報ファイルに書き込んでおき、図９に示すような検索時に用いられる画面に画像表示できるようにしてもよい。

（第２の実施形態）
図１１は、本発明の第２の実施形態に係るＡＶストリーム処理装置２００の構成を示すブロック図である。放送波による文字放送やＤＶＤには、画像情報や音声情報とは別に、字幕情報や文字情報が付随している場合がある。ＡＶストリーム処理装置２００は、ＡＶデータに付随している文字情報を利用して、キーワード検索に用いることができるキーワード検索用ファイルを作成する。これを実現するための特有な構成として、ＡＶストリーム処理装置２００は、文字データ蓄積部２０１および文字列検出部２０２を備えている。また、スプリッタ部２０７は、入力されたＡＶデータをすべて出力する録画用出力ポートと、比較部１１２に特定データを出力する出力ポート、および、文字データ蓄積部２０１に文字データを出力する出力ポートを備えている。

なお、本実施形態に係るＡＶストリーム処理装置２００の構成要素のうち、第１の実施形態で説明し、図１に示した構成要素と同じものには、同一の参照符号を付して説明を省略する。また、本実施形態に係るＡＶストリーム処理装置２００で行われる処理であって、第１の実施形態で説明した処理と同じものについては、その説明を省略する。

図１１は、ＤＶＤのＶＲフォーマットに基づいたＡＶデータを説明するための図である。図１１に示すＶＯＢ（ＶｉｄｅｏＯｂｊｅｃｔ）２１０は、画像データおよび音声データの記録単位である。ＶＯＢＵ（ＶｉｄｅｏＯｂｊｅｃｔＵｎｉｔ）２２０はＶＯＢ２１０を構成する単位であって、０．４〜１秒に相当する画像データおよび音声データである。このＶＯＢＵ２２０は、文字情報が格納されたナビパック２２１と、映像情報が格納されているビデオパック２２２と、音声データが格納されているオーディオパック２２３とで構成されている。なお、ナビパック２２１、ビデオパック２２２およびオーディオパック２２３は、図中にそれぞれ、“Ｎ”、“Ｖ”および“Ａ”で示している。また、１つのＶＯＢＵ２２０は、１つまたは２つのＧＯＰ（ＧｒｏｕｐｏｆＰｉｃｔｕｒｅｓ）２３０で構成されている。

ナビパック２２１は、“ＧＯＰヘッダ”と“拡張・ユーザデータ領域”とで構成されている。また、オーディオパック２２３とビデオパック２２２は、１５フレーム分の画像・音声情報を表すためのＩピクチャ（Intra−coded picture）、Ｐピクチャ（Predictive coded picture）、Ｂピクチャ（Bi−directionally coded picture）で構成されている。

ナビパック２２１の“拡張・ユーザデータ領域”には、１フレームにつき各２文字分の文字データ、すなわち、全体で３０文字の文字データが含まれる。この文字データは、スプリッタ部２０７から文字データ蓄積部２０１に出力される。

なお、以上ではＤＶＤを例に挙げて説明したが、録画しようとするＡＶデータがアナログ放送番組のデータである場合には、スプリッタ部２０７から文字データ蓄積部２０１には、第１フィールドと第２フィールドの２１ラインの情報が出力されるようになっていればよい。つまり、文字データ蓄積部２０１には、記録するＡＶデータが保有する文字データのみが入力される。

以下に、ＨＤＤ１１５に記録するＡＶデータの検索用ファイルを作成する手順を図１３および図１４を用いて説明する。図１３の最上段は、比較部１１２からトリガ信号が出力されるタイミングを示している。また、上から２段目は、垂直同期信号の出力タイミングを示している。また、上から３段目は、文字データ蓄積部２０１への文字入力タイミングと入力される文字とを示している。また、上から４段目は、文字データ蓄積部２０１に一時的に蓄積された文字を示している。そして、図１３の最下段は、文字データ蓄積部２０１に一時的に蓄積された文字データを基に作成されたキーワード検索用ファイルに記載される文字列を示している。

図１４は、キーワード検索用ファイルを作成する手順を示したフローチャートである。まず、ＨＤＤ１１５への録画が開始されると、新たなテキストファイルがオープンされる（図１４のステップＳ３２）。スプリッタ部２０７は、録画するＡＶデータの中から文字データを検出したときには、これを文字データ蓄積部２０１に出力する。

文字データ蓄積部２０１は、入力された文字データを、比較部１１２からトリガ信号が出力されるまで一時的に蓄積する（ステップＳ３４〜Ｓ３６）。図１３において、トリガ信号が出力されるまでの間に文字データ蓄積部２０１に蓄積された文字データは、順に、“ａｂ”、“ｃｄ”、“ｅｆ”、“ｇｈ”、“．”である。トリガ信号が出力された後に文字データ蓄積部２０１に入力された文字データ“ｉｊ”、“ｋｌ”は、トリガ信号が出力されるより前に文字データ蓄積部２０１に入力された文字データ“ａｂ”、“ｃｄ”、“ｅｆ”、“ｇｈ”、“．”とは区別されて、文字データ蓄積部２０１に一時的に蓄積される。

比較部１１２からトリガ信号が出力されると、文字データ蓄積部２０１に一時的に蓄積されていた文字データ“ａｂ”、“ｃｄ”、“ｅｆ”、“ｇｈ”、“．”は、ステップＳ３２でオープンされたファイルに書き込まれる（ステップＳ３７）。この後、このテキストファイルはクローズされ（ステップＳ３８）、例えばmute0.txt のようにセクションタイトルＩＤ（ｉ）に関連するファイル名が付されて、キーワード検索用ファイルとしてＨＤＤ１１５に保存される（ステップＳ３９）。この処理が終わると、セクション番号ｉが１繰り上げられる（ステップＳ４０）。このようにキーワード検索用ファイルを作成する処理は、比較部１１２での比較が終了するまで行われる（ステップＳ３３、Ｓ４１）。

各キーワード検索用ファイルの名称等は、図１５に示すように、メモリ１１６のセグメントテーブルにも記録される。図１６および図１７は、このセグメントテーブルを用いて作成されるタグ情報ファイルの一例を示した図である。図１６および図１７は、ＸＭＬで記載される検索用記述方式であるＭＰＥＧ７フォーマットで作成されている。図１６に示すタグ情報ファイルにおいて、（Ａ）の部分には、ＨＤＤ１１５におけるディレクトリが示されている。このディレクトリは、録画したＡＶデータの、ＨＤＤ１１５内におけるディレクトリである。また、（Ｂ）の部分は、セクションタイトルＩＤ（ｉ）を、（Ｃ）の部分にはセクションの開始時刻Ｔ（ｉ）を、また、（Ｄ）の部分はセクション長Ａ（ｉ）を示している。そして、（Ｅ）の部分は、このセクションのキーワード検索用ファイルが記憶されているＨＤＤ１１５内におけるディレクトリを示している。上記（Ｂ）〜（Ｅ）を含む（Ｆ）の部分は、セクション毎に作成される。

次に、作成されたキーワード検索用ファイルを用いて、録画したコンテンツの内容を検索する方法を、図１８〜図２０を用いて説明する。図１８は、モニタ等の表示部に表示する画面（キーワード入力用プロンプト）２４０の一例を示している。この画面２４０は、ＨＤＤ１１５に録画したＡＶデータのセクション情報やキーワード検索結果を表示する画面である。画面２４０の上部には、検索したい文字を入力する検索キーワード入力ボックス２４１や検索ボタン２４２が設けられている。また、検索ボタン２４２の下方には、セクション番号、セクション開始時刻が表示されており、また、セクション毎の検索結果を表示する検索一致数表示部２４４を示したセクション情報欄や、再生ボタン２４５が設けられている。このような画面２４０は、以下に示す手順で作成される。

まず、ユーザパネル１２０の検索画面表示ボタンが押されると、ＨＤＤ１１５に記憶されているタグ情報ファイルが読み出されて、検索一致数表示部２４４のエリアが作成される（図１９のステップＳ５１）。そして、モニタには、図１８に示すような画面２４０が表示される（ステップＳ５２）。ただし、このときには、検索一致数表示部２４４や検索キーワード入力ボックス２４１には、何も表示されていないとする。

画面が表示されると、ユーザは、検索キーワード入力ボックス２４１に、検索キーワードを入力する。図１８では、検索キーワードとして、“ichiro”という文字が入力されている。この状態で検索ボタン２４２が押されると、キーワード検索用ファイル内から、“ichiro”という文字が検索される。

図２０は、図１１に示すＡＶストリーム処理装置２００の構成要素のうち、検索に用いられる構成を中心に示したものである。文字列検出部２０２は、検索キーワード保持部２５１、検索用比較器２５２および検索一致数カウンタ２５３を備えている。ユーザパネル１２０からキーワードが入力されると、そのキーワードは、文字列検出部２０２の検索キーワード保持部２５１に格納される。この状態で画面２４０の検索ボタン２４２が押されると、信号を受けたホストＣＰＵ１１４は、ＨＤＤ１１５からキーワード検索用ファイルを読み出すよう命令信号を出力する。

ＨＤＤ１１５から読み出されたキーワード検索用ファイルに記載されている文字データは、データ列の先頭から順に検索用比較器２５２に入力される。検索用比較器２５２は、検索キーワード保持部２５１に格納されている“ichiro”という文字列とキーワード検索用ファイルに記載されている文字列とを比較し、両者が一致した時に検索一致数カウンタ２５３に信号を出力する。

検索一致数カウンタ２５３は、信号が入力されるたびにカウンタの数を１ずつ繰り上げてゆくことで、キーワード検索用ファイル内の一致数をカウントする（図１９のステップＳ５５）。一つのキーワード検索用ファイルの検索が終了すると、ホストＣＰＵ１１４は、検索一致数カウンタ２５３から値を読み出し、読み出された値は、メモリ１１６に書き込まれる。検索は全セクションのキーワード検索用ファイルに対して行われる。検索が終了すると、メモリ１１６に記憶された数値が読み出されて、画面２４０の検索一致数表示部２４４に表示される（ステップＳ５７）。

図１８に示す画面２４０では、第０、第１および第２セクションでの検索一致数が、それぞれ１、１２および０であった場合を示している。ユーザはこの検索結果を見て再生するセクションを選択することができる。例えば、ユーザが、図１８に示すように検索一致数が最も多い第１セクションを選択して再生ボタン２４５を押せば、ＨＤＤ１１５からＭＰＥＧデコーダ１１７にＡＶデータの第１セクション部分が読み出されて、第１セクションの先頭から再生が行われる。

本実施形態に係るＡＶストリーム処理装置２００では、録画するコンテンツに含まれる文字データを用いて、タグ情報作成部１１３で決めたセクション毎にキーワード検索用ファイルを作成する。また、作成されたキーワード検索用ファイルはキーワード検索に利用することができる。よって、ＡＶストリーム処理装置２００を用いれば、ユーザによる検索効率をさらに向上させることができる。

なお、本実施形態の文字データ蓄積部２０１は、キーワード検索用ファイルを作成するために、演算処理部としての機能とメモリとしての機能を有している。しかしながら、文字データ蓄積部２０１を設ける代わりに、ホストＣＰＵ１１４とメモリ１１６とで文字データ蓄積部２０１で行う処理を行うようにしてもよい。

（第３の実施形態）
図２１は、本発明の第３の実施形態に係るＡＶストリーム処理装置３００の構成を示すブロック図である。本実施形態のＡＶストリーム処理装置３００は、音声データから検索に用いる文字データを作成するという特徴を有している。これを実現するための特有な構成として、ＡＶストリーム処理装置３００は、音声認識部３０１、文字データ蓄積部２０１および文字列検索部２０２を備えている。

スプリッタ部３０７は、入力されたＡＶデータをすべて出力する録画用出力ポートと、比較部１１２に特定データを出力する出力ポートと、音声認識部３０１に音声データを出力する出力ポートとを有している。

なお、ＡＶストリーム処理装置３００の構成要素のうち、第１および第２の実施形態で説明し、図１および図１１に示した構成要素と同じものには、同一の参照符号を付して説明を省略する。また、本実施形態に係るＡＶストリーム処理装置３００で行われる処理であって、第１および第２の実施形態で説明した処理と同じものについては、その説明を省略する。

音声認識部３０１は、スプリッタ部１０７から出力された音声データに対して音声認識を行い、人が会話をしている部分のデータをテキストデータに変換して、文字データ蓄積部２０１に出力する。文字データ蓄積部２０１は、１セクション分のデータ、つまり、比較部１１２からトリガ信号が出力されてから次のトリガ信号が出力されるまでに、スプリッタ部１０７から出力されたデータを内部に蓄積する。

本実施形態のＡＶストリーム処理装置３００は、音声データから得られたテキストデータをもとに、セクション毎にキーワード検索ファイルを作成する。作成されたキーワード検索用ファイルは、キーワード検索に用いることができる。

なお、音声データが５．１ｃｈ用音声データである場合は、スプリッタ部３０７において、例えばセンターチャンネルに含まれる音声データのみを抽出して、音声認識部３０１に出力するようにしてもよい。このように、検索に使用できる可能性が高い特定チャンネルの音声データのみを抽出すれば、音声認識部３０１におけるデータ処理速度および精度を向上させることができる。

（第４の実施形態）
図２２は、本発明の第４の実施形態に係るＡＶストリーム処理装置４００の構成を示すブロック図である。本実施形態に係るＡＶストリーム処理装置４００は、字幕を含んだ画像データから、検索に用いるテキストデータを作成するという特徴を有している。これを実現するための特有な構成として、ＡＶストリーム処理装置４００は、字幕認識部４０１、文字データ蓄積部２０１および文字列検索部２０２を備えている。

スプリッタ部４０７は、入力されたＡＶデータをすべて出力する録画用出力ポートと、比較部１１２に特定データを出力する出力ポートと、字幕認識部４０１に画像データを出力する出力ポートとを備えている。なお、ＡＶストリーム処理装置４００の構成要素のうち、第１および第２の実施形態で説明し、図１および図１１に示した構成要素と同じものには、同一の参照符号を付して説明を省略する。また、本実施形態に係るＡＶストリーム処理装置４００で行われる処理であって、第１および第２の実施形態で説明した処理と同じものについては、その説明を省略する。

本実施形態において、スプリッタ部４０７から字幕認識部４０１には、字幕を含んだ画像データのみが出力される。字幕を含んだ画像データとは、例えばフレームの下から１／４の領域の画像データをいう。字幕認識部４０１は、入力された画像データの字幕部分に書かれている文字を認識し、認識した文字列のデータを文字データ蓄積部２０１に出力する。

文字データ蓄積部２０１は、１セクション内に含まれる文字データを、内部に蓄積する。このように作成された文字データは、ＨＤＤ１１５に記憶される。また、ＡＶストリーム処理装置４００によって作成されたタグ情報ファイルには、各セクション情報として、各セクションのキーワード検索用ファイルのアドレス等が記載される。

本実施形態に係るＡＶストリーム処理装置４００は、画像内の字幕から得られた文字データをもとに、セクション毎にキーワード検索用ファイルを作成する。作成されたキーワード検索用ファイルは、文字列検索に用いることができる。

以上、本発明の実施の形態を説明したが、上述の説明はあらゆる点において本発明の例示にすぎず、その範囲を限定しようとするものではない。よって、本発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。

本発明に係る画像音声ストリーム処理装置は、ＡＶデータの保存、閲覧装置等として有用である。また、ＡＶデータの編集、再生機器、ＡＶデータサーバーなどの用途にも応用できる。

本発明の第１の実施形態に係るＡＶストリーム処理装置のブロック図ＡＶ特徴量保持部およびセレクタ部に格納されるデータを説明する図比較部における処理を説明する図情報ファイル作成手順を示すフロー図セグメントテーブルの一例を示した図タグ情報ファイルの一例を示した図図６の続図ＨＤＤに保存されるデータを示した図タグ情報ファイルを基に作成された画面の一例を示した図ＡＶデータの再生処理を示したフロー図本発明の第２の実施形態に係るＡＶストリーム処理装置のブロック図ＤＶＤのＶＲフォーマットを説明する図キーワード検索用ファイル作成時のタイミングチャートを示した図キーワード検索用ファイル作成手順を示すフロー図セグメントテーブルの一例を示した図タグ情報ファイルの一例を示す図図１６の続図情報ファイルおよびキーワード検索用ファイルを元に作成した検索結果表示画面の一例を示した図検索処理手順を説明するフロー図検索処理に用いられる構成を示した図本発明の第３の実施形態に係るＡＶストリーム処理装置のブロック図本発明の第４の実施形態に係るＡＶストリーム処理装置のブロック図従来のＡＶストリーム処理装置のブロック図

符号の説明

１００ＡＶストリーム処理装置
１０１デジタルチューナ
１０２アナログチューナ
１０３スイッチ部
１０４フォーマット変換部
１０５デコード処理部
１０６Ａ／Ｄ変換部
１０７スプリッタ部
１０８ＭＰＥＧエンコーダ
１１０ＡＶ特徴量保持部
１１１セレクタ部
１１２比較部
１１３タグ情報作成部
１１４ホストＣＰＵ
１１５ＨＤＤ
１１６メモリ
１１７ＭＰＥＧデコーダ
１１８グラフィック生成部
１１９合成器
１２０ユーザパネル
２００ＡＶストリーム処理装置
２０１文字データ蓄積部
２０２文字列検索部
２５１検索キーワード保持部
２５２検索用比較器
２５３検索一致数カウンタ
３００ＡＶストリーム処理装置
３０１音声認識部
４００ＡＶストリーム処理装置
４０１字幕認識部

Claims

画像音声データに、検索用のタグ情報を付加して記憶する画像音声ストリーム処理装置であって、
画像音声データに関する特徴データを記憶する特徴データ保持部と、
前記画像音声データ中に前記特徴データが含まれていることを検出する特徴データ検出部と、
前記特徴データ検出部において前記特徴データが検出されたときに前記画像音声データのタグ情報を生成するタグ情報生成部と、
前記画像音声データと前記タグ情報とを記憶する画像音声データ記憶部とを備えた、画像音声ストリーム処理装置。
前記特徴データが検出された前記画像音声データ上の時刻を測定するタイマをさらに備え、
前記タグ情報に、前記タイマで計測された時刻に基づく時間情報が含まれていることを特徴とする、請求項１に記載の画像音声ストリーム処理装置。
入力された画像音声データから、前記特徴データ検出部での検出に用いる特定データを抽出して、前記特徴データ検出部に出力する特定データ抽出部をさらに備えた、請求項１に記載の画像音声ストリーム処理装置。
入力された画像音声データを所定形式のデジタルデータに変換して前記特定データ抽出部に出力するデータ形式変換部をさらに備え、
前記データ形式変換部は、
アナログデータを所定形式のデジタルデータに変換するアナログデータ変換部と、
所定形式以外の形式のデジタルデータを所定形式のデジタルデータに変換するデジタルデータ変換部とを含む、請求項３に記載の画像音声ストリーム処理装置。
前記タグ情報に、検出に用いた前記特徴データを示す識別子データが含まれていることを特徴とする、請求項１に記載の画像音声ストリーム処理装置。
前記タグ情報を用いて、再生すべき位置を検索するための画面を生成するグラフィック生成部をさらに備えた、請求項１に記載の画像音声ストリーム処理装置。
画像音声データから取得した文字データを用いてキーワード検索用情報を作成する、キーワード検索用情報作成部をさらに備えた、請求項１に記載の画像音声ストリーム処理装置。
画像音声データのうち字幕が含まれている特定領域の画像データを抽出する画像データ抽出部と、
前記画像データ抽出部で抽出された画像データに含まれる字幕を文字データに変換する字幕認識部とをさらに備え、
前記キーワード検索用情報作成部は、前記画像認識部で得られた文字データを用いて、前記キーワード検索用情報を作成することを特徴とする、請求項７に記載の画像音声ストリーム処理装置。
記憶する画像音声データのうち音声データを抽出する音声データ抽出部と、
前記音声データ抽出部で抽出された音声データを文字データに変換する音声認識部とをさらに備え、
前記キーワード検索用情報作成部は、前記音声認識部で得られた文字データを用いて、前記キーワード検索用情報を作成することを特徴とする、請求項７に記載の画像音声ストリーム処理装置。
検索したい文字を入力するキーワード入力部と、
前記キーワード入力部から入力された文字を前記キーワード検索用情報から検索するキーワード検索部とをさらに備えた、請求項７に記載の画像音声ストリーム処理装置。