JP2006014091A - 画像音声ストリーム処理装置 - Google Patents

画像音声ストリーム処理装置 Download PDF

Info

Publication number
JP2006014091A
JP2006014091A JP2004190376A JP2004190376A JP2006014091A JP 2006014091 A JP2006014091 A JP 2006014091A JP 2004190376 A JP2004190376 A JP 2004190376A JP 2004190376 A JP2004190376 A JP 2004190376A JP 2006014091 A JP2006014091 A JP 2006014091A
Authority
JP
Japan
Prior art keywords
data
unit
image
stream processing
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2004190376A
Other languages
English (en)
Other versions
JP2006014091A5 (ja
Inventor
Osamu Goto
修 後藤
Toru Inada
徹 稲田
Hiroshi Kitamura
啓 喜多村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2004190376A priority Critical patent/JP2006014091A/ja
Priority to US11/630,337 priority patent/US20080028426A1/en
Priority to KR1020077000823A priority patent/KR20070028535A/ko
Priority to CNA2005800217370A priority patent/CN1977264A/zh
Priority to PCT/JP2005/011256 priority patent/WO2006001247A1/ja
Publication of JP2006014091A publication Critical patent/JP2006014091A/ja
Publication of JP2006014091A5 publication Critical patent/JP2006014091A5/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • H04N9/8227Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal the additional signal being at least another television signal
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • H04N5/775Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television receiver
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/78Television signal recording using magnetic recording
    • H04N5/781Television signal recording using magnetic recording on disks or drums
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/7921Processing of colour television signals in connection with recording for more than one processing mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/8042Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components involving data reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/806Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal
    • H04N9/8063Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal using time division multiplex of the PCM audio and PCM video signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Television Signal Processing For Recording (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 詳細目次情報を持たない画像音声データについても、独自にタグ情報ファイルを作成して画像音声データに付加して記憶するAVストリーム処理装置を提供する。
【解決手段】 スプリッタ部107には、HDD115に記憶させるコンテンツの画像音声データが入力される。比較部112には、スプリッタ部107から、タグ情報ファイルを作成するための特定データが入力される。比較部112は、入力されたデータとセレクタ部111に記憶されているデータとを比較し、所定条件を満たしたときにトリガ信号を出力する。トリガ信号が出力されると、タグ情報作成部113のタイマから時刻が読み出され、読み出された時刻はメモリ116に記憶される。比較部112での比較が終了すると、メモリ116に記憶されたデータをもとにタグ情報ファイルが作成され、HDD115に記憶される。
【選択図】 図1

Description

本発明は、画像音声ストリーム処理装置に関し、より特定的には、画像音声データに、当該画像音声データに関する情報を付加して記憶する画像音声ストリーム処理装置に関する。
現在、放送波を用いて電子番組ガイド(EPG:Electric Program Guide)が、また、ウェブサイトからインターネットなどの通信回線を通じて詳細目次情報(番組内情報)が提供されている。視聴者は、電子番組ガイドや詳細目次情報等を利用することによって、例えば各放送番組の開始・終了時刻や番組の内容などの情報を得ることができる。
ところで、近年、録画した番組の検索を容易にするために、番組データにその番組の詳細目次情報を付加して記憶する画像音声ストリーム処理装置(以下、AVストリーム処理装置という)が提案されている(例えば、特許文献1)。
図23は、従来のAVストリーム処理装置1のブロック図である。AVストリーム処理装置1は、デジタルチューナ2、アナログチューナ3、MPEG2エンコーダ4、ホストCPU5、モデム6、ハードディスクドライブ(HDD)8、MPEG2デコーダ9、グラフィック生成器10、合成器11、メモリ12およびユーザパネル13を備えている。
例えば、放送事業者からデジタル放送によって提供された放送番組の画像音声信号は、図示していないアンテナで受信されて、デジタルチューナ2に入力される。デジタルチューナ2は、入力された画像音声信号を処理して、番組のMPEG2トランスポートストリーム(以下、MPEG2TSという)を出力する。
また、放送事業者からアナログ放送によって提供された放送番組の画像音声信号は、図示していないアンテナで受信されて、アナログチューナ3に入力される。アナログチューナ3は、入力された画像音声信号を処理して、処理後の画像音声信号をMPEG2エンコーダ4に出力する。MPEG2エンコーダ4は、入力された画像音声信号をMPEG2形式で符号化して出力する。デジタルチューナ2およびMPEG2エンコーダ4から出力されたデジタル放送番組およびアナログ放送番組のMPEG2TSは、HDD8に記憶される。
AVストリーム処理装置1は、このように放送番組のMEPG2TSをHDD8に記憶することと並行して、または、記憶させた後に、インターネットを介して詳細目次情報をダウンロードし、記憶した放送番組のMPEG2TSに関連づけてHDD8に記録する。
グラフィック生成部10は、ユーザパネル13への入力に従ってホストCPU5から出力された命令信号に基づいて、HDD8に記憶された詳細目次情報を基に番組情報画面を作成する。作成された番組情報画面は、図示しない表示部に表示させられるので、ユーザはその画面を見ることによって番組内容を把握することができる。また、このAVストリーム処理装置1は、詳細目次情報に記載された各トピックスの位置からAVデータストリームを再生することができる。
よって、このAVストリーム処理装置1を用いれば、録画した放送番組の中から、見たいトピックスを含む番組を効率良く探し出すことができる。また、AVストリーム処理装置1によれば、見たいトピックスが記録されている位置を、早送り、再生、巻き戻し等の処理を繰り返しながら探し出す煩雑さからも解放される。
特開2003−199013号公報
しかしながら、AVストリーム処理装置1では、例えばビデオテープに録画された画像音声データや自ら撮影した動画の画像音声データように、詳細目次情報を持たない画像音声データには、詳細目次情報を付加して録画することができない。よって、詳細目次情報を持たない画像音声データは検索の対象とすることができなかった。
また、詳細目次情報を有する画像音声データであっても、詳細目次情報で提供されている情報は限られているために、内容を把握したり検索したりするために必要な情報が必ずしも含まれているとは限らなかった。
それ故に、本発明の目的は、詳細目次情報等を有していない画像音声データについても、検索に用いることができる情報を独自に作成することができるAVストリーム処理装置を提供することである。
本発明に係る画像音声ストリーム処理装置は、画像音声データに、検索用のタグ情報を付加して記憶する画像音声ストリーム処理装置であって、画像音声データに関する特徴データを記憶する特徴データ保持部と、前記画像音声データ中に前記特徴データが含まれていることを検出する特徴データ検出部と、前記特徴データ検出部において前記特徴データが検出されたときに前記画像音声データのタグ情報を生成するタグ情報生成部と、前記画像音声データと前記タグ情報とを記憶する画像音声データ記憶部とを備える。
また、本発明に係る画像音声ストリーム処理装置は、前記特徴データが検出された前記画像音声データ上の時刻を測定するタイマをさらに備え、前記タグ情報に、前記タイマで計測された時刻に基づく時間情報が含まれていることを特徴としてもよい。
また、本発明に係る画像音声ストリーム処理装置は、入力された画像音声データから、前記特徴データ検出部での検出に用いる特定データを抽出して、前記特徴データ検出部に出力する特定データ抽出部をさらに備えていてもよい。
また、入力された画像音声データを所定形式のデジタルデータに変換して前記特定データ抽出部に出力するデータ形式変換部をさらに備え、前記データ形式変換部は、アナログデータを所定形式のデジタルデータに変換するアナログデータ変換部と、所定形式以外の形式のデジタルデータを所定形式のデジタルデータに変換するデジタルデータ変換部とを含んでいてもよい。
また、前記タグ情報には、検出に用いた前記特徴データを示す識別子データが含まれていてもよい。
また、本発明に係る画像音声ストリーム処理装置は、前記タグ情報を用いて、再生すべき位置を検索するための画面を生成するグラフィック生成部をさらに備えていてもよい。
また、本発明に係る画像音声ストリーム処理装置は、画像音声データから取得した文字データを用いてキーワード検索用情報を作成する、キーワード検索用情報作成部をさらに備えていてもよい。
また、画像音声データのうち字幕が含まれている特定領域の画像データを抽出する画像データ抽出部と、前記画像データ抽出部で抽出された画像データに含まれる字幕を文字データに変換する字幕認識部とをさらに備え、前記キーワード検索用情報作成部は、前記画像認識部で得られた文字データを用いて、前記キーワード検索用情報を作成することを特徴としてもよい。
また、記憶する画像音声データのうち音声データを抽出する音声データ抽出部と、前記音声データ抽出部で抽出された音声データを文字データに変換する音声認識部とをさらに備え、前記キーワード検索用情報作成部は、前記音声認識部で得られた文字データを用いて、前記キーワード検索用情報を作成することを特徴としてもよい。
また、検索したい文字を入力するキーワード入力部と、前記キーワード入力部から入力された文字を前記キーワード検索用の情報から検索するキーワード検索部とをさらに備えていてもよい。
本発明に係るAVストリーム処理装置は、記憶する画像音声データからユーザによって指定された特徴部分を検出し、検出結果に基づいて検索用の情報を独自に生成する。よって、ユーザは、生成された検索用の情報を利用することによって、画像音声データの中から見たい位置を容易に探し出すことができる。
また、本発明に係るAVストリーム処理装置では、記憶するAVストリームから得られ得た文字データを基にキーワード検索用情報を作成することができる。よって、ユーザは、視聴したい部分を言葉で表したキーワードを、キーワード検索用情報から検索することによって、AVストリーム中の視聴するのに適当な位置を容易に見つけ出すことができる。
(第1の実施形態)
図1は、本発明の第1の実施形態に係るAVストリーム処理装置100の構成を示すブロック図である。AVストリーム処理装置100は、デジタルチューナ101、アナログチューナ102、スイッチ部103、フォーマット変換部104、スプリッタ部107、MPEGエンコーダ108、AV特徴量保持部110、セレクタ部111、比較部112、タグ情報作成部113、ホストCPU114、ハードディスクドライブ(以下、HDDと記す)115、メモリ116、MPEGデコーダ117、グラフィック生成部118、合成器119およびユーザパネル120を備えている。
ユーザパネル120は、AVストリーム処理装置100の本体に設けられたボタンや、リモートコントローラやキーボード等であって、ユーザがAVストリーム処理装置100を操作するためのパネルである。ホストCPU114は、AVストリーム処理装置100を構成する各部の制御全般を行う演算処理部である。
デジタルチューナ101は、例えば、図示していないアンテナで受信したデジタル放送番組の画像音声信号を処理し、番組のMPEG2トランスポートストリーム(MPEG2TS)を出力する。また、アナログチューナ102は、アンテナで受信したアナログ放送番組の画像音声信号を処理して、番組のアナログ画像音声信号を出力する。
スイッチ部103には、HDD115に記憶しようとする番組の画像音声データが、デジタルチューナ101やアナログチューナ102やインターネットなどを介して入力される。また、スイッチ部103には、UBSやIEEE1394規格を用いて、例えばDVD、LD、外付けHDD、VHSビデオ等の外部接続機器に蓄積された画像音声データも入力される。よって、スイッチ部103には、アナログ画像音声データ、圧縮されていないデジタル画像音声データおよび圧縮されたデジタル画像音声データが入力される。このように、AVストリーム処理装置100は、どのような種類や形式の画像音声データでも扱うことができる。なお、本明細書中では、アナログ画像音声データ、圧縮されていないデジタル画像音声データおよび圧縮されたデジタル画像音声データを総称して画像音声データ(以下、AVデータと記す)という。
スイッチ部103は、入力されたAVデータを、その種類によって適当な出力先へと振り分ける役割を有している。より具体的に説明すると、スイッチ部103に入力されたアナログAVデータは、フォーマット変換部104のA/D変換部106に入力される。A/D変換部106は、アナログAVデータを、圧縮されていない所定形式のデジタルAVデータに変換する。また、スイッチ部103に入力されたデジタルAVデータは、フォーマット変換部104のデコード処理部105に入力される。デコード処理部105は、入力されたデータの形式を判断し、必要に応じて、所定形式に復号化する処理を行う。
このように、フォーマット変換部104には、種類や形式が様々なAVデータが入力され、あらかじめ定められた所定形式のAVデータが出力される。なお、フォーマット変換部104から出力されるデータは、例えば、音声データがPCMデータ、画像データがREC656データというように、音声データおよび画像データがそれぞれ別データになっていてもよいし、MPEG形式のデータのように、両者が1つのデータになっていてもよい。ただし、フォーマット変換部104から出力されるデータの形式と、後述するセレクタ部111に記憶されるデータの形式とは、比較部112での比較が可能なように揃えられている必要がある。
フォーマット変換部104から出力されたAVデータは、スプリッタ部107に入力される。スプリッタ部107は、入力されたAVデータをすべて出力する録画用データ出力ポートと、情報ファイルを作成するために抽出されたデータのみを出力するタグ情報作成用データ出力ポートとを有している。
スプリッタ部107の録画用データ出力ポートから出力されたAVデータがMPEG形式のデータである場合には、そのAVデータはそのままHDD115に記憶される。一方、スプリッタ部107の録画用データ出力ポートから出力されたAVデータが、MPEG形式のデータでない場合、そのAVデータはMPEGエンコーダ108に入力される。MPEGエンコーダ108は、入力されたAVデータを、例えばMPEG形式に符号化して出力する。MPEGエンコーダ108から出力されたMPEGは、HDD115に記憶される。
スプリッタ部107のタグ情報作成用データ出力ポートから比較部112には、特定データが出力される。ここで特定データとは、画像音声データ上の特徴的な部分を検出するために利用されるデータであり、セレクタ部111に記憶されているデータによって決められる。
図2は、セレクタ部111とAV特徴量保持部110に記憶されているデータの一例を示した図である。AV特徴量保持部110には、録画する画像音声データの特徴的な部分を検出するために用いるデータの候補となるものが記憶されている。例えば、AV特徴量保持部110には、複数の音声特徴量データ、各音声特徴量データの特徴量タイトルデータおよび音声用一致継続値データ、および、複数の画像特徴量データ、各画像特徴量データの特徴量タイトルデータおよび画像用一致継続値データが記憶されている。なお、特徴量タイトルデータとは、ある特徴量データと他の特徴量データとをユーザが識別できるようにするために各特徴量データに付された識別子データである。
グラフィック生成部118は、AV特徴量保持部110にどのような特徴量データ等が記憶されているかを示す画面を生成する。グラフィック生成部118で生成された画面は、テレビ画面やパーソナルコンピュータのモニタ等の表示部に表示される。よって、録画を行う前にユーザは、この画面を見ながら、ユーザパネル120を用いて、所望の特徴量データおよび一致継続値データを選択しておく。選択された特徴量データおよび特徴量タイトルデータ、および、一致継続値データは、セレクタ部111に記憶される。なお、AV特徴量保持部110に記憶されているデータ読み出しやセレクタ部111へのデータ書き込みなど、一連の処理の制御は、ホストCPU114が行う。AV特徴量保持部110に記憶させる特徴量データは、AVストリーム処理装置100を製造するメーカー側で作成してあらかじめ記憶させておいてもよいし、ユーザが作成して記憶させられるようになっていてもよい。
図2は、AV特徴量保持部110からセレクタ部111に音声用データと画像用データとが選択された様子を示している。図2に示すセレクタ部111に選択されている音声特徴量データは、“無音”というタイトルが付された無音判断用閾値Paである。音声用一致継続値は、Qaである。また、画像用特徴量データは、“黒画面”というタイトルが付された黒画面判断値用閾値Pbである。画像用一致継続値は、Qbである。なお、Paは音量を表し、Pbは輝度を表す。また、QaおよびQbは、時間を表す。図2に示すように、セレクタ部111に音声特徴量データと画像特徴量データが選択された場合には、スプリッタ部107から比較部112に、圧縮されていない音声データ(例えば、PCMデータ)と画像データ(例えば、REC656データ)が出力される。
次に、セレクタ部111および比較部112のブロック図である図3と、タグ情報を作成する手順を示した図4を用いて、AVストリーム処理装置100でのタグ情報作成について説明する。図3に示すように比較部112は、例えば、音声比較部150と画像比較部160とを備えている。音声比較部150は、特徴量比較器151、カウンタ152および継続値比較器153を、また、画像比較部160は、特徴量比較器161、カウンタ162および継続値比較器163を備えている。
音声比較部150の特徴量比較器151は、スプリッタ部107から出力された音声データと、セレクタ部111に格納されている無音判断用閾値Paとを比較する。特徴量比較部151において、音量が閾値Pa以下であると判断されると、音量がPaより大きくなるまでの時間がカウンタ152で計数される。また、継続値比較器153は、カウンタ152での計数値と音声用一致継続値Qaとを比較する。継続値比較器153においてカウンタ152の計数値と音声用一致継続値Qaとが一致したと判断されると、継続値比較器153はトリガ信号を出力する(図4のステップS3)。
同様に、画像比較部160の特徴量比較器161は、スプリッタ部107から出力された画像データと、セレクタ部111に格納されている黒画面判断用閾値Pbとを比較する。ここで、黒画面判断用閾値Pbは、例えば、画像データ1フィールド分の輝度値の合計である。特徴量比較器161では、スプリッタ部107から出力された画像データ1フィールドの輝度値の合計Sが求められ、合計Sとセレクタ部111に格納されている黒画面判断用閾値Pbとが比較される。特徴量比較器161において、合計Sが黒画面判断用閾値Pb以下であると判断されると、合計Sが黒画面判断用閾値Pbよりも大きくなるまでの時間が、カウンタ162で計数される。カウンタ162での計数値は、継続値比較器163で一致継続値Qbと比較される。継続値比較器163でカウンタ162の計数値と一致継続値Qbとの一致が判断されると、継続値比較器163はトリガ信号を出力する(図4のステップS3)。
継続値比較器153および163から出力されたトリガ信号は、いずれもホストCPU114に割り込み信号として入力される。タグ情報作成部113は、AVデータの開始からの経過時間を計測するタイマを備えている。トリガ信号を受けたホストCPU114は、タグ情報作成部113のタイマから時間を読み出し、また、セレクタ部111からタイトルを読み出すよう、読出し命令信号を出力する(ステップS4)。
タグ情報作成部113のタイマから読み出された時間とセレクタ部111から読み出されたタイトルとは、それぞれセクション開始時刻T(i)とセクションタイトルID(i)として、メモリ116のセグメントテーブルに書き込まれる(ステップS5)。なお、番号iは、AVデータの先頭位置からの経過時間が早い順に0、1、2…と付されるセクション番号である。
また、メモリ116に記憶されたセクション開始時刻T(i)とセクション開始時刻T(i−1)との差が演算され(ステップS6)、その結果は、セクション長A(i−1)としてメモリ116のセグメントテーブルに書き込まれる(ステップS7)。図5は、作成されたセグメントテーブルの一例を示している。なお、セクション番号0の開始位置は、AVデータの先頭位置であるため、セグメントテーブルのセクション番号0の部分には、あらかじめセクションタイトルID(0)とセクション開始時刻T(0)とを記憶させておくとよい。
セグメントテーブルへのセクションタイトルID(i)、セクション開始時刻T(i)、セクション長A(i−1)の書き込みが終了すると、セクション番号iの値が1だけ繰り上げられる(ステップS8)。そして、比較部112において比較が終了していなければ(ステップS2のNO)、トリガ信号が出力されるまでの時間が計測される。また、比較部112において全ての比較が終了していれば、最後にトリガが出力された時刻T(i−1)からAVデータの終了時刻T(end)までの時間T(end)−T(i−1)が計算されて、セグメントファイルにセクション長A(i−1)として書き込まれる(ステップS9、S10)。これにより、セグメントテーブルへの書き込みは終了する。
セグメントテーブルへの書き込みが終了すると、セグメントテーブルに記憶されたデータを用いて、例えば図6に示すようなタグ情報ファイルが作成される(ステップS11)。なお、タグ情報ファイルは、メモリ116等にあらかじめ記憶されたタグ情報ファイル作成プログラムをホストCPU114が実行することによって作成される。作成されたタグ情報ファイルは、HDD115に書き込まれる(ステップS12)。つまり、HDD115には、図8に示すように、AVデータ170と、その情報データ171とが記憶される。
ところで、図6および図7に示す情報ファイルは、XMLで記載される検索用記述方式であるMPEG7フォーマットで作成されている。図6に示すタグ情報ファイルにおいて、(A)の部分には、HDD115におけるディレクトリが示されている。このディレクトリは、録画したAVデータの、HDD115内におけるディレクトリである。また、(B)の部分には、セクションタイトルID(i)が、(C)の部分にはセクションの開始時刻T(i)が、また(D)の部分にはセクション長A(i)が示されている。上記(B)〜(D)を含む(E)の部分は、セクション毎に作成される。
上記のようにAVストリーム処理装置100は、AVデータの特徴部分を検出して、その部分に関する情報を含んだタグ情報ファイルを作成する。このように作成されたタグ情報ファイルは、HDD115に記憶されたAVデータの再生時に利用できる。
次に、HDD115に記憶されAVデータの再生について、図9、図10を用いて説明する。図9は、HDD115に記憶されたタグ情報ファイルをもとに、図1に示すグラフィック生成部118で生成した画面の一例を示した図である。この画面180には、AVデータのタイトルやセクション番号、セクション開始時刻およびセクションタイトルが表示されている。このような画面180は、ユーザパネル120に設けられたセクション画面表示ボタンをユーザが押すと、表示部に表示される。
ユーザは、表示部に表示されているセクションの中から、これから再生しようとするセクションを、ユーザパネル120を用いて選択する(図10のステップS21)。図9に示すように、現在選択されているセクションはハイライト表示181されており、他のセクションとの識別が可能な状態になっている。また、選択するセクションは、再生ボタン182が押されてホストCPU114から再生命令が出力されるまでは(ステップS23)、ユーザパネル120の移動キー等によって変えることができる(ステップS22、S25)。
画面180の再生ボタン182が押されると、ホストCPU114には、選択されたセクションを示す信号が入力される。ホストCPU114は、選択されたセクション部分のデータを出力するようにHDD115に命令し、HDD115は指定されたデータをMPEGデコーダ117に対して出力する。MPEGデコーダ117は、入力されたデータを復号処理してモニタ等に出力する。
上記説明においてセクション開始位置の検出に用いた“無音”状態は、シーンチェンジの際に発生し易い。例えばニュース番組の各トピックが始まる前には一定時間以上の無音区間がある。よって、本実施形態において説明したように、無音状態が発生した位置をセクション開始位置と決めておけば、各セクションの先頭部分では、必ず新たな話題が取り上げられることになる。よって、AVストリーム処理装置100でタグ情報ファイルを作成し、各セクションの始めの部分を見ていけば、見たかった話題部分を比較的容易に見つけ出すことができる。
従来のAVストリーム処理装置では、録画したコンテンツのAVデータが詳細目次情報を持たないものであった場合、コンテンツ内容を示す情報画面を作成することはできなかった。しかしながら、本実施形態に係るAVストリーム処理装置100では、例えばVHSビデオに録画された画像音声データのように詳細目次情報やEPG情報を持たないものでも、独自に情報ファイルを作成することができる。また、作成された情報ファイルに含まれる情報は、表示部に表示させることができるので、ユーザはこの画面を見ることによって適当な視聴開始位置を知ることができる。
また、本実施形態に係るAVストリーム処理装置100では、セクション開始位置を決めるために用いるデータをユーザが個別に設定できるので、個々のユーザの検索効率を向上させることができる。
また、AVストリーム処理装置100は、フォーマット変換部104を備えているために、録画したいAVデータがどのような形式や種類のデータであっても、比較部112での処理が可能な適当な形式に変換することができる。よって、どのような形式のAVデータからも情報ファイルを作成することができる。
なお、上述した実施形態においては、1つの音声特徴量と1つの画像特徴量とを用いてセクション開始位置を決定した。しかしながら、音声特徴量か画像特徴量かのいずれか一方だけを用いてもよく、また、複数の音声特徴量や複数の画像特徴量を用いてもよい。
また、例えば、図3における音声比較部150に音声比較装置を用い、画像比較部160に画像比較装置を用い、あらかじめセレクタ部111に登録しておいた音声データや画像データと一致する音声データや画像データが検出されたときにトリガ信号を出力するようにしてもよい。このように、比較部112が備える装置構成は、図2に示した構成に限定されない。なお、AVデータをセクションに分割するために用いるデータは、音声データや画像データに限定されず、例えばテキストデータであってもよい。
なお、本実施形態におけるHDD115は、例えばDVD−RW等の記憶部であってもよい。また、音声比較部150と画像比較部160とで処理速度が異なる場合、タグ情報作成部113には、音声比較部150からトリガ信号が出力された時刻を計測する音声用タイマと、画像比較部160からトリガ信号が出力された時刻を計測する画像用タイマとを個別に設けるようにしてもよい。
なお、以上の説明では、比較部112からトリガ信号が出力されたときの時刻をセクション開始時刻としたが、特徴量データの性質によっては、比較部112からトリガ信号が出力された時刻よりも所定時間だけ前の時刻をセクション開始時刻としてもよい。これにより、セクションの先頭からAVデータを再生したときに、ユーザが視聴したい最初の部分が再生されないという不具合を防止することができる。
なお、図1、図2では、AV特徴量保持部110等に記憶されている各特徴量のタイトルデータをも記憶しているが、このような識別子データは必ずしも必要ではない。しかしながら、各特徴量データに、識別子データを付加しておけば、複数のAV特徴量を用いてそれぞれ異なる特徴部分を検出した場合に、いずれの特徴量が用いられたかを識別しやすくなる。なお、識別子データは、テキストファイルに限らず、JPEG形式等の画像データであってもよい。また、画像データである識別子データのファイル名等を情報ファイルに書き込んでおき、図9に示すような検索時に用いられる画面に画像表示できるようにしてもよい。
(第2の実施形態)
図11は、本発明の第2の実施形態に係るAVストリーム処理装置200の構成を示すブロック図である。放送波による文字放送やDVDには、画像情報や音声情報とは別に、字幕情報や文字情報が付随している場合がある。AVストリーム処理装置200は、AVデータに付随している文字情報を利用して、キーワード検索に用いることができるキーワード検索用ファイルを作成する。これを実現するための特有な構成として、AVストリーム処理装置200は、文字データ蓄積部201および文字列検出部202を備えている。また、スプリッタ部207は、入力されたAVデータをすべて出力する録画用出力ポートと、比較部112に特定データを出力する出力ポート、および、文字データ蓄積部201に文字データを出力する出力ポートを備えている。
なお、本実施形態に係るAVストリーム処理装置200の構成要素のうち、第1の実施形態で説明し、図1に示した構成要素と同じものには、同一の参照符号を付して説明を省略する。また、本実施形態に係るAVストリーム処理装置200で行われる処理であって、第1の実施形態で説明した処理と同じものについては、その説明を省略する。
図11は、DVDのVRフォーマットに基づいたAVデータを説明するための図である。図11に示すVOB(Video Object)210は、画像データおよび音声データの記録単位である。VOBU(Video Object Unit)220はVOB210を構成する単位であって、0.4〜1秒に相当する画像データおよび音声データである。このVOBU220は、文字情報が格納されたナビパック221と、映像情報が格納されているビデオパック222と、音声データが格納されているオーディオパック223とで構成されている。なお、ナビパック221、ビデオパック222およびオーディオパック223は、図中にそれぞれ、“N”、“V”および“A”で示している。また、1つのVOBU220は、1つまたは2つのGOP(Group of Pictures)230で構成されている。
ナビパック221は、“GOPヘッダ”と“拡張・ユーザデータ領域”とで構成されている。また、オーディオパック223とビデオパック222は、15フレーム分の画像・音声情報を表すためのIピクチャ(Intra−coded picture)、Pピクチャ(Predictive coded picture)、Bピクチャ(Bi−directionally coded picture)で構成されている。
ナビパック221の“拡張・ユーザデータ領域”には、1フレームにつき各2文字分の文字データ、すなわち、全体で30文字の文字データが含まれる。この文字データは、スプリッタ部207から文字データ蓄積部201に出力される。
なお、以上ではDVDを例に挙げて説明したが、録画しようとするAVデータがアナログ放送番組のデータである場合には、スプリッタ部207から文字データ蓄積部201には、第1フィールドと第2フィールドの21ラインの情報が出力されるようになっていればよい。つまり、文字データ蓄積部201には、記録するAVデータが保有する文字データのみが入力される。
以下に、HDD115に記録するAVデータの検索用ファイルを作成する手順を図13および図14を用いて説明する。図13の最上段は、比較部112からトリガ信号が出力されるタイミングを示している。また、上から2段目は、垂直同期信号の出力タイミングを示している。また、上から3段目は、文字データ蓄積部201への文字入力タイミングと入力される文字とを示している。また、上から4段目は、文字データ蓄積部201に一時的に蓄積された文字を示している。そして、図13の最下段は、文字データ蓄積部201に一時的に蓄積された文字データを基に作成されたキーワード検索用ファイルに記載される文字列を示している。
図14は、キーワード検索用ファイルを作成する手順を示したフローチャートである。まず、HDD115への録画が開始されると、新たなテキストファイルがオープンされる(図14のステップS32)。スプリッタ部207は、録画するAVデータの中から文字データを検出したときには、これを文字データ蓄積部201に出力する。
文字データ蓄積部201は、入力された文字データを、比較部112からトリガ信号が出力されるまで一時的に蓄積する(ステップS34〜S36)。図13において、トリガ信号が出力されるまでの間に文字データ蓄積部201に蓄積された文字データは、順に、“ab”、“cd”、“ef”、“gh”、“.”である。トリガ信号が出力された後に文字データ蓄積部201に入力された文字データ“ij”、“kl”は、トリガ信号が出力されるより前に文字データ蓄積部201に入力された文字データ“ab”、“cd”、“ef”、“gh”、“.”とは区別されて、文字データ蓄積部201に一時的に蓄積される。
比較部112からトリガ信号が出力されると、文字データ蓄積部201に一時的に蓄積されていた文字データ“ab”、“cd”、“ef”、“gh”、“.”は、ステップS32でオープンされたファイルに書き込まれる(ステップS37)。この後、このテキストファイルはクローズされ(ステップS38)、例えばmute0.txt のようにセクションタイトルID(i)に関連するファイル名が付されて、キーワード検索用ファイルとしてHDD115に保存される(ステップS39)。この処理が終わると、セクション番号iが1繰り上げられる(ステップS40)。このようにキーワード検索用ファイルを作成する処理は、比較部112での比較が終了するまで行われる(ステップS33、S41)。
各キーワード検索用ファイルの名称等は、図15に示すように、メモリ116のセグメントテーブルにも記録される。図16および図17は、このセグメントテーブルを用いて作成されるタグ情報ファイルの一例を示した図である。図16および図17は、XMLで記載される検索用記述方式であるMPEG7フォーマットで作成されている。図16に示すタグ情報ファイルにおいて、(A)の部分には、HDD115におけるディレクトリが示されている。このディレクトリは、録画したAVデータの、HDD115内におけるディレクトリである。また、(B)の部分は、セクションタイトルID(i)を、(C)の部分にはセクションの開始時刻T(i)を、また、(D)の部分はセクション長A(i)を示している。そして、(E)の部分は、このセクションのキーワード検索用ファイルが記憶されているHDD115内におけるディレクトリを示している。上記(B)〜(E)を含む(F)の部分は、セクション毎に作成される。
次に、作成されたキーワード検索用ファイルを用いて、録画したコンテンツの内容を検索する方法を、図18〜図20を用いて説明する。図18は、モニタ等の表示部に表示する画面(キーワード入力用プロンプト)240の一例を示している。この画面240は、HDD115に録画したAVデータのセクション情報やキーワード検索結果を表示する画面である。画面240の上部には、検索したい文字を入力する検索キーワード入力ボックス241や検索ボタン242が設けられている。また、検索ボタン242の下方には、セクション番号、セクション開始時刻が表示されており、また、セクション毎の検索結果を表示する検索一致数表示部244を示したセクション情報欄や、再生ボタン245が設けられている。このような画面240は、以下に示す手順で作成される。
まず、ユーザパネル120の検索画面表示ボタンが押されると、HDD115に記憶されているタグ情報ファイルが読み出されて、検索一致数表示部244のエリアが作成される(図19のステップS51)。そして、モニタには、図18に示すような画面240が表示される(ステップS52)。ただし、このときには、検索一致数表示部244や検索キーワード入力ボックス241には、何も表示されていないとする。
画面が表示されると、ユーザは、検索キーワード入力ボックス241に、検索キーワードを入力する。図18では、検索キーワードとして、“ichiro”という文字が入力されている。この状態で検索ボタン242が押されると、キーワード検索用ファイル内から、“ichiro”という文字が検索される。
図20は、図11に示すAVストリーム処理装置200の構成要素のうち、検索に用いられる構成を中心に示したものである。文字列検出部202は、検索キーワード保持部251、検索用比較器252および検索一致数カウンタ253を備えている。ユーザパネル120からキーワードが入力されると、そのキーワードは、文字列検出部202の検索キーワード保持部251に格納される。この状態で画面240の検索ボタン242が押されると、信号を受けたホストCPU114は、HDD115からキーワード検索用ファイルを読み出すよう命令信号を出力する。
HDD115から読み出されたキーワード検索用ファイルに記載されている文字データは、データ列の先頭から順に検索用比較器252に入力される。検索用比較器252は、検索キーワード保持部251に格納されている“ichiro”という文字列とキーワード検索用ファイルに記載されている文字列とを比較し、両者が一致した時に検索一致数カウンタ253に信号を出力する。
検索一致数カウンタ253は、信号が入力されるたびにカウンタの数を1ずつ繰り上げてゆくことで、キーワード検索用ファイル内の一致数をカウントする(図19のステップS55)。一つのキーワード検索用ファイルの検索が終了すると、ホストCPU114は、検索一致数カウンタ253から値を読み出し、読み出された値は、メモリ116に書き込まれる。検索は全セクションのキーワード検索用ファイルに対して行われる。検索が終了すると、メモリ116に記憶された数値が読み出されて、画面240の検索一致数表示部244に表示される(ステップS57)。
図18に示す画面240では、第0、第1および第2セクションでの検索一致数が、それぞれ1、12および0であった場合を示している。ユーザはこの検索結果を見て再生するセクションを選択することができる。例えば、ユーザが、図18に示すように検索一致数が最も多い第1セクションを選択して再生ボタン245を押せば、HDD115からMPEGデコーダ117にAVデータの第1セクション部分が読み出されて、第1セクションの先頭から再生が行われる。
本実施形態に係るAVストリーム処理装置200では、録画するコンテンツに含まれる文字データを用いて、タグ情報作成部113で決めたセクション毎にキーワード検索用ファイルを作成する。また、作成されたキーワード検索用ファイルはキーワード検索に利用することができる。よって、AVストリーム処理装置200を用いれば、ユーザによる検索効率をさらに向上させることができる。
なお、本実施形態の文字データ蓄積部201は、キーワード検索用ファイルを作成するために、演算処理部としての機能とメモリとしての機能を有している。しかしながら、文字データ蓄積部201を設ける代わりに、ホストCPU114とメモリ116とで文字データ蓄積部201で行う処理を行うようにしてもよい。
(第3の実施形態)
図21は、本発明の第3の実施形態に係るAVストリーム処理装置300の構成を示すブロック図である。本実施形態のAVストリーム処理装置300は、音声データから検索に用いる文字データを作成するという特徴を有している。これを実現するための特有な構成として、AVストリーム処理装置300は、音声認識部301、文字データ蓄積部201および文字列検索部202を備えている。
スプリッタ部307は、入力されたAVデータをすべて出力する録画用出力ポートと、比較部112に特定データを出力する出力ポートと、音声認識部301に音声データを出力する出力ポートとを有している。
なお、AVストリーム処理装置300の構成要素のうち、第1および第2の実施形態で説明し、図1および図11に示した構成要素と同じものには、同一の参照符号を付して説明を省略する。また、本実施形態に係るAVストリーム処理装置300で行われる処理であって、第1および第2の実施形態で説明した処理と同じものについては、その説明を省略する。
音声認識部301は、スプリッタ部107から出力された音声データに対して音声認識を行い、人が会話をしている部分のデータをテキストデータに変換して、文字データ蓄積部201に出力する。文字データ蓄積部201は、1セクション分のデータ、つまり、比較部112からトリガ信号が出力されてから次のトリガ信号が出力されるまでに、スプリッタ部107から出力されたデータを内部に蓄積する。
本実施形態のAVストリーム処理装置300は、音声データから得られたテキストデータをもとに、セクション毎にキーワード検索ファイルを作成する。作成されたキーワード検索用ファイルは、キーワード検索に用いることができる。
なお、音声データが5.1ch用音声データである場合は、スプリッタ部307において、例えばセンターチャンネルに含まれる音声データのみを抽出して、音声認識部301に出力するようにしてもよい。このように、検索に使用できる可能性が高い特定チャンネルの音声データのみを抽出すれば、音声認識部301におけるデータ処理速度および精度を向上させることができる。
(第4の実施形態)
図22は、本発明の第4の実施形態に係るAVストリーム処理装置400の構成を示すブロック図である。本実施形態に係るAVストリーム処理装置400は、字幕を含んだ画像データから、検索に用いるテキストデータを作成するという特徴を有している。これを実現するための特有な構成として、AVストリーム処理装置400は、字幕認識部401、文字データ蓄積部201および文字列検索部202を備えている。
スプリッタ部407は、入力されたAVデータをすべて出力する録画用出力ポートと、比較部112に特定データを出力する出力ポートと、字幕認識部401に画像データを出力する出力ポートとを備えている。なお、AVストリーム処理装置400の構成要素のうち、第1および第2の実施形態で説明し、図1および図11に示した構成要素と同じものには、同一の参照符号を付して説明を省略する。また、本実施形態に係るAVストリーム処理装置400で行われる処理であって、第1および第2の実施形態で説明した処理と同じものについては、その説明を省略する。
本実施形態において、スプリッタ部407から字幕認識部401には、字幕を含んだ画像データのみが出力される。字幕を含んだ画像データとは、例えばフレームの下から1/4の領域の画像データをいう。字幕認識部401は、入力された画像データの字幕部分に書かれている文字を認識し、認識した文字列のデータを文字データ蓄積部201に出力する。
文字データ蓄積部201は、1セクション内に含まれる文字データを、内部に蓄積する。このように作成された文字データは、HDD115に記憶される。また、AVストリーム処理装置400によって作成されたタグ情報ファイルには、各セクション情報として、各セクションのキーワード検索用ファイルのアドレス等が記載される。
本実施形態に係るAVストリーム処理装置400は、画像内の字幕から得られた文字データをもとに、セクション毎にキーワード検索用ファイルを作成する。作成されたキーワード検索用ファイルは、文字列検索に用いることができる。
以上、本発明の実施の形態を説明したが、上述の説明はあらゆる点において本発明の例示にすぎず、その範囲を限定しようとするものではない。よって、本発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。
本発明に係る画像音声ストリーム処理装置は、AVデータの保存、閲覧装置等として有用である。また、AVデータの編集、再生機器、AVデータサーバーなどの用途にも応用できる。
本発明の第1の実施形態に係るAVストリーム処理装置のブロック図 AV特徴量保持部およびセレクタ部に格納されるデータを説明する図 比較部における処理を説明する図 情報ファイル作成手順を示すフロー図 セグメントテーブルの一例を示した図 タグ情報ファイルの一例を示した図 図6の続図 HDDに保存されるデータを示した図 タグ情報ファイルを基に作成された画面の一例を示した図 AVデータの再生処理を示したフロー図 本発明の第2の実施形態に係るAVストリーム処理装置のブロック図 DVDのVRフォーマットを説明する図 キーワード検索用ファイル作成時のタイミングチャートを示した図 キーワード検索用ファイル作成手順を示すフロー図 セグメントテーブルの一例を示した図 タグ情報ファイルの一例を示す図 図16の続図 情報ファイルおよびキーワード検索用ファイルを元に作成した検索結果表示画面の一例を示した図 検索処理手順を説明するフロー図 検索処理に用いられる構成を示した図 本発明の第3の実施形態に係るAVストリーム処理装置のブロック図 本発明の第4の実施形態に係るAVストリーム処理装置のブロック図 従来のAVストリーム処理装置のブロック図
符号の説明
100 AVストリーム処理装置
101 デジタルチューナ
102 アナログチューナ
103 スイッチ部
104 フォーマット変換部
105 デコード処理部
106 A/D変換部
107 スプリッタ部
108 MPEGエンコーダ
110 AV特徴量保持部
111 セレクタ部
112 比較部
113 タグ情報作成部
114 ホストCPU
115 HDD
116 メモリ
117 MPEGデコーダ
118 グラフィック生成部
119 合成器
120 ユーザパネル
200 AVストリーム処理装置
201 文字データ蓄積部
202 文字列検索部
251 検索キーワード保持部
252 検索用比較器
253 検索一致数カウンタ
300 AVストリーム処理装置
301 音声認識部
400 AVストリーム処理装置
401 字幕認識部

Claims (10)

  1. 画像音声データに、検索用のタグ情報を付加して記憶する画像音声ストリーム処理装置であって、
    画像音声データに関する特徴データを記憶する特徴データ保持部と、
    前記画像音声データ中に前記特徴データが含まれていることを検出する特徴データ検出部と、
    前記特徴データ検出部において前記特徴データが検出されたときに前記画像音声データのタグ情報を生成するタグ情報生成部と、
    前記画像音声データと前記タグ情報とを記憶する画像音声データ記憶部とを備えた、画像音声ストリーム処理装置。
  2. 前記特徴データが検出された前記画像音声データ上の時刻を測定するタイマをさらに備え、
    前記タグ情報に、前記タイマで計測された時刻に基づく時間情報が含まれていることを特徴とする、請求項1に記載の画像音声ストリーム処理装置。
  3. 入力された画像音声データから、前記特徴データ検出部での検出に用いる特定データを抽出して、前記特徴データ検出部に出力する特定データ抽出部をさらに備えた、請求項1に記載の画像音声ストリーム処理装置。
  4. 入力された画像音声データを所定形式のデジタルデータに変換して前記特定データ抽出部に出力するデータ形式変換部をさらに備え、
    前記データ形式変換部は、
    アナログデータを所定形式のデジタルデータに変換するアナログデータ変換部と、
    所定形式以外の形式のデジタルデータを所定形式のデジタルデータに変換するデジタルデータ変換部とを含む、請求項3に記載の画像音声ストリーム処理装置。
  5. 前記タグ情報に、検出に用いた前記特徴データを示す識別子データが含まれていることを特徴とする、請求項1に記載の画像音声ストリーム処理装置。
  6. 前記タグ情報を用いて、再生すべき位置を検索するための画面を生成するグラフィック生成部をさらに備えた、請求項1に記載の画像音声ストリーム処理装置。
  7. 画像音声データから取得した文字データを用いてキーワード検索用情報を作成する、キーワード検索用情報作成部をさらに備えた、請求項1に記載の画像音声ストリーム処理装置。
  8. 画像音声データのうち字幕が含まれている特定領域の画像データを抽出する画像データ抽出部と、
    前記画像データ抽出部で抽出された画像データに含まれる字幕を文字データに変換する字幕認識部とをさらに備え、
    前記キーワード検索用情報作成部は、前記画像認識部で得られた文字データを用いて、前記キーワード検索用情報を作成することを特徴とする、請求項7に記載の画像音声ストリーム処理装置。
  9. 記憶する画像音声データのうち音声データを抽出する音声データ抽出部と、
    前記音声データ抽出部で抽出された音声データを文字データに変換する音声認識部とをさらに備え、
    前記キーワード検索用情報作成部は、前記音声認識部で得られた文字データを用いて、前記キーワード検索用情報を作成することを特徴とする、請求項7に記載の画像音声ストリーム処理装置。
  10. 検索したい文字を入力するキーワード入力部と、
    前記キーワード入力部から入力された文字を前記キーワード検索用情報から検索するキーワード検索部とをさらに備えた、請求項7に記載の画像音声ストリーム処理装置。
JP2004190376A 2004-06-28 2004-06-28 画像音声ストリーム処理装置 Withdrawn JP2006014091A (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2004190376A JP2006014091A (ja) 2004-06-28 2004-06-28 画像音声ストリーム処理装置
US11/630,337 US20080028426A1 (en) 2004-06-28 2005-06-20 Video/Audio Stream Processing Device and Video/Audio Stream Processing Method
KR1020077000823A KR20070028535A (ko) 2004-06-28 2005-06-20 화상 음성 스트림 처리 장치 및 화상 음성 스트림 처리방법
CNA2005800217370A CN1977264A (zh) 2004-06-28 2005-06-20 视频/音频流处理设备和视频/音频流处理方法
PCT/JP2005/011256 WO2006001247A1 (ja) 2004-06-28 2005-06-20 画像音声ストリーム処理装置および画像音声ストリーム処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004190376A JP2006014091A (ja) 2004-06-28 2004-06-28 画像音声ストリーム処理装置

Publications (2)

Publication Number Publication Date
JP2006014091A true JP2006014091A (ja) 2006-01-12
JP2006014091A5 JP2006014091A5 (ja) 2007-06-14

Family

ID=35780749

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004190376A Withdrawn JP2006014091A (ja) 2004-06-28 2004-06-28 画像音声ストリーム処理装置

Country Status (5)

Country Link
US (1) US20080028426A1 (ja)
JP (1) JP2006014091A (ja)
KR (1) KR20070028535A (ja)
CN (1) CN1977264A (ja)
WO (1) WO2006001247A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8130841B2 (en) * 2005-12-29 2012-03-06 Harris Corporation Method and apparatus for compression of a video signal
US20080244638A1 (en) * 2007-03-30 2008-10-02 Microsoft Corporation Selection and output of advertisements using subtitle data
JP2008276340A (ja) * 2007-04-26 2008-11-13 Hitachi Ltd 検索装置
US8326127B2 (en) * 2009-01-30 2012-12-04 Echostar Technologies L.L.C. Methods and apparatus for identifying portions of a video stream based on characteristics of the video stream
CN102074235B (zh) * 2010-12-20 2013-04-03 上海华勤通讯技术有限公司 视频语音识别并检索的方法
US9906782B2 (en) * 2015-01-14 2018-02-27 Cinder LLC Source agnostic audio/visual analysis framework
US20170060525A1 (en) * 2015-09-01 2017-03-02 Atagio Inc. Tagging multimedia files by merging
CN110347866B (zh) * 2019-07-05 2023-06-23 联想(北京)有限公司 信息处理方法、装置、存储介质及电子设备

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4119025B2 (ja) * 1998-12-10 2008-07-16 株式会社日立製作所 放送映像自動録画装置
JP2001143451A (ja) * 1999-11-17 2001-05-25 Nippon Hoso Kyokai <Nhk> 自動インデックス発生装置ならびにインデックス付与装置
KR100317303B1 (ko) * 2000-01-10 2001-12-22 구자홍 방송 프로그램 녹화 및 재생시 a/v와 데이터간 동기화장치
US6816858B1 (en) * 2000-03-31 2004-11-09 International Business Machines Corporation System, method and apparatus providing collateral information for a video/audio stream
JP3737754B2 (ja) * 2001-12-27 2006-01-25 株式会社東芝 半導体集積回路、番組記録再生装置、番組記録再生システム及び番組記録再生方法
KR100794797B1 (ko) * 2002-10-14 2008-01-21 삼성전자주식회사 디지털 a/v 데이터의 기록/재생 장치 및 그 제어방법
US7735104B2 (en) * 2003-03-20 2010-06-08 The Directv Group, Inc. System and method for navigation of indexed video content
US20050038814A1 (en) * 2003-08-13 2005-02-17 International Business Machines Corporation Method, apparatus, and program for cross-linking information sources using multiple modalities

Also Published As

Publication number Publication date
WO2006001247A1 (ja) 2006-01-05
CN1977264A (zh) 2007-06-06
KR20070028535A (ko) 2007-03-12
US20080028426A1 (en) 2008-01-31

Similar Documents

Publication Publication Date Title
KR101115701B1 (ko) 음성 인식 기술을 이용하여 생성된 메타데이터로 영상 콘텐츠에 주석을 달기 위한 방법 및 장치
US20080031595A1 (en) Method of controlling receiver and receiver using the same
US20080138034A1 (en) Player for movie contents
JP5135024B2 (ja) コンテンツのシーン出現を通知する装置、方法およびプログラム
US20070154176A1 (en) Navigating recorded video using captioning, dialogue and sound effects
US20080292289A1 (en) Still picture information recording medium and method and apparatus for reproducing still picture information therefrom
US20080028426A1 (en) Video/Audio Stream Processing Device and Video/Audio Stream Processing Method
US7801420B2 (en) Video image recording and reproducing apparatus and video image recording and reproducing method
US20010008575A1 (en) Method and apparatus for searching image of video recording and reproducing device
EP1335379B1 (en) Recording medium player
US20050232598A1 (en) Method, apparatus, and program for extracting thumbnail picture
KR101396964B1 (ko) 녹화물 재생방법 및 장치
JP2006245744A (ja) 映像信号記録装置、情報記録媒体および映像信号再生装置
US20060263062A1 (en) Method of and apparatus for setting video signal delimiter information using silent portions
KR100818401B1 (ko) 디지털 방송 수신기에서 녹화물 재생 방법
JP2006332765A (ja) コンテンツ検索・再生方法、コンテンツ検索・再生装置、並びにプログラムおよび記録媒体
JP3621579B2 (ja) 画像記録再生装置
US7756390B2 (en) Video signal separation information setting method and apparatus using audio modes
JP4987664B2 (ja) 情報処理装置及び操作支援画面表示方法
KR20070075728A (ko) 디지털 방송 수신기에서 녹화물 탐색 방법 및 그 장치
KR20050073011A (ko) 디지털 방송 수신기 및 디지털 방송 수신기에서 섬네일탐색 방법
JP2004023589A (ja) Cm削除装置
JP2006079712A (ja) 記録媒体、再生装置及び記録装置
JP2006101155A (ja) 画像記録再生装置
JP2006024297A (ja) 言語選択方法、再生装置及び記録媒体

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070425

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070425

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20100225