JP2008262000A - オーディオ信号特徴検出装置及び特徴検出方法 - Google Patents
オーディオ信号特徴検出装置及び特徴検出方法 Download PDFInfo
- Publication number
- JP2008262000A JP2008262000A JP2007104070A JP2007104070A JP2008262000A JP 2008262000 A JP2008262000 A JP 2008262000A JP 2007104070 A JP2007104070 A JP 2007104070A JP 2007104070 A JP2007104070 A JP 2007104070A JP 2008262000 A JP2008262000 A JP 2008262000A
- Authority
- JP
- Japan
- Prior art keywords
- analysis
- detection
- level
- stream
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】音声や楽曲等のオーディオ信号を含むコンテンツに適した特徴検出処理を、低処理負荷で検出する方法及び検出装置を提供する。
【解決手段】この発明のオーディオ信号検出装置は、入力ストリームからそのストリームの分類情報を取得する情報分析部440と、この情報分析部により取得した分類情報から入力ストリームを解析する方法を特定する解析制御部450と、この解析制御部にて特定された解析する方法に基づいて入力ストリームを解析し、検出項目として特定すべき特徴パラメータに変換する特徴パラメータ変換部460と、この特徴パラメータ変換部により特定された特徴パラメータである検出項目が入力ストリームに含まれるか否かを検出する検出処理部470と、この検出処理部により検出された検出項目の検出結果を入力ストリームの再生時に検索可能に保持するインデキシング部480と、を有する。
【選択図】 図2
【解決手段】この発明のオーディオ信号検出装置は、入力ストリームからそのストリームの分類情報を取得する情報分析部440と、この情報分析部により取得した分類情報から入力ストリームを解析する方法を特定する解析制御部450と、この解析制御部にて特定された解析する方法に基づいて入力ストリームを解析し、検出項目として特定すべき特徴パラメータに変換する特徴パラメータ変換部460と、この特徴パラメータ変換部により特定された特徴パラメータである検出項目が入力ストリームに含まれるか否かを検出する検出処理部470と、この検出処理部により検出された検出項目の検出結果を入力ストリームの再生時に検索可能に保持するインデキシング部480と、を有する。
【選択図】 図2
Description
この発明は、主として動画情報とオーディオ信号からなり地表波や放送衛星からの電波として供給される公衆向け放送やケーブルネットワーク等により配信される映像信号及びおよび音声や楽曲等のオーディオ信号を含むコンテンツに適した特徴検出処理を、低処理負荷で検出する方法及び検出装置に関する。
動画情報(映像信号)やオーディオ信号(音声信号)を受信して再生するテレビ受信器や受信した動画およびオーディオを記録して保存できる録画再生装置(ビデオレコーダ)や動画撮像装置(ビデオカメラ)等の普及と発展は、めざましい。また、既にパーソナルコンピュータにおいても、テレビ放送を受信して映像や音声を再生できる機能が標準仕様として用意されている場合も少なくない。
このような、さまざまなコンテンツを容易に取得可能な環境において、例えば音楽番組やコンテンツに含まれる楽曲部分とそれ以外の部分とを分離したい、という音楽検出の要求に関する記載が特許文献1に見られる。
特許文献1には、音楽検出を行う際に、検出処理すべきデータが符号化ストリームの場合は、復号処理の過程で得られる周波数領域のLチャネル信号とRチャネル信号の和成分と差成分に基づいてパワー比を計算し、閾値判定することが提案されている。
特開2006−301134
特許文献1は、音楽検出に特化した方式であり音楽番組のようなコンテンツには適しているが、それ以外のニュース番組やバラエティ番組等では検出処理として意味をなさない。
また、この検出方法をベースにして、例えばCM(コマーシャルメッセージ、商業放送に含まれるコンテンツ本編とは独立した構成)を検出使用とした場合には、2チャネル(ch)分の信号に対して解析処理をする必要はないため、無駄な処理が生じることになってしまう。
また、ニュース番組等の(比較的帯域の狭い)スピーチ信号が主体であることが自明の場合には、必ずしも全帯域の成分について解析処理をする必要はないため、この点においても無駄な処理が生じることになってしまう。
また、音楽検出のみに限定して考察した場合であっても、放送や蓄積メディア等で一般的に利用されているオーディオ符号化方式であるAAC(Advanced Audio Coding)規格を想定した場合、周波数領域信号に対していくつかのオプション処理が存在し、それらに対する扱いが明確ではない。
この発明は、音声や楽曲等のオーディオ信号を含むコンテンツに対して、そのコンテンツの分類情報に応じて適切な検出処理を特定し、特定された検出処理に応じた解析方法を実行することにより、コンテンツに適した特徴検出処理を低処理負荷で行う(検出する)方法及び検出装置を提供することにある。
この発明は、上記問題点に基づきなされたもので、入力ストリームからそのストリームの分類情報を取得する情報分析部と、この情報分析部により取得した分類情報から入力ストリームを解析する方法を特定する解析制御部と、この解析制御部にて特定された解析する方法に基づいて入力ストリームを解析し、検出項目として特定すべき特徴パラメータに変換する特徴パラメータ変換部と、この特徴パラメータ変換部により特定された特徴パラメータである検出項目が入力ストリームに含まれるか否かを検出する検出処理部と、この検出処理部により検出された検出項目の検出結果を入力ストリームの再生時に検索可能に記録する記録部と、を有するオーディオ信号特徴検出装置を提供するものである。
発明の実施の形態によれば、検出処理する符号化データのメタ情報に応じた適切な検出処理を判定し、その検出処理に応じた必要な信号を取得するために、解析レベルや解析信号帯域を制御することにより最低限の処理負荷で高速に検出処理を行うことができる。これにより、比較的低速で安価なプロセッサでも処理が可能になり、低コスト化が図れる。
また、許容される処理負荷が限られている場合には、検出精度に応じて解析レベルを制御することでシステムの処理能力に応じた柔軟な検出処理が実現できる。
以下、この発明の一実施の形態について図面を参照して説明する。
図1は、本発明の実施の形態が適用される映像記録再生装置(ビデオレコーダ)の一例を示す。なお、以下に説明する本発明の実施の形態は、映像記録再生装置にのみ適用されるものではなく、例えばパーソナルコンピュータやビデオカメラ、もしくはビデオプログラムや映像コンテンツ等を再生可能な携帯端末装置においても適用可能である。また、携帯端末装置やパーソナルコンピュータもしくはビデオゲーム端末装置に対して供給可能に取り扱われるプログラムとして販売されることも可能である。
図1に示すビデオレコーダ(映像記録再生装置)1は、例えば放送衛星または通信衛星を介して提供される衛星デジタルTV放送、地表波(空間波)により提供される地上デジタル放送及びアナログTV放送、あるいはケーブルネットワークを介して供給される映像コンテンツ等の受信機能を持つチューナ部(TV tuner)10を有し、チューナ部10からの出力は、映像系アナログ−デジタルコンバータ(Video ADC)14と、オーディオ(音声/音楽)系アナログ−デジタルコンバータ(Audio ADC)16に入力される。外部入力端子(Aux)12からの入力信号もまた、Video ADC14およびAudio ADC16に入力される。
Video ADC14でデジタル化されたビデオストリームおよびAudio ADC16でデジタル化されたオーディオストリームは、MPEGエンコーダ(MPEG Encoder)20に入力される。外部デジタル入力端子18からのデジタルストリーム(MPEG2−TS(TSは、Transport Streamの略)等)は、IEEE1394(あるいはHDMI)等のインタフェース(I/F,interface)19を介して、MPEG Encoder20に入力される。
チューナ部10に供給されたTV放送信号がMPEG2−TS等のデジタル信号である場合は、(チューナ部10からのデジタルストリームは)そのまま、MPEG Encoder20に入力される。MPEG Encoder20は、入力されたMPEG2−TSをそのまま出力する(パススルー(Pass thourgh)する)場合以外は、入力されたストリームをMPEG2−PSにエンコードするか、MPEG4−AVCにエンコードする。本発明は、デジタル符号化されたストリームを記録する場合に、コンテンツの情報に基づいて特徴検出およびインデキシングを行う場合を想定しており、上述のうちの符号化されたストリームあるいはパススルーされたストリームに対して適用する処理となる。
MPEG Encoder20において処理されたストリームデータは、高速メモリ、例えばSDRAM(Synchronous Dynamic Random Access Memory)22等に一旦バッファリングされる。
SDRAM22にバッファリングされ、所定の処理が施されたストリームデータは、その内容に応じて、所定のタイミングで、HDD104、ディスクドライブユニット(Disk Drive Unit)24もしくはメモリスロット26に転送される。
HDD104は、HDD(すなわちハードディスクドライブであり、例えば1TB(1000GB))の容量が与えられているHD(ハードディスク)を含む。
ディスクドライブユニット24は、円盤状の記録媒体であって、HD DVD規格(再生専用で15GB、記録可能で20GB)の光ディスク100やDVD規格(4.5GB)の光ディスク102にデータ(ストリーム)を記録可能で、かつ既に記録されているデータ(ストリーム)を再生可能である。
メモリスロット26には、例えば2GB程度の容量が与えられたカードメモリ106が挿入されて、用いられる。
ディスクドライブユニット24、HDD104もしくはメモリスロット26を介して、光ディスク100または102、HD(HDD104内)またはカードメモリ106から再生されたストリームデータは、SDRAM22を経由して、MPEGデコーダ(MPEG Decoder)30に転送される。
MPEG Decoder30は、転送されてきたストリームに応じ、MPEG2−TS、MPEG2−PSまたはMPEG4−AVCをデコード可能である。
MPEG Decoder30でデコードされたビデオデータ(MPEG2−TSまたはMPEG2−PS)は、映像系デジタル−アナログコンバータ(Video DAC)32により標準画質または高精細画質のアナログビデオ信号に変換され、ビデオ出力(Video Out)端子36に供給される。なお、ビデオ出力端子36と表示装置(モニタ装置/表示部)52を接続することで、表示装置52に映像が表示される。
一方、MPEG Decoder30でデコードされたオーディオデータは、オーディオ(音声/音楽)系デジタル−アナログコンバータ(Audio DAC)34によりアナログオーディオ信号に変換され、オーディオ(音声)出力(Audio Out)端子38に供給される。なお、オーディオ出力端子38とスピーカ(表示装置52に内蔵されている場合や独立している場合がある)を接続することで、音声あるいは音楽が再生される。
なお、MPEG Decoder30に供給されたデータがMPEG2−TSの場合は、IEEE1394(またはHDMI)等のインタフェース37を経由して、そのままデジタル出力(Digital Out)端子39に供給される。
また、図1に示した録画再生装置(HD DVDレコーダ)は、主制御ブロック40により制御される。主制御ブロック40は、ストリームパーサとして機能するもので、図示しないが、MPU(マイクロプロセッサ)もしくはCPU(セントラルプロセッサ)を含み、ファームウエアや種々な制御パラメータを格納するEEPROM42、ワークRAM44、タイマ46等が付属している。なお、主制御ブロック40は、SDRAM22及びMPEG Decoder30との間でストリームを管理し、映像の記録及び映像の再生に用いられることはいうまでもない。
主制御ブロック40にはまた、オーディオ信号特徴検出部410が内挿あるいは接続されている。
オーディオ信号特徴検出部410は、図2を用いて後段に詳細に説明するが、ストリーム分離部420、ストリーム解析部430、メタ情報分析部440、適応解析制御部450、特徴パラメータ変換部460、検出処理部470、及びインデキシング(Indexing)部480等を含む。
符号化ストリームは、ストリーム分離部420において、第1にメタ情報が分離され、図6を用いて後段に詳細に説明する検出項目が判断される。判断された検出項目は、図7を用いて後段に説明するが、符号化ストリームに対する解析レベルと解析帯域とが関連づけられる。これにより、本願発明においては、コンテンツに基づいて最適なストリーム解析方法が設定され、高速に(オーディオ信号の)特徴を検出する機能を実現することができる。
より詳細には、図2に示すストリーム分離部420において、受信したあるいは入力された符号化ストリームが、オーディオ符号化データとそのメタ情報とに分離される。
ストリーム分離部420において分離されたメタ情報は、メタ情報分析部440に入力され、(同)オーディオ符号化データは、ストリーム解析部430に供給される。なお、メタ情報としては、例えば、オーディオデータを含むコンテンツと共に放送される電子番組情報(EPG)等がある。
メタ情報分析部440は、電子番組情報から受信ストリームに対応する番組分類情報を分析し、得られた番組分類情報を適応解析制御部450に出力する。
適応解析制御部450では、得られた番組分類情報からストリーム解析する方法を判定し、判定結果を制御情報としてストリーム解析部430に出力し、検出項目を検出処理部470に出力する。
ストリーム解析部430は、ストリーム分離部420から入力されたオーディオ符号化ストリームを解析し、解析して得られた情報を特徴パラメータ変換部に出力する。この解析の際に、図7を用いて後段に説明するが、適応解析制御部からの制御情報で指示されるどのレベルまでストリームを解析するか、解析する信号帯域はどこまでかに基づいて処理を行う。
特徴パラメータ変換部460では、ストリーム解析部430によるストリーム解析結果として得られる情報(主にスペクトラム)から、検出項目に適した(検出項目として特定(抽出)すべき)特徴パラメータに変換し、検出処理部470に出力する。なお、変換する特徴パラメータとしては、音声あるいは楽曲の各チャネル(Rチャネル(ch)とLチャネル(ch))のパワー情報等がある。
検出処理部470では、ストリーム解析部430におけるストリーム解析結果から得られる特徴パラメータに基づいて、適応解析制御部450にから指示された検出項目が検出されたか否かを判定し検出結果を、インデキシング部480へ出力する。
検出処理部470における検出処理としては、図6を用いて一例を示すが、例えばCM(コマーシャルメッセージ、商業放送に含まれるコンテンツ本編とは独立した構成)検出、音楽検出、歓声検出、及びコーナー音検出、等がある。
CM検出の場合には、CMの前後で挿入される一定レベル以下の無音を特徴パラメータとして得られるパワー情報から判定し、無音の間隔がCMの長さの一般的な規則(15秒あるいは30秒等)に当てはまるか否かを判定して、CMの始まり/終わりを検出する。
音楽検出では、受信するLチャネル(ch)とRチャネル(ch)の2チャネル(ch)の信号が楽音信号の特徴としてのLchとRchとで信号の違いの度合い(L−R等の変動)と継続時間に基づいて判定して、音楽区間の始まり/終わりを検出する。
歓声検出やコーナー音検出では、特徴パラメータとして得られるスペクトルの形状に基づいて、該当区間を検出する。
インデキシング部480では、検出処理部470からの検出結果とそれに対応する時間情報に基づいて、どの時刻に、どのイベント(CMの始まり/終わり、音楽の始まり/終わり等)が発生したかを、詳述しないが、再生時の検索処理等に利用できるインデックス情報として保存する。なお、インデキシング部480では、記録媒体に応じて、その記録媒体に固有のリードインエリアやヘッダー情報記録エリアあるいはTOC(Table of contents)等の所定の記録領域に、(先に保持した)インデキシング情報を記録することはいうまでもない。
図3は、図2により説明した適応解析制御部の構成の一例を説明する概略ブロック図である。
検索方法判定部452は、メタ情報分析部440からの番組分類情報に基づいて、図6に示すが、予め設定された番組分類とそれに適した検出項目が対応付けられたテーブルを引き(テーブルを参照して)、検出項目を判定する。
例えば、音楽番組であれば音楽区間を、スポーツ番組であれば観客が盛り上がる歓声区間を、その他にCM(コマーシャル)区間を検出項目として対応する。
さらに、解析レベル判定部454において、図6に示した上述の検出項目に基づいて、ストリームをどの程度まで解析すべきかが判定される。
また、解析帯域判定部456では、ストリーム解析する帯域を判定する(ストリームを解析すべき帯域が特定される)。これは、検出項目によって、必要とされる帯域が異なるためであり、図7に示すような、予め設定された検出項目とそれに適した解析レベル及び解析帯域が対応付けられたテーブルを引く(参照する)ことにより判定できる。
なお、解析レベルとストリーム解析部430における処理との対応については、図4を用いて以下に説明する。
図4は、ストリーム解析部の内部ブロック図を示している。
ストリーム解析部430は、MPEG−2 AAC(Advanced Audio Coding)規格に基づくもので、シンタックス(Syntax)解析部432と逆量子化部434とジョイントステレオ(JS)部436とTNS(Temporal Noise Shaping)部438を、少なくとも有する。
シンタックス解析部432は、AAC規格に従って、オーディオ符号化ストリームからハフマン復号等により量子化スペクトルやスケールファクタ(スペクトルのスケーリング情報)、及びまたはチャネル間相関情報等の復号パラメータを抽出し、逆量子化部434へ出力する。ここまでの解析が解析レベル1(図7には示されていないが、いずれのストリームに関しても必ず解析される)に相当し、音声あるいは楽曲のチャネル数(Rチャネル(ch)とLチャネル(ch))やサンプリング周波数等の基本的な符号化パラメータが得られる。
逆量子化部434は、シンタックス解析部432において解析された量子化スペクトルをスケールファクタに基づいて逆量子化し、本来のリニアスケールのスペクトラムを求める。ここまでの解析が解析レベル2に相当し、逆量子化スペクトラムが得られる。但し、後段のジョイントステレオ処理をしていないため、帯域によっては、LchとRchの和信号の場合とLchの場合とが混在しているスペクトルである。
ジョイントステレオ部436は、逆量子化されたスペクトラムにMS(Mid/Side)ステレオやIS(インテンシティ)ステレオ処理を行うことによって、本来のLch信号とRch信号とに分かれたスペクトラムを求める。ここまでの解析が解析レベル3に相当し、各チャネルのスペクトラムが得られる。
TNS(Temporal Noise Shaping)部438は、符号化時の時間域信号で見ると、ノイズ成分を信号レベルの高い区間に集中(シェイピング)させて、ノイズを知覚させにくくするオプション処理であり、ストリーム解析処理から見ると、TNS処理前のスペクトラムから本来の(エンコーダから見て時間周波数変換直後の)スペクトラムを復元するための合成フィルタをかける。すなわち、TNS部438は、取得したスペクトラムの概形を補正するものである。
また、デコーダの場合は、得られたスペクトラムについて、周波数時間変換であるIMDCT(Inverse Modified DCT)処理によりPCM信号を求める(ことが要求される)が、ストリーム解析では周波数領域での信号のみを取り扱うので必要ない。このTNS処理後までの解析が解析レベル4に相当し、周波数時間変換直前の精度の高いスペクトラムである。
このストリーム解析は、適応解析制御部か450ら指示される検出項目に基づく上記解析レベルによって、どの処理(解析レベル)まで行うかが制御される。これは、例えば、CM検出の場合には、無音かどうかを判定すればよく、チャネル毎の信号は、不要で解析レベル2のスペクトラムで十分であり、以降の処理は不要となることを意味している。
また、音楽検出の場合は、Lch信号とRch信号の和成分と差成分のパワー比が重要となるため、解析レベル3以上のスペクトラムが必要になる。反面、スピーチ信号(音声)のようなパルス的な信号に適用されやすいTNS処理は、使用頻度が少なく、適用されたとしても適用帯域も限定的であるため、解析レベル4のスペクトラムでなくとも十分である。
一方、歓声検出やコーナー検出の場合は、検出精度にも依存するが、検出されたスペクトラムの形状を含む特性が必要となり、精度の高いスペクトラムである解析レベル4の信号が必要になる。
このように、検出項目に応じた必要最低限の解析レベルまでのスペクトラムのみを算出することで、処理負荷が低減され、処理速度の高速化が図れる。
また、解析帯域についても同様であり、ニュース番組のようなスピーチ信号(音声)が主体の番組であれば、図7に示すように解析帯域も7kHz程度までとれば十分であり、符号化ストリーム本来の24kHz帯域(48kHzサンプリングの場合)まで解析する必要はない。一方、音楽を含む広帯域の信号については、符号化ストリームに含まれる信号帯域の全てを解析することが好ましい。
図5は、上述した一連のオーディオ信号検出方法をソフトウェアとして実現した場合のフローチャートである。
第1にストリーム分離ステップにおいて、受信したあるいは入力された符号化ストリームが、オーディオ符号化データとこのオーディオ符号化データに付随する情報であって、例えばEPG(電子番組情報)等に代表される情報(一般にメタ情報と呼ばれている)とに分離される(S1)。
ステップS1において分離されたメタ情報からは、メタ情報分析ステップにおいて、例えば電子番組情報(EPG)等が抽出される(S2)。
メタ情報分析ステップ(S2)において、EPG(電子番組情報)等が抽出された場合にはEPGから読み取ることのできる番組の属性、例えばニュース、映画、音楽等のメタ情報から、図6に示されるような番組分類情報と検出項目が対応づけられたテーブルに基づいて検出項目が特定(判定)される(S3)。なお、メタ情報がない場合(取得できない場合も含む)には必要な属性情報がどのコンテンツでも共通の検出項目であるCM検出を設定する。
検出項目が特定されると、解析レベル判定ステップにおいて、図7に示されるような検出項目とどの程度まで詳細に解析すべきかの指標となる解析レベルが対応づけられたテーブルに基づいて、ストリーム解析時の解析レベルが特定(判定)される(S4)。
また、解析レベル判定と同様に、解析帯域判定ステップにおいて、図7に示されるようなテーブルに基づいて、検出項目から解析すべき帯域が特定(判定)される(S5)。
続いて、これらの判定結果に基づいて符号化ストリームの解析処理が行われる。
まず、AAC規格に従って、オーディオ符号化ストリームからハフマン復号等により量子化スペクトルやスケールファクタ(スペクトルのスケーリング情報)、及びまたはチャネル間相関情報等の復号パラメータが抽出され(S6)、解析レベルを「レベル1」で終了してよいか否かが判断される(S7)。
ステップS7において、解析レベルが「レベル1」と判定されている場合(S7−YES)、ストリーム解析結果として得られる情報から、検出項目に適した(検出項目として特定(抽出)すべき)特徴パラメータに変換する特徴パラメータ変換が実行され(S13)、ストリーム解析結果から得られた特徴パラメータに基づいて、検出処理が実行され(S14)、検出項目が検出されたか否かを示す検出結果がインデキシング(Indexing)される(S15)。
ステップS7において、解析レベルが「レベル1」ではない(「レベル2」以上)と判断されている場合(S7−NO)、ストリームを解析する方法として更に『逆量子化』が行われ、量子化スペクトルがスケールファクタに基づいて逆量子化され、本来のリニアスケールのスペクトラムが求められる(S8)。この後、解析レベルを「レベル2」で終了してよいか否かが判断される(S9)。
ステップS9において、解析レベルが「レベル2」と判断されている場合(S9−YES)、引き続いて、先に説明したステップS13〜S15が実行される。
ステップS9において、解析レベルが「レベル2」ではない(「レベル3」以上)と判断されている場合(S9−NO)、ストリームを解析する方法として更に『ジョイントステレオ』が行われ、逆量子化されたスペクトラムに、MS(Mid/Side)ステレオ処理やIS(インテンシティ)ステレオ処理が施されて、本来のLch信号とRch信号とに分かれたスペクトラムが求められる(S10)。以下、解析レベルを「レベル3」で終了してよいか否かが判断される(S11)。
ステップS11において、解析レベルが「レベル3」と判断されている場合(S11−YES)、先に説明したステップS13〜S15が実行される。
ステップS11において、解析レベルが「レベル3」ではない(「レベル4」)と判断されている場合(S11−NO)、ストリームを解析する方法として『TNS(Temporal Noise Shaping)』が行われ、スペクトラムの形状(概形)を含む特性が解析される(S12)。
以下、先に説明したステップS13〜S15が実行される。
このように、ストリーム解析の際に、検出方法を判定し、解析レベルを判定し、解析する信号帯域を特定することにより、検出処理における負荷を低減可能である。すなわち、解析レベル判定ステップにより判定された解析レベル判定結果に応じて、各ストリーム解析処理をスキップする(解析を終了してよい解析レベルに到達した時点で、ストリーム解析処理を終了する)ことで、符号化ストリームに適した解析処理のみを実現できる。
また、解析帯域判定ステップでの解析帯域判定結果に応じて、各ストリーム解析処理での解析帯域を制限することで、処理負荷が軽減される。
換言すると、上述したステップS1〜S15は、
符号化ストリームを、オーディオ符号化データとこのオーディオ符号化データに付随する情報であって、EPG(電子番組情報)に代表される情報(一般にメタ情報と称される)に分離するストリーム分離ステップと、
分離されたメタ情報(オーディオ符号化データに付随する情報)からストリームに含まれるコンテンツの特定の情報、例えば「ニュース番組」、「音楽番組」、「バラエティ番組」等の番組分類情報であって、『属性』と称されることもある情報を抽出する情報分析ステップと、
抽出された上記コンテンツの特定の情報(属性)に基づいて、
情報分析ステップにより抽出されたコンテンツの特定の情報(属性)を参照して、第1のレベルの解析において検出項目、例えば「CM」、「音楽」、「歓声」等の検索キーとなる項目が検出可能か、
第1のレベルに続く第2のレベルの解析において上記検出項目が検出可能か、
第2のレベルに続く第3のレベルの解析において上記検出項目が検出可能か、
第3のレベルに続く第4のレベルの解析による上記検出項目の検出が必要か、
を、例えばテーブルを参照して(テーブルを引いて)判定する解析レベル判定ステップと、
判定結果に基づいてオーディオ信号を解析し、得られるオーディオ信号の特徴すなわちオーディオストリーム解析により得られる「チャネル構成」や「L,Rチャネルのパワー値」や「スペクトル概形」等に代表される特徴パラメータから検出項目を検出する特徴検出ステップと、
検出された検出項目を、入力ストリームの再生時に検索可能にインデキシングするステップと、
を少なくとも含む。
符号化ストリームを、オーディオ符号化データとこのオーディオ符号化データに付随する情報であって、EPG(電子番組情報)に代表される情報(一般にメタ情報と称される)に分離するストリーム分離ステップと、
分離されたメタ情報(オーディオ符号化データに付随する情報)からストリームに含まれるコンテンツの特定の情報、例えば「ニュース番組」、「音楽番組」、「バラエティ番組」等の番組分類情報であって、『属性』と称されることもある情報を抽出する情報分析ステップと、
抽出された上記コンテンツの特定の情報(属性)に基づいて、
情報分析ステップにより抽出されたコンテンツの特定の情報(属性)を参照して、第1のレベルの解析において検出項目、例えば「CM」、「音楽」、「歓声」等の検索キーとなる項目が検出可能か、
第1のレベルに続く第2のレベルの解析において上記検出項目が検出可能か、
第2のレベルに続く第3のレベルの解析において上記検出項目が検出可能か、
第3のレベルに続く第4のレベルの解析による上記検出項目の検出が必要か、
を、例えばテーブルを参照して(テーブルを引いて)判定する解析レベル判定ステップと、
判定結果に基づいてオーディオ信号を解析し、得られるオーディオ信号の特徴すなわちオーディオストリーム解析により得られる「チャネル構成」や「L,Rチャネルのパワー値」や「スペクトル概形」等に代表される特徴パラメータから検出項目を検出する特徴検出ステップと、
検出された検出項目を、入力ストリームの再生時に検索可能にインデキシングするステップと、
を少なくとも含む。
なお、図5を用いて説明した一連の処理は、主制御ブロック(ストリームパーサ)40の図示しないMPUまたはCPUのファームウエアであってもよいし、EEPROM42に予め書き込まれたプログラムとして提供されてもよい。
以上説明したように上記発明の実施の形態によれば、検出処理する符号化データのメタ情報に応じた適切な検出処理を判定し、その検出処理に応じた必要な信号を取得するために、解析レベルや解析信号帯域を制御することにより最適な処理負荷で高速に検出処理を行うことができる。この際、比較的低速で安価なプロセッサでも処理が可能になり、低コスト化できる。
また、許容される処理負荷が限られている場合には、検出精度に応じて解析レベルを制御することで処理負荷に応じた柔軟な検出処理が実現できる。
なお、本発明の内容はここに記述した形態だけに限定されるものではなく、その主旨を逸脱しない範囲で、他にも様々な形態を取り得ることはいうまでもない。また、本発明では、映像記録再生装置(ビデオディスクレコーダ)を例に説明したが、ビデオレコーダが組み込まれたテレビジョン装置やパーソナルコンピュータ(PC)等、あるいはユニット化され、外部から付加可能なオーディオ(コンテンツ)再生装置等も含まれることはいうまでもない。なお、各実施の形態は、可能な限り適宜組み合わせて、もしくは一部を削除して実施されてもよく、その場合は、組み合わせもしくは削除に起因したさまざまな効果が得られる。
1…ビデオレコーダ(映像記録再生装置)、10…チューナ部、20…エンコーダ、24…ディスクドライブユニット、26…メモリスロット、30…デコーダ、40…主制御ブロック(ストリームパーサ)、50…オンスクリーン表示(OSD)制御部、52…表示装置、100,102…記録媒体(DVD規格の光ディスク)、104…HDD(ハードディスクドライブ)、106…記録媒体(カードメモリ)、410…オーディオ信号特徴検出部、420…デコーダ部、430…ストリーム解析部、432…シンタックス(Syntax)解析部、434…逆量子化部、436…ジョイントステレオ(識別)部、438…TNS()部、440…メタ情報分析部、450…適応解析制御部、452…部、454…部、456…部、460…特徴パラメータ変換部、470…検出処理部、480…インデキシング(Indexing)部。
Claims (13)
- 入力ストリームからそのストリームの分類情報を取得する情報分析部と、
この情報分析部により取得した分類情報から入力ストリームを解析する方法を特定する解析制御部と、
この解析制御部にて特定された解析する方法に基づいて入力ストリームを解析し、検出項目として特定すべき特徴パラメータに変換する特徴パラメータ変換部と、
この特徴パラメータ変換部により特定された特徴パラメータである検出項目が入力ストリームに含まれるか否かを検出する検出処理部と、
この検出処理部により検出された検出項目の検出結果を入力ストリームの再生時に検索可能に記録する記録部と、
を有するオーディオ信号特徴検出装置。 - 前記解析制御部は、符号化データの解析レベルを変更することにより最適な処理負荷を設定できることを特徴とする請求項1記載のオーディオ信号特徴検出装置。
- 前記解析制御部は、符号化データの解析信号帯域を変更することにより最適な処理負荷を設定できることを特徴とする請求項1記載のオーディオ信号特徴検出装置。
- 前記解析制御部は、符号化データの符号化データの解析レベル及び解析信号帯域を変更することにより最適な処理負荷を設定できることを特徴とする請求項1記載のオーディオ信号特徴検出装置。
- 入力ストリームからそのストリームの分類情報を取得し、
取得した分類情報から入力ストリームを解析する方法を特定し、
特定された解析する方法に基づいて入力ストリームを解析し、検出項目として特定すべき特徴パラメータに変換し、
特定された特徴パラメータである検出項目が入力ストリームに含まれることを検出し、
検出された検出項目を入力ストリームの再生時に検索可能に保持する
ことを特徴とするオーディオ信号特徴検出方法。 - 前記解析する方法の特定は、符号化データの解析レベルを変更することにより最適な処理負荷を設定できることを特徴とする請求項5記載のオーディオ信号特徴検出方法。
- 前記解析する方法の特定は、符号化データの解析信号帯域を変更することにより最適な処理負荷を設定できることを特徴とする請求項5記載のオーディオ信号特徴検出方法。
- 前記解析する方法の特定は、符号化データの解析レベル及び解析信号帯域を変更することにより最適な処理負荷を設定できることを特徴とする請求項5記載のオーディオ信号特徴検出方法。
- 符号化ストリームを、オーディオ符号化データとこのオーディオ符号化データに付随する情報とに分離するストリーム分離ステップと、
分離された上記オーディオ符号化データに付随する情報からストリームに含まれるコンテンツの特定の情報を抽出する情報分析ステップと、
抽出された上記コンテンツの特定の情報に基づいて、
情報分析ステップにより抽出されたコンテンツの特定の情報を参照して、第1のレベルの解析において検出項目が検出可能か、
第1のレベルに続く第2のレベルの解析において検出項目が検出可能か、
第2のレベルに続く第3のレベルの解析において検出項目が検出可能か、
第3のレベルに続く第4のレベルの解析による検出項目の検出が必要か、
を判定する解析レベル判定ステップと、
解析レベル判定ステップによる判定結果に基づいてオーディオ信号を解析し、得られるオーディオ信号の特徴パラメータを検出する特徴検出ステップと、
検出された検出項目を、入力ストリームの再生時に検索可能にインデキシングするステップと、
を少なくとも含むオーディオ信号特徴検出プログラム。 - 特徴検出ステップにおける第1のレベルは、ストリームを符号化する際に適用された符号化パラメータを得るステップを少なくとも含む請求項9記載のオーディオ信号特徴検出プログラム。
- 特徴検出ステップにおける第2のレベルの解析は、量子化スペクトルをスケールファクタに基づいて逆量子化し、リニアスケールのスペクトラムを得るステップを少なくとも含む請求項9記載のオーディオ信号特徴検出プログラム。
- 特徴検出ステップにおける第3のレベルの解析は、チャネル間相関情報を得るステップを少なくとも含む請求項9記載のオーディオ信号特徴検出プログラム。
- 特徴検出ステップにおける第4のレベルの解析は、検出されたスペクトラムの形状を含む特性を得るステップを少なくとも含む請求項9記載のオーディオ信号特徴検出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007104070A JP2008262000A (ja) | 2007-04-11 | 2007-04-11 | オーディオ信号特徴検出装置及び特徴検出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007104070A JP2008262000A (ja) | 2007-04-11 | 2007-04-11 | オーディオ信号特徴検出装置及び特徴検出方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008262000A true JP2008262000A (ja) | 2008-10-30 |
Family
ID=39984524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007104070A Pending JP2008262000A (ja) | 2007-04-11 | 2007-04-11 | オーディオ信号特徴検出装置及び特徴検出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008262000A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010164762A (ja) * | 2009-01-15 | 2010-07-29 | Kddi Corp | 特徴量抽出装置、特徴量抽出方法、およびプログラム |
JP2011015067A (ja) * | 2009-06-30 | 2011-01-20 | Toshiba Corp | 音質補正装置、音質補正方法及び音質補正用プログラム |
-
2007
- 2007-04-11 JP JP2007104070A patent/JP2008262000A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010164762A (ja) * | 2009-01-15 | 2010-07-29 | Kddi Corp | 特徴量抽出装置、特徴量抽出方法、およびプログラム |
US8301284B2 (en) | 2009-01-15 | 2012-10-30 | Kddi Corporation | Feature extraction apparatus, feature extraction method, and program thereof |
JP2011015067A (ja) * | 2009-06-30 | 2011-01-20 | Toshiba Corp | 音質補正装置、音質補正方法及び音質補正用プログラム |
JP4621792B2 (ja) * | 2009-06-30 | 2011-01-26 | 株式会社東芝 | 音質補正装置、音質補正方法及び音質補正用プログラム |
US7957966B2 (en) | 2009-06-30 | 2011-06-07 | Kabushiki Kaisha Toshiba | Apparatus, method, and program for sound quality correction based on identification of a speech signal and a music signal from an input audio signal |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4321518B2 (ja) | 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置 | |
JP4442585B2 (ja) | 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置 | |
JP2006301134A (ja) | 音楽検出装置、音楽検出方法及び録音再生装置 | |
US8190441B2 (en) | Playback of compressed media files without quantization gaps | |
US20060285818A1 (en) | Information processing apparatus, method, and program | |
US20060222318A1 (en) | Information processing apparatus and its method | |
JP2007094234A (ja) | データ記録再生装置、データ記録再生方法及びそのプログラム | |
JP3840928B2 (ja) | 信号処理装置および方法、記録媒体、並びにプログラム | |
JP4712812B2 (ja) | 記録再生装置 | |
JP2006303869A (ja) | 特定条件区間検出装置および特定条件区間検出方法 | |
JP4743228B2 (ja) | デジタル音声信号解析方法、その装置、及び映像音声記録装置 | |
JP2008262000A (ja) | オーディオ信号特徴検出装置及び特徴検出方法 | |
JP2008154132A (ja) | 音声映像ストリーム圧縮装置及び音声映像記録装置 | |
US20150104158A1 (en) | Digital signal reproduction device | |
JP2004334160A (ja) | 特徴量抽出装置 | |
US20100046908A1 (en) | Video editing system | |
JP2002330390A (ja) | 録画装置 | |
JP2006270233A (ja) | 信号処理方法及び信号記録再生装置 | |
JP2009157278A (ja) | オーディオ信号特徴検出装置及び特徴検出方法 | |
JP4799484B2 (ja) | コマーシャル判別装置、方法及びプログラム並びにデジタル放送記録装置、方法及びプログラム | |
JP4791422B2 (ja) | コマーシャル判別装置、方法及びプログラム | |
KR100785988B1 (ko) | 피브이알 시스템의 방송 녹화 장치 및 그 방법 | |
KR20050054937A (ko) | 시청각 데이터 스트림을 메모리에 저장하는 방법 | |
JPH10285046A (ja) | 情報信号処理装置、情報信号記録装置及び情報信号再生装置 | |
JP4312167B2 (ja) | コンテンツ再生装置 |