JP2008262000A

JP2008262000A - オーディオ信号特徴検出装置及び特徴検出方法

Info

Publication number: JP2008262000A
Application number: JP2007104070A
Authority: JP
Inventors: Hirokazu Takeuchi; 広和竹内
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-04-11
Filing date: 2007-04-11
Publication date: 2008-10-30

Abstract

【課題】音声や楽曲等のオーディオ信号を含むコンテンツに適した特徴検出処理を、低処理負荷で検出する方法及び検出装置を提供する。
【解決手段】この発明のオーディオ信号検出装置は、入力ストリームからそのストリームの分類情報を取得する情報分析部４４０と、この情報分析部により取得した分類情報から入力ストリームを解析する方法を特定する解析制御部４５０と、この解析制御部にて特定された解析する方法に基づいて入力ストリームを解析し、検出項目として特定すべき特徴パラメータに変換する特徴パラメータ変換部４６０と、この特徴パラメータ変換部により特定された特徴パラメータである検出項目が入力ストリームに含まれるか否かを検出する検出処理部４７０と、この検出処理部により検出された検出項目の検出結果を入力ストリームの再生時に検索可能に保持するインデキシング部４８０と、を有する。
【選択図】図２

Description

この発明は、主として動画情報とオーディオ信号からなり地表波や放送衛星からの電波として供給される公衆向け放送やケーブルネットワーク等により配信される映像信号及びおよび音声や楽曲等のオーディオ信号を含むコンテンツに適した特徴検出処理を、低処理負荷で検出する方法及び検出装置に関する。

動画情報（映像信号）やオーディオ信号（音声信号）を受信して再生するテレビ受信器や受信した動画およびオーディオを記録して保存できる録画再生装置（ビデオレコーダ）や動画撮像装置（ビデオカメラ）等の普及と発展は、めざましい。また、既にパーソナルコンピュータにおいても、テレビ放送を受信して映像や音声を再生できる機能が標準仕様として用意されている場合も少なくない。

このような、さまざまなコンテンツを容易に取得可能な環境において、例えば音楽番組やコンテンツに含まれる楽曲部分とそれ以外の部分とを分離したい、という音楽検出の要求に関する記載が特許文献１に見られる。

特許文献１には、音楽検出を行う際に、検出処理すべきデータが符号化ストリームの場合は、復号処理の過程で得られる周波数領域のＬチャネル信号とＲチャネル信号の和成分と差成分に基づいてパワー比を計算し、閾値判定することが提案されている。
特開２００６−３０１１３４

特許文献１は、音楽検出に特化した方式であり音楽番組のようなコンテンツには適しているが、それ以外のニュース番組やバラエティ番組等では検出処理として意味をなさない。

また、この検出方法をベースにして、例えばＣＭ（コマーシャルメッセージ、商業放送に含まれるコンテンツ本編とは独立した構成）を検出使用とした場合には、２チャネル（ｃｈ）分の信号に対して解析処理をする必要はないため、無駄な処理が生じることになってしまう。

また、ニュース番組等の（比較的帯域の狭い）スピーチ信号が主体であることが自明の場合には、必ずしも全帯域の成分について解析処理をする必要はないため、この点においても無駄な処理が生じることになってしまう。

また、音楽検出のみに限定して考察した場合であっても、放送や蓄積メディア等で一般的に利用されているオーディオ符号化方式であるＡＡＣ（Advanced Audio Coding）規格を想定した場合、周波数領域信号に対していくつかのオプション処理が存在し、それらに対する扱いが明確ではない。

この発明は、音声や楽曲等のオーディオ信号を含むコンテンツに対して、そのコンテンツの分類情報に応じて適切な検出処理を特定し、特定された検出処理に応じた解析方法を実行することにより、コンテンツに適した特徴検出処理を低処理負荷で行う（検出する）方法及び検出装置を提供することにある。

この発明は、上記問題点に基づきなされたもので、入力ストリームからそのストリームの分類情報を取得する情報分析部と、この情報分析部により取得した分類情報から入力ストリームを解析する方法を特定する解析制御部と、この解析制御部にて特定された解析する方法に基づいて入力ストリームを解析し、検出項目として特定すべき特徴パラメータに変換する特徴パラメータ変換部と、この特徴パラメータ変換部により特定された特徴パラメータである検出項目が入力ストリームに含まれるか否かを検出する検出処理部と、この検出処理部により検出された検出項目の検出結果を入力ストリームの再生時に検索可能に記録する記録部と、を有するオーディオ信号特徴検出装置を提供するものである。

発明の実施の形態によれば、検出処理する符号化データのメタ情報に応じた適切な検出処理を判定し、その検出処理に応じた必要な信号を取得するために、解析レベルや解析信号帯域を制御することにより最低限の処理負荷で高速に検出処理を行うことができる。これにより、比較的低速で安価なプロセッサでも処理が可能になり、低コスト化が図れる。

また、許容される処理負荷が限られている場合には、検出精度に応じて解析レベルを制御することでシステムの処理能力に応じた柔軟な検出処理が実現できる。

以下、この発明の一実施の形態について図面を参照して説明する。

図１は、本発明の実施の形態が適用される映像記録再生装置（ビデオレコーダ）の一例を示す。なお、以下に説明する本発明の実施の形態は、映像記録再生装置にのみ適用されるものではなく、例えばパーソナルコンピュータやビデオカメラ、もしくはビデオプログラムや映像コンテンツ等を再生可能な携帯端末装置においても適用可能である。また、携帯端末装置やパーソナルコンピュータもしくはビデオゲーム端末装置に対して供給可能に取り扱われるプログラムとして販売されることも可能である。

図１に示すビデオレコーダ（映像記録再生装置）１は、例えば放送衛星または通信衛星を介して提供される衛星デジタルＴＶ放送、地表波（空間波）により提供される地上デジタル放送及びアナログＴＶ放送、あるいはケーブルネットワークを介して供給される映像コンテンツ等の受信機能を持つチューナ部（TV tuner）１０を有し、チューナ部１０からの出力は、映像系アナログ−デジタルコンバータ（Video ADC）１４と、オーディオ（音声／音楽）系アナログ−デジタルコンバータ（Audio ADC）１６に入力される。外部入力端子（Aux）１２からの入力信号もまた、Video ADC１４およびAudio ADC１６に入力される。

Video ADC１４でデジタル化されたビデオストリームおよびAudio ADC１６でデジタル化されたオーディオストリームは、ＭＰＥＧエンコーダ（MPEG Encoder）２０に入力される。外部デジタル入力端子１８からのデジタルストリーム（ＭＰＥＧ２−ＴＳ（ＴＳは、Transport Streamの略）等）は、ＩＥＥＥ１３９４（あるいはＨＤＭＩ）等のインタフェース（Ｉ／Ｆ，interface）１９を介して、MPEG Encoder２０に入力される。

チューナ部１０に供給されたＴＶ放送信号がＭＰＥＧ２−ＴＳ等のデジタル信号である場合は、（チューナ部１０からのデジタルストリームは）そのまま、MPEG Encoder２０に入力される。MPEG Encoder２０は、入力されたＭＰＥＧ２−ＴＳをそのまま出力する（パススルー（Pass thourgh）する）場合以外は、入力されたストリームをＭＰＥＧ２−ＰＳにエンコードするか、ＭＰＥＧ４−ＡＶＣにエンコードする。本発明は、デジタル符号化されたストリームを記録する場合に、コンテンツの情報に基づいて特徴検出およびインデキシングを行う場合を想定しており、上述のうちの符号化されたストリームあるいはパススルーされたストリームに対して適用する処理となる。

MPEG Encoder２０において処理されたストリームデータは、高速メモリ、例えばＳＤＲＡＭ（Synchronous Dynamic Random Access Memory）２２等に一旦バッファリングされる。

ＳＤＲＡＭ２２にバッファリングされ、所定の処理が施されたストリームデータは、その内容に応じて、所定のタイミングで、ＨＤＤ１０４、ディスクドライブユニット（Disk Drive Unit）２４もしくはメモリスロット２６に転送される。

ＨＤＤ１０４は、ＨＤＤ（すなわちハードディスクドライブであり、例えば１ＴＢ（１０００ＧＢ））の容量が与えられているＨＤ（ハードディスク）を含む。

ディスクドライブユニット２４は、円盤状の記録媒体であって、ＨＤＤＶＤ規格（再生専用で１５ＧＢ、記録可能で２０ＧＢ）の光ディスク１００やＤＶＤ規格（４．５ＧＢ）の光ディスク１０２にデータ（ストリーム）を記録可能で、かつ既に記録されているデータ（ストリーム）を再生可能である。

メモリスロット２６には、例えば２ＧＢ程度の容量が与えられたカードメモリ１０６が挿入されて、用いられる。

ディスクドライブユニット２４、ＨＤＤ１０４もしくはメモリスロット２６を介して、光ディスク１００または１０２、ＨＤ（ＨＤＤ１０４内）またはカードメモリ１０６から再生されたストリームデータは、ＳＤＲＡＭ２２を経由して、ＭＰＥＧデコーダ（MPEG Decoder）３０に転送される。

MPEG Decoder３０は、転送されてきたストリームに応じ、ＭＰＥＧ２−ＴＳ、ＭＰＥＧ２−ＰＳまたはＭＰＥＧ４−ＡＶＣをデコード可能である。

MPEG Decoder３０でデコードされたビデオデータ（ＭＰＥＧ２−ＴＳまたはＭＰＥＧ２−ＰＳ）は、映像系デジタル−アナログコンバータ（Video DAC）３２により標準画質または高精細画質のアナログビデオ信号に変換され、ビデオ出力（Video Out）端子３６に供給される。なお、ビデオ出力端子３６と表示装置（モニタ装置／表示部）５２を接続することで、表示装置５２に映像が表示される。

一方、MPEG Decoder３０でデコードされたオーディオデータは、オーディオ（音声／音楽）系デジタル−アナログコンバータ（Audio DAC）３４によりアナログオーディオ信号に変換され、オーディオ（音声）出力（Audio Out）端子３８に供給される。なお、オーディオ出力端子３８とスピーカ（表示装置５２に内蔵されている場合や独立している場合がある）を接続することで、音声あるいは音楽が再生される。

なお、MPEG Decoder３０に供給されたデータがＭＰＥＧ２−ＴＳの場合は、ＩＥＥＥ１３９４（またはＨＤＭＩ）等のインタフェース３７を経由して、そのままデジタル出力（Digital Out）端子３９に供給される。

また、図１に示した録画再生装置（ＨＤＤＶＤレコーダ）は、主制御ブロック４０により制御される。主制御ブロック４０は、ストリームパーサとして機能するもので、図示しないが、ＭＰＵ（マイクロプロセッサ）もしくはＣＰＵ（セントラルプロセッサ）を含み、ファームウエアや種々な制御パラメータを格納するＥＥＰＲＯＭ４２、ワークＲＡＭ４４、タイマ４６等が付属している。なお、主制御ブロック４０は、ＳＤＲＡＭ２２及びMPEG Decoder３０との間でストリームを管理し、映像の記録及び映像の再生に用いられることはいうまでもない。

主制御ブロック４０にはまた、オーディオ信号特徴検出部４１０が内挿あるいは接続されている。

オーディオ信号特徴検出部４１０は、図２を用いて後段に詳細に説明するが、ストリーム分離部４２０、ストリーム解析部４３０、メタ情報分析部４４０、適応解析制御部４５０、特徴パラメータ変換部４６０、検出処理部４７０、及びインデキシング（Indexing）部４８０等を含む。

符号化ストリームは、ストリーム分離部４２０において、第１にメタ情報が分離され、図６を用いて後段に詳細に説明する検出項目が判断される。判断された検出項目は、図７を用いて後段に説明するが、符号化ストリームに対する解析レベルと解析帯域とが関連づけられる。これにより、本願発明においては、コンテンツに基づいて最適なストリーム解析方法が設定され、高速に（オーディオ信号の）特徴を検出する機能を実現することができる。

より詳細には、図２に示すストリーム分離部４２０において、受信したあるいは入力された符号化ストリームが、オーディオ符号化データとそのメタ情報とに分離される。

ストリーム分離部４２０において分離されたメタ情報は、メタ情報分析部４４０に入力され、（同）オーディオ符号化データは、ストリーム解析部４３０に供給される。なお、メタ情報としては、例えば、オーディオデータを含むコンテンツと共に放送される電子番組情報（ＥＰＧ）等がある。

メタ情報分析部４４０は、電子番組情報から受信ストリームに対応する番組分類情報を分析し、得られた番組分類情報を適応解析制御部４５０に出力する。

適応解析制御部４５０では、得られた番組分類情報からストリーム解析する方法を判定し、判定結果を制御情報としてストリーム解析部４３０に出力し、検出項目を検出処理部４７０に出力する。

ストリーム解析部４３０は、ストリーム分離部４２０から入力されたオーディオ符号化ストリームを解析し、解析して得られた情報を特徴パラメータ変換部に出力する。この解析の際に、図７を用いて後段に説明するが、適応解析制御部からの制御情報で指示されるどのレベルまでストリームを解析するか、解析する信号帯域はどこまでかに基づいて処理を行う。

特徴パラメータ変換部４６０では、ストリーム解析部４３０によるストリーム解析結果として得られる情報（主にスペクトラム）から、検出項目に適した（検出項目として特定（抽出）すべき）特徴パラメータに変換し、検出処理部４７０に出力する。なお、変換する特徴パラメータとしては、音声あるいは楽曲の各チャネル（Ｒチャネル（ｃｈ）とＬチャネル（ｃｈ））のパワー情報等がある。

検出処理部４７０では、ストリーム解析部４３０におけるストリーム解析結果から得られる特徴パラメータに基づいて、適応解析制御部４５０にから指示された検出項目が検出されたか否かを判定し検出結果を、インデキシング部４８０へ出力する。

検出処理部４７０における検出処理としては、図６を用いて一例を示すが、例えばＣＭ（コマーシャルメッセージ、商業放送に含まれるコンテンツ本編とは独立した構成）検出、音楽検出、歓声検出、及びコーナー音検出、等がある。

ＣＭ検出の場合には、ＣＭの前後で挿入される一定レベル以下の無音を特徴パラメータとして得られるパワー情報から判定し、無音の間隔がＣＭの長さの一般的な規則（１５秒あるいは３０秒等）に当てはまるか否かを判定して、ＣＭの始まり／終わりを検出する。

音楽検出では、受信するＬチャネル（ｃｈ）とＲチャネル（ｃｈ）の２チャネル（ｃｈ）の信号が楽音信号の特徴としてのＬｃｈとＲｃｈとで信号の違いの度合い（Ｌ−Ｒ等の変動）と継続時間に基づいて判定して、音楽区間の始まり／終わりを検出する。

歓声検出やコーナー音検出では、特徴パラメータとして得られるスペクトルの形状に基づいて、該当区間を検出する。

インデキシング部４８０では、検出処理部４７０からの検出結果とそれに対応する時間情報に基づいて、どの時刻に、どのイベント（ＣＭの始まり／終わり、音楽の始まり／終わり等）が発生したかを、詳述しないが、再生時の検索処理等に利用できるインデックス情報として保存する。なお、インデキシング部４８０では、記録媒体に応じて、その記録媒体に固有のリードインエリアやヘッダー情報記録エリアあるいはＴＯＣ（Table of contents）等の所定の記録領域に、（先に保持した）インデキシング情報を記録することはいうまでもない。

図３は、図２により説明した適応解析制御部の構成の一例を説明する概略ブロック図である。

検索方法判定部４５２は、メタ情報分析部４４０からの番組分類情報に基づいて、図６に示すが、予め設定された番組分類とそれに適した検出項目が対応付けられたテーブルを引き（テーブルを参照して）、検出項目を判定する。

例えば、音楽番組であれば音楽区間を、スポーツ番組であれば観客が盛り上がる歓声区間を、その他にＣＭ（コマーシャル）区間を検出項目として対応する。

さらに、解析レベル判定部４５４において、図６に示した上述の検出項目に基づいて、ストリームをどの程度まで解析すべきかが判定される。

また、解析帯域判定部４５６では、ストリーム解析する帯域を判定する（ストリームを解析すべき帯域が特定される）。これは、検出項目によって、必要とされる帯域が異なるためであり、図７に示すような、予め設定された検出項目とそれに適した解析レベル及び解析帯域が対応付けられたテーブルを引く（参照する）ことにより判定できる。

なお、解析レベルとストリーム解析部４３０における処理との対応については、図４を用いて以下に説明する。

図４は、ストリーム解析部の内部ブロック図を示している。

ストリーム解析部４３０は、ＭＰＥＧ−２ＡＡＣ（Advanced Audio Coding）規格に基づくもので、シンタックス（Syntax）解析部４３２と逆量子化部４３４とジョイントステレオ（ＪＳ）部４３６とＴＮＳ（Temporal Noise Shaping）部４３８を、少なくとも有する。

シンタックス解析部４３２は、ＡＡＣ規格に従って、オーディオ符号化ストリームからハフマン復号等により量子化スペクトルやスケールファクタ（スペクトルのスケーリング情報）、及びまたはチャネル間相関情報等の復号パラメータを抽出し、逆量子化部４３４へ出力する。ここまでの解析が解析レベル１（図７には示されていないが、いずれのストリームに関しても必ず解析される）に相当し、音声あるいは楽曲のチャネル数（Ｒチャネル（ｃｈ）とＬチャネル（ｃｈ））やサンプリング周波数等の基本的な符号化パラメータが得られる。

逆量子化部４３４は、シンタックス解析部４３２において解析された量子化スペクトルをスケールファクタに基づいて逆量子化し、本来のリニアスケールのスペクトラムを求める。ここまでの解析が解析レベル２に相当し、逆量子化スペクトラムが得られる。但し、後段のジョイントステレオ処理をしていないため、帯域によっては、ＬｃｈとＲｃｈの和信号の場合とＬｃｈの場合とが混在しているスペクトルである。

ジョイントステレオ部４３６は、逆量子化されたスペクトラムにＭＳ（Mid/Side）ステレオやＩＳ（インテンシティ）ステレオ処理を行うことによって、本来のＬｃｈ信号とＲｃｈ信号とに分かれたスペクトラムを求める。ここまでの解析が解析レベル３に相当し、各チャネルのスペクトラムが得られる。

ＴＮＳ（Temporal Noise Shaping）部４３８は、符号化時の時間域信号で見ると、ノイズ成分を信号レベルの高い区間に集中（シェイピング）させて、ノイズを知覚させにくくするオプション処理であり、ストリーム解析処理から見ると、ＴＮＳ処理前のスペクトラムから本来の（エンコーダから見て時間周波数変換直後の）スペクトラムを復元するための合成フィルタをかける。すなわち、ＴＮＳ部４３８は、取得したスペクトラムの概形を補正するものである。

また、デコーダの場合は、得られたスペクトラムについて、周波数時間変換であるＩＭＤＣＴ（Inverse Modified ＤＣＴ）処理によりＰＣＭ信号を求める（ことが要求される）が、ストリーム解析では周波数領域での信号のみを取り扱うので必要ない。このＴＮＳ処理後までの解析が解析レベル４に相当し、周波数時間変換直前の精度の高いスペクトラムである。

このストリーム解析は、適応解析制御部か４５０ら指示される検出項目に基づく上記解析レベルによって、どの処理（解析レベル）まで行うかが制御される。これは、例えば、ＣＭ検出の場合には、無音かどうかを判定すればよく、チャネル毎の信号は、不要で解析レベル２のスペクトラムで十分であり、以降の処理は不要となることを意味している。

また、音楽検出の場合は、Ｌｃｈ信号とＲｃｈ信号の和成分と差成分のパワー比が重要となるため、解析レベル３以上のスペクトラムが必要になる。反面、スピーチ信号（音声）のようなパルス的な信号に適用されやすいＴＮＳ処理は、使用頻度が少なく、適用されたとしても適用帯域も限定的であるため、解析レベル４のスペクトラムでなくとも十分である。

一方、歓声検出やコーナー検出の場合は、検出精度にも依存するが、検出されたスペクトラムの形状を含む特性が必要となり、精度の高いスペクトラムである解析レベル４の信号が必要になる。

このように、検出項目に応じた必要最低限の解析レベルまでのスペクトラムのみを算出することで、処理負荷が低減され、処理速度の高速化が図れる。

また、解析帯域についても同様であり、ニュース番組のようなスピーチ信号（音声）が主体の番組であれば、図７に示すように解析帯域も７ｋＨｚ程度までとれば十分であり、符号化ストリーム本来の２４ｋＨｚ帯域（４８ｋＨｚサンプリングの場合）まで解析する必要はない。一方、音楽を含む広帯域の信号については、符号化ストリームに含まれる信号帯域の全てを解析することが好ましい。

図５は、上述した一連のオーディオ信号検出方法をソフトウェアとして実現した場合のフローチャートである。

第１にストリーム分離ステップにおいて、受信したあるいは入力された符号化ストリームが、オーディオ符号化データとこのオーディオ符号化データに付随する情報であって、例えばＥＰＧ（電子番組情報）等に代表される情報（一般にメタ情報と呼ばれている）とに分離される（Ｓ１）。

ステップＳ１において分離されたメタ情報からは、メタ情報分析ステップにおいて、例えば電子番組情報（ＥＰＧ）等が抽出される（Ｓ２）。

メタ情報分析ステップ（Ｓ２）において、ＥＰＧ（電子番組情報）等が抽出された場合にはＥＰＧから読み取ることのできる番組の属性、例えばニュース、映画、音楽等のメタ情報から、図６に示されるような番組分類情報と検出項目が対応づけられたテーブルに基づいて検出項目が特定（判定）される（Ｓ３）。なお、メタ情報がない場合（取得できない場合も含む）には必要な属性情報がどのコンテンツでも共通の検出項目であるＣＭ検出を設定する。

検出項目が特定されると、解析レベル判定ステップにおいて、図７に示されるような検出項目とどの程度まで詳細に解析すべきかの指標となる解析レベルが対応づけられたテーブルに基づいて、ストリーム解析時の解析レベルが特定（判定）される（Ｓ４）。

また、解析レベル判定と同様に、解析帯域判定ステップにおいて、図７に示されるようなテーブルに基づいて、検出項目から解析すべき帯域が特定（判定）される（Ｓ５）。

続いて、これらの判定結果に基づいて符号化ストリームの解析処理が行われる。

まず、ＡＡＣ規格に従って、オーディオ符号化ストリームからハフマン復号等により量子化スペクトルやスケールファクタ（スペクトルのスケーリング情報）、及びまたはチャネル間相関情報等の復号パラメータが抽出され（Ｓ６）、解析レベルを「レベル１」で終了してよいか否かが判断される（Ｓ７）。

ステップＳ７において、解析レベルが「レベル１」と判定されている場合（Ｓ７−ＹＥＳ）、ストリーム解析結果として得られる情報から、検出項目に適した（検出項目として特定（抽出）すべき）特徴パラメータに変換する特徴パラメータ変換が実行され（Ｓ１３）、ストリーム解析結果から得られた特徴パラメータに基づいて、検出処理が実行され（Ｓ１４）、検出項目が検出されたか否かを示す検出結果がインデキシング（Indexing）される（Ｓ１５）。

ステップＳ７において、解析レベルが「レベル１」ではない（「レベル２」以上）と判断されている場合（Ｓ７−ＮＯ）、ストリームを解析する方法として更に『逆量子化』が行われ、量子化スペクトルがスケールファクタに基づいて逆量子化され、本来のリニアスケールのスペクトラムが求められる（Ｓ８）。この後、解析レベルを「レベル２」で終了してよいか否かが判断される（Ｓ９）。

ステップＳ９において、解析レベルが「レベル２」と判断されている場合（Ｓ９−ＹＥＳ）、引き続いて、先に説明したステップＳ１３〜Ｓ１５が実行される。

ステップＳ９において、解析レベルが「レベル２」ではない（「レベル３」以上）と判断されている場合（Ｓ９−ＮＯ）、ストリームを解析する方法として更に『ジョイントステレオ』が行われ、逆量子化されたスペクトラムに、ＭＳ（Mid/Side）ステレオ処理やＩＳ（インテンシティ）ステレオ処理が施されて、本来のＬｃｈ信号とＲｃｈ信号とに分かれたスペクトラムが求められる（Ｓ１０）。以下、解析レベルを「レベル３」で終了してよいか否かが判断される（Ｓ１１）。

ステップＳ１１において、解析レベルが「レベル３」と判断されている場合（Ｓ１１−ＹＥＳ）、先に説明したステップＳ１３〜Ｓ１５が実行される。

ステップＳ１１において、解析レベルが「レベル３」ではない（「レベル４」）と判断されている場合（Ｓ１１−ＮＯ）、ストリームを解析する方法として『ＴＮＳ（Temporal Noise Shaping）』が行われ、スペクトラムの形状（概形）を含む特性が解析される（Ｓ１２）。

以下、先に説明したステップＳ１３〜Ｓ１５が実行される。

このように、ストリーム解析の際に、検出方法を判定し、解析レベルを判定し、解析する信号帯域を特定することにより、検出処理における負荷を低減可能である。すなわち、解析レベル判定ステップにより判定された解析レベル判定結果に応じて、各ストリーム解析処理をスキップする（解析を終了してよい解析レベルに到達した時点で、ストリーム解析処理を終了する）ことで、符号化ストリームに適した解析処理のみを実現できる。

また、解析帯域判定ステップでの解析帯域判定結果に応じて、各ストリーム解析処理での解析帯域を制限することで、処理負荷が軽減される。

換言すると、上述したステップＳ１〜Ｓ１５は、
符号化ストリームを、オーディオ符号化データとこのオーディオ符号化データに付随する情報であって、ＥＰＧ（電子番組情報）に代表される情報（一般にメタ情報と称される）に分離するストリーム分離ステップと、
分離されたメタ情報（オーディオ符号化データに付随する情報）からストリームに含まれるコンテンツの特定の情報、例えば「ニュース番組」、「音楽番組」、「バラエティ番組」等の番組分類情報であって、『属性』と称されることもある情報を抽出する情報分析ステップと、
抽出された上記コンテンツの特定の情報（属性）に基づいて、
情報分析ステップにより抽出されたコンテンツの特定の情報（属性）を参照して、第１のレベルの解析において検出項目、例えば「ＣＭ」、「音楽」、「歓声」等の検索キーとなる項目が検出可能か、
第１のレベルに続く第２のレベルの解析において上記検出項目が検出可能か、
第２のレベルに続く第３のレベルの解析において上記検出項目が検出可能か、
第３のレベルに続く第４のレベルの解析による上記検出項目の検出が必要か、
を、例えばテーブルを参照して（テーブルを引いて）判定する解析レベル判定ステップと、
判定結果に基づいてオーディオ信号を解析し、得られるオーディオ信号の特徴すなわちオーディオストリーム解析により得られる「チャネル構成」や「Ｌ，Ｒチャネルのパワー値」や「スペクトル概形」等に代表される特徴パラメータから検出項目を検出する特徴検出ステップと、
検出された検出項目を、入力ストリームの再生時に検索可能にインデキシングするステップと、
を少なくとも含む。

なお、図５を用いて説明した一連の処理は、主制御ブロック（ストリームパーサ）４０の図示しないＭＰＵまたはＣＰＵのファームウエアであってもよいし、ＥＥＰＲＯＭ４２に予め書き込まれたプログラムとして提供されてもよい。

以上説明したように上記発明の実施の形態によれば、検出処理する符号化データのメタ情報に応じた適切な検出処理を判定し、その検出処理に応じた必要な信号を取得するために、解析レベルや解析信号帯域を制御することにより最適な処理負荷で高速に検出処理を行うことができる。この際、比較的低速で安価なプロセッサでも処理が可能になり、低コスト化できる。

また、許容される処理負荷が限られている場合には、検出精度に応じて解析レベルを制御することで処理負荷に応じた柔軟な検出処理が実現できる。

なお、本発明の内容はここに記述した形態だけに限定されるものではなく、その主旨を逸脱しない範囲で、他にも様々な形態を取り得ることはいうまでもない。また、本発明では、映像記録再生装置（ビデオディスクレコーダ）を例に説明したが、ビデオレコーダが組み込まれたテレビジョン装置やパーソナルコンピュータ（ＰＣ）等、あるいはユニット化され、外部から付加可能なオーディオ（コンテンツ）再生装置等も含まれることはいうまでもない。なお、各実施の形態は、可能な限り適宜組み合わせて、もしくは一部を削除して実施されてもよく、その場合は、組み合わせもしくは削除に起因したさまざまな効果が得られる。

本発明の実施の一形態が適用可能な映像記録再生装置（ビデオレコーダ）の一例を示す概略図。本発明の実施の一形態として利用可能なオーディオ信号特徴検出部の構成の一例を示す概略ブロック図。本発明の実施の一形態であるオーディオ信号特徴検出部において用いられる適応解析制御部の構成の一例を示す概略ブロック図。本発明の実施の一形態であるオーディオ信号特徴検出部において用いられるストリーム解析部の構成の一例を示す概略ブロック図。本発明の実施の一形態として利用可能なオーディオ信号特徴検出部をソフトウェアとして実現する例を説明するフローチャート。図３に示した検索方法判定部において用いられる番組分類情報と検出項目との対応づけの一例を示す概略図。図３に示した解析レベル判定部において用いられる検出項目とどの程度まで詳細に解析すべきかの指標となる解析レベルの対応づけの一例を示す概略図。

符号の説明

１…ビデオレコーダ（映像記録再生装置）、１０…チューナ部、２０…エンコーダ、２４…ディスクドライブユニット、２６…メモリスロット、３０…デコーダ、４０…主制御ブロック（ストリームパーサ）、５０…オンスクリーン表示（ＯＳＤ）制御部、５２…表示装置、１００，１０２…記録媒体（ＤＶＤ規格の光ディスク）、１０４…ＨＤＤ（ハードディスクドライブ）、１０６…記録媒体（カードメモリ）、４１０…オーディオ信号特徴検出部、４２０…デコーダ部、４３０…ストリーム解析部、４３２…シンタックス（Syntax）解析部、４３４…逆量子化部、４３６…ジョイントステレオ（識別）部、４３８…ＴＮＳ（）部、４４０…メタ情報分析部、４５０…適応解析制御部、４５２…部、４５４…部、４５６…部、４６０…特徴パラメータ変換部、４７０…検出処理部、４８０…インデキシング（Indexing）部。

Claims

入力ストリームからそのストリームの分類情報を取得する情報分析部と、
この情報分析部により取得した分類情報から入力ストリームを解析する方法を特定する解析制御部と、
この解析制御部にて特定された解析する方法に基づいて入力ストリームを解析し、検出項目として特定すべき特徴パラメータに変換する特徴パラメータ変換部と、
この特徴パラメータ変換部により特定された特徴パラメータである検出項目が入力ストリームに含まれるか否かを検出する検出処理部と、
この検出処理部により検出された検出項目の検出結果を入力ストリームの再生時に検索可能に記録する記録部と、
を有するオーディオ信号特徴検出装置。
前記解析制御部は、符号化データの解析レベルを変更することにより最適な処理負荷を設定できることを特徴とする請求項１記載のオーディオ信号特徴検出装置。
前記解析制御部は、符号化データの解析信号帯域を変更することにより最適な処理負荷を設定できることを特徴とする請求項１記載のオーディオ信号特徴検出装置。
前記解析制御部は、符号化データの符号化データの解析レベル及び解析信号帯域を変更することにより最適な処理負荷を設定できることを特徴とする請求項１記載のオーディオ信号特徴検出装置。
入力ストリームからそのストリームの分類情報を取得し、
取得した分類情報から入力ストリームを解析する方法を特定し、
特定された解析する方法に基づいて入力ストリームを解析し、検出項目として特定すべき特徴パラメータに変換し、
特定された特徴パラメータである検出項目が入力ストリームに含まれることを検出し、
検出された検出項目を入力ストリームの再生時に検索可能に保持する
ことを特徴とするオーディオ信号特徴検出方法。
前記解析する方法の特定は、符号化データの解析レベルを変更することにより最適な処理負荷を設定できることを特徴とする請求項５記載のオーディオ信号特徴検出方法。
前記解析する方法の特定は、符号化データの解析信号帯域を変更することにより最適な処理負荷を設定できることを特徴とする請求項５記載のオーディオ信号特徴検出方法。
前記解析する方法の特定は、符号化データの解析レベル及び解析信号帯域を変更することにより最適な処理負荷を設定できることを特徴とする請求項５記載のオーディオ信号特徴検出方法。
符号化ストリームを、オーディオ符号化データとこのオーディオ符号化データに付随する情報とに分離するストリーム分離ステップと、
分離された上記オーディオ符号化データに付随する情報からストリームに含まれるコンテンツの特定の情報を抽出する情報分析ステップと、
抽出された上記コンテンツの特定の情報に基づいて、
情報分析ステップにより抽出されたコンテンツの特定の情報を参照して、第１のレベルの解析において検出項目が検出可能か、
第１のレベルに続く第２のレベルの解析において検出項目が検出可能か、
第２のレベルに続く第３のレベルの解析において検出項目が検出可能か、
第３のレベルに続く第４のレベルの解析による検出項目の検出が必要か、
を判定する解析レベル判定ステップと、
解析レベル判定ステップによる判定結果に基づいてオーディオ信号を解析し、得られるオーディオ信号の特徴パラメータを検出する特徴検出ステップと、
検出された検出項目を、入力ストリームの再生時に検索可能にインデキシングするステップと、
を少なくとも含むオーディオ信号特徴検出プログラム。
特徴検出ステップにおける第１のレベルは、ストリームを符号化する際に適用された符号化パラメータを得るステップを少なくとも含む請求項９記載のオーディオ信号特徴検出プログラム。
特徴検出ステップにおける第２のレベルの解析は、量子化スペクトルをスケールファクタに基づいて逆量子化し、リニアスケールのスペクトラムを得るステップを少なくとも含む請求項９記載のオーディオ信号特徴検出プログラム。
特徴検出ステップにおける第３のレベルの解析は、チャネル間相関情報を得るステップを少なくとも含む請求項９記載のオーディオ信号特徴検出プログラム。
特徴検出ステップにおける第４のレベルの解析は、検出されたスペクトラムの形状を含む特性を得るステップを少なくとも含む請求項９記載のオーディオ信号特徴検出プログラム。