JP4321518B2

JP4321518B2 - 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置

Info

Publication number: JP4321518B2
Application number: JP2005374205A
Authority: JP
Inventors: 功大塚; 英嗣杉之原
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2005-12-27
Filing date: 2005-12-27
Publication date: 2009-08-26
Anticipated expiration: 2025-12-27
Also published as: US20090088878A1; WO2007074755A1; EP1968043B1; US8855796B2; EP1968043A1; HK1122893A1; JP2007180669A; CN101310327A; KR20080059650A; KR100962803B1; EP1968043A4; CN101310327B

Description

この発明は、テレビジョン放送等のデータから楽曲区間を検出する方法、及び装置、並びに、この方法により検出された楽曲区間を含むデータを、ＤＶＤ−ＲやＤＶＤ−ＲＷなどを含む記録型ＤＶＤディスク、ハードディスクドライブ、またはＢｌｕ−ｒａｙＤｉｓｃなどの記録媒体に記録する記録方法、及び装置に関するものである。

テレビジョン放送の一つに、所謂「歌番組」や「音楽番組」と呼ばれるジャンルが存在する。音楽番組は出演者による演奏や歌唱、あるいはビデオ映像による楽曲の映像（以下、「楽曲シーン」と記す。なお、この明細書において、「楽曲シーン」とは歌や演奏などの音楽が音声に含まれる映像を全般に指す。）と、司会者などによる楽曲の紹介や出演者とのトーク（会話）ショーなどの楽曲以外の映像（以下、「非楽曲シーン」と記す。）とから構成される場合が多い。

また民法放送であれば、番組の広告主の宣伝や、放送局自らの広告宣伝のためのコマーシャルメッセージ放送（以下、「ＣＭ放送」と記す。また、ＣＭ放送の区間を「ＣＭ放送区間」と記す。）が番組の構成に含まれる場合もある。

ところで、録画した音楽番組を再生する場合、楽曲に集中したい視聴者にとっては非楽曲シーンやＣＭ放送などの楽曲シーン以外を効率よく見飛ばしたい要望がある。また逆に、楽曲には興味が無い視聴者には、楽曲シーンやＣＭ放送を見飛ばしてトークショーなどの非楽曲シーンのみを視聴したいとする要望もある。

このような要望に対し、従来の楽曲検出方法及び記録方法では、音情報の周波数スペクトルのピークが周波数方向に対して時間的に安定している特徴を用いて楽曲シーンを特定し、楽曲の映像音声のみを蓄積している（例えば、特許文献１参照）。

特開平１１−２６６４３５号公報（第５頁、第１図）

しかし、特許文献１に記載されているような楽曲検出方法では、楽曲シーンの検出を単一の手法により判定していたために、ロックや演歌、クラシックなど、曲調の異なる全ての楽曲に対して一様に検出精度を確保することは困難であった。

この発明は、上述のような課題を解消するためになされたもので、テレビジョン放送等の映像信号及び音声信号を含むデータから楽曲シーンを効率よく検出する方法、及び装置を提供するものである。

本発明に係る楽曲区間検出方法は、
音声信号と映像信号とを含む映像音声データを入力するデータ入力ステップと、
前記音声信号から、前記映像音声データの楽曲区間を含む第１の楽曲候補区間を検出する第１の楽曲候補区間検出ステップと、
前記楽曲区間と、前記楽曲区間以外の区間との境界を検出するようにして第２の楽曲候補区間を検出する第２の楽曲候補区間検出ステップと、
前記第１の楽曲候補区間の開始時刻に対応する前記第２の楽曲候補区間の開始時刻を前記楽曲区間の開始時刻とし、前記第１の楽曲候補区間の終了時刻に対応する前記第２の楽曲候補区間の終了時刻を前記楽曲区間の終了時刻とする楽曲区間検出ステップと
を備えるものである。

本発明の楽曲区間検出方法によれば、
映像音声データの楽曲区間を含むように音声信号から検出された第１の楽曲候補区間と、前記楽曲区間以外の区間との境界を検出するようにして検出された第２の楽曲候補区間とに基づいて、第１の楽曲候補区間の開始時刻に対応する第２の楽曲候補区間の開始時刻を楽曲区間の開始時刻とし、第１の楽曲候補区間の終了時刻に対応する第２の楽曲候補区間の終了時刻を楽曲区間の終了時刻とするので、これら互いに検出特性の異なる検出方法を組み合せることにより、互いの検出特性を補完しあい、高い検出精度を確保することができる。

実施の形態１．
以下、図を用いて本実施の形態１に係る楽曲検出方法、及び検出装置、並びに記録方法、及び記録装置を説明する。本実施の形態１に係る楽曲検出方法は、音声信号に対して各々異なる複数の基準に基づいて楽曲候補区間検出し、さらにこの検出された複数の楽曲候補区間から楽曲区間を検出することに特徴がある。

なお、この明細書において、楽曲シーンを記録した時、記録開始を基点として楽曲シーンの開始時刻となる時間位置情報と、楽曲シーンの終了時刻となる時間位置情報とにより特定される区間を「楽曲区間」とする。

ここで、蓄積メディアに記録した映像音声を再生制御する方法について説明する。一般に、上記のような再生制御を行う場合には、時間位置情報を９０ｋＨｚでカウントするプレゼンテーションタイム（ＰＴＭ）が広く使われている。つまり、楽曲区間を特定するために、開始時刻と終了時刻のＰＴＭを時間位置情報として参照する方法である。しかし、この以外にも、映像音声を録画時間軸にて１秒間などの固定時間で離散化した時に楽曲シーンである区間はＨｉｇｈ（１）、非楽曲シーンである区間はＬｏｗ（０）とするなどの二値化してＨｉｇｈとなる区間を検索するなどの方法がある。この明細書において、これらの楽曲区間の開始点と終了点を特定するための情報を「楽曲情報」と呼ぶ。

図１は、本実施の形態１の映像音声記録装置を示すシステムブロック図である。また、図２は、本実施の形態１の楽曲区間の検出、記録方法を示すフローチャートである。まず、図１及び図２を用いて本実施の形態１の映像音声記録装置について概説する。映像音声記録装置１００には、記録を行う対象となるテレビジョン放送などの映像信号３と音声信号４が入力される（ＳＴ１）。次に、映像信号３は、ビデオエンコーダ５においてＭＰＥＧ−２方式などにより符号化圧縮されて、映像データとなる。

一方、音声信号４がアナログ信号である場合には、アナログデジタル変換機（Ａ／Ｄコンバータ）６によって音声波形を一定時間おきにサンプリングして振幅をデータ化したＰＣＭ（ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）方式などによりデジタル信号に変換される（ＳＴ２）。その後、オーディオエンコーダ７においてドルビーＡＣ−３方式などによって符号化圧縮されて、音声データとなる。

マルチプレクサ８では、映像データと音声データとを多重化してマルチメディアデータを生成する。その後、書き込みバッファ９でマルチメディアデータを逐次取り込んだ後に書き込みドライブ２に送出し、ＤＶＤ−ＲやＤＶＤ−ＲＷディスクあるいは記録型Ｂｌｕ−ｒａｙＤｉｓｃなどのリムーバブルな蓄積メディア１に記録（一連の処理は「録画」とも言われる。）が行われる。映像音声記録装置１００および書き込みドライブ２の動作は、マイクロプロセッサなどから構成する記録制御部１６によって統括的に管理して制御されている。なお蓄積メディア１と書き込みドライブ２は、ハードディスクドライブ（ＨＤＤ）などのリムーバブルではない蓄積メディアに置き換わっても構わない。

次に、本実施の形態１の映像音声記録装置の特徴的な構成要素である複数の楽曲候補検出部について説明する。第一の楽曲候補検出部１０では、Ａ／Ｄコンバータ６から出力されるＰＣＭ方式のデジタル信号を分析して楽曲候補区間を検出する（ＳＴ３、４）。第一の楽曲候補検出部１０で検出された楽曲候補区間は、必要に応じて、第一の補正部１２によって検出誤差が補正される（ＳＴ６）。また、第一の楽曲候補検出部１０とは異なる基準を持つ第二の楽曲候補検出部１１でも、第一の楽曲候補検出部１０と同様に、楽曲候補区間が検出されて（ＳＴ３、５）、第二の補正部１３にて必要に応じて検出誤差が補正される（ＳＴ６）。

第一の楽曲候補検出部１０と第一の補正部１２により検出・補正された楽曲候補区間と、第二の楽曲候補検出部１１と第二の補正部１３により検出・補正された楽曲候補区間は楽曲検出部１４において統合あるいは取捨選択の判断が行われ、楽曲区間が検出される（ＳＴ７）。検出された楽曲区間は、メタデータ生成部１５にてメタデータファイルに生成されて、書込みバッファメモリ９を介して蓄積メディア１に記録される（ＳＴ８）。なお、メタデータ生成部１５は、逐次算出されて決定する楽曲区間の楽曲情報を保持するメモリ機能を有している。

なお、映像音声記録装置１００の記録部の概念としては、書き込みドライブ２のみを含めてもよいし、マルチプレクサ８、メタデータ生成部１５、書き込みバッファ９、記録制御部１６を含めてもよい。

また、ここでは楽曲候補区間を検出する楽曲候補検出部１０、１１が２つの場合について記載したが、さらに多くの楽曲候補検出部を有する構成であっても良い。また、補正部１２、１３は、楽曲候補検出部１０、１１の各々に対して個別に補正を行った後に、楽曲検出部１４に補正後の楽曲候補区間を出力する構成について記載したが、個別の補正は行わずに、一つの補正部により補正された後、楽曲検出部１４に補正後の楽曲候補区間を出力する構成としてもよい。また、楽曲検出部１４にて検出した後の楽曲区間に対して補正を行う構成としてもよい。

図３は、本実施の形態１の第一の楽曲候補検出部１０を詳細に記した機能ブロック図である。第一の楽曲候補検出部１０は、直交変換処理部２０と尤度比較処理部２１、および参照のためのデータテーブルであるモデルデータ２２から構成される。図に示すように、Ａ／Ｄコンバータ６で変換されたデジタル信号の直交変換係数が直交変換処理部２０で算出され、さらに尤度比較処理部２１がモデルデータ２２を参照してラベルが割り当てられた後、第一の補正部１２に出力される。

さらに、第一の楽曲候補検出部１０による楽曲候補区間の検出の詳細について述べる。音声信号４がステレオ信号である場合、Ａ／Ｄコンバータ６では右チャンネルと左チャンネルのＰＣＭデータが個々に得られる。このステレオ信号は、民生用レコーダ機器であれば、サンプリング周波数は４８ｋＨｚ、量子化ビット数は１６ｂｉｔなどの品質が使われる。

次に、直交変換処理部２０では、時間領域のＰＣＭデータを周波数領域に直交変換を施す（ＳＴ３）。直交変換には、ＰＣＭデータを時間的に５０％重複するＭＤＣＴ（変形離散コサイン変換）を使用する例について述べる。５０％のオーバーラップを行うため、５１２個のＰＣＭデータをサンプリングすると、２５６個の直交変換係数（ＭＤＣＴ係数）が右チャンネルと左チャンネルの各々について得られる。ステレオ信号の片チャンネル（例えば左チャンネル）、あるいはモノラル信号の１チャンネルに対する直交変換係数から、２５６次元の係数ベクトルが得られる。係数ベクトルは計算量の軽減を目的に、射影変換により次元数の低減を図っても良い。

なお、入力された音声信号を分析するに先立ち、あらかじめ主観評価で顕著に楽曲シーンと判断される音声の係数ベクトルを収集してトレーニングデータとして、係数ベクトルの分布傾向を、混合ガウス分布モデル（ＧＭＭ法）を使用してモデル化しておく。楽曲シーンから作成したものを「音楽クラスモデル」と呼ぶ。この他、顕著な観客の歓声や声援、拍手、笑い声、出演者のトークシーン、などの非楽曲シーンについても同様にトレーニングデータを収集して混合ガウス分布モデルを作成して、複数の音声クラスモデルを用意する。

モデルデータ２２は、これらの音声クラスモデルが参照できるデータテーブルとなる。尤度比較処理部２１では、モデルデータ２２を参照して、記録を行っている音声信号の直交変換係数ベクトルがベクトル空間として最も尤度の高い音声クラスを探して、その音声のクラスを当該区間のラベルとして割り当てる（ＳＴ４）。

すなわち、音楽クラスモデルの周波数特性と尤度の高い音声入力があった場合に楽曲を示すラベルが割り当てられ、その区間が楽曲シーンであるとの検出が可能になる。なお、あらかじめ用意したモデルを参照して入力信号の音声クラスを特定する手法であれば混合ガウス分布モデルによる尤度比較でなくても良く、隠れマルコフ法（ＨＭＭ法）などの統計的な手法を使用しても構わない。

混合ガウス分布モデルによる尤度比較によって楽曲を示すラベルを割り当てる手法は、ステレオ放送やモノラル放送などのチャンネル数に影響を受けずに高い確度で楽曲シーンのみを検出できるという長所がある。その一方、楽曲シーンと非楽曲シーンとの境界を検出する精度は若干曖昧になる短所もある。またトレーニングデータの収集方法によっては、ロックや演歌、クラシックなど、曲調や楽器構成による得手、不得手が生じる場合がある。

次に、第二の楽曲候補検出部１１について説明する。図４は、本実施の形態１の第二の楽曲候補検出部１１を詳細に記した機能ブロック図である。第二の楽曲候補検出部１１は、直交変換処理部２０と差分演算処理部３０から構成される。図に示すように、Ａ／Ｄコンバータ６で変換されたデジタル信号の直交変換係数が直交変換処理部２０で算出され、さらに差分演算処理部３０で直交変換係数の差異量が算出された後、第二の補正部１３に出力される。

さらに、第ニの楽曲候補検出部１１による楽曲候補区間の検出の詳細について述べる。音声信号４から直交変換処理部２０を経て２５６個の直交変換係数（ＭＤＣＴ係数）が得られるまでの過程（ＳＴ３）は第一の検出部１０で述べたものと共通であり、ここでは省略する。

直交変換係数を（１×２５６）行列として、ｎ行目の右チャンネルの直交変換係数をＭｒ（ｎ）、左チャンネルの直行変換係数をＭｌ（ｎ）とすると、差分演算処理部３０では両チャンネルの直交変換係数行列の差を算出して、係数の二乗和である差異量Ｄを次式で得る。

この処理を継続的に行うことにより、記録を行う番組の差異量Ｄの変化を把握することが出来る（ＳＴ５）。なお、差異量Ｄは直交係数行列の差による係数の二乗和としたが、右チャンネルと左チャンネルの差異が数値化される手法であれば、他の算出式を使用しても構わない。

ここで、差異量は、右チャンネルと左チャンネルの違いを表すものであり、音の広がり感、ステレオ感、などとも言い表せる。一般的に、楽曲シーンでは音の広がり感が大きく、出演者によるトークシーンなどの非楽曲シーンでは音の広がり感が小さいことが分かっている。すなわち、差異量が所定の値（閾値）を超える区間が楽曲シーンであるとの検出が可能になる。

一般的に、楽曲シーンと非楽曲シーンとの境界では差異量が大きく変動することから、左右チャンネルの直交係数行列の差異量を検出する手法は、楽曲区間の開始時刻および終了時刻が高い精度で検出できるという長所がある。その一方、コンサートやライブ会場など常に音の広がり感が高い番組では非楽曲シーンでも高い差異量を検出したり、またモノラル放送では差異量が検出できない等の短所もある。またロックや演歌、クラシックなど、曲調や楽器構成などによる得手、不得手が生じる場合がある。

図５は、本実施の形態１の補正処理（図２では、ＳＴ６の「フィルター」に相当）の過程を示すチャート図である。同図において、（１）は第二の楽曲候補検出部１１で算出された差異量４２をプロットしたグラフ４００であり、横軸は記録した番組の時間経過４０、縦軸４１は差異量である。

第二の補正部１３では、差異量４２を所定の閾値４３で二値化して、閾値４３を超える区間に楽曲を示すラベル付けを行い、閾値４３を下回る区間は非楽曲を示すラベル付けを行う。同図において、（２）は二値化したラベル４５をプロットしたグラフ４０２で、楽曲を示すラベルが付いた区間をＨｉｇｈ、非楽曲シーンを示すラベルが付いた区間をＬｏｗとしてラベル軸４４で表している。さらに、同図（３）はラベル４５に対して補正の処理を行うことで得られる補正後のラベル４７をプロットしたグラフ４０７である。

ここで、図５を用いて、第二の楽曲候補検出部１１で算出された差異量に対する第二の補正部１３による補正処理の詳細について説明する。一例である差異量４２を閾値４３で二値化すると、ラベル４５のように３つの楽曲候補区間４６ａ、４６ｂ、４６ｃが検出される。

そして、次に、二値化により得たラベル４５に対して、次の３通りの補正処理を必要に応じて行う。

（ａ）楽曲候補区間が所定時間Ｔ１（例えば５秒）以下であれば、楽曲にラベル付けされた区間は、非楽曲（Ｌｏｗ）にラベルを変更する。
（ｂ）連続する楽曲候補区間の間隔が所定時間Ｔ２（例えば５秒）以内であれば、非楽曲にラベル付けされた間隔は、楽曲（Ｈｉｇｈ）にラベルを変更する。
（ｃ）上記の（ａ）、（ｂ）のラベル変更を行った後、楽曲にラベル付けされた区間が所定時間Ｔ３（例えば６０秒）を超える区間を補正後の楽曲候補区間とする。なお、（ａ）と（ｂ）はどちらか一方であっても良い。

図５（２）を用いて説明すると、楽曲候補区間４６ｃは間隔Ａは、所定時間Ｔ１を満たないために、補正処理（ａ）によって非楽曲区間となり、楽曲候補区間４６ａと４６ｂとの間隔Ｂは、所定時間Ｔ２よりも短いために、補正処理（ｂ）によってひとつの楽曲候補区間となる。その結果、得られる楽曲候補区間の間隔Ｃは所定時間Ｔ３を越えるので、この補正処理によって楽曲区間４８が得られることになる。

また、第一の楽曲候補検出部１０で算出したラベルに対する第一の補正部１２による補正処理について、同じく図５を用いて説明する。第一の楽曲候補検出部１０では楽曲を示すラベルと非楽曲を示すラベルが、もとより二値で算出されているので、そのまま図５（２）のラベル４５のプロットとなる。一例として示したラベル４５では、３つの楽曲候補区間４６ａ、４６ｂ、４６ｃが検出されたことになり、これに対して第二の補正部１３と同様に、補正処理（ａ）、（ｂ）、（ｃ）を必要に応じて施すことで、楽曲候補区間４８が得られることになる。

このように、それぞれの補正部において補正処理を施すことにより、出演者によるトークショーでの効果音などの非楽曲シーンにて、瞬間的に楽曲シーンと誤検出されてしまった区間や、あるいは演奏途中の演出としての全休止など楽曲シーンであるにも関わらず部分的に非楽曲シーンと誤検出されてしまった区間などを補正することが可能となる。また、一般的に、楽曲の１コーラスに相当する６０秒などの所定時間を越えて楽曲が検出される区間を楽曲候補区間とすることで、トークショーでの短時間のＢＧＭや宣伝用に楽曲のサビ部分のビデオクリップ紹介、あるいは番組のオープニングやエンディングテーマのような、楽曲シーンとして扱うには適切ではないシーンを除外することもできる。

次に、図１の楽曲検出部１４での処理（ＳＴ７）について説明する。図６は、本実施の形態１の楽曲検出部１４による、楽曲区間の検出処理の過程を示すチャート図である。同図において（１）は、第一の楽曲候補検出部１０で算出されたラベルに対し、第一の補正部１２によって補正処理を施して得たラベル５０をプロットしたグラフ５００である。また同じく、同図（２）は、第二の楽曲候補検出部１１で算出された差異量に対し、第二の補正部１３によって補正処理を施して得たラベル５２をプロットしたグラフ５０２である。同図（３）は、ラベル５０とラベル５１とに基づいて検出処理したラベル５４をプロットしたグラフ５０４である。グラフ５００、５０２、５０４はいずれも、楽曲を示すラベルが付いた区間をＨｉｇｈ、非楽曲シーンを示すラベルが付いた区間をＬｏｗとしてラベル軸４４で表している。

さらに、図６を用いて、楽曲検出部１４における楽曲区間の検出処理について説明する。一例として、図に示すように、ラベル５０に示す楽曲候補区間５１ａ、５１ｂ、５１ｃと、ラベル５２に示す楽曲候補区間５３ａ、５３ｂ、５３ｃ、５３ｄが検出されているとする。本実施の形態１の楽曲検出部１４では、双方の楽曲候補区間を論理ＯＲ（論理和）で処理し、楽曲区間を検出する。以下、図６を使って具体的に説明する。

一部の時刻で重複して検出された楽曲候補区間５１ａと５３ａから楽曲区間を検出する場合、開始時刻Ａ１とＢ１が同じであれば、検出後の楽曲区間５５ａの開始時刻はＣ１で決定する。次に、終了時刻Ａ２はＢ２よりも長い（楽曲区間が時間として延長する方向）ため、検出後の楽曲区間５５ａの終了時刻はＡ２の時刻を採用してＣ２となる。

同様に、楽曲候補区間５１ｂと５３ｂから楽曲区間を検出する場合、開始時刻Ａ３とＢ３とではＢ３の方が長いため、検出後の楽曲区間５５ｂの開始時刻はＢ３の時刻を採用してＣ３となる。終了時刻Ａ４とＢ４とではＢ４の方が長いため、検出後の楽曲区間５５ｂの終了時刻はＢ４の時刻を採用してＣ４となる。

さらに、楽曲候補区間５３ｃについては時刻が重複する他方の楽曲候補区間が存在しないため、開始時刻Ｂ５と終了時刻Ｂ６がそのまま検出後の楽曲区間５５ｃの開始時刻Ｃ５と終了時刻Ｃ６に採用される。

最後に、楽曲候補区間５１ｃと５３ｄから楽曲区間を検出する場合、開始時刻Ａ５とＢ７とではＡ５の方が長いため、検出後の楽曲区間５５ｄの開始時刻はＡ５の時刻を採用してＣ７となる。終了時刻Ａ６とＢ８とではＡ６の方が長いため、検出後の楽曲区間５５ｂの終了時刻はＡ６の時刻を採用してＣ８となる。これにより、検出後の楽曲区間５５ａ、５５ｂ、５５ｃ、５５ｄが決定する。

このように、楽曲区間の検出を楽曲候補区間の論理ＯＲで判定することにより、複数の楽曲検出手段により、各々異なる基準で検出された楽曲候補区間を全て楽曲区間として決定することとなる。これにより、採用する楽曲検出手段に応じて広い範囲のジャンルの楽曲を検出することが可能となる。また、論理ＯＲによる検出では楽曲区間を加算するものであるので、複数の楽曲検出手段による楽曲候補区間のうちに誤検出された非楽曲シーンが含まれていたとしても、判定処理の過程で他の楽曲検出手段で検出できていた楽曲シーンが弊害として削除されてしまうことがない。

また、上記で説明したとおり、第一の楽曲候補検出手段１０は、高い確度で楽曲シーン、即ち楽曲区間の途中を検出できるが、楽曲シーンと非楽曲シーンとの境界を検出する精度は若干曖昧になるとの検出特性を有する。一方、第二の楽曲候補検出部１１は、楽曲区間の開始時刻および終了時刻が高い精度で検出できるとの検出特性を有する。本実施の形態１の楽曲検出方法では、上記のように互いに検出特性の異なる検出方法を組み合わせることにより、より精度の高い方法としている。すなわち、第一の楽曲候補検出手段１０の検出特性と第二の楽曲候補検出部１１の検出特性とが互いの検出特性を補完しあうような関係となっているため、楽曲検出の精度をより高いものとしている。

次に、図７、８を用いて、検出された楽曲区間の楽曲情報をメタデータ生成部１５にてメタデータファイルに生成する方法を説明する。図７は、本実施の形態１の映像音声記録装置のファイル構成図である。すなわち、図７は、蓄積メディア１の論理ファイル構造を示したものであり、論理的に階層構造を成すディレクトリ構造の最上位階層にルートディレクトリ９０が配置され、そのルートディレクトリ９０の下位層に、マルチメディアディレクトリ９１、およびメタデータディレクトリ９２が配置されている。

マルチメディアディレクトリ９１には、蓄積メディア１に記録されている番組の管理番号を含む管理情報を記述した情報管理ファイル９３、番組の映像信号または音声信号を符号化圧縮して多重化したマルチメディアデータファイル９４、さらに情報管理ファイル９３などのバックアップファイル９５が配置されている。

一方、メタデータディレクトリ９２には、番組を記録してマルチメディアデータファイル９４が生成された際に検出された楽曲区間の楽曲情報が、独立した論理ファイルで成るメタデータファイル９６に記述され、配置される。

なお、図７では、マルチメディアデータファイル９４とメタデータファイル９６とが個別のディレクトリに配置する例を示した。しかし、同一のディレクトリ内に配置されたり、メタデータファイル９６がルートディレクトリ９０に直接配置されてもよい。また、マルチメディアデータファイル９４、あるいはメタデータファイル９６は、記録した番組の数に応じて分割されたり、ファイル容量の制限などによって複数に分割されてもよい。

さらに、本実施の形態１におけるメタデータファイル９６は、そのデータ形式は問わず、テキスト形式であってもバイナリ形式であってもよい。また、メタデータファイル９６に記述されているデータの改ざんや、情報の流出を阻むために、暗号処理を施してもよい。

また、管理情報ファイル９３に、所望の番組に対応するメタデータファイル９６が存在しているか否か、あるいはメタデータファイル９６に有効な値が存在するか否か、などの情報を記述しておいてもよい。このような情報が管理情報ファイル９３に記録されていると、番組を再生する際に、当該情報を参照することで、素早く楽曲情報の存在あるいは有効性を判断することができる。

このように、メタデータファイル９６をマルチメディアデータファイル９４に重畳、多重化せずに独立した論理ファイルとする。これにより、番組を再生する際に、ファイル容量が大きなマルチメディアデータファイル９４を走査することなく、比較的ファイル容量の小さなメタデータファイル９６を読み出すことで楽曲情報を素早く取得することが可能となる。
なお、メタデータファイル９６をマルチメディアデータファイル９４に重畳してもよい。この場合は、ファイル数を少なくでき、また、マルチメディアデータと同一のファイルなので、楽曲情報を伴うマルチメディアデータをリムーバブルな記録媒体に記録して他機器で編集やコピーなどのファイル操作を行う際、メタデータが散逸することを抑制できる。

図８は、階層構造である本実施の形態１のメタデータ構造図である。図において、（Ａ）は、データ構造の最上位の階層のメタデータ１３０である。

次に、図８（Ｂ）を用いて、メタデータ１３０のデータ構造を説明する。メタデータ全体の情報は、メタデータ管理情報１３１ａに統括的に記述されている。この階層には、楽曲情報を持つ番組の数（１からｎ個）に応じた番組メタデータ情報１３１ｃと、番組メタデータ情報１３１ｃを個々にアクセスするためのアドレス情報である番組メタデータ情報サーチポインタ１３１ｂが配置される。

ここで、蓄積メディア１に楽曲情報を持つ番組が存在しない場合には、メタデータファイル９６を作成しなくてもよく、また、メタデータ管理情報１３１ａに番組メタデータ情報１３１ｃを０個と記述したメタデータファイル９６を用意しても良い。

次に、図８（Ｃ）を用いて、番組メタデータ情報１３１ｃのデータ構造を説明する。この階層には、メタデータ一般情報１３２ａと、楽曲マップ情報１３２ｂが配置される。メタデータ一般情報１３２ａには、楽曲マップ情報１３２ｂをアクセスするためのアドレス情報などの他、番組メタデータ情報１３１ｃが対応するべき番組の管理番号が記述される。これは音楽番組以外を記録した時など、番組によっては楽曲情報を生成しない場合もあるために、情報管理ファイル９３で管理される番組の管理番号と番組メタデータ情報１３１ｃの番号とが一致しない場合に、番組とメタデータとを関連付けるためのテーブルである。

次に、図８（Ｄ）を用いて、楽曲マップ情報１３２ｂのデータ構造を説明する。この階層には、楽曲マップ一般情報１３３ａと、検出した楽曲の数（１からｍ個）に応じた楽曲エントリ１３３ｂが配置される。楽曲マップ一般情報１３３ａには、楽曲エントリ１３３ｂを個々にアクセスするためのアドレス情報が記述される。

最後に、図８（Ｅ）を用いて、楽曲エントリ１３３ｂのデータ構造を説明する。この階層には、検出した楽曲区間の楽曲開始時刻情報１３４ａと、楽曲終了時刻情報１３４ｂが配置される。時刻情報には、プレゼンテーションタイム（ＰＴＭ）などが使用される。

以上説明したように、本実施の形態１では、楽曲区間の開始時刻と終了時刻をメタデータに記述する方法の例を述べたが、記録した番組から楽曲情報が特定できるデータ構造であれば良い。例えば、番組を１秒間などの固定時間で離散化した時に楽曲シーンである区間はＨｉｇｈ（１）、非楽曲シーンである区間はＬｏｗ（０）とするなど二値化した結果を楽曲マップ情報として列挙するデータ構造としても、同等の機能が実現できる。

これにより、蓄積メディア１に記録した番組を再生する際にはメタデータファイル９６からメタデータ１３０を読み出し、番組に存在する楽曲の楽曲情報を把握することができる。したがって、楽曲情報に基づく再生制御を行うことで、楽曲区間のみを連続再生したり、楽曲区間の開始点あるいは終了点に手動でスキップする機能など、効率的に楽曲シーンを視聴することが可能となる。

すなわち、従来は、非楽曲シーンやＣＭ放送（ＣＭ放送については、実施の形態３で説明する。）を見飛ばすには、手動操作による早送りや早戻し再生によって楽曲シーンの先頭や終端などの境界を検索する必要があった。

また、記録媒体に長時間記録された番組から楽曲シーンを視聴したい場合、あるいは非楽曲シーンを視聴したい場合などは、視聴者が早送り（フォワードスキャン）や早戻し（バックワードスキャン）映像を見ながら所望のシーンを探したり、１５秒などの固定時間のスキップによって所望のシーンが現れるまで操作を繰り返したりしなければならない。そのため、楽曲シーンの始点や終点の箇所を誤って行き過ぎることなく再生するには、予め楽曲シーンの箇所を正確に把握していなければ至難であった。特に、初見の番組を再生する場合においては、番組中のどこに楽曲シーンがあるのかわからないために、番組の冒頭から楽曲シーンを検索して行く手間を要していた。

しかし、本実施の形態１により記録された番組を再生する場合は、上記のような操作をする必要が無い。すなわち、再生時には初見の番組でも楽曲区間をあらかじめ把握することができるので、楽曲区間のみの連続再生や、楽曲区間の始点や終点への手動でのスキップ等の再生制御が可能となる。

なお、本実施の形態１では、映像信号３と音声信号４としてテレビジョン放送を例に説明したが、例えば、別の映像再生装置を使って外部入力端子から供給される映像音声信号であっても良い。あるいは、リムーバブルな蓄積メディア１や映像記録再生装置に内蔵したハードディスク（図示なし）などに記録している映像音声データを読み出し、符号化圧縮した音声データをデコード（複号）処理してＰＣＭ信号を得て楽曲情報を検出しても良い。この方法であれば、記録時にリアルタイムで楽曲区間の検出処理を行う必要が無いので、記録制御部の処理能力が低い場合であっても、記録後に時間を掛けて検出が可能となる。さらに、既に蓄積メディアに記録済の番組からも楽曲情報を得ることが出来る。

実施の形態２．
本実施の形態２では、楽曲検出部１４による楽曲区間の検出処理として、実施の形態１で説明した方法とは異なる検出方法について説明する。図９は、本実施の形態２の楽曲検出部１４による、楽曲区間の検出処理の過程を示すチャート図である。同図において（１）、（２）は、実施の形態１の図６に示したものと同じであり、同図（３）は、実施の形態１とは異なる検出方法により検出されたラベル６０をプロットしたグラフ６００である。

図９を用いて、実施の形態１とは異なる楽曲検出部１４における楽曲区間の検出処理について説明する。本実施の形態２では、ラベル５０、あるいはラベル５２のいずれか一方を基点として楽曲区間を検出する点に特徴がある。

一例として、図に示すように、ラベル５０に示す楽曲候補区間５１ａ、５１ｂ、５１ｃと、ラベル５２に示す楽曲候補区間５３ａ、５３ｂ、５３ｃ、５３ｄが検出されているとする。ここでは、ラベル５０を基点とする場合について説明する。

まず、楽曲候補区間５１ａの開始時刻Ａ１の近傍でラベル５２の楽曲候補区間の開始時刻を検索すると、Ｂ１が見つかる。開始時刻Ａ１とＢ１が同じであれば、検出後の楽曲区間６１ａの開始時刻はＰ１で決定する。次に、楽曲候補区間５１ａの終了時刻Ａ２の近傍でラベル５２の楽曲候補区間の終了時刻を検索するとＢ２が見つかるので、検出後の楽曲区間６１ａの終了時刻はＢ２の時刻を採用してＰ２となる。

さらに、楽曲候補区間５１ｂの開始時刻Ａ３の近傍で、ラベル５２の楽曲候補区間の開始時刻を検索するとＢ３が見つかるので、検出後の楽曲区間６１ｂの開始時刻はＢ３を採用してＰ３となる。同様に、終了時刻Ａ４については終了時刻Ｂ４が見つかるので、検出後の楽曲区間６１ｂの終了点はＢ４を採用してＰ４となる。

なお、この時、Ａ３を基点としてラベル５２における楽曲候補区間の開始時刻を検索する範囲はＡ２からＡ４までの時刻とし、Ａ４を基点としてラベル５２における楽曲候補区間の終了時刻を検索する範囲はＡ３からＡ５までとする。この場合、仮に、ラベル５２の楽曲候補区間が存在しない場合には、ラベル５０の楽曲候補区間が検出後の楽曲区間となる。

以下同様に、楽曲区間６１ｃについても検出処理によって開始時刻Ｐ５と終了時刻Ｐ６が決定する。なお、ラベル５２の楽曲候補区間５３ｃについては、基点となるラベル５０の楽曲候補区間が存在しないために、検出処理によって削除されることになる。

このように、本実施の形態２では、高い確度で楽曲シーン、即ち楽曲区間の途中を検出できるが、楽曲シーンと非楽曲シーンとの境界を検出する精度は若干曖昧になるとの検出特性を有する第一の楽曲候補検出手段１０により検出された楽曲候補区間を基準とする。そして、楽曲区間の開始時刻や終了時刻が高い精度で検出できる一方で非楽曲シーンを検出してしまう検出特性を持つ第二の楽曲候補検出手段１１により検出された楽曲候補区間の有無を検出する。

つまり、検出時に、両者の検出特性を考慮して、楽曲区間の開始時刻及び終了時刻を、第二の楽曲候補検出手段１１により検出された楽曲候補区間の開始時刻と終了時刻を優先的に採用する検出処理を行う。これにより、非楽曲シーンの誤検出を低減できると共に楽曲区間の開始時刻と終了時刻とを高い精度で検出することが可能となる。

すなわち、両者が互いに補完的な関係にある検出特性を考慮して、楽曲区間の途中である楽曲シーンを基準に楽曲区間の開始時刻と終了時刻とを検出することにより、高い精度で楽曲区間を検出することが可能となる。

実施の形態３．
本実施の形態３では、ＣＭ放送区間を検出することに特徴がある。図１０は、本実施の形態３の映像音声記録装置を示すシステムブロック図である。また、図１１は、本実施の形態３の楽曲区間の検出、記録方法を示すフローチャートである。映像音声記録装置７００には、記録を行う対象となるテレビジョン放送などの映像信号３と音声信号４の特徴に基づいてＣＭ放送区間を検出するＣＭ検出部７０を備える（ＳＴ９）。ＣＭ検出部７０で検出されたＣＭ放送区間の開始時刻と終了時刻は、楽曲検出部７１に出力される。その他の構成要素については実施の形態１で示したものと同じであり、ここでは説明を省略する。

次に、図１０、図１１を用いて、ＣＭ検出部７０の動作を説明する。まず、ビデオエンコーダ５は、映像信号３をＭＰＥＧ−２方式で符号化圧縮した映像データにおけるＩピクチャなどの映像フレームの輝度信号や色差成分（ＹＵＶフォーマット）等の変化量を監視する。そして、ＣＭ検出部７０は、この変化量が所定の閾値以上となった場合にシーンチェンジが発生したと判定する機能を備える。さらに、ＣＭ検出部７０は、Ａ／Ｄコンバータ６において音声信号４をＰＣＭ方式に変換した音声データにおける音声波形の振幅が所定の閾値以下となった場合を無音と判定する機能も有する。

なお、テレビ放送において、ＣＭ放送区間を除外した番組本編の区間を「本編放送区間」とする。一般的にＣＭ放送区間と本編放送区間との境界、あるいは複数連続するＣＭ放送区間とＣＭ放送区間との境界には、無音とシーンチェンジが同時刻に存在する。また、１つのＣＭ放送は１５秒、３０秒など時間が決まっている。これらの現象に着目し、ＣＭ検出部７０は、シーンチェンジと無音が同期して検出される箇所が所定間隔で連続する場合、この区間がＣＭ放送区間であると判断する。ＣＭ検出部７０は、ＣＭ放送が複数連続する区間の開始時刻と終了時刻の時間情報を示すプレゼンテーションタイム（ＰＴＭ）を算出し、楽曲検出部７１に出力する。

なお、ＣＭ放送の検出手段は、ＣＭ放送区間の開始時刻と終了時刻が検出できる方法であれば手法は問わない。例えば、音声信号４の音声方式が、本編放送に多いモノラル信号からＣＭ放送に多いステレオ信号に変化する箇所を検出してもよい。また、映像信号３において本編放送区間とＣＭ放送区間との境界に現れる黒画面（ブラックフレーム）を検出するものであってもよい。また、音声信号のみから、または映像信号のみからＣＭ放送区間を検出しても良い。

図１２は、本実施の形態３の楽曲検出部７１による検出処理（図１１では、ＳＴ９の「ＣＭ検出」に相当）の過程を示すチャート図である。同図において（１）は、検出された楽曲区間であるラベル８０をプロットしたグラフ８００である。楽曲区間の検出処理の方法については、実施の形態１および２で説明したものを用いる。また、同図（２）は、ＣＭ検出部で検出されたＣＭ放送区間を示すＣＭラベル８２をプロットしたグラフ８０２である。図中、ＣＭ放送区間として検出された区間をＨｉｇｈ、それ以外の区間をＬｏｗとしてラベル軸８６で表している。

そして、同図（３）は、検出処理したラベル８０とＣＭラベル８２とをさらに再検出して得られるＣＭ補正したラベル８４をプロットしたグラフ８０４である。グラフ８００、８０４は共に、楽曲区間を示すラベルが付いた区間をＨｉｇｈ、非楽曲シーンを示すラベルが付いた区間をＬｏｗとしてラベル軸４４で表している。

次に、図１２を用いて、楽曲検出部７１におけるＣＭ放送の検出処理について説明する。一例として、第一の楽曲検出手段と第二の楽曲検出手段による楽曲候補区間から得たラベル８０に示す楽曲区間８１ａ、８１ｂと、ＣＭ検出部７０によりＣＭ放送を検出したＣＭ放送区間８３ａがある場合、楽曲区間８１ａ、８１ｂのうちＣＭ放送区間８３ａと重複する区間を非楽曲シーンとする補正処理を行う。

以下、図１２を用いて具体的に説明する。楽曲区間８５ａの開始時刻Ｄ１は、ＣＭ放送と重複していないが、終了時刻Ｄ２はＣＭ放送区間８３ａと重複している。よって、ＣＭ補正処理後の楽曲区間８５ａの開始時刻は、Ｄ１の時刻を採用してＦ１となり、終了時刻はＣＭ放送区間８３ａの開始時刻Ｅ１を採用してＦ２となる。

同様に、楽曲区間８１ｂの終了時刻Ｄ４はＣＭ放送と重複していないが、開始時刻Ｄ３はＣＭ放送区間８３ａと重複している。よって、ＣＭ補正処理後の楽曲区間８５ｂの開始時刻は、ＣＭ放送区間８３ａの終了時刻Ｅ２を採用してＦ３となり、終了時刻はＤ４の時刻を採用してＦ４となる。ここでは図示しないが、検出処理後の楽曲区間が完全にＣＭ放送区間と重複している場合には、その楽曲区間はＣＭ補正処理により削除されることになる。

このように、ＣＭ放送が検出された区間は楽曲区間から除外されるので、ＢＧＭ（バックグラウンドミュージック）や効果音として楽曲が多用されるＣＭ放送を、本来の音楽番組として視聴したい楽曲と混同して誤検出しない効果がある。

なお、本実施の形態３では、楽曲区間の検出の後、ＣＭ放送区間を除外する方法について説明したが、楽曲候補区間決定後に、それぞれの楽曲候補区間からＣＭ放送区間を除外し、その後に楽曲区間を検出してもよい。また、楽曲候補区間を検出する前にＣＭ放送区間を除外してもよい。

なお、上記実施の形態１から３では、楽曲候補検出手段と補正手段とを別の手段としたが、これら二つの手段の機能を有する一つの楽曲検出手段としてもよい。

また、上記実施の形態１から３では、楽曲区間を含んだマルチメディアデータを記録するとしたが、検出された楽曲区間のみのマルチメディアデータを記録してもよい。

実施の形態１の映像音声記録装置を示すシステムブロック図である。実施の形態１の楽曲区間の検出、記録方法を示すフローチャートである。実施の形態１の第一の楽曲候補検出部を示すブロック図である。実施の形態１の第二の楽曲候補検出部を示すブロック図である。実施の形態１の補正処理を示すチャート図である。実施の形態１の楽曲区間の検出処理を示すチャート図である。実施の形態１の映像音声記録装置のファイル構成図である。実施の形態１のメタデータ構造図である。実施の形態２の楽曲区間の検出処理を示すチャート図である。実施の形態３の映像音声記録装置を示すシステムブロック図である。実施の形態３の楽曲区間の検出、記録方法を示すフローチャートである。実施の形態３のＣＭ放送区間の検出処理を示すチャート図である。

符号の説明

１蓄積メディア、２書込みドライブ、３映像信号、４音声信号、５ビデオエンコーダ、６Ａ／Ｄコンバータ、７オーディオエンコーダ、８マルチプレクサ、９書込みバッファメモリ、１０第一の楽曲候補検出部、１１第二の楽曲候補検出部、１２第一の補正部、１３第二の補正部、１４楽曲検出部、１５メタデータ生成部、１６記録制御部、２０直交変換処理部、２１尤度比較処理部、２２モデルデータ、３０差分演算処理部、４０時間経過（横軸）、４１差異量（縦軸）、４２差異量、４３閾値、４４ラベル軸、４５ラベル、４６ａ、４６ｂ、４６ｃ楽曲候補区間、４７補正処理後のラベル、４８補正処理後の楽曲候補区間、５０補正処理後のラベル、５１ａ、５１ｂ、５１ｃ補正処理後の楽曲候補区間、５２補正処理後のラベル、５３ａ、５３ｂ、５３ｃ、５３ｄ補正処理後の楽曲候補区間、５４検出処理後のラベル、５５ａ、５５ｂ、５５ｃ、５５ｄ楽曲区間、６０検出処理後のラベル、６１ａ、６１ｂ、６１ｃ楽曲区間、７０ＣＭ検出部、７１楽曲検出部、８０検出処理後のラベル、８１ａ、８１ｂ楽曲区間、８２ＣＭラベル、８３ａＣＭ放送区間、８４ＣＭ補正処理後のラベル、８５ａ、８５ｂ楽曲区間、８６ラベル軸、９０ルートディレクトリ、９１マルチメディアディレクトリ、９２メタデータディレクトリ、９３情報管理ファイル、９４マルチメディアデータファイル、９５バックアップファイル、９６メタデータファイル、１００映像音声記録装置、１３０メタデータ、１３１ａメタデータ管理情報、１３１ｂ番組メタデータ情報サーチポインタ、１３１ｃ番組メタデータ情報、１３２ａメタデータ一般情報、１３２ｂ楽曲マップ情報、１３３ａ楽曲マップ一般情報、１３３ｂ楽曲エントリ、１３４ａ楽曲開始時刻情報、１３４ｂ楽曲終了時刻情報、４００差異量のグラフ、４０５ラベルのグラフ、４０７補正処理後のラベルのグラフ、５００補正処理後のラベルのグラフ、５０２補正処理後のラベルのグラフ、５０４検出処理後のラベルのグラフ、６００検出処理後のラベルのグラフ、７００映像音声記録装置。

Claims

音声信号と映像信号とを含む映像音声データを入力するデータ入力ステップと、
前記音声信号から、前記映像音声データの楽曲区間を含む第１の楽曲候補区間を検出する第１の楽曲候補区間検出ステップと、
前記楽曲区間と、前記楽曲区間以外の区間との境界を検出するようにして第２の楽曲候補区間を検出する第２の楽曲候補区間検出ステップと、
前記第１の楽曲候補区間の開始時刻に対応する前記第２の楽曲候補区間の開始時刻を前記楽曲区間の開始時刻とし、前記第１の楽曲候補区間の終了時刻に対応する前記第２の楽曲候補区間の終了時刻を前記楽曲区間の終了時刻とする楽曲区間検出ステップと
を備える楽曲区間検出方法。
前記第２の楽曲候補区間検出ステップでは、前記音声信号の左チャンネルと右チャンネルとの差異に基づいて、前記第２の楽曲候補区間が検出される
請求項１に記載の楽曲区間検出方法。
前記第１の楽曲候補区間検出ステップでは、前記音声信号の特徴が、予め定められた複数の音声クラスモデルのうちの楽曲シーンと判断されるクラスモデルに該当するか否かに基づいて、前記第１の楽曲候補区間が検出される
請求項１又は２に記載の楽曲区間検出方法。
前記音声信号の左チャンネルと右チャンネルとの差異は、
前記音声信号に直交変換を施して得られる直交変換係数に基づいて算出される
請求項２に記載の楽曲区間検出方法。
前記音声信号の特徴は、
前記音声信号に直交変換を施して得られる直交変換係数に基づいて算出される
請求項３に記載の楽曲区間検出方法。
前記第１の楽曲候補区間検出ステップにて検出された第１の楽曲候補区間を補正する第１の補正ステップと、
前記第２の楽曲候補区間検出ステップにて検出された第２の楽曲候補区間を補正する第２の補正ステップと
を備え、
前記楽曲区間検出ステップは、前記第１、第２の楽曲候補区間の代わりに、前記第１、第２の補正ステップで補正された各々の楽曲候補区間に基づいて、前記楽曲期間を検出する
請求項１から５のいずれか１項に記載の楽曲区間検出方法。
前記音声信号と前記映像信号とに基づいて、コマーシャル区間を検出するコマーシャル検出ステップを備え、
前記楽曲区間検出ステップは、前記第１、第２の楽曲候補区間に基づいて検出された前記楽曲区間から、さらに前記コマーシャル区間を除く
請求項１から６のいずれか１項に記載の楽曲区間検出方法。
請求項１から７のいずれか１項に記載の楽曲区間検出方法により検出された楽曲区間を含むデータを記録するデータ記録ステップと、
前記楽曲区間の時間情報を記録する時間情報記録ステップと
を備えるデータ記録方法。
音声信号と映像信号とを含む映像音声データの前記音声信号から、前記映像音声データの楽曲区間を含む第１の楽曲候補区間を検出する第１の楽曲候補区間検出部と、
前記楽曲区間と、前記楽曲区間以外の区間との境界を検出するようにして第２の楽曲候補区間を検出する第２の楽曲候補区間検出部と、
前記第１の楽曲候補区間の開始時刻に対応する前記第２の楽曲候補区間の開始時刻を前記楽曲区間の開始時刻とし、前記第１の楽曲候補区間の終了時刻に対応する前記第２の楽曲候補区間の終了時刻を前記楽曲区間の終了時刻とする楽曲区間検出部と
を備える楽曲区間検出装置。
前記第２の楽曲候補区間検出部は、
前記音声信号の左チャンネルと右チャンネルの差異に基づいて、前記第２の楽曲候補区間を検出する
請求項９に記載の楽曲区間検出装置。
前記第１の楽曲候補区間検出部は、
前記音声信号の特徴が、予め定められた複数の音声クラスモデルのうちの楽曲シーンと判断されるクラスモデルに該当するか否かに基づいて、前記第１の楽曲候補区間を検出する
請求項９又は１０に記載の楽曲区間検出装置。
前記音声信号の左チャンネルと右チャンネルとの差異は、
前記音声信号に直交変換を施して得られる直交変換係数に基づいて算出される
請求項１０に記載の楽曲区間検出装置。
前記音声の特徴は、
前記音声信号に直交変換を施して得られる直交変換係数に基づいて算出される
請求項１１に記載の楽曲区間検出装置。
前記第１の楽曲候補区間検出部にて検出された第１の楽曲候補区間を補正する複数のそれぞれの第１の補正部と
前記第２の楽曲候補区間検出部にて検出された第２の楽曲候補区間を補正する複数のそれぞれの第２の補正部と
を備え、
前記楽曲検出部は、前記第１、第２の楽曲候補区間の代わりに、前記第１、第２の補正部により補正された各々の楽曲候補区間に基づいて、前記楽曲区間を検出する
請求項９から１３のいずれか１項に記載の楽曲区間検出装置。
前記音声信号と前記映像信号とに基づいて、コマーシャル区間を検出するコマーシャル検出部を備え、
前記楽曲区間検出部は、前記第１、第２の楽曲候補区間に基づいて検出された前記楽曲区間から、さらに前記コマーシャル区間を除く
請求項９から１４のいずれか１項に記載の楽曲区間検出装置。
請求項９から１５のいずれか１項に記載の楽曲区間検出装置により検出された楽曲区間を含むデータを記録するデータ記録部を備え、
前記データ記録部は、前記楽曲区間の時間情報を記録すること
を特徴とするデータ記録装置。
互いに異なる複数の基準の各々に基づいて、音声信号と映像信号とを含む映像音声データの前記音声信号から、前記映像音声データの楽曲候補区間を検出する複数のそれぞれの楽曲候補区間検出部と、
前記複数のそれぞれの楽曲候補区間検出部で検出された複数の前記楽曲候補区間に基づいて、楽曲区間を検出する楽曲区間検出部と
を備える楽曲区間検出装置であって、
前記複数の基準に含まれる第１の基準は、前記音声信号の左チャンネルと右チャンネルとの差異に基づいて設定され、
前記複数の基準に含まれ、前記第１の基準とは異なる第２の基準は、前記音声信号の特徴が、予め定められた複数の音声クラスモデルのうちの楽曲シーンと判断されるクラスモデルに該当するか否かに基づいて設定されること
を特徴とする楽曲区間検出装置。