JP2007306327A

JP2007306327A - 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置

Info

Publication number: JP2007306327A
Application number: JP2006132898A
Authority: JP
Inventors: Hidetsugu Suginohara; 英嗣杉之原; Isao Otsuka; 功大塚
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2006-05-11
Filing date: 2006-05-11
Publication date: 2007-11-22
Anticipated expiration: 2026-05-11
Also published as: EP2017827A1; US20100232765A1; JP4442585B2; US8682132B2; EP2017827B1; WO2007132569A1; EP2017827A4

Abstract

【課題】本発明は、テレビジョン放送から楽曲シーンを高精度に検出する方法を提供するものである。
【解決手段】本発明に係る楽曲区間検出方法は、音声信号と映像信号とを含むデータを入力するデータ入力ステップと、各々異なる基準に基づいて、音声信号から入力データの楽曲候補区間を検出する複数の楽曲候補区間検出ステップと、音声信号の特徴の変化、および／または映像信号の特徴の変化に基づいて、入力データの変化点を検出する変化点検出ステップと、検出された複数の楽曲候補区間と、検出された入力データの変化点とに基づいて、楽曲区間を検出する楽曲区間検出ステップとを備える。
【選択図】図１

Description

この発明は、テレビジョン放送等のデータから楽曲区間を検出する方法、及び装置、並びに、この方法により検出された楽曲区間を含むデータを、ＤＶＤ−ＲやＤＶＤ−ＲＷなどを含む記録型ＤＶＤディスク、ハードディスクドライブ、またはＢｌｕ−ｒａｙＤｉｓｃなどの記録媒体に記録する記録方法、及び装置に関するものである。

テレビジョン放送の一つに、所謂「歌番組」や「音楽番組」と呼ばれるジャンルが存在する。音楽番組は出演者による演奏や歌唱、あるいはビデオ映像による楽曲の映像（以下、「楽曲シーン」と記す。なお、この明細書において、「楽曲シーン」とは歌や演奏などの音楽が音声に含まれる映像を全般に指す。）と、司会者などによる楽曲の紹介や出演者とのトーク（会話）ショーなどの楽曲以外の映像（以下、「非楽曲シーン」と記す。）とから構成される場合が多い。

また民間放送であれば、番組の広告主の宣伝や、放送局自らの広告宣伝のためのコマーシャルメッセージ放送（以下、「ＣＭ放送」と記す。）が番組の構成に含まれる場合もある。

ところで、録画した音楽番組を再生する場合、楽曲に集中したい視聴者にとっては非楽曲シーンやＣＭ放送などの楽曲シーン以外を効率よく見飛ばしたい要望がある。また逆に、楽曲には興味が無い視聴者には、楽曲シーンやＣＭ放送を見飛ばしてトークショーなどの非楽曲シーンのみを視聴したいとする要望もある。

このような要望に対し、従来の楽曲検出方法及び記録方法では、音情報の周波数スペクトルのピークが周波数方向に対して時間的に安定している特徴を用いて楽曲シーンを特定し、楽曲の映像音声のみを蓄積している（例えば、特許文献１参照）。

特開平１１−２６６４３５号公報（第５頁、第１図）

しかし、特許文献１に記載されているような楽曲検出方法では、楽曲シーンの検出を単一の手法により判定していたために、ロックや演歌、クラシックなど、曲調の異なる全ての楽曲に対して一様に検出精度を確保することは困難であった。

また、特許文献１に記載されているような楽曲検出方法では、楽曲シーンの始点や終点を精度よく検出することが困難であり、楽曲シーンのうち、開始や終了のシーンが欠けて検出される場合があった。

この発明は、上述のような課題を解消するためになされたもので、テレビジョン放送等の映像信号及び音声信号を含むデータから楽曲シーンを効率よく検出する方法、及び装置を提供するものである。

本発明に係わる楽曲区間検出方法は、
音声信号と映像信号とを含むデータを入力するデータ入力ステップと、
各々異なる基準に基づいて、前記音声信号から、前記入力データの楽曲候補区間を検出する複数の楽曲候補区間検出ステップと、
前記音声信号の特徴の変化、および／または映像信号の特徴の変化に基づいて、前記入力データの変化点を検出する変化点検出ステップと、
前記検出された複数の楽曲候補区間と、前記検出された入力データの変化点とに基づいて、楽曲区間を検出する楽曲区間検出ステップと
を備えることとしたものである。

本発明の楽曲区間検出方法によれば、音声信号に対して各々異なる複数の基準に基づいて楽曲候補区間を検出し、さらにこの検出された複数の楽曲候補区間と入力データの変化点とから楽曲区間を検出するので、楽曲シーンの開始や終了のシーンを精度よく検出でき、視聴者にとって違和感のない楽曲シーンを提供することが可能となる。

実施の形態１．
以下、図を用いて本実施の形態１に係る楽曲検出方法、及び検出装置、並びに記録方法、及び記録装置を説明する。本実施の形態１に係る楽曲検出方法は、音声信号に対して各々異なる複数の基準に基づいて楽曲候補区間を検出し、さらにこの検出された複数の楽曲候補区間と入力データの変化点とから、楽曲区間を検出することに特徴がある。

図１は、本実施の形態１の映像音声記録装置を示すシステムブロック図である。また、図２は、本実施の形態１の楽曲区間の検出、記録方法を示すフローチャートである。まず、図１及び図２を用いて本実施の形態１の映像音声記録装置について概説する。映像音声記録装置２０００には、記録を行う対象となるテレビジョン放送などの映像信号３と音声信号４が入力される（ＳＴ１、９）。次に、映像信号３は、ビデオエンコーダ５においてＭＰＥＧ−２方式などにより符号化圧縮されて、映像データとなる（ＳＴ１０）。

一方、音声信号４がアナログ信号である場合には、アナログデジタル変換機（Ａ／Ｄコンバータ）６によって音声波形を一定時間おきにサンプリングして振幅をデータ化したＰＣＭ（ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）方式などによりデジタル信号に変換される（ＳＴ２）。その後、オーディオエンコーダ７においてドルビーＡＣ−３方式などによって符号化圧縮されて、音声データとなる。

マルチプレクサ８では、映像データと音声データとを多重化してマルチメディアデータを生成する。その後、書き込みバッファ９でマルチメディアデータを逐次取り込んだ後に書き込みドライブ２に送出し、ＤＶＤ−ＲやＤＶＤ−ＲＷディスクあるいは記録型Ｂｌｕ−ｒａｙＤｉｓｃなどのリムーバブルな蓄積メディア１に記録（一連の処理は「録画」とも言われる。）が行われる。映像音声記録装置２０００および書き込みドライブ２の動作は、マイクロプロセッサなどから構成する記録制御部１６によって統括的に管理して制御されている。なお蓄積メディア１と書き込みドライブ２は、ハードディスクドライブ（ＨＤＤ）などのリムーバブルではない蓄積メディアに置き換わっても構わない。

次に、本実施の形態１の映像音声記録装置における複数の楽曲候補区間検出部について説明する。第一の楽曲候補区間検出部１０では、Ａ／Ｄコンバータ６から出力されるＰＣＭ方式のデジタル信号を分析して楽曲候補区間を検出する（ＳＴ３、４）。第一の楽曲候補区間検出部１０で検出された楽曲候補区間は、必要に応じて、第一の補正部１２によって検出誤差が補正される（ＳＴ６）。また、第一の楽曲候補区間検出部１０とは異なる基準を持つ第二の楽曲候補区間検出部１１でも、第一の楽曲候補区間検出部１０と同様に、楽曲候補区間が検出されて（ＳＴ３、５）、第二の補正部１３にて必要に応じて検出誤差が補正される（ＳＴ７）。

第一の楽曲候補区間検出部１０と第一の補正部１２により検出・補正された楽曲候補区間と、第二の楽曲候補区間検出部１１と第二の補正部１３により検出・補正された楽曲候補区間は楽曲検出部１５内の第一の楽曲検出部１６において統合あるいは取捨選択の判断が行われ、第一の楽曲区間が検出される（ＳＴ８）。

一方、映像データに関する変化点検出部であるシーンチェンジ検出部１４は、ビデオエンコーダ５から出力される映像データを分析し、映像内容が切り替わったシーンチェンジの発生を検出する（ＳＴ１１）。

第一の楽曲検出部１６から出力される第一の楽曲区間と、シーンチェンジ検出部１４から出力されるシーンチェンジに関する情報は、楽曲検出部１５内の第二の楽曲検出部１７に入力される。第二の楽曲検出部１７は、シーンチェンジに関する情報を参照しながら、第一の楽曲区間の補正を行い、第二の楽曲区間を出力する（ＳＴ１２）。本実施の形態１では、第二の楽曲区間が検出処理後の最終的な楽曲区間となる。

第二の楽曲検出部１７で検出された楽曲区間は、メタデータ生成部１５にてメタデータファイルに生成されて、書込みバッファメモリ９を介して蓄積メディア１に記録される（ＳＴ１３）。なお、メタデータ生成部１５は、逐次算出されて決定する楽曲区間の楽曲情報を保持するメモリ機能を有している。

なお、映像音声記録装置２０００の記録部の概念としては、書き込みドライブ２のみを含めてもよいし、マルチプレクサ８、メタデータ生成部１５、書き込みバッファ９、記録制御部１６を含めてもよい。

また、ここでは楽曲候補区間を検出する楽曲候補区間検出部１０、１１が２つの場合について記載したが、さらに多くの楽曲候補区間検出部を有する構成であっても良い。また、補正部１２、１３は、楽曲候補区間検出部１０、１１の各々に対して個別に補正を行った後に、楽曲検出部１５に補正後の楽曲候補区間を出力する構成について記載したが、個別の補正は行わずに、一つの補正部により補正された後、楽曲検出部１５に補正後の楽曲候補区間を出力する構成としてもよい。また、楽曲検出部１５にて検出した後の楽曲区間に対して補正を行う構成としてもよい。

また、上記の説明では、楽曲区間の検出を第一の楽曲区間の検出（ＳＴ８）と第二の楽曲区間の検出（ＳＴ１２）とに分けて説明したが、両者をあわせて楽曲区間の検出ステップ（ＳＴ１４）とすることも可能である。

＜第一の楽曲候補区間検出部＞
図３は、本実施の形態１の第一の楽曲候補区間検出部１０を詳細に記した機能ブロック図である。第一の楽曲候補区間検出部１０は、直交変換処理部２０と尤度比較処理部２１、および参照のためのデータテーブルであるモデルデータ２２から構成される。図に示すように、Ａ／Ｄコンバータ６で変換されたデジタル信号の直交変換係数が直交変換処理部２０で算出され、さらに尤度比較処理部２１がモデルデータ２２を参照してラベルが割り当てられた後、第一の補正部１２に出力される。

さらに、第一の楽曲候補区間検出部１０による楽曲候補区間の検出の詳細について述べる。音声信号４がステレオ信号である場合、Ａ／Ｄコンバータ６では右チャンネルと左チャンネルのＰＣＭデータが個々に得られる。このステレオ信号は、民生用レコーダ機器であれば、サンプリング周波数は４８ｋＨｚ、量子化ビット数は１６ｂｉｔなどの品質が使われる。

次に、直交変換処理部２０では、時間領域のＰＣＭデータを周波数領域に直交変換を施す（ＳＴ３）。直交変換には、ＰＣＭデータを時間的に５０％重複するＭＤＣＴ（変形離散コサイン変換）を使用する例について述べる。５０％のオーバーラップを行うため、５１２個のＰＣＭデータをサンプリングすると、２５６個の直交変換係数（ＭＤＣＴ係数）が右チャンネルと左チャンネルの各々について得られる。ステレオ信号の片チャンネル（例えば左チャンネル）、あるいはモノラル信号の１チャンネルに対する直交変換係数から、２５６次元の係数ベクトルが得られる。係数ベクトルは計算量の軽減を目的に、射影変換により次元数の低減を図っても良い。

なお、入力された音声信号を分析するに先立ち、あらかじめ主観評価で顕著に楽曲シーンと判断される音声の係数ベクトルを収集してトレーニングデータとして、係数ベクトルの分布傾向を、混合ガウス分布モデル（ＧＭＭ法）を使用してモデル化しておく。楽曲シーンから作成したものを「音楽クラスモデル」と呼ぶ。この他、顕著な観客の歓声や声援、拍手、笑い声、出演者のトークシーン、などの非楽曲シーンについても同様にトレーニングデータを収集して混合ガウス分布モデルを作成して、複数の音声クラスモデルを用意する。

モデルデータ２２は、これらの音声クラスモデルが参照できるデータテーブルとなる。尤度比較処理部２１では、モデルデータ２２を参照して、記録を行っている音声信号の直交変換係数ベクトルがベクトル空間として最も尤度の高い音声クラスを探して、その音声のクラスを当該区間のラベルとして割り当てる（ＳＴ４）。

すなわち、音楽クラスモデルの周波数特性と尤度の高い音声入力があった場合に楽曲を示すラベルが割り当てられ、その区間が楽曲シーンであるとの検出が可能になる。なお、あらかじめ用意したモデルを参照して入力信号の音声クラスを特定する手法であれば混合ガウス分布モデルによる尤度比較でなくても良く、隠れマルコフ法（ＨＭＭ法）などの統計的な手法を使用しても構わない。

混合ガウス分布モデルによる尤度比較によって楽曲を示すラベルを割り当てる手法は、ステレオ放送やモノラル放送などのチャンネル数に影響を受けずに高い確度で楽曲シーンのみを検出できるという長所がある。その一方、楽曲シーンと非楽曲シーンとの境界を検出する精度は若干曖昧になる短所もある。またトレーニングデータの収集方法によっては、ロックや演歌、クラシックなど、曲調や楽器構成による得手、不得手が生じる場合がある。

＜第二の楽曲候補区間検出部＞
次に、第二の楽曲候補区間検出部１１について説明する。図４は、本実施の形態１の第二の楽曲候補区間検出部１１を詳細に記した機能ブロック図である。第二の楽曲候補区間検出部１１は、直交変換処理部２０と差分演算処理部３０から構成される。図に示すように、Ａ／Ｄコンバータ６で変換されたデジタル信号の直交変換係数が直交変換処理部２０で算出され、さらに差分演算処理部３０で直交変換係数の差異量が算出された後、第二の補正部１３に出力される。

さらに、第二の楽曲候補区間検出部１１による楽曲候補区間の検出の詳細について述べる。音声信号４から直交変換処理部２０を経て２５６個の直交変換係数（ＭＤＣＴ係数）が得られるまでの過程（ＳＴ３）は第一の楽曲候補区間検出部１０で述べたものと共通であり、ここでは省略する。

直交変換係数を（１×２５６）行列として、ｎ行目の右チャンネルの直交変換係数をＭｒ（ｎ）、左チャンネルの直行変換係数をＭｌ（ｎ）とすると、差分演算処理部３０では両チャンネルの直交変換係数行列の差を算出して、係数の二乗和である差異量Ｄを次式で得る。

この処理を継続的に行うことにより、記録を行う番組の差異量Ｄの変化を把握することが出来る（ＳＴ５）。なお、差異量Ｄは直交係数行列の差による係数の二乗和としたが、右チャンネルと左チャンネルの差異が数値化される手法であれば、他の算出式を使用しても構わない。

ここで、差異量は、右チャンネルと左チャンネルの違いを表すものであり、音の広がり感、ステレオ感、などとも言い表せる。一般的に、楽曲シーンでは音の広がり感が大きく、出演者によるトークシーンなどの非楽曲シーンでは音の広がり感が小さいことが分かっている。すなわち、差異量が所定の値（閾値）を超える区間が楽曲シーンであるとの検出が可能になる。

一般的に、楽曲シーンと非楽曲シーンとの境界では差異量が大きく変動することから、左右チャンネルの直交係数行列の差異量を検出する手法は、楽曲区間の開始時刻および終了時刻が高い精度で検出できるという長所がある。その一方、コンサートやライブ会場など常に音の広がり感が高い番組では非楽曲シーンでも高い差異量を検出したり、またモノラル放送では差異量が検出できない等の短所もある。またロックや演歌、クラシックなど、曲調や楽器構成などによる得手、不得手が生じる場合がある。

図５は、本実施の形態１の補正処理（ＳＴ６）の過程を示すチャート図である。同図において、（１）は第二の楽曲候補検出部１１で算出された差異量４２をプロットしたグラフ４００であり、横軸は記録した番組の時間経過４０、縦軸４１は差異量である。

第二の補正部１３では、差異量４２を所定の閾値４３で二値化して、閾値４３を超える区間に楽曲を示すラベル付けを行い、閾値４３を下回る区間は非楽曲を示すラベル付けを行う。同図において、（２）は二値化したラベル４５をプロットしたグラフ４０５で、楽曲を示すラベルが付いた区間をＨｉｇｈ、非楽曲シーンを示すラベルが付いた区間をＬｏｗとしてラベル軸４４で表している。さらに、同図（３）はラベル４５に対して補正の処理を行うことで得られる補正後のラベル４７をプロットしたグラフ４０７である。

ここで、図５を用いて、第二の楽曲候補区間検出部１１で算出された差異量に対する第二の補正部１３による補正処理の詳細について説明する。一例である差異量４２を閾値４３で二値化すると、ラベル４５のように３つの楽曲候補区間４６ａ、４６ｂ、４６ｃが検出される。

そして、次に、二値化により得たラベル４５に対して、次の３通りの補正処理を必要に応じて行う。

（ａ）楽曲候補区間が所定時間Ｔ１（例えば５秒）以下であれば、楽曲にラベル付けされた区間は、非楽曲（Ｌｏｗ）にラベルを変更する。
（ｂ）連続する楽曲候補区間の間隔が所定時間Ｔ２（例えば５秒）以内であれば、非楽曲にラベル付けされた間隔は、楽曲（Ｈｉｇｈ）にラベルを変更する。
（ｃ）上記の（ａ）、（ｂ）のラベル変更を行った後、楽曲にラベル付けされた区間が所定時間Ｔ３（例えば６０秒）を超える区間を補正後の楽曲候補区間とする。なお、（ａ）と（ｂ）はどちらか一方であっても良い。

図５（２）を用いて説明すると、楽曲候補区間４６ｃは間隔Ａは、所定時間Ｔ１を満たないために、補正処理（ａ）によって非楽曲区間となり、楽曲候補区間４６ａと４６ｂとの間隔Ｂは、所定時間Ｔ２よりも短いために、補正処理（ｂ）によってひとつの楽曲候補区間となる。その結果、得られる楽曲候補区間の間隔Ｃは所定時間Ｔ３を越えるので、この補正処理によって楽曲区間４８が得られることになる。

また、第一の楽曲候補区間検出部１０で算出したラベルに対する第一の補正部１２による補正処理について、同じく図５を用いて説明する。第一の楽曲候補区間検出部１０では楽曲を示すラベルと非楽曲を示すラベルが、もとより二値で算出されているので、そのまま図５（２）のラベル４５のプロットとなる。一例として示したラベル４５では、３つの楽曲候補区間４６ａ、４６ｂ、４６ｃが検出されたことになり、これに対して第二の補正部１３と同様に、補正処理（ａ）、（ｂ）、（ｃ）を必要に応じて施すことで、楽曲候補区間４８が得られることになる。

このように、それぞれの補正部において補正処理を施すことにより、出演者によるトークショーでの効果音などの非楽曲シーンにて、瞬間的に楽曲シーンと誤検出されてしまった区間や、あるいは演奏途中の演出としての全休止など楽曲シーンであるにも関わらず部分的に非楽曲シーンと誤検出されてしまった区間などを補正することが可能となる。また、一般的に、楽曲の１コーラスに相当する６０秒などの所定時間を越えて楽曲が検出される区間を楽曲候補区間とすることで、トークショーでの短時間のＢＧＭや宣伝用に楽曲のサビ部分のビデオクリップ紹介、あるいは番組のオープニングやエンディングテーマのような、楽曲シーンとして扱うには適切ではないシーンを除外することもできる。

＜第一の楽曲検出部での処理＞
次に、図１の第一の楽曲検出部１６での処理（ＳＴ８）について説明する。図６は、本実施の形態１の第一の楽曲検出部１６による、第一の楽曲区間の検出処理の過程を示すチャート図である。同図において（１）は、第一の楽曲候補区間検出部１０で算出されたラベルに対し、第一の補正部１２によって補正処理を施して得たラベル５０をプロットしたグラフ５００である。また同じく、同図（２）は、第二の楽曲候補区間検出部１１で算出された差異量に対し、第二の補正部１３によって補正処理を施して得たラベル５２をプロットしたグラフ５０２である。同図（３）は、ラベル５０とラベル５１とに基づいて検出処理したラベル５４をプロットしたグラフ６００である。グラフ５００、５０２、６００はいずれも、楽曲を示すラベルが付いた区間をＨｉｇｈ、非楽曲シーンを示すラベルが付いた区間をＬｏｗとしてラベル軸４４で表している。

一例として、図に示すように、ラベル５０に示す楽曲候補区間５１ａ、５１ｂ、５１ｃと、ラベル５２に示す楽曲候補区間５３ａ、５３ｂ、５３ｃ、５３ｄが検出されているとする。ここでは、ラベル５０を基点とする場合について説明する。

まず、楽曲候補区間５１ａの開始時刻Ａ１の近傍でラベル５２の楽曲候補区間の開始時刻を検索すると、Ｂ１が見つかる。開始時刻Ａ１とＢ１が同じであれば、検出後の楽曲区間６１ａの開始時刻はＰ１で決定する。次に、楽曲候補区間５１ａの終了時刻Ａ２の近傍でラベル５２の楽曲候補区間の終了時刻を検索するとＢ２が見つかるので、検出後の楽曲区間６１ａの終了時刻はＢ２の時刻を採用してＰ２となる。

さらに、楽曲候補区間５１ｂの開始時刻Ａ３の近傍で、ラベル５２の楽曲候補区間の開始時刻を検索するとＢ３が見つかるので、検出後の楽曲区間６１ｂの開始時刻はＢ３を採用してＰ３となる。同様に、終了時刻Ａ４については終了時刻Ｂ４が見つかるので、検出後の楽曲区間６１ｂの終了点はＢ４を採用してＰ４となる。

なお、この時、Ａ３を基点としてラベル５２における楽曲候補区間の開始時刻を検索する範囲はＡ２からＡ４までの時刻とし、Ａ４を基点としてラベル５２における楽曲候補区間の終了時刻を検索する範囲はＡ３からＡ５までとする。この場合、仮に、ラベル５２の楽曲候補区間が存在しない場合には、ラベル５０の楽曲候補区間が検出後の楽曲区間となる。

以下同様に、楽曲区間６１ｃについても検出処理によって開始時刻Ｐ５と終了時刻Ｐ６が決定する。なお、ラベル５２の楽曲候補区間５３ｃについては、基点となるラベル５０の楽曲候補区間が存在しないために、検出処理によって削除されることになる。

このように、図６では、高い確度で楽曲シーン、即ち楽曲区間の途中を検出できるが、楽曲シーンと非楽曲シーンとの境界を検出する精度は若干曖昧になるとの検出特性を有する第一の楽曲候補区間検出手段１０により検出された楽曲候補区間を基準とする。そして、楽曲区間の開始時刻や終了時刻が高い精度で検出できる一方で非楽曲シーンを検出してしまう検出特性を持つ第二の楽曲候補区間検出手段１１により検出された楽曲候補区間の有無を検出する。

つまり、検出時に、両者の検出特性を考慮して、楽曲区間の開始時刻及び終了時刻を、第二の楽曲候補区間検出手段１１により検出された楽曲候補区間の開始時刻と終了時刻を優先的に採用する検出処理を行う。これにより、非楽曲シーンの誤検出を低減できると共に楽曲区間の開始時刻と終了時刻とを高い精度で検出することが可能となる。

すなわち、両者が互いに補完的な関係にある検出特性を考慮して、楽曲区間の途中である楽曲シーンを基準に楽曲区間の開始時刻と終了時刻とを検出することにより、高い精度で楽曲区間を検出することが可能となる。

なお、本実施の形態１では、図６に示したように、一方の楽曲候補区間を基準とし、他の楽曲候補区間を参照して第一の楽曲区間を検出する方法について説明した。しかし、この方法以外にも、複数の楽曲候補区間を論理ＯＲ（論理和）で検出する方法を用いてもよい。この場合、複数の楽曲検出手段によって異なる判断基準で検出された楽曲候補区間を全て第一の楽曲区間とするので、採用する楽曲検出手段に応じて、広い範囲のジャンルの楽曲を検出することが可能となる。また、検出された楽曲候補期間は第一の楽曲区間内に含まれるので、楽曲シーンが削除されてしまうことがない。

＜シーンチェンジ検出部＞
ところで、上記で説明したように、第一の楽曲区間の検出は音声データの情報のみに基づいて行われている。そこで、映像データの情報を考慮した楽曲区間の検出が可能となるように、本実施の形態１の映像音声記録装置２０００は、映像信号に関する変化点検出部であるシーンチェンジ検出部１４を備える。これにより、映像のシーンとしては連続性を持っている第一の楽曲区間の途中を始点あるいは終点とした楽曲シーンにも対応可能となる。以下、第一の楽曲区間の始点、あるいは終点を、映像データから検出した際に補正する方法について述べる。

図７は、本実施の形態１のシーンチェンジ検出部１４を詳細に記した機能ブロック図である。シーンチェンジ検出部１４は、ビデオデコーダ７１、ヒストグラム生成器７２、ヒストグラムバッファＡ７３、ヒストグラムバッファＢ７４、および差異判定部７５から構成される。

図に示すように、ビデオデコーダ７１は、ビデオエンコーダ５で例えばＭＰＥＧ−２プログラムストリームに符号化されたビデオストリームを各フレーム単位で復号化し、各画素がＹＵＶ各２５６階調で表現される映像データを生成するものである。ヒストグラム生成器７２は、各画素がＹＵＶ２５６階調で表現されている映像データに対して、ＹＵＶ各２５６値を要素とし、該当フレーム内でそのＹＵＶ要素分布に一致した画素数を値とするヒストグラム分布（以下「ヒストグラムデータ」と記す。）を生成する。

ヒストグラムバッファＡ７３、およびヒストグラムバッファＢ７４は、ヒストグラム生成器７２によって生成されたヒストグラムデータを保持する機能を有しており、後述の差異判定部７５に対して必要に応じてヒストグラムデータを提供するためのバッファである。このように、本実施の形態１のシーンチェンジ検出部１４が二つのバッファを持つのは、フレーム間の映像データの差を検出するためである。

差異判定部７５は、ヒストグラムバッファＡ７３およびヒストグラムバッファＢ７４に保持された２つのヒストグラムデータを比較し、その差が所定値以上であればシーンチェンジが発生したと判定する。具体的なシーンチェンジの判定方法は以下の通りである。まず、ヒストグラムバッファＡ７３のヒストグラム値Ｈａ（ｙ、ｕ、ｖ）と、ヒストグラムバッファＢ７４のヒストグラム値Ｈｂ（ｙ、ｕ、ｖ）のＹＵＶ同一要素値ごとに差の絶対値をとる。さらに、算出した全ての要素値の差を総和する。この総和値を２つのフレーム間の差異値と定義し、この差異値があらかじめ設定しておいた閾値以上の場合にシーンチェンジが発生したと判定する。シーンチェンジの発生が検出された場合、シーンチェンジに関する時間情報が第二の楽曲区間検出部１７に出力される。

＜シーンチェンジ検出部の処理＞
次に、フレームデータＰｉと、フレームデータＰｉの時間的に次に表示されるフレームデータＰｊとの間のシーンチェンジの検出方法について、さらに具体的に説明する。ここでは説明の簡略化のため、例えばＭＰＥＧ−２のデコードフレームオーダーは、ビデオデコーダ７１から出力された時点において表示オーダーに並び替えられているものとする。

さて、ビデオデコーダ７１から出力されたＹＵＶ２５６階調で表現された映像データはヒストグラム生成器７２に入力される。ヒストグラム生成期７２では、Ｙ、Ｕ、Ｖ各２５６階調で表現されるヒストグラムを下記の形式で表す。

さらに、フレームデータＰｉ、およびフレームデータＰｊのそれぞれのヒストグラムを下記の形式で表す。

先行するフレームデータＰｉがビデオデコーダ７１から出力された後、ヒストグラム生成器７２によってフレームデータＰｉのヒストグラムＨｉ(ｙ、u、ｖ)が生成され、ヒストグラムバッファＡ７３に記憶される。次に、フレームデータＰｉに後続するフレームデータＰｊがビデオデコーダ７１で復号化されると、ヒストグラムＨｊ(ｙ、u、ｖ)が生成され、今度はヒストグラムバッファＢ７４に記憶される。２つのヒストグラムＨｉ(ｙ、u、ｖ)およびＨｊ(ｙ、u、ｖ)がヒストグラムバッファＡ７３およびヒストグラムバッファＢ７４に記憶されると、差異判定部７５は、下記に示す差異値Ｄｖを求める。

上記差異値Ｄｖは０から最大１までの値をとり、その値が大きいほど２つのフレーム間の映像の変化度合いが大きいものと判定できる。例えば、フレームデータＰｉと、フレームデータＰｊが全く同じ映像であれば、Ｄｖ＝０となる。一方、全く違う映像、例えばフレームデータＰｉが真っ白、フレームデータＰｊが真っ黒であればＤｖ＝１となる。よって、例えば、閾値を０．８とし、差異値Ｄが閾値０．８を越えた場合に、シーンチェンジが発生したと判定する構成する。差異判定部７５は、フレームデータＰｉとフレームデータＰｊの間でシーンチェンジが発生したと判定した場合、後続のフレームであるフレームデータＰｊでシーンチェンジが発生したものとして、フレームデータＰｊのＰＴＭ、もしくはフレーム番号などの時間情報を第二の楽曲区間検出部１７に出力する。

上記操作をビデオエンコーダ５が出力するフレームデータに対して継続的に行うことにより、映像データのシーンチェンジを検出することが可能になる。

＜第二の楽曲区間検出部＞
図８は、本実施の形態１の第二の楽曲区間検出部１７における処理を説明した図であり、第一の楽曲区間検出部１６で検出された第一の楽曲区間を、シーンチェンジ検出部１４で得られたシーンチェンジ情報を用いて、その始点と終点を補正する処理を示す（ＳＴ１２）。同図において、（１）は第一の楽曲区間検出部１６で検出された第一の楽曲区間を表すラベル６０をプロットしたグラフ６００である。同図（２）は、シーンチェンジ検出部１４で検出されたシーンチェンジの時間位置をラベル８５としてプロットしたグラフ７００で、横軸は録画した番組の時間経過４０、縦軸８６はシーンチェンジの有無を表す。同図（３）は、第二の楽曲区間を示すものであり、第一の楽曲区間を表すラベル６０を、シーンチェンジの時間位置を表すラベル８５を用いて補正して得られるラベル１００をプロットしたグラフ１０００である。グラフ６００、１０００はいずれも、楽曲を示すラベルが付いた区間をＨｉｇｈ、非楽曲シーンを示すラベルが付いた区間をＬｏｗとしてラベル軸４４で表している。

図８を用いて、第二の楽曲区間検出部１７における、シーンチェンジ情報を用いた第二の楽曲区間の検出処理について説明する。一般に、楽曲区間と非楽曲区間は、それぞれ独立したシーンとして、その変化点（区切り目）にシーンチェンジが発生することが多い。そこで、検出した第一の楽曲区間の始点および終点をシーンチェンジが発生した時刻に補正することで、楽曲区間の開始点と終了点を極めて正確に抽出することが可能になる。

一例として、ラベル６０から得られる第一の楽曲区間６１ａ、６１ｂ、６１ｃが検出されている場合について説明する。第二の楽曲区間検出部１７は、これらの楽曲区間の始点あるいは終点Ｐ１、Ｐ２、Ｐ３、Ｐ４、Ｐ５、Ｐ６の近傍にある、シーンチェンジが発生した時刻を用いて、楽曲区間の始点あるいは終点を決定する。なお、ここでいう「近傍」とは、ある基準となる時刻から、その前後に決まった時間幅をもった区間を表す。

以下、図８を用いて具体的に説明する。まず、楽曲区間６１ａの開始時刻Ｐ１に対し、その前後（例えば前後２秒間）にシーンチェンジ点がないか検索すると、Ｐ１よりも前の時刻（時間軸左方向）のＳ１でシーンチェンジがあることがわかる。この時、補正後の楽曲区間１０１ａの開始時刻Ｇ１として時刻Ｓ１を採用する。同様に、楽曲区間６１ａの終了時刻Ｐ２の前後でシーンチェンジを検索すると、Ｐ２と同時刻であるＳ２でシーンチェンジがあることがわかる。この時、補正後の楽曲区間１０１ａの終了時刻Ｇ２として時刻Ｓ２（＝Ｐ２）を採用する。

さらに、楽曲区間６１ｂの開始時刻Ｐ３の前後でシーンチェンジを検索すると、Ｓ３ａとＳ３ｂの２つのシーンチェンジが見つかる。この時、補正後の楽曲区間１０１ｂの開始時刻Ｇ３として、よりＰ３に近い時刻である時刻Ｓ３ｂを採用する。同様に、楽曲区間６１ｂの終了時刻Ｐ４の前後でシーンチェンジを検索すると、前後２秒間の範囲にはシーンチェンジが見つからない。この場合、楽曲区間が延長する方向、すなわち終点Ｐ４に対し後ろの時刻に対してさらに（例えば１０秒間）シーンチェンジがないかの検索を行なう。すると、時刻Ｓ４にシーンチェンジが見つかるので、補正後の楽曲区間１０１ｂの終了時刻Ｇ４としてＳ４を採用する。

さらに、楽曲区間６１ｃの開始時刻Ｐ５の前後でシーンチェンジを検索すると、その前後にはシーンチェンジが見つからない。そこで、楽曲区間が延長する方向、すなわち始点Ｐ５に対し前の時刻に対してさらに（例えば１０秒間）シーンチェンジを検索してもシーンチェンジが見つからない。この場合、補正後の楽曲区間１０１ｃの終了時刻Ｇ５としてＰ５を採用する。楽曲区間６２ｃの終了時刻Ｐ６についても同様に、その前後でのシーンチェンジ発生時刻Ｓ６を補正後の楽曲区間１０１ｃの終了時刻Ｇ６として採用する。

以上説明した方法により、最終的な楽曲区間である第二の楽曲区間を決定する。これにより、シーンの変化点が第二の楽曲区間の始点・終点になるため、楽曲区間の開始点と終了点を正確に抽出することが可能になると共に、視聴者にとって違和感のないシーンの区切り目を始点・終点とした一連の楽曲シーンを検出することが可能になる。

次に、図９、１０を用いて、検出された楽曲区間の楽曲情報をメタデータ生成部１５にてメタデータファイルに生成する方法を説明する。図９は、本実施の形態１の映像音声記録装置のファイル構成図である。すなわち、図９は、蓄積メディア１の論理ファイル構造を示したものであり、論理的に階層構造を成すディレクトリ構造の最上位階層にルートディレクトリ９０が配置され、そのルートディレクトリ９０の下位層に、マルチメディアディレクトリ９１、およびメタデータディレクトリ９２が配置されている。

マルチメディアディレクトリ９１には、蓄積メディア１に記録されている番組の管理番号を含む管理情報を記述した情報管理ファイル９３、番組の映像信号または音声信号を符号化圧縮して多重化したマルチメディアデータファイル９４、さらに情報管理ファイル９３などのバックアップファイル９５が配置されている。

一方、メタデータディレクトリ９２には、番組を記録してマルチメディアデータファイル９４が生成された際に検出された楽曲区間の楽曲情報が、独立した論理ファイルで成るメタデータファイル９６に記述され、配置される。

なお、図９では、マルチメディアデータファイル９４とメタデータファイル９６とが個別のディレクトリに配置する例を示した。しかし、同一のディレクトリ内に配置されたり、メタデータファイル９６がルートディレクトリ９０に直接配置されてもよい。また、マルチメディアデータファイル９４、あるいはメタデータファイル９６は、記録した番組の数に応じて分割されたり、ファイル容量の制限などによって複数に分割されてもよい。

さらに、本実施の形態１におけるメタデータファイル９６は、そのデータ形式は問わず、テキスト形式であってもバイナリ形式であってもよい。また、メタデータファイル９６に記述されているデータの改ざんや、情報の流出を阻むために、暗号処理を施してもよい。

また、管理情報ファイル９３に、所望の番組に対応するメタデータファイル９６が存在しているか否か、あるいはメタデータファイル９６に有効な値が存在するか否か、などの情報を記述しておいてもよい。このような情報が管理情報ファイル９３に記録されていると、番組を再生する際に、当該情報を参照することで、素早く楽曲情報の存在あるいは有効性を判断することができる。

このように、メタデータファイル９６をマルチメディアデータファイル９４に重畳、多重化せずに独立した論理ファイルとする。これにより、番組を再生する際に、ファイル容量が大きなマルチメディアデータファイル９４を走査することなく、比較的ファイル容量の小さなメタデータファイル９６を読み出すことで楽曲情報を素早く取得することが可能となる。
なお、メタデータファイル９６をマルチメディアデータファイル９４に重畳してもよい。この場合は、ファイル数を少なくでき、また、マルチメディアデータと同一のファイルなので、楽曲情報を伴うマルチメディアデータをリムーバブルな記録媒体に記録して他機器で編集やコピーなどのファイル操作を行う際、メタデータが散逸することを抑制できる。

図１０は、階層構造である本実施の形態１のメタデータ構造図である。図において、（Ａ）は、データ構造の最上位の階層のメタデータ１３０である。

次に、図１０（Ｂ）を用いて、メタデータ１３０のデータ構造を説明する。メタデータ全体の情報は、メタデータ管理情報１３１ａに統括的に記述されている。この階層には、楽曲情報を持つ番組の数（１からｎ個）に応じた番組メタデータ情報１３１ｃと、番組メタデータ情報１３１ｃを個々にアクセスするためのアドレス情報である番組メタデータ情報サーチポインタ１３１ｂが配置される。

ここで、蓄積メディア１に楽曲情報を持つ番組が存在しない場合には、メタデータファイル９６を作成しなくてもよく、また、メタデータ管理情報１３１ａに番組メタデータ情報１３１ｃを０個と記述したメタデータファイル９６を用意しても良い。

次に、図１０（Ｃ）を用いて、番組メタデータ情報１３１ｃのデータ構造を説明する。この階層には、メタデータ一般情報１３２ａと、楽曲マップ情報１３２ｂが配置される。メタデータ一般情報１３２ａには、楽曲マップ情報１３２ｂをアクセスするためのアドレス情報などの他、番組メタデータ情報１３１ｃが対応するべき番組の管理番号が記述される。これは音楽番組以外を記録した時など、番組によっては楽曲情報を生成しない場合もあるために、情報管理ファイル９３で管理される番組の管理番号と番組メタデータ情報１３１ｃの番号とが一致しない場合に、番組とメタデータとを関連付けるためのテーブルである。

次に、図１０（Ｄ）を用いて、楽曲マップ情報１３２ｂのデータ構造を説明する。この階層には、楽曲マップ一般情報１３３ａと、検出した楽曲の数（１からｍ個）に応じた楽曲エントリ１３３ｂが配置される。楽曲マップ一般情報１３３ａには、楽曲エントリ１３３ｂを個々にアクセスするためのアドレス情報が記述される。

最後に、図１０（Ｅ）を用いて、楽曲エントリ１３３ｂのデータ構造を説明する。この階層には、検出した楽曲区間の楽曲開始時刻情報１３４ａと、楽曲終了時刻情報１３４ｂが配置される。時刻情報には、プレゼンテーションタイム（ＰＴＭ）などが使用される。

なお、ここでは、第二の楽曲区間の情報をメタデータとして保存する場合について説明したがこれに限られるものではない。例えば、メタデータとして、第一の楽曲区間検出部１６で得られる第一の楽曲区間の情報と、シーンチェンジ検出部１４で得られるシーンチェンジ情報とを保存し、再生時に、第二の楽曲区間検出部１７において第二の楽曲区間の検出処理を行なっても良い。

以上説明したように、本実施の形態１では、楽曲区間の開始時刻と終了時刻をメタデータに記述する方法の例を述べたが、記録した番組から楽曲情報が特定できるデータ構造であれば良い。例えば、番組を１秒間などの固定時間で離散化した時に楽曲シーンである区間はＨｉｇｈ（１）、非楽曲シーンである区間はＬｏｗ（０）とするなど二値化した結果を楽曲マップ情報として列挙するデータ構造としても、同等の機能が実現できる。

これにより、蓄積メディア１に記録した番組を再生する際にはメタデータファイル９６からメタデータ１３０を読み出し、番組に存在する楽曲の楽曲情報を把握することができる。したがって、楽曲情報に基づく再生制御を行うことで、楽曲区間のみを連続再生したり、楽曲区間の開始点あるいは終了点に手動でスキップする機能など、効率的に楽曲シーンを視聴することが可能となる。

すなわち、従来は、非楽曲シーンやＣＭ放送（ＣＭ放送については、実施の形態３で説明する。）を見飛ばすには、手動操作による早送りや早戻し再生によって楽曲シーンの先頭や終端などの境界を検索する必要があった。

また、記録媒体に長時間記録された番組から楽曲シーンを視聴したい場合、あるいは非楽曲シーンを視聴したい場合などは、視聴者が早送り（フォワードスキャン）や早戻し（バックワードスキャン）映像を見ながら所望のシーンを探したり、１５秒などの固定時間のスキップによって所望のシーンが現れるまで操作を繰り返したりしなければならない。そのため、楽曲シーンの始点や終点の箇所を誤って行き過ぎることなく再生するには、予め楽曲シーンの箇所を正確に把握していなければ至難であった。特に、初見の番組を再生する場合においては、番組中のどこに楽曲シーンがあるのかわからないために、番組の冒頭から楽曲シーンを検索して行く手間を要していた。

しかし、本実施の形態１により記録された番組を再生する場合は、上記のような操作をする必要が無い。すなわち、再生時には初見の番組でも楽曲区間をあらかじめ把握することができるので、楽曲区間のみの連続再生や、楽曲区間の始点や終点への手動でのスキップ等の再生制御が可能となる。

なお、本実施の形態１では、映像信号３と音声信号４としてテレビジョン放送を例に説明したが、例えば、別の映像再生装置を使って外部入力端子から供給される映像音声信号であっても良い。あるいは、リムーバブルな蓄積メディア１や映像記録再生装置に内蔵したハードディスク（図示なし）などに記録している映像音声データを読み出し、符号化圧縮した音声データをデコード（複号）処理してＰＣＭ信号を得て楽曲情報を検出しても良い。この方法であれば、記録時にリアルタイムで楽曲区間の検出処理を行う必要が無いので、記録制御部の処理能力が低い場合であっても、記録後に時間を掛けて検出が可能となる。さらに、既に蓄積メディアに記録済の番組からも楽曲情報を得ることが出来る。

実施の形態２．
本実施の形態２は、音声信号の情報を用いて、シーンの変化点を検出することに特徴がある。図１１は、本実施の形態２の映像音声記録装置２００１を示すシステムブロック図である。また、図１２は、本実施の形態２の楽曲区間の検出、記録方法を示すフローチャートである。映像音声記録装置２００１には、録画を行う対象となるテレビジョン放送などの音声信号４に基づいて、シーンの変化点を検出する音声レベル検出部８０を備える（ＳＴ１５）。音声レベル検出部１５では音声レベルの変化から、会話の区切り目等のシーンの変化点を検出し、シーンの変化点が発生した時間位置をプレゼンテーションタイム（ＰＴＭ）などの時間情報として第二の楽曲区間検出部１７に出力する。その他のものは実施の形態１で示したものと同じであり、ここでは説明を省略する。

＜音声レベル検出部＞
図１３は、本実施の形態２の音声レベル検出部８０（ＳＴ１５）を詳細に示した機能ブロック図である。音声レベル検出部８０は、直交変換処理部２０とエネルギー算出処理部２３、および変化点判定部２４から構成される。

次に、各構成要素の機能について説明する。直交変換処理部２０は、Ａ／Ｄコンバータ６で変換された音声に関するデジタル信号の直交変換係数を算出する。算出された係数値は、エネルギー算出処理部２３においてエネルギーが算出される。最後に、変化点判定部２４において、エネルギーの変化から変化点を検出し、第二の楽曲区間検出部１７に出力する。

図１３を用いて、音声レベル検出部８０による、シーンの変換点を検出する処理の詳細について説明する。まず、入力される音声信号４がステレオ信号である場合、Ａ／Ｄコンバータ６では右チャンネルと左チャンネルのＰＣＭデータが個々に得られる。例えば、民生用レコーダ機器であれば、サンプリング周波数は４８ｋＨｚ、量子化ビット数は１６ｂｉｔなどの品質が用いられる。

次に、直交変換処理部２０では、これら時間領域のＰＣＭデータを周波数領域に変換する直交変換を行なう。直交変換には、例えばＭＤＣＴ（変形離散コサイン変換）を用いる。ＭＤＣＴを用いた場合、５１２個のＰＣＭデータをサンプリングすると、２５６個の直交変換係数値（ＭＤＣＴ係数）、すなわち２５６次元の係数行列が、右チャンネルと左チャンネルの各々について算出される。

次に、エネルギー算出処理部２３は、直交変換処理部２０で算出された直交変換係数値を用いて、音声信号のエネルギーを算出する。エネルギーは、直交変換係数値の二乗和を算出することで求める。なお、この時、２５６次元の係数値全てを用いるのではなく、特定の係数値のみを用いて、特定の周波数帯域における音声信号のエネルギーを算出してもよい。２５６次元の係数行列は、その要素ごとがある周波数帯における音に対応している。従って、例えば、人の声の周波数帯域として顕著な２００Ｈｚから４ｋＨｚの周波数帯域に相当する直交変換係数値を用いてエネルギーを算出することで、人の声に相当する音のエネルギーを算出することが出来る。

エネルギー算出処理部２３で得られたエネルギーは、変化点判定部２４に出力される。変化点判定部２４では、エネルギーがある値（閾値）以下となった状態が一定の区間（例えば２００ミリ秒）以上連続して検出された場合を会話の区切り目に基づく「シーンの変化点」と定義しておき、入力される音声信号４を評価して、シーンの変換点の検出を行う。

例えば、上記の説明のように、人の声の周波数帯に相当する直交変換行列値を用いてエネルギーを算出し、その変化点を検出した場合、これを会話の区切り目として扱うことができる。なお、シーンの変化点の検出に用いる閾値であるが、ＢＧＭなど音楽は広帯域の周波数成分を含むため、上記の説明のように人の声の周波数帯に注目した場合でも、一定の音を含む。したがって、このオフセットを考慮した閾値を用いることで、会話の区切り目を検出することが可能となる。検出されたシーンの区切り目は、シーンの変化点が発生した時間位置を特定し得るプレゼンテーションタイム（ＰＴＭ）などの時間情報として出力する。

なお、特定周波数でノイズが発生することが予め予測可能な場合は、エネルギー算出処理部２３のエネルギーの算出処理において、該当する係数値を除外して二乗和を求めても良い。例えば、ＮＴＳＣ放送を録画する場合には、受信環境によって垂直走査周波数６０Ｈｚや水平走査周波数１５．７５ｋＨｚとのクロストークによって、音声信号にノイズが発生する場合がある。このような特定周波数のノイズの影響を除去するため、該当する帯域のＭＤＣＴ係数値を減衰させる、あるいはマスクするなどのフィルタ処理を行う。なお、このフィルタ処理は、第一の楽曲候補区間検出部１０や第二の楽曲候補区間検出部による音声識別処理において行うことも可能である。

また、本実施の形態２では、音声信号４からシーンの変化点を検出する手法として、音声データに関するエネルギーを用いる方法について述べたが、これに限られるものではない。例えば、Ａ／Ｄコンバータ６を介さずに、アナログの音声信号４を直接取得して、信号振幅からシーンの変換点を検出する方法を用いてもよい。また、アナログの音声信号４に対して、バンドパスフィルタ回路を用いて特定の周波数帯だけを取り出すことも可能である。そして、バンドパスフィルタを通過したアナログ音声信号に対してコンパレータを用い、ある基準レベルを閾値として入力信号を二値に分離し、コンパレータの出力をマイコンで監視してシーンの変化点が発生した時間位置や継続時間をタイマーでカウントする方法を用いてもよい。

図１４は、本実施の形態２の第二の楽曲区間検出部１７における処理を説明した図であり、第一の楽曲区間検出部１６で検出された第一の楽曲区間を、音声レベル検出部８０で得られたシーンの区切り目を用いて、その始点と終点の補正する処理を示す（図１２のＳＴ１２）を示すチャート図である。同図において、（１）は第一の楽曲区間検出部１６で検出された楽曲区間を示したラベル６０をプロットしたグラフ６００である。検出処理の方法については、実施の形態１で説明したものを用いる。また、同図（２）は、音声レベル検出部８０で検出されたシーンの変化点の一例として、会話の区切り目の時間位置を示したラベル８７をプロットしたグラフ８００であり、横軸は録画した番組の時間経過４０、縦軸８８は会話の区切りの有無を表す。同図（３）は、第二の楽曲区間を示すものであり、第一の楽曲区間を表すラベル６０を、会話の区切り目の時間位置を表すラベル８０を用いて補正して得られるラベル１１０をプロットしたグラフ１１００である。グラフ６００、１１００はいずれも、楽曲を示すラベルが付いた区間をＨｉｇｈ、非楽曲シーンを示すラベルが付いた区間をＬｏｗとしてラベル軸４４で表している。

図１４を用いて、第二の楽曲区間検出部１７における、シーンの変化点を用いた楽曲区間の検出処理について説明する。一般に、楽曲区間と非楽曲区間の間には、司会者による曲の紹介などがあった後に楽曲が始まる場合など、会話の区切りが発生する。このように、楽曲区間の始点あるいは終点に会話の区切り目を用いることで、楽曲区間の開始点と終了点を正確に抽出することが可能になる。

一例として、ラベル６０から得られる第一の楽曲区間６１ａ、６１ｂ、６１ｃが検出されている場合について説明する。第二の楽曲区間検出部１７は、これらの楽曲区間の始点あるいは終点Ｐ１、Ｐ２、Ｐ３、Ｐ４、Ｐ５、Ｐ６の近傍にある、会話の区切りが発生した時刻を使って楽曲区間の始点あるいは終点を決定する。この始点あるいは終点の補正処理は、実施の形態１で説明したものと同じであるため、ここでは説明を省略する。

このように、会話の区切りを用いて、最終的な楽曲区間である第二の楽曲区間を決定する。これにより、データ量が多いために演算負荷が高くなる映像データを用いることなく、音声データだけを用いて、楽曲区間の開始点と終了点を正確に抽出することが可能になる。

また、このようにして楽曲区間を決定することで、会話の途中から再生が始まったり、会話の途中で再生が終わったりすることがなくなるため、会話が途切れて内容が分からないなどといった違和感のない再生結果を得ることができる。

実施の形態３．
本実施の形態３では、テレビジョン放送がデジタル放送であった場合について説明する。図１５は、本実施の形態３の映像音声記録装置２００２を示すシステムブロック図である。テレビジョン放送が地上波デジタル放送やＢＳデジタル、ＣＳデジタル放送などのデジタル放送の場合、装置に入力される信号は映像データと音声データが重畳して符号化圧縮されている。したがって、デマルチプレクサ３０１によってデジタル放送信号３００を映像データ３０２と音声データ３０３に分離する。分離された映像データ３０２はシーンチェンジ検出部１４で解析される。また、分離された音声データ３０３に対しては第一の楽曲候補区間検出部１０および第二の楽曲候補区間検出部１１において、楽曲候補区間の検出が行なわれる。デジタル放送信号３００はすでにデジタルデータとなっているため、書き込みバッファ９を介して書き込みドライブ２によって蓄積メディア１に記録される。これ以外の部分は実施の形態１と同じであるため、ここでは説明を省略する。

次に、デマルチプレクサ３０１における処理について説明する。例えば、地上波デジタル放送の場合、デマルチプレクサ３０１では、ＭＰＥＧ２−ＴＳ（トランスポートストリーム）として映像データと音声データが重畳して符号化圧縮されているデータから、例えばＭＰＥＧ―２方式の映像データ３０２とＭＰＥＧ−２Ａｕｄｉｏ（ＡＡＣ）方式の音声データ３０３を分離して出力する。この時、音声データ３０３については、デコード処理を行なってＰＣＭ方式（例えばサンプリング周波数は４８ｋＨｚ、量子化ビット数は１６ｂｉｔなどの品質）として出力することで、これ以降の処理を実施の形態１と同様に扱うことが出来る。

一方で、音声信号を符号化圧縮する際には、符号化効率を上げるために多くの場合、時間領域から周波数領域への変換処理が行なわれる。このため、符号化圧縮された音声信号には周波数領域における情報が含まれている。例えば、ＭＰＥＧ−２Ａｕｄｉｏ（ＡＡＣ）方式であれば、周波数領域への変換処理としてＭＤＣＴが行なわれている。そこで、第一の楽曲候補区間検出部１０および第二の楽曲候補区間検出部１１の直交変換処理部２０において、符号化圧縮された音声データから直接、周波数領域における情報を抽出して、直交変換係数値を求めても良い。

このように、図１５に示したような装置の構成にすることで、地上波デジタル放送やＢＳデジタル、ＣＳデジタル放送などのデジタル放送において符号化圧縮して重畳された映像データと音声データを受信して録画する場合にも、楽曲区間を高い精度を確保して検出することができると共に、視聴者にとって違和感のないシーンの区切り目を始点・終点とした一連の楽曲シーンを検出することができる。

実施の形態４．
本実施の形態４では、テレビジョン放送ではなく、リムーバブルな蓄積メディア１に記録されている符号化圧縮された映像音声データを入力とすることに特徴がある。図１６は、本実施の形態４の映像音声記録装置２００３を示すシステムブロック図である。蓄積メディア１にはあらかじめ映像音声データ３０９が記録されており、このデータを読込／書込ドライブ３１０で読み出し、デマルチプレクサ３０１に入力する。なお、蓄積メディア１は映像音声データが記録されているハードディスクドライブ（ＨＤＤ）などであってもよい。映像音声データ３０９としては、例えばＭＰＥＧ２−ＰＳ（プログラムストリーム）などがある。記録制御部１９は、映像音声記録装置２００３と読込／書込ドライブ３１０の動作を統括的に管理し制御する。第二の楽曲区間検出部１７で検出された楽曲区間は、メタデータ生成部１８にてその時間情報を表すメタデータファイルが生成されて、書込みバッファメモリ９を介して蓄積メディア１に記録される。このとき、蓄積メディア１に記録されている映像音声データは書き換えず、メタデータファイルを追加する形で記録することが望ましい。その他のものは実施の形態１もしくは実施の形態３で示したものと同じであり、ここでは説明を省略する。

上記で説明した方法は、録画時にリアルタイムで楽曲区間の検出処理を行う必要が無い。したがって、記録制御部の処理能力が高くない場合であっても、録画後に時間を掛けて検出が可能となると共に、既に蓄積メディア１に録画済の番組に対しても楽曲区間を高い精度を確保して検出することができ、視聴者にとって違和感のないシーンの区切り目を始点・終点とした一連の楽曲シーンを検出することができる。

なお、上記実施の形態１から４では、楽曲候補区間検出手段と補正手段とを別の手段として構成したが、これら二つの手段の機能を有する一つの楽曲候補区間検出手段としてもよい。

また、上記実施の形態１から４では、楽曲区間を含んだマルチメディアデータを記録するとしたが、検出された楽曲区間のみのマルチメディアデータを記録してもよい。

実施の形態１の映像音声記録装置を示すシステムブロック図である。実施の形態１の楽曲区間の検出、記録方法を示すフローチャートである。実施の形態１の第一の楽曲候補区間検出部を示すブロック図である。実施の形態１の第二の楽曲候区間補検出部を示すブロック図である。実施の形態１の補正処理を示すチャート図である。実施の形態１の第１の楽曲区間の検出処理を示すチャート図である。実施の形態１のシーンチェンジ検出部を示すブロック図である。実施の形態１の第二の楽曲区間の検出処理を示すチャート図である。実施の形態１の映像音声記録装置のファイル構成図である。実施の形態１のメタデータ構造図である。実施の形態２の映像音声記録装置を示すシステムブロック図である。実施の形態２の楽曲区間の検出、記録方法を示すフローチャートである。実施の形態２の音声レベル検出部を示すブロック図である。実施の形態２の第二の楽曲区間の検出処理を示すチャート図である。実施の形態３の映像音声記録装置を示すシステムブロック図である。実施の形態４の映像音声記録装置を示すシステムブロック図である。

符号の説明

１蓄積メディア、２書込みドライブ、３映像信号、４音声信号、５ビデオエンコーダ、６Ａ／Ｄコンバータ、７オーディオエンコーダ、８マルチプレクサ、９書込みバッファメモリ、１０第一の楽曲候補区間検出部、１１第二の楽曲候補区間検出部、１２第一の補正部、１３第二の補正部、１４シーンチェンジ検出部、１５楽曲区間検出部、１６第一の楽曲区間検出部、１７第二の楽曲区間検出部、１８メタデータ生成部、１９記録制御部、２０直交変換処理部、２１尤度比較処理部、２２モデルデータ、２３エネルギー算出部、２４変化点判定部、３０差分演算処理部、４０時間経過（横軸）、４１差異量（縦軸）、４２差異量、４３閾値、４４ラベル軸、４５ラベル、４６ａ、４６ｂ、４６ｃ楽曲候補区間、４７補正処理後のラベル、４８補正処理後の楽曲候補区間、５０補正処理後のラベル、５１ａ、５１ｂ、５１ｃ補正処理後の楽曲候補区間、５２補正処理後のラベル、５３ａ、５３ｂ、５３ｃ、５３ｄ補正処理後の楽曲候補区間、５４検出処理後のラベル、５５ａ、５５ｂ、５５ｃ、５５ｄ楽曲区間、６０検出処理後のラベル、６１ａ、６１ｂ、６１ｃ第一の楽曲区間、７１ビデオデコーダ、７２ヒストグラム生成器、７３ヒストグラムバッファＡ、７４ヒストグラムバッファＢ、７５差異判定部、８０音声レベル検出部、８５シーンチェンジのラベル、８６シーンチェンジの有無（縦軸）、８７会話の区切り目のラベル、８８会話の区切りの有無（縦軸）、９０ルートディレクトリ、９１マルチメディアディレクトリ、９２メタデータディレクトリ、９３情報管理ファイル、９４マルチメディアデータファイル、９５バックアップファイル、９６メタデータファイル、１００検出処理後のラベル、１０１ａ、１０１ｂ、１０１ｃ第二の楽曲区間、１１０検出処理後のラベル、１１１ａ、１１１ｂ、１１１ｃ第二の楽曲区間、１３０メタデータ、１３１ａメタデータ管理情報、１３１ｂ番組メタデータ情報サーチポインタ、１３１ｃ番組メタデータ情報、１３２ａメタデータ一般情報、１３２ｂ楽曲マップ情報、１３３ａ楽曲マップ一般情報、１３３ｂ楽曲エントリ、１３４ａ楽曲開始時刻情報、１３４ｂ楽曲終了時刻情報、３００デジタル信号、３０１デマルチプレクサ、３０２映像データ、３０３音声データ、３１０読込／書込ドライブ、４００差異量のグラフ、４０５ラベルのグラフ、４０７補正処理後のラベルのグラフ、５００補正処理後のラベルのグラフ、５０２補正処理後のラベルのグラフ、５０４検出処理後のラベルのグラフ、６００検出処理後のラベルのグラフ、７００シーンチェンジのラベルのグラフ、８００会話の区切りのラベルのグラフ、１０００検出処理後のラベルのグラフ、１１００検出処理後のラベルのグラフ。

Claims

音声信号と映像信号とを含むデータを入力するデータ入力ステップと、
各々異なる基準に基づいて、前記音声信号から、前記入力データの楽曲候補区間を検出する複数の楽曲候補区間検出ステップと、
前記音声信号の特徴の変化、および／または映像信号の特徴の変化に基づいて、前記入力データの変化点を検出する変化点検出ステップと、
前記検出された複数の楽曲候補区間と、前記検出された入力データの変化点とに基づいて、楽曲区間を検出する楽曲区間検出ステップと
を備える楽曲区間検出方法。
前記入力データの変化点は、
前記映像信号の変化に基づくシーンチェンジであること
を特徴とする請求項１に記載の楽曲区間検出方法。
前記入力データの変化点は、
前記音声信号のエネルギーが所定値以下となる個所であること
を特徴とする請求項１に記載の楽曲区間検出方法。
前記楽曲区間検出ステップは、
前記検出された複数の楽曲候補区間に基づいて、第１の楽曲区間を検出する第１の楽曲区間検出ステップと、
前記検出された入力データの変化点と、前記検出された第１の楽曲区間とに基づいて、第２の楽曲区間を検出する第２の楽曲区間検出ステップと
を備える請求項１に記載の楽曲区間検出方法。
前記第２の楽曲区間検出ステップは、
前記検出された入力データの変化点に基づいて、前記第１の楽曲区間の始点、および／または終点を変更する
請求項４に記載の楽曲区間検出方法。
各々異なる基準に基づいて、音声信号と映像信号とを含む入力データの前記音声信号から、前記入力データの楽曲候補区間を検出する複数の楽曲候補区間検出部と、
前記音声信号の特徴の変化、および／または映像信号の特徴の変化に基づいて、前記入力データの変化点を検出する変化点検出部と、
前記検出された複数の楽曲候補区間と、前記入力データの変化点とに基づいて、楽曲区間を検出する楽曲区間検出部と
を備える楽曲区間検出装置。
前記入力データの変化点は、
前記映像信号の変化に基づくシーンチェンジであること
を特徴とする請求項６に記載の楽曲区間検出装置。
前記入力データの変化点は、
前記音声信号のエネルギーが所定値以下となる個所であること
を特徴とする請求項６に記載の楽曲区間検出装置。
前記楽曲区間検出ステップは、
前記検出された複数の楽曲候補区間に基づいて、第１の楽曲区間を検出する第１の楽曲区間検出部と、
前記検出された入力データの変化点と、前記検出された第１の楽曲区間とに基づいて、第２の楽曲区間を検出する第２の楽曲区間検出部と
を備える請求項６に記載の楽曲区間検出装置。
前記第２の楽曲区間検出部は、
前記検出された入力データの変化点に基づいて、前記第１の楽曲区間の始点、および／または終点を変更する
請求項９に記載の楽曲区間検出装置。
請求項１から５のいずれか１項に記載の楽曲区間検出方法により検出された楽曲区間を含むデータを記録するデータ記録ステップを備え、
前記データ記録ステップは、前記楽曲区間の時間情報を記録する
データ記録方法。
請求項６から１０のいずれか１項に記載の楽曲区間検出装置により検出された楽曲区間を含むデータを記録するデータ記録部を備え、
前記データ記録部は、前記楽曲区間の時間情報を記録する
データ記録装置。