JP4743228B2

JP4743228B2 - デジタル音声信号解析方法、その装置、及び映像音声記録装置

Info

Publication number: JP4743228B2
Application number: JP2008134090A
Authority: JP
Inventors: 英嗣杉之原; 功大塚
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2008-05-22
Filing date: 2008-05-22
Publication date: 2011-08-10
Anticipated expiration: 2028-05-22
Also published as: JP2009284212A

Description

この発明は、符号化圧縮されたテレビジョン放送等の映像音声信号から、スポーツのハイライトシーンや楽曲区間などを検出する方法、及び装置に関するものである。

テレビジョン放送の一つに、所謂「歌番組」や「音楽番組」と呼ばれるジャンルが存在する。音楽番組は出演者による演奏や歌唱、あるいはビデオ映像による楽曲の映像（以下、「楽曲シーン」と記す。なお、この明細書において、「楽曲シーン」とは歌や演奏などの音楽が音声に含まれる映像を全般に指す。）と、司会者などによる楽曲の紹介や出演者とのトーク（会話）ショーなどの楽曲以外の映像（以下、「非楽曲シーン」と記す。）とから構成される場合が多い。

また民間放送であれば、番組の広告主の宣伝や、放送局自らの広告宣伝のためのコマーシャルメッセージ放送（以下、「ＣＭ放送」と記す。）が番組の構成に含まれる場合もある。

ところで、録画した音楽番組を再生する場合、楽曲に集中したい視聴者にとっては非楽曲シーンやＣＭ放送などの楽曲シーン以外を効率よく見飛ばしたい要望がある。また逆に、楽曲には興味が無い視聴者には、楽曲シーンやＣＭ放送を見飛ばしてトークショーなどの非楽曲シーンのみを視聴したいとする要望もある。

このような要望に対し、例えば従来の楽曲検出方法及び記録方法では、音情報の周波数スペクトルのピークが周波数方向に対して時間的に安定している特徴を用いて楽曲シーンを特定し、楽曲の映像音声のみを蓄積している（例えば、特許文献１参照）。

特許３４３４１９５号公報（第５頁、第１図）

また、野球やサッカーといった「スポーツ番組」では、得点シーンやファインプレーのシーンなど、登場選手がまさに活躍しているハイライトシーンのみを視聴し、他のシーンを効率よく見飛ばしたいという要望もある。

このような要望に対し、例えば従来のハイライトシーン検出方法及び記録方法では、音声のピーク周波数、主要音声スペクトル幅といった特徴抽出の結果を用いてハイライトシーンを特定している（例えば、特許文献２参照）。

特許２９６０９３９号公報（第４頁、第１図）

ところで、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）レコーダやＤＶＤ（ＤｅｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）レコーダ、Ｂｌｕ−ｒａｙレコーダといったデジタルレコーダでは、テレビジョン放送等の映像音声信号を符号化圧縮した状態で記録する。

例えばアナログ放送を記録する場合、音声信号はアナログデジタル変換器（Ａ／Ｄコンバータ）などを用いて音声波形を一定時間おきにサンプリングして振幅をデジタルデータ化したＰＣＭ（ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）信号などのデジタル信号に変換して記録する。また、その後、オーディオエンコーダにおいて、ＡＣ−３（ＡｕｄｉｏＣｏｄｅＮｕｍｂｅｒ３）方式などに符号化圧縮して記録する場合もある。

一方、昨今のテレビジョン放送は、アナログ放送からデジタル放送への置き換えが進んでいる。デジタル放送では、映像や音声信号、番組表などのデータが、それぞれ適切な形式で符号化圧縮されて放送局から配信される。例えば、日本国内におけるデジタル放送は、映像は主にＭＰＥＧ―２（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔＧｒｏｕｐ−２）方式、音声は主にＭＰＥＧ―２ＡＡＣ（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔＧｒｏｕｐ−２ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ、以降ＡＡＣと略す）方式と呼ばれるＩＳＯ／ＩＥＣ１３８１８−７規格の符号化方式で符号化圧縮を行い、これらの信号をＭＰＥＧ―２ＴＳ（ＴｒａｎｓｐｏｒｔＳｔｒｅａｍ）形式で重畳して配信することが規定されている。

デジタル放送を記録する場合、例えば配信された符号化圧縮された映像音声信号をそのまま記録する。あるいは、記録容量を節約するため、配信された映像音声信号を一旦伸張処理（符号化圧縮された信号を輝度信号や波形信号といった時間領域の情報に変換する処理。以降デコード処理と呼ぶ）し、アナログ放送のようにビデオおよびオーディオエンコーダを用いて例えばＨ．２６４方式やＡＣ−３方式などで再符号化圧縮しても良い。

こうした音声の符号化圧縮方式の多くは、人間の聴覚特性を用いた「周波数相関符号化」を用いて圧縮効率を高めている。「周波数相関符号化」では、量子化されたＰＣＭ信号を、時間領域から周波数領域に直交変換し、周波数領域における信号エネルギーの偏差を求め、この偏差を用いて符号化することで符号化効率を高めるようにしている。

周波数相関符号化されたデジタル音声信号からハイライトシーンや楽曲シーンを検出しようとした場合、デジタル音声信号をデコード処理する中間段階で、すなわち時間領域の音の波形信であるＰＣＭ信号を得ずに周波数領域情報をデジタル音声信号から取り出し、この周波数領域情報に対してハイライトシーンや楽曲シーンの解析を行うことができる。

しかし、デジタル音声信号から取り出せる周波数領域情報の形式は、符号化圧縮方式によって異なる場合がほとんどである。これは符号化圧縮の際、ＰＣＭ方式の音声信号に対し、それぞれの規格で定められた形式の直交変換を行って周波数領域への変換を行っているからである。

また、符号化パラメータが異なる場合、例えばサンプリング周波数が異なる場合は、同じ符号化圧縮方式であっても得られる周波数領域情報の形式が異なる。符号化方式によっては、符号化されたフレームごとに周波数領域情報の形式が異なる場合もある。

このため、符号化圧縮されたデジタル音声信号からハイライトシーンや楽曲シーンを検出しようとした場合、いったんデジタル音声信号をデコード処理して時間領域の信号であるＰＣＭ信号に変換し、さらに直交変換を行って等しい形式の周波数領域情報を得る必要があった。デコード処理における周波数領域から時間領域への逆変換処理、および時間領域から周波数領域への直交変換処理は非常に処理量が多く、処理時間も多くかかってしまう。

また、デジタル音声信号中に符号化されている周波数領域情報を用いてハイライトシーンや楽曲シーンを検出しようとした場合、デジタル音声信号の符号化圧縮方式それぞれに適した周波数領域情報の解析手段を用意する必要があり、解析回路規模が大きくなってしまう問題があった。

この発明は、上述のような課題を解消するためになされたもので、デジタル音声信号の符号化圧縮方式または符号化パラメータなどが異なっていても、同じ解析手段を用いてデジタル音声信号中に符号化されている周波数領域情報からハイライトシーンや楽曲シーンの検出が可能なデジタル音声信号解析方法、及び装置を提供するものである。

本発明に係わるデジタル音声解析方法は、符号化圧縮されたデジタル音声信号を入力するデータ入力ステップと、前記デジタル音声信号内において符号化された第１のＭＤＣＴ係数行列である周波数領域情報を取り出すステップと、前記周波数領域情報を所定の次数の第２のＭＤＣＴ係数行列である周波数領域情報の形式に周波数軸上で変換するステップとを備え、前記符号化圧縮されたデジタル音声信号は、１フレームを１つのブロックから構成して符号化圧縮されている場合は、次数が前記所定の次数よりも大きい第１のＭＤＣＴ係数行列である周波数領域情報で、１フレームを複数のブロック数から構成して符号化圧縮されている場合は、次数に前記ブロック数を掛けたものが前記所定の次数よりも大きい第１のＭＤＣＴ係数行列である周波数領域情報で符号化されていることを特徴とする。

本発明のデジタル音声信号の解析方法によれば、周波数相関符号化されたデジタル音声信号のデコード処理の中間段階で得られる周波数領域情報を扱うことで、効率よく解析対象となる音声信号の周波数領域情報を獲得でき、さらに異なる符号化圧縮方式のデジタル音声信号からも、統一された所定の形式の周波数領域情報を得ることができる。

また、本発明により、デジタル音声信号をデコード処理した時間領域の信号を扱う場合に比べて解析回路規模および解析処理時間を大幅に削減することが可能になる。

実施の形態１．
以下、図を用いて本実施の形態１に係るデジタル音声信号解析方法、及びその装置を説明する。本実施の形態１に係るデジタル音声信号解析方法は、ＡＡＣ方式で符号化圧縮された音声信号からハイライトシーンや、楽曲シーン等を検出することに特徴がある。

図１は、本実施の形態１の映像音声記録装置を示すシステムブロック図である。また図２は、本実施の形態１のデジタル音声信号解析方法を示すフローチャートである。まず、図１及び図２を用いて本実施の形態１の映像音声記録装置について概説する。

映像音声記録装置１０００においては、アンテナ３によってテレビジョン放送が受信され（ＳＴ１）、デジタルチューナ４へ放送波信号が送られる。デジタルチューナ４は、受信した放送波信号を復号し（ＳＴ２）、映像音声信号や番組情報などのデータ信号が重畳されたＭＥＰＧ―２ＴＳ信号を生成する。

ＭＥＰＧ−２ＴＳ信号は、書き込みバッファ１０を通して書き込みドライブ２に送られ、ＤＶＤやＢｌｕ−ｒａｙなどの蓄積メディア１に記録（一連の処理は「録画」とも言われる）される。これら一連の処理は、記録制御部１１によって統括的に管理して制御されている。なお、蓄積メディア１と書き込みドライブ２は、ハードディスクドライブ（ＨＤＤ）などのリムーバブルではない蓄積メディアやＳＤメモリーカードなどのシリコンメディアに置き換わっても良いし、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）などネットワーク接続された蓄積メディアであってもかまわない。

この録画動作と並行して、デジタルチューナ４で生成されたＭＰＥＧ−２ＴＳ信号は映像音声信号分離器５に送られ、各種データが重畳された信号から映像信号や音声信号を分離し、テレビジョン放送から本装置で解析対象となるデジタル音声信号、すなわちＡＡＣ音声ストリームを取り出す（ＳＴ３）。

分離されたＡＡＣ音声ストリームは、ＡＡＣデコーダ６に送られる。ＡＡＣデコーダ６では、入力されたＡＡＣ音声データ１フレーム単位でデコード処理を行って、符号化されている音声のサンプリング周波数や、ＡＡＣ音声ストリーム内に符号化されているＭＤＣＴ係数行列などの周波数領域情報を取得する（ＳＴ４）。

ＡＡＣ音声ストリームから抽出された周波数領域情報は、周波数領域情報統一部７に送られ、その形式を周波数領域情報解析部８で解析可能な統一の形式に変換を行う（ＳＴ５）。

周波数領域情報解析部８では、入力された音声の周波数領域情報に対して、エネルギー解析や所望のシーンの音声の周波数領域情報をモデル化したモデルデータとの尤度比較による音声識別処理などの解析を行うことで、ハイライトシーンや楽曲シーン情報を算出する（ＳＴ６）。

検出されたハイライトシーンや楽曲シーンの情報は、メタデータ生成部９にて、記録された映像音声信号（ＭＰＥＧ−２ＴＳ信号）と関連するメタデータファイルとしてまとめ（ＳＴ７）、書き込みバッファ１０を通して蓄積メディア１に記録される（ＳＴ８）。図示はしていないが、再生装置においては、記録された映像音声信号を再生する際にメタデータファイルを参照することで、ハイライトシーンや楽曲シーンといった所望のシーンのみを再生することが可能になる。

なお、映像音声記録装置１０００の記録部の概念としては、書き込みドライブ２や、記録制御部１１を含めてもよい。

以降、実施の形態１におけるデジタル音声信号の解析処理について詳しく説明する。映像音声信号分離器５では、ＭＰＥＧ―２ＴＳストリーム内に存在するＰＡＴ（ＰｒｏｇｒａｍＡｓｓｏｃｉａｔｉｏｎＴａｂｌｅ）やＰＭＴ（ＰｒｏｇｒａｍＭａｐＴａｂｌｅ）などのＰＳＩ（ＰｒｏｇｒａｍＳｐｅｃｉｆｉｃＩｎｆｏｒｍａｔｉｏｎ）を参照し、複数のストリームが重畳されているＭＰＥＧ−２ＴＳストリームから所望のストリームを分離する。所望のストリームとは、例えば映像ストリームや音声ストリームであるが、ここではデジタル放送の音声信号であるＡＡＣ音声ストリームを分離する。

デジタル放送においては、１チャンネル分のＭＰＥＧ−２ＴＳストリームに対し、複数の映像、音声ストリームを重畳することが可能である。本実施の形態１においては、第一音声ストリーム、もしくはユーザーが指定した音声ストリームを１つ分離するものとする。

図３は、実施の形態１におけるＡＡＣデコーダ６の処理概要を示したものである。ＡＡＣデコーダ６には、映像音声分離器５で分離されたＡＡＣ音声ストリームが入力され、ＡＤＴＳヘッダ／ビットストリーム解析部３１を通して、順次デコード処理が行われる。実施の形態１においては、解析対象となるＡＡＣ音声ストリームをステレオ音声として以降説明を行う。

本発明におけるＡＡＣデコーダ６は、ＡＡＣ音声ストリーム中に符号化されている周波数領域情報であるＭＤＣＴ（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）係数を出力することに特徴がある。ＭＤＣＴ、すなわち変形離散コサイン変換とは、時間領域の離散信号を周波数領域へ変換する直交変換であり、窓を半分ずつ重複させながら周波数変換することで、時間的に１つ前のブロックとオーバーラップさせ、復号時のブロック間の接続ノイズを軽減させることができるものである。

ＡＡＣデコード６における処理は、ＡＤＴＳヘッダ／ビットストリーム解析部３１、ハフマン復号化部３２、逆量子化部３３、リスケーリング部３４、Ｍ／Ｓステレオ処理部３５、予測処理部３６、インテンシティ／カップリング処理部３７、ＴＮＳ部３８からなる。

ＡＤＴＳヘッダ／ビットストリーム解析部３１では、ＡＡＣ音声１フレーム単位に付加されているＡＤＴＳヘッダを解析し、ＡＡＣ音声ストリームを１フレームごとに分割して、以降のデコード処理をフレーム単位で行う。また、ＡＡＣ音声ストリームを、符号化されているＭＤＣＴ係数と、それ以外のサンプリング周波数などのパラメータや制御情報とに分離し、デコード処理の各部に供給する。

ハフマン復号化部３２では、可逆的にビット量を削減された信号に対し、ハフマンテーブルを参照しながら復号を行う。復号された信号を逆量子化部３３およびリスケーリング部３４を通して逆量子化、リスケーリング処理を行うことで、量子化前のＭＤＣＴ係数が復元される。

そして、量子化前の状態に復元されたＭＤＣＴ係数は、Ｍ／Ｓステレオ処理部３５に送られる。Ｍ／Ｓステレオ処理とは、ステレオなどの音声を、左右チャンネルの和信号（Ｍ＝Ｌ＋Ｒ）と差信号（Ｓ＝Ｌ−Ｒ）の形で伝送することにより、左右音声が似通っている場合に符号化効率を高める処理である。Ｍ／Ｓステレオ処理部３５では、デコード対象となる音声ストリームがＭ／Ｓステレオ処理されて符号化されているかを判断しながら、本来の左右チャンネル音声（ＬとＲ）のＭＤＣＴ係数を復号する。

Ｍ／Ｓステレオ処理の後、ＭＤＣＴ係数は予測処理部３６の予測処理により、データ圧縮前のＭＤＣＴ係数に復元される。

データ圧縮前の状態に復元されたＭＤＣＴ係数は、さらに、インテンシティ／カップリング処理部３７に送られる。インテンシティ／カップリングとは、高い周波数の音を左チャンネル（Ｌ）と右チャンネル（Ｒ）を合わせた１つのカップリングチャンネルで伝送するもので、当復号化処理によって、高い周波数領域の音についても左右それぞれのチャンネルのＭＤＣＴ係数が得られる。

最後にＴＮＳ部３８にて、ＭＤＣＴ係数を時間軸上の信号であるかのように見立てて線形予測を行った予測フィルタリングが外される。この結果、ＰＣＭ信号をＭＤＣＴ処理した直後のＭＤＣＴ係数が復元される。

一般的なＡＡＣデコーダは、時間領域の音声信号（ＰＣＭ信号）を出力とするため、この他に適応ブロック長切換逆ＭＤＣＴ処理部およびゲイン制御部を備えるが、本発明におけるＡＡＣデコーダ６は、周波数領域情報すなわちＭＤＣＴ係数行列を出力とするため、これら処理部は必要ない。

また、ＴＮＳ処理、インテンシティ／カップリング処理、予測処理、Ｍ／Ｓステレオ処理は、ＡＡＣ規格におけるオプション処理であり、すべてのＡＡＣ音声信号に対して行われるものではない。特に、日本のデジタル放送で用いられるＡＡＣ符号化はＬＣ（ＬｏｗＣｏｍｐｌｅｘｉｔｙ）プロファイルで運用されており、デコード対象をＬＣプロファイルに限定することで、例えば予測処理部３６を省略してもよい。

このように、ＡＡＣデコーダ６によって、デジタル音声信号に符号化されている周波数領域情報を直接取り出すことで、回路規模を削減できる。また、多くの処理時間を必要とする時間領域の音声信号への逆変換処理を行わないため、デコード処理に要する処理時間も大きく短縮できる。

ところで、ＡＡＣ方式の符号化で用いられるＭＤＣＴには、１フレームのブロック長が２０４８サンプルのものと２５６サンプル×８のものとが適応的に切り替えて使用される。一般に、定常的な音の場合は長いブロック長を用い、瞬間的に変化するような音の場合は短いブロック長を用いることで、定常音における高能率圧縮と、瞬間的に変化する音における符号化時のノイズの低減を両立させることができる。

すなわち、ＡＡＣデコーダ６における処理によって、ブロック長が２０４８サンプルのＡＡＣ音声１フレームからは１０２４次のＭＤＣＴ係数行列が、ブロック長が２５６サンプル×８のＡＡＣ音声１フレームからは１２８次のＭＤＣＴ係数行列が８組得られることになる。以降、１０２４次のＭＤＣＴ係数行列が得られるＡＡＣ音声データをロングシーケンスデータ、１２８次のＭＤＣＴ係数行列が８組得られるＡＡＣ音声データをショートシーケンスデータと呼ぶ。

図４および図５は、それぞれロングシーケンスデータおよびショートシーケンスデータから得られるＭＤＣＴ係数行列の一例である。図４および図５の横軸はＭＤＣＴ係数行列の要素番号を示し、縦軸は係数値を示している。

図４に示したロングシーケンスデータのＭＤＣＴ係数行列は、横軸を周波数とし、サンプリング周波数÷２までの周波数帯を１０２４分割した各周波数成分の振幅（強さ）を示す周波数領域情報である。

図５に示したショートシーケンスデータのＭＤＣＴ係数行列は、行列の先頭から１２８要素ずつが、サンプリング周波数÷２までの周波数帯を１２８分割した各周波数成分の振幅（強さ）を示し、これを８ブロック分、時間的に連続する信号をつなげた周波数領域情報である。

ＡＡＣデコーダ６では、ステレオ音声のＡＡＣ音声ストリームから、信号の周波数領域情報として、サンプリング周波数情報および左右チャンネルそれぞれについて図４および図５に示したようなＭＤＣＴ係数行列などを取得し、これを周波数領域情報統一部７へ送る。

図６は、周波数領域情報統一部７における処理を示したものである。周波数情報領域統一部７は、ブロック長判断部６１およびショートシーケンスＭＤＣＴ変換部６２およびＭＤＣＴ係数サンプリング変換部６３からなる。

周波数領域情報統一部７に入力されるＡＡＣ音声データの周波数領域情報は、例えばサンプリング周波数が３２ｋＨｚであったり４８ｋＨｚであったり、また１０２４次のＭＤＣＴ係数行列（ロングシーケンスＭＤＣＴ）であったり１２８次のＭＤＣＴ係数行列が８組（ショートシーケンスＭＤＣＴ）であったりと、その形式が様々である。

周波数領域情報統一部７は、これら異なる周波数領域情報の形式を統一し、周波数領域情報解析処理部８への入力形式を揃えることを目的にしたものである。

周波数領域情報統一部７における処理について説明する。ブロック長判断部６１では、処理対象となるＡＡＣ音声から取得したＭＤＣＴ係数行列がロングシーケンスＭＤＣＴであるかショートシーケンスＭＤＣＴであるかを判断し、ショートシーケンスＭＤＣＴであった場合、ＭＤＣＴ係数行列をショートシーケンスＭＤＣＴ変換部６２に送る。

ショートシーケンスＭＤＣＴ変換部６２では、８組の１２８次のＭＤＣＴ係数行列の並べ替えを行い、周波数軸方向に並んだ１組の１０２４次のＭＤＣＴ係数行列を生成する。８組の１２８次のＭＤＣＴ係数行列をＳｎ［ｍ］（ｎ＝０〜７、ｍ＝０〜１２８）とし、並べ替えた後の１０２４次のＭＤＣＴ係数行列をＴ［ｋ］（ｋ＝０〜１０２３）とすると、並べ替えは以下に示す式１で行う。

式１に示した変換により、Ｔ［ｋ］は８ブロックの周波数領域情報を、低い周波数の情報から順に時間軸方向に並べ替えた行列に変換される。図５に示したショートシーケンスデータのＭＤＣＴ係数行列を、式１を用いて変換したものを図７に示す。本発明では、この変換処理により、ショートシーケンスＭＤＣＴを擬似的にロングシーケンスＭＤＣＴとして扱うものとする。

ロングシーケンスＭＤＣＴまたはショートシーケンスＭＤＣＴ変換部６２で変換処理されたショートシーケンスＭＤＣＴ（いずれも１０２４次のＭＤＣＴ係数）、およびこれらＭＤＣＴ係数行列のサンプリング周波数情報が、ＭＤＣＴ係数サンプリング変換部６３に送られる。

ＭＤＣＴ係数サンプリング変換部６３では、入力された１０２４次のＭＤＣＴ係数行列を、統一の形式の周波数領域情報へと変換を行う。ここでは、４８ｋＨｚサンプリングの２５６次のＭＤＣＴ係数行列に変換を行う方法を説明する。

入力されたＡＡＣ音声ストリームが４８ｋＨｚであった場合、ＡＡＣ音声から得られる１０２４次のＭＤＣＴ係数行列は、先頭から順番に、サンプリング周波数の２分の１である２４ｋＨｚを１０２４分割した各周波数成分の振幅（強さ）を示したもの、もしくはそうみなされる周波数領域情報である。同様に、変換しようとする４８ｋＨｚサンプリングの２５６次のＭＤＣＴ係数行列は、先頭から順番に、２４ｋＨｚを２５６分割した各周波数成分の振幅（強さ）を示したものである。

ここで、４８ｋＨｚ１０２４次のＭＤＣＴ係数行列をＬ［ｎ］（ｎ＝０〜１０２３）、４８ｋＨｚ２５６次のＭＤＣＴ係数行列をＤ［ｍ］（ｍ＝０〜２５５）とした時、以下に示す式２でＬ［ｎ］をＤ［ｍ］に変換を行う。

式２に示した変換式により、元々Ｌ［ｎ］が持っている各周波数成分に対する情報を維持したまま、より次数の低いＤ［ｍ］にダウンサンプリング変換を行うことができる。ただし、Ｄ[ｍ]における各周波数成分の強さの２乗和である音声エネルギーは、Ｌ[ｎ]のそれに対し小さくなることに注意する。

同様に、入力されたＡＡＣ音声ストリームが３２ｋＨｚであった場合、ＡＡＣ音声から得られる１０２４次のＭＤＣＴ係数行列は、先頭から順番に、サンプリング周波数の２分の１である１６ｋＨｚを１０２４分割した各周波数成分の振幅（強さ）を示したものである。

よって、３２ｋＨｚ１０２４次のＭＤＣＴ係数行列をＰ［ｎ］（ｎ＝０〜１０２３）とした時、以下に示す式３および式４によって、Ｐ[ｎ]が持つ各周波数成分に対する情報を維持したまま、より次数の低い４８ｋＨｚ２５６次のＭＤＣＴ係数行列Ｄ［ｍ］への変換を行う。

式４において、Ｐ[ｎ]は元々サンプリング周波数の２分の１である１６ｋＨｚまでの周波数情報しか持たないため、Ｄ[ｍ]の１６ｋＨｚ以上に相当する成分についてはすべて０としている。また、式３および式４における変換で、Ｄ[ｍ]における各周波数成分の強さの２乗和である音声エネルギーは、Ｐ[ｎ]のそれに対し小さくなることに注意する。

このように同じ周波数軸を持ちかつ次数が等しくなるよう周波数領域情報を統一する処理を行うことで、ＡＡＣ音声データがロングシーケンスデータであってもショートシーケンスデータであっても、また、放送波の場合、放送の途中でサンプリング周波数などのフォーマット形式が変わったとしても、常に同等の周波数領域情報が得られ、これらの違いを意識することなく周波数領域情報の解析を行うことができる。

周波数領域情報を統一する処理を行う際、処理前後の音声のエネルギーが変わらないように、ＭＤＣＴ係数行列全体に対して係数をかけるなどの調整を行っても良い。この時、ロングシーケンスデータかショートシーケンスであるかによって、用いる係数を変えても良い。

周波数領域情報を統一の形式にしたＭＤＣＴ係数行列は、周波数領域情報解析部８に送られる。図８は、スポーツのハイライトシーンを検出する周波数領域解析処理部８の処理概要の一例を示したものである。

スポーツのハイライトシーンを検出する周波数領域解析処理部８は、エネルギー算出部８１、尤度比較処理部８２、モデルデータ８３、および合成部８４からなる。

入力されたＭＤＣＴ係数行列は、左右チャンネルのうち、片方のチャンネルのＭＤＣＴ係数行列がエネルギー算出部８１および尤度比較処理部８２に送られる。

エネルギー算出部８１では、２５６次のＭＤＣＴ係数行列をＤ［ｍ］（ｍ＝０〜２５５）とした時、例えば式５に示す式を用いて音声エネルギーＥを算出する。

尤度比較処理部８２では、モデルデータ８３を参照しながらＭＤＣＴ係数行列をベクトルデータと見立てて解析処理を行う。

モデルデータ８３は、あらかじめ主観評価で顕著にスポーツのハイライトシーンと判断される音声の係数ベクトル（すなわち２５６次のＭＤＣＴ係数行列）を収集し、トレーニングデータとして係数ベクトルの分布傾向を、混合ガウス分布モデル（ＧＭＭ、ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）を使用してモデル化したものである。顕著なハイライトシーンの音声としては、アナウンサーの興奮音声などが含まれる。

また、ハイライトシーン以外の音声、例えば拍手や歓声、笑い声、音楽といった音声についても同様にトレーニングデータを収集して混合ガウス分布モデルを作成し、複数の音声モデルを用意する。

モデルデータ８３は、これらの音声モデルを参照できるデータテーブルとなる。尤度比較処理部８２では、モデルデータ８３を参照して、入力されたＡＡＣ音声のＭＤＣＴ係数行列に対してベクトル空間として最も尤度の高い音声モデルを探し、そのモデルの音声種別を入力信号に対してラベル付けを行う。

すなわちこの処理によって、ハイライトシーンの音声モデルの周波数特性と尤度の高いＭＤＣＴ係数行列の入力があった場合にスポーツのハイライトシーンを示すラベルが割り当てられ、その区間がハイライトシーンであるとの検出が可能になる。なお、あらかじめ用意したモデルを参照して入力信号の音声種別を特定する手法であれば混合ガウス分布モデルによる尤度比較でなくても良く、隠れマルコフ法（ＨＭＭ法）などの統計的な手法を使用しても構わない。また、尤度比較処理を行う際、ＭＤＣＴ係数行列の次数は、計算量の軽減を目的に、射影変換によって次元数の低減を図っても良い。

合成部８４では、尤度比較処理部８２によって時系列にそって順次得られるハイライトシーンのラベルについて、ある時間窓に対する出現割合として時系列データ化し、これにエネルギー算出部８１で同じく時系列にそって得られる音声エネルギーを掛け合わせることで、ＡＡＣ音声データの時系列にそった盛り上がり度合いを示すスポーツハイライトレベルを算出する。

算出したスポーツハイライトレベルに対して、ある閾値を設定し、閾値を超えた区間をハイライトシーンとして検出することができる。

ここで、本発明を用いて、異なる符号化もしくは符号化圧縮方式の、同一音声を解析して得られたスポーツハイライトレベルを示す。今回は、ステレオ音声でサンプリング周波数が４８ｋＨｚの、ＡＡＣ方式とＡＣ−３方式、およびＡＡＣ方式の音声信号を時間領域の信号にデコード処理して得たＰＣＭ方式の３つのデジタル音声を解析対象とした。これら音声はいずれも同じサッカー番組のおよそ４５分間の音声である。これら音声を解析したシステムを図９に示す。

同システムは、ＡＡＣデコーダ６、周波数領域情報統一部７、周波数領域情報解析部８（以上は図１に示したものと同一）、ＡＣ−３デコーダ９１、ＭＤＣＴ変換器９２からなる。

ＡＡＣ音声は、ＡＡＣデコーダ６、周波数領域情報統一部７および周波数領域情報解析部８により、これまでに説明した解析を行った。ＡＡＣ音声を解析、取得したスポーツハイライトレベルを図１０に示す。

ＡＣ−３音声は、１フレーム内に２５６次のＭＤＣＴ係数行列が６ブロック、周波数領域情報として符号化されている。そこで、ＡＣ−３デコーダ９１を用いて、時間領域の信号を得るデコード処理の過程で得られるこの２５６次のＭＤＣＴ係数行列を取得し、周波数領域情報解析部８で解析を行った。ＡＣ−３音声を解析、取得したスポーツハイライトレベルを図１１に示す。

ＰＣＭ音声は、ＭＤＣＴ変換器９２により、５１２サンプルずつ５０％のオーバーラップを行いながらＭＤＣＴ変換を行って２５６次のＭＤＣＴ係数行列を求め、これを周波数領域情報解析部８で解析を行った。ＰＣＭ音声を解析、取得したスポーツハイライトレベルを図１２に示す。

図１０から図１２に示したグラフについて、図１０と図１１のグラフの相関係数は０．９５３、図１０と図１２のグラフの相関は０．９７０であり、いずれも１に近く、非常に高い相関があることを示している。

この結果は、ＡＡＣ方式で符号化されている１０２４次のＭＤＣＴ係数行列もしくは１２８次のＭＤＣＴ係数行列が、周波数領域情報統一部７による処理によって、ＡＣ−３音声に符号化されている２５６次のＭＤＣＴ係数行列もしくはＰＣＭ信号を直交変換して求めた２５６次のＭＤＣＴ係数行列と同等の周波数領域情報へ変換できていることを示している。

すわなち、本発明により、同一の周波数領域情報解析部８をもって、ＡＡＣ音声やＡＣ−３音声、ＰＣＭ音声からスポーツのハイライトシーンなどを解析することが可能であることがわかる。

また、ＡＡＣ音声をデコード処理して時間領域のＰＣＭ音声を得て（図示はせず）、これをさらにＭＤＣＴ変換器９２を通して周波数領域情報解析部８で解析を行う一連の処理時間に対し、図９（Ａ）のように、ＡＡＣデコーダ６でＡＡＣ音声に符号化されているＭＤＣＴ係数行列を直接取得し、周波数領域情報統一部７でこれを変換して周波数領域情報解析部８で解析を行う一連の処理時間は、大幅に短縮される。

このように処理時間の面においても、符号化圧縮された音声信号を一旦時間領域の信号に戻して周波数領域情報を得る場合に対し、本発明のように符号化圧縮された音声信号に含まれる周波数領域情報を直接取り出し、統一の周波数領域情報の形式に変換する本発明によるデジタル音声の解析処理は優位性がある。

ここまでは、スポーツのハイライトシーンを解析する方法について説明したが、周波数領域情報解析部８として、例えば図１３に示すシステムを用いることで、同様に楽曲シーン情報を算出することが可能になる。

楽曲シーン情報を算出する場合のシステムは、尤度比較部８２、モデルデータ９５、差分演算処理部９６、統合部９７からなる。

モデルデータ９５は、あらかじめ主観評価で顕著に楽曲シーンと判断される音声の係数ベクトル（すなわち２５６次のＭＤＣＴ係数行列）を収集し、トレーニングデータとして係数ベクトルの分布傾向を、混合ガウス分布モデルを使用してモデル化したものである。楽曲シーンの音声としては、楽器音や歌声などがある。

また、楽曲シーン以外の音声、例えば拍手や歓声、トークシーンの会話といった音声についても同様にトレーニングデータを収集して混合ガウス分布モデルを作成し、複数の音声モデルを用意する。

モデルデータ９５は、これらの音声モデルを参照できるデータテーブルとなる。尤度比較処理部８２ではスポーツのハイライトシーンの解析と同様に、モデルデータ９５を参照して、入力されたＡＡＣ音声のＭＤＣＴ係数行列に対してベクトル空間として最も尤度の高い音声モデルを探し、そのモデルの音声種別を入力信号に対してラベル付けを行う。

差分演算処理部９６では、ステレオ音声の左右チャンネルのＭＤＣＴ係数行列をＤｒ[ｋ]、Ｄｌ[ｋ]（ｋ＝０〜２５５）としたとき、式６を用いて差異量Ｇを得る。

なお、差異量ＧはＭＤＣＴ係数行列の差の二乗和としたが、右チャンネルと左チャンネルの差異が数値化される手法であれば、他の算出式を使用しても構わない。

ここで差異量は、右チャンネルと左チャンネルの違いを表すものであり、音の広がり感、ステレオ感、などとも言い表せる。一般的に、楽曲シーンでは音の広がり感が大きく、出演者によるトークシーンなどの非楽曲シーンでは音の広がり感が小さいことが分かっている。すなわち、差異量が高い区間が楽曲シーンであるとの検出が可能になる。

統合部９７では、尤度比較処理部８２によって時系列にそって順次得られる楽曲シーンのラベルについて、ある時間窓に対する出現割合として時系列データ化し、これに差分演算処理部９６で同じく時系列にそって得られる差異量を掛け合わせることで、ＡＡＣ音声データの時系列にそった楽曲度合いを示す楽曲レベルを算出する。

算出した楽曲レベルに対して、ある閾値を設定し、閾値を超えた区間を楽曲シーンとして検出することができる。

なお、検出を行うシーンは、これまでに説明してきたハイライトシーンや楽曲シーンに限定されるわけではない。たとえば、ニュース番組においてアナウンサーが話すシーンを検出することもできるし、クラシック演奏において特定の楽器が演奏されるシーンを検出することも可能である。すなわち、周波数に特徴を有する音声を含むシーンであれば、同様に検出可能である。

周波数領域情報解析部８で、スポーツのハイライトシーンを検出するか、楽曲シーンを検出するか、または他の所望のシーンを検出するかは、例えば録画を始める前にユーザーの指定によって決定するか、ＥＰＧ等から取得した番組のジャンル情報を元に、記録制御部１１が自動で決定することができる。

周波数領域情報解析部８で算出されたスポーツハイライトシーン情報や楽曲シーン情報等は、メタデータ生成部９に送られる。メタデータ生成部９では、例えばスポーツハイライトレベルや楽曲レベルや、これらレベル値に閾値を設定し、その閾値を超える区間の時間情報を記述したメタデータファイルを作成する。

メタデータファイルは記録番組と一対となる情報として、書き込みバッファ１０を通して蓄積メディア１に記録保存される。

つまり、録画した番組を再生する際、同じく記録されているメタデータファイルを参照することで、スポーツのハイライトシーンや楽曲シーンなど、所望のシーンのみを再生することが可能になる。

なお、実施の形態１ではデジタル放送を受信、記録する場合について説明したが、解析対象はこれに限ったものではなく、例えば図９（Ａ）に示したシステムにより、ＡＡＣ音声から直接ハイライトシーンを検出することも可能である。また、放送だけではなく、ＤＶＤ等の記録媒体で提供されるデジタルコンテンツやインターネットによりダウンロードするデジタルコンテンツにも本発明は適用可能である。

本発明における周波数領域情報統一部７における処理を施した後の周波数領域情報は、例えばこれを逆変換して時間領域の信号にしても、符号化圧縮前の音声が得られるものではない。本発明では、音声信号に含まれる周波数領域情報から、ハイライトシーンや楽曲シーンを検出することを主な目的としており、本発明は、これらシーン情報を解析可能な統一の周波数領域情報形式を扱うことに特徴がある。

実施の形態２．
本実施の形態２は、３チャンネル以上のマルチチャンネル音声が符号化圧縮されたデジタル音声信号からハイライトシーンや楽曲シーンを検出することに特徴がある。ここでは、図１に示したシステムにおいて、例えば５．１ｃｈのＡＡＣ音声ストリームが含まれる放送波に対して処理を行う場合について説明する。

実施の形態１において説明したように、デジタルチューナ４で復号されたＭＰＥＧ−２ＴＳ信号から、映像音声信号分離器５によって５．１ｃｈのＡＡＣ音声ストリームが取り出され、ＡＡＣデコーダ６に入力される。

ＡＡＣデコーダ６では、ＡＡＣ音声内に符号化圧縮されているチャンネル毎のＭＤＣＴ係数行列を取り出す。デコード処理については、実施の形態１と同様であるため、ここでは説明を省略する。本来、５．１ｃｈのＡＡＣ音声信号からは、合計６チャンネル分のＭＤＣＴ係数行列が取得できるが、本発明では、フロントチャンネル（左、右、前方。それぞれＬ、Ｒ、Ｃ）に限定してＭＤＣＴ係数行列を取り出すことに特徴がある。

これは、デジタル音声からスポーツのハイライトシーンや楽曲シーン等を検出する場合、重要な周波数領域情報はフロントチャンネルの音声信号に集中しているためであり、サラウンドチャンネル（左後方、右後方、低音。それぞれＳＬ、ＳＲ、ＬＦＥ）についてはデコード処理をスキップすることで、解析対象となるＭＤＣＴ係数行列を最小限にするとともに、処理時間を短縮することができる。

３チャンネル分のフロントチャンネル音声のＭＤＣＴ係数行列は、周波数領域情報統一部７に送られる。マルチチャンネル音声を解析する時の周波数領域情報統一部７における処理を図１４に示す。

周波数領域情報統一部７に入力される３チャンネル分のＭＤＣＴ係数行列は、それぞれロングシーケンスＭＤＣＴであったり、ショートシーケンスＭＤＣＴであったり、周波数領域情報の形式が揃っていない。これを、実施の形態１と同様に、ブロック長判断部６１およびショートシーケンスＭＤＣＴ変換部６２によって、ショートシーケンスＭＤＣＴを周波数軸にそって並べ替えることで、以降３チャンネル分のＭＤＣＴ係数行列を全てロングシーケンスＭＤＣＴとして扱えるようにする。

次に、３チャンネル分のＭＤＣＴ係数行列を、ダウンミックス処理部９９で、２チャンネル（Ｌ’、Ｒ’）の信号に合成する。ダウンミックス処理前の左、右、中央の３チャンネル分の信号をそれぞれＬ［ｋ］、Ｒ［ｋ］、Ｃ［ｋ］、ダウンミックス処理によって得られる左、右の２チャンネル分の信号をそれぞれＬ’［ｋ］、Ｒ’［ｋ］（いずれもｋ＝０〜１０２３）とした時、以下の式７および式８を用いて変換を行う。

式７および式８を用いてＬ’［ｋ］、Ｒ’［ｋ］を求める時、音声信号によっては計算機上でオーバーフローまたはアンダーフローを起こす危険性がある。よって、式７および式８を行う際は、オーバーフローおよびアンダーフローを起こさないように処理を行う必要がある。

ダウンミックス処理後の２チャンネルのＭＤＣＴ係数行列は、以降は実施の形態１と同様に、ＭＤＣＴ係数サンプリング変換部６３に送られ、統一の周波数領域情報の形式に変換が行われ、周波数領域情報の解析処理が行われる。

このように本発明においては、各チャンネルから得られる周波数領域情報の形式を等しくすることにより、時間領域の信号に復号することなく周波数領域の信号に対してダウンミックス処理を行うことが可能になり、５．１ｃｈのＡＡＣ音声についても、ステレオ音声と同様の周波数領域情報の解析を行うことができる。また、解析に要する回路規模や処理時間を大幅に削減できるメリットもある。

実施の形態１に係る映像音声記録装置を示すシステムブロック図である。実施の形態１に係るデジタル音声信号の解析処理を示すフローチャートである。実施の形態１に係るＡＡＣデコーダにおける処理を示すブロック図である。実施の形態１に係るＡＡＣ音声のロングシーケンスデータから得られるＭＤＣＴ係数行列のグラフである。実施の形態１に係るＡＡＣ音声のショートシーケンスデータから得られるＭＤＣＴ係数行列のグラフである。実施の形態１に係る周波数領域情報統一部における処理を示すブロック図である。実施の形態１に係るＡＡＣ音声のショートシーケンスデータから得られるＭＤＣＴ係数行列を周波数軸に沿って並び替えた後のＭＤＣＴ係数行列のグラフである。実施の形態１の周波数領域情報解析部におけるスポーツのハイライトシーンを検出する処理を示すブロック図である。実施の形態１に係るＡＡＣ音声、ＡＣ−３音声、ＰＣＭ音声の周波数領域情報を解析するシステムのブロック図である。実施の形態１に係るＡＡＣ音声の周波数領域情報を解析して得られたスポーツハイライトレベルのグラフである。実施の形態１に係るＡＣ−３音声の周波数領域情報を解析して得られたスポーツハイライトレベルのグラフである。実施の形態１に係るＰＣＭ音声を直交変換して得た周波数領域情報を解析して得られたスポーツハイライトレベルのグラフである。実施の形態１に係る周波数領域情報解析部における楽曲シーンを検出する処理を示すブロック図である。実施の形態２に係るマルチチャンネル音声に対する周波数領域情報統一部の処理を示すブロック図である。

符号の説明

１蓄積メディア、２書込みドライブ、３アンテナ、４デジタルチューナ、５映像音声信号分離器、６ＡＡＣデコーダ、７周波数領域情報統一部、８周波数領域情報解析部、９メタデータ生成部、１０書き込みバッファメモリ、１１記録制御部、３１ＡＤＴＳヘッダ／ビットストリーム解析、３２ハフマン復号、３３逆量子化、３４リスケーリング、３５Ｍ／Ｓステレオ処理、３６予測処理部、３７インテンシティ／カップリング、３８ＴＮＳ処理、６１ブロック長判断部、６２ショートシーケンスＭＤＣＴ変換部、６３ＭＤＣＴ係数サンプリング変換部、８１エネルギー算出部、８２尤度比較処理部、８３モデルデータ、８４合成部、９１ＡＣ−３デコーダ、９２ＭＤＣＴ変換器、９５モデルデータ、９６差分演算処理部、９７統合部、９９ダウンミックス処理部、１０００映像音声記録装置。

Claims

符号化圧縮されたデジタル音声信号を入力するデータ入力ステップと、
前記デジタル音声信号内において符号化された第１のＭＤＣＴ係数行列である周波数領域情報を取り出すステップと、
前記周波数領域情報を所定の次数の第２のＭＤＣＴ係数行列である周波数領域情報の形式に周波数軸上で変換するステップとを備え、
前記符号化圧縮されたデジタル音声信号は、１フレームを１つのブロックから構成して符号化圧縮されている場合は、次数が前記所定の次数よりも大きい第１のＭＤＣＴ係数行列である周波数領域情報で、１フレームを複数のブロック数から構成して符号化圧縮されている場合は、次数に前記ブロック数を掛けたものが前記所定の次数よりも大きい第１のＭＤＣＴ係数行列である周波数領域情報で符号化されていることを特徴とするデジタル音声信号解析方法。
請求項１に記載のデジタル音声信号解析方法であって、
前記符号化圧縮されたデジタル音声信号は、前記所定の周波数領域情報とは異なるサンプリング周波数を有することを特徴とするデジタル音声信号解析方法。
請求項１または２に記載のデジタル音声信号解析方法であって、
前記所定の形式の周波数領域情報に変換するステップにおいて、ブロック数をｎ、ブロックのナンバーをｙ、各ブロックの周波数領域情報の係数行列の要素番号をｘとした場合に、次式
Ｔ［ｎｘ＋ｙ］＝Ｓｙ［ｘ］
を用いて、短い次数の複数のブロックからなる周波数領域情報の係数行列Ｓｙ［ｘ］を高い次数の１ブロックの周波数領域情報の係数行列Ｔ［ｋ］に変換を行う処理を含むことを特徴とするデジタル音声信号解析方法。
請求項１または２に記載のデジタル音声信号解析方法であって、
前記所定の形式の周波数領域情報に変換するステップは、前記符号化圧縮されたデジタル音声信号が、１フレームを１つのブロックから構成して符号化圧縮されている場合に、前記第１のＭＤＣＴ係数行列である周波数領域情報に対し、係数値を平均することによるダウンサンプリング変換を行い、前記所定の次数の第２のＭＤＣＴ係数行列である周波数領域情報へ変換を行う処理を含むことを特徴とするデジタル音声信号解析方法。
請求項１から４のいずれか１項に記載のデジタル音声信号解析方法であって、
前記所定の形式の周波数領域情報を解析して所望のシーン情報を算出するステップをさらに備え、
前記周波数領域情報を解析して所望のシーン情報を算出するステップは、あらかじめ主観で所望のシーンの音声と判断した音声の周波数領域情報から作成したモデルとの尤度比較によって、入力音声の種別を特定することを特徴とするデジタル音声信号解析方法。
請求項１から５のいずれか１項に記載のデジタル音声信号解析方法であって、
前記周波数領域情報を取り出すステップは、マルチチャンネル音声のうちフロントチャンネル音声に限定して周波数領域情報を取り出すことを特徴とするデジタル音声信号解析方法。
請求項１から６のいずれか１項に記載のデジタル音声信号解析方法であって、
前記所定の形式の周波数領域情報に変換するステップは、フロントチャンネル音声の周波数領域情報に対して２チャンネルの信号へのダウンミックス処理を行うことを特徴とするデジタル音声信号解析方法。
符号化圧縮されたデジタル音声信号を入力するデータ入力手段と、
前記デジタル音声信号内において符号化された第１のＭＤＣＴ係数行列である周波数領域情報を取り出す手段と、
前記周波数領域情報を所定の次数の第２のＭＤＣＴ係数行列である周波数領域情報に周波数軸上で変換する手段と
を備え、
前記符号化圧縮されたデジタル音声信号は、１フレームを１つのブロックから構成して符号化圧縮されている場合は、次数が前記所定の次数よりも大きい第１のＭＤＣＴ係数行列である周波数領域情報で、１フレームを複数のブロック数から構成して符号化圧縮されている場合は、次数に前記ブロック数を掛けたものが前記所定の次数よりも大きい第１のＭＤＣＴ係数行列である周波数領域情報で符号化されていることを特徴とするデジタル音声信号解析装置。
請求項８に記載のデジタル音声信号解析装置であって、
前記符号化圧縮されたデジタル音声信号は、前記所定の周波数領域情報とは異なるサンプリング周波数を有することを特徴とするデジタル音声信号解析装置。
請求項８または９に記載のデジタル音声信号解析装置であって、
前記所定の形式の周波数領域情報に変換する手段は、ブロック数をｎ、ブロックのナンバーをｙ、各ブロックの周波数領域情報の係数行列の要素番号をｘとした場合に、次式
Ｔ［ｎｘ＋ｙ］＝Ｓｙ［ｘ］
を用いて、短い次数の複数のブロックからなる周波数領域情報の係数行列Ｓｙ［ｘ］を高い次数の１ブロックの周波数領域情報の係数行列Ｔ［ｋ］に変換することを特徴とするデジタル音声信号解析装置。
請求項８から１０のいずれか１項に記載のデジタル音声信号解析装置を備えたことを特徴とする映像音声記録装置。