JP4743228B2 - デジタル音声信号解析方法、その装置、及び映像音声記録装置 - Google Patents

デジタル音声信号解析方法、その装置、及び映像音声記録装置 Download PDF

Info

Publication number
JP4743228B2
JP4743228B2 JP2008134090A JP2008134090A JP4743228B2 JP 4743228 B2 JP4743228 B2 JP 4743228B2 JP 2008134090 A JP2008134090 A JP 2008134090A JP 2008134090 A JP2008134090 A JP 2008134090A JP 4743228 B2 JP4743228 B2 JP 4743228B2
Authority
JP
Japan
Prior art keywords
frequency domain
domain information
audio signal
digital audio
coefficient matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008134090A
Other languages
English (en)
Other versions
JP2009284212A (ja
Inventor
英嗣 杉之原
功 大塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2008134090A priority Critical patent/JP4743228B2/ja
Publication of JP2009284212A publication Critical patent/JP2009284212A/ja
Application granted granted Critical
Publication of JP4743228B2 publication Critical patent/JP4743228B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、符号化圧縮されたテレビジョン放送等の映像音声信号から、スポーツのハイライトシーンや楽曲区間などを検出する方法、及び装置に関するものである。
テレビジョン放送の一つに、所謂「歌番組」や「音楽番組」と呼ばれるジャンルが存在する。音楽番組は出演者による演奏や歌唱、あるいはビデオ映像による楽曲の映像(以下、「楽曲シーン」と記す。なお、この明細書において、「楽曲シーン」とは歌や演奏などの音楽が音声に含まれる映像を全般に指す。)と、司会者などによる楽曲の紹介や出演者とのトーク(会話)ショーなどの楽曲以外の映像(以下、「非楽曲シーン」と記す。)とから構成される場合が多い。
また民間放送であれば、番組の広告主の宣伝や、放送局自らの広告宣伝のためのコマーシャルメッセージ放送(以下、「CM放送」と記す。)が番組の構成に含まれる場合もある。
ところで、録画した音楽番組を再生する場合、楽曲に集中したい視聴者にとっては非楽曲シーンやCM放送などの楽曲シーン以外を効率よく見飛ばしたい要望がある。また逆に、楽曲には興味が無い視聴者には、楽曲シーンやCM放送を見飛ばしてトークショーなどの非楽曲シーンのみを視聴したいとする要望もある。
このような要望に対し、例えば従来の楽曲検出方法及び記録方法では、音情報の周波数スペクトルのピークが周波数方向に対して時間的に安定している特徴を用いて楽曲シーンを特定し、楽曲の映像音声のみを蓄積している(例えば、特許文献1参照)。
特許3434195号公報(第5頁、第1図)
また、野球やサッカーといった「スポーツ番組」では、得点シーンやファインプレーのシーンなど、登場選手がまさに活躍しているハイライトシーンのみを視聴し、他のシーンを効率よく見飛ばしたいという要望もある。
このような要望に対し、例えば従来のハイライトシーン検出方法及び記録方法では、音声のピーク周波数、主要音声スペクトル幅といった特徴抽出の結果を用いてハイライトシーンを特定している(例えば、特許文献2参照)。
特許2960939号公報(第4頁、第1図)
ところで、HDD(Hard Disk Drive)レコーダやDVD(Degital Versatile Disc)レコーダ、Blu−rayレコーダといったデジタルレコーダでは、テレビジョン放送等の映像音声信号を符号化圧縮した状態で記録する。
例えばアナログ放送を記録する場合、音声信号はアナログデジタル変換器(A/Dコンバータ)などを用いて音声波形を一定時間おきにサンプリングして振幅をデジタルデータ化したPCM(Pulse Code Modulation)信号などのデジタル信号に変換して記録する。また、その後、オーディオエンコーダにおいて、AC−3(Audio Code Number3)方式などに符号化圧縮して記録する場合もある。
一方、昨今のテレビジョン放送は、アナログ放送からデジタル放送への置き換えが進んでいる。デジタル放送では、映像や音声信号、番組表などのデータが、それぞれ適切な形式で符号化圧縮されて放送局から配信される。例えば、日本国内におけるデジタル放送は、映像は主にMPEG―2(Moving Picture Expert Group−2)方式、音声は主にMPEG―2 AAC(Moving Picture Expert Group−2 Advanced Audio Coding、以降AACと略す)方式と呼ばれるISO/IEC13818−7規格の符号化方式で符号化圧縮を行い、これらの信号をMPEG―2 TS(Transport Stream)形式で重畳して配信することが規定されている。
デジタル放送を記録する場合、例えば配信された符号化圧縮された映像音声信号をそのまま記録する。あるいは、記録容量を節約するため、配信された映像音声信号を一旦伸張処理(符号化圧縮された信号を輝度信号や波形信号といった時間領域の情報に変換する処理。以降デコード処理と呼ぶ)し、アナログ放送のようにビデオおよびオーディオエンコーダを用いて例えばH.264方式やAC−3方式などで再符号化圧縮しても良い。
こうした音声の符号化圧縮方式の多くは、人間の聴覚特性を用いた「周波数相関符号化」を用いて圧縮効率を高めている。「周波数相関符号化」では、量子化されたPCM信号を、時間領域から周波数領域に直交変換し、周波数領域における信号エネルギーの偏差を求め、この偏差を用いて符号化することで符号化効率を高めるようにしている。
周波数相関符号化されたデジタル音声信号からハイライトシーンや楽曲シーンを検出しようとした場合、デジタル音声信号をデコード処理する中間段階で、すなわち時間領域の音の波形信であるPCM信号を得ずに周波数領域情報をデジタル音声信号から取り出し、この周波数領域情報に対してハイライトシーンや楽曲シーンの解析を行うことができる。
しかし、デジタル音声信号から取り出せる周波数領域情報の形式は、符号化圧縮方式によって異なる場合がほとんどである。これは符号化圧縮の際、PCM方式の音声信号に対し、それぞれの規格で定められた形式の直交変換を行って周波数領域への変換を行っているからである。
また、符号化パラメータが異なる場合、例えばサンプリング周波数が異なる場合は、同じ符号化圧縮方式であっても得られる周波数領域情報の形式が異なる。符号化方式によっては、符号化されたフレームごとに周波数領域情報の形式が異なる場合もある。
このため、符号化圧縮されたデジタル音声信号からハイライトシーンや楽曲シーンを検出しようとした場合、いったんデジタル音声信号をデコード処理して時間領域の信号であるPCM信号に変換し、さらに直交変換を行って等しい形式の周波数領域情報を得る必要があった。デコード処理における周波数領域から時間領域への逆変換処理、および時間領域から周波数領域への直交変換処理は非常に処理量が多く、処理時間も多くかかってしまう。
また、デジタル音声信号中に符号化されている周波数領域情報を用いてハイライトシーンや楽曲シーンを検出しようとした場合、デジタル音声信号の符号化圧縮方式それぞれに適した周波数領域情報の解析手段を用意する必要があり、解析回路規模が大きくなってしまう問題があった。
この発明は、上述のような課題を解消するためになされたもので、デジタル音声信号の符号化圧縮方式または符号化パラメータなどが異なっていても、同じ解析手段を用いてデジタル音声信号中に符号化されている周波数領域情報からハイライトシーンや楽曲シーンの検出が可能なデジタル音声信号解析方法、及び装置を提供するものである。
本発明に係わるデジタル音声解析方法は、符号化圧縮されたデジタル音声信号を入力するデータ入力ステップと、前記デジタル音声信号内において符号化された第1のMDCT係数行列である周波数領域情報を取り出すステップと、前記周波数領域情報を所定の次数の第2のMDCT係数行列である周波数領域情報の形式に周波数軸上で変換するステップとを備え、前記符号化圧縮されたデジタル音声信号は、1フレームを1つのブロックから構成して符号化圧縮されている場合は、次数が前記所定の次数よりも大きい第1のMDCT係数行列である周波数領域情報で、1フレームを複数のブロック数から構成して符号化圧縮されている場合は、次数に前記ブロック数を掛けたものが前記所定の次数よりも大きい第1のMDCT係数行列である周波数領域情報で符号化されていることを特徴とする。
本発明のデジタル音声信号の解析方法によれば、周波数相関符号化されたデジタル音声信号のデコード処理の中間段階で得られる周波数領域情報を扱うことで、効率よく解析対象となる音声信号の周波数領域情報を獲得でき、さらに異なる符号化圧縮方式のデジタル音声信号からも、統一された所定の形式の周波数領域情報を得ることができる。

また、本発明により、デジタル音声信号をデコード処理した時間領域の信号を扱う場合に比べて解析回路規模および解析処理時間を大幅に削減することが可能になる。
実施の形態1.
以下、図を用いて本実施の形態1に係るデジタル音声信号解析方法、及びその装置を説明する。本実施の形態1に係るデジタル音声信号解析方法は、AAC方式で符号化圧縮された音声信号からハイライトシーンや、楽曲シーン等を検出することに特徴がある。
図1は、本実施の形態1の映像音声記録装置を示すシステムブロック図である。また図2は、本実施の形態1のデジタル音声信号解析方法を示すフローチャートである。まず、図1及び図2を用いて本実施の形態1の映像音声記録装置について概説する。
映像音声記録装置1000においては、アンテナ3によってテレビジョン放送が受信され(ST1)、デジタルチューナ4へ放送波信号が送られる。デジタルチューナ4は、受信した放送波信号を復号し(ST2)、映像音声信号や番組情報などのデータ信号が重畳されたMEPG―2 TS信号を生成する。
MEPG−2 TS信号は、書き込みバッファ10を通して書き込みドライブ2に送られ、DVDやBlu−rayなどの蓄積メディア1に記録(一連の処理は「録画」とも言われる)される。これら一連の処理は、記録制御部11によって統括的に管理して制御されている。なお、蓄積メディア1と書き込みドライブ2は、ハードディスクドライブ(HDD)などのリムーバブルではない蓄積メディアやSDメモリーカードなどのシリコンメディアに置き換わっても良いし、LAN(Local Area Network)などネットワーク接続された蓄積メディアであってもかまわない。
この録画動作と並行して、デジタルチューナ4で生成されたMPEG−2 TS信号は映像音声信号分離器5に送られ、各種データが重畳された信号から映像信号や音声信号を分離し、テレビジョン放送から本装置で解析対象となるデジタル音声信号、すなわちAAC音声ストリームを取り出す(ST3)。
分離されたAAC音声ストリームは、AACデコーダ6に送られる。AACデコーダ6では、入力されたAAC音声データ1フレーム単位でデコード処理を行って、符号化されている音声のサンプリング周波数や、AAC音声ストリーム内に符号化されているMDCT係数行列などの周波数領域情報を取得する(ST4)。
AAC音声ストリームから抽出された周波数領域情報は、周波数領域情報統一部7に送られ、その形式を周波数領域情報解析部8で解析可能な統一の形式に変換を行う(ST5)。
周波数領域情報解析部8では、入力された音声の周波数領域情報に対して、エネルギー解析や所望のシーンの音声の周波数領域情報をモデル化したモデルデータとの尤度比較による音声識別処理などの解析を行うことで、ハイライトシーンや楽曲シーン情報を算出する(ST6)。
検出されたハイライトシーンや楽曲シーンの情報は、メタデータ生成部9にて、記録された映像音声信号(MPEG−2 TS信号)と関連するメタデータファイルとしてまとめ(ST7)、書き込みバッファ10を通して蓄積メディア1に記録される(ST8)。図示はしていないが、再生装置においては、記録された映像音声信号を再生する際にメタデータファイルを参照することで、ハイライトシーンや楽曲シーンといった所望のシーンのみを再生することが可能になる。
なお、映像音声記録装置1000の記録部の概念としては、書き込みドライブ2や、記録制御部11を含めてもよい。
以降、実施の形態1におけるデジタル音声信号の解析処理について詳しく説明する。映像音声信号分離器5では、MPEG―2 TSストリーム内に存在するPAT(Program Association Table)やPMT(Program Map Table)などのPSI(Program Specific Information)を参照し、複数のストリームが重畳されているMPEG−2 TSストリームから所望のストリームを分離する。所望のストリームとは、例えば映像ストリームや音声ストリームであるが、ここではデジタル放送の音声信号であるAAC音声ストリームを分離する。
デジタル放送においては、1チャンネル分のMPEG−2 TSストリームに対し、複数の映像、音声ストリームを重畳することが可能である。本実施の形態1においては、第一音声ストリーム、もしくはユーザーが指定した音声ストリームを1つ分離するものとする。
図3は、実施の形態1におけるAACデコーダ6の処理概要を示したものである。AACデコーダ6には、映像音声分離器5で分離されたAAC音声ストリームが入力され、ADTSヘッダ/ビットストリーム解析部31を通して、順次デコード処理が行われる。実施の形態1においては、解析対象となるAAC音声ストリームをステレオ音声として以降説明を行う。
本発明におけるAACデコーダ6は、AAC音声ストリーム中に符号化されている周波数領域情報であるMDCT(Modified Discrete Cosine Transform)係数を出力することに特徴がある。MDCT、すなわち変形離散コサイン変換とは、時間領域の離散信号を周波数領域へ変換する直交変換であり、窓を半分ずつ重複させながら周波数変換することで、時間的に1つ前のブロックとオーバーラップさせ、復号時のブロック間の接続ノイズを軽減させることができるものである。
AACデコード6における処理は、ADTSヘッダ/ビットストリーム解析部31、ハフマン復号化部32、逆量子化部33、リスケーリング部34、M/Sステレオ処理部35、予測処理部36、インテンシティ/カップリング処理部37、TNS部38からなる。
ADTSヘッダ/ビットストリーム解析部31では、AAC音声1フレーム単位に付加されているADTSヘッダを解析し、AAC音声ストリームを1フレームごとに分割して、以降のデコード処理をフレーム単位で行う。また、AAC音声ストリームを、符号化されているMDCT係数と、それ以外のサンプリング周波数などのパラメータや制御情報とに分離し、デコード処理の各部に供給する。
ハフマン復号化部32では、可逆的にビット量を削減された信号に対し、ハフマンテーブルを参照しながら復号を行う。復号された信号を逆量子化部33およびリスケーリング部34を通して逆量子化、リスケーリング処理を行うことで、量子化前のMDCT係数が復元される。
そして、量子化前の状態に復元されたMDCT係数は、M/Sステレオ処理部35に送られる。M/Sステレオ処理とは、ステレオなどの音声を、左右チャンネルの和信号(M=L+R)と差信号(S=L−R)の形で伝送することにより、左右音声が似通っている場合に符号化効率を高める処理である。M/Sステレオ処理部35では、デコード対象となる音声ストリームがM/Sステレオ処理されて符号化されているかを判断しながら、本来の左右チャンネル音声(LとR)のMDCT係数を復号する。
M/Sステレオ処理の後、MDCT係数は予測処理部36の予測処理により、データ圧縮前のMDCT係数に復元される。
データ圧縮前の状態に復元されたMDCT係数は、さらに、インテンシティ/カップリング処理部37に送られる。インテンシティ/カップリングとは、高い周波数の音を左チャンネル(L)と右チャンネル(R)を合わせた1つのカップリングチャンネルで伝送するもので、当復号化処理によって、高い周波数領域の音についても左右それぞれのチャンネルのMDCT係数が得られる。
最後にTNS部38にて、MDCT係数を時間軸上の信号であるかのように見立てて線形予測を行った予測フィルタリングが外される。この結果、PCM信号をMDCT処理した直後のMDCT係数が復元される。
一般的なAACデコーダは、時間領域の音声信号(PCM信号)を出力とするため、この他に適応ブロック長切換逆MDCT処理部およびゲイン制御部を備えるが、本発明におけるAACデコーダ6は、周波数領域情報すなわちMDCT係数行列を出力とするため、これら処理部は必要ない。
また、TNS処理、インテンシティ/カップリング処理、予測処理、M/Sステレオ処理は、AAC規格におけるオプション処理であり、すべてのAAC音声信号に対して行われるものではない。特に、日本のデジタル放送で用いられるAAC符号化はLC(Low Complexity)プロファイルで運用されており、デコード対象をLCプロファイルに限定することで、例えば予測処理部36を省略してもよい。
このように、AACデコーダ6によって、デジタル音声信号に符号化されている周波数領域情報を直接取り出すことで、回路規模を削減できる。また、多くの処理時間を必要とする時間領域の音声信号への逆変換処理を行わないため、デコード処理に要する処理時間も大きく短縮できる。
ところで、AAC方式の符号化で用いられるMDCTには、1フレームのブロック長が2048サンプルのものと256サンプル×8のものとが適応的に切り替えて使用される。一般に、定常的な音の場合は長いブロック長を用い、瞬間的に変化するような音の場合は短いブロック長を用いることで、定常音における高能率圧縮と、瞬間的に変化する音における符号化時のノイズの低減を両立させることができる。
すなわち、AACデコーダ6における処理によって、ブロック長が2048サンプルのAAC音声1フレームからは1024次のMDCT係数行列が、ブロック長が256サンプル×8のAAC音声1フレームからは128次のMDCT係数行列が8組得られることになる。以降、1024次のMDCT係数行列が得られるAAC音声データをロングシーケンスデータ、128次のMDCT係数行列が8組得られるAAC音声データをショートシーケンスデータと呼ぶ。
図4および図5は、それぞれロングシーケンスデータおよびショートシーケンスデータから得られるMDCT係数行列の一例である。図4および図5の横軸はMDCT係数行列の要素番号を示し、縦軸は係数値を示している。
図4に示したロングシーケンスデータのMDCT係数行列は、横軸を周波数とし、サンプリング周波数÷2までの周波数帯を1024分割した各周波数成分の振幅(強さ)を示す周波数領域情報である。
図5に示したショートシーケンスデータのMDCT係数行列は、行列の先頭から128要素ずつが、サンプリング周波数÷2までの周波数帯を128分割した各周波数成分の振幅(強さ)を示し、これを8ブロック分、時間的に連続する信号をつなげた周波数領域情報である。
AACデコーダ6では、ステレオ音声のAAC音声ストリームから、信号の周波数領域情報として、サンプリング周波数情報および左右チャンネルそれぞれについて図4および図5に示したようなMDCT係数行列などを取得し、これを周波数領域情報統一部7へ送る。
図6は、周波数領域情報統一部7における処理を示したものである。周波数情報領域統一部7は、ブロック長判断部61およびショートシーケンスMDCT変換部62およびMDCT係数サンプリング変換部63からなる。
周波数領域情報統一部7に入力されるAAC音声データの周波数領域情報は、例えばサンプリング周波数が32kHzであったり48kHzであったり、また1024次のMDCT係数行列(ロングシーケンスMDCT)であったり128次のMDCT係数行列が8組(ショートシーケンスMDCT)であったりと、その形式が様々である。
周波数領域情報統一部7は、これら異なる周波数領域情報の形式を統一し、周波数領域情報解析処理部8への入力形式を揃えることを目的にしたものである。
周波数領域情報統一部7における処理について説明する。ブロック長判断部61では、処理対象となるAAC音声から取得したMDCT係数行列がロングシーケンスMDCTであるかショートシーケンスMDCTであるかを判断し、ショートシーケンスMDCTであった場合、MDCT係数行列をショートシーケンスMDCT変換部62に送る。
ショートシーケンスMDCT変換部62では、8組の128次のMDCT係数行列の並べ替えを行い、周波数軸方向に並んだ1組の1024次のMDCT係数行列を生成する。8組の128次のMDCT係数行列をSn[m](n=0〜7、m=0〜128)とし、並べ替えた後の1024次のMDCT係数行列をT[k](k=0〜1023)とすると、並べ替えは以下に示す式1で行う。
Figure 0004743228
式1に示した変換により、T[k]は8ブロックの周波数領域情報を、低い周波数の情報から順に時間軸方向に並べ替えた行列に変換される。図5に示したショートシーケンスデータのMDCT係数行列を、式1を用いて変換したものを図7に示す。本発明では、この変換処理により、ショートシーケンスMDCTを擬似的にロングシーケンスMDCTとして扱うものとする。
ロングシーケンスMDCTまたはショートシーケンスMDCT変換部62で変換処理されたショートシーケンスMDCT(いずれも1024次のMDCT係数)、およびこれらMDCT係数行列のサンプリング周波数情報が、MDCT係数サンプリング変換部63に送られる。
MDCT係数サンプリング変換部63では、入力された1024次のMDCT係数行列を、統一の形式の周波数領域情報へと変換を行う。ここでは、48kHzサンプリングの256次のMDCT係数行列に変換を行う方法を説明する。
入力されたAAC音声ストリームが48kHzであった場合、AAC音声から得られる1024次のMDCT係数行列は、先頭から順番に、サンプリング周波数の2分の1である24kHzを1024分割した各周波数成分の振幅(強さ)を示したもの、もしくはそうみなされる周波数領域情報である。同様に、変換しようとする48kHzサンプリングの256次のMDCT係数行列は、先頭から順番に、24kHzを256分割した各周波数成分の振幅(強さ)を示したものである。
ここで、48kHz1024次のMDCT係数行列をL[n](n=0〜1023)、48kHz256次のMDCT係数行列をD[m](m=0〜255)とした時、以下に示す式2でL[n]をD[m]に変換を行う。
Figure 0004743228
式2に示した変換式により、元々L[n]が持っている各周波数成分に対する情報を維持したまま、より次数の低いD[m]にダウンサンプリング変換を行うことができる。ただし、D[m]における各周波数成分の強さの2乗和である音声エネルギーは、L[n]のそれに対し小さくなることに注意する。
同様に、入力されたAAC音声ストリームが32kHzであった場合、AAC音声から得られる1024次のMDCT係数行列は、先頭から順番に、サンプリング周波数の2分の1である16kHzを1024分割した各周波数成分の振幅(強さ)を示したものである。
よって、32kHz1024次のMDCT係数行列をP[n](n=0〜1023)とした時、以下に示す式3および式4によって、P[n]が持つ各周波数成分に対する情報を維持したまま、より次数の低い48kHz256次のMDCT係数行列D[m]への変換を行う。
Figure 0004743228
Figure 0004743228
式4において、P[n]は元々サンプリング周波数の2分の1である16kHzまでの周波数情報しか持たないため、D[m]の16kHz以上に相当する成分についてはすべて0としている。また、式3および式4における変換で、D[m]における各周波数成分の強さの2乗和である音声エネルギーは、P[n]のそれに対し小さくなることに注意する。
このように同じ周波数軸を持ちかつ次数が等しくなるよう周波数領域情報を統一する処理を行うことで、AAC音声データがロングシーケンスデータであってもショートシーケンスデータであっても、また、放送波の場合、放送の途中でサンプリング周波数などのフォーマット形式が変わったとしても、常に同等の周波数領域情報が得られ、これらの違いを意識することなく周波数領域情報の解析を行うことができる。
周波数領域情報を統一する処理を行う際、処理前後の音声のエネルギーが変わらないように、MDCT係数行列全体に対して係数をかけるなどの調整を行っても良い。この時、ロングシーケンスデータかショートシーケンスであるかによって、用いる係数を変えても良い。
周波数領域情報を統一の形式にしたMDCT係数行列は、周波数領域情報解析部8に送られる。図8は、スポーツのハイライトシーンを検出する周波数領域解析処理部8の処理概要の一例を示したものである。
スポーツのハイライトシーンを検出する周波数領域解析処理部8は、エネルギー算出部81、尤度比較処理部82、モデルデータ83、および合成部84からなる。
入力されたMDCT係数行列は、左右チャンネルのうち、片方のチャンネルのMDCT係数行列がエネルギー算出部81および尤度比較処理部82に送られる。
エネルギー算出部81では、256次のMDCT係数行列をD[m](m=0〜255)とした時、例えば式5に示す式を用いて音声エネルギーEを算出する。
Figure 0004743228
尤度比較処理部82では、モデルデータ83を参照しながらMDCT係数行列をベクトルデータと見立てて解析処理を行う。
モデルデータ83は、あらかじめ主観評価で顕著にスポーツのハイライトシーンと判断される音声の係数ベクトル(すなわち256次のMDCT係数行列)を収集し、トレーニングデータとして係数ベクトルの分布傾向を、混合ガウス分布モデル(GMM、Gaussian Mixture Model)を使用してモデル化したものである。顕著なハイライトシーンの音声としては、アナウンサーの興奮音声などが含まれる。
また、ハイライトシーン以外の音声、例えば拍手や歓声、笑い声、音楽といった音声についても同様にトレーニングデータを収集して混合ガウス分布モデルを作成し、複数の音声モデルを用意する。
モデルデータ83は、これらの音声モデルを参照できるデータテーブルとなる。尤度比較処理部82では、モデルデータ83を参照して、入力されたAAC音声のMDCT係数行列に対してベクトル空間として最も尤度の高い音声モデルを探し、そのモデルの音声種別を入力信号に対してラベル付けを行う。
すなわちこの処理によって、ハイライトシーンの音声モデルの周波数特性と尤度の高いMDCT係数行列の入力があった場合にスポーツのハイライトシーンを示すラベルが割り当てられ、その区間がハイライトシーンであるとの検出が可能になる。なお、あらかじめ用意したモデルを参照して入力信号の音声種別を特定する手法であれば混合ガウス分布モデルによる尤度比較でなくても良く、隠れマルコフ法(HMM法)などの統計的な手法を使用しても構わない。また、尤度比較処理を行う際、MDCT係数行列の次数は、計算量の軽減を目的に、射影変換によって次元数の低減を図っても良い。
合成部84では、尤度比較処理部82によって時系列にそって順次得られるハイライトシーンのラベルについて、ある時間窓に対する出現割合として時系列データ化し、これにエネルギー算出部81で同じく時系列にそって得られる音声エネルギーを掛け合わせることで、AAC音声データの時系列にそった盛り上がり度合いを示すスポーツハイライトレベルを算出する。
算出したスポーツハイライトレベルに対して、ある閾値を設定し、閾値を超えた区間をハイライトシーンとして検出することができる。
ここで、本発明を用いて、異なる符号化もしくは符号化圧縮方式の、同一音声を解析して得られたスポーツハイライトレベルを示す。今回は、ステレオ音声でサンプリング周波数が48kHzの、AAC方式とAC−3方式、およびAAC方式の音声信号を時間領域の信号にデコード処理して得たPCM方式の3つのデジタル音声を解析対象とした。これら音声はいずれも同じサッカー番組のおよそ45分間の音声である。これら音声を解析したシステムを図9に示す。
同システムは、AACデコーダ6、周波数領域情報統一部7、周波数領域情報解析部8(以上は図1に示したものと同一)、AC−3デコーダ91、MDCT変換器92からなる。
AAC音声は、AACデコーダ6、周波数領域情報統一部7および周波数領域情報解析部8により、これまでに説明した解析を行った。AAC音声を解析、取得したスポーツハイライトレベルを図10に示す。
AC−3音声は、1フレーム内に256次のMDCT係数行列が6ブロック、周波数領域情報として符号化されている。そこで、AC−3デコーダ91を用いて、時間領域の信号を得るデコード処理の過程で得られるこの256次のMDCT係数行列を取得し、周波数領域情報解析部8で解析を行った。AC−3音声を解析、取得したスポーツハイライトレベルを図11に示す。
PCM音声は、MDCT変換器92により、512サンプルずつ50%のオーバーラップを行いながらMDCT変換を行って256次のMDCT係数行列を求め、これを周波数領域情報解析部8で解析を行った。PCM音声を解析、取得したスポーツハイライトレベルを図12に示す。
図10から図12に示したグラフについて、図10と図11のグラフの相関係数は0.953、図10と図12のグラフの相関は0.970であり、いずれも1に近く、非常に高い相関があることを示している。
この結果は、AAC方式で符号化されている1024次のMDCT係数行列もしくは128次のMDCT係数行列が、周波数領域情報統一部7による処理によって、AC−3音声に符号化されている256次のMDCT係数行列もしくはPCM信号を直交変換して求めた256次のMDCT係数行列と同等の周波数領域情報へ変換できていることを示している。
すわなち、本発明により、同一の周波数領域情報解析部8をもって、AAC音声やAC−3音声、PCM音声からスポーツのハイライトシーンなどを解析することが可能であることがわかる。
また、AAC音声をデコード処理して時間領域のPCM音声を得て(図示はせず)、これをさらにMDCT変換器92を通して周波数領域情報解析部8で解析を行う一連の処理時間に対し、図9(A)のように、AACデコーダ6でAAC音声に符号化されているMDCT係数行列を直接取得し、周波数領域情報統一部7でこれを変換して周波数領域情報解析部8で解析を行う一連の処理時間は、大幅に短縮される。
このように処理時間の面においても、符号化圧縮された音声信号を一旦時間領域の信号に戻して周波数領域情報を得る場合に対し、本発明のように符号化圧縮された音声信号に含まれる周波数領域情報を直接取り出し、統一の周波数領域情報の形式に変換する本発明によるデジタル音声の解析処理は優位性がある。
ここまでは、スポーツのハイライトシーンを解析する方法について説明したが、周波数領域情報解析部8として、例えば図13に示すシステムを用いることで、同様に楽曲シーン情報を算出することが可能になる。
楽曲シーン情報を算出する場合のシステムは、尤度比較部82、モデルデータ95、差分演算処理部96、統合部97からなる。
モデルデータ95は、あらかじめ主観評価で顕著に楽曲シーンと判断される音声の係数ベクトル(すなわち256次のMDCT係数行列)を収集し、トレーニングデータとして係数ベクトルの分布傾向を、混合ガウス分布モデルを使用してモデル化したものである。楽曲シーンの音声としては、楽器音や歌声などがある。
また、楽曲シーン以外の音声、例えば拍手や歓声、トークシーンの会話といった音声についても同様にトレーニングデータを収集して混合ガウス分布モデルを作成し、複数の音声モデルを用意する。
モデルデータ95は、これらの音声モデルを参照できるデータテーブルとなる。尤度比較処理部82ではスポーツのハイライトシーンの解析と同様に、モデルデータ95を参照して、入力されたAAC音声のMDCT係数行列に対してベクトル空間として最も尤度の高い音声モデルを探し、そのモデルの音声種別を入力信号に対してラベル付けを行う。
差分演算処理部96では、ステレオ音声の左右チャンネルのMDCT係数行列をDr[k]、Dl[k](k=0〜255)としたとき、式6を用いて差異量Gを得る。
Figure 0004743228
なお、差異量GはMDCT係数行列の差の二乗和としたが、右チャンネルと左チャンネルの差異が数値化される手法であれば、他の算出式を使用しても構わない。
ここで差異量は、右チャンネルと左チャンネルの違いを表すものであり、音の広がり感、ステレオ感、などとも言い表せる。一般的に、楽曲シーンでは音の広がり感が大きく、出演者によるトークシーンなどの非楽曲シーンでは音の広がり感が小さいことが分かっている。すなわち、差異量が高い区間が楽曲シーンであるとの検出が可能になる。
統合部97では、尤度比較処理部82によって時系列にそって順次得られる楽曲シーンのラベルについて、ある時間窓に対する出現割合として時系列データ化し、これに差分演算処理部96で同じく時系列にそって得られる差異量を掛け合わせることで、AAC音声データの時系列にそった楽曲度合いを示す楽曲レベルを算出する。
算出した楽曲レベルに対して、ある閾値を設定し、閾値を超えた区間を楽曲シーンとして検出することができる。
なお、検出を行うシーンは、これまでに説明してきたハイライトシーンや楽曲シーンに限定されるわけではない。たとえば、ニュース番組においてアナウンサーが話すシーンを検出することもできるし、クラシック演奏において特定の楽器が演奏されるシーンを検出することも可能である。すなわち、周波数に特徴を有する音声を含むシーンであれば、同様に検出可能である。
周波数領域情報解析部8で、スポーツのハイライトシーンを検出するか、楽曲シーンを検出するか、または他の所望のシーンを検出するかは、例えば録画を始める前にユーザーの指定によって決定するか、EPG等から取得した番組のジャンル情報を元に、記録制御部11が自動で決定することができる。
周波数領域情報解析部8で算出されたスポーツハイライトシーン情報や楽曲シーン情報等は、メタデータ生成部9に送られる。メタデータ生成部9では、例えばスポーツハイライトレベルや楽曲レベルや、これらレベル値に閾値を設定し、その閾値を超える区間の時間情報を記述したメタデータファイルを作成する。
メタデータファイルは記録番組と一対となる情報として、書き込みバッファ10を通して蓄積メディア1に記録保存される。
つまり、録画した番組を再生する際、同じく記録されているメタデータファイルを参照することで、スポーツのハイライトシーンや楽曲シーンなど、所望のシーンのみを再生することが可能になる。
なお、実施の形態1ではデジタル放送を受信、記録する場合について説明したが、解析対象はこれに限ったものではなく、例えば図9(A)に示したシステムにより、AAC音声から直接ハイライトシーンを検出することも可能である。また、放送だけではなく、DVD等の記録媒体で提供されるデジタルコンテンツやインターネットによりダウンロードするデジタルコンテンツにも本発明は適用可能である。
本発明における周波数領域情報統一部7における処理を施した後の周波数領域情報は、例えばこれを逆変換して時間領域の信号にしても、符号化圧縮前の音声が得られるものではない。本発明では、音声信号に含まれる周波数領域情報から、ハイライトシーンや楽曲シーンを検出することを主な目的としており、本発明は、これらシーン情報を解析可能な統一の周波数領域情報形式を扱うことに特徴がある。
実施の形態2.
本実施の形態2は、3チャンネル以上のマルチチャンネル音声が符号化圧縮されたデジタル音声信号からハイライトシーンや楽曲シーンを検出することに特徴がある。ここでは、図1に示したシステムにおいて、例えば5.1chのAAC音声ストリームが含まれる放送波に対して処理を行う場合について説明する。
実施の形態1において説明したように、デジタルチューナ4で復号されたMPEG−2 TS信号から、映像音声信号分離器5によって5.1chのAAC音声ストリームが取り出され、AACデコーダ6に入力される。
AACデコーダ6では、AAC音声内に符号化圧縮されているチャンネル毎のMDCT係数行列を取り出す。デコード処理については、実施の形態1と同様であるため、ここでは説明を省略する。本来、5.1chのAAC音声信号からは、合計6チャンネル分のMDCT係数行列が取得できるが、本発明では、フロントチャンネル(左、右、前方。それぞれL、R、C)に限定してMDCT係数行列を取り出すことに特徴がある。
これは、デジタル音声からスポーツのハイライトシーンや楽曲シーン等を検出する場合、重要な周波数領域情報はフロントチャンネルの音声信号に集中しているためであり、サラウンドチャンネル(左後方、右後方、低音。それぞれSL、SR、LFE)についてはデコード処理をスキップすることで、解析対象となるMDCT係数行列を最小限にするとともに、処理時間を短縮することができる。
3チャンネル分のフロントチャンネル音声のMDCT係数行列は、周波数領域情報統一部7に送られる。マルチチャンネル音声を解析する時の周波数領域情報統一部7における処理を図14に示す。
周波数領域情報統一部7に入力される3チャンネル分のMDCT係数行列は、それぞれロングシーケンスMDCTであったり、ショートシーケンスMDCTであったり、周波数領域情報の形式が揃っていない。これを、実施の形態1と同様に、ブロック長判断部61およびショートシーケンスMDCT変換部62によって、ショートシーケンスMDCTを周波数軸にそって並べ替えることで、以降3チャンネル分のMDCT係数行列を全てロングシーケンスMDCTとして扱えるようにする。
次に、3チャンネル分のMDCT係数行列を、ダウンミックス処理部99で、2チャンネル(L’、R’)の信号に合成する。ダウンミックス処理前の左、右、中央の3チャンネル分の信号をそれぞれL[k]、R[k]、C[k]、ダウンミックス処理によって得られる左、右の2チャンネル分の信号をそれぞれL’[k]、R’[k](いずれもk=0〜1023)とした時、以下の式7および式8を用いて変換を行う。
Figure 0004743228
Figure 0004743228
式7および式8を用いてL’[k]、R’[k]を求める時、音声信号によっては計算機上でオーバーフローまたはアンダーフローを起こす危険性がある。よって、式7および式8を行う際は、オーバーフローおよびアンダーフローを起こさないように処理を行う必要がある。
ダウンミックス処理後の2チャンネルのMDCT係数行列は、以降は実施の形態1と同様に、MDCT係数サンプリング変換部63に送られ、統一の周波数領域情報の形式に変換が行われ、周波数領域情報の解析処理が行われる。
このように本発明においては、各チャンネルから得られる周波数領域情報の形式を等しくすることにより、時間領域の信号に復号することなく周波数領域の信号に対してダウンミックス処理を行うことが可能になり、5.1chのAAC音声についても、ステレオ音声と同様の周波数領域情報の解析を行うことができる。また、解析に要する回路規模や処理時間を大幅に削減できるメリットもある。
実施の形態1に係る映像音声記録装置を示すシステムブロック図である。 実施の形態1に係るデジタル音声信号の解析処理を示すフローチャートである。 実施の形態1に係るAACデコーダにおける処理を示すブロック図である。 実施の形態1に係るAAC音声のロングシーケンスデータから得られるMDCT係数行列のグラフである。 実施の形態1に係るAAC音声のショートシーケンスデータから得られるMDCT係数行列のグラフである。 実施の形態1に係る周波数領域情報統一部における処理を示すブロック図である。 実施の形態1に係るAAC音声のショートシーケンスデータから得られるMDCT係数行列を周波数軸に沿って並び替えた後のMDCT係数行列のグラフである。 実施の形態1の周波数領域情報解析部におけるスポーツのハイライトシーンを検出する処理を示すブロック図である。 実施の形態1に係るAAC音声、AC−3音声、PCM音声の周波数領域情報を解析するシステムのブロック図である。 実施の形態1に係るAAC音声の周波数領域情報を解析して得られたスポーツハイライトレベルのグラフである。 実施の形態1に係るAC−3音声の周波数領域情報を解析して得られたスポーツハイライトレベルのグラフである。 実施の形態1に係るPCM音声を直交変換して得た周波数領域情報を解析して得られたスポーツハイライトレベルのグラフである。 実施の形態1に係る周波数領域情報解析部における楽曲シーンを検出する処理を示すブロック図である。 実施の形態2に係るマルチチャンネル音声に対する周波数領域情報統一部の処理を示すブロック図である。
符号の説明
1 蓄積メディア、 2 書込みドライブ、 3 アンテナ、 4 デジタルチューナ、 5 映像音声信号分離器、 6 AACデコーダ、 7 周波数領域情報統一部、 8 周波数領域情報解析部、 9 メタデータ生成部、 10 書き込みバッファメモリ、 11 記録制御部、 31 ADTSヘッダ/ビットストリーム解析、 32 ハフマン復号、 33 逆量子化、 34 リスケーリング、 35 M/Sステレオ処理、 36 予測処理部、 37 インテンシティ/カップリング、 38 TNS処理、 61 ブロック長判断部、 62 ショートシーケンスMDCT変換部、 63 MDCT係数サンプリング変換部、 81 エネルギー算出部、 82 尤度比較処理部、 83 モデルデータ、 84 合成部、 91 AC−3デコーダ、 92 MDCT変換器、 95 モデルデータ、 96 差分演算処理部、 97 統合部、 99 ダウンミックス処理部、 1000 映像音声記録装置。

Claims (11)

  1. 符号化圧縮されたデジタル音声信号を入力するデータ入力ステップと、
    前記デジタル音声信号内において符号化された第1のMDCT係数行列である周波数領域情報を取り出すステップと、
    前記周波数領域情報を所定の次数の第2のMDCT係数行列である周波数領域情報の形式に周波数軸上で変換するステップとを備え、
    前記符号化圧縮されたデジタル音声信号は、1フレームを1つのブロックから構成して符号化圧縮されている場合は、次数が前記所定の次数よりも大きい第1のMDCT係数行列である周波数領域情報で、1フレームを複数のブロック数から構成して符号化圧縮されている場合は、次数に前記ブロック数を掛けたものが前記所定の次数よりも大きい第1のMDCT係数行列である周波数領域情報で符号化されていることを特徴とするデジタル音声信号解析方法。
  2. 請求項1に記載のデジタル音声信号解析方法であって、
    前記符号化圧縮されたデジタル音声信号は、前記所定の周波数領域情報とは異なるサンプリング周波数を有することを特徴とするデジタル音声信号解析方法。
  3. 請求項1または2に記載のデジタル音声信号解析方法であって、
    前記所定の形式の周波数領域情報に変換するステップにおいて、ブロック数をn、ブロックのナンバーをy、各ブロックの周波数領域情報の係数行列の要素番号をxとした場合に、次式
    T[nx+y]=Sy[x]
    を用いて、短い次数の複数のブロックからなる周波数領域情報の係数行列Sy[x]を高い次数の1ブロックの周波数領域情報の係数行列T[k]に変換を行う処理を含むことを特徴とするデジタル音声信号解析方法。
  4. 請求項1または2に記載のデジタル音声信号解析方法であって、
    前記所定の形式の周波数領域情報に変換するステップは、前記符号化圧縮されたデジタル音声信号が、1フレームを1つのブロックから構成して符号化圧縮されている場合に、前記第1のMDCT係数行列である周波数領域情報に対し、係数値を平均することによるダウンサンプリング変換を行い、前記所定の次数の第2のMDCT係数行列である周波数領域情報へ変換を行う処理を含むことを特徴とするデジタル音声信号解析方法。
  5. 請求項1から4のいずれか1項に記載のデジタル音声信号解析方法であって、
    前記所定の形式の周波数領域情報を解析して所望のシーン情報を算出するステップをさらに備え、
    前記周波数領域情報を解析して所望のシーン情報を算出するステップは、あらかじめ主観で所望のシーンの音声と判断した音声の周波数領域情報から作成したモデルとの尤度比較によって、入力音声の種別を特定することを特徴とするデジタル音声信号解析方法。
  6. 請求項1から5のいずれか1項に記載のデジタル音声信号解析方法であって、
    前記周波数領域情報を取り出すステップは、マルチチャンネル音声のうちフロントチャンネル音声に限定して周波数領域情報を取り出すことを特徴とするデジタル音声信号解析方法。
  7. 請求項1から6のいずれか1項に記載のデジタル音声信号解析方法であって、
    前記所定の形式の周波数領域情報に変換するステップは、フロントチャンネル音声の周波数領域情報に対して2チャンネルの信号へのダウンミックス処理を行うことを特徴とするデジタル音声信号解析方法。
  8. 符号化圧縮されたデジタル音声信号を入力するデータ入力手段と、
    前記デジタル音声信号内において符号化された第1のMDCT係数行列である周波数領域情報を取り出す手段と、
    前記周波数領域情報を所定の次数の第2のMDCT係数行列である周波数領域情報に周波数軸上で変換する手段と
    を備え、
    前記符号化圧縮されたデジタル音声信号は、1フレームを1つのブロックから構成して符号化圧縮されている場合は、次数が前記所定の次数よりも大きい第1のMDCT係数行列である周波数領域情報で、1フレームを複数のブロック数から構成して符号化圧縮されている場合は、次数に前記ブロック数を掛けたものが前記所定の次数よりも大きい第1のMDCT係数行列である周波数領域情報で符号化されていることを特徴とするデジタル音声信号解析装置。
  9. 請求項8に記載のデジタル音声信号解析装置であって、
    前記符号化圧縮されたデジタル音声信号は、前記所定の周波数領域情報とは異なるサンプリング周波数を有することを特徴とするデジタル音声信号解析装置。
  10. 請求項8または9に記載のデジタル音声信号解析装置であって、
    前記所定の形式の周波数領域情報に変換する手段は、ブロック数をn、ブロックのナンバーをy、各ブロックの周波数領域情報の係数行列の要素番号をxとした場合に、次式
    T[nx+y]=Sy[x]
    を用いて、短い次数の複数のブロックからなる周波数領域情報の係数行列Sy[x]を高い次数の1ブロックの周波数領域情報の係数行列T[k]に変換することを特徴とするデジタル音声信号解析装置。
  11. 請求項8から10のいずれか1項に記載のデジタル音声信号解析装置を備えたことを特徴とする映像音声記録装置。
JP2008134090A 2008-05-22 2008-05-22 デジタル音声信号解析方法、その装置、及び映像音声記録装置 Expired - Fee Related JP4743228B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008134090A JP4743228B2 (ja) 2008-05-22 2008-05-22 デジタル音声信号解析方法、その装置、及び映像音声記録装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008134090A JP4743228B2 (ja) 2008-05-22 2008-05-22 デジタル音声信号解析方法、その装置、及び映像音声記録装置

Publications (2)

Publication Number Publication Date
JP2009284212A JP2009284212A (ja) 2009-12-03
JP4743228B2 true JP4743228B2 (ja) 2011-08-10

Family

ID=41454206

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008134090A Expired - Fee Related JP4743228B2 (ja) 2008-05-22 2008-05-22 デジタル音声信号解析方法、その装置、及び映像音声記録装置

Country Status (1)

Country Link
JP (1) JP4743228B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI557723B (zh) * 2010-02-18 2016-11-11 杜比實驗室特許公司 解碼方法及系統
KR101756838B1 (ko) * 2010-10-13 2017-07-11 삼성전자주식회사 다채널 오디오 신호를 다운 믹스하는 방법 및 장치
KR101369270B1 (ko) * 2012-03-29 2014-03-10 서울대학교산학협력단 멀티 채널 분석을 이용한 비디오 스트림 분석 방법
US9883228B2 (en) 2013-10-15 2018-01-30 Mitsubishi Electric Corporation Digital broadcast reception device and channel selection method

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003228388A (ja) * 2002-02-04 2003-08-15 Fujitsu Ltd 音声符号変換方法及び装置
JP2005004820A (ja) * 2003-06-10 2005-01-06 Hitachi Ltd ストリームデータ編集方法及びその装置
JP2006209890A (ja) * 2005-01-28 2006-08-10 Pioneer Electronic Corp 音声信号再生装置、音声信号出力装置および音声信号出力方法
JP2006267943A (ja) * 2005-03-25 2006-10-05 Toshiba Corp ステレオオーディオ信号符号化方法およびステレオオーディオ信号符号化装置
JP2006287574A (ja) * 2005-03-31 2006-10-19 Fujitsu Ten Ltd 音響再生装置
JP2007149151A (ja) * 2005-11-24 2007-06-14 Funai Electric Co Ltd 光ディスク再生装置、音声信号出力装置及びavシステム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007023660A1 (ja) * 2005-08-24 2007-03-01 Matsushita Electric Industrial Co., Ltd. 音識別装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003228388A (ja) * 2002-02-04 2003-08-15 Fujitsu Ltd 音声符号変換方法及び装置
JP2005004820A (ja) * 2003-06-10 2005-01-06 Hitachi Ltd ストリームデータ編集方法及びその装置
JP2006209890A (ja) * 2005-01-28 2006-08-10 Pioneer Electronic Corp 音声信号再生装置、音声信号出力装置および音声信号出力方法
JP2006267943A (ja) * 2005-03-25 2006-10-05 Toshiba Corp ステレオオーディオ信号符号化方法およびステレオオーディオ信号符号化装置
JP2006287574A (ja) * 2005-03-31 2006-10-19 Fujitsu Ten Ltd 音響再生装置
JP2007149151A (ja) * 2005-11-24 2007-06-14 Funai Electric Co Ltd 光ディスク再生装置、音声信号出力装置及びavシステム

Also Published As

Publication number Publication date
JP2009284212A (ja) 2009-12-03

Similar Documents

Publication Publication Date Title
EP1667110B1 (en) Error reconstruction of streaming audio information
US7328161B2 (en) Audio decoding method and apparatus which recover high frequency component with small computation
JP5032314B2 (ja) オーディオ符号化装置、オーディオ復号化装置およびオーディオ符号化情報伝送装置
JP5455647B2 (ja) オーディオデコーダ
JP5302977B2 (ja) オーディオ信号のフィンガープリントを計算するための装置及び方法、同期のための装置及び方法、並びに試験オーディオ信号の特徴付けのための装置及び方法
US8818539B2 (en) Audio encoding device, audio encoding method, and video transmission device
US20060031075A1 (en) Method and apparatus to recover a high frequency component of audio data
JP4442585B2 (ja) 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置
US20200202871A1 (en) Systems and methods for implementing efficient cross-fading between compressed audio streams
WO2013027629A1 (ja) 符号化装置および方法、復号装置および方法、並びにプログラム
JP2011512555A (ja) マルチチャネル拡張データのオーディオ信号との同期及びオーディオ信号の処理のための装置並びに方法
JPWO2005112002A1 (ja) オーディオ信号符号化装置及びオーディオ信号復号化装置
WO2016203994A1 (ja) 符号化装置および方法、復号装置および方法、並びにプログラム
US20080288263A1 (en) Method and Apparatus for Encoding/Decoding
JP4743228B2 (ja) デジタル音声信号解析方法、その装置、及び映像音声記録装置
US20020169599A1 (en) Digital audio compression and expansion circuit
RU2383941C2 (ru) Способ и устройство для кодирования и декодирования аудиосигналов
US20150104158A1 (en) Digital signal reproduction device
JP2008262000A (ja) オーディオ信号特徴検出装置及び特徴検出方法
JP2003029797A (ja) 符号化装置、復号化装置および放送システム
AU2013200578A1 (en) Apparatus and method for generating audio output signals using object based metadata
EP2357645A1 (en) Music detecting apparatus and music detecting method
JP2008145716A (ja) 音声信号処理装置
JP2009157278A (ja) オーディオ信号特徴検出装置及び特徴検出方法
KR20080010981A (ko) 데이터 부호화/복호화 방법

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101004

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101012

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110125

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110325

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110412

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110425

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140520

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4743228

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140520

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees