JP3966814B2 - Simple playback method and simple playback device, decoding method and decoding device usable in this method - Google Patents
Simple playback method and simple playback device, decoding method and decoding device usable in this method Download PDFInfo
- Publication number
- JP3966814B2 JP3966814B2 JP2002373284A JP2002373284A JP3966814B2 JP 3966814 B2 JP3966814 B2 JP 3966814B2 JP 2002373284 A JP2002373284 A JP 2002373284A JP 2002373284 A JP2002373284 A JP 2002373284A JP 3966814 B2 JP3966814 B2 JP 3966814B2
- Authority
- JP
- Japan
- Prior art keywords
- decoding
- unit
- time
- stream
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Signal Processing For Digital Recording And Reproducing (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、簡易再生方法、簡易再生装置、復号方法、および復号装置に関する。本発明は特に音声データの再生時間を短縮して高速に再生する技術に関する。
【0002】
【従来の技術】
近年、BSデジタル放送やCSデジタル放送の普及が進み、また地上波放送もアナログからデジタルへの移行が目前に迫っている。デジタル放送は、単に画質や音質が高精細であるだけでなく、多チャンネル化やインタラクティブ化など、放送形態に多様性をもたらす。
【0003】
放送のデジタル化は記録メディアにも変革をもたらし、ハードディスクやDVDへのデジタル録画はビデオテープへのアナログ録画に取って代わろうとしている。デジタル録画したデータはランダムアクセスが可能であることから、録画を継続しながら少し前に録画した部分を同時に再生できるなど、アナログ録画にはない多彩な機能を実現できる。また、画質や音質を維持しながら再生時間を短縮した高速再生を実現する時短再生もそうした機能の一つである(例えば、特許文献1参照)。
【0004】
【特許文献1】
特開平7−191695号公報 (全文)
【0005】
【発明が解決しようとする課題】
時短再生の機能は、従来からカセットテープ式のビデオ再生装置や音声再生装置、留守番電話機能付き電話機などに搭載されている。しかしこれらは再生スピードが速くなるだけでなく、音声のピッチも上がって聞き取りにくくなってしまう。デジタルデータの場合、映像と音声を同期させたまま高速化する方式と、映像と音声を同期させずに別々に高速化して音質変化を抑える方式とがある。音声に関して聞き取りやすさを重視するならば後者が有利である。しかし、内部処理に必要なバッファメモリの量が増大してしまい、特に音声データの量が再生速度に比例しないため予測が難しく、データの過不足によるバッファの破綻を防止するためにバッファメモリの容量を必要以上に大きめに設定せざるを得ない場合もある。メモリは他の部品と比べても高価であり、特にコストアップにつながりやすく、そうしたコストアップは厳しいコスト管理を要求される開発現場において切実な問題である。
【0006】
本発明はこうした状況に鑑みなされたものであり、その目的はより簡易な構成にて時短再生を実現する点にある。別の目的は、より低容量のメモリ構成にて時短再生を実現する点にある。さらに別の目的は、符号化データを所望の速度で復号する技術を提供する点にある。
【0007】
【課題を解決するための手段】
本発明のある態様は簡易再生方法である。この方法は、符号化されたオーディオストリームを入力する過程と、そのオーディオストリームを復号する過程と、復号により生成された音声データから無音部分を除去した時短データを生成する過程と、その時短データを出力する過程と、生成されたまま未出力の時短データの量が設定上限量を超えたときに前記復号を停止する過程と、を有する。
【0008】
ここでいう簡易再生は、いわゆる時短再生とも呼ばれる技術であり、無音部分を除去して再生時間を短縮することにより高速再生を実現する。「符号化されたオーディオストリーム」は、例えばパケット化されたデータストリームであるPES(Packetized Elementary Stream)信号であってもよく、ビデオストリームとともにシステムストリームを形成してもよい。「オーディオストリーム」は、ハードディスクや光ディスクなどの記録媒体に格納された状態から読み出されることを主に想定する。
【0009】
「無音部分」は、完全な無音部分とほぼ無音の部分の双方を含んでもよい。「音声データから無音部分を除去した時短データ」は、有音部分だけを切り出して時間的に連続させることにより再生時間を短縮した音声データであってもよい。有音部分が非周期的であることから、時短処理の出力周期もまた非周期的である。したがって従来は、再生前の一時格納先であるバッファの容量は通常再生用のバッファ容量に比べて大きくする必要があった。
【0010】
しかしながら上記の態様によれば、バッファに格納される時短データの量が所定量を超えるときにオーディオストリームの復号を停止するので、バッファへの格納も停止される。これにより、バッファオーバーを防止できるだけでなく、容量が比較的小さいバッファを利用でき、コストを抑制できる。特に、バッファには読出と書込が高速である高価なメモリの利用が要求されるため、容量を抑えることによるコスト低減効果は大きい。
【0011】
本発明の別の態様は簡易再生装置である。この装置は、符号化されたオーディオストリームを復号するストリームデコード部と、その復号により生成された音声データから無音部分を除去した時短データを生成する時短処理部と、その時短データを、出力されるまで一時的に記憶する出力バッファと、出力バッファの記憶量が設定上限量を超えたときにストリームデコード部に対して復号の停止要求を通知する出力監視部と、を有する。ストリームデコード部は、停止要求に応じて復号を一時停止する。
【0012】
また本装置は、符号化されたオーディオストリームを、復号されるまで一時的に記憶する入力バッファと、入力バッファの記憶量に基づく入力状況をストリームデコード部へ通知する入力監視部と、をさらに有してもよい。その場合、ストリームデコード部は、停止要求を受け取ったときに入力バッファの記憶量が設定上限量以内であることを条件に復号を一時停止してもよい。また、ストリームデコード部は、復号の再開後、一時停止に起因する復号の遅れを解消する出力周期にてオーディオストリームを復号してもよい。この復号は、通常時よりも出力周期の短い高速復号であってもよい。
【0013】
この装置は、簡易再生機能を有する音声再生装置や映像再生装置として実現されてもよい。ストリームデコード部は、この装置と一体に構成してもよいし、独立した部品または装置の形で構成してもよい。以上の構成により、出力バッファの記憶量は一定量以内に保つことができるので、バッファの破綻を防止できるとともに比較的低容量のメモリを利用でき、コストを低減できる。一方、入力バッファに関しては、復号が一時的に停止される間にもオーディオストリームが入力され続けるため、通常再生用の入力バッファと比べて容量を大きくする必要がある。しかしながら、オーディオストリームは圧縮されているので、そのデータサイズは音声データのサイズよりも小さい。したがって、入力バッファの増量分よりも出力バッファの減量分の方が大きく、総合的なバッファ容量は通常再生用よりも小さいメモリで構成でき、十分に低コストを実現できる。
【0014】
本発明のさらに別の態様は、復号方法である。この方法は、符号化されたオーディオストリームを入力する過程と、あらかじめ指定された出力周期に基づいて復号すべき周波数帯域を決定する過程と、オーディオストリームを前記決定した周波数帯域に限定して音声データに復号する過程と、その音声データを出力する工程と、を有する。
【0015】
「あらかじめ指定された出力周期」は、上記の別態様においてオーディオストリームの復号を停止した時間に応じて定めてもよい。特に、通常時よりも短い周期を指定でき、上記の別態様における復号再開後の高速復号に適している。「復号すべき周波数帯域」として、上限の周波数または下限の周波数のいずれかを決定してもよい。
【0016】
以上の方法により、符号化されたオーディオストリームは限定された周波数帯域だけが復号される。したがって、高速復号を実現できるだけでなく、周波数帯域の指定により所望の速度での復号を実現できる。
【0017】
本発明のさらに別の態様は、復号装置である。この装置は、あらかじめ指定された出力周期に基づいて復号すべき周波数帯域を決定する帯域決定部と、符号化されたオーディオストリームを前記決定した周波数帯域に限定して復号する復号処理部と、を有する。
【0018】
復号処理部は、オーディオストリームから音声チャンネルごとに前記決定した周波数帯域に限定して変形離散コサイン変換(Modified Discrete Cosine Transform。以下「MDCT」という。)係数を取得する前処理部を含んでもよい。前処理部によって実行される処理は、周波数軸上で演算する処理であってもよく、処理すべき周波数帯域を限定することにより処理に要する時間が低減される。
【0019】
また、復号処理部は、取得したMDCT係数に基づいて、音声チャンネルごとの窓処理に用いる窓関数のブロックタイプを判別し、そのブロックタイプ別に後続の処理を振り分けるスイッチ部と、決定した周波数帯域に限定してMDCT係数から音声データを取得する後処理部と、を含んでもよい。したがって、通常再生時には音声チャンネルごと、例えば5個のチャンネルについて個別処理するところ、上記の態様では窓関数のブロックタイプ、すなわちロングタイプとショートタイプの2通りについて個別処理すればよい。これにより、処理に要する時間が低減される。
【0020】
なお、以上の構成要素の任意の組合せや、本発明の構成要素や表現を方法、装置、システム、コンピュータプログラム、プログラムを格納した記録媒体、データ構造などの間で相互に置換したものもまた、本発明の態様として有効である。
【0021】
【発明の実施の形態】
(第1実施形態)
本実施形態は、BSデジタル放送を録画データを再生する際に、2倍速の早送りとなる時短再生を実現する。時短処理時は、音声はモノラルであり、映像と音声が同期しない方式を採る。従来の時短再生機能付き再生装置においては、PES信号を復号まで格納する入力バッファとして約10KBの容量が必要であり、時短データを再生まで格納する出力バッファとして約192KBの容量が必要であった。PES信号を復号した音声データを時短処理まで格納する時短バッファの約2KBを加えると、全体として約204KBの容量が必要であった。
【0022】
本実施形態では、出力バッファを半分の96KBに減らすとともに、バッファオーバーが生じないようにPES信号の復号を適宜停止する。その一方でPES信号を通常よりも多く格納するために入力バッファを2倍の20KBに増やす。このように入力バッファの増加を伴うものの、PES信号は時短データよりもデータサイズが小さいので、バッファの増分も小さくて済む。全体として118KBの容量で足り、従来より約86KBのメモリ容量低減を実現できる。
【0023】
また、PES信号の復号を一時的に停止する分、復号再開後に従来よりも高速に復号する必要がある。しかし、時短再生では通常再生と比べて音質に対する要求が低いことから、復号する周波数帯域を限定するとともにモノラル信号に変換することによって復号に要する時間を短縮できる。周波数を限定する幅を調整することによって所望の速度で復号することもできる。このように、復号処理および時短処理を状況に応じて制御して一時的な記憶量も制御することにより、バッファメモリの低容量化を実現する。
【0024】
図1は、本実施形態における再生装置10の構成を示す機能ブロック図である。再生装置10は、ストリーム保持部12、時間測定部14、再生ユニット20、メモリユニット30、および制御ユニット40を有する。ストリーム保持部12は、デジタル放送などのPES信号を録画または録音するための記録媒体である。
【0025】
再生ユニット20は、PES信号に含まれる音声部分を復号するストリームデコード部22と、音声データに時短処理を施す時短処理部24と、を含む。BSデジタル放送の場合、AAC方式のデータを復号すると1チャンネルあたり1024サンプルのデータが得られる。メモリユニット30は、PES信号を復号されるまで一時的に記憶する入力バッファ32と、PES信号の復号により生成される音声データを時短処理されるまで一時的に記憶する時短バッファ34と、時短データを再生されるまで一時的に記憶する出力バッファ36と、を含む。
【0026】
PES信号に含まれるPTS(Presentation Time Stamp)信号とPCR(Program Clock Reference)信号によって同期をとっていれば、PES信号の復号を続けている限り入力バッファ32は破綻しない。一方、出力バッファ36からの時短データの出力は周期的であるが、出力バッファ36への時短データの入力は非周期的である。無音部分の長さによっては出力バッファ36が破綻するおそれがあり、記憶量の調整が必要となる。
【0027】
制御ユニット40は、ストリーム保持部12からPES信号を読み出して入力バッファ32へ転送する入力制御部46と、出力バッファ36から時短データを読み出して外部の表示装置60へ出力する出力制御部48と、入力バッファ32の記憶量を監視する入力監視部42と、出力バッファ36の記憶量を監視する出力監視部44と、通常再生と時短再生を切り替える切替制御部50と、その切替指示をユーザから受け取る指示受付部52と、を含む。時間測定部14は、ストリームデコード部22における復号停止時間を計測する。
【0028】
ユーザが通常再生または時短再生を指示すると、切替制御部50は再生ユニット20および制御ユニット40の動作を通常再生と時短再生の間で切り替える。通常再生の場合、PES信号は入力バッファ32に一旦格納された後、ストリームデコード部22により復号されて出力バッファ36に格納される。時短再生の場合、PES信号は入力バッファ32に一旦格納された後、ストリームデコード部22により復号されて時短バッファ34に格納される。その音声データは時短処理部24により時短処理されて出力バッファ36に格納される。
【0029】
ここで、出力バッファ36の容量は従来の容量の約1/2である。例えば従来192KBであったところ、本実施形態では96KBで構成する。したがって、音声データに含まれる無音部分の長さにもよるが、連続して時短処理すれば出力バッファ36の記憶量はすぐに一杯になるおそれがある。そこで、出力バッファ36の設定上限量として、例えば容量96KBの約8割である76KBを設定する。
【0030】
出力監視部44は、出力バッファ36の記憶量がその設定上限量である76KB以内に収まっているかどうかを監視する。記憶量が76KBを超過したとき、出力監視部44は復号の停止要求をストリームデコード部22へ通知するとともに、超過した旨を入力監視部42に通知する。入力監視部42は、入力バッファ32の記憶量が入力バッファ32の設定上限量以内に収まっているかどうかを検出し、収まっていれば空き容量が十分であるとしてその旨をストリームデコード部22へ通知する。ストリームデコード部22は、出力監視部44から停止要求を受け取るとともに、入力監視部42から空き容量が十分である旨の通知を受け取ったときに、PES信号の復号を一時停止する。入力バッファ32の設定上限量は、初期的には入力バッファ32の容量の約1/2である10KBである。その後は一時停止を開始したときの入力バッファ32の記憶量をαKBとした場合にα+10KBを入力バッファ32の設定上限量とする。
【0031】
出力制御部48は、出力バッファ36の記憶量が設定下限量、例えば容量96KBの約5割である48KBを下回ったとき、ストリームデコード部22に対して一時停止の解除要求を通知する。また、入力監視部42は、入力バッファ32の記憶量がその設定上限量を超えたときにストリームデコード部22に対して一時停止の解除要求を通知する。ストリームデコード部22は、出力制御部48または入力監視部42から受け取った解除要求に応じてPES信号の復号を再開する。
【0032】
一方、出力バッファ36の記憶量がその設定上限量を超過するとともに、入力バッファ32の記憶量もまたその設定上限量を超過している場合、ストリームデコード部22による復号を停止せず、時短処理部24による処理を調整する。例えば、音声データから無音部分を検出するときの閾値を調整して無音部分を長くとるなど短縮度合を調整する。これによって時短処理部24の出力を低減させるとともに、入力バッファ32の記憶量増加を抑える。またストリームデコード部22による復号を高速化して入力バッファ32の記憶量を低減させる。高速化の方法は後述する。
【0033】
時間測定部14は、ストリームデコード部22における復号停止時間を計測する。ストリームデコード部22は、復号の再開後、一時停止に起因する復号の遅れを解消する出力周期にてPES信号を高速復号する。その出力周期は、時間測定部14によって計測された停止時間と、ストリームデコード部22の処理能力に基づいて決定される。例えば、通常時の復号で出力周期が約10.7[msec]である場合に、停止時間をβ[msec]とし、復号再開後の100フレームで復号の遅れを解消すると想定する。その場合、100フレーム間(1070[msec])の出力周期は、10.7−B/100[msec]となる。
【0034】
以上のように、入力バッファ32を、PES信号を連続して復号するときに必要な容量より大きく構成する。同時に出力バッファ36を、時短データを連続して生成するときに必要な容量より小さく構成する。したがって、入力バッファ32の増加量は出力バッファ36の低減量で十分に吸収でき、全体としてメモリ容量を削減できる。
【0035】
図2は、本実施形態におけるストリームデコード部の詳細を示す機能ブロック図である。ストリームデコード部22は、入力切替部71、高速復号ユニット70、および通常復号ユニット90を有する。通常復号ユニット90は、通常復号時に機能する部分であり、高速復号ユニット70は高速復号時に機能する部分である。入力切替部71は、入力バッファ32から読み出したPES信号を高速復号ユニット70または通常復号ユニット90のいずれかに送ることにより、通常復号と高速復号を切り替える。
【0036】
通常復号ユニット90において、通常復号前処理部92は、PES信号に対して、ハフマンデコード処理、逆量子化処理、スケーリング処理、MSステレオ処理、インテンシティステレオ処理を施すことにより、音声チャンネルごとにMDCT係数を得る。通常復号前処理部92が出力するCチャンネル、Lチャンネル、Rチャンネル、SLチャンネル、SRチャンネルの各MDCT係数は、それぞれCチャンネルIMDCT部94、LチャンネルIMDCT部96、RチャンネルIMDCT部98、SLチャンネルIMDCT部100、SRチャンネルIMDCT部102によりIMDCT(Inverse Modified Discrete Cosine Transform、逆変形離散コサイン変換)処理が施された後、それぞれCチャンネル窓処理部104、Lチャンネル窓処理部106、Rチャンネル窓処理部108、SLチャンネル窓処理部110、SRチャンネル窓処理部112により窓処理が施される。
【0037】
Cチャンネル窓処理部104、Lチャンネル窓処理部106、Rチャンネル窓処理部108、SLチャンネル窓処理部110、SRチャンネル窓処理部112がそれぞれ出力したC、L、R、SL、SRの各チャンネルの音声データは、通常復号ダウンミックス部114により希望の出力チャンネル数にダウンミックスされ、出力バッファ36へ格納される。
【0038】
高速復号ユニット70において、帯域決定部72は、時間測定部14により指定された出力周期に基づいて、復号すべき周波数帯域を決定する。例えば、高周波帯域を除去する場合、その上限周波数を決定する。
【0039】
高速復号前処理部74は、帯域決定部72により決定された周波数帯域に限定してPES信号に各種処理を施すことにより、音声チャンネルごとにMDCT係数を取得する。高速復号前処理部74により施される処理は、通常復号前処理部92と同様にハフマンデコード処理、逆量子化処理、スケーリング処理、MSステレオ処理、インテンシティステレオ処理である。
【0040】
スイッチ部76は、高速復号前処理部74から取得した各音声チャンネルのMDCT係数から、音声チャンネルごとの窓処理に用いる窓関数のブロックタイプを判別する。スイッチ部76は、判別したブロックタイプ別に後続の処理を振り分ける。すなわち、窓関数がロングタイプである音声チャンネルはロングタイプダウンミックス部78へ振り分け、窓関数がショートタイプである音声チャンネルはショートタイプダウンミックス部80へ振り分ける。振り分けられる音声チャンネル数の比率は、例えば2対3の場合もあれば、0対5の場合もある。
【0041】
ロングタイプダウンミックス部78およびショートタイプダウンミックス部80は、それぞれ入力された音声チャンネルを単一のチャンネルへダウンミックスする。このとき、帯域決定部72により決定された周波数帯域に限定して複数の音声チャンネルを加算する。ロングタイプの場合、次式(1)に基づいて加算される。
【数1】
ここで、kはロングタイプの音声チャンネル数を示し、0〜5の範囲である。iはロングタイプのサンプル数であり、0〜1023の範囲である。MDCT_ch[ch][i]はロングタイプのMDCT係数を示す。ただし、上限周波数のサンプル番号をUpL[ch]とした場合、MDCT_ch[ch][m+1]=0 (UpL[ch]≦m≦1023)となる。
【0042】
ショートタイプの場合、次式(2)に基づいて加算される。
【数2】
ここで、kはショートタイプの音声チャンネル数を示し、0〜5の範囲である。iはショートタイプのサンプル数であり、0〜127の範囲である。MDCT_ch[ch][128×B+i]はショートタイプのB番目の窓のMDCT係数を示す。Bは1フレーム中の窓の数を示し、0〜7の範囲である。ただし、上限周波数のサンプル番号をUpS[ch]とした場合、MDCT_ch[ch][128×B+m+1]=0 (UpS[ch]≦m≦127)となる。
【0043】
ロングタイプダウンミックス部78の出力は、ロングタイプIMDCT部82によるIMDCT処理とロングタイプ窓処理部86による窓処理が施される。ショートタイプダウンミックス部80の出力は、ショートタイプIMDCT部84によるIMDCT処理とショートタイプ窓処理部88による窓処理が施される。ロングタイプ窓処理部86およびショートタイプ窓処理部88の出力は加算されてモノラル信号の音声データとして時短バッファ34に格納される。以上の構成により、所望の復号速度、すなわち復号の停止による遅れを解消できる速度でPES信号を復号できる。
【0044】
図3は、音声チャンネルごとに指定する上限周波数のサンプル番号の算出例を示す。例えば、ロングタイプのサンプル番号UpL[ch]は、Cチャンネル、Lチャンネル、Rチャンネルでは1023−(A−β)×512×αとし、SLチャンネル、SRチャンネルでは1023−(A−γ)×512×αとする。ショートタイプのサンプル番号UpS[ch]は、Cチャンネル、Lチャンネル、Rチャンネルでは127−(A−β)×64×αとし、SLチャンネル、SRチャンネルでは127−(A−γ)×64×αとする。ここで、α=0.8、β=1.5、γ=0.5とする。Aは復号処理の速度であり、1.5から2の範囲とする。なお、算出結果が負の値になった場合は、上限周波数をゼロとする。
【0045】
図4は、再生装置10による時短処理の手順を示すフローチャートである。ユーザから時短再生が指示されると、ストリームデコード部22による復号が開始され(S10)、得られた音声データに対する時短処理が開始される(S12)。出力バッファ36の記憶量が上限量以内にあるときはそのまま処理を継続し(S14N)、上限量を超えて一杯に近づいたとき(S14Y)、ストリームデコード部22へ停止要求を通知する(S16)。そのとき入力バッファ32の記憶量が上限量を超えずに空き容量が十分であれば(S18Y)、ストリームデコード部22は復号を停止し(S20)、時間測定部14が停止時間の計測を開始する(S22)。
【0046】
その後、入力バッファ32の記憶量が上限量を超えて一杯に近づくと(S24Y)、時間測定部14は停止時間の計測を終了して(S28)、ストリームデコード部22は停止を解除し、復号を再開する(S30)。また、入力バッファ32の記憶量が上限量を超えていない場合であっても(S24N)、出力バッファ36の記憶量が下限量を下回って空に近づいたときもまた(S26Y)、停止時間の計測を停止して(S28)、復号を再開する(S30)。このとき、停止時間に応じた速度で高速復号を実行する(S32)。出力バッファ36の記憶量が下限量を下回らない限り(S26N)、復号は停止されたままである。
【0047】
一方、S16で停止要求を通知したときに、入力バッファ32の記憶量が上限量を超えて空き容量が十分でない場合(S18N)、S20からS32の処理をスキップするとともに、時短処理部24は時短処理による出力量を調整し(S36)、ストリームデコード部22は入力バッファ32の記憶量が上限量以内に収まるまで所定速度にて高速復号する(S40)。以上のS14からS32までの処理は、時短再生が継続される間、繰り返される(S34Y)。
【0048】
図5は、図4のS32における高速復号処理の詳細を示すフローチャートである。停止時間が0の場合は(S50N)、S52〜S64の処理をスキップして、高速復号は実行しない。停止時間が0より多ければ(S50Y)、その停止時間に応じて復号すべき周波数帯域を決定し(S52)、その周波数帯域に限定した前処理を実行する(S54)。音声チャンネルごとに窓関数のブロックタイプを判定し(S56)、ブロックタイプ別に後続の処理を振り分ける(S58)。ブロックタイプ別に周波数帯域を限定してダウンミックスし(S60)、ブロックタイプ別にIMDCT処理を施し(S62)、ブロックタイプ別に窓処理を施す(S64)。
【0049】
(第2実施形態)
本実施形態は、ストリームデコード部22の構成をより簡素化している。図6は、本実施形態におけるストリームデコード部の詳細を示す機能ブロック図である。本実施形態のストリームデコード部22は、通常復号用の機能ブロックと高速復号用の機能ブロックを共通化している点で第1実施形態と異なる。例えば、第1実施形態では前処理のための機能ブロックとして通常復号前処理部92および高速復号前処理部74を設けていたが、本実施形態では前処理部120として共通化されている。前処理部120は、帯域決定部72が決定した周波数帯域に限定して前処理を実行するが、通常復号時は周波数帯域の限定をなくして前処理を実行すればよい。
【0050】
第1〜5IMDCT部122、124、126、128、130は、通常復号時にはそれぞれ第1実施形態のCチャンネルIMDCT部94、LチャンネルIMDCT部96、RチャンネルIMDCT部98、SLチャンネルIMDCT部100、SRチャンネルIMDCT部102として機能する。また、第1IMDCT部122および第2IMDCT部124は、高速復号時にはそれぞれ第1実施形態のロングタイプIMDCT部82またはショートタイプIMDCT部84として機能する。
【0051】
第1〜5窓処理部132、134、136、138、140は、通常復号時にはそれぞれ第1実施形態のCチャンネル窓処理部104、106、108、110、112として機能する。また、第1窓処理部132および第2窓処理部134は、高速復号時にはそれぞれ第1実施形態のロングタイプ窓処理部86またはショートタイプ窓処理部88として機能する。
【0052】
第1ダウンミックス部142は、通常復号時は第1実施形態の通常復号ダウンミックス部114として機能し、高速復号時は第1実施形態のロングタイプダウンミックス部78として機能する。第2ダウンミックス部144は、高速復号時にショートタイプダウンミックス部80として機能する。スイッチ部146は、高速復号時に第1実施形態のスイッチ部76として機能する。
【0053】
以上の構成において、高速復号時は前処理部120による前処理の出力をスイッチ部146が窓関数のブロックタイプ別に第1ダウンミックス部142と第2ダウンミックス部144に振り分る。それぞれの出力に第1IMDCT部122および第2IMDCT部124がIMDCT処理を施し、さらにそれぞれの出力に第1窓処理部132および第2窓処理部134が窓処理を施す。これらの出力を加算して時短バッファ34に格納する。これにより、第1実施形態のストリームデコード部22と同じ動作を、より簡素な構成で実現できる。
【0054】
以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、その各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。以下、変形例を挙げる。
【0055】
実施の形態においては、通常再生と時短再生を切り替える再生装置として本発明を実現した。変形例においては、時短再生専用の装置として実現してもよい。また、ストリームデコード部22を独立の復号装置として実現してもよいし、さらに高速復号ユニット70の部分を独立の高速復号装置として実現してもよい。
【0056】
【発明の効果】
本発明によれば、より簡素な構成で時短再生を実現できる。
【図面の簡単な説明】
【図1】 第1実施形態における再生装置の構成を示す機能ブロック図である。
【図2】 第1実施形態におけるストリームデコード部の詳細を示す機能ブロック図である。
【図3】 音声チャンネルごとに指定する上限周波数のサンプル番号の算出例を示す図である。
【図4】 再生装置による時短処理の手順を示すフローチャートである。
【図5】 高速復号処理の詳細を示すフローチャートである。
【図6】 第2実施形態におけるストリームデコード部の詳細を示す機能ブロック図である。
【符号の説明】
22 ストリームデコード部、 24 時短処理部、 32 入力バッファ、36 出力バッファ、 42 入力監視部、 44 出力監視部、 72 帯域決定部、 74 高速復号前処理部、 76 スイッチ部、 78 ロングタイプダウンミックス部、 80 ショートタイプダウンミックス部、 82 ロングタイプIMDCT部、 84 ショートタイプIMDCT部、 86 ロングタイプ窓処理部、 88 ショートタイプ窓処理部。[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a simple reproduction method, a simple reproduction device, a decoding method, and a decoding device. The present invention particularly relates to a technique for shortening the reproduction time of audio data and reproducing it at high speed.
[0002]
[Prior art]
In recent years, the spread of BS digital broadcasting and CS digital broadcasting has progressed, and terrestrial broadcasting is approaching the transition from analog to digital. Digital broadcasting not only has high definition of image quality and sound quality, but also brings diversity to broadcasting forms such as multi-channel and interactive.
[0003]
Digitalization of broadcasting has revolutionized recording media, and digital recording on hard disks and DVDs is replacing analog recording on videotapes. Since digitally recorded data can be accessed at random, various functions not available in analog recording can be realized, such as being able to play back the recorded part at the same time while continuing recording. Also, one of such functions is time-saving reproduction that realizes high-speed reproduction with reduced reproduction time while maintaining image quality and sound quality (see, for example, Patent Document 1).
[0004]
[Patent Document 1]
JP 7-191695 A (full text)
[0005]
[Problems to be solved by the invention]
The time-saving playback function has been conventionally installed in a cassette tape type video playback device, audio playback device, telephone with answering machine function, and the like. However, these not only increase the playback speed, but also increase the pitch of the sound, making it difficult to hear. In the case of digital data, there are a method of increasing the speed while synchronizing the video and audio, and a method of increasing the speed separately without synchronizing the video and audio and suppressing a change in sound quality. The latter is advantageous if emphasis is placed on ease of listening with respect to speech. However, the amount of buffer memory required for internal processing increases. In particular, the amount of audio data is not proportional to the playback speed, making it difficult to predict, and the capacity of the buffer memory to prevent buffer failure due to excessive or insufficient data In some cases, it may be necessary to set a larger than necessary. Memory is more expensive than other components, and is likely to lead to cost increases, and such cost increases are a serious problem in development sites that require strict cost control.
[0006]
The present invention has been made in view of such a situation, and an object thereof is to realize a short-time reproduction with a simpler configuration. Another object is to realize a short time reproduction with a lower memory capacity configuration. Yet another object is to provide a technique for decoding encoded data at a desired rate.
[0007]
[Means for Solving the Problems]
One embodiment of the present invention is a simple reproduction method. This method includes a process of inputting an encoded audio stream, a process of decoding the audio stream, a process of generating time-short data from which silence has been removed from audio data generated by decoding, and A process of outputting, and a process of stopping the decoding when the amount of time-short data that has been generated and has not been output exceeds a set upper limit amount.
[0008]
The simple reproduction referred to here is a technique called so-called short-time reproduction, and realizes high-speed reproduction by removing the silent portion and shortening the reproduction time. The “encoded audio stream” may be, for example, a PES (Packetized Elementary Stream) signal that is a packetized data stream, and may form a system stream together with the video stream. The “audio stream” is mainly assumed to be read from a state stored in a recording medium such as a hard disk or an optical disk.
[0009]
The “silent part” may include both a complete silent part and a substantially silent part. The “time-short data obtained by removing the silent part from the voice data” may be voice data in which the reproduction time is shortened by cutting out only the voiced part and making it continuous in time. Since the sound part is aperiodic, the output period of the short-time processing is also aperiodic. Therefore, conventionally, the capacity of the buffer that is a temporary storage destination before reproduction has to be larger than the buffer capacity for normal reproduction.
[0010]
However, according to the above aspect, since the decoding of the audio stream is stopped when the amount of time-saving data stored in the buffer exceeds a predetermined amount, the storage in the buffer is also stopped. As a result, not only can the buffer over be prevented, but a buffer having a relatively small capacity can be used, thereby reducing the cost. In particular, since the buffer requires the use of an expensive memory that can be read and written at high speed, the cost reduction effect by suppressing the capacity is great.
[0011]
Another aspect of the present invention is a simple playback device. This apparatus outputs a stream decoding unit that decodes an encoded audio stream, a time-shortening processing unit that generates time-shortening data by removing silence from the audio data generated by the decoding, and the time-shortening data. And an output monitoring unit for notifying the stream decoding unit of a decoding stop request when the storage amount of the output buffer exceeds the set upper limit amount. The stream decoding unit temporarily stops decoding in response to the stop request.
[0012]
The apparatus further includes an input buffer that temporarily stores the encoded audio stream until decoding, and an input monitoring unit that notifies the stream decoding unit of an input status based on the storage amount of the input buffer. May be. In this case, the stream decoding unit may temporarily stop decoding on the condition that the storage amount of the input buffer is within the set upper limit when a stop request is received. In addition, the stream decoding unit may decode the audio stream in an output cycle that eliminates the decoding delay caused by the temporary stop after the decoding is resumed. This decoding may be high-speed decoding with an output cycle shorter than that in the normal time.
[0013]
This device may be realized as an audio playback device or a video playback device having a simple playback function. The stream decoding unit may be configured integrally with this device, or may be configured as an independent component or device. With the above configuration, the storage amount of the output buffer can be kept within a certain amount, so that the failure of the buffer can be prevented, a relatively low-capacity memory can be used, and the cost can be reduced. On the other hand, regarding the input buffer, since the audio stream is continuously input even while decoding is temporarily stopped, it is necessary to increase the capacity compared to the input buffer for normal reproduction. However, since the audio stream is compressed, its data size is smaller than the size of the audio data. Therefore, the amount of decrease of the output buffer is larger than the amount of increase of the input buffer, and the total buffer capacity can be configured with a memory smaller than that for normal reproduction, and a sufficiently low cost can be realized.
[0014]
Yet another embodiment of the present invention is a decoding method. This method includes a step of inputting an encoded audio stream, a step of determining a frequency band to be decoded based on a predetermined output period, and audio data by limiting the audio stream to the determined frequency band. And a process of outputting the audio data.
[0015]
The “predetermined output period” may be determined according to the time when decoding of the audio stream is stopped in the above-described another mode. In particular, a cycle shorter than the normal time can be specified, which is suitable for high-speed decoding after decoding restart in the above-described another mode. As the “frequency band to be decoded”, either the upper limit frequency or the lower limit frequency may be determined.
[0016]
With the above method, only a limited frequency band of the encoded audio stream is decoded. Therefore, not only high-speed decoding can be realized, but also decoding at a desired speed can be realized by specifying a frequency band.
[0017]
Yet another embodiment of the present invention is a decoding device. The apparatus includes: a band determination unit that determines a frequency band to be decoded based on a predesignated output period; and a decoding processing unit that decodes an encoded audio stream limited to the determined frequency band. Have.
[0018]
The decoding processing unit may include a preprocessing unit that obtains a modified discrete cosine transform (hereinafter referred to as “MDCT”) coefficient limited to the determined frequency band for each audio channel from the audio stream. The processing executed by the preprocessing unit may be processing performed on the frequency axis, and the time required for processing is reduced by limiting the frequency band to be processed.
[0019]
In addition, the decoding processing unit determines the block type of the window function used for the window processing for each audio channel based on the acquired MDCT coefficient, and switches the subsequent processing according to the block type to the determined frequency band. And a post-processing unit that acquires audio data from MDCT coefficients in a limited manner. Therefore, during normal playback, individual processing is performed for each audio channel, for example, five channels. In the above-described mode, the window function block type, that is, the long type and the short type may be individually processed. Thereby, the time required for processing is reduced.
[0020]
It should be noted that any combination of the above-described components, and the components and expressions of the present invention are mutually replaced between a method, apparatus, system, computer program, recording medium storing the program, data structure, etc. This is effective as an embodiment of the present invention.
[0021]
DETAILED DESCRIPTION OF THE INVENTION
(First embodiment)
In the present embodiment, when reproducing the recorded data of the BS digital broadcast, the short-time reproduction that is fast-forwarding at double speed is realized. At the time-shortening processing, the sound is monaural, and a method in which video and sound are not synchronized is adopted. The conventional playback device with a short time playback function requires a capacity of about 10 KB as an input buffer for storing the PES signal until decoding, and a capacity of about 192 KB as an output buffer for storing the short time data until playback. When about 2 KB of the time buffer for storing the audio data obtained by decoding the PES signal until time reduction processing is added, a capacity of about 204 KB as a whole is required.
[0022]
In the present embodiment, the output buffer is reduced to
[0023]
In addition, since the decoding of the PES signal is temporarily stopped, it is necessary to decode the PES signal at a higher speed than before after the decoding is resumed. However, since the demand for sound quality is low in short-time playback compared to normal playback, the time required for decoding can be shortened by limiting the frequency band to be decoded and converting to a monaural signal. It is also possible to perform decoding at a desired speed by adjusting the width that limits the frequency. In this way, the capacity of the buffer memory can be reduced by controlling the decoding process and the time-saving process according to the situation and controlling the temporary storage amount.
[0024]
FIG. 1 is a functional block diagram showing the configuration of the
[0025]
The reproduction unit 20 includes a
[0026]
If synchronization is achieved by a PTS (Presentation Time Stamp) signal and a PCR (Program Clock Reference) signal included in the PES signal, the
[0027]
The
[0028]
When the user instructs normal reproduction or short-time reproduction, the switching
[0029]
Here, the capacity of the
[0030]
The
[0031]
When the storage amount of the
[0032]
On the other hand, when the storage amount of the
[0033]
The
[0034]
As described above, the
[0035]
FIG. 2 is a functional block diagram showing details of the stream decoding unit in the present embodiment. The
[0036]
In the normal decoding unit 90, the normal
[0037]
C, L, R, SL, and SR channels output from the C channel window processing unit 104, the L channel window processing unit 106, the R channel window processing unit 108, the SL channel window processing unit 110, and the SR channel
[0038]
In the high-
[0039]
The high-speed
[0040]
The
[0041]
The long
[Expression 1]
Here, k indicates the number of long-type audio channels and is in the range of 0-5. i is the number of long type samples, and is in the range of 0-1023. MDCT_ch [ch] [i] indicates a long type MDCT coefficient. However, when the sample number of the upper limit frequency is UpL [ch], MDCT_ch [ch] [m + 1] = 0 (UpL [ch] ≦ m ≦ 1023).
[0042]
In the case of a short type, it adds based on following Formula (2).
[Expression 2]
Here, k indicates the number of short type audio channels, and is in the range of 0-5. i is the number of short-type samples and is in the range of 0-127. MDCT_ch [ch] [128 × B + i] indicates the MDCT coefficient of the B type window of the short type. B indicates the number of windows in one frame, and ranges from 0 to 7. However, when the sample number of the upper limit frequency is UpS [ch], MDCT_ch [ch] [128 × B + m + 1] = 0 (UpS [ch] ≦ m ≦ 127).
[0043]
The output of the long
[0044]
FIG. 3 shows an example of calculating the sample number of the upper limit frequency designated for each audio channel. For example, the long type sample number UpL [ch] is 1023− (A−β) × 512 × α for the C channel, L channel, and R channel, and 1023− (A−γ) × 512 for the SL channel and SR channel. X α. The short type sample number UpS [ch] is 127− (A−β) × 64 × α for the C channel, L channel, and R channel, and 127− (A−γ) × 64 × α for the SL channel and SR channel. To do. Here, α = 0.8, β = 1.5, and γ = 0.5. A is the speed of the decoding process, and is in the range of 1.5 to 2. When the calculation result is a negative value, the upper limit frequency is set to zero.
[0045]
FIG. 4 is a flowchart showing a procedure of time reduction processing by the
[0046]
Thereafter, when the storage amount of the
[0047]
On the other hand, when the stop request is notified in S16, if the storage capacity of the
[0048]
FIG. 5 is a flowchart showing details of the high-speed decoding process in S32 of FIG. When the stop time is 0 (S50N), the processing of S52 to S64 is skipped and high speed decoding is not executed. If the stop time is greater than 0 (S50Y), the frequency band to be decoded is determined according to the stop time (S52), and pre-processing limited to that frequency band is executed (S54). The block type of the window function is determined for each audio channel (S56), and subsequent processing is assigned to each block type (S58). The frequency band is limited for each block type and downmixed (S60), IMDCT processing is performed for each block type (S62), and window processing is performed for each block type (S64).
[0049]
(Second Embodiment)
In the present embodiment, the configuration of the
[0050]
The first to
[0051]
The first to fifth
[0052]
The
[0053]
In the above configuration, at the time of high-speed decoding, the
[0054]
The present invention has been described based on the embodiments. This embodiment is an exemplification, and it is understood by those skilled in the art that various modifications can be made to the combination of each component and each processing process, and such modifications are also within the scope of the present invention. . Hereinafter, modifications will be described.
[0055]
In the embodiment, the present invention is realized as a playback device that switches between normal playback and short-time playback. In a modification, it may be realized as a device dedicated to short-time playback. Further, the
[0056]
【The invention's effect】
According to the present invention, it is possible to realize a short time reproduction with a simpler configuration.
[Brief description of the drawings]
FIG. 1 is a functional block diagram showing a configuration of a playback device in a first embodiment.
FIG. 2 is a functional block diagram showing details of a stream decoding unit in the first embodiment.
FIG. 3 is a diagram illustrating a calculation example of a sample number of an upper limit frequency designated for each audio channel.
FIG. 4 is a flowchart showing a procedure of time reduction processing by the playback device.
FIG. 5 is a flowchart showing details of high-speed decoding processing.
FIG. 6 is a functional block diagram showing details of a stream decoding unit in the second embodiment.
[Explanation of symbols]
22 stream decoding unit, 24 time reduction processing unit, 32 input buffer, 36 output buffer, 42 input monitoring unit, 44 output monitoring unit, 72 bandwidth determination unit, 74 high-speed decoding preprocessing unit, 76 switch unit, 78 long type downmix unit , 80 short type downmix section, 82 long type IMDCT section, 84 short type IMDCT section, 86 long type window processing section, 88 short type window processing section.
Claims (1)
前記復号により生成された音声データから無音部分を除去した時短データを生成する時短処理部と、
前記時短データを、出力されるまで一時的に記憶する出力バッファを有し、
前記ストリームデコード部は、
前記出力バッファの記憶量が設定上限量を超えたときに前記復号を一時停止し、
前記一時停止を解除して前記復号を再開する際、前記一時停止の時間に基づいて復号すべき周波数帯域を決定し、決定した周波数帯域に限定して前記オーディオストリームを音声データに復号する簡易再生装置。 A stream decoding unit for decoding the encoded audio stream;
A time-shortening processing unit for generating time-shortening data obtained by removing silent portions from the audio data generated by the decoding;
An output buffer for temporarily storing the time-saving data until it is output;
The stream decoding unit
When the storage amount of the output buffer exceeds a set upper limit amount, the decoding is paused,
When releasing the pause and restarting the decoding, a simple playback is performed in which a frequency band to be decoded is determined based on the pause time and the audio stream is decoded into audio data limited to the determined frequency band apparatus.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002373284A JP3966814B2 (en) | 2002-12-24 | 2002-12-24 | Simple playback method and simple playback device, decoding method and decoding device usable in this method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002373284A JP3966814B2 (en) | 2002-12-24 | 2002-12-24 | Simple playback method and simple playback device, decoding method and decoding device usable in this method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004206771A JP2004206771A (en) | 2004-07-22 |
JP3966814B2 true JP3966814B2 (en) | 2007-08-29 |
Family
ID=32811605
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002373284A Expired - Fee Related JP3966814B2 (en) | 2002-12-24 | 2002-12-24 | Simple playback method and simple playback device, decoding method and decoding device usable in this method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3966814B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5210723B2 (en) * | 2008-06-19 | 2013-06-12 | 株式会社日立製作所 | Playback device |
JP5163545B2 (en) * | 2009-03-05 | 2013-03-13 | 富士通株式会社 | Audio decoding apparatus and audio decoding method |
JP5365363B2 (en) | 2009-06-23 | 2013-12-11 | ソニー株式会社 | Acoustic signal processing system, acoustic signal decoding apparatus, processing method and program therefor |
JP6695069B2 (en) * | 2016-05-31 | 2020-05-20 | パナソニックIpマネジメント株式会社 | Telephone device |
-
2002
- 2002-12-24 JP JP2002373284A patent/JP3966814B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004206771A (en) | 2004-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100188483B1 (en) | Synchronized, variable speed playback of digitally recorded audio and video | |
JP4319548B2 (en) | Audio program playback method and apparatus during video trick mode playback | |
US20030165325A1 (en) | Trick mode audio playback | |
GB2424160A (en) | Digital information reproducing apparatus and method | |
EP1483908B1 (en) | Audio frequency scaling during video trick modes utilizing digital signal processing | |
JP3966814B2 (en) | Simple playback method and simple playback device, decoding method and decoding device usable in this method | |
US20080147218A1 (en) | Recording/reproduction apparatus | |
US5896099A (en) | Audio decoder with buffer fullness control | |
US20150104158A1 (en) | Digital signal reproduction device | |
JP3416403B2 (en) | MPEG audio decoder | |
JP2006317768A (en) | Speaking speed conversion apparatus and speaking speed conversion program for controlling the speaking speed conversion apparatus | |
JPH07307674A (en) | Compressed information reproducing device | |
JP3225502B2 (en) | Compressed data playback device for audio information | |
JP3189597B2 (en) | Audio time base converter | |
JP4529859B2 (en) | Audio playback device | |
JP2003162299A (en) | Speech reproducing circuit, decoding circuit, and device and method for reproducing speech | |
JP2874607B2 (en) | Audio time base converter | |
JPH0883096A (en) | Voice time base converter | |
WO2010100895A1 (en) | Sound reproduction device and image/sound reproduction device | |
JPH06309895A (en) | Semiconductor memory audio recording and reproducing device | |
JP2003216195A (en) | Mpeg (motion picture experts group) audio decoder | |
JP2001318700A (en) | Speech speed converter | |
JPH0438767A (en) | Sound recording and reproducing method | |
JP2001128119A (en) | Encoded data recording and reproducing device, encoded data reproducing device, and encoded data recording medium | |
JP2001175292A (en) | Audio signal encoding/decoding device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041213 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070201 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070206 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070406 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070501 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070529 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100608 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110608 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |