JP3594409B2 - MPEG audio playback device and MPEG playback device - Google Patents
MPEG audio playback device and MPEG playback device Download PDFInfo
- Publication number
- JP3594409B2 JP3594409B2 JP16945496A JP16945496A JP3594409B2 JP 3594409 B2 JP3594409 B2 JP 3594409B2 JP 16945496 A JP16945496 A JP 16945496A JP 16945496 A JP16945496 A JP 16945496A JP 3594409 B2 JP3594409 B2 JP 3594409B2
- Authority
- JP
- Japan
- Prior art keywords
- mpeg
- audio
- signal
- picture
- mpeg video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/005—Reproducing at a different information rate from the information rate of recording
Landscapes
- Signal Processing For Digital Recording And Reproducing (AREA)
- Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
- Television Signal Processing For Recording (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
本発明はMPEG(Moving Picture Expert Group )オーディオ再生装置およびMPEG再生装置に係り、詳しくは、話速変換機能を備えたMPEGオーディオ再生装置およびMPEG再生装置に関するものである。
【0002】
【従来の技術】
マルチメディアで扱われる情報は、膨大な量で且つ多種多様であり、これらの情報を高速に処理することがマルチメディアの実用化を図る上で必要となってくる。情報を高速に処理するためには、データの圧縮・伸長技術が不可欠となる。そのようなデータの圧縮・伸長技術として「MPEG」方式が挙げられる。このMPEG方式は、ISO(International Organization for Standardization)/IEC(Intarnational Electrotechnical Commission )傘下のMPEG委員会(ISO/IEC JTC1/SC29/WG11)によって標準化されつつある。
【0003】
MPEGは3つのパートから構成されている。パート1の「MPEGシステムパート」(ISO/IEC IS 11172 Part1:Systems)では、ビデオデータとオーディオデータの多重化構造(マルチプレクス・ストラクチャ)および同期方式が規定される。パート2の「MPEGビデオパート」(ISO/IEC IS 11172 Part2:Video)では、ビデオデータの高能率符号化方式およびビデオデータのフォーマットが規定される。パート3の「MPEGオーディオパート」(ISO/IEC IS 11172 Part3:Audio)では、オーディオデータの高能率符号化方式およびオーディオデータのフォーマットが規定される。
【0004】
MPEGビデオパートで取り扱われるビデオデータは動画に関するものであり、その動画は1秒間に数十個(例えば、30個)のフレーム(静止画、コマ)によって構成されている。ビデオデータは、シーケンス(Sequence)、GOP(Group Of Pictures )、ピクチャ、スライス(Slice )、マクロブロック(Macroblock)、ブロックの順に6層の階層構造から成る。
【0005】
また、MPEGには主にエンコードレートの違いにより、現在のところ、MPEG−1,MPEG−2の2つの方式がある。MPEG−1においてフレームはピクチャに対応している。MPEG−2においては、フレームまたはフィールドをピクチャに対応させることもできる。フィールドは、2個で1つのフレームを構成している。ピクチャにフレームが対応している構造はフレーム構造と呼ばれ、ピクチャにフィールドが対応している構造はフィールド構造と呼ばれる。
【0006】
MPEGでは、フレーム間予測と呼ばれる圧縮技術を用いる。フレーム間予測は、フレーム間のデータを時間的な相関に基づいて圧縮する。フレーム間予測では双方向予測が行われる。双方向予測とは、過去の再生画像(または、ピクチャ)から現在の再生画像を予測する順方向予測と、未来の再生画像から現在の再生画像を予測する逆方向予測とを併用することである。
【0007】
この双方向予測は、Iピクチャ(Intra−Picture ),Pピクチャ(Predictive−Picture),Bピクチャ(Bidirectionally predictive−Picture)と呼ばれる3つのタイプのピクチャを規定している。Iピクチャは、過去や未来の再生画像とは無関係に、独立して生成される。Pピクチャは順方向予測(過去のIピクチャまたはPピクチャからの予測)により生成される。Bピクチャは双方向予測により生成される。双方向予測においてBピクチャは、以下に示す3つの予測のうちいずれか1つにより生成される。▲1▼順方向予測;過去のIピクチャまたはPピクチャからの予測、▲2▼逆方向予測;未来のIピクチャまたはPピクチャからの予測、▲3▼双方向予測;過去および未来のIピクチャまたはPピクチャからの予測。そして、これらI,P,Bピクチャがそれぞれエンコードされる。つまり、Iピクチャは過去や未来のピクチャが無くても生成される。これに対し、Pピクチャは過去のピクチャが無いと生成されず、Bピクチャは過去または未来のピクチャが無いと生成されない。
【0008】
フレーム間予測では、まず、Iピクチャが周期的に生成される。次に、Iピクチャよりも数フレーム先のフレームがPピクチャとして生成される。このPピクチャは、過去から現在への一方向(順方向)の予測により生成される。続いて、Iピクチャの前、Pピクチャの後に位置するフレームがBピクチャとして生成される。このBピクチャを生成するとき、順方向予測,逆方向予測,双方向予測の3つの中から最適な予測方法が選択される。一般的に連続した動画では、現在の画像とその前後の画像とは良く似ており、異なっているのはその一部分に過ぎない。そこで、前のフレーム(例えば、Iピクチャ)と次のフレーム(例えば、Pピクチャ)とは同じであると仮定し、両フレーム間に変化があればその差分(Bピクチャ)のみを抽出して圧縮する。これにより、フレーム間のデータを時間的な相関に基づいて圧縮することができる。
【0009】
MPEGビデオパートに準拠してエンコードされたビデオデータのデータ列(ビットストリーム)は、MPEGビデオストリーム(以下、ビデオストリームと略す)と呼ばれる。また、MPEGオーディオパートに準拠してエンコードされたオーディオデータのデータ列は、MPEGオーディオストリーム(以下、オーディオストリームと略す)と呼ばれる。そして、ビデオストリームとオーディオストリームは、MPEGシステムパートに準拠して時分割多重化され、1本のデータ列としてのMPEGシステムストリーム(以下、システムストリームと略す)となる。システムストリームはマルチプレックスストリームとも呼ばれる。
【0010】
MPEGパートにおけるエンコードからデコードまでの流れは、以下のようになっている。MPEGシステムエンコーダ(以下、システムエンコーダと略す)は、ビデオデータとオーディオデータのそれぞれを連係を保ちながら別個にエンコードを行い、ビデオストリームとオーディオストリームを生成する。次に、MPEGシステムエンコーダに装備されたマルチプレクサ(MUX;Multiplexer )は、伝送媒体または記録媒体のフォーマットに適合するように、ビデオストリームとオーディオストリームの多重化を行い、システムストリームを生成する。そのシステムストリームは、伝送媒体を介してMUXから伝送されるか、または記録媒体に記録される。
【0011】
MPEGシステムデコーダ(以下、システムデコーダと略す)に装備されたデマルチプレクサ(DMUX;DeMUltipleXer )は、システムストリームをビデオストリームとオーディオストリームに分離する。次に、システムデコーダは各ストリームを個別にデコードして、ビデオのデコード出力(以下、ビデオ出力という)とオーディオのデコード出力(以下、オーディオ出力という)を生成する。ビデオ出力はディスプレイへ出力され、ディスプレイで動画が再生される。オーディオ出力はD/A(Digital/Analog)コンバータおよびオーディオアンプを介してスピーカへ出力され、スピーカから音声が再生される。
【0012】
ところで、MPEG−1は主にビデオCD(Compact Disc),CD−ROM(CD−Read Only Memory ),DVD(Digital Video Disc)などの記録媒体を用いた蓄積メディアに対応しており、MPEG−2はMPEG−1をも含む幅広い範囲のアプリケーションに対応している。
【0013】
蓄積メディアにおいては、以下に示す2つの可変速再生が要求される。▲1▼動画を通常(標準)の再生速度より高速で再生(以下、高速再生という)する機能。▲2▼動画を通常の再生速度より低速で再生(以下、低速再生という)する機能。高速再生機能は、例えば、ユーザが短時間に動画を見るために早送り再生を行う際や、見たい動画を探索するために早送り再生または早送り逆転再生を行う際に用いられる。また、低速再生機能は、例えば、ユーザが動画を注意深く見る際などに用いられる。
【0014】
記録媒体から読み出されたシステムストリームのビットレートは、読み出し速度に対応したものになる。従って、高速再生を行うには記録媒体からシステムストリームを高速で読み出し、低速再生を行うには記録媒体からシステムストリームを低速で読み出す。例えば、記録媒体としてビデオCDやDVDを用いた場合には、ビデオCDやDVDの回転速度を通常の再生時(標準再生時)よりも速くしたり遅くしたりすることで、システムストリームを所望の速度で読み出すようにする。
【0015】
【発明が解決しようとする課題】
従来、MPEGにおいては、前記したような動画の可変速再生については検討されていたものの、音声の可変速再生については何らの検討もなされていなかった。
【0016】
オーディオストリームのビットレートはシステムストリームのそれと同一である。そのため、動画の高速再生時には、オーディオストリームのビットレートも大きくなり、再生される音声の音程(ピッチ)が上がるのに加えて、発声速度(話速)が速くなる。また、動画の低速再生時には、オーディオストリームのビットレートも小さくなり、再生される音声のピッチは変化しないものの、音声が途切れ途切れになる。このように、動画の可変速再生時には、音声が聞き苦しいものになるという問題があった。
【0017】
ところで、近年、ピッチを変化させることなく話速を任意に制御する話速変換技術の開発が進められており、本出願人もVTRやテープレコーダに利用可能な話速変換処理LSIを既に開発している(特開平7−192392号公報(G11B 20/02)、日経エレクトロニクス 1994 年11月21日号(No.622) P.93 〜98. 参照)。しかし、話速変換技術をMPEGに利用する試みはなされていない。
【0018】
また、音声と動画(映像)の同期生成においては、「リップシンク」を考慮する必要がある。リップシンクとは、ディスプレイに映し出される人物の口の動きと、スピーカから発声される音声との同期がとれていることをいう。口の動きより音声の方が早くなったり、逆に遅くなったりする状態をリップシンクにずれがあるという。リップシンクのずれが人間の聴覚の許容範囲を外れると、視聴者は違和感を覚える。一般に、音声が動画より遅れることによって生じるリップシンクのずれとして許容できる時間は、約50〜250msであるといわれている。
【0019】
本発明は上記要求を満足するためになされたものであって、以下の目的を有するものである。
〔1〕可変速再生時においても自然で聞き易い音声を再生することが可能なMPEGオーディオ再生装置を提供する。
【0020】
〔2〕上記〔1〕のMPEGオーディオ再生装置とMPEGビデオデコーダとを備えたMPEG再生装置を提供する。
〔3〕上記〔1〕のMPEGオーディオ再生装置とMPEGビデオデコーダとを備え、音声と動画との時間ずれを低減することが可能なMPEG再生装置を提供する。
【0024】
【課題を解決するための手段】
請求項1に記載の発明は、記録媒体(21)から読み出されたMPEGオーディオストリームをMPEGオーディオパートに準拠してデコードし、オーディオ信号を生成するMPEGオーディオデコーダ(3)と、オーディオ信号に対して話速変換処理を行う話速変換処理手段(2,4)とを備え、話速変換処理手段は、オーディオストリームのビットレートが通常時よりも大きい場合には、再生される各音声区間の時間長さを長くすると共に各無音区間の時間長さを短くするようにして話速変換処理を行い、オーディオストリームのビットレートが通常時よりも小さい場合には、再生される各音声区間の時間長さを長くすると共に各無音区間の時間長さを短くするか、または、各無音区間を削除して各音声区間をつなぎ合わせた後に無音区間を挿入するようにして話速変換処理を行うことをその要旨とする。
【0025】
請求項2に記載の発明は、請求項1に記載のMPEGオーディオ再生装置において、話速変換処理手段(2,4)は、オーディオ信号を蓄積するリングメモリ(32)と、リングメモリの蓄積量を検出する検出手段(33)とを備え、リングメモリの蓄積量に応じて音声区間の時間長さの圧縮伸長率を調整することをその要旨とする。
【0026】
請求項3に記載の発明は、請求項2に記載のMPEGオーディオ再生装置において、話速変換処理手段(2,4)は、オーディオ信号の音声区間と無音区間とを判別する音声判別部(41)と、無音区間の削除処理または挿入処理を行う無音削除挿入部(42)と、リングメモリ(32)の蓄積量に基づいて音声区間の圧縮伸長処理を行うことで圧縮伸長率を調整する時間軸圧縮伸長部(43)とを備えたことをその要旨とする。
【0027】
請求項4に記載の発明は、請求項1〜3のいずれか1項に記載のMPEGオーディオ再生装置(1)と、記録媒体(21)から読み出されたMPEGビデオストリームをMPEGビデオパートに準拠してデコードし、ビデオ信号を生成するMPEGビデオデコーダ(12)とを備えたことをその要旨とする。
【0028】
請求項5に記載の発明は、請求項2または請求項3に記載のMPEGオーディオ再生装置(1)と、記録媒体(21)から読み出されたMPEGビデオストリームをMPEGビデオパートに準拠してデコードし、ビデオ信号を生成するMPEGビデオデコーダ(12)と、リングメモリ(32)に書き込まれる以前のオーディオ信号に、時刻に関する情報としてのインデックス信号を付加するインデックス付加回路(51)と、リングメモリ(32)から読み出されたオーディオ信号に付加されているインデックス信号を検出し、そのインデックス信号から得られる時刻情報と現在の時刻情報とから、話速変換処理手段(2,4)における信号遅延時間を検出し、その検出された遅延時間を示す信号をMPEGビデオデコーダ(12)へ供給するインデックス検出回路(52)とを備え、MPEGビデオデコーダ(12)は、前記遅延時間を示す信号に基づいて自己の動作のタイミングを制御することをその要旨とする。
【0029】
請求項6に記載の発明は、請求項3に記載のMPEGオーディオ再生装置(1)と、記録媒体(21)から読み出されたMPEGビデオストリームをMPEGビデオパートに準拠してデコードし、ビデオ信号を生成するMPEGビデオデコーダ(12)と、音声判別部(41)の処理結果と、オーディオストリームのビットレートとに基づいて、話速変換処理手段(2,4)における信号遅延時間を検出し、その検出された遅延時間を示す信号をMPEGビデオデコーダ(12)へ供給する遅延時間検出回路(53)とを備え、MPEGビデオデコーダ(12)は、前記遅延時間を示す信号に基づいて自己の動作のタイミングを制御することをその要旨とする。
【0030】
請求項7に記載の発明は、請求項3に記載のMPEGオーディオ再生装置(1)と、記録媒体(21)から読み出されたMPEGビデオストリームをMPEGビデオパートに準拠してデコードし、ビデオ信号を生成するMPEGビデオデコーダ(12)と、リングメモリ(32)の蓄積量に基づいて、話速変換処理済みのオーディオ信号とビデオ信号との同期を得るための制御信号を生成し、その制御信号をMPEGビデオデコーダ(12)へ供給する制御回路(54)とを備え、MPEGビデオデコーダ(12)は、前記制御信号に基づいて自己の動作のタイミングを制御することをその要旨とする。
【0031】
請求項8に記載の発明は、請求項3に記載のMPEGオーディオ再生装置(1)と、記録媒体(21)から読み出されたMPEGビデオストリームをMPEGビデオパートに準拠してデコードし、ビデオ信号を生成するMPEGビデオデコーダ(12)と、音声判別部(41)および時間軸圧縮伸長部(43)の処理結果に基づいて、話速変換処理手段(2,4)における信号遅延時間を検出し、その検出された遅延時間を示す信号をMPEGビデオデコーダ(12)へ供給する遅延時間検出回路(55)とを備え、MPEGビデオデコーダ(12)は、前記遅延時間を示す信号に基づいて自己の動作のタイミングを制御することをその要旨とする。
【0032】
【発明の実施の形態】
(第1実施形態)
以下、本発明を具体化した第1実施形態を図面に従って説明する。
【0033】
図1に、本実施形態のブロック回路図を示す。
本実施形態のMPEGオーディオ再生装置1は、再生速度検出回路2、MPEGオーディオデコーダ3、話速変換処理回路4、D/Aコンバータ5、オーディオアンプ6から構成されている。尚、各回路2〜6は1チップのLSIに搭載することもできる。
【0034】
また、本実施形態のMPEG再生装置23は、MPEGオーディオ再生装置1に加え、オーディオビデオパーサ(AVパーサ)11、MPEGビデオデコーダ12を備えている。
【0035】
話速変換処理回路4は、例えば、DSP(Digital Signal Processor)31、リングメモリ32、アップダウンカウンタ33、読み出しクロック生成回路36を備えている。尚、話速変換処理回路4の動作については、前記文献(日経エレクトロニクス 1994 年11月21日号(No.622) P.93 〜98. )に詳述されている。
【0036】
再生速度検出回路2は、ビデオCDやDVDなどの記録媒体21から読み出されたMPEGシステムストリームのビットレートに対応したデコードクロックを生成する。そのデコードクロックは各回路12,3,4へ出力される。
【0037】
AVパーサ11は、デマルチプレクサ(DMUX)13を備えており、記録媒体21から読み出されたMPEGシステムストリームを入力する。DMUX13は、システムストリームをMPEGビデオストリームとMPEGオーディオストリームに分離する。ビデオストリームはビデオデコーダ12へ出力され、オーディオストリームはオーディオデコーダ3へ出力される。
【0038】
ビデオデコーダ12は、MPEGビデオパートに準拠してビデオストリームをデコードし、ビデオ出力(以下、ビデオ信号という)を生成する。そのビデオ信号はディスプレイ22へ出力され、ディスプレイ22で動画が再生される。
【0039】
オーディオデコーダ3は、MPEGオーディオパートに準拠してオーディオストリームをデコードし、ディジタル信号のオーディオ出力(以下、オーディオ信号という)を生成する。そのオーディオ信号は話速変換処理回路4へ出力される。話速変換処理回路4において信号処理されたオーディオ信号はD/Aコンバータ5によってD/A変換された後、オーディオアンプ6で増幅されてスピーカ23へ送られる。そして、スピーカ23から音声が再生される。
【0040】
記録媒体21から読み出されたシステムストリームのビットレートは、読み出し速度に対応したものになる。また、各回路3,4,12の動作はデコードクロックによって規定される。
【0041】
従って、ビデオデコーダ12は、システムストリームのビットレートに対応したビデオ信号を生成する。すなわち、システムストリームのビットレートが、通常の再生時(標準再生時)よりも大きければディスプレイ22では動画が高速再生され、通常の再生時よりも小さければディスプレイ22では動画が低速再生される。
【0042】
また、オーディオデコーダ3は、システムストリームのビットレートに対応したオーディオ信号を生成する。すなわち、システムストリームのビットレートが、通常の再生時よりも大きければオーディオ信号のビットレートも大きくなり、通常の再生時より小さければオーディオ信号のビットレートも小さくなる。
【0043】
ところで、ビデオ信号とオーディオ信号とは、通常の再生時において同期生成されるようになっている。
DSP31は、フレームメモリ34および話速変換部35から構成されている。フレームメモリ34は、適宜なフレーム数分(例えば、2フレーム分)のオーディオ信号を記憶する。話速変換部35は、フレームメモリ34に記憶されたオーディオ信号に対してフレーム単位で話速変換処理を行い、話速変換処理済みのオーディオ信号(以下、データという)を生成する。尚、1フレームは、適宜な数(例えば、200個)のサンプリングデータから構成される。
【0044】
フレームメモリ34の内部は、2つの領域(以下、A領域、B領域と記載して区別する)に分けられている。オーディオデコーダ3から出力されたオーディオ信号がB領域に書き込まれるのと同時に、A領域に蓄積されている1フレーム分のオーディオ信号が読み出されて話速変換部35へ転送される。そして、B領域に1フレーム分のオーディオ信号が蓄積されると、今度は、B領域に蓄積された1フレーム分のオーディオ信号が読み出されて話速変換部35へ転送され、それと同時に、オーディオデコーダ3から出力されたオーディオ信号がA領域に書き込まれる。
【0045】
話速変換部35の生成したデータは、話速変換部35が生成した書き込みクロックに従ってリングメモリ32に書き込まれる。リングメモリ32は、例えば、FIFO(First−In−First−Out)構成のRAM(Random Access Memory)から成る。
【0046】
読み出しクロック生成回路36は、デコードクロックに従って読み出しクロックを生成する。
リングメモリ32に蓄積されたデータは、読み出しクロックに従って読み出され、その読み出されたデータはD/Aコンバータ5へ出力される。D/Aコンバータ5は、読み出しクロックをサンプリング周波数として用いる。
【0047】
書き込みクロックはアップダウンカウンタ33のアップカウント入力端子UPに入力され、読み出しクロックはアップダウンカウンタ33のダウンカウント入力端子DOWNに入力される。アップダウンカウンタ33は、書き込みクロックの総数と読み出しクロックの総数との差をカウントする。そのカウント値は、リングメモリ32の蓄積量に対応する。つまり、アップダウンカウンタ33は、書き込みクロックと読み出しクロックとに基づいて、リングメモリ32の蓄積量を検出する。そのリングメモリ32の蓄積量は話速変換部35へ出力される。
【0048】
図2に、話速変換部35に内部構成を示す。
話速変換部35は、音声判別部41、無音削除挿入部42、時間軸圧縮伸長部43から構成されている。
【0049】
音声判別部41は、フレームメモリ34から読み出されたオーディオ信号が、音声区間(音声が存在している区間)か、または、無音区間(音声が存在していない区間)かを判別する。尚、人間が発声する音声以外の背景雑音は無音区間として取り扱う。
【0050】
無音削除挿入部42は、音声判別部41の判別した無音区間に対して、その無音区間の削除処理、または、新たな無音区間の挿入処理を行う。
時間軸圧縮伸長部43は、音声判別部41の判別した音声区間に対して、リングメモリ32の蓄積量に基づいて圧縮処理または伸長処理を行う。
【0051】
また、各部42,43は、その処理内容に対応した書き込みクロックを生成する。
次に、高速再生時における話速変換部35の動作について説明する。
【0052】
オーディオデコーダ3から出力されるオーディオ信号のビットレートは、オーディオストリームのそれと同一になる。従って、高速再生時には、通常の再生時に比べて、オーディオ信号のビットレートが大きくなる。通常の再生時よりもビットレートの大きなオーディオ信号をそのままD/Aコンバータ5へ送った場合、通常の再生時に比べて、スピーカ23から再生される音声のピッチは上がり話速は速くなる。
【0053】
そこで、話速変換部35において、スピーカ23から再生される音声のピッチを通常の再生時とほぼ同一にし、且つ、スピーカ23から再生される話速を通常の再生時に近づけるように話速変換処理を行う。
【0054】
すなわち、無音削除挿入部42は、音声判別部41の判別した無音区間の継続長を算出し、その継続長が所定長以上の場合は無音区間を削除する。
また、時間軸圧縮伸長部43は、音声判別部41の判別した音声区間に対して、例えば、自己相関法を用いてピッチ抽出を行い、抽出したピッチ波形に対して圧縮処理を行う。その結果、高速再生時において、オーディオ信号のビットレートが大きくなった場合に、スピーカ23から再生される音声区間の時間長さは伸長される。
【0055】
尚、時間軸圧縮伸長部43における圧縮処理に際しては、無音区間の状態とリングメモリ32の蓄積量とに応じて動的に圧縮率を変化させる。
例えば、同一のピッチ周期をもつ3周期波形を2周期波形に圧縮することで、2/3倍の圧縮(圧縮率;2/3)を得る。具体的には、3周期波形から、時間軸方向で前にある2周期波形と、後ろにある2周期波形とをそれぞれ切り出す。そして、前の2周期波形に単調減少する三角窓関数を、後ろの2周期波形に単調増加する三角窓関数をそれぞれ乗じる。この二つの波形を加算することで出力波形を得る。
【0056】
また、0.9倍の圧縮(圧縮率;0.9)を得るには、例えば、10周期波形から9周期波形に圧縮する。この場合は、先頭の3周期波形に対して同様の処理を施す。つまり、入力の10周期波形のうち、先頭の3周期波形を除いた7周期波形は処理に使わない。
【0057】
このM周期波形からN周期波形に圧縮する組み合わせを色々と用意しておくことで、多種類の圧縮率を得る。ところで、無音区間が短い場合、圧縮率が低い(圧縮の度合いが大きい)とリングメモリ32がオーバーフローする恐れがある。これを防ぐためには、リングメモリ32の蓄積量に応じて、時間軸圧縮伸長部43における圧縮率を動的に変化させればよい。また、背景雑音が存在する場合、音声区間やピッチの抽出誤りが生じる。これを防ぐためには、音声判別部41における音声区間の検出レベルを雑音信号に応じて変化させればよい。
【0058】
次に、低速再生時における話速変換部35の動作について、図3および図4に従って説明する。
図3に、通常の再生時および0.5倍速再生時において再生される音声の例を示す。
【0059】
低速再生時には、通常の再生時に比べて、オーディオ信号のビットレートが小さくなる。そのため、方法1に示すように、通常の再生時よりもビットレートの小さなオーディオ信号をそのままD/Aコンバータ5へ送った場合、通常の再生時に比べて、スピーカ23から再生される音声のピッチは変化しないものの、音声が途切れ途切れになる。つまり、各音声区間(「あ」「い」「う」「え」)の時間長さは通常の再生時のそれと変わらず、全く音の存在していない無音区間が各音声区間の間に挿入されるため、音声が途切れ途切れになり、ユーザは聴感上違和感を覚える。
【0060】
そこで、話速変換部35において、方法2または方法3に示すように話速変換処理を行う。尚、MPEGオーディオでは、低速再生時に音声のピッチが変化しないため、高速再生時のように時間軸圧縮伸長部43においてピッチを変える処理を行う必要はない。
【0061】
(方法2)
方法2では、時間軸圧縮伸長部43において各音声区間の長さを伸長させ、それと共に、無音削除挿入部42において各無音区間の長さを短くすることで、音声の途切れを目立たなくする。
【0062】
尚、時間軸圧縮伸長部43において音声区間の長さを伸長させるには、音声判別部41の判別した音声区間に対して、例えば、自己相関法を用いてピッチ抽出を行い、抽出したピッチ波形に対して伸長処理を行う。例えば、同一のピッチ周期をもつ2周期波形を3周期波形に伸長することで、3/2倍の伸長(伸長率;3/2)を得る。また、同一のピッチ周期をもつ3周期波形を4周期波形に伸長することで、4/3倍の伸長(伸長率;4/3)を得る。その結果、低速再生時において、オーディオ信号のビットレートが小さくなった場合に、スピーカ23から再生される音声区間の時間長さは伸長される。
【0063】
このとき、音声区間を伸長し過ぎると、音声区間が間延びして聞こえるため、音声の途切れは目立たなくなるものの、やはり不自然になる。これを防止するには、通常の再生時における音声区間の長さL1に対して、低速再生時における音声区間の長さL2を、例えば、以下の式に示すように設定する。
【0064】
L2/L1≦1.4
尚、上記式は0.5倍速再生時だけでなく、あらゆる倍率の低速再生時に適用できる。ここで、時間軸圧縮伸長部43における音声区間の伸長率は一定値にしてもよく、以下の▲1▼▲2▼に示すように可変にしてもよい。
【0065】
▲1▼リングメモリ32の蓄積量に対応して音声区間の伸長率を動的に変化させる。無音区間が短い場合、音声区間の伸長率が大きい(伸長の度合いが大きい)とリングメモリ32がオーバーフローする恐れがある。これを防ぐためには、音声区間の伸長率を小さくすればよい。
【0066】
▲2▼音声のピッチ変化に対応して音声区間の伸長率を動的に変化させる。つまり、図4に示すように、音声のピッチ変化に対応して音声区間の伸長率を変化させることで、話速を変化させる。この場合、音声の聞き易さをさらに向上させることができる。尚、音声のピッチ変化に対応して音声区間の伸長率を変化させることで話速を変化させる技術は公知である(信学技報 SP92−56,HC92−33(1992−09),P.49〜56. 参照)。
【0067】
(方法3)
方法3では、無音削除挿入部42において、各無音区間を削除して各音声区間をつなぎ合わせた後で、音声区間に続いて新たに無音区間を挿入することで、音声の途切れを目立たなくする。尚、挿入する無音区間は、以下の▲1▼〜▲3▼のいずれであってもよい。
【0068】
▲1▼全く音の存在しない無音区間。
▲2▼視聴者が違和感を覚えないような白色雑音を含む無音区間。尚、そのような白色雑音は、予め作成して別メモリ(図示略)に記憶しておく。
【0069】
▲3▼音声判別部41において無音区間と判別したオーディオ信号を別メモリ(図示略)に保持しておき、それを無音区間として挿入する。
このように、本実施形態によれば、以下の作用および効果を得ることができる。
【0070】
(1)話速変換処理回路4を設けることで、高速再生時において、スピーカ23から再生される音声のピッチを通常の再生時とほぼ同一にし、且つ、スピーカ23から再生される話速を通常の再生時に近づけることが可能になり、自然で聞き易い音声を再生することができる。
【0071】
ところで、m倍速再生時(m>1)には、オーディオストリームおよびデコードクロックのビットレートは通常の再生時のm倍になる。このとき、話速変換部35から出力されるデータのビットレートを通常の再生時とほぼ同一になるようにすれば、再生される音声のピッチを通常の再生時とほぼ同一にすることができる。すなわち、話速変換部35においてビットレートをm→1に変換すれば、再生される音声のピッチは通常の再生時とほぼ同一になる。
【0072】
(2)話速変換処理回路4を設けることで、低速再生時において再生される音声の途切れを目立たなくすることが可能になり、自然で聞き易い音声を再生することができる。
【0073】
ところで、上記方法2と方法3とを、以下の(1)(2)に示すように併用してもよい。
(1) MPEGオーディオ再生装置1のユーザが、方法2と方法3とを任意に切り換え選択できるようにする。このようにすれば、個々のユーザの聴覚特性に合わせることが可能になり、ユーザにとって聞き易い音声を再生することができる。
(2) 低速再生の倍率に対応して方法2と方法3とが自動的に切り換え選択されるようにする。例えば、1〜0.5倍速再生時には方法3が選択され、0.5倍速以下の再生時には方法2が選択されるようにする。このようにすれば、再生速度に応じて、自然な音声を再生することができる。
【0074】
(3)各回路2〜6を1チップのLSIに搭載した場合には、MPEGオーディオ再生装置1を小型化することができる。
(第2実施形態)
以下、本発明を具体化した第2実施形態を図面に従って説明する。尚、本実施形態において、第1実施形態と同じ構成部材については符号を等しくしてその詳細な説明を省略する。
【0075】
図5に、本実施形態の要部ブロック回路図を示す。本実施形態において、第1実施形態と異なるのは、インデックス付加回路51およびインデックス検出回路52が設けられている点だけである。
【0076】
インデックス付加回路51は、フレームメモリ34の前段(すなわち、MPEGオーディオデコーダ3と話速変換処理回路4の間)に設けられている。インデックス付加回路51は、デコードクロックに従って、オーディオデコーダ3の生成したオーディオ信号に一定周期でインデックス信号を付加する。そのインデックス信号が付加されたオーディオ信号は、フレームメモリ34へ出力される。
【0077】
インデックス検出回路52は、リングメモリ32から読み出されたデータに付加されているインデックス信号を検出し、そのインデックス信号から得られる時刻情報と現在時刻とから、話速変換処理回路4が信号処理に要する時間Δtを算出し、その時間Δtに関する検出信号をビデオデコーダ12へ供給する。ビデオデコーダ12は、その時間Δtに関する検出信号に従って、自己の動作のタイミングを制御する。
【0078】
このように、本実施形態によれば、第1実施形態の作用および効果に加えて、以下の作用および効果を得ることができる。
(1)前記したように、ビデオデコーダ12の生成するビデオ信号と、オーディオデコーダ3の生成するオーディオ信号とは、通常の再生時において同期生成されるようになっている。そのため、オーディオデコーダ3とD/Aコンバータ5の間に話速変換処理回路4を設けると、話速変換処理回路4における信号処理に要する時間分(すなわち、話速変換処理回路4における遅延時間分)だけ、オーディオ信号が遅延することになる。
【0079】
そこで、インデックス付加回路51を用いて、フレームメモリ34へ入力されるオーディオ信号に予め一定周期でインデックス信号を付加する。
インデックス検出回路52は、リングメモリ32から読み出されたデータに付加されているインデックス信号を検出し、話速変換処理回路4が信号処理に要する時間Δtを算出し、その時間Δtに関する検出信号をビデオデコーダ12へ供給する。ビデオデコーダ12は、その時間Δtに関する検出信号に従って、自己の動作のタイミングを制御する。また、インデックス検出回路52が次にインデックス信号を検出したとき、ビデオデコーダ12は、そのときに算出された時間と前回算出された時間との差だけ、自己の動作のタイミングを遅らせたり早めたりする。
【0080】
その結果、話速変換処理回路4における遅延時間に関係なく、リングメモリ32から読み出されたデータ(すなわち、話速変換処理済みのオーディオ信号)とビデオ信号との同期をとることができる。
【0081】
(2)上記(1)より、スピーカ23で再生される音声と、ディスプレイ22で再生される動画との時間ずれを低減することが可能になり、リップシンクのずれを人間の聴覚の許容範囲内にすることができる。
【0082】
(3)オーディオ信号に付加されたインデックス信号は、無音削除挿入部42によって削除されることがある。しかし、インデックス信号を付加する周期を短くして、オーディオ信号に十分な数のインデックス信号を付加しておけば、そのインデックス信号の内のいくつかが無音削除挿入部42によって削除されたとしても、リングメモリ32から読み出されたデータには一定数以上のインデックス信号が残ることになる。その残ったインデックス信号により、上記(1)の作用および効果を得ることができる。
【0083】
(第3実施形態)
以下、本発明を具体化した第3実施形態を図面に従って説明する。尚、本実施形態において、第2実施形態と同じ構成部材については符号を等しくしてその詳細な説明を省略する。
【0084】
図6に、本実施形態の要部ブロック回路図を示す。本実施形態において、第2実施形態と異なるのは、インデックス付加回路51が、フレームメモリ34と音声判別部41の間に設けられている点だけである。インデックス付加回路51は、デコードクロックに従って、フレームメモリ34から読み出されたオーディオ信号に一定周期でインデックス信号を付加する。そのインデックス信号が付加されたオーディオ信号は、音声判別部41へ出力される。
【0085】
前記したように、フレームメモリ34が2フレーム分のオーディオ信号を蓄積する場合、フレームメモリ34の記憶容量は、例えば、0.8Kバイト程度あれば十分である。このように、フレームメモリ34の記憶容量が小さい場合には、話速変換処理回路4における遅延時間に比べて、フレームメモリ34における書き込み動作および読み出し動作に要する時間(すなわち、フレームメモリ34における遅延時間)は僅かであり、無視しても差し支えない。
【0086】
従って、本実施形態によれば、第2実施形態と同様の作用および効果を得ることができる。
(第4実施形態)
以下、本発明を具体化した第4実施形態を図面に従って説明する。尚、本実施形態において、第2実施形態と同じ構成部材については符号を等しくしてその詳細な説明を省略する。
【0087】
図7に、本実施形態の要部ブロック回路図を示す。本実施形態において、第2実施形態と異なるのは、インデックス付加回路51が、音声判別部41と無音削除挿入部42および時間軸圧縮伸長部43との間にそれぞれ設けられている点だけである。インデックス付加回路51は、デコードクロックに従って、音声判別部41における信号処理が済んだオーディオ信号に一定周期でインデックス信号を付加する。そのインデックス信号が付加されたオーディオ信号は、無音削除挿入部42および時間軸圧縮伸長部43へ出力される。
【0088】
前記したように、フレームメモリ34の記憶容量が小さい場合には、話速変換処理回路4における遅延時間に比べて、フレームメモリ34における遅延時間は僅かであり、無視しても差し支えない。
【0089】
また、音声判別部41における信号処理に要する時間(すなわち、音声判別部41における遅延時間)は、話速変換処理回路4における遅延時間に比べて僅かであり、無視しても差し支えない。
【0090】
従って、本実施形態によれば、第2実施形態と同様の作用および効果を得ることができる。
(第5実施形態)
以下、本発明を具体化した第5実施形態を図面に従って説明する。尚、本実施形態において、第2実施形態と同じ構成部材については符号を等しくしてその詳細な説明を省略する。
【0091】
図8に、本実施形態の要部ブロック回路図を示す。本実施形態において、第2実施形態と異なるのは、インデックス付加回路51が、無音削除挿入部42および時間軸圧縮伸長部43とリングメモリ32との間に設けられている点だけである。インデックス付加回路51は、デコードクロックに従って、各部42,43における信号処理が済んだオーディオ信号に一定周期でインデックス信号を付加する。そのインデックス信号が付加されたオーディオ信号は、リングメモリ32へ出力される。
【0092】
前記したように、フレームメモリ34の記憶容量が小さい場合には、話速変換処理回路4における遅延時間に比べて、フレームメモリ34における遅延時間は僅かであり、無視しても差し支えない。
【0093】
また、各部41〜43における信号処理に要する時間(すなわち、各部41〜43における遅延時間)は、話速変換処理回路4における遅延時間に比べて僅かであり、無視しても差し支えない。
【0094】
つまり、話速変換処理回路4における遅延時間は、主に、リングメモリ32における書き込み動作および読み出し動作に要する時間(すなわち、リングメモリ32における遅延時間)によって決定される。
【0095】
従って、本実施形態によれば、第2実施形態と同様の作用および効果を得ることができる。また、本実施形態によれば、第2実施形態のようにオーディオ信号に付加されたインデックス信号が無音削除挿入部42によって削除されることがない。そのため、付加したインデックス信号が全て活用され、インデックス信号の数を減らすことが可能になることから、インデックス付加回路51の回路規模を小さくすることができる。
【0096】
(第6実施形態)
以下、本発明を具体化した第6実施形態を図面に従って説明する。尚、本実施形態において、第1実施形態と同じ構成部材については符号を等しくしてその詳細な説明を省略する。
【0097】
図9に、本実施形態の要部ブロック回路図を示す。本実施形態において、第1実施形態と異なるのは、遅延時間検出回路53が設けられている点だけである。
前記したように、音声判別部41は、フレームメモリ34から読み出されたオーディオ信号が、音声区間か又は無音区間かを判別する。つまり、音声判別部41の処理結果には、オーディオ信号に音声が含まれているか否かという情報が含まれている。
【0098】
また、デコードクロックは、システムストリームのビットレートに対応している。つまり、デコードクロックには、予めオーディオ信号の圧縮伸長率の情報が含まれている。
【0099】
そこで、遅延時間検出回路53は、オーディオ信号に音声が含まれているか否かという情報と圧縮伸長率の情報とに基づいて、話速変換処理回路4における遅延時間を検出し、その検出信号をビデオデコーダ12へ供給する。ビデオデコーダ12は、遅延時間検出回路53の検出信号に基づいて、自己の動作のタイミングを制御する。その結果、話速変換処理回路4における遅延時間に関係なく、リングメモリ32から読み出されたデータ(すなわち、話速変換処理済みのオーディオ信号)とビデオ信号との同期をとることができる。
【0100】
このように、本実施形態によれば、第2実施形態と同様の効果を得ることができる。
(第7実施形態)
以下、本発明を具体化した第7実施形態を図面に従って説明する。尚、本実施形態において、第1実施形態と同じ構成部材については符号を等しくしてその詳細な説明を省略する。
【0101】
図10に、本実施形態の要部ブロック回路図を示す。本実施形態において、第1実施形態と異なるのは、制御回路54が設けられている点だけである。
制御回路54は、アップダウンカウンタ33の検出したリングメモリ32の蓄積量に基づいて、ビデオデコーダ12の動作速度を制御するための制御信号を生成し、その制御信号をビデオデコーダ12へ供給する。ビデオデコーダ12は、制御回路54の制御信号に基づいて、自己の動作のタイミングを制御する。その結果、リングメモリ32から読み出されたデータと、ビデオデコーダ12の生成するビデオ信号との同期をとることができる。
【0102】
前記したように、話速変換処理回路4における遅延時間は、主にリングメモリ32における遅延時間によって決定される。リングメモリ32における遅延時間は、その蓄積量と相関関係があり、蓄積量が大きくなるほど遅延時間も大きくなる。従って、リングメモリ32の蓄積量に基づいてビデオデコーダ12の動作速度を制御すれば、リングメモリ32から読み出されたデータ(すなわち、話速変換処理済みのオーディオ信号)とビデオ信号との同期をとることができる。
【0103】
このように、本実施形態によれば、第2実施形態と同様の効果を得ることができる。
(第8実施形態)
以下、本発明を具体化した第8実施形態を図面に従って説明する。尚、本実施形態において、第1実施形態と同じ構成部材については符号を等しくしてその詳細な説明を省略する。
【0104】
図11に、本実施形態の要部ブロック回路図を示す。本実施形態において、第1実施形態と異なるのは、遅延時間検出回路55が設けられている点だけである。
【0105】
前記したように、音声判別部41の処理結果には、オーディオ信号に音声が含まれているか否かという情報が含まれている。
また、時間軸圧縮伸長部43の処理結果には、オーディオ信号の圧縮伸長率の情報が含まれている。
【0106】
そこで、遅延時間検出回路55は、オーディオ信号に音声が含まれているか否かという情報と圧縮伸長率の情報とに基づいて、話速変換処理回路4における遅延時間を検出し、その検出信号をビデオデコーダ12へ供給する。ビデオデコーダ12は、遅延時間検出回路55の検出信号に基づいて、自己の動作のタイミングを制御する。その結果、話速変換処理回路4における遅延時間に関係なく、リングメモリ32から読み出されたデータ(すなわち、話速変換処理済みのオーディオ信号)とビデオ信号との同期をとることができる。
【0107】
このように、本実施形態によれば、第2実施形態と同様の効果を得ることができる。
図12に、可変速再生機能を備えたMPEGビデオデコーダ12の要部ブロック回路を示す。
【0108】
MPEGビデオデコーダ12は、ビットバッファ202、ピクチャヘッダ検出回路203、MPEGビデオデコードコア回路(以下、デコードコア回路と略す)204、可変閾値オーバーフロー判定回路(以下、判定回路と略す)205、ピクチャスキップ回路206、制御コア回路207から構成されている。尚、各回路203〜207は1チップのLSIに搭載することもできる。
【0109】
制御コア回路207は各回路2〜6を制御する。
AVパーサ11から転送されてきたMPEGビデオストリームはビットバッファ202へ入力される。
【0110】
ビットバッファ202はFIFO構成のRAMから成るリングメモリによって構成され、転送されてくるビデオストリームをそのまま順次蓄積する。
ピクチャヘッダ検出回路203は、ビットバッファ202に蓄積されたビデオストリームの各ピクチャの先頭に付くピクチャヘッダを検出し、その各ピクチャヘッダに規定されているピクチャのタイプ(I,P,B)を検出する。
【0111】
制御コア回路207は、ピクチャヘッダ検出回路203の検出結果と後記する判定回路205の判定結果とに基づいて、ビットバッファ202から1フレーム期間毎に適宜なピクチャ分のビデオストリームを読み出す。尚、ビットバッファ202から読み出されたビデオストリームは、読み出された後もビットバッファ202にそのまま残される。
【0112】
ビットバッファ202から読み出された各ピクチャは、ピクチャスキップ回路206を介してデコードコア回路204へ転送される。
デコードコア回路204は、各ピクチャをMPEGビデオパートに準拠してデコードし、各ピクチャ毎のビデオ信号を生成する。
【0113】
ピクチャスキップ回路206は、制御コア回路207の制御に従って各ノード206a,206b側への接続が切り換えられる。そして、ピクチャスキップ回路206がノード206a側に接続されると、ビットバッファ202から読み出されたピクチャはそのままデコードコア回路204へ転送される。また、ノード206b側に接続されると、ビットバッファ202から読み出されたピクチャはデコードコア回路204へ転送されずにスキップされる。その結果、デコードコア回路204へ転送されるピクチャは、ピクチャスキップ回路206によってスキップされた分だけピクチャ単位で間引かれる。
【0114】
判定回路205は、再生速度検出回路2の生成したデコードクロックに基づいてビットバッファ202の占有量Bm の閾値Bthn を設定し、ビットバッファ202の占有量Bm と閾値Bthn とを比較する。尚、判定回路205では、再生速度検出回路2の生成した実際のデコードクロックの周波数と、通常の再生時のデコードクロックの周波数との比を求め、その比を再生速度の倍率nとする。従って、2倍速再生時には倍率n=2となり、閾値Bthn =Bth2 となる。また、通常の再生時には倍率n=1となり、閾値Bthn =Bth1 となる。
【0115】
そして、判定回路205は、ビットバッファ202の占有量Bm が閾値Bthn を越えない場合には、ビットバッファ202がオーバーフローする恐れがなく正常であると判定する。この場合、制御コア回路207は、ビットバッファ202から1ピクチャ分のビデオストリームを読み出す。そして、制御コア回路207は、ピクチャスキップ回路206をノード206a側に接続し、そのビットバッファ202から読み出されたピクチャをデコードコア回路204へ転送させる。
【0116】
また、判定回路205は、ビットバッファ202の占有量Bm が閾値Bthn を越えた場合には、ビットバッファ202がオーバーフローする恐れがあると判定する。この場合、制御コア回路207は、ビットバッファ202の占有量Bm が閾値Bthn を下回るまで、ビットバッファ202から適宜なピクチャ分のビデオストリームを読み出す。そして、制御コア回路207は、ピクチャスキップ回路206をノード206b側に接続し、そのビットバッファ202から読み出された適宜なピクチャ分のビデオストリームを全てスキップさせる。
【0117】
図13に、ビットバッファ202の占有量Bm の変化を示す。
ビットバッファ202の占有量Bm はビットレートRB をグラフの傾きとして上昇する。ビットレートRB は、シーケンスの先頭に付くシーケンスヘッダのBR(Bit Rate)に従って式(1)に示すように規定される。また、AVパーサ11から転送されてくるビデオストリームのピクチャレートRP はシーケンスヘッダのPR(Picture Rate)によって規定される。そして、ビットバッファ202の容量Bは、シーケンスヘッダのVBV(Vbv[Video Bufferring Verifier] Buffer Size)に従って式(2)に示すように規定される。そして、1フレーム期間毎に、デコードコア回路204がそのときデコードしようとする1ピクチャ分のビデオストリームが、ビットバッファ202から一気に読み出される。ここで、1フレーム期間にビットバッファ202に入力されるビデオストリームのデータ量Xは、ビットレートRB およびピクチャレートRP に従って式(3)に示すように規定される。従って、ビットバッファ202から1ピクチャ分のビデオストリームが一気に読み出された直後のビットバッファ202の占有量Bm (=B0 〜B6 )は、データ量Xとビットバッファ202の容量Bとに基づいて、式(4)に示す条件を満たすように規定される。
【0118】
RB =400×BR ………(1)
B=16×1024×VBV ………(2)
X=RB /RP ………(3)
0<Bm <B−X=B−(RB /RP ) ………(4)
式(4)に示す条件を満たすようにビットバッファ202の占有量Bm が規定されていれば、ビットバッファ202がオーバーフローしたりアンダーフローしたりすることはない。逆に言えば、ビットバッファ202の占有量Bm が閾値(B−X)を越えると、次の1フレーム期間にビットバッファ202に入力されるビデオストリームによってビットバッファ202がオーバーフローする可能性が極めて高くなる。
【0119】
ビデオデコーダ12では、通常の再生時において、式(4)が満たされるように、ビットレートRB 、ピクチャレートRP 、容量Bの各値が規定されている。つまり、式(2)に示すようにビットバッファ202の容量Bを設定しておけば、ピクチャスキップ回路206の接続をノード206a側に固定しておいたとしても、理想的な状態ではビットバッファ202がオーバーフローしたりアンダーフローしたりすることはない。
【0120】
従って、通常の再生時において、ビットバッファ202から1ピクチャ分のデータが一気に読み出された直後の占有量Bm (=B0 〜B4 )は、閾値Bth1 に基づいて、式(5)に示す条件を満たすように規定される。尚、閾値Bth1 は、式(4)に基づいて、式(6)に示すように設定される。
【0121】
0<Bm <Bth1 <B ………(5)
Bth1 =B−X=B−(RB /RP ) ………(6)
ところで、実際の状態では、式(2)に示すようにビットバッファ202の容量Bを設定しておいても、ピクチャスキップ回路206の接続をノード206a側に固定しておくと、ビットバッファ202がオーバーフローする恐れがある。
【0122】
しかし、ビデオデコーダ12では、通常の再生時において、ビットバッファ202の占有量Bm が閾値Bth1 を越えた場合、ビットバッファ202がオーバーフローする恐れがあると判定される。すると、ビットバッファ202の占有量Bm が閾値Bth1 を下回るまで、ビットバッファ202から適宜なピクチャ分のビデオストリームが読み出される。そして、ピクチャスキップ回路206はノード206b側に接続され、そのビットバッファ202から読み出された適宜なピクチャ分のビデオストリームは全てスキップされる。従って、ビデオデコーダ12によれば、通常の再生時において、ビットバッファ202がオーバーフローすることはない。
【0123】
高速再生時におけるビットバッファ202の占有量Bm はビットレートn×RB をグラフの傾きとして上昇する。例えば、2倍速再生時におけるビットバッファ202の占有量Bm はビットレート2×RB をグラフの傾きとして上昇する。
【0124】
従って、高速再生時において、ビットバッファ202から1ピクチャ分のデータが一気に読み出された直後の占有量Bm (=B0 〜B4 )は、閾値Bthn に基づいて、式(7)に示す条件を満たすように規定される。尚、閾値Bthn は式(8)に示すように設定される。
【0125】
0<Bm <Bthn ………(7)
Bthn =B−n×X=B−(n×RB /RP ) ………(8)
高速再生時においては、ビットバッファ202の占有量Bm が閾値Bthn を越えた場合、ビットバッファ202がオーバーフローする恐れがあると判定される。例えば、2倍速再生時には占有量Bm が閾値Bth2 (=B−(2×RB /RP ))を越えた場合、3倍速再生時には占有量Bm が閾値Bth3 (=B−(3×RB /RP ))を越えた場合に、ビットバッファ202がオーバーフローする恐れがあると判定される。すると、ビットバッファ202の占有量Bm が閾値Bthn を下回るまでビットバッファ202から適宜なピクチャ分のビデオストリームが読み出され、そのビデオストリームは全てスキップされる。従って、ビデオデコーダ12によれば、高速再生時において、ビットバッファ202がオーバーフローすることはない。
【0126】
デコードコア回路204において任意のピクチャをデコードしている途中でビットバッファ202がオーバーフローすると、デコード処理中のピクチャのビットバッファ202に残っている部分に対して、新たに入力されたビデオストリームが上書きされる。その結果、デコード処理中のピクチャのビットバッファ202に残っている部分が破壊されて失われる。すると、デコードコア回路204では、そのピクチャのデコードを完了することが不可能になり、そのピクチャのビデオ信号を生成することができなくなる。従って、デコードコア回路204において任意のピクチャをデコードしている途中でビットバッファ202がオーバーフローすることは絶対に避けなければならない。
【0127】
そのため、ビットバッファ202がオーバーフローする恐れがあるかどうかの判定は、デコードコア回路204において任意のピクチャのデコードを開始する前に行う必要がある。より正確には、ピクチャヘッダ検出回路203がピクチャヘッダを検出した時点で、ビットバッファ202がオーバーフローする恐れがあるかどうかを判定し、そのピクチャをピクチャスキップ回路206を介してスキップするかどうかを決定する必要がある。
【0128】
ところで、1つのピクチャのデータ量は0〜40バイトであるが、そのデータ量はデコードコア回路204においてデコードが終了した時点でないとわからない。また、1つのピクチャのデコード処理時間は、そのピクチャのデータ量やデコードコア回路204の動作速度によって異なるが、通常、1フレーム期間の1/3〜3/4程度である。
【0129】
ビットバッファ202から読み出されたピクチャのデータ量が0バイトの場合、そのピクチャの読み出し前後でビットバッファ202の占有量Bm は変化しないため、そのピクチャをスキップしたとしてもオーバーフローを回避することはできない。逆に言えば、ビットバッファ202から読み出されたピクチャのデータ量が0バイトの場合でも、ビットバッファ202に十分な空き容量があればオーバーフローすることはない。
【0130】
そこで、1フレーム期間にビットバッファ202に入力されるビデオストリームのデータ量分の空き容量を、ビットバッファ202に確保しておく。そうすれば、ビットバッファ202から読み出されたピクチャのデータ量が0バイトの場合でもオーバーフローすることはない。
【0131】
1フレーム期間にビットバッファ202に入力されるビデオストリームのデータ量は、(n×X=n×RB /RP )になる。ビットバッファ202の空き容量がこのデータ量以上であればオーバーフローすることはない。従って、式(8)に示すように閾値Bthn を設定しておけば、ビットバッファ202のオーバーフローを確実に回避することができる。
【0132】
すなわち、判定回路205は、ピクチャヘッダ検出回路203がピクチャヘッダを検出した時点でビットバッファ202の空き容量をチェックし、十分な空き容量(n×X=n×RB /RP )が確保されているかどうかを判定する。十分な空き容量が確保されていなければ、そのピクチャヘッダに基づいて制御コア回路207がビットバッファ202から読み出したピクチャを、ピクチャスキップ回路206を介してスキップする。続いて、判定回路205は、ピクチャヘッダ検出回路203が次のピクチャヘッダを検出した時点で、再びビットバッファ202の空き容量をチェックする。これらの処理に要する時間は、デコードコア回路204のデコード処理時間に比べてはるかに短いため、ビットバッファ202に十分な空き容量が確保できてからデコードコア回路204のデコード処理を開始しても十分に間に合う。
【0133】
ところで、ピクチャヘッダ検出回路203がピクチャヘッダを検出した時点や、デコードコア回路204がデコードを開始した後に、ビットバッファ202がアンダーフローすることがある。この場合は、ビデオストリームがビットバッファ202に入力され次第、ビットバッファ202から1ピクチャ分のビデオストリームを逐次読み出せばよいため、特に問題とはならない。
【0134】
以上詳述したように、ビデオデコーダ12によれば、以下に示す効果を得ることができる。
▲1▼通常の再生時において、ビットバッファ202のオーバーフローを回避することができる。
【0135】
▲2▼高速再生時において、ビットバッファ202のオーバーフローを回避することができる。
▲3▼判定回路205およびピクチャスキップ回路206を設けることにより、ビットバッファ202のオーバーフローを回避することができる。上記したように判定回路205およびピクチャスキップ回路206の制御は簡単であるため、制御コア回路207はマイクロコンピュータを用いて構成する必要がない。そして、各回路203〜207を1チップのLSIに搭載した場合には、ビデオデコーダ12を小型化することができる。
【0136】
▲4▼ピクチャスキップ回路206のノード206b側からスキップされるビデオストリームは、ピクチャ単位となる。そのため、デコードコア回路204へ転送されるピクチャの途中でデータが途切れることはない。従って、デコードコア回路204では、IピクチャだけでなくPピクチャやBピクチャについてもデコード可能になる。その結果、ディスプレイ22で再生される動画に生じるコマ落ちが少なくなる。そのため、2〜4倍という比較的遅い高速再生時において、数コマ/秒の表示が可能になる。従って、高速再生時における動画の動きを滑らかにして画質を大幅に向上させることができる。
【0137】
ところで、上記したビデオデコーダ12において、式(9)に示す規定を満たすように、2つの閾値B2thn,B3thnを設定してもよい。尚、各閾値B2thn,B3thnの値は、上記のように再生速度に応じて設定されると共に、ディスプレイ22で再生される動画の画質を実際に検討して適宜に設定すればよい。
【0138】
0<B3thn<B2thn<B ………(9)
判定回路205は、ビットバッファ202の占有量Bm と各閾値Bthn ,B2thnとを比較し、占有量Bm が式(10)〜(12)に示すどの領域に含まれるかを判定する。
【0139】
Bm <B3thn ………(10)
B3thn<Bm <B2thn ………(11)
B2thn<Bm ………(12)
判定回路205は、式(10)に示すように、ビットバッファ202の占有量Bm が閾値B3thnを越えない場合には、ビットバッファ202がオーバーフローする恐れがなく正常であると判定する。この場合、制御コア回路207は、ビットバッファ202から1ピクチャ分のビデオストリームを読み出す。そして、制御コア回路207は、ピクチャスキップ回路206をノード206a側に接続し、そのビットバッファ202から読み出されたピクチャをデコードコア回路204へ転送させる。
【0140】
判定回路205は、式(12)に示すように、ビットバッファ202の占有量Bm が閾値B2thnを越え且つ閾値Bthn を越えない場合に、ビットバッファ202から読み出されたピクチャがIピクチャまたはPピクチャならば、第1のフラグを立てる。また、式(11)に示すように、ビットバッファ202の占有量Bm が閾値B3thnを越え且つ閾値B2thnを越えない場合に、ビットバッファ202から読み出されたピクチャがPピクチャならば、第2のフラグを立てる。第1または第2のフラグが立っている場合、式(10)に示す場合でも、制御コア回路207は、ビットバッファ202から読み出されたピクチャがBピクチャならば、ピクチャスキップ回路206をノード206b側に接続し、そのピクチャをスキップさせる。
【0141】
図13に、2つの閾値B2thn,B3thnを設定した場合におけるビットバッファ202の占有量Bm の変化を示す。
占有量Bm が閾値B3thnを越えた場合、ビットバッファ202から読み出されたピクチャがBピクチャであればデコードせずにスキップする(図示※1)。ここで、Bピクチャのスキップ後に占有量Bm がまだ閾値B3thnを越えていても、ビットバッファ202から次に読み出されたピクチャがIピクチャまたはPピクチャであればデコードする(図示※2)。
【0142】
占有量Bm が閾値B3thnを越えた場合でも、ビットバッファ202から読み出されたピクチャがIピクチャまたはPピクチャであればデコードする(図示※3)。ここで、IピクチャまたはPピクチャのデコード後に占有量Bm がまだ閾値B3thnを越えている場合、ビットバッファ202から次に読み出されたピクチャがBピクチャであればデコードせずにスキップする(図示※4)。このBピクチャのスキップは、占有量Bm が閾値B3thnを下回るまで繰り返し行う(図示※5)。
【0143】
占有量Bm が閾値B2thnを越えた場合、ビットバッファ202から読み出されたピクチャがIピクチャまたはPピクチャであれば、判定回路205は第1のフラグを立てる(図示※6)。第1のフラグが立っている場合、ビットバッファ202から次に読み出されたピクチャがBピクチャであれば、占有量Bm が閾値B3thnを下回っていても、そのBピクチャをスキップする(図示※7)。
【0144】
占有量Bm が閾値B3thnを越え且つ閾値B2thnを越えない場合、ビットバッファ202から読み出されたピクチャがPピクチャであれば、判定回路205は第2のフラグを立てる(図示※8)。第2のフラグが立っている場合、ビットバッファ202から次に読み出されたピクチャがBピクチャであれば、占有量Bm が閾値B3thnを下回っていても、そのBピクチャをスキップする(図示※9)。
【0145】
占有量Bm が閾値B3thnを越え且つ閾値B2thnを越えない場合、ビットバッファ202から読み出されたピクチャがIピクチャのときには、判定回路205は第2のフラグを立てない(図示※10)。第2のフラグが立っていない場合、占有量Bm が閾値B3thnを下回っていれば、ビットバッファ202から次に読み出されたピクチャがBピクチャであってもデコードする。
【0146】
以上のように、2つの閾値B2thn,B3thnを設定した場合には、上記したビデオデコーダ12の効果▲1▼〜▲3▼に加えて、以下の効果を得ることができる。
▲4▼ビットバッファ202の占有量Bm が閾値B3thnを越え且つ閾値Bthn を越えない場合、IピクチャおよびPピクチャを可能な限りデコードすると共に、Bピクチャを優先してスキップする。
【0147】
Bピクチャは双方向予測によって生成されるため、その重要度はIピクチャやPピクチャに比べて低い。従って、重要度の低いBピクチャを優先してスキップすることにより、ディスプレイ22で再生される動画に生じるコマ落ちをさらに少なくすることができる。その結果、高速再生時における動画の動きをさらに滑らかにして画質をより向上させることができる。
【0148】
▲5▼第1のフラグを設定することで、IピクチャまたはPピクチャのデコード後にビットバッファ202の占有量Bm が閾値B3thnを下回っても、余裕をみて次にビットバッファ202から読み出されるBピクチャを予めスキップすることができる。また、第2のフラグを設定することで、Pピクチャのデコード後にビットバッファ202の占有量Bm が閾値B3thnを下回っても、余裕をみて次にビットバッファ202から読み出されるBピクチャを予めスキップすることができる。
【0149】
このように、Bピクチャを予めスキップすることは、ビットバッファ202の次回のオーバーフローに対して予防措置を講ずることに他ならない。従って、ビットバッファ202のオーバーフローをより確実に回避することができる。
【0150】
▲6▼Iピクチャのデータ量はPピクチャのそれの2〜3倍と多い。そのため、Pピクチャが読み出された場合に比べて、Iピクチャが読み出された場合の方がビットバッファ202の占有量Bm の減少の度合いが大きい。従って、Pピクチャが読み出された後よりも、Iピクチャが読み出された後の方がビットバッファ202がオーバーフローする可能性が小さくなる。そこで、第1および第2のフラグを設定することにより、IピクチャとPピクチャとで前記予防措置に差をつける。すなわち、Iピクチャに対する予防措置の閾値B2thnを、Pピクチャに対する予防措置の閾値B3thnよりも高い値に設定することで、Iピクチャに対する予防措置をPピクチャのそれに比べて緩くすることが可能になる。その結果、Bピクチャの無駄なスキップを少なくすることができる。
【0151】
▲7▼以下のa)b)に示すGOP構成(ピクチャのタイプの並び)のビデオストリームがAVパーサ11から転送されてきた場合についてシミュレーションしたところ、以下に示す結果が得られた。
【0152】
a)IBPBPBPBP・・・
b)IBBPBBPBBPBBPBBIBP・・・
[1] 2倍速再生時;a)の場合、IピクチャおよびPピクチャの全てがデコード可能であり、その結果、30コマ/秒のフルレートで表示できる。b)の場合、IピクチャおよびPピクチャの全てとBピクチャの一部がデコード可能であり、その結果、25コマ/秒以上で表示できる。
【0153】
[2] 4倍速再生時;a)b)共に、Iピクチャおよびそれに続く3〜4枚のPピクチャがデコード可能であり、その結果、15コマ/秒以上で表示できる。
ところで、第2〜第3実施形態において、ビデオデコーダ12の動作速度を制御するには、デコードコア回路204におけるデコード処理の速度を制御すればよい。
【0154】
尚、上記各実施形態は以下のように変更してもよく、その場合でも同様の作用および効果を得ることができる。
(1)リングメモリ32を、DSP31の後段ではなく、DSP31の前段(すなわち、MPEGオーディオデコーダ3とDSP31の間)に設ける。
【0155】
(2)MPEG再生装置23を構成する各回路1,11,12を1チップのLSIに搭載する。このようにすれば、MPEG再生装置23を小型化することができる。
【0156】
(3)第2〜第8実施形態において、ビデオデコーダ12の動作速度を制御するのではなく、ビデオデコーダ12とディスプレイ22の間に遅延回路を挿入し、その遅延回路の遅延時間を制御する。
【0157】
(4)第2〜第8実施形態の内いずれか2つ以上の実施形態を適宜に組み合わせて実施する。このようにすれば、組み合わせた各実施形態の相乗作用によりさらに優れた効果を得ることができる。
【0158】
(5)第1〜第8実施形態をCPUを用いたソフトウェア的な処理に置き代える。すなわち、各回路(1〜55)における信号処理をCPUを用いたソフトウェア的な信号処理に置き代える。
【0159】
(6)図12に示したMPEGビデオデコーダ12においては、説明を分かり易くするため、ピクチャスキップ回路206が各ノード206a,206bを有し、制御コア回路207の制御に従って各ノード206a,206bの接続が切り換えられる構成としたが、この構成に代えて、ピクチャスキップ回路206を、制御コア回路207の制御に従って、デコードコア回路204でデコードされるべきピクチャだけを通過させる論理回路によって構成してもよい。
【0160】
以上、本発明を具体化した各実施形態について説明したが、上記実施形態から把握できる請求項以外の技術的思想について、以下にそれらの効果と共に記載する。
(イ)請求項1〜3のいずれか1項に記載のMPEGオーディオ再生装置において、オーディオ信号をD/A変換するD/Aコンバータ(5)と、D/Aコンバータの出力を増幅するオーディオアンプ(6)とを備えたMPEGオーディオ再生装置。
【0161】
このようにすれば、ディジタルのオーディオ信号からスピーカを駆動するためのアナログ信号を生成することができる。
(ロ)請求項4〜8のいずれか1項に記載のMPEG再生装置において、記録媒体(21)から読み出されたMPEGシステムストリームを、MPEGオーディオストリームとMPEGビデオストリームとに分離するデマルチプレクサ(13)を備えたMPEG再生装置。
【0162】
このようにすれば、オーディオデコーダへオーディオストリームを、ビデオデコーダへビデオストリームをそれぞれ転送することができる。
【0163】
【発明の効果】
請求項1〜3のいずれか1項に記載の発明によれば、可変速再生時においても自然で聞き易い音声を再生することが可能なMPEGオーディオ再生装置を提供することができる。
【0164】
請求項4に記載の発明によれば、可変速再生時においても自然で聞き易い音声を再生することが可能なMPEGオーディオ再生装置とMPEGビデオデコーダとを備えたMPEG再生装置を提供することができる。
【0165】
請求項5〜8のいずれか1項に記載の発明によれば、可変速再生時においても自然で聞き易い音声を再生することが可能なMPEGオーディオ再生装置とMPEGビデオデコーダとを備え、音声と動画との時間ずれを低減することが可能なMPEG再生装置を提供することができる。
【図面の簡単な説明】
【図1】第1実施形態のブロック回路図。
【図2】第1実施形態の要部ブロック回路図。
【図3】第1実施形態の作用を説明するための模式図。
【図4】第1実施形態の作用を説明するための模式図。
【図5】第2実施形態の要部ブロック回路図。
【図6】第3実施形態の要部ブロック回路図。
【図7】第4実施形態の要部ブロック回路図。
【図8】第5実施形態の要部ブロック回路図。
【図9】第6実施形態の要部ブロック回路図。
【図10】第7実施形態の要部ブロック回路図。
【図11】第8実施形態の要部ブロック回路図。
【図12】MPEGビデオデコーダの要部ブロック回路図。
【図13】MPEGビデオデコーダの動作を説明するためのグラフ。
【図14】MPEGビデオデコーダの動作を説明するためのグラフ。
【符号の説明】
1…MPEGオーディオ再生装置
2…話速変換手段としての再生速度検出回路
3…MPEGオーディオデコーダ
4…話速変換手段としての話速変換処理回路
12…MPEGビデオデコーダ
21…記録媒体
32…リングメモリ
33…検出手段としてのアップダウンカウンタ
41…音声判別部
42…無音削除挿入部
43…時間軸圧縮伸長部
51…インデックス付加回路
52…インデックス検出回路
53,55…遅延時間検出回路
54…制御回路[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a moving picture expert group (MPEG) audio playback apparatus and an MPEG playback apparatus, and more particularly, to an MPEG audio playback apparatus and an MPEG playback apparatus having a speech speed conversion function.
[0002]
[Prior art]
The information handled in multimedia is enormous and diverse, and it is necessary to process such information at high speed in order to put multimedia into practical use. In order to process information at high speed, data compression / decompression technology is indispensable. As such a data compression / decompression technique, an “MPEG” method can be cited. This MPEG system is being standardized by an MPEG committee (ISO / IEC JTC1 / SC29 / WG11) under the umbrella of ISO (International Organization for Standardization) / IEC (International Electrotechnical Commission).
[0003]
MPEG is composed of three parts. In the “MPEG system part” of Part 1 (ISO / IEC IS 11172 Part 1: Systems), a multiplexing structure (multiplex structure) of video data and audio data and a synchronization method are defined. In
[0004]
The video data handled by the MPEG video part relates to a moving image, and the moving image is composed of several tens (eg, 30) frames (still images, frames) per second. The video data has a hierarchical structure of six layers in the order of a sequence (Sequence), a GOP (Group Of Pictures), a picture, a slice (Slice), a macroblock (Macroblock), and a block.
[0005]
At present, there are two MPEG systems, MPEG-1 and MPEG-2, mainly due to differences in encoding rates. In MPEG-1, a frame corresponds to a picture. In MPEG-2, frames or fields can correspond to pictures. Two fields constitute one frame. The structure in which a frame corresponds to a picture is called a frame structure, and the structure in which a field corresponds to a picture is called a field structure.
[0006]
MPEG uses a compression technique called inter-frame prediction. Inter-frame prediction compresses data between frames based on temporal correlation. In the inter-frame prediction, bidirectional prediction is performed. Bidirectional prediction is to use both forward prediction for predicting a current playback image from a past playback image (or picture) and backward prediction for predicting a current playback image from a future playback image. .
[0007]
The bidirectional prediction defines three types of pictures called I-pictures (Intra-Picture), P-pictures (Predictive-Picture), and B-pictures (Bidirectionally predictive-Picture). The I picture is generated independently of a past or future reproduced image. The P picture is generated by forward prediction (prediction from a past I picture or P picture). B pictures are generated by bidirectional prediction. In bidirectional prediction, a B picture is generated by any one of the following three predictions. (1) Forward prediction; prediction from past I or P pictures; (2) backward prediction; prediction from future I or P pictures; (3) bidirectional prediction; past and future I pictures or Prediction from P pictures. Then, these I, P, and B pictures are respectively encoded. That is, an I picture is generated without any past or future picture. In contrast, a P picture is not generated without a past picture, and a B picture is not generated without a past or future picture.
[0008]
In the inter-frame prediction, first, an I picture is periodically generated. Next, a frame several frames ahead of the I picture is generated as a P picture. This P picture is generated by one-way (forward) prediction from the past to the present. Subsequently, a frame located before the I picture and after the P picture is generated as a B picture. When generating this B picture, an optimal prediction method is selected from three of forward prediction, backward prediction, and bidirectional prediction. In general, in a continuous moving image, a current image and images before and after the current image are very similar, and only a part thereof is different. Therefore, it is assumed that the previous frame (for example, I picture) and the next frame (for example, P picture) are the same, and if there is a change between both frames, only the difference (B picture) is extracted and compressed. I do. Thereby, data between frames can be compressed based on temporal correlation.
[0009]
A data sequence (bit stream) of video data encoded according to the MPEG video part is called an MPEG video stream (hereinafter, abbreviated as a video stream). A data string of audio data encoded in accordance with the MPEG audio part is called an MPEG audio stream (hereinafter, abbreviated as audio stream). Then, the video stream and the audio stream are time-division multiplexed in accordance with the MPEG system part, and become an MPEG system stream (hereinafter abbreviated as a system stream) as one data string. System streams are also called multiplex streams.
[0010]
The flow from the encoding to the decoding in the MPEG part is as follows. An MPEG system encoder (hereinafter, abbreviated as a system encoder) separately encodes video data and audio data while maintaining coordination, and generates a video stream and an audio stream. Next, a multiplexer (MUX) provided in the MPEG system encoder multiplexes a video stream and an audio stream so as to conform to a format of a transmission medium or a recording medium, and generates a system stream. The system stream is transmitted from the MUX via a transmission medium or recorded on a recording medium.
[0011]
A demultiplexer (DMUX; DeMultiplexer) provided in an MPEG system decoder (hereinafter abbreviated as a system decoder) separates a system stream into a video stream and an audio stream. Next, the system decoder individually decodes each stream to generate a video decoded output (hereinafter, referred to as a video output) and an audio decoded output (hereinafter, referred to as an audio output). The video output is output to a display, and a moving image is reproduced on the display. The audio output is output to a speaker via a D / A (Digital / Analog) converter and an audio amplifier, and sound is reproduced from the speaker.
[0012]
Meanwhile, MPEG-1 mainly corresponds to a storage medium using a recording medium such as a video CD (Compact Disc), a CD-ROM (CD-Read Only Memory), and a DVD (Digital Video Disc). Supports a wide range of applications, including MPEG-1.
[0013]
In a storage medium, the following two variable speed reproductions are required. (1) A function for reproducing a moving image at a speed higher than a normal (standard) reproduction speed (hereinafter, referred to as high-speed reproduction). (2) A function for playing a moving image at a speed lower than a normal playing speed (hereinafter, referred to as a low speed playing). The high-speed playback function is used, for example, when a user performs fast-forward playback to view a moving image in a short time, or when performing fast-forward playback or fast-forward reverse playback to search for a desired moving image. The low-speed playback function is used, for example, when a user watches a moving image carefully.
[0014]
The bit rate of the system stream read from the recording medium corresponds to the reading speed. Therefore, to perform high-speed reproduction, the system stream is read from the recording medium at high speed, and to perform low-speed reproduction, the system stream is read from the recording medium at low speed. For example, when a video CD or DVD is used as a recording medium, the rotation speed of the video CD or DVD is made faster or slower than at the time of normal reproduction (at the time of standard reproduction), so that a desired system stream is obtained. Read at speed.
[0015]
[Problems to be solved by the invention]
Conventionally, in MPEG, variable speed playback of moving images as described above has been studied, but no consideration has been given to variable speed playback of audio.
[0016]
The bit rate of the audio stream is the same as that of the system stream. Therefore, at the time of high-speed reproduction of a moving image, the bit rate of the audio stream is also increased, and the pitch (pitch) of the reproduced sound is increased, and in addition, the utterance speed (speech speed) is increased. In addition, at the time of low-speed reproduction of a moving image, the bit rate of the audio stream is reduced, and the pitch of the reproduced audio does not change, but the audio is interrupted. As described above, there has been a problem that the sound becomes hard to hear when the moving image is reproduced at a variable speed.
[0017]
By the way, in recent years, the development of a speech speed conversion technology for arbitrarily controlling the speech speed without changing the pitch has been progressed, and the present applicant has already developed a speech speed conversion processing LSI that can be used for a VTR or a tape recorder. (See Japanese Patent Application Laid-Open No. 7-192392 (G11B 20/02), Nikkei Electronics, November 21, 1994, No. 622, pages 93 to 98.). However, no attempt has been made to use the speech speed conversion technology for MPEG.
[0018]
Further, in the synchronous generation of audio and a moving image (video), it is necessary to consider “lip sync”. Lip sync means that the movement of the mouth of the person shown on the display is synchronized with the sound uttered from the speaker. If the sound is faster or slower than the mouth movement, the lip sync is said to be out of sync. If the deviation of the lip sync is out of the permissible range of human hearing, the viewer will feel uncomfortable. In general, it is said that a permissible time as a shift of the lip sync caused by the delay of the sound from the moving image is about 50 to 250 ms.
[0019]
The present invention has been made to satisfy the above-mentioned requirements, and has the following objects.
[1] To provide an MPEG audio reproducing apparatus capable of reproducing natural and easy-to-hear sound even during variable speed reproduction.
[0020]
[2] An MPEG playback device including the MPEG audio playback device and the MPEG video decoder of [1] is provided.
[3] An MPEG reproducing apparatus including the MPEG audio reproducing apparatus of [1] and an MPEG video decoder and capable of reducing a time lag between audio and moving images.
[0024]
[Means for Solving the Problems]
Claim 1The invention described in (1) provides an MPEG audio decoder (3) for decoding an MPEG audio stream read from a recording medium (21) in accordance with an MPEG audio part and generating an audio signal, and a speech speed for the audio signal. Speech speed conversion processing means (2, 4) for performing conversion processing, wherein the speech speed conversion processing means is reproduced when the bit rate of the audio stream is higher than normal.eachThe duration of the voice sectionlongThe speech speed conversion process is performed by shortening the time length of each silent section, and when the bit rate of the audio stream is smaller than the normal time, the time length of each voice section to be reproduced is changed.longAnd to shorten the time length of each silent section, or to perform a speech speed conversion process by inserting each silent section after deleting each silent section and connecting each voice section. I do.
[0025]
Claim 2The invention described inClaim 1In the MPEG audio reproducing apparatus described in (1), the speech speed conversion processing means (2, 4) includes a ring memory (32) for storing an audio signal, and a detection means (33) for detecting a storage amount of the ring memory. The gist is to adjust the compression / expansion rate of the time length of the voice section according to the amount of storage in the ring memory.
[0026]
Claim 3The invention described inClaim 2In the MPEG audio reproducing apparatus described in (1), the speech speed conversion processing means (2, 4) performs a voice discrimination unit (41) for discriminating a voice section and a silent section of the audio signal, and performs a process of deleting or inserting a silent section. And a time axis compression / expansion section (43) for adjusting the compression / expansion rate by performing compression / expansion processing of the voice section based on the amount of storage in the ring memory (32). Is the gist.
[0027]
Claim 4The invention described inClaims 1-3And an MPEG video decoder (1) that decodes an MPEG video stream read from a recording medium (21) in accordance with an MPEG video part and generates a video signal. The point is that the item 12) is provided.
[0028]
Claim 5The invention described
[0029]
Claim 6The invention described inClaim 3And an MPEG video decoder (12) that decodes an MPEG video stream read from the recording medium (21) in accordance with the MPEG video part and generates a video signal, and an audio device (1). A signal delay time in the speech speed conversion processing means (2, 4) is detected based on the processing result of the determination unit (41) and the bit rate of the audio stream, and a signal indicating the detected delay time is converted to an MPEG video signal. The MPEG video decoder (12) is provided with a delay time detection circuit (53) to be supplied to the decoder (12). The gist of the MPEG video decoder (12) is to control its own operation timing based on the signal indicating the delay time.
[0030]
Claim 7The invention described inClaim 3And an MPEG video decoder (12) for decoding an MPEG video stream read from a recording medium (21) in accordance with the MPEG video part and generating a video signal, A control circuit for generating a control signal for synchronizing the audio signal and the video signal after the speech speed conversion processing based on the storage amount of the memory (32), and supplying the control signal to the MPEG video decoder (12) (54), the gist of which is that the MPEG video decoder (12) controls its own operation timing based on the control signal.
[0031]
Claim 8The invention described inClaim 3And an MPEG video decoder (12) that decodes an MPEG video stream read from the recording medium (21) in accordance with the MPEG video part and generates a video signal, and an audio device (1). A signal delay time in the speech speed conversion processing means (2, 4) is detected based on the processing results of the discrimination section (41) and the time axis compression / expansion section (43), and a signal indicating the detected delay time is converted to an MPEG signal. The MPEG video decoder (12) includes a delay time detection circuit (55) to be supplied to the video decoder (12). The gist of the MPEG video decoder (12) is to control the timing of its own operation based on the signal indicating the delay time. .
[0032]
BEST MODE FOR CARRYING OUT THE INVENTION
(1st Embodiment)
Hereinafter, a first embodiment of the present invention will be described with reference to the drawings.
[0033]
FIG. 1 shows a block circuit diagram of the present embodiment.
The MPEG
[0034]
The
[0035]
The voice speed
[0036]
The reproduction
[0037]
The
[0038]
The
[0039]
The
[0040]
The bit rate of the system stream read from the
[0041]
Therefore, the
[0042]
The
[0043]
By the way, a video signal and an audio signal are generated synchronously during normal reproduction.
The
[0044]
The inside of the
[0045]
The data generated by the
[0046]
The read
The data stored in the
[0047]
The write clock is input to an up-count input terminal UP of the up-
[0048]
FIG. 2 shows an internal configuration of the speech
The speech
[0049]
The
[0050]
The silence deletion /
The time axis compression /
[0051]
Each of the
Next, the operation of the speech
[0052]
The bit rate of the audio signal output from the
[0053]
Therefore, the speech
[0054]
That is, the silence deletion /
In addition, the time axis compression /
[0055]
In the compression process performed by the time axis compression /
For example, by compressing a three-period waveform having the same pitch period into a two-period waveform, 2/3 times compression (compression ratio: 2/3) is obtained. Specifically, a two-period waveform at the front and a two-period waveform at the rear in the time axis direction are cut out from the three-period waveform. Then, the preceding two-period waveform is multiplied by a monotonically decreasing triangular window function, and the following two-period waveform is multiplied by a monotonically increasing triangular window function. An output waveform is obtained by adding these two waveforms.
[0056]
To obtain a 0.9-fold compression (compression ratio: 0.9), for example, the waveform is compressed from a 10-period waveform to a 9-period waveform. In this case, the same processing is performed on the first three cycle waveforms. That is, among the input 10-period waveforms, the 7-period waveform excluding the first three-period waveform is not used for the processing.
[0057]
By preparing various combinations for compressing the M-period waveform into the N-period waveform, various types of compression ratios can be obtained. By the way, when the silent section is short, if the compression ratio is low (the degree of compression is high), the
[0058]
Next, the operation of the speech
FIG. 3 shows an example of sound reproduced at the time of normal reproduction and at the time of 0.5 × speed reproduction.
[0059]
At the time of low-speed reproduction, the bit rate of the audio signal is lower than at the time of normal reproduction. Therefore, as shown in the
[0060]
Therefore, the speech
[0061]
(Method 2)
In the
[0062]
In order to extend the length of the voice section in the time axis compression /
[0063]
At this time, if the voice section is extended too much, the voice section is prolonged and can be heard, so that the discontinuity of the voice becomes inconspicuous but still unnatural. To prevent this, the length L2 of the voice section at the time of low-speed playback is set to the length L1 of the voice section at the time of normal playback, for example, as shown in the following equation.
[0064]
L2 / L1 ≦ 1.4
Note that the above equation can be applied not only at the time of 0.5 × speed reproduction, but also at the time of low speed reproduction at any magnification. Here, the expansion rate of the voice section in the time axis compression /
[0065]
{Circle around (1)} The expansion rate of the voice section is dynamically changed according to the storage amount of the
[0066]
{Circle around (2)} The expansion rate of the voice section is dynamically changed according to the pitch change of the voice. That is, as shown in FIG. 4, the speech speed is changed by changing the expansion rate of the voice section in accordance with the change in the pitch of the voice. In this case, the audibility of the voice can be further improved. Note that a technique for changing the speech speed by changing the expansion rate of a voice section in response to a change in voice pitch is known (IEICE Technical Report SP92-56, HC92-33 (1992-09), p. 49-56).
[0067]
(Method 3)
In the
[0068]
(1) A silent section in which no sound exists.
{Circle around (2)} A silent section containing white noise that does not make the viewer feel uncomfortable. Such white noise is created in advance and stored in another memory (not shown).
[0069]
{Circle around (3)} The audio signal determined as a silent section by the
As described above, according to the present embodiment, the following operations and effects can be obtained.
[0070]
(1) By providing the voice speed
[0071]
By the way, at the time of m-times speed reproduction (m> 1), the bit rates of the audio stream and the decode clock are m times that of the normal reproduction. At this time, if the bit rate of the data output from the speech
[0072]
(2) The provision of the speech speed
[0073]
By the way, the
(1) The user of the MPEG
(2)
[0074]
(3) When the
(2nd Embodiment)
Hereinafter, a second embodiment of the present invention will be described with reference to the drawings. In the present embodiment, the same components as those in the first embodiment have the same reference numerals, and a detailed description thereof will be omitted.
[0075]
FIG. 5 shows a block diagram of a main part of the present embodiment. The present embodiment is different from the first embodiment only in that an
[0076]
The
[0077]
The
[0078]
As described above, according to the present embodiment, the following operations and effects can be obtained in addition to the operations and effects of the first embodiment.
(1) As described above, the video signal generated by the
[0079]
Therefore, an index signal is added to the audio signal input to the
The
[0080]
As a result, regardless of the delay time in the speech speed
[0081]
(2) From the above (1), it is possible to reduce the time lag between the sound reproduced by the
[0082]
(3) The index signal added to the audio signal may be deleted by the silence deletion /
[0083]
(Third embodiment)
Hereinafter, a third embodiment of the present invention will be described with reference to the drawings. In the present embodiment, the same components as those in the second embodiment have the same reference numerals, and a detailed description thereof will be omitted.
[0084]
FIG. 6 shows a block diagram of a main part of the present embodiment. The present embodiment is different from the second embodiment only in that an
[0085]
As described above, when the
[0086]
Therefore, according to the present embodiment, the same operation and effect as those of the second embodiment can be obtained.
(Fourth embodiment)
Hereinafter, a fourth embodiment of the present invention will be described with reference to the drawings. In the present embodiment, the same components as those in the second embodiment have the same reference numerals, and a detailed description thereof will be omitted.
[0087]
FIG. 7 shows a block diagram of a main part of the present embodiment. The present embodiment is different from the second embodiment only in that an
[0088]
As described above, when the storage capacity of the
[0089]
In addition, the time required for signal processing in the voice discriminating unit 41 (that is, the delay time in the voice discriminating unit 41) is shorter than the delay time in the speech speed
[0090]
Therefore, according to the present embodiment, the same operation and effect as those of the second embodiment can be obtained.
(Fifth embodiment)
Hereinafter, a fifth embodiment of the present invention will be described with reference to the drawings. In the present embodiment, the same components as those in the second embodiment have the same reference numerals, and a detailed description thereof will be omitted.
[0091]
FIG. 8 shows a block diagram of a main part of the present embodiment. The present embodiment is different from the second embodiment only in that an
[0092]
As described above, when the storage capacity of the
[0093]
The time required for signal processing in each of the
[0094]
That is, the delay time in the speech speed
[0095]
Therefore, according to the present embodiment, the same operation and effect as those of the second embodiment can be obtained. Further, according to the present embodiment, the index signal added to the audio signal is not deleted by the silence
[0096]
(Sixth embodiment)
Hereinafter, a sixth embodiment of the present invention will be described with reference to the drawings. In the present embodiment, the same components as those in the first embodiment have the same reference numerals, and a detailed description thereof will be omitted.
[0097]
FIG. 9 shows a block diagram of a main part of the present embodiment. The present embodiment differs from the first embodiment only in that a delay
As described above, the
[0098]
The decode clock corresponds to the bit rate of the system stream. That is, the decode clock contains information on the compression / expansion rate of the audio signal in advance.
[0099]
Therefore, the delay
[0100]
As described above, according to the present embodiment, the same effect as that of the second embodiment can be obtained.
(Seventh embodiment)
Hereinafter, a seventh embodiment of the present invention will be described with reference to the drawings. In the present embodiment, the same components as those in the first embodiment have the same reference numerals, and a detailed description thereof will be omitted.
[0101]
FIG. 10 shows a block diagram of a main part of the present embodiment. The present embodiment differs from the first embodiment only in that a
The
[0102]
As described above, the delay time in the speech speed
[0103]
As described above, according to the present embodiment, the same effect as that of the second embodiment can be obtained.
(Eighth embodiment)
Hereinafter, an eighth embodiment of the invention will be described with reference to the drawings. In the present embodiment, the same components as those in the first embodiment have the same reference numerals, and a detailed description thereof will be omitted.
[0104]
FIG. 11 shows a block diagram of a main part of the present embodiment. This embodiment differs from the first embodiment only in that a delay
[0105]
As described above, the processing result of the
The processing result of the time axis compression /
[0106]
Therefore, the delay
[0107]
As described above, according to the present embodiment, the same effect as that of the second embodiment can be obtained.
FIG. 12 shows a main block circuit of the
[0108]
The
[0109]
The
The MPEG video stream transferred from the
[0110]
The
The picture
[0111]
The
[0112]
Each picture read from the
The
[0113]
The
[0114]
The
[0115]
When the occupation amount Bm of the
[0116]
When the occupation amount Bm of the
[0117]
FIG. 13 shows a change in the occupation amount Bm of the
The occupancy Bm of the
[0118]
RB = 400 × BR (1)
B = 16 × 1024 × VBV (2)
X = RB / RP (3)
0 <Bm <BX = B- (RB / RP) (4)
If the occupation amount Bm of the
[0119]
In the
[0120]
Therefore, at the time of normal reproduction, the occupancy Bm (= B0 to B4) immediately after data for one picture is read at a stretch from the
[0121]
0 <Bm <Bth1 <B (5)
Bth1 = BX = B- (RB / RP) (6)
By the way, in an actual state, even if the capacity B of the
[0122]
However, the
[0123]
The occupancy Bm of the
[0124]
Therefore, at the time of high-speed reproduction, the occupation amount Bm (= B0 to B4) immediately after the data for one picture is read at a stretch from the
[0125]
0 <Bm <Bthn (7)
Bthn = B−n × X = B− (n × RB / RP) (8)
At the time of high-speed reproduction, when the occupation amount Bm of the
[0126]
If the
[0127]
Therefore, it is necessary to determine whether or not the
[0128]
By the way, the data amount of one picture is 0 to 40 bytes, but the data amount cannot be known until the decoding in the
[0129]
When the data amount of a picture read from the
[0130]
Therefore, a free space for the data amount of the video stream input to the
[0131]
The data amount of the video stream input to the
[0132]
That is, the
[0133]
By the way, the
[0134]
As described in detail above, according to the
(1) At the time of normal reproduction, overflow of the
[0135]
{Circle over (2)} At the time of high-speed reproduction, overflow of the
(3) By providing the
[0136]
(4) The video stream skipped from the
[0137]
By the way, in the
[0138]
0 <B3thn <B2thn <B (9)
The
[0139]
Bm <B3thn ... (10)
B3thn <Bm <B2thn (11)
B2thn <Bm (12)
When the occupation amount Bm of the
[0140]
When the occupation amount Bm of the
[0141]
FIG. 13 shows a change in the occupation amount Bm of the
When the occupation amount Bm exceeds the threshold value B3thn, if the picture read from the
[0142]
Even when the occupation amount Bm exceeds the threshold value B3thn, if the picture read from the
[0143]
When the occupation amount Bm exceeds the threshold value B2thn, if the picture read from the
[0144]
When the occupation amount Bm exceeds the threshold value B3thn and does not exceed the threshold value B2thn, if the picture read from the
[0145]
When the occupation amount Bm exceeds the threshold value B3thn and does not exceed the threshold value B2thn, and the picture read from the
[0146]
As described above, when the two thresholds B2thn and B3thn are set, the following effects can be obtained in addition to the effects (1) to (3) of the
{Circle around (4)} When the occupation amount Bm of the
[0147]
Since the B picture is generated by bidirectional prediction, its importance is lower than that of an I picture or a P picture. Therefore, by skipping the B-picture of low importance with priority, it is possible to further reduce the number of dropped frames that occur in the moving image reproduced on the
[0148]
(5) By setting the first flag, even if the occupation amount Bm of the
[0149]
In this way, skipping the B picture in advance is nothing but taking a preventive measure against the next overflow of the
[0150]
(6) The data amount of the I picture is as large as two to three times that of the P picture. Therefore, the degree of reduction in the occupation amount Bm of the
[0151]
{Circle around (7)} Simulation was performed on a case where a video stream having the following GOP configuration (arrangement of picture types) shown in a) and b) was transferred from the
[0152]
a) IBPBPBPBP ...
b) IBBPBBPBBPBBPBBIBP ...
[1] At the time of 2 × speed reproduction; in the case of a), all of the I picture and the P picture can be decoded, and as a result, they can be displayed at a full rate of 30 frames / sec. In the case of b), all of the I and P pictures and a part of the B picture can be decoded, and as a result, they can be displayed at 25 frames / second or more.
[0153]
[2] During quadruple-speed playback; a) and b) can decode an I picture and 3 to 4 subsequent P pictures, and as a result, can display at 15 frames / second or more.
Incidentally, in the second and third embodiments, the operation speed of the
[0154]
The above embodiments may be modified as follows, and the same operation and effect can be obtained in such a case.
(1) The
[0155]
(2) Each of the
[0156]
(3) In the second to eighth embodiments, instead of controlling the operation speed of the
[0157]
(4) Any two or more of the second to eighth embodiments are appropriately combined and implemented. In this case, a more excellent effect can be obtained by the synergistic action of the combined embodiments.
[0158]
(5) The first to eighth embodiments are replaced with software processing using a CPU. That is, the signal processing in each of the circuits (1 to 55) is replaced with software signal processing using a CPU.
[0159]
(6) In the
[0160]
As described above, each embodiment embodying the present invention has been described. However, technical ideas other than the claims that can be grasped from the above embodiment will be described below together with their effects.
(I)Claims 1-35. The MPEG audio reproducing apparatus according to
[0161]
In this way, an analog signal for driving a speaker can be generated from a digital audio signal.
(B)
[0162]
This makes it possible to transfer the audio stream to the audio decoder and the video stream to the video decoder.
[0163]
【The invention's effect】
Claims 1-3According to the invention described in any one of the above, it is possible to provide an MPEG audio reproducing apparatus capable of reproducing natural and easy-to-listen sound even during variable speed reproduction.
[0164]
Claim 4According to the invention described in (1), it is possible to provide an MPEG reproducing apparatus including an MPEG audio reproducing apparatus and an MPEG video decoder which can reproduce natural and easy-to-listen sound even at the time of variable speed reproduction.
[0165]
Claims 5-8According to the invention described in any one of the above, an MPEG audio playback device and an MPEG video decoder capable of reproducing natural and easy-to-listen sound even at the time of variable speed reproduction are provided, and a time lag between the sound and the moving image is provided. MPEG reproducing apparatus capable of reducing the number of pixels can be provided.
[Brief description of the drawings]
FIG. 1 is a block circuit diagram of a first embodiment.
FIG. 2 is a main part block circuit diagram of the first embodiment.
FIG. 3 is a schematic diagram for explaining the operation of the first embodiment.
FIG. 4 is a schematic diagram for explaining the operation of the first embodiment.
FIG. 5 is a main part block circuit diagram of a second embodiment.
FIG. 6 is a main part block circuit diagram of a third embodiment.
FIG. 7 is a main part block circuit diagram of a fourth embodiment.
FIG. 8 is a main part block circuit diagram of a fifth embodiment.
FIG. 9 is a main part block circuit diagram of a sixth embodiment.
FIG. 10 is a main part block circuit diagram of a seventh embodiment.
FIG. 11 is a main part block circuit diagram of an eighth embodiment.
FIG. 12 is a main part block circuit diagram of an MPEG video decoder.
FIG. 13 is a graph for explaining the operation of the MPEG video decoder.
FIG. 14 is a graph for explaining the operation of the MPEG video decoder.
[Explanation of symbols]
1. MPEG audio playback device
2. Reproduction speed detection circuit as speech speed conversion means
3. MPEG audio decoder
4: Speech speed conversion processing circuit as speech speed conversion means
12 ... MPEG video decoder
21: Recording medium
32 ... Ring memory
33 ... Up / down counter as detection means
41: voice discrimination unit
42: Silence deletion insertion section
43: Time axis compression / expansion unit
51 ... Index addition circuit
52 ... Index detection circuit
53, 55 ... delay time detection circuit
54 ... Control circuit
Claims (8)
オーディオ信号に対して話速変換処理を行う話速変換処理手段とを備え、
話速変換処理手段は、オーディオストリームのビットレートが通常時よりも大きい場合には、再生される各音声区間の時間長さを長くすると共に各無音区間の時間長さを短くするようにして話速変換処理を行い、オーディオストリームのビットレートが通常時よりも小さい場合には、再生される各音声区間の時間長さを長くすると共に各無音区間の時間長さを短くするか、または、各無音区間を削除して各音声区間をつなぎ合わせた後に無音区間を挿入するようにして話速変換処理を行うMPEGオーディオ再生装置。An MPEG audio decoder that decodes the MPEG audio stream read from the recording medium in accordance with the MPEG audio part and generates an audio signal;
Speech speed conversion processing means for performing a speech speed conversion process on the audio signal,
When the bit rate of the audio stream is higher than normal, the speech speed conversion processing means increases the time length of each voice section to be reproduced and shortens the time length of each silent section. If the bit rate of the audio stream is lower than the normal time when the bit rate of the audio stream is lower than the normal time, the time length of each voice section to be reproduced is increased and the time length of each silent section is shortened, or An MPEG audio playback apparatus that performs a speech speed conversion process by deleting a silent section and connecting voice sections and then inserting a silent section.
話速変換処理手段は、
オーディオ信号を蓄積するリングメモリと、
リングメモリの蓄積量を検出する検出手段とを備え、
リングメモリの蓄積量に応じて音声区間の時間長さの圧縮伸長率を調整するMPEGオーディオ再生装置。The MPEG audio playback device according to claim 1 ,
The speech speed conversion processing means ,
A ring memory for storing audio signals,
Detecting means for detecting the accumulated amount of the ring memory,
An MPEG audio reproducing apparatus that adjusts a compression / expansion rate of a time length of an audio section according to a storage amount of a ring memory.
話速変換処理手段は、
オーディオ信号の音声区間と無音区間とを判別する音声判別部と、
無音区間の削除処理または挿入処理を行う無音削除挿入部と、
リングメモリの蓄積量に基づいて音声区間の圧縮伸長処理を行うことで圧縮伸長率を調整する時間軸圧縮伸長部とを備えたMPEGオーディオ再生装置。The MPEG audio playback device according to claim 2 ,
The speech speed conversion processing means ,
A voice discriminating unit that discriminates between a voice section and a silent section of the audio signal;
Silence deletion insertion unit that performs deletion processing or insertion process silent section,
An MPEG audio reproducing apparatus comprising: a time axis compression / expansion unit that adjusts a compression / expansion rate by performing compression / expansion processing of a voice section based on the storage amount of a ring memory .
記録媒体から読み出されたMPEGビデオストリームをMPEGビデオパートに準拠してデコードし、ビデオ信号を生成するMPEGビデオデコーダとを備えたMPEG再生装置。An MPEG audio playback device according to any one of claims 1 to 3 ,
An MPEG reproducing apparatus comprising: an MPEG video decoder that decodes an MPEG video stream read from a recording medium in accordance with an MPEG video part and generates a video signal.
記録媒体から読み出されたMPEGビデオストリームをMPEGビデオパートに準拠してデコードし、ビデオ信号を生成するMPEGビデオデコーダと、
リングメモリに書き込まれる以前のオーディオ信号に、時刻に関する情報としてのインデックス信号を付加するインデックス付加回路と、リングメモリから読み出されたオーディオ信号に付加されているインデックス信号を検出し、そのインデックス信号から得られる時刻情報と現在の時刻情報とから、話速変換処理手段における信号遅延時間を検出し、その検出された遅延時間を示す信号をMPEGビデオデコーダへ供給するインデックス検出回路とを備え、
MPEGビデオデコーダは、前記遅延時間を示す信号に基づいて自己の動作のタイミングを制御するMPEG再生装置。An MPEG audio playback device according to claim 2 or claim 3 ,
An MPEG video decoder that decodes an MPEG video stream read from a recording medium in accordance with an MPEG video part and generates a video signal;
An index addition circuit that adds an index signal as information about time to an audio signal before being written to the ring memory , and detects an index signal added to the audio signal read from the ring memory , and detects the index signal from the index signal. An index detection circuit for detecting a signal delay time in the speech speed conversion processing means from the obtained time information and the current time information, and supplying a signal indicating the detected delay time to the MPEG video decoder ;
An MPEG video decoder , wherein the MPEG video decoder controls its own operation timing based on the signal indicating the delay time.
記録媒体から読み出されたMPEGビデオストリームをMPEGビデオパートに準拠してデコードし、ビデオ信号を生成するMPEGビデオデコーダと、
音声判別部の処理結果と、オーディオストリームのビットレートとに基づいて、話速変換処理手段における信号遅延時間を検出し、その検出された遅延時間を示す信号をMPEGビデオデコーダへ供給する遅延時間検出回路とを備え、
MPEGビデオデコーダは、前記遅延時間を示す信号に基づいて自己の動作のタイミングを制御するMPEG再生装置。An MPEG audio playback device according to claim 3 ,
An MPEG video decoder that decodes an MPEG video stream read from a recording medium in accordance with an MPEG video part and generates a video signal;
Based on the processing result of the audio discrimination unit and the bit rate of the audio stream, a signal delay time in the speech speed conversion processing means is detected, and a signal indicating the detected delay time is supplied to the MPEG video decoder . And a circuit ,
An MPEG video decoder , wherein the MPEG video decoder controls its own operation timing based on the signal indicating the delay time.
記録媒体から読み出されたMPEGビデオストリームをMPEGビデオパートに準拠してデコードし、ビデオ信号を生成するMPEGビデオデコーダと、
リングメモリの蓄積量に基づいて、話速変換処理済みのオーディオ信号とビデオ信号との同期を得るための制御信号を生成し、その制御信号をMPEGビデオデコーダへ供給する制御回路とを備え、
MPEGビデオデコーダは、前記制御信号に基づいて自己の動作のタイミングを制御するMPEG再生装置。An MPEG audio playback device according to claim 3 ,
An MPEG video decoder that decodes an MPEG video stream read from a recording medium in accordance with an MPEG video part and generates a video signal;
A control circuit for generating a control signal for obtaining synchronization between the audio signal and the video signal subjected to the speech speed conversion processing based on the storage amount of the ring memory , and supplying the control signal to the MPEG video decoder ;
An MPEG video decoder , wherein the MPEG video decoder controls the timing of its own operation based on the control signal.
記録媒体から読み出されたMPEGビデオストリームをMPEGビデオパートに準拠してデコードし、ビデオ信号を生成するMPEGビデオデコーダと、
音声判別部および時間軸圧縮伸長部の処理結果に基づいて、話速変換処理手段における信号遅延時間を検出し、その検出された遅延時間を示す信号をMPEGビデオデコーダへ供給する遅延時間検出回路とを備え、
MPEGビデオデコーダは、前記遅延時間を示す信号に基づいて自己の動作のタイミングを制御するMPEG再生装置。An MPEG audio playback device according to claim 3 ,
An MPEG video decoder that decodes an MPEG video stream read from a recording medium in accordance with an MPEG video part and generates a video signal;
A delay time detecting circuit for detecting a signal delay time in the speech speed conversion processing means based on the processing results of the audio discriminating unit and the time axis compression / expansion unit , and supplying a signal indicating the detected delay time to the MPEG video decoder ; With
An MPEG video decoder , wherein the MPEG video decoder controls its own operation timing based on the signal indicating the delay time.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP16945496A JP3594409B2 (en) | 1995-06-30 | 1996-06-28 | MPEG audio playback device and MPEG playback device |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP16638595 | 1995-06-30 | ||
JP7-166385 | 1995-06-30 | ||
JP16945496A JP3594409B2 (en) | 1995-06-30 | 1996-06-28 | MPEG audio playback device and MPEG playback device |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0973299A JPH0973299A (en) | 1997-03-18 |
JP3594409B2 true JP3594409B2 (en) | 2004-12-02 |
Family
ID=26490781
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP16945496A Expired - Lifetime JP3594409B2 (en) | 1995-06-30 | 1996-06-28 | MPEG audio playback device and MPEG playback device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3594409B2 (en) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3063682B2 (en) * | 1997-06-05 | 2000-07-12 | 日本電気株式会社 | Video / audio decoder having audio playback time control function |
JP3017715B2 (en) | 1997-10-31 | 2000-03-13 | 松下電器産業株式会社 | Audio playback device |
KR100287366B1 (en) | 1997-11-24 | 2001-04-16 | 윤순조 | Portable device for reproducing sound by mpeg and method thereof |
JP2000050182A (en) * | 1998-08-03 | 2000-02-18 | Japan Advanced Inst Of Science & Technology Hokuriku | Method for processing audio signal for a-v |
US6292454B1 (en) * | 1998-10-08 | 2001-09-18 | Sony Corporation | Apparatus and method for implementing a variable-speed audio data playback system |
JP3468183B2 (en) | 1999-12-22 | 2003-11-17 | 日本電気株式会社 | Audio reproduction recording apparatus and method |
JP2001222300A (en) * | 2000-02-08 | 2001-08-17 | Nippon Hoso Kyokai <Nhk> | Voice reproducing device and recording medium |
JP2001344905A (en) | 2000-05-26 | 2001-12-14 | Fujitsu Ltd | Data reproducing device, its method and recording medium |
JP2002268692A (en) * | 2001-03-14 | 2002-09-20 | Sanyo Electric Co Ltd | Data reproducing device |
JP2003006991A (en) * | 2001-06-21 | 2003-01-10 | Sony Corp | Digital signal processor, digital signal processing method, and digital signal regenerative reception system |
US7149412B2 (en) * | 2002-03-01 | 2006-12-12 | Thomson Licensing | Trick mode audio playback |
JP4007331B2 (en) | 2004-02-24 | 2007-11-14 | ソニー株式会社 | Playback apparatus and method |
JP4460580B2 (en) * | 2004-07-21 | 2010-05-12 | 富士通株式会社 | Speed conversion device, speed conversion method and program |
WO2006137425A1 (en) * | 2005-06-23 | 2006-12-28 | Matsushita Electric Industrial Co., Ltd. | Audio encoding apparatus, audio decoding apparatus and audio encoding information transmitting apparatus |
JP4687908B2 (en) * | 2006-09-22 | 2011-05-25 | カシオ計算機株式会社 | Movie playback apparatus and program thereof |
JP4743084B2 (en) * | 2006-11-07 | 2011-08-10 | カシオ計算機株式会社 | Recording apparatus and recording program |
JP2011055386A (en) * | 2009-09-04 | 2011-03-17 | Sanyo Electric Co Ltd | Audio signal processor, and electronic apparatus |
KR101430118B1 (en) | 2010-04-13 | 2014-08-18 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | Audio or video encoder, audio or video decoder and related methods for processing multi-channel audio or video signals using a variable prediction direction |
JP6181921B2 (en) * | 2012-11-20 | 2017-08-16 | 日本放送協会 | Voice reproduction apparatus, voice synthesis reproduction apparatus, and programs thereof |
JP6519316B2 (en) * | 2015-05-25 | 2019-05-29 | ヤマハ株式会社 | Sound material processing apparatus and sound material processing program |
-
1996
- 1996-06-28 JP JP16945496A patent/JP3594409B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH0973299A (en) | 1997-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5809454A (en) | Audio reproducing apparatus having voice speed converting function | |
JP3594409B2 (en) | MPEG audio playback device and MPEG playback device | |
JP3053541B2 (en) | Synchronous variable speed playback of digitally recorded audio and video | |
JP4717060B2 (en) | Recording / reproducing apparatus, recording / reproducing method, recording medium storing recording / reproducing program, and integrated circuit used in recording / reproducing apparatus | |
US7400685B2 (en) | Decoding method and apparatus and recording method and apparatus for moving picture data | |
JP3063838B2 (en) | Audio / video synchronous playback apparatus and method | |
KR100290331B1 (en) | Synchronous playback device for audio-video signals | |
JP3197766B2 (en) | MPEG audio decoder, MPEG video decoder and MPEG system decoder | |
US6339760B1 (en) | Method and system for synchronization of decoded audio and video by adding dummy data to compressed audio data | |
JP4098420B2 (en) | Synchronous reconstruction method and apparatus for acoustic data and moving image data | |
JP2003046949A (en) | Data multiplexing method, data recording medium, data recording apparatus, and data recording program | |
US10244271B2 (en) | Audio recording device, audio recording system, and audio recording method | |
JP2005519537A (en) | Delete and mute audio data playing in trick mode | |
WO2004047441A1 (en) | Transmission device, transmission method, reproduction device, reproduction method, program, and recording medium | |
US5896099A (en) | Audio decoder with buffer fullness control | |
JP3416403B2 (en) | MPEG audio decoder | |
JP3622235B2 (en) | Multiplexed data decoding apparatus | |
WO2006040827A1 (en) | Transmitting apparatus, receiving apparatus and reproducing apparatus | |
JP3986147B2 (en) | Acoustic signal processing apparatus and audio high-speed playback method | |
JP3926102B2 (en) | MPEG video / audio data recording system and editing system thereof | |
JP2004088530A (en) | Moving picture audio data storage management apparatus and editing method | |
JP2003216195A (en) | Mpeg (motion picture experts group) audio decoder | |
JP3338426B2 (en) | MPEG video decoder | |
JP2003259287A (en) | Multimedia communication equipment | |
JP2004153631A (en) | Digital image and sound recorder |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040721 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040831 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20070910 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080910 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090910 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100910 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100910 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110910 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110910 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120910 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120910 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130910 Year of fee payment: 9 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |